阅读先前全部 GLEIF 博文 >
关于作者:
Zornitsa Manolova 是 Global Legal Entity Identifier Foundation (GLEIF) 数据质量管理和数据科学团队的领导者。自 2018 年 4 月起,她负责通过引入创新的数据分析方法来加强和改进既定的数据质量和数据治理框架。在此之前,Zornitsa 曾在普华永道法证部门负责管理国际金融调查的法证数据分析项目。她拥有德国马尔堡菲利普大学的计算机科学专业学位,主修机器学习。

在相互联系日益紧密的全球经济中,组织信任和有效使用数据的能力是创新、增长和竞争力的基础。
高质量的数据生态系统是变革和创新的驱动力,使组织能够发现并抓住新机遇,而低数据质量则会导致效率低下,并暴露于监管和声誉风险之中。
GLEIF 致力于优化 LEI 数据的质量、可靠性和可用性。自 2017 年以来,它每月发布报告,以透明的方式展示全球 LEI 系统实现的整体数据质量。
为了帮助业界更广泛地了解和认识 GLEIF 的数据质量举措,这一新的系列博客探讨了报告中包含的关键指标。
本期博客重点介绍人工智能如何帮助加强数据质量检查。
要在全球范围内确保 LEI 数据的可靠性,就必须对监管和政策要求做出一致的解释。随着这些要求的发展和复杂性的增加,人工智能正在加强 GLEIF 的能力,以支持可扩展的质量保证,同时确保透明度和二十国集团(G20)保持核心地位。

从政策要求到数据质量检查
监管委员会(ROC)定义了全球 LEI 系统的业务规则和政策。然后通过状态转换和验证规则对这些要求进行描述并转化为技术规范。它们共同定义了在通用数据文件格式(CDF)下发布、更新、管理和公布 LEI 数据的业务逻辑和流程。
GLEIF 将这些政策转化为详细的技术规范,并通过数据质量检查加以实施,确保整个系统发布的 LEI 数据一致反映监管意图。

通过数据质量规则设定建立一致性
GLEIF 的数据质量规则制定流程是这一实施工作的核心,它是一种结构化和系统化的方法,可定义如何在全球 LEI 系统中指定、解释和应用每项数据质量检查。
通过将每项检查背后的逻辑明确正规化,该流程可确保评估的一致性和可重复性。这样就能对数百万条 LEI 记录进行透明、可扩展的数据质量评估,并有助于确保在不同管辖区、LEI 发行机构和更新周期中一致应用相同的规则。
然而,随着全球 LEI 系统的发展和壮大,规则和相应检查的数量也在增加。现在有 200 多项数据质量检查,规模的不断扩大带来了更多的复杂性和新的质疑数据。
人工智能正在帮助解决这些新出现的问题。支持对复杂、相互依存的规则进行分析,有助于识别各检查之间的重叠或差距,并简化数据质量逻辑的创建和维护。 因此,整个数据质量框架变得更加高效、适应性更强、可扩展性更好,同时仍然以既定的治理流程为基础。
为了说明这在实践中是如何发挥作用的,下文将从技术上深入探讨大型语言模型 (LLM) 如何支持将政策文本结构化地转换为机器可读规则和可操作的数据质量检查。
深入探讨:将政策文本转换为机器可读规则
GLEIF 使用 LLMs 来支持新规则的识别,并帮助检测与现有数据质量检查的潜在矛盾,从而实现端到端的审查流程--从监管和政策文件一直到其实施。
这种方法遵循清晰、结构化的工作流程,可确保政策意图在整个全球 LEI 系统的运行检查中得到一致反映。工作流程可概括为以下几个阶段:

预处理:该流程首先对政策和标准文件进行系统分析,以确定相关规则和要求。人工智能有助于揭示这些文本中包含的关键概念和条件,确保准确、全面地捕捉到重要的监管预期。在这一初始阶段,源文件被摄取以可靠地提取相关规则。这包括
举例说明 国际分支机构是一个法定实体在不同司法管辖区设立的非公司机构,与总公司不同。
通过本体映射解决实体问题: 正式文件中描述的要求与 GLEIF 的规则语言模型相一致,从而就实体、属性和关系的解释方式达成共识。这一步骤对一致性至关重要,可确保即使源文件中的描述不同,也能统一应用相同的概念。为此,将提取的术语规范化并映射到 GLEIF 规则设置本体。
例如
"国际分支机构是一个法定实体的非法人机构 "被映射为
- *lei:EntityCategory IN ['BRANCH'] *rr:RelationshipType
- *rr:关系类型 IN ['_ISINTERNATIONALBRANCH_OF_']
"位于与其总公司不同的司法管辖区 "被映射到:
- *lei:LegalAddress/lei:Country NOT $EQUALS_$ENDNODERECORD_lei:LegalJurisdiction $COUNTRY_PART

检查创建和验证: 最后,将导出的规则与现有的数据质量检查进行核对,人工智能可帮助确定哪些检查已经存在、哪些检查存在重叠、哪些检查可能存在矛盾或差距。这种方法有助于管理 200 多项检查的复杂性,实施过程通常包括规范、开发、审查、测试和发布。这支持了规则集的可控、透明发展,并加强了数据质量框架的整体一致性、可扩展性和可靠性。
人工智能如何加强数据质量检查,实现更透明的全球经济
通过将人工智能驱动的自动化与人类的专业知识相结合,GLEIF 正在加强其数据质量框架的效率和可靠性。本体驱动的方法可确保一致性和准确性,而底层流程的设计可随着数据量和复杂性的不断增长而扩展。与此同时,人工智能还能突出规则语言中的模糊之处,并发现改进方法的机会,从而支持持续改进。这些功能共同加强了全球 LEI 系统数据质量的弹性、透明度和未来就绪性。

如果您希望对博文进行评论,请使用您的姓名来识别自己。您的姓名将显示在您的评论旁。不会公布电子邮件地址。请注意,访问讨论区或在其中发帖即表示您同意遵守GLEIF 博客政策条款,因此请仔细阅读该条款。
Zornitsa Manolova 是 Global Legal Entity Identifier Foundation (GLEIF) 数据质量管理和数据科学团队的领导者。自 2018 年 4 月起,她负责通过引入创新的数据分析方法来加强和改进既定的数据质量和数据治理框架。在此之前,Zornitsa 曾在普华永道法证部门负责管理国际金融调查的法证数据分析项目。她拥有德国马尔堡菲利普大学的计算机科学专业学位,主修机器学习。