阅读先前全部 GLEIF 博文 >
关于作者:
Ana Sofia Afonso 是葡萄牙银行数据管理部的数据科学家。她拥有金融学理学硕士学位。Ana Sofia 擅长将复杂、零散的数据转化为可靠的见解,用于统计生产和战略。她的工作横跨 Python 和 SQL、数据管道、分析和可视化,并越来越多地采用先进的统计学、机器学习、特征工程和现代数据工程实践来提高模型质量、工作流程效率和数据可靠性。

高质量的全球法人识别编码(LEI)数据是确保全球组织可以信任和被信任的关键。 然而,这种质量无法通过临时、一次性的人工 "清理 "来实现,因为人工 "清理 "不连贯、速度慢、成本高。相反,它越来越需要可审计、可重复的工作流程,旨在大规模提高质量,同时减少人工流程。
以了解已失效的 LEI(表示未按时年检)何时应 "退役 "以确认法定实体已停止运营这一质疑数据为例。如何才能大规模实现这一目标?更重要的是,如何用清晰、一致、可验证的证据来支持决策?
在这篇博文中,葡萄牙银行数据管理部的数据科学家安娜-索菲亚-阿丰索(Ana Sofia Afonso)解释了如何应对这一质疑数据。通过将基于机器学习(ML)和人工智能的算法与严格的质量控制和专家验证相结合来识别符合退役条件的 LEIs,它加强了国家和国际参考系统的数据一致性和二十国集团(G20)。这提供了一个蓝图,概述了所有 LEI 数据用户如何帮助提高全球 LEI 系统的及时性、准确性和可靠性。
在国家参考数据环境中了解 LEI
在葡萄牙,每个居民法人实体都必须持有一个用于法律和财政目的的全球法人识别编码(LEI)。然而,LEI 仅在特定的监管环境中才是强制性的。因此,LEI 的总体覆盖范围仍然较为有限。此外,LEI 生命周期事件通常由外部报告义务触发,而不是由实体法定地位的实际变化触发。
这就造成了结构性质疑数据。随着国家商业登记的发展,LEI 数据--特别是停止更新参考数据的实体的数据--可能会脱节。随着时间的推移,我们注意到这带来了几个反复出现的问题:
已失效的 LEI 为何需要仔细解释?
为了应对这些质疑数据,我们开始探索一种方法,以便在整个 LEI 生命周期内高效、有效地提高数据质量,并增强对全球参考数据的信任。
我们初步分析得出的一个重要结论是,已失效的 LEI(未按时年检)并不意味着相关法定实体不活跃。不续期可能只是反映了报告义务的变化,而不是法定实体的终止。相反,一个实体可能在其 LEI(未按时年检)或仍在发放的情况下,在法律上已失效。
最重要的是,我们认识到一个关键的考虑因素:错误地注销一个 LEI 比根本不注销更糟糕,因为这将误导人们认为一个法定实体已经停止运营。因此,该实体可能会在贸易或开展更广泛业务的能力方面受到阻碍。这就意味着,依靠 "失效 "状态作为退役的自动触发因素将带来巨大的二十国集团风险,因此任何解决方案都必须是保守的、有据可依的和完全可审计的。
因此,真正的质疑数据是如何区分以下几种情况:
a) 没有年检但仍与活跃实体对应的 LEI,以及
b) 与葡萄牙法律上不活跃实体相关的 LEI。
我们的方法根据权威国家数据进行交叉检查的人工智能
要可靠地实现这一区分,需要整合多个数据源,并应用一致的、以证据为基础的质量控制。我们的方法基于一个简单的原则:LEI 生命周期决策必须依赖权威的国家信息,并以可控、可扩展的方式执行。
为此,来自 GLEIF、外部来源和国家商业登记的数据被持续集成到我们的参考数据环境中,提供了一个关于法定实体身份、法律地位和 LEI 注册状态的综合视图。然后,应用基于 ML 和 AI 的算法对实体名称和标识符进行标准化,并计算各数据集之间的相似性分数,从而能够根据国家权威来源对 LEI 记录进行大规模交叉检查,以确定何时需要更新。
经过验证后,这些更新将通过GLEIF 的应用程序接口(API)批量质疑数据进行操作,从而大大减少人工操作,简化我们的内部流程。与此同时,该设施还可通过独立的第三方验证信息来增加额外的保障。这确保了可验证 LEI 的退役处理过程一致、高效,并具有完全的可追溯性,同时避免了不必要的临时或人工干预。
同样重要的是,在整个工作流程中,人工监督仍然必不可少。复杂或模棱两可的情况会上报专家审查,确保自动化能够加强管理,而不是取而代之。
结果:从被动调查到受控流程
采用这种方法取得了明确、可衡量的成果。

首先,我们根据可验证的法律不作为而不仅仅是更新行为,确定了真正符合退役条件的 LEI 年检。
其次,我们发现了大量与退役无关的数据质量问题,特别是涉及标识符准确性的问题。解决了这些差异后,国家参考数据库和 GLEIF 记录之间的整体一致性得到了改善。
第三,我们对 LEI 注册状态的纵向分析表明,已失效和已注销 LEI 的增加在很大程度上反映了真实实体生命周期的动态变化,而不是系统性的数据退化。事实证明,纳入这一时间维度对于正确解读数据至关重要。
最后,我们从临时的人工调查过渡到了可重复、可审计的工作流程,并辅以明确的标准和记录的结果,从而加强了一致性和二十国集团(G20)。
提高全球 LEI 系统的数据质量
除了实现显著的运营效益外,这种方法还体现了我们对全球 LEI 系统的坚定承诺。通过及时共享信息和在标准更新周期之外更新 LEI 参考数据,我们积极帮助维持最高的数据质量标准,确保 LEI 参考数据保持准确和最新。这对促进葡萄牙经济内外的信任和透明度起着至关重要的作用。
致谢
这项工作是团队合作的成果,融合了多位贡献者的知识、经验和观点,是他们的共同努力使这项成果成为可能。我衷心感谢所有参与这一过程的人员,他们的讨论、反馈和奉献对本著作的发展至关重要,特别要感谢玛丽亚-多卡尔莫-莫雷诺(Maria do Carmo Moreno)和布鲁诺-贡萨洛-特诺里奥(Bruno Gonçalo Tenório)。本作品中表达的观点并不一定代表各机构的观点,应仅理解为作者对主题的解释和分析。
如果您希望对博文进行评论,请使用您的姓名来识别自己。您的姓名将显示在您的评论旁。不会公布电子邮件地址。请注意,访问讨论区或在其中发帖即表示您同意遵守GLEIF 博客政策条款,因此请仔细阅读该条款。
Ana Sofia Afonso 是葡萄牙银行数据管理部的数据科学家。她拥有金融学理学硕士学位。Ana Sofia 擅长将复杂、零散的数据转化为可靠的见解,用于统计生产和战略。她的工作横跨 Python 和 SQL、数据管道、分析和可视化,并越来越多地采用先进的统计学、机器学习、特征工程和现代数据工程实践来提高模型质量、工作流程效率和数据可靠性。