LEIデータ GLEIFのデータ品質管理

Q&A



下記のQ&Aは、グローバルLEIシステム内のデータ品質のレベルを監視、評価し、継続的に向上するために適用される原則の詳細情報を提供します。 データ品質は、Global Legal Entity Identifier Foundation (GLEIF)LEI規制監視委員会LEI発行組織と緊密な話し合いのもとに策定した、明確に定義した品質基準に基づいて評価されます。

LEIの合計データ品質スコアはどのように集計されていますか?

データ品質基準の合計データ品質スコアは、個々の品質スコアの平均値です。この平均値の算出時に、各データ品質基準による重み付けはされません。各データ品質基準は、平等に合計データ品質スコアに計上されます。したがって、LEI合計データ品質スコア (\(TQ_s\))は以下のようになります:

$$TQ_s=\frac{\sum_{s=1}^{N}Q_s}{N}$$

説明:

  • \(TQ_s\)は、合計データ品質スコアです。
  • 合計内の\(s\)は、各品質基準を表すインデックスです。
  • \(Q_s\)は、各品質基準に対する品質スコアです。
  • \(N\)は、検査の対象となる品質基準の数です。

詳細は、GLEIFのデータ品質報告書用辞書の第2章をご覧ください。

グローバルLEIシステムのデータ品質のレベルを測定するために適用される各データ品質基準の定義を教えてください?
アクセシビリティ 容易に入手可能で、強力な保護と制御がプロセスに組み込まれているため合法的にアクセスできるデータ項目。
正確性 データ内に識別可能なエラーがどれだけ少ないか、データ要素またはデータセットが、正しいとされている権威あるソースにどれだけ一致しているか、データが実世界の対象物をどれだけ正確に表しているかを表します。
完全性 必要なすべてのデータがどれだけ記載されているかを表します。
包括性 必要なすべてのデータ項目が含まれていることを表し、意図的な制限を文書化したうえで、データの全域が収集されていることを保証します。
一貫性 固有のデータ部分が複数のデータセットとどれだけ同じ値を持っているかを表します。
最新性 データがどれぐらい最新のものであるかを表し、特定の時点で最新であればデータ値は最新であり、以前は最新であったがその後不正確になった場合はデータは古くなっています。
整合性 データの関連性に関する定義された規則(主キー/外部キーの参照整合性など)にどれだけ適合しているかを表します。
出所 属性値の履歴や由来。
表現 データのフォーマット、パターン、読みやすさ、および本来の目的に合ったデータの有用性を表すデータ品質の特性を指します。
一意性 データ要素のすべての固有値が1度だけ表示されている度合を表します。
有効性 データの値がドメイン内の値のセット(使用可能な値のセット、または値の幅など)にどれだけ適合しているかを表します。
不合格が多かった上位5つの確認項目をどのように識別すればいいのでしょうか?

不合格が多かった上位5つの確認項目は、報告月に最も多く不合格となったデータ品質の確認項目になります。確認項目で不合格が発生しなければ、この表には何も記入されません。目立った確認項目が5つ未満であれば、不合格が生じた確認項目のみ記載されます。

グローバル・データ品質報告書に表示される国別のヒートマップは、どのように計算されるのですか?

国ごとの品質スコアは、(ISO-3166の基準に従った)各国の個々のLEI記録の Entity.LegalAddress.Countryフィールドに基づいています。

ヒートマップに表示される色は、それぞれの国でLEIを発行する、すべてのLEI発行組織が達成した合計データ品質スコアを示しています:

赤(90%以下)、オレンジ(90%以上95%以下)、黄(95%以上98%以下)、緑(98%以上100%以下)。

各国の品質スコアの計算式は、合計データ品質スコアに似ています。つまり、品質基準の平均が考慮されます:

$$TQ 国=\frac{\sum_{i=1}^{N country}q_i,国}{N 国}$$

説明:

  • \(TQ 国\)は、その国の合計データ品質スコアです。

  • \(q_i,国\)は、 その国の確認結果です:

    \(q_i,国\) { ( 確認が「成功」または「該当なし」の場合は1 - 確認が「不合格」の場合は0)

  • \(N 国\)は、各国が履行した確認件数です。

品質の成熟度は何を表していますか?

成熟度は、計測対象に関連するプロセスの進化の度合を表します。そのため、合計成熟度スコアは、合計データ品質スコアとは算出方法が異なります。各成熟度の算出方法は同じですが、各レベルで満点(100%スコア)を達成するまで、より上のレベルの成熟度のスコアは合計スコアにカウントされません。

成熟度には以下のレベルがあります:
レベル1 - 「必要とされる品質」(すべてのデータ記録で100%になっている必要があります)。
レベル2 - 「期待される品質」(100%になっている必要があります)。
レベル3 - 「素晴らしい品質」(なるべく高い数値が求められます)。

GLEIFは、データ品質管理プログラムの詳細な原則を記した書類を提供していますか?

はい。適用される品質基準や、実施される検査、算出モデルが記載された技術書類をこちらから入手できます。