Данные LEI Управление качеством данных GLEIF

Вопросы и ответы



Представленные ниже вопросы и ответы содержат подробную информация о принципах, используемых для контроля, оценки и дальнейшего повышения качества данных в Глобальной системе идентификации юридических лиц (LEI). Качество данных измеряется по четко определенных критериям, разработанным фондом Global Legal Entity Identifier Foundation (GLEIF) в тесном сотрудничестве с Регулятивно-надзорным комитетом LEI и организациями, выдающими коды LEI.

Как рассчитывается Общая сумма баллов за качество данных LEI?

Общая сумма баллов за качество данных рассчитывается как среднее арифметическое баллов, набранных при оценке по отдельным критериям качества. Это среднее не является средневзвешенным по отдельным критериям качества данных, то есть считается, что все критерии качества данных одинаково важны. Поэтому общая сумма баллов за качество данных (\(TQ_s\)) равняется:

$$TQ_s=\frac{\sum_{s=1}^{N}Q_s}{N}$$

где:

  • \(TQ_s\) это общая сумма баллов за качество данных.
  • \(s\) в этой сумме это индекс отдельных критериев качества.
  • \(Q_s\) это балл за качество, набранный по каждому соответствующему критерию качества.
  • \(N\) это количество критериев, по которым проводится проверка качества.

Дополнительную информацию см. в главе 2 файла Словарь отчета о качестве глобальных данных LEI.

Каково определение каждого из критериев качества данных, применяемых для оценки уровня качества данных в Глобальной системе LEI?
Доступность Элементы данных, которые можно получить просто и без нарушения закона и которые обладают надежными средствами защиты и контроля, предусмотренными в процессе.
Точность Степень, до которой в данных отсутствуют поддающиеся обнаружению ошибки; степень до которой элемент данных или набор данных соответствует данным, имеющимся в авторитетном источнике и считающимся верными; а также степень, в которой данные дают верное представление о предметах реального мира.
Полнота Мера наличия всех необходимых данных.
Всесторонний характер Присутствуют все требуемые элементы данных — собран весь объем данных, а умышленные ограничения задокументированы.
Согласованность Степень, до которой каждая уникальная часть данных сохраняет одно и то же значение в разных наборах данных.
Актуальность Степень, до которой данные соответствуют действительности; значение данных является действительным, если оно актуально для определенного момента времени, и считается недействительным, если оно было актуальным ранее, но не соответствует действительности в более позднее время.
Целостность Степень соответствия установленным правилам в отношении связи между данными (например, непротиворечивости ссылок на первичные или вторичные ключи).
Происхождение История или источник значения свойства.
Представительность Характеристика качества данных, касающаяся формата, шаблона, удобочитаемости, а также пригодности данных для использования в намеченных целях.
Уникальность Характеристика элемента данных, все отдельные значения которого появляются только один раз.
Действительность Мера того, насколько значение данных соответствует его области значений (то есть набору допустимых значений или диапазона значений).
Как определяются пять проверок, выявивших наибольшее количество ошибок?

Пять проверок, выявивших наибольшее количество ошибок — это проверки качества данных, при проведении которых найдено наибольшее количество ошибок в отчетном месяце. Если все проверки не выявили ошибок, эта таблица будет пустой. Если ошибки обнаружены при выполнении менее пяти отдельных проверок, будут указаны только они.

Как составляется тепловая карта стран, которая используется в отчетах о качестве глобальных данных?

Показатели качества для каждой страны основываются на данных в поле «Entity.LegalAddress.Country» отдельных записей LEI в каждой стране (в соответствии со стандартом ISO-3166).

Цвета, представленные на тепловой карте, отображают общий показатель качества данных, достигнутый всеми организациями, выдающими коды LEI, которые действуют в соответствующей стране:

красный (равно или менее 90%); оранжевый (более 90% и равно или менее 95%); желтый (более 95% и равно или менее 98%); зеленый (более 98% и равно или менее 100%).

Формула расчета показателей качества для отдельных стран подобна той, что используется для общих показателей качества данных. Это означает, что в ней учитывается среднее арифметическое баллов, набранных при оценке по определенному критерию качества:

$$TQ country=\frac{\sum_{i=1}^{N country}q_i,country}{N country}$$

где:

  • \(TQ country\) — это общая сумма баллов, набранных данной страной за качество данных.

  • \(q_i,country\) — это результат проверки для отдельно взятой страны:

    \(q_i,country\) { (1, если для проверки указано «success» (пройдена успешно) или «not applicable» (неприменимо) - 0, если проверка получила статус «failed» (не пройдена)

  • \(N country\) — это количество проверок, выполненных для соответствующей страны.

Что означают уровни зрелости качества?

Уровни зрелости отражают совершенствование процедур, связанных с измеряемой величиной. Следовательно, общая сумма баллов по уровням зрелости рассчитывается не так, как общая сумма баллов за качество данных. Хотя используются такие же правила начисления баллов за отдельные уровни зрелости, баллы за более высокие уровни зрелости добавляются к общей сумме баллов только в случае полного достижения предыдущего уровня зрелости (т. е. 100 % результата).

Предусмотрены следующие уровни зрелости:
Уровень 1 — "Требуемое качество" (необходимо набрать 100 % для всех записей данных).
Уровень 2 — "Ожидаемое качество" (необходимо набрать 100 %).
Уровень 3 — "Превосходное качество" (чем выше, тем лучше).

Предоставляет ли фонд GLEIF конкретную документацию, подробно описывающую принципы регулирования программы управления качеством данных?

Да. С технической документацией, в которой описываются применяемые критерии качества, проводимые проверки, а также модели расчета, можно ознакомиться здесь.