Концепция поиска дубликатов¶

Поиск и выявление дублирующихся записей является важной частью контроля качества данных. Очистка данных от дубликатов позволяет уменьшить объем хранимой информации, уменьшить количество ошибок и противоречий.

Дубликаты записей отображаются в виде кластеров, формируемых по правилам сопоставления. Правила сопоставления - это описание критериев, по которым можно определить дубликаты. Например, можно сравнивать записи по 2-3 атрибутам, при этом допуская, что остальные атрибуты могут отличаться. Важно, что дубликаты могут быть семантическими, то есть описывать одно и то же, но разными способами - и здесь важно верно определить признаки дубликатов, чтобы учитывать их в правилах сопоставления.

Note

Сопоставляются только простые и кодовые атрибуты. Для сопоставления связей и атрибутов других типов требуется создание кастомного потока выполнения.

В кластер попадают все записи реестра/справочника, атрибуты которых имеют совпадения по заданным критериям. Пользователь может сравнить эти записи и обработать по внутренним бизнес-правилам.

Правила сопоставления объединяются в наборы правил, которые назначаются на определенный реестр или справочник. Наборы можно использовать сразу в нескольких реестрах, что помогает автоматизировать работу.

Механизмы сопоставления срабатывают и создают кластеры дубликатов при событиях:

создание новой записи с признаками дубликата (в реальном времени);
при запуске операции переиндексации данных с включенным флагом Обновить данные таблиц сопоставления.

Пример использования¶

Бизнес объединил базы данных своих внутренних подразделений. Теперь реестр «Клиенты» содержит перечень всех организаций, которым когда-либо поставлял продукцию. Проблема в том, что некоторые подразделения использовали одни и те же данные, но заполняли их по своим регламентам. Известно, что записи о клиентах могут содержать атрибуты, которые использовались в разных базах данных. Это могут быть атрибуты:

Наименование.
Контактное лицо.
Реквизиты.

Следует объединить повторные записи в кластеры для последующей обработки: превращения кластера записей в одну эталонную запись.

Чтобы решить эту задачу, администратор данных должен выполнить следующий порядок действий:

Подготовить таблицу сопоставления.
Создать правило сопоставления, в котором будет указан требуемый алгоритм обнаружения дубликатов.
Создать набор правил, в котором будет использованы правило и таблица сопоставления.
Назначить набор на реестр «Клиенты».
Запустить проверку данных на дубликаты одним из доступных способов.

Оператор данных может искать и просматривать кластеры дубликатов, сравнивать их по отличающимся атрибутам, обрабатывать записи.