Программирование методов разрешения и слияния сущностей при реализации ETL в среде Hadoop
Для анализа больших объемов накапливаемых данных используются современные распределенные инфраструктуры обработки массивных данных (например, Hadoop). Основной особенностью подобных инфраструктур является почти линейная горизонтальная масштабируемость (производительность системы растет линейно относительно числа узлов кластера).
Главным достоинством таких инфраструктур является возможность анализировать и обрабатывать разноструктурированные данные: реляционные, XML, JSON, тексты и другие. При этом возникает проблема интеграции информации, извлекаемой из разноструктурированных данных.
Традиционно процесс интеграции данных можно представить состоящим из следующих этапов:
- сопоставление схем (Schema Matching);
- интеграция схем (Schema Integration);
- трансформация данных (Data Transformation);
- разрешение сущностей (Entity Resolution);
- слияние сущностей (Data Fusion).
В докладе обсуждаются вопросы разрешения и слияния сущностей в контексте интеграции больших данных в среде Hadoop. Под сущностью понимается цифровое представление объекта реального мира.
Проблема разрешения сущностей ориентирована на решение таких задач, как выявление дубликатов (Duplicate Detection), удаление дубликатов (Deduplication), связывание записей (Record Linkage), идентификация объектов (Object Identification), сопоставление связей (Reference Matching) и других. Слияние сущностей является заключительным этапом интеграции данных.
В докладе приводится обзор методов разрешения и слияния сущностей. Рассматриваются вопросы адаптации таких методов для применения в ETL-процессе при интеграции больших данных в Hadoop.
Рассматриваются способы программирования методов разрешения и слияния сущностей как частей ETL-процесса. В качестве языка программирования используется HIL (High-Level Integration Language) -- новый специализированный язык, разработанный IBM и ориентированный на разрешение и интеграцию сущностей в Hadoop-инфраструктуре. Программы на HIL компилируются в язык Jaql. Программы на Jaql, в свою очередь, автоматически преобразуются в задачи Map-Reduce, если этого требует алгоритм.
В докладе рассматриваются следующие вопросы:
- обзор традиционных методов разрешения сущностей;
- методы оценки сходства сущностей, основанные на мерах близости;
- сходство отношений и векторов;
- методы машинного обучения для разрешения сущностей;
- ограничения (транзитивность, эксклюзивность), используемые для разрешения сущностей;
- разрешение сущностей и большие данные;
- обзор методов слияния сущностей;
- типы конфликтов при слиянии сущностей;
- стратегии разрешения конфликтов;
- операторы слияния данных (Union-based и Join-based подходы);
- канонизация данных;
- программирование методов разрешения и слияния сущностей в Hadoop.
Презентация доклада в формате pdf.
Видеозапись доклада.
Литература:
- K. Bellare et. al. Active sampling for entity matching. KDD 2012.
- O. Benjelloun et. al. Swoosh: A generic approach to Entity Resolution. VLDBJ 18(1), 2009.
- M. Bilenko, R. Mooney, W. Cohen, P. Ravikumar, and S. Fienberg. Adaptive name matching in information integration. IEEE Intelligent Systems, 18(5):16–23, 2003.
- J. Bleiholder, F. Naumann. Data Fusion. ACM Computing Survey 2009.
- J. Bleiholder. Data Fusion and Conflict Resolution in Integrated Information Systems. Dissertation, Hasso-Plattner-Institut, 2010.
- P. Christen. Data Matching - Concepts and Techniques for Record Linkage, Entity Resolution, and Duplicate Detection. Data-Centric Systems and Applications, 2012.
- Xin Luna Dong, Felix Naumann. Data Fusion – Resolving data conflicts in Integration. VLDB 2009.
- Lise Getoor, Ashwin Machanavajjhala. Entity Resolution for Big Data. ACM SIGKDD 2013.
- Kolb, L.; Thor, A.; Rahm, E. Dedoop: Efficient Deduplication with Hadoop. Proc. 38th Intl. Conference on Very Large Databases. Proc. of the VLDB Endowment 5(12), 2012.
- J. Wang et. al. CrowdER: Crowdsourcing Entity Resolution. PVLDB 5(11), 2012.
- Вовченко А.Е., Калиниченко Л.А., Ковалев Д.Ю. Программирование методов разрешения сущностей и слияния данных при реализации ETL в среде Hadoop. Труды XVI Всероссийской научной конференции Электронные Библиотеки: Перспективные методы и технологии, Электронные коллекции RCDL'2014.
- Будзко В. И., Калиниченко Л. А., Ступников С. А., Вовченко А. Е., Брюхов Д. О., Ковалев Д. Ю. Среда интеграции больших неоднородных коллекций данных. Системы высокой доступности. 10(3):3-19, 2014.
|