[ Russian ] [ English ]

Юнидата — современная платформа управления данными

Георгий Чернышев
Юнидата

Одна из основных задач современных компаний – обеспечение качества данных, которые используются для аналитики. Особую роль также играет поддержка согласованности данных между различными аналитическими и операционными системами. Термин “мастер-данные” (Master Data) обозначает специфические для каждой предметной области данные, которые описывают бизнес-объекты, важные для нормальной работы организации, такие, как контракты, поставщики, работники и т.д. Обычно эта информация распределена в организации сразу по нескольким приложениям и может быть различного качества. Управление мастер-данными (Master Data Management) – это всевозможный набор устоявшихся практик, методов управления информацией, а также инструментов для создания точных и полных мастер-данных. В этом списке инструменты управления данными играют важнейшую роль, они отвечают за наладку и поддержку различного рода MDM-процессов.

В настоящем докладе мы опишем платформу Юнидата – инструментария для создания MDM-решений. Его модульная архитектура позволяет создавать MDM решения, специализированные под определенную предметную область и требования каждого конкретного случая. Мы начнем с краткого введения в MDM, опишем его цели, пользу для организации, а также подходы к организации работы с данными. Затем будет рассмотрена архитектура платформы Юнидата и разобраны отдельные аспекты хранения данных и выполнения запросов. В заключение мы представим конкретные примеры внедрения и размышления о будущем MDM систем.

Данный доклад основан на докладе “Unidata — A Modern Master Data Management Platform”, представленном на DATAPLAT@EDBT/ICDT’22.

Слайды доклада

Видео доклада.

Литература:

  1. V. Khatri, C. V. Brown, Designing data governance, Commun. ACM 53 (2010) 148–152.
  2. M. Jagals, E. Karger, F. Ahlemann, Already grownup or still in puberty? a bibliometric review of 16 years of data governance research, Corporate Ownership & Control 19 (2021) 105–120.
  3. O. B. Nielsen, et al., Why governing data is difficult: Findings from danish local government, in: Smart Working, Living and Organising, Springer International Publishing, Cham, 2019, pp. 15–29.
  4. D. International, DAMA-DMBOK: Data Management Body of Knowledge (2nd Edition), Technics Publications, LLC, Denville, NJ, USA, 2017.
  5. M. Allen, D. Cervo, Multi-Domain Master Data Management: Advanced MDM and Data Governance in Practice, 1st ed., Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2015.
  6. D. Loshin, Master Data Management, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2009.
  7. M. Hulsebos, et al., Sherlock: A deep learning approach to semantic data type detection, in: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD ’19, 2019, p. 1500–1508.
  8. N. Barlaug, J. A. Gulla, Neural networks for entity matching: A survey, ACM Trans. Knowl. Discov. Data 15 (2021).
  9. W.-C. Tan, Deep data integration, in: Proceedings of the 2021 International Conference on Management of Data, SIGMOD/PODS ’21, Association for Computing Machinery, New York, NY, USA, 2021, p. 2.
  10. Y. Li, et al., Deep entity matching: Challenges and opportunities, J. Data and Information Quality 13(2021).
  11. S. Zhang, K. Balog, Web table extraction, retrieval, and augmentation: A survey, ACM Trans. Intell. Syst. Technol. 11 (2020).
  12. Z. Shang, et al., Davos: A system for interactive data-driven decision making, Proc. VLDB Endow. 14 (2021) 2893–2905.
Supported by Synthesis Group