Юнидата — современная платформа управления данными
Георгий Чернышев
Юнидата
Одна из основных задач современных компаний – обеспечение качества данных, которые используются для аналитики. Особую роль также играет поддержка согласованности данных между различными аналитическими и операционными системами. Термин “мастер-данные” (Master Data) обозначает специфические для каждой предметной области данные, которые описывают бизнес-объекты, важные для нормальной работы организации, такие, как контракты, поставщики, работники и т.д. Обычно эта информация распределена в организации сразу по нескольким приложениям и может быть различного качества. Управление мастер-данными (Master Data Management) – это всевозможный набор устоявшихся практик, методов управления информацией, а также инструментов для создания точных и полных мастер-данных. В этом списке инструменты управления данными играют важнейшую роль, они отвечают за наладку и поддержку различного рода MDM-процессов.
В настоящем докладе мы опишем платформу Юнидата – инструментария для создания MDM-решений. Его модульная архитектура позволяет создавать MDM решения, специализированные под определенную предметную область и требования каждого конкретного случая. Мы начнем с краткого введения в MDM, опишем его цели, пользу для организации, а также подходы к организации работы с данными. Затем будет рассмотрена архитектура платформы Юнидата и разобраны отдельные аспекты хранения данных и выполнения запросов. В заключение мы представим конкретные примеры внедрения и размышления о будущем MDM систем.
Данный доклад основан на докладе “Unidata — A Modern Master Data Management Platform”, представленном на DATAPLAT@EDBT/ICDT’22.
Слайды доклада
Видео доклада.
Литература:
- V. Khatri, C. V. Brown, Designing data governance, Commun. ACM 53 (2010) 148–152.
- M. Jagals, E. Karger, F. Ahlemann, Already grownup or still in puberty? a bibliometric review of
16 years of data governance research, Corporate Ownership & Control 19 (2021) 105–120.
- O. B. Nielsen, et al., Why governing data is difficult: Findings from danish local government, in: Smart Working, Living and Organising, Springer International Publishing, Cham, 2019, pp. 15–29.
- D. International, DAMA-DMBOK: Data Management Body of Knowledge (2nd Edition), Technics Publications, LLC, Denville, NJ, USA, 2017.
- M. Allen, D. Cervo, Multi-Domain Master Data Management: Advanced MDM and Data Governance in Practice, 1st ed., Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2015.
- D. Loshin, Master Data Management, Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 2009.
- M. Hulsebos, et al., Sherlock: A deep learning approach to semantic data type detection, in: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, KDD ’19, 2019, p. 1500–1508.
- N. Barlaug, J. A. Gulla, Neural networks for entity matching: A survey, ACM Trans. Knowl. Discov. Data 15 (2021).
- W.-C. Tan, Deep data integration, in: Proceedings of the 2021 International Conference on Management of Data, SIGMOD/PODS ’21, Association for Computing Machinery, New York, NY, USA, 2021, p. 2.
- Y. Li, et al., Deep entity matching: Challenges and opportunities, J. Data and Information Quality 13(2021).
- S. Zhang, K. Balog, Web table extraction, retrieval, and augmentation: A survey, ACM Trans. Intell. Syst. Technol. 11 (2020).
- Z. Shang, et al., Davos: A system for interactive data-driven decision making, Proc. VLDB Endow. 14 (2021) 2893–2905.
|