Методы и алгоритмы отображения схем в системах виртуальной интеграции на основе XML
Л.Г. Новак ,
Институт системного программирования РАН,
novak@ispras.ru
Интеграция данных из гетерогенных источников является одним из основных направлений исследований сообщества специалистов по базам данных. Основная цель разработки систем интеграции заключается в создании средств унифицированного доступа к данным, содержащимся в источниках разного типа. Существует несколько видов платформ интеграции данных: федеративные системы, хранилища данных, с архитектурой посредников. Системы интеграции с архитектурой посредников являются частным случаем более широкого класса систем, приобретающих в последнее время все более широкое распространение - систем виртуальной интеграции данных. Основная идея подхода, используемого в системах виртуальной интеграции, заключается в создании не материализованного (виртуального) представления данных, находящихся в гетерогенных источниках. Это представление обычно определяется глобальной схемой данных.
Основная задача проектирования системы виртуальной интеграции заключается в спецификации взаимосвязи схем источников гетерогенных данных и глобальной схемы. Все запросы конечного пользователя, работающего с системой виртуальной интеграции, формулируются в терминах глобальной схемы; затем, исходя из спецификации отображения, запросы переписываются в термины локальных источников; после чего они отправляются на исполнение в локальные базы данных, а полученные ответы комбинируется. Еще одна проблема, с которой сталкиваются разработчики систем виртуальной интеграции, связана с тем, что данные и схемы локальных источников могут определяться в терминах разных моделей данных. В связи с этим значительно усложняется спецификация отображения схем.
В докладе рассматриваются следующие аспекты интеграции данных:
- формальное определение систем виртуальной интеграции;
- свойства схем данных XML;
- отображение моделей данных, необходимое для обработки локальных данных, определенных в терминах разных моделей;
- разработка спецификации отображения между схемами интегрируемых данных и глобальной схемой.
Обсуждаются основные результаты проведенного автором исследования и разработки методов развертывания системы виртуальной интеграции на платформе XML (под этим термином мы подразумеваем, что виртуальное представление определяется в терминах модели данных XML):
- формальное определение систем виртуальной интеграции;
- определение схем XML, являющееся унифицированным представлением ограничений, которое допускает инъективное отображение схем, выраженных в терминах других языков описания схем XML;
- методы преобразований схем данных XML, приводящие к упрощению схемы с сохранением семантики, что, в свою очередь, позволяет эффективно реализовать отображение моделей данных и трансляцию языков спецификации схем;
- алгебра манипулирования схемами XML, базовые операции которой ориентированы на управление деревьями в высокоуровневых терминах, таких как проекция, соединение, перенос корня и т.д.; алгебра применяется для спецификации отображения между схемами источников и глобальной схемой;
- алгоритмы трансляции выражений алгебры на язык запросов XQuery, результаты которой используются в качестве фактической спецификацией отображения локальных и глобальной схемы;
- методы ручного и автоматического сопоставления схем и алгоритм генерации запроса XQuery, переводящего данные, соответствующие исходной схеме, в данные, соответствующие конечной схеме.
Литература:
- Alagic, S. and Philip Bernstein. A Model Theory for Generic Schema Management. In: Proceedings of DBPL Conference, 2001.
- J. Clark and M. Murata (Eds). RELAX NG Tutorial. OASIS Working Draft, June 2001.
- S. Cluet, P. Veltri, and D. Vodislav. Views in a large scale XML repository. In Proc. 27th Int. Conf. on Very Large Databases, pages 271--280, 2001. http://citeseer.nj.nec.com/cluet01views.html
- W. Fan and L. Libkin. On XML integrity constraints in the presence of dtds. In Proc. ACM PODS, 2001
- H. V. Jagadish, L. V. S. Lakshmanan, D. Srivastava, and K. Thompson. TAX: A Tree Algebra for XML. In Proceedings of DBPL'01, 2001.
- Dongwon Lee, Wesley W. Chu. Comparative Analysis of Six XML Schema Languages. SIGMOD Record 29(3): 76-87 (2000).
- Lenzerini M. Data Integration: A Theoretical Perspective. In: Proceeedings of PODS'02, 2002
- R.J. Miller, M.A. Hernandez, L.M. Haas, L.-L. Yan, C.T.H. Ho, R. Fagin, and L. Popa. The Clio Project: Managing Heterogeneity. SIGMOD Record, 30(1):78-- 83, 2001. http://citeseer.nj.nec.com/miller01clio.html
- M. Murata, D. Lee, and M. Mani. Taxonomy of XML Schema Languages using Formal Language Theory. In Extreme Markup Languages, Montreal, Canada, 2001
- Y. Papakonstantinou, V. Vassalos. Architecture and Implementation of an XQuery-based Information Integration Platform. In: Data Engineering Bulletin, March 2002.
- E. Rahm, and P.A. Bernstein. A Survey of Approaches to Automatic Schema Matching. VLDB Journal 10(4):334-350. Dec. 2001.
- H. S. Thompson, D. Beech, M. Maloney, and N.Mendelsohn (Eds). XML Schema Part 1: Structures. W3C Recommendation, May 2001.http://www.w3.org/TR/xmlschema-1/.
- XQuery 1.0: An XML Query Language. W3C Working Draft, 15 November 2002, http://www.w3.org/TR/XQuery/.
|