[ Russian ] [ English ]

Методы и алгоритмы отображения схем в системах виртуальной интеграции на основе XML

Л.Г. Новак ,
Институт системного программирования РАН,
novak@ispras.ru

Интеграция данных из гетерогенных источников является одним из основных направлений исследований сообщества специалистов по базам данных. Основная цель разработки систем интеграции заключается в создании средств унифицированного доступа к данным, содержащимся в источниках разного типа. Существует несколько видов платформ интеграции данных: федеративные системы, хранилища данных, с архитектурой посредников. Системы интеграции с архитектурой посредников являются частным случаем более широкого класса систем, приобретающих в последнее время все более широкое распространение - систем виртуальной интеграции данных. Основная идея подхода, используемого в системах виртуальной интеграции, заключается в создании не материализованного (виртуального) представления данных, находящихся в гетерогенных источниках. Это представление обычно определяется глобальной схемой данных.

Основная задача проектирования системы виртуальной интеграции заключается в спецификации взаимосвязи схем источников гетерогенных данных и глобальной схемы. Все запросы конечного пользователя, работающего с системой виртуальной интеграции, формулируются в терминах глобальной схемы; затем, исходя из спецификации отображения, запросы переписываются в термины локальных источников; после чего они отправляются на исполнение в локальные базы данных, а полученные ответы комбинируется. Еще одна проблема, с которой сталкиваются разработчики систем виртуальной интеграции, связана с тем, что данные и схемы локальных источников могут определяться в терминах разных моделей данных. В связи с этим значительно усложняется спецификация отображения схем.

В докладе рассматриваются следующие аспекты интеграции данных:

  • формальное определение систем виртуальной интеграции;
  • свойства схем данных XML;
  • отображение моделей данных, необходимое для обработки локальных данных, определенных в терминах разных моделей;
  • разработка спецификации отображения между схемами интегрируемых данных и глобальной схемой.

Обсуждаются основные результаты проведенного автором исследования и разработки методов развертывания системы виртуальной интеграции на платформе XML (под этим термином мы подразумеваем, что виртуальное представление определяется в терминах модели данных XML):

  • формальное определение систем виртуальной интеграции;
  • определение схем XML, являющееся унифицированным представлением ограничений, которое допускает инъективное отображение схем, выраженных в терминах других языков описания схем XML;
  • методы преобразований схем данных XML, приводящие к упрощению схемы с сохранением семантики, что, в свою очередь, позволяет эффективно реализовать отображение моделей данных и трансляцию языков спецификации схем;
  • алгебра манипулирования схемами XML, базовые операции которой ориентированы на управление деревьями в высокоуровневых терминах, таких как проекция, соединение, перенос корня и т.д.; алгебра применяется для спецификации отображения между схемами источников и глобальной схемой;
  • алгоритмы трансляции выражений алгебры на язык запросов XQuery, результаты которой используются в качестве фактической спецификацией отображения локальных и глобальной схемы;
  • методы ручного и автоматического сопоставления схем и алгоритм генерации запроса XQuery, переводящего данные, соответствующие исходной схеме, в данные, соответствующие конечной схеме.

Литература:

  1. Alagic, S. and Philip Bernstein. A Model Theory for Generic Schema Management. In: Proceedings of DBPL Conference, 2001.
  2. J. Clark and M. Murata (Eds). RELAX NG Tutorial. OASIS Working Draft, June 2001.
  3. S. Cluet, P. Veltri, and D. Vodislav. Views in a large scale XML repository. In Proc. 27th Int. Conf. on Very Large Databases, pages 271--280, 2001. http://citeseer.nj.nec.com/cluet01views.html
  4. W. Fan and L. Libkin. On XML integrity constraints in the presence of dtds. In Proc. ACM PODS, 2001
  5. H. V. Jagadish, L. V. S. Lakshmanan, D. Srivastava, and K. Thompson. TAX: A Tree Algebra for XML. In Proceedings of DBPL'01, 2001.
  6. Dongwon Lee, Wesley W. Chu. Comparative Analysis of Six XML Schema Languages. SIGMOD Record 29(3): 76-87 (2000).
  7. Lenzerini M. Data Integration: A Theoretical Perspective. In: Proceeedings of PODS'02, 2002
  8. R.J. Miller, M.A. Hernandez, L.M. Haas, L.-L. Yan, C.T.H. Ho, R. Fagin, and L. Popa. The Clio Project: Managing Heterogeneity. SIGMOD Record, 30(1):78-- 83, 2001. http://citeseer.nj.nec.com/miller01clio.html
  9. M. Murata, D. Lee, and M. Mani. Taxonomy of XML Schema Languages using Formal Language Theory. In Extreme Markup Languages, Montreal, Canada, 2001
  10. Y. Papakonstantinou, V. Vassalos. Architecture and Implementation of an XQuery-based Information Integration Platform. In: Data Engineering Bulletin, March 2002.
  11. E. Rahm, and P.A. Bernstein. A Survey of Approaches to Automatic Schema Matching. VLDB Journal 10(4):334-350. Dec. 2001.
  12. H. S. Thompson, D. Beech, M. Maloney, and N.Mendelsohn (Eds). XML Schema Part 1: Structures. W3C Recommendation, May 2001.http://www.w3.org/TR/xmlschema-1/.
  13. XQuery 1.0: An XML Query Language. W3C Working Draft, 15 November 2002, http://www.w3.org/TR/XQuery/.
Supported by Synthesis Group