[ Russian ] [ English ]

Пространства данных: исследовательский полигон или путь к новому поколению систем управления данными?

Сергей Кузнецов,
Институт системного программирования РАН,
kuz@citforum.ru

Доклад посвящен обзору статьи [1], в которой предлагается и обосновывается концепция «пространства данных». Авторы статьи предлагают классифицировать существующие системы управления данными по двум измерениям, одно из которых отражает уровень семантической близости управляемых данных, а другое показывает, насколько близки различные источники данных с точки зрения административного управления. Одна из точек этого «пространства решений» соответствует СУБД: полная интеграция данных с централизованным административным контролем.

Авторов особо интересует точка, соответствующая системам виртуальной интеграции данных: семантическая близость интегрируемых данных за счет наличия глобальной схемы и административная автономность источников данных. Утверждается, что, во-первых, построение действующей интегрированной системы является весьма трудоемкой задачей, решение которой, во-вторых, далеко не всегда является обязательным с точки зрения потребности пользователей.

Пространства данных не являются подходом к интеграции данных; скорее, это подход сосуществования данных. Цель поддержки пространства данных состоит в обеспечении базового набора функций надо всеми источниками данных, а не в их интеграции. Например, DSSP (DataSpace Support Platform) может обеспечить надо всеми своими источниками данных поиск по ключевым словам, аналогично тому, что обеспечивают существующие поисковые системы на персональных компьютерах. При потребности в более сложных операциях, таких как запросы в реляционном стиле, анализ данных или мониторинг каких-либо источников, можно приложить дополнительные усилия к более тесной интеграции этих источников в инкрементной манере.

Аналогичная гибкость имеется и в измерении административной близости. Если желательно наличие административной автономии, то DSSP не сможет гарантировать согласованность, устойчивость результатов операций обновления и т.д. Для удовлетворения потребности в более строгих гарантиях нужны дополнительные усилия для достижения соглашений между владельцами источников данных и открытия некоторых интерфейсов (например, для протоколов фиксации транзакций).

Интересной чертой [1] является близость формулируемых задач к тем, которые перечисляются в качестве актуальных исследовательских задач в [2] (например, потребность в языковых средствах доступа к данным, сочетающим черты полнотекстового поиска и структурированных запросов).

Литература:

  1. M. Franklin, A. Halevy and D. Maier: From Databases to Dataspaces: A New Abstraction for Information Management. ACM SIGMOD Record 34, No. 4 (December 2006), http://www.sigmod.org/sigmod/record/issues/0512/p27-article-franklin.pdf. (Имеется русский перевод: Майкл Франклин, Элон Хэлеви, Дэвид Майер. “От баз данных к пространствам данных:новая абстракция управления информацией”, http://www.citforum.ru/database/articles/from_db_to_ds.)
  2. Serge Abiteboul, Rakesh Agrawal, Phil Bernstein, Mike Carey, Stefano Ceri, Bruce Croft, David DeWitt, Mike Franklin, Hector Garcia Molina, Dieter Gawlick, Jim Gray, Laura Haas, Alon Halevy, Joe Hellerstein, Yannis Ioannidis, Martin Kersten, Michael Pazzani, Mike Lesk, David Maier, Jeff Naughton, Hans Schek, Timos Sellis, Avi Silberschatz, Mike Stonebraker, Rick Snodgrass, Jeff Ullman, Gerhard Weikum, Jennifer Widom, and Stan Zdonik. The Lowell Database Research Self-Assessment. Commun. ACM, 48(5):111–118, 2005.
  3. Alon Halevy. Why Your Data Won't Mix. ACM Queue, 3, No. 8 (October 2005), http://www.acmqueue.com/modules.php?name=Content&pa=showpage&pid=336
  4. Donald Kossmann, Jens-Peter Dittrich. Personal Data Spaces. http://www.inf.ethz.ch/news/focus/res_focus/feb_2006/index_DE
Supported by Synthesis Group