[ Russian ] [ English ]

Слабоструктурированные данные: некоторые методы их представления и обработки запросов

К.Ю. Лисовский, Г.С. Томусяк,
Московский Институт Стали и Сплавов - Технологический Университет,
kl@ns.misa.ac.ru, tomus@db.misa.ac.ru

Сегодня господствующее положение в качестве средства представление информации в Интернет занимает язык гипертекстовой разметки HTML, теги которого описывают визуальное представление документа, ссылки, и т.д., но не несут информации о семантической структуре документа.

С развитием Интернет и увеличением объемов хранимых данных необходимость автоматизированного поиска семантически релевантной информации становится все более актуальной. Документы HTML мало пригодны в качестве средства представления информации для таких систем, так как описанная средствами HTML информация может быть охарактеризована как машинно-читаемая, но не как машинно-понимаемая. Именно стремление обеспечить возможность представления семантической структуры документов в Интернет явилось одной из главных причин разработки и внедрения языка XML, который позволяет описывать данные и их структуру в текстовом формате.

Растущий объем доступной в Сети информации делает актуальным применение технологий баз данных для ее обработки и описания, причем необходимость в фиксированной схеме данных является в данном контексте недопустимым ограничением. Значительную часть представленных в World Wide Web данных целесообразно рассматривать как слабоструктурированные - они имеют некоторую семантическую структуру, однако та информация о их структуре, которая обычно ассоциируется со схемой данных, может содержаться в них самих.

На наш взгляд, именно принципиально иной подход к роли схемы данных является ключевым отличием слабоструктурированных данных от традиционных. Можно выделить следующие ключевые положения, характеризующие особенности слабоструктурированных данных:

1.
Не существует фиксированной схемы данных.
2.
Нет четкого различия между собственно данными и их схемой.
3.
Отсутствует строгая типизация.
4.
Изменение схемы данных является рутинной операцией, сравнимой с внесением изменений в данные.
5.
Объем данных сравним со сложностью их схемы.
6.
Схема данных является описывающей, а не предписывающей, и может быть получена из самих данных.
7.
Полное знание схемы данных не является необходимым для построения запросов, возможны запросы полностью игнорирующие схему данных.

В настоящий момент предложен ряд моделей данных и алгебр для XML, а также подходов к реализации СУБД для XML данных. В частности, существуют реализации таких систем на основе объектных и реляционных систем управления базами данных. Предложен также ряд языков запросов для них - XML-QL, XQL, Lorel и т.д.

В докладе рассматривается возможность построения системы управления слабоструктурированными данными на основе дедуктивной СУБД, реализующий логический язык данных Дейталог. Анализируются слабоструктурированные модели данных и особенности их реализации в дедуктивной среде, рассматривается техника синтаксической трансляции языка запросов в программы Дейталога, что позволяет использовать для обработки запросов хорошо исследованные методы вычисления и оптимизации.

Supported by Synthesis Group