Слабоструктурированные данные: некоторые методы их представления и обработки запросов
К.Ю. Лисовский, Г.С. Томусяк,
Московский Институт Стали и Сплавов - Технологический Университет,
kl@ns.misa.ac.ru, tomus@db.misa.ac.ru
Сегодня господствующее положение в качестве средства представление информации
в Интернет занимает язык гипертекстовой разметки HTML, теги которого описывают
визуальное представление документа, ссылки, и т.д., но не несут информации о
семантической структуре документа.
С развитием Интернет и увеличением объемов хранимых данных необходимость
автоматизированного поиска семантически релевантной информации становится все
более актуальной. Документы HTML мало пригодны в качестве средства представления
информации для таких систем, так как описанная средствами HTML информация может
быть охарактеризована как машинно-читаемая, но не как машинно-понимаемая.
Именно стремление обеспечить возможность представления семантической структуры
документов в Интернет явилось одной из главных причин разработки и внедрения
языка XML, который позволяет описывать данные и их структуру в
текстовом формате.
Растущий объем доступной в Сети информации делает актуальным применение технологий
баз данных для ее обработки и описания, причем необходимость в фиксированной
схеме данных является в данном контексте недопустимым ограничением. Значительную
часть представленных в World Wide Web данных целесообразно рассматривать как
слабоструктурированные - они имеют некоторую семантическую структуру, однако та
информация о их структуре, которая обычно ассоциируется со схемой данных, может
содержаться в них самих.
На наш взгляд, именно принципиально иной подход к роли схемы данных является ключевым
отличием слабоструктурированных данных от традиционных. Можно выделить следующие
ключевые положения, характеризующие особенности слабоструктурированных данных:
- 1.
- Не существует фиксированной схемы данных.
- 2.
- Нет четкого различия между собственно данными и их схемой.
- 3.
- Отсутствует строгая типизация.
- 4.
- Изменение схемы данных является рутинной операцией, сравнимой
с внесением изменений в данные.
- 5.
- Объем данных сравним со сложностью их схемы.
- 6.
- Схема данных является описывающей, а не предписывающей, и может быть
получена из самих данных.
- 7.
- Полное знание схемы данных не является необходимым для построения
запросов, возможны запросы полностью игнорирующие схему данных.
В настоящий момент предложен ряд моделей данных и алгебр для XML, а также подходов
к реализации СУБД для XML данных. В частности, существуют реализации таких систем
на основе объектных и реляционных систем управления базами данных. Предложен
также ряд языков запросов для них - XML-QL, XQL, Lorel и т.д.
В докладе рассматривается возможность построения системы управления
слабоструктурированными данными на основе дедуктивной СУБД, реализующий логический
язык данных Дейталог. Анализируются слабоструктурированные модели данных и
особенности их реализации в дедуктивной среде, рассматривается техника синтаксической
трансляции языка запросов в программы Дейталога, что позволяет использовать для
обработки запросов хорошо исследованные методы вычисления и оптимизации.
|