Методы хранения MOLAP-данных

[ Russian ] [ English ]

$D:\tiourine\site\img\1X1.gif$

Методы хранения MOLAP-данных

Юрий Кудрявцев,
ВМиК МГУ,
Yuri.Kudryavcev@gmail.com

В 1993 году Э. Коддом была предложена концепция OLAP-систем (Online Analytical Processing), включающая в себя 12 правил представления данных пользователю. Подобные системы, как следует из названия, предназначены для анализа данных в интерактивном режиме. В связи с этим основной задачей OLAP-средств является представление больших объемов данных в виде, удобном для анализа конечными пользователями.

В 1995 году группа исследователей из Microsoft Lab во главе с Д. Греем предложила расширение языка SQL для поддержки и создания многомерных кубов для визуализации данных(оператор Cube By) [1]. Представление данных в виде многомерных кубов в настоящее время является de facto стандартом пользовательской работы с большими массивами данных. Доклад посвящен исследованиям в области создания схем хранения MOLAP-данных. MOLAP-системы (Multidimensional OLAP) хранят как фактическую информацию для генерации кубов, так и агрегаты в виде многомерных структур. Дается обзор существующих методов хранения и алгоритмов преобразования MOLAP-данных, перспективным направлениям исследований и созданию математической модели представления OLAP данных.

Рассматриваются следующие группы алгоритмов:

синтаксические – алгоритмы, преобразующие только схему хранения данных (например, DWARF [2])
семантические – алгоритмы, преобразующие структуру куба, например, меняющие roll-up, drill-down последовательности и систему агрегатов (например, Quotient Cube[3], Condensed[4])
аппроксимирующие – алгоритмы, осуществляющие сжатие первоначальных данных для уменьшения объема результирующего куба(например, аппроксимация на базе вейвлетов [5]).

Описывается ряд последних разработок в области визуализации OLAP-данных, основанных на исследованиях особенностей восприятия информации [6].

В заключение предлагается алгебраическая модель многомерного куба, вводятся алгебраические определения ключевых для OLAP операций Roll-Up и Drill-Down, определение отношений эквивалентности между структурами кубов и структур с учетом сложных запросов к данным [7]. С помощью приведенной модели проводится доказательство оптимальности ряда алгоритмов создания и хранения OLAP-кубов.

Слайды к докладу в формате PDF: Kudriavzev.pdf

Литература:

Jim Gray, Adam Bosworth, Andrew Layman, Hamid Pirahesh. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals.
http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=144
Yannis Sismanis Antonios Deligiannakis Nick Roussopoulos Yannis Kotidis. Dwarf: Shrinking the PetaCube .
http://www.cs.umd.edu/~nick/projects/Dwarf.pdf
Yan Zhao. Quotient Cube and QC-Tree: Efficient Summarizations for Semantic OLAP.
http://www.cs.ubc.ca/nest/dbsl/thesis/yzhao_thesis.pdf
Wei Wang, Jianlin Feng, Hongjun Luy, Jeffrey Xu Yu. Condensed Cube: An Effective Approach to Reducing Data Cube Size.
http://www-courses.cs.uiuc.edu/~cs591han/papers/luhjcubeicde02.pdf
Jeffrey Scott Vitter, Min Wangy, Bala Iyer. Data Cube Approximation and Histograms via Wavelets (Extended Abstract).
http://www.cs.duke.edu/~jsv/Papers/VWI98.data_cube.pdf
Andreas S. Maniatis,Panos Vassiliadis,Spiros Skiadopoulos,Yannis Vassiliou. Advanced Visualization for OLAP.
http://www.cs.brown.edu/courses/cs227/Papers/Visualization/DOLAPmaniatis.pdf
Alain Casali, Rosine Cicchetti, Lotfi Lakhal. Cube Lattices: a Framework for Multidimensional Data Mining.
http://www.siam.org/meetings/sdm03/proceedings/sdm03_35.pdf

$D:\tiourine\site\img\1X1.gif$

$D:\tiourine\site\img\1X1.gif$ Supported by Synthesis Group

$D:\tiourine\site\img\1X1.gif$