Методы хранения MOLAP-данных
В 1993 году Э. Коддом была предложена концепция OLAP-систем (Online Analytical Processing), включающая в себя 12 правил представления данных пользователю. Подобные системы, как следует из названия, предназначены для анализа данных в интерактивном режиме. В связи с этим основной задачей OLAP-средств является представление больших объемов данных в виде, удобном для анализа конечными пользователями.
В 1995 году группа исследователей из Microsoft Lab во главе с Д. Греем предложила расширение языка SQL для поддержки и создания многомерных кубов для визуализации данных(оператор Cube By) [1]. Представление данных в виде многомерных кубов в настоящее время является de facto стандартом пользовательской работы с большими массивами данных.
Доклад посвящен исследованиям в области создания схем хранения MOLAP-данных. MOLAP-системы (Multidimensional OLAP) хранят как фактическую информацию для генерации кубов, так и агрегаты в виде многомерных структур. Дается обзор существующих методов хранения и алгоритмов преобразования MOLAP-данных, перспективным направлениям исследований и созданию математической модели представления OLAP данных.
Рассматриваются следующие группы алгоритмов:
- синтаксические – алгоритмы, преобразующие только схему хранения данных (например, DWARF [2])
- семантические – алгоритмы, преобразующие структуру куба, например, меняющие roll-up, drill-down последовательности и систему агрегатов (например, Quotient Cube[3], Condensed[4])
- аппроксимирующие – алгоритмы, осуществляющие сжатие первоначальных данных для уменьшения объема результирующего куба(например, аппроксимация на базе вейвлетов [5]).
Описывается ряд последних разработок в области визуализации OLAP-данных, основанных на исследованиях особенностей восприятия информации [6].
В заключение предлагается алгебраическая модель многомерного куба, вводятся алгебраические определения ключевых для OLAP операций Roll-Up и Drill-Down, определение отношений эквивалентности между структурами кубов и структур с учетом сложных запросов к данным [7]. С помощью приведенной модели проводится доказательство оптимальности ряда алгоритмов создания и хранения OLAP-кубов.
Слайды к докладу в формате PDF: Kudriavzev.pdf
Литература:
- Jim Gray, Adam Bosworth, Andrew Layman, Hamid Pirahesh. Data Cube: A Relational Aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals.
http://research.microsoft.com/research/pubs/view.aspx?type=Technical%20Report&id=144
- Yannis Sismanis Antonios Deligiannakis Nick Roussopoulos Yannis Kotidis. Dwarf: Shrinking the PetaCube .
http://www.cs.umd.edu/~nick/projects/Dwarf.pdf
- Yan Zhao. Quotient Cube and QC-Tree: Efficient Summarizations for Semantic OLAP.
http://www.cs.ubc.ca/nest/dbsl/thesis/yzhao_thesis.pdf
- Wei Wang, Jianlin Feng, Hongjun Luy, Jeffrey Xu Yu. Condensed Cube: An Effective Approach to Reducing Data Cube Size.
http://www-courses.cs.uiuc.edu/~cs591han/papers/luhjcubeicde02.pdf
- Jeffrey Scott Vitter, Min Wangy, Bala Iyer. Data Cube Approximation and Histograms via Wavelets (Extended Abstract).
http://www.cs.duke.edu/~jsv/Papers/VWI98.data_cube.pdf
- Andreas S. Maniatis,Panos Vassiliadis,Spiros Skiadopoulos,Yannis Vassiliou. Advanced Visualization for OLAP.
http://www.cs.brown.edu/courses/cs227/Papers/Visualization/DOLAPmaniatis.pdf
- Alain Casali, Rosine Cicchetti, Lotfi Lakhal. Cube Lattices: a Framework for Multidimensional Data Mining.
http://www.siam.org/meetings/sdm03/proceedings/sdm03_35.pdf
|