Методы параллельной обработки замкнутых OLAP-кубов
Юрий Кудрявцев,
МГУ, ВМиК,
mail@ykud.com
В докладе рассматривается алгоритмы эффективной обработки OLAP-кубов. OLAP-системы предполагают обработку большого числа аналитических запросов над большими объемами данных, представленных в виде многомерной модели. Подобными требованиями обусловлена необходимость предварительных расчетов ряда агрегирующих значений куба, что требует больших вычислительных мощностей.
Одним из самых интересных алгоритмов сжатия OLAP-кубов представляется алгоритм Quotient Cube ([6]) и также основанный на понятии замыкания ячеек куба алгоритм CCubing([7]). Представление многомерных кубов в виде решеток дает возможность использования операторов замыкания для формирования классов эквивалентности ячеек куба и соответствующей оптимизации объема хранимых ячеек.
В связи с вычислительной сложностью задачи расчета OLAP-кубов представляется целесообразным распараллеливать вычисления на многопроцессорных серверах и кластерах серверов. Популярная парадигма параллельного программирования Map/Reduce ([3]), созданная в Google, поддерживает кластера, включающие десятки тысяч серверов, обеспечивая отказоустойчивость и масштабируемость вычислений.
В докладе будут рассмотрены следующие вопросы:
- Математическая модель описания OLAP-кубов, основанная на теории решеток. В рамках указанной модели доказана эффективность представления кубов замкнутыми решетками.
- Алгоритм параллельного создания и обработки замкнутых кубов.
- Представление алгоритма в виде Map/Reduce задач, выполняющихся на Apache/Hadoop кластере.
Слайды к докладу в формате PDF: ykud-08.pdf
Литература:
- Providing OLAP for end-user analysys: An IT mandate. E.F. Codd.
- OLAP Solutions: Building Multidimensional Information Systems Second Edition. Erik Thomsen. ISBN: 978-0471400301.
- J. Dean and S. Ghemawat. Mapreduce: Simplified data processing on large clusters. Operating Systems Design and Implementation, 2004.
- R.Baeza-Yates, R.Ramakrishnan. Data challenges at Yahoo! EDBT-08.
- D. Xin, Z. Shao, J. Han, and H. Liu. C-cubing: Efficient computation of closed cubes by aggregation-based checking. ICDE-2006.
- Y. Zhao. Quotient Cube and QC-Tree: Efficient Summarizations for Semantic OLAP, SIGMOD 2003.
- Кудрявцев Ю. Обзор алгоритмов MOLAP. http://citforum.ru/consulting/BI/molap_overview/
- Кузнецов С.Д., Кудрявцев Ю. «Математическая модель OLAP-кубов». http://ykud.ru/articles/olap_lattices/index.html
|