[ Russian ] [ English ]

Big Data и горизонтально масштабируемая аналитика

Кузнецов Сергей Дмитриевич,
Институт системного программирования РАН,
kuzloc@ispras.ru

Проблема больших данных вечна и призрачна. За всю историю технологии управления данными всегда имелись важные данные, которые хотелось бы уметь эффективно хранить и обрабатывать, но объемы которых делали эту задачу непосильной для существующих систем управления данными. Призрачность проблемы состоит в том, что за то время, пока исследователи и разработчики умудряются справиться с вчерашними большими данными, появляются новые большие данные, с которыми совладать по-прежнему невозможно. Вечность и призрачность проблемы связана не только с постоянным ростом объема данных, но и с тем, что возникают потребности в хранении и обработке новых видов данных, для которых существующие системы плохо приспособлены (или не годятся вовсе).

Сегодняшний всплеск ажиотажа вокруг проблемы больших данных во многом является искусственным. С имеющимися сегодня большими данными трудно (или невозможно) работать ученым, бизнес-аналитикам и т.д., но обычно они забывают о том, что вчера им было трудно (или невозможно) работать с вчерашними большими данными, объемы или специфика которых сегодня проблему не порождают. С большой вероятностью завтра проблему не будут порождать сегодняшние большие данные, но проявится проблема завтрашних больших данных.

Вечность и призрачность проблемы вряд ли позволяет рассчитывать на ее полное и окончательное решение. Это плохо для пользователей и разработчиков приложений, но гарантирует постоянную занятость в будущем исследователей и разработчиков систем управления данными. Конечно, их деятельность напоминает попытки моряков доплыть до заманчивого миража, навеянного Фата-Морганой, но в данном случае сами эти попытки весьма увлекательны и полезны, поскольку худо-бедно поддерживают общее развитие человечества. Более того, иногда удается найти решение частных, но чрезвычайно важных случаев проблемы больших данных. Речь идет о тех категориях данных, для управления которыми традиционно предназначены СУБД.

В докладе коротко рассматриваются основные приемы, с использованием которых СУБД нового поколения обеспечивают горизонтальную масштабируемость транзакционных и аналитических систем баз данных. Обсуждается подход, который позволяет решить проблему горизонтальной масштабируемости аналитических приложений баз данных. Приводятся некоторые размышления, не связанные непосредственно с основной темой доклада, спорные по своей сути, но относящиеся в вопросам, имеющим большую важность в контексте проблематики больших данных.

Презентация доклада в формате PowerPoint: kuznetsov20121025.ppt

Литература:

  1. Adam Jacobs. The Pathologies of Big Data. ACM Queue, Volume 7, Issue 6 (July 2009). http://queue.acm.org/detail.cfm?id=1563874. Имеется перевод на русский язык: Адам Якобс. Патологии больших данных. http://citforum.ru/database/articles/pathology/
  2. Сергей Кузнецов. Транзакционные параллельные СУБД: новая волна. Труды Института системного программирования, т. 20, М., ИСП РАН, 2011, стр. 189-251. http://www.ispras.ru/ru/proceedings/docs/2011/20/isp_20_2011_189.pdf, http://citforum.ru/database/articles/kuz_oltp_2010/
  3. Сергей Кузнецов. MapReduce: внутри, снаружи или сбоку от параллельных СУБД?, Труды Института системного программирования, т. 19, М., ИСП РАН, 2010, стр. 35-40. http://www.ispras.ru/ru/proceedings/docs/2010/19/isp_19_2010_35.pdf, http://citforum.ru/database/articles/dw_appliance_and_mr/
  4. Michael Stonebraker. The Case for Shared Nothing. IEEE Database Engineering Bulletin, Volume 9, Number 1, March 1986, pp. 4-9. http://sites.computer.org/debull/86MAR-CD.pdf
  5. David J DeWitt, Randy H Katz, Frank Olken. Leonard D Shapiro, Michael R Stonebraker, David A. Wood. Implementation techniques for main memory database systems. Proceeding SIGMOD '84 Proceedings of the 1984 ACM SIGMOD International Conference on Management of Data, pp. 1-8. http://minds.wisconsin.edu/bitstream/handle/1793/58496/TR529.pdf?sequence=1
  6. George P. Copeland, Setrag N. Khoshafian. A Decomposition Storage Model. Proceeding SIGMOD '85 Proceedings of the 1985 ACM SIGMOD International Conference on Management of Data, pp. 268 – 279. http://www.dblab.ece.ntua.gr/~gtsat/column%20stores/p268-copeland.pdf
Supported by Synthesis Group