[ Russian ] [ English ]

Международный проект параллельной СУБД SciDB для хранения и анализа научных данных

Павел Велихов,
НИИСИ РАН,
pavel.velikhov@gmail.com

В докладе будет представлен проект SciDB, целью которого является разработка параллельной высокопроизводительной СУБД с открытым кодом для крупных научных проектов. Кроме привычных функций СУБД, в SciDB присутствуют новые механизмы работы с данными, специально разработанные для анализа научных данных. Модель данных SciDB представляет из себя вложенные массивы записей, а для операций над массивами введена аглебра массивов (но аналогии с реляционной алгеброй). Таким образом, ученым не надо моделировать свои данные как таблицы записей, что в свою очередь ведет к более простой формулировке аналитических запросов и на порядки увеличивает производительность системы. Так как в SciDB будут храниться данные, полученные с приборов, SciDB поддерживает погрешность измерений на уровне модели данных и языка запросов. Наконец, SciDB изначально разрабатывается для работы на большом спектре вычислительных систем - от переносного ПК до больших кластеров и суперкомпьютеров. Таким образом, ученые смогут работать с данными в одной среде, например, отлаживая аналитические алгоритмы на персональных компьютерах, используя небольшую выборку данных, а отлаженные запросы без изменений запускать на высоко-производительных кластерах. В докладе будет представлена архитектура SciDB, планы разработки системы и первые пробные проекты с использованием этой системы.

Слайды к докладу в формате PDF: velikhov20100225.pdf

Литература:

  1. Philippe Cudrй-Mauroux, Hideaki Kimura, Kian-Tat Lim, Jennie Rogers, Roman Simakov, Emad Soroush, Pavel Velikhov, Daniel Wang, Magdalena Balazinska, Jacek Becla, David J. DeWitt, Bobbi Heath, David Maier, Samuel Madden, Jignesh M. Patel, Michael Stonebraker, Stanley B. Zdonik: A Demonstration of SciDB: A Science-Oriented DBMS. PVLDB 2(2): 1534-1537 (2009)
  2. Michael Stonebraker, Jacek Becla, David J. DeWitt, Kian-Tat Lim, David Maier, Oliver Ratzesberger, Stanley B. Zdonik: Requirements for Science Data Bases and SciDB. CIDR 2009
  3. Andrew Pavlo, Erik Paulson, Alexander Rasin, Daniel J. Abadi, David J. DeWitt, Samuel Madden, Michael Stonebraker: A comparison of approaches to large-scale data analysis. SIGMOD Conference 2009: 165-178
Supported by Synthesis Group