Преимущества высоконормализованной структуры таблиц для хранения и анализа больших данных в колоночных массивно-параллельных СУБД
Николай Голов,
НИУ ВШЭ, Avito,
ngolov@avito.ru
Последние несколько лет технологии работы с большими данными развивались с такой скоростью, что с трудом поддавались классификации. Еще год или два назад обработка больших данных ассоциировалась с NoSQL-технологиями, Hadoop, подходом к хранению данных Data Lake. Однако, если из всех статей и анонсов о проектах разработки Big Data решений, выбрать только успешные подтвержденные проекты, то окажется, что высокая их доля была основана на использовании массивно-параллельных (MPP) колоночных СУБД, полностью поддерживающих ANSI SQL. В качестве примеров можно указать проекты компаний Facebook, Avito, Badoo, AppNexus, Тинькофф.
Основная цель доклада состоит в том, чтобы рассказать о колоночных массивно-параллельных СУБД, принципах и нюансах их работы, а также о том, как и почему нормализованная структура данных (6-я нормальная форма) хорошо ложится на MPP-архитектуру. Таблица считается находящейся в 6-й нормальной форме, если она неприводима, т.е. не может быть подвергнута дальнейшей декомпозиции без потерь. Структура данных, соответствующая 6-й нормальной форме, предполагает использование большого количества таблиц с небольшим количеством столбцов (4-6, с учетом технических столбцов).
Утверждения, излагаемые в докладе, будут иллюстрироваться примерами с использованием практических результатов, достигнутых в проектах компании Avito, а также других компаний - разработчиков решений в области больших данных.
Слайды доклада.
Видеозапись доклада.
Литература:
- Golov N., Ronnback L. SQL query optimization for highly normalized Big Data // Бизнес-информатика. 2015. No. 3
- Голов Н. И., Кравченко Т. К. Проектирование хранилища данных для решения задач Big Data // Информационные технологии в проектировании и производстве. 2014. № 1 (153). С. 56-61.
- Golov N., Ronnback L. Big Data Normalization for Massively Parallel Processing Databases, Preceedings of 34th International Conference on Conceptual Modeling (ER 2015), Stockholm, Sweden.
- Golov N. Creating a Flexible Data Warehouse for Rapid Growth, Conference Report at HP Big Data Conference 2015, August 10 – 13, Boston, USA.
- Golov N. Как мы считали трафик на Вертике, Highload++ 2014, Москва.
|