Методы и платформы интеграции данных и организации хранилищ больших данных
Программа курса
- Введение. Определение основных понятий, интенсивно использующихся в курсе: интероперабельность, виртуальная и материализованная интеграция, каноническая информационная модель, посредники, параллельные машины баз данных, хранилища, ETL, OLAP
- Технологии интеграции информационных ресурсов. Примеры систем интеграции ресурсов, сравнительный анализ.
- Теоретические основания виртуальной интеграции. Переписывание запросов с использованием взглядов.
- Виртуальная интеграция ресурсов в предметных посредниках
- Теоретические основания материализованной интеграции. Data Exchange.
- Материализованная интеграция ресурсов в хранилищах данных.
Архитектуры хранилищ данных. Проектирование хранилищ данных.
- OLAP
- Поддержка ETL-преобразований
- Построение хранилищ данных на основе параллельных машин баз данных
- Унификация моделей данных
Дополнительные материалы
Аннотация
В курсе рассматриваются проблемы интеграции и интероперабельности различных информационных ресурсов (ИР) при создании информационных систем (ИС).
В курсе различаются понятия виртуальной интеграции ИР и материализованной интеграции (data exchange). Последнее используется в связи с созданием хранилищ данных (warehouse).
Виртуальная интеграция ИР рассматривается применительно к инфраструктуре предметных посредников, располагаемых между исследователями, формулирующими задачи в терминах посредников, и разнообразными распределенными ИР (данными, сервисами), необходимыми для решения задачи. Семантические отображения спецификаций (схем) ресурсов в спецификации посредника задаются специальными декларативными правилами. С применением аналогичных правил решаются вопросы материализованной интеграции неоднородных ИР в хранилищах данных, основанной на принципах data exchange.
Архитектуры и функции посредников и хранилищ изучаются на примерах существующих платформ.
В курсе рассматриваются архитектуры хранилищ данных, методы организации обновления материализованных хранилищ данных, построение хранилищ данных на основе параллельных машин баз данных. В частности, включаются вопросы поддержки ETL-преобразований, устройства многомерных моделей данных (кубов данных), OLAP. Рассматриваются современные платформы для поддержки хранилищ Big Data, включая средства параллельных машин баз данных.
Отдельный раздел курса посвящен конструированию унифицированного расширяемого языка (канонической информационной модели), позволяющего представлять в нем различные языки ИР с сохранением их семантики. Сохраняющие семантику представления в канонической модели разнообразных моделей данных ИР рассматриваются на примере графовой модели данных.
|