Виртуальная интеграция неоднородных данных и унификация моделей данных
Среда, 17-00, аудитория 607 (лекции).
Для студентов МГУ ВМиК 2го – 4го курсов и магистратуры.
Критерии оценок за курс
- За полную посещаемость можно получить 20%, за сданные задачи -- 30%, за экзамен -- 50%.
Отдельно оцениваются факультативные задачи.
- Оценка "отлично" ставится за 85%, "хорошо" -- за 70%, "удовлетворительно" -- за 55%.
Программа курса
- Введение. Определение основных понятий, интенсивно использующихся в курсе: интероперабельность, виртуальная и материализованная интеграция, каноническая информационная модель, посредники.
- Технологии интеграции информационных ресурсов. Примеры систем интеграции ресурсов, сравнительный анализ.
- Теоретические основания виртуальной интеграции. Переписывание запросов с использованием взглядов.
- Каноническая информационная модель.
История и цели языка. Гибридная объектная/слабоструктурированная модель. Структура спецификаций. Язык фреймов. Система типов. Абстрактные типы данных. Функции. Классы. Метаклассы, метаклассы ассоциаций. Средства представления потоков работ – скрипты. Язык формул. Семантика правил. Программы.
- Исчисление спецификаций. Спецификация типа. Свойства отношения подтипа.
Уточнение типов. Понятие общего редукта типов. Операции композиции типов.
- Предметные посредники. Общая архитектура, свойства. Преимущества посредников.
Виды посредников. Образование схемы посредника, движимого приложениями. Онтологическая интеграция.
Регистрация ресурсов в посредниках. Виды конфликтов, их разрешение. Конструирование GLAV-взглядов.
Архитектура исполнительного слоя среды посредников. Компоненты архитектуры.
Пример предметного посредника.
- Унификация моделей данных
Дополнительные материалы
Темы магистерских работ
- Применение методов трансформации данных, разрешения сущностей, слияния данных на конкретных данных
- Трансформации данных описываются на языках Jaql, HIL
- Набор данных - персоны, должности, организации, географические объекты для одного из регионов Росcии, извлеченные из текстов (сообщения в социальных сетях, публикации в СМИ)
- Набор данных - синдицированные кредиты
- Реализация высокоуровневых обобщенных операций разрешения сущностей и слияния данных
- Варианты языков трансформации данных в распределенных вычислительных средах:
Jaql,
HIL
- Реализация операций подобных FUSE BY на этих языках
- Сравнение производительности на модельных [прикладных] задачах
- Верификация трансформации данных, разрешения сущностей, слияния данных
- Реализация прикладных задач, требующих интеграции разномодельных ресурсов
- По желанию, возможна работа практически с любыми (например, разнообразными NoSQL) СУБД
- Пример предметной области -- аналитика социальных сетей
- Желательно наличие партнера (организации), заинтересованного в решении задачи, и набора данных, над которым задача будет решаться
- Усовершенствование и применение средств унификации моделей
- Встраивание трансформаций моделей
- Встраивание средств model matching
- Унификация конкретных моделей (RDF, ...).
Из практических соображений желательно, чтобы унификация была необходима для решения прикладной задачи интеграции (см. предыдущий пункт)
Аннотация
В курсе рассматриваются проблемы интеграции и интероперабельности различных информационных ресурсов (ИР) при создании информационных систем (ИС).
Различаются понятия виртуальной интеграции ИР и материализованной интеграции.
Виртуальная интеграция ИР рассматривается применительно к инфраструктуре предметных посредников, располагаемых между исследователями, формулирующими
задачи в терминах посредников, и разнообразными распределенными ИР (данными, сервисами), необходимыми для решения задачи.
Семантические отображения спецификаций (схем) ресурсов в спецификации посредника задаются специальными декларативными правилами.
Архитектуры и функции посредников рассматриваются на примерах существующих платформ.
Отдельный раздел курса посвящен конструированию унифицированного расширяемого языка (канонической информационной модели),
позволяющего представлять в нем различные языки ИР с сохранением их семантики. Сохраняющие семантику представления в канонической
модели разнообразных моделей данных ИР рассматриваются на примере
графовой модели данных.
|