Related Communities:


Виртуальная интеграция неоднородных данных и унификация моделей данных

Среда, 17-00, аудитория 607 (лекции).

Для студентов МГУ ВМиК 2го – 4го курсов и магистратуры.

Вопросы к экзамену

Критерии оценок за курс

  1. За полную посещаемость можно получить 20%, за сданные задачи -- 30%, за экзамен -- 50%. Отдельно оцениваются факультативные задачи.
  2. Оценка "отлично" ставится за 85%, "хорошо" -- за 70%, "удовлетворительно" -- за 55%.

Программа курса

  1. Введение. Определение основных понятий, интенсивно использующихся в курсе: интероперабельность, виртуальная и материализованная интеграция, каноническая информационная модель, посредники.
  2. Технологии интеграции информационных ресурсов. Примеры систем интеграции ресурсов, сравнительный анализ.
  3. Теоретические основания виртуальной интеграции. Переписывание запросов с использованием взглядов.
  4. Каноническая информационная модель. История и цели языка. Гибридная объектная/слабоструктурированная модель. Структура спецификаций. Язык фреймов. Система типов. Абстрактные типы данных. Функции. Классы. Метаклассы, метаклассы ассоциаций. Средства представления потоков работ – скрипты. Язык формул. Семантика правил. Программы.
  5. Исчисление спецификаций. Спецификация типа. Свойства отношения подтипа. Уточнение типов. Понятие общего редукта типов. Операции композиции типов.
  6. Предметные посредники. Общая архитектура, свойства. Преимущества посредников. Виды посредников. Образование схемы посредника, движимого приложениями. Онтологическая интеграция. Регистрация ресурсов в посредниках. Виды конфликтов, их разрешение. Конструирование GLAV-взглядов. Архитектура исполнительного слоя среды посредников. Компоненты архитектуры. Пример предметного посредника.
  7. Унификация моделей данных

Дополнительные материалы

Темы магистерских работ

  • Применение методов трансформации данных, разрешения сущностей, слияния данных на конкретных данных
    • Трансформации данных описываются на языках Jaql, HIL
    • Набор данных - персоны, должности, организации, географические объекты для одного из регионов Росcии, извлеченные из текстов (сообщения в социальных сетях, публикации в СМИ)
    • Набор данных - синдицированные кредиты
  • Реализация высокоуровневых обобщенных операций разрешения сущностей и слияния данных
    • Варианты языков трансформации данных в распределенных вычислительных средах: Jaql, HIL
    • Реализация операций подобных FUSE BY на этих языках
    • Сравнение производительности на модельных [прикладных] задачах
  • Верификация трансформации данных, разрешения сущностей, слияния данных
  • Реализация прикладных задач, требующих интеграции разномодельных ресурсов
    • По желанию, возможна работа практически с любыми (например, разнообразными NoSQL) СУБД
    • Пример предметной области -- аналитика социальных сетей
    • Желательно наличие партнера (организации), заинтересованного в решении задачи, и набора данных, над которым задача будет решаться
  • Усовершенствование и применение средств унификации моделей
    • Встраивание трансформаций моделей
    • Встраивание средств model matching
    • Унификация конкретных моделей (RDF, ...). Из практических соображений желательно, чтобы унификация была необходима для решения прикладной задачи интеграции (см. предыдущий пункт)

Аннотация

В курсе рассматриваются проблемы интеграции и интероперабельности различных информационных ресурсов (ИР) при создании информационных систем (ИС).

Различаются понятия виртуальной интеграции ИР и материализованной интеграции.

Виртуальная интеграция ИР рассматривается применительно к инфраструктуре предметных посредников, располагаемых между исследователями, формулирующими задачи в терминах посредников, и разнообразными распределенными ИР (данными, сервисами), необходимыми для решения задачи. Семантические отображения спецификаций (схем) ресурсов в спецификации посредника задаются специальными декларативными правилами.

Архитектуры и функции посредников рассматриваются на примерах существующих платформ.

Отдельный раздел курса посвящен конструированию унифицированного расширяемого языка (канонической информационной модели), позволяющего представлять в нем различные языки ИР с сохранением их семантики. Сохраняющие семантику представления в канонической модели разнообразных моделей данных ИР рассматриваются на примере графовой модели данных.

Supported by Synthesis Group