Извлечение и интеграция информации из больших данных
Information Extraction and Integration from Big Data
Среда, 18-50
Для магистров ВМК МГУ.
Аннотация
В настоящем курсе изучаются методы и инструменты извлечения (mining) и интеграции информации из
различных источников больших данных (в масштабе Веба, социальных сред (Twitter, Linkedin, …), блогов,
публикаций в средствах массовой информации, машинных логов, сенсорных данных, и пр. Большие данные
обычно являются неструктурированными (чаще всего текстовыми), слабоструктурированными (например, в
виде XML, JSON, баз данных NoSQL). Вместе с тем, образуются также и структурированные большие данные
как, например, результат наблюдений (измерений) современными инструментами, накопления
многочисленных таблиц в Вебе. Современные ИТ платформы включают распределенные инфраструктуры
типа Hadoop, обеспечивающие параллельную обработку и анализ таких разноструктурированных больших
данных на основе парадигмы Map/Reduce. Практическая часть предлагаемого курса ориентирована на
подобную платформу на базе IBM BigInsights.
В Курсе рассматриваются
-
программные способы сопряжения различных источников больших данных с кластерными
платформами, что позволяет слушателям погрузиться в реальную среду больших данных;
-
методы извлечения данных о сущностях (entities) реального мира (таких как личности, компании,
продукты, разнообразные объекты исследования, и пр.) из текстов и способы программирования
соответствующих экстракторов на алгебраическом языке AQL;
-
методы извлечения, сопоставления и группирования (matching) и разбора (resolution) путем
связывания (linking), устранения дублирования (deduplication) различных разноструктурированных
представлений информации об одной и той же сущности реального мира (entity resolution);
-
методы и операции слияния (интеграции) данных об одних и тех же сущностях реального мира и их
связей, представленных в разных коллекциях, образованных в процессе разрешения сущностей (в
частности, рассматриваются стратегии и операции устранения конфликтующих данных, операции
поглощения и слияния данных);
-
обзор методов и средств курирования данных, обеспечения качества данных.
Изучаемые методы и операции извлечения и интеграции информации о сущностях реального мира позволяют
программировать интеграционные потоки вида ETL, образующие интегрированные структурированные
данные, которые могут быть использованы в приложениях для дальнейшего анализа и обработки.
Программирование изучаемых методов и операций извлечения и интеграции информации о сущностях
реального мира осуществляется в курсе на декларативном языке HIL (Highlevel Integration Language, новом
языке, разработанном IBM, ориентированным на разбор и интеграцию сущностей в среде Map/Reduce),
используемом совместно с AQL, и отрабатывается на реальных данных.
Программа курса
-
Введение в курс. Извлечение и интеграция информации из больших данных
-
Извлечение данных из разнообразных источников
-
Data Curation and Quality
-
Представление знаний
-
Извлечение информации из текстов
-
Интеграция данных
-
Entity resolution часть 1
-
Entity resolution часть 2
-
Data Fusion часть 1
-
Data Fusion часть 2
-
Практикум по Entity Resolution и Data Fusion
-
Домашние задания
-
Вопросы к зачету
Информация и вопросы по курсу
к.т.н. Д.О. Брюхов (dbriukhov@ipiran.ru)
|