Решение задач в областях с интенсивным использованием данных
Вторник 16:20, 523 аудитория (лекции).
Целью курса является изучение современных подходов к решению задач в науке, технологии, бизнесе над большими коллекциями данных разной природы. В курсе демонстрируются конкретные классы задач с применением методов и средств анализа данных. Курс содержит обзор тенденций и направлений развития нескольких широко востребованных классов задач анализа данных.
В курсе рассматриваются:
- Обзор основных методов поиска необычных, аномальных объектов в данных разной природы (Иван Шанин, Илья Тарабан, ИПИ РАН);
- Анализ социальных сред, как сообществ и отношений людей, представленных с помощью графовых моделей, включая идентификацию связанных групп, анализ диффузии в группах и между ними, анализ развития сетей (Николай Скворцов, ИПИ РАН);
- Гипотезо-ориентированный подход к организации научных экспериментов, различные способы представления множества гипотез, формулирование гипотез, способы их тестирования (Дмитрий Ковалев, ИПИ РАН).
План курса
- Введение в курс. План лекций. Требования для получения оценки. Поиск аномалий в метрических данных (Слайды).
Постановка задачи поиска аномалий в метрических данных. Классификация методов. Обзор основых подходов, таких как кластеризация, вероятностные методы. Примеры задач поиска квазаров, как метрических аномалий в астрономии.
- Поиск аномалий во временных рядах.
Одномерные дискретные и непрерывные временные ряды. Позиционный и комбинационный подходы. Методы, основанные на попарных расстояниях. Частотный подход. Скрытые марковские модели. Многомерные дискретные временные ряды. Примеры задач с временными рядами при анализе поломок оборудования.
- Поиск аномалий в графах и текстах.
Текстовые метрики. Основные подходы. LSA. Постановка задачи поиска аномалий в данных, представленных графами. Классификация методов. Примеры поиска спама.
- Анализ сообществ в социальных сетях
Представление сетей. Метрики центральности вершин. Связность и компоненты сети. Модульность сети. Распределение степеней сети. Мосты. Алгоритмы выявления сообществ. Анализ эгоцентрических сетей. Подходы к анализу сообществ в больших сетях. (Слайды)
- Анализ сетевых процессов
Модели развития сетей. Вирусное распространение. Сильные и слабые связи. Модели влияния в социальных сетях. (Слайды)
- Примеры задач над социальными сетями
Примеры анализа социальных сетей в правоохранении, социологии, коммерции. (Слайды)
- Гипотезо-ориентированный подход в науках с интенсивным использованием данных (Слайды)
Роль гипотез в научных экспериментах. Треугольник «гипотезы-модели-данные». Решетки гипотез. Гипотезы в проектах IBM Watson, Robot Scientist, Human Connectome Project, в Безансоновской модели Галактики.
- Представление научных гипотез (Слайды)
Гипотезы как данные в системе γ-DB. Алгоритмическое представление гипотез. Методы машинного обучения для построения гипотез. Логическое представление гипотез. Примеры представлений из перечисленных проектов.
- Проверка в гипотезо-ориентированном подходе (Слайды)
Способы проверки научных гипотез. Классическое статистическое тестирование гипотез. Байесовский подход к тестированию научных гипотез. R и SPSS Statistics – инструменты для статистического тестирования гипотез. Логическое тестирование гипотез. Примеры тестирования в Robot Scientist, IBM Watson, HCP, а также Безансоновской модели Галактики.
Практические занятия
- Применение различных методов для решения задачи поиска спама и поддельных страниц в социальных сетях (Архив).
- Инструменты анализа графов социальных сетей (Архив).
- Формулирование и проверка гипотез из астрономии (Архив).
По ходу курса здесь будут представлены доступные материалы.
(Постер курса)
Контакты: Иван Шанин, Илья Тарабан, Николай Скворцов, Дмитрий Ковалев data-intensive@yandex.ru
|