Related Communities:

Problem Solving in Data-Intensive Domains

Решение задач в областях с интенсивным использованием данных

Вторник 16:20, 523 аудитория (лекции).

Целью курса является изучение современных подходов к решению задач в науке, технологии, бизнесе над большими коллекциями данных разной природы. В курсе демонстрируются конкретные классы задач с применением методов и средств анализа данных. Курс содержит обзор тенденций и направлений развития нескольких широко востребованных классов задач анализа данных.

В курсе рассматриваются:

  • Обзор основных методов поиска необычных, аномальных объектов в данных разной природы (Иван Шанин, Илья Тарабан, ИПИ РАН);
  • Анализ социальных сред, как сообществ и отношений людей, представленных с помощью графовых моделей, включая идентификацию связанных групп, анализ диффузии в группах и между ними, анализ развития сетей (Николай Скворцов, ИПИ РАН);
  • Гипотезо-ориентированный подход к организации научных экспериментов, различные способы представления множества гипотез, формулирование гипотез, способы их тестирования (Дмитрий Ковалев, ИПИ РАН).

План курса

  1. Введение в курс. План лекций. Требования для получения оценки. Поиск аномалий в метрических данных (Слайды).
    Постановка задачи поиска аномалий в метрических данных. Классификация методов. Обзор основых подходов, таких как кластеризация, вероятностные методы. Примеры задач поиска квазаров, как метрических аномалий в астрономии.
  2. Поиск аномалий во временных рядах.
    Одномерные дискретные и непрерывные временные ряды. Позиционный и комбинационный подходы. Методы, основанные на попарных расстояниях. Частотный подход. Скрытые марковские модели. Многомерные дискретные временные ряды. Примеры задач с временными рядами при анализе поломок оборудования.
  3. Поиск аномалий в графах и текстах.
    Текстовые метрики. Основные подходы. LSA. Постановка задачи поиска аномалий в данных, представленных графами. Классификация методов. Примеры поиска спама.
  4. Анализ сообществ в социальных сетях
    Представление сетей. Метрики центральности вершин. Связность и компоненты сети. Модульность сети. Распределение степеней сети. Мосты. Алгоритмы выявления сообществ. Анализ эгоцентрических сетей. Подходы к анализу сообществ в больших сетях. (Слайды)
  5. Анализ сетевых процессов
    Модели развития сетей. Вирусное распространение. Сильные и слабые связи. Модели влияния в социальных сетях. (Слайды)
  6. Примеры задач над социальными сетями
    Примеры анализа социальных сетей в правоохранении, социологии, коммерции. (Слайды)
  7. Гипотезо-ориентированный подход в науках с интенсивным использованием данных (Слайды)
    Роль гипотез в научных экспериментах. Треугольник «гипотезы-модели-данные». Решетки гипотез. Гипотезы в проектах IBM Watson, Robot Scientist, Human Connectome Project, в Безансоновской модели Галактики.
  8. Представление научных гипотез (Слайды)
    Гипотезы как данные в системе γ-DB. Алгоритмическое представление гипотез. Методы машинного обучения для построения гипотез. Логическое представление гипотез. Примеры представлений из перечисленных проектов.
  9. Проверка в гипотезо-ориентированном подходе (Слайды)
    Способы проверки научных гипотез. Классическое статистическое тестирование гипотез. Байесовский подход к тестированию научных гипотез. R и SPSS Statistics – инструменты для статистического тестирования гипотез. Логическое тестирование гипотез. Примеры тестирования в Robot Scientist, IBM Watson, HCP, а также Безансоновской модели Галактики.

Практические занятия

  1. Применение различных методов для решения задачи поиска спама и поддельных страниц в социальных сетях (Архив).
  2. Инструменты анализа графов социальных сетей (Архив).
  3. Формулирование и проверка гипотез из астрономии (Архив).

По ходу курса здесь будут представлены доступные материалы.

(Постер курса)

Контакты: Иван Шанин, Илья Тарабан, Николай Скворцов, Дмитрий Ковалев data-intensive@yandex.ru

Supported by Synthesis Group