Особенности организации спецсеминара и примеры возможных исследовательских тем
Особенности организации семинара
Исследования, разработки и применения, связанные с BIg Data, доминируют в мире, определяют стратегическое направление развития ИТ. Потребности в специалистах, которые имели бы нужную квалификацию в управлении и анализе BIg Data, быстро растут. Такие специалисты ценятся очень высоко. Предлагаемый семинар вместе со связанными с ним курсами направлен на то, чтобы формировать у студентов соответствующие компетенции.
Отличительная особенность этого семинара в том, что он не привязан к какой-либо кафедре ВМК. Мотивацией такого решения является простое соображение: Big Data сейчас интересны всем. Поэтому предлагаемый семинар направлен на изучение и анализ направлений развития методов и средств Big Data mining, высокопроизводительных платформ управления Big Data, их применения в различных областях с интенсивным использованием данных. При этом существенное внимание предполагается уделять вопросам применения Big Data, увязывая теоретические вопросы и инструменты Big Data с конкретными применениями. Такой подход дает возможность студентам различных кафедр согласовывать при необходимости темы своих работ (курсовых, выпускных, дипломных, магистерских диссертаций) со своими кафедральными руководителями так, чтобы по меньшей мере в своей практической части они были привязаны к технологиям BIg Data (такая привязка определяется руководителями семинара). Примеры тем подобных студенческих работ рассматриваются ниже.
Примеры тем возможных работ
В действительности, каждая из тем может быть конкретизирована, что позволяет порождать из нее множество тем
- Трансформация неструктурированного контента в структурированный формат для последующего анализа (например, тексты твитов и блогов, или страницы Веба, или логи, или сенсорные данные, или данные NoSQL моделей, и пр.). Интеграция подобных коллекций. Такие темы могут быть частью более общих тем, предполагающих применение методов анализа (например, машинного обучения) над полученными структурированными данными.
- Методы и средства извлечения информации из данных, включая формирование интегрированных, достоверных, эффективно доступных данных, создание декларативных языков, интерфейсов, масштабируемых алгоритмов для mining, сред для Big Data вычислений.
- Средства композиции и построения многошаговых аналитических комплексов над Big Data для извлечения информации, существенным является использование специальных языков высокого уровня (уровень Map-Reduce, и даже языков, подобных Pig Latin, очень низкий для выражения сложных задач анализа). Нужно выражать, что требуется сделать, а не как.
- Поддержка разнообразия (variety) данных (неоднородность типов и их семантической интерпретации), семантическая интеграция данных (включая унификацию моделей данных, происхождение, неопределенность, слияние данных, и пр.
Информация и вопросы по спецсеминару
проф. д.ф.-м.н. Л. А. Калиниченко (leonidk@synth.ipi.ac.ru)
|