Анализ данных пользователей социальных сетей
Антон Коршунов,
Институт системного программирования РАН,
korshunov@ispras.ru
Онлайновые социальные сети (Facebook, Twitter, YouTube и другие) к настоящему моменту стали неотъемлемой частью Сети и продолжают набирать популярность [1, 2]. За последнее десятилетие социальные сервисы существенно изменились в плане архитектуры, функционала и пользовательского интерфейса. С одной стороны, это обусловлено стремлением сделать их использование более удобным, а с другой - активной коммерциализацией и необходимостью увеличить время, проводимое пользователями на страницах сервисов.
С точки зрения анализа данных, социальная сеть в её современном понимании представляет собой граф с произвольным числом типов вершин и рёбер, весами и атрибутами, допускающий наличие множественных связей между узлами [3]. Возможность создания текстовых и мультимедийных объектов внутри сети делают её уникальным источником данных о личной жизни и интересах реальных пользователей (переписка, дневники, фотоальбомы, видеозаписи, музыкальные композиции и т.д.). Всё это обуславливает повышенный интерес к сбору и анализу социальных данных со стороны компаний (конкурентное преимущество) и исследовательских институтов (новые задачи и точки приложения известных подходов).
Обработка социальных данных требует также разработки соответствующих алгоритмических и инфраструктурных решений, позволяющих учитывать их размерность. К примеру, граф социальной сети Facebook на сегодняшний день содержит более 1 миллиарда пользовательских аккаунтов и более 100 миллиардов связей между ними. Каждый день пользователи добавляют более 200 миллионов фотографий и оставляют более 2 миллиардов комментариев к различным объектам сети. На сегодняшний день большинство существующих алгоритмов, позволяющих эффективно решать актуальные задачи, не способны обрабатывать данные подобной размерности за приемлемое время. В связи с этим, возникает потребность в новых решениях, позволяющих осуществлять распределённую обработку и хранение данных без существенной потери качества результатов.
Аналитическое агентство Gartner в 2012 году опубликовало отчёт под названием "Цикл ажиотажа для развивающихся технологий" [4]. В частности, из отчёта следует, что технологии "Социальная аналитика" и "Большие данные" в настоящее время находятся на так называемом "пике завышенных ожиданий", что ещё раз подчёркивает актуальность поставленных задач.
Помимо большого объёма данных и высокой динамичности социальной сети, нужно принимать во внимание такие факторы, как нестабильность качества пользовательского контента (спам и ложные аккаунты), проблемы с обеспечением приватности личных данных пользователей при хранении и обработке, а также частые обновления пользовательской модели и функционала. В дополнение к перечисленным проблемам, это требует постоянного совершенствования алгоритмов решения различных аналитических и бизнес-задач.
Доклад посвящён современным проблемам сбора, хранения и обработки пользовательских данных онлайновых социальных сетей, с которыми сталкиваются исследователи Института системного программирования РАН в рамках совместных проектов с компанией Samsung. Дан обзор текущих направлений научных исследований и разработки программного обеспечения. Рассмотрены ключевые проблемы: распределённая обработка больших данных, создание и тестирование новых математических моделей коммуникации и обмена информацией, а также необходимость объединения алгоритмов обработки графовых, текстовых и мультимедийных данных.
В качестве примеров рассмотрены следующие задачи:
- поиск глобальных и локальных сообществ пользователей [5, 6];
- интеграция профилей пользователей [7, 8]
- извлечение демографических атрибутов пользователей
- получение репрезентативных сэмплов социальных графов.
В заключении доклада сформулированы гипотетические направления дальнейшего развития социальных сетей.
Презентация доклада в формате PDF: korshunov20130530.pdf
Литература:
- Boyd, D. M. and Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, 13(1), article 11
- George Pallis, Demetrios Zeinalipour-Yazti, Marios D. Dikaiakos. Online Social Networks: Status and Trends. New Directions in Web Data Management 1, Studies in Computational Intelligence Volume 331, 2011, pp 213-234
- Facebook Open Graph. https://developers.facebook.com/docs/opengraph/
- Key Trends to Watch in Gartner 2012 Emerging Technologies Hype Cycle. http://www.forbes.com/sites/gartnergroup/2012/09/18/key-trends-to-watch-in-gartner-2012-emerging-technologies-hype-cycle-2/
- Nazar Buzun, Anton Korshunov. Innovative Methods and Measures in Overlapping Community Detection. Proceedings of the International Workshop on Experimental Economics and Machine Learning (EEML 2012), Brussel, Belgium
- Назар Бузун, Антон Коршунов. Выявление пересекающихся сообществ в социальных сетях. Доклады Всероссийской научной конференции «Анализ изображений, сетей и текстов» – АИСТ'2012. Екатеринбург, 16-18 марта 2012 г.
- Sergey Bartunov, Anton Korshunov, Seung-Taek Park, Wonho Ryu, Hyungdong Lee. Joint Link-Attribute User Identity Resolution in Online Social Networks. Proceedings of The Sixth SIGKDD Workshop on Social Network Mining and Analysis (SNA-KDD’12)
- Сергей Бартунов, Антон Коршунов. Идентификация пользователей социальных сетей в Интернет на основе социальных связей. Доклады Всероссийской научной конференции «Анализ изображений, сетей и текстов» – АИСТ'2012. Екатеринбург, 16-18 марта 2012 г.
- Social Network Data Analytics. Editors: Charu C. Aggarwal. Springer, 2011
|