[ Russian ] [ English ]

Анализ данных пользователей социальных сетей

Антон Коршунов,
Институт системного программирования РАН,
korshunov@ispras.ru

Онлайновые социальные сети (Facebook, Twitter, YouTube и другие) к настоящему моменту стали неотъемлемой частью Сети и продолжают набирать популярность [1, 2]. За последнее десятилетие социальные сервисы существенно изменились в плане архитектуры, функционала и пользовательского интерфейса. С одной стороны, это обусловлено стремлением сделать их использование более удобным, а с другой - активной коммерциализацией и необходимостью увеличить время, проводимое пользователями на страницах сервисов.

С точки зрения анализа данных, социальная сеть в её современном понимании представляет собой граф с произвольным числом типов вершин и рёбер, весами и атрибутами, допускающий наличие множественных связей между узлами [3]. Возможность создания текстовых и мультимедийных объектов внутри сети делают её уникальным источником данных о личной жизни и интересах реальных пользователей (переписка, дневники, фотоальбомы, видеозаписи, музыкальные композиции и т.д.). Всё это обуславливает повышенный интерес к сбору и анализу социальных данных со стороны компаний (конкурентное преимущество) и исследовательских институтов (новые задачи и точки приложения известных подходов).

Обработка социальных данных требует также разработки соответствующих алгоритмических и инфраструктурных решений, позволяющих учитывать их размерность. К примеру, граф социальной сети Facebook на сегодняшний день содержит более 1 миллиарда пользовательских аккаунтов и более 100 миллиардов связей между ними. Каждый день пользователи добавляют более 200 миллионов фотографий и оставляют более 2 миллиардов комментариев к различным объектам сети. На сегодняшний день большинство существующих алгоритмов, позволяющих эффективно решать актуальные задачи, не способны обрабатывать данные подобной размерности за приемлемое время. В связи с этим, возникает потребность в новых решениях, позволяющих осуществлять распределённую обработку и хранение данных без существенной потери качества результатов.

Аналитическое агентство Gartner в 2012 году опубликовало отчёт под названием "Цикл ажиотажа для развивающихся технологий" [4]. В частности, из отчёта следует, что технологии "Социальная аналитика" и "Большие данные" в настоящее время находятся на так называемом "пике завышенных ожиданий", что ещё раз подчёркивает актуальность поставленных задач.

Помимо большого объёма данных и высокой динамичности социальной сети, нужно принимать во внимание такие факторы, как нестабильность качества пользовательского контента (спам и ложные аккаунты), проблемы с обеспечением приватности личных данных пользователей при хранении и обработке, а также частые обновления пользовательской модели и функционала. В дополнение к перечисленным проблемам, это требует постоянного совершенствования алгоритмов решения различных аналитических и бизнес-задач.

Доклад посвящён современным проблемам сбора, хранения и обработки пользовательских данных онлайновых социальных сетей, с которыми сталкиваются исследователи Института системного программирования РАН в рамках совместных проектов с компанией Samsung. Дан обзор текущих направлений научных исследований и разработки программного обеспечения. Рассмотрены ключевые проблемы: распределённая обработка больших данных, создание и тестирование новых математических моделей коммуникации и обмена информацией, а также необходимость объединения алгоритмов обработки графовых, текстовых и мультимедийных данных.

В качестве примеров рассмотрены следующие задачи:

  • поиск глобальных и локальных сообществ пользователей [5, 6];
  • интеграция профилей пользователей [7, 8]
  • извлечение демографических атрибутов пользователей
  • получение репрезентативных сэмплов социальных графов.

В заключении доклада сформулированы гипотетические направления дальнейшего развития социальных сетей.

Презентация доклада в формате PDF: korshunov20130530.pdf

Литература:

  1. Boyd, D. M. and Ellison, N. B. (2007). Social network sites: Definition, history, and scholarship. Journal of Computer-Mediated Communication, 13(1), article 11
  2. George Pallis, Demetrios Zeinalipour-Yazti, Marios D. Dikaiakos. Online Social Networks: Status and Trends. New Directions in Web Data Management 1, Studies in Computational Intelligence Volume 331, 2011, pp 213-234
  3. Facebook Open Graph. https://developers.facebook.com/docs/opengraph/
  4. Key Trends to Watch in Gartner 2012 Emerging Technologies Hype Cycle. http://www.forbes.com/sites/gartnergroup/2012/09/18/key-trends-to-watch-in-gartner-2012-emerging-technologies-hype-cycle-2/
  5. Nazar Buzun, Anton Korshunov. Innovative Methods and Measures in Overlapping Community Detection. Proceedings of the International Workshop on Experimental Economics and Machine Learning (EEML 2012), Brussel, Belgium
  6. Назар Бузун, Антон Коршунов. Выявление пересекающихся сообществ в социальных сетях. Доклады Всероссийской научной конференции «Анализ изображений, сетей и текстов» – АИСТ'2012. Екатеринбург, 16-18 марта 2012 г.
  7. Sergey Bartunov, Anton Korshunov, Seung-Taek Park, Wonho Ryu, Hyungdong Lee. Joint Link-Attribute User Identity Resolution in Online Social Networks. Proceedings of The Sixth SIGKDD Workshop on Social Network Mining and Analysis (SNA-KDD’12)
  8. Сергей Бартунов, Антон Коршунов. Идентификация пользователей социальных сетей в Интернет на основе социальных связей. Доклады Всероссийской научной конференции «Анализ изображений, сетей и текстов» – АИСТ'2012. Екатеринбург, 16-18 марта 2012 г.
  9. Social Network Data Analytics. Editors: Charu C. Aggarwal. Springer, 2011
Supported by Synthesis Group