[ Russian ] [ English ]

Построение социо-демографических профилей пользователей сети Интернет

Андрей Гомзин,
Институт системного программирования РАН,
andrey.gomzin@gmail.com

Пользователи сети Интернет, взаимодействующие в социальных медиа, как правило, имеют публичные страницы, на которых они могут указывать персональную информацию, включая социо-демографические характеристики. К таким характеристикам относятся пол, возраст, семейное положение, уровень образования, профессия, трудоустроенность, национальность, место жительства и другие. Социо-демографический профиль пользователя -- набор значений его социо-демографических атрибутов. По тем или иным причинам далеко не все атрибуты заполняются пользователями. Кроме того, иногда пользователи оставляют в своих профилях ложные сведения. Отсюда возникает задача предсказания неуказанных и неверно указанных социо-демографических атрибутов пользователей. Для определения значений демографических атрибутов пользователей используются различные открытые данные, такие как: тексты публичных сообщений пользователей, отношения дружбы между пользователями, подписки пользователей на сообщества, явно указанные значения атрибутов.

Социо-демографические профили пользователей активно используются в системах интернет-маркетинга и рекомендаций, где особую важность представляет целевая аудитория предлагаемого товара, услуги, информационного продукта. Явно указанные и предсказанные значения демографических атрибутов пользователей могут использоваться как для определения целевой аудитории конкретного продукта, так и для поиска потенциальных потребителей.

В рамках доклада будет рассмотрена задача построения социо-демографических профилей пользователей социальных сетей, будет описан подход к определению значений демографических атрибутов пользователей на примере социальной сети Вконтакте. Подход основан на построении социо-лингвистического графа и применения в нем метода распространения меток.

Слайды доклада.

Литература:

  1. Гомзин А. Г., Кузнецов С. Д. Методы построения социо-демографических профилей пользователей сети Интернет //Труды Института системного программирования РАН. – 2015. – Т. 27. – №. 4.
  2. Filippova K. User demographics and language in an implicit social network //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. – Association for Computational Linguistics, 2012. – С. 1478-1488.
  3. Rao D. et al. Classifying latent user attributes in twitter //Proceedings of the 2nd international workshop on Search and mining user-generated contents. – ACM, 2010. – С. 37-44.
  4. Nguyen D., Smith N. A., Rosé C. P. Author age prediction from text using linear regression //Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. – Association for Computational Linguistics, 2011. – С. 115-123
Supported by Synthesis Group