Построение социо-демографических профилей пользователей сети Интернет
Андрей Гомзин,
Институт системного программирования РАН,
andrey.gomzin@gmail.com
Пользователи сети Интернет, взаимодействующие в социальных медиа, как правило, имеют публичные страницы, на которых они могут указывать персональную информацию, включая социо-демографические характеристики. К таким характеристикам относятся пол, возраст, семейное положение, уровень образования, профессия, трудоустроенность, национальность, место жительства и другие. Социо-демографический профиль пользователя -- набор значений его социо-демографических атрибутов. По тем или иным причинам далеко не все атрибуты заполняются пользователями. Кроме того, иногда пользователи оставляют в своих профилях ложные сведения. Отсюда возникает задача предсказания неуказанных и неверно указанных социо-демографических атрибутов пользователей. Для определения значений демографических атрибутов пользователей используются различные открытые данные, такие как: тексты публичных сообщений пользователей, отношения дружбы между пользователями, подписки пользователей на сообщества, явно указанные значения атрибутов.
Социо-демографические профили пользователей активно используются в системах интернет-маркетинга и рекомендаций, где особую важность представляет целевая аудитория предлагаемого товара, услуги, информационного продукта. Явно указанные и предсказанные значения демографических атрибутов пользователей могут использоваться как для определения целевой аудитории конкретного продукта, так и для поиска потенциальных потребителей.
В рамках доклада будет рассмотрена задача построения социо-демографических профилей пользователей социальных сетей, будет описан подход к определению значений демографических атрибутов пользователей на примере социальной сети Вконтакте. Подход основан на построении социо-лингвистического графа и применения в нем метода распространения меток.
Слайды доклада.
Литература:
- Гомзин А. Г., Кузнецов С. Д. Методы построения социо-демографических профилей пользователей сети Интернет //Труды Института системного программирования РАН. – 2015. – Т. 27. – №. 4.
- Filippova K. User demographics and language in an implicit social network //Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning. – Association for Computational Linguistics, 2012. – С. 1478-1488.
- Rao D. et al. Classifying latent user attributes in twitter //Proceedings of the 2nd international workshop on Search and mining user-generated contents. – ACM, 2010. – С. 37-44.
- Nguyen D., Smith N. A., Rosé C. P. Author age prediction from text using linear regression //Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural
Heritage, Social Sciences, and Humanities. – Association for Computational Linguistics,
2011. – С. 115-123
|