Выделение ключевых терминов из сообщений микроблогов
На сегодняшний день одной из самых важных и заметных областей Web 2.0, ключевым принципом которой является участие пользователей в работе сайтов, являются сетевые дневники, или веб-логи, сокращённо называемые блогами. Концептуальным развитием блогов, обусловленным их широкой социализацией, являются микроблоги, которые имеют ряд характерных особенностей: ограниченная длина сообщений, большая частота публикаций, разнообразная тематика, различные пути доставки сообщений и т.д.
Первый и наиболее известный сервис микроблогов Twitter был запущен в октябре 2006 г. компанией "Obvious" из Сан-Франциско. К настоящему времени постоянно растущая аудитория сервиса составляет около 6 миллионов человек. Очевидно, что автоматизированное выделение наиболее значимых терминов из потока сообщений, генерируемого сообществом Twitter, представляет значительный практический интерес как для определения интересов различных групп пользователей, так и построения индивидуального профайла для каждого из них.
Однако нужно отметить, что классические статистические методы экстракции ключевых терминов, основанные на анализе коллекций документов, малоэффективны в данном случае, что обусловлено чрезвычайно малой длиной сообщений (до 140 символов), их разнообразной тематикой и отсутствием связи между собой, а также обилием редко используемых аббревиатур, сокращений и элементов специфического микросинтаксиса.
В связи с этим в представленной работе для определения значимости терминов в анализируемом контексте используются данные о частоте их использования в качестве ключевых в интернет-энциклопедии Википедия. Работа алгоритма основана на расчёте для каждого термина его "информативности", т.е. оценки вероятности того, что он может быть выбран ключевым в тексте. В дальнейшем к анализируемому набору терминов применяется ряд эвристик, результатом которых является список терминов, сочтённых ключевыми.
В ходе тестирования разработанный алгоритм показывал удовлетворительные результаты в условиях поставленной задачи, существенно опережая аналоги.
В качестве демонстрации возможного применения разработанного алгоритма был реализован прототип системы контекстной рекламы, т.е. получение с сервера интернет-магазина Amazon описаний товаров, релевантных найденным ключевым терминам. Сформулированы также варианты использования информации, полученной путём анализа сообщений Twitter, для реализации различных вспомогательных сервисов.
Слайды к докладу в формате PPT: korshunov20100325.ppt
Литература:
- Maria Grineva, Maxim Grinev, Dmitry Lizorkin. Effective Extraction of Thematically Grouped Key Terms From Text. - Proc. of the AAAI 2009 Spring Symposium on Social Semantic Web. - pp. 39-44.
- Mihalcea, R., and Csomai, A. 2007. Wikify!: linking documents to encyclopedic knowledge. In CIKM '07: Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, 233-242. New York, NY, USA: ACM.
- Joel W. Reed, Yu Jiao, Thomas E. Potok, Brian A. Klump, Mark T. Elmore, and Ali R. Hurson. TF-ICF: A New Term Weighting Scheme for Clustering Dynamic Data Streams. In Proc. Machine Learning and Applications, 2006, ICMLA '06, pp. 258-263.
- Martin Ebner. Microblogging - more than fun? Procceding of IADIS Mobile Learning Conference 2008, Inmaculada Arnedillo Sбnchez and Pedro Isaнas ed., Algarve, Portugal, 2008, p. 155-159
- Bцhringer, M. (2009): Really Social Syndication: A Conceptual View on Microblogging (Others). In: Sprouts: Working Papers on Information Systems, 9(31).
- McFedries, P. (2007). All A-Twitter. IEEE Spectrum, October 2007, 84.
- Java, A., Song, X., Finin, T., and Tseng, B. Why we twitter: understanding microblogging usage and communities. In Proc. WebKDD/SNA-KDD '07, ACM Press (2007).
- Krishnamurthy, B., Gill, P., and Arlitt, M. A few chirps about twitter. In Proc. WOSP '08. ACM Press (2008).
- Zhao, Dejin and Mary Rosson. How and why people Twitter: the role that micro-blogging plays in informal communication at work. - Proceedings of the ACM 2009 international conference on Supporting group work, 2009. Web. 3 Aug 2009.
- Honeycutt, C., & Herring, S. Beyond microblogging: Conversation and collaboration via Twitter. In Proc.HICSS '09. IEEE Press (2009).
- Naaman, Mor, Jeffrey Boase and Chi-Hui Lai. 2009. Is it really about me? Message content in social awareness streams. CSCW 2010, February 6-10, 2010, Savannah, Georgia, USA.
- Huberman, B., Romero, D., and Wu, F. Social networks that matter: Twitter under the microscope. First Monday [Online] 14, 1 (2008).
- P. Turney. 1999. Learning to extract keyphrases from text. Technical report, National Research Council, Institute for Informational Technology.
- Salton., G. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley, 1989.
- van Rijsbergen, C.J. (1979). Information Retrieval. Second edition. London: Butterworths.
- Lewis, D.D. (1995). Evaluating and optimizing autonomous text classification systems. In E.A. Fox, P. Ingwersen, and R. Fidel, editors, SIGIR-95: Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 246-254, New York: ACM.
|