Методы автоматического извлечения оценочной лексики для заданной предметной области
Четверкин Илья Игоревич,
ВМК МГУ имени М.В. Ломоносова,
ilia2010@yandex.ru
В связи с бурным развитием Веб 2.0 актуальной является задача анализа тональности отзывов и мнений людей в Интернете. Одной из серьезных проблем при решении данной задачи становится проблема настройки на предметную область. Каждая предметная область может иметь свойственную только ей оценочную лексику, либо значения оценочных слов могут меняться в разных областях. Например, “нужно увидеть” является сильным оценочным выражением в предметной области о фильмах, но нейтральным в предметной области о политике.
В текущем исследовании рассматривается проблема автоматического извлечения словарей оценочных слов для различных предметных областей. Такие словари могут быть полезными при адаптации алгоритмов анализа отзывов. Ранее было показано, что словари оценочной лексики, адаптированные под конкретную предметную область, улучшают качество работы в различных задачах, например в поиске оценочной информации, или в классификации выражений по тональности. Кроме того, извлечение оценочных слов непосредственно из текстовых коллекций позволяет найти сленг и другие несловарные слова, которые могут быть важными факторами при обработке отзывов.
В докладе описывается новый метод извлечения оценочных слов для конкретной предметной области на основе нескольких текстовых коллекций. Разработанный алгоритм был применен к различным предметным областям и продемонстрировал хорошую обобщающую способность. Кроме того, было показано, что предложенный подход может быть использован для извлечения оценочных слов на других языках. На основе извлечения оценочных слов из отзывов нескольких предметных областей был автоматически построен обобщающий список оценочных слов для широкой области товаров.
Для извлеченного, качественного списка оценочных слов в заданной предметной области, важным является определение тональности каждого слова. Для определения тональности предлагается алгоритм, использующий вероятностные графические модели и информацию, содержащуюся в оценках пользователей соответствующих каждому отзыву, собранному из Интернета.
Презентация доклада в формате PDF: chetvrkin20130228.pdf
Литература:
- Blitzer J., Dredze M., Pereira F. Biographies, bollywood, boom-boxes and blenders: Domain adaptation for sentiment classification. //Annual Meeting-Association For Computational Linguistics. 2007. V. 45. P. 440-447.
- Chetviorkin I. and Loukachevitch N. Extraction of Russian Sentiment Lexicon for Product Meta-Domain //Proceedings of COLING 2012.
- Hu M., Liu B. Mining and summarizing customer reviews. //Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining. 2004. P. 168-177.
- Pang B., Lee L. Opinion mining and sentiment analysis. Foundations and Trends in Information Retrieval. Hanover, Massachusetts: Now Publishers, 2008.
|