Многофакторный метод построения тематического представления новостного кластера
Современные технологии автоматической обработки новостных потоков основаны на тематической кластеризации новостных сообщений, т.е. на выделении совокупностей новостей, посвященных одному и тому же событию. Именно новостные кластеры являются основными единицами представления информации в новостных сервисах таких, как yandex.news, google.news, rambler.news и др.
Часть проблем сборки и обработки новостных кластеров связана с высокой вариативностью естественного языка, когда в близких по содержанию новостных документах содержится большое количество разнообразных языковых выражений, относящихся к одному и тому же участнику ситуации, описываемой в данном новостном кластере. Например, различные текстовые упоминания единственного реального объекта «авиабаза США в Киргизии» могут порождать длинный ряд текстовых выражений, таких как «база Манас», «авиабаза Манас», «Манас», «база в международном аэропорту Манас», «база США», «американская авиабаза» и другие. Неучет того, что пара разных выражений из текста документа относится одному и тому же объекту может, в частности, приводить к излишним повторам в автоматически порождаемом обзорном реферате такого новостного кластера.
В данном докладе будет рассмотрен метод автоматического порождения тематического представления новостного кластера, в котором выделены группы слов и выражений, соответствующих основным участникам описываемой ситуации. Данные тематические группы строятся на основе совокупности разных видов информации о языковых единицах, включая сходство контекстов их употребления, близость их расположения, внешнее сходство и тезаурусные отношения.
Также будут описаны методы автоматического аннотирования новостного кластера на основе полученного тематического представления и представлены результаты тестирования порождаемых аннотаций посредством метода ROUGE.
Презентация в формате PDF: Alekseev20130425.pdf.
Литература:
- Алексеев А.А., Лукашевич Н.В. Автоматическое извлечение сущностей на основе структуры новостного кластера // Искусственный интеллект и принятие решений. 2011. № 4. – С. 95-103
- Добров Б.В., Павлов Анд.М. Исследование качества базовых методов кластеризации новостного потока в суточном временном окне // Труды конференции RCDL-2010. 2010.
- Лукашевич Н.В., Добров Б.В. Автоматическое аннотирование новостного кластера на основе тематического представления // Компьютерная лингвистика и интеллектуальные технологии по материалам ежегодной Международной конференции «Диалог 2009». Выпуск 8 (15), 2009. С. 299-305.
- Alekseev A, Loukachevitch N. Use of Multiple Features for Extracting Topics from News Clusters //Труды конференции SYRCODIS-2012, 2012. - P. 3-11.
- Dolan B., Quirk Ch., Brockett Ch.: Unsupervised Construction of Large Paraphrase Corpora: Exploiting Massively Parallel News Sources // In: Proceedings of COLING-2004, 2004.
- Li J., Sun L., Kit C., Webster J. A Query-Focused Multi-Document Summarizer Based on Lexical Chains // Proc. of the Document Understanding Conference DUC-2007, 2007.
- Loukachevitch N. Multigraph representation for lexical chaining // Proc. of SENSE workshop, 2009. P. 67-76.
|