[ Russian ] [ English ]

Поиск в коллекциях текстовых документов на основе методов семантического анализа, использующих универсальные гипертекстовые энциклопедии

Александр Болдаков,
Институт системного программирования РАН,
boldakov@gmail.com

Растущие объёмы текстовой информации в современных информационных системах определяют постоянную актуальность задачи поиска нужной информации. Методы поиска в коллекциях текстовых документов в течение многих лет исследуются и совершенствуются научным сообществом, однако, задача улучшения качества поиска в различных её аспектах остается актуальной и по сей день [1,2].

В настоящее время активно развиваются методы семантического анализа текстов, использующие универсальные гипертекстовые энциклопедии как универсальные базы знаний. Наиболее известным и характерным примером такой энциклопедии является Wikipedia [3]. В частности, методы, основанные на анализе структуры Wikipedia, нацелены на решение проблем снятия лексической многозначности, выделения ключевых слов, нахождения терминов, семантически близких к заданному и др. [4,5].

В докладе дается обзор методов семантического анализа текстов, основанных на использовании Wikipedia как универсальной актуальной базы знаний. Рассматриваются вопросы применения этих методов для улучшения качества поиска в коллекциях текстовых документов и автоматического извлечения полезных категорий для навигации по результатам поиска.

Слайды к докладу в формате PPT: boldakov08.ppt

Литература:

  1. A. Singhal. Modern Information Retrieval: A Brief Overview. http://singhal.info/ieee2001.pdf
  2. J.Zobel et al. Inverted Files for Text Search Engines. ACM Computing Surveys 38 (2): 6.
  3. Wikipedia, the free encyclopedia. http://www.wikipedia.org/
  4. D.Turdakov and P. Velikhov. Semantic relatedness metric for wikipedia concepts based on link analysis and its application to word sense disambiguation. In Colloquium on Databases and Information Systems (SYRCoDIS), 2008.
  5. M.Grineva et al. Effective Extraction of Thematically Grouped Key Terms From Text. AAAI-SSS-09: Social Semantic Web: Where Web 2.0 Meets Web 3.0.
Supported by Synthesis Group