Поиск в коллекциях текстовых документов на основе методов семантического анализа, использующих универсальные гипертекстовые энциклопедии
Александр Болдаков,
Институт системного программирования РАН,
boldakov@gmail.com
Растущие объёмы текстовой информации в современных информационных системах определяют постоянную актуальность задачи поиска нужной информации. Методы поиска в коллекциях текстовых документов в течение многих лет исследуются и совершенствуются научным сообществом, однако, задача улучшения качества поиска в различных её аспектах остается актуальной и по сей день [1,2].
В настоящее время активно развиваются методы семантического анализа текстов, использующие универсальные гипертекстовые энциклопедии как универсальные базы знаний. Наиболее известным и характерным примером такой энциклопедии является Wikipedia [3]. В частности, методы, основанные на анализе структуры Wikipedia, нацелены на решение проблем снятия лексической многозначности, выделения ключевых слов, нахождения терминов, семантически близких к заданному и др. [4,5].
В докладе дается обзор методов семантического анализа текстов, основанных на использовании Wikipedia как универсальной актуальной базы знаний. Рассматриваются вопросы применения этих методов для улучшения качества поиска в коллекциях текстовых документов и автоматического извлечения полезных категорий для навигации по результатам поиска.
Слайды к докладу в формате PPT: boldakov08.ppt
Литература:
- A. Singhal. Modern Information Retrieval: A Brief Overview. http://singhal.info/ieee2001.pdf
- J.Zobel et al. Inverted Files for Text Search Engines. ACM Computing Surveys 38 (2): 6.
- Wikipedia, the free encyclopedia. http://www.wikipedia.org/
- D.Turdakov and P. Velikhov. Semantic relatedness metric for wikipedia concepts based on link analysis and its application to word sense disambiguation. In Colloquium on Databases and Information Systems (SYRCoDIS), 2008.
- M.Grineva et al. Effective Extraction of Thematically Grouped Key Terms From Text. AAAI-SSS-09: Social Semantic Web: Where Web 2.0 Meets Web 3.0.
|