Измерение семантической близости концепций Википедии, основанное на анализе ссылок между статьями
В настоящее время, автоматическое извлечение информации из текстов и ссылок Web-страниц является одной из ключевых задач информационного поиска. При этом качество получаемой информации напрямую зависит от качества исходных данных. В связи с этим многие исследователи в области интеллектуальных систем, которым необходима информация о семантике как общих, так и специфичных концепций, обратили свое внимание на Википедию. Использование такого богатого и хорошо организованного источника информации, как Википедия, позволит повысить эффективность решения задач информационного поиска и обработки естественного языка.
Открытая on-line энциклопедия Википедия, созданная в 2001 году, к настоящему времени превратилась в высококачественный информационный ресурс, только английская версия которого содержит более 2 миллионов статей. При этом Википедия продолжает изменяться и расширяться, а ее статьи отражают практически все современные тенденции реального мира.
Одним из наиболее общих и, при этом, достаточно мощных семантических инструментов является измерение семантической близости между концепциями. В докладе приводится обзор исследований в этой области. Рассмотрены меры близости между концепциями Викепедии, основанные на мерах Дайса и Джаккарда и предлагается оригинальная эвристика, основанная на свойствах безмасштабных графов [5], для подсчета этих мер в сложных сетях, на примере графа ссылок Википедии. В докладе рассматриваются приложения, основанные на близости концепций, и показана возможность применения меры семантической близости для устранения семантической неоднозначности терминов естественного языка.
Слайды к докладу в формате PDF: turdakov20080327.pdf
Литература:
- Gabrilovich, E. and S. Markovitch. 2007. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. Proceedings of IJCAI, 1606-1611
- Strube, M. and S. P. Ponzeto. 2006. WikiRelate! Computing semantic relatedness using Wikipedia. In Proceedings of AAAI, 1419-1424.
- Silviu Cucerzan. Large-Scale Named Entity Disambiguation Based on Wikipedia Data. In Proc. 2007 Joint Conference on EMNLP and CNLL, pages 708–716, Prague, The Czech Republic, 2007.
- Glen Jeh , Jennifer Widom. SimRank: a measure of structural-context similarity. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, July 23-26, 2002, Edmonton, Alberta, Canada
- Albert R. and Barabási A.-L. Statistical mechanics of complex networks. Rev. Mod. Phys. 74, 47–97 (2002).
- Christopher Thomas, Amit Sheth. Semantic Convergence of Wikipedia Articles, In Proceedings of the 2007 IEEE/WIC International Conference on Web Intelligence, 2007
- Turdakov D. Recommender system based on user-generated content. Proceedings of the Spring Young Researcher's Colloquium on Database and Information Systems SYRCoDIS, Moscow, Russia, 2007
- David Milne, Computing Semantic Relatedness using Wikipedia Link Structure, Procroceedings of New Zealand Computer Science Research Student Conference NZCSRSC, 2007
- Ollivier Y. and Senellart P. Finding Related Pages Using Green Measures: An Illustration with Wikipedia, In Proceedings of the 22nd National Conference on Artificial Intelligence (AAAI’07), Vancouver, Canada, 22-26 July 2007
- Voβ, J. Measuring Wikipedia. Proceedings of 10th International Conference of the International Society for Scientometrics and Informetrics, (Stockholm, Sweden), 2005.
- Maciej Janik, Krys Kochut. "Wikipedia in action: Ontological Knowledge in Text Categorization", UGA Technical Report No. UGA-CS-TR-07-001, November 2007
|