[ Russian ] [ English ]

Измерение семантической близости концепций Википедии, основанное на анализе ссылок между статьями

Денис Турдаков,
ВМК МГУ, ИСП РАН,
turdakov@gmail.com

В настоящее время, автоматическое извлечение информации из текстов и ссылок Web-страниц является одной из ключевых задач информационного поиска. При этом качество получаемой информации напрямую зависит от качества исходных данных. В связи с этим многие исследователи в области интеллектуальных систем, которым необходима информация о семантике как общих, так и специфичных концепций, обратили свое внимание на Википедию. Использование такого богатого и хорошо организованного источника информации, как Википедия, позволит повысить эффективность решения задач информационного поиска и обработки естественного языка.

Открытая on-line энциклопедия Википедия, созданная в 2001 году, к настоящему времени превратилась в высококачественный информационный ресурс, только английская версия которого содержит более 2 миллионов статей. При этом Википедия продолжает изменяться и расширяться, а ее статьи отражают практически все современные тенденции реального мира.

Одним из наиболее общих и, при этом, достаточно мощных семантических инструментов является измерение семантической близости между концепциями. В докладе приводится обзор исследований в этой области. Рассмотрены меры близости между концепциями Викепедии, основанные на мерах Дайса и Джаккарда и предлагается оригинальная эвристика, основанная на свойствах безмасштабных графов [5], для подсчета этих мер в сложных сетях, на примере графа ссылок Википедии. В докладе рассматриваются приложения, основанные на близости концепций, и показана возможность применения меры семантической близости для устранения семантической неоднозначности терминов естественного языка.

Слайды к докладу в формате PDF: turdakov20080327.pdf

Литература:

  1. Gabrilovich, E. and S. Markovitch. 2007. Computing semantic relatedness using Wikipedia-based explicit semantic analysis. Proceedings of IJCAI, 1606-1611
  2. Strube, M. and S. P. Ponzeto. 2006. WikiRelate! Computing semantic relatedness using Wikipedia. In Proceedings of AAAI, 1419-1424.
  3. Silviu Cucerzan. Large-Scale Named Entity Disambiguation Based on Wikipedia Data. In Proc. 2007 Joint Conference on EMNLP and CNLL, pages 708–716, Prague, The Czech Republic, 2007.
  4. Glen Jeh , Jennifer Widom. SimRank: a measure of structural-context similarity. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining, July 23-26, 2002, Edmonton, Alberta, Canada
  5. Albert R. and Barabási A.-L. Statistical mechanics of complex networks. Rev. Mod. Phys. 74, 47–97 (2002).
  6. Christopher Thomas, Amit Sheth. Semantic Convergence of Wikipedia Articles, In Proceedings of the 2007 IEEE/WIC International Conference on Web Intelligence, 2007
  7. Turdakov D. Recommender system based on user-generated content. Proceedings of the Spring Young Researcher's Colloquium on Database and Information Systems SYRCoDIS, Moscow, Russia, 2007
  8. David Milne, Computing Semantic Relatedness using Wikipedia Link Structure, Procroceedings of New Zealand Computer Science Research Student Conference NZCSRSC, 2007
  9. Ollivier Y. and Senellart P. Finding Related Pages Using Green Measures: An Illustration with Wikipedia, In Proceedings of the 22nd National Conference on Artificial Intelligence (AAAI’07), Vancouver, Canada, 22-26 July 2007
  10. Voβ, J. Measuring Wikipedia. Proceedings of 10th International Conference of the International Society for Scientometrics and Informetrics, (Stockholm, Sweden), 2005.
  11. Maciej Janik, Krys Kochut. "Wikipedia in action: Ontological Knowledge in Text Categorization", UGA Technical Report No. UGA-CS-TR-07-001, November 2007
Supported by Synthesis Group