[ Russian ] [ English ]

Построение онтологий предметных областей с помощью структуры категорий Википедии

Антон Коршунов,
Институт системного программирования РАН,
korshunov@ispras.ru

Википедия хорошо известна как самый большой и быстро расширяющийся источник информации в мире. Она объединяет знания большого количества предметных областей практически на всех языках. Одним из самых перспективных направлений исследований, связанных с Википедией, является автоматическое построение онтологий путём извлечения из неё концептов и информации об отношениях между ними. Примерами таких онтологий являются DBpedia (http://dbpedia.org/About) и YAGO2 (http://www.mpi-inf.mpg.de/yago-naga/yago/). Большинство подходов используют, в основном, информацию, содержащуюся в структуре категорий Википедии, а также в содержимом infobox-шаблонов. Вследствие постоянного усовершенствования этих алгоритмов продуцируемые онтологии имеют достаточно высокое качество. Однако, несмотря на успехи в автоматическом построении онтологий верхнего уровня, большинство онтологий предметных областей по-прежнему создаются вручную. Излишне говорить, что создание и поддержание актуальности подобных онтологий зачастую довольно затратно.

В представленной работе рассматривается возможность автоматического извлечения онтологий предметных областей из онтологий верхнего уровня (на примере Википедии). Такое преобразование становится возможным в последние годы в связи с тем, что Википедия постоянно расширяется и включает всё больше предметных областей. Кроме того, многие узкие специалисты чаще склонны расширять хорошо известные и широко распространённые онтологии, чем создавать новые или улучшать другие предметно-ориентированные онтологии.

Данное исследование было вызвано необходимостью уменьшения размеров базы знаний для Texterra (http://modis.ispras.ru/texterra/), фреймворка для обработки текстов. Эта база включает набор текстовых индексов, полученных путём обработки дампа Википедии. Они загружаются в оперативную память сервера Texterra и занимают около 4,5 Гб на диске и 2 Гб в памяти. Такое потребление памяти приемлемо для обычных рабочих станций, но не для мобильных устройств с ограниченным объёмом памяти. Целью исследования была выработка алгоритма для построения уменьшенных предметно-ориентированных версий базы знаний, предназначенных для использования в мобильных приложениях.

Важной частью функциональности Texterra является разрешение лексической многозначности (дизамбигуация) ID3-тегов музыкальных файлов. Этот алгоритм на данный момент достаточно хорошо оптимизирован и показывает 98%-ную точность на специальном тестовом наборе данных. Однако, очевидно, что только небольшая часть концептов Википедии на самом деле используется при обработке ID3-тегов (в основном, названия композиций, имена их авторов и исполнителей). В ходе исследования была разработана система, позволяющая получать подмножество словаря концептов Википедии, охватывающее знания выбранной предметной области (на примере музыкальных композиций). Данный подход применим не только к Википедии, но также и к любой онтологии c полииерархической таксономией.

Из множества интересных особенностей Википедии в данном исследовании используется только структура категорий, которая играет роль таксономии. Таким образом, задача сводится к поиску концептов, имеющих достаточно сильную семантическую связь с набором базовых категорий, задающих предметную область. Однако структура категорий Википедии имеет не древовидную, а сетевую структуру со множеством пересекающихся иерархий, что делает невозможным простое определение множества концептов, принадлежащих заданной категории. Каждая статья имеет список соответствующих ей категорий, который зачастую избыточен и противоречив.

Для решения этой проблемы был использован Concept Vectorization Method, предложенный Shirakawa et al. [1]. Авторы метода представляют связи между концептами и категориями в виде вектора, каждое измерение которого содержит информацию не только о факте наличия связи, но также и о силе связи между данным концептом и базовой категорией. В результате дальнейшей обработки вектора получается список предметно-ориентированных концептов, который в дальнейшем используется для получения уменьшенной версии базы знаний Texterra. В результате предложенный подход позволил уменьшить размер базы знаний Texterra более чем на порядок, при этом точность дизамбигуации ID3-тегов музыкальных композиций уменьшилась с 98% до 64%.

Кроме того, для обеспечения быстрого доступа к любому участку структуры категорий Википедии, был разработан WikiGraph - оригинальная структура для хранения и обработки информации и связях между категориями и концептами.

Слайды к докладу в формате PDF: korshunov20110428.pdf

Литература:

  1. M. Shirakawa, K. Nakayama, T. Hara, S. Nishio. Concept Vector Extraction from Wikipedia Category Network. In Proceedings of 3rd International Conference on Ubiquitous Information Management and Communication (ICUIMC 2009), pp. 71-79, 2009.
  2. G. Y. Cui, Q. Lu, W. J. Li, Y. R. Chen. Corpus Exploitation from Wikipedia for Ontology Construction. In LREC 2008, Marrakech, pp. 2125-2132, 2008.
  3. Simone P. Ponzetto, Michael Strube. Deriving a large scale taxonomy from Wikipedia. In AAAI'07: Proceedings of the 22nd national conference on Artificial intelligence, pp. 1440-1445, 2007.
  4. P. Buitelaar, P. Cimiano, B. Magnini (Eds.). Ontology Learning from Text: Methods, Evaluation and Applications. In Frontiers in Artificial Intelligence and Applications Series, Vol. 123, IOS Press, July 2005.
  5. A. Gregorowicz, M. A. Kramer. Mining a Large-Scale Term-Concept Network from Wikipedia. Technical Report #06-1028, The MITRE Corp., Oct. 2006.
  6. Cäcilia Zirn, Vivi Nastase, Michael Strube. Distinguishing between instances and classes in the Wikipedia taxonomy. In Proc. of ESWC-08, pages 376-387, 2008.
  7. Gaoying Cui, Qin Lu, Wenjie Li, Yi-Rong Chen. Mining Concepts from Wikipedia for Ontology Construction. In Proceedings of Web Intelligence/IAT Workshops, pp.287-290, 2009.
  8. J. Hoffart, F. Suchanek, K. Berberich, G. Weikum. YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia. Research Report MPI-I-2010-5-007, Max-Planck-Institut für Informatik, November 2010.
  9. D. Turdakov, P. Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation. In Proc. of SYRCoDIS, 2008.
  10. T. Zesch, I. Gurevych. Analysis of the Wikipedia Category Graph for NLP Applications. In Proceedings of the TextGraphs-2 Workshop (NAACL-HLT), 2007.
  11. S. Chernov, T. Iofciu, W. Nejdl, X. Zhou. Extracting Semantic Relationships between Wikipedia Categories. In Proceedings of the First International Workshop on Semantic Wikis - From Wiki To Semantics, June 2006.
  12. M. Strube, S. P. Ponzetto. WikiRelate! Computing semantic relatedness using Wikipedia. In Proceedings of the 21st national conference on Artificial intelligence (AAAI'06), pp. 1419-1424, 2006.
  13. Z. Syed, T. Finin, and A. Joshi. Wikipedia as an Ontology for Describing Documents. In Proceedings of the Second International Conference on Weblogs and Social Media, 2008.
Supported by Synthesis Group