Построение онтологий предметных областей с помощью структуры категорий Википедии
Антон Коршунов,
Институт системного программирования РАН,
korshunov@ispras.ru
Википедия хорошо известна как самый большой и быстро расширяющийся источник информации в мире. Она объединяет знания большого количества предметных областей практически на всех языках. Одним из самых перспективных направлений исследований, связанных с Википедией, является автоматическое построение онтологий путём извлечения из неё концептов и информации об отношениях между ними. Примерами таких онтологий являются DBpedia (http://dbpedia.org/About) и YAGO2 (http://www.mpi-inf.mpg.de/yago-naga/yago/). Большинство подходов используют, в основном, информацию, содержащуюся в структуре категорий Википедии, а также в содержимом infobox-шаблонов. Вследствие постоянного усовершенствования этих алгоритмов продуцируемые онтологии имеют достаточно высокое качество. Однако, несмотря на успехи в автоматическом построении онтологий верхнего уровня, большинство онтологий предметных областей по-прежнему создаются вручную. Излишне говорить, что создание и поддержание актуальности подобных онтологий зачастую довольно затратно.
В представленной работе рассматривается возможность автоматического извлечения онтологий предметных областей из онтологий верхнего уровня (на примере Википедии). Такое преобразование становится возможным в последние годы в связи с тем, что Википедия постоянно расширяется и включает всё больше предметных областей. Кроме того, многие узкие специалисты чаще склонны расширять хорошо известные и широко распространённые онтологии, чем создавать новые или улучшать другие предметно-ориентированные онтологии.
Данное исследование было вызвано необходимостью уменьшения размеров базы знаний для Texterra (http://modis.ispras.ru/texterra/), фреймворка для обработки текстов. Эта база включает набор текстовых индексов, полученных путём обработки дампа Википедии. Они загружаются в оперативную память сервера Texterra и занимают около 4,5 Гб на диске и 2 Гб в памяти. Такое потребление памяти приемлемо для обычных рабочих станций, но не для мобильных устройств с ограниченным объёмом памяти. Целью исследования была выработка алгоритма для построения уменьшенных предметно-ориентированных версий базы знаний, предназначенных для использования в мобильных приложениях.
Важной частью функциональности Texterra является разрешение лексической многозначности (дизамбигуация) ID3-тегов музыкальных файлов. Этот алгоритм на данный момент достаточно хорошо оптимизирован и показывает 98%-ную точность на специальном тестовом наборе данных. Однако, очевидно, что только небольшая часть концептов Википедии на самом деле используется при обработке ID3-тегов (в основном, названия композиций, имена их авторов и исполнителей). В ходе исследования была разработана система, позволяющая получать подмножество словаря концептов Википедии, охватывающее знания выбранной предметной области (на примере музыкальных композиций). Данный подход применим не только к Википедии, но также и к любой онтологии c полииерархической таксономией.
Из множества интересных особенностей Википедии в данном исследовании используется только структура категорий, которая играет роль таксономии. Таким образом, задача сводится к поиску концептов, имеющих достаточно сильную семантическую связь с набором базовых категорий, задающих предметную область. Однако структура категорий Википедии имеет не древовидную, а сетевую структуру со множеством пересекающихся иерархий, что делает невозможным простое определение множества концептов, принадлежащих заданной категории. Каждая статья имеет список соответствующих ей категорий, который зачастую избыточен и противоречив.
Для решения этой проблемы был использован Concept Vectorization Method, предложенный Shirakawa et al. [1]. Авторы метода представляют связи между концептами и категориями в виде вектора, каждое измерение которого содержит информацию не только о факте наличия связи, но также и о силе связи между данным концептом и базовой категорией. В результате дальнейшей обработки вектора получается список предметно-ориентированных концептов, который в дальнейшем используется для получения уменьшенной версии базы знаний Texterra.
В результате предложенный подход позволил уменьшить размер базы знаний Texterra более чем на порядок, при этом точность дизамбигуации ID3-тегов музыкальных композиций уменьшилась с 98% до 64%.
Кроме того, для обеспечения быстрого доступа к любому участку структуры категорий Википедии, был разработан WikiGraph - оригинальная структура для хранения и обработки информации и связях между категориями и концептами.
Слайды к докладу в формате PDF: korshunov20110428.pdf
Литература:
- M. Shirakawa, K. Nakayama, T. Hara, S. Nishio. Concept Vector Extraction from Wikipedia Category Network. In Proceedings of 3rd International Conference on Ubiquitous Information Management and Communication (ICUIMC 2009), pp. 71-79, 2009.
- G. Y. Cui, Q. Lu, W. J. Li, Y. R. Chen. Corpus Exploitation from Wikipedia for Ontology Construction. In LREC 2008, Marrakech, pp. 2125-2132, 2008.
- Simone P. Ponzetto, Michael Strube. Deriving a large scale taxonomy from Wikipedia. In AAAI'07: Proceedings of the 22nd national conference on Artificial intelligence, pp. 1440-1445, 2007.
- P. Buitelaar, P. Cimiano, B. Magnini (Eds.). Ontology Learning from Text: Methods, Evaluation and Applications. In Frontiers in Artificial Intelligence and Applications Series, Vol. 123, IOS Press, July 2005.
- A. Gregorowicz, M. A. Kramer. Mining a Large-Scale Term-Concept Network from Wikipedia. Technical Report #06-1028, The MITRE Corp., Oct. 2006.
- Cäcilia Zirn, Vivi Nastase, Michael Strube. Distinguishing between instances and classes in the Wikipedia taxonomy. In Proc. of ESWC-08, pages 376-387, 2008.
- Gaoying Cui, Qin Lu, Wenjie Li, Yi-Rong Chen. Mining Concepts from Wikipedia for Ontology Construction. In Proceedings of Web Intelligence/IAT Workshops, pp.287-290, 2009.
- J. Hoffart, F. Suchanek, K. Berberich, G. Weikum. YAGO2: A Spatially and Temporally Enhanced Knowledge Base from Wikipedia. Research Report MPI-I-2010-5-007, Max-Planck-Institut für Informatik, November 2010.
- D. Turdakov, P. Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation. In Proc. of SYRCoDIS, 2008.
- T. Zesch, I. Gurevych. Analysis of the Wikipedia Category Graph for NLP Applications. In Proceedings of the TextGraphs-2 Workshop (NAACL-HLT), 2007.
- S. Chernov, T. Iofciu, W. Nejdl, X. Zhou. Extracting Semantic Relationships between Wikipedia Categories. In Proceedings of the First International Workshop on Semantic Wikis - From Wiki To Semantics, June 2006.
- M. Strube, S. P. Ponzetto. WikiRelate! Computing semantic relatedness using Wikipedia. In Proceedings of the 21st national conference on Artificial intelligence (AAAI'06), pp. 1419-1424, 2006.
- Z. Syed, T. Finin, and A. Joshi. Wikipedia as an Ontology for Describing Documents. In Proceedings of the Second International Conference on Weblogs and Social Media, 2008.
|