Методы разрешения лексической многозначности, основанные на семантической близости в сетях документов
Денис Турдаков,
Институт системного программирования РАН, ВМК МГУ,
turdakov@gmail.com
В связи с ростом Веба и объемов информации, которую приходится воспринимать человеку, особую актуальность приобрели системы автоматической обработки и анализа текстов. При создании такой системы разработчик сталкивается с проблемами из области компьютерной лингвистики. И, хотя активные разработки в этой области ведутся уже более 50 лет, некоторые задачи все еще остаются нерешенными. Одна из таких задач – разрешение лексической многозначности.
Разрешение лексической многозначности (word sense disambiguation) – это задача выбора значения многозначного слова или фразы из множества их значений. Эта задача возникла в 50-х годах прошлого века в качестве подзадачи машинного перевода. С тех пор исследователи предложили огромное количество методов решения этой задачи, однако она и сейчас остается актуальной.
В начале 21-го века исследователи в области обработки естественного языка заинтересовались возможностью использования сетей документов, таких как WWW и Wikipedia, связанных гиперссылками и созданных огромным числом независимых пользователей. Большим преимуществом таких сетей является то, что пользователи Веба поддерживают их всегда в актуальном состоянии, а сами документы описывают детально все области человеческой жизнедеятельности. Структура таких сетей отличается от созданных экспертами в 90-х гг. баз знаний, что влечет за собой необходимость разработки новых моделей и алгоритмов.
В докладе рассматриваются способы вычисления семантической близости между узлами сети документов, и предлагается собственный способ измерения семантической близости между концепциями Википедии. Дается обзор существующих методов устранения лексической многозначности и основных проблем, возникающих при их создании. Предлагается три собственных метода, использующих семантическую близость между концепциями Википедии:
- метод, использующий однозначный контекст,
- метод, основанный на скрытой модели Маркова, и
- метод, основанный на обобщении Марковской модели на случай множества независимых Марковских цепей.
Слайды к докладу в формате PDF: turdakov20091029.pdf
Литература:
- Word Sense Disambiguation: Algorithms and Applications (Text, Speech and Language Technology), Ed. by E. Agirre, P. G. Edmonds.— 1 edition.— Springer, 2007.—November..
- Dmitry Lizorkin, Pavel Velikhov, Maxim Grinev, Denis Turdakov. Accuracy estimate and optimization techniques for SimRank computation // PVLDB.— 2008.— Vol. 1, no. 1.— Pp. 422–433..
- Denis Turdakov, Pavel Velikhov. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS.— 2008..
- Турдаков Денис. Устранение лексической многозначности терминов Википедии на основе скрытой модели Маркова // XI Всероссийская научная конференция «Электронные библиотеки: перспективные методы и технологии, электронные коллекции».— 2009..
|