[ Russian ] [ English ]

Семантические представления в проблемно-ориентированных системах извлечения сущностей и связей

Козеренко Елена Борисовна, Кузнецов Константин Игоревич
ФИЦ ИУ РАН

Романов Дмитрий Александрович
Школа бизнес-информатики Факультета бизнеса и менеджмента НИУ ВШЭ

Одной из важнейших задач в области когнитивных технологий является автоматическое извлечение знаний из текстов естественного языка (ЕЯ). Методики и средства такого извлечения определяются классом решаемых задач и особенностями текстов ЕЯ. Из текстов извлекается то, что нужно пользователю для решения стоящих перед ним задач. На протяжении последних 30 лет в ИПИ ФИЦ ИУ РАН развивается научное направление, связанное с обработкой произвольных текстов в определенной предметной области и для определенных категорий пользователей.

В докладе рассматриваются вопросы проектирования и развития семантико-синтаксических и лексико-семантических представлений в лингвистических процессорах ряда систем, основанных на 1) аппарате расширенных семантических сетей (РСС) и 2) на основе «прямого проектирования» с использованием SDK-инструментария PullEnti.

РСС-системы создаются для извлечения знаний из текстов на естественных языках, отображения извлеченных сущностей и связей в структуры базы знаний и использования знаний для поддержки экспертных аналитических решений в различных сферах приложения. В фокусе внимания находятся инженерно-лингвистические представления, позволяющие построить целостную работающую лингвистическую модель, которая модифицируется в зависимости от конкретной задачи: от "тяжелой" формы на основе детальных глубинных представлений до фокусных редуцированных оболочек, настроенных на узкую предметную область и ограниченный язык общения. Особое внимание уделяется способам описания дистрибутивно-трансформационных признаков языковых объектов.

В докладе также представлена новая методика создания систем извлечения знаний, основанная на подходе, главным инструментом которого является программный пакет PullEnti. Инструментарий включает алгоритмы морфологического и семантико-синтаксического анализа для выделения сущностей определенных типов из текстов естественного языка: персон, организаций, локаций и других целевых семантических объектов. Большое внимание уделено качеству атрибутов выделяемых сущностей и их падежной нормализации. Все алгоритмы в системе основаны на правилах. В системе PullEnti используются динамически подключаемые компоненты (плагины), что позволяет без перекомпилирования активировать различные функциональные возможности. Поддерживаются русский, украинский и английский языки. Реализованы функционально эквивалентные библиотеки на языках .NET Framework 4.0, .NET Core 2.0, Java, JavaScript (Node.js) и Python 3. Приводятся примеры реализованных проектов для различных предметных областей.

В 2016 году система участвовала в соревновании по извлечению информации из новостных текстов на русском языке FactRuEval в рамках конференции Диалог и на двух дорожках заняла первое место.

Слайды докладов

Kozerenko-Kuznetsov.ppt
Романов.pptx

Видео доклада.

Литература:

  1. Кузнецов И.П. Семантические представления // М. Наука. 1986г. 290 с.
  2. Rapp R. Word sense discovery based on sense descriptor dissimilarity // Proceedings of the 9th MT Summit. – New Orleans, LA, 2003. P. 315–322.
  3. Turney P. A uniform approach to analogies, synonyms, antonyms and associations // Proceedings of COLING. – Manchester, 2008. P. 905–912.
  4. Kuznetsov I.P., Kozerenko E.B. Linguistic Рrocessor “Semantix” for Knowledge extraction from natural texts in Russia and English. Proceeding of International Conference on Machine Learning, ISAT-2008. 14-18 July, 2008 Las Vegas, USA// CSREA Press, 2008, p.835-841.
  5. Charnine M. M., Kuznetsov I. P., Kozerenko E. B. Semantic Navigator for Internet Search // MLMTA’05: Proceeding of International Conference on Machine Learning. – Las Vegas: CSREA Press, 2005. P. 60–68.
  6. Charnine M., Charnine V. Keywen Category Structure. – Wordclay, USA, 2008. 60 p.
  7. Шарнин М. М., Кузнецов И. П. Автоматическое формирование электронных энциклопедий и справочных пособий по информации из сети Интернет // Системы и средства информатики. Вып. 14. – М.: ИПИ РАН, 2004. С. 210–223.
  8. Кузнецов И. П., Сомин Н. В. Англо-русская система извлечения знаний из потоков информации в среде Интернет // Системы и средства информатики. Вып. 17. – М.: ИПИ РАН, 2007. С. 236–254.
  9. Кузнецов И. П., Сомин Н. В. Выявление имплицитной информации из текстов на естественном языке: проблемы и методы // Информатика и ее применения, 2012. Т. 6. Вып. 1. С. 48–57.
  10. Kuznetsov I. P., Kozerenko E. B., Charnine M. M. Technological peculiarity of knowledge extraction for logical-analytical systems // WORLDCOMP’12: Proceedings of ICAI’12. – Las Vegas: CSREA Press, USA, 2012. Vol. II. P. 762–768.
  11. Шарнин М. М., Кузнецов И. П. Особенности семантического поиска информационных объектов на основе технологии баз знаний // Информатика и ее применения, 2012. Т. 6. Вып. 2. С. 47–56.
  12. Kuznetsov I. P., Charnine M. M. et al. Intelligent Tools for the Semantic Internet Navigator Design // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL’2012. – Переславль-Залесский: Университет города Переславля, 2012. С. 274–283.
  13. Кузнецов И. П., Шарнин М. М., Мацкевич А. Г. Технология извлечения структур знаний с использованием аппарата расширенных семантических сетей // Искусственный интеллект: Журнал НАН Украины, 2012. Т. 4. С. 190–203.
  14. Сравниваем работу open source Python библиотек для распознавания именованных сущностей. https://habr.com/ru/post/502366/
Supported by Synthesis Group