Методы улучшения вероятностных тематических моделей текстовых коллекций на основе лексико-терминологической информации
Одной из важных задач автоматической обработки текстов является выделение тематик, обсуждаемых в больших текстовых коллекциях. Для этого в последнее время всё чаще используется современный инструмент анализа текстов - тематические модели,, определяющие, к каким темам может быть отнесен каждый документ коллекции, и какие слова задают каждую тему. При этом темы представляются в виде дискретных распределений на множестве слов, а документы – в виде дискретных распределений на множестве тем. Примером такой темы может служить следующий набор слов: денежный, деньги, обращение, масса, факторинг, средство, функция, оборот.
Несмотря на значительный успех тематических моделей в решении различных задач информационного поиска, одним из основных их недостатков является использование модели «мешка слов», в которой не учитывается порядок слов и предполагается независимость появлений слов друг от друга в тексте. Это предположение оправдано с точки зрения вычислительной эффективности, но оно далеко от реальности.
В данном докладе описываются новые методы построения тематических моделей, учитывающие словосочетания и связи между ними и образующими их словами. Разработанные алгоритмы улучшают основные характеристики качества тематических моделей, включая интерпретацию тем экспертами. При этом они не увеличивают вычислительную сложность стандартных алгоритмов.
Предложенные алгоритмы позволяют интегрировать в тематические модели словосочетания из терминологических ресурсов, сформированных вручную, улучшая качество по сравнению со стандартными алгоритмами. Для построения более качественных терминологических ресурсов предлагаются новые признаки терминологичности слов и словосочетаний, основанные на тематических моделях и вносящие дополнительную информацию в извлечение терминов.
Презентация доклада в формате pdf.
Видеозапись доклада.
Литература:
- Воронцов К. В., Потапенко А. А. Модификации EM-алгоритма для вероятностного тематического моделирования // Машинное обучение и анализ данных. Т. 1. No 6. 2013. С. 657–686.
- Blei D., Ng A., Jordan M. Latent Dirichlet Allocation // Journal of Machine Learning Research. MIT Press. No. 3. 2003. P. 993–1002.
- Нокель М. А., Лукашевич Н. В. Тематические модели: добавление биграмм и учет сходства между униграммами и биграммами // Вычислительные методы и программирование. Том 16. Выпуск 2. 2015. С. 215–234.
- Dobrov B., Loukachevitch N. Multiple Evidence for Term Extraction in Broad Domains // Proceedings of RANLP 2011. 2011. P. 710–715.
- Большакова Е. И., Лукашевич Н. В., Нокель М. А. Извлечение однословных терминов из текстовых коллекций на основе методов машинного обучения // Информационные технологии. No 7. 2013. С. 31–37.
- Нокель М. А., Лукашевич Н. В. Тематические модели в задаче извлечения однословных терминов // Программная инженерия. No 3. 2014. С. 34–40.
|