Проблемы и методы автоматической рубрикации текстов
М.С. Агеев,
НИВЦ МГУ им. М.В. Ломоносова,
Б.В. Добров,
НИВЦ МГУ им. М.В. Ломоносова,
dobroff@mail.cir.ru
Н.В. Лукашевич,
НИВЦ МГУ им. М.В. Ломоносова,
В настоящее время можно наблюдать всплеск научных работ, посвященных применению методов машинного обучения для автоматической рубрикации текстов, то есть автоматического разделения текстовой коллекции по рубрикам заданного рубрикатора. Приводятся высокие оценки результатов работы таких методов.
Однако подробный анализ опубликованных работ показывает, что:
- большинство методов тестируется на коллекции Reuters-21578, состоящих из коротких сообщений с очень простым рубрикатором [1];
- для тестирования выбираются только рубрики с большим количеством примеров.
Существуют значимые для практики задачи, в которых применение описанных в литературе методов машинного обучения неэффективно [2, 3]. В реальных задачах по-прежнему часто используются ручной труд экспертов, а также системы рубрикации, основанные на вручную задаваемых правилах [4, 5].
В докладе будут представлены результаты вычислительных экспериментов по сравнению различных методов автоматической рубрикации в рамках РОМИП (Российского семинара по оценке методов информационного поиска) и рубрикации нормативных актов Российской Федерации.
Оказалось, что современные методы машинного обучения неэффективны для рубрикации больших текстовых коллекций со сложными рубрикаторами. Авторами доклада предложены методы [6, 7], которые позволяют решать такие задачи.
Литература:
- Franca Debole and Fabrizio Sebastiani. An analysis of the relative hardness of Reuters-21578 subsets //In proc. of LREC-04, 4th int. conf. on Language Resources and Evaluation, pp. 971--974, Lisbon, PT, 2004. (http://citeseer.ist.psu.edu/691424.html)
- Dumais S., Lewis D., Sebastiani F. Report on the Workshop on Operational Text Classification Systems (OTC-02) //SIGIR-2002 — Tampere, Finland, 2002
- Ageev M., Dobrov B., Loukachevitch N. Text Categorization Tasks for Large Hierarchial Systems of Categories // SIGIR 2002 Workshop on Operational Text Classification Systems / Eds. F.Sebastiani, S.Dumas, D.D.Lewis, T.Montgomery, I.Moulinier - Univ. of Tampere, 2002 - p.49-52. (http://www.cir.ru/docs/ips/publications/2002_sigir_text_categ.pdf)
- Rose T, Stevenson M., Whitehead M., The Reuters Corpus Volume 1 – from Yesterday News to tomorrow’s Language. In Proceedings of the Third International Conference on Language Resources and Evaluation, Las Palmas de Gran Canaria, 29-31 May 2002.
- Wasson M. Classification Technology at LexisNexis //SIGIR 2001 Workshop on Operational Text Classification.
- Агеев М.С., Добров Б.В., Макаров-Землянский Н.В. Метод машинного обучения, основанный на моделировании логики рубрикатора //RCDL'2003 Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Пятая всероссийская науч. конф. — Санкт-Петербург, 2003.
- Добров Б.В., Лукашевич Н.В., Автоматическая рубрикация полнотекстовых документов по классификаторам сложной структуры //Восьмая национальная конференция по искусственному интеллекту. — Коломна, 2002.
|