Методы повышения эффективности процесса коллективного построения лексических ресурсов
Дмитрий Усталов,
Институт математики и механики им. Н.Н. Красовского Уральского отделения Российской академии наук,
dau@imm.uran.ru
WordNet-подобный тезаурус — это электронный словарь, слова в котором объединяются во множества квазисинонимов, именуемых синсетами. Между синсетами заданы семантические отношения «род — вид», «часть — целое», и др. Благодаря таким сведениям, вычислительная машина получает возможность оперировать понятиями окружающего мира. Тезаурусы применяются при решении различных задач компьютерной лингвистики и информационного поиска: снятия семантической неоднозначности, расширения поисковых запросов, и т. д.
Традиционно, лексические ресурсы создаются коллективами специалистов-лексикографов на протяжении нескольких лет, т. е. являются результатом длительного и дорогостоящего процесса. В настоящее время не существует одновременно большого и качественного WordNet-подобного тезауруса русского языка под свободной лицензией, хотя существует несколько высококачественных коммерческих ресурсов. Сегодня многие языковые ресурсы успешно создаются при помощи краудсорсинга, что даёт надежду на создание аналогичного тезауруса и для русского языка.
В докладе представлена потоковая вычислительная модель, объединяющая этапы коллективной разметки с этапами автоматической синхронизации для реализации процесса краудсорсинга большим количеством микрозадач. На основе вычислительной модели сформирована методика развития WordNet-подобных языковых ресурсов, состоящая из двух процедур: (1) «добавить-удалить-подтвердить» — для уточнения лексикализации понятий, (2) «род-вид-сопоставить» — для построения родовидовых отношений между понятиями. Разработано программное обеспечение с открытым исходным кодом для управления процессом разметки, реализованное на основе трёхзвенной архитектуры и доступное по протоколу HTTP.
Результаты экспериментов на материалах открытого электронного тезауруса русского языка подтверждают применимость разработанных методов и программного обеспечения для развития лексических ресурсов. В экспериментах приняли участие как волонтёры из популярных социальных сетей, так и пользователи краудсорсинговых платформ (за вознаграждение в форме микроплатежей).
Слайды доклада.
Литература:
- C. Biemann. Creating a system for lexical substitutions from scratch using crowdsourcing // Language Resources and Evaluation. — 2013. — Vol. 47, № 1. — P. 97–122.
-
P. Braslavski, D. Ustalov, M. Mukhin. A Spinning Wheel for YARN: User Interface for a Crowdsourced Thesaurus // Proceedings of the Demonstrations at the 14th Conference of the European Chapter of the Association for Computational Linguistics. — 2014. — P. 101–104.
- G. Demartini, D. E. Difallah, P. Cudré-Mauroux. Large-scale Linked Data Integration Using Probabilistic Reasoning and Crowdsourcing // The VLDB Journal. — 2013. — Vol. 22, № 5. — P. 665–687.
- CrowdWeaver: Visually Managing Complex Crowd Work / A. Kittur, S. Khamkar, P. André, R. Kraut // Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work. — 2012. — P. 1033–1036.
-
Д. Усталов. Инструментарий краудсорсинга для механизированного труда // Труды Института системного программирования РАН. — 2015. — Т. 27, № 3. — С. 351–364.
-
D. Ustalov, Y. Kiselev. Add-Remove-Confirm: Crowdsourcing Synset Cleansing // Application of Information and Communication Technologies (AICT), 2015 9th International Conference on. — 2015. — P. 143–147.
-
D. Ustalov Crowdsourcing Synset Relations with Genus-Species-Match // Artificial Intelligence and Natural Language and Information Extraction, Social Media and Web Search FRUCT Conference (AINL-ISMW FRUCT) — 2015. — P. 118–124.
|