Разработанные в последние годы методы текстового поиска, активно
развивающиеся в связи с потребностями пользователей Веб, обладают рядом
существенных особенностей. В связи с этим стали актуальными проблемы
оценки этих методов.
Неотъемлемой частью связанных с этим исследований стали эксперименты.
Особенности обрабатываемых данных не позволяют применять в этой области
статистически обоснованные подходы к тестированию используемых методов.
Такая ситуация привела к появлению своеобразного подхода к постановке
экспериментов, основанного на небольшом количестве эмпирических
предположений о структуре данных и поведении пользователя.
В последнее время все большее внимание уделяется проверке этих предположений
путем массированных экспериментов. Несмотря на впечатляющие результаты
[2,3], многие вопросы остаются тем не менее открытыми. Поэтому даже самые хорошие
результаты тестирования не гарантируют эффективности в реальных условиях. Этот
факт не умоляет роли экспериментов, а, напротив, говорит о необходимости
повышенного внимания к их проведению.
Целью доклада является обзор существующих подходов к оценке методов
текстового поиска и постановки экспериментов в этой области. Будет также затронут
вопрос об анализе результатов, которому в последнее время уделяется большое
внимание исследователей [1].
Литература:
- Chris Buckley and Ellen M. Voorhees.
Evaluating evaluation measure stability.
In Research and Development in Information Retrieval, 2000, pp. 33-40.
- E. Voorhees.
Variations in relevance judgments and the measuremennt of retrieval effectiveness.
In Proceedings of SIGIR-98, 21th ACM International Conference on Research and
Development in Information Retrieval, Melbourne, Australia,,
August 1998. ACM Press, New York, US, pp. 315-323,
- J. Zobel.
How reliable are large-scale information retrieval experiments.
In Proceedings of SIGIR-98, 21th ACM International Conference on Research and
Development in Information Retrieval, Melbourne, Australia,
August 1998. ACM Press, New York, US, pp. 308-315,
|