Методы периодического тематического поиска в Веб
При проведении исследований, обучении и профессиональной деятельности, в связи с высокой скоростью появления новой информации возникает потребность не только в нахождении сведений, соответствующих одной или нескольким темам, но и в постоянном получении новых данных. Одним из возможных вариантов удовлетворения этой потребности является периодическое обновление ранее полученных сведений, по аналогии с подпиской на тематические издания, такие как специализированные газеты и журналы. Для обеспечения такого рода доставки информации из Web необходимо решить задачу периодического тематического поиска, то есть такого поиска, который ведется систематически, через определенные промежутки времени.
Высокая динамичность пространства поиска и слабая изменчивость информационной потребности позволяют отнести задачу периодического тематического поиска к классу задач фильтрации информации [1]. Отличие задачи фильтрации на всем Web от традиционной задачи фильтрации состоит в том, что обнаружить все изменения возможно только проанализировав всю доступную информацию, объем которой очень велик. Применение методов фильтрации информации, использующих представление информационной потребности, отличное от набора ключевых слов, на всем Web ограничено высокой вычислительной сложностью определения релевантности документов. К недостаткам же методов поиска, использующих запросы по ключевым словам для представления информационной потребности, относят тот факт, что хороших результатов одновременно удается добиться только для двух показателей эффективности из трех: трудоемкости составления запроса, полноты и точности поиска [2].
В докладе приводится обзор существующих решений задачи периодического поиска в Web. Представлено описание метода периодического тематического поиска, основанного на комбинации поиска по ключевым словам и тематической фильтрации с использованием классификаторов текстов [3]. Рассматривается текущее состояние дел в области решения задачи классификации текстов, от эффективности решения которой во многом зависит эффективность предложенного метода в целом. Приводится описание предложенных автором алгоритмов классификации [4], зависимость вычислительной сложности обучения которых от числа примеров в обучающей выборке близка к линейной, при этом качество классификации близко к качеству лучших известных алгоритмов, обладающих более высокой вычислительной сложностью обучения. В работе реализован прототип системы периодического тематического поиска и проведена апробация предложенного метода на реальных данных Web.
Литература:
- Belkin N., Croft W. Information filtering and information retrieval: two sides of the same coin?// Communications of the ACM, Volume 35 , Issue 12. New York: ACM Press, 1992. p. 29-38.
- Kobayashi M., Takeda K. Information retrieval on the Web// ACM Computing Surveys, vol.32, 2. New York: ACM Press, 2000. p. 144-173.
- Максаков А.В. Об одном методе повышения качества периодического тематического поиска в Web// Вестн. Моск. ун-та. Сер.15. Вычислительная математика и кибернетика, 2007. № 2, стр. 35-44.
- Максаков А.В. Масштабируемые алгоритмы классификации текстов// Труды 12-й
конференции "Математические методы распознавания образов" (ММРО-12), Москва, 2005.
- Sebastiani F., Machine Learning in Automated Text Categorization// ACM Computing Surveys, vol.1, 2002. p. 1-47.
- Chakrabarti S. Mining The Web Discovering Knowledge From Hypertext Data. San Francisco: Morgan Kaufmann Publishers, 2004.
- Diao Y., Lu H., Wu D. A comparative study of classification-based personal E-Mail filtering// In proceedings of 4th Pacific-Asia Conference on Knowledge Discovery and Data Mining. Kyoto: Springer Verlag, 2000, p.408-419.
- Bun K., Ishizuka M. Emerging Topic Tracking System// Proceedings of Web Intelligence Conference. London: Springer-Verlag, 2001, p. 125-130.
|