Поиск в социальных сетях: тенденции и алгоритмы (на примере поисковой системы Яндекс)
Сегалович Илья Валентинович,
Яндекс,
iseg@yandex.ru
Популярность и востребованность поисковых систем резко выросла с появлением глобальной компьютерной сети интернет. То, что в исторической перспективе или на поверхностный взгляд представлялось незначительными техническими проблемами: необучаемость пользователей, малосодержательные и дублирующиеся документы, зеркала сайтов, неконтролирумый характер коллекции и атаки на ранжирование со стороны авторов; все эти явления переосмысливаются теперь как имманентные свойства поиска в социальной сети.
В докладе будут рассмотрены алгоритмы и методы поиска в социальных сетях, в том числе оригинальных, разработанных в поисковой системе Яндекс.
В частности, будут обсуждаться алгоритмы статического ранжирования (различные индексы цитирования, в том числе "тематические"); эвристики для подавления влияния непотизма2; обработка дубликатов и почти-дубликатов, в том числе алгоритм 1 определения почти-дубликатов на основе инвертированного индекса; алгоритмы автоматический тематической и стилистической 1 классификации и кластеризация поисковой выдачи на их основе.
Кроме того, будут рассмотрены традиционные для информационного поиска, но доказавшие свою жизнеспособность для поиска в социальных сетях алгоритмы: "словарно-несловарный" 1 морфологический анализ, алгоритмы нечеткого поиска по кворуму, различные техники переформулирования запроса, включая поверхностный синтаксический разбор и его интеграцию1 с нечетким поиском по кворуму.
1 оригинальные разработки "Яндекса"
2 "непотизм" (применительно к поисковым системам) -
взаимное и многостороннее "ангажированное" цитирование,
искажающее понимание цитируемости как авторитетности.
Литература:
- Soumen Chakrabarti
Mining the Web
Discovering Knowledge from Hypertext Data
Morgan Kaufmann Publishers, 2002.
- И.В. Сегалович
Как работают поисковые системы
Мир Internet. 2002, #10
http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539
- S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich
An efficient method to detect duplicates of Web documents with the use
of inverted index
WWW2002, 2002
http://www2002.org/CDROM/poster/187/
- И. Сегалович, М. Маслов.
Русский морфологический анализ и синтез с генерацией моделей
словоизменения для не описанных в словаре слов.
Диалог'98, Таруса
http://company.yandex.ru/articles/article1.html
- П.И. Браславский, Е.А. Вовк, М.Ю. Маслов
Фасетная организация интернет-каталога и автоматическая жанровая
классификация документов.
Диалог'2002, Протвино
|