[ Russian ] [ English ]

Поиск в социальных сетях: тенденции и алгоритмы (на примере поисковой системы Яндекс)

Сегалович Илья Валентинович,
Яндекс,
iseg@yandex.ru

Популярность и востребованность поисковых систем резко выросла с появлением глобальной компьютерной сети интернет. То, что в исторической перспективе или на поверхностный взгляд представлялось незначительными техническими проблемами: необучаемость пользователей, малосодержательные и дублирующиеся документы, зеркала сайтов, неконтролирумый характер коллекции и атаки на ранжирование со стороны авторов; все эти явления переосмысливаются теперь как имманентные свойства поиска в социальной сети.

В докладе будут рассмотрены алгоритмы и методы поиска в социальных сетях, в том числе оригинальных, разработанных в поисковой системе Яндекс.

В частности, будут обсуждаться алгоритмы статического ранжирования (различные индексы цитирования, в том числе "тематические"); эвристики для подавления влияния непотизма2; обработка дубликатов и почти-дубликатов, в том числе алгоритм 1 определения почти-дубликатов на основе инвертированного индекса; алгоритмы автоматический тематической и стилистической 1 классификации и кластеризация поисковой выдачи на их основе.

Кроме того, будут рассмотрены традиционные для информационного поиска, но доказавшие свою жизнеспособность для поиска в социальных сетях алгоритмы: "словарно-несловарный" 1 морфологический анализ, алгоритмы нечеткого поиска по кворуму, различные техники переформулирования запроса, включая поверхностный синтаксический разбор и его интеграцию1 с нечетким поиском по кворуму.

1 оригинальные разработки "Яндекса"

2 "непотизм" (применительно к поисковым системам) - взаимное и многостороннее "ангажированное" цитирование, искажающее понимание цитируемости как авторитетности.

Литература:

  1. Soumen Chakrabarti Mining the Web Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2002.
  2. И.В. Сегалович Как работают поисковые системы Мир Internet. 2002, #10 http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539
  3. S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich An efficient method to detect duplicates of Web documents with the use of inverted index WWW2002, 2002 http://www2002.org/CDROM/poster/187/
  4. И. Сегалович, М. Маслов. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов. Диалог'98, Таруса http://company.yandex.ru/articles/article1.html
  5. П.И. Браславский, Е.А. Вовк, М.Ю. Маслов Фасетная организация интернет-каталога и автоматическая жанровая классификация документов. Диалог'2002, Протвино
Supported by Synthesis Group