Поиск в социальных сетях: тенденции и алгоритмы (на примере поисковой системы Яндекс)

[ Russian ] [ English ]

$D:\tiourine\site\img\1X1.gif$

Поиск в социальных сетях: тенденции и алгоритмы (на примере поисковой системы Яндекс)

Сегалович Илья Валентинович,
Яндекс,
iseg@yandex.ru

Популярность и востребованность поисковых систем резко выросла с появлением глобальной компьютерной сети интернет. То, что в исторической перспективе или на поверхностный взгляд представлялось незначительными техническими проблемами: необучаемость пользователей, малосодержательные и дублирующиеся документы, зеркала сайтов, неконтролирумый характер коллекции и атаки на ранжирование со стороны авторов; все эти явления переосмысливаются теперь как имманентные свойства поиска в социальной сети.

В докладе будут рассмотрены алгоритмы и методы поиска в социальных сетях, в том числе оригинальных, разработанных в поисковой системе Яндекс.

В частности, будут обсуждаться алгоритмы статического ранжирования (различные индексы цитирования, в том числе "тематические"); эвристики для подавления влияния непотизма²; обработка дубликатов и почти-дубликатов, в том числе алгоритм ¹ определения почти-дубликатов на основе инвертированного индекса; алгоритмы автоматический тематической и стилистической ¹ классификации и кластеризация поисковой выдачи на их основе.

Кроме того, будут рассмотрены традиционные для информационного поиска, но доказавшие свою жизнеспособность для поиска в социальных сетях алгоритмы: "словарно-несловарный" ¹ морфологический анализ, алгоритмы нечеткого поиска по кворуму, различные техники переформулирования запроса, включая поверхностный синтаксический разбор и его интеграцию¹ с нечетким поиском по кворуму.

¹ оригинальные разработки "Яндекса"

² "непотизм" (применительно к поисковым системам) - взаимное и многостороннее "ангажированное" цитирование, искажающее понимание цитируемости как авторитетности.

Литература:

Soumen Chakrabarti Mining the Web Discovering Knowledge from Hypertext Data Morgan Kaufmann Publishers, 2002.
И.В. Сегалович Как работают поисковые системы Мир Internet. 2002, #10 http://www.dialog-21.ru/direction_fulltext.asp?dir_id=15539
S. Ilyinsky, M. Kuzmin, A. Melkov, I. Segalovich An efficient method to detect duplicates of Web documents with the use of inverted index WWW2002, 2002 http://www2002.org/CDROM/poster/187/
И. Сегалович, М. Маслов. Русский морфологический анализ и синтез с генерацией моделей словоизменения для не описанных в словаре слов. Диалог'98, Таруса http://company.yandex.ru/articles/article1.html
П.И. Браславский, Е.А. Вовк, М.Ю. Маслов Фасетная организация интернет-каталога и автоматическая жанровая классификация документов. Диалог'2002, Протвино

$D:\tiourine\site\img\1X1.gif$

$D:\tiourine\site\img\1X1.gif$ Supported by Synthesis Group

$D:\tiourine\site\img\1X1.gif$