[ Russian ] [ English ]

Анализ поведения пользователей Интернет: возможность автоматизации

А.А. Щербина,
Институт системного программирования РАН,
Andrei.A.Scherbina@techsell.ru

Число пользователей Интернет растёт темпами, опережающими любые возможности ручного анализа. Оказывается невозможным применение классических методов анализа, требующих от эксперта формулирования гипотез или создания обучающих данных. При этом корректная классификация пользователей и основных моделей их поведения на сайте необходима для улучшения наполнения сайта, размещения более эффективной рекламы, устранения ошибок в структуре сайта и обеспечения каждого пользователя той информацией, которая необходима именно ему.

На данный момент существуют определённые препятствия для полной автоматизации процесса классификации. Так все существующие методы кластеризации требует задания экспертом начальных параметров для эффективной работы, при этом параметры должны определятся в зависимости от исходных данных. Для проверки качества полученного разбиения также требуется участие эксперта для создания эталонного разбиения.

Создание полностью автоматизированной методики классификации поведения посетителей сайтов пока остаётся неразрешенной задачей. Так, для большинства методов кластеризации требуется подбор стартовых параметров и результирующего количества кластеров. При этом, если эксперт ошибается при выборе параметров, качество кластеризации существенно ухудшается. Как правило, подбор параметров может быть частично автоматизирован, но всё равно требует длительного участия эксперта. Для оценки качества кластеризации с точки зрения семантики разбиения требуется создание эталонного разбиения экспертом. Поэтому применение существующих методик не может быть полностью автоматизировано.

В докладе представлены существующие методы анализа Интернет и классификации пользователей. Также предложен ряд новых методов, позволяющих полностью автоматизировать процесс анализа. В выполненной работе опробован метод автоматической классификации пользователей Интернет. Создан прототип системы, обеспечивающий полную автоматизацию процесса классификации от очистки данных до контроля адекватности полученной классификации.

Слайды к докладу в формате PDF: Scherbina.pdf

Литература:

  1. "Directive 95/46/EC of the European Parliament and of the Council of 24 October 1995 on the protection of individuals with regard to the processing of personal data and on the free movement of such data", Official Journal of the European Communities of 23 November 1995 No L. 281 p. 31
  2. Fenstermacher, K. D. and Ginsburg, M. 2003. Client-side monitoring for web mining. J. Am. Soc. Inf. Sci. Technol. 54, 7 (May. 2003), 625-637.
  3. Maria Halkidi, Yannis Batistakis and Michalis Vazirgiannis, "On Clustering Validation Techniques", "Journal of Intelligent Information Systems", vol. 17, number 2-3, 2001, pp. 107-145.
  4. Hay B., Wets G. and Vanhoof K., Segmentation of visiting patterns on websites using a Sequence Alignment Method. Journal of Retailing and Consumer Services. - 2003, vol. 10, issue 3, p. 145-153.
  5. Huberman, B. A.; Pirolli, P. L.; Pitkow, J. E.; Lukose, R. M. Strong regularities in World Wide Web surfing. Science. 1998, April 3; 280 (5360): 95-97.
  6. M. Levene, G. Loizou Zipf's law for web surfers. Knowledge and Information Systems an International Journal, 3, (2001), 120-129.
  7. O. Nasraoui, R. Krishnapuram, A. Joshi, and T. Kamdar, "Automatic web user profiling and personalization using robust fuzzy relational clustering," in E-Commerce and Intelligent Methods, in the series Studies in Fuzziness and Soft Computing, J. Segovia, P. Szczepaniak, and M. Niedzwiedzinski, Eds., pp. 233--261. Springer-Verlag, 2002.
  8. T.A. Runkler and J.C. Bezdek, “Web mining with relational clustering.”, International Journal of Approximate Reasoning, Vol. 32 (2-3), 2003, pp. 217-236
  9. Andrei Scherbina. The Cluster Validation Based on the Sequential Patterns: Proceeding of the Spring Young Researcher’s Colloquium on Database and Information Systems (SYRCoDIS’2005). - Volume B. - Saint-Petersburg. - 2005. - pages 5-8.
  10. Andrei Scherbina, Sergey Kuznetsov. Clustering of Web Sessions Using Levenshtein Metric//Lecture Notes in Computer Science. – Springler Verlag. - Volume 3275. - Nov 2004. - pages 127 – 133.
Supported by Synthesis Group