[ Russian ] [ English ]

Технологии извлечения знаний из данных и реляционные базы данных

М.Ю. Богатырев,
Тульский государственный университет,
mibo@klax.tula.ru

Технологии извлечения знаний из данных (KDD, Knowledge Discovery In Data) представляют собой одно из современных направлений исследований и разработок в области баз данных. Их популярность в настоящее время обусловлена стремлением заменить экстенсивный путь развития СУБД на интенсивный, основанный на более сложной, тонкой и глубокой обработке данных без существенного увеличения их объема.

В докладе вводятся основные определения и термины, относящиеся к KDD, дается краткий обзор существующих систем KDD. Обсуждается термин «знание» применительно к данным, хранящимся в базах данных.

Далее рассматриваются практические проблемы, приводящие к необходимости формулировки и решения задач KDD. Показана актуальность разработки технологий KDD для реляционных СУБД ввиду их фактического доминирования среди различных типов СУБД.

Кратко рассматриваются основные методы анализа данных, применяемые в технологиях KDD. Одно из направлений решения задач KDD – эволюционные вычисления - освещается более подробно. Здесь применяется метод генетического программирования, основанный на генетических алгоритмах.

Для конкретной СУБД решение принципиально выглядит так: генетический алгоритм управляет средствами доступа к данным, имеющимся в СУБД (например, SQL-запросами), с целью генерации, отбора и поиска оптимального решения на «популяции» решений. Собственно знания извлекаются как из результатов выполнения запросов, так и из структуры сгенерированных запросов. Рассматривается реализация метода генетического программирования средствами SQL-запросов в реляционной СУБД и ряд проблем, связанных с практической эффективностью метода.

В качестве примера реализации технологий KDD обсуждается архитектура прототипа подсистемы для поиска ассоциативных данных в банковской информационной системе, реализованной в среде Oracle.

Литература:

  1. Цаленко М.Ш. Моделирование семантики в базах данных. - М.: Наука, 1989.
  2. Frawley, W. J., Piatetsky-Shapiro, G., Matheus, C. J. Knowledge discovery in databases: An overview. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases, pages 1-27. AAAI/MIT Press, 1991.
  3. Дюк В.А. Data Mining: учебный курс. – СПБ, Питер, 2001.
  4. Bogatyrev, M. Y., Zolotykh, O. Y., Kozlov, A.N., Usov, V.A. On Applying Genetic Programming To Database Software Analysis And Design. - Proceedings of the 3d International Conference Interactive Systems : The Problems Of Human - Computer Interaction. - Ulianovsk, 1999.
  5. Богатырев М.Ю. Применение эволюционных вычислений и генетических алгоритмов в исследовании информационных систем. В кн.: Управление и информатика /Под ред. А.С. Клюева, А.А. Фомичева - М.: Испо-сервис, 2000. - 420 с.
  6. Bogatyrev, M. Y., Kovalev D.A. Geometrical Approach to One Data Mining Problem. В кн.: Interactive Systems: The Problems of Human – Computer Interaction. – Proceedings of International Conference, September, 23-27. Ulyanovsk: ULSTU, 2001.
  7. Богатырев М.Ю., Латов В.А. Эволюционный подход к задаче построения ассоциаций данных. В кн.: Tools for Mathematical Modelling. The Third International Conference. June 18-23, 2001. Abstracts. – St. Petersburg, 2001.
Supported by Synthesis Group