Технологии извлечения знаний из данных и реляционные базы данных
М.Ю. Богатырев,
Тульский государственный университет,
mibo@klax.tula.ru
Технологии извлечения знаний из данных (KDD, Knowledge Discovery In Data) представляют собой одно из современных направлений исследований и разработок в области баз данных. Их популярность в настоящее время обусловлена стремлением заменить экстенсивный путь развития СУБД на интенсивный, основанный на более сложной, тонкой и глубокой обработке данных без существенного увеличения их объема.
В докладе вводятся основные определения и термины, относящиеся к KDD, дается краткий обзор существующих систем KDD. Обсуждается термин «знание» применительно к данным, хранящимся в базах данных.
Далее рассматриваются практические проблемы, приводящие к необходимости формулировки и решения задач KDD. Показана актуальность разработки технологий KDD для реляционных СУБД ввиду их фактического доминирования среди различных типов СУБД.
Кратко рассматриваются основные методы анализа данных, применяемые в технологиях KDD. Одно из направлений решения задач KDD – эволюционные вычисления - освещается более подробно. Здесь применяется метод генетического программирования, основанный на генетических алгоритмах.
Для конкретной СУБД решение принципиально выглядит так: генетический алгоритм управляет средствами доступа к данным, имеющимся в СУБД (например, SQL-запросами), с целью генерации, отбора и поиска оптимального решения на «популяции» решений. Собственно знания извлекаются как из результатов выполнения запросов, так и из структуры сгенерированных запросов.
Рассматривается реализация метода генетического программирования средствами SQL-запросов в реляционной СУБД и ряд проблем, связанных с практической эффективностью метода.
В качестве примера реализации технологий KDD обсуждается архитектура прототипа подсистемы для поиска ассоциативных данных в банковской информационной системе, реализованной в среде Oracle.
Литература:
-
Цаленко М.Ш. Моделирование семантики в базах данных. - М.: Наука, 1989.
-
Frawley, W. J., Piatetsky-Shapiro, G., Matheus, C. J. Knowledge discovery in databases: An overview. In G. Piatetsky-Shapiro and W. J. Frawley, editors, Knowledge Discovery in Databases, pages 1-27. AAAI/MIT Press, 1991.
-
Дюк В.А. Data Mining: учебный курс. – СПБ, Питер, 2001.
-
Bogatyrev, M. Y., Zolotykh, O. Y., Kozlov, A.N., Usov, V.A. On Applying Genetic Programming To Database Software Analysis And Design. - Proceedings of the 3d International Conference Interactive Systems : The Problems Of Human - Computer Interaction. - Ulianovsk, 1999.
-
Богатырев М.Ю. Применение эволюционных вычислений и генетических алгоритмов в исследовании информационных систем. В кн.: Управление и информатика /Под ред. А.С. Клюева, А.А. Фомичева - М.: Испо-сервис, 2000. - 420 с.
-
Bogatyrev, M. Y., Kovalev D.A. Geometrical Approach to One Data Mining Problem. В кн.: Interactive Systems: The Problems of Human – Computer Interaction. – Proceedings of International Conference, September, 23-27. Ulyanovsk: ULSTU, 2001.
-
Богатырев М.Ю., Латов В.А. Эволюционный подход к задаче построения ассоциаций данных. В кн.: Tools for Mathematical Modelling. The Third International Conference. June 18-23, 2001. Abstracts. – St. Petersburg, 2001.
|