[ Russian ] [ English ]

Современное состояние технологии data mining

А.А. Щербина,
Институт системного программирования РАН,
Andrei.A.Scherbina@techsell.ru

На данный момент практически в любой научной или прикладной области накоплены огромные объёмы данных. Каждый день новые данные поступают в наше распоряжение, и их больше, чем можно просто просмотреть, даже не говоря об эффективном использовании для принятия решений. Например, в деловом мире одна из самых больших существующих систем баз данных, созданная американской торговой компанией Wal-Mart, обрабатывает сотни миллионов транзакций в день. Для базы данных проекта «Человеческий геном» уже собраны гигабайты данных, и это количество будет только возрастать.В базе данных, хранящей каталог небесных тел, насчитываются биллионы записей, содержащих изображения. Ясно, что такие объемы данных не поддаются эффективной обработке традиционными методами ручного анализа.

Интерес со стороны инвесторов и научных организаций, породил в начале 90-х годов прошлого века острую необходимость в разработке новых технологий и средств, которые могли бы автоматически переводить обрабатываемые данные в полезную информацию и знания. Технология data mining - один из результатов этих научных разработок.

Data mining, или извлечение знаний из данных, – это процесс нетривиального извлечения полной, неизвестной до этого и потенциально полезной информации (такой как правила, связи, зависимости) из данных. Основное преимущество извлечения знаний перед другими методами анализа данных – это возможность нивелировать важность эксперта для анализа, автоматизация процесса нахождения зерен знаний среди плевел. В data mining используются такие методы как кластеризация, поиск ассоциативных правил, поиск частых последовательностей. В докладе приводится сравнение методов data mining с различными методами анализа данных (в частности, OLAP, статические методы).

Методы data mining за последние десять лет прошли путь от научной разработки до устоявшейся и коммерчески успешной технологии. В докладе представлена ретроспектива применения методов извлечения знаний из данных, обсуждается их развитие и возникшие проблемы в различных научных и прикладных отраслях, таких как:

  • Банковское дело и экономика
  • Медицина
  • Биология
  • Исследование Интернет (Web mining)
  • Торговля.

Литература:

  1. M.-S. Chen, J. Han, P.S. Yu "Data Mining: An Overview from a Database Perspective", IEEE Transaction on Knowledge and Data Engineering, pp. 866-884, December 1996.
  2. "Advances in Knowledge Discovery and Data Mining", под ред. U.M. Fayyad, G. Piatetsky-Shapiro, P. Smyth и R. Uthurusamy, AAAI Press/MIT Press 1996.
  3. C. Owen "Data Modeling, Data Warehousing and Data Mining: How to Make Your Data Work for You Like Never Before!" DM Review Magazine, November 1998.
  4. Н. Загоруйко. Методы распознавания и их применение. - М.: Советское радио, 1972.
  5. Robert Cooley, Bamshad Mobasher, Jaideep Srivastava. "Web Mining: Information and Pattern Discovery on the World Wide Web." Proceedings of the 9th IEEE International Conference on Tools with Artificial Intelligence (ICTAI'97), November 1997.
  6. Daniela Florescu, Alon Levy, Alberto Mendelzon. "Database Techniques for the World-Wide Web: A Survey". SIGMOD Record, vol. 27, no. 3, 1998, pp. 59-74. Есть русск. пер.: Флореску Д., Леви А., Мендельсон А. Технологии баз данных для World-Wide Web: обзор. СУБД. - 1998. - №4-5, 1998.
  7. Sanjay Madria, Sourav S. Bhowmick. "Research issues in Web Data Mining." Data Warehousing and Knowledge Discovery, 1999, pp. 303-312.
Supported by Synthesis Group