[ Russian ] [ English ]

Применение средств data mining в современной астрофизике

Александр Мещеряков, Сергей Герасимов,
Институт космических исследований РАН, ВМиК МГУ,
mesch@iki.rssi.ru

Астрофизика является одним из направлений фундаментальной физики, современное развитие которой тесно связано с анализом данных, а именно, данных наблюдений. Доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.

На сегодняшний день объемы данных с оптических телескопов переживают период взрывного роста, 80 ТБ изображений неба получены проектом SDSS [1] за 1999-2008 гг., 60 ПБ ожидаются от проекта LSST [2] в 2022-2032 гг. Вместе с ростом объемов "сырых" данных возникает необходимость в применении технологий больших данных и методов машинного обучения для их обработки и анализа.

В качестве примеров проблем, где применение точных методов машинного обучения особенно актуально в астрономии, в докладе обсуждаются следующие задачи:

  • Классификация звезда/галактика/квазар в данных цифровых обзоров неба
  • Измерения фотометрических красных смещений (photo-z) далеких (внегалактических) объектов

В докладе обсуждается опыт авторов [3][4] по применению передовых методов машинного обучения, основанных на ансамблях деревьев решений, для измерения photo-z галактик в обзоре неба SDSS. В рамках развиваемого подхода успешно решается задача об индивидуальной оценке достоверности прогноза в задаче регрессии. Уделяется внимание вопросу формирования рабочей выборки, имеющей заданное распределение.

Создана масштабируемая архитектура системы распределенной обработки больших массивов изображений неба [5], решающая задачу подготовки качественных каталогизированных данных из новых источников для последующего анализа средствами data mining. Архитектура, основанная на Apache Hadoop [6] и Spark [7], предполагает легкое разворачивание экземпляра системы в облаке.

Авторы доклада благодарны за поддержку Российскому фонду фундаментальных исследований (гранты РФФИ 14-22-03111 и 15-29-07085).

Слайды доклада.

Видео доклада.

Литература:

  1. SDSS -- The Sloan Digital Sky Survey.
  2. LSST -- The Large Synoptic Survey Telescope.
  3. A. V. Meshcheryakov, V. V. Glazkova, S. V. Gerasimov. High-accuracy photo-z measurements for galaxies based on SDSS-III photometry. Proc. of the 2016 conference on Big Data from Space(BiDS’16) v.1, p.304 (2016)
  4. A. V. Meshcheryakov, V. V. Glazkova, S. V. Gerasimov, R.A. Burenin, G. A. Khorunzhev. High-accuracy redshift measurements for galaxy clusters at z < 0.45 based on SDSS-III photometry. Astronomy Letters v.41, p.307 (2015)
  5. Герасимов С.В., А.В. Мещеряков, И.Ю. Колосов, Е.С. Глотов, И.С. Попов. Обработка больших объемов сырых астрономических данных с помощью модели вычислений MapReduce. Труды ИСП РАН, 27(6), 2015.
  6. Apache Hadoop -- open-source software for reliable, scalable, distributed computing.
  7. Apache Spark -- a fast and general engine for large-scale data processing.
  8. Публикации проекта Astro Mining.
Supported by Synthesis Group