Применение средств data mining в современной астрофизике
Александр Мещеряков, Сергей Герасимов,
Институт космических исследований РАН, ВМиК МГУ,
mesch@iki.rssi.ru
Астрофизика является одним из направлений фундаментальной физики, современное развитие которой тесно связано с анализом данных, а именно, данных наблюдений. Доклад посвящен описанию особенностей данных астрофизических наблюдений, важнейшим задачам современной астрофизики и тому, как машинное обучение и большие данные помогают решать эти задачи.
На сегодняшний день объемы данных с оптических телескопов переживают период взрывного роста, 80 ТБ изображений неба получены проектом SDSS [1] за 1999-2008 гг., 60 ПБ ожидаются от проекта LSST [2] в 2022-2032 гг. Вместе с ростом объемов "сырых" данных возникает необходимость в применении технологий больших данных и методов машинного обучения для их обработки и анализа.
В качестве примеров проблем, где применение точных методов машинного обучения особенно актуально в астрономии, в докладе обсуждаются следующие задачи:
- Классификация звезда/галактика/квазар в данных цифровых обзоров неба
- Измерения фотометрических красных смещений (photo-z) далеких (внегалактических) объектов
В докладе обсуждается опыт авторов [3][4] по применению передовых методов машинного обучения, основанных на ансамблях деревьев решений, для измерения photo-z галактик в обзоре неба SDSS. В рамках развиваемого подхода успешно решается задача об индивидуальной оценке достоверности прогноза в задаче регрессии. Уделяется внимание вопросу формирования рабочей выборки, имеющей заданное распределение.
Создана масштабируемая архитектура системы распределенной обработки больших массивов изображений неба [5], решающая задачу подготовки качественных каталогизированных данных из новых источников для последующего анализа средствами data mining. Архитектура, основанная на Apache Hadoop [6] и Spark [7], предполагает легкое разворачивание экземпляра системы в облаке.
Авторы доклада благодарны за поддержку Российскому фонду фундаментальных исследований (гранты РФФИ 14-22-03111 и 15-29-07085).
Слайды доклада.
Видео доклада.
Литература:
-
SDSS -- The Sloan Digital Sky Survey.
-
LSST -- The Large Synoptic Survey Telescope.
- A. V. Meshcheryakov, V. V. Glazkova, S. V. Gerasimov. High-accuracy photo-z measurements for galaxies based on SDSS-III photometry. Proc. of the 2016 conference on Big Data from Space(BiDS’16) v.1, p.304 (2016)
- A. V. Meshcheryakov, V. V. Glazkova, S. V. Gerasimov, R.A. Burenin, G. A. Khorunzhev. High-accuracy redshift measurements for galaxy clusters at z < 0.45 based on SDSS-III photometry. Astronomy Letters v.41, p.307 (2015)
- Герасимов С.В., А.В. Мещеряков, И.Ю. Колосов, Е.С. Глотов, И.С. Попов. Обработка больших объемов сырых астрономических данных с помощью модели вычислений MapReduce. Труды ИСП РАН, 27(6), 2015.
-
Apache Hadoop -- open-source software for reliable, scalable, distributed computing.
-
Apache Spark -- a fast and general engine for large-scale data processing.
-
Публикации проекта Astro Mining.
|