Проект РФФИ 18-29-22096
Методы и средства решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии
Цель и задачи проекта
Целью проекта является разработка методов и средств решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии.
Для достижения цели необходимо решение следующих задач:
- анализ нейрофизиологии как предметной области для решения задач с интенсивным использованием данных (в том числе, разработка концептуальных спецификаций предметной области, анализ форматов данных);
- постановка актуальных задач в области нейрофизиологии (в частности, задач моделирования когнитивных функций) для решения в распределенных вычислительных инфраструктурах;
- разработка архитектуры распределённого решения задач анализа данных в области нейрофизиологии;
- разработка методов решения задач анализа данных в области нейрофизиологии;
- разработка экспериментальной распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии;
- решение задач анализа данных в области нейрофизиологии на разработанной инфраструктуре.
Актуальность
Исследования и принятие решений в различных областях деятельности реализуются в настоящее время на основе анализа данных, накопленных в соответствующих областях, называемых областями с интенсивным использованием данных - ОИИД. Объем и разнообразие данных при этом растут экспоненциально. Организуются глобальные проекты по сбору и накоплению данных при помощи специализированных высокотехнологичных инструментов. Наряду со сбором данных развиваются методы и средства накопления, обработки, анализа и управления данными в разнообразных ОИИД, происходит быстрое расширение спектра задач, требующих решения на основе полученных данных, накопление опыта решения подобных задач и обеспечение возможности его междисциплинарного использования.
Одним из примеров ОИИД является нейронаука — это совокупность анатомии, физиологии, генетики, биохимии, патологии нервной системы, психологии. Она является передним краем изучения мозга и мышления. Изучение мозга важно для понимания того, как мы воспринимаем и взаимодействуем с внешним миром. Количество данных, генерируемых в типовой лаборатории, проводящей исследования в нейронауке, растет с поражающей быстротой. Интеграция полученных данных в единую картину является сложной задачей. Для ее решения необходима нейроинформатика, возникающая как междисциплинарная область при сотрудничестве исследователей в нейронауке с информатиками, для того чтобы как новые, так и ранее известные данные стали доступнее сообществу исследователей для ускорения нашего понимания работы мозга.
Несмотря на большое количество работ в области нейроинформатики, и развитие специализированных программных библиотек анализа данных, в настоящее время не существует единой общепринятой распределенной платформы решения задач в области нейрофизиологии. Потребность в разработке методов и средства решения задач анализа данных (в частности, задач моделирования когнитивных функций) в распределенных вычислительных инфраструктурах остается высокой.
Предлагаемые подходы и методы
Для разработки концептуальных спецификаций предметной области нейрофизиологии предлагается использовать ряд высокоуровневых онтологических и логических языков, основанных на стандартах W3C RDF, OWL, RIF. На основании анализа терминологии, связей и определений терминов в тематической литературе, текстовых описаниях данных и методов, постановках задач производится концептуализация предметной области. Концептуальное моделирование предметной области является базисом взаимодействия человека и автоматизированных процессов с инфраструктурой данных для решения исследовательских задач. Связью с понятиями предметной области обеспечиваются все основные виды хранимых в инфраструктуре данных: структуры данных формируются на основе спецификаций предметной области. Описанием в терминах понятий снабжаются реализации методов предметной области и их интерфейсы. Это необходимо для классификации и организации данных и методов в коллекции.
Решение задач в предметной области с применением накопленных методов может формулироваться с использованием языков спецификации потоков работ в распределённой среде, таких как Ozzie. С другой стороны, потоки работ также классифицируются с точки зрения предметной области в коллекции методов и могут использоваться повторно.
Предлагается использование для анализа данных, полученных в результате применения различных подходов к регистрации активности мозга: фМРТ (функциональная МРТ), ЭЭГ (электроэнцефалография).
При проектировании и реализации распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии предлагается использование современных методов распределенных вычислений и свободно распространяемых программных средств, таких, как Hadoop, Spark, HBase, Hive.
Для решения конкретных задач в области нейрофизиологии перспективным представляется применение методов машинного обучения, в частности, нейросетей глубокого обучения. При этом предполагается использование программных библиотек, таких, как PyTorch и TensorFlow, применимых в распределенных вычислительных инфраструктурах.
Результаты
Публикации
-
Skvortsov N.A. (2019) Meaningful Data Reuse in Research Communities. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003. Springer, Cham.
DOI: https://doi.org/10.1007/978-3-030-23584-0_3
-
Stupnikov S., Kalinichenko L. (2019) Extensible Unifying Data Model Design for Data Integration in FAIR Data Infrastructures. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003, P. 17-36. Springer, Cham.
DOI: https://doi.org/10.1007/978-3-030-23584-0_2
-
Skvortsov N.A., Stupnikov S.A. (2019) Formalizing Requirement Specifications for Problem Solving in a Research Domain. In: Welzer T. et al. (eds) New Trends in Databases and Information Systems. ADBIS 2019. Communications in Computer and Information Science, vol 1064, P. 266-279. Springer, Cham.
DOI: https://doi.org/10.1007/978-3-030-30278-8_29
-
Lev Bulygin, Sergey Stupnikov. Applying of Machine Learning Techniques to Combine String-based, Language-based and Structure-based Similarity Measures for Ontology Matching. Data Analytics and Management in Data Intensive Domains: ХХI International Conference DAМDID/RCDL' 2019 (October 15–18, 2019, Kazan, Russia): Conference Proceedings. Edited bу Alexander Elizarov, Boris Novikov, Sergey Stupnikov. P. 148-166. – Kazan: Kazan Federal University, 2019.
https://dspace.kpfu.ru/xmlui/handle/net/151948
-
Dmitriy Kovalev, Egor Tirikov, Dmitrii Sergeev, Natalya V. Ponomareva. Методы и средства анализа сигналов головного мозга человека на данных функциональной магнитно-резонансной томографии (Methods and Tools for the Human Brain Signals Analysis over the Functional Magnetic Resonance Imaging Data). CEUR Workshop Proceedings, Vol. 2790, 2020.http://ceur-ws.org/Vol-2790/paper20.pdf
-
Д.О. Брюхов, С.А.Ступников, Д.Ю.Ковалев, И.А.Шанин. Нейрофизиология как предметная область для решения задач с интенсивным использованием данных. Информатика и ее применения. Т. 14, вып. 1. 2020. DOI: 10.14357/19922264200106. https://elibrary.ru/item.asp?id=43146932
-
Н.А. Скворцов. Разработка спецификаций предметной области для решения задач с интенсивным использованием данных в нейрофизиологии. Системы и средства информатики. Т. 30, вып. 1. 2020. DOI: 10.14357/08696527200102. https://elibrary.ru/item.asp?id=43946433
-
D. Kovalev, I. Shanin, E. Tirikov. Multidisciplinary Neuroinformatics Problems for Execution in Distributed Computing Infrastructures. Системы и средства информатики. Т. 30, вып. 2. 2020. DOI: 10.14357/08696527200205. https://elibrary.ru/item.asp?id=43155941
В.Н. Захаров, С.А. Ступников , И. А. Шанин. Математические методы анализа данных электроэнцефалографии с помощью многозадачного обучения. Обозрение прикладной и промышленной математики, Т. 27, Выпуск 1, 2020. http://www.tvp.ru/conferen/vsppmXXI_shkXXIV/dagso107.pdf
-
И.А. Шанин, С.А. Ступников. Методы анализа данных электроэнцефалографии с применением сверточных и рекуррентных нейронных сетей. Системы и средства информатики. Т. 31, вып. 2. 2021. Принято к печати. EEG_data_analysis.pdf
-
Д.О. Брюхов, С.А. Ступников, Д.Ю. Ковалев, И.А. Шанин. Архитектура распределенного решения задач анализа данных в области нейрофизиологии. Информатика и ее применения. Т. 15, вып. 1. 2021. Принято к печати. neuro_architecture.pdf
-
Nikolay A. Skvortsov, Sergey A. Stupnikov. Managing data-intensive research problem-solving lifecycle. Extended Abstracts of the ХХII International Conference DAMDID / RCDL'2020, Voronezh:Voronezh State University, ISBN 978-5-6045486-0-8, 2020, pp. 29-33. http://damdid2020.cs.vsu.ru/DAMDID_2020_Extended_Abstracts.pdf
-
Wenfei Tang and Sergey Stupnikov. A Transformation of the RDF Mapping Language into a High-Level Data Analysis Language for Execution in a Distributed Computing Environment. Extended Abstracts of the ХХII International Conference DAMDID / RCDL'2020, Voronezh:Voronezh State University, ISBN 978-5-6045486-0-8, 2020, pp. 61-65. http://damdid2020.cs.vsu.ru/DAMDID_2020_Extended_Abstracts.pdf
|