Related Communities:

NeuroData Project

Проект РФФИ 18-29-22096

Методы и средства решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии

Цель и задачи проекта

Целью проекта является разработка методов и средств решения задач анализа данных в распределенных вычислительных инфраструктурах в области нейрофизиологии.

Для достижения цели необходимо решение следующих задач:

  • анализ нейрофизиологии как предметной области для решения задач с интенсивным использованием данных (в том числе, разработка концептуальных спецификаций предметной области, анализ форматов данных);
  • постановка актуальных задач в области нейрофизиологии (в частности, задач моделирования когнитивных функций) для решения в распределенных вычислительных инфраструктурах;
  • разработка архитектуры распределённого решения задач анализа данных в области нейрофизиологии;
  • разработка методов решения задач анализа данных в области нейрофизиологии;
  • разработка экспериментальной распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии;
  • решение задач анализа данных в области нейрофизиологии на разработанной инфраструктуре.

Актуальность

Исследования и принятие решений в различных областях деятельности реализуются в настоящее время на основе анализа данных, накопленных в соответствующих областях, называемых областями с интенсивным использованием данных - ОИИД. Объем и разнообразие данных при этом растут экспоненциально. Организуются глобальные проекты по сбору и накоплению данных при помощи специализированных высокотехнологичных инструментов. Наряду со сбором данных развиваются методы и средства накопления, обработки, анализа и управления данными в разнообразных ОИИД, происходит быстрое расширение спектра задач, требующих решения на основе полученных данных, накопление опыта решения подобных задач и обеспечение возможности его междисциплинарного использования.

Одним из примеров ОИИД является нейронаука — это совокупность анатомии, физиологии, генетики, биохимии, патологии нервной системы, психологии. Она является передним краем изучения мозга и мышления. Изучение мозга важно для понимания того, как мы воспринимаем и взаимодействуем с внешним миром. Количество данных, генерируемых в типовой лаборатории, проводящей исследования в нейронауке, растет с поражающей быстротой. Интеграция полученных данных в единую картину является сложной задачей. Для ее решения необходима нейроинформатика, возникающая как междисциплинарная область при сотрудничестве исследователей в нейронауке с информатиками, для того чтобы как новые, так и ранее известные данные стали доступнее сообществу исследователей для ускорения нашего понимания работы мозга.

Несмотря на большое количество работ в области нейроинформатики, и развитие специализированных программных библиотек анализа данных, в настоящее время не существует единой общепринятой распределенной платформы решения задач в области нейрофизиологии. Потребность в разработке методов и средства решения задач анализа данных (в частности, задач моделирования когнитивных функций) в распределенных вычислительных инфраструктурах остается высокой.

Предлагаемые подходы и методы

Для разработки концептуальных спецификаций предметной области нейрофизиологии предлагается использовать ряд высокоуровневых онтологических и логических языков, основанных на стандартах W3C RDF, OWL, RIF. На основании анализа терминологии, связей и определений терминов в тематической литературе, текстовых описаниях данных и методов, постановках задач производится концептуализация предметной области. Концептуальное моделирование предметной области является базисом взаимодействия человека и автоматизированных процессов с инфраструктурой данных для решения исследовательских задач. Связью с понятиями предметной области обеспечиваются все основные виды хранимых в инфраструктуре данных: структуры данных формируются на основе спецификаций предметной области. Описанием в терминах понятий снабжаются реализации методов предметной области и их интерфейсы. Это необходимо для классификации и организации данных и методов в коллекции.

Решение задач в предметной области с применением накопленных методов может формулироваться с использованием языков спецификации потоков работ в распределённой среде, таких как Ozzie. С другой стороны, потоки работ также классифицируются с точки зрения предметной области в коллекции методов и могут использоваться повторно.

Предлагается использование для анализа данных, полученных в результате применения различных подходов к регистрации активности мозга: фМРТ (функциональная МРТ), ЭЭГ (электроэнцефалография).

При проектировании и реализации распределенной вычислительной инфраструктуры для решения задач анализа данных в области нейрофизиологии предлагается использование современных методов распределенных вычислений и свободно распространяемых программных средств, таких, как Hadoop, Spark, HBase, Hive.

Для решения конкретных задач в области нейрофизиологии перспективным представляется применение методов машинного обучения, в частности, нейросетей глубокого обучения. При этом предполагается использование программных библиотек, таких, как PyTorch и TensorFlow, применимых в распределенных вычислительных инфраструктурах.

Результаты

Публикации

  • Skvortsov N.A. (2019) Meaningful Data Reuse in Research Communities. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003. Springer, Cham.
    DOI: https://doi.org/10.1007/978-3-030-23584-0_3
  • Stupnikov S., Kalinichenko L. (2019) Extensible Unifying Data Model Design for Data Integration in FAIR Data Infrastructures. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003, P. 17-36. Springer, Cham. DOI: https://doi.org/10.1007/978-3-030-23584-0_2
  • Skvortsov N.A., Stupnikov S.A. (2019) Formalizing Requirement Specifications for Problem Solving in a Research Domain. In: Welzer T. et al. (eds) New Trends in Databases and Information Systems. ADBIS 2019. Communications in Computer and Information Science, vol 1064, P. 266-279. Springer, Cham.
    DOI: https://doi.org/10.1007/978-3-030-30278-8_29
  • Lev Bulygin, Sergey Stupnikov. Applying of Machine Learning Techniques to Combine String-based, Language-based and Structure-based Similarity Measures for Ontology Matching. Data Analytics and Management in Data Intensive Domains: ХХI International Conference DAМDID/RCDL' 2019 (October 15–18, 2019, Kazan, Russia): Conference Proceedings. Edited bу Alexander Elizarov, Boris Novikov, Sergey Stupnikov. P. 148-166. – Kazan: Kazan Federal University, 2019. https://dspace.kpfu.ru/xmlui/handle/net/151948
  • Dmitriy Kovalev, Egor Tirikov, Dmitrii Sergeev, Natalya V. Ponomareva. Методы и средства анализа сигналов головного мозга человека на данных функциональной магнитно-резонансной томографии (Methods and Tools for the Human Brain Signals Analysis over the Functional Magnetic Resonance Imaging Data). CEUR Workshop Proceedings, Vol. 2790, 2020.http://ceur-ws.org/Vol-2790/paper20.pdf
  • Д.О. Брюхов, С.А.Ступников, Д.Ю.Ковалев, И.А.Шанин. Нейрофизиология как предметная область для решения задач с интенсивным использованием данных. Информатика и ее применения. Т. 14, вып. 1. 2020. DOI: 10.14357/19922264200106. https://elibrary.ru/item.asp?id=43146932
  • Н.А. Скворцов. Разработка спецификаций предметной области для решения задач с интенсивным использованием данных в нейрофизиологии. Системы и средства информатики. Т. 30, вып. 1. 2020. DOI: 10.14357/08696527200102. https://elibrary.ru/item.asp?id=43946433
  • D. Kovalev, I. Shanin, E. Tirikov. Multidisciplinary Neuroinformatics Problems for Execution in Distributed Computing Infrastructures. Системы и средства информатики. Т. 30, вып. 2. 2020. DOI: 10.14357/08696527200205. https://elibrary.ru/item.asp?id=43155941
  • В.Н. Захаров, С.А. Ступников , И. А. Шанин. Математические методы анализа данных электроэнцефалографии с помощью многозадачного обучения. Обозрение прикладной и промышленной математики, Т. 27, Выпуск 1, 2020. http://www.tvp.ru/conferen/vsppmXXI_shkXXIV/dagso107.pdf
  • И.А. Шанин, С.А. Ступников. Методы анализа данных электроэнцефалографии с применением сверточных и рекуррентных нейронных сетей. Системы и средства информатики. Т. 31, вып. 2. 2021. Принято к печати. EEG_data_analysis.pdf
  • Д.О. Брюхов, С.А. Ступников, Д.Ю. Ковалев, И.А. Шанин. Архитектура распределенного решения задач анализа данных в области нейрофизиологии. Информатика и ее применения. Т. 15, вып. 1. 2021. Принято к печати. neuro_architecture.pdf
  • Nikolay A. Skvortsov, Sergey A. Stupnikov. Managing data-intensive research problem-solving lifecycle. Extended Abstracts of the ХХII International Conference DAMDID / RCDL'2020, Voronezh:Voronezh State University, ISBN 978-5-6045486-0-8, 2020, pp. 29-33. http://damdid2020.cs.vsu.ru/DAMDID_2020_Extended_Abstracts.pdf
  • Wenfei Tang and Sergey Stupnikov. A Transformation of the RDF Mapping Language into a High-Level Data Analysis Language for Execution in a Distributed Computing Environment. Extended Abstracts of the ХХII International Conference DAMDID / RCDL'2020, Voronezh:Voronezh State University, ISBN 978-5-6045486-0-8, 2020, pp. 61-65. http://damdid2020.cs.vsu.ru/DAMDID_2020_Extended_Abstracts.pdf
Supported by Synthesis Group