1. Проведен анализ нейрофизиологии как предметной области для решения задач с интенсивным использованием данных
Анализ текущего состояния исследований в области нейрофизиологии с основным вниманием, уделенным моделированию когнитивных функций на основе нейрофизиологических данных, включает обзор основных мировых стратегических инициатив и проектов, обзор крупных баз экспериментальных данных, обзор программных средства для обработки и анализа нейрофизиологических данных [Д.О. Брюхов, С.А.Ступников, Д.Ю.Ковалев, И.А.Шанин. Нейрофизиология как предметная область для решения задач с интенсивным использованием данных. Информатика и ее применения. Т. 14, вып. 1. 2020. DOI: 10.14357/19922264200106. https://elibrary.ru/item.asp?id=43146932].
1.1 Крупные международные консорциумы и проекты в области нейрофизиологии.
Потребность в использовании данных различных дисциплин для исследования процессов и способов лечения основных заболеваний была признана несколько лет назад. Также была осознана необходимость сотрудничества между центрами и дисциплинами для интеграции и совместного использования разнообразных данных путем организации междисциплинарных консорциумов.
Примером такого консорциума является инициатива по нейровизуализации болезни Альцгеймера (Alzheimer's Disease Neuroimaging Initiative (ADNI)), объединяющая исследователей с данными исследований для улучшения профилактики и лечения болезни Альцгеймера. Целями инициативы являются: выявление болезни на ранней стадии и определение способа отслеживание болезни с помощью биомаркеров, применение методов ранней диагностики (когда вмешательство может быть наиболее эффективным), предоставление данных исследований для ученых всего мира. Другими примерами междисциплинарных консорциумов, использующих обработку нейроизображений, являются инициативы, направленные на лечения таких заболеваний, как болезнь Паркинсона (Parkinson’s Progression Markers Initiative (PPMI)), психиатрические расстройства. Поддерживаются базы данных для сбора нейровизуальных, генетических и феноменальных данных об аутизме (National Database of Autism Research) и повреждениях головного мозга (Federal Interacgency Traumatic Brain Injury Research).
Инициатива исследования мозга с помощью развитых инновационных технологий (The Brain Research through Advancing Innovative Neurotechnologies (BRAIN) Initiative) была объявлена в США в 2013 г. и представляет собой 10-летнюю программу, направленную на революцию в понимании работы человеческого мозга. Первоочередной задачей проекта является создание динамической картины мозга, показывающей, как индивидуальные клетки и нейросети взаимодействуют во времени и пространстве. В долговременных планах стоит исследование новых способов обнаружения, лечения и предотвращения болезней, связанных с мозгом.
Начатый в 2013 году проект Human Brain Project (HBP) является десятилетним проектом поддержки исследований человеческого мозга, поддерживаемым Европейским Союзом (ЕС). Цель проекта - создание современной исследовательской инфраструктуры, которая позволит исследователям расширять знания в понимании работы человеческого мозга. В рамках проекта развивается 6 платформ, составляющих основу исследовательской инфраструктуры: нейроинформатика, моделирование мозга, высокопроизводительная аналитика и вычисления, медицинская информатика, нейроморфные вычисления и нейроробототехника.
Стартовавший в 2010 году проект Human Connectome Project (HCP) является попыткой картирования нервных путей, лежащих в основе функционирования человеческого мозга. Целью проекта является сбор и обмен данными о структурной и функциональной связанности человеческого мозга (коннектома). В рамках проекта была разработана информационная площадка для хранения первичных и обработанных данных, а также систематической обработки и анализа данных.
Проект BNCI Horizon 2020 в рамках 7-й рамочной программы ЕС направлен на поддержку и координацию усилий в области интерфейсов мозг-компьютер (BCI) и нейро-интерфейсов мозг-компьютер (BNCI). Основной целью этого проекта является разработка дорожной карты для области BCI с особым упором на промышленные приложения BCI и конечных пользователей. Этот проект объединяет 12 европейских университетов. В рамках проекта разрабатывается база данных, содержащая наборы открытых данных в области интерфейсов мозг-компьютер. В настоящее время в базе зарегистрировано 26 наборов ЭЭГ-данных.
1.2 Крупные базы экспериментальных данных
С целью дальнейшего использования данных, полученных исследователями со всего мира, создаются и поддерживаются инфраструктуры доступа к данным и отдельные базы данных, объединяющие данные от различных исследовательских групп и предоставляющие единый интерфейс доступа к этим данным. Инфраструктуры предоставляют единую среду для доступа к различным данным и использования различных программных средств для обработки этих данных.
Проект 1000 функциональных коннектомов (1000 Functional Connectomes project) предоставляет доступ к фМРТ изображениям со всего мира. Проект содержит данные о более 1200 наборов фМРТ изображений состояния покоя, собранных с 33 разных сайтов. Все наборы данных были предоставлены исследователями с сайтов-членов проекта с целью предоставления свободного доступа к крупномасштабному набору функциональных данных исследователям, занимающихся анализом нейроизображений по всему миру. Проект содержит как сырые, так и предобработанные данные, представленные в формате BIDS.
OpenNEURO – бесплатная и открытая платформа для обмена данными МРТ, МЭГ, ЭЭГ. Данные, хранящиеся в базе OpenfMRI, могут использоваться для решения или проверки многих вопросов, касающихся структуры и функций человеческого мозга, например, для определения того, как выполнение конкретной задачи влияет на действия мозга. Все изображения, хранящиеся в базе данных, представлены в формате BIDS.
База данных ConnectomeDB была разработана в рамках проекта Human Connectome Project (HCP) и содержит данные о структурной и функциональной связанности человеческого мозга (коннектома). База данных в настоящее время включает в себя несколько видов данных магнитно-резонансной томографии и магнитоэнцефалографии, а также соответствующие данные о поведении. фМРТ-данные включают в себя структурные данные, данные действия, данные состояния покоя и данные диффузионной МРТ. Изображения, хранящиеся в ConnectomeDB, представлены в формате NIFTI. Для обработки данных проекта был создан Connectome Workbench – свободно предоставляемый инструмент для визуализации и анализа данных, полученных в рамках проекта HCP.
XNAT – это открытая информационная платформа для работы с нейроизображениями, разработанная исследовательской группой по нейроинформатике в Вашингтонском университете. XNAT включает в себя мощный конвейерный движок, который позволяет программировать сложные потоки работ с несколькими уровнями автоматизации. XNAT Central является общедоступным хранилищем медицинских изображений, основанном на открытой информационной платформе обработки изображений XNAT. Все изображения, хранящиеся в XNAT Central, представлены в формате DICOM.
NeuroImaging Tools & Resources Collaboratory (NTRC) – это бесплатный веб-ресурс, который предлагает информацию о постоянно расширяющемся наборе программного обеспечения и данных для нейроинформатики. Он состоит из трех компонентов: реестра ресурсов (NITRC-R), репозитория изображений (NITRC-IR) и вычислительной среды (NITRC-CE). Репозиторий изображений NITRC позволяет искать и загружать общедоступные наборы данных в форматах DICOM и NIfTI, полученные как от здоровых пациентов, так и от пациентов с диагнозами нарушения развития ребенка, синдромом Аспергера, аутизмом, болезнью Паркинсона и шизофренией.
Библиотека анализа пространственных карт и атласов мозга (Brain Analysis Library of Spatial maps and Atlases) - это база данных, предназначенная для размещения тщательно проанализированных наборов нейроизображений и наборов нейроанатомических данных. BALSA содержит данные как о людях, так и о приматах. В BALSA хранятся МРТ-данные различных видов: структурные МРТ, фМРТ действия, фМРТ состояния покоя. Данные в BALSA могут храниться в различных форматах нейроизображений.
База данных, разработанная в рамках проекта BNCI Horizon 2020 является общедоступной коллекцией наборов данных в области интерфейсов мозг-компьютер. Целью создания базы данных является повышение научной прозрачности и эффективности. База данных способствует также валидации опубликованных методов и способствует разработке новых алгоритмов. В настоящее время в базе зарегистрировано 26 наборов ЭЭГ данных. Данные могут храниться в различных форматах ЭЭГ данных.
1.3 Программные средства для обработки и анализа нейрофизиологических данных
Программные средства работы с нейроизображениями помогают исследователям в изучении мозга человека. Они позволяют визуализировать данные в виде трехмерных изображений, применять различные методы анализа данных. Первоначально такие средства создавались в виде отдельных программ, запускались на компьютере исследователя и работали под управлением определенной операционной системы. В последнее время появляются программы в виде веб-приложений, которые позволяют удаленно обрабатывать и анализировать изображения. Также появляются библиотеки программ, которые могут использоваться при создании различных программ анализа нейроизображений более высокого уровня.
Рассмотрены программные средства 3D Slicer, BrainVoyager, DataViewer3D, Mango, MIPAV. Средства визуализации позволяют визуализировать 2D, 3D и 4D-нейроизображения структурной и функциональной МРТ, электроэнцефалографии и магнитоэнцефалографии, позитронно-эмиссионной томографии, компьютерная томографии и микроскопии; предоставляют такие функции, как ручная сегментация и создание трехмерной модели поверхности, создание и редактирование областей интереса в изображениях, рендеринг поверхности, наложение изображений, фильтрацию в пространственной области и анализ гистограмм.
Рассмотрены средства анализа нейроизображений, применяющие различные методы информатики для анализа: BRAINSUITE, CONN, SPM, Neurophysiological Biomarker Toolbox, EEGLAB, FieldTrip, BioSig. Данные средства позволяют проводить количественный анализ нейроизображений, идентификацию поверхности коры мозга, определение функциональных связностей, статистический анализ нейроизображений и расчет нейрофизиологических биомаркеров, реализуют метод независимых компонент (ICA), частотно-временной анализ, восстановление источников с использованием диполей, непараметрическое статистическое тестирование обработки артефактов, контроля качества, извлечения характеристик, классификации.
Рассмотрены библиотеки обработки нейроизображений на языке Python, предназначенные для разработки собственных программ для работы с нейроизображениями: NiPy, Nibabel, Niwidgets, Nitime, Nilearn, MNE-Python. Библиотеки реализуют как простые операции с изображениями (чтение и запись) в различных форматах, так и сложные алгоритмы анализа нейроизображений (анализ временных рядов, методы многомерной статистики, интеллектуального моделирования, классификации, анализ связности). Предоставляется полный или выборочный доступ к данным заголовка.
2. Проведены исследования методов концептуального моделирования предметных областей и разработка спецификаций предметной области нейрофизиологии
2.1. Проведено исследование потребностей концептуального моделирования предметных областей в научных сообществах
[Skvortsov N.A. (2019) Meaningful Data Reuse in Research Communities. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003, P. 37-51. Springer, Cham. doi.org/10.1007/978-3-030-23584-0_3]
Отмечено, что одними из важнейших составляющих принципов инициативы управления данными FAIR являются интероперабельность и повторное использование данных в соответствии со спецификациями, понимаемыми как человеком, так и компьютерами. Соблюдение данных принципов приводит к некоторым последствиям для инфраструктур данных и научных сообществ. Осмысленный обмен данными и повторное использование человеком и компьютерами требует формальных спецификаций предметных областей, сопровождающих данные и допускающих автоматический логический вывод. Разработка формальных концептуальных спецификаций в научных сообществах может быть стимулирована необходимостью достижения семантической интероперабельности коллекций данных и компонентов, а также повторного использования источников данных. Формальный логический вывод обеспечивает осмысленный поиск и верифицированное повторное использование накопленных данных, методов и процессов. Подобные средства способны повысить эффективность жизненного цикла исследований в научных сообществах. Жизненный цикл включает сбор спецификаций, формализующих знания о предметной области, классификацию данных, методов, процессов в соответствии со спецификациями, повторное использование релевантных данных и методов, сбор и совместное повторное использование.
2.2. Как формальная основа для интероперабельности, интеграции и повторного использования данных в FAIR инфраструктурах данных рассмотрены методы унификации моделей данных
[Stupnikov S., Kalinichenko L. (2019) Extensible Unifying Data Model Design for Data Integration in FAIR Data Infrastructures. In: Manolopoulos Y., Stupnikov S. (eds) Data Analytics and Management in Data Intensive Domains. DAMDID/RCDL 2018. Communications in Computer and Information Science, vol 1003, P. 17-36. Springer, Cham. doi.org/10.1007/978-3-030-23584-0_2]
Методы предназначены для преодоления неоднородности моделей данных и языков манипулирования данными, используемых для представления данных и предоставления доступа к данным в источниках. Рассмотрены и проиллюстрированы на примерах общие принципы унификации моделей данных, необходимые языки и формальные методы, этапы унификации моделей данных. Обсуждается применение методов интеграции данных в FAIR инфраструктурах данных.
2.3. Проведено исследование методологии разработки концептуальных схем для решения задач в предметных областях
[Skvortsov N.A., Stupnikov S.A. (2019) Formalizing Requirement Specifications for Problem Solving in a Research Domain. In: Welzer T. et al. (eds) New Trends in Databases and Information Systems. ADBIS 2019. Communications in Computer and Information Science, vol 1064, P. 266-279. Springer, Cham. doi.org/10.1007/978-3-030-30278-8_29]
Принципиальным является семантический подход к построению спецификаций предметной области. Процесс разработки включает формулировку модели требований к предметной области на основании вербальных описаний, разработку онтологии предметной области, ее трансформацию в концептуальную схему, а также повторное использование знаний о предметной области. Подходящие источники данных отображаются в концептуальные схемы предметных областей в инфраструктурах данных. Спецификации требований реализуются над концептуальными схемами для разрешения сущностей и решения задач в предметных областях и использованием доступных источников данных.
2.4. Подробно рассмотрен вопрос автоматизации сопоставления онтологий предметных областей
[Lev Bulygin, Sergey Stupnikov. Applying of Machine Learning Techniques to Combine String-based, Language-based and Structure-based Similarity Measures for Ontology Matching. Data Analytics and Management in Data Intensive Domains: ХХI International Conference DAМDID/RCDL' 2019 (October 15–18, 2019, Kazan, Russia): Conference Proceedings. Edited bу Alexander Elizarov, Boris Novikov, Sergey Stupnikov. P. 148-166. – Kazan: Kazan Federal University, 2019. https://dspace.kpfu.ru/xmlui/handle/net/151948]
Сопоставление онтологий вручную экспертом чрезвычайно трудоемко, требует существенного времени и подвержено ошибкам. Поэтому, разработка автоматических и автоматизированных методов и средств сопоставления онтологий является важной задачей. Предложен подход к сопоставлению онтологий с использованием машинного обучения, при этом в качестве признаков используются различные меры сходства между элементами онтологий: строковые, языковые, структурные; проведена экспериментальная оценка подхода.
2.5. Проведена разработка спецификаций предметной области нейрофизиологии
Для разработки концептуальных спецификаций в области нейрофизиологии была применена методология, упомянутая выше в п. 2.3 [Н. А. Скворцов. Разработка спецификаций предметной области для решения задач с интенсивным использованием данных в нейрофизиологии. Системы и средства информатики. Т. 30, вып. 1. 2020. DOI: 10.14357/08696527200102. https://elibrary.ru/item.asp?id=43946433]. Источниками знаний о понятиях предметной области являются: опрос специалистов предметной области; использование понятий из существующих моделей предметной области, анализ структур источников данных, метаданных и форматов, используемых в нейрофизиологии; постановки задач в предметной области; обзоры методов решения задач, используемых в предметной области. Выделены основные термины предметной области и составлен начальный словарь. Словарь сопровождается определениями терминов, и таким образом преобразуется в глоссарий. Рассмотрены существующие онтологии, содержащие описание терминов нейрофизиологии, так как они снабжены вариантами вербальных определений для большинства понятий. Выбраны те определения, которые отражают существенные свойства, связи различных понятий и их ограничения. В зависимости от вида связи формализованы в отношения понятие-подпонятие, часть-целое, класс-экземпляр, а также в именованные отношения с определёнными областями определения и значения, функциональными и множественными отношениями, инверсными отношениями, выделяются роли и другие свойства, определяются синонимы, антонимы, перечислимые понятия одного класса. Таким образом, на основе глоссария создана онтология предметной области. Разработаны спецификации модулей онтологии, включающих различные аспекты исследований в области моделирования когнитивных функций головного мозга человека. Все понятия возводятся в общую иерархию на основе онтологии верхнего уровня и основаны на принципах описания исследований, принятых в онтологии OBI, однако существенно расширяющие связи этих описаний. Онтология включает в себя понятия для описания человека как объекта исследования, его возможных патологий, описание органов человека и явлений, связанных с ними, описание головного мозга и направлений его когнитивной деятельности, описание стимулов, получаемых человеком, и заданий, выполняемых им для изучения его когнитивной деятельности, описание методов и инструментов наблюдения деятельности головного мозга, стандартную терминологию для описания темы исследования: физиологические, клинические, демографические и генетические изменения, а также инструменты и средства, используемые для сбора и генерирования данных. При создании концептуальной схемы на основе онтологии понятия преобразуются в абстрактные типы данных или реляционные таблицы, отношения разных видов между понятиями преобразуются в атрибуты с определенными типами данных, включая скалярные типы и связи структур, а понятия, связанные с методами и зависимостями разного рода, преобразуются в сигнатуры методов, связанных с определёнными структурами данных для определения их поведения.
3. Проведен анализ форматов данных в нейрофизиологии
В области нейрофизиологии в настоящее время нет единых стандартов для хранения данных. Это относится как к нейроизображениям, так и к биомедицинским сигналам. Многообразие форматов представления данных вызвано разнообразием как медицинского оборудования, так и средств визуализации и анализа получаемых данных [Д.О. Брюхов, С.А.Ступников, Д.Ю.Ковалев, И.А.Шанин. Нейрофизиология как предметная область для решения задач с интенсивным использованием данных. Информатика и ее применения. Т. 14, вып. 1. 2020. DOI: 10.14357/19922264200106. https://elibrary.ru/item.asp?id=43146932].
3.1. Форматы магнитно-резонансной томографии
Данные нейрофизиологических изображений должны содержать не только сами изображения, но и дополнительную информацию (метаданные), обеспечивающую интероперабельность и повторное использование этих данных. К метаданным относятся информация об изображении (размер пикселя, ширина и высота изображения, количество изображений), информация об оборудовании, информация об объекте наблюдения, информация о положении объекта наблюдения относительно оборудования.
Наиболее распространенным форматом является DICOM, используемый в большинстве медицинских сканеров. Первоначально этот формат был разработан совместным комитетом American College of Radiology и National Electrical Manufacturers Association в 1983 г. С тех пор формат постоянно эволюционирует с целью поддержки появляющегося нового оборудования. Другим распространенным форматом является формат ANALYZE 7.5, который был разработан в клинике Mayo в рамках создания пакета программ Analyze для хранения, визуализации и обработки многомерных биомедицинских изображений. Среди других форматов данных в нейрофизиологии можно отметить: ECAT, GE, HRRTInterfile, MGH, MINC, NIFTI, BIDS и NRRD.
Форматы определяют, как изображения и метаданные хранятся в файле. В большинстве форматов изображения и метаданные хранятся в одном файле, но ряд форматов (ANALYZE 7.5, Interfile, NIFTI, NRRD, BIDS) поддерживает их хранение в двух разных файлах. HRRTInterfile и NRRD хранят метаданные в текстовом виде, тогда как другие - в бинарных форматах. Названия конкретных метаданных в каждом формате свои, и их количество варьируется от сотни (ANALYZE 7.5, NIFTI) до нескольких тысяч (DICOM). В ряде форматов (ANALYZE 7.5, ECAT, GE, MGH, NIFTI, BIDS) определяется неизменяемый список используемых метаданных и любой файл должен содержать значения всех этих метаданных, даже если они не известны. Другие форматы (DICOM, Interfile, MINC, NRRD) используют гибкий набор метаданных, когда конкретные метаданные присутствуют в файле только в том случае, если они определены.
Нейрофизиологические изображения представляются в виде трехмерного массива вокселей, описывающего положение вокселей в трехмерном пространстве. Также, может добавляться четвертое измерение – время. Каждый формат определят свой способ представления этого массива в файле в виде одномерной последовательности вокселей. Форматы отличаются способом задания ориентации изображения относительно сканера: неявная фиксированная ориентация (ANALYZE, ECAT), кватернионы (NIFTI) и направляющие косинусы (DICOM, NIFTI, MGH, MINC, NRRD). Для определения ориентации объекта наблюдения относительно сканера используются, в основном два подхода: нейрологический (GE, MGH, MINC, NIFTI) и радиологический (DICOM).
3.2 Форматы ЭЭГ
Формат EDF (European Data Format) был разработан в 1992 году. Он является 16-битнным форматом, поддерживающим несколько частот дискретизации и несколько коэффициентов масштабирования. В 2003 году было предложено расширение этого формата EDF+. Для решения ряда проблем формата EDF, включая ограниченность 16-битного формата, в 2005 году был предложен формат GDF (General Data Format for Biomedical Signals), созданный с целью объединения форматов в специфичных областях. В версии 1.0 формат GDF содержал лишь фиксированный бинарный заголовок и таблицу событий. В версии 2.1 была добавлена возможность хранения дополнительных сведений о субъекте и хранения данные по каждому отведению (частоту семплирования, настройки фильтров).
Форматы определяют, как метаданные (заголовки) и данные хранятся в файле. В большинстве форматов они хранятся в одном файле. Однако, формат OpenXDF содержит набор файлов, которые хранятся в одном zip файле. Заголовки файлов (метаданные) обычно хранятся в бинарном виде (EDF, EDF+, GDF), но в некоторых форматах они хранятся в текстовом виде (E1467) или в виде XML (HL7, Unisens, OpenXDF).
Некоторые биомедицинские данные могут содержать различные виды биомаркеров, для этого форматы (EDF, EDF+, GDF, HL7, Unisens, OpenXDF) должны поддерживать частоту дискретизации и коэффициенты масштабирования. Первоначально форматы поддерживали хранение 8-битных данных, затем 16-битных (EDF, EDF+, HL7, E1467), а все последние форматы поддерживают и типы данных более 16-бит (GDF, OpenXDF, Unisens). При хранении данных важно знать физическую единицу записанного сигнала, то есть, представляют ли значения выборки милливольт (мВ) или микровольт (мкВ). Большинство форматов поддерживают все физические единицы, представленные в стандарте ISO11073:10101. Но некоторые старые форматы (EDF, EDF+, GDF 1.0) отводят на это только 8 байт, что недостаточно для хранения всех единиц.
Биомедицинские сигналы зачастую содержат артефакты. Часть форматов (GDF, OpenXDF) позволяют задавать диапазон изменения значения единиц, что позволяет автоматически находить некорректные данные. Для анализа больших баз данных и архивов важно иметь доступную информацию о демографии пациентов, записывающем оборудовании, исследователе и т.д. Большинство форматов данных не предоставляют возможность для хранения подобной информации. Только новые форматы (HL7, OpenXDF) предоставляют эту возможность.
4. Осуществлена постановка актуальных задач в области нейрофизиологии для решения в распределенных вычислительных инфраструктурах
[D. Kovalev, I. Shanin, E. Tirikov. Multidisciplinary Neuroinformatics Problems for Execution in Distributed Computing Infrastructures. Системы и средства информатики. Т. 30, вып. 2. 2020. DOI: 10.14357/08696527200205. https://elibrary.ru/item.asp?id=43155941]
4.1. Обнаружение функциональной связности различных отделов головного мозга.
Задача обнаружения функциональной связности различных отделов головного мозга человека является одной из фундаментальных задач понимания когнитивной деятельности мозга и заключается в обнаружении существенных зависимостей между анатомически разделенными отделами человеческого мозга. Изучение функциональной связности дает знания о взаимодействии нейронов в мозге человека. Для выявления функциональной связности используется анализ данных ФМРТ состояния покоя. Функциональные связь между областями головного мозга определяется как соответствующая связь временного ряда конкретного отдела мозга с временными рядами других отделов. В результате строится карта связности, определяющая функциональные связи областей мозга. Существует несколько методов обработки данных ФМРТ состояния покоя, которые анализируют существование функциональных связей и степень взаимодействия между отделами мозга. Среди них есть линейные методы, которые находят значимые попарные корреляции между отделами мозга, и более сложные нелинейные методы, заключающиеся в построении формульных зависимостей между временными рядами для отделов мозга. Построение формульных зависимостей является вычислительно сложным процессом и требует параллельного выполнения на графических ускорителях. Для решения задачи выбраны следующие методы и подходы: построение линейной функциональной зависимости на распределенной вычислительной инфраструктуре, построение нелинейной функциональной зависимости с помощью нейронных сетей вида нейронного обыкновенного дифференциального уравнения (NODE). Данный подход является оригинальным, так как на данный момент распределенный алгоритм построения линейных функциональных зависимостей и применение нейронных сетей NODE к задаче обнаружения линейной и нелинейной функциональной связности не исследованы.
4.2. Выявление шаблонов гендерных различий в работе мозга.
Понимание роли гендерных эффектов может дать представление о специализированном лечении, которое может различаться для мужчин и женщин. Существуют различные исследования для определения гендерных различий в работе мозга, использующие разные виды нейрофизиологических данных и приводящие к противоречивым результатам. Значительная разница между мужчинами и женщинами в состоянии покоя ФМРТ обнаруживается о фронтальной и височной областях, а также в мозжечке. Выявление шаблонов гендерных различий включает в себя разбиение набора данных на два отдельных набора данных и вычисление усредненной статистики по группам, выбор соответствующих статистических методов по объемам данных и сложности вычислений, проверку значимости множественных гипотез, а также разработку распределенной реализации алгоритма. Для решения задачи в рамках проекта выбраны остаточные сверточные нейронные сети (ResNet), в настоящее время данный подход задаче не исследован.
4.3. Классификация людей по полу на основе данных ФМРТ.
Развитые вычислительные методы глубокого машинного обучения являются более подходящими для определения характерных различий между полами. Создание классификатора пола на основе фМРТ состоит из выбора для классификации всего мозга или только одной области мозга; предварительной обработки входных наборов данных, включая методы выделения областей интереса (ROI); построения дополнительных признаков, например, энтропии, связанных со временем признаков и пр.; построения распределенного классификатора на основе развитых алгоритмов, например, глубоких нейронных сетей; сравнение точности классификации и дополнительных выбранных метрик для разных наборов данных. Для решения задачи выбран следующий оригинальный подход: классификация с помощью глубокой сверточной автокодирующей нейронной сети (DCAE) с использованием построенных в явном виде иерархических связей динамического причинно-следственного моделирования (DCM) в качестве признаков.
4.4. Классификация действий человека на основе данных фМРТ действия.
В данной постановке в ходе эксперимента люди выполняют одно из нескольких действий из некоторых категорий (например: эмоции, игра, язык, двигательные навыки), при этом с людей снимаются показания фМРТ. Необходимо на основании изображений фМРТ классифицировать действие в одну из категорий. Распространенным подходом к решению задачи является использование нейронных сетей глубокого обучения. Построение классификатора действий на основе фМРТ состоит из выбора, строить ли классификатор для всего мозга или для отдельного выбранного отдела; предварительной обработки входящих наборов данных, включая методы выделения областей интереса (ROI); добавления дополнительных признаков, например, из модели DCM, для повышения точности классификации; создания распределенного классификатора, в том числе с использованием глубоких нейронных сетей; кросс-валидации результатов, включая проверку на различных наборах данных. Для решения задачи в рамках проекта выбраны методы классификации с использованием сверточных нейронных сетей (CNN) и остаточных сверточных нейронных сетей (ResNet), ранее не применявшиеся.
4.5 Обнаружение и исправление артефактов в данных электроэнцефалографии.
Поставлена задача автоматической предобработки данных экспериментов ЭЭГ. Данные экспериментов ЭЭГ неизбежно подвержены искажению артефактами различной природы, связанной с несовершенством технологии электроэнцефалографии. Чаще всего артефактный сигнал поступает от электрической мышечной активности, вызываемой движениями глаз, морганиями, мышцами челюсти, мышцами шеи и сердечной деятельностью. Эти артефакты являются специфичными для каждого человека, и их присутствие может варьироваться даже в течение одного сеанса. Помимо этого, как и во многих других электрофизиологических приложениях, измерения страдают от сетевой наводки и других распространенных проблем. Неточное обнаружение и удаление артефактов значительно ухудшает производительность автоматического анализа ЭЭГ. Задача автоматической предобработки данных экспериментов ЭЭГ является одной из наиболее актуальных задач анализа нейрофизиологических данных ЭЭГ. На данный момент наиболее распространенной практикой является полуавтоматический процесс предобработки данных ЭЭГ, обязательной частью этого процесса является визуальный анализ, проводимый квалифицированным специалистом. С ростом объема анализируемых данных этот процесс становится дорогостоящим, поэтому необходимы методы машинного обучения, позволяющие проводить автоматическую предобработку данных ЭЭГ в полностью автоматическом режиме. Для решения задачи выбраны следующие методы и подходы: построение очищенного многоканального сигнала ЭЭГ с помощью генеративных состязательных нейросетей (GAN); построение монолитной нейросетевой архитектуры, решающую задачу устранения артефактов в данных ЭЭГ. Данных подход является оригинальным, так как на данный момент вопрос применения состязательных нейросетей к задаче предобработки данных ЭЭГ исследован не был.
4.6. Распознавание эмоций по данным электроэнцефалографии.
Поставлена задача распознавания эмоций по данным ЭЭГ - важная и актуальная задача в области интерфейсов взаимодействия мозга и компьютера, напрямую относящаяся к задачам моделирования когнитивных процессов. Обычно информация об эмоциях представлена в одном из следующих форматов: номинативная маркировка и двумерное представление возбуждения и валентности. Проблема распознавания эмоций может быть решена с помощью различных модальностей, таких как изображение лица, голос, паттерны слежения за глазами, но подходы, основанные на нейровизуализации (такие как МРТ и ЭЭГ) помогут улучшить качество распознавания. Для достижения высокой точности распознавания эмоций необходимо извлечь надежные информативные признаки, тесно связанные с когнитивными процессами субъекта исследований. Возможность точно и эффективно оценивать эмоциональное состояние человека открывает новые перспективы в нейрофизиологии и междисциплинарной области построения интерфейсов мозг - компьютер. Для решения задачи выбраны методы, основанные на генеративных состязательных нейронных сетях, используемых для аугментации наборов данных, доступных для обучения; методы, основанные на архитектурах “учитель - ученик”, позволяющих задействовать мультимодальные параллельные наборы данных. Данный подход является новым, так как на данный момент не был исследован применительно к анализу данных ЭЭГ; также этот подход является перспективным, так как похожий метод показал преимущества в других модальностях, таких, как аудио и видео.
5. Осуществлен выбор источников данных для решения задач
5.1 Данные проекта Human Connectome Project
База данных проекта HCP доступна для загрузки по адресу https://db.humanconnectome.org/. Набор данных HCP включает в себя функциональную магнитно-резонансную томографию (ФМРТ) высокого разрешения более 1100 здоровых взрослых людей в возрасте 22-35 лет. Доступны четыре типа данных: 1) структурные изображения (T1w и T2w), 2) ФМРТ в состоянии покоя (rfMRI), 3) ФМРТ в состоянии действия (task FMRI) и 4) диффузионная томография высокого углового разрешения. Набор данных является открытым, однако для скачивания данных требуется регистрация на указанном сайте. Для защиты конфиденциальности некоторые данные (например, какие объекты являются близнецами) являются частью набора данных с ограниченным доступом. Данные хранятся в специальном формате для представления ФМРТ изображений – nii. Набор данных является одним из самых больших открытых наборов данных. Объем данных составляет более 80 Тб. Основными владельцами данных является Вашингтонский Университет, университет Миннесоты, Оксфордский университет.
5.2 Данные проекта «1000 функциональных коннектомов»
База данных проекта «1000 функциональных коннектомов» доступна для загрузки по адресу https://fcon_1000.projects.nitrc.org/. Проект «1000 функциональных коннектомов» предоставляет свободный публичный доступ к более чем 1200 ФМРТ состояния покоя людей различного возраста, независимо собранных на 33 различных платформах. Информация о возрасте, поле и центре обработки изображений предоставляется для каждого отдельного набора данных. Все наборы данных являются анонимными и не содержат защищенной медицинской информации. Набор данных является одним из самых больших открытых наборов данных. Для доступа к данным требуется регистрация.
Одним из самых больших доступных наборов данных является набор данных подпроекта Preprocessed Connectomes, в котором происходит предварительная обработка данных из Проекта «1000 функциональных коннектомов» и Международной инициативы по обмену данными Neuroimaging (INDI). Данный проект включает в себя наборы данных Синдром дефицита внимания и гиперактивности ADHD-200, Пекинский набор данных DTI и Autism Brain Imaging Data Exchange (ABIDE). Для возможности сравнения различных вариантов предварительной обработки, большая часть данных предварительно обрабатывается с использованием нескольких различных инструментов и параметров. В настоящее время данные хранятся в общедоступном сервисе S3 Amazon Web Services и в NITRC. В проекте ABIDE приводятся данные ФМРТ покоя 539 человек, страдающих аутизмом. В проекте ADHD-200 доступны данные ФМРТ покоя 374 детей и подростков (возраста от 7 лет до 21 года). В проекте DTI доступны для скачивания данные ФМРТ покоя 180 здоровых студентов высших учебных заведений.
5.3. Набор данных Myogenic Artifact Dry EEG.
Набор необработанных данных, описанный в публикации [Gabriella Tamburro, Patrique Fiedler, David Stone, Jens Haueisen, and Silvia Comani. “A new ICA-based fingerprint method for the automatic removal of physiological artifacts from EEG recordings.” PeerJ, 6:e4380, feb 2018.] содержит размеченные данные, содержащие артефакты связанные с напряжением лицевых мышц, движением глаз, морганием. В экспериментах принимали участие от 12 до 18 испытуемых, сессии записывались двумя разными протоколами: с сухими и влажными контактами сенсоров. В рамках каждого эксперимента по записи артефактов, связанных с морганием, испытуемые в рамках протокола совершали 50 моргательных действий (по звуковому сигналу); аналогично записывались данные, связанные с горизонтальным и вертикальным движением глаз, а также с напряжением лицевых мышц. Общий объем набора данных составляет 97 Гб. Данные экспериментов EEG доступны на сервисе FigShare.
5.4. Набор данных проекта ICLabel.
Набор размеченных компонент ЭЭГ сигналов, полученный в рамках крауд-сорсингового проекта ICLabel [Luca Pion-Tonachini, Ken Kreutz-Delgado, and Scott Makeig. ICLabel: “An automated electroencephalographic independent component classier, dataset, and website”. NeuroImage, 198:181-197, sep 2019 ]. Для подготовки данного набора данных были использованы данные ЭЭГ из разнообразных открытых источников. Собранные данные были обработаны с помощью метода независимых компонент (ICA); результатом этой обработки является декомпозированный сигнал, а его также признаковое описание компонент сигнала, состоящее из топографических локализационных карт, поканальных измерений топографии скальпа, спектральная плотность мощности сигнала, автокорреляционные функции и др. Полученные независимые компоненты и их признаковые описания классифицируются посредством крауд-сорсинга с помощью веб-интерфейса. Набор содержит более 8000 размеченных компонент и продолжает расти.
5.5. Набор данных DEAP.
Набор данных DEAP содержит размеченные по эмоциональным состояниям записи сигналов ЭЭГ [Sander Koelstra, Christian Muhl, Mohammad Soleymani, Jong-Seok Lee, Ashkan Yazdani, Touradj Ebrahimi, Thierry Pun, Anton Nijholt, and Ioannis Patras. “Deap: A database for emotion analysis; using physiological signals”. IEEE transactions on affective computing , 3(1):18-31, 2011.] В данный набор данных включены нейрофизиологические сигналы 32 субъектов, каждый из которых в процессе эксперимента просматривал 40 одноминутных видеофрагментов. Каждый участник оценивал свое эмоциональное состояние после просмотра видеофрагмента. Помимо снятия показаний ЭЭГ также происходила видеосъемка выражения лица, которая доступна для 22 субъектов из 32. На сегодняшний день, набор данных DEAP является наиболее популярным в академической среде набором данных для измерения качества распознавания эмоций по нейрофизиологическим сигналам ЭЭГ.
5.6. Набор данных Imagined Emotions.
Набор данных представлен в работе [Onton, J.“High-frequency broadband modulation of electroencephalographic spectra”, Frontiers in Human Neuroscience, Frontiers Media SA, 2009], содержит нейрофизиологические сигналы, соответствующие эксперименту, в котором субъект получает задание представить ту или иную эмоцию в своем воображении. В эксперименте приняли участие 31 субъект, нейрофизиологические сигналы были записаны с помощью 256-канального прибора для снятия электроэнцефалограмм. Каждая экспериментальная сессия состояла из 15 заданий в рамках которых субъектов просили воссоздать в своем воображении ситуацию, соответствующую требуемому эмоциональному состоянию, варьирующемуся от радостно-положительного до грустно-отрицательного. Общий объем данных составляет 37 Гб.
|