NVIDIA Clara - платформа искусственного интеллекта для медицинских задач
Новое поколение медицинских устройств и биомедицинских исследований поддерживается ускоренными вычислениями и искусственным интеллектом (ИИ). NVIDIA Clara [1]— это платформа для обучения и вывода ИИ, визуализации, контроля за состоянием пациентов и исследования лекарств. Платформу можно развернуть на различных устройствах: от встраиваемых и периферийных до облачных платформ, что ускоряет путь к персонализированной медицине.
В докладе речь пойдет о трех компонентах платформы:
- Clara Imaging – аналитика медицинских изображений;
- Сlara Parabricks – аналитика геномов;
- RAPIDS – набор библиотек для анализа данных и машинного обучения.
Clara Imaging [2] — это SDK для разработки ИИ-приложений в области анализа медицинских изображений, допускающий эффективное ускорение на графических процессорах. Clara Imaging включает фреймворк Clara Training для ускорения аннотирования данных, обучения с нуля и переноса обучения (transfer learning) с заранее обученных моделей, а также фреймворк Clara Deployment для выстраивания рабочих процессов, импорта данных, их обработки нейросетями и экспорта обратно в медицинские базы данных, развертывания интеллектуальных инструментов визуализации.
Clara Parabricks [3] — это набор ПО (Clara Parabrics Pipelines) и библиотек (Clara Parabricks Toolkit) для анализа геномных данных, ускоренного на графических процессорах. Clara Parabrics Pipelines предназначен для создания конвейеров первичного, вторичного и третичного анализа геномных данных, оптимизирует скорость и точность анализа и позволяет масштабироваться на систему DGX A100. Интерфейс Parabrics Pipelines совместим с инструментами Genome Analysis Toolkit от Broad Institute (GATK). Поддерживается определение вариантов ДНК зародышевой линии для задач популяционной геномики, определение вариантов ДНК в соматических клетках для онкогеномики и опухолевой мутационной нагрузки, секвенирование РНК от анализа полного транскриптома до анализа одиночных клеток. Parabricks Pipelines использует инструментарий Google DeepVariant, позволяющий определять геномные варианты с помощью глубокой нейронной сети.
Clara Parabricks Toolkit — это коллекция ускоренных на GPU библиотек, референсных приложений и приложений от сторонних разработчиков в сфере геномного анализа. В ее состав входят CUDA Mapper, CUDA Aligner, CUDA POA, приложения для анализа RNA-Seq и ATAC-Seq, Bonito и Medaka — basecaller и геномный сборщик de novo [5] от Oxford Nanopore.
RAPIDS [14] — это набор библиотек для поддержки науки о данных на графических процессорах:
- cuDF [7][8][9] – Python-библиотека для работы с DataFrame на графических процессорах с интерфейсом, аналогичным pandas. Реализовано ускорение загрузки, соединений, агрегирования, фильтрации и других операций с таблицами;
- Dask-cuDF [10][11][12][13] позволяет использовать cuDF на нескольких GPU и нескольких серверах одновременно;
- cuML — библиотека для работы с классическими алгоритмами машинного обучения;
- cuGraph — библиотека для работы с графами;
- cuSignal — библиотека для обработки сигналов;
- cuXfilter — фреймворк для ускорения кроссфильтра в Веб-визуализации.
Библиотеки RAPIDS и conda-окружение доступны в Docker-контейнерах с возможностью установки дополнительных пакетов. Команда RAPIDS ведёт блог [15], где разбираются типичные примеры использования. Одним из примеров является ускорение геномного анализа отдельных клеток [16][17].
Слайды доклада.
Видео доклада.
Литература:
- NVIDIA Clara Documentation. https://docs.nvidia.com/clara/
- NVIDIA Clara Imaging. https://www.nvidia.com/ru-ru/clara/medical-imaging/
- NVIDIA Clara Parabricks - Комплексный анализ секвенирования генома. https://www.nvidia.com/ru-ru/clara/genomics/
- NVIDIA DGX A100 - The Universal System for AI Infrastructure. https://www.nvidia.com/en-us/data-center/dgx-a100/
- Vaser R, Sovic I, Nagarajan N, Sikic M. Fast and accurate de novo genome assembly from long uncorrected reads. Genome Res. 2017 May;27(5):737-746. doi: 10.1101/gr.214270.116. Epub 2017 Jan 18. PMID: 28100585; PMCID: PMC5411768.
- Compute4COVID - Using the Clara Parabricks Toolkit Against COVID-19. https://github.com/clara-parabricks/Compute4COVID
- 10 Minutes to cuDF and Dask-cuDF. https://docs.rapids.ai/api/cudf/stable/10min.html
- cuDF - GPU DataFrames. https://github.com/rapidsai/cudf
- cuDF API Reference. https://docs.rapids.ai/api/cudf/stable/api.html
- Dask CUDA. https://github.com/rapidsai/dask-cuda
- DASK Dataframe API. https://docs.dask.org/en/latest/dataframe-api.html
- Source code for dask_cuda.local_cuda_cluster. https://dask-cuda.readthedocs.io/en/latest/_modules/dask_cuda/local_cuda_cluster.html#LocalCUDACluster
- Nick Becker. Reading Larger than Memory CSVs with RAPIDS and Dask. https://medium.com/rapids-ai/reading-larger-than-memory-csvs-with-rapids-and-dask-e6e27dfa6c0f#cid=av01_so-medi_en-us
- RAPIDS - Open GPU Data Science. https://github.com/rapidsai
- RAPIDS. https://medium.com/rapids-ai
- Avantika Lal. Accelerating Single Cell Genomic Analysis using RAPIDS. 2020. https://developer.nvidia.com/blog/accelerating-single-cell-genomic-analysis-using-rapids/
- GPU-Accelerated Single-Cell Genomics Analysis with RAPIDS. https://github.com/clara-parabricks/rapids-single-cell-examples
|