[ Russian ] [ English ]

NVIDIA Clara - платформа искусственного интеллекта для медицинских задач

Дмитрий Миронов
NVIDIA
dmitrym@nvidia.com

Иван Черненький
Forsite
cheivan@mail.ru

Новое поколение медицинских устройств и биомедицинских исследований поддерживается ускоренными вычислениями и искусственным интеллектом (ИИ). NVIDIA Clara [1]— это платформа для обучения и вывода ИИ, визуализации, контроля за состоянием пациентов и исследования лекарств. Платформу можно развернуть на различных устройствах: от встраиваемых и периферийных до облачных платформ, что ускоряет путь к персонализированной медицине.

В докладе речь пойдет о трех компонентах платформы:

  • Clara Imaging – аналитика медицинских изображений;
  • Сlara Parabricks – аналитика геномов;
  • RAPIDS – набор библиотек для анализа данных и машинного обучения.

Clara Imaging [2] — это SDK для разработки ИИ-приложений в области анализа медицинских изображений, допускающий эффективное ускорение на графических процессорах. Clara Imaging включает фреймворк Clara Training для ускорения аннотирования данных, обучения с нуля и переноса обучения (transfer learning) с заранее обученных моделей, а также фреймворк Clara Deployment для выстраивания рабочих процессов, импорта данных, их обработки нейросетями и экспорта обратно в медицинские базы данных, развертывания интеллектуальных инструментов визуализации.

Clara Parabricks [3] — это набор ПО (Clara Parabrics Pipelines) и библиотек (Clara Parabricks Toolkit) для анализа геномных данных, ускоренного на графических процессорах. Clara Parabrics Pipelines предназначен для создания конвейеров первичного, вторичного и третичного анализа геномных данных, оптимизирует скорость и точность анализа и позволяет масштабироваться на систему DGX A100. Интерфейс Parabrics Pipelines совместим с инструментами Genome Analysis Toolkit от Broad Institute (GATK). Поддерживается определение вариантов ДНК зародышевой линии для задач популяционной геномики, определение вариантов ДНК в соматических клетках для онкогеномики и опухолевой мутационной нагрузки, секвенирование РНК от анализа полного транскриптома до анализа одиночных клеток. Parabricks Pipelines использует инструментарий Google DeepVariant, позволяющий определять геномные варианты с помощью глубокой нейронной сети.

Clara Parabricks Toolkit — это коллекция ускоренных на GPU библиотек, референсных приложений и приложений от сторонних разработчиков в сфере геномного анализа. В ее состав входят CUDA Mapper, CUDA Aligner, CUDA POA, приложения для анализа RNA-Seq и ATAC-Seq, Bonito и Medaka — basecaller и геномный сборщик de novo [5] от Oxford Nanopore.

RAPIDS [14] — это набор библиотек для поддержки науки о данных на графических процессорах:

  • cuDF [7][8][9] – Python-библиотека для работы с DataFrame на графических процессорах с интерфейсом, аналогичным pandas. Реализовано ускорение загрузки, соединений, агрегирования, фильтрации и других операций с таблицами;
  • Dask-cuDF [10][11][12][13] позволяет использовать cuDF на нескольких GPU и нескольких серверах одновременно;
  • cuML — библиотека для работы с классическими алгоритмами машинного обучения;
  • cuGraph — библиотека для работы с графами;
  • cuSignal — библиотека для обработки сигналов;
  • cuXfilter — фреймворк для ускорения кроссфильтра в Веб-визуализации.

Библиотеки RAPIDS и conda-окружение доступны в Docker-контейнерах с возможностью установки дополнительных пакетов. Команда RAPIDS ведёт блог [15], где разбираются типичные примеры использования. Одним из примеров является ускорение геномного анализа отдельных клеток [16][17].

Слайды доклада.

Видео доклада.

Литература:

  1. NVIDIA Clara Documentation. https://docs.nvidia.com/clara/
  2. NVIDIA Clara Imaging. https://www.nvidia.com/ru-ru/clara/medical-imaging/
  3. NVIDIA Clara Parabricks - Комплексный анализ секвенирования генома. https://www.nvidia.com/ru-ru/clara/genomics/
  4. NVIDIA DGX A100 - The Universal System for AI Infrastructure. https://www.nvidia.com/en-us/data-center/dgx-a100/
  5. Vaser R, Sovic I, Nagarajan N, Sikic M. Fast and accurate de novo genome assembly from long uncorrected reads. Genome Res. 2017 May;27(5):737-746. doi: 10.1101/gr.214270.116. Epub 2017 Jan 18. PMID: 28100585; PMCID: PMC5411768.
  6. Compute4COVID - Using the Clara Parabricks Toolkit Against COVID-19. https://github.com/clara-parabricks/Compute4COVID
  7. 10 Minutes to cuDF and Dask-cuDF. https://docs.rapids.ai/api/cudf/stable/10min.html
  8. cuDF - GPU DataFrames. https://github.com/rapidsai/cudf
  9. cuDF API Reference. https://docs.rapids.ai/api/cudf/stable/api.html
  10. Dask CUDA. https://github.com/rapidsai/dask-cuda
  11. DASK Dataframe API. https://docs.dask.org/en/latest/dataframe-api.html
  12. Source code for dask_cuda.local_cuda_cluster. https://dask-cuda.readthedocs.io/en/latest/_modules/dask_cuda/local_cuda_cluster.html#LocalCUDACluster
  13. Nick Becker. Reading Larger than Memory CSVs with RAPIDS and Dask. https://medium.com/rapids-ai/reading-larger-than-memory-csvs-with-rapids-and-dask-e6e27dfa6c0f#cid=av01_so-medi_en-us
  14. RAPIDS - Open GPU Data Science. https://github.com/rapidsai
  15. RAPIDS. https://medium.com/rapids-ai
  16. Avantika Lal. Accelerating Single Cell Genomic Analysis using RAPIDS. 2020. https://developer.nvidia.com/blog/accelerating-single-cell-genomic-analysis-using-rapids/
  17. GPU-Accelerated Single-Cell Genomics Analysis with RAPIDS. https://github.com/clara-parabricks/rapids-single-cell-examples
Supported by Synthesis Group