О некоторых возможностях управления данными виртуальных организаций с использованием грид-платформ
В докладе будут охарактеризованы несколько грид–платформ с точки зрения возможности управления данными. На примере виртуальной организации RGRID будет показано использование базовых грид–сервисов, а также возможности построения на их основе высокоуровневых грид–сервисов, связанных с интеграцией разнородных федеративных коллекций данных.
Современные технологии автоматизации исследований быстро превращают вирусологию, молекулярную биологию и другие дисциплины в высокомпьютеризированную отрасль научной индустрии. Значительные вложения в медико-биологические исследования привели к экспоненциальному росту накапливаемых данных. Исследовательские центры по всему миру создают хранилища данных, где данные не только накапливаются, но и активно используются, поскольку успех биомедицинских исследований очень часто зависит от возможности быстро провести анализ огромных объемов информации, рассредоточенных по разнородным хранилищам данных [1].
В задаче управления данными виртуальной научной организации можно выделить две основных проблемы. Первая – это организация распределенного хранения больших объемов данных. Распределенное хранение может потребоваться и небольшим лабораториям, арендующим ресурсы хранения там, где это выгодно, и крупным корпорациям, которые имеют в составе своих ресурсов много разнородных центров хранения данных, благо современные коммуникации позволяют это делать. Например, корпорация NOVARTIS имеет исследовательские подразделения по всему миру, и эти лаборатории активно используют весь накопленный корпорацией объем данных [2]. Один из наиболее перспективных механизмов организации распределенного хранения данных предложен в концепции OGSA-DAI (www.ogsadai.org). Этот механизм опирается на middleware, созданное в проекте Globus и используемое в нескольких крупнейших Grid-платформах. Grid-среда обеспечивает реализацию базовых функций для виртуальной организации, таких как аутентификация и авторизация, передача данных, сбор информации о состоянии ресурсов и другие служебные функции. Сервисы OGSA-DAI обеспечивают функции управления данными и механизмы наращивания этих функций.
Вторая основная проблема в управлении данными виртуальной научной организации – это семантический поиск информации в разнородных распределенных хранилищах информации. Ключевые идеи для эффективного решения этой проблемы – метаданные и тематические онтологии, реализованные в единой грид-среде. Концепция использования метаданных хорошо известна в библиотечном сообществе. Актуальной задачей является разработка методов и грид-сервисов автоматического наполнения метаданных содержанием, адекватно описывающим информационный ресурс и позволяющим эффективно использовать метаданные при поиске информации. Тематические онтологии представляют собой эффективный инструмент для организации семантических связей между распределенными разнородными информационными ресурсами. Их использование в медико-биологических виртуальных организациях позволяет не только организовывать поиск информации в распределенных хранилищах данных по семантически обусловленным запросам, но также выявлять и фиксировать логические цепочки связей между данными, формируя и формализуя единым для виртуальной организации образом модели объектов и процессов в данной предметной области [3].
Литература:
- G. E. De Moor, S. Norager, V. Breton. The Role of the Grid in a Future Global Health Information Space //Methods of Information in Medicine. #2, 2005, pp. 137-139.
- A. J. Sender. Getting to Genome “Grid Nirvana” //Genome Technology, Apr. 2003.
- A. Joutchkov et al. Grid-based Onto-technologies provide an effective instrument for biomedical research //In: From Grid to HealthGrid. Studies in Health Technology and Informatics, v. 112, IOS Press, 2005, pp. 37-46.
|