Распределенные хранилища данных для крупных научных экспериментов и управление ими на основе метаданных провенанса
А. П. Крюков, А. П. Демичев
Научно-исследовательский институт ядерной физики имени Д. В. Скобельцына,
Московский государственный университет им. М. В. Ломоносова
В настоящее время осуществление крупных научных, инженерных и бизнес-проектов связано, как
правило, с необходимостью хранения и обработки больших объемов данных. Это приводит к
необходимости развивать новые, более экономичные и надежные, архитектуры и принципы работы
информационных систем, в том числе систем хранения данных. Экстремальными вариантами
архитектурных решений для таких систем являются полностью централизованные хранилища и
хранилища на основе одноранговых P2P-сетей [1]. Однако, во многих случаях такие решения
оказываются неприемлемыми, например, из-за их высокой стоимости или низкой надежности,
а оптимальным является промежуточное между такими экстремальными вариантами решение.
В докладе рассматривается случай объединения нескольких хранилищ в одно локальное хранилище
данных. Для организации такого хранилища участники крупного проекта объединяют свои
локальные ресурсы хранения в единый распределенный пул и, при необходимости, дополнительно
арендуют облачные ресурсы хранения, возможно у нескольких провайдеров. Особенно выгодным с
экономической и технической точек зрения такое решение может оказаться в случае, когда
появляется потребность в хранении больших объемов данных в течение ограниченного срока
осуществления какой-либо проекта и в ситуации, когда проект объединяет многих организационно
несвязанных между собой участников. Например, для более тонкого анализа явлений в
астрофизике и, соответственно, для получения более полных знаний о Вселенной, чрезвычайно
важно объединять и всесторонне анализировать полученную информацию различных типов
(например, о заряженных космических частицах, гамма-лучах, нейтрино и т. д.) с помощью
разнообразных экспериментальных установок, расположенных по всему миру. В докладе будет
представлен общий подход [2] к построению и архитектуре системы, чтобы иметь возможность
собирать, хранить и предоставлять пользователям доступ к астрофизическим данным.
В докладе также представлен принципиально новый подход к построению системы управления
метаданными провенанса (метаданные, описывающие происхождение источник и историю эволюции
данных [12]) и правами доступа к данным, основанный на интеграции блокчейн-технологии,
смарт-контрактов и управления данными на основе метаданных [3]. Будут обсуждаться принципы
и алгоритмы работы такой системы, названной ProvHL (Provenance HyperLedger), которая
является отказоустойчивой, безопасной, надежной с точки зрения сохранности и защищенности
записей метаданных провенанса от случайных или намеренных искажений. Исследованы вопросы
оптимального выбора типа блокчейна для такой системы, а также выбора блокчейн-платформы.
А именно, предложено использовать эксклюзивный (permissioned) тип блокчейна и
блокчейн-платформу Hyperledger Fabric (HLF, www.hyperledger.org), на основе которой
реализуется система ProvHL.
Отдельно будут обсуждены вопросы безопасности в подобных системах и возможные пути решения.
Исследования выполнены при финансовой поддержке Российского научного фонда, проекты 18-41-06003, 18-11-00075.
Слайды доклада.
Видео доклада.
Литература:
- A. P. Kryukov and A. P. Demichev. Decentralized Data Storages: Technologies of Construction. Programming and Computer Software, vol. 44, No. 5, pp. 303–315, 2018 (А.П. Крюков, А.П. Демичев «Децентрализованные хранилища данных: технологии построения», Программирование , 2018, No. 5 , с .12 — 30).
- A. P. Kryukov and A. P. Demichev. Architecture of Distributed Data Storage for Astroparticle Physics. Lobachevskii Journal of Mathematics, 2018, Vol. 39, No. 9, pp. 1199–1206.
- A. Demichev, A. Kryukov, Nikolai Prikhodko. The Approach to Managing Provenance Metadata and Data Access Rights in Distributed Storage using the Hyperledger Blockchain Platform. Proceedings of Ivannikov ISPRAS Open Conference (подано в печать).
- F. Zafar et al. Trustworthy Data: A Survey, Taxonomy and Future Trends of Secure Provenance Schemes. Journal of Network and Computer Applications, vol. 94, pp.50-68, 2017.
- S. M. S. da Cruz, M. L. M. Campos and M. Mattoso. Towards a Taxonomy of Provenance in Scientific Workflow Management Systems. World Conference on Services-I, pp. 259-266, IEEE, 2009.
- A. Ramachandran and M. Kantarcioglu. SmartProvenance: A Distributed, Blockchain Based Data Provenance System. The 8th ACM Conference on Data and Application Security and Privacy, 2018.
- X. Liang et al. Provchain: A Blockchain-based Data Provenance Architecture in Cloud Environment with Enhanced Privacy and Availability. Proceedings of the 17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing, pp. 468-477. IEEE Press, 2017.
- Rabin M.O. E cient dispersal of information for security, load balancing and fault tolerance // Journal of the ACM. 1989. 36(2):335-348.
- P. Vassiliadis. A survey of Extract-transform-Load technology. Int. J. Data Warehousing Mining 5, 1–27 (2009).
- J. Blomer, P. Buncic, and R. Meusel. The CernVM file system. Technical Report (2013). http://jblomer.web.cern.ch/jblomer/cvmfstech-2.1-0.pdf.
- A. J. Peters, E. A. Sindrilaru, G. Adde. EOS as the present and future solution for data storage at CERN. Journal of Physics: Conference Series, V. 664, 2015.
- What Is Provenance. The World Wide Web Consortium. https://www.w3.org/2005/Incubator/prov/wiki/What_Is_Provenance
|