[ Russian ] [ English ]

Анализ методов и средств поддержки гипотезо-ориентированного научного эксперимента в науках с интенсивным использованием данных

Дмитрий Ковалев,
ИПИ РАН,
dm.kovalev@gmail.com

Науки с интенсивным использованием данных (НИИД) развиваются в соответствии с 4-й парадигмой научных исследований (вслед за тремя историческими эпохами, соответствующими эмпирической, теоретической, вычислительной парадигме). Научные исследования в целом становятся все более зависимыми от данных, служащих основным источником новых научных открытий. Развитие 4-й парадигмы стимулируется накоплением огромных объемов разноструктурированных данных, поступающих из таких источников, как научные приборы, датчики, компьютерные модели, а также от людей, аккумулирующих данные в Интернете или социальных сетях. Основным способом исследований в НИИД становится получение новых знаний из данных, обычно находящихся в центрах данных и в сетевых инфраструктурах (например, в хранилищах, гридах, облаках). В это же время, стремительное развитие технологии "больших данных" является знаком признания возросшей значимости массовых данных в различных областях. Открытый доступ к большим объемам данных становится ключевой предпосылкой для научных открытий в 21-м веке.

Одновременно с этим ключевой остается роль научных гипотез в исследовательском процессе в НИИД, несмотря на то, что методы и средства формирования, тестирования и выбора гипотез, полученных в процессе моделирования природных явлений и проведения научных экспериментов претерпели изменения в связи с центральной ролью данных в НИИД. В докладе представлены основные понятия, определяющие роль гипотез в формировании научных знаний и организации научных экспериментов в НИИД. В обзоре показано, что для формирования гипотез используются средства логического вывода; для моделирования и тестирования гипотез используются различные методы, в т.ч. классический статистический вывод, Байесовский вывод и методы оценки параметров, гипотетико-дедуктивный подход. Особое внимание уделено обсуждению роли интеллектуального анализа данных и методов машинного обучения в процессе генерирования, отбора и оценки гипотез. Рассматриваемые в докладе средства поддержки гипотезо-ориентированных исследований направлены на концептуализацию научных экспериментов, формулирование гипотез в различных науках (в т.ч. в биологии, биомедицинских исследованиях, нейромедицине, астрономии), автоматизации организации экспериментов, движимых гипотезами. В качестве примеров научных исследований, в которых применяется гипотезо-ориентированный подход, рассмотрены моделирование состава и синтеза структуры Галактики, проверка гипотез, связанных с исследованиями коннектомов в нейронауке, анализ эффективности фондовых рынков, а также алгоритмическое генерирование гипотез в проекте IBM Watson (при помощи методов обработки естественного языка и методов представления знаний, методов машинного обучения и логического вывода).

Презентация доклада в формате pdf.

Видеозапись доклада.

Литература:

  1. Barber, D. Bayesian Reasoning and Machine Learning. Cambridge University Press, 2010 – P. 720.
  2. Bollen, J., Mao, H., Zeng, X. Twitter mood predicts the stock market. In: Journal of Computational Science, 2011 – V. 2, No. 1 – P. 1-8.
  3. Czekaj, M. A., Robin, A. C., Figueras, F., Luri, X., Haywood, M. The Besançon Galaxy model renewed I. Constraints on the local star formation history from Tycho data. In: arXiv preprint arXiv:1402.3257, 2014.
  4. Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., Welty, C. Building Watson: An overview of the DeepQA project. In: AI magazine, 2010 –V. 31, No. 3 – P. 59-79.
  5. Gonçalves, B., Porto, F. A Lattice-Theoretic Approach for Representing and Managing Hypothesis-driven Research. In: AMW, 2013.
  6. Hey, T., Tansley, S., Tolle, K. (eds.). The fourth paradigm: Data-intensive scientific discovery. Redmond, Microsoft Research, 2009 – P. 252.
  7. Hillebrandt, H., Friston, K. J., Blakemore, S. J. Effective connectivity during animacy perception-dynamic causal modelling of Human Connectome Project data. Scientific reports, 4 - 2014.
  8. Inoue K., Sato T., Ishihata M., Kameya Y., Nabeshima H. Evaluating abductive hypotheses using and EM algorithm on BDDs. In: Proceedings of IJCAI-09, 2009 – P. 810-815.
  9. Kalinichenko L.A., Kovalev D.Yu., Kovaleva D.A., Malkov O.Yu. Introduction into Analysis of Methods and Tools for Hypothesis-Driven Scientific Experiment Support. In: Proceeding of RCDL, 2014 – P. 177-197
  10. King, R. D., Whelan, K. E., Jones, F. M., Reiser, P. G., Bryant, C. H., Muggleton, S. H., Oliver, S. G. Functional genomic hypothesis generation and experimentation by a robot scientist. Nature, 2004 – V. 427, No. 6971 – P. 247-252.
  11. King, R. D., Liakata, M., Lu, C., Oliver, S. G., Soldatova, L. N. On the formalization and reuse of scientific research. In: Journal of The Royal Society Interface, 2011 – V. 8, No. 63 – P. 1440-1448.
  12. Lenten, L. J., Moosa, I. A. An empirical investigation into long-term climate change in Australia. In: Environmental Modelling & Software, 2003, V. 18, No. 1 –P. 59-70.
  13. March, M. C. Advanced Statistical Methods for Astrophysical Probes of Cosmology. In: Springer Theses, 2013 – V. 20 – P. 177.
  14. Porto, F., Spaccapietra, S. Data model for scientific models and hypotheses. In: The evolution of conceptual modeling, 2011 – V. 6520 – P. 285-305.
  15. Porto, F. Moura, A. M. C., Gonçalves, B., Costa, R., Spaccapietra, S. A Scientific Hypothesis Conceptual Model. In: ER Workshops, 2012 – V. 7518 – P. 101–110.
  16. Sparkes, A., Aubrey, W., Byrne, E., Clare, A., Khan, M. N., Liakata, M., King, R. D. Towards Robot Scientists for autonomous scientific discovery. In: Autom Exp, 2010 – V. 2, No 1.
Supported by Synthesis Group