Related Communities:

Methodology of Problem Solving

Methodology of Problem Solving over Multiple Distributed Heterogeneous Information Resources.

Author(s): Kalinichenko L.A.
Created:2005/09/01
Published:Modern Technologies and IT Education: Proc. of the International Conference. -- Moscow: Moscow State University, 2005. -- P. 20--37. (In Russian)
Abstract:

В различных областях науки наблюдается экспоненциальный рост объема получаемых экспериментальных (наблюдательных) данных. Например, в астрономии текущий и ожидаемый темп роста данных от обсерваторий удваивается в течение периода от шести месяцев до одного года. Это более быстрый темп, чем увеличение производительности компьютерных чипов, удваиваемой (согласно закону Мура) каждые 18 месяцев. Сложность использования таких данных увеличивается еще и вследствие их естественной разнородности. Число организаций, получающих данные наблюдений в отдельных областях науки в мире, велико. Разнообразие (информационная несогласованность) получаемой информации вызывается, в частности, не только большим числом организаций, производящих наблюдения, и их независимостью, но и разнообразием объектов наблюдения и непрерывным и быстрым совершенствованием техники наблюдений, вызывающим адекватные изменения структуры и содержания накапливаемой информации.

Чрезвычайно быстро развивается также программный инструментарий, включающий многообразные сервисы для поддержки различных видов обработки информации при решении научных задач и проведении исследований. Такие сервисы производятся различными научными организациями, их описания неоднородны и неполны.

Увеличивающийся разрыв между исследователями и источниками данных и сервисов приводит к необходимости поиска новых путей организации решения задач над множественными распределенными коллекциями данных и программ, которые концентрируются в специализированных центрах данных и вычислительных ресурсов. Разработан (разрабатывается) ряд инфраструктур, которые технически позволяют реализовать решение задач над множественными информационными источниками. Среди них Веб сервисы, Грид-архитектуры, Семантический Веб, технологии распределенных баз данных, интероперабельные технологии промежуточного слоя, и др. Они составляют техническую среду для организации решения задач.

Традиционно при решении задач специалисты используют привычные для них источники информации, и формулируют задачи, учитывая лишь такие источники. Подобные способы формулирования и решения задач называются далее движимыми конкретными источниками информации, отобранными до или, в лучшем случае, в процессе формулирования задачи. Очевидна неполнота информации, которую удается охватить при таком подходе. Множество источников данных и сервисов, существующих в Интернете, их разнообразие, вызывают потребность в радикальном изменении такого традиционного подхода. Существо этого изменения заключается в том, что задачи должны формулироваться независимо от существующих источников информации, и лишь после такой формулировки, должна осуществляться идентификация релевантных задаче источников, приведение их к виду, требуемому в задаче, их интеграция, идентификация сервисов, которые позволяют реализовать отдельные части абстрактного процесса решения задачи. Только после этого должно осуществляться конструирование конкретного процесса решения на основе отобранных источников данных и сервисов. Этот подход, называемый ориентированным на проблему, должен значительно больше опираться на использование техники представления знаний, нежели традиционный. Так, формулирование задачи должно быть основано на определении ее проблемной области, включающем ее терминологию и систему понятий, абстрактное описание соответствующей материальной системы, определение адекватных моделей и теорий, абстрактное описание требуемых в задаче характеристик объектов реального мира, определение методов, алгоритмов и процессов решения задачи.

Одной из проблем при таком подходе остается та, что во всех названных выше инфраструктурах до сих пор открытым является вопрос интегрированного представления множественных источников информации для исследователя, решающего задачу. Здесь также существуют два принципиально разных решения: двигаясь от источников к задачам (создается интегрированное представление множества источников независимо от задач) и от задачи к источникам (создается описание предметной области класса задач, в которое отображаются релевантные задаче источники информации). При первом подходе трудно обеспечить масштабируемость по числу источников. Например, в астрономии число источников (архивов, каталогов) достигает многих тысяч. Если применяется интегрированная схема совокупности источников, ее приходится изменять при включении в рассмотрение каждого нового источника. Определение мультибазы данных (каждому источнику в глобальной схеме соответствует своя подсхема), глобальная схема становится необозримой для исследователя. Другой подход предусматривает создание предметных посредников, поддерживающих взаимодействие между исследователем и источниками посредством описания предметной области класса задач (в терминах понятий, структур данных, функций и процессов решения задач). При этом предполагается, что информационные источники опубликованы в коллективных хранилищах, а операции идентификации нужных источников являются их основными операциями. Для этого в коллективных хранилищах поддерживаются метаданные для описания хранимых в них информационных источников.

Методы организации решения задач на основе подхода, ориентированного на проблему, при использовании техники предметных посредников кратко рассматриваются в настоящей статье.

Download: [ Adobe PDF ]

Supported by Synthesis Group