РСУБД в Process Mining
Шершаков Сергей Андреевич
Национальный исследовательский университет «Высшая школа экономики»
Факультет компьютерных наук, Научно-учебная лаборатория процессно-ориентированных информационных систем (ПОИС)
sshershakov@hse.ru
https://www.hse.ru/staff/sshershakov
Мир становится сложнее с каждым днем. Сложнее становятся и процессы, окружающие нас. Трудно представить процесс, в который вовлечено большое число участников и/или ресурсов, без поддержки со стороны информационных систем (ИС). Специализированные ИС, разрабатываемые для поддержки процессов, относят к классу процессно-ориентированных ИС. Большинство современных ИС фиксируют информацию об отдельных моментах своей работы в виде журналов (логов), которые могут быть использованы для обнаружения дефектов и контроля правильности их работы. Особенность ПОИС заключается в том, что их логи часто содержат информацию о событиях, по которой можно восстанавливать модели процессов, сопровождаемые этими системами.
Process mining (извлечение и анализ процессов) — это обобщающее название для группы исследовательских дисциплин по извлечению из логов (журналов) событий процессов в виде моделей, их анализу и улучшению процессов. К настоящему моменту разработано большое количество техник process mining. Все их объединяет использование журналов событий в качестве отправной точки для исследования. В большинстве случаев такие журналы являются плоскими (flat event logs) и, как правило, представляются в формате текстового файла. Обычно один плоский журнал содержит одну подготовленную для исследования перспективу (view) процесса.
Значительное число ИС, работающих с данными большого объема, используют технологии реляционных баз данных (РБД) для их эффективного хранения и обработки. В последнее время наметилась тенденция к интеграции систем управления РБД (РСУБД) с инструментами process mining. Тесное взаимодействие инструментов process mining с РСУБД позволяет перенести часть дорогостоящих операция по предобработке данных непосредственно на уровень РСУБД.
В докладе будет обозначено текущее состояние исследований в части взаимодействия process mining и РСУБД. Будет представлен подход, в соответствии с которым произвольная БД может служить прямым источником событийных данных для инструментов process mining. В соответствии с этим подходом необходимые данные извлекаются некоторым алгоритмом process mining непосредственно из БД без формирования промежуточных плоских логов. В основе подхода лежит метод по трансляции конкретной структуры событийных данных, представленной в БД, в абстрактное представление журнала событий. Особенностью подхода является метод вложения (embedding) схем трансляции — непосредственно в БД в виде т.н. конфигураций. Каждая такая конфигурация представляет одну процессную перспективу (process view). Вложение в журнал нескольких конфигураций позволяет превратить БД в мульти-перспективный журнал событий, позволяющий осуществлять переключение между отдельными перспективами без необходимости перестроения такого журнала.
Исследование выполнено при финансовой поддержке Российского фонда фундаментальных исследований, проект № 18-37-00438 "мол_а".
Слайды доклада.
Видео доклада.
Литература:
- van der Aalst W.M.P., Process Mining — Data Science in Action, 2nd Edition, Springer, 2016.
- van der Aalst, W.M.P.: Extracting Event Data from Databases to Unleash Process Mining, pp. 105–128. Springer International Publishing, Cham (2015).
- Dijkman, R., Gao, J., Syamsiyah, A., van Dongen, B., Grefen, P., ter Hofstede, A.: Enabling efficient process mining on large data sets: realizing an in-database process mining operator. Distributed and Parallel Databases (2019).
- van Dongen, B.F., Shabani, S.: Relational XES: Data management for process mining. pp. 169–176 (2015).
- Gonzalez Lopez de Murillas, E., Reijers, H.A., van der Aalst, W.M.P.: Connecting databases with process mining: A meta model and toolset. In: Schmidt, R., Guedria, W., Bider, I., Guerreiro, S. (eds.) Enterprise, Business-Process and Information Systems Modeling. pp. 231–249. Springer International Publishing, Cham (2016).
- de Murillas, E.G.L., van der Aalst, W.M.P., Reijers, H.A.: Process mining on databases: Unearthing historical data from redo logs. In: Motahari-Nezhad, H.R., Recker, J., Weidlich, M. (eds.) Business Process Management. pp. 367–385. Springer International Publishing, Cham (2015).
- Shershakov, S.A., Rubin, V.A.: System runs analysis with process mining. Modeling and Analysis of Information Systems 22(6), 818–833 (2015).
- Shershakov, S.: Enhancing efficiency of process mining algorithms with a tailored library: Design principles and performance assessment. Tech. rep., National Research University Higher School of Economics (2018).
- Shershakov, S.A.: VTMine framework as applied to process mining modeling. International Journal of Computer and Communication Engineering 4(3), 166–179 (2015).
- Shershakov, S.A.: Multi-Perspective Process Mining with Embedding Configurations into DB-based Event Logs, CCIS (Proceedings of TMPA-2019), Springer. In press.
|