CN113947374A - 一种基于因果并发网的流程挖掘*** - Google Patents

一种基于因果并发网的流程挖掘*** Download PDF

Info

Publication number
CN113947374A
CN113947374A CN202111218652.9A CN202111218652A CN113947374A CN 113947374 A CN113947374 A CN 113947374A CN 202111218652 A CN202111218652 A CN 202111218652A CN 113947374 A CN113947374 A CN 113947374A
Authority
CN
China
Prior art keywords
mining
causal
dependency
engine
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111218652.9A
Other languages
English (en)
Inventor
王亮
李进峰
索强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Wangfanxin Technology Co ltd
Original Assignee
Shanghai Wangfanxin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Wangfanxin Technology Co ltd filed Critical Shanghai Wangfanxin Technology Co ltd
Priority to CN202111218652.9A priority Critical patent/CN113947374A/zh
Publication of CN113947374A publication Critical patent/CN113947374A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于因果并发网的流程挖掘***,包括:直接相关模型挖掘引擎,直接相关模型挖掘引擎通过输入的任务流程日志挖掘节点和节点之间的相关关系,通过任务流程日志转化并建立直接相关模型;依赖性挖掘引擎,依赖性挖掘引擎基于直接相关模型,挖掘输入的任务流程日志中任意两个有直接相关关系的事件之间的依赖性关系,建立依赖性系数矩阵数据;窗口扫描引擎,窗口扫描引擎通过挖掘输入的任务流程日志,获取直接相关模型中的每个节点的前后事件序列。该基于因果并发网的流程挖掘***,为后续包含更多信息的模型提供了模型框架基础,对于流程变体的识别更加详尽,考虑地更“长远”,保证了因果并发网模型的数据准确性以及可参考性。

Description

一种基于因果并发网的流程挖掘***
技术领域
本发明涉及流程挖掘技术领域,具体为一种基于因果并发网的流程挖掘***。
背景技术
目前,有些企业本身部门***较复杂,经过较长时间的实际运营后,实际业务流程已经与一开始的规定流程大相径庭,因此管理者并不了解实际的业务流程。所以需要流程挖掘***来从企业的实际业务流程数据中挖掘出真实的流程模型;
其中流程挖掘:英文名Process Mining,是一种通过IT***中的任务日志,建立一个基于真实数据的流程模型,提高商业流程透明度的,为商业决断者提供帮助的技术;
现有的流程挖掘手段(例如Alpha Miner和Inductive Miner等)在考虑某节点前后序事件并发性时只能考虑其直接相连的事件的并发性,不能考虑到这些事件没有连续发生的情况下的并发性;
Alpha Miner是最早的流程挖掘算法之一,核心思想非常朴素,直接将multiset转化为Petri网落。步骤:1.Event log转化为Multiset;2.从Multiset中直接相连的事件中挖掘跟随、并发和无关三种关系;3.然后将这三种关系一一映射为Petri网中的事件和标池。
而Alpha Miner虽然算法思想直观容易理解,计算量小,但当一些并发事件不直接相连时无法挖掘出其中的并发关系,因此导致模型准确度不高,同一个流程不同时段的数据往往会得到不同的流程模型;
此外,Inductive Miner虽然挖掘出的流程树模型相比于Alpha Miner更具有通用性,但其为了完成修剪操作,实际应用中往往会加入许多隐形事件(τ),给流程模型曾加了不必要的复杂性;
同时,现有的流程挖掘手段(例如Alpha Miner和Inductive Miner等)在考虑某节点前后序事件并发性时只能考虑其直接相连的事件的并发性,不能考虑到这些事件没有连续发生的情况下的并发性。以说明书附图7所举的流程为例,假设处理***之后,核对合同条款和请求缺失数据是应当同时发生的,且没有固定的先后关系,那么流程中的另一个事件已检查并批准有可能发生在这两个事件之间,那么会就有可能出现以下几种流程变体{(核对合同条款,请求缺失数据,已检查并批准),(核对合同条款,已检查并批准,请求缺失数据),(请求缺失数据,已检查并批准,核对合同条款),(请求缺失数据,核对合同条款,已检查并批准),(已检查并批准,核对合同条款,请求缺失数据),(已检查并批准,请求缺失数据,核对合同条款)...}。在当前已有的流程挖掘算法中(如alpha miner和inductiveminer等)能够挖掘出(请求缺失数据,核对合同条款,已检查并批准),(已检查并批准,请求缺失数据,核对合同条款)}两种情况,但对于其他情况则无法识别。
因此,我们提出一种基于因果并发网的流程挖掘***,以便于解决上述中提出的问题。
发明内容
本发明的目的在于提供一种基于因果并发网的流程挖掘***,以解决上述背景技术提出的目前的流程挖掘***对于流程变体的识别有缺漏的问题。
为实现上述目的,本发明提供如下技术方案:一种基于因果并发网的流程挖掘***,包括:
直接相关模型挖掘引擎,所述直接相关模型挖掘引擎通过输入的任务流程日志挖掘得到节点和节点之间的相关关系,且其通过输入的任务流程日志转化并建立直接相关模型;
依赖性挖掘引擎,所述依赖性挖掘引擎基于直接相关模型,通过挖掘输入的任务流程日志中任意两个有直接相关关系的事件之间的依赖性关系,建立依赖性系数矩阵数据;
窗口扫描引擎,所述窗口扫描引擎通过挖掘输入的任务流程日志,获取直接相关模型中的每个节点的前后事件序列;
因果并发网模型挖掘引擎,所述因果并发网模型挖掘引擎基于直接相关模型挖掘引擎转化并建立的直接相关模型、依赖性挖掘引擎挖掘建立的依赖性系数矩阵数据以及窗口扫描引擎找出的每个节点的前后序列挖掘并输出因果并发网模型。
优选的,所述依赖性挖掘引擎中依赖性关系认定规则为:
若两个事件之间的依赖性系数较高,则认为两个事件的因果性更高,则容易判断为串行关系;
如两个事件之间的依赖性系数较低,则认为两个事件不存在先后关系,则容易判断为并行关系。
优选的,所述窗口扫描引擎对输入的任务流程日志和直接相关模型扫描全量流程变体,提取每个节点的所有前后序列;
优选的,所述因果并发网模型挖掘引擎通过直接相关模型、每个节点的前后序列以及依赖性关系列表挖掘前后序节点的并发性关系,并输出因果并发网模型。
与现有技术相比,本发明的有益效果是:该基于因果并发网的流程挖掘***,为后续包含更多信息的模型提供了模型框架基础,对于流程变体的识别更加详尽,考虑地更“长远”,保证了因果并发网模型的数据准确性以及可参考性;
1.本方案中设置有直接相关模型挖掘引擎,直接相关模型挖掘引擎解决了把任务日志转化为流程模型的问题,为后续包含更多信息的模型提供了模型框架基础;
2.本方案中设置有窗口扫描引擎,窗口扫描引擎解决了从任务日志中找出每个节点附近所有的节点问题,为后续挖掘因果并发网模型提供了数据基础,可以考虑地更“长远”;
3.本方案中设置有依赖性挖掘引擎,依赖性挖掘引擎解决了每两个事件之间的依赖性关系的问题,为后续挖掘因果并发网模型提供了数据基础;
4.本方案中设置有因果并发网模型挖掘引擎,因果并发网模型挖掘引擎能够通过处理直接相关模型、直接相关模型中每个节点的附近节点关系和依赖性系数矩阵生成因果并发网模型。
附图说明
图1为本发明***示意图;
图2为本发明实施例中流程变体相关示意图1;
图3为本发明实施例中流程变体相关示意图2;
图4为本发明实施例中依赖性系数矩阵示意图;
图5为本发明实施例中相关模型节点示意图;
图6为本发明实施例中次数统计示意图;
图7为现有技术下的问题描述辅助示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-6,本发明提供一种技术方案:一种基于因果并发网的流程挖掘***,包括:直接相关模型挖掘引擎,依赖性挖掘引擎,窗口扫描引擎和因果并发网模型挖掘引擎,
直接相关模型挖掘引擎通过输入的任务流程日志挖掘得到节点和节点之间的相关关系,且其通过输入的任务流程日志转化并建立直接相关模型;
在具体的应用场景中,直接相关模型建立方法包括以下步骤:
步骤一:输入任务流程日志后,遍历任务流程日志中所有流程,挖掘出其中所有的流程变体,将流程变体存储为Multiset形式;
其中Multiset形式示例为:
Figure BDA0003311684180000051
步骤二:从Multiset中,基于Footprint Diagram提取所有的直接相关关系;
步骤三:提取频率矩阵,通过频率阈值系数和最大流程变体频数进行过滤频数矩阵,并滤去偶发事件,简化直接相关模型,且利用这些相关关系创建直接相关图,包括所有节点以及所有节点的前后序节点,其如图2和图3中,频率矩阵体现在直接相关图中边上的整数部分;
依赖性挖掘引擎基于直接相关模型,通过挖掘输入的任务流程日志中任意两个有直接相关关系的事件之间的依赖性关系,建立依赖性系数矩阵数据;
在具体的应用场景中,需要定义依赖性系数,且依赖性系数用于并发关系的筛选;
依赖性挖掘引擎中依赖性关系认定规则为:
若两个事件之间的依赖性系数较高,则认为两个事件的因果性更高,则容易判断为串行关系;
如两个事件之间的依赖性系数较低,则认为两个事件不存在先后关系,则容易判断为并行关系;
其中依赖性系数公式定义为:
Figure BDA0003311684180000061
Figure BDA0003311684180000062
是事件a和事件b之间的依赖性关系,而后计算出所有节点之间的依赖性系数后得到依赖性系数矩阵,其如图4中所示,在计算相关模型中,依赖性矩阵体现为边上括号里的浮点数部分。
窗口扫描引擎通过挖掘输入的任务流程日志,获取直接相关模型中的每个节点的前后事件序列;
窗口扫描引擎对输入的任务流程日志和直接相关模型扫描全量流程变体,提取每个节点的所有前后序列;
窗口扫描中:给定窗口宽度或给定窗口宽度系数,根据当前流程变体长度各自确定窗口宽度;
遍历流程日志中所有流程变体,这里由于只遍历的流程变体,而不是所有案例,所以可以大大提升运算效率;
遍历流程变体中所有节点,获得其前后窗口宽度的节点,以窗口宽度=4为例,如图5所示,通过直接相关模型,如:
1……k l b g a d h e k……;
2……l k g c a h e d l……;
3……k b l g a e h d k……;
4……k l g b a d e h k……;
5……k l k c a d k e h……;
在—般的直接相关模型中我们无从得知,{b,c}事件和{d,e}事件是否并发,那么这就需要回到流程日志中寻找答案,不同于其他方法,只能考虑直接相连的事件,我们在这里可以考虑地更“长远”,窗口宽度越大,我们的目光也就更“长远”,但代价是计算的数据量也就更多,这里将是一个完备性和性能之间的取舍。
因果并发网模型挖掘引擎基于直接相关模型挖掘引擎转化并建立的直接相关模型、依赖性挖掘引擎挖掘建立的依赖性系数矩阵数据以及窗口扫描引擎找出的每个节点的前后序列挖掘并输出因果并发网模型。
因果并发网模型挖掘引擎通过直接相关模型、每个节点的前后序列以及依赖性关系列表挖掘并输出因果并发网模型;
遍历所有节点的所有前后序列;
在前后序列中查找前后序节点是否同时出现,分别统计并发和单发次数;
其以a节点为例,其前序节点有{b,c},后续节点有{d,e},其中{b}3次、{c}2次、{d,e}5次,如图6中所示;
通过依赖性关系列表和依赖性阈值来最终确定前后序节点的并发关系。
其中窗口扫描引擎的实现方法多种多样,所有能实现找到每个节点附近节点关系的方法,若应用于本专利所宣称保护的***,都应包含在本专利的保护范围内。
依赖性挖掘引擎中的依赖性公式也并不唯一,所有的能体现两个或多个事件之间依赖型的指标和相应的计算方法,若应用于本专利所宣称保护的***,都应包含在本专利的保护范围内。
因果并发网模型挖掘引擎的实现方法也是多种多样的,所有基于处理直接相关模型、直接相关模型中每个节点的附近节点关系和依赖性系数矩阵等三类数据或基于此三类延伸出更多数据得到流程模型的引擎都是本引擎的替代方法,都应包含在本专利的保护范围内。
本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于因果并发网的流程挖掘***,其特征在于,包括:
直接相关模型挖掘引擎,所述直接相关模型挖掘引擎通过输入的任务流程日志挖掘得到节点和节点之间的相关关系,且其通过输入的任务流程日志转化并建立直接相关模型;
依赖性挖掘引擎,所述依赖性挖掘引擎基于直接相关模型,通过挖掘输入的任务流程日志中任意两个有直接相关关系的事件之间的依赖性关系,建立依赖性系数矩阵数据;
窗口扫描引擎,所述窗口扫描引擎通过挖掘输入的任务流程日志,获取直接相关模型中的每个节点的前后事件序列;
因果并发网模型挖掘引擎,所述因果并发网模型挖掘引擎基于直接相关模型挖掘引擎转化并建立的直接相关模型、依赖性挖掘引擎挖掘建立的依赖性系数矩阵数据以及窗口扫描引擎找出的每个节点的前后序列挖掘并输出因果并发网模型。
2.根据权利要求1所述的一种基于因果并发网的流程挖掘***,其特征在于:所述依赖性挖掘引擎中依赖性关系认定规则为:
若两个事件之间的依赖性系数较高,则认为两个事件的因果性更高,则容易判断为串行关系;
如两个事件之间的依赖性系数较低,则认为两个事件不存在先后关系,则容易判断为并行关系。
3.根据权利要求1所述的一种基于因果并发网的流程挖掘***,其特征在于:所述窗口扫描引擎对输入的任务流程日志和直接相关模型扫描全量流程变体,提取每个节点的所有前后序列。
4.根据权利要求1所述的一种基于因果并发网的流程挖掘***,其特征在于:所述因果并发网模型挖掘引擎通过直接相关模型、每个节点的前后序列以及依赖性关系列表挖掘前后序节点的并发性关系,并输出因果并发网模型。
CN202111218652.9A 2021-10-20 2021-10-20 一种基于因果并发网的流程挖掘*** Pending CN113947374A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111218652.9A CN113947374A (zh) 2021-10-20 2021-10-20 一种基于因果并发网的流程挖掘***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111218652.9A CN113947374A (zh) 2021-10-20 2021-10-20 一种基于因果并发网的流程挖掘***

Publications (1)

Publication Number Publication Date
CN113947374A true CN113947374A (zh) 2022-01-18

Family

ID=79331699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111218652.9A Pending CN113947374A (zh) 2021-10-20 2021-10-20 一种基于因果并发网的流程挖掘***

Country Status (1)

Country Link
CN (1) CN113947374A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258350A (zh) * 2023-05-15 2023-06-13 烟台岸基网络科技有限公司 海运集装箱运输监控方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116258350A (zh) * 2023-05-15 2023-06-13 烟台岸基网络科技有限公司 海运集装箱运输监控方法
CN116258350B (zh) * 2023-05-15 2023-08-11 烟台岸基网络科技有限公司 海运集装箱运输监控方法

Similar Documents

Publication Publication Date Title
CN103580900B (zh) 一种基于事件链的关联分析***
CN112269316B (zh) 一种基于图神经网络的高鲁棒性威胁狩猎***与方法
CN101398820A (zh) 一种大规模关键词匹配方法
CN103927398A (zh) 基于最大频繁项集挖掘的微博炒作群体发现方法
CN102648464A (zh) 用于从网络数据中生成词汇的***和方法
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和***
CN102867049B (zh) 一种基于单词查找树实现的汉语拼音快速分词方法
CN111787017A (zh) 一种区块链攻击溯源***及方法
CN103488683B (zh) 一种微博数据管理***及其实现方法
CN109800337B (zh) 一种适用于大字母表的多模式正则匹配算法
CN111881300A (zh) 面向第三方库依赖的知识图谱构建方法及***
CN113947374A (zh) 一种基于因果并发网的流程挖掘***
KR101197443B1 (ko) K-익명성을 제공하는 정보 보호 방법 및 장치
CN115544519A (zh) 对计量自动化***威胁情报进行安全性关联分析的方法
Gao et al. A system for efficiently hunting for cyber threats in computer systems using threat intelligence
CN110333990B (zh) 数据处理方法以及装置
Yuan et al. An improved pattern matching algorithm
CN103166942B (zh) 一种恶意代码的网络协议解析方法
CN116302089B (zh) 基于图片相似度的代码克隆检测方法、***及存储介质
US8051060B1 (en) Automatic detection of separators for compression
CN117453646A (zh) 融合语义与深度神经网络的内核日志联合压缩与查询方法
CN110049023B (zh) 一种基于机器学习的未知协议逆向识别方法及***
CN115913791B (zh) 基于增量式查询索引树的mdata动态子图匹配方法和***
CN116015939A (zh) 一种基于原子技术模板的高级持续威胁解释方法
Zhao et al. A new efficient data cleansing method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination