CN114282875A - 流程审批确定性规则和语义自学习结合判定方法及装置 - Google Patents

流程审批确定性规则和语义自学习结合判定方法及装置 Download PDF

Info

Publication number
CN114282875A
CN114282875A CN202011031120.XA CN202011031120A CN114282875A CN 114282875 A CN114282875 A CN 114282875A CN 202011031120 A CN202011031120 A CN 202011031120A CN 114282875 A CN114282875 A CN 114282875A
Authority
CN
China
Prior art keywords
approval
flow
definition
link
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011031120.XA
Other languages
English (en)
Inventor
施卓敏
于建军
谢建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN202011031120.XA priority Critical patent/CN114282875A/zh
Publication of CN114282875A publication Critical patent/CN114282875A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种流程审批确定性规则和语义自学习结合判定方法及装置,其包括提取业务流程定义数据,生成流程定义,对流程定义的特征属性进行聚类;判定当前审批流程的业务类型,推荐可能的流程定义,判定当前流程定义中的流程环节,推荐可能的流程环节,通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例;该方法及装置实现了动态调整流程定义,准确反映了当前审批流程的执行状况,最终实现审批流程自定义,有助于管理信息***的数据驱动流程应用。

Description

流程审批确定性规则和语义自学习结合判定方法及装置
技术领域
本发明属于流程管理技术领域,特别涉及一种流程审批确定性规则和语义自学习结合判定方法及装置。
背景技术
在管理信息***中,大量的业务涉及到流程审批,现有工作流引擎通过设定确定性的流程定义,并生成可执行的流程实例来完成业务流转和应用。但通过工作流引擎定义确定性规则需要大量的业务知识,在业务上线时就需确定流程定义。针对流程执行,现有方法是通过工作流引擎设定静态的流程定义,在流程执行过程中按照当前设定的流程定义进行实例化转化,根据不同的审批条件流转到不同的审批人,从而完成业务审批,即流程是预设的。如果当前审批流程执行过程中分支条件、审批角色和流程环节有变化,则当前审批流程报错不再执行,需要重新设定流程定义后才能继续执行,(如图1所示)。这种静态流程定义方法显然存在覆盖实际业务状态流转不完整问题,如流程定义时漏掉分支条件或者审批环节;另一方面,流程定义中的分支条件、审批角色、流程环节会发生变化,都需要重新设定,即无法满足动态变化需求。
发明内容
为了解决现有技术中存在的问题,本发明提供一种流程审批确定性规则和语义自学习结合判定方法及装置。
本发明其中一个技术方案提供一种流程审批确定性规则和语义自学习结合判定方法,所述方法包括如下步骤:
提取业务流程定义数据,生成流程定义;
对流程定义的特征属性进行聚类;
判定当前审批流程的业务类型,推荐可能的流程定义;
判定当前流程定义中的流程环节,推荐可能的流程环节。
进一步改进的方案中,所述方法还包括形成流程定义知识库,用于流程定义的存储及检索查询。
进一步改进的方案中,基于K-Means聚类算法对流程定义的特征属性进行聚类。
进一步改进的方案中,所述方法还包括通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
进一步改进的方案中,所述流程定义至少由一个以上的流程环节组成;每个流程环节由一系列审批条件和审批人或审批角色组成,以根据不同的审批条件来决定不同的审批人或审批角色;流程定义表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。
进一步改进的方案中,所述判定当前审批流程的业务类型,推荐可能的流程定义包括如下步骤:
判断当前业务类型是否属于现有流程定义知识库给出的业务类型;
如属于现有流程定义知识库给出的业务类型,选定当前业务类型所对应的流程定义;
如属于新的业务类型,通过随机森林模型来预测和推荐业务类型,选定编辑后形成新的流程定义。
进一步改进的方案中,所述判定当前流程定义中的流程环节,推荐可能的流程环节包括如下步骤:
判断当前流程定义中的流程环节是否与流程定义中的流程环节匹配;
如属于流程定义中的流程环节,选定当前流程环节;
如属于新的流程环节,通过随机森林模型来预测和推荐流程环节,选定编辑后形成新的流程环节。
进一步改进的方案中,所述随机森林模型的构造过程包括如下步骤:
假设有含N个数据样本的集合D,对集合D进行有放回的随机采样N次,得到集合D’,然后使用D’训练一棵决策树,而D’则作为该决策树根结点处的样本;
假设每个样本有M个特征,当决策树的某个内部节点需要***时,随机地挑选出m个特征,且m∈M,m<<M。然后根据某种指标,例如:信息增益或者信息增益比等,从m个特征中选择一个特征作为该内部节点的***属性;
决策树构造过程中每个内部节点都要按照步骤2)进行***,直到不再***,到达叶子节点为止;
重复上述步骤,从而构造大量的决策树,构造随机森林模型。
本发明另一技术方案提供一种流程审批确定性规则和语义自学习结合判定装置,所述装置包括:
提取模块,所述提取模块被配置为提取业务流程定义数据,生成流程定义;
聚类模块,所述聚类模块被配置为对流程定义的特征属性进行聚类;
知识库形成模块,所述知识库形成模块被配置为用于形成流程定义知识库;
流程定义推荐模块,所述流程定义推荐模块被配置为判定当前审批流程的业务类型,推荐可能的流程定义;
流程环节推荐模块,所述流程环节推荐模块被配置为判定当前流程定义中的流程环节,推荐可能的流程环节;
映射模块,所述映射模块被配置为通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
本发明另一个技术方案还一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行一种流程审批确定性规则和语义自学习结合判定装置时实现的步骤。
本发明提供的一种流程审批确定性规则和语义自学习结合判定方法及装置,所述方法及装置基于历史流程审批大数据,通过机器学习算法对审批流程进行学习聚类,形成确定性流程定义,并在实际流程实例中检测当前审批流程执行是否与静态设定的流程定义一致,推荐可能的流程定义或流程环节,在确定性流程定义的基础上,利用历史流程审批信息进行机器学习获得新流程定义,形成流程定义规则库。通过大数据分析形成的流程定义一方面可以补充到确定性流程中以形成静态流程,另一方面在实际运行过程中判断当前审批流程执行是否存在变化,检测出与现有流程实例冲突点,预测出可能的变化情况,并推荐可能的流程定义或流程环节,从而实现动态调整流程定义,准确反映当前审批流程的执行状况,最终实现审批流程自定义,有助于管理信息***的数据驱动流程应用。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是现有技术公开的业务流程审批的工作流程图;
图2是本发明一些实施例提供的一种流程审批确定性规则和语义自学习结合判定方法的流程图;
图3是改进的K-Means聚类算法对流程定义的特征属性进行聚类的流程图;
图4是从数据集E中选择k个样本作为初始的聚类中心的流程图;
图5是本发明一些实施例提供的一种流程审批确定性规则和语义自学习结合判定装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明其中一个实施例提供一种流程审批确定性规则和语义自学习结合判定方法,如图2所示,所述方法包括如下步骤:
S1:提取业务流程定义数据,生成流程定义。
从历史流程审批数据中提取审批时间、审批表单、审批人(审批角色)、审批环节名称信息等业务流程定义数据。其中,审批角色指的是同类型的人员,可由一系列审批人组成。如审批角色“项目负责人”可由两个审批人组成。审批表单、审批环节名称信息中存在半结构化文本,通过对半结构化文本的分析,提取其中关键词,为后流程定义的聚类提供数据基础。
其中,流程定义可表示为一系列由流程环节作为节点、依据审批条件确定审批人(审批角色)作为有向边的关系图。节点则是由流程环节表示,不同流程环节的有向边由审批条件决定审批人或审批角色。一个完整的流程定义可表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。如果下一流程环节为NULL,则表示当前流程环节为最终环节。审批条件进一步分解为数值型或者字符型审批条件。其中,数值型审批条件可表示为:{(参数),(条件),(数值)},条件可支持的包括:大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。字符型可表示为:{(参数),(=),(字符)}、{(参数),(≠),(字符)}。
S2:基于K-Means聚类算法对流程定义的特征属性进行聚类。
关键词提取:从审批表单和审批环节名称信息中提取对流程定义的业务类型有贡献的字段作为特征属性,并进行分词形成关键词。其中不同字段的权重不一,通过设定权重来实现准确聚类。如审批表单中的事由字段权重较高,意见字段权重较低。将提取形成的关键词作为K-Means聚类算法的输入,完成业务类型的分类。
数据预处理:在执行K-Means聚类算法时,为提高聚类准确性,还需要对输入数据进行预处理,包括缺失值处理和数据特征缩放等,以形成标准归一化的正常数据。
K-Means聚类学习:对经过数据预处理的从审批表单和审批环节名称信息中提取的作为特殊属性的关键词进行聚类。
流程环节预处理:聚类后,在流程环节统计过程中,针对离群点和异常值进行预处理。如一个流程定义中某流程环节出现频率远远小于其他流程环节出现的频率,则可认为是离群点;某流程环节出现审批时间异常,或早于正常流程环节定义的审批时间可认为是异常值。
流程环节组合:在完成业务类型分类的基础上,不同的流程环节的关系则根据统计,形成不同的依据不同审批条件确定审批人(审批角色),并组合形成一个完整的流程定义,即按照审批环节名称信息、审批人等信息统计出当前审批流程定义下的流程环节集合,并按照审批时间确定当前审批流程定义的流程环节执行顺序。
S3:形成流程定义知识库。
通过对流程定义的表示,从原始数据中提取相应的字段信息,表达为标准表示后形成流程定义存储到知识库中,形成流程定义知识库。为后续正则表达式解析提供基础。其中流程定义表示的描述,使用XML或JSON格式存储。
流程定义知识库用于流程定义的存储及检索查询,以方便后续快速匹配。
S4:判定当前审批流程的业务类型,推荐可能的流程定义。
其中,判定当前审批流程的业务类型,推荐可能的流程定义具体包括如下步骤:
判断当前业务类型是否属于现有流程定义知识库给出的业务类型;在判断过程中,提取当前审批流程中对业务类型有贡献的关键字,构建Word2Vec模型,判断当前业务类型与现有流程定义知识库给出的业务类型的符合度;
如属于现有流程定义知识库给出的业务类型,选定当前业务类型所对应的流程定义;
如属于新的(即不属于现有流程定义知识库给出的)业务类型,通过随机森林模型来预测和推荐业务类型,选定编辑后形成新的流程定义。
利用随机森林算法将流程定义冲突检测预测转化为分类问题,来预测流程定义是否与现有流程定义一致。考虑到模型计算的实时性问题,将算法执行设置为周期性执行,以更新训练集完成参数训练。
为了防止因输入变量的数值过大导致预测模型难以迅速收敛并得出预测结果,需要对数据采取特征缩放处理,用于规范自变量或数据特征范围。根据流程审批数据的自身特点,选择使用Min-Max进行归一化,使得归一化后的数据落到[0,1]的区间。为了评价模型在该任务中的性能优劣,并提高模型的预测精度,将问题域的多分类转化为多个二分类任务。
在进行分类时,采用随机森林模型来计算。随机森林模型的构造过程大致分为4个步骤,分别如下:
1)假设有含N个数据样本的集合D,对集合D进行有放回的随机采样N次,得到集合D’,然后使用D’训练一棵决策树,而D’则作为该决策树根结点处的样本;
2)假设每个样本有M个特征,当决策树的某个内部节点需要***时,随机地挑选出m个特征,且m∈M,m<<M。然后根据某种指标,例如:信息增益或者信息增益比等,从m个特征中选择一个特征作为该内部节点的***属性;
3)决策树构造过程中每个内部节点都要按照步骤2)进行***,直到不再***,到达叶子节点为止;
4)重复上述步骤,从而构造大量的决策树。最后,建立随机森林。
S5:判定当前流程定义中的流程环节,推荐可能的流程环节。在匹配得到一个现存或新生成一个新的流程定义后,还需进一步判断流程定义中的流程环节匹配度。
其中,判定当前流程定义中的流程环节,推荐可能的流程环节包括如下步骤:
判断当前流程定义中的流程环节是否与流程定义中的流程环节匹配;
如属于流程定义中的流程环节,选定当前流程环节;
如属于新的流程环节,通过随机森林模型来预测和推荐流程环节,选定编辑后形成新的流程环节。
同样基于随机森林模型检测当前流程环节是否存在冲突,检测冲突情况。如存在冲突,则推荐可能的下一流程环节候选,供用户选择。同时将当前流程环节作为新的流程环节,更新到现有流程定义中。当流程环节更新度超过设定的阈值(50%)后,则选定编辑后形成新的流程定义。
S6:通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
流程定义是对当前审批流程的抽象定义,需要经过映射匹配后转换成实际可执行的流程实例,并通过工作流引擎驱动实际业务流程状态变化。
通过流程定义,识别出审批条件和审批人。本申请的流程定义表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。针对一个完整的流程定义,可以看出流程定义包括业务类型、业务场景,以及一系列流程环节组成。每个流程环节包括流程环节名称,一系列审批条件集合以及下一流程环节名称。审批条件进一步分解为数值型或者字符型审批条件。其中,数值型审批条件可表示为:{(参数),(条件),(数值)},条件可支持的包括:大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。字符型可表示为:{(参数),(=),(字符)}、{(参数),(不等于≠),(字符)}。本申请定义括号对“()”表达为唯一表达式,即只允许出现一次;花括号“{}”表达为多次表达式,即可包括0个到多个表达式。运算符用于条件判断,包括大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。利用正则表达式匹配,建立与实际工作流引擎匹配的映射规则,将当前的流程定义依据正则表达式识别、解析转换为实际可执行流程。
通常一个实际可执行流程在运行过程中由并行、串行、汇交和嵌套等原子流程组合形成。针对并行流程,查看两个审批环节是否前后不相关;针对串行流程,查看两个审批环节的先后顺序确定;针对汇交流程,查看两个并行流程的汇交环节来确定;针对嵌套流程,确定源环节和目的环节来确定。通过原子流程的多种组合,形成最终的可执行的工作流。该工作流与实际业务结合,依托工作流引擎,根据业务的审批条件,分配到不同的审批人,逐步完成状态转移直到业务完成状态。
如当前业务活动中,将报销一台采购经费为120万的设备,通过流程定义和流程环节学习后,匹配到一个流程定义实例((采购报销),(大型仪器设备采购报销入账),{(报销人提交申请),{(设备费用>0.01元),(项目负责人审批)},(项目负责人审批)},{(项目负责人),{(设备费用≥5万元),(设备处审批)},(设备处审批)},{(设备费用≥10万元),(分管领导审批)},(分管领导审批)},{(分管领导审批),{(设备费用≥100万元),(单位领导审批)},(单位领导审批)},{(单位领导审批),(财务审核报销)},{(财务审核报销)}),经过正则表达式解析匹配后形成如下的可执行工作流:1)报销人提交申请->2)项目负责人审批->3)设备处审批->4)分管领导审批->5)单位领导审批->6)财务审核报销。
本发明提供的一种流程审批确定性规则和语义自学习结合判定方法,基于历史流程审批大数据,通过机器学习算法对审批流程进行学习聚类,形成确定性流程定义,并在实际流程实例中检测当前审批流程执行是否与静态设定的流程定义一致,推荐可能的流程定义或流程环节,在确定性流程定义的基础上,利用历史流程审批信息进行机器学习获得新流程定义,形成流程定义规则库。通过大数据分析形成的流程定义一方面可以补充到确定性流程中以形成静态流程,另一方面在实际运行过程中判断当前审批流程执行是否存在变化,检测出与现有流程实例冲突点,预测出可能的变化情况,并推荐可能的流程定义或流程环节,从而实现动态调整流程定义,准确反映当前审批流程的执行状况,最终实现审批流程自定义,有助于管理信息***的数据驱动流程应用。
如图3所示,在一些优选的实施例中,为了进一步提高聚类的准确性,采用改进的K-Means聚类算法对流程定义的特征属性进行聚类,具体包括如下步骤:
S21:使用Word2Vec算法获取从审批表单和审批环节名称信息中提取的对流程的业务类型有贡献的关键词的词向量,形成数据集E;
S22:从数据集E中选择k个样本作为初始的聚类中心{u1,u2,...,uk};
如图4所示,在一些优选的实施例中,从数据集E中选择k个样本作为初始的聚类中心{u1,u2,...,uk}包括如下步骤:
S221:计算数据集E中各样本之间的Pearson相关系数,将Pearson相关系数大于阈值的样本形成集合Pa,其余的样本形成集合Pb
其中Pearson相关系数阈值可以人为设定。
S222:分别从集合Pa和集合Pb中找到密度最大的样本xa1和样本xb1
S223:从集合Pa中距离样本xa1最近的样本开始遍历,寻找与样本xa1形成集合Ga1的样本,直至集合Ga1内所有样本的RSDa>阈值RSD0时,停止寻找;从集合Pb中距离样本xb1最近的样本开始遍历,寻找与样本xb1形成集合Gb1的样本,直至集合Gb1内所有样本的RSDb>阈值RSD0时,停止寻找;
Figure BDA0002703708180000111
其中,A表示集合Ga1中样本的个数,daA表示样本xa1距离第A个样本的欧式距离;
Figure BDA0002703708180000112
其中,B表示集合Gb1中样本的个数,daB表示样本xb1距离第B个样本的欧式距离;
S224:分别将集合P1和集合P2内剩余的样本进行步骤S222和S223,依次循环,直至形成ka个集合及kb个集合,其中ka={Ga1,Ga2,...,Gka},kb={Gb1,Gb2,...,Gkb}
S225:分别计算ka个集合和kb个集合中的每一集合的质心
Figure BDA0002703708180000113
其中y为a或b,|ciy|为ka个集合或kb个集合每一集合的样本个数;
S226:计算每一质心之间的欧式距离,将欧式距离小于距离阈值dmin的两个集合合并,最终形成k个样本集合;
S227:计算k个样本集合内每一样本的质心,即得到k个样本的初始聚类中心{u1,u2,...,uk};
S23:针对数据集E中的每个样本xj,计算其到k个聚类中心{u1,u2,...,uk}的欧式距离,并将其分到距离最小的聚类中心所对应的簇中;
S24:针对每个簇cj,重新计算聚类中心
Figure BDA0002703708180000121
|cj|为该簇样本个数;
S25:直至所有聚类中心不再变化,输出簇划分C={C1,C2,...Ck}。
本申请在进行K-Means聚类时,k个初始聚类中心不是随便选择,而是根据数据的特性进行选择,进而显著提高了K-Means聚类的准确性及稳定性,并且克服了传统K-Means聚类无法得到全局的最优解的问题。
本发明其中另一个实施例提供一种流程审批确定性规则和语义自学习结合判定装置,如图5所示,所述装置包括:
提取模块10,所述提取模块被配置为提取业务流程定义数据,生成流程定义。
从历史流程审批数据中提取审批时间、审批表单、审批人(审批角色)、审批环节名称信息等业务流程定义数据。其中,,审批角色指的是同类型的人员,可由一系列审批人组成。如审批角色“项目负责人”可由两个审批人组成。审批表单、审批环节名称信息中存在半结构化文本,通过对半结构化文本的分析,提取其中关键词,为后流程定义的聚类提供数据基础。
其中,流程定义可表示为一系列由流程环节作为节点、依据审批条件确定审批人(审批角色)作为有向边的关系图。节点则是由流程环节表示,不同流程环节的有向边由审批条件决定审批人或审批角色。一个完整的流程定义可表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。如果下一流程环节为NULL,则表示当前流程环节为最终环节。审批条件进一步分解为数值型或者字符型审批条件。其中,数值型审批条件可表示为:{(参数),(条件),(数值)},条件可支持的包括:大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。字符型可表示为:{(参数),(=),(字符)}、{(参数),(≠),(字符)}。
聚类模块20,所述聚类模块被配置为基于K-Means聚类算法对流程定义的特征属性进行聚类。
关键词提取:从审批表单和审批环节名称信息中提取对流程定义的业务类型有贡献的字段作为特征属性,并进行分词形成关键词。其中不同字段的权重不一,通过设定权重来实现准确聚类。如审批表单中的事由字段权重较高,意见字段权重较低。将提取形成的关键词作为K-Means聚类算法的输入,完成业务类型的分类。
数据预处理:在执行K-Means聚类算法时,为提高聚类准确性,还需要对输入数据进行预处理,包括缺失值处理和数据特征缩放等,以形成标准归一化的正常数据。
K-Means聚类学习:对经过数据预处理的从审批表单和审批环节名称信息中提取的作为特征属性的关键词进行聚类。
流程环节预处理:聚类后,在流程环节统计过程中,针对离群点和异常值进行预处理。如一个流程定义中某流程环节出现频率远远小于其他流程环节出现的频率,则可认为是离群点;某流程环节出现审批时间异常,或早于正常流程环节定义的审批时间可认为是异常值。
流程环节组合:在完成业务类型分类的基础上,不同的流程环节的关系则根据统计,形成不同的依据不同审批条件确定审批人(审批角色),并组合形成一个完整的流程定义,即按照审批环节名称信息、审批人等信息统计出当前审批流程定义下的流程环节集合,并按照审批时间确定当前审批流程定义的流程环节执行顺序。
知识库形成模块30,所述知识库形成模块被配置为用于形成流程定义知识库。
通过对流程定义的表示,从原始数据中提取相应的字段信息,表达为标准表示后形成流程定义存储到知识库中,形成流程定义知识库。为后续正则表达式解析提供基础。其中流程定义表示的描述,使用XML或JSON格式存储。
流程定义知识库用于流程定义的存储及检索查询,以方便后续快速匹配。
流程定义推荐模块40,所述流程定义推荐模块被配置为判定当前审批流程的业务类型,推荐可能的流程定义。
其中,判定当前审批流程的业务类型,推荐可能的流程定义具体包括如下步骤:
判断当前业务类型是否属于现有流程定义知识库给出的业务类型;在判断过程中,提取当前审批流程中对业务类型有贡献的关键字,构建Word2Vec模型,判断当前业务类型与现有流程定义知识库给出的业务类型的符合度;
如属于现有流程定义知识库给出的业务类型,选定当前业务类型所对应的流程定义;
如属于新的(即不属于现有流程定义知识库给出的)业务类型,通过随机森林模型来预测和推荐业务类型,选定编辑后形成新的流程定义。
利用随机森林算法将流程定义冲突检测预测转化为分类问题,来预测流程定义是否与现有流程定义一致。考虑到模型计算的实时性问题,将算法执行设置为周期性执行,以更新训练集完成参数训练。
为了防止因输入变量的数值过大导致预测模型难以迅速收敛并得出预测结果,需要对数据采取特征缩放处理,用于规范自变量或数据特征范围。根据流程审批数据的自身特点,选择使用Min-Max进行归一化,使得归一化后的数据落到[0,1]的区间。为了评价模型在该任务中的性能优劣,并提高模型的预测精度,将问题域的多分类转化为多个二分类任务。
在进行分类时,采用随机森林模型来计算。随机森林模型的构造过程大致分为4个步骤,分别如下:
1)假设有含N个数据样本的集合D,对集合D进行有放回的随机采样N次,得到集合D’,然后使用D’训练一棵决策树,而D’则作为该决策树根结点处的样本;
2)假设每个样本有M个特征,当决策树的某个内部节点需要***时,随机地挑选出m个特征,且m∈M,m<<M。然后根据某种指标,例如:信息增益或者信息增益比等,从m个特征中选择一个特征作为该内部节点的***属性;
3)决策树构造过程中每个内部节点都要按照步骤2)进行***,直到不再***,到达叶子节点为止;
4)重复上述步骤,从而构造大量的决策树。最后,建立随机森林。
流程环节推荐模块50,所述流程环节推荐模块被配置为判定当前流程定义中的流程环节,推荐可能的流程环节。在匹配得到一个现存或新生成一个新的流程定义后,还需进一步判断流程定义下的流程环节匹配度。
其中,判定当前流程定义中的流程环节,推荐可能的流程环节包括如下步骤:
判断当前流程定义中的流程环节是否与流程定义中的流程环节匹配;
如属于流程定义中的流程环节,选定当前流程环节;
如属于新的流程环节,通过随机森林模型来预测和推荐流程环节,选定编辑后形成新的流程环节。
同样基于随机森林模型检测当前流程环节是否存在冲突,检测冲突情况。如存在冲突,则推荐可能的下一流程环节候选,供用户选择。同时将当前流程环节作为新的流程环节,更新到现有流程定义中。当流程环节更新度超过设定的阈值(50%)后,则选定编辑后形成新的流程定义。
映射模块60,所述映射模块被配置为通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
流程定义是对当前审批流程的抽象定义,需要经过映射匹配后转换成实际可执行的流程实例,并通过工作流引擎驱动实际业务流程状态变化。
通过流程定义,识别出审批条件和审批人。本申请的流程定义表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。针对一个完整的流程定义,可以看出流程定义包括业务类型、业务场景,以及一系列流程环节组成。每个流程环节包括流程环节名称,一系列审批条件集合以及下一流程环节名称。审批条件进一步分解为数值型或者字符型审批条件。其中,数值型审批条件可表示为:{(参数),(条件),(数值)},条件可支持的包括:大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。字符型可表示为:{(参数),(=),(字符)}、{(参数),(不等于≠),(字符)}。本申请定义括号对“()”表达为唯一表达式,即只允许出现一次;花括号“{}”表达为多次表达式,即可包括0个到多个表达式。运算符用于条件判断,包括大于>、大于等于≥、等于=、不等于≠、小于<、小于等于≤,合计sum。利用正则表达式匹配,建立与实际工作流引擎匹配的映射规则,将当前的流程定义依据正则表达式识别、解析转换为实际可执行流程。
通常一个实际可执行流程在运行过程中由并行、串行、汇交和嵌套等原子流程组合形成。针对并行流程,查看两个审批环节是否前后不相关;针对串行流程,查看两个审批环节的先后顺序确定;针对汇交流程,查看两个并行流程的汇交环节来确定;针对嵌套流程,确定源环节和目的环节来确定。通过原子流程的多种组合,形成最终的可执行的工作流。该工作流与实际业务结合,依托工作流引擎,根据业务的审批条件,分配到不同的审批人,逐步完成状态转移直到业务完成状态。
如当前业务活动中,将报销一台采购经费为120万的设备,通过流程定义和流程环节学习后,匹配到一个流程定义实例((采购报销),(大型仪器设备采购报销入账),{(报销人提交申请),{(设备费用>0.01元),(项目负责人审批)},(项目负责人审批)},{(项目负责人),{(设备费用≥5万元),(设备处审批)},(设备处审批)},{(设备费用≥10万元),(分管领导审批)},(分管领导审批)},{(分管领导审批),{(设备费用≥100万元),(单位领导审批)},(单位领导审批)},{(单位领导审批),(财务审核报销)},{(财务审核报销)}),经过正则表达式解析匹配后形成如下的可执行工作流:1)报销人提交申请->2)项目负责人审批->3)设备处审批->4)分管领导审批->5)单位领导审批->6)财务审核报销。
本发明提供的一种流程审批确定性规则和语义自学习结合判定装置,基于历史流程审批大数据,通过机器学习算法对审批流程进行学习聚类,形成确定性流程定义,并在实际流程实例中检测当前审批流程执行是否与静态设定的流程定义一致,推荐可能的流程定义或流程环节,在确定性流程定义的基础上,利用历史流程审批信息进行机器学习获得新流程定义,形成流程定义规则库。通过大数据分析形成的流程定义一方面可以补充到确定性流程中以形成静态流程,另一方面在实际运行过程中判断当前审批流程执行是否存在变化,检测出与现有流程实例冲突点,预测出可能的变化情况,并推荐可能的流程定义或流程环节,从而实现动态调整流程定义,准确反映当前审批流程的执行状况,最终实现审批流程自定义,有助于管理信息***的数据驱动流程应用。
本发明另一个实施例提供另一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质;也可以是单独存在,未装配入终端中的计算机可读存储介质。所述计算机可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序被一个或者一个以上的处理器用来执行以上实施例中所提供的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述方法包括如下步骤:
提取业务流程定义数据,生成流程定义;
对流程定义的特征属性进行聚类;
判定当前审批流程的业务类型,推荐可能的流程定义;
判定当前流程定义中的流程环节,推荐可能的流程环节。
2.根据权利要求1所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述方法还包括形成流程定义知识库,用于流程定义的存储及检索查询。
3.根据权利要求2所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,基于K-Means聚类算法对流程定义的特征属性进行聚类。
4.根据权利要求1所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述方法还包括通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
5.根据权利要求4所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述流程定义至少由一个以上的流程环节组成;每个流程环节由一系列审批条件和审批人或审批角色组成,以根据不同的审批条件来决定不同的审批人或审批角色;流程定义表示为((业务类型),(业务场景),{(流程环节),{(审批条件),(审批人或审批角色)},(下一流程环节)})。
6.根据权利要求5所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述判定当前审批流程的业务类型,推荐可能的流程定义包括如下步骤:
判断当前业务类型是否属于现有流程定义知识库给出的业务类型;
如属于现有流程定义知识库给出的业务类型,选定当前业务类型所对应的流程定义;
如属于新的业务类型,通过随机森林模型来预测和推荐业务类型,选定编辑后形成新的流程定义。
7.根据权利要求5所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述判定当前流程定义中的流程环节,推荐可能的流程环节包括如下步骤:
判断当前流程定义中的流程环节是否与流程定义中的流程环节匹配;
如属于流程定义中的流程环节,选定当前流程环节;
如属于新的流程环节,通过随机森林模型来预测和推荐流程环节,选定编辑后形成新的流程环节。
8.根据权利要求6或7所述的流程审批确定性规则和语义自学习结合判定方法,其特征在于,所述随机森林模型的构造过程包括如下步骤:
假设有含N个数据样本的集合D,对集合D进行有放回的随机采样N次,得到集合D’,然后使用D’训练一棵决策树,而D’则作为该决策树根结点处的样本;
假设每个样本有M个特征,当决策树的某个内部节点需要***时,随机地挑选出m个特征,且m∈M,m<<M。然后根据某种指标,例如:信息增益或者信息增益比等,从m个特征中选择一个特征作为该内部节点的***属性;
决策树构造过程中每个内部节点都要按照步骤2)进行***,直到不再***,到达叶子节点为止;
重复上述步骤,从而构造大量的决策树,构造随机森林模型。
9.一种流程审批确定性规则和语义自学习结合判定装置,其特征在于,所述装置包括:
提取模块,所述提取模块被配置为提取业务流程定义数据,生成流程定义;
聚类模块,所述聚类模块被配置为对流程定义的特征属性进行聚类;
知识库形成模块,所述知识库形成模块被配置为用于形成流程定义知识库;
流程定义推荐模块,所述流程定义推荐模块被配置为判定当前审批流程的业务类型,推荐可能的流程定义;
流程环节推荐模块,所述流程环节推荐模块被配置为判定当前流程定义中的流程环节,推荐可能的流程环节;
映射模块,所述映射模块被配置为通过正则表达式将最终确定的流程定义映射为在工作流引擎中可实际执行的流程实例。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-8任一项权利要求所述方法的步骤。
CN202011031120.XA 2020-09-27 2020-09-27 流程审批确定性规则和语义自学习结合判定方法及装置 Pending CN114282875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011031120.XA CN114282875A (zh) 2020-09-27 2020-09-27 流程审批确定性规则和语义自学习结合判定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011031120.XA CN114282875A (zh) 2020-09-27 2020-09-27 流程审批确定性规则和语义自学习结合判定方法及装置

Publications (1)

Publication Number Publication Date
CN114282875A true CN114282875A (zh) 2022-04-05

Family

ID=80867638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011031120.XA Pending CN114282875A (zh) 2020-09-27 2020-09-27 流程审批确定性规则和语义自学习结合判定方法及装置

Country Status (1)

Country Link
CN (1) CN114282875A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707146A (zh) * 2022-06-02 2022-07-05 深圳市永达电子信息股份有限公司 工作流识别方法、***、计算机设备和可读存储介质
CN116308143A (zh) * 2023-02-28 2023-06-23 华能信息技术有限公司 一种智能化流程拼装方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114707146A (zh) * 2022-06-02 2022-07-05 深圳市永达电子信息股份有限公司 工作流识别方法、***、计算机设备和可读存储介质
CN114707146B (zh) * 2022-06-02 2022-10-28 深圳市永达电子信息股份有限公司 工作流识别方法、***、计算机设备和可读存储介质
CN116308143A (zh) * 2023-02-28 2023-06-23 华能信息技术有限公司 一种智能化流程拼装方法及***

Similar Documents

Publication Publication Date Title
US10387805B2 (en) System and method for ranking news feeds
CN117271767B (zh) 基于多智能体的运维知识库的建立方法
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN116894152B (zh) 一种多源数据调研与实时分析方法
CN114282875A (zh) 流程审批确定性规则和语义自学习结合判定方法及装置
Zhao RETRACTED ARTICLE: Application of deep learning algorithm in college English teaching process evaluation
CN117668205B (zh) 智慧物流客服处理方法、***、设备及存储介质
CN114692978A (zh) 一种基于大数据的社交媒体用户行为预测方法及***
CN114254615A (zh) 组卷方法、装置、电子设备和存储介质
Gunawan et al. C4. 5, K-Nearest Neighbor, Naïve Bayes, and Random Forest Algorithms Comparison to Predict Students' on TIME Graduation
CN117494760A (zh) 一种基于超大规模语言模型的富语义标签数据增广方法
CN117010373A (zh) 一种电力设备资产管理数据所属类别和组的推荐方法
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
CN115841269A (zh) 一种基于多维指标分析的期刊动态评价方法
CN114429140A (zh) 一种基于相关图信息进行因果推断的案由认定方法及***
CN111274404B (zh) 一种基于人机协同的小样本实体多领域分类方法
CN112348092A (zh) 数据处理方法和装置、服务器及存储介质
Bochkaryov et al. Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty
Ilieva et al. Building Independent Models of YouTube Content Networks as a Tool for Monitoring Health Misinformation
Peng et al. A novel text retrieval algorithm for public crisis cases
CN112115705B (zh) 一种电子简历的筛选方法及装置
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理***
CN117422063B (zh) 应用智能辅助决策的大数据处理方法及智能辅助决策***
CN118036756B (zh) 大模型多轮对话的方法、装置、计算机设备及存储介质
CN117668259B (zh) 基于知识图谱的内外规数据联动分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination