CN115238583A - 一种支持增量日志的业务流程剩余时间预测方法与*** - Google Patents
一种支持增量日志的业务流程剩余时间预测方法与*** Download PDFInfo
- Publication number
- CN115238583A CN115238583A CN202210896046.0A CN202210896046A CN115238583A CN 115238583 A CN115238583 A CN 115238583A CN 202210896046 A CN202210896046 A CN 202210896046A CN 115238583 A CN115238583 A CN 115238583A
- Authority
- CN
- China
- Prior art keywords
- feature
- updating
- incremental
- features
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 164
- 230000008569 process Effects 0.000 title claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 108
- 230000007246 mechanism Effects 0.000 claims abstract description 60
- 230000008859 change Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 38
- 230000000694 effects Effects 0.000 claims description 38
- 238000011156 evaluation Methods 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 23
- 238000012217 deletion Methods 0.000 claims description 21
- 230000037430 deletion Effects 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 11
- 230000000737 periodic effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 238000004088 simulation Methods 0.000 claims description 8
- 125000004122 cyclic group Chemical group 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000013136 deep learning model Methods 0.000 claims description 6
- 230000007717 exclusion Effects 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 6
- 230000007774 longterm Effects 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 208000037004 Myoclonic-astatic epilepsy Diseases 0.000 description 29
- 238000000874 microwave-assisted extraction Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2119/00—Details relating to the type or aim of the analysis or the optimisation
- G06F2119/02—Reliability analysis or reliability optimisation; Failure analysis, e.g. worst case scenario performance, failure mode and effects analysis [FMEA]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种支持增量日志的业务流程剩余时间预测方法与***,包括步骤:1)日志获取和预处理;2)特征自选取;3)特征编码;4)构建、训练多特征预测模型;5)建立支持增量日志的预测模型更新机制;6)增量更新机制的有效性评估。本发明为业务流程剩余时间预测任务提供一种通用的特征自选取策略,构建了多特征输入的预测模型,丰富了预测任务的已知信息;设计了三种增量更新机制,持续更新预测模型以适应业务的动态变化过程,提高了业务流程剩余时间预测的准确率。
Description
技术领域
本发明涉及业务流程挖掘的技术领域,尤其是指一种支持增量日志的业务流程剩余时间预测方法与***。
背景技术
流程挖掘是一系列可以从历史事件数据中提取有价值信息的技术,能够帮助企业提高生产效率和产品质量,增强企业的竞争力。随着企业数字化转型和智能化发展,企业信息***中的事件数据都得到了高质量的储存,促进了该领域的研究进展。经典的流程挖掘技术是指从现有事件日志中挖掘知识以发现、监控和改进实际流程。这些方法主要是通过历史数据分析业务流程,但在业务执行过程中,对流程未来执行情况的了解更有利于风险的提前掌握、早期预备和有效防范。因此,预测性监控是当前流程挖掘领域中的一个研究热点。
流程预测性监控中常见的预测任务包括剩余时间预测、结果预测、下一事件预测、下一事件执行时间预测、后缀预测以及其他属性预测等。其中剩余时间预测可以根据对实例未来执行时间的判断,调整后续的执行步骤和时间,避免超时而带来的风险。然而,业务的执行是一个动态变化的过程,在真实场景中,业务会根据外在和内在因素的影响而发生变化,例如淡季和旺季的交替、企业规模的发展、服务范围的变化、人员调动、设备更新以及各种突发状况。因此,在不同的时期,业务流程的执行时间和步骤可能存在差异,另外,同一时期的业务流程也可能随着企业的发展而发生变化。因此,丰富的有效特征选取和预测模型的增量更新方法,是业务流程剩余时间预测中亟需解决的问题。
发明内容
本发明的第一目的在于克服现有技术的缺点与不足,提供一种支持增量日志的业务流程剩余时间预测方法,该方法为业务流程剩余时间预测任务提供一种通用的特征自选取策略,构建了多特征预测模型,建立了支持增量日志的预测模型更新机制并模拟了增量更新过程。
本发明的第二目的在于提供一种支持增量日志的业务流程剩余时间预测***。
本发明的第一目的通过下述技术方案实现:一种支持增量日志的业务流程剩余时间预测方法,包括以下步骤:
1)日志获取和预处理:
获取、分析真实业务流程的事件日志,删除无关、相似属性,扩展时间属性,计算预测目标值,以年为单位将日志划分数据集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)中获得的重要特征编码,并更新至数据集中,使得编码后的值能区分并代表该特征;
4)构建、训练多特征预测模型:
将步骤3)编码后的重要特征作为输入,采用LSTM和Transformer神经网络作为模型基本单元分别构建多特征预测模型,并进行训练;
5)建立支持增量日志的预测模型更新机制:
设计定期更新、定量更新和综合更新三种支持增量日志的增量更新机制,更新步骤4)构建的多特征预测模型;
6)增量更新机制的有效性评估:
评估步骤2)、5)对剩余时间预测任务的有效性,模拟业务流程的执行情况,评估每次更新后的预测结果,整合所有结果得到一个最终预测误差值。
进一步,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
进一步,在步骤2)中,设计特征自选取策略,自动选取重要属性作为预测模型的输入特征,包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
进一步,在步骤3)中,将步骤2)中选取的重要特征采用对应的编码方式进行编码,所述重要特征包括活动特征、其它分类特征和数值特征,它们的编码方式具体如下:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
进一步,在步骤4)中,构建、训练多特征预测模型,包括以下步骤:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
进一步,在步骤5)中,通过增量更新机制训练和更新模型,包括以下步骤:
5.1)根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
5.2)多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到步骤5.1)中的增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
进一步,在步骤6)中,评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性,包括以下步骤:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
本发明的第二目的通过下述技术方案实现:一种支持增量日志的业务流程剩余时间预测***,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块;
所述日志处理模块用于分析和预处理日志,划分数据集;
所述特征自选取模块采用LightGBM算法作为预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对日志处理模块预处理后的日志进行特征选取,得到重要特征;
所述特征编码模块用于编码所选取的重要特征,包括活动特征、其它分类特征和数值特征;
所述模型构建与训练模块用于构建和训练多特征预测模型;
所述模型增量更新模块采用定期更新、定量更新和综合更新三种支持增量日志的增量更新机制更新多特征预测模型;
所述评估模块用于评估特征自选取策略、多特征预测模型结构和三种增量更新机制的优劣。
进一步,所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
进一步,所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率;
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作;
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构;
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集;
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
本发明与现有技术相比,具有如下优点与有益效果:
1、本发明首次实现了针对业务流程剩余时间预测构建的多特征预测模型。
2、本发明首次实现了定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制。
3、本发明首次实现了模拟日志增量的模型更新与评估方法。
4、本发明提出了业务流程剩余时间预测中特征的自选取方法,自动选取对预测结果有重要影响的特征作为输入。
5、本发明通过对业务流程剩余时间的预测,确保业务在需要的时间内完成办理,若出现延期情况可及时采取措施,不影响后续进度。
附图说明
图1为本发明逻辑流程示意图。
图2为本发明Helpdesk特征重要性值图,其中x轴Importance value表示重要性值,y轴Feature Name表示特征属性,allDuration、seriousness_2、Variant index、week、product、service_type、duration、support_section、seriousness、day、responsible_section、Resource、workgroup、hour、month、service_level、customer表示所展示的特征名。
图3为本发明Helpdesk的增量选择树图,其中每个树节点的左边数值表示某特征的索引,右边数值为包含自己和所有父节点特征组合所得预测结果的MAE值,索引所对应的特征为:[0:Activity,13:allDuration,7:seriousness_2,2:Variant index,16:week,5:product,9:service_type,12:duration,10:support_section]。
图4为本发明的多特征预测模型结构图。
图5为本发明的综合更新机制模拟流程图。
图6为本发明的***架构图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例1
如图1所示,本实施例公开了一种支持增量日志的业务流程剩余时间预测方法,包括以下步骤:
1)获取、分析和预处理事件日志,并划分为历史训练集和新实例数据集:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
在本步骤中,获取了六个来自4TU Center for Research的公开事件日志数据集,BPIC2015来自2015年BPI挑战赛,包含五个事件日志,分别由五个荷兰市政府提供,数据包含大约四年期间所有建筑许可证申请;Helpdesk事件日志涉及一家意大利软件公司帮助台的票务管理流程。事件日志的统计属性如表1所示。
表1六个事件日志的统计属性
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
2)设计特征自选取策略,自动选取重要属性作为预测模型的输入特征:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差。若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
在本步骤中,以Helpdesk事件日志为例,基于优先级的后向特征删除策略计算出的特征重要性值如图2所示。
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
在本步骤中,以Helpdesk事件日志为例,基于增量特征树的前向特征选择策略构建的增量特征树如图3所示。
3)将步骤2)中选取的重要特征采用合适的编码方式进行编码,特征包含活动特征、其他类别特征和数值特征:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于5,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
4)构建、训练多特征预测模型:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于过长的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,可以提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
在本步骤中,以LSTM神经单元为例构建的多特征预测模型如图4所示。
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
在本步骤中,程序采用Python语言,在Python3.7环境中实现,模型采用pytorch框架搭建,根据经验值设置网络结构和超参数,然后在训练过程中不断调试找到较合适的结构和参数设置。
5)通过增量更新机制训练和更新模型:
5.1)根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,定期更新的每个周期内数据量有所差异,存在某一周期内数据量过少的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能过少的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式可以解决更新模型数据量过少的问题,若数据量过多,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
5.2)多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到步骤5.1)中的增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
6)评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
在本步骤中,特征自选取策略在六个事件日志上的测试结果如表2所示。
表2选取不同特征在剩余时间预测任务的表现对比
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的两种多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
在本步骤中,综合更新机制模拟流程如图5所示,增量更新机制的评估结果如表3所示。
表3增量更新机制的评估结果对比
实施例2
本实施例公开了一种支持增量日志的业务流程剩余时间预测***,如图6所示,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块。
所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于5,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于过长的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,可以提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制;
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,定期更新的每个周期内数据量有所差异,存在某一周期内数据量过少的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能过少的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式可以解决更新模型数据量过少的问题,若数据量过多,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制的更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用两种多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更多特征新预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (10)
1.一种支持增量日志的业务流程剩余时间预测方法,其特征在于,包括以下步骤:
1)日志获取和预处理:
获取、分析真实业务流程的事件日志,删除无关、相似属性,扩展时间属性,计算预测目标值,以年为单位将日志划分数据集;
2)特征自选取:
采用LightGBM算法作为特征自选取策略的预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对步骤1)预处理后的日志进行特征选取,得到重要特征;
3)特征编码:
将步骤2)中获得的重要特征编码,并更新至数据集中,使得编码后的值能区分并代表该特征;
4)构建、训练多特征预测模型:
将步骤3)编码后的重要特征作为输入,采用LSTM和Transformer神经网络作为模型基本单元分别构建多特征预测模型,并进行训练;
5)建立支持增量日志的预测模型更新机制:
设计定期更新、定量更新和综合更新三种支持增量日志的增量更新机制,更新步骤4)构建的多特征预测模型;
6)增量更新机制的有效性评估:
评估步骤2)、5)对剩余时间预测任务的有效性,模拟业务流程的执行情况,评估每次更新后的预测结果,整合所有结果得到一个最终预测误差值。
2.根据权利要求1所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,所述步骤1)包括以下步骤:
1.1)获取日志,从公开事件日志平台4TU中获取真实的事件日志,了解其具体的业务流程;
1.2)对步骤1.1)中的事件日志进行预处理,删除无关、重复属性,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
1.3)经过步骤1.2)预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
3.根据权利要求2所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤2)中,设计特征自选取策略,自动选取重要属性作为预测模型的输入特征,包括以下步骤:
2.1)采用LightGBM算法作为特征自选取策略的预测模型,从步骤1)得到的历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
2.2)基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
2.3)基于增量特征树的前向特征选择策略,根据步骤2.2)得到的F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率。
4.根据权利要求3所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤3)中,将步骤2)中选取的重要特征采用对应的编码方式进行编码,所述重要特征包括活动特征、其它分类特征和数值特征,它们的编码方式具体如下:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作。
5.根据权利要求4所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤4)中,构建、训练多特征预测模型,包括以下步骤:
4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
4.2)将步骤2)中选取的重要特征经过步骤3)编码,作为多特征预测模型的输入,采用步骤1.3)划分的历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构。
6.根据权利要求5所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤5)中,通过增量更新机制训练和更新模型,包括以下步骤:
5.1)根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
5.2)多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到步骤5.1)中的增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集。
7.根据权利要求6所述的一种支持增量日志的业务流程剩余时间预测方法,其特征在于,在步骤6)中,评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性,包括以下步骤:
6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
6.2)通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用步骤4)中的多特征预测模型和步骤5)的三种增量更新机制,将步骤1.3)划分的新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
8.一种支持增量日志的业务流程剩余时间预测***,其特征在于,包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块;
所述日志处理模块用于分析和预处理日志,划分数据集;
所述特征自选取模块采用LightGBM算法作为预测模型,通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对日志处理模块预处理后的日志进行特征选取,得到重要特征;
所述特征编码模块用于编码所选取的重要特征,包括活动特征、其它分类特征和数值特征;
所述模型构建与训练模块用于构建和训练多特征预测模型;
所述模型增量更新模块采用定期更新、定量更新和综合更新三种支持增量日志的增量更新机制更新多特征预测模型;
所述评估模块用于评估特征自选取策略、多特征预测模型结构和三种增量更新机制的优劣。
9.根据权利要求8所述的一种支持增量日志的业务流程剩余时间预测***,其特征在于:所述日志处理模块具体执行如下操作:
获取日志,进行预处理操作,删除无关、重复属性列,将时间戳属性扩展为6个数值属性,包括执行时间、总执行时间、月份、日期、星期和时间点,并计算每个事件对应的剩余时间作为预测目标值;
对预处理后的事件日志,根据轨迹的开始时间,将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集,历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型,新实例数据集用于模拟增量的更新过程,所述轨迹是指案例从执行到结束的事件序列。
10.根据权利要求9所述的一种支持增量日志的业务流程剩余时间预测***,其特征在于,所述特征自选取模块具体执行如下操作:
采用LightGBM算法作为特征自选取策略的预测模型,从历史训练集中选取不同属性作为输入特征,训练预测模型,为特征选取过程提供了初始参考指标,预测效果评估采用MAE指标,计算真实值与预测值的平均绝对误差,MAE值越小说明预测的准确率越高,计算公式如下:
所述LightGBM是一种高效的梯度提升决策树算法框架,它采用了基于梯度的单侧抽样和互斥特征捆绑方法,能够在有效提高算法训练速度的同时保证算法的预测精度;
基于优先级的后向特征删除策略,主要用于筛除对预测任务具有消极影响的特征,将全部属性作为初始已选特征集合F={f1,f2,...,fi,...,fn},fi为F中第i个特征,将LightGBM算法得到的特征重要性值集合Idt作为初始参考标准,每次删除优先级和Idt中值最小的特征,在筛除过程中计算fi∈F删除前后的MAE差值,作为特征重要性评判标准,记为IMAE(fi),计算公式如下:
IMAE(fi)=MAE(F)-MAE(F-{fi})
式中,MAE(F)表示采用F所得的平均绝对误差,MAE(F-{fi})表示采用删除fi后的F集合得到的平均绝对误差;若IMAE(fi)≤0则说明fi为消极特征,若IMAE(fi)>0则说明fi为积极特征,增加其优先级并撤回删除操作,迭代至F中不存在消极特征,返回F;
基于增量特征树的前向特征选择策略,根据F构建增量特征树,主要用于积极特征的重要程度排序,以事件的标志性属性活动作为根节点,从根节点开始,依次从F中添加剩余待选特征,计算当前组合的MAE值,并选取MAE最小的特征作为下一个父节点,直至待选特征集合为空;按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征,设置一个预测误差阈值,若按顺序添加一个特征后MAE的差值小于给定阈值,则忽略后续具有轻微积极影响的特征,以减少特征数提高训练效率;
所述特征编码模块具体执行如下操作:
a、活动特征采用CBOW词向量训练方法,通过先前发生事件中的活动序列训练预测下一事件的活动,得到活动的特征编码,其中所述CBOW是指采用上下文语料训练当前词向量的方法;
b、其它分类特征难以判断其上下文关系,若特征值的分类数大于设定值时,采用随机向量编码方法,否则采用基于索引的编码方法,并将编码后的特征更新到数据集中,其中所述基于索引的编码方法是由一位正整数表示特征;
c、数值特征进行归一化或标准化操作;
所述模型构建与训练模块具体执行如下操作:
采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型,其中:
a、LSTM神经网络构建的多特征预测模型,选取可变长的轨迹前缀作为输入,由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息,设置轨迹前缀长度范围的取值为[1,10];
b、Transformer神经网络构建的多特征预测模型,输入为整个轨迹前缀,通过特征编码和特征位置编码相结合的方式作为输入,将不同的轨迹前缀填充为相同长度;
所述LSTM是一种循环神经网络的变体,具有长期记忆能力,能够根据先前的事件信息进行预测,能够处理有前后关联关系的整条轨迹上的预测任务,所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息;所述Transformer是基于自注意力机制的一个深度学习模型,采用了编码和解码的模型结构,能够对长期依赖关系进行推理,适用于并行化计算,提高模型训练速度,由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络;
将所选重要特征经过编码后的向量进行拼接,作为多特征预测模型的输入,采用历史训练集训练多特征预测模型,训练过程中调试超参数和模型结构;
所述模型增量更新模块具体执行如下操作:
根据现实场景中业务执行过程可能发生的变化,设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制,即增量更新机制:
a、定期更新,业务及其执行时间的变化趋势通过时间段判断,设置一个固定周期,当一个固定周期结束后,更新多特征预测模型,其中,定期更新的每个周期内数据量有所差异,存在某一周期内数据量小于阈值的情况,不利于模型的更新训练;
b、定量更新,针对固定更新周期内数据量可能小于某一阈值的问题,设置一个数据量阈值,当数据量达到设定阈值时,更新多特征预测模型,这种更新方式能够解决更新模型数据量小于某一阈值的问题,若数据量多于某一阈值,则会增加更新频率,影响效率;
c、综合更新,对于上述两种更新存在的问题,综合定期更新与数据量更新方式,设定一个固定周期和一个数据量阈值,当一个周期结束后,若满足数据量阈值进行更新操作,否则等待下一个周期判断是否更新;
多特征预测模型在真实场景下的增量更新过程,将已有事件日志作为历史训练集,新建一个存放新数据的更新集,当一个新实例执行时,在每个事件节点上预测剩余时间,实例执行结束后,将整条轨迹信息保存至更新集,当达到增量更新机制更新条件时,随机抽取一部分历史数据和更新集作为训练数据更新模型,多特征预测模型更新后,将更新集数据存入历史训练集,清空更新集;
所述评估模块具体执行如下操作:
测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值,评估特征自选取策略的有效性,所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征;
通过已有的事件日志模拟模型的增量更新过程,建立一个更新集,采用多特征预测模型和三种增量更新机制,将新实例数据集用于模拟增量更新过程,当达到更新条件时,先测试其更新集的误差值,并整合先前的全部误差计算一个最新的MAE值作为评估指标,再更新多特征预测模型,直至全部数据完成增量更新,评估增量更新机制的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210896046.0A CN115238583B (zh) | 2022-07-27 | 2022-07-27 | 一种支持增量日志的业务流程剩余时间预测方法与*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210896046.0A CN115238583B (zh) | 2022-07-27 | 2022-07-27 | 一种支持增量日志的业务流程剩余时间预测方法与*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115238583A true CN115238583A (zh) | 2022-10-25 |
CN115238583B CN115238583B (zh) | 2024-02-13 |
Family
ID=83677105
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210896046.0A Active CN115238583B (zh) | 2022-07-27 | 2022-07-27 | 一种支持增量日志的业务流程剩余时间预测方法与*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115238583B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495071A (zh) * | 2023-12-29 | 2024-02-02 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及*** |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093315A1 (en) * | 2001-01-31 | 2004-05-13 | John Carney | Neural network training |
CN111216730A (zh) * | 2020-01-15 | 2020-06-02 | 山东理工大学 | 电动汽车剩余续驶里程估算方法、装置、存储介质及设备 |
US20200210538A1 (en) * | 2018-12-27 | 2020-07-02 | Utopus Insights, Inc. | Scalable system and engine for forecasting wind turbine failure |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及*** |
CN112288157A (zh) * | 2020-10-27 | 2021-01-29 | 华能酒泉风电有限责任公司 | 一种基于模糊聚类与深度强化学习的风电场功率预测方法 |
CN112700065A (zh) * | 2021-01-14 | 2021-04-23 | 上海交通大学 | 基于深度学习的业务流程完成时间区间预测方法和*** |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、***、存储介质及计算设备 |
WO2021169577A1 (zh) * | 2020-02-27 | 2021-09-02 | 山东大学 | 一种基于加权联邦学习的无线业务流量预测方法 |
CN113486571A (zh) * | 2021-06-15 | 2021-10-08 | 浙江大学 | 一种机加工设备剩余使用寿命预测方法 |
US20210357282A1 (en) * | 2020-05-13 | 2021-11-18 | Mastercard International Incorporated | Methods and systems for server failure prediction using server logs |
CN114035468A (zh) * | 2021-11-08 | 2022-02-11 | 山东理工大学 | 基于XGBoost算法的风机检修流程预测性监控方法与*** |
CN114358445A (zh) * | 2022-03-21 | 2022-04-15 | 山东建筑大学 | 一种业务流程剩余时间预测模型推荐方法及*** |
CN114358213A (zh) * | 2022-03-08 | 2022-04-15 | 湖南大学 | 非线性时序数据预测的误差消融处理方法及***与介质 |
CN114398825A (zh) * | 2021-12-30 | 2022-04-26 | 燕山大学 | 预测面向复杂多变工况的切削刀具剩余寿命的方法 |
US20220147672A1 (en) * | 2019-05-17 | 2022-05-12 | Tata Consultancy Services Limited | Method and system for adaptive learning of models for manufacturing systems |
CN114491015A (zh) * | 2021-12-17 | 2022-05-13 | 航天信息股份有限公司 | 一种文本分类模型增量训练与持续部署的方法和*** |
CN114564868A (zh) * | 2022-03-07 | 2022-05-31 | 中国海洋大学 | 一种锚链疲劳寿命预测方法 |
CN114662793A (zh) * | 2022-04-24 | 2022-06-24 | 山东理工大学 | 基于可解释分层模型的业务流程剩余时间预测方法与*** |
CN114757432A (zh) * | 2022-04-27 | 2022-07-15 | 浙江传媒学院 | 基于流程日志和多任务学习的未来执行活动及时间预测方法及*** |
-
2022
- 2022-07-27 CN CN202210896046.0A patent/CN115238583B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093315A1 (en) * | 2001-01-31 | 2004-05-13 | John Carney | Neural network training |
US20200210538A1 (en) * | 2018-12-27 | 2020-07-02 | Utopus Insights, Inc. | Scalable system and engine for forecasting wind turbine failure |
US20220147672A1 (en) * | 2019-05-17 | 2022-05-12 | Tata Consultancy Services Limited | Method and system for adaptive learning of models for manufacturing systems |
CN111216730A (zh) * | 2020-01-15 | 2020-06-02 | 山东理工大学 | 电动汽车剩余续驶里程估算方法、装置、存储介质及设备 |
WO2021169577A1 (zh) * | 2020-02-27 | 2021-09-02 | 山东大学 | 一种基于加权联邦学习的无线业务流量预测方法 |
CN111475804A (zh) * | 2020-03-05 | 2020-07-31 | 浙江省北大信息技术高等研究院 | 一种告警预测方法及*** |
US20210357282A1 (en) * | 2020-05-13 | 2021-11-18 | Mastercard International Incorporated | Methods and systems for server failure prediction using server logs |
CN112288157A (zh) * | 2020-10-27 | 2021-01-29 | 华能酒泉风电有限责任公司 | 一种基于模糊聚类与深度强化学习的风电场功率预测方法 |
CN112700065A (zh) * | 2021-01-14 | 2021-04-23 | 上海交通大学 | 基于深度学习的业务流程完成时间区间预测方法和*** |
CN113159413A (zh) * | 2021-04-19 | 2021-07-23 | 山东理工大学 | 业务流程剩余时间预测方法、***、存储介质及计算设备 |
CN113486571A (zh) * | 2021-06-15 | 2021-10-08 | 浙江大学 | 一种机加工设备剩余使用寿命预测方法 |
CN114035468A (zh) * | 2021-11-08 | 2022-02-11 | 山东理工大学 | 基于XGBoost算法的风机检修流程预测性监控方法与*** |
CN114491015A (zh) * | 2021-12-17 | 2022-05-13 | 航天信息股份有限公司 | 一种文本分类模型增量训练与持续部署的方法和*** |
CN114398825A (zh) * | 2021-12-30 | 2022-04-26 | 燕山大学 | 预测面向复杂多变工况的切削刀具剩余寿命的方法 |
CN114564868A (zh) * | 2022-03-07 | 2022-05-31 | 中国海洋大学 | 一种锚链疲劳寿命预测方法 |
CN114358213A (zh) * | 2022-03-08 | 2022-04-15 | 湖南大学 | 非线性时序数据预测的误差消融处理方法及***与介质 |
CN114358445A (zh) * | 2022-03-21 | 2022-04-15 | 山东建筑大学 | 一种业务流程剩余时间预测模型推荐方法及*** |
CN114662793A (zh) * | 2022-04-24 | 2022-06-24 | 山东理工大学 | 基于可解释分层模型的业务流程剩余时间预测方法与*** |
CN114757432A (zh) * | 2022-04-27 | 2022-07-15 | 浙江传媒学院 | 基于流程日志和多任务学习的未来执行活动及时间预测方法及*** |
Non-Patent Citations (2)
Title |
---|
王耀冬;俞卫博;宣兆龙;李翰朋;: "基于定性与定量检测的火工品剩余寿命预测方法", 火工品, no. 05, pages 38 - 40 * |
郑婷婷: "深度学习方法在业务流程进度预测中的应用", 现代计算机, pages 48 - 51 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117495071A (zh) * | 2023-12-29 | 2024-02-02 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及*** |
CN117495071B (zh) * | 2023-12-29 | 2024-05-14 | 安徽思高智能科技有限公司 | 一种基于预测性日志增强的流程发现方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN115238583B (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111124840B (zh) | 业务运维中告警的预测方法、装置与电子设备 | |
CN109587713B (zh) | 一种基于arima模型的网络指标预测方法、装置及存储介质 | |
CN111367961A (zh) | 基于图卷积神经网络的时序数据事件预测方法、***及其应用 | |
CN112910690A (zh) | 基于神经网络模型的网络流量预测方法、装置及设备 | |
CN110730100B (zh) | 一种告警信息处理方法、装置及服务器 | |
CN114757432B (zh) | 基于流程日志和多任务学习的未来执行活动及时间预测方法及*** | |
CN111782460A (zh) | 大规模日志数据的异常检测方法、装置和存储介质 | |
CN108614778B (zh) | 基于高斯过程回归的安卓App程序演化变更预测方法 | |
CN114035468B (zh) | 基于XGBoost算法的风机检修流程预测性监控方法与*** | |
WO2017071369A1 (zh) | 一种预测用户离网的方法和设备 | |
CN115238583B (zh) | 一种支持增量日志的业务流程剩余时间预测方法与*** | |
CN114662793A (zh) | 基于可解释分层模型的业务流程剩余时间预测方法与*** | |
CN115796312A (zh) | 一种多变量时间序列预测方法及*** | |
CN114818353A (zh) | 一种基于故障特征关系图谱的列控车载设备故障预测方法 | |
CN112700065B (zh) | 基于深度学习的业务流程完成时间区间预测方法和*** | |
CN117291575A (zh) | 设备检修方法、装置、计算机设备和存储介质 | |
CN116861373A (zh) | 一种查询选择率估算方法、***、终端设备及存储介质 | |
Huang et al. | Elastictrainer: Speeding up on-device training with runtime elastic tensor selection | |
CN111523685B (zh) | 基于主动学习的降低性能建模开销的方法 | |
CN112907055A (zh) | 数据处理时效测试方法和装置 | |
CN116805202B (zh) | 基于人工智能寻找替代员工的方法、装置及应用 | |
CN116821374B (zh) | 一种基于情报的事件预测方法 | |
CN114493379B (zh) | 基于政务数据的企业评价模型自动生成方法、装置及*** | |
CN117808065A (zh) | 一种基于数据大脑的智能决策方法 | |
Branch | Investigating the Effect of Using Methodology on Development Effort in Software Projects |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |