CN115238583A

CN115238583A - 一种支持增量日志的业务流程剩余时间预测方法与***

Info

Publication number: CN115238583A
Application number: CN202210896046.0A
Authority: CN
Inventors: 刘聪; 郭娜; 李彩虹; 陆婷; 张冬梅; 王雷
Original assignee: Shandong University of Technology
Current assignee: Shandong University of Technology
Priority date: 2022-07-27
Filing date: 2022-07-27
Publication date: 2022-10-25
Anticipated expiration: 2042-07-27
Also published as: CN115238583B

Abstract

本发明公开了一种支持增量日志的业务流程剩余时间预测方法与***，包括步骤：1)日志获取和预处理；2)特征自选取；3)特征编码；4)构建、训练多特征预测模型；5)建立支持增量日志的预测模型更新机制；6)增量更新机制的有效性评估。本发明为业务流程剩余时间预测任务提供一种通用的特征自选取策略，构建了多特征输入的预测模型，丰富了预测任务的已知信息；设计了三种增量更新机制，持续更新预测模型以适应业务的动态变化过程，提高了业务流程剩余时间预测的准确率。

Description

一种支持增量日志的业务流程剩余时间预测方法与***

技术领域

本发明涉及业务流程挖掘的技术领域，尤其是指一种支持增量日志的业务流程剩余时间预测方法与***。

背景技术

流程挖掘是一系列可以从历史事件数据中提取有价值信息的技术，能够帮助企业提高生产效率和产品质量，增强企业的竞争力。随着企业数字化转型和智能化发展，企业信息***中的事件数据都得到了高质量的储存，促进了该领域的研究进展。经典的流程挖掘技术是指从现有事件日志中挖掘知识以发现、监控和改进实际流程。这些方法主要是通过历史数据分析业务流程，但在业务执行过程中，对流程未来执行情况的了解更有利于风险的提前掌握、早期预备和有效防范。因此，预测性监控是当前流程挖掘领域中的一个研究热点。

流程预测性监控中常见的预测任务包括剩余时间预测、结果预测、下一事件预测、下一事件执行时间预测、后缀预测以及其他属性预测等。其中剩余时间预测可以根据对实例未来执行时间的判断，调整后续的执行步骤和时间，避免超时而带来的风险。然而，业务的执行是一个动态变化的过程，在真实场景中，业务会根据外在和内在因素的影响而发生变化，例如淡季和旺季的交替、企业规模的发展、服务范围的变化、人员调动、设备更新以及各种突发状况。因此，在不同的时期，业务流程的执行时间和步骤可能存在差异，另外，同一时期的业务流程也可能随着企业的发展而发生变化。因此，丰富的有效特征选取和预测模型的增量更新方法，是业务流程剩余时间预测中亟需解决的问题。

发明内容

本发明的第一目的在于克服现有技术的缺点与不足，提供一种支持增量日志的业务流程剩余时间预测方法，该方法为业务流程剩余时间预测任务提供一种通用的特征自选取策略，构建了多特征预测模型，建立了支持增量日志的预测模型更新机制并模拟了增量更新过程。

本发明的第二目的在于提供一种支持增量日志的业务流程剩余时间预测***。

本发明的第一目的通过下述技术方案实现：一种支持增量日志的业务流程剩余时间预测方法，包括以下步骤：

1)日志获取和预处理：

获取、分析真实业务流程的事件日志，删除无关、相似属性，扩展时间属性，计算预测目标值，以年为单位将日志划分数据集；

2)特征自选取：

采用LightGBM算法作为特征自选取策略的预测模型，通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对步骤1)预处理后的日志进行特征选取，得到重要特征；

3)特征编码：

将步骤2)中获得的重要特征编码，并更新至数据集中，使得编码后的值能区分并代表该特征；

4)构建、训练多特征预测模型：

将步骤3)编码后的重要特征作为输入，采用LSTM和Transformer神经网络作为模型基本单元分别构建多特征预测模型，并进行训练；

5)建立支持增量日志的预测模型更新机制：

设计定期更新、定量更新和综合更新三种支持增量日志的增量更新机制，更新步骤4)构建的多特征预测模型；

6)增量更新机制的有效性评估：

评估步骤2)、5)对剩余时间预测任务的有效性，模拟业务流程的执行情况，评估每次更新后的预测结果，整合所有结果得到一个最终预测误差值。

进一步，所述步骤1)包括以下步骤：

1.1)获取日志，从公开事件日志平台4TU中获取真实的事件日志，了解其具体的业务流程；

1.2)对步骤1.1)中的事件日志进行预处理，删除无关、重复属性，将时间戳属性扩展为6个数值属性，包括执行时间、总执行时间、月份、日期、星期和时间点，并计算每个事件对应的剩余时间作为预测目标值；

1.3)经过步骤1.2)预处理后的事件日志，根据轨迹的开始时间，将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集，历史训练集用于训练步骤2)的预测模型和步骤4)构建的多特征预测模型，新实例数据集用于模拟增量的更新过程，所述轨迹是指案例从执行到结束的事件序列。

进一步，在步骤2)中，设计特征自选取策略，自动选取重要属性作为预测模型的输入特征，包括以下步骤：

2.1)采用LightGBM算法作为特征自选取策略的预测模型，从步骤1)得到的历史训练集中选取不同属性作为输入特征，训练预测模型，为特征选取过程提供了初始参考指标，预测效果评估采用MAE指标，计算真实值与预测值的平均绝对误差，MAE值越小说明预测的准确率越高，计算公式如下：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

所述LightGBM是一种高效的梯度提升决策树算法框架，它采用了基于梯度的单侧抽样和互斥特征捆绑方法，能够在有效提高算法训练速度的同时保证算法的预测精度；

2.2)基于优先级的后向特征删除策略，主要用于筛除对预测任务具有消极影响的特征，将全部属性作为初始已选特征集合F＝{f₁,f₂,...,f_i,...,f_n}，f_i为F中第i个特征，将LightGBM算法得到的特征重要性值集合I_dt作为初始参考标准，每次删除优先级和I_dt中值最小的特征，在筛除过程中计算f_i∈F删除前后的MAE差值，作为特征重要性评判标准，记为I_MAE(f_i)，计算公式如下：

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

式中，MAE(F)表示采用F所得的平均绝对误差，MAE(F-{f_i})表示采用删除f_i后的F集合得到的平均绝对误差；若I_MAE(f_i)≤0则说明f_i为消极特征，若I_MAE(f_i)>0则说明f_i为积极特征，增加其优先级并撤回删除操作，迭代至F中不存在消极特征，返回F；

2.3)基于增量特征树的前向特征选择策略，根据步骤2.2)得到的F构建增量特征树，主要用于积极特征的重要程度排序，以事件的标志性属性活动作为根节点，从根节点开始，依次从F中添加剩余待选特征，计算当前组合的MAE值，并选取MAE最小的特征作为下一个父节点，直至待选特征集合为空；按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征，设置一个预测误差阈值，若按顺序添加一个特征后MAE的差值小于给定阈值，则忽略后续具有轻微积极影响的特征，以减少特征数提高训练效率。

进一步，在步骤3)中，将步骤2)中选取的重要特征采用对应的编码方式进行编码，所述重要特征包括活动特征、其它分类特征和数值特征，它们的编码方式具体如下：

a、活动特征采用CBOW词向量训练方法，通过先前发生事件中的活动序列训练预测下一事件的活动，得到活动的特征编码，其中所述CBOW是指采用上下文语料训练当前词向量的方法；

b、其它分类特征难以判断其上下文关系，若特征值的分类数大于设定值时，采用随机向量编码方法，否则采用基于索引的编码方法，并将编码后的特征更新到数据集中，其中所述基于索引的编码方法是由一位正整数表示特征；

c、数值特征进行归一化或标准化操作。

进一步，在步骤4)中，构建、训练多特征预测模型，包括以下步骤：

4.1)采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型，其中：

a、LSTM神经网络构建的多特征预测模型，选取可变长的轨迹前缀作为输入，由于长度大于某一阈值的轨迹前缀在迭代过程中会遗忘早期信息，设置轨迹前缀长度范围的取值为[1,10]；

b、Transformer神经网络构建的多特征预测模型，输入为整个轨迹前缀，通过特征编码和特征位置编码相结合的方式作为输入，将不同的轨迹前缀填充为相同长度；

所述LSTM是一种循环神经网络的变体，具有长期记忆能力，能够根据先前的事件信息进行预测，能够处理有前后关联关系的整条轨迹上的预测任务，所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息；所述Transformer是基于自注意力机制的一个深度学习模型，采用了编码和解码的模型结构，能够对长期依赖关系进行推理，适用于并行化计算，提高模型训练速度，由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络；

4.2)将步骤2)中选取的重要特征经过步骤3)编码，作为多特征预测模型的输入，采用步骤1.3)划分的历史训练集训练多特征预测模型，训练过程中调试超参数和模型结构。

进一步，在步骤5)中，通过增量更新机制训练和更新模型，包括以下步骤：

5.1)根据现实场景中业务执行过程可能发生的变化，设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制，即增量更新机制：

a、定期更新，业务及其执行时间的变化趋势通过时间段判断，设置一个固定周期，当一个固定周期结束后，更新多特征预测模型，其中，定期更新的每个周期内数据量有所差异，存在某一周期内数据量小于阈值的情况，不利于模型的更新训练；

b、定量更新，针对固定更新周期内数据量可能小于某一阈值的问题，设置一个数据量阈值，当数据量达到设定阈值时，更新多特征预测模型，这种更新方式能够解决更新模型数据量小于某一阈值的问题，若数据量多于某一阈值，则会增加更新频率，影响效率；

c、综合更新，对于上述两种更新存在的问题，综合定期更新与数据量更新方式，设定一个固定周期和一个数据量阈值，当一个周期结束后，若满足数据量阈值进行更新操作，否则等待下一个周期判断是否更新；

5.2)多特征预测模型在真实场景下的增量更新过程，将已有事件日志作为历史训练集，新建一个存放新数据的更新集，当一个新实例执行时，在每个事件节点上预测剩余时间，实例执行结束后，将整条轨迹信息保存至更新集，当达到步骤5.1)中的增量更新机制更新条件时，随机抽取一部分历史数据和更新集作为训练数据更新模型，多特征预测模型更新后，将更新集数据存入历史训练集，清空更新集。

进一步，在步骤6)中，评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性，包括以下步骤：

6.1)测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值，评估特征自选取策略的有效性，所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征；

6.2)通过已有的事件日志模拟模型的增量更新过程，建立一个更新集，采用步骤4)中的多特征预测模型和步骤5)的三种增量更新机制，将步骤1.3)划分的新实例数据集用于模拟增量更新过程，当达到更新条件时，先测试其更新集的误差值，并整合先前的全部误差计算一个最新的MAE值作为评估指标，再更新多特征预测模型，直至全部数据完成增量更新，评估增量更新机制的有效性。

本发明的第二目的通过下述技术方案实现：一种支持增量日志的业务流程剩余时间预测***，包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块；

所述日志处理模块用于分析和预处理日志，划分数据集；

所述特征自选取模块采用LightGBM算法作为预测模型，通过基于优先级的后向特征删除策略和基于增量特征树的前向特征选择策略对日志处理模块预处理后的日志进行特征选取，得到重要特征；

所述特征编码模块用于编码所选取的重要特征，包括活动特征、其它分类特征和数值特征；

所述模型构建与训练模块用于构建和训练多特征预测模型；

所述模型增量更新模块采用定期更新、定量更新和综合更新三种支持增量日志的增量更新机制更新多特征预测模型；

所述评估模块用于评估特征自选取策略、多特征预测模型结构和三种增量更新机制的优劣。

进一步，所述日志处理模块具体执行如下操作：

获取日志，进行预处理操作，删除无关、重复属性列，将时间戳属性扩展为6个数值属性，包括执行时间、总执行时间、月份、日期、星期和时间点，并计算每个事件对应的剩余时间作为预测目标值；

对预处理后的事件日志，根据轨迹的开始时间，将事件日志以年为单位按照1:1的比例划分为历史训练集和新实例数据集，历史训练集用于训练特征自选取模块中使用的预测模型和模型构建与训练模块中构建的多特征预测模型，新实例数据集用于模拟增量的更新过程，所述轨迹是指案例从执行到结束的事件序列。

进一步，所述特征自选取模块具体执行如下操作：

采用LightGBM算法作为特征自选取策略的预测模型，从历史训练集中选取不同属性作为输入特征，训练预测模型，为特征选取过程提供了初始参考指标，预测效果评估采用MAE指标，计算真实值与预测值的平均绝对误差，MAE值越小说明预测的准确率越高，计算公式如下：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

基于优先级的后向特征删除策略，主要用于筛除对预测任务具有消极影响的特征，将全部属性作为初始已选特征集合F＝{f₁,f₂,...,f_i,...,f_n}，f_i为F中第i个特征，将LightGBM算法得到的特征重要性值集合I_dt作为初始参考标准，每次删除优先级和I_dt中值最小的特征，在筛除过程中计算f_i∈F删除前后的MAE差值，作为特征重要性评判标准，记为I_MAE(f_i)，计算公式如下：

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

基于增量特征树的前向特征选择策略，根据F构建增量特征树，主要用于积极特征的重要程度排序，以事件的标志性属性活动作为根节点，从根节点开始，依次从F中添加剩余待选特征，计算当前组合的MAE值，并选取MAE最小的特征作为下一个父节点，直至待选特征集合为空；按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序即特征的重要性排序前向选取重要特征，设置一个预测误差阈值，若按顺序添加一个特征后MAE的差值小于给定阈值，则忽略后续具有轻微积极影响的特征，以减少特征数提高训练效率；

所述特征编码模块具体执行如下操作：

c、数值特征进行归一化或标准化操作；

所述模型构建与训练模块具体执行如下操作：

采用LSTM神经网络和Transformer神经网络分别构建多特征预测模型，其中：

将所选重要特征经过编码后的向量进行拼接，作为多特征预测模型的输入，采用历史训练集训练多特征预测模型，训练过程中调试超参数和模型结构；

所述模型增量更新模块具体执行如下操作：

根据现实场景中业务执行过程可能发生的变化，设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制，即增量更新机制：

多特征预测模型在真实场景下的增量更新过程，将已有事件日志作为历史训练集，新建一个存放新数据的更新集，当一个新实例执行时，在每个事件节点上预测剩余时间，实例执行结束后，将整条轨迹信息保存至更新集，当达到增量更新机制更新条件时，随机抽取一部分历史数据和更新集作为训练数据更新模型，多特征预测模型更新后，将更新集数据存入历史训练集，清空更新集；

所述评估模块具体执行如下操作：

测试采用不同特征组合所训练的预测模型即LightGBM算法在新实例数据集上的MAE值，评估特征自选取策略的有效性，所述特征组合包括活动特征、全部特征和后向特征删除策略与前向特征选择策略所选特征；

通过已有的事件日志模拟模型的增量更新过程，建立一个更新集，采用多特征预测模型和三种增量更新机制，将新实例数据集用于模拟增量更新过程，当达到更新条件时，先测试其更新集的误差值，并整合先前的全部误差计算一个最新的MAE值作为评估指标，再更新多特征预测模型，直至全部数据完成增量更新，评估增量更新机制的有效性。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明首次实现了针对业务流程剩余时间预测构建的多特征预测模型。

2、本发明首次实现了定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制。

3、本发明首次实现了模拟日志增量的模型更新与评估方法。

4、本发明提出了业务流程剩余时间预测中特征的自选取方法，自动选取对预测结果有重要影响的特征作为输入。

5、本发明通过对业务流程剩余时间的预测，确保业务在需要的时间内完成办理，若出现延期情况可及时采取措施，不影响后续进度。

附图说明

图1为本发明逻辑流程示意图。

图2为本发明Helpdesk特征重要性值图，其中x轴Importance value表示重要性值，y轴Feature Name表示特征属性，allDuration、seriousness_2、Variant index、week、product、service_type、duration、support_section、seriousness、day、responsible_section、Resource、workgroup、hour、month、service_level、customer表示所展示的特征名。

图3为本发明Helpdesk的增量选择树图，其中每个树节点的左边数值表示某特征的索引，右边数值为包含自己和所有父节点特征组合所得预测结果的MAE值，索引所对应的特征为：[0:Activity,13:allDuration,7:seriousness_2,2:Variant index,16:week,5:product,9:service_type,12:duration,10:support_section]。

图4为本发明的多特征预测模型结构图。

图5为本发明的综合更新机制模拟流程图。

图6为本发明的***架构图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

实施例1

如图1所示，本实施例公开了一种支持增量日志的业务流程剩余时间预测方法，包括以下步骤：

1)获取、分析和预处理事件日志，并划分为历史训练集和新实例数据集：

在本步骤中，获取了六个来自4TU Center for Research的公开事件日志数据集，BPIC2015来自2015年BPI挑战赛，包含五个事件日志，分别由五个荷兰市政府提供，数据包含大约四年期间所有建筑许可证申请；Helpdesk事件日志涉及一家意大利软件公司帮助台的票务管理流程。事件日志的统计属性如表1所示。

表1六个事件日志的统计属性

2)设计特征自选取策略，自动选取重要属性作为预测模型的输入特征：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

式中MAE(F)表示采用F所得的平均绝对误差，MAE(F-{f_i})表示采用删除f_i后的F集合得到的平均绝对误差。若I_MAE(f_i)≤0则说明f_i为消极特征，若I_MAE(f_i)>0则说明f_i为积极特征，增加其优先级并撤回删除操作，迭代至F中不存在消极特征，返回F；

在本步骤中，以Helpdesk事件日志为例，基于优先级的后向特征删除策略计算出的特征重要性值如图2所示。

2.3)基于增量特征树的前向特征选择策略，根据步骤2.2)得到的F构建增量特征树，主要用于积极特征的重要程度排序，以事件的标志性属性活动作为根节点，从根节点开始，依次从F中添加剩余待选特征，计算当前组合的MAE值，并选取MAE最小的特征作为下一个父节点，直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征，设置一个预测误差阈值，若按顺序添加一个特征后MAE的差值小于给定阈值，则忽略后续具有轻微积极影响的特征，以减少特征数提高训练效率。

在本步骤中，以Helpdesk事件日志为例，基于增量特征树的前向特征选择策略构建的增量特征树如图3所示。

3)将步骤2)中选取的重要特征采用合适的编码方式进行编码，特征包含活动特征、其他类别特征和数值特征：

b、其它分类特征难以判断其上下文关系，若特征值的分类数大于5，采用随机向量编码方法，否则采用基于索引的编码方法，并将编码后的特征更新到数据集中，其中所述基于索引的编码方法是由一位正整数表示特征；

c、数值特征进行归一化或标准化操作。

4)构建、训练多特征预测模型：

a、LSTM神经网络构建的多特征预测模型，选取可变长的轨迹前缀作为输入，由于过长的轨迹前缀在迭代过程中会遗忘早期信息，设置轨迹前缀长度范围的取值为[1,10]；

所述LSTM是一种循环神经网络的变体，具有长期记忆能力，能够根据先前的事件信息进行预测，能够处理有前后关联关系的整条轨迹上的预测任务，所述轨迹前缀是在某条轨迹上的任意活动节点或时刻前的轨迹信息；所述Transformer是基于自注意力机制的一个深度学习模型，采用了编码和解码的模型结构，能够对长期依赖关系进行推理，适用于并行化计算，可以提高模型训练速度，由于它本身模型的复杂程度使得它的精度和性能在理论上要高于循环神经网络；

在本步骤中，以LSTM神经单元为例构建的多特征预测模型如图4所示。

在本步骤中，程序采用Python语言，在Python3.7环境中实现，模型采用pytorch框架搭建，根据经验值设置网络结构和超参数，然后在训练过程中不断调试找到较合适的结构和参数设置。

5)通过增量更新机制训练和更新模型：

a、定期更新，业务及其执行时间的变化趋势通过时间段判断，设置一个固定周期，当一个固定周期结束后，更新多特征预测模型，定期更新的每个周期内数据量有所差异，存在某一周期内数据量过少的情况，不利于模型的更新训练；

b、定量更新，针对固定更新周期内数据量可能过少的问题，设置一个数据量阈值，当数据量达到设定阈值时，更新多特征预测模型，这种更新方式可以解决更新模型数据量过少的问题，若数据量过多，则会增加更新频率，影响效率；

6)评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性：

在本步骤中，特征自选取策略在六个事件日志上的测试结果如表2所示。

表2选取不同特征在剩余时间预测任务的表现对比

6.2)通过已有的事件日志模拟模型的增量更新过程，建立一个更新集，采用步骤4)中的两种多特征预测模型和步骤5)的三种增量更新机制，将步骤1.3)划分的新实例数据集用于模拟增量更新过程，当达到更新条件时，先测试其更新集的误差值，并整合先前的全部误差计算一个最新的MAE值作为评估指标，再更新多特征预测模型，直至全部数据完成增量更新，评估增量更新机制的有效性。

在本步骤中，综合更新机制模拟流程如图5所示，增量更新机制的评估结果如表3所示。

表3增量更新机制的评估结果对比

实施例2

本实施例公开了一种支持增量日志的业务流程剩余时间预测***，如图6所示，包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块。

所述日志处理模块具体执行如下操作：

所述特征自选取模块具体执行如下操作：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

基于增量特征树的前向特征选择策略，根据F构建增量特征树，主要用于积极特征的重要程度排序，以事件的标志性属性活动作为根节点，从根节点开始，依次从F中添加剩余待选特征，计算当前组合的MAE值，并选取MAE最小的特征作为下一个父节点，直至待选特征集合为空。按照增量特征树从根节点到最深叶子节点的路径所得到的特征顺序(即特征的重要性排序)前向选取重要特征，设置一个预测误差阈值，若按顺序添加一个特征后MAE的差值小于给定阈值，则忽略后续具有轻微积极影响的特征，以减少特征数提高训练效率。

所述特征编码模块具体执行如下操作：

c、数值特征进行归一化或标准化操作。

所述模型构建与训练模块具体执行如下操作：

将所选重要特征经过编码后的向量进行拼接，作为多特征预测模型的输入，采用历史训练集训练多特征预测模型，训练过程中调试超参数和模型结构。

所述模型增量更新模块具体执行如下操作：

根据现实场景中业务执行过程可能发生的变化，设计定期更新、定量更新和综合更新三种支持增量日志的预测模型更新机制，即增量更新机制；

多特征预测模型在真实场景下的增量更新过程，将已有事件日志作为历史训练集，新建一个存放新数据的更新集，当一个新实例执行时，在每个事件节点上预测剩余时间，实例执行结束后，将整条轨迹信息保存至更新集，当达到增量更新机制的更新条件时，随机抽取一部分历史数据和更新集作为训练数据更新模型，多特征预测模型更新后，将更新集数据存入历史训练集，清空更新集。

所述评估模块具体执行如下操作：

通过已有的事件日志模拟模型的增量更新过程，建立一个更新集，采用两种多特征预测模型和三种增量更新机制，将新实例数据集用于模拟增量更新过程，当达到更新条件时，先测试其更新集的误差值，并整合先前的全部误差计算一个最新的MAE值作为评估指标，再更多特征新预测模型，直至全部数据完成增量更新，评估增量更新机制的有效性。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种支持增量日志的业务流程剩余时间预测方法，其特征在于，包括以下步骤：

1)日志获取和预处理：

2)特征自选取：

3)特征编码：

4)构建、训练多特征预测模型：

5)建立支持增量日志的预测模型更新机制：

6)增量更新机制的有效性评估：

2.根据权利要求1所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，所述步骤1)包括以下步骤：

3.根据权利要求2所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，在步骤2)中，设计特征自选取策略，自动选取重要属性作为预测模型的输入特征，包括以下步骤：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

4.根据权利要求3所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，在步骤3)中，将步骤2)中选取的重要特征采用对应的编码方式进行编码，所述重要特征包括活动特征、其它分类特征和数值特征，它们的编码方式具体如下：

c、数值特征进行归一化或标准化操作。

5.根据权利要求4所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，在步骤4)中，构建、训练多特征预测模型，包括以下步骤：

6.根据权利要求5所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，在步骤5)中，通过增量更新机制训练和更新模型，包括以下步骤：

7.根据权利要求6所述的一种支持增量日志的业务流程剩余时间预测方法，其特征在于，在步骤6)中，评估特征自选取策略和增量更新机制对于业务流程剩余时间预测任务的有效性，包括以下步骤：

8.一种支持增量日志的业务流程剩余时间预测***，其特征在于，包括日志处理模块、特征自选取模块、特征编码模块、模型构建与训练模块、模型增量更新模块和评估模块；

所述日志处理模块用于分析和预处理日志，划分数据集；

所述模型构建与训练模块用于构建和训练多特征预测模型；

9.根据权利要求8所述的一种支持增量日志的业务流程剩余时间预测***，其特征在于：所述日志处理模块具体执行如下操作：

10.根据权利要求9所述的一种支持增量日志的业务流程剩余时间预测***，其特征在于，所述特征自选取模块具体执行如下操作：

式中，n为数据集的总数量，y_i为第i条数据的真实值，

为第i条数据的预测值；

I_MAE(f_i)＝MAE(F)-MAE(F-{f_i})

所述特征编码模块具体执行如下操作：

c、数值特征进行归一化或标准化操作；

所述模型构建与训练模块具体执行如下操作：

所述模型增量更新模块具体执行如下操作：

所述评估模块具体执行如下操作：