CN111612166A

CN111612166A - 一种基于机器学习的报销时间预测方法

Info

Publication number: CN111612166A
Application number: CN202010328601.0A
Authority: CN
Inventors: 于建军; 康孟海
Original assignee: Computer Network Information Center of CAS
Current assignee: Computer Network Information Center of CAS
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-09-01
Anticipated expiration: 2040-04-23
Also published as: CN111612166B

Abstract

本发明涉及一种基于机器学习的报销时间预测方法，属于机器学习(Machine Learning)技术领域，该方法包括：S1，定义业务流程规则表达和计算方法；S2，审批行为特征描述和提取；S3，审批行为数据预处理；S4，基于随机森林的审批时间预测；S5，结合业务流程规则计算方法，实现整体流程审批时间预测；S6，在线学习和参数修正。本发明利用机器学习算法建模财务报销各审批环节审批人行为，并构造审批操作行为特征，进而预测下一环节审批时间，以及完成整个审批流程预期时间，从而提高各审批环节的执行效率，并有助于审查审批流程环节的合理性。

Description

一种基于机器学习的报销时间预测方法

技术领域

本发明涉及机器学习(Machine Learning)技术领域，尤其涉及一种基于机器学习的报销时间预测方法。

背景技术

在财务报销审批流程中，涉及到不同报销类型设置不同的报销流程，如差旅费报销、设备费、材料费报销，即流程规则是根据不同报销类型预先设定，这也意味着每类报销涉及的审批人不同。报销人关心提交报销单时，何时能够审批完毕，以便安排个人还款计划。同时通过查看报销流程各环节时长，可分析出当前流程审批设置是否合理，以便优化提升审批效率。用户提交报销单时可预测下一环节的审批时间以及剩余流程时长，不仅涉及到流程规则，更与用户审批行为存在关联关系，如何利用机器学习算法建模各审批环节审批人行为，并构造审批行为特征，是目前预测审批时间亟需解决的问题。

财务报销审批时间预测过程本质上是面向实际财务报销业务，将不同报销类型的业务审批流程规则进行分解，形成典型的流程分支结构，包括并行、串行、汇交、嵌套以及分支结构的组合，再此基础上利用机器学习算法建模用户审批行为特征，预测下一环节的审批时间，以及整个流程预计剩余审批时间。

针对审批时间预测，一般预测策略是基于历史流程审批时间数据，统计出每个流程每个审批人的审批时间，作为当前审批流程中下个环节的预测审批时间，并加和出整个审批剩余时间。同时周期性的统计更新流程审批时间，作为下次的预测审批时间(如图1所示)。

现有审批时长预测***和方法存在以下问题和缺点：

首先，现有审批时长预测***和方法在解决下一个审批人审批时间和整体剩余审批时间存在适用性问题。首先，未充分考虑审批流程规则相关特性。不同的报销类型定义不同的报销流程，不同报销流程设计不同的分支结构，不同的分支结构由于运行模式不同可影响审批时间计算结果，如并行模式则是选取最长的审批时间作为预测时间，串行模式则是时间叠加作为预测时间。即原子性流程分支结构以及分支结构的组合直接影响到审批时间。其次，未充分考虑可影响用户进行审批的干扰因素或异常因素。现有方法往往统计方式计算审批时间的平均值，如不对这些因素进行过滤、对异常因素进行处理，将直接影响预测效果和准确率。最后，具体到每个审批人，存在个性化特征，如集中在某个时间审批，或者固定时间审批，这些特征需要学习建模，以便刻画用户审批行为对当前审批流程的影响。

针对审批时间预测模型，主流***和方法主要还是统计各类流程规则的执行时间来实现，即基于统计方法来完成时间审批预测。现有方法基于统计特征，存在粒度较粗，不能很好的利用流程规则的结构特性，以及审批人的审批行为特性，预测准确率较低等问题。主要包括：1)缺乏对审批流程规则的定义和分解，实现对不同分支结构的审批时间计算；2)缺乏对用户审批行为的分析和建模。用户审批行为存在规律性和个性化特征，目前预测方法还未对用户特征进行全面准确建模。3)缺乏一套在线支持不断预测时间修正的业务流程。包括实时预测以及结合反馈机制提高预测准确率。

发明内容

本发明的目的，是解决上述现有技术对财务报销过程中的下一环节审批时间预测和整体审批时间预测问题。

为实现上述目的，本发明提供了一种基于机器学习的报销时间预测方法，该方法包括以下步骤：

提取业务流程规则定义和用户审批行为特征，并对相关特征进行分解和预处理形成符合基于随机森林的审批时间预测模型进行预测的输入特征；

通过基于随机森林的审批时间预测模型，实现下一环节的审批时间预测；针对整体审批流程时间预测，则通过业务流程规则计算方法，对流程中各环节的审批时间进行整体累加计算。

优选地，该方法还包括对实际审批报销数据进行预处理步骤，所述预处理步骤包括：离群点和异常值的处理、缺失值处理和数据特征缩放，以形成标准归一化的规范数据，用于预测模型输入；

优选地，该方法在数据预处理前，对报销审批原始数据进行重构；原始数据中每一个单号对应的报销单据的各个审批环节之间彼此互相独立，而重构数据中通过关联业务流程，将该单号下的各个审批环节进行关联，形成顺序的审批链；同时同一单号的不同审批环节的审批人、审批环节和审批时间作为多条样本的各项特征；同一单号的同一审批环节重复出现多次的数据样本，取最新一次的审批人和审批时间。

针对离群点处理，对审批环节进行统计分析，对于相对比例较小的环节则进行剔除；

针对数据集合中的异常值进行处理，如后续环节比当前环节执行时间还早，则均将其视为异常值进行处理，剔除数据样本集合；

针对审批环节执行顺序无误的数据，仍存在环节缺失的，则针对上述步骤进行缺失值补全；补全策略根据历史相同环节统计平均数据的相关比例值进行填充；

经过数据预处理后，将可得到数据样本集合的初始标签，即一个样本完成每一环节和整个报销审批流程所花费时间。

优选地，随机森林的审批时间预测模型构造过程包括以下步骤：

(1)、假设有含N个数据样本的集合D，对集合D进行有放回的随机采样N次，得到集合D’，然后使用D’训练一棵决策树，而D’则作为该决策树根结点处的样本；

(2)、假设每个样本有M个特征，当决策树的某个内部节点需要***时，随机地挑选出m个特征，且m∈M,m＜＜M；然后根据信息增益或者信息增益比，从m个特征中选择一个特征作为该内部节点的***属性；

(3)、决策树构造过程中每个内部节点都要按照步骤(2)进行***，直到不再***，到达叶子节点为止；

(4)、重复上述步骤，从而构造大量的决策树；最后，建立随机森林。

优选地，该方法在进行预测评价指标选择方面，精确率与二分类任务相同，仍是计算正确预测的样本占所有样本的比重；而对于查准率、查全率和F1值，则分别计算宏查准率，宏查全率，宏F1和微查准率、微查全率、微F1以及权重查准率、权重查全率、权重F1指标。

优选地，该方法定义业务流程规则表达和计算方法，审批流程规则表达为报销审批时间预测的静态特征；审批流程在报销业务上线后即可确定并定义，进一步的，审批流程规则定义确定后即可分解，从而确定审批时间的计算模式；将确定性财务审批流程规则分解为原子性分支结构，包括并行、串行、汇交和嵌套模式，定义分支结构的审批时间计算方法；基于四类原子性分支结构可组合形成完整的财务报销审批流程，基于原子性分支结构组合形成整体流程的审批时间计算方法。

优选地，该方法还包括在线学习和参数修正步骤，该步骤包括：

将算法执行设置为周期性执行，以更新训练集完成参数训练；同时对比预测时间和实际时间，对模型进行反馈，不断优化参数；另一方面，将各个环节的预测时间和实际时间做对比，发现审批过程较长的流程环节，供管理员查看以优化审批环节和整体流程，缩短审批时间。

优选地，该方法为了防止因输入变量的数值过大导致随机森林的审批时间预测模型难以迅速收敛并得出预测结果，需要对数据采取特征缩放处理，用于规范自变量或数据特征范围；根据流程审批数据的自身特点，选择使用Min-Max方法进行归一化，使得归一化后的数据落到[0,1]的区间；为了评价各模型在该任务中的性能优劣，并提高各模型的预测精度，将问题域的多分类转化为多个二分类任务。

本发明的有益效果在于：

1、通过审批流程规则分解表示机制，将财务审批流程规则表示为一系列原子性分支结构，以及组合形成整体业务流程，并可确定审批时间计算方式。

2、结合流程规则定义和用户行为特征信息，可形成用于预测模型的输入特征；通过时间审批数据的预处理，以形成标准归一化的规范数据，用于预测模型输入。

3、构建基于随机森林的审批时间预测模型，实现下一环节和剩余流程审批时间的预测，并基于在线学习机制，提升预测准确率。

附图说明

图1为现有审批时长预测方法流程示意图；

图2为本发明实施例提供的一种基于机器学习的报销时间预测方法流程示意图。

具体实施方式

下面结合附图与具体实施方式对本发明作进一步详细描述。

图2为本发明实施例提供的一种基于机器学习的报销时间预测方法流程示意图。如图2所示，基于机器学习和流程规则的报销时间预测方法包括以下几个步骤：

步骤S2.1：定义业务流程规则表达和计算方法。审批流程规则表达为报销审批时间预测的静态特征，审批流程在报销业务上线后即可确定并定义，进一步的，审批流程规则定义确定后即可分解，从而确定审批时间的计算模式。将确定性财务审批流程规则分解为原子性分支结构，包括并行、串行、汇交和嵌套模式，定义分支结构的审批时间计算方法。基于四类原子性分支结构可组合形成完整的财务报销审批流程，相应的，获得流程整体审批时间计算方法。

原子性分支结构中的并行模式表示两个流程同时进行，有效审批时间应为最长审批时间。串行模式表示两个流程先后执行，有效审批时间应为两个流程时间的加和。汇交模式表示两个流程汇聚到同一个节点，这种模式还应根据会签状态来确定审批时间，如任意一人同意即可则参考并行结构以最长审批时间为有效审批时间，如须全部人同意可参考串行结构以加和时间为有效审批时间。嵌套模式表示流程包含子流程，应以当前流程是串行还是并行模式加上子流程模式确定审批时间。基于四类原子性分支结构可组合形成完整的财务报销审批流程。即审批流程规则可理解为报销审批时间预测的静态特征，具有确定性。流程规则定义确定后即可分解，从而确定审批时间的计算方式。

步骤S2.2：审批行为特征描述和提取。用户审批行为包含报销单号、报销单据类型、报销金额、审批人、审批环节和审批时间。其中报销单据类型是***预定义的文本字段，用于表示不同的报销单据。报销人则是脱敏后的数字ID表示。审批环节则是由流程规则定义的环节名称。审批环节时间表现为当前审批环节的审批时间，用YYYY-HH-DD hh:SS表示。报销单据类型、审批人、审批环节和审批时间形成一条样本的特征，并形成预测模型的输入特征。

步骤S2.3：审批行为数据预处理。通过从用户审批行为数据中提取报销单据类型、审批人、审批环节和审批时间作为预测模型的输入特征，但仍需对实际数据进行预处理，以符合标准的机器学习算法的输入格式。即对实际审批数据进行预处理，包括离群点和异常值的处理、缺失值处理和数据特征缩放等，以形成标准归一化的规范数据，用于预测模型输入。

在数据预处理前，对报销审批原始数据进行重构；原始数据中每一个单号对应的报销单据的各个审批环节之间彼此互相独立，而重构数据中通过关联业务流程，将该单号下的各个审批环节进行关联，形成顺序的审批链；同时同一单号的不同审批环节的审批人、审批环节和审批时间作为多条样本的各项特征；同一单号的同一审批环节重复出现多次的数据样本，取最新一次的审批人和审批时间。

针对离群点处理，对审批环节进行统计分析，对于相对比例较小(比例小于0.1％)的环节则进行剔除。

针对数据集合中的异常值进行处理，如后续环节比当前环节执行时间还早，则均将其视为异常值进行处理，剔除数据样本集合。

针对审批环节执行顺序无误的数据，仍存在环节缺失的，则针对上述步骤进行缺失值补全。补全策略根据历史相同环节统计平均数据的相关比例值进行填充。

步骤S2.4：基于随机森林的审批时间预测。在步骤S2.3的基础上，对数据进行特征构造。例如：审批环节“所领导审批”的有无与报销金额是否大于等于10000有关。故，构造新的特征“报销金额是否大于等于10000”，特征值仅有“1”和“0”，分别代表“是”和“否”；构造新的时间特征“Month”和“Day”等；对文本格式的特征采取数值化处理，使模型的输入数据全部转化为数值格式。故，模型的输入特征分别包括：报销单号、报销单据类型、报销金额、报销金额是否大于等于10000、Month、Day、审批人(代码)等多个特征。其中，输入数据的格式为数值格式。同时，通过初始标签对数据集合进行新一轮的离群点和异常值处理，防止因样本类别分布过度不均匀导致模型分类结果出现较大偏差。

为了防止因输入变量的数值过大导致预测模型难以迅速收敛并得出预测结果，需要对数据采取特征缩放处理，用于规范自变量或数据特征范围。根据流程审批数据的自身特点，选择使用Min-Max方法进行归一化，使得归一化后的数据落到[0,1]的区间。故，模型的输入特征为分布在[0,1]区间内的数值。财务报销审批流程的天数预测问题属于分类问题。为了评价各模型在该任务中的性能优劣，并提高各模型的预测精度，将问题域的多分类转化为多个二分类任务。

在进行分类时，则采用随机森林模型来计算。随机森林的构造过程大致分为4个步骤，分别如下：1)假设有含N个数据样本的集合D，对集合D进行有放回的随机采样N次，得到集合D’，然后使用D’训练一棵决策树，而D’则作为该决策树根结点处的样本；2)假设每个样本有M个特征，当决策树的某个内部节点需要***时，随机地挑选出m个特征，且m∈M,m＜＜M。然后根据某种指标，例如：信息增益或者信息增益比等，从m个特征中选择一个特征作为该内部节点的***属性；3)决策树构造过程中每个内部节点都要按照步骤2)进行***，直到不再***，到达叶子节点为止；4)重复上述步骤，从而构造大量的决策树。最后，建立随机森林。

在进行预测评价指标选择方面，精确率与二分类任务相同，仍是计算正确预测的样本占所有样本的比重；而对于查准率、查全率和F1值，则分别计算宏查准率(macro-P)，宏查全率(macro-R)，宏F1(macro-F1)和微查准率(micro-P)、微查全率(micro-R)、微F1(micro-F1)以及权重查准率(weighted-P)、权重查全率(weighted-R)、权重F1(weighted-F1)等9个指标。

在步骤S2.4中，在完成数据预处理和特征构造的基础上，利用随机森林算法将审批时间预测转化为分类问题，来预测下一环节和整体流程剩余审批时间。考虑到模型计算的实时性问题，将算法执行设置为周期性执行，以更新训练集完成参数训练。同时对比预测时间和实际时间，对模型进行反馈，不断优化参数。在随机森林模型的训练过程中，为了保证每一个内置参数尽可能接近最优解或取得局部最优解。本发明使用贪心算法的思想，结合网格搜索和交叉验证，针对随机森林的模型参数进行优化。首先，针对当前对分类器影响最大的参数，在其取值的常规范围内进行调优，并通过交叉验证进行评价，而其它参数暂时不变，直到该参数达到最优化；其次，按照顺序，选择影响力第二大的参数重复上述操作，直到所有参数调整完毕；最后，根据各参数选择的新参数值，对随机森林模型重新进行训练。另一方面，将各个环节的预测时间和实际时间做对比，发现审批过程较长的流程环节，供管理员查看以优化审批流程，缩短审批时间。

步骤S2.5：结合业务流程规则计算方法，实现整体流程审批时间预测。通过基于随机森林的审批时间预测，实现下一环节的审批时间预测。针对整体审批流程时间预测，则通过业务流程规则计算方法，对流程中各环节的审批时间进行整体累加计算获取。

步骤S2.6：在线学习和参数修正。考虑到模型计算的实时性问题，将算法执行设置为周期性执行，以更新训练集完成参数训练。同时对比预测时间和实际时间，对模型进行反馈，不断优化参数。另一方面，将各个环节的预测时间和实际时间做对比，发现审批过程较长的流程环节，供管理员查看以优化不合理环节，缩短审批时间。

步骤S2.7：流程结束，随机森林模型的输出格式为数值格式。随机森林模型中的每一颗决策树(本发明选用分类与回归决策树)针对一个输入样本，分别产生多个分类结果。随机森林模型集成所有决策树的分类结果，将投票次数最多的类别指定为最终的输出，提供审批时间预测，即该报销单据下一审批环节所花费的审批时间和整体流程的报销审批时间。

下面以实施具体说明本发明方法的实现。

针对实际财务报销过程，选择差旅费报销单为例，差旅费报销单主要审批流程有：填写单据、项目负责人审批、部门负责人审批(大于一定报销金额才需要)、主管领导审批(大于一定报销金额才需要)、财务审核等过程。此类报销流程可简单理解为串行分支结构的组合，即整体流程审批时间是各类审批环节审批时间的加和，同时依据报销金额跳过中间环节，即可理解为中间环节为并行分支结构(设置为审批时间为0)。

一个报销单数据主要提取包括：报销单号、报销单据类型、报销金额、审批人、审批环节和审批时间等特征，如“BCC201901250001,差旅费报销单,59460.0,用户A,课题负责人审批，2019/2/22 13:21:29”。

通过业务流程定义以及约束条件解析，可定义审批单据的审批流程分为以下步骤：“填写单据”、“项目负责人审批”、“部门负责人审批”、“归口管理部门审批”、“主管领导审批”、“财务审核”、“出纳确认”。其中，含有步骤“归口管理部门审批”和“出纳确认”的数据样本在重构后的数据中，条数比例低(小于0.1％)。因此，按照离群点处理，选择将其剔除数据样本集合，并将以上两个步骤移除总的审批流程中，即整个财务报销审批流程只有5个审批环节；然后，针对数据集合中的异常值进行处理，例如：某一样本在执行步骤“填写单据”之前先执行了步骤“项目负责人审批”或者步骤“部门负责人审批”，则均将其视为异常值进行处理，剔除数据样本集合。而对于审批环节执行顺序无误的样本，如仍存在步骤缺失，则针对以上问题进行缺失值处理，如根据报销金额，补上相应的审批环节，审批时间则根据历史平均统计时间插值。

完成数据预处理后，则利用基于决策树的预测模型进行下一环节审批预测，如针对用户A的审批时间预测，当用户提交报销单据时，分别给出项目负责人审批时间约为50分钟，整体流程完成时间约为3000分钟(后续环节预测时间的累加)。通过在线学习，如本次项目负责人加快了审批，在10分钟内完成审批，则进一步预测后续的审批环节预测值为280分钟，整体流程完成时间为2750分钟。

本发明实施例面向财务报销审批时间预测，根据不同审批类型的流程规则定义完成流程分支结构分解，形成环节和整体审批时间累加计算方法，结合审批用户行为，构建基于随机森林的预测机制，进而预测下一环节审批时间，以及整个审批流程完成预期时间。本发明实施例可适用于利用流程规则和用户审批行为特征进行机器学习建模和分析，实现精确预测下一环节审批时间，以及完成整个审批流程预期时间，从而提高各审批环节的执行效率，并有助于审查审批流程环节的合理性。

显而易见，在不偏离本发明的真实精神和范围的前提下，在此描述的本发明可以有许多变化。因此，所有对于本领域技术人员来说显而易见的改变，都应包括在本权利要求书所涵盖的范围之内。本发明所要求保护的范围仅由所述的权利要求书进行限定。

Claims

1.一种基于机器学习的报销时间预测方法，其特征在于，包括以下步骤：

提取财务报销业务流程规则定义和用户审批行为特征，并对相关特征进行分解和预处理形成符合基于随机森林的审批时间预测模型进行预测的输入特征；

通过基于随机森林的审批时间预测模型，实现下一环节的审批时间预测；针对整体审批流程时间预测，则通过业务流程规则计算，对业务流程中剩余环节的审批时间进行整体累加获得。

2.根据权利要求1所述的方法，其特征在于，还包括对实际报销审批数据进行预处理步骤，所述预处理步骤包括：离群点和异常值的处理、缺失值处理和数据特征缩放，以形成标准归一化的规范数据，用于预测模型输入。

3.根据权利要求2所述的方法，其特征在于，在数据预处理前，对报销审批原始数据进行重构；原始数据中每一个单号对应的报销单据的各个审批环节之间彼此互相独立，而重构数据中通过关联业务流程，将该单号下的各个审批环节进行关联，形成顺序的审批链；同时同一单号的不同审批环节的审批人、审批环节和审批时间作为多条样本的各项特征；同一单号的同一审批环节重复出现多次的数据样本，取最新一次的审批人和审批时间；

4.根据权利要求1所述的方法，其特征在于，所述随机森林的审批时间预测模型构造过程包括以下步骤：

5.根据权利要求4所述的方法，其特征在于，

在进行预测评价指标选择方面，精确率与二分类任务相同，仍是计算正确预测的样本占所有样本的比重；而对于查准率、查全率和F1值，则分别计算宏查准率，宏查全率，宏F1和微查准率、微查全率、微F1以及权重查准率、权重查全率、权重F1指标。

6.根据权利要求1所述的方法，其特征在于，还包括以下步骤：

定义业务流程规则表达和计算方法，审批流程规则表达为报销审批时间预测的静态特征；审批流程在报销业务上线后即可确定并定义，进一步的，审批流程规则定义确定后即可分解，从而确定审批时间的计算模式；将确定性财务审批流程规则分解为原子性分支结构，包括并行、串行、汇交和嵌套模式，定义分支结构的审批时间计算方法；基于四类原子性分支结构可组合形成完整的财务报销审批流程，基于原子性分支结构组合形成整体流程的审批时间计算方法。

7.根据权利要求1所述的方法，其特征在于，还包括在线学习和参数修正步骤，该步骤包括：

8.根据权利要求1所述的方法，其特征在于，为了防止因输入变量的数值过大导致随机森林的审批时间预测模型难以迅速收敛并得出预测结果，需要对数据采取特征缩放处理，用于规范自变量或数据特征范围；根据流程审批数据的自身特点，选择使用Min-Max方法进行归一化，使得归一化后的数据落到[0,1]的区间；为了评价各模型在该任务中的性能优劣，并提高各模型的预测精度，将问题域的多分类转化为多个二分类任务。

9.根据权利要求7所述的方法，其特征在于，在随机森林模型的训练过程中，使用贪心算法的思想，结合网格搜索和交叉验证，针对随机森林的模型参数进行优化；优化步骤包括：首先，针对当前对分类器影响最大的参数，在其取值的常规范围内进行调优，并通过交叉验证进行评价，而其它参数暂时不变，直到该参数达到最优化；其次，按照顺序，选择影响力第二大的参数重复上述操作，直到所有参数调整完毕；最后，根据各参数选择的新参数值，对随机森林模型重新进行训练。

10.根据权利要求1所述的方法，其特征在于，随机森林的审批时间预测模型的输出格式为数值格式，随机森林的审批时间预测模型中的每一颗决策树针对一个输入样本，分别产生多个分类结果；随机森林模型集成所有决策树的分类结果，将投票次数最多的类别指定为最终的输出，提供审批时间预测。