CN108446890A

CN108446890A - 一种审批模型训练方法、计算机可读存储介质及终端设备

Info

Publication number: CN108446890A
Application number: CN201810161032.8A
Authority: CN
Inventors: 杨正伟
Original assignee: Ping An Puhui Enterprise Management Co Ltd
Current assignee: Ping An Puhui Enterprise Management Co Ltd
Priority date: 2018-02-26
Filing date: 2018-02-26
Publication date: 2018-08-24

Abstract

本发明属于计算机技术领域，尤其涉及一种审批模型训练方法、计算机可读存储介质及终端设备。所述方法从历史审批记录中选取预设数目的审批样本；对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本；将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵；计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵；使用所述简化后的审批样本矩阵对预设的审批模型进行训练。在保证精度的前提下，大大减小了对审批模型进行训练的复杂程度，节省了大量的训练时间。

Description

一种审批模型训练方法、计算机可读存储介质及终端设备

技术领域

本发明属于计算机技术领域，尤其涉及一种审批模型训练方法、计算机可读存储介质及终端设备。

背景技术

在进行各种审批的过程中，例如无抵押减免的审批过程中，往往是通过人工对各个审批维度上的信息进行综合考虑并确定最终的审批结果，审批效率低且容易受到人为因素干扰。

近些年来，神经网络技术在各个领域都有很广泛的应用，神经网络是由大量的、简单的处理单元广泛地互相连接而形成的复杂网络***，它反映了人脑功能的许多基本特征，是一个高度复杂的非线性动力学习***。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力，特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。

因此，使用神经网络技术来进行各种审批工作成为了一个较好的选择，但是在对神经网络模型进行训练时，如果该审批工作的审批维度较多，则会大大增加训练的复杂程度，耗费大量的训练时间。

发明内容

有鉴于此，本发明实施例提供了一种审批模型训练方法、计算机可读存储介质及终端设备，以解决当审批工作的审批维度较多时，会大大增加训练的复杂程度，耗费大量的训练时间的问题。

本发明实施例的第一方面提供了一种审批模型训练方法，可以包括：

从历史审批记录中选取预设数目的审批样本，所述审批样本包括审批结果为通过的正样本和审批结果为拒绝的负样本，且所述正样本的数目与所述负样本的数目之比在预设的比值范围内；

对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本；

将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵，其中，所述审批样本矩阵的任意一行数据均与一个数值化的审批样本对应；

计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；

对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵，所述简化后的审批样本矩阵中仅保留与所述主特征值对应的列；

使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型。

本发明实施例的第二方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如下步骤：

本发明实施例的第三方面提供了一种审批模型训练终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现如下步骤：

本发明实施例与现有技术相比存在的有益效果是：本发明实施例从历史审批记录中选取预设数目的审批样本；对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本；将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵；计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵；使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型。通过本发明，不是直接使用原始的审批样本对预设的审批模型进行训练，而是将数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵的特征值，从中选取预设数目的数值最大的特征值作为主特征值，只保留与主特征值对应的审批维度上的信息，而不保留其它审批维度上的信息，在最大程度保证训练结果精度的前提下，大大减小了对审批模型进行训练的复杂程度，节省了大量的训练时间。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例中一种审批模型训练方法的一个实施例流程图；

图2为审批样本矩阵与审批样本之间的对应关系图；

图3为简化后的审批样本矩阵与主特征值之间的对应关系图；

图4为本发明实施例中一种审批模型训练装置的一个实施例结构图；

图5为本发明实施例中一种审批模型训练终端设备的示意框图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，本发明实施例中一种审批模型训练方法的一个实施例可以包括：

步骤S101、从历史审批记录中选取预设数目的审批样本。

每个审批样本可以包括以下信息：人行征信信息、社保信息、公积金信息、学历信息、公安信息、职业信息、档案信息以及审批结果。其中，审批结果为审批模型的输出信息，其它信息为审批模型的输入信息。

所述审批样本包括审批结果为通过的正样本和审批结果为拒绝的负样本，且所述正样本的数目与所述负样本的数目之比在预设的比值范围内。

特殊地，在选取的审批样本中，可以保持正样本与负样本数目一致。例如，若共选取10000个审批样本，则其中正样本和负样本各5000个，以此保证训练结果的平衡性。

进一步地，可以对正样本按照审批结果的额度划分为若干个额度区间，各个额度区间的样本数保持一致。

具体地，先将审批额度进行归一化处理，将其转化为[0，1]区间内的取值，转化公式为：S′_n＝S_n/S_max，对于序号为n的某一样本，其审批额度为S_n，S_max为审批额度可取的最大数值，S′_n为归一化后的审批额度。特殊地，对于负样本，可以认为其审批额度为0。

对归一化后的审批额度，将其分为N个区间段，以N＝5为例，分别为(0，0.2]，(0.2，0.4]，(0.4，0.6]，(0.6，0.8]，(0.8，1]，若正样本共5000个，则每个区间段的样本为1000个。

经过上述过程，选取出了审批结果均衡分布的样本，保证了训练出的审批模型对于各个区间段的样本都是适用的。

步骤S102、对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本。

具体地，以审批样本中的人行征信信息为例，统计其中的不良记录次数，并设置不良记录的阈值，若超过该阈值，则人行征信信息数值化为1，若小于该阈值，则计算不良记录次数与该阈值的比值，将该比值作为数值化处理后的结果。特殊地，若不良记录次数为0，则人行征信信息数值化为0。

再以审批样本中的社保信息为例，统计其中的连续缴纳社保月数，以及当前总额，并设置月数阈值和总额阈值，若连续缴纳社保月数超过月数阈值，则社保信息的第一数值为1，若小于该阈值，则计算连续缴纳社保月数与该阈值的比值，将该比值作为第一数值，同理，根据当前总额和总额阈值计算社保信息的第二数值，最后求两者的平均值，作为社保信息数值化处理后的结果。

经过以上数值化处理，将所述审批样本在各个审批维度上的信息都转化为[0，1]区间内的取值，便于后续对审批模型进行训练。

步骤S103、将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵。

首先，可以将所述数值化的审批样本组成如下的审批样本矩阵：

如图2所示，所述审批样本矩阵的任意一行数据均与一个数值化的审批样本对应。

其中，X为所述审批样本矩阵，x_ij为第i个数值化的审批样本在第j个审批维度上的信息，1≤i≤n，1≤j≤p，n为所述数值化的审批样本的总数，p为所述审批维度的个数。

然后，根据下式计算所述审批样本矩阵的协方差矩阵：

其中，R为所述审批样本矩阵的协方差矩阵， 1≤a≤p，1≤b≤p。

步骤S104、计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；

首先，解特征方程|λI-R|＝0，求出特征值λ_a，其中，I为单位矩阵，1≤a≤p。

然后，根据下式计算各个特征值的贡献率：

其中，η_a为特征值λ_a的贡献率。

最后，将满足下列条件的数值最大的前m个特征值作为主特征值：

且

其中η_threshold为预设的贡献率阈值。

步骤S105、对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵。

所述简化后的审批样本矩阵可以表示为：

如图3所示，在所述简化后的审批样本矩阵中仅保留与所述主特征值对应的列，而删除了其它的列。

步骤S106、使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型。

具体地，首先使用所述简化后的审批样本矩阵对所述审批模型进行一轮训练，并根据下式计算本轮训练的全局误差：

其中，E_t为第t个训练样本的训练误差，z_t为第t个训练样本的训练输出值，c_t为第t个训练样本的理论输出值，所述第t个训练样本为所述简化后的审批样本矩阵的第t行数据，1≤t≤n。

若所述全局误差大于预设的误差阈值，则对所述审批模型进行调整，然后返回执行所述使用所述简化后的审批样本矩阵对所述审批模型进行一轮训练的步骤，直至所述全局误差小于所述误差阈值为止。

若所述全局误差小于所述误差阈值，则将当前的审批模型确定为所述训练好的审批模型。

在训练好所述审批模型后，则可使用该审批模型对待审批的申请进行审批。首先将待审批的申请进行数值化处理(同步骤S102中的内容，此处不再赘述)，然后输入到所述审批模型中，并得到输出值。若输出值为0，则拒绝该申请；若输出值不为0，则同意该申请，然后计算具体的额度，即用输出值乘以S_max，即可得到实际的审批额度。

综上所述，本发明实施例从历史审批记录中选取预设数目的审批样本；对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本；将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵；计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵；使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型。通过本发明，不是直接使用原始的审批样本对预设的审批模型进行训练，而是将数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵的特征值，从中选取预设数目的数值最大的特征值作为主特征值，只保留与主特征值对应的审批维度上的信息，而不保留其它审批维度上的信息，在最大程度保证训练结果精度的前提下，大大减小了对审批模型进行训练的复杂程度，节省了大量的训练时间。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

对应于上文实施例所述的一种审批模型训练方法，图4示出了本发明实施例提供的一种审批模型训练装置的一个实施例结构图。

本实施例中，一种审批模型训练装置可以包括：

审批样本选取模块401，用于从历史审批记录中选取预设数目的审批样本，所述审批样本包括审批结果为通过的正样本和审批结果为拒绝的负样本，且所述正样本的数目与所述负样本的数目之比在预设的比值范围内；

数值化处理模块402，用于对所述审批样本在各个审批维度上的信息进行数值化处理，得到数值化的审批样本；

协方差矩阵计算模块403，用于将所述数值化的审批样本组成审批样本矩阵，并计算所述审批样本矩阵的协方差矩阵，其中，所述审批样本矩阵的任意一行数据均与一个数值化的审批样本对应；

主特征值选取模块404，用于计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值；

简化处理模块405，用于对所述审批样本矩阵进行简化处理，得到简化后的审批样本矩阵，所述简化后的审批样本矩阵中仅保留与所述主特征值对应的列；

模型训练模块406，用于使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型。

进一步地，所述协方差矩阵计算模块可以包括：

样本矩阵组成单元，用于将所述数值化的审批样本组成如下的审批样本矩阵：

其中，X为所述审批样本矩阵，x_ij为第i个数值化的审批样本在第j个审批维度上的信息，1≤i≤n，1≤j≤p，n为所述数值化的审批样本的总数，p为所述审批维度的个数；

协方差矩阵计算单元，用于根据下式计算所述审批样本矩阵的协方差矩阵：

进一步地，所述主特征值提取模块可以包括：

特征值计算单元，用于解特征方程|λI-R|＝0，求出特征值λ_a，其中，I为单位矩阵，1≤a≤p；

贡献率计算单元，用于根据下式计算各个特征值的贡献率：

其中，ηa为特征值λ_a的贡献率；

主特征值选取单元，用于将满足下列条件的数值最大的前m个特征值作为主特征值：

且其中η_threshold为预设的贡献率阈值。

进一步地，所述模型训练模块可以包括：

全局误差计算单元，用于使用所述简化后的审批样本矩阵对所述审批模型进行一轮训练，并根据下式计算本轮训练的全局误差：

其中，E_t为第t个训练样本的训练误差，z_t为第t个训练样本的训练输出值，c_t为第t个训练样本的理论输出值，所述第t个训练样本为所述简化后的审批样本矩阵的第t行数据，1≤t≤n；

模型调整单元，用于若所述全局误差大于预设的误差阈值，则对所述审批模型进行调整；

模型确定单元，用于若所述全局误差小于所述误差阈值，则将当前的审批模型确定为所述训练好的审批模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置，模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

图5示出了本发明实施例提供的一种审批模型训练终端设备的示意框图，为了便于说明，仅示出了与本发明实施例相关的部分。

在本实施例中，所述审批模型训练终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。该审批模型训练终端设备5可包括：处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机可读指令52，例如执行上述的审批模型训练方法的计算机可读指令。所述处理器50执行所述计算机可读指令52时实现上述各个审批模型训练方法实施例中的步骤，例如图1所示的步骤S101至S106。或者，所述处理器50执行所述计算机可读指令52时实现上述各装置实施例中各模块/单元的功能，例如图4所示模块401至406的功能。

示例性的，所述计算机可读指令52可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器51中，并由所述处理器50执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令52在所述审批模型训练终端设备5中的执行过程。

所述处理器50可以是中央处理单元(Central Processing Unit，CPU)，还可以是其它通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述存储器51可以是所述审批模型训练终端设备5的内部存储单元，例如审批模型训练终端设备5的硬盘或内存。所述存储器51也可以是所述审批模型训练终端设备5的外部存储设备，例如所述审批模型训练终端设备5上配备的插接式硬盘，智能存储卡(SmartMedia Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器51还可以既包括所述审批模型训练终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机可读指令以及所述审批模型训练终端设备5所需的其它指令和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。

在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干计算机可读指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储计算机可读指令的介质。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种审批模型训练方法，其特征在于，包括：

2.根据权利要求1所述的审批模型训练方法，其特征在于，所述将所述数值化的审批样本组成审批样本矩阵包括：

将所述数值化的审批样本组成如下的审批样本矩阵：

3.根据权利要求2所述的审批模型训练方法，其特征在于，所述计算所述审批样本矩阵的协方差矩阵包括：

根据下式计算所述审批样本矩阵的协方差矩阵：

4.根据权利要求3所述的审批模型训练方法，其特征在于，所述计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值包括：

解特征方程|λI-R|＝0，求出特征值λ_a，其中，I为单位矩阵，1≤a≤p；

根据下式计算各个特征值的贡献率：

其中，η_a为特征值λ_a的贡献率；

将满足下列条件的数值最大的前m个特征值作为主特征值：

且其中η_threshold为预设的贡献率阈值。

5.根据权利要求1至4中任一项所述的审批模型训练方法，其特征在于，所述使用所述简化后的审批样本矩阵对预设的审批模型进行训练，得到训练好的审批模型包括：

使用所述简化后的审批样本矩阵对所述审批模型进行一轮训练，并根据下式计算本轮训练的全局误差：

若所述全局误差大于预设的误差阈值，则对所述审批模型进行调整，然后返回执行所述使用所述简化后的审批样本矩阵对所述审批模型进行一轮训练的步骤，直至所述全局误差小于所述误差阈值为止；

6.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现如权利要求1至5中任一项所述的审批模型训练方法的步骤。

7.一种审批模型训练终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令，其特征在于，所述处理器执行所述计算机可读指令时实现如下步骤：

8.根据权利要求7所述的审批模型训练终端设备，其特征在于，所述将所述数值化的审批样本组成审批样本矩阵包括：

将所述数值化的审批样本组成如下的审批样本矩阵：

9.根据权利要求8中所述的审批模型训练终端设备，其特征在于，所述计算所述审批样本矩阵的协方差矩阵包括：

根据下式计算所述审批样本矩阵的协方差矩阵：

10.根据权利要求9所述的审批模型训练终端设备，其特征在于，所述计算所述审批样本矩阵的协方差矩阵的特征值，并从所述特征值中选取预设数目的数值最大的特征值作为主特征值包括：

根据下式计算各个特征值的贡献率：

其中，η_a为特征值λ_a的贡献率；

将满足下列条件的数值最大的前m个特征值作为主特征值：

且其中η_threshold为预设的贡献率阈值。