WO2018166113A1

WO2018166113A1 - 随机森林模型训练的方法、电子装置及存储介质

Info

Publication number: WO2018166113A1
Application number: PCT/CN2017/091362
Authority: WO
Inventors: 金戈; 徐亮; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2017-03-13
Filing date: 2017-06-30
Publication date: 2018-09-20
Also published as: AU2017404119A1; SG11201809890PA; US20210081847A1; EP3413212A4; JP6587330B2; CN107632995B; EP3413212A1; KR102201919B1; JP2019513246A; KR20190022431A; CN107632995A; AU2017404119A9

Abstract

一种随机森林模型训练的方法、电子装置及存储介质，所述随机森林模型训练的方法包括：模型训练控制***分析模型训练的条件是否已满足（S1）；若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练（S2）；若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练（S3）；若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练（S4）。该方法能够减少随机森林模型训练的次数，减轻***负担并提高***效能。

Description

随机森林模型训练的方法、电子装置及存储介质

优先权申明

本申请基于巴黎公约申明享有2017年3月13日递交的申请号为CN201710147698.3、名称为“随机森林模型训练的方法及模型训练控制***”中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本发明涉及机器学习技术领域，尤其涉及一种随机森林模型训练的方法、电子装置及存储介质。

背景技术

在机器学习中，随机森林是利用多棵树对样本数据进行训练并预测的一种分类器，是一个包含多个决策树的分类器，决策树是通过一系列规则对数据进行分类的过程。目前越来越多的提供在线业务(例如，远程投保、远程理赔、在线理财等业务)的企业在业务***中采用随机森林对用户进行分类标签识别，进而根据识别结果对用户进行精准的业务推荐和办理。

然而，当有新的数据可供做样本数据进行迭代训练以提升模型识别的精确性时，现有的技术方案是同时使用旧的样本数据及新的样本数据重新对随机森林模型进行重构性训练，重构性训练指的是需要改变随机森林模型中决策树结构的训练。这种训练方案通常是一旦有新的样本数据就执行一次重构性训练，训练次数多，特别是在线业务的数据变动频繁的情况下，训练过于频繁，***负担过重，影响在线业务***的效能及在线业务的有效开展。

发明内容

本发明的目的在于提供一种随机森林模型训练的方法、电子装置及介质，旨在减少随机森林模型训练的次数，减轻***负担并提高***效能。

本发明第一方面提供一种随机森林模型训练的方法，所述随机森林模型训练的方法包括：

S1，模型训练控制***分析模型训练的条件是否已满足；

S2，若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

S3，若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

S4，若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。

本发明第二方面提供一种电子装置，包括处理设备、存储设备及模型训练控制***，该模型训练控制***存储于该存储设备中，包括至少一个计算机可读指令，该至少一个计算机可读指令可被所述处理设备执行，以实现以下操作：

S1，模型训练控制***分析模型训练的条件是否已满足；

本发明第三方面提供一种计算机可读存储介质，其上存储有至少一个可被处理设备执行以实现以下操作的计算机可读指令：

S1，模型训练控制***分析模型训练的条件是否已满足；

本发明的有益效果是：本发明在使用随机森林模型对在线业务的用户进行分类时，可以设定或限制随机森林模型进行训练的条件，在不影响在线业务的开展的同时减少模型训练的次数，并且可以进一步选择模型训练的类型，即在满足模型训练条件时，进一步确认当前对随机森林模型是进行重构性训练还是进行修正性训练，通过对随机森林模型进行选择性的训练，可以大大减轻***的负担，提高在线业务***的效能，并有利于在线业务的有效开展。

附图说明

图1为本发明随机森林模型训练的方法较佳实施例的应用环境示意图；

图2为本发明随机森林模型训练的方法较佳实施例的流程示意图；

图3为图2所示步骤S4的细化流程示意图；

图4为本发明模型训练控制***较佳实施例的结构示意图；

图5为图4所示第二训练模块的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

参阅图1所示，是本发明实现随机森林模型训练的方法的较佳实施例的应用环境示意图。该应用环境示意图包括电子装置1及终端设备2。电子装置1可以通过网络、近场通信技术等适合的技术与终端设备2进行数据交互。

终端设备2包括，但不限于，任何一种可与用户通过键盘、鼠标、遥控器、触摸板或者声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant，PDA)，游戏机、交互式网络电视(Internet Protocol Television,IPTV)、智能式穿戴设备等。

电子装置1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。电子装置1可以是计算机、也可以是单个网络服务器、多个网络服务器组成的服务器组或者基于云计算的由大量主机或者网络服务器构成的云，其中云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。

在本实施例中，电子装置1包括，但不仅限于，可通过***总线相互通信连接的存储设备11、处理设备12、及网络接口13。需要指出的是，图1仅示出了具有组件11-13的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

其中，存储设备11包括内存及至少一种类型的可读存储介质。内存为电子装置1的运行提供缓存；可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，可读存储介质可以是电子装置1的内部存储单元，例如该电子装置1的硬盘；在另一些实施例中，该非易失性存储介质也可以是电子装置1的外部存储设备，例如电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。本实施例中，存储设备11的可读存储介质通常用于存储安装于电子装置1的操作***和各类应用软件，例如本申请较佳实施例中的模型训练控制***10的程序代码等。此外，存储设备11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理设备12在一些实施例中可以包括一个或者多个微处理器、微控制器、数字处理器等。该处理设备12通常用于控制电子装置1的运行，例如执行与终端设备2进行数据交互或者通信相关的控制和处理等。在本实施例中，处理设备12用于运行存储设备11中存储的程序代码或者处理数据，例如运行模型训练控制***10等。

网络接口13可包括无线网络接口或有线网络接口，该网络接口13通常用于在电子装置1与其他电子设备之间建立通信连接。本实施例中，网络接口13主要用于将电子装置1与一个或多个终端设备2相连，在电子装置1与一个或多个终端设备2之间建立数据传输通道和通信连接。

模型训练控制***10包括至少一个存储在存储设备11中的计算机可读指令，该至少一个计算机可读指令可被处理设备12执行，以实现本申请各实施例的随机森林模型训练的方法。如后续所述，该至少一个计算机可读指令依据其各部分所实现的功能不同，可被划为不同的逻辑模块。

在一实施例中，模型训练控制***10被处理设备12执行时，实现以下操作：模型训练控制***分析模型训练的条件是否已满足；若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。

如图2所示，图2为本发明随机森林模型训练的方法较佳实施例的流程示意图，本实施例随机森林模型训练的方法并不限于流程中所示的步骤，此外流程图中所示步骤中，某些步骤可以省略、步骤之间的顺序可以改变。该随机森林模型训练的方法包括以下步骤：

步骤S1，模型训练控制***分析模型训练的条件是否已满足；

模型训练包括重构性训练及修正性训练。模型训练的条件在模型训练控制***上进行设定，可以由人工进行灵活设定或者采用模型训练控制系中预设的默认条件。

其中，对于在线业务，模型训练的条件以用户业务数据为判断基准(例如用户业务数据达到一定数量时进行模型训练)，或者以实际需要为基准(例如，模型训练控制***的工作人员会根据实际需求向模型训练控制***发送进行模型训练的指令，以进行模型训练)，或者由定时器进行定时，在一次模型训练结束后，每隔预定时间对随机森林模型进行模型训练，等等。

优选地，分析模型训练的条件是否已满足包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量(例如第一数量为200个用户的业务数据的数量)，若所述第一数量大于第一预设阈值，则模型训练的条件已满足(可以进行重构性训练或者修正性训练)，若第一数量小于等于第一预设阈值，则模型训练的条件不满足(不进行重构性训练及者修正性训练)；或者

实时或定时(例如每隔10分钟)检测是否接收到模型训练指令，例如：由模型训练控制***的工作人员登录***，在进入模型训练的操作界面后，通过点击或触发模型训练的操作界面上的“模型训练”按钮，进而发出模型训练指令，在模型训练控制***接收到模型训练指令时，模型训练的条件已满足(可以进行重构性训练或者修正性训练)，如果没有接收到模型训练指令，则模型训练的条件不满足(不进行重构性训练及者修正性训练)。

步骤S2，若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

如果模型训练的条件已满足，则进一步确定是对随机森林模型进行重构性训练还是进行修正性训练。其中，确定是否需要对随机森林模型进行重构性训练可以以两次进行重构性训练之间的用户业务数据的数量为基准(例如两次进行重构性训练之间的用户业务数据的数量大于一定数量时进行重构性训练)，或者以实际需要为基准(例如，模型训练控制***的工作人员会根据实际需求向模型训练控制***发送进行重构性训练的指令，以进行重构性训练)等待。

优选地，确定是否需要对随机森林模型进行重构性训练包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量(例如第二数量为500个用户的业务数据的数量)，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练，如果第二数量大于第一预设阈值且小于第二阈值，则对随机森林模型进行修正性训练；或者

向预定的终端(例如手机、平板电脑、计算机等适用的电子终端)发送是否需要对所述随机森林模型进行重构性训练的询问请求，例如：在进入模型训练的操作界面并发出“模型训练”的指令后，模型训练控制***会进一步向预定的终端发送询问其是否进行重构性训练的信息，若接收到终端基于询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练，若接收到终端基于询问请求反馈的否定的指令或者在预定的时间(例如3分钟)内未收到终端的反馈，则对随机森林模型进行修正性训练。

步骤S3，若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

步骤S4，若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。

本实施例中，样本数据数据包括旧的样本数据及新增的样本数据。重构性训练包括随机森林模型的变量的确定性训练和变量系数的确定性训练，修正性训练仅包括随机森林模型的变量系数的确定性训练。其中，随机森林模型的变量例如包括算法的类型、决策树的数量、决策树的最大深度及决策树的叶子节点的各种数据等等。重构性训练所使用的***资源较修正性训练所使用的***资源要多。

与现有技术相比，本实施例在使用随机森林模型对在线业务的用户进行分类时，可以设定或限制随机森林模型进行训练的条件，在不影响在线业务的开展的同时减少模型训练的次数，并且可以进一步选择模型训练的类型，即在满足模型训练条件时，进一步确认当前对随机森林模型是进行重构性训练还是进行修正性训练，通过对随机森林模型进行选择性的训练，可以大大减轻***的负担，提高在线业务***的效能，并有利于在线业务的有效开展。

在一优选的实施例中，如图3所示，在上述图2的实施例的基础上，上述步骤S4包括：

S41，根据预定的随机森林模型的变量与变量系数取值范围的映射关系，确定各个所述变量对应的变量系数取值范围；

S42，对各个所述变量在对应的变量系数取值范围中进行变量系数取值，根据取值后的变量系数对所述随机森林模型进行修正性训练。

本实施例中，可以将随机森林模型的变量与变量系数取值范围预先进行关联映射，并将其关联映射关系进行存储(例如以列表的形式进行存储)。在对随机森林模型进行训练前，在确定随机森林模型的变量后，获取所存储的关联映射关系以进一步获取对应的变量系数的取值范围，然后该变量的变量系数仅仅在所获取的取值范围内进行取值，以保证模型训练的准确性同时，有效提升模型训练的速度，避免随机森林模型的各个变量的系数从全数值域范围进行取值训练。

请参阅图4，图4是本发明模型训练控制***10较佳实施例的功能模块图。在本实施例中，模型训练控制***10可以被分割成一个或多个模块，一个或者多个模块被存储于存储器中，并由一个或多个处理器所执行，以完成本发明。例如，在图4，模型训练控制***10可以被分割成侦测模块21、识别模块22、复制模块23、安装模块24及启动模块25。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，比程序更适合于描述模型训练控制***10在电子装置中的执行过程，其中：

分析模块101，用于分析模型训练的条件是否已满足；

模型训练包括重构性训练及修正性训练。模型训练的条件在模型训练控制***10上进行设定，可以由人工进行灵活设定或者采用模型训练控制系中预设的默认条件。

优选地，分析模块10具体用于获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量(例如第一数量为200个用户的业务数据的数量)，若所述第一数量大于第一预设阈值，则模型训练的条件已满足(可以进行重构性训练或者修正性训练)，若第一数量小于等于第一预设阈值，则模型训练的条件不满足(不进行重构性训练及者修正性训练)；或者

确定模块102，用于若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

优选地，确定模块102具体用于获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量(例如第二数量为500个用户的业务数据的数量)，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练，如果第二数量大于第一预设阈值且小于第二阈值，则对随机森林模型进行修正性训练；或者

第一训练模块103，用于若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

第二训练模块104，用于若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。

在一优选的实施例中，如图5所示，在上述图4的实施例的基础上，上述第二训练模块104包括：

确定单元1041，用于根据预定的随机森林模型的变量与变量系数取值范围的映射关系，确定各个所述变量对应的变量系数取值范围；

训练单元1042，用于对各个所述变量在对应的变量系数取值范围中进行变量系数取值，根据取值后的变量系数对所述随机森林模型进行修正性训练。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种随机森林模型训练的方法，其特征在于，所述随机森林模型训练的方法包括：

S1，模型训练控制***分析模型训练的条件是否已满足；

S2，若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

S3，若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

S4，若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。
根据权利要求1所述的随机森林模型训练的方法，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求1所述的随机森林模型训练的方法，其特征在于，所述步骤S2包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练；或者

向预定的终端发送是否需要对所述随机森林模型进行重构性训练的询问请求，若接收到所述终端基于所述询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练。
根据权利要求1所述的随机森林模型训练的方法，其特征在于，所述重构性训练包括所述随机森林模型的变量的确定性训练和变量系数的确定性训练，所述修正性训练包括所述随机森林模型的变量系数的确定性训练。
根据权利要求4所述的随机森林模型训练的方法，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求4所述的随机森林模型训练的方法，其特征在于，所述步骤S2包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练；或者

向预定的终端发送是否需要对所述随机森林模型进行重构性训练的询问请求，若接收到所述终端基于所述询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练。
根据权利要求4所述的随机森林模型训练的方法，其特征在于，所述步骤S4包括：

S41，根据预定的随机森林模型的变量与变量系数取值范围的映射关系，确定各个所述变量对应的变量系数取值范围；

S42，对各个所述变量在对应的变量系数取值范围中进行变量系数取值，根据取值后的变量系数对所述随机森林模型进行修正性训练。
一种电子装置，其特征在于，包括处理设备、存储设备及模型训练控制***，该模型训练控制***存储于该存储设备中，包括至少一个计算机可读指令，该至少一个计算机可读指令可被所述处理设备执行，以实现以下操作：

S1，模型训练控制***分析模型训练的条件是否已满足；

S2，若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

S3，若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

S4，若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。
根据权利要求8所述的电子装置，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求8所述的电子装置，其特征在于，所述步骤S2包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练；或者

向预定的终端发送是否需要对所述随机森林模型进行重构性训练的询问请求，若接收到所述终端基于所述询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练。
根据权利要求8所述的电子装置，其特征在于，所述重构性训练包括所述随机森林模型的变量的确定性训练和变量系数的确定性训练，所述修正性训练包括所述随机森林模型的变量系数的确定性训练。
根据权利要求11所述的电子装置，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求11所述的电子装置，其特征在于，所述步骤S2包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练；或者

向预定的终端发送是否需要对所述随机森林模型进行重构性训练的询问请求，若接收到所述终端基于所述询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练。
根据权利要求11所述的电子装置，其特征在于，所述步骤S4包括：

S41，根据预定的随机森林模型的变量与变量系数取值范围的映射关系，确定各个所述变量对应的变量系数取值范围；

S42，对各个所述变量在对应的变量系数取值范围中进行变量系数取值，根据取值后的变量系数对所述随机森林模型进行修正性训练。
一种计算机可读存储介质，其特征在于，其上存储有至少一个可被处理设备执行以实现以下操作的计算机可读指令：

S1，模型训练控制***分析模型训练的条件是否已满足；

S2，若模型训练的条件已满足，则确定是否需要对随机森林模型进行重构性训练；

S3，若需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行重构性训练；

S4，若不需要对所述随机森林模型进行重构性训练，则利用样本数据对所述随机森林模型进行修正性训练。
根据权利要求15所述的存储介质，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求15所述的存储介质，其特征在于，所述步骤S2包括：

获取业务***中前一次重构性训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第二数量，若所述第二数量大于第二预设阈值，则确定需要对所述随机森林模型进行重构性训练；或者

向预定的终端发送是否需要对所述随机森林模型进行重构性训练的询问请求，若接收到所述终端基于所述询问请求反馈的确认指令，则确定需要对所述随机森林模型进行重构性训练。
根据权利要求15所述的存储介质，其特征在于，所述重构性训练包括所述随机森林模型的变量的确定性训练和变量系数的确定性训练，所述修正性训练包括所述随机森林模型的变量系数的确定性训练。
根据权利要求18所述的存储介质，其特征在于，所述步骤S1包括：

获取业务***中前一次模型训练结束的时刻至当前时刻的时间段内新增的用户业务数据的第一数量，若所述第一数量大于第一预设阈值，则模型训练的条件已满足；或者

实时或定时检测是否接收到模型训练指令，若接收到模型训练指令，则模型训练的条件已满足。
根据权利要求18所述的存储介质，其特征在于，所述步骤S4包括：

S41，根据预定的随机森林模型的变量与变量系数取值范围的映射关系，确定各个所述变量对应的变量系数取值范围；

S42，对各个所述变量在对应的变量系数取值范围中进行变量系数取值，根据取值后的变量系数对所述随机森林模型进行修正性训练。