CN113554184A

CN113554184A - 一种模型训练方法、装置、电子设备及存储介质

Info

Publication number: CN113554184A
Application number: CN202110831496.7A
Authority: CN
Inventors: 李晓晓; 刘慈文
Original assignee: Shanghai Xiaotu Network Technology Co ltd
Current assignee: Shanghai Xiaotu Network Technology Co ltd
Priority date: 2021-07-22
Filing date: 2021-07-22
Publication date: 2021-10-26

Abstract

本申请提供了一种模型训练方法、装置、电子设备及存储介质，属于机器学习技术领域。本申请通过获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。从而减少训练目标模型的数据量，提高目标模型的训练效率。

Description

一种模型训练方法、装置、电子设备及存储介质

技术领域

本申请涉及机器学习技术领域，尤其涉及一种模型训练方法、装置、电子设备及存储介质。

背景技术

风控是信贷领域的核心内容，风控模型是以数据为依据，对贷款人资质和风险水平的预测，对控制信贷风险有极其重要的作用。随着机器学习和深度学习的不断发展，机器学习及深度学习逐渐应用在风控模型的构建中。

目前，构建风控模型时，为了保证模型预测依据的可靠性，通常利用多个数据源的数据训练风控模型，每个数据源对应不同的业务含义，有的来自平台自身，有的来自数据供应商。其过程为：将多个数据源的数据统一收集到一起，然后将所有数据作为训练数据对模型进行训练，从而避免某一个数据源的数据起绝对主导作用，且多数据源的训练数据做支撑能增加模型的可靠性和稳定性。

然而，基于多个数据源的所有数据去训练模型，模型最终会包含多个数据源的所有数据。当某一个数据源变化时，通常要移除模型中使用的该数据源的全部数据，然后利用剩余的数据重新训练模型，或添加其他数据源的数据和剩余的数据一起重新训练模型，因此，模型的训练效率比较低，模型的迭代周期也比较长。

发明内容

本申请实施例的目的在于提供一种模型训练方法、装置、电子设备及存储介质，以解决基于多个数据源的所有数据去训练模型，模型的训练效率比较低的问题。具体技术方案如下：

第一方面，提供了一种模型训练方法，所述方法包括：

获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；

针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；

利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。

在一个可能的实施方式中，所述预测模型包括：至少两个预测子模型；

所述将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，包括：

针对每个预测子模型，将所述数据源的目标数据输入至所述预测子模型，得到预测子数据，得到至少两个所述预测子数据，所述预测子模型是预先通过所述样本数据及所述样本标签训练得到的；

基于至少两个所述预测子数据确定所述数据源对应的预测数据。

在一个可能的实施方式中，所述预测子数据包括至少两个类别；

所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：

针对每个类别，在至少两个所述预测子数据中，确定所述类别对应的预测子数据的数量；

将至少两个所述类别对应的预测子数据的数量按照由多到少的顺序进行排序；

将排序在首位的类别对应的预测子数据作为预测数据。

在一个可能的实施方式中，所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：

针对每个预测子模型，确定所述预测子模型对应的第一评分数据，所述第一评分数据用于表征所述预测子模型的预测效果；

基于所述第一评分数据确定所述预测子模型对应的第一权重信息；

基于所述第一权重信息确定所述预测子模型输出所述预测子数据的概率，将概率最高的预测子数据确定为所述数据源对应的预测数据。

确定至少两个所述预测子数据的均值，将所述均值作为所述数据源对应的预测数据。

在一个可能的实施方式中，所述方法还包括：

确定至少两个目标子模型，所述目标子模型是通过至少两个所述预测数据和所述目标标签训练得到的；

利用预设集成方式将至少两个所述目标子模型结合，得到集成模型，将所述集成模型作为所述目标模型。

第二方面，提供了一种模型训练装置，所述装置包括：

获取模块，用于获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；

输入模块，用于针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；

训练模块，用于利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。

所述输入模块，具体用于：

在一个可能的实施方式中，所述预测子数据包括至少两个类别；所述输入模块，还用于：

将排序在首位的类别对应的预测子数据作为预测数据。

在一个可能的实施方式中，所述输入模块，还用于：

在一个可能的实施方式中，所述装置还包括：

确定模块，用于确定至少两个目标子模型，所述目标子模型是通过至少两个所述预测数据和所述目标标签训练得到的；

结合模块，用于利用预设集成方式将至少两个所述目标子模型结合，得到集成模型，将所述集成模型作为所述目标模型。

第三方面，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的方法步骤。

第四方面，提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的模型训练方法。

本申请实施例有益效果：

本申请实施例提供了一种模型训练方法、装置、电子设备及存储介质，本申请通过，首先，获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；然后，针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；最后，利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。

即，利用预测模型预测得到每个数据源对应的预测数据，然后利用每个数据源对应的预测数据及目标标签训练目标模型，无需利用每个数据源的所有目标数据训练目标模型，从而减少了训练目标模型的数据量，提高了目标模型的训练效率。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种模型训练方法的流程图；

图2为本申请另一实施例提供的一种模型训练方法的流程图；

图3为本申请实施例提供的一种模型训练装置的结构示意图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于目前，构建风控模型时，是基于多个数据源的所有数据去训练模型，模型最终会包含多个数据源的所有数据。当某一个数据源变化时，通常要移除模型中使用的该数据源的全部数据，然后利用剩余的数据重新训练模型，或添加其他数据源的数据和剩余的数据一起重新训练模型，因此，模型的训练效率比较低，模型的迭代周期也比较长。为此，本申请实施例提供了一种模型训练方法，可以应用于风控模型的构建。

S101，获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签。

在本申请实施例提供的模型训练方法，可以应用于信贷领域的风控模型的构建中，当前信贷领域应用的数据源比较多，如：用户基本信息(例如用户的年龄信息和性别信息等)、共贷行为数据等，每个数据源对应不同的业务含义，有的来自信贷平台***，有的来自不同的数据供应商。

目标对象可以是信贷平台的用户，目标数据指目标对象对应的每个数据源中的数据，目标标签指目标数据对应的标签，例如用户的逾期情况。

S102，针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的。

在本申请实施例中，预测模型是预先通过与之对应的数据源的样本数据和样本标签训练得到的，因此，得到每个数据源对应的预测模型。训练预测模型时，可以从逻辑回归、Xgboost、LigthGBM、随机森林、神经网络等算法中选择其中一种算法来训练预测模型。预测数据可以是对用户逾期情况的预测分数。样本数据可以是信贷平台的用户对应的各个数据源的数据，样本标签可以是该用户对应的标签。

针对每个数据源，将该数据源的目标数据输入至与该数据源对应的预测模型，则预测模型可以输出与所述数据源对应的预测数据，得到每个数据源对应的预测数据。

示例性的，当前目标对象对应C1，C2，C3三个数据源，C1中包含目标数据x1，x2，……x300，C2数据源中包含目标数据x301，x302，……x800，C3数据源包含目标数据x801，x802，……x1500，目标对象的目标标签为y(目标对象的逾期天数)；其中，目标数据可以看作是数据源对应的自变量，目标标签可以看作是数据源对应的因变量，三个矩阵由各数据源的自变量和因变量构成，则三个数据源对应的独立的矩阵为：R(x1，x2，……x300，y)，R(x301，x302，……x800，y)，R(x801，x802，……x1500，y)。

针对C1，将R(x1，x2，……x300，y)输入至对应的预测模型，得到预测数据Prob1；针对C2，将R(x301，x302，……x800，y)输入至对应的预测模型，得到预测数据Prob2；针对C3，将R(x801，x802，……x1500，y)输入至对应的预测模型，得到预测数据Prob3。

S103，利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。

在本申请实施例中，得到每个数据源对应的预测数据后，利用每个数据源对应的预测数据及目标标签训练目标模型，直至目标模型收敛。例如，C1，C2，C3三个数据源对应的预测数据分别为Prob1，Prob2，Prob3，则利用三个预测数据和目标标签生成新的矩阵R(Prob1,Prob2，Prob3，y)，利用R(Prob1,Prob2，Prob3，y)训练目标模型。

本申请实施例中，利用预测模型预测得到每个数据源对应的预测数据，然后利用每个数据源对应的预测数据及目标标签训练目标模型，无需利用每个数据源的所有目标数据训练目标模型，从而减少了训练目标模型的数据量，提高了目标模型的训练效率。

在本申请又一实施例中，所述S102，可以包括以下步骤：

S201，针对每个预测子模型，将所述数据源的目标数据输入至所述预测子模型，得到预测子数据，得到至少两个所述预测子数据，所述预测子模型是预先通过所述样本数据及所述样本标签训练得到的。

S202，基于至少两个所述预测子数据确定所述数据源对应的预测数据。

在本申请实施例中，利用样本数据和样本标签训练得到预测模型后，可以利用准确率、精确率、召回率、F1-score、交叉报告、混淆矩阵、ROC/AUC及KS等指标评估预测模型的效果，当预测模型预测能力极弱时，可以从逻辑回归、Xgboost、LigthGBM、随机森林、神经网络等这几种模型算法中选择多种模型算法，形成多个分类器，使用集成学***均法(Averaging)、投票法(Voting)或堆叠法(Stacking)，得到集成模型作为预测模型，从而提升预测模型的预测效果。

当预测模型是集成模型时，其包括至少两个预测子模型，预测子模型是预先通过样本数据及样本标签训练得到的，针对每个预测子模型，将该数据源的目标数据输入至该预测子模型，得到预测子数据，从而得到每个预测子模型对应的预测子数据，进而可以根据每个预测子模型对应的预测子数据确定该数据源对应的预测数据。

本申请实施例中，针对每个预测子模型，将所述数据源的目标数据输入至所述预测子模型，得到预测子数据，得到至少两个所述预测子数据；然后，基于至少两个所述预测子数据确定所述数据源对应的预测数据。通过本方案，可以利用集成模型确定预测数据，从而提升预测结果。

在本申请又一实施例中，所述预测子数据包括至少两个类别；所述S202，可以包括以下步骤：

步骤一，针对每个类别，在至少两个所述预测子数据中，确定所述类别对应的预测子数据的数量。

在本申请实施例中，预测子数据包括至少两个类别，例如对用户是否会逾期的预测时，预测子数据可以为“是”或“否”，则预测子数据包括两个类别，一个类别对应“是”，另一个类别对应“否”。在得到的至少两个预测子数据中，确定每个类别对应的预测子数据的数量。

步骤二，将至少两个所述类别对应的预测子数据的数量按照由多到少的顺序进行排序。

在本申请实施例中，得到每个类别对应的预测子数据的数量后，将所有类别按照其对应的预测子数据的数量由多到少的顺序进行排序。

步骤三，将排序在首位的类别对应的预测子数据作为预测数据。

在本申请实施例中，将排序在首位的类别对应的预测子数据作为预测数据，即，将对应预测子数据的数量最多的类别所对应的预测子数据作为预测数据。例如攻击8个预测子数据，其中7个为“是”，1个为“否”，则确定预测数据为“是”。本申请实施例中，可以将对应预测子数据的数量最多的类别所对应的预测子数据作为预测数据，即，预测数据是通过多个预测子模型集成得到的结果，因此，预测结果更加准确。

在本申请又一实施例中，所述S202，可以包括以下步骤：

步骤一，针对每个预测子模型，确定所述预测子模型对应的第一评分数据，所述第一评分数据用于表征所述预测子模型的预测效果。

步骤二，基于所述第一评分数据确定所述预测子模型对应的第一权重信息。

步骤三，基于所述第一权重信息确定所述预测子模型输出所述预测子数据的概率，将概率最高的预测子数据确定为所述数据源对应的预测数据。

在本申请实施例中，第一评分数据用于表征所述预测子模型的预测效果。针对每个预测子模型，可以利用准确率、精确率、召回率、F1-score、交叉报告、混淆矩阵、ROC/AUC及KS等指标评估预测子模型的预测效果。得到每个预测子模型对应的第一评分数据后，根据该第一评分数据确定每个预测子模型对应的第一权重信息，优选地，第一评分数据越大，其对应的第一权重信息越大。最后，基于每个预测子模型对应的预测子数据及其对应的第一权重信息，确定每个预测子数据出现的概率，将出现概率最高的预测子数据作为该数据源对应的预测数据。

例如，共有两个预测子模型，预测子模型输出的预测子数据有两种“是”和“否”，第一预测子模型和第二预测子模型，其中第一预测子模型对应的第一权重信息为0.6，第二预测子模型对应的第一权重信息为0.4，第一预测子模型输出“是”的概率为0.7，输出“否”的概率为0.3，第二预测子模型输出“是”的概率为0.8，输出“否”的概率为0.2，则结合权重信息得到预测模型得到“是”的概率为：0.7*0.6+0.8*0.6＝0.9，得到“否”的概率为：0.3*0.4+0.2*0.4＝0.2；因此该数据源对应的预测数据为“是”。

本申请实施例中，可以基于每个预测子模型对应的第一评分数据确定所述预测子模型对应的第一权重信息；然后，基于所述第一权重信息确定所述预测子模型输出所述预测子数据的概率，并将概率最高的预测子数据确定为所述数据源对应的预测数据。即，预测数据是通过多个预测子模型集成得到的结果，因此，预测结果更加准确。

在本申请又一实施例中，所述S202，可以包括以下步骤：

在本申请实施例中，当预测子数据为数值时，例如预测用户的逾期概率，可以确定所有预测子数据的均值，将均值作为数据源对应的预测数据。即，预测数据是通过多个预测子数据集成得到的结果，因此，预测结果更加准确。

由于利用单一算法模型训练得到的目标模型，其预测效果有可能比较弱(可以利用准确率、精确率、召回率、F1-score、交叉报告、混淆矩阵、ROC/AUC及KS等指标评估目标模型的预测能力)，为此，在本申请又一实施例中，所述方法还可以包括以下步骤：

步骤一，确定至少两个目标子模型，所述目标子模型是通过至少两个所述预测数据和所述目标标签训练得到的。

步骤二，利用预设集成方式将至少两个所述目标子模型结合，得到集成模型，将所述集成模型作为所述目标模型。

在本申请实施例中，目标子模型可以是逻辑回归、Xgboost、LigthGBM、随机森林、神经网络等这几种模型中的一种。预设集成方式即集成学***均法(Averaging)、投票法(Voting)或堆叠法(Stacking)。每种子模型即为一个分类器，使用任一集成学习的方法，得到集成模型，并将该集成模型作为目标模型，从而提升目标模型的预测效果。

基于相同的技术构思，本申请实施例还提供了一种模型训练装置，如图3所示，该装置包括：

获取模块301，用于获取目标对象对应的至少两个数据源的目标数据及所述目标对象的目标标签；

输入模块302，用于针对每个数据源，将所述数据源的目标数据输入至与所述数据源对应的预测模型，以使所述预测模型输出与所述数据源对应的预测数据，得到至少两个所述预测数据，所述预测模型是预先通过所述数据源的样本数据和样本标签训练得到的；

训练模块303，用于利用至少两个所述预测数据和所述目标标签训练目标模型，直至所述目标模型收敛。

所述输入模块，具体用于：

将排序在首位的类别对应的预测子数据作为预测数据。

在一个可能的实施方式中，所述输入模块，还用于：

在一个可能的实施方式中，所述装置还包括：

基于相同的技术构思，本申请实施例还提供了一种电子设备，如图4所示，包括处理器111、通信接口112、存储器113和通信总线114，其中，处理器111，通信接口112，存储器113通过通信总线114完成相互间的通信，

存储器113，用于存放计算机程序；

处理器111，用于执行存储器113上所存放的程序时，实现如下步骤：

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一模型训练方法的步骤。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一模型训练方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述预测模型包括：至少两个预测子模型；

3.根据权利要求2所述的方法，其特征在于，所述预测子数据包括至少两个类别；

将排序在首位的类别对应的预测子数据作为预测数据。

4.根据权利要求2所述的方法，其特征在于，所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于至少两个所述预测子数据确定所述数据源对应的预测数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

7.一种模型训练装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述预测模型包括：至少两个预测子模型；

所述输入模块，具体用于：

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。