CN112036476A

CN112036476A - 基于二分类业务的数据特征选择方法、装置及计算机设备

Info

Publication number: CN112036476A
Application number: CN202010888882.5A
Authority: CN
Inventors: 顾凌云; 谢旻旗; 段湾; 张涛; 潘峻; 汪仁杰
Original assignee: Shanghai IceKredit Inc
Current assignee: Shanghai IceKredit Inc
Priority date: 2020-08-28
Filing date: 2020-08-28
Publication date: 2020-12-04

Abstract

本发明实施例所提供的基于二分类业务的数据特征选择方法、装置及计算机设备，采用提取得到的初始特征组合对第一树模型进行训练并获取初始增益贡献值并从n个初始数据特征筛选出m个第一数据特征，确定第一数据特征对应的相关性系数以及特征iv值，基于相关性系数和特征iv值从m个第一数据特征中筛选出j个第二数据特征并对第二树模型进行训练以获取当前增益贡献值，根据当前增益贡献值和绘制的iv图从j个第二数据特征中筛选出k个第三数据特征。如此，能够将数据特征的增益贡献、特征间相关性和特征iv值考虑在内，从而快速高效地选择出数量少且具有不可替代性的数据特征，这样可以减少对树模型进行建模和训练的耗时并降低计算机的处理负荷。

Description

基于二分类业务的数据特征选择方法、装置及计算机设备

技术领域

本发明涉及数据分析技术领域，具体而言，涉及一种基于二分类业务的数据特征选择方法、装置及计算机设备。

背景技术

在二分类业务场景中，树模型的应用较为广泛。采用树模型对二分类业务进行处理，能够提高业务处理的效率和准确性。随着业务规模和业务数据量的增大，为了确保二分类识别的准确性和可靠性，需要对树模型进行建模和训练。在对树模型进行建模和训练时，需要以业务数据的数据特征为输入，然而常见的业务数据的数据特征提取方法会存在以下两个问题：

(1)基于提取的数据特征对树模型进行建模和训练的耗时较长；

(2)没有考虑数据特征之间的相关性，从而导致对树模型进行建模和训练的特征组合中包括了不少效果可替代的特征，导致数据特征数量较多，增加计算机的处理负荷。

发明内容

为了改善上述问题，本发明提供了一种基于二分类业务的数据特征选择方法、装置及计算机设备。

首先提供一种基于二分类业务的数据特征选择方法，所述数据特征选择方法应用于计算机设备，所述方法至少包括以下步骤：

获取带有二分类标签的目标业务数据，对所述目标业务数据进行特征提取得到所述目标业务数据对应的初始特征组合；其中，所述初始特征组合中包括所述目标业务数据对应的n个初始数据特征，n为正整数；

采用所述初始特征组合对第一树模型进行训练，并获取每个初始数据特征在所述第一树模型中的初始增益贡献值；根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征并组成第一特征组合；其中，m为小于n的正整数；

确定所述第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合；其中，j为小于m的正整数；

采用所述第二特征组合对第二树模型进行训练，并获取所述第二特征组合中的每个第二数据特征在所述第二树模型中的当前增益贡献值；绘制每个第二数据特征的iv图，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征并组成第三特征组合，将所述第三特征组合确定为所述目标业务数据的最终特征组合；其中，k为小于j的正整数。

进一步地，根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征，包括：

将大于设定阈值的初始增益贡献值对应的初始数据特征确定为所述第一数据特征。

将所述n个初始数据特征按照初始增益贡献值由大到小的顺序进行排序得到初始数据特征的排序序列；

从所述排序序列中选取前m个初始数据特征作为第一数据特征。

进一步地，确定所述第一特征组合中的第一数据特征之间的相关性系数，包括：

判断所述第一特征组合中的第一数据特征是否服从正态分布；

若所述第一特征组合中的第一数据特征服从所述正态分布，则确定所述第一特征组合中的第一数据特征之间的皮尔逊相关性系数；

若所述第一特征组合中的第一数据特征不服从所述正态分布，则确定所述第一特征组合中的第一数据特征之间的斯皮尔曼相关性系数。

进一步地，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征，包括：

初始化与所述第一特征组合相同的样本特征组合；其中，所述样本特征组合中包括m个第一数据特征；

对所述样本特征组合中的第一数据特征以及所述第一特征组合中的第一数据特征进行两两组合得到多个特征配对；

计算每个特征配对中的两个第一数据特征之间的目标相关性系数；

判断所述目标相关性系数是否大于设定相关性系数，若是，则确定所述样本特征组合中是否同时存在所述特征配对中的两个第一数据特征，若存在，则删除所述特征配对中的特征iv值较小的第一数据特征，保留所述特征配对中的特征iv值较大的第一数据特征；

将所述样本特征组合中所保留的j个第一数据特征确定为所述第二数据特征。

进一步地，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征，包括：

根据所述当前增益贡献值由大到小的顺序对每个iv图进行解析，得到解析结果；

若所述解析结果表征所述iv图对应的特征编码分组的正例占比与编码升降趋势之间呈现不一致分布，则将所述iv图对应的第二数据特征进行剔除，将保留的k个第二数据特征确定为k个第三数据特征。

进一步地，每个第一数据特征的特征iv值通过以下步骤确定：

提取每个第一数据特征的特征编码，将所述特征编码拆分为若干个编码组；

计算每个编码组内确定当前正例与全局正例的第一比例以及当前反例与全局反例的第二比例；

根据所述第一比例和所述第二比例确定每个第一数据特征的特征iv值。

其次提供一种基于二分类业务的数据特征选择装置，所述数据特征选择装置应用于计算机设备，所述装置至少包括以下功能模块：

特征提取模块，用于获取带有二分类标签的目标业务数据，对所述目标业务数据进行特征提取得到所述目标业务数据对应的初始特征组合；其中，所述初始特征组合中包括所述目标业务数据对应的n个初始数据特征，n为正整数；

第一选择模块，用于采用所述初始特征组合对第一树模型进行训练，并获取每个初始数据特征在所述第一树模型中的初始增益贡献值；根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征并组成第一特征组合；其中，m为小于n的正整数；

第二选择模块，用于确定所述第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合；其中，j为小于m的正整数；

第三选择模块，用于采用所述第二特征组合对第二树模型进行训练，并获取所述第二特征组合中的每个第二数据特征在所述第二树模型中的当前增益贡献值；绘制每个第二数据特征的iv图，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征并组成第三特征组合，将所述第三特征组合确定为所述目标业务数据的最终特征组合；其中，k为小于j的正整数。

然后提供一种计算机设备，包括处理器和存储器，所述处理器和所述存储器通信，所述处理器用于从所述存储器中调取计算机程序，并通过运行所述计算机程序以实现上述的数据特征选择方法。

最后提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序在运行时实现上述的数据特征选择方法。

本发明实施例所提供的基于二分类业务的数据特征选择方法、装置及计算机设备，首先对获取到的目标业务数据进行特征提取得到初始特征组合，其次采用初始特征组合对第一树模型进行训练并获取每个初始数据特征在第一树模型中的初始增益贡献值，根据初始增益贡献值从n个初始数据特征筛选出m个第一数据特征并组成第一特征组合，然后确定第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于相关性系数和特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合，最后采用第二特征组合对第二树模型进行训练，并获取每个第二数据特征在第二树模型中的当前增益贡献值，根据当前增益贡献值和绘制的iv图从j个第二数据特征中筛选出k个第三数据特征并组成目标业务数据的最终特征组合。如此，能够将数据特征的增益贡献、特征间相关性和特征iv值考虑在内，从而快速高效地选择出数量少且具有不可替代性的数据特征，这样可以减少对树模型进行建模和训练的耗时并降低计算机的处理负荷。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种基于二分类业务的数据特征选择方法的流程图。

图2为本发明实施例所提供的一种基于二分类业务的数据特征选择装置装置的框图。

图3为本发明实施例所提供的计算机设备的硬件结构示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本发明技术方案做详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明，而不是对本发明技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

发明人经调查和研究发现，常见的数据特征提取方法是递归特征增加法或者递归特征消除法。其中，以递归特征增加法为例，其步骤一般包括以下五个步骤。

(1)计算机从文本文件或者数据库获取带有二分类标签的数据，二分类标签一般又称为正例和反例，比如借贷数据中用1标签指代审核不通过不予放款，即正例，0标签指代审核通过可放款，即反例。并根据该数据获取全部的特征。

(2)计算机根据以上全部特征初始化一个特征组合。比如按照业务要求人为指定特征组合中必须包括的默认特征，当然初始化的组合也可以是空，即不包括任何特征。

(3)计算机设备按照一定顺序循环的往特征组合中添加新的特征，用新的特征组合建模。该顺序可以是计算机提前用全部特征建模得到的特征重要性顺序，也可以是人为指定的特征所属的类别顺序，比如住址、学历、收入等。

(4)循环过程中根据新特征组合建立的模型对数据预测的准确率、召回率、auc、ks等符合评估业务需求的指标来衡量该特征组合的建模效果。如果能够有一定的效果提升，那么就保留下该轮新增的特征，否则舍弃。

(5)直到扩充的特征组合中特征数量达到一定值，或者是扩充后的特征组合建模效果达到预期，或者所有的特征都被尝试过，其中数量和预期效果都是根据业务需求人为设定，就可以结束循环，并获得最佳的特征组合。

进一步地，递归特征消除法的原理和递归特征增加法的原理类似，只不过相较于后者是通过循环扩充特征组合的方法，前者是通过循环来进行特征组合的缩减，它一般会初始化一个包括全部特征的组合，然后按顺序不断的去除某些特征，直到特征组合中的特征数量合适或者建模效果不低于预期时就停止循环，得到最终的特征组合。

然而，递归特征消除法的原理和递归特征增加法都需要进行循环，而一般业务面对的数据体量大且特征多，本来单次建模就耗时长，循环建模消耗的时间会更多，因而速率低。此外，递归特征增加或者消除法一般都没考虑特征间的相关性，这就会导致特征组合中包括了不少效果可替代的特征，这些特征将对模型的贡献进行了均分，使得单特征不能发挥更好的效果，还会导致特征组合中的特征数量多，从而增加建模的成本和计算机的运算负荷。

为改善上述问题，本发明实施例提供了一种基于二分类业务的数据特征选择方法、装置及计算机设备，能够将数据特征的增益贡献、特征间相关性和特征iv值考虑在内，从而快速高效地选择出数量少且具有不可替代性的数据特征，这样可以减少对树模型进行建模和训练的耗时并降低计算机的处理负荷。

请首先参阅图1，为本发明实施例所提供的基于二分类业务的数据特征选择方法的流程图，所述方法应用于计算机设备，具体可以包括以下步骤S110-步骤S140所描述的内容。

步骤S110，获取带有二分类标签的目标业务数据，对所述目标业务数据进行特征提取得到所述目标业务数据对应的初始特征组合。

在本实施例中，所述初始特征组合中包括所述目标业务数据对应的n个初始数据特征，n为正整数。二分类标签一般又称为正例和反例，比如借贷数据中用1标签指代审核不通过不予放款，即正例，0标签指代审核通过可放款，即反例。

步骤S120，采用所述初始特征组合对第一树模型进行训练，并获取每个初始数据特征在所述第一树模型中的初始增益贡献值；根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征并组成第一特征组合。

在本实施例中，m为小于n的正整数。初始增益贡献值可以根据数据特征在整个树群作为***节点的信息增益之和再除以该数据特征出现的频次得到，是数据特征的重要性指标的其中一种，增益贡献越高则数据特征的重要性越大。

步骤S130，确定所述第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合。

在本实施例中，j为小于m的正整数，相关性系数是指两个数据特征变化趋势和方向的关联密切程度，衡量这种程度的统计指标一般是相关性系数，包括皮尔逊相关性系数和斯皮尔曼相关性系数等。如果两个数据特征间低的取值依次对应，高的取值依次对应，即高度正相关，那么在入模时这两个数据特征一定程度上可互相替代，如果同时入模，将会均分对建模的效果做出的贡献。

特征IV值用于对数据特征进行编码和预测能力的评估。将特征取值进行编码后分为t组，在每个组内计算当前正例yi占全局正例ys的比例以及当前组反例ni占全局反例ns的比例，然后基于预设公式计算得到。

此外，以分组编号为横轴，每个分组的数量和正例占比为双纵轴可以绘制出对应的iv图，iv图可以直观的表示数据特征随着取值的变化对应的正例占比趋势。

步骤S140，采用所述第二特征组合对第二树模型进行训练，并获取所述第二特征组合中的每个第二数据特征在所述第二树模型中的当前增益贡献值；绘制每个第二数据特征的iv图，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征并组成第三特征组合，将所述第三特征组合确定为所述目标业务数据的最终特征组合；其中，k为小于j的正整数。

可以理解，通过上述步骤S110-步骤S140所描述的内容，首先对获取到的目标业务数据进行特征提取得到初始特征组合，其次采用初始特征组合对第一树模型进行训练并获取每个初始数据特征在第一树模型中的初始增益贡献值，根据初始增益贡献值从n个初始数据特征筛选出m个第一数据特征并组成第一特征组合，然后确定第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于相关性系数和特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合，最后采用第二特征组合对第二树模型进行训练，并获取每个第二数据特征在第二树模型中的当前增益贡献值，根据当前增益贡献值和绘制的iv图从j个第二数据特征中筛选出k个第三数据特征并组成目标业务数据的最终特征组合。

如此，能够将数据特征的增益贡献、特征间相关性和特征iv值考虑在内，从而快速高效地选择出数量少且具有不可替代性的数据特征，这样可以减少对树模型进行建模和训练的耗时并降低计算机的处理负荷。

在一种可替换的实施方式中，步骤S120所描述的根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征，具体可以通过以下两种方式实现，当然，在具体实施时，并不限于以下两种方式。

第一种，将大于设定阈值的初始增益贡献值对应的初始数据特征确定为所述第一数据特征。

第二种，将所述n个初始数据特征按照初始增益贡献值由大到小的顺序进行排序得到初始数据特征的排序序列，从所述排序序列中选取前m个初始数据特征作为第一数据特征。

在本实施例中，设定阈值和m可以根据增益贡献的分布进行指定，比如可以认为增益贡献小于0.005的数据特征对于树模型的贡献不大，同时增益贡献大于0.005的数据特征数量在100左右，剩下的特征组合既没有丢掉太多重要特征，也达到了初筛不重要特征的程度，那么指定a为0.005，或者m为100都是合适的。在具体实施时并不做限定。

可以理解，通过上述内容，能够将数据特征的增益贡献考虑在内从而确保筛选得到的第一数据特征的增益贡献符合要求。

在一个可能的实施方式中，步骤S130所描述的确定所述第一特征组合中的第一数据特征之间的相关性系数，具体可以包括以下步骤S1311-步骤S1313所描述的内容。

步骤S1311，判断所述第一特征组合中的第一数据特征是否服从正态分布；若是，则转向步骤S1312，若否，则转向步骤S1313。

步骤S1312，确定所述第一特征组合中的第一数据特征之间的皮尔逊相关性系数。

步骤S1313，若所述第一特征组合中的第一数据特征不服从所述正态分布，则确定所述第一特征组合中的第一数据特征之间的斯皮尔曼相关性系数。

通过上述步骤S1311-步骤S1313，能够准确确定第一数据特征之间的相关性系数。

在上述步骤S1311-步骤S1313的基础上，步骤S130所描述的基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征，具体可以包括以下步骤S1321-步骤S1325所描述的内容。

步骤S1321，初始化与所述第一特征组合相同的样本特征组合；其中，所述样本特征组合中包括m个第一数据特征。

步骤S1322，对所述样本特征组合中的第一数据特征以及所述第一特征组合中的第一数据特征进行两两组合得到多个特征配对。

步骤S1323，计算每个特征配对中的两个第一数据特征之间的目标相关性系数。

步骤S1324，判断所述目标相关性系数是否大于设定相关性系数，若是，则确定所述样本特征组合中是否同时存在所述特征配对中的两个第一数据特征，若存在，则删除所述特征配对中的特征iv值较小的第一数据特征，保留所述特征配对中的特征iv值较大的第一数据特征。

步骤S1325，将所述样本特征组合中所保留的j个第一数据特征确定为所述第二数据特征。

在本实施例中，可以将第一特征组合定义为F1，将样本特征组合定义为F2，设定相关性系数定义为b，特征iv值列表定义为I，第一数据特征的相关性矩阵定义为C。

进一步地，上述步骤S1321-步骤S1325可以通过以下算法得到。

可以理解，通过上述步骤S1321-步骤S1325所描述的内容，能够将数据特征间的相关性考虑在内，在两个数据特征相关性较高时，仅保留iv值更好的特征。既削弱了最终入模数据特征间的相关性，又使得保留下来的数据特征区分效果更好，对建模的效果更有利。

在一个可能的实现方式中，步骤S140所描述的根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征，具体可以包括以下子步骤S141-步骤S142所描述的内容。

步骤S141，根据所述当前增益贡献值由大到小的顺序对每个iv图进行解析，得到解析结果。

步骤S142，若所述解析结果表征所述iv图对应的特征编码分组的正例占比与编码升降趋势之间呈现不一致分布，则将所述iv图对应的第二数据特征进行剔除，将保留的k个第二数据特征确定为k个第三数据特征。

可以理解，通过上述步骤S141-步骤S142，能够结合iv图进行筛查，从而精简了最终入模的数据特征的数量，进而简化了模型复杂度，降低了整体业务成本。

可选地，步骤S130中所描述的第一数据特征的特征iv值可以通过以下步骤确定：提取每个第一数据特征的特征编码，将所述特征编码拆分为若干个编码组；计算每个编码组内确定当前正例与全局正例的第一比例以及当前反例与全局反例的第二比例；根据所述第一比例和所述第二比例确定每个第一数据特征的特征iv值。如此，能够确保特征iv值的准确性。

基于上述同样的发明构思，请结合参阅图2，提供了基于二分类业务的数据特征选择装置200，所述数据特征选择装置200应用于计算机设备，所述装置至少包括以下功能模块：

特征提取模块210，用于获取带有二分类标签的目标业务数据，对所述目标业务数据进行特征提取得到所述目标业务数据对应的初始特征组合；其中，所述初始特征组合中包括所述目标业务数据对应的n个初始数据特征，n为正整数；

第一选择模块220，用于采用所述初始特征组合对第一树模型进行训练，并获取每个初始数据特征在所述第一树模型中的初始增益贡献值；根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征并组成第一特征组合；其中，m为小于n的正整数；

第二选择模块230，用于确定所述第一特征组合中的第一数据特征之间的相关性系数以及每个第一数据特征的特征iv值，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征并组成第二特征组合；其中，j为小于m的正整数；

第三选择模块240，用于采用所述第二特征组合对第二树模型进行训练，并获取所述第二特征组合中的每个第二数据特征在所述第二树模型中的当前增益贡献值；绘制每个第二数据特征的iv图，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征并组成第三特征组合，将所述第三特征组合确定为所述目标业务数据的最终特征组合；其中，k为小于j的正整数。

进一步地，请结合参阅图3，提供了一种计算机设备300，包括处理器310和存储器320，所述处理器310和所述存储器320通信，所述处理器310用于从所述存储器320中调取计算机程序，并通过运行所述计算机程序以实现上述的数据特征选择方法。

进一步地，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序在运行时实现上述的数据特征选择方法。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于二分类业务的数据特征选择方法，其特征在于，所述数据特征选择方法应用于计算机设备，所述方法至少包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征，包括：

3.根据权利要求1所述的方法，其特征在于，根据所述初始增益贡献值从所述n个初始数据特征筛选出m个第一数据特征，包括：

4.根据权利要求1所述的方法，其特征在于，确定所述第一特征组合中的第一数据特征之间的相关性系数，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述相关性系数和所述特征iv值从所述m个第一数据特征中筛选出j个第二数据特征，包括：

6.根据权利要求1所述的方法，其特征在于，根据所述当前增益贡献值和所述iv图从所述j个第二数据特征中筛选出k个第三数据特征，包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，每个第一数据特征的特征iv值通过以下步骤确定：

8.一种基于二分类业务的数据特征选择装置，其特征在于，所述数据特征选择装置应用于计算机设备，所述装置至少包括以下功能模块：

9.一种计算机设备，其特征在于，包括处理器和存储器，所述处理器和所述存储器通信，所述处理器用于从所述存储器中调取计算机程序，并通过运行所述计算机程序以实现上述权利要求1-7任一项所述的数据特征选择方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，所述计算机程序在运行时实现上述权利要求1-7任一项所述的数据特征选择方法。