CN110084376B

CN110084376B - 对数据自动分箱的方法及装置

Info

Publication number: CN110084376B
Application number: CN201910362666.4A
Authority: CN
Inventors: 李骥东; 何智福; 蓝科; 覃进学
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2021-05-14
Anticipated expiration: 2039-04-30
Also published as: CN110084376A

Abstract

本发明涉及数据处理技术领域，具体涉及一种对数据自动分箱的方法及装置，该方法具体包括：获取用户输入的基本特征数据以及分箱条件，将分箱条件带入预定义函数得到目标函数，根据分箱条件确定初始向量，将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值，当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的初始向量作为分割点，最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱，使得各个分箱之间的关联程度最低，进而便于对用户输入的数据进行客观评分操作。

Description

对数据自动分箱的方法及装置

技术领域

本发明涉及数据处理技术领域，具体而言，涉及一种对数据自动分箱的方法及装置。

背景技术

随着大数据、人工智能技术的发展和普及，越来越多的金融机构增加了对机器学习的重视程度，将传统基于人工决策的管理方法逐步转变为以数据驱动为基础的智能化决策。特别是在银行个人金融业务中，如***业务、消费金融业务等领域，因其单笔金额小、申请频率高、时效要求高等原因，导致使用传统人工审批的方式无法满足业务诉求。使用机器学习方法来进行风险管理，特别是基于逻辑回归的评分卡模型，因其易于解释、快速迭代、成熟稳定的特征，正逐渐被广大银行所采纳。在评分卡过程中，分箱是尤为重要的一个环节，分箱能够提高模型稳定性，提高计算性能，但是如何实现自动分箱，如何将分箱过程最优化一直是机器学习建模中的一个问题。

分箱的主要方法包括：等频分箱、等宽分箱、自动分箱等，其中，等频分箱主要是按数据占比进行分箱，如每10％数据作为一箱，等宽分箱主要是按特征最大最小值均分进行分箱，如年龄最大最小跨度为50，每10岁作为一箱，分为5箱，缺点在于弱化了特征取值不同对响应变量的影响。

自动分箱方法中目前广泛使用的包括基于决策树的自动化分箱、卡方分箱(Chi-merge)，其中基于决策树的自动化分箱核心思想是基于熵及信息增益，确定使分割前后特征信息增益最大的点，通过不断对子节点进行***，实现自动分箱。卡方分箱核心思想是基于特征卡方值值对分类进行逐步合并，迭代达到终止条件。

以上两类自动分箱方法对迭代终止条件过于敏感，如树深度、最小箱容量等，容易造成过拟合问题，同时，两类自动分箱方法对约束条件支持能力有限(如某类数据必须为一箱，指定箱子区间等)，无法完全满足实际建模过程中的分箱问题需求。

发明内容

本发明的目的在于提供一种对数据自动分箱的方法，以实现快速有效地将数据进行分箱，使得相邻两箱之间的关联度最低，以此达到自动分箱的效果。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种对数据自动分箱的方法，所述方法包括：获取用户输入的基本特征数据以及分箱条件；将所述分箱条件带入预定义函数得到目标函数；根据所述分箱条件确定初始向量，将所述初始向量带入所述目标函数，确定对所述基本特征数据的搜索方向；以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值；当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的调整后的初始向量作为分割点；依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。

第二方面，本发明实施例还提供了一种对数据自动分箱的装置，所述装置包括：收发模块，用于获取用户输入的基本特征数据以及分箱条件；处理模块，用于将所述分箱条件带入预定义函数得到目标函数；根据所述分箱条件确定初始变量，将所述初始变量带入所述目标函数，确定对所述基本特征数据的搜索方向；以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值；当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的调整后的初始向量作为分割点；依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。

本发明实施例提供的一种对数据自动分箱的方法及装置，该方法具体包括：获取用户输入的基本特征数据以及分箱条件，将分箱条件带入预定义函数得到目标函数，根据分箱条件确定初始向量，将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值，当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的初始向量作为分割点，最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱，使得各个分箱之间的关联程度最低，进而便于对用户输入的数据进行客观评分操作。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例提供的一种对数据自动分箱的方法的流程示意图。

图2示出了本发明实施例提供的一种对数据自动分箱的装置的功能模块示意图。

图示：200-对数据自动分箱的装置；210-收发模块；220-处理模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本发明的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在银行个人金融业务中，如***业务、消费金融业务等领域，因其单笔金额小、申请频率高，通过人工审核会带来较大的工作量。目前银行或金融机构大都通过评分卡模型对用户输入的各项基本数据进行评分，以通过评分结果决定是否为用户办理金融业务，该方法可快速提高银行个人金融业务的办理效率。而对数据进行分箱操作是评分卡模型中的一个重要环节，相当于分箱是将用户输入的数据分成多个小组，评分卡模型再依据一定的逻辑对各个小组的数据分别打分，最后得出评分结果。可见，通过分箱将数据分成关联程度尽可能低的小组，有利于后续评分卡模型对数据进行评分，进而最后得到的评分结果更为准确。本方案提供了一种对数据自动分箱的方法，通过本方案可实现对数据进行自动分箱，使得相邻两箱之间的关联度最低，以此达到较好的分箱效果。

请参照图1，是本发明实施例提供的一种对数据自动分箱的方法的流程示意图，该方法包括：

S110，获取用户输入的基本特征数据以及分箱条件。

具体为，该用户输入的基本特征数据包括用户的基本信息，如年龄、身高、体重、收入等。该分箱条件包括分箱数以及每箱中的数据比例，如分箱数为5个，每箱中的数据比例为10％，即将用户输入的基本特征数据分为5箱，且每箱中包含的数据不少于总数据的10％。

S120，将分箱条件带入预定义函数得到目标函数。

具体为，该分箱条件包括分箱数以及每箱中的数据比例，进而将分箱数和每箱中的数据比例带入预定义函数得到目标函数，该目标函数的表达方式为：

其中，其中，

表示最小化关联程度，s.t.表示约束条件，C_i(x)-m表示分箱个数约束条件，m表示分箱个数；C_i(x)-p表示每箱最小比例，其中C_i(x)表示x的约束条件函数。

为了求解以上过程，需要将非线性最优化过程简化为二次规划问题，进而需先对目标函数求解拉格朗日函数，再对拉格朗日函数函数进行二次近似求解得到二次规划问题。

第一个步骤对目标函数求解拉格朗日函数的方式为：

L(x)＝f(x)+λG(x)+μS(x)

其中，L(x)表示拉格朗日函数，G(x)为分箱个数约束条件G(x)＝C_i(x)-m，S(x)为每箱比例S(x)＝C_i(x)-p，λ为拉格朗日因子，u为分箱比例因子。

第二个步骤对拉格朗日函数进行二次近似求解，可以求出原非线性优化的最优解，即二次规划问题，其计算方式为：

其中，

Hk表示第k次迭代的的Hessian矩阵(海森矩阵)即目标函数的二阶导数，x_k表示x的某一具体取值，d表示变量搜索方向。

S130，根据分箱条件确定初始向量，将初始向量带入目标函数，确定对基本特征数据的搜索方向。

具体为，该分箱条件中包括分箱数，如用户输入的分箱数为5箱，则该初始向量x_k可以定义为x1到x4，即将用户输入的基本特征数据切割4次，得到5组数据。进而将该确定的初始向量带入上述转化为二次规划问题的目标函数，以确定出对基本特征数据的搜索方向。具体确定方式为：

首先，对二次规划问题进行一阶求导得到梯度向量。

其计算方式为：

其中，g_k表征梯度向量。

其次，对二次规划问题进行二阶求导得到海森矩阵。

由于海森矩阵计算过程需要对原函数在不同x_k进行求导，为了减小计算量，当对基本特征数据的分箱数小于预定阈值(如100)，将采用牛顿法求解海森矩阵的近似最优解，当对基本特征数据的分箱数大于预定阈值(如100)，则采用BFGS算法求解海森矩阵的近似最优解。进而将海森矩阵的近似最优解作为对二次规划问题进行二阶求导的计算结果。

其中，采用牛顿法求解海森矩阵的近似最优解的方式为：

采用BFGS算法求解海森矩阵的近似最优解的方式为：

令y_k＝g_k+1-g_k,s_k＝x_k+1-x_k；

迭代过程的海森矩阵可以使用Bk进行近似，即H≈B：

B_k+1＝B_k+△B_k

其中，Bk为单位矩阵，即对角线为1的矩阵，△B_k表示Bk微分；

最后按照预定规则对梯度向量和海森矩阵进行计算得到方向向量，该方向向量表征对基本特征数据的搜索方向。

该计算方式为：

其中，H_k表征海森矩阵，g_k表征梯度向量，d_k表征方向向量，该方向向量即为对基本特征数据的搜索方向。

S140，以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值。

具体为，用户还将输入迭代步长以及迭代次数，该迭代步长使用α_k表示，可设置1至1000步长，默认步长为1；该迭代次数使用k表示，可设置为大于1的任何迭代次数，默认值为10。进而以初始向量为基准点按照搜索方向对初始向量进行调整，如初始向量x_k为x1至x4，则在其搜索方向上对初始向量中的每一个值都加上步长，再将该调整后的初始向量带入目标函数中得到对应的函数值。当计算得到的函数值与初始向量对应的函数值的差值符合条件，或达到迭代次数时，运算停止。

S150，当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的调整后的初始向量作为分割点。

具体为，将调整后的初始向量带入目标函数得到函数值，将该函数值称之为后一个函数值，将初始向量带入目标函数得到函数值，将该函数值称之为当前函数值，若后一个函数值与当前函数值的差值小于预设收敛精度，表明当前分组，组别之间的关联度最低，则后一个函数值对应的调整后的初始向量作为分割点。若此时，后一个函数值与当前函数值的差值大于预设收敛精度，则重新指定初始向量，即以α_k+x_k作为新的初始向量，(即将之前的初始向量加上一个步长作为新的初始向量)，并将重新指定的初始向量重复上述算法确定搜索方向，以及重新比较带入目标函数计算得到的函数值，以重新确定分割点。

S160，依据确定的多个分割点对用户输入的基本特征数据进行分箱。

具体为，各个分割点对应于对基本特征数据进行分割的位置，进而可依据确定的多个分割点对用户输入的基本特征数据进行分箱，以得到符合用户输入的分箱数以及分箱比例的多组数据。该最终得到的多组数据之间关联度较低，便于评分卡模型基于该分组数据进行评分操作，提高了计算精度。

由此可见，本发明提供的一种对数据自动分箱的方法，用户仅需要输入基本特征数据、分箱条件、迭代步长以及迭代次数等基本数据和限制条件，即可通过设置的算法计算出最优的分割点以对基本特征数据完成分箱处理，便于后续模型基于分箱的数据进行评分操作。该方案有益效果主要有两方面：

1.弥补了传统等频、等宽方法未考虑变量取值对响应变量的影响，使用传统等频、等宽方法进行分箱时，忽视了特征区间差异，比如年龄与逾期关系中，跨度为20至50岁，采用等宽方法每5岁一箱，但是实际情况中往往在年轻时候逾期率较高。

2.弥补了传统自动分箱对预设参数敏感，造成过拟合的问题，采用SQP方法，用户仅需要设置步长及迭代次数，最优化IV过程由算法自动完成，降低了对建模人员经验的依赖。

请参照图2，是本发明实施例提供的一种对数据自动分箱的装置200的功能模块示意图，该装置包括收发模块210以及处理模块220。

收发模块210，用于获取用户输入的基本特征数据以及分箱条件。

在本发明实施例中，S110可以由收发模块210执行。

处理模块220，用于将分箱条件带入预定义函数得到目标函数；根据分箱条件确定初始变量，将初始变量带入目标函数，确定对基本特征数据的搜索方向；以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值；当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的调整后的初始向量作为分割点；依据确定的多个分割点对用户输入的基本特征数据进行分箱。

在本发明实施例中，S120～S160可以由处理模块220执行。

由于在对数据自动分箱的方法部分已经详细描述，在此不再赘述。

综上所述，本发明实施例提供的一种对数据自动分箱的方法及装置，该方法具体包括：获取用户输入的基本特征数据以及分箱条件，将分箱条件带入预定义函数得到目标函数，根据分箱条件确定初始向量，将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值，当后一个函数值与当前函数值的差值小于预设收敛精度，则确定后一个函数值对应的初始向量作为分割点，最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱，使得各个分箱之间的关联程度最低，进而便于对用户输入的数据进行客观评分操作。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种对数据自动分箱的方法，其特征在于，应用于金融业务领域，

所述方法包括：

获取用户输入的基本特征数据以及分箱条件，所述分箱条件包括分箱数以及每箱中的数据比例；所述基本特征数据包括用户的基本信息，

所述基本信息包括年龄、身高、体重和收入；

将所述分箱条件带入预定义函数得到目标函数，所述目标函数表达方式为

其中，

表示最小化关联程度，s.t.表示约束条件，C_i(x)-m表示分箱个数约束条件，m表示分箱个数，C_i(x)-p表示每箱最小比例，C_i(x)表示x的约束条件函数；

根据所述分箱条件确定初始向量，将所述初始向量带入所述目标函数，确定对所述基本特征数据的搜索方向；

以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值，所述函数值为后一个函数值；

当后一个函数值与当前函数值的差值小于预设收敛精度，则确定所述后一个函数值对应的调整后的初始向量作为分割点，所述当前函数值为将所述初始向量带入所述目标函数得到的函数值；

依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱，得到多组数据。

2.如权利要求1所述的方法，其特征在于，所述将所述分箱条件带入预定义函数得到目标函数之后包括步骤：

对所述目标函数求解拉格朗日函数；

对所述拉格朗日函数进行二次近似求解得到二次规划问题。

3.如权利要求2所述的方法，其特征在于，所述根据所述分箱条件确定初始向量，将所述初始向量带入所述目标函数，确定对所述基本特征数据的搜索方向的步骤包括：

根据所述分箱条件中包括的分箱数确定初始向量，并将所述初始向量带入所述二次规划问题；

对所述二次规划问题进行一阶求导得到梯度向量；

对所述二次规划问题进行二阶求导得到海森矩阵；

按照预定规则对所述梯度向量和海森矩阵进行计算得到方向向量，所述方向向量表征对所述基本特征数据的搜索方向。

4.如权利要求3所述的方法，其特征在于，所述对所述二次规划问题进行二阶求导得到海森矩阵的步骤包括：

当所述分箱数小于预定阈值，采用牛顿算法求解所述海森矩阵的近似最优解；

当所述分箱数大于预定阈值，采用BFGS算法求解所述海森矩阵的近似最优解。

5.如权利要求1所述的方法，其特征在于，所述以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值的步骤包括：

获取用户输入的迭代步长以及迭代次数；

依据所述迭代步长对所述初始向量进行调整并带入所述目标函数得到对应的函数值，并在所述迭代次数达到后，停止运算。

6.一种对数据自动分箱的装置，其特征在于，应用于金融业务领域，

所述装置包括：

收发模块，用于获取用户输入的基本特征数据以及分箱条件，所述分箱条件包括分箱数以及每箱中的数据比例；所述基本特征数据包括用户的基本信息，所述基本信息包括年龄、身高、体重和收入；

处理模块，用于将所述分箱条件带入预定义函数得到目标函数，所述目标函数表达方式为

其中，

表示最小化关联程度，s.t.表示约束条件，C_i(x)-m表示分箱个数约束条件，m表示分箱个数，C_i(x)-p表示每箱最小比例，C_i(x)表示x的约束条件函数；根据所述分箱条件确定初始向量，将所述初始向量带入所述目标函数，确定对所述基本特征数据的搜索方向；以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值，所述函数值为后一个函数值；当后一个函数值与当前函数值的差值小于预设收敛精度，则确定所述后一个所述函数值对应的调整后的初始向量作为分割点，所述当前函数值为将所述初始向量带入所述目标函数得到的函数值；依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱，得到多组数据。

7.如权利要求6所述的装置，其特征在于，所述处理模块还用于：

对所述目标函数求解拉格朗日函数；

对所述拉格朗日函数进行二次近似求解得到二次规划问题。

8.如权利要求7所述的装置，其特征在于，所述处理模块具体用于:

对所述二次规划问题进行一阶求导得到梯度向量；

对所述二次规划问题进行二阶求导得到海森矩阵；

9.如权利要求8所述的装置，其特征在于，所述处理模块具体用于：

10.如权利要求6所述的装置，其特征在于，所述处理模块具体用于：

获取用户输入的迭代步长以及迭代次数；