CN110084376B - 对数据自动分箱的方法及装置 - Google Patents

对数据自动分箱的方法及装置 Download PDF

Info

Publication number
CN110084376B
CN110084376B CN201910362666.4A CN201910362666A CN110084376B CN 110084376 B CN110084376 B CN 110084376B CN 201910362666 A CN201910362666 A CN 201910362666A CN 110084376 B CN110084376 B CN 110084376B
Authority
CN
China
Prior art keywords
initial vector
function
function value
box
bringing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910362666.4A
Other languages
English (en)
Other versions
CN110084376A (zh
Inventor
李骥东
何智福
蓝科
覃进学
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Sefon Software Co Ltd
Original Assignee
Chengdu Sefon Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Sefon Software Co Ltd filed Critical Chengdu Sefon Software Co Ltd
Priority to CN201910362666.4A priority Critical patent/CN110084376B/zh
Publication of CN110084376A publication Critical patent/CN110084376A/zh
Application granted granted Critical
Publication of CN110084376B publication Critical patent/CN110084376B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computing Systems (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及数据处理技术领域,具体涉及一种对数据自动分箱的方法及装置,该方法具体包括:获取用户输入的基本特征数据以及分箱条件,将分箱条件带入预定义函数得到目标函数,根据分箱条件确定初始向量,将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值,当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的初始向量作为分割点,最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱,使得各个分箱之间的关联程度最低,进而便于对用户输入的数据进行客观评分操作。

Description

对数据自动分箱的方法及装置
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种对数据自动分箱的方法及装置。
背景技术
随着大数据、人工智能技术的发展和普及,越来越多的金融机构增加了对机器学习的重视程度,将传统基于人工决策的管理方法逐步转变为以数据驱动为基础的智能化决策。特别是在银行个人金融业务中,如***业务、消费金融业务等领域,因其单笔金额小、申请频率高、时效要求高等原因,导致使用传统人工审批的方式无法满足业务诉求。使用机器学习方法来进行风险管理,特别是基于逻辑回归的评分卡模型,因其易于解释、快速迭代、成熟稳定的特征,正逐渐被广大银行所采纳。在评分卡过程中,分箱是尤为重要的一个环节,分箱能够提高模型稳定性,提高计算性能,但是如何实现自动分箱,如何将分箱过程最优化一直是机器学习建模中的一个问题。
分箱的主要方法包括:等频分箱、等宽分箱、自动分箱等,其中,等频分箱主要是按数据占比进行分箱,如每10%数据作为一箱,等宽分箱主要是按特征最大最小值均分进行分箱,如年龄最大最小跨度为50,每10岁作为一箱,分为5箱,缺点在于弱化了特征取值不同对响应变量的影响。
自动分箱方法中目前广泛使用的包括基于决策树的自动化分箱、卡方分箱(Chi-merge),其中基于决策树的自动化分箱核心思想是基于熵及信息增益,确定使分割前后特征信息增益最大的点,通过不断对子节点进行***,实现自动分箱。卡方分箱核心思想是基于特征卡方值值对分类进行逐步合并,迭代达到终止条件。
以上两类自动分箱方法对迭代终止条件过于敏感,如树深度、最小箱容量等,容易造成过拟合问题,同时,两类自动分箱方法对约束条件支持能力有限(如某类数据必须为一箱,指定箱子区间等),无法完全满足实际建模过程中的分箱问题需求。
发明内容
本发明的目的在于提供一种对数据自动分箱的方法,以实现快速有效地将数据进行分箱,使得相邻两箱之间的关联度最低,以此达到自动分箱的效果。
为了实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种对数据自动分箱的方法,所述方法包括:获取用户输入的基本特征数据以及分箱条件;将所述分箱条件带入预定义函数得到目标函数;根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向;以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的调整后的初始向量作为分割点;依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。
第二方面,本发明实施例还提供了一种对数据自动分箱的装置,所述装置包括:收发模块,用于获取用户输入的基本特征数据以及分箱条件;处理模块,用于将所述分箱条件带入预定义函数得到目标函数;根据所述分箱条件确定初始变量,将所述初始变量带入所述目标函数,确定对所述基本特征数据的搜索方向;以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的调整后的初始向量作为分割点;依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱。
本发明实施例提供的一种对数据自动分箱的方法及装置,该方法具体包括:获取用户输入的基本特征数据以及分箱条件,将分箱条件带入预定义函数得到目标函数,根据分箱条件确定初始向量,将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值,当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的初始向量作为分割点,最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱,使得各个分箱之间的关联程度最低,进而便于对用户输入的数据进行客观评分操作。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例提供的一种对数据自动分箱的方法的流程示意图。
图2示出了本发明实施例提供的一种对数据自动分箱的装置的功能模块示意图。
图示:200-对数据自动分箱的装置;210-收发模块;220-处理模块。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在银行个人金融业务中,如***业务、消费金融业务等领域,因其单笔金额小、申请频率高,通过人工审核会带来较大的工作量。目前银行或金融机构大都通过评分卡模型对用户输入的各项基本数据进行评分,以通过评分结果决定是否为用户办理金融业务,该方法可快速提高银行个人金融业务的办理效率。而对数据进行分箱操作是评分卡模型中的一个重要环节,相当于分箱是将用户输入的数据分成多个小组,评分卡模型再依据一定的逻辑对各个小组的数据分别打分,最后得出评分结果。可见,通过分箱将数据分成关联程度尽可能低的小组,有利于后续评分卡模型对数据进行评分,进而最后得到的评分结果更为准确。本方案提供了一种对数据自动分箱的方法,通过本方案可实现对数据进行自动分箱,使得相邻两箱之间的关联度最低,以此达到较好的分箱效果。
请参照图1,是本发明实施例提供的一种对数据自动分箱的方法的流程示意图,该方法包括:
S110,获取用户输入的基本特征数据以及分箱条件。
具体为,该用户输入的基本特征数据包括用户的基本信息,如年龄、身高、体重、收入等。该分箱条件包括分箱数以及每箱中的数据比例,如分箱数为5个,每箱中的数据比例为10%,即将用户输入的基本特征数据分为5箱,且每箱中包含的数据不少于总数据的10%。
S120,将分箱条件带入预定义函数得到目标函数。
具体为,该分箱条件包括分箱数以及每箱中的数据比例,进而将分箱数和每箱中的数据比例带入预定义函数得到目标函数,该目标函数的表达方式为:
Figure BDA0002047304980000051
其中,其中,
Figure BDA0002047304980000052
表示最小化关联程度,s.t.表示约束条件,Ci(x)-m表示分箱个数约束条件,m表示分箱个数;Ci(x)-p表示每箱最小比例,其中Ci(x)表示x的约束条件函数。
为了求解以上过程,需要将非线性最优化过程简化为二次规划问题,进而需先对目标函数求解拉格朗日函数,再对拉格朗日函数函数进行二次近似求解得到二次规划问题。
第一个步骤对目标函数求解拉格朗日函数的方式为:
L(x)=f(x)+λG(x)+μS(x)
其中,L(x)表示拉格朗日函数,G(x)为分箱个数约束条件G(x)=Ci(x)-m,S(x)为每箱比例S(x)=Ci(x)-p,λ为拉格朗日因子,u为分箱比例因子。
第二个步骤对拉格朗日函数进行二次近似求解,可以求出原非线性优化的最优解,即二次规划问题,其计算方式为:
Figure BDA0002047304980000053
其中,
Figure BDA0002047304980000054
Hk表示第k次迭代的的Hessian矩阵(海森矩阵)即目标函数的二阶导数,xk表示x的某一具体取值,d表示变量搜索方向。
S130,根据分箱条件确定初始向量,将初始向量带入目标函数,确定对基本特征数据的搜索方向。
具体为,该分箱条件中包括分箱数,如用户输入的分箱数为5箱,则该初始向量xk可以定义为x1到x4,即将用户输入的基本特征数据切割4次,得到5组数据。进而将该确定的初始向量带入上述转化为二次规划问题的目标函数,以确定出对基本特征数据的搜索方向。具体确定方式为:
首先,对二次规划问题进行一阶求导得到梯度向量。
其计算方式为:
Figure BDA0002047304980000061
其中,gk表征梯度向量。
其次,对二次规划问题进行二阶求导得到海森矩阵。
由于海森矩阵计算过程需要对原函数在不同xk进行求导,为了减小计算量,当对基本特征数据的分箱数小于预定阈值(如100),将采用牛顿法求解海森矩阵的近似最优解,当对基本特征数据的分箱数大于预定阈值(如100),则采用BFGS算法求解海森矩阵的近似最优解。进而将海森矩阵的近似最优解作为对二次规划问题进行二阶求导的计算结果。
其中,采用牛顿法求解海森矩阵的近似最优解的方式为:
Figure BDA0002047304980000062
采用BFGS算法求解海森矩阵的近似最优解的方式为:
令yk=gk+1-gk,sk=xk+1-xk
迭代过程的海森矩阵可以使用Bk进行近似,即H≈B:
Bk+1=Bk+△Bk
其中,Bk为单位矩阵,即对角线为1的矩阵,△Bk表示Bk微分;
Figure BDA0002047304980000063
最后按照预定规则对梯度向量和海森矩阵进行计算得到方向向量,该方向向量表征对基本特征数据的搜索方向。
该计算方式为:
Figure BDA0002047304980000064
其中,Hk表征海森矩阵,gk表征梯度向量,dk表征方向向量,该方向向量即为对基本特征数据的搜索方向。
S140,以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值。
具体为,用户还将输入迭代步长以及迭代次数,该迭代步长使用αk表示,可设置1至1000步长,默认步长为1;该迭代次数使用k表示,可设置为大于1的任何迭代次数,默认值为10。进而以初始向量为基准点按照搜索方向对初始向量进行调整,如初始向量xk为x1至x4,则在其搜索方向上对初始向量中的每一个值都加上步长,再将该调整后的初始向量带入目标函数中得到对应的函数值。当计算得到的函数值与初始向量对应的函数值的差值符合条件,或达到迭代次数时,运算停止。
S150,当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的调整后的初始向量作为分割点。
具体为,将调整后的初始向量带入目标函数得到函数值,将该函数值称之为后一个函数值,将初始向量带入目标函数得到函数值,将该函数值称之为当前函数值,若后一个函数值与当前函数值的差值小于预设收敛精度,表明当前分组,组别之间的关联度最低,则后一个函数值对应的调整后的初始向量作为分割点。若此时,后一个函数值与当前函数值的差值大于预设收敛精度,则重新指定初始向量,即以αk+xk作为新的初始向量,(即将之前的初始向量加上一个步长作为新的初始向量),并将重新指定的初始向量重复上述算法确定搜索方向,以及重新比较带入目标函数计算得到的函数值,以重新确定分割点。
S160,依据确定的多个分割点对用户输入的基本特征数据进行分箱。
具体为,各个分割点对应于对基本特征数据进行分割的位置,进而可依据确定的多个分割点对用户输入的基本特征数据进行分箱,以得到符合用户输入的分箱数以及分箱比例的多组数据。该最终得到的多组数据之间关联度较低,便于评分卡模型基于该分组数据进行评分操作,提高了计算精度。
由此可见,本发明提供的一种对数据自动分箱的方法,用户仅需要输入基本特征数据、分箱条件、迭代步长以及迭代次数等基本数据和限制条件,即可通过设置的算法计算出最优的分割点以对基本特征数据完成分箱处理,便于后续模型基于分箱的数据进行评分操作。该方案有益效果主要有两方面:
1.弥补了传统等频、等宽方法未考虑变量取值对响应变量的影响,使用传统等频、等宽方法进行分箱时,忽视了特征区间差异,比如年龄与逾期关系中,跨度为20至50岁,采用等宽方法每5岁一箱,但是实际情况中往往在年轻时候逾期率较高。
2.弥补了传统自动分箱对预设参数敏感,造成过拟合的问题,采用SQP方法,用户仅需要设置步长及迭代次数,最优化IV过程由算法自动完成,降低了对建模人员经验的依赖。
请参照图2,是本发明实施例提供的一种对数据自动分箱的装置200的功能模块示意图,该装置包括收发模块210以及处理模块220。
收发模块210,用于获取用户输入的基本特征数据以及分箱条件。
在本发明实施例中,S110可以由收发模块210执行。
处理模块220,用于将分箱条件带入预定义函数得到目标函数;根据分箱条件确定初始变量,将初始变量带入目标函数,确定对基本特征数据的搜索方向;以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的调整后的初始向量作为分割点;依据确定的多个分割点对用户输入的基本特征数据进行分箱。
在本发明实施例中,S120~S160可以由处理模块220执行。
由于在对数据自动分箱的方法部分已经详细描述,在此不再赘述。
综上所述,本发明实施例提供的一种对数据自动分箱的方法及装置,该方法具体包括:获取用户输入的基本特征数据以及分箱条件,将分箱条件带入预定义函数得到目标函数,根据分箱条件确定初始向量,将初始向量带入目标函数确定对基本特征数据的搜索方向。进而以初始向量为基准点按照搜索方向对初始向量进行调整并带入目标函数得到对应的函数值,当后一个函数值与当前函数值的差值小于预设收敛精度,则确定后一个函数值对应的初始向量作为分割点,最后依据确定的多个分割点对用户输入的基本特征数据进行分箱。通过本方案可实现快速分箱,使得各个分箱之间的关联程度最低,进而便于对用户输入的数据进行客观评分操作。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种对数据自动分箱的方法,其特征在于,应用于金融业务领域,
所述方法包括:
获取用户输入的基本特征数据以及分箱条件,所述分箱条件包括分箱数以及每箱中的数据比例;所述基本特征数据包括用户的基本信息,
所述基本信息包括年龄、身高、体重和收入;
将所述分箱条件带入预定义函数得到目标函数,所述目标函数表达方式为
Figure FDA0003008604490000011
其中,
Figure FDA0003008604490000012
表示最小化关联程度,s.t.表示约束条件,Ci(x)-m表示分箱个数约束条件,m表示分箱个数,Ci(x)-p表示每箱最小比例,Ci(x)表示x的约束条件函数;
根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向;
以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值,所述函数值为后一个函数值;
当后一个函数值与当前函数值的差值小于预设收敛精度,则确定所述后一个函数值对应的调整后的初始向量作为分割点,所述当前函数值为将所述初始向量带入所述目标函数得到的函数值;
依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱,得到多组数据。
2.如权利要求1所述的方法,其特征在于,所述将所述分箱条件带入预定义函数得到目标函数之后包括步骤:
对所述目标函数求解拉格朗日函数;
对所述拉格朗日函数进行二次近似求解得到二次规划问题。
3.如权利要求2所述的方法,其特征在于,所述根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向的步骤包括:
根据所述分箱条件中包括的分箱数确定初始向量,并将所述初始向量带入所述二次规划问题;
对所述二次规划问题进行一阶求导得到梯度向量;
对所述二次规划问题进行二阶求导得到海森矩阵;
按照预定规则对所述梯度向量和海森矩阵进行计算得到方向向量,所述方向向量表征对所述基本特征数据的搜索方向。
4.如权利要求3所述的方法,其特征在于,所述对所述二次规划问题进行二阶求导得到海森矩阵的步骤包括:
当所述分箱数小于预定阈值,采用牛顿算法求解所述海森矩阵的近似最优解;
当所述分箱数大于预定阈值,采用BFGS算法求解所述海森矩阵的近似最优解。
5.如权利要求1所述的方法,其特征在于,所述以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值的步骤包括:
获取用户输入的迭代步长以及迭代次数;
依据所述迭代步长对所述初始向量进行调整并带入所述目标函数得到对应的函数值,并在所述迭代次数达到后,停止运算。
6.一种对数据自动分箱的装置,其特征在于,应用于金融业务领域,
所述装置包括:
收发模块,用于获取用户输入的基本特征数据以及分箱条件,所述分箱条件包括分箱数以及每箱中的数据比例;所述基本特征数据包括用户的基本信息,所述基本信息包括年龄、身高、体重和收入;
处理模块,用于将所述分箱条件带入预定义函数得到目标函数,所述目标函数表达方式为
Figure FDA0003008604490000031
其中,
Figure FDA0003008604490000032
表示最小化关联程度,s.t.表示约束条件,Ci(x)-m表示分箱个数约束条件,m表示分箱个数,Ci(x)-p表示每箱最小比例,Ci(x)表示x的约束条件函数;根据所述分箱条件确定初始向量,将所述初始向量带入所述目标函数,确定对所述基本特征数据的搜索方向;以所述初始向量为基准点按照所述搜索方向对所述初始向量进行调整并带入所述目标函数得到对应的函数值,所述函数值为后一个函数值;当后一个函数值与当前函数值的差值小于预设收敛精度,则确定所述后一个所述函数值对应的调整后的初始向量作为分割点,所述当前函数值为将所述初始向量带入所述目标函数得到的函数值;依据确定的多个所述分割点对用户输入的所述基本特征数据进行分箱,得到多组数据。
7.如权利要求6所述的装置,其特征在于,所述处理模块还用于:
对所述目标函数求解拉格朗日函数;
对所述拉格朗日函数进行二次近似求解得到二次规划问题。
8.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
根据所述分箱条件中包括的分箱数确定初始向量,并将所述初始向量带入所述二次规划问题;
对所述二次规划问题进行一阶求导得到梯度向量;
对所述二次规划问题进行二阶求导得到海森矩阵;
按照预定规则对所述梯度向量和海森矩阵进行计算得到方向向量,所述方向向量表征对所述基本特征数据的搜索方向。
9.如权利要求8所述的装置,其特征在于,所述处理模块具体用于:
当所述分箱数小于预定阈值,采用牛顿算法求解所述海森矩阵的近似最优解;
当所述分箱数大于预定阈值,采用BFGS算法求解所述海森矩阵的近似最优解。
10.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
获取用户输入的迭代步长以及迭代次数;
依据所述迭代步长对所述初始向量进行调整并带入所述目标函数得到对应的函数值,并在所述迭代次数达到后,停止运算。
CN201910362666.4A 2019-04-30 2019-04-30 对数据自动分箱的方法及装置 Active CN110084376B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910362666.4A CN110084376B (zh) 2019-04-30 2019-04-30 对数据自动分箱的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910362666.4A CN110084376B (zh) 2019-04-30 2019-04-30 对数据自动分箱的方法及装置

Publications (2)

Publication Number Publication Date
CN110084376A CN110084376A (zh) 2019-08-02
CN110084376B true CN110084376B (zh) 2021-05-14

Family

ID=67418143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910362666.4A Active CN110084376B (zh) 2019-04-30 2019-04-30 对数据自动分箱的方法及装置

Country Status (1)

Country Link
CN (1) CN110084376B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909085A (zh) * 2019-11-25 2020-03-24 深圳前海微众银行股份有限公司 数据处理方法、装置、设备及存储介质
CN112819034A (zh) * 2021-01-12 2021-05-18 平安科技(深圳)有限公司 数据分箱阈值计算方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106547758A (zh) * 2015-09-17 2017-03-29 阿里巴巴集团控股有限公司 一种数据分箱的方法和设备
CN107169511A (zh) * 2017-04-27 2017-09-15 华南理工大学 基于混合聚类集成选择策略的聚类集成方法
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN108984790A (zh) * 2018-07-31 2018-12-11 蜜小蜂智慧(北京)科技有限公司 一种数据分箱方法及装置
CN109063222A (zh) * 2018-11-04 2018-12-21 吉铁磊 一种基于大数据的自适应数据搜索方法
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050079508A1 (en) * 2003-10-10 2005-04-14 Judy Dering Constraints-based analysis of gene expression data
US8346783B2 (en) * 2009-12-11 2013-01-01 International Business Machines Corporation Method and system for merchandise hierarchy refinement by incorporation of product correlation
CN109598346A (zh) * 2017-09-30 2019-04-09 日本电气株式会社 用于估计观测变量之间的因果关系的方法、装置和***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106547758A (zh) * 2015-09-17 2017-03-29 阿里巴巴集团控股有限公司 一种数据分箱的方法和设备
CN107169511A (zh) * 2017-04-27 2017-09-15 华南理工大学 基于混合聚类集成选择策略的聚类集成方法
CN108399255A (zh) * 2018-03-06 2018-08-14 中国银行股份有限公司 一种分类数据挖掘模型的输入数据处理方法及装置
CN108984790A (zh) * 2018-07-31 2018-12-11 蜜小蜂智慧(北京)科技有限公司 一种数据分箱方法及装置
CN109063222A (zh) * 2018-11-04 2018-12-21 吉铁磊 一种基于大数据的自适应数据搜索方法
CN109636591A (zh) * 2018-12-28 2019-04-16 浙江工业大学 一种基于机器学习的信用评分卡开发方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Improved Ant Colony Optimization for One-Dimensional Bin Packing Problem with Precedence Constraints;Zeqiang Zhang et al;《 Third International Conference on Natural Computation (ICNC 2007)》;20071105;全文 *
SAS/OR:Rigorous constrained optimized binning for credit scoring;Ivan Oliveira et al;《Data Mining and Predictive Modeling》;20081231;全文 *
基于分箱统计的FCM算法及其在网络入侵检测中的应用;傅涛等;《计算机科学》;20081231;36-39 *
基于特征匹配与分箱技术的分布式网络入侵协同检测***研究及实现;王洁松;《中国硕士学位论文全文数据库信息科技辑》;20070615;I139-176 *

Also Published As

Publication number Publication date
CN110084376A (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN103336790A (zh) 基于Hadoop的邻域粗糙集快速属性约简方法
CN111754345B (zh) 一种基于改进随机森林的比特币地址分类方法
CN110175628A (zh) 一种基于自动搜索与知识蒸馏的神经网络剪枝的压缩算法
CN105373606A (zh) 一种改进c4.5决策树算法下的不平衡数据抽样方法
CN102567464A (zh) 基于扩展主题图的知识资源组织方法
CN113590698B (zh) 基于人工智能技术的数据资产分类建模与分级保护方法
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
CN103336791A (zh) 基于Hadoop的粗糙集快速属性约简方法
CN111967971A (zh) 银行客户数据处理方法及装置
CN110084376B (zh) 对数据自动分箱的方法及装置
CN102117411A (zh) 用于构建多级别分类模型的方法和***
CN109345007A (zh) 一种基于XGBoost特征选择的有利储层发育区预测方法
CN111815432A (zh) 金融服务风险预测方法及装置
CN112232944B (zh) 一种评分卡创建方法、装置和电子设备
CN111143685A (zh) 一种推荐***的构建方法及装置
CN110109902A (zh) 一种基于集成学***台推荐***
CN106407379A (zh) 一种基于Hadoop平台的电影推荐方法
CN106126727A (zh) 一种推荐***大数据处理方法
CN111275485A (zh) 基于大数据分析的电网客户等级划分方法、***、计算机设备及存储介质
CN109978023A (zh) 面向高维大数据分析的特征选择方法及计算机存储介质
CN106651461A (zh) 基于灰理论的电影个性化推荐方法
CN109977131A (zh) 一种房型匹配***
Zou et al. A multiobjective particle swarm optimization algorithm based on grid technique and multistrategy
Xu et al. An improved credit card users default prediction model based on RIPPER
CN109977977B (zh) 一种识别***的方法及对应装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant