CN113919510A - 一种样本特征选择方法、装置、设备及介质 - Google Patents

一种样本特征选择方法、装置、设备及介质 Download PDF

Info

Publication number
CN113919510A
CN113919510A CN202111281688.1A CN202111281688A CN113919510A CN 113919510 A CN113919510 A CN 113919510A CN 202111281688 A CN202111281688 A CN 202111281688A CN 113919510 A CN113919510 A CN 113919510A
Authority
CN
China
Prior art keywords
sample
feature
detection result
characteristic
sample feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111281688.1A
Other languages
English (en)
Inventor
周玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bochi Information Technology Co ltd
Original Assignee
Shanghai Bochi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bochi Information Technology Co ltd filed Critical Shanghai Bochi Information Technology Co ltd
Priority to CN202111281688.1A priority Critical patent/CN113919510A/zh
Publication of CN113919510A publication Critical patent/CN113919510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种样本特征选择方法、装置、设备及介质,应用于人工智能技术领域,用以解决现有技术中的样本特征选择方法存在样本特征选择的准确性较差的问题。具体为:获取各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,并基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选取目标样本特征。这样,通过从信息量、单调性、稳定性、重要性和相关性各方面,综合评估样本特征的可选性,不仅可以缓解关键样本特征丢失的问题,还可以提升样本特征选择的准确性。

Description

一种样本特征选择方法、装置、设备及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种样本特征选择方法、装置、设备及介质。
背景技术
近年来,基于人工智能的机器学习、深度学习等技术的应用越来越广泛,尤其是利用机器学习、深度学习等技术进行建模,被广泛应用于信贷风控、云服务、活体检测、图像检索、行为识别、机器人导航与定位等领域。
实际应用中,建模过程即为模型训练过程,为了使模型训练效果达到最优,在模型训练之前,通常需要从各维度的样本特征中选择用于模型训练的样本特征,由于选择出来的样本特征会作为模型输入参与模型训练和使用,因此,样本特征的选择对模型训练和使用的最终效果有直接决定性的影响,然而,目前的样本特征选择方法所选择出来的样本特征不是很准确,从而导致模型训练和使用的最终效果不是很理想。
发明内容
本申请实施例提供了一种样本特征选择方法、装置、设备及介质,用以解决现有技术存在的由于样本特征选择的准确性较差,导致模型训练和使用的效果不是很理想的问题。
本申请实施例提供的技术方案如下:
一方面,本申请实施例提供了一种样本特征选择方法,包括:
基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果;
基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果;
基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果;
基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果;
基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
另一方面,本申请实施例提供了一种样本特征选择装置,包括:
信息量确定单元,用于基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
单调性检测单元,用于基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果;
稳定性检测单元,用于基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果;
重要性检测单元,用于基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果;
相关性检测单元,用于基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果;
特征选择单元,用于基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
另一方面,本申请实施例提供了一种样本特征选择设备,包括:存储器、处理器和存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现本申请实施例提供的样本特征选择方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的样本特征选择方法。
本申请实施例的有益效果如下:
本申请实施例中,通过从样本特征的信息量、单调性、稳定性、重要性和相关性各方面综合评估样本特征的可选性,可以提升最终选择出的目标样本特征选择的准确度和可靠性,进而在利用选择出的目标样本特征进行模型训练时,可以提高模型训练和模型使用的最终效果。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地可以从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中样本特征选择方法的总体框架示意图;
图2为本申请实施例中样本特征选择方法的概况流程示意图;
图3为本申请实施例中样本特征选择方法的具体流程示意图;
图4为本申请实施例中样本特征选择装置的功能结构示意图;
图5为本申请实施例中样本特征选择设备的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为便于本领域技术人员更好地理解本申请,下面先对本申请涉及的技术用语进行简单介绍。
1、信息量检测,为通过判断各个样本特征的信息量是否在设定范围内,来确定各个样本特征的可用程度的一种检测。
2、单调性检测,为通过判断各个样本特征的实际样本分布与基准样本分布是否一致,来确定各个样本特征是否符合单调性要求的一种检测。
3、稳定性检测,为通过判断各个样本特征的特征稳定性指标是否不大于稳定性阈值,来确定各个样本特征是否符合稳定性要求的一种检测。
4、重要性检测,为通过判断各个样本特征的重要性程度是否满足重要性筛选条件,来确定各个样本特征是否符合重要性要求的一种检测。
5、相关性检测,为通过判断各个样本特征之间的相关程度是否满足相关性筛选条件,来确定各个样本特征是否符合相关性要求的一种检测。本申请实施例中,相关性检测包括但不限于:两两相关性检测和多重共线性检测;其中:
两两相关性检测,为通过判断各个样本特征中每两个样本特征的两两相关性得分是否不大于两两相关阈值,来确定各个样本特征中每两个样本特征之间的可替代程度的一种检测;
多重共线性检测,为通过判断各个样本特征的多重共线性得分是否不大于多重共线阈值,来确定各个样本特征中每一样本特征与其他样本特征之间的可替代程度的一种检测。
需要说明的是,本申请中提及的“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样的用语在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,本申请中提及的“和/或”,描述的是关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在介绍了本申请涉及的技术用语后,接下来,对本申请实施例的应用场景和设计思想进行简单介绍。
目前,为了使模型训练效果达到最优,在模型训练之前,通常需要采用特定算法从各维度的样本特征中选择用于模型训练的样本特征,例如,在信用风险控制领域,在对信用评分模型进行训练之前,通过会采用蒙特卡罗搜索和决策树算法、信息增益算法或逾期显著性算法,从各维度的样本特征中选取用于信用评分模型的样本特征,然而,目前的这些样本特征选择方法所选择出来的样本特征不是很准确,从而导致信用评分模型的训练和使用的效果都不是很理想。
为此,本申请实施例中,参阅图1所示,对各个样本特征分别进行信息量检测、单调性检测、稳定性检测、重要性检测和相关性检测,并根据各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择用于信用评分模型训练的目标样本特征。这样,通过从样本特征的信息量、单调性、稳定性、重要性和相关性各方面综合评估样本特征的可选性,可以提升最终选择出的目标样本特征选择的准确度和可靠性,进而在利用选择出的目标样本特征对信用评分模型进行训练时,可以提高信用评分模型的训练和使用的最终效果。
在介绍了本申请实施例的应用场景和设计思想之后,下面对本申请实施例提供的技术方案进行详细说明。
本申请实施例提供了一种样本特征选择方法,该样本特征选择方法可以应用于诸如计算机、服务器等样本特征选择设备,参阅图2所示,本申请实施例提供的样本特征选择方法的概况流程如下:
步骤201:基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果。
实际应用中,样本特征选择设备基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果时,可以采用但不限于以下方式:
首先,样本特征选择设备针对各个样本特征,对该样本特征进行分箱,得到该样本特征对应的各个特征分箱后,基于该样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定该样本特征对应的各个特征分箱的证据权重。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(1)获得该样本特征对应的各个特征分箱的证据权重;
Figure BDA0003331314030000051
其中,WOEi表征第i个特征分箱的证据权重;goodi表征第i个特征分箱的好样本数量占比;badi表征第i个特征分箱的坏样本数量占比;#goodi表征第i个特征分箱中标签为好样本的训练样本数量;#goodT表征标签为好样本的训练样本总数量;#badi表征第i个特征分箱中标签为坏样本的训练样本数量;#badT表征标签为坏样本的训练样本总数量。
然后,样本特征选择设备针对各个样本特征,基于该样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定该样本特征对应的各个特征分箱的信息量。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(2)获得该样本特征对应的各个特征分箱的信息量;
IVi=(goodi-badi)*WOEi……公式(2)
其中,IVi表征第i个特征分箱的信息量;goodi表征第i个特征分箱的好样本数量占比;badi表征第i个特征分箱的坏样本数量占比;WOEi表征第i个特征分箱的证据权重。
最后,样本特征选择设备针对各个样本特征,基于该样本特征对应的各个特征分箱的信息量,确定该样本特征的信息量并作为该样本特征的信息量检测结果。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(3)获得该样本特征的信息量;
Figure BDA0003331314030000052
其中,IV表征样本特征的信息量;IVi表征第i个特征分箱的信息量;N表征特征分箱的数量。
步骤202:基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果。
实际应用中,样本特征选择设备基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果时,可以采用但不限于以下方式:
第一种方式:样本特征选择设备针对各个样本特征,可以基于该样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定该样本特征的单调性检测结果。
第二种方式:样本特征选择设备针对各个样本特征,可以基于该样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定该样本特征的单调性检测结果。
步骤203:基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果。
实际应用中,样本特征选择设备基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果时,可以采用但不限于以下方式:
首先,样本特征选择设备针对各个样本特征,基于该样本特征对应的各个特征分箱的训练样本数量占比和验证样本数量占比,确定该样本特征对应的各个特征分箱的特征稳定性指标。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(4)获得该样本特征对应的各个特征分箱的特征稳定性指标;
Figure BDA0003331314030000061
其中,CSIi表征第i个特征分箱的特征稳定性指标;Actuali表征第i个特征分箱的训练样本数量占比;#traini表征第i个特征分箱中训练样本数量;#train表征训练样本总数量;Expectedi表征第i个特征分箱的验证样本数量占比;#testi表征第i个特征分箱中验证样本数量;#test表征验证样本总数量。
然后,样本特征选择设备针对各个样本特征,基于该样本特征对应的各个特征分箱的特征稳定性指标,确定该样本特征的特征稳定性指标并作为该样本特征的稳定性检测结果。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(5)获得该样本特征的特征稳定性指标;
Figure BDA0003331314030000071
其中,CSI表征样本特征的特征稳定性指标;CSIi表征第i个特征分箱的特征稳定性指标;N表征特征分箱的数量。
步骤204:基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果。
实际应用中,样本特征选择设备基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果时,可以采用但不限于以下方式:
第一种方式:样本特征选择设备将各个样本特征的训练样本输入一个重要性检测模型,得到包含各个样本特征的重要性得分的重要性检测结果。
第二种方式:样本特征选择设备将各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含各个样本特征的重要性得分的重要性检测结果。
第三种方式:样本特征选择设备将各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含各个样本特征的重要性得分的重要性检测结果。
值得说的是,本申请实施例中,重要性检测模型包括但不限于:xgboost、lightgbm、GBDT、RF、CART等。
步骤205:基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果。
实际应用中,样本特征选择设备基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果时,可以采用但不限于以下方式:
第一种方式:相关性检测方式包括两两相关性检测算法。
此种情况下,样本特征选择设备可以基于各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分并作为各个样本特征的相关性检测结果。
具体的,样本特征选择设备可以采用下述公式(6)获得每两个样本特征之间的两两相关性得分;
Figure BDA0003331314030000072
Figure BDA0003331314030000081
其中,r(X,Y)表征样本特征X和样本特征Y的两两相关性得分;cov(X,Y)表征样本特征X和样本特征Y的协方差;Var[X]表征样本特征X的方差;Var[Y]表征样本特征Y的方差;N表征训练样本的数量;Xi表征第i个训练样本中样本特征X的值;Yi表征第i个训练样本中样本特征Y的值;
Figure BDA0003331314030000082
表征样本特征X的均值。
第二种方式:相关性检测方式包括多重共线性检测算法。
此种情况下,样本特征选择设备可以基于各个样本特征的训练样本,采用多重共线性检测算法,得到各个样本特征的多重共线性得分并作为各个样本特征的相关性检测结果。
具体的,样本特征选择设备针对各个样本特征,可以采用下述公式(7)获得该样本特征的多重共线性得分;
Figure BDA0003331314030000083
其中,VIFi表征第i个样本特征的多重共线性得分;
Figure BDA0003331314030000084
表征基于第i个样本特征的训练样本,对除第i个样本特征之外的所有样本特征的训练样本进行线性回归分析得到的回归方程的判定系数。
第三种方式:相关性检测方式包括两两相关性检测算法和多重共线性检测算法。
此种情况下,样本特征选择设备可以采用上述两种方式,获取各个样本特征中每两个样本特征之间的两两相关性得分以及各个样本特征的多重共线性得分并作为各个样本特征的相关性检测结果。
步骤206:基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
实际应用中,样本特征选择设备基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征时,可以采用但不限于以下方式:
首先,样本特征选择设备基于各个样本特征的信息量检测结果,从各个样本特征中选择信息量在设定范围内的样本特征组成第一待选样本特征集合。具体的,样本特征选择设备可以基于信息量检测结果中各个样本特征的信息量,从各个样本特征中选择信息量在0.01~0.1之间的样本特征组成第一待选样本特征集合。
其次,样本特征选择设备基于各个样本特征的单调性检测结果,从各个样本特征中选择单调性检测通过的样本特征组成第二待选样本特征集合。具体的,样本特征选择设备可以采用但不限于以下方式:
第一种方式:样本特征选择设备基于各个样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定各个样本特征的单调性检测结果时,可以基于单调性检测结果,从各个样本特征中选择训练样本中好样本的实际样本分布与基准样本分布一致的样本特征组成第二待选样本特征集合。
第二种方式:样本特征选择设备基于各个样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定各个样本特征的单调性检测结果时,可以基于单调性检测结果,从各个样本特征中选择训练样本中坏样本的实际样本分布与基准样本分布一致的样本特征组成第二待选样本特征集合。
值得说的是,本申请实施例中,样本特征选择设备还可以将各个样本特征中单调性检测未通过且符合微调条件的样本特征进行微调后加入第二待选样本特征集合;其中,符合微调条件的样本特征为通过微调后训练样本中好样本的实际样本分布与基准样本分布一致的样本特征,或者通过微调后训练样本中坏样本的实际样本分布与基准样本分布一致的样本特征。
然后,样本特征选择设备基于各个样本特征的稳定性检测结果,从各个样本特征中选择特征稳定性指标不大于稳定性阈值的样本特征组成第三待选样本特征集合。具体的,样本特征选择设备可以基于稳定性检测结果中各个样本特征的特征稳定性指标,从各个样本特征中选择特征稳定性指标不大于0.1的样本特征组成第三待选样本特征集合。
再者,样本特征选择设备基于各个样本特征的重要性检测结果,从各个样本特征中选择重要性得分满足重要性筛选条件的样本特征组成第四待选样本特征集合。具体的,样本特征选择设备可以采用但不限于以下方式:
第一种方式:样本特征选择设备将各个样本特征的训练样本输入一个重要性检测模型,得到包含各个样本特征的重要性得分的重要性检测结果时,可以基于该重要性检测结果,从各个样本特征中选取重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征组成第四待选样本特征集合。
第二种方式:样本特征选择设备将各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含各个样本特征的重要性得分的重要性检测结果时,可以将该多个重要性检测结果各自对应的重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征中重复出现的样本特征组成第四待选样本特征集合。
第三种方式:样本特征选择设备将各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含各个样本特征的重要性得分的重要性检测结果时,可以将该至少两个重要性检测结果各自对应的重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征的交集组成第四待选样本特征集合。
之后,样本特征选择设备基于各个样本特征的相关性检测结果,从样本特征中选择两两相关性得分和/或多重共线性得分满足相关性筛选条件的样本特征组成第五待选样本特征集合。具体的,样本特征选择设备可以采用但不限于以下方式:
第一种方式:样本特征选择设备基于各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分作为各个样本特征的相关性检测结果时,针对各个样本特征中的每两个样本特征,确定相关性检测结果中该两个样本特征的两两相关性得分不大于两两相关阈值时,将该两个样本特征加入第五待选样本特征集合,确定相关性检测结果中该两个样本特征的两两相关性得分大于两两相关阈值时,将该两个样本特征中的其中一个样本特征加入第五待选样本特征集合。具体的,样本特征选择设备针对各个样本特征中的每两个样本特征,可以在确定相关性检测结果中该两个样本特征的两两相关性得分不大于0时,将该两个样本特征加入第五待选样本特征集合,确定相关性检测结果中该两个样本特征的两两相关性得分大于0时,将该两个样本特征中的其中一个样本特征加入第五待选样本特征集合。
第二种方式:样本特征选择设备基于各个样本特征的训练样本,采用多重共线性检测算法,得到各个样本特征的多重共线性得分作为各个样本特征的相关性检测结果时,可以基于该相关性检测结果中各个样本特征的多重共线性得分,从各个样本特征中选取多重共线性得分不大于多重共线阈值的样本特征加入第五待选样本特征集合。具体的,样本特征选择设备基于相关性检测结果中各个样本特征的多重共线性得分,可以从各个样本特征中选取多重共线性得分不大于10的样本特征加入第五待选样本特征集合。
第三种方式:样本特征选择设备基于各个样本特征的训练样本,采用两两相关性检测算法和多重共线性检测算法,得到各个样本特征中每两个样本特征之间的两两相关性得分以及各个样本特征的多重共线性得分作为各个样本特征的相关性检测结果时,可以基于该相关性检测结果中每两个样本特征之间的两两相关性得分,从各个样本特征中选取出第一待选样本特征子集(具体选取方式可参见上述第一种方式),基于该相关性检测结果中各个样本特征的多重共线性得分,从各个样本特征中选取出第二待选样本特征子集(具体选取方式可参见上述第二种方式),将第一待选样本特征子集和第二待选样本特征子集的交集中的样本特征组成第五待选样本特征集合。
最后,样本特征选择设备基于第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合,获得目标样本特征。
具体的,样本特征选择设备可以基于第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合的交集,得到目标样本特征。
下面以“为信用评分模型的训练和使用选择目标样本特征”为具体应用场景,对本申请实施例提供的样本特征选择方法作进一步详细说明,参阅图3所示,本申请实施例提供的样本特征选择方法的具体流程如下:
步骤301:样本特征选择设备获取信用评分模型对应的待选择的各个样本特征。
实际应用中,样本特征选择设备可以将信用评分模型的训练样本包含的各个字段作为信用评分模型对应的待选择的各个样本特征,具体的,信用评分模型对应的待选择的各个样本特征包括但不限于:年龄、性别、婚姻状况、工作岗位性质、收入情况、名下财产、信用等级、贷款金额、贷款途径、还款期限、逾期状况等。
步骤302:样本特征选择设备针对信用评分模型的各个样本特征,对该样本特征进行分箱,得到该样本特征对应的各个特征分箱后,基于该样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定该样本特征对应的各个特征分箱的证据权重。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(1)获得该样本特征对应的各个特征分箱的证据权重。
步骤303:样本特征选择设备针对信用评分模型的各个样本特征,基于该样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定该样本特征对应的各个特征分箱的信息量。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(2)获得该样本特征对应的各个特征分箱的信息量。
步骤304:样本特征选择设备针对信用评分模型的各个样本特征,基于该样本特征对应的各个特征分箱的信息量,确定该样本特征的信息量。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(3)获得该样本特征的信息量。
步骤305:样本特征选择设备针对信用评分模型的各个样本特征,基于该样本特征的实际样本分布与基准样本分布是否一致,确定该样本特征的单调性检测结果。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以基于该样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定该样本特征的单调性检测结果,还可以基于该样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定该样本特征的单调性检测结果;其中,各个样本特征的基准样本分布是根据经验预判得到的,不同的样本特征对应不同或相同的基准样本分布,每一样本特征的基准样本分布为单调递增分布、单调递减分布、正U分布或倒U分布中的一种。
步骤306:样本特征选择设备针对信用评分模型的各个样本特征,基于该样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定该样本特征对应的各个特征分箱的特征稳定性指标。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(4)获得该样本特征对应的各个特征分箱的特征稳定性指标。
步骤307:样本特征选择设备针对信用评分模型的各个样本特征,基于该样本特征对应的各个特征分箱的特征稳定性指标,确定该样本特征的特征稳定性指标并作为该样本特征的稳定性检测结果。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(5)获得该样本特征的特征稳定性指标。
步骤308:样本特征选择设备基于信用评分模型的各个样本特征的训练样本,采用重要性检测模型,确定信用评分模型的各个样本特征的重要性检测结果。
实际应用中,样本特征选择设备可以将信用评分模型的各个样本特征的训练样本输入一个重要性检测模型,得到包含各个样本特征的重要性得分的重要性检测结果,也可以将信用评分模型的各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含各个样本特征的重要性得分的重要性检测结果,还可以将信用评分模型的各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含各个样本特征的重要性得分的重要性检测结果;其中,重要性检测模型包括但不限于:xgboost、lightgbm、GBDT、RF、CART等。
步骤309:样本特征选择设备基于信用评分模型的各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分。
实际应用中,样本特征选择设备可以采用上述公式(6)获得信用评分模型的各个样本特征中每两个样本特征之间的两两相关性得分。
步骤310:样本特征选择设备基于信用评分模型的各个样本特征的训练样本,采用多重共线性检测算法,得到信用评分模型的各个样本特征的多重共线性得分。
实际应用中,样本特征选择设备针对信用评分模型的各个样本特征,可以采用上述公式(7)获得该样本特征的多重共线性得分。
步骤311:样本特征选择设备基于信用评分模型的各个样本特征的信息量,从信用评分模型的各个样本特征中,选择信息量在设定范围内(例如0.01~0.1)的样本特征组成第一待选样本特征集合。
步骤312:样本特征选择设备基于信用评分模型的各个样本特征的单调性检测结果,从信用评分模型的各个样本特征中,选择单调性检测通过的样本特征组成第二待选样本特征集合。
实际应用中,样本特征选择设备基于信用评分模型的各个样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定信用评分模型的各个样本特征的单调性检测结果时,可以基于信用评分模型的各个样本特征的单调性检测结果,从信用评分模型的各个样本特征中选择训练样本中好样本的实际样本分布与基准样本分布一致的样本特征组成第二待选样本特征集合;样本特征选择设备基于信用评分模型的各个样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定信用评分模型的各个样本特征的单调性检测结果时,可以基于信用评分模型的各个样本特征的单调性检测结果,从信用评分模型的各个样本特征中选择训练样本中坏样本的实际样本分布与基准样本分布一致的样本特征组成第二待选样本特征集合。
步骤313:样本特征选择设备将信用评分模型的各个样本特征中单调性检测未通过且符合微调条件的样本特征进行微调后加入第二待选样本特征集合。
实际应用中,符合微调条件的样本特征可以是通过微调后训练样本中好样本的实际样本分布与基准样本分布一致的样本特征,或者通过微调后训练样本中坏样本的实际样本分布与基准样本分布一致的样本特征。
步骤314:样本特征选择设备基于信用评分模型的各个样本特征的特征稳定性指标,从信用评分模型的各个样本特征中,选择特征稳定性指标不大于稳定性阈值(例如0.1)的样本特征组成第三待选样本特征集合。
步骤315:样本特征选择设备基于信用评分模型的各个样本特征的重要性得分,从信用评分模型的各个样本特征中,选择重要性得分满足重要性筛选条件的样本特征组成第四待选样本特征集合。
实际应用中,样本特征选择设备将信用评分模型的各个样本特征的训练样本输入一个重要性检测模型,得到包含各个样本特征的重要性得分的重要性检测结果时,可以基于该重要性检测结果,从信用评分模型的各个样本特征中,选取重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征组成第四待选样本特征集合;样本特征选择设备将信用评分模型的各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含各个样本特征的重要性得分的重要性检测结果时,可以将该多个重要性检测结果各自对应的重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征中重复出现的样本特征组成第四待选样本特征集合;样本特征选择设备将信用评分模型的各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含各个样本特征的重要性得分的重要性检测结果时,可以将该至少两个重要性检测结果各自对应的重要性得分不小于重要性阈值或者重要性得分排名前N的样本特征的交集组成第四待选样本特征集合。
步骤316:样本特征选择设备针对信用评分模型的各个样本特征中的每两个样本特征,确定该两个样本特征的两两相关性得分不大于两两相关阈值(例如0)时,将该两个样本特征加入第一待选样本特征子集,确定该两个样本特征的两两相关性得分大于两两相关阈值时,将该两个样本特征中的其中一个样本特征加入第一待选样本特征子集。
步骤317:样本特征选择设备基于信用评分模型的各个样本特征的多重共线性得分,从各个样本特征中选取多重共线性得分不大于多重共线阈值(例如10)的样本特征加入第二待选样本特征子集。
步骤318:样本特征选择设备将第一待选样本特征子集和第二待选样本特征子集的交集中的样本特征组成第五待选样本特征集合。
步骤319:样本特征选择设备将第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合的交集中的样本特征确定为信用评分模型的目标样本特征。
步骤320:样本特征选择设备基于信用评分模型的各目标样本特征的训练样本进行模型训练,并基于信用评分模型的各目标样本特征的实际特征数据进行模型使用。
值得说的是,本申请实施例中,样本特征选择设备对信用评分模型的各个样本特征的信息量检测、单调性检测、稳定性检测、重要性检测和相关性检测并无先后顺序,样本特征选择设备对信用评分模型的各个样本特征的选择也无先后顺序,此外,样本特征选择设备对信用评分模型的各个样本特征的信息量检测、单调性检测、稳定性检测、重要性检测和相关性检测,与样本特征选择设备对信用评分模型的各个样本特征的选择可以并行执行,也可以先后执行,具体执行顺序可以根据实际情况灵活设定,上述步骤302-319的执行顺序仅为一个示例,不应对本申请实施例的样本特征选择方法的执行顺序带来任何限制。
基于上述实施例,本申请实施例还提供了一种样本特征选择装置,参阅图4所示,本申请实施例提供的样本特征选择装置400至少包括:
信息量确定单元401,用于基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果;
单调性检测单元402,用于基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果;
稳定性检测单元403,用于基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果;
重要性检测单元404,用于基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果;
相关性检测单元405,用于基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果;
特征选择单元406,用于基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征。
在一种可能的实施方式中,基于各个样本特征的好样本数量占比和坏样本数量占比,确定各个样本特征的信息量检测结果时,信息量确定单元401具体用于:
针对各个样本特征,基于样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定各个特征分箱的证据权重,并基于各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定各个特征分箱的信息量,以及基于各个特征分箱的信息量,确定样本特征的信息量并作为样本特征的信息量检测结果。
在一种可能的实施方式中,基于样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定各个特征分箱的证据权重时,信息量确定单元401具体用于:
采用以下公式获得样本特征对应的各个特征分箱的证据权重;
Figure BDA0003331314030000151
Figure BDA0003331314030000161
其中,WOEi表征第i个特征分箱的证据权重;goodi表征第i个特征分箱的好样本数量占比;badi表征第i个特征分箱的坏样本数量占比;#goodi表征第i个特征分箱中标签为好样本的训练样本数量;#goodT表征标签为好样本的训练样本总数量;#badi表征第i个特征分箱中标签为坏样本的训练样本数量;#badT表征标签为坏样本的训练样本总数量。
在一种可能的实施方式中,基于各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定各个特征分箱的信息量时,信息量确定单元401具体用于:
采用以下公式获得各个特征分箱的信息量;
IVi=(goodi-badi)*WOEi
其中,IVi表征第i个特征分箱的信息量;goodi表征第i个特征分箱的好样本数量占比;badi表征第i个特征分箱的坏样本数量占比;WOEi表征第i个特征分箱的证据权重。
在一种可能的实施方式中,基于各个特征分箱的信息量,确定样本特征的信息量时,信息量确定单元401具体用于:
采用以下公式获得样本特征的信息量;
Figure BDA0003331314030000162
其中,IV表征样本特征的信息量;IVi表征第i个特征分箱的信息量;N表征特征分箱的数量。
在一种可能的实施方式中,基于各个样本特征的实际样本分布和基准样本分布,确定各个样本特征的单调性检测结果时,单调性检测单元402具体用于:
针对各个样本特征,基于样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定样本特征的单调性检测结果;
或者;
针对各个样本特征,基于样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定样本特征的单调性检测结果。
在一种可能的实施方式中,基于各个样本特征的训练样本数量占比和验证样本数量占比,确定各个样本特征的稳定性检测结果时,稳定性检测单元403具体用于:
针对各个样本特征,基于样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定各个特征分箱的特征稳定性指标,基于各个特征分箱的特征稳定性指标,确定样本特征的特征稳定性指标并作为样本特征的稳定性检测结果。
在一种可能的实施方式中,基于样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定各个特征分箱的特征稳定性指标时,稳定性检测单元403具体用于:
采用以下公式获得样本特征对应的各个特征分箱的特征稳定性指标;
Figure BDA0003331314030000171
Figure BDA0003331314030000172
其中,CSIi表征第i个特征分箱的特征稳定性指标;Actuali表征第i个特征分箱的训练样本数量占比;#traini表征第i个特征分箱中训练样本数量;#train表征训练样本总数量;Expectedi表征第i个特征分箱的验证样本数量占比;;#testi表征第i个特征分箱中验证样本数量;#testi表征验证样本总数量。
在一种可能的实施方式中,基于各个特征分箱的特征稳定性指标,确定样本特征的特征稳定性指标时,稳定性检测单元403具体用于:
采用以下公式获得样本特征的特征稳定性指标;
Figure BDA0003331314030000173
其中,CSI表征样本特征的特征稳定性指标;CSIi表征第i个特征分箱的特征稳定性指标;N表征特征分箱的数量。
在一种可能的实施方式中,基于各个样本特征的训练样本,采用重要性检测模型,确定各个样本特征的重要性检测结果时,重要性检测单元404具体用于:
将各个样本特征的训练样本输入一个重要性检测模型,得到包含各个样本特征的重要性得分的重要性检测结果;
或者;
将各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含各个样本特征的重要性得分的重要性检测结果;
或者;
将各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含各个样本特征的重要性得分的重要性检测结果。
在一种可能的实施方式中,相关性检测方式包括两两相关性检测算法和/或多重共线性检测算法;基于各个样本特征的训练样本,采用相关性检测方式,确定各个样本特征的相关性检测结果时,相关性检测单元405具体用于:
基于各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分并作为各个样本特征的相关性检测结果;
和/或;
基于各个样本特征的训练样本,采用多重共线性检测算法,得到各个样本特征的多重共线性得分并作为各个样本特征的相关性检测结果。
在一种可能的实施方式中,基于各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分时,相关性检测单元405具体用于:
采用以下公式获得每两个样本特征之间的两两相关性得分;
Figure BDA0003331314030000181
Figure BDA0003331314030000182
其中,r(X,Y)表征样本特征X和样本特征Y的两两相关性得分;cov(X,Y)表征样本特征X和样本特征Y的协方差;Var[X]表征样本特征X的方差;Var[Y]表征样本特征Y的方差;N表征训练样本的数量;Xi表征第i个训练样本中样本特征X的值;Yi表征第i个训练样本中样本特征Y的值;
Figure BDA0003331314030000183
表征样本特征X的均值。
在一种可能的实施方式中,基于各个样本特征的训练样本,采用多重共线性检测算法,得到各个样本特征的多重共线性得分时,相关性检测单元405具体用于:
针对各个样本特征,采用以下公式获得样本特征的多重共线性得分;
Figure BDA0003331314030000184
其中,VIFi表征第i个样本特征的多重共线性得分;
Figure BDA0003331314030000185
表征基于第i个样本特征的训练样本,对除第i个样本特征之外的所有样本特征的训练样本进行线性回归分析得到的回归方程的判定系数。
在一种可能的实施方式中,基于各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从各个样本特征中选择目标样本特征时,特征选择单元406具体用于:
基于各个样本特征的信息量检测结果,从各个样本特征中选择信息量在设定范围内的样本特征组成第一待选样本特征集合;
基于各个样本特征的单调性检测结果,从各个样本特征中选择单调性检测通过的样本特征组成第二待选样本特征集合;
基于各个样本特征的稳定性检测结果,从各个样本特征中选择特征稳定性指标不大于稳定性阈值的样本特征组成第三待选样本特征集合;
基于各个样本特征的重要性检测结果,从各个样本特征中选择重要性得分满足重要性筛选条件的样本特征组成第四待选样本特征集合;
基于各个样本特征的相关性检测结果,从样本特征中选择两两相关性得分和/或多重共线性得分满足相关性筛选条件的样本特征组成第五待选样本特征集合;
基于第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合,获得目标样本特征。
在一种可能的实施方式中,基于各个样本特征的单调性检测结果,从各个样本特征中选择单调性检测通过的样本特征组成第二待选样本特征集合时,特征选择单元406还用于:
将各个样本特征中单调性检测未通过且符合微调条件的样本特征进行微调后加入第二待选样本特征集合。
在一种可能的实施方式中,基于第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合,获得目标样本特征时,特征选择单元406具体用于:
基于第一待选样本特征集合、第二待选样本特征集合、第三待选样本特征集合、第四待选样本特征集合和第五待选样本特征集合的交集,得到目标样本特征。
需要说明的是,本申请实施例提供的样本特征选择装置400解决技术问题的原理与本申请实施例提供的样本特征选择方法相似,因此,本申请实施例提供的样本特征选择装置400的实施可以参见本申请实施例提供的样本特征选择方法的实施,重复之处不再赘述。
在介绍了本申请实施例提供的样本特征选择方法和装置之后,接下来,对本申请实施例提供的样本特征选择设备进行简单介绍。
参阅图5所示,本申请实施例提供的样本特征选择设备500至少包括:处理器501、存储器502和存储在存储器502上并可在处理器501上运行的计算机程序,处理器501执行计算机程序时实现本申请实施例提供的样本特征选择方法。
本申请实施例提供的样本特征选择设备500还可以包括连接不同组件(包括处理器501和存储器502)的总线503。其中,总线503表示几类总线结构中的一种或多种,包括存储器总线、***总线、局域总线等。
存储器502可以包括易失性存储器形式的可读介质,例如随机存储器(RandomAccess Memory,RAM)5021和/或高速缓存存储器5022,还可以进一步包括只读存储器(ReadOnly Memory,ROM)5023。
存储器502还可以包括具有一组(至少一个)程序模块5024的程序工具5025,程序模块5024包括但不限于:操作子***、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
样本特征选择设备500也可以与一个或多个外部设备504(例如键盘、遥控器等)通信,还可以与一个或者多个使得用户能与样本特征选择设备500交互的设备通信(例如手机、电脑等),和/或,与使得样本特征选择设备500与一个或多个其它设样本特征选择备500进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口505进行。并且,样本特征选择设备500还可以通过网络适配器506与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器506通过总线503与设样本特征选择备500的其它模块通信。应当理解,尽管图5中未示出,可以结合样本特征选择设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)子***、磁带驱动器以及数据备份存储子***等。
需要说明的是,图5所示的样本特征选择设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
下面对本申请实施例提供的计算机可读存储介质进行简单介绍。本申请实施例提供的计算机可读存储介质存储有计算机指令,计算机指令被处理器执行时实现本申请实施例提供的样本特征选择方法。具体地,该可执行程序可以内置或者安装在样本特征选择设备500中,这样,样本特征选择设备500就可以通过执行内置或者安装的可执行程序实现本申请实施例提供的样本特征选择方法。
此外,本申请实施例提供样本特征选择方法还可以实现为一种程序产品,该程序产品包括程序代码,当该程序产品可以在样本特征选择设备500上运行时,该程序代码用于使样本特征选择设备500执行本申请实施例提供的样本特征选择方法。
本申请实施例提供的程序产品可以采用一个或多个可读介质的任意组合,其中,可读介质可以是可读信号介质或者可读存储介质,而可读存储介质可以是但不限于是电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合,具体地,可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、光纤、便携式紧凑盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请实施例提供的程序产品可以采用CD-ROM并包括程序代码,还可以在计算设备上运行。然而,本申请实施例提供的程序产品不限于此,在本申请实施例中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种样本特征选择方法,其特征在于,包括:
基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果;
基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果;
基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果;
基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果;
基于所述各个样本特征的训练样本,采用相关性检测方式,确定所述各个样本特征的相关性检测结果;
基于所述各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从所述各个样本特征中选择目标样本特征。
2.如权利要求1所述的样本特征选择方法,其特征在于,基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果,包括:
针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的好样本数量占比、坏样本数量占比,确定所述各个特征分箱的证据权重,并基于所述各个特征分箱的好样本数量占比、坏样本数量占比和证据权重,确定所述各个特征分箱的信息量,以及基于所述各个特征分箱的信息量,确定所述样本特征的信息量并作为所述样本特征的信息量检测结果。
3.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果,包括:
针对所述各个样本特征,基于所述样本特征的训练样本中好样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果;或者,
针对所述各个样本特征,基于所述样本特征的训练样本中坏样本的实际样本分布与基准样本分布是否一致,确定所述样本特征的单调性检测结果。
4.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果,包括:
针对所述各个样本特征,基于所述样本特征对应的各个特征分箱的训练样本数量占比、验证样本数量占比,确定所述各个特征分箱的特征稳定性指标,基于所述各个特征分箱的特征稳定性指标,确定所述样本特征的特征稳定性指标并作为所述样本特征的稳定性检测结果。
5.如权利要求1所述的样本特征选择方法,其特征在于,基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果,包括:
将所述各个样本特征的训练样本输入一个重要性检测模型,得到包含所述各个样本特征的重要性得分的重要性检测结果;或者,
将所述各个样本特征的训练样本多次输入一个重要性检测模型,得到多个包含所述各个样本特征的重要性得分的重要性检测结果;或者,
将所述各个样本特征的训练样本分别输入至少两个重要性检测模型,得到至少两个包含所述各个样本特征的重要性得分的重要性检测结果。
6.如权利要求1所述的样本特征选择方法,其特征在于,所述相关性检测方式包括两两相关性检测算法和/或多重共线性检测算法;基于所述各个样本特征的训练样本,采用相关性检测方式,确定所述各个样本特征的相关性检测结果,包括:
基于所述各个样本特征的训练样本,采用两两相关性检测算法,得到每两个样本特征之间的两两相关性得分并作为所述各个样本特征的相关性检测结果;和/或,
基于所述各个样本特征的训练样本,采用多重共线性检测算法,得到所述各个样本特征的多重共线性得分并作为所述各个样本特征的相关性检测结果。
7.如权利要求1-6任一项所述的样本特征选择方法,其特征在于,基于所述各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从所述各个样本特征中选择目标样本特征,包括:
基于所述各个样本特征的信息量检测结果,从所述各个样本特征中选择信息量在设定范围内的样本特征组成第一待选样本特征集合;
基于所述各个样本特征的单调性检测结果,从所述各个样本特征中选择单调性检测通过的样本特征组成第二待选样本特征集合;
基于所述各个样本特征的稳定性检测结果,从所述各个样本特征中选择特征稳定性指标不大于稳定性阈值的样本特征组成第三待选样本特征集合;
基于所述各个样本特征的重要性检测结果,从所述各个样本特征中选择重要性得分满足重要性筛选条件的样本特征组成第四待选样本特征集合;
基于所述各个样本特征的相关性检测结果,从所述样本特征中选择两两相关性得分和/或多重共线性得分满足相关性筛选条件的样本特征组成第五待选样本特征集合;
基于所述第一待选样本特征集合、所述第二待选样本特征集合、所述第三待选样本特征集合、所述第四待选样本特征集合和所述第五待选样本特征集合,获得所述目标样本特征。
8.一种样本特征选择装置,其特征在于,包括:
信息量检测单元,用于基于各个样本特征的好样本数量占比和坏样本数量占比,确定所述各个样本特征的信息量检测结果;
单调性检测单元,用于基于所述各个样本特征的实际样本分布和基准样本分布,确定所述各个样本特征的单调性检测结果;
稳定性检测单元,用于基于所述各个样本特征的训练样本数量占比和验证样本数量占比,确定所述各个样本特征的稳定性检测结果;
重要性检测单元,用于基于所述各个样本特征的训练样本,采用重要性检测模型,确定所述各个样本特征的重要性检测结果;
相关性检测单元,用于基于所述各个样本特征的训练样本,采用相关性检测方式,确定所述各个样本特征的相关性检测结果;
特征选择单元,用于基于所述各个样本特征的信息量检测结果、单调性检测结果、稳定性检测结果、重要性检测结果和相关性检测结果,从所述各个样本特征中选择目标样本特征。
9.一种样本特征选择设备,其特征在于,包括:存储器、处理器和存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的样本特征选择方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-7任一项所述的样本特征选择方法。
CN202111281688.1A 2021-11-01 2021-11-01 一种样本特征选择方法、装置、设备及介质 Pending CN113919510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111281688.1A CN113919510A (zh) 2021-11-01 2021-11-01 一种样本特征选择方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111281688.1A CN113919510A (zh) 2021-11-01 2021-11-01 一种样本特征选择方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN113919510A true CN113919510A (zh) 2022-01-11

Family

ID=79243839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111281688.1A Pending CN113919510A (zh) 2021-11-01 2021-11-01 一种样本特征选择方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113919510A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099326A (zh) * 2022-06-20 2022-09-23 中国平安财产保险股份有限公司 基于人工智能的行为预测方法、装置、设备及存储介质
CN117112445A (zh) * 2023-10-07 2023-11-24 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681697A (zh) * 2018-04-28 2018-10-19 北京农业质量标准与检测技术研究中心 特征选择方法及装置
CN110852443A (zh) * 2019-09-26 2020-02-28 支付宝(杭州)信息技术有限公司 特征稳定性检测方法、设备及计算机可读介质
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及***
CN112016800A (zh) * 2020-07-17 2020-12-01 北京天泽智云科技有限公司 一种基于有效性指标的特征选择方法与***
US20210110409A1 (en) * 2019-10-12 2021-04-15 International Business Machines Corporation False detection rate control with null-hypothesis
CN112836733A (zh) * 2021-01-26 2021-05-25 深圳前海微众银行股份有限公司 特征选择方法、设备、可读存储介质及计算机程序产品

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108681697A (zh) * 2018-04-28 2018-10-19 北京农业质量标准与检测技术研究中心 特征选择方法及装置
CN110852443A (zh) * 2019-09-26 2020-02-28 支付宝(杭州)信息技术有限公司 特征稳定性检测方法、设备及计算机可读介质
US20210110409A1 (en) * 2019-10-12 2021-04-15 International Business Machines Corporation False detection rate control with null-hypothesis
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及***
CN112016800A (zh) * 2020-07-17 2020-12-01 北京天泽智云科技有限公司 一种基于有效性指标的特征选择方法与***
CN112836733A (zh) * 2021-01-26 2021-05-25 深圳前海微众银行股份有限公司 特征选择方法、设备、可读存储介质及计算机程序产品

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115099326A (zh) * 2022-06-20 2022-09-23 中国平安财产保险股份有限公司 基于人工智能的行为预测方法、装置、设备及存储介质
CN117112445A (zh) * 2023-10-07 2023-11-24 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质
CN117112445B (zh) * 2023-10-07 2024-01-16 太平金融科技服务(上海)有限公司 一种机器学习模型稳定性检测方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
US20230342608A1 (en) Systems and processes for bias removal in a predictive performance model
CN110070391B (zh) 数据处理方法、装置、计算机可读介质及电子设备
US20180336198A1 (en) Neural network based translation of natural language queries to database queries
Wang et al. Compositional vector space models for improved bug localization
US20180121831A1 (en) Systems and methods for predictive coding
CN106095942B (zh) 强变量提取方法及装置
CN109492164A (zh) 一种简历的推荐方法、装置、电子设备及存储介质
CN111143226B (zh) 自动化测试方法及装置、计算机可读存储介质、电子设备
CN113919510A (zh) 一种样本特征选择方法、装置、设备及介质
US11481707B2 (en) Risk prediction system and operation method thereof
CN112270546A (zh) 基于stacking算法的风险预测方法、装置和电子设备
CN113239173B (zh) 问答数据的处理方法、装置、存储介质与电子设备
CN113674087A (zh) 企业信用等级评定方法、装置、电子设备和介质
CN115225336A (zh) 一种面向网络环境的漏洞可利用性的计算方法及装置
CN111179055A (zh) 授信额度调整方法、装置和电子设备
CN110262906B (zh) 接口标签推荐方法、装置、存储介质和电子设备
CN111062626A (zh) 能力水平评估方法、装置、设备及存储介质
CN111143533A (zh) 一种基于用户行为数据的客服方法及***
CN114020957A (zh) 搜索算法的评测方法、装置、计算设备及介质
US20220245199A1 (en) Virtual Dialog System Performance Assessment and Enrichment
CN110297989B (zh) 异常检测的测试方法、装置、设备和介质
CN108984680B (zh) 一种信息推荐方法、装置、服务器及存储介质
CN113516398A (zh) 基于分层抽样的风险设备识别方法、装置及电子设备
CN112231546A (zh) 异构文档的排序方法、异构文档排序模型训练方法及装置
CN116228484B (zh) 基于量子聚类算法的课程组合方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination