CN117520804A - 特征筛选方法、装置以及设备 - Google Patents
特征筛选方法、装置以及设备 Download PDFInfo
- Publication number
- CN117520804A CN117520804A CN202311520467.4A CN202311520467A CN117520804A CN 117520804 A CN117520804 A CN 117520804A CN 202311520467 A CN202311520467 A CN 202311520467A CN 117520804 A CN117520804 A CN 117520804A
- Authority
- CN
- China
- Prior art keywords
- user
- features
- user features
- original
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012216 screening Methods 0.000 title claims abstract description 50
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims description 10
- 238000001514 detection method Methods 0.000 claims description 7
- 238000001212 derivatisation Methods 0.000 claims description 6
- 230000004931 aggregating effect Effects 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 7
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000009795 derivation Methods 0.000 description 35
- 230000006399 behavior Effects 0.000 description 26
- 238000012512 characterization method Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000010801 machine learning Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000003066 decision tree Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000010187 selection method Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000000546 chi-square test Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Accounting & Taxation (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Development Economics (AREA)
- Evolutionary Biology (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本说明书涉及人工智能技术领域,尤其涉及一种特征筛选方法、装置以及设备。其中特征筛选方法,包括:对多种原始用户特征进行衍生处理,得到衍生用户特征;根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子;获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型;根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据;根据第二重要性数据,对多种原始用户特征进行筛选。本说明书实施例可以减小原始用户特征筛选时的计算量,提高筛选效率。
Description
技术领域
本说明书涉及人工智能技术领域,尤其涉及一种特征筛选方法、装置以及设备。
背景技术
机器学习已广泛应用于各个领域。在针对某个业务场景构建机器学习模型的过程中,可以对多种原始特征进行特征衍生处理,进而利用衍生特征来构建机器学习模型。
为了减少模型过拟合的风险,提高模型的准确性,可以对多种原始特征进行筛选,以从所述多种原始特征中筛选出比较重要的原始特征来构建机器学习模型。已有技术中,可以将多种原始特征划分为多个特征组,不同特征组中包含不同种类的原始特征。可以分别对每个特征组中的原始特征进行特征衍生处理,可以利用衍生特征来构建机器学习模型。可以将多个特征组所对应机器学习模型的性能进行对比,以选取性能最好的机器学习模型。这样能够获得性能最好的机器学习模型所对应的特征组,也实现了对所述多种原始特征进行筛选。
上述已有技术中,需要将多种原始特征划分为尽可能多的特征组,分别针对每个特征组来训练机器学习模型。造成对原始特征进行筛选时的计算量较大,占用了较多的计算资源,增加了计算机设备的运行负载。另外,也造成对原始特征进行筛选时的效率较低。
发明内容
本说明书实施例提供一种特征筛选方法、装置以及设备,用于降低对原始特征进行筛选时的计算量,降低计算资源的占用,提高对原始特征进行筛选时的效率。
本说明书实施例提了供一种特征筛选方法,包括:
对多种原始用户特征进行衍生处理,得到衍生用户特征;
根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;
获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度;
根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度;
根据第二重要性数据,对多种原始用户特征进行筛选。
本说明书实施例还提供了一种特征筛选装置,包括:
特征衍生模块,用于对多种原始用户特征进行衍生处理,得到衍生用户特征;
第一确定模块,用于根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;
获取模块,用于获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度;
第二确定模块,用于根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度;
筛选模块,用于根据第二重要性数据,对多种原始用户特征进行筛选。
本说明书实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述特征筛选方法。
本说明书实施例的特征筛选方法,可以对多种原始用户特征进行衍生处理,得到衍生用户特征;可以根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;可以获取衍生用户特征的第一重要性数据;可以根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据;可以根据第二重要性数据,对多种原始用户特征进行筛选。这样可以根据特征衍生过程中衍生用户特征与原始用户特征的映射关系,确定影响因子;可以根据衍生用户特征的第一重要性数据,结合影响因子,确定原始用户特征的第二重要性数据。所述第二重要性数据能够合理地表示原始用户特征的重要性。可以利用第二重要性数据,实现对原始用户特征的筛选,以帮助用户筛选出具有业务含义的关键用户特征。从而可以避免划分大量特征组,减小筛选时的计算量,降低计算机设备运行负载,提高筛选效率。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书实施例中特征筛选方法的流程示意图;
图2为本说明书实施例中特征筛选过程示意图;
图3为本说明书实施例中特征衍生方法的示意图;
图4为本说明书实施例中影响因子的示意图;
图5为本说明书实施例中特征筛选过程示意图;
图6为本说明书实施例中特征筛选装置的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开,而非对本公开的限定。基于所描述的本公开的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本公开保护的范围。另外,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
随着金融科技的不断发展,越来越多的人工智能技术应用于金融领域。在某些业务场景中,需要对用户的信用进行风险检测。为此,可以获取多种原始用户特征,可以对所述多种原始用户特征进行特征衍生处理,可以利用衍生用户特征来构建风险模型。所述风险模型可以用于对用户的信用进行风险检测。例如,检测用户的交易行为是否存在风险。
为了减少风险模型过拟合的风险,提高风险模型的准确性,可以对多种原始用户特征进行筛选,以从所述多种原始用户特征中筛选出比较重要的原始用户特征来构建风险模型。
由于在构建风险模型的过程中,是将衍生用户特征作为风险模型的入模特征。因此目前通过特征选择方法仅能够对作为入模特征的衍生用户特征进行筛选。已有技术中,可以将多种原始用户特征划分为多个特征组,不同特征组中包含不同种类的原始用户特征。可以分别对每个特征组中的原始用户特征进行特征衍生处理,可以利用衍生用户特征来构建风险模型。可以将多个特征组所对应风险模型的性能进行对比,以选取性能最好的风险模型。这样能够获得性能最好的风险模型所对应的特征组,也实现了对所述多种原始用户特征进行筛选。
上述已有技术中,需要将多种原始用户特征划分为尽可能多的特征组,分别针对每个特征组来训练机器学习模型。造成对原始用户特征进行筛选时的计算量较大,占用了较多的计算资源,降低了计算机设备的性能。另外,也造成对原始用户特征进行筛选时的效率较低。
以下以原始特征和衍生特征为用户特征,以模型为风险模型为例,介绍本说明书实施例的特征筛选方法。当然,本说明书并不排除原始特征和衍生特征为其它的业务特征,模型为其它的业务模型的实现方案。请一并参阅图1和图2。所述特征筛选方法可以应用于服务器、服务器集群或个人计算机等计算机设备。所述特征筛选方法可以包括以下步骤。
步骤11:对多种原始用户特征进行衍生处理,得到衍生用户特征。
在一些实施例中,所述多种原始用户特征可以对应多种表征维度。每种原始用户特征可以对应一种表征维度,用于基于该表征维度表征用户特性。每种原始用户特征具体可以包括一个或多个子原始用户特征。所述一个或多个子原始用户特征可以归属于一个或多个用户。
每个用户可以具有与所述多种表征维度相对应的多个子原始用户特征。所述多个子原始用户特征归属于所述多种原始用户特征。所述用户可以包括自然人用户和法人用户。
其中,每种原始用户特征可以对应一个数据列,每个用户可以对应一个数据行。
根据业务场景的不同,所述表征维度可以不同。
请参阅表1。在信用风险检测场景中,所述表征维度可以包括用户属性维度、用户行为维度。所述用户属性维度可以包括年龄、住址、收入等。所述用户行为维度可以包括账户数量、账户余额、交易金额、交易次数等。从而,所述多种原始用户特征可以包括用户属性特征和用户行为特征。所述用户属性特征可以包括年龄特征、性别特征、住址特征、收入特征。所述用户行为特征可以包括账户数量特征、账户余额特征、交易金额特征、交易次数特征等。所述用户还可以具有信用标签。所述信用标签用于表示用户的信用好坏程度。
表1
在一些实施例中,可以从至少一个数据源中获取多种原始用户特征。所述数据源可以包括具有运算和网络交互功能的电子设备。或者,所述数据源也可以包括具有一定功能的业务单元。所述数据源可以向本说明书实施例的计算机设备发送原始数据。本说明书实施例的计算机设备可以接收原始数据,可以对原始数据进行预处理,可以根据预处理后的原始数据获得所述多种原始用户特征。所述预处理可以包括缺失值填充、异常值处理、连续值标准化、连续值离散化等。预处理后的原始数据中可以包括多种类型的子数据。可以分别将每种类型的子数据作为一种原始用户特征。从而可以获得所述多种原始用户特征。
在一些实施例中,原始用户特征的种类数往往不会很大。而且原始用户特征也不能完全体现原始数据的信息。为了提高建模效果,可以采用特征衍生方法对所述多种原始用户特征进行衍生处理,得到多种衍生用户特征。从而实现对原始数据进行充分的挖掘。
所述多种衍生用户特征可以对应多种表征维度。每种衍生用户特征可以对应一种表征维度,用于基于该表征维度表征用户的特性。每种衍生用户特征具体可以包括一个或多个子衍生用户特征。所述一个或多个子衍生用户特征可以归属于一个或多个用户。
每个用户可以具有与所述多种表征维度相对应的多个子衍生用户特征。所述多个子衍生用户特征归属于所述多种衍生用户特征。每个用户还可以对应有用户标签。每个用户的多个子衍生用户特征及其对应的用户标签构成一个训练样本。所述训练样本用于训练业务模型。
其中,每个用户的子衍生用户特征可以基于该用户的一个或多个子原始用户特征衍生得到的。前已述及,每种原始用户特征可以对应一个数据列,每个用户可以对应一个数据行。则每种衍生用户特征可以对应通过特征衍生方法所扩展出的一个数据列。
例如,请参阅表1。可以采用特征衍生方法对住址特征进行衍生处理,得到衍生用户特征1和衍生用户特征2。可以采用特征衍生方法对年龄特征和收入特征进行衍生处理,得到衍生用户特征3。这样通过对表1中的多种原始用户特征进行衍生处理,可以形成如下的表2。
表2
在一些场景示例中,所述原始用户特征可以包括用户行为特征,所述用户行为特征用于表示用户行为。所述用户行为可以包括点击行为、交易行为、浏览行为、搜索行为、点击行为、观看行为、播放行为等。相应地,所述用户行为特征可以包括交易特征、浏览特征、搜索特征、点击特征、观看特征、播放特征等。则采用至少一种特征衍生方法对所述多种用户行为特征进行衍生处理所得到的多种衍生用户特征,可以包括多种用户行为特征。
在一些实施例中,特征衍生方法可以是利用已有特征进行某种组合从而生成新的特征。所述特征衍生方法可以包括基于业务的特征衍生方法和基于技术的特征衍生方法。基于业务的特征衍生方法可以从原始用户特征的业务含义出发衍生出新的特征。基于技术的特征衍生方法可以采用一些特定算法(例如加减乘除、笛卡尔积、one-hot编码等)衍生出新的特征。
请参阅图3。图3示出了一些可选的特征衍生方法。在实际应用中,可以采用一种特征衍生方法对所述多种原始用户特征进行衍生处理,得到多种衍生用户特征。当然也可以采用多种特征衍生方法对所述多种原始用户特征进行衍生处理,得到多种衍生用户特征。例如,所述特征衍生方法可以包括特征衍生算子。可以通过所述特征衍生算子,对至少一种原始用户特征下的子原始用户特征进行数学运算,得到至少一种衍生用户特征下的子衍生用户特征。
需要说明的是,在图3中,单变量特征衍生包括:只需要带入单独一个变量进行组合衍生。双变量特征衍生包括:需要两两组合进行特征衍生。多变量特征衍生包括:允许同时带入三个及以上的特征进行组合衍生。关键特征衍生与双变量特征衍生可以交叉使用。
通过特征衍生方法所衍生出的衍生用户特征,有可能缺乏可解释性,不具备业务含义。举个例子,原始用户特征可以包括收入特征和支出特征,则可以根据收入特征和支出特征计算得到收入支出比特征作为衍生用户特征。收入支出比特征是有意义的,是可解释的。但如果将收入特征乘以支出特征,那么所得到的衍生用户特征没有实际业务意义,是不可解释的。
在一些实施例中,可以根据所采用的特征衍生方法,确定衍生用户特征与原始用户特征的映射关系。具体地,可以根据特征衍生方法的输入和输出,确定衍生用户特征与原始用户特征的映射关系。特征衍生方法的输入可以包括原始用户特征,特征衍生方法的输出可以包括衍生用户特征。若衍生用户特征是由特征衍生方法基于原始用户特征生成的,则可以确定该衍生用户特征与该原始用户特征之间具有映射关系,否则可以确定不具有映射关系。
所述映射关系可以包括:一种原始用户特征对应一种衍生用户特征、一种原始用户特征对应多种衍生用户特征、多种原始用户特征对应一种衍生用户特征。例如,特征归一化、woe编码、特征转换等特征衍生方法所对应的映射关系为:一种原始用户特征对应一种衍生用户特征。one-hot编码、特征拆分等特征衍生方法所对应的映射关系为:一种原始用户特征对应多种衍生用户特征。特征组合等特征衍生方法所对应的映射关系为:多种原始用户特征对应一种衍生用户特征。所述特征组合包括两两组合、基于决策树的特征组合等。
在一些实施例中,可以根据衍生用户特征训练风险模型,例如可以根据多种衍生用户特征和用户标签训练风险模型。所述风险模型用于进行风险预测。所述风险模型可以包括信用风险模型、交易风险模型、行为风险模型等。所述信用风险模型用于对用户的信用进行风险检测。所述交易风险模型用于对用户的交易进行风险检测。所述行为风险模型用于对用户的行为进行风险检测。所述风险模型可以包括风险评分模型、风险分类模型等。
在实际应用中,可以直接根据多种衍生用户特征训练风险模型。或者,还可以通过特征选择方法对所述多种衍生用户特征进行选择,可以根据选择出的衍生用户特征训练风险模型。这样可以从所述多种衍生用户特征中选择出比较重要的衍生用户特征来训练风险模型。从而可以减少入模特征的维度,降低计算复杂度和成本,提高建模效率。
所述特征选择方法可以包括过滤式方法、包裹式方法、嵌入式方法等。所述过滤式方法可以通过计算特征与目标变量之间的相关性或其他统计指标,去除无用的特征。所述过滤式方法可以包括方差选择、互信息选择、卡方检验、相关系数选择等。所述包裹式方法通过评估不同特征组合的性能,选择最优的特征组合。所述包裹式方法可以包括递归特征消除、基于遗传算法的特征选择等。所述嵌入式方法通过在模型训练过程中调整特征权重,以选择最优的特征组合。所述嵌入式方法可以包括L1正则化、决策树特征选择等。
例如,所述多种原始用户特征可以包括T={T1,T2,……,Tn|n=5}。可以通过至少一种特征衍生方法对所述多种原始用户特征进行衍生处理,得到多种衍生用户特征。所述多种衍生用户特征可以包括F={F1,F2,……,Fn|n=100}。可以通过特征选择方法对所述多种衍生用户特征进行选择,得到f={f1,f2,……,fn|n=20}。可以将f={f1,f2,……,fn|n=20}作为风险模型的入模特征。从而可以根据f={f1,f2,……,fn|n=20}训练得到风险模型。
步骤12:根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力。
在一些实施例中,所述影响因子(influence coefficient)可以用于表示衍生用户特征对原始用户特征的影响力。通过所述影响因子,可以对衍生用户特征对原始用户特征的影响力进行量化,便于由衍生用户特征的第一重要性数据确定原始用户特征的第二重要性数据。
例如,所述原始用户特征和所述衍生用户特征可以包括用户行为特征,则所述影响因子可以用于表示衍生用户特征对原始用户特征在用户行为表征方面的影响力。当然,根据所述原始用户特征和所述衍生用户特征的不同,所述影响因子还可以表示其它方面的影响力。
在一些实施例中,可以根据衍生用户特征与原始用户特征之间是否存在映射关系,确定衍生用户特征与原始用户特征的影响因子。具体地,针对所述多种原始用户特征中的每种原始用户特征,可以分别判断该原始用户特征与所述多种衍生用户特征中各衍生用户特征之间是否存在映射关系。若原始用户特征与衍生用户特征之间存在映射关系,则可以确定原始用户特征与衍生用户特征的影响因子为第一设定值;若原始用户特征与衍生用户特征之间不存在映射关系,则可以确定原始用户特征与衍生用户特征的影响因子为第二设定值。这样便可以获得所述多种原始用户特征中的每种原始用户特征与各衍生用户特征之间的影响因子。
其中,所述第一设定值可以为1,所述第二设定值可以为0。当然,此处的1和0仅为示例,在实际中所述第一设定值和所述第二设定值还可以为其他的数值。
在一些实施例中,考虑到由原始用户特征衍生出的衍生用户特征的种类数越多,则衍生用户特征对该原始用户特征的影响力越小。为了能够更加准确地表达衍生用户特征对原始用户特征的影响力,还可以统计与原始用户特征之间存在映射关系的衍生用户特征的数量;可以根据统计的数量,确定衍生用户特征与原始用户特征之间的影响因子。具体地,针对所述多种原始用户特征中的每种原始用户特征,可以分别判断该原始用户特征与所述多种衍生用户特征中各衍生用户特征之间是否存在映射关系。若原始用户特征与衍生用户特征之间存在映射关系,可以统计与原始用户特征之间存在映射关系的衍生用户特征的数量,可以根据统计的数量,确定原始用户特征与衍生用户特征之间的影响因子。例如,可以将所述数量的倒数作为原始用户特征与衍生用户特征之间影响因子的取值。若原始用户特征与衍生用户特征之间不存在映射关系,则可以确定原始用户特征与衍生用户特征的影响因子为第二设定值。
例如,若由某种原始用户特征衍生得到了m种衍生用户特征。则该原始用户特征与所述m种衍生用户特征中各衍生用户特征之间的影响因子为m可以为大于或等于1的整数。
具体地,例如,请参阅图4。衍生用户特征与原始用户特征的映射关系可以包括:一种原始用户特征对应一种衍生用户特征、一种原始用户特征对应多种衍生用户特征、多种原始用户特征对应一种衍生用户特征。若一种原始用户特征对应一种衍生用户特征,则该原始用户特征与该衍生用户特征的影响因子可以为1。若一种原始用户特征对应x种衍生用户特征,则该原始用户特征与各衍生用户特征的影响因子分别为x为大于1的整数。若多种原始用
户特征对应一种衍生用户特征。则各原始用户特征与衍生用户特征的影响因子分别为1。
当然,此处的倒数仅为示例。还可以根据所述数量计算其他数值作为影响因子的取值。
步骤13:获取衍生用户特征的第一重要性数据。
在一些实施例中,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度。所述第一重要性数据的大小与所述影响程度的大小呈正相关。所述第一重要性数据可以为数值。例如,所述第一重要性数据可以为重要性系数。当然所述第一重要性数据还可以为重要性级别。本说明书实施例对第一重要性数据的具体形式不做具体限定。
在一些实施例中,可以根据衍生用户特征训练风险模型;可以根据训练得到的风险模型,确定衍生用户特征的第一重要性数据。根据风险模型类型的不同,确定第一重要性数据的方法也不同。可以根据风险模型的类型,从预设的多个特征重要性算法中选择相应的特征重要性算法;可以利用选择的特征重要性算法,结合训练得到的风险模型,确定第一重要性数据。
例如,所述风险模型可以为决策树。则可以通过分析决策树的结构和节点的重要性来计算特征的重要性。具体地,可以采用基于信息增益的方法、基于基尼指数的方法等来计算衍生用户特征的第一重要性数据。所述基于信息增益的方法根据特征对信息熵的影响程度来计算特征的重要性。所述基于基尼指数的方法根据特征对基尼指数的影响程度来计算特征的重要性。再比如,所述风险模型可以为线性模型,所述线性模型可以包括线性回归模型、线性分类模型。所述线性模型中可以包括权重。则可以通过分析权重的大小来计算特征的重要性。具体地,可以对权重进行L1正则化或L2正则化等,得到特征的重要性。再比如,所述风险模型可以为随机森林。则通过分析随机森林中每个决策树的结构和节点的重要性来计算特征的重要性。具体地,可以采用基于平均减少不纯度的方法、基于排列重要性的方法等来计算特征的重要性。所述基于平均减少不纯度的方法根据特征对随机森林中每个决策树不纯度的影响程度来计算特征的重要性。所述基于排列重要性的方法通过随机打乱特征的取值,计算特征对模型预测结果的影响程度来计算特征的重要性。再比如,所述风险模型可以为神经网络模型。则可以采用基于SHAP(SHapley Additive exPlanations)值的方法来计算特征的重要性。
可以直接根据多种衍生用户特征来训练风险模型;可以根据训练得到的风险模型,确定各种衍生用户特征的第一重要性数据。或者,还可以对所述多种衍生用户特征进行划分,得到训练集和测试集。所述训练集可以包括所述多种衍生用户特征中一部分子衍生用户特征。所述测试集可以包括所述多种衍生用户特征中另一部分子衍生用户特征。可以根据训练集训练风险模型;可以根据测试集测试风险模型的性能指标。若风险模型的性能指标能够满足设定条件,则可以认为训练得到的风险模型满足需求,从而可以根据训练得到的风险模型,确定各种衍生用户特征的第一重要性数据。若风险模型的性能指标不满足设定条件,则可以根据训练集继续对风险模型进行训练,直至风险模型的性能指标能够满足设定条件。
步骤14:根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据。
在一些实施例中,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度。所述第二重要性数据的大小与所述影响程度的大小呈正相关。所述第二重要性数据可以为数值。例如,所述第二重要性数据可以为重要性系数。当然所述第二重要性数据还可以为重要性级别。本说明书实施例对第二重要性数据的具体形式不做具体限定。
在一些实施例中,针对所述多种原始用户特征中的每种原始用户特征,可以从所述多种衍生用户特征中确定出与该原始用户特征之间存在映射关系的各种衍生用户特征;可以根据所述各种衍生用户特征与该原始用户特征之间的影响因子,对所述各种衍生用户特征的第一重要性数据进行聚合,得到该原始用户特征的第二重要性数据。
具体地,例如,可以通过公式计算原始用户特征的第二重要性数据。Imp(Ti)表示原始用户特征Ti的第二重要性数据。n表示步骤11所衍生得到的衍生用户特征的数量。Imp(Fk)表示衍生用户特征Fk的第一重要性数据。IC(TiFk)表示原始用户特征Ti与衍生用户特征Fk之间的影响因子。若衍生用户特征Fk与原始用户特征Ti之间存在映射关系,则IC(TiFk)的取值可以为1,否则IC(TiFk)的取值可以为0。
再比如,也可以通过公式计算原始用户特征的第二重要性数据。Imp(Ti)表示原始用户特征Ti的第二重要性数据。n表示步骤11所衍生得到的衍生用户特征的数量。Imp(Fk)表示衍生用户特征Fk的第一重要性数据。/>表示原始用户特征Ti与衍生用户特征Fk之间的影响因子。m表示由原始用户特征Ti所衍生出的衍生用户特征的数量(即,与原始用户特征Ti之间存在映射关系的衍生用户特征的数量)。在所述影响因子/>中,若衍生用户特征Fk与原始用户特征Ti之间存在映射关系,则IC(TiFk)的取值可以为1,否则IC(TiFk)的取值可以为0。
步骤15:根据第二重要性数据,对多种原始用户特征进行筛选。
在一些实施例中,经过步骤14,可以获得所述多种原始用户特征中每种原始用户特征的第二重要性数据。通过第二重要性数据,可以对原始用户特征的重要程度进行量化,便于对所述多种原始用户特征进行筛选。通过对多种原始用户特征进行筛选,以筛选出比较重要的原始用户特征来构建风险模型,有助于减少业务模型的复杂度,降低业务模型过拟合的风险。
在一些实施例中,可以从所述多种原始用户特征中,选取第二重要数据最大的设定数量个原始用户特征。或者,也可以选取第二重要性数据大于或等于设定阈值的原始用户特征。
在一些实施例中,可以根据衍生用户特征训练风险模型,所述风险模型用于风险预测;可以获取训练得到的风险模型的性能指标。所述性能指标包括精确率、准确率和召回率等。
进一步地,请参阅图5。可以基于筛选出的一种或多种原始用户特征,迭代执行步骤11-步骤15、根据衍生用户特征训练风险模型的步骤、以及获取风险模型性能指标的步骤,直至风险模型的性能指标满足设定条件。在迭代结束后,可以将筛选出的一种或多种原始用户特征确定为关键用户特征。所述关键用户特征是可解释的,具备业务含义。另外,在迭代结束以后,还可以输出最终训练得到的风险模型。这样通过迭代可以使建模效果自我收敛到最优。另外,还可以通过最终输出的风险模型进行风险预测。例如,可以将用户数据输入训练得到的风险模型,以对用户的信用风险进行检测,具体地,例如,可以检测用户的交易行为是否存在风险。或者,还可以将用户行为数据输入训练得到的风险模型,得到风险模型的输出。所述风险模型的输出用于表示用户行为是否存在风险。
本说明书实施例的特征筛选方法,可以对多种原始用户特征进行衍生处理,得到衍生用户特征;可以根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;可以获取衍生用户特征的第一重要性数据;可以根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据;可以根据第二重要性数据,对多种原始用户特征进行筛选。这样可以根据特征衍生过程中衍生用户特征与原始用户特征的映射关系,确定影响因子;可以根据衍生用户特征的第一重要性数据,结合影响因子,确定原始用户特征的第二重要性数据。所述第二重要性数据能够合理地表示原始用户特征的重要性。可以利用第二重要性数据,实现对原始用户特征的筛选,以帮助用户筛选出具有业务含义的关键用户特征。从而可以避免划分大量特征组,减小筛选时的计算量,降低计算机设备运行负载,提高筛选效率。
以下介绍本说明书实施例技术方案所涉及的一种***。所述***可以包括模型训练设备和风险预测设备。所述风险预测设备可以从至少一个数据源中获取多种原始用户特征;可以向所述模型训练设备发送多种原始用户特征。所述模型训练设备可以接收所述多种原始用户特征;可以基于所述多种原始用户特征,迭代执行步骤11-步骤15、根据衍生用户特征训练风险模型的步骤、以及获取风险模型性能指标的步骤,直至风险模型的性能指标满足设定条件。在迭代结束后,可以获得训练得到的风险模型。所述模型训练设备可以向所述风险预测设备发送风险模型。所述风险预测设备可以接收风险模型,可以根据风险模型进行风险预测。例如,可以将用户数据输入训练得到的风险模型,以对用户的信用风险进行检测,具体地,例如,可以检测用户的交易行为是否存在风险。或者,还可以将用户行为数据输入训练得到的风险模型,得到风险模型的输出。所述风险模型的输出用于表示用户行为是否存在风险。
请参阅图6。本说明书实施例还提供一种特征筛选装置,包括以下模块。
特征衍生模块21,用于对多种原始用户特征进行衍生处理,得到衍生用户特征;
第一确定模块22,用于根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;
获取模块23,用于获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度;
第二确定模块24,用于根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度;
筛选模块25,用于根据第二重要性数据,对多种原始用户特征进行筛选。
本说明书实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述特征筛选方法。
本说明书实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述特征筛选方法。
本说明书实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述特征筛选方法。
本领域内的技术人员能够理解,本说明书可提供为方法、***、或计算机程序产品。因此本说明书可采用完全硬件实施例、完全软件实施例、或结合软件和硬件的实施例的形式。而且,本说明书可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本说明书是参照本说明书实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。所述计算机可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
本说明书实施例中的各个功能单元可以集成在一个处理单元中,也可以是各个功能单元单独物理存在,也可以是两个或两个以上功能单元集成在一个处理单元中。
本领域的技术人员能够理解,本说明书对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。另外,可以理解的是,本领域技术人员在阅读本说明书文件之后,可以无需创造性劳动想到将本说明书列举的部分或全部实施例进行任意组合,这些组合也在本说明书公开和保护的范围内。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,以上实施例只是用于帮助理解本说明书的核心思想。本领域的技术人员能够理解,本说明书还有许多变形和变化。希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。
Claims (10)
1.一种特征筛选方法,其特征在于,包括:
对多种原始用户特征进行衍生处理,得到衍生用户特征;
根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;
获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度;
根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度;
根据第二重要性数据,对多种原始用户特征进行筛选。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从至少一个数据源中获取多种原始用户特征;
在对原始用户特征进行衍生处理的步骤中包括:
采用特征衍生方法对所述多种原始用户特征进行衍生处理,得到多种衍生用户特征;
根据特征衍生方法,确定衍生用户特征与原始用户特征的映射关系。
3.根据权利要求1所述的方法,其特征在于,在确定影响因子的步骤中包括:
根据衍生用户特征与原始用户特征之间是否存在映射关系,确定所述影响因子。
4.根据权利要求1所述的方法,其特征在于,在确定影响因子的步骤中包括:
统计与原始用户特征之间存在映射关系的衍生用户特征的数量;
根据统计的数量,确定衍生用户特征与原始用户特征之间的影响因子。
5.根据权利要求1所述的方法,其特征在于,在获取第一重要性数据的步骤中包括:
根据衍生用户特征训练风险模型,所述风险模型用于进行风险预测;
根据训练得到的风险模型,确定衍生用户特征的第一重要性数据。
6.根据权利要求1所述的方法,其特征在于,在确定第二重要性数据的步骤中包括:
确定与原始用户特征之间存在映射关系的各种衍生用户特征;
根据影响因子,对各种衍生用户特征的第一重要性数据进行聚合,得到第二重要性数据。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据衍生用户特征训练风险模型,所述风险模型用于进行风险预测;
获取训练得到的风险模型的性能指标。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
基于筛选出的原始用户特征,迭代执行衍生处理步骤、确定影响因子步骤、获取第一重要性数据步骤、确定第二重要性数据步骤、筛选原始用户特征步骤、训练风险模型步骤、获取风险模型性能指标步骤,直至风险模型的性能指标满足设定条件;
在迭代结束后,将用户数据输入训练得到的风险模型,以对用户的信用进行风险检测。
9.一种特征筛选装置,其特征在于,包括:
特征衍生模块,用于对多种原始用户特征进行衍生处理,得到衍生用户特征;
第一确定模块,用于根据衍生用户特征与原始用户特征的映射关系,确定衍生用户特征与原始用户特征的影响因子,所述影响因子用于表示衍生用户特征对原始用户特征的影响力;
获取模块,用于获取衍生用户特征的第一重要性数据,所述衍生用户特征用于训练风险模型,所述第一重要性数据用于表示衍生用户特征对风险模型预测结果的影响程度;
第二确定模块,用于根据第一重要性数据和影响因子,确定多种原始用户特征的第二重要性数据,所述第二重要性数据用于表示原始用户特征对风险模型预测结果的影响程度;
筛选模块,用于根据第二重要性数据,对多种原始用户特征进行筛选。
10.一种计算机设备,其特征在于,包括:
处理器;用于存储处理器可执行指令的存储器;
所述处理器通过执行所述指令以实现如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520467.4A CN117520804A (zh) | 2023-11-14 | 2023-11-14 | 特征筛选方法、装置以及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311520467.4A CN117520804A (zh) | 2023-11-14 | 2023-11-14 | 特征筛选方法、装置以及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117520804A true CN117520804A (zh) | 2024-02-06 |
Family
ID=89750895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311520467.4A Pending CN117520804A (zh) | 2023-11-14 | 2023-11-14 | 特征筛选方法、装置以及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117520804A (zh) |
-
2023
- 2023-11-14 CN CN202311520467.4A patent/CN117520804A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818344B (zh) | 用户行为进行分类和预测的方法和*** | |
CN106485562B (zh) | 一种基于用户历史行为的商品信息推荐方法及*** | |
CN111597348B (zh) | 用户画像方法、装置、计算机设备和存储介质 | |
CN111080360B (zh) | 行为预测方法、模型训练方法、装置、服务器及存储介质 | |
CN111797321A (zh) | 一种面向不同场景的个性化知识推荐方法及*** | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和*** | |
CN112329816A (zh) | 数据分类方法、装置、电子设备和可读存储介质 | |
CN110647995A (zh) | 规则训练方法、装置、设备及存储介质 | |
CN112131322B (zh) | 时间序列分类方法及装置 | |
CN110472659B (zh) | 数据处理方法、装置、计算机可读存储介质和计算机设备 | |
CN115204985A (zh) | 购物行为预测方法、装置、设备及存储介质 | |
CN114443958A (zh) | 一种推荐方法、推荐***及推荐***训练方法 | |
CN113656699B (zh) | 用户特征向量确定方法、相关设备及介质 | |
CN112487021B (zh) | 业务数据的关联分析方法、装置及设备 | |
CN117235633A (zh) | 机构分类方法、装置、计算机设备及存储介质 | |
CN111859057A (zh) | 数据特征处理方法及数据特征处理装置 | |
CN113780666B (zh) | 一种缺失值的预测方法及装置、可读存储介质 | |
CN117520804A (zh) | 特征筛选方法、装置以及设备 | |
CN115618297A (zh) | 识别异常企业的方法及其装置 | |
CN114170000A (zh) | ***用户风险类别识别方法、装置、计算机设备和介质 | |
CN116523546B (zh) | 智能读者行为分析预测***数据采集分析的方法和装置 | |
CN113705873B (zh) | 影视作品评分预测模型的构建方法及评分预测方法 | |
CN116383638A (zh) | 一种推荐模型的训练方法及装置 | |
CN117312912A (zh) | 业务数据分类预测模型的生成方法、装置及计算机设备 | |
CN117973510A (zh) | 数据分析方法、装置、设备、可读存储介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |