CN116226744A - 一种用户分类的方法、装置及设备 - Google Patents
一种用户分类的方法、装置及设备 Download PDFInfo
- Publication number
- CN116226744A CN116226744A CN202310256664.3A CN202310256664A CN116226744A CN 116226744 A CN116226744 A CN 116226744A CN 202310256664 A CN202310256664 A CN 202310256664A CN 116226744 A CN116226744 A CN 116226744A
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- classifier
- user
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 102
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000012797 qualification Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 230000002688 persistence Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种用户分类的方法、装置及设备,获取目标用户的多个特征维度的用户数据,并将属于目标特征空间的数据作为输入数据,输入第一分类器中,得到第一分类器输出的用户类型。其中,目标特征空间包括多个特征子空间,每个特征子空间包括一个或者多个特征维度。第一分类器是由多个第二分类器构成的。每个第二分类器用于处理一个特征子空间的输入数据。如此,利用由第二分类器构成第一分类器,能够针对不同特征维度的用户数据分别进行处理,得到第一分类器输出的较为准确的用户类型。
Description
技术领域
本申请涉及数据处理技术领域,具体涉及一种用户分类的方法、装置及设备。
背景技术
对于部分服务,需要审核申请的用户的资格,以降低服务风险。比如,用户在申请部分金融服务后,需要先对用户的资质进行审核。用户的资质符合金融服务的要求后,才能为用户提供服务。
目前,用户的信息内容较多,难以较为准确地对用户进行分类,确定审核用户是否能够满足服务的要求,导致无法确定服务风险,难以为用户提供较为合适的服务。
发明内容
有鉴于此,本申请实施例提供一种用户分类的方法、装置及设备,能够较为准确地对用户进行分类,进而能够为用户提供较为合适的服务。
基于此,本申请提供的技术方案如下:
第一方面,本申请提供一种用户分类的方法,所述方法包括:
获取目标用户的多个特征维度的用户数据;
将属于目标特征空间的用户数据作为输入数据,所述目标特征空间包括多个特征子空间,所述每个特征子空间包括一个或者多个特征维度;
将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型,所述第一分类器由多个第二分类器集成得到,所述第二分类器用于处理属于所述特征子空间的输入数据。
在一种可能的实现方式中,所述第一分类器是采用如下方式训练得到的:
获取原始数据以及所述原始数据的特征维度;
对所述原始数据进行预处理,得到训练数据集,所述训练数据集包括N个特征子空间,所述每个特征子空间包括至少一个特征维度的原始数据,所述N为正整数;
从所述训练数据集中获取训练样本,所述训练样本包括M个特征子空间的原始数据,所述M为小于或者等于N的正整数;
利用所述训练样本训练得到第一分类器,所述第一分类器用于基于输入的客户数据输出客户类型。
在一种可能的实现方式中,所述对所述原始数据进行预处理,包括:
根据所述原始数据的特征维度,对所述原始数据进行处理。
在一种可能的实现方式中,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
将特征维度的空值率大于第一阈值的所述原始数据删除,所述特征维度的空值率用于衡量特征维度的原始数据的有效性。
在一种可能的实现方式中,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
合并相关性数值大于第二阈值的至少两个特征维度,构成特征子空间,所述相关性数值用于指示特征维度之间的相关程度。
在一种可能的实现方式中,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行数值化处理,得到训练数据集。
在一种可能的实现方式中,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行分箱操作,得到训练数据集。
在一种可能的实现方式中,所述利用所述训练样本训练得到第一分类器,包括:
利用所述训练样本包括的每一个特征子空间的原始数据,训练得到M个第二分类器;
将所述M个第二分类器集成,得到所述第一分类器。
第二方面,本申请提供一种用户分类的装置,所述装置包括:
获取单元,用于获取目标用户的多个特征维度的用户数据;
处理单元,用于将属于目标特征空间的用户数据作为输入数据,所述目标特征空间包括多个特征子空间,所述每个特征子空间包括一个或者多个特征维度;
分类单元,用于将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型,所述第一分类器由多个第二分类器集成得到,所述第二分类器用于处理属于所述特征子空间的输入数据。
在一种可能的实现方式中,所述第一分类器是采用如下方式训练得到的:
获取原始数据以及所述原始数据的特征维度;
对所述原始数据进行预处理,得到训练数据集,所述训练数据集包括N个特征子空间,所述每个特征子空间包括至少一个特征维度的原始数据,所述N为正整数;
从所述训练数据集中获取训练样本,所述训练样本包括M个特征子空间的原始数据,所述M为小于或者等于N的正整数;
利用所述训练样本训练得到第一分类器,所述第一分类器用于基于输入的客户数据输出客户类型。
在一种可能的实现方式中,所述对所述原始数据进行预处理,包括:
根据所述原始数据的特征维度,对所述原始数据进行处理。
在一种可能的实现方式中,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
将特征维度的空值率大于第一阈值的所述原始数据删除,所述特征维度的空值率用于衡量特征维度的原始数据的有效性。
在一种可能的实现方式中,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
合并相关性数值大于第二阈值的至少两个特征维度,构成特征子空间,所述相关性数值用于指示特征维度之间的相关程度。
在一种可能的实现方式中,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行数值化处理,得到训练数据集。
在一种可能的实现方式中,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行分箱操作,得到训练数据集。
在一种可能的实现方式中,所述利用所述训练样本训练得到第一分类器,包括:
利用所述训练样本包括的每一个特征子空间的原始数据,训练得到M个第二分类器;
将所述M个第二分类器集成,得到所述第一分类器。
第三方面,本申请提供一种用户分类设备,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述第一方面所述的方法。
第四方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述任一项实施例所述的方法。
由此可见,本申请实施例具有如下有益效果:
本申请实施例提供的一种用户分类的方法、装置及设备,获取目标用户的多个特征维度的用户数据,并将属于目标特征空间的数据作为输入数据,输入第一分类器中,得到第一分类器输出的用户类型。其中,目标特征空间包括多个特征子空间,每个特征子空间包括一个或者多个特征维度。第一分类器是由多个第二分类器构成的。每个第二分类器用于处理一个特征子空间的输入数据。如此,利用由第二分类器构成第一分类器,能够针对不同特征维度的用户数据分别进行处理,得到第一分类器输出的较为准确的用户类型。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种用户分类的方法的流程图;
图2为本申请实施例提供的一种特征维度的分布示意图;
图3为本申请实施例提供的一种用户从事行业的原始数据的分布图;
图4为本申请实施例提供的一种第一分类器的结构示意图;
图5为本申请实施例提供的一种用户分类的装置的结构示意图。
具体实施方式
为了便于理解和解释本申请实施例提供的技术方案,下面将先对本申请的背景技术进行说明。
对于部分金融服务而言,需要对申请服务的用户进行资质的审核。比如,对于小微商户申请金融服务时,需要对小微商户的资质进行评估,确定小微商户的负债能力和信用资质。通常资质评估主要通过申请评分卡(Application ScoreCard),结合申请用户信息比如个人信息、账户信息、消费行为以及还款行为等来建模分析。但是,用户的信息较多,难以对用户的信息进行较为准确地分析,确定用户是否能够使用该服务。
基于此,本申请实施例提供一种用户分类的方法、装置及设备,获取目标用户的多个特征维度的用户数据,并将属于目标特征空间的数据作为输入数据,输入第一分类器中,得到第一分类器输出的用户类型。其中,目标特征空间包括多个特征子空间,每个特征子空间包括一个或者多个特征维度。第一分类器是由多个第二分类器构成的。每个第二分类器用于处理一个特征子空间的输入数据。如此,利用由第二分类器构成第一分类器,能够针对不同特征维度的用户数据分别进行处理,得到第一分类器输出的较为准确的用户类型。
为了便于理解本申请实施例提供的技术方案,下面结合附图对本申请实施例提供的一种用户分类的方法进行说明。
参见图1所示,该图为本申请实施例提供的一种用户分类的方法的流程图,该方法包括步骤S101-S103。
S101:获取目标用户的多个特征维度的用户数据。
目标用户的用户数据可以是与确定目标用户是否能够使用服务相关的数据。目标用户的用户数据可以是由目标用户提供的。
获取的用户数据是多个特征维度的数据。其中,特征维度是用于划分用户数据的。本申请实施例不限定特征维度的划分方式,可以基于对用户数据的分类方式确定。
作为一种示例,特征维度可以是以下维度:
用户所属机构、用户年龄、用户申请金额、服务期限,用户的性别、用户的出生日期、行业代码、交易终端总数、交易终端数量、月万元以上交易总金额、月***刷卡金额占比、申请机构、申请金额、申请金额用途等等。
S102:将属于目标特征空间的用户数据作为输入数据。
目标特征空间包括多个特征子空间。每个特征子空间包括一个或者多个特征维度。特征子空间包括相关度较高的特征维度。
以上述特征维度为例,可以将上述特征维度划分为四个特征子空间。请参见表1所示。
表1
目标特征空间包括一个或者多个特征子空间。目标特征空间所包括的特征子空间,可以基于分类需要确定。比如,需要基于用户的基本信息的数据和申请信息的数据进行分类时,目标特征空间可以包括基本信息子空间和申请信息子空间。
在获取用户数据后,可以基于目标特征空间所包括的特征子空间,确定特征子空间包括的特征维度。将属于该特征维度的用户数据,确定为输入数据。
以上述目标特征空间包括基本信息子空间和申请信息子空间为例,可以根据用户数据的特征维度,确定属于目标特征空间的用户数据,也就是特征维度属于基本信息子空间的用户数据,以及特征维度属于申请信息子空间的用户数据。
S103:将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型。
第一分类器由多个第二分类器集成得到。其中,第二分类器对应于特征子空间。第二分类器用于处理属于对应的特征子空间的输入数据。
在一种可能的实现方式中,本申请实施例提供一种训练第一分类器的方法,具体请参见下文。
以上述目标特征空间包括基本信息子空间和申请信息子空间为例,第一分类器包括两个第二分类器。一个第二分类器用于处理属于基本信息子空间的输入数据。另一个第二分类器用于处理属于申请信息子空间的输入数据。
第一分类器能够基于输入数据输出用户类型。具体的,第二分类器可以基于输入的属于特征子空间的输入数据,输出分类结果。第一分类器能够基于第二分类器的分类结果,得到用户类型。
需要说明的是,集成第一分类器的第二分类器可以是由用户分类需求确定的。对于提供不同的服务,可以选择对应于不同的特征子空间的第二分类器集成第一分类器。又或者,可以调整第二分类器输出的分类结果对第一分类器输出的用户类型到的影响程度,也就是第二分类器输出的分类结果的权重。
如此能够基于服务的个性化需求,选择不同的第二服务器集成得到针对服务的第一服务器,得到针对该服务的较为准确的分类结果。
在一种可能的实现方式中,第一分类器输出的用户类型可以是目标用户为该用户类型的概率值。此外,还可以预先设置用户类型的比例,基于第一分类器输出的目标用户为用户类型的概率值以及预先设置用户类型的比例,将概率值转换为评分值。
基于上述S101-S103的相关内容可知,获取目标用户的多个特征维度的用户数据,并将属于目标特征空间的数据作为输入数据,输入第一分类器中,得到第一分类器输出的用户类型。其中,目标特征空间包括多个特征子空间,每个特征子空间包括一个或者多个特征维度。第一分类器是由多个第二分类器构成的。每个第二分类器用于处理一个特征子空间的输入数据。如此,利用由第二分类器构成第一分类器,能够针对不同特征维度的用户数据分别进行处理,得到第一分类器输出的较为准确的用户类型。
在一种可能的实现方式中,可以将生成的第一分类器的数据转化为模型文件,以便调用。具体的,可以使用pickle(一种数据持久化工具)对第一分类器进行持久化存储。
本申请实施例提供一种第一分类器的训练方法,包括以下四个步骤:
A1:获取原始数据以及所述原始数据的特征维度。
原始数据是用于生成训练数据的。原始数据可以是在用户授权后获取的历史数据,也可以是基于真实数据编写的数据。
其中,特征维度是用于划分原始数据的。本申请实施例不限定特征维度的划分方式,可以基于对原始数据的分类方式确定。原始数据的特征维度的划分方式,可以与用户数据的特征维度的划分方式一致。
在获取原始数据时,可以基于较粗粒度的划分方式先对原始数据进行划分。比如,可以获取的原始数据划分为6个分类的原始数据。具体可以包括用户基础数据、用户交易数据、用户风险数据、历史服务数据、第三方信用数据以及综合数据。其中,用户基础数据可以包括用户的交易终端数量,用户年龄,用户学历等。用户交易数据可以包括当月交易金额、月万元以上交易金额、最近3个月交易金额、最近半年交易金额、同比交易波动、环比交易波动、同一机构行业交易排名等。用户风险数据可以包括最近6个月风险发生次数、预警级别风险触发次数、警告级别风险出发次数、风险触发次数、风险级别等。历史服务数据包括服务申请次数、使用服务个数、逾期情况等。第三方信用数据可以包括如营业执照/统一信用代码是否异常、注销,是否属于其他机构黑名单等。综合数据可以包括年交易是否波动、所在地区是否属于风险地区、行业排名占比等。
需要说明的是,原始数据的分类可以与原始数据的特征维度无关。通过对原始数据分类,便于对原始数据进行处理,也便于获取原始数据。
A2:对所述原始数据进行预处理,得到训练数据集。
对获取的原始数据进行预处理,能够得到训练数据集。训练数据集是用于选取训练样本的。训练数据集包括N个特征子空间,所述每个特征子空间包括至少一个特征维度的原始数据。其中,N为正整数。
在一种可能的实现方式中,本申请实施例提供三种预处理的具体实现方式。
方式一:根据原始数据的特征维度,对原始数据进行处理。
基于原始数据的特征维度,能够对原始数据进行删除或者特征维度合并的操作。
一种可能的实现方式中,可以根据获取的原始数据的特征维度,计算各个特征维度的空值率。特征维度的空值率用于衡量特征维度的原始数据的有效性。当特征维度的空值率小于第一阈值时,说明该原始数据为空值,或者为空值的原始数据在该特征维度的原始数据中占比较高。第一阈值例如可以为1。
将特征维度的空值率大于第一阈值的所述原始数据删除。如此,能够清除空值较多的特征维度的原始数据,提高训练数据集中数据的有效性。
另一种可能的实现方式中,合并相关性数值大于第二阈值的至少两个特征维度,构成特征子空间。
其中,相关性数值用于指示特征维度之间的相关程度。
具体的,可以采用K-Means聚类算法对于特征维度进行聚类。根据聚类结果进行排序,再以相关矩阵展示。基于高相关的区块找到特征维度的相关性,如下图2的正常终端数(Normal_terminals)与终端数(Terminals)的分布相关性较高,存在共线性可能。则正常终端数和终端数之间的相关程度较高,相关性数值较高。如此,可以将正常终端数和终端数合并构成终端信息子空间。
方式二:对所述原始数据进行数值化处理,得到训练数据集。
部分原始数据可能是字符型数据。可以将字符型数据的原始数据进行数值化处理,得到数值型的原始数据。比如说,可以将状态情况的数据转化为具体的数值。具体可以基于预先建立的字典对字符型数据进行数值化处理。
在对原始数据进行数值化处理后,得到均是数值型的原始数据。
进一步的,还可以对同一个特征维度的原始数据进行数值分布的分析。基于数值的分布情况确定是否删除该特征维度的原始数据。如果数值的分布较为均匀,则可以用于构成训练数据集。如果数值的分别不均匀,则可以删除该特征维度的原始数据。
如以用户从事行业为例,将所属行业依照字典数值化为对应的行业代码。然后对用户从事行业这一特征维度的原始数据进行分布分析。
图3是本申请实施例提供的一种用户从事行业的原始数据的分布图。其中,横坐标为行业代码,纵坐标为用户数量。
方式三:对所述原始数据进行分箱操作,得到训练数据集。
可以采用使用WOE(Weight of Evidence,证据权重)编码对原始数据进行线性分箱,即将连续取值的原始数据离散化,或者将离散取值的原始数据合并。
比如对于年龄,可以将原始数据为20岁-30岁的,调整数据值为0,原始数据为30岁-40岁的,调整数据值为1。
如此,特征维度所能包含的信息量更加多样化。基于训练数据集训练得到的第一分类器适配性更强。
进一步的,还可以采用SMOTE不平衡过采样方法,来对原始数据进行调整,减少正反例的极值分布,尽量均衡原始数据的分布。
需要说明的是,本申请实施例不限定预处理的具体实现方式,可以采用上述三种方式中的一种或者多种。
A3:从所述训练数据集中获取训练样本。
训练样本包括M个特征子空间的原始数据。M为小于或者等于N的正整数。
训练样本可以是由每个特征子空间中的一个原始数据构成的。以上述4个特征子空间为例,可以从4个特征子空间分别获取一个原始数据构成一个训练样本。
本申请实施例不限定训练样本的数量,可以基于训练的需要设置。
A4:利用所述训练样本训练得到第一分类器,所述第一分类器用于基于输入的客户数据输出客户类型。
基于获取的训练样本,训练得到第一分类器。在一种可能的实现方式中,可以采用决策树模型训练第一分类器。
作为一种可能的实现方式,可以先利用所述训练样本包括的每一个特征子空间的原始数据,训练得到M个第二分类器。
作为一种示例,训练集包括三个训练样本。第一个训练样本包括{a1,b1,c1,d1},第二个训练样本包括{a2,b2,c2,d2},第三个训练样本包括{a3,b3,c3,d3}。其中,a1、a2和a3属于第一个特征子空间。b1、b2和b3属于第二个特征子空间。c1、c2和c3属于第三个特征子空间。d1、d2和d3属于第四个特征子空间。
具体的,训练第二分类器的过程包括以下步骤:
B1:基于训练样本,得到数据集。
基于上述三个训练样本,得到矩阵M。
B2:设置特征步数Step为10,将错误率设置为无穷大。
B3:遍历矩阵M中的属于一个特征子空间的数值,也就是遍历矩阵M中的每个列,得到每列的最大值Max和最小值Min。利用每列的最大值、最小值以及步长,计算得到步长S。
s=(Max-Min)/Step (2)
例如,从a1、a2和a3中确定最大值和最小值。
B4:将矩阵M中属于一个特征子空间的数值与步长进行比较,得到大于或者小于的比较符号,也就是分类结果。
B5:计算矩阵M中每列的阈值T,也就是每个特征子空间的阈值T。
T=Min+S*移动步数(3)
B6:获取分类标签。分类标签用于标记训练样本为正样本或者负样本。根据分类标签、训练样本的权重以及B4得到的分类结果,计算分错率。训练样本的权重可以是预先确定的。
B7:基于得到的最小的分错率,得到最优的第二分类器。
进一步的,在得到M个第二分类器后,可以将M个第二分类器集成,得到第一分类器。
参见图4所示,该图为本申请实施例提供的一种第一分类器的结构示意图。该第一分类器由M个第二分类器构成,并由组合模块组合第二分类器的输出结果,得到用户类型。
具体的,可以采用提升方法(boosting)集成M个第二分类器,得到第一分类器。
完成第一分类器的训练后,还可以根据K-S值和ROC曲线,对于第一分类器的性能进行评估。
训练得到的第一分类器,可以转换为模型文件。具体的,可以采用pickle工具将第一分类器进行持久化存储和迭代。其中,迭代是指可以用新采集的原始数据替换训练数据集中的部分数据。使用更新后的训练数据集训练第一分类器。作为一种示例,可以定时进行迭代。
在一种可能的实现方式中,可以将第一分类器部署应用于服务器。并通过基于Flask(一种使用Python编写的轻量级Web应用框架)的网络(Web)应用提供服务调用第一分类器。
基于上述方法实施例提供的一种用户分类的方法,本申请实施例还提供了一种用户分类的装置,下面将结合附图对该用户分类的装置进行说明。
参见图5,该图为本申请实施例提供的一种用户分类的装置的结构示意图。如图5所示,该用户分类的装置包括:
获取单元501,用于获取目标用户的多个特征维度的用户数据;
处理单元502,用于将属于目标特征空间的用户数据作为输入数据,所述目标特征空间包括多个特征子空间,所述每个特征子空间包括一个或者多个特征维度;
分类单元503,用于将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型,所述第一分类器由多个第二分类器集成得到,所述第二分类器用于处理属于所述特征子空间的输入数据。
在一种可能的实现方式,所述第一分类器是采用如下方式训练得到的:
获取原始数据以及所述原始数据的特征维度;
对所述原始数据进行预处理,得到训练数据集,所述训练数据集包括N个特征子空间,所述每个特征子空间包括至少一个特征维度的原始数据,所述N为正整数;
从所述训练数据集中获取训练样本,所述训练样本包括M个特征子空间的原始数据,所述M为小于或者等于N的正整数;
利用所述训练样本训练得到第一分类器,所述第一分类器用于基于输入的客户数据输出客户类型。
在一种可能的实现方式,所述对所述原始数据进行预处理,包括:
根据所述原始数据的特征维度,对所述原始数据进行处理。
在一种可能的实现方式,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
将特征维度的空值率大于第一阈值的所述原始数据删除,所述特征维度的空值率用于衡量特征维度的原始数据的有效性。
在一种可能的实现方式,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
合并相关性数值大于第二阈值的至少两个特征维度,构成特征子空间,所述相关性数值用于指示特征维度之间的相关程度。
在一种可能的实现方式,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行数值化处理,得到训练数据集。
在一种可能的实现方式,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行分箱操作,得到训练数据集。
在一种可能的实现方式,所述利用所述训练样本训练得到第一分类器,包括:
利用所述训练样本包括的每一个特征子空间的原始数据,训练得到M个第二分类器;
将所述M个第二分类器集成,得到所述第一分类器。
基于上述方法实施例提供的一种用户分类方法,本申请实施例还提供了一种用户分类设备,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述任一项实施例所述的方法。
基于上述方法实施例提供的一种用户分类方法,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述任一项实施例所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***或装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种用户分类的方法,其特征在于,所述方法包括:
获取目标用户的多个特征维度的用户数据;
将属于目标特征空间的用户数据作为输入数据,所述目标特征空间包括多个特征子空间,所述每个特征子空间包括一个或者多个特征维度;
将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型,所述第一分类器由多个第二分类器集成得到,所述第二分类器用于处理属于所述特征子空间的输入数据。
2.根据权利要求1所述的方法,其特征在于,所述第一分类器是采用如下方式训练得到的:
获取原始数据以及所述原始数据的特征维度;
对所述原始数据进行预处理,得到训练数据集,所述训练数据集包括N个特征子空间,所述每个特征子空间包括至少一个特征维度的原始数据,所述N为正整数;
从所述训练数据集中获取训练样本,所述训练样本包括M个特征子空间的原始数据,所述M为小于或者等于N的正整数;
利用所述训练样本训练得到第一分类器,所述第一分类器用于基于输入的客户数据输出客户类型。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始数据进行预处理,包括:
根据所述原始数据的特征维度,对所述原始数据进行处理。
4.根据权利要求3所述的方法,其特征在于,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
将特征维度的空值率大于第一阈值的所述原始数据删除,所述特征维度的空值率用于衡量特征维度的原始数据的有效性。
5.根据权利要求3所述的方法,其特征在于,所述根据所述原始数据的特征维度,对所述原始数据进行处理,包括:
合并相关性数值大于第二阈值的至少两个特征维度,构成特征子空间,所述相关性数值用于指示特征维度之间的相关程度。
6.根据权利要求2所述的方法,其特征在于,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行数值化处理,得到训练数据集。
7.根据权利要求2所述的方法,其特征在于,所述对所述原始数据进行预处理,得到训练数据集,包括:
对所述原始数据进行分箱操作,得到训练数据集。
8.根据权利要求2-7任一项所述的方法,其特征在于,所述利用所述训练样本训练得到第一分类器,包括:
利用所述训练样本包括的每一个特征子空间的原始数据,训练得到M个第二分类器;
将所述M个第二分类器集成,得到所述第一分类器。
9.一种用户分类的装置,其特征在于,所述装置包括:
获取单元,用于获取目标用户的多个特征维度的用户数据;
处理单元,用于将属于目标特征空间的用户数据作为输入数据,所述目标特征空间包括多个特征子空间,所述每个特征子空间包括一个或者多个特征维度;
分类单元,用于将所述输入数据输入第一分类器中,得到所述第一分类器输出的用户类型,所述第一分类器由多个第二分类器集成得到,所述第二分类器用于处理属于所述特征子空间的输入数据。
10.一种用户分类的设备,其特征在于,包括:处理器、存储器、***总线;
所述处理器以及所述存储器通过所述***总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-8任一项所述的方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-8任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310256664.3A CN116226744A (zh) | 2023-03-16 | 2023-03-16 | 一种用户分类的方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310256664.3A CN116226744A (zh) | 2023-03-16 | 2023-03-16 | 一种用户分类的方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116226744A true CN116226744A (zh) | 2023-06-06 |
Family
ID=86576882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310256664.3A Pending CN116226744A (zh) | 2023-03-16 | 2023-03-16 | 一种用户分类的方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116226744A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231702A (zh) * | 2008-01-25 | 2008-07-30 | 华中科技大学 | 一种分类器集成方法 |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
US20190114416A1 (en) * | 2017-10-12 | 2019-04-18 | Cisco Technology, Inc. | Multiple pairwise feature histograms for representing network traffic |
CN110501742A (zh) * | 2019-08-22 | 2019-11-26 | 东北大学 | 一种采用Boosting集成学习算法对地震事件进行区分的方法 |
CN112766400A (zh) * | 2021-01-28 | 2021-05-07 | 华南理工大学 | 高维数据基于多个数据变换空间的半监督分类集成方法 |
CN113095408A (zh) * | 2021-04-14 | 2021-07-09 | 中国工商银行股份有限公司 | 风险的确定方法、装置和服务器 |
CN113792825A (zh) * | 2021-11-17 | 2021-12-14 | 国网江苏省电力有限公司营销服务中心 | 一种用电信息采集设备故障分类模型训练方法及装置 |
CN115115403A (zh) * | 2022-06-28 | 2022-09-27 | 平安银行股份有限公司 | 目标客群中客户的分类方法、装置、电子设备及存储介质 |
-
2023
- 2023-03-16 CN CN202310256664.3A patent/CN116226744A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101231702A (zh) * | 2008-01-25 | 2008-07-30 | 华中科技大学 | 一种分类器集成方法 |
CN106778832A (zh) * | 2016-11-28 | 2017-05-31 | 华南理工大学 | 基于多目标优化的高维数据半监督集成分类方法 |
US20190114416A1 (en) * | 2017-10-12 | 2019-04-18 | Cisco Technology, Inc. | Multiple pairwise feature histograms for representing network traffic |
CN108364016A (zh) * | 2018-01-12 | 2018-08-03 | 华南理工大学 | 基于多分类器的渐进式半监督分类方法 |
CN110501742A (zh) * | 2019-08-22 | 2019-11-26 | 东北大学 | 一种采用Boosting集成学习算法对地震事件进行区分的方法 |
CN112766400A (zh) * | 2021-01-28 | 2021-05-07 | 华南理工大学 | 高维数据基于多个数据变换空间的半监督分类集成方法 |
CN113095408A (zh) * | 2021-04-14 | 2021-07-09 | 中国工商银行股份有限公司 | 风险的确定方法、装置和服务器 |
CN113792825A (zh) * | 2021-11-17 | 2021-12-14 | 国网江苏省电力有限公司营销服务中心 | 一种用电信息采集设备故障分类模型训练方法及装置 |
CN115115403A (zh) * | 2022-06-28 | 2022-09-27 | 平安银行股份有限公司 | 目标客群中客户的分类方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
张伟: "《智能风控 评分卡建模原理、方法与风控策略构建》", 北京:机械工业出版社, pages: 94 - 97 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109739844B (zh) | 基于衰减权重的数据分类方法 | |
CN109583966B (zh) | 一种高价值客户识别方法、***、设备及存储介质 | |
CN109558541B (zh) | 一种信息处理的方法、装置及计算机存储介质 | |
WO2003096237A2 (en) | Electronic data processing system and method of using an electronic data processing system for automatically determining a risk indicator value | |
US11610271B1 (en) | Transaction data processing systems and methods | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN109871861B (zh) | 一种用于为目标数据提供编码的***及方法 | |
CN117151870A (zh) | 一种基于客群画像行为分析方法及*** | |
CN110019774B (zh) | 标签分配方法、装置、存储介质及电子装置 | |
CN108304990B (zh) | 一种停电敏感预判方法和*** | |
CN116034379A (zh) | 使用深度学***测量 | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
CN115205011A (zh) | 基于lsf-fc算法的银行用户画像模型生成方法 | |
CN112950359B (zh) | 一种用户识别方法和装置 | |
CN110458581B (zh) | 商户业务周转异常的识别方法及装置 | |
CN112132690A (zh) | 外汇产品信息的推送方法、装置、计算机设备及存储介质 | |
CN116800831A (zh) | 一种业务数据推送方法、装置、存储介质及处理器 | |
CN110619024A (zh) | 一种信用评价方法、***及相关装置 | |
CN116226744A (zh) | 一种用户分类的方法、装置及设备 | |
CN114723516A (zh) | 基于成单数据的用户相似度计算方法及*** | |
CN114066513A (zh) | 一种用户分类的方法和装置 | |
CN112613920A (zh) | 一种流失几率预测方法及装置 | |
CN113269610A (zh) | 银行产品的推荐方法、装置及存储介质 | |
CN110737700A (zh) | 一种基于贝叶斯算法的进销存用户分类方法及*** | |
CN115187387B (zh) | 一种风险商家的识别方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20230606 |
|
WD01 | Invention patent application deemed withdrawn after publication |