CN115186759A - 模型训练方法及用户分类方法 - Google Patents

模型训练方法及用户分类方法 Download PDF

Info

Publication number
CN115186759A
CN115186759A CN202210858459.XA CN202210858459A CN115186759A CN 115186759 A CN115186759 A CN 115186759A CN 202210858459 A CN202210858459 A CN 202210858459A CN 115186759 A CN115186759 A CN 115186759A
Authority
CN
China
Prior art keywords
user
data
data set
classification model
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210858459.XA
Other languages
English (en)
Inventor
周鹏程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Avatr Technology Chongqing Co Ltd
Original Assignee
Avatr Technology Chongqing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Avatr Technology Chongqing Co Ltd filed Critical Avatr Technology Chongqing Co Ltd
Priority to CN202210858459.XA priority Critical patent/CN115186759A/zh
Publication of CN115186759A publication Critical patent/CN115186759A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种模型训练方法及用户分类方法。其中,模型训练方法包括:获取至少一个第一用户中每个第一用户的第一数据集;根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集;根据设定数量的所述第二数据集,训练至少一个模型;其中,所述用户分类模型用于确定用户的用户类型。

Description

模型训练方法及用户分类方法
技术领域
本申请涉及数据处理技术领域,尤其涉及一种模型训练方法及用户分类方法。
背景技术
在智能汽车行业中生态产业链的不同环节,都需要对用户行为数据进行特征分析,进而可以有针对性地为用户提供后续的服务。而在智能汽车行业中,用户行为数据的特征具有复杂性和多样性,无法准确地基于用户行为数据进行用户分类。
发明内容
有鉴于此,本申请实施例提供一种模型训练方法及用户分类方法,以至少解决相关技术出现的无法准确地基于用户行为数据进行用户分类的问题。
本申请实施例提供了一种模型训练方法,包括:
获取至少一个第一用户中每个第一用户的第一数据集;其中,所述第一数据集包含所述第一用户的至少一个第一数据;所述第一数据表征所述第一用户的一个用户特征;
将所述第一数据转化为第二数据;所述第二数据表征与第一标签关联的特征取值;所述第一标签用于标记第一用户的用户类型;
根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集;所述第二数据集包括用于用户分类模型训练的第二数据;所述筛选规则至少包括以下规则之一:根据所述第二数据之间的相关系数进行特征筛选、根据所述第二数据对筛选模型的检测能力的影响进行特征筛选、根据先验性信息进行特征筛选;
根据设定数量的所述第二数据集,训练至少一个用户分类模型;其中,所述用户分类模型用于确定用户的用户类型。
本申请实施例还提供了一种用户分类方法,包括:
获取第四数据集;所述第四数据集表征第二用户的至少一个用户数据;
将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型;所述用户分类模型基于上述任一模型训练方法训练出。
在本申请实施例中,获取至少一个第一用户中每个第一用户的第一数据集,将第一数据转化为第二数据,根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集,根据设定数量的第二数据集,训练至少一个用户分类模型,能够训练得到可以应用于智能汽车行业中的用户分类模型,能够根据不同汽车用户的不同特征,准确地对汽车用户进行分类。
附图说明
图1为本申请一实施例提供的模型训练方法的实现流程示意图;
图2为本申请又一实施例提供的模型训练方法的实现流程示意图;
图3为本申请又一实施例提供的模型训练方法的实现流程示意图;
图4为本申请又一实施例提供的模型训练方法的实现流程示意图;
图5为本申请又一实施例提供的模型训练方法的实现流程示意图;
图6为本申请一实施例提供的用户分类方法的实现流程示意图;
图7为本申请又一实施例提供的用户分类方法的实现流程示意图;
图8为本申请提供的用户数据采集提示示意图;
图9为本申请一实施例提供的模型训练装置的结构示意图;
图10为本申请一实施例提供的用户分类装置的结构示意图;
图11为本申请一实施例提供电子设备的硬件组成结构示意图。
具体实施方式
下面结合附图及具体实施例对本申请作进一步详细的说明。
以下描述中,为了说明而不是为了限定,提出了诸如特定***结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的***、装置以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
需要说明的是,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本申请实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中术语“至少一种”表示多个中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。
本申请实施例提供了一种模型训练方法,图1为本申请实施例的模型训练方法的一种流程示意图。如图1所示,所述方法包括:
S101:获取至少一个第一用户中每个第一用户的第一数据集。
在智能汽车场景中,第一数据集可以从不同的数据来源获取得到。
第一个数据源为:第一用户的业务数据,包括第一用户的性别、年龄、省份、城市、第一用户的业务数据渠道来源(例如,是从小程序获取的第一用户的业务数据,还是从应用、官网等渠道获取第一用户的业务数据)、积分、成长值、粉丝数量、抽奖次数、中奖次数等。
第二个数据源为:关于第一用户的广告媒体数据,包括广告点击事件、广告曝光事件等。
第三个数据源为:软件开发工具包(SDK,Software Development Kit)埋点数据,包括小程序埋点数据、官网埋点数据、应用埋点数据。在实际应用中,第一数据集可以用于记录第一用户的300~500个用户特征。
在实际应用中,可以通过第一用户的手机号码,从网络上收集到第一用户的手机号码对应的三个数据源,进而可以获取第一数据集。
在实际应用中,第一数据集还可以包含来自于线下收集的用户特征,其中,可以导入线下收集的关于第一用户的用户特征,从而可以同时对第一数据集中同时包含线上收集的用户特征与线下收集的用户特征进行数据分析。
在实际应用中,为了区分不同第一用户对应的第一数据集,可以在第一数据集中携带第一用户的用户标识,其中,第一用户的用户标识可以为第一用户的手机号码,第一用户与第一用户的手机号码一一对应,从而可以通过第一数据集携带的手机号码,确定第一数据集所对应的第一用户。
在一实施例中,在获取至少一个第一数据集之后,可以对第一数据集中的至少一个第一数据进行数据清理等处理,能够提高对第一数据集的处理效率,去除冗余的数据。
在本实施例中,可以按照设定的数据格式对第一数据集进行处理,生成与第一数据集对应的第一列表,将第一列表进行存储,其中,第一列表中记录了第一数据(也就是第一用户的用户特征)、第一数据所在的特征分组以及第一用户的第一标签。
在本实施例中,特征分组可以按照获取用户特征的渠道进行区分,具体地,可以分为广告、小程序、官网、应用程序、社区,其中,广告是来自于公域,也就是不需要登记用户的手机号码,小程序、官网、应用程序和社区是来自于私域,也就是需要登记用户的手机号,示例地,第一用户的移动终端品牌可以作为第一用户的一个特征,移动终端品牌所在的特征分组为广告。
在本实施例中,第一标签表征第一用户的用户类型,第一标签可以通过人工标记,也可以通过制定相关的业务规则进行自动标记。在不同的应用场景下,第一用户的用户分类有所不同,例如,可以通过第一标签将第一用户区分为访问门店的用户与未访问门店的用户,通过汽车用户是否到访过汽车门店而进行分类。
在另一种应用场景中,可以通过第一标签将第一用户区分为流失用户与未流失用户,其中,流失用户是指在第一时间段内用户存在应用程序的登录行为,且在第二时间段内用户不存在应用程序的登录行为。
在又一种应用场景中,可以通过第一标签将第一用户区分为异常用户或非异常用户。在这种应用场景中,业务人员可以根据举报记录人工审核被举报的汽车用户是否为异常用户,又或者,通过制定相关的业务规则筛选出疑似异常的汽车用户,再通过业务人员对这些疑似异常的汽车用户进行人工审核,其中,业务规则可以为判断汽车用户的每分钟刷新浏览次数是否大于100次,和/或汽车用户是否只参加抽奖活动而不存在浏览行为,如果满足其中一条,则将对应的汽车用户判定为疑似异常的汽车用户。
在实际应用中,第一数据实质上是第一用户的特征值,示例地,从广告中能够获取第一用户的移动终端品牌为A品牌,对应的第一数据为A品牌,因此,当存在多条第一数据的情况下,在第一列表中无法准确区分每条第一数据所代表的特征含义,在这种情况下,第一列表中还可以进一步记录每条第一数据对应的特征名称。
参照表1,表1示出了一种第一列表,在表1中含有特征分组、特征名称、特征(也就是第一数据)与第一标签,其中,在表1中第一标签所携带的数值来确定第一用户的用户类型,在实际应用中,第一标签所携带的数值对应的用户类型可以根据需求进行设置,例如,在一种可行方式中,第一标签所携带的数值为0对应的用户类型为非异常用户,第一标签所携带的数值为1对应的用户类型为异常用户,参照此设定,在表1中标记了第一用户为非异常用户。
在实际应用中,第一列表同样也携带有第一用户的用户标识。
表1
Figure BDA0003755084240000041
S102:将所述第一数据转化为第二数据。
这里,是将所有第一用户的第一数据集中的所有第一数据转化为第二数据,第一数据是通过不同类型的数值描述用户特征,例如,第一数据可以通过“男”(汉字字符)描述用户的性别特征,还可以通过英文字符等描述不同的用户特征,而模型只能识别数字字符,因此需要将第一数据转化为第二数据,第二数据能够被模型识别,并且转化后的第二数据能够与用户类型更相关,有利于对模型进行训练的效果。
在一实施例中,如图2所示,所述将所述第一数据转化为第二数据,包括:
S201:根据第一数据的数据类型,确定第一转换方式。
S202:根据确定出的第一转换方式,将第一数据转化为所述第二数据。
在本实施例中,不同的数据类型设置了不同的转换方式,这里的数据类型包括离散型数据与连续型数据,离散型数据是指特征的特征值可以一一列举出来,或者特征值为设定的取值,例如,对于用户的性别特征,可以列举出对应的特征值为男、女,也就是,特征值为男和女中的任一个,不存在不属于这两个设定取值的其他取值。连续型数据是指特征值为任意取值的,例如,对于用户的消费金额特征,特征值可以为任意一个金额值。
第一数据的数据类型可以通过第一数据所描述的用户特征的特点确定,也可以通过第一数据的取值而确定,根据第一数据的数据类型对应的第一转换方式,将第一数据转化为第二数据,其中,常用的转化方式包括:映射编码、热度编码、离散化转换、对数转换。
在实际应用中,离散型数据常用的转换方式为映射编码与独热编码,连续型数据常用的转换方式为离散化转化、对数转换和映射编码。下面介绍各种转换方式:
独热编码:采用N为状态寄存器对N个状态进行编码,每个状态都有对应的独立的寄存器位,且只有一位有效。例如,对于用户的移动终端的操作***这个特征经过独热编码后,可以A操作***编码为0,将B操作***编码为1,在第一数据为A操作***的情况下,转化后的第二数据为0。
离散化转换:为了挖掘数据之间的深层次相关性,降低异常偏离数据对模型整体的干扰,并且提高预测的精准度,需要对连续型数据进行离散化转换,将非线性特征引入到模型中。例如,第一数据表征第一用户访问应用程序的次数,将访问应用程序的次数划分成不同的范围,在一种方式中,可以划分为访问10次以下、10-50次、50-100次、100次以上这四个范围,第一数据最终转换为这四个范围中的一个。
对数转换:对第一数据进行log运算,转换后的第二数据的分布更加光滑平整。
映射编码:映射编码时用于建立不同的第一数据和第一标签之间的非线性关系,其中,在第一数据的数据格式为离散型数据的情况下,第二数据为第一数据对应的第一标签平均值,在第一数据的数据格式为连续型数据的情况下,需要先将第一数据进行离散化转换,第二数据为离散化转换后的第一数据对应的第一标签平均值。
S103:根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集。
在实际应用中,第一数据集中含有大量的第二数据,如果将第一数据集中的全部第二数据应用于模型训练,将会导致模型的预测能力较差,因此需要对第一数据集中的所有第二数据进行更有效的筛选,再将筛选得到的第二数据集应用于模型训练。
在本实施例中,可以基于以下三种筛选规则中的至少之一,包括根据第二数据之间的相关系数进行特征筛选,根据第二数据对筛选模型的检测能力的影响进行特征筛选,以及根据先验性信息进行特征筛选。其中根据第二数据之间的相关系数进行特征筛选,是根据两个第二数据之间的相关性制定的筛选规则,避免第二数据之间的相关性过于强会导致用户分类模型的预测能力和精准度下降。根据第二数据对筛选模型的检测能力的影响进行特征筛选,是将与第一标签相关性差,或对预测能力影响小的第二数据通过迭代或一次性的方式筛选,从而可以选择出具备一定显著性和预测性的第二数据。这里,筛选模型可以为XGBoost模型,XGBoost模型基于决策树的可扩展的机器学习***运行,XGBoost模型运行完毕后将自动对各个特征的重要程度进行排序,然后剔除其中排名先后的若干特征。根据先验性信息进行特征筛选,是结合具体业务场景的相关技术知识及技术经验,根据实际的业务数据进行判断,从而基于先验性信息增加或剔除一部分第二数据。
在实际应用中,还可以根据实际需求对第二数据进行筛选,示例地,在用户分类模型应用于异常用户与非异常用户的分类的场景下,由于异常用户通常具有恶意评论、举报违规等行为的存在,因此可以保留关于埋点数据获取的第二数据,例如,浏览内容的类型(包括抽奖、邀请、签到等),或者特定行为(包括刷新页面、点击按钮、输入敏感词、发布敏感内容)的次数、天数、时长和频率。
在用户分类模型应用于流失用户与非流失用户的场景下,可以选择保留关于使用应用程序的第二数据,另外,还可以保留从用户填写的关于应用程序使用的问卷生成的第二数据。
在用户分类模型应用于访问门店用户与未访问门店用户的场景下,可以保留从用户填写的问卷中关于购车意愿、访问门店意愿相关内容生成的第二数据。
在一实施例中,如图3所示,在根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集时,所述方法包括:
S301:根据第一参数,确定第一数据集中的目标第二数据。
这里,在根据第二数据之间的相关系数进行特征筛选的过程中,可以细分为根据相同特征分组中的第二数据之间的相关系数进行特征筛选,以及根据不相同特征分组中的第二数据之间的相关系数进行特征筛选,在本实施例中,第一参数是用于确定相同特征分组中的第二数据之间的相关性,根据第一参数,对第一数据集对应的所有第二数据进行筛选,目标第二数据是指第一数据集中保留下来的第二数据,也就是在相同特征分组中的每两个目标第二数据之间的相关性不高。
对确定第一数据集中的目标第二数据的其中一种方法进行详细说明:
确定第一数据集对应的第一参数。在本实施例中,第一参数是皮尔逊相关系数,第一参数的取值介于-1与1之间,通过第一参数可以确定在相同特征分组中任意两个数据之间的相关性,其中,第一参数的可以通过
Figure BDA0003755084240000071
Figure BDA0003755084240000072
计算得到,X对应于一个第二数据,Y对应于另一个第二数据,ρX,Y对应于第一参数。
根据第一参数,将第一数据集中第一参数最高的n个第二数据剔除。在实际应用中,假设第一数据集中存有N个第二数据,在剔除n个第二数据之后,重新确定第一数据集对应的第一参数,其中,第一数据集中存有N-n个第二数据。
对第一数据集进行迭代处理后,能够使第一数据集中的每两个第二数据的第一参数均小于第一设定阈值,在这种情况下,可以认为第一数据集中存有的每个第二数据为目标第二数据。
在这种筛选方法中,可以更准确地分析每个第二数据的相关性,从而能够准确地剔除相关性较高的数据,但是由于需要对第一数据集进行多次迭代处理,导致处理的时间过长。
对确定第一数据集中的目标第二数据的另一种方法进行详细说明:
确定第一数据集对应的第一参数,将第一数据集中第一参数小于第一设定阈值的第二数据确定为目标第二数据,也就是将第一数据集中第一参数大于或等于第一设定阈值的第二数据一次性剔除,在这种方式中,可以提高对第一数据集的处理速度,但由于没有对每个第二数据的相关性进行精确分析,可能会使目标第二数据中存有一些强预测性的特征。
S302:根据第二参数,在第一数据集对应的所有目标第二数据中确定第二数据集。
在分析完第一数据集中相同特征组内的第二数据的相关性之后,再在第一数据集的目标第二数据的基础上,分析不同特征组之间的每两个目标第二数据的相关性,这里的第二参数为不同特征组之间的每两个第二数据的皮尔逊相关系数,通过第二参数能够确定在不同特征分组中每两个第二数据之间的相关性。
根据第二参数,剔除第一数据集中不同特征组内第二参数大于或等于第二设定阈值的目标第二数据,将第一数据集中第二参数小于第二设定阈值的目标第二数据确定为第二数据集,从而完成了从相同特征组与不同特征组中对第二数据的筛选。
在一实施例中,如图4所示,在根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集时,包括:
S401:对第一数据集对应的所有第二数据进行自由组合,生成至少一种第二数据组合。
那么可以组成的第一种第二数据组合为第二数据A,第二种第二数据组合为第二数据A+第二数据B,以及第三种第二数据组合第二数据A+第二数据B+第二数据C,在实际应用中,不同的第二数据组合之间可以对应为增加一个第二数据,或者减少一个第二数据,示例地,第二种第二数据组合比第一种第二数据组合增加了第二数据B。
S402:根据筛选模型,确定每种第二数据组合对应的第三参数。
第三参数是指将一种第二数据组合作为筛选模型的输入数据的情况下,筛选模型的设定指标的指标值,这里的筛选模型与步骤S104中的用户分类模型的用途并不相同,这里的筛选模型是用于进行第二数据筛选,可以为逻辑回归模型和/或XGBoost模型,步骤S104中的用户分类模型是用于进行用户分类。
将每种第二数据组合作为筛选模型的输入数据,从而可以得到每中第二数据组合对应的第三参数。在本实施例中,第三参数可以为赤池信息量(AIC,Akaike informationcriterion),其中,AIC=2k-2ln(L),其中,k为参数数量,L为似然函数。
在一种情形中,第三参数还可以包括贝叶斯信息量(BIC,Bayesian InformationCriterion),其中,BIC=ln(n)k-2ln(L),k为参数数量,n为样本数量,L为似然函数。
在又一种情形中,第三参数还可以包括p值,其中,p值是通过将第二数据输入至筛选模型中,在筛选模型运行完之后,自动计算得到每个第二数据的p值。
S403:根据第三参数与第三设定阈值,确定第二数据集。
规则一:通过对比每种第二数据组合的第三参数的变化,确定需要筛选的第二数据,例如,对比第三参数a(在第二数据A作为输入数据时,筛选模型的设定性能指标的指标值)与第三参数b(在第二数据A和第二数据B作为输入数据时,筛选模型的设定性能指标的指标值),如果第三参数a优于第三参数b,可以将第二数据B进行剔除,保留第二数据A。其中,在规则一中,第三参数为AIC和/或BIC。
规则二:剔除第三参数小于第三设定阈值的第二特征,在规则二中,第三参数为p值。
规则三:XGBoost模型是一个基于决策树的可拓展的机器学习***,当模型运行完毕后能够自动将各个第二数据的重要程度进行排序,可以剔除排名靠后的若干个第二数据,将筛选剩下的第二数据组成第二数据集以生成筛选模型的输入数据。
其中,在利用逻辑回归模型进行特征筛选时可以适用上述规则一与规则二,在利用XGBoost模型进行特征筛选时可以适用上述规则一、规则二与规则三。
S104:根据设定数量的所述第二数据集,训练至少一个用户分类模型。
第二数据集中包含了正样本数据与负样本数据,在进行访问门店用户的分类时,将第二数据集中访问门店的第二用户的第二数据作为正样本数据,将第二数据集中未访问门店的第二用户的第二数据作为负样本数据,其中,可以通过第一标签确定第二用户未访问门店的用户还是未访问门店的用户,在实际应用中,设定数量的第二数据集可以为第二数据集的总数量中的80%的第二数据集,例如,假设生成10个第二数据集,可以从其中随机选择8个第二数据集作为模型训练的输入数据。
将设定数量的第二数据集输入至至少一个用户分类模型中以对用户分类模型进行训练。在实际应用中,可以利用第二数据集对XGBoost模型进行训练,XGBoost模型为一个优化的分布式梯度增强库。在另一种方式中,可以利用第二数据集对逻辑回归模型进行训练,逻辑回归模型是一种二分类统计方法,另外也可以同时对XGBoost模型与逻辑回归模型进行训练。
XGBoost模型与逻辑回归模型输出的结果为介乎于0和1之间的概率值,具体为一个S型函数,即
Figure BDA0003755084240000091
其中,y表示输出的概率值,ω是模型的权重,b表示偏差值,x是第二数据集的特征值。在实际应用中,一般概率值二分类的阈值取0.5,当计算得到的概率值大于0.5时,对应的输出的概率值为1,当计算得到的概率值小于0.5时,对应的输出的概率值为0。
在一实施例中,如图5所示,所述方法还包括:
S501:根据每个第一用户对应的第二数据集,构建第三数据集。
在同时训练第一用户分类模型与第二用户分类模型的情况下,分别通过对第一用户分类模型的检测能力与第二模型的检测能力进行验证,从第一用户分类模型与第二用户分类模型中选择其中一个模型进行使用。
第三数据集是用于验证模型的检测能力,第三数据集来源于所有第二数据集中的20%的数据集,第三数据集中同样包括正样本数据与负样本数据,示例地,假设生成10个第二数据集,在构建模型训练的输入数据时,会提取10个第二数据集中的8个第二数据集作为模型训练的输入数据,没有作为模型训练的输入数据的2个第二数据集可以确定为第三数据集。
S502:获取第一输出结果与第二输出结果。
将第三数据集输入至第一用户分类模型中,获取第一输出结果,其中,第一输出结果表征第一用户分类模型确定出的第三数据集中的第一用户的用户类型。
将第三数据集输入至第二用户分类模型中,获取第二输出结果,其中,第二输出结果表征第二用户分类模型确定出的第三数据集中的第一用户的用户类型。
S503:根据第一输出结果,确定第一性能指标值,以及根据第二输出结果确定第二性能指标值。
这里,第一性能指标值与第二性能指标值分别包括精确率、召回率、F1分数和AUC,其中,精确率反映了在第一正样本数据中预测正确的数量,这里的第一正样本数据为在输出结果中预测为正样本的数据,召回率反映了在第二正样本数据中预测正确的数量,这里的第二正样本数据为根据第一标签所确定的正样本数据,以访问门店的用户为例解释第一正样本数据与第二正样本数据的含义,当设定数量的第二数据集输入至用户分类模型中,用户分类模型的输出结果预测第一用户为访问门店的用户,那么该第一用户属于第一正样本数据,当第一用户的第一标签标记了第一用户存在访问门店的行为的情况下,第一用户属于第二正样本数据。在实际应用中,当精准率越高,召回率就会下降。F1分数是精准率和召回率的调和平均数,只有在精准率和召回率二者都非常高的情况下,才能得到较高的F1分数。AUC被定义为接受者操作特性曲线(ROC,receiver operating characteristiccurve)曲线下的面积,AUC的面积不会大于1,并且,当AUC的数值越高代表用户分类模型的预测能力越好。
通过第一性能指标值能够确定第一用户分类模型的检测能力的好坏程度,通过第二性能指标值能够确定第二用户分类模型的检测能力的好坏程度。第一性能指标值是根据对第一输出结果进行分析得到的,第二性能指标值根据对第二输出结果进行分析得到的。
S504:根据第一性能指标值与第二性能指标值,在第一用户分类模型与第二用户分类模型中选择满足设定性能指标值的模型进行使用。
将第一性能指标值与第二性能指标值进行对比,选择出预测能力较好的模型进行使用,能够提高识别不同汽车用户的能力。
在本申请实施例中,提供了模型训练方法在智能汽车行业中的三种应用场景。
场景一
在场景一中,通过对训练模型对目标汽车用户进行识别,这里的目标汽车用户是指存在较大的几率会进行访问门店或者购买汽车的汽车用户,从而可以针对性地为不同的汽车用户提供后续的服务。
步骤1:从三个数据源中获取至少一个汽车用户的第一数据集,第一数据集中记录了汽车用户的至少一个用户特征。另外,还可以导入线下收集到的用户数据,进而可以同时对线下收集的用户数据与从线上收集的用户数据进行数据分析,例如,在问卷调查中设置相关的问题,如购买意向或者访问门店意向,通过线下的方式发放问卷调查,从收集的问卷反馈中,导入汽车用户填写的关于购买意向或者访问门店意向的数据,作为汽车用户的用户特征。
步骤2:按照设定的数据格式,将第一数据集以第一列表进行存储。第一列表中分别记录了第一数据、第一数据所在的特征分组以及汽车用户的第一标签,这里,第一标签是用于区分汽车用户属于访问门店用户还是未访问门店用户,在实际应用中,第一标签可以通过人工标记,也可以根据一定的规则进行自动标记。
步骤3:将第一数据转化为第二数据。这里,可以按照第一数据属于离散型数据还是连续型数据,从映射编码、独热编码、离散化转换和对数转换中选择合适的转化方式,对第一数据进行处理,从而得到对应的第二数据。
步骤4:在第一数据集对应的所有第二数据中进行特征筛选,得到每个第一用户对应的第二数据集,包括根据第二数据之间的相关系数进行特征筛选、根据第二数据对筛选模型的检测能力的影响进行特征筛选、以及根据先验性信息进行特征筛选。
根据第二数据之间的相关系数进行特征筛选包括利用相同特征分组内的每两个第二数据的皮尔逊相关系数,以及不相同特征分组之间的每两个第二数据的皮尔逊相关系数,对第一数据集中的第二数据进行筛选得到第二数据集。
根据第二数据对筛选模型的检测能力的影响进行特征筛选是利用筛选模型在不同第二数据组合下的设定指标的指标值,对第一数据集中的第二数据进行筛选得到第二数据集。
在目标汽车用户识别场景中,主要关注与购车意向和访问门店意向相关的特征,可以保留相关的用户特征,而汽车用户的应用程序的浏览次数这个特征相对不重要,可以将这个特征进行剔除。
步骤5:根据设定数量的所述第二数据集,对第一用户分类模型和第二用户分类模型进行训练。
步骤6:基于每个第一用户对应的第二数据集生成第三数据集,获取第一用户分类模型生成的关于第三数据集的第一输出结果,以及获取第二用户分类模型生成的关于第三数据集的第二输出结果,其中,这里的第三数据集是用于验证模型的检测能力。
步骤7:根据第一输出结果,确定关于第一用户分类模型的第一性能指标值,以及根据第二输出结果,确定关于第二用户分类模型的第二性能指标值。
步骤8:根据第一性能指标值与第二性能指标值,从第一用户分类模型与第二用户分类模型中选择性能较佳的模型进行使用。
场景一中训练得到的用户分类模型,在使用的过程中能够输出一个概率值,这个概率值表示汽车用户成为目标用户的可能性,在实际应用中,根据用户分类模型输出的概率进行一个归一化处理,将概率值转换为汽车用户的评分,分数越高代表该汽车用户为目标用户,访问门店的意愿或者购车意愿越高,具体地,概率值的取值范围为0~1,因此可以将概率值划分为10个层次,将10个层次分别对应为1~10之间的10个整数值,从而可以根据概率值确定汽车用户的评分,例如,假设概率值为0.5,可以对应确定汽车用户的评分为1。。在实际应用中,业务人员可以根据不同汽车用户的评分,为不同的汽车用户提供后续的服务,例如,对于评分高的汽车用户可以发放各种激励任务,不向评分低的汽车用户投放相关的广告或资讯,可以提高推广效率。
场景二
在场景二中,通过训练模型以识别汽车用户是否存在异常用户,能够准确识别出汽车用户属于异常用户还是非异常用户。
步骤1:从三个数据源中获取至少一个汽车用户的第一数据集,第一数据集中记录了汽车用户的至少一个用户特征。
步骤2:按照设定的数据格式,将第一数据集以第一列表进行存储。第一列表中分别记录了第一数据、第一数据所在的特征分组以及汽车用户的第一标签,这里,第一标签是用于区分汽车用户属于异常用户还是非异常用户,在实际应用中,第一标签可以通过人工标记,也可以根据一定的规则进行自动标记,例如,将存在被举报记录的汽车用户标记为异常用户,还可以将每分钟刷新浏览次数大于设定阈值的汽车用户标记为异常用户,另外,还可以将只参加抽奖活动而不存在浏览行为的汽车用户标记为异常用户。
步骤3:将第一数据转化为第二数据。这里,可以按照第一数据属于离散型数据还是连续型数据,从映射编码、独热编码、离散化转换和对数转换中选择合适的转化方式,对第一数据进行处理,从而得到对应的第二数据。
步骤4:在每个第一数据集对应的所有第二数据中进行特征筛选,得到每个第一用户对应的第二数据集,包括根据第二数据之间的相关系数进行特征筛选、根据第二数据对筛选模型的检测能力的影响进行特征筛选、以及根据先验性信息进行特征筛选。
根据第二数据之间的相关系数进行特征筛选包括利用相同特征分组内的每两个第二数据的皮尔逊相关系数,以及不相同特征分组之间的每两个第二数据的皮尔逊相关系数,对第一数据集中的第二数据进行筛选得到第二数据集。
根据第二数据对筛选模型的检测能力的影响进行特征筛选是利用筛选模型在不同第二数据组合下的设定指标的指标值,对第一数据集中的第二数据进行筛选得到第二数据集。
在异常用户识别场景中,主要是通过线上埋点数据分析汽车用户是否存在异常行为,因此需要保留关于浏览内容类型的第二数据(包括抽奖、邀请、签到等),以及关于特定行为(包括刷新页面、点击按钮、输入敏感词、发布敏感内容)的次数、天数、时长、频率等的第二数据。
步骤5:根据设定数量的第二数据集对第一用户分类模型和第二模用户分类型进行训练。
步骤6:基于每个第一用户对应的第二数据集生成第三数据集,获取第一用户分类模型生成的关于第三数据集的第一输出结果,以及获取第二用户分类模型生成的关于第三数据集的第二输出结果,其中,这里的第三数据集是用于验证模型的检测能力。
步骤7:根据第一输出结果,确定关于第一用户分类模型的第一性能指标值,以及根据第二输出结果,确定关于第二用户分类模型的第二性能指标值。
步骤8:根据第一性能指标值与第二性能指标值,从第一用户分类模型与第二用户分类模型中选择性能较佳的模型进行使用。
场景二中训练得到的用户分类模型,在使用的过程中能够输出一个概率值,这个概率值表示汽车用户成为异常用户的可能性,在实际应用中,根据用户分类模型输出的概率进行一个归一化处理,将概率值转换为汽车用户的评分,分数越高代表该汽车用户偏向异常用户,具体地,概率值的取值范围为0~1,因此可以将概率值划分为10个层次,将10个层次分别对应为1~10之间的10个整数值,从而可以根据概率值确定汽车用户的评分,例如,假设概率值为0.5,可以对应确定汽车用户的评分为1。在实际应用中,业务人员可以根据不同汽车用户的评分,对评分高的汽车用户进行降权或封禁。
场景三
在场景三中,通过训练模型以识别汽车用户是否存在流失用户。
步骤1:从三个数据源中获取至少一个汽车用户的第一数据集,第一数据集中记录了汽车用户的至少一个用户特征。另外,由于流失用户是通过应用程序登录行为识别的,并且应用程序登录行为属于互联网行为,因此可以通过线上获取用户特征,例如,可以从汽车用户填写的关于应用程序的使用反馈的问卷中,抓取汽车用户所投票/所填写的选项作为其中一个用户特征。
步骤2:按照设定的数据格式,将第一数据集以第一列表进行存储。第一列表中分别记录了第一数据、第一数据所在的特征分组以及汽车用户的第一标签,这里,第一标签是用于区分汽车用户属于流失用户还是非流失用户,其中,流失用户的定义是指在第一时间段内存在应用程序的登录行为,且在第二时间段内不存在应用程序的登录行为。在实际应用中,第一标签可以通过人工标记,也可以根据一定的规则进行自动标记。
步骤3:将第一数据转化为第二数据。这里,可以按照第一数据属于离散型数据还是连续型数据,从映射编码、独热编码、离散化转换和对数转换中选择合适的转化方式,对第一数据进行处理,从而得到对应的第二数据。
步骤4:在每个第一数据集对应的第二数据中进行特征筛选,得到每个第一用户对应的第二数据集,包括根据第二数据之间的相关系数进行特征筛选、根据第二数据对筛选模型的检测能力的影响进行特征筛选、以及根据先验性信息进行特征筛选。
根据第二数据之间的相关系数进行特征筛选包括利用相同特征分组内的每两个第二数据的皮尔逊相关系数,以及不相同特征分组之间的每两个第二数据的皮尔逊相关系数,对第一数据集中的第二数据进行筛选得到第二数据集。
根据第二数据对筛选模型的检测能力的影响进行特征筛选是利用筛选模型在不同第二数据组合下的设定指标的指标值,对第一数据集中的第二数据进行筛选得到第二数据集。
在流失用户识别场景中,主要是通过汽车用户的应用程序登录行为进行判断,因此需要保留关于汽车用户的应用程序的使用习惯的第二数据。
步骤5:根据设定数量的第二数据集对第一用户分类模型和第二用户分类模型进行训练。
步骤6:基于每个第一用户对应的第二数据集生成第三数据集,获取第一用户分类模型生成的关于第三数据集的第一输出结果,以及获取第二模用户分类型生成的关于第三数据集的第二输出结果,其中,这里的第三数据集是用于验证模型的检测能力。
步骤7:根据第一输出结果,确定关于第一用户分类模型的第一性能指标值,以及根据第二输出结果,确定关于第二用户分类模型的第二性能指标值。
步骤8:根据第一性能指标值与第二性能指标值,从第一用户分类模型与第二用户分类模型中选择性能较佳的模型进行使用。
场景三中训练得到的用户分类模型,在使用的过程中能够输出一个概率值,这个概率值表示汽车用户成为流失用户的可能性,在实际应用中,根据用户分类模型输出的概率进行一个归一化处理,将概率值转换为汽车用户的评分,分数越高代表着该汽车用户偏向为流失用户,具体地,概率值的取值范围为0~1,因此可以将概率值划分为10个层次,将10个层次分别对应为1~10之间的10个整数值,从而可以根据概率值确定汽车用户的评分,例如,假设概率值为0.5,可以对应确定汽车用户的评分为1。。在实际应用中,业务人员可以根据不同汽车用户的评分,挖掘评分高的汽车用户的用户偏好,针对评分高的汽车用户制定预防汽车用户流失和召回流失的汽车用户的策略。
在上述实施例中,获取至少一个第一用户中每个第一用户的第一数据集,将第一数据转化为第二数据,根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集,基于设定数量的第二数据集,训练至少一个用户分类模型,训练的用户分类模型具有处理汽车用户复杂和多样的特征数据,从而准确地自动识别批量的汽车用户,以便于后续具有针对性地对不同的汽车用户制定对应的策略。
本申请实施例还提供了一种用户分类方法,如图6所示,包括:
S601:获取第四数据集。
这里的第四数据集是指需要进行用户分类的第二用户的至少一个用户数据,其中,第四数据集可以从不同的渠道中的用户数据收集,第一个数据源为:第一用户的业务数据,包括第一用户的性别、年龄、省份、城市、第一用户的业务数据渠道来源(例如,是从小程序获取的第一用户的业务数据,还是从应用、官网等渠道获取第一用户的业务数据)、积分、成长值、粉丝数量、抽奖次数、中奖次数等。第二个数据源为:关于第一用户的广告媒体数据,包括广告点击事件、广告曝光事件等。第三个数据源为:SDK埋点数据,包括小程序埋点数据、官网埋点数据、应用埋点数据,另外,还可以导入线下收集的第二用户的数据,同时对线下收集的第二用户的数据与线上收集的第二用户的数据进行数据处理和分析。
S602:将第四数据集输入至用户分类模型,基于用户分类模型确定第二用户的用户类型。
这里的用户分类模型是基于上述的模型训练方法训练得到的,用户分类模型通过对第四数据集进行分析和处理,能够输出第二用户的用户类型。
在一实施例中,如图7所示,所述将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型,包括:
S701:将第四数据集输入至用户分类模型,得到第一概率。
将第四数据输入至用户分类模型中,用户分类模型通过对第四数据进行处理,能够输出第一概率,通过第一概率可以确定第二用户成为用户分类中的一种用户的概率值,例如,通过第一概率可以判定第二用户是否具有购车意愿的用户等。
S702:根据设定的映射关系,确定第一概率对应的用户评分。
在实际应用中,可以预先设置概率值与用户评分之间的映射关系,示例地,概率值的取值范围为0~1,对应的用户评分为1~10,那么可以将概率值划分为10个层次,其中每个概率值层次对应一个用户评分,示例地,在概率值落入0~0.1的范围内,对应的用户评分为1。
根据设定的映射关系,可以确定第二用户的用户评分。在实际应用中,业务人员可以根据不同第二用户的评分,为不同评分的第二用户制定符合第二用户的相关策略和服务。
在一实施例中,用户分类模型是为了确定第二用户中存在的目标用户,这里的目标用户表征具备对设定对象支配意愿的用户,例如,在汽车场景中,目标用户是指具备对汽车支配意愿的用户,也就是具有购车意愿或者访问门店意愿的汽车用户。在实际应用中,可以根据用户分类模型生成的第三输出结果确定第二用户是否为目标用户,在一种可行的方式中,第三输出结果为用户分类模型生成的用户评分,当第二用户的评分越高,可以认为第二用户为目标用户。
在第二用户为目标用户的情况下,向第二用户投放设定的资源任务。
在第二用户为目标用户的情况下,业务人员可以向第二用户投放设定的资源任务,例如,向第二用户投放具有激励性的资讯,使第二用户可以访问门店或者购买设定对象。在实际应用中,当第二用户不为目标用户的情况下,还可以停止向第二用户投放相关的广告或资讯,从而可以提高推广效率。
在一实施例中,用户分类模型是为了确定第二用户中存在的流失用户,这里,流失用户是指在第一时间段内存在访问行为且在第二时间段内不存在访问行为的用户,其中,第一时间段早于第二时间段。在实际应用中,访问行为可以为用户访问门店的行为,也可以为用户访问设定应用程序的访问行为,又或者可以为用户对设定对象的资讯的访问行为,例如,在用户在第一周内存在访问门店的第二行为,在第二周内不存在任何访问行为,包括不存在门店的访问行为、不存在设定应用程序的访问行为以及不存在设定对象的资讯的访问行为,可以确定该用户为流失用户。在一种可行的方式中,第三输出结果为用户分类模型生成的用户评分,当第二用户的评分越高,可以认为第二用户为流失用户。
在第二用户为流失用户的情况下,可以挖掘第二用户的兴趣或者偏好,根据第二用户的兴趣或偏好,为第二用户配置资源任务,也就是资源任务中包含了第二用户感兴趣的内容,在配置关于第二用户的资源任务之后,主要通过线上渠道将第二用户感兴趣的内容投放给第二用户,第二用户可以根据感兴趣的内容产生对设定应用的访问行为,和/或对设定对象的资讯的访问行为,从而可以挽留流失用户。
在一种实施例中,用户分类模型是为了确定第二用户中存在的异常用户,这里,异常用户是指存在异常的访问行为的用户,例如,在设定时长内访问行为的频率超出设定阈值,其中,访问行为包含了用户登录设定应用程序之后发生的浏览行为,又或者用户只发起参与抽奖行为而没有发起浏览行为的情形。
在一种可行的方式中,第三输出结果为用户分类模型生成的用户评分,当第二用户的评分越高,可以认为第二用户为异常用户。
在确定第二用户为异常用户的情况下,业务人员可以限制第二用户的访问行为,例如将第二用户进行降权或封禁。在另一方面,可以判定异常用户行为成为目标用户的可能性较低,因此,可以进一步地停止向第二用户进行相关的资源投放。
在上述实施例中,获取第四数据集,将第四数据集输入至用户分类模型,基于用户分类模型确定第二用户的用户类型,能够准确识别第二用户的用户类型,并对第二用户提供针对性的后续服务。
需要说明的是,本申请涉及到的用户相关数据(例如,用户的性别、年龄、省份、城市、积分、粉丝数量等业务数据),均是在获得用户的许可或者同意后获取到的;也就是说,当本申请运用到具体产品或技术中时,需要获得用户许可来实现相关数据的获取和处理,且相关数据的处理需要遵守相关国家和地区的相关法律法规和监管标准。
例如,在需获取用户所在的城市时,可在该用户的终端中显示位置获取提示,在接收到该用户针对该位置获取提示的确认操作后,终端可以根据获取到的用户的当前位置,确定该用户所在的城市。如图8所示。
为实现本申请实施例的模型训练方法,本申请实施例还提供了一种模型训练装置,如图9所示,该装置包括:
第一获取单元901,用于获取至少一个第一用户中每个第一用户的第一数据集;其中,所述第一数据集包含所述第一用户的至少一个第一数据;所述第一数据表征所述第一用户的一个用户特征;
转化单元902,用于将所述第一数据转化为第二数据;所述第二数据表征与第一标签关联的特征取值;所述第一标签用于标记第一用户的用户类型;
筛选单元903,用于根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集;所述筛选规则至少包括以下规则:根据第二数据之间的相关系数进行特征筛选、根据第二数据对筛选模型的检测能力的影响进行特征筛选、以及根据先验性信息进行特征筛选;
训练单元904,用于根据设定数量的所述第二数据集,训练至少一个用户分类模型;其中,所述用户分类模型用于确定用户的用户类型。
在一实施例中,在所述第一获取单元901获取至少一个第一数据集之后,所述装置还包括:
存储单元,用于将所述至少一个第一数据集中每个第一数据集对应的第一列表进行存储;其中,
第一列表按照设定的数据格式分别记录第一数据集中的第一数据、第一数据所在的特征分组以及第一用户的第一标签。
在一实施例中,所述转化单元902在将所述第一数据转化为第二数据时,还用于:
根据第一数据的数据类型,确定第一转换方式;所述数据类型包括离散数据类型或连续数据类型;
根据确定出的第一转换方式,将第一数据转化为所述第二数据;其中,
所述第一转换方式包括独热编码、映射编码、离散化转换和对数转换中的至少一种。
在一实施例中,所述筛选单元903在根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集时,还用于:
根据第一参数,确定所述第一数据集中的目标第二数据;所述第一参数表征第一数据集中在相同特征分组中的任意两个第二数据之间的相关性;
根据第二参数,在第一数据集对应的所有目标第二数据中确定所述第二数据集;所述第二参数表征在不同特征分组的任意两个目标第二数据之间的相关性。
在一实施例中,所述筛选单元903在所述根据第一参数,确定所述第一数据集中的目标第二数据时,还用于:
迭代所述第一数据集执行以下处理:确定所述第一数据集对应的第一参数;剔除所述第一数据集中第一参数最高的n个第二数据;其中n为>0的整数;
在所述迭代完成后,所述第一数据集中的每两个第二数据的第一参数均小于第一设定阈值;所述第一数据集中的每两个第二数据为所述目标第二数据。
在一实施例中,所述筛选单元903在所述根据第一参数,确定所述第一数据集中的目标第二数据时,还用于:
根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集。
在一实施例中,所述筛选单元903在根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集时,还用于:
对所述第一数据集对应的所有第二数据进行自由组合,生成至少一种第二数据组合;
根据筛选模型,确定每种第二数据组合对应的第三参数;所述第三参数表征在第二数据组合为所述筛选模型输入数据的情况下,所述筛选模型的设定指标的指标值;
根据所述第三参数与第三设定阈值,确定所述第二数据集。
在一实施例中,所述至少一个用户分类模型包括第一用户分类模型和第二用户分类模型,所述装置还包括:
构建单元,用于每个第一用户对应的第二数据集,构建第三数据集;所述第三数据集用于验证模型的检测能力;
第三获取单元,用于获取第一输出结果与第二输出结果;所述第一输出结果表征基于所述第一用户分类模型确定出的所述第三数据集中第一用户的用户类型;所述第二输出结果表征基于所述第二用户分类模型确定出的所述第三数据集中第一用户的用户类型;
确定单元,用于根据所述第一输出结果,确定第一性能指标值,以及根据所述第二输出结果确定第二性能指标值;所述第一性能指标值表征用于衡量所述第一用户分类模型检测能力的性能指标的指标值;所述第二性能指标值表征用于衡量所述第二用户分类模型检测能力的性能指标的指标值;
处理单元,用于根据所述第一性能指标值与第二性能指标值,在所述第一用户分类模型与第二用户分类模型中选择满足设定性能指标值的模型进行使用。
实际应用时,第一获取单元901、转化单元902、筛选单元903、训练单元904可由模型训练装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是,上述图9实施例提供的模型训练装置在进行模型训练时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的模型训练装置与模型训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
为实现本申请实施例提供的用户分类方法,本申请实施例还提供了一种用户分类装置,如图10所示,该装置包括:
第二获取单元1001,用于获取第四数据集;所述第四数据集表征第二用户的至少一个用户数据;
确定单元1002,用于将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型;所述用户分类模型基于上述的模型训练方法训练出。
在一实施例中,所述确定单元1002在将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型时,用于:
将所述第四数据集输入至所述用户分类模型,得到第一概率;所述第一概率表征所述第二用户为用户分类中的一种用户的概率值;
根据设定的映射关系,确定所述第一概率对应的用户评分;所述设定的映射关系表征不同的概率区间对应的用户评分。
在一实施例中,所述确定单元1002在基于所述用户分类模型确定第二用户的用户类型时,还用于:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为目标用户;所述目标用户表征具备对设定对象有意愿的用户。
在一实施例中,所述确定单元1002在基于所述用户分类模型确定第二用户的用户类型时,还用于:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为流失用户;所述流失用户表征在第一时间段内存在访问行为且在第二时间段内不存在访问行为的用户;所述第一时间段早于所述第二时间段。
在一实施例中,所述确定单元1002在基于所述用户分类模型确定第二用户的用户类型时,还用于:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为异常用户;所述异常用户表征存在异常的访问行为的用户。
实际应用时,第二获取单元1001、确定到那元1002可由用户分类装置中的处理器来实现。当然,处理器需要运行存储器中存储的程序来实现上述各程序模块的功能。
需要说明的是,上述图10实施例提供的用户分类装置在进行用户分类时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的用户分类与用户分类方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例的方法,本申请实施例还提供了一种电子设备,图11为本申请实施例电子设备的硬件组成结构示意图,如图11所示,电子设备包括:
通信接口1,能够与其它设备比如网络设备等进行信息交互;
处理器2,与通信接口1连接,以实现与其它设备进行信息交互,用于运行计算机程序时,执行上述一个或多个技术方案提供的模型训练方法或用户分类方法。而所述计算机程序存储在存储器3上。
当然,实际应用时,电子设备中的各个组件通过总线***4耦合在一起。可理解,总线***4用于实现这些组件之间的连接通信。总线***4除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图11中将各种总线都标为总线***4。
本申请实施例中的存储器3用于存储各种类型的数据以支持电子设备的操作。这些数据的示例包括:用于在电子设备上操作的任何计算机程序。
可以理解,存储器3可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器3旨在包括但不限于这些和任意其它适合类型的存储器。
上述本申请实施例揭示的方法可以应用于处理器2中,或者由处理器2实现。处理器2可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器2中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器2可以是通用处理器、DSP,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器2可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器3,处理器2读取存储器3中的程序,结合其硬件完成前述方法的步骤。
处理器2执行所述程序时实现本申请实施例的各个方法中的相应流程,为了简洁,在此不再赘述。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,例如包括存储计算机程序的存储器3,上述计算机程序可由处理器2执行,以完成前述方法所述步骤。计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置、终端和方法,可以通过其它的方式实现。以上所描述的设备实施例仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个***,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的计算机可读存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本申请上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个计算机可读存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的计算机可读存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (13)

1.一种模型训练方法,其特征在于,包括:
获取至少一个第一用户中每个第一用户的第一数据集;其中,所述第一数据集包含所述第一用户的至少一个第一数据;所述第一数据表征所述第一用户的一个用户特征;
将所述第一数据转化为第二数据;所述第二数据表征与第一标签关联的特征取值;所述第一标签用于标记第一用户的用户类型;
根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集;所述第二数据集包括用于用户分类模型训练的第二数据;所述筛选规则至少包括以下规则之一:根据所述第二数据之间的相关系数进行特征筛选、根据所述第二数据对筛选模型的检测能力的影响进行特征筛选、根据先验性信息进行特征筛选;
根据设定数量的所述第二数据集,训练至少一个用户分类模型;其中,所述用户分类模型用于确定用户的用户类型。
2.根据权利要求1所述的模型训练方法,其特征在于,在获取至少一个第一数据集之后,所述方法还包括;
将所述至少一个第一数据集中每个第一数据集对应的第一列表进行存储;其中,
所述第一列表按照设定的数据格式分别记录第一数据集中的第一数据、第一数据所在的特征分组以及第一用户的第一标签。
3.根据权利要求1或2所述的模型训练方法,其特征在于,所述将所述第一数据转化为第二数据,包括:
根据第一数据的数据类型,确定第一转换方式;所述数据类型包括离散数据类型或连续数据类型;
根据确定出的第一转换方式,将第一数据转化为所述第二数据;其中,
所述第一转换方式包括独热编码、映射编码、离散化转换和对数转换中的至少一种。
4.根据权利要求1所述的模型训练方法,其特征在于,所述根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集,包括:
根据第一参数,确定所述第一数据集中的目标第二数据;所述第一参数表征第一数据集中在相同特征分组中的任意两个第二数据之间的相关性;
根据第二参数,在第一数据集对应的所有目标第二数据中确定所述第二数据集;所述第二参数表征在不同特征分组的任意两个目标第二数据之间的相关性。
5.根据权利要求4所述的模型训练方法,其特征在于,所述根据第一参数,确定所述第一数据集中的目标第二数据,包括:
迭代所述第一数据集执行以下处理:确定所述第一数据集对应的第一参数;剔除所述第一数据集中第一参数最高的n个第二数据;其中n为大于0的整数;
在所述迭代完成后,所述第一数据集中的每两个第二数据的第一参数均小于第一设定阈值;所述第一数据集中的每两个第二数据为所述目标第二数据。
6.根据权利要求4所述的模型训练方法,其特征在于,所述根据第一参数,确定所述第一数据集中的目标第二数据,包括:
确定所述第一数据集对应的第一参数;
根据所述第一参数,将第一数据集中第一参数小于第一设定阈值的第二数据确定为所述目标第二数据。
7.根据权利要求1所述的模型训练方法,其特征在于,所述根据设定的筛选规则,从每个第一数据集对应的所有第二数据中筛选得到每个第一用户对应的第二数据集,包括:
对所述第一数据集对应的所有第二数据进行自由组合,生成至少一种第二数据组合;
根据所述筛选模型,确定每种第二数据组合对应的第三参数;所述第三参数表征在第二数据组合为所述筛选模型输入数据的情况下,所述筛选模型的设定指标的指标值;
根据所述第三参数与第三设定阈值,确定所述第二数据集。
8.根据权利要求1所述的模型训练方法,其特征在于,所述至少一个用户分类模型包括第一用户分类模型和第二用户分类模型,所述方法还包括:
根据每个第一用户对应的第二数据集,构建第三数据集;所述第三数据集用于验证用户分类模型的检测能力;
获取第一输出结果与第二输出结果;所述第一输出结果表征基于所述第一用户分类模型确定出的所述第三数据集中第一用户的用户类型;所述第二输出结果表征基于所述第二用户分类模型确定出的所述第三数据集中第一用户的用户类型;
根据所述第一输出结果,确定第一性能指标值,以及根据所述第二输出结果确定第二性能指标值;所述第一性能指标值表征用于衡量所述第一用户分类模型检测能力的性能指标的指标值;所述第二性能指标值表征用于衡量所述第二用户分类模型检测能力的性能指标的指标值;
根据所述第一性能指标值与第二性能指标值,在所述第一用户分类模型与第二用户分类模型中选择满足设定性能指标值的用户分类模型进行使用。
9.一种用户分类方法,其特征在于,包括:
获取第四数据集;所述第四数据集表征第二用户的至少一个用户数据;
将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型;所述用户分类模型基于权利要求1至7任一项所述的方法训练出。
10.根据权利要求9所述的用户分类方法,所述将所述第四数据集输入至用户分类模型,基于所述用户分类模型确定第二用户的用户类型,包括:
将所述第四数据集输入至所述用户分类模型,得到第一概率;所述第一概率表征所述第二用户为用户分类中的一种用户的概率值;
根据设定的映射关系,确定所述第一概率对应的用户评分;所述设定的映射关系表征不同的概率区间对应的用户评分。
11.根据权利要求9所述的用户分类方法,其特征在于,所述基于所述用户分类模型确定第二用户的用户类型,包括:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为目标用户;所述目标用户表征具备对设定对象有意愿的用户。
12.根据权利要求9所述的用户分类方法,其特征在于,所述基于所述用户分类模型确定第二用户的用户类型,包括:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为流失用户;所述流失用户表征在第一时间段内存在访问行为且在第二时间段内不存在访问行为的用户;所述第一时间段早于所述第二时间段。
13.根据权利要求9所述的用户分类方法,其特征在于,所述基于所述用户分类模型确定第二用户的用户类型,包括:
基于所述用户分类模型生成的第三输出结果,确定所述第二用户是否为异常用户;所述异常用户表征存在异常的访问行为的用户。
CN202210858459.XA 2022-07-20 2022-07-20 模型训练方法及用户分类方法 Pending CN115186759A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210858459.XA CN115186759A (zh) 2022-07-20 2022-07-20 模型训练方法及用户分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210858459.XA CN115186759A (zh) 2022-07-20 2022-07-20 模型训练方法及用户分类方法

Publications (1)

Publication Number Publication Date
CN115186759A true CN115186759A (zh) 2022-10-14

Family

ID=83518398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210858459.XA Pending CN115186759A (zh) 2022-07-20 2022-07-20 模型训练方法及用户分类方法

Country Status (1)

Country Link
CN (1) CN115186759A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703651A (zh) * 2023-08-08 2023-09-05 成都秦川物联网科技股份有限公司 一种智慧燃气数据中心运行管理方法、物联网***和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703651A (zh) * 2023-08-08 2023-09-05 成都秦川物联网科技股份有限公司 一种智慧燃气数据中心运行管理方法、物联网***和介质
CN116703651B (zh) * 2023-08-08 2023-11-14 成都秦川物联网科技股份有限公司 一种智慧燃气数据中心运行管理方法、物联网***和介质

Similar Documents

Publication Publication Date Title
Ruchansky et al. Csi: A hybrid deep model for fake news detection
Thorleuchter et al. Analyzing existing customers’ websites to improve the customer acquisition process as well as the profitability prediction in B-to-B marketing
CN107862022B (zh) 文化资源推荐***
CN109165975B (zh) 标签推荐方法、装置、计算机设备及存储介质
Wang et al. An analytic framework for social life cycle impact assessment—part 1: methodology
Burghardt et al. The myopia of crowds: Cognitive load and collective evaluation of answers on Stack Exchange
CN112818218B (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
Rafei et al. Big data for finite population inference: Applying quasi-random approaches to naturalistic driving data using Bayesian additive regression trees
CN112667825B (zh) 基于知识图谱的智能推荐方法、装置、设备及存储介质
Ortega et al. Artificial intelligence scientific documentation dataset for recommender systems
CN113869931A (zh) 广告投放策略确定方法、装置、计算机设备和存储介质
WO2019144035A1 (en) Systems and methods for collecting and processing alternative data sources for risk analysis and insurance
CN113935788B (zh) 模型评估方法、装置、设备及计算机可读存储介质
CN115186759A (zh) 模型训练方法及用户分类方法
US10346856B1 (en) Personality aggregation and web browsing
Papadimitriou et al. Needs and priorities of road safety stakeholders for evidence-based policy making
Du et al. ExpSeeker: Extract public exploit code information from social media
CN113837836A (zh) 模型推荐方法、装置、设备及存储介质
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN115952468A (zh) 特征处理方法、装置、设备及计算机存储介质
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
CN112084408B (zh) 名单数据筛选方法、装置、计算机设备及存储介质
CN113688206A (zh) 基于文本识别的趋势分析方法、装置、设备及介质
Ehiorobo et al. Profiling cyber attackers by classification techniques; A case study on Russian hackers
Wentzlof et al. Comparison of decision tree and logistic regression models for utilization in sexual assault kit processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination