CN110837894A - 一种特征处理方法、装置及存储介质 - Google Patents

一种特征处理方法、装置及存储介质 Download PDF

Info

Publication number
CN110837894A
CN110837894A CN201911029966.7A CN201911029966A CN110837894A CN 110837894 A CN110837894 A CN 110837894A CN 201911029966 A CN201911029966 A CN 201911029966A CN 110837894 A CN110837894 A CN 110837894A
Authority
CN
China
Prior art keywords
feature
target
segment
candidate
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911029966.7A
Other languages
English (en)
Other versions
CN110837894B (zh
Inventor
郑立凡
吕培立
董井然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911029966.7A priority Critical patent/CN110837894B/zh
Publication of CN110837894A publication Critical patent/CN110837894A/zh
Application granted granted Critical
Publication of CN110837894B publication Critical patent/CN110837894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种特征处理方法、装置及存储介质,所述方法包括:获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;对各目标分段集合中的目标分段进行组合;基于对各目标分段的组合结果,构建目标组合特征集合。本申请能够在大数据量的情况下,自动对任意维度的用户特征进行特征交叉组合,从而生成相应的目标组合特征集合。

Description

一种特征处理方法、装置及存储介质
技术领域
本申请涉及机器学习技术领域,尤其涉及一种特征处理方法、装置及存储介质。
背景技术
特征交叉(Feature Cross)是指两个或多个特征组合所形成的合成特征,特征的组合可以提供超出这些特征单独能够提供的预测能力,特征交叉能够增强模型的表达能力,提高机器学习模型的预测效果。
通过数据挖掘的方式,可从大量用户的资料、日常行为中提炼出用户的各种特征,如年龄层、学历层、收入层等,从而在进行特征交叉时,需要处理的数据量是巨大的。现有的在基于大数据量的情况下进行特征交叉组合时需要进行手工处理,并且不能自定义特征交叉的方式,因此需要提出一种有效的特征处理方法来解决现有技术中在进行特征交叉时存在的技术问题。
发明内容
本申请所要解决的技术问题在于,提供一种特征处理方法、装置及存储介质,能够在大数据量的情况下,自动对任意维度的用户特征进行特征交叉组合,从而生成相应的目标组合特征集合,便于后续根据获取的用户特征信息直接确定相应的目标组合特征。
为了解决上述技术问题,一方面,本申请提供了一种特征处理方法,所述方法包括:
获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
对各目标分段集合中的目标分段进行组合;
基于对各目标分段的组合结果,构建目标组合特征集合。
另一方面,本申请提供了一种特征处理装置,所述装置包括:
对象信息获取模块,用于获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
候选分段集合构建模块,用于对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
目标分段集合构建模块,用于基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
目标分段组合模块,用于对各目标分段集合中的目标分段进行组合;
目标组合特征集合构建模块,用于基于对各目标分段的组合结果,构建目标组合特征集合。
另一方面,本申请提供了一种计算机存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如上述的特征处理方法。
另一方面,本申请提供了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的特征处理方法。
实施本申请实施例,具有如下有益效果:
本申请在获取到多个对象的对象信息之后,自动基于同一单特征对应的多项特征信息进行分段,得到与每个单特征对应的候选分段集合;基于预设的筛选条件,对各候选集合中的候选分段进行筛选,得到与各单特征对应的符合筛选条件的目标分段集合;对各目标分段集合中的目标分段进行组合,生成多项组合特征,从而构建目标组合特征集合。本申请能够在大数据量的情况下,自动对任意维度的用户特征进行特征交叉组合,从而生成相应的目标组合特征集合,便于后续根据获取的用户特征信息直接从目标组合特征集合中确定相应的目标组合特征,从而可以增强基于目标组合特征进行训练的机器学习模型效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的应用场景示意图;
图2是本申请实施例提供的一种特征处理方法流程图;
图3是本申请实施例提供的一种候选分段集合确定方法流程图;
图4是本申请实施例提供的一种根据特征类型对特征信息进行分段的方法流程图;
图5是本申请实施例提供的一种目标分段集合生成方法流程图;
图6是本申请实施例提供的一种候选分段贡献值计算方法流程图;
图7是本申请实施例提供的一种目标分段组合方法流程图;
图8是本申请实施例提供的一种基于组合特征进行模型训练的方法流程图;
图9是本申请实施例提供的一种特征处理装置示意图;
图10是本申请实施例提供的候选分段集合构建模块示意图;
图11是本申请实施例提供的分段处理模块示意图;
图12是本申请实施例提供的目标分段集合构建模块示意图;
图13是本申请实施例提供的贡献值确定模块示意图;
图14是本申请实施例提供的目标分段组合模块示意图;
图15是本申请实施例提供的模型训练模块示意图;
图16是本申请实施例提供的一种设备结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先对本申请实施例中涉及的技术术语做以下解释:
机器学习(Machine Learning,ML):机器学习是让计算机像人类一样学习和行动的科学,其通过模型来学习大量数据下隐含的知识,并用最优化算法来优化模型。目前已经广泛应用到各个领域,诸如购物推荐,搜索排序,广告点击,信用风险评估,图像识别,自动驾驶等领域。
WOE(Weight Of Evidence,证据权重):一种衡量正常样本和违约样本分布的差异方法。
IV(Information Value,信息价值):正样本在特征分布和负样本在特征分布上的KL距离之和,简而言之即,某个特征的IV值越高,其预测能力越强。
特征工程:特征工程是使用数据领域的知识来创建使机器学习算法起作用的特征的过程,特征工程是机器学习应用的基础。
大数据处理:大数据的特点有数据体量巨大,数据类型多样,需要并行处理等。目前常用的处理框架有Hadoop,Spark等。
请参阅图1,其示出了本申请实施例提供的应用场景示意图,该场景中至少包括服务器110和终端120。
本说明书实施例中,所述服务器110可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。具体地,所述服务器110可以用于从各终端120处获取对象信息,并基于对象信息进行特征组合。
本说明书实施例中,所述终端120可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序、网站等。本申请实施例中终端上运行的操作***可以包括但不限于安卓***、IOS***、linux、windows等。
为了解决现有技术中在进行特征交叉组合时存在的只支持数值特征不支持离散特征、不能自定义特征交叉方式,以及需要手工进行特征交叉处理的问题,本申请实施例提供了一种特征处理方法,其执行主体可以为图1中的服务器,具体地,请参阅图2,所述方法包括:
S210.获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息。
这里获取的对象信息具体可以看成是一个用户样本信息,其中包括了各用户的响应标签信息以及各用户的多项特征信息。其中,响应标签可以为用户是否响应某项信息推广、营销活动等,对于某用户,当该用户响应了该项活动时,对应的响应标签为1,当用户没有响应该活动时,对应的响应标签为0;用户的多项特征信息具体可以包括:用户年龄、性别、所在城市、学历、购买行为等多项特征信息。
S220.对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段。
对于上述的用户样本信息,不同用户的同一项特征信息组成了对应单特征在当前用户样本中的特征信息,各单特征对应的特征信息的数值或者类别可能不同,需要对其分别进行分段;需要说明的是,每个单特征对应的特征信息可看成是一个组,而这里的分段是进行组内信息进行分段的,具体的分段方法可参阅图3,其示出了一种候选分段集合确定方法,所述方法包括:
S310.确定每个单特征的特征类型。
对于各单特征,其特征类型一般是不相同的,首先需要根据该单特征对应的各项特征信息,确定单特征的特征类型。
S320.根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段。
对于不同特征类型的单特征,确定与特征类型对应的分段方法,在各单特征下生成多个分段。
S330.基于多个分段构建与所述单特征对应的所述候选分段集合。
本申请实施例中,具体的单特征的特征类型可以包括数值类型和类别类型,例如,对于年龄这个特征,其对应的特征信息是数字,比如20,45等;对于性别,其对应的特征信息是类别信息,比如男和女;对于所在城市,其对应的特征信息也是类别信息,比如江苏省、广东省等。对于上述特征信息是数字的,其特征类型为数值类型;对于上述特征信息是类别的,其特征类型为类别类型。
请参阅图4,其示出了一种根据特征类型对特征信息进行分段的方法,所述方法包括:
S410.当所述单特征的特征类型为数值类型时,基于所述单特征对应的特征信息的数值范围对所述特征信息进行分段,得到多个分段。
以年龄特征为例,其对应的用户样本各项年龄特征信息中,年龄的范围为18~75岁,那么可以对年龄特征信息进行如下分段:
age≤20;
21≤age≤30;
31≤age≤40;
41≤age≤50;
51≤age≤60;
61≤age≤70;
age≥71;
在进行上述分段之前,可以预先设置需要分段的段数,例如7段;在进行分段时,首先根据年龄的范围,分出第一分段age≤20,此时剩余的age≥21为一个分段,判断现有的分段数是否达到7;没有达到,继续对age≥21进行分段,分出21≤age≤30,剩余的age≥31为一个分段,判断现有的分段数是否达到7,还没有,继续对age≥31进行分段,以此类推,直至最终的分段数达到预设的7段。
对于上述的各分段结果,可根据实际情况对各分段进行调整,例如,从用户样本信息中得知,60岁以上的用户的响应情况较少,那么,可将61≤age≤70和age≥71合并为age≥61;另外也可根据其他情况进行分段调整。
S420.当所述单特征的特征类型为类别类型时,基于所述单特征对应的特征信息中包含的特征类别对所述特征信息进行分段,得到多个分段。
对于类别类型,单特征下的每个类别便可被分为一个分段,以性别为例,包括男和女两种类别,那么在进行分段的时候,直接将该单特征下的特征信息分为男各女两个分段。以所在城市为例,每个城市都可被单独地分为一个分段,但是在有些情况下,例如不同用户所在的城市有的是广州,有的是深圳,若将广州和深圳分为了两个不同的分段,但是在后期进行处理时,也是可将广州和深圳进行合并的,因为这两个城市比较接近。
S230.基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合。
基于上述内容,在初始进行分段时,可能是将每个单特征下对应的特征信息进行最大程度地细化分段,得到所有可能的分段结果,但是出于数据量的考虑以及特征的稳定性、可解释性,一般需要从每个单特征的各分段中筛选出能够较好表现该单特征特性的候选分段,并将其他候选分段进行合并,如特征A有25个分段,特征B有30个分段,那么特征A和特征B交叉后的特征AB其可能分段有750段,过多的分段可能会导致如下问题:
1.特征不稳定,即这个时间节点计算的特征取值和下个时间节点计算的差异很大;
2.模拟可能会过拟合;
3.每个分段的意义难以解释;
因此需要对各候选分段进行筛选,合并相应的分段。
具体的分段筛选方法可参阅图5,其示出了一种目标分段集合生成方法,所述方法包括:
S510.基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值。
本申请实施例中,对于各分段的选取是基于各分段在所属单特征中的贡献值来实现的。
S520.基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段。
其中,对于选取符合预设条件的候选分段为目标分段具体方法可包括:
按照各候选分段的贡献值由大到小的顺序对各候选分段进行排序,选取排序靠前的预设数量的候选分段为所述目标分段;
或,
选取所述贡献值大于预设值的候选分段为所述目标分段。
S530.将所述候选分段中除所述目标分段以外的剩余候选分段合并到所述目标分段中。
例如,对于一个单特征,在初始分段时分成了6个候选分段,包括:分段1、分段2、分段3、分段4、分段5和分段6,现计算各个候选分段的贡献值,基于各候选分段的贡献值,若从中选出了4个目标分段:分段1、分段2、分段3和分段4,此时可将分段5和分段6合并到分段4中,得到4个分段;若从中选出了4个目标分段:分段1、分段3、分段4和分段6,那么剩下的分段2可以合并到分段1中,也可以合并到分段3中,分段5可以合并到分段4中,也可以合并到分段6中,本申请实施例不作具体限定。
S540.基于各目标分段,生成与所述单特征对应的目标分段集合。
经过筛选合并之后,得到了与各单特征分别对应的目标分段集合,基于目标分段集合,可以进行后续的各单特征之间的分段组合。
请参阅图6,其示出了一种候选分段贡献值计算方法,所述方法包括:
S610.基于各对象的标签,确定响应对象的总数和未响应对象的总数。
在用户样本数据信息中,根据每个用户的响应标签,可确定出该样本中响应用户的总数和未响应用户的总数。
S620.对于每个单特征对应的候选分段集合中的各候选分段,确定处于每个候选分段中的目标对象,所述目标对象包括响应对象和未响应对象。
S630.基于各目标对象的标签,分别确定每个候选分段中的所述响应对象的数量和所述未响应对象的数量。
以上述年龄分段为例,包括以下年龄分段:
age≤20;
21≤age≤30;
31≤age≤40;
41≤age≤50;
51≤age≤60;
age≥61;
基于用户样本信息分别确定处于每个年龄分段中的用户,并根据用户的响应标签确定每个年龄分段中响应用户的数量和未响应用户的数量。
S640.基于每个候选分段中的所述响应对象的数量、所述未响应对象的数量、所述响应对象的总数以及所述未响应对象的总数,确定各候选分段的编码值。
本申请中计算各分段的编码值具体可以为计算各分段WOE值,对于每个单特征的某个候选分段的WOE值,可通过以下公式进行计算:
Figure BDA0002249845430000101
其中,
Figure BDA0002249845430000102
是这个分段中响应用户的数量占响应用户的总数的比值,
Figure BDA0002249845430000103
是这个分段中未响应用户的数量占未响应用户的总数的比值,yi为这个分段中响应用户的数量,yT为这个分段中响应用户的总数,ni为这个分段中未响应用户的数量,nT为这个分段中未响应用户的总数。
基于上述公式(1),计算得出了各候选分段的WOE值。
S650.基于各候选分段的编码值,计算各候选分段的信息值。
基于各候选分段的WOE值,计算各候选分段的信息值的公式为:
Figure BDA0002249845430000104
其中,
Figure BDA0002249845430000105
是这个分段中响应用户的数量占响应用户的总数的比值,
Figure BDA0002249845430000106
是这个分段中未响应用户的数量占未响应用户的总数的比值。
S660.确定各分段的信息值为各候选分段的所述贡献值。
基于上述对各候选分段的信息值的计算,得到了个候选分段的贡献值,基于候选分段贡献值的大小,进行候选分段的筛选。
S240.对各目标分段集合中的目标分段进行组合。
本申请实施例中的组合是指对各目标分段集合中的目标分段进行交叉组合,从而可得到由单特征信息组合而成的组合特征信息,具体地,请参阅图7,其示出了一种目标分段组合方法,所述方法包括:
S710.基于预设的目标分段组合方法,对各目标分段集合中的目标分段的组合方式进行穷举;其中,所述目标分段组合方法为从每个目标分段集合中分别取一个目标分段进行组合。
S720.基于对目标分段组合的穷举结果,得到多项组合特征。
例如,现有三个单特征,其对应的目标分段集合分别为:
集合A:{A1、A2、A3、A4};
集合B:{B1、B2};
集合C:{C1、C2、C3};
每次都分别从一个集合中取出一个分段特征进行组合,得到一个组合特征,例如A1B1C1、A1B1C2、A1B1C3等,最终可得到4*2*3=24项组合特征。
S250.基于对各目标分段的组合结果,构建目标组合特征集合。
对于目标组合特征集合中的多项组合特征,可将各项组合特征依次标记为相应的组合特征段,例如,对于上述的24项组合特征,可依次标记为组合特征段1~组合特征段24。
基于上述操作,相当于建立了一种单特征的特征组合表,基于任一用户在多个单特征的多项特征信息,通过查找所述特征组合表,均可以找到与该用户所对应的组合特征,从而提供了一种在大数据规模下的自动化、多维度特征交叉组合的工具。
请参阅图8,其示出了一种基于组合特征进行模型训练的方法,所述方法包括:
S810.获取测试对象的对象信息,所述对象信息包括所述测试对象的标签以及所述测试对象与多个单特征分别对应的多项特征信息。
S820.基于所述测试对象与多个单特征分别对应的多项特征信息,在所述目标组合特征集合确定出对应的目标组合特征。
S830.基于所述目标组合特征和所述测试对象的标签,对预设的机器学习模型进行训练。
根据本申请实施例的上述内容可知,在建立了特征组合表之后,在获取到新的用户信息时,可直接基于新的用户的多项特征信息确定与该用户对应的组合特征信息。
以大量用户的组合特征信息作为预设模型的输入,在训练过程中不断调整所述预设模型的参数至所述预设模型的输出与用户的响应标签相匹配,得到相关机器学习模型。由于组合特征信息能够提供超出这些单特征单独能够提供的预测能力,采用组合特征信息作为模型训练的输入,对预设模型进行训练,能够增强模型的表达能力,使得预测结果更加精准。
本申请的具体实施过程可通过以下算法实现:
设数据集为(Y,X1,X2,X3,...,Xd),其中Y以及X1,X2,X3,...,Xd均为列向量,Y为与各用户对应的标签,(X1,X2,X3,...,Xd)为单特征集合。
1.对特征(X1,X2,X3,...,Xd)进行预处理,如缺失值填充,异常值替换等;
2.根据特征的类型进行分段;
例如,当前特征为数值特征,首先确定是否有指定分段,当没有指定分段时,可根据分位数列表对当前特征的特征信息进行分段,比如在数值范围的10%,20%进行分段;当有指定分段时,直接采用指定的分段方式,对于采用指定方式得到的分段,之后可对分段进行调整。
3.根据(X1,X2,X3,...,Xd)计算每个单特征的候选分段的IV值,并选择目标分段;
对于各单特征,首先可以生成所有可能的分段集合,然后基于IV值从中选择符合要求的分段。
以A*B为例,分别生成分段集合,在进行分段筛选时,对于A:基于A的各分段的IV值筛选出目标分段,并生成A的新分段集合,B的分段保持不变;对于B:基于B的各分段的IV值筛选出目标分段,并生成B的新分段集合,A的分段保持不变。在算法中使用IV值对不同特征分段进行衡量,从而不断选取出最优分段,直至达到分段数阈值。
当不需要再进行分段的更新时,执行步骤4。
4.对目标分段进行交叉组合;
5.输出并保存组合特征分段信息,可以直接对后续数据进行处理。
下面以一具体示例来说明本申请实施例的具体过程,首先提供如表1所示的用户样本数据,其中包括的是各用户所在城市特征、点击某项信息的次数以及各用户对某一推广活动的响应情况:
表1用户样本数据
用户标识 标签 所在城市 点击次数
1 0 上海 100
2 0 广州 200
3 0 北京 307
4 1 北京 103
5 0 深圳 300
对表1中的所在城市特征和点击次数特征进行特征交叉组合,得到表2:
表2特征交叉组合结果
组合特征分段 所在城市 点击次数
1 上海 x≤100
2 上海 100<x≤300
3 上海 x>300
4 北京 x≤100
5 北京 100<x≤300
6 北京 x>300
7 广州,深圳 x≤100
8 广州,深圳 100<x≤300
9 广州,深圳 x>300
表2中最左边一列是各项组合特征对应的分段标识,例如组合特征分段1对应的特征为上海,x≤100,其中将广州和深圳合并成了一个特征,主要是考虑到这两个城市比较相近。
对于表1中的各用户的信息,可基于表2的映射关系,根据每个用户的特征信息将其映射到一段组合特征分段上,如表3所示:
表3用户样本特征交叉结果
用户标识 标签 所在城市 点击次数 所在组合特征分段
1 0 上海 100 1
2 0 广州 200 8
3 0 北京 307 6
4 1 北京 103 5
5 0 深圳 300 8
例如,对于用户4,其所在城市为北京,点击次数为103,首先在表2中找到北京,103落在了100<x≤300之间,所以确定其对应的第5段组合特征分段中。
同样对于测试集中的用户数据,可确定各项测试用户数据所在的组合特征分段,如表4所示:
表4测试集用户的特征交叉结果
用户标识 所在城市 点击次数 所在组合特征分段
1 上海 106 2
2 广州 25 7
3 北京 700 6
由此,对于任意用户,基于其各项特征信息,均可自动确定出与其对应的组合特征分段,从而确定相应的组合特征,基于组合特征对预设模型进行训练得出的预测模型,能够预测出更加具体的预测结果,例如,对于上述示例,可能会预测出:所在城市为北京并且点击次数在100和300之间的用户有更大的可能性来响应相关推广活动,而不单单是对具有相关单特征的用户进行预测。
特征工程是有效提升机器学习模型的手段之一,而特征交叉又是特征工程中的一项重点内容,经过交叉的特征往往能提供超出这些特征单独能够提供的预测能力;本申请实施例主要就是提供在大数据量的情况下,实现对不同类型的特征(离散型,连续型),任意多维度的特征(即在算力和存储空间足够的情况下,可以支持一次对N个特征做交叉)进行自定义/自动交叉的能力。
本申请能够在大数据量的情况下,自动对任意维度的用户特征进行特征交叉组合,从而生成相应的目标组合特征集合,便于后续根据获取的用户特征信息直接从目标组合特征集合中确定相应的目标组合特征,从而可以增强基于目标组合特征进行训练的机器学习模型效果。
本实施例还提供了一种特征处理装置,请参阅图9,所述装置包括:
对象信息获取模块910,用于获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
候选分段集合构建模块920,用于对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
目标分段集合构建模块930,用于基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
目标分段组合模块940,用于对各目标分段集合中的目标分段进行组合;
目标组合特征集合构建模块950,用于基于对各目标分段的组合结果,构建目标组合特征集合。
请参阅图10,所述候选分段集合构建模块920包括:
特征类型确定模块1010,用于确定每个单特征的特征类型;
分段处理模块1020,用于根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段;
第一构建模块1030,用于基于多个分段构建与所述单特征对应的所述候选分段集合。
所述单特征的特征类型包括数值类型和类别类型,相应地,请参阅图11,所述分段处理模块1020包括:
第一分段模块1110,用于当所述单特征的特征类型为数值类型时,基于所述单特征对应的特征信息的数值范围对所述特征信息进行分段,得到多个分段;
第二分段模块1120,用于当所述单特征的特征类型为类别类型时,基于所述单特征对应的特征信息中包含的特征类别对所述特征信息进行分段,得到多个分段。
请参阅图12,所述目标分段集合构建模块930包括:
贡献值确定模块1210,用于基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值;
目标分段选取模块1220,用于基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段;具体用于按照各候选分段的贡献值由大到小的顺序对各候选分段进行排序,选取排序靠前的预设数量的候选分段为所述目标分段;或,选取所述贡献值大于预设值的候选分段为所述目标分段。
分段合并模块1230,用于将所述候选分段中除所述目标分段以外的剩余候选分段合并到所述目标分段中;
目标分段集合生成模块1240,用于基于各目标分段,生成与所述单特征对应的目标分段集合。
请参阅图13,所述贡献值确定模块1210包括:
第一确定模块1310,用于基于各对象的标签,确定响应对象的总数和未响应对象的总数;
目标对象确定模块1320,用于对于每个单特征对应的候选分段集合中的各候选分段,确定处于每个候选分段中的目标对象,所述目标对象包括响应对象和未响应对象;
第二确定模块1330,用于基于各目标对象的标签,分别确定每个候选分段中的所述响应对象的数量和所述未响应对象的数量;
编码值确定模块1340,用于基于每个候选分段中的所述响应对象的数量、所述未响应对象的数量、所述响应对象的总数以及所述未响应对象的总数,确定各候选分段的编码值;
信息值计算模块1350,用于基于各候选分段的编码值,计算各候选分段的信息值;
第三确定模块1360,用于确定各分段的信息值为各候选分段的所述贡献值。
请参阅图14,所述目标分段组合模块940包括:
穷举模块1410,用于基于预设的目标分段组合方法,对各目标分段集合中的目标分段的组合方式进行穷举;其中,所述目标分段组合方法为从每个目标分段集合中分别取一个目标分段进行组合;
组合特征生成模块1420,用于基于对目标分段组合的穷举结果,得到多项组合特征。
请参阅图15,所述装置还包括模型训练模块1500,所述模型训练模块1500包括:
第一获取模块1510,用于获取测试对象的对象信息,所述对象信息包括所述测试对象的标签以及所述测试对象与多个单特征分别对应的多项特征信息;
第四确定模块1520,用于基于所述测试对象与多个单特征分别对应的多项特征信息,在所述目标组合特征集合确定出对应的目标组合特征;
第一训练模块1530,用于基于所述目标组合特征和所述测试对象的标签,对预设的机器学习模型进行训练。
上述实施例中提供的装置可执行本申请任意实施例所提供方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的方法。
本实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如本实施例上述任一方法。
本实施例还提供了一种设备,其结构图请参见图16,该设备1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器(central processingunits,CPU)1622(例如,一个或一个以上处理器)和存储器1632,一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储设备)。其中,存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对设备中的一系列指令操作。更进一步地,中央处理器1622可以设置为与存储介质1630通信,在设备1600上执行存储介质1630中的一系列指令操作。设备1600还可以包括一个或一个以上电源1626,一个或一个以上有线或无线网络接口1650,一个或一个以上输入输出接口1658,和/或,一个或一个以上操作***1641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。本实施例上述的任一方法均可基于图16所示的设备进行实施。
本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤和顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的***或中断产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本实施例中所示出的结构,仅仅是与本申请方案相关的部分结构,并不构成对本申请方案所应用于其上的设备的限定,具体的设备可以包括比示出的更多或更少的部件,或者组合某些部件,或者具有不同的部件的布置。应当理解到,本实施例中所揭露的方法、装置等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分仅仅为一种逻辑功能的划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元模块的间接耦合或通信连接。
基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员还可以进一步意识到,结合本说明书所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但这种实现不应认为超出本申请的范围。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种特征处理方法,其特征在于,包括:
获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
对各目标分段集合中的目标分段进行组合;
基于对各目标分段的组合结果,构建目标组合特征集合。
2.根据权利要求1所述的一种特征处理方法,其特征在于,所述对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合包括:
确定每个单特征的特征类型;
根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段;
基于多个分段构建与所述单特征对应的所述候选分段集合。
3.根据权利要求2所述的一种特征处理方法,其特征在于,所述单特征的特征类型包括数值类型和类别类型;
相应地,所述根据所述单特征的特征类型,对所述单特征对应的特征信息进行分段处理,得到多个分段包括:
当所述单特征的特征类型为数值类型时,基于所述单特征对应的特征信息的数值范围对所述特征信息进行分段,得到多个分段;
当所述单特征的特征类型为类别类型时,基于所述单特征对应的特征信息中包含的特征类别对所述特征信息进行分段,得到多个分段。
4.根据权利要求1所述的一种特征处理方法,其特征在于,所述基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合包括:
基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值;
基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段;
将所述候选分段中除所述目标分段以外的剩余候选分段合并到所述目标分段中;
基于各目标分段,生成与所述单特征对应的目标分段集合。
5.根据权利要求4所述的一种特征处理方法,其特征在于,所述基于各对象的标签,确定每个单特征对应的目标分段集合中各候选分段的贡献值包括:
基于各对象的标签,确定响应对象的总数和未响应对象的总数;
对于每个单特征对应的候选分段集合中的各候选分段,确定处于每个候选分段中的目标对象,所述目标对象包括响应对象和未响应对象;
基于各目标对象的标签,分别确定每个候选分段中的所述响应对象的数量和所述未响应对象的数量;
基于每个候选分段中的所述响应对象的数量、所述未响应对象的数量、所述响应对象的总数以及所述未响应对象的总数,确定各候选分段的编码值;
基于各候选分段的编码值,计算各候选分段的信息值;
确定各分段的信息值为各候选分段的所述贡献值。
6.根据权利要求4所述的一种特征处理方法,其特征在于,所述基于各候选分段的贡献值,选取符合预设条件的候选分段为目标分段包括:
按照各候选分段的贡献值由大到小的顺序对各候选分段进行排序,选取排序靠前的预设数量的候选分段为所述目标分段;
或,
选取所述贡献值大于预设值的候选分段为所述目标分段。
7.根据权利要求1所述的一种特征处理方法,其特征在于,所述对各目标分段集合中的目标分段进行组合包括:
基于预设的目标分段组合方法,对各目标分段集合中的目标分段的组合方式进行穷举;其中,所述目标分段组合方法为从每个目标分段集合中分别取一个目标分段进行组合;
基于对目标分段组合的穷举结果,得到多项组合特征。
8.根据权利要求1所述的一种特征处理方法,其特征在于,所述方法还包括:
获取测试对象的对象信息,所述对象信息包括所述测试对象的标签以及所述测试对象与多个单特征分别对应的多项特征信息;
基于所述测试对象与多个单特征分别对应的多项特征信息,在所述目标组合特征集合确定出对应的目标组合特征;
基于所述目标组合特征和所述测试对象的标签,对预设的机器学习模型进行训练。
9.一种特征处理装置,其特征在于,包括:
对象信息获取模块,用于获取多个对象的对象信息,每个对象的对象信息包括所述对象的标签以及所述对象与多个单特征分别对应的多项特征信息;
候选分段集合构建模块,用于对多个对象与同一单特征对应的多项特征信息进行分段,得到与每个单特征分别对应的候选分段集合;其中,每个候选分段集合中包括至少两个候选分段;
目标分段集合构建模块,用于基于各对象的标签,对各候选分段集合中的候选分段进行筛选,得到与各单特征分别对应的目标分段集合;
目标分段组合模块,用于对各目标分段集合中的目标分段进行组合;
目标组合特征集合构建模块,用于基于对各目标分段的组合结果,构建目标组合特征集合。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行如权利要求1至8任一项所述的特征处理方法。
CN201911029966.7A 2019-10-28 2019-10-28 一种特征处理方法、装置及存储介质 Active CN110837894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911029966.7A CN110837894B (zh) 2019-10-28 2019-10-28 一种特征处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911029966.7A CN110837894B (zh) 2019-10-28 2019-10-28 一种特征处理方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110837894A true CN110837894A (zh) 2020-02-25
CN110837894B CN110837894B (zh) 2024-02-13

Family

ID=69575625

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911029966.7A Active CN110837894B (zh) 2019-10-28 2019-10-28 一种特征处理方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN110837894B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656697A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 对象推荐方法、装置、电子设备、存储介质和程序产品

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN109815267A (zh) * 2018-12-21 2019-05-28 天翼征信有限公司 数据建模中特征的分箱优化方法及***、存储介质及终端
CN110163378A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 特征处理方法、装置、计算机可读存储介质和计算机设备
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018086470A1 (zh) * 2016-11-10 2018-05-17 腾讯科技(深圳)有限公司 关键词提取方法、装置和服务器
CN109815267A (zh) * 2018-12-21 2019-05-28 天翼征信有限公司 数据建模中特征的分箱优化方法及***、存储介质及终端
CN109598095A (zh) * 2019-01-07 2019-04-09 平安科技(深圳)有限公司 评分卡模型的建立方法、装置、计算机设备和存储介质
CN110163378A (zh) * 2019-03-04 2019-08-23 腾讯科技(深圳)有限公司 特征处理方法、装置、计算机可读存储介质和计算机设备
CN110263265A (zh) * 2019-04-10 2019-09-20 腾讯科技(深圳)有限公司 用户标签生成方法、装置、存储介质和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
傅涛;孙文静;孙亚民;: "基于分箱统计的FCM算法及其在网络入侵检测中的应用", 计算机科学, pages 36 - 39 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113656697A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 对象推荐方法、装置、电子设备、存储介质和程序产品
CN113656697B (zh) * 2021-08-24 2023-12-12 北京字跳网络技术有限公司 对象推荐方法、装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN110837894B (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN109902849B (zh) 用户行为预测方法及装置、行为预测模型训练方法及装置
CN106651057B (zh) 一种基于安装包序列表的移动端用户年龄预测方法
US20210319366A1 (en) Method, apparatus and device for generating model and storage medium
CN111783875A (zh) 基于聚类分析的异常用户检测方法、装置、设备及介质
CN112395487B (zh) 信息推荐方法、装置、计算机可读存储介质及电子设备
WO2021068563A1 (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN112070577A (zh) 一种商品推荐方法、***、设备及介质
CN107247753B (zh) 一种相似用户选取方法及装置
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN112801425B (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN115033801B (zh) 物品推荐方法、模型训练方法及电子设备
CN113011722A (zh) ***资源数据分配方法和装置
CN114707041A (zh) 消息推荐方法、装置、计算机可读介质及电子设备
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113704620A (zh) 基于人工智能的用户标签更新方法、装置、设备及介质
CN110837894B (zh) 一种特征处理方法、装置及存储介质
CN115049446A (zh) 商户识别方法、装置、电子设备及计算机可读介质
CN111667018A (zh) 一种对象聚类的方法、装置、计算机可读介质及电子设备
CN111445280A (zh) 模型生成方法、餐馆排序方法、***、设备和介质
CN112528103A (zh) 一种推荐对象的方法和装置
CN113641823B (zh) 文本分类模型训练、文本分类方法、装置、设备及介质
CN110852078A (zh) 生成标题的方法和装置
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN113688232A (zh) 招标文本分类方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40021486

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant