CN113298145A - 标签填充方法及装置 - Google Patents
标签填充方法及装置 Download PDFInfo
- Publication number
- CN113298145A CN113298145A CN202110567882.XA CN202110567882A CN113298145A CN 113298145 A CN113298145 A CN 113298145A CN 202110567882 A CN202110567882 A CN 202110567882A CN 113298145 A CN113298145 A CN 113298145A
- Authority
- CN
- China
- Prior art keywords
- label
- labels
- original
- determining
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims description 38
- 238000004458 analytical method Methods 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 30
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 8
- 238000010219 correlation analysis Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000000694 effects Effects 0.000 description 23
- 238000012098 association analyses Methods 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 239000011324 bead Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000007621 cluster analysis Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种标签填充方法及装置。其中,该方法包括:获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签;基于原始标签,确定至少一个标签集合;基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像。本发明解决了相关技术中获取到的用于填充用户画像的标签准确率较低的技术问题。
Description
技术领域
本发明涉及标签填充领域,具体而言,涉及一种标签填充方法及装置。
背景技术
目前,由于数据源的问题,现有的用户标签体系存在很多缺失标签,即从用户角度看,一个用户存在标签不完整的情况。用户标签不完整不仅导致我们得到一个碎片式的用户画像,还会影响后续基于用户画像的数据分析和建模结果的准确性,其中,用户画像是指,在大数据时代,企业通过对海量数据信息进行清洗、聚类、分析,将数据抽象成标签,再利用这些标签将用户形象具体化的过程。
目前,一般通过自动填充标签的方式来完善用户画像,具体的,根据用户所具有的标签情况划分相似用户群组,根据相似用户群组中其他用户的标签来填充该用户的标签,但是,由于用户被打上的标签经常会发生变化,若不及时更新相似用户群组会导致获取到的标签准确率较低。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种标签填充方法及装置,以至少解决相关技术中获取到的用于填充用户画像的标签准确率较低的技术问题。
根据本发明实施例的一个方面,提供了一种标签填充方法,包括:获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签;基于原始标签,确定至少一个标签集合;基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像。
可选地,至少一个标签集合包括:第一标签集合,基于原始标签,确定至少一个标签集合,包括:基于第一预设模型对原始标签进行分类,得到分类结果,其中,第一预设模型基于第一样本训练得到;基于分类结果,确定第一标签集合,其中,第一标签集合用于表征与原始标签类别相同的标签的集合。
可选地,至少一个标签集合包括:第二标签集合,方法还包括:基于第二预设模型对原始标签进行语义分析,得到第一分析结果,其中,第二预设模型基于第二样本训练得到;基于第一分析结果,确定第二标签集合,其中,第二标签集合用于表征与原始标签余弦相似度大于预设相似度的标签的集合。
可选地,至少一个标签集合包括:第三标签集合,方法还包括:基于第三预设模型对原始标签进行关联分析,得到第二分析结果,其中,第三预设模型基于第三样本训练得到;基于第二分析结果,确定第三标签集合,其中,第三标签集合用于表征与原始标签关联度大于预设关联度的标签的集合。
可选地,基于至少一个标签集合,确定目标标签,包括:对第一标签集合、第二标签集合以及第三标签集合中的标签进行去重处理,得到目标标签。
可选地,该方法还包括:从用户标签库中确定目标矩阵,其中,目标矩阵用于描述用户与标签之间的对应关系;利用目标矩阵,确定每个标签对应的标签向量;对标签向量进行聚类,得到第一样本,其中,第一样本用于描述每个标签对应的类别;利用第一样本训练第一初始模型,得到第一预设模型。
可选地,该方法还包括:从用户标签库中确定每个标签的词向量;基于每个标签的词向量和用户标签库中其他标签的词向量,确定每个标签和其他标签之间的余弦相似度;基于每个标签和其他标签之间的余弦相似度,确定第二样本,其中,第二样本用于描述余弦相似度大于预设相似度的每个标签和其他标签;利用第二样本训练第二初始模型,得到第二预设模型。
可选地,该方法还包括:从用户标签库中确定每个标签的标注数量;基于每个标签的标注数量和其他标签的标注数量,确定每个标签和其他标签之间的关联度;基于每个标签和其他标签之间的关联度,确定第三样本,其中,第三样本用于描述关联度大于预设关联度的每个标签和其他标签;利用第三样本训练第三初始模型,得到第三预设模型。
根据本发明实施例的一个方面,还提供了一种标签填充装置,包括:获取模块,用于获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签;第一确定模块,用于基于原始标签,确定至少一个标签集合;第二确定模块,基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像。
根据本发明实施例的另一方面,还提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的标签填充方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述的标签填充方法。
在本发明实施例中,首先获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签,然后基于该原始标签,确定至少一个标签集合,并基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像,实现了通过原始标签获取准确度较高的目标标签,由于标签的生成之后很少会发生变化,因此,标签与标签之间的关联关系通常具有稳定性,不会发生较大的改变,相较于现有技术中通过用户与用户之间的不稳定的联系来确定标签而导致标签准确率较低,本申请中可以通过标签与标签之间的稳定性联系来提高确定的目标标签的准确率,避免由于不稳定的联系而导致确定的目标标签的准确率较低,进而解决了相关技术中获取到的用于填充用户画像的标签准确率较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种标签填充方法的流程图;
图2是根据本发明实施例的另一种标签填充方法的流程图;
图3是根据本发明实施例的一种标签填充装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种标签填充方法,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种标签填充方法,如图1所示,该方法包括如下步骤:
步骤S102,获取目标对象的原始标签。
其中,原始标签为目标对象用户画像的当前标签。
上述的目标对象为待填充标签的用户;上述的原始标签为目标对象用户画像当前显示的标签。
上述的用户画像可以是根据性别、年龄、职业、姓名、用户偏好、生活习惯、用户行为等信息抽象出来的标签化用户模型。确定用户画像实际上就是给用户打标签,而标签是通过对用户的属性信息分析而来的高度精炼的特征标识。
在一种可选的实施例中,可以根据场景需求和目标对象的原始标签的数量来对目标对象的标签进行填充。
示例性的,一个金融产品需要结合用户的10个标签来向用户进行推荐,但是用户画像中仅有8个标签,还有2个标签存在缺失的情况,此时,就需要通过这8个标签来确定需要填充的2个标签。
步骤S104,基于原始标签,确定至少一个标签集合。
上述的标签集合可以是与原始标签类别相同的标签的集合,还可以是与原始标签语义相同的标签的集合,还可以是与原始标签具有强关联性的标签的集合。
在一种可选的实施例中,可以将原始标签输入至预先训练好的模型中,以便输出至少一个标签集合。
在另一种可选的实施例中,可以通过用户标签库中的用户以及该用户对应的标签来训练模型,通过获取标签样本,并对标签样本进行聚类分析,可以得到每个标签样本所属的类别,基于该标签样本以及标签样本对应的类别来训练模型,可以使模型能够确定出原始标签的类别,并根据原始标签的类别确定出与原始标签类别相同的其他标签。
上述的聚类所要求划分的类是未知的,聚类是将数据分类到不同的类或者簇的过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。示例性的,人员推荐中利用聚类分析实现人员分群,聚类结果中属于同一类镞的人员被认为具有类似的属性或者行为,可以进行相互推荐。
进一步地,还可以对标签样本进行关联分析,确定出所有标签样本之间的关联关系,基于标签样本以及标签样本之间的关联关系来训练模型,可以使模型能够确定出与原始标签具有关联性的其他标签。
上述的关联分析又称关联规则挖掘,它可以从大量数据中发现项集之间相关联系。关联分析的一个典型例子是购物篮分析,该过程通过发现顾客放入其购物篮中的不同商品之间的联系,分析购物的购买习惯,通过了解哪些商品频繁地被客户同时购买,这种关联的发现可以帮助零售商指定营销策略。其他的应用还包括价目表设计、商品促销、商品的排放和基于购买模式的顾客划分。
进一步地,还可以对标签样本进行语义分析,确定出标签样本的词向量,可以基于标签样本的词向量来训练模型,可以使模型能够对原始标签的语义进行分析,从而根据分析结果确定出与原始标签语义相似的其他标签。
上述的语义分析可以通过word2vec(word to vector,单词转化向量)来实现,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络的隐藏层。通过word2vec将标签样本转换成词向量,可以方便标签样本与其他样本之间进行匹配,以便确定与标签样本相似的其他标签样本。
步骤S106,基于至少一个标签集合,确定目标标签。
其中,目标标签用于填充目标对象的用户画像。
在一种可选的实施例中,可以根据目标对象用户画像的标签缺失数量从至少一个标签集合中确定目标标签,例如,需要用户画像中记载有10个标签,但是当前的用户画像中仅有8个标签,此时,可以从至少一个标签集合中随机选择两个标签作为目标标签,并基于这两个标签来填充目标对象的用户画像。
在另一种可选的实施例中,可以对获取到的所有标签集合中标签进行去重处理,即,将重复出现的标签进行删除,并将剩余的标签确定为目标标签。
进一步地,可以根据目标对象用户画像的标签缺失数量从去重处理后所得到的标签集合中确定目标标签。
通过上述步骤,首先获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签,然后基于该原始标签,确定至少一个标签集合,并基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像,实现了通过原始标签获取准确度较高的目标标签,由于标签的生成之后很少会发生变化,因此,标签与标签之间的关联关系通常具有稳定性,不会发生较大的改变,相较于现有技术中通过用户与用户之间的不稳定的联系来确定标签而导致标签准确率较低,本申请中可以通过标签与标签之间的稳定性联系来提高确定的目标标签的准确率,避免由于不稳定的联系而导致确定的目标标签的准确率较低,进而解决了相关技术中获取到的用于填充用户画像的标签准确率较低的技术问题。
可选地,至少一个标签集合包括:第一标签集合,基于原始标签,确定至少一个标签集合,包括:基于第一预设模型对原始标签进行分类,得到分类结果,其中,第一预设模型基于第一样本训练得到;基于分类结果,确定第一标签集合,其中,第一标签集合用于表征与原始标签类别相同的标签的集合。
上述的第一预设模型可以是能够确定原始标签类别的神经网络模型。
在一种可选的实施例中,可以通过第一预设模型对原始标签进行分类,以便得到原始标签的类别,从而根据原始标签的类别来确定与原始标签类别相似的其他标签的第一标签集合,由于第一标签集合中的标签与原始标签的类别都相同,因此,基于第一标签集合确定的目标标签与原始标签的类别也相同,这样可以确保用于填充目标对象用户画像的标签的准确度。
在另一种可选的实施例中,可以从用户标签库中确定出每个标签的标签向量,并将标签向量进行聚类,得到多个类镞,即第一样本,可以通过第一样本训练得到第一预设模型。
可选地,至少一个标签集合包括:第二标签集合,方法还包括:基于第二预设模型对原始标签进行语义分析,得到第一分析结果,其中,第二预设模型基于第二样本训练得到;基于第一分析结果,确定第二标签集合,其中,第二标签集合用于表征与原始标签余弦相似度大于预设相似度的标签的集合。
上述的第二预设模型可以是能够确定原始标签语义的神经网络模型。
在一种可选的实施例中,可以通过第二预设模型对原始标签进行语义分析,以便得到原始标签的词向量,从而根据原始标签的词向量来与其他标签的词向量进行匹配,其匹配度越高,则原始标签与其他标签的相似度越高,进而可以得到与原始标签语义相似的其他标签的第二标签集合,由于第二标签集合中的标签与原始标签的语义相似度较高,因此,基于第二标签集合确定的目标标签与原始标签的语义相似度较高,这样可以确保用于填充目标对象用户画像的标签的准确性。
在另一种可选的实施例中,可以从用户标签库中确定出每个标签的词向量,即第二样本,可以通过第二样本训练得到第二预设模型。
可选地,至少一个标签集合包括:第三标签集合,方法还包括:基于第三预设模型对原始标签进行关联分析,得到第二分析结果,其中,第三预设模型基于第三样本训练得到;基于第二分析结果,确定第三标签集合,其中,第三标签集合用于表征与原始标签关联度大于预设关联度的标签的集合。
在一种可选的实施例中,可以通过第三预设模型对原始标签进行关联分析,以便得到原始标签与其他标签之间的支持度、置信度以及提升度,并根据得到的支持度、置信度、提升度确定原始标签与其他标签之间的关联度,从而根据该关联度来确定与原始标签关联度较高的其他标签的第三标签集合,由于第三标签集合中的标签与原始标签的关联度较高,因此,基于第三标签集合确定的目标标签与原始标签的关联度较高,这样可以确定用于填充目标对象用户画像的标签的准确性。
在另一种可选的实施例中,可以从用户标签库中确定每个标签与其他标签之间的支持度、置信度以及提升度,即第三样本,可以通过第三样本训练得到第三预设模型。
可选地,基于至少一个标签集合,确定目标标签,包括:对第一标签集合、第二标签集合以及第三标签集合中的标签进行去重处理,得到目标标签。
在一种可选的实施例中,可以合并第一标签集合、第二标签集合以及第三标签集合,并去除合并后的标签集合中的重复标签,将剩余的标签作为目标标签用于填充目标对象的用户画像。
示例性的,合并后的标签集合中包括平台活跃用户、高价格敏感和长三角,将合并后的标签集合中的标签作为待填充标签的候选标签实现缺失标签的填充,例如用户A被标注了平台活跃用户、高价格敏感和长三角三个标签,但是高活动参与度标签一栏缺失,可以给用户A标注上高活动参与度。
可选地,该方法还包括:从用户标签库中确定目标矩阵,其中,目标矩阵用于描述用户与标签之间的对应关系;利用目标矩阵,确定每个标签对应的标签向量;对标签向量进行聚类,得到第一样本,其中,第一样本用于描述每个标签对应的类别;利用第一样本训练第一初始模型,得到第一预设模型。
在一种可选的实施例中,可以获取用户标签库中部分原始数据以便加工成用户标签标注矩阵,该矩阵的行是标签、列是用户。取值为1表示有该标签,0表示无;以用户标签标注矩阵的标签向量为特征进行聚类分析,将标签分为多个类镞,即第一样本。
上述的用户标签库可以为N×M的用户标签记录表,其中,N表示用户数量,量级在百万级,M表示标签数量,约有数千个标签。
在一种可选的实施例中,可以从用户标签库中确定目标矩阵,如表1所示。
表1
表1中每行表示某个用户拥有的标签情况,值为1表示有标签,0表示没有标签。例如用户1拥有标签“学生”、“高价格敏感”、“长三角”、“女生”、“平台活跃用户”、“中低收入”,没有“高活动参与度”标签。
在一种可选的实施例中,可以从目标矩阵中确定每个标签对应的标签向量,该矩阵中每个标签对应N*1的向量,以标签向量为特征进行聚类分析,可以将标签分为多个类镞,例如聚类后高活动参与度和高价格敏感这两个标签属于同一类镞,在原始标签为高活动参与度时,可以确定用于填充的目标标签为高价格敏感。
可选地,该方法还包括:从用户标签库中确定每个标签的词向量;基于每个标签的词向量和用户标签库中其他标签的词向量,确定每个标签和其他标签之间的余弦相似度;基于每个标签和其他标签之间的余弦相似度,确定第二样本,其中,第二样本用于描述余弦相似度大于预设相似度的每个标签和其他标签;利用第二样本训练第二初始模型,得到第二预设模型。
在一种可选的实施例中,上述训练好的第二预设模型可以为word2vec模型、LDA模型(Latent Dirichlet Allocation,三层贝叶斯概率模型)、LSA模型(Latent SemanticAnalysis,信息检索模型),这里不做限制。以word2vec模型为例,根据模型得到所有标签的word2vec词向量,然后确定各个标签之间的余弦相似度;选择与原始标签余弦相似度度最大的预设数量的标签加入到第二标签集合,其中,预设数量可以根据实际情况设置,此处不做任何限制。
例如,计算得到与高活动参与度标签之间余弦相似度最大的标签是平台活跃用户,可以将平台活跃用户的标签加入到第二标签集合中。
可选地,该方法还包括:从用户标签库中确定每个标签的标注数量;基于每个标签的标注数量和其他标签的标注数量,确定每个标签和其他标签之间的关联度;基于每个标签和其他标签之间的关联度,确定第三样本,其中,第三样本用于描述关联度大于预设关联度的每个标签和其他标签;利用第三样本训练第三初始模型,得到第三预设模型。
上述的关联度可以表示两个标签之间的支持度、置信度以及提升度,关联度能够反映两个标签内在的关联关系,根据关联度可以确定出于原始标签的第三标签集合。具体的,可以通过Apriori算法或者FP-growth算法来确定两个标签之间的支持度、置信度以及提升度。
示例性的,表2中的前项标签为用户的所在地域标签,地域标签值有长三角、珠三角、中部省份、成渝等,后项标签为活动参与度标签,活动参与度标签取值有高活动参与度、中活动参与度和低活动参与度。例如用户总数为100万,地域标签为长三角的客户数目有12万,被标注为高活动参与度的客户数目有21万,地域标签为长三角且同时被标注为高活动参与度的客户数目有8万。利用FP-growth计算得到{长三角、高活动参与度}的支持度为8/100=0.08。标签关联规则{长三角}=>{高活动参与度}的置信度为0.08/(12/100)=0.67。标签关联规则{长三角}=>{高活动参与度}的提升度为0.67/(21/100)=3.2。同理可以求得表中其他地域标签和活动参与度标签组成的关联规则的支持度、置信度和提升度:
前项标签 | 后项标签 | 支持度 | 置信度 | 提升度 |
长三角 | 高活动参与度 | 0.08 | 0.67 | 3.2 |
珠三角 | 高活动参与度 | 0.05 | 0.84 | 2.1 |
中部省份 | 高活动参与度 | 0.03 | 0.71 | 1.3 |
长三角 | 中活动参与度 | 0.04 | 0.54 | 1.4 |
成渝 | 低活动参与度 | 0.04 | 0.50 | 1.7 |
可以设置支持度,置信度和提升度的阈值分别为0.05,0.6和2.5。表中关联规则{长三角}=>{高活动参与度}和{珠三角}=>{高活动参与度}满足支持度和置信度要求,但是只有{长三角}=>{高活动参与度}提升度大于阈值,属于有效的强关联,在原始标签为长三角时,可以确定目标标签为高活动参与度,即给地域标签为长三角且缺失活动参与度标签的客户填充高活动参与度标签。
下面结合图2对本发明一种优选的实施例进行详细说明。如图2所示,该方法可以包括如下步骤:
步骤S201,获取目标对象的原始标签;
步骤S202,基于第一预设模型对原始标签进行分类,得到分类结果;
步骤S203,基于该分类结果,确定第一标签集合:
步骤S204,基于第二预设模型对原始标签进行语义分析,得到第一分析结果;
步骤S205,基于第一分析结果,确定第二标签集合;
步骤S206,基于第三预设模型对原始标签进行关联分析,得到第二分析结果;
步骤S207,基于第二分析结果,确定第三标签集合;
步骤S208,去除第一标签集合、第二标签集合以及第三标签集合中的重复标签,并确定剩下的标签为目标标签。
通过上述步骤引入聚类分析、关联分析、语义分析等方式来提取用户画像中用户标签间潜在的关联关系,从多个维度实现用户标签的填充和扩展,能基于用户有限的一个或多个标签扩展出更多相关联的标签用于缺失标签的填充,为后续的精准营销提供更加丰富和完备的用户标签体系,实用性强,具有较高商业价值;另外,还可以在无需用户补录信息的情况下为用户自动填充缺失标签,相比于手动填充的方式成本更低且效率更高。
需要说明的是,现有的标签自动填充技术是从用户的维度来实现标签填充,将用户所具有的标签作为特征来训练树模型,使用树模型实现同类别用户缺失标签的自动填补,而上述步骤提供了和现有技术不同的填充思路,即从标签本身的维度即利用关联分析找出各个标签之间潜在的关联规则来实现标签填充。有利于用户可以综合使用本发明的标签填充方法和现有的标签填充方法进行对用户画像进行填充,从而提高用户画像的全面性以及准确性。
实施例2
根据本发明实施例,还提供了一种标签填充装置,该装置可以执行上述实施例中的标签填充方法,具体实现方式和优选应用场景与上述实施例相同,在此不做赘述。
图3是根据本发明实施例的一种标签填充装置的示意图,如图3所示,该装置包括:
获取模块32,用于获取目标对象的原始标签,其中,原始标签为目标对象用户画像的当前标签;
第一确定模块34,用于基于原始标签,确定至少一个标签集合;
第二确定模块36,用于基于至少一个标签集合,确定目标标签,其中,目标标签用于填充目标对象的用户画像。
可选地,至少一个标签集合包括:第一标签集合,第一确定模块包括:分类单元,用于基于第一预设模型对原始标签进行分类,得到分类结果,其中,第一预设模型基于第一样本训练得到;第一确定单元,用于基于分类结果,确定第一标签集合,其中,第一标签集合用于表征与原始标签类别相同的标签的集合。
可选地,至少一个标签集合包括:第二标签集合,该装置还包括:第一分析单元,用于基于第二预设模型对原始标签进行语义分析,得到第一分析结果,其中,第二预设模型基于第二样本训练得到;第二确定单元,用于基于第一分析结果,确定第二标签集合,其中,第二标签集合用于表征与原始标签余弦相似度大于预设相似度的标签的集合。
可选地,至少一个标签集合包括:第三标签集合,该装置还包括:第二分析结果,用于基于第三预设模型对原始标签进行关联分析,得到第二分析结果,其中,第三预设模型基于第三样本训练得到;第三确定单元,用于基于第二分析结果,确定第三标签集合,其中,第三标签集合用于表征与原始标签关联度大于预设关联度的标签的集合。
可选地,第二确定模块,包括:处理单元,用于对第一标签集合、第二标签集合以及第三标签集合中的标签进行去重处理,得到目标标签。
可选地,该装置还包括:第三确定模块,用于从用户标签库中确定目标矩阵,其中,目标矩阵用于描述用户与标签之间的对应关系;第四确定模块,用于利用目标矩阵,确定每个标签对应的标签向量;聚类模块,用于对标签向量进行聚类,得到第一样本,其中,第一样本用于描述每个标签对应的类别;第一训练模块,用于利用第一样本训练第一初始模型,得到第一预设模型。
可选地,该装置还包括:第五确定模块,用于从用户标签库中确定每个标签的词向量;第五确定模块还用于基于每个标签的词向量和用户标签库中其他标签的词向量,确定每个标签和其他标签之间的余弦相似度;第五确定模块还用于基于每个标签和其他标签之间的余弦相似度,确定第二样本,其中,第二样本用于描述余弦相似度大于预设相似度的每个标签和其他标签;第二训练模块,用于利用第二样本训练第二初始模型,得到第二预设模型。
可选地,该装置还包括:第六确定模块,用于从用户标签库中确定每个标签的标注数量;第六确定模块还用于基于每个标签的标注数量和其他标签的标注数量,确定每个标签和其他标签之间的关联度;第六确定模块还用于基于每个标签和其他标签之间的关联度,确定第三样本,其中,第三样本用于描述关联度大于预设关联度的每个标签和其他标签;第三训练模块,用于利用第三样本训练第三初始模型,得到第三预设模型。
实施例3
本申请实施例还提供了一种计算机存储介质,计算机存储介质可以存储有多条指令,指令适于由处理器加载并执行如上述图1-图3所示实施例的方法步骤,具体执行过程可以参见图1-图3所示实施例的具体说明,在此不进行赘述。
实施例4
根据本发明实施例,还提供了一种电子设备,包括:处理器和存储器;其中,存储器存储有计算机程序,计算机程序适于由处理器加载并执行上述实施例1中的标签填充方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种标签填充方法,其特征在于,包括:
获取目标对象的原始标签,其中,所述原始标签为所述目标对象用户画像的当前标签;
基于所述原始标签,确定至少一个标签集合;
基于所述至少一个标签集合,确定目标标签,其中,所述目标标签用于填充所述目标对象的用户画像。
2.根据权利要求1所述的方法,其特征在于,所述至少一个标签集合包括:第一标签集合,基于所述原始标签,确定至少一个标签集合,包括:
基于第一预设模型对所述原始标签进行分类,得到分类结果,其中,所述第一预设模型基于第一样本训练得到;
基于所述分类结果,确定第一标签集合,其中,所述第一标签集合用于表征与所述原始标签类别相同的标签的集合。
3.根据权利要求2所述的方法,其特征在于,所述至少一个标签集合包括:第二标签集合,所述方法还包括:
基于第二预设模型对所述原始标签进行语义分析,得到第一分析结果,其中,所述第二预设模型基于第二样本训练得到;
基于所述第一分析结果,确定所述第二标签集合,其中,所述第二标签集合用于表征与所述原始标签余弦相似度大于预设相似度的标签的集合。
4.根据权利要求3所述的方法,其特征在于,所述至少一个标签集合包括:第三标签集合,所述方法还包括:
基于第三预设模型对所述原始标签进行关联分析,得到第二分析结果,其中,所述第三预设模型基于第三样本训练得到;
基于所述第二分析结果,确定所述第三标签集合,其中,所述第三标签集合用于表征与所述原始标签关联度大于预设关联度的标签的集合。
5.根据权利要求4所述的方法,其特征在于,基于所述至少一个标签集合,确定目标标签,包括:
对所述第一标签集合、所述第二标签集合以及所述第三标签集合中的标签进行去重处理,得到所述目标标签。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
从用户标签库中确定目标矩阵,其中,所述目标矩阵用于描述用户与标签之间的对应关系;
利用所述目标矩阵,确定每个标签对应的标签向量;
对所述标签向量进行聚类,得到所述第一样本,其中,所述第一样本用于描述每个标签对应的类别;
利用所述第一样本训练第一初始模型,得到所述第一预设模型。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从用户标签库中确定每个标签的词向量;
基于所述每个标签的词向量和所述用户标签库中其他标签的词向量,确定所述每个标签和所述其他标签之间的余弦相似度;
基于所述每个标签和所述其他标签之间的余弦相似度,确定第二样本,其中,所述第二样本用于描述所述余弦相似度大于所述预设相似度的每个标签和所述其他标签;
利用所述第二样本训练第二初始模型,得到所述第二预设模型。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
从用户标签库中确定每个标签的标注数量;
基于所述每个标签的标注数量和其他标签的标注数量,确定所述每个标签和所述其他标签之间的关联度;
基于所述每个标签和所述其他标签之间的关联度,确定第三样本,其中,所述第三样本用于描述所述关联度大于所述预设关联度的所述每个标签和所述其他标签;
利用所述第三样本训练第三初始模型,得到所述第三预设模型。
9.一种标签填充装置,其特征在于,包括:
获取模块,用于获取目标对象的原始标签,其中,所述原始标签为所述目标对象用户画像的当前标签;
第一确定模块,用于基于所述原始标签,确定至少一个标签集合;
第二确定模块,用于基于所述至少一个标签集合,确定目标标签,其中,所述目标标签用于填充所述目标对象的用户画像。
10.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1至8中任意一项的标签填充方法步骤。
11.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至8中任意一项的标签填充方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110567882.XA CN113298145A (zh) | 2021-05-24 | 2021-05-24 | 标签填充方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110567882.XA CN113298145A (zh) | 2021-05-24 | 2021-05-24 | 标签填充方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113298145A true CN113298145A (zh) | 2021-08-24 |
Family
ID=77324421
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110567882.XA Pending CN113298145A (zh) | 2021-05-24 | 2021-05-24 | 标签填充方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113298145A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538020A (zh) * | 2021-07-05 | 2021-10-22 | 深圳索信达数据技术有限公司 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
CN114445146A (zh) * | 2022-01-30 | 2022-05-06 | 北京火山引擎科技有限公司 | 一种标签填充方法及其相关设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN109102157A (zh) * | 2018-07-11 | 2018-12-28 | 交通银行股份有限公司 | 一种基于深度学习的银行工单派单方法及*** |
CN109934281A (zh) * | 2019-03-08 | 2019-06-25 | 电子科技大学 | 一种二分类网络的非监督训练方法 |
CN110674144A (zh) * | 2019-08-14 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN111538751A (zh) * | 2020-03-23 | 2020-08-14 | 重庆特斯联智慧科技股份有限公司 | 物联网数据的标签化用户画像生成***及方法 |
CN111813982A (zh) * | 2020-07-23 | 2020-10-23 | 中原工学院 | 基于谱聚类的子空间聚类算法的数据处理方法及装置 |
-
2021
- 2021-05-24 CN CN202110567882.XA patent/CN113298145A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108108451A (zh) * | 2017-12-27 | 2018-06-01 | 合肥美的智能科技有限公司 | 群体的群体用户画像获取方法和装置 |
CN109102157A (zh) * | 2018-07-11 | 2018-12-28 | 交通银行股份有限公司 | 一种基于深度学习的银行工单派单方法及*** |
CN109934281A (zh) * | 2019-03-08 | 2019-06-25 | 电子科技大学 | 一种二分类网络的非监督训练方法 |
CN110674144A (zh) * | 2019-08-14 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 用户画像生成方法、装置、计算机设备和存储介质 |
CN111538751A (zh) * | 2020-03-23 | 2020-08-14 | 重庆特斯联智慧科技股份有限公司 | 物联网数据的标签化用户画像生成***及方法 |
CN111813982A (zh) * | 2020-07-23 | 2020-10-23 | 中原工学院 | 基于谱聚类的子空间聚类算法的数据处理方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113538020A (zh) * | 2021-07-05 | 2021-10-22 | 深圳索信达数据技术有限公司 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
CN113538020B (zh) * | 2021-07-05 | 2024-03-26 | 深圳索信达数据技术有限公司 | 获取客群特征关联度方法、装置、存储介质和电子装置 |
CN114445146A (zh) * | 2022-01-30 | 2022-05-06 | 北京火山引擎科技有限公司 | 一种标签填充方法及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
CN106919619B (zh) | 一种商品聚类方法、装置及电子设备 | |
US9418144B2 (en) | Similar document detection and electronic discovery | |
EP2068276A1 (en) | Information processing device and method, program, and recording medium | |
CN106294500B (zh) | 内容项目的推送方法、装置及*** | |
CN112487199B (zh) | 一种基于用户购买行为的用户特征预测方法 | |
CN107291755B (zh) | 一种终端推送方法及装置 | |
CN111259173B (zh) | 一种搜索信息推荐方法及装置 | |
CN109255000B (zh) | 一种标签数据的维度管理方法及装置 | |
CN105825396B (zh) | 一种基于共现的广告标签聚类的方法及*** | |
CN113298145A (zh) | 标签填充方法及装置 | |
CN101452478A (zh) | 信息处理设备和方法、程序以及记录介质 | |
CN111861605A (zh) | 业务对象推荐方法 | |
CN115018588A (zh) | 产品推荐方法、装置、电子设备及可读存储介质 | |
CN111310032A (zh) | 资源推荐方法、装置、计算机设备及可读存储介质 | |
CN110795613A (zh) | 商品搜索方法、装置、***及电子设备 | |
CN114223012A (zh) | 推送对象确定方法、装置、终端设备及存储介质 | |
CN112395881B (zh) | 物料标签的构建方法、装置、可读存储介质及电子设备 | |
CN116663505B (zh) | 一种基于互联网的评论区管理方法及*** | |
CN113837824A (zh) | 信息推送方法及其*** | |
CN113327132A (zh) | 多媒体推荐方法、装置、设备及存储介质 | |
CN116611889A (zh) | 基于用户画像标签的产品个性化推荐方法及*** | |
CN114282119A (zh) | 一种基于异构信息网络的科技信息资源检索方法及*** | |
JPWO2018100700A1 (ja) | データ変換装置とデータ変換方法 | |
CN113591857A (zh) | 字符图像处理方法、装置及古代汉籍图像的识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |