CN112115981A - 一种社交网络博主的embedding评估方法及*** - Google Patents
一种社交网络博主的embedding评估方法及*** Download PDFInfo
- Publication number
- CN112115981A CN112115981A CN202010873558.6A CN202010873558A CN112115981A CN 112115981 A CN112115981 A CN 112115981A CN 202010873558 A CN202010873558 A CN 202010873558A CN 112115981 A CN112115981 A CN 112115981A
- Authority
- CN
- China
- Prior art keywords
- embedding
- bloggers
- blogger
- vector
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 109
- 239000013598 vector Substances 0.000 claims abstract description 359
- 238000012549 training Methods 0.000 claims abstract description 135
- 238000000034 method Methods 0.000 claims abstract description 110
- 230000000694 effects Effects 0.000 claims abstract description 32
- 230000006399 behavior Effects 0.000 claims description 37
- 230000014509 gene expression Effects 0.000 claims description 28
- 230000003993 interaction Effects 0.000 claims description 23
- 230000002452 interceptive effect Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000005259 measurement Methods 0.000 claims description 8
- 230000006855 networking Effects 0.000 claims description 2
- 230000007547 defect Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种社交网络博主的embedding评估方法及***,获取各待分类博主的特征信息并进行多种embedding向量训练,为每个待分类博主生成多种embedding向量;针对每种embedding向量,将其他博主的embedding向量与每个领域的设定中心博主的embedding向量之间的距离,得到多个embedding向量聚类结果;根据每种embedding向量的多个聚类结果形成对该种embedding向量的评估结果并比对,判断每种embedding向量训练优劣。不同方式训练博主embedding向量,采用与评估效果优的embedding向量进行推荐博主的方法提高推荐效果。
Description
技术领域
本发明涉及模型训练评估,具体涉及一种社交网络博主的embedding(嵌入表达)方法及***。
背景技术
随着移动互联网时代的到来,广大用户开始在社交媒体中寻找自己感兴趣的内容与博主,同时促使大量优秀内容生产者不断涌现。在各媒体平台,为了更好服务数以亿计的用户,实现优秀内容的有效分发,推荐***中通常会引入博主id信息来达到千人千面的推荐效果。由于博主数量规模巨大且极具稀疏,若直接引入id作为特征,将会为推荐模型引入极大的参数量,对模型训练带来了难度。为了避免上述问题,将博主id信息embedding化是常用的技术手段,故博主embedding特征的训练效果直接影响到推荐效果的好坏,同时对用户体验产生较大影响。
Embedding训练技术由来已久,起源于nlp领域中对于词的向量表达,后因为其较强的表达能力,逐渐在推荐***当中流行开来。目前对于embedding效果评估的方式通常是基于人工审核进行评估。
在实现本发明过程中,申请人发现现有技术中至少存在如下问题:基于人工审核的技术方案为:随机抽取训练完成后的博主embedding向量,通过余弦相似度或者其他方法计算向量间的相似度寻找与此博主相似的top n个博主;人工审核这些博主的接近程度,包括关注数差异、发博内容领域近似度、公共粉丝数等。但是存在如下缺点:样本量巨大,且受限于人力资源成本,随机抽取博主id评估样本较少,存在偶然性,缺乏统计意义;人工评估账号特征存在主观因素影响,且评估指标选择无标准判断。
发明内容
本发明实施例提供一种社交网络博主的嵌入表达embedding评估方法及***,避免人工审核embedding向量所带来的弊端。
为达上述目的,一方面,本发明实施例提供一种社交网络博主的嵌入表达embedding评估方法,包括:
获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,其中,所述社交网络博主是指通过社交网络发布信息的人,所有待分类博主所具有的embedding向量的种类相同;
针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
优选地,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
所述将每个待分类博主的特征信息进行多种embedding向量训练,为每个待分类博主生成多种embedding向量,具体包括:
通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
优选地,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主,具体包括:
将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结果。
优选地,所述针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,具体包括:
针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
所述比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣,具体包括:
分别将每种embedding向量的评估结果与设定分数阈值进行比较;
当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
优选地,还包括:
根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
另一方面,本发明实施例提供一种社交网络博主的嵌入表达embedding评估***,其特征在于,包括:
训练单元,用于获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,其中,所述社交网络博主是指通过社交网络发布信息的人,所有待分类博主所具有的embedding向量的种类相同;
聚类单元,用于针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
评估比对单元,用于针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
优选地,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
所述训练单元,包括:
第一训练子单元,用于通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
第二训练子单元,用于通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
优选地,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
所述聚类单元包括:
预设聚类中心子单元,用于将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
聚类计算子单元,用于针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结。
优选地,所述评估比对单元包括:
差异计算计算子单元,用于针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
评估效果计算子单元,用于取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
比较子单元,用于分别将每种embedding向量的评估结果与设定分数阈值进行比较;
判定子单元,用于当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
优选地,还包括:
博主能力生成单元,用于根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
上述技术方案具有如下有益效果:通过采用不同方式来训练得到所有博主embedding向量,充分利用了每个博主embedding向量、并且结合现有的衡量标准模型自动完成对有博主embedding向量进行聚类计算,对所使用的多种训练方式得到的embedding向量进行效果评估,提高了embedding向量评估效果的精度,从而采用与评估效果优的embedding向量进行推荐博主的方法提高推荐效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的社交网络博主的嵌入表达embedding评估方法的流程图;
图2是本发明实施例的社交网络博主的嵌入表达embedding评估***的结果图;
图3是本发明实施例的另一社交网络博主的嵌入表达embedding评估***的结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,结合本发明的是实施例,提供一种社交网络博主的嵌入表达embedding评估方法,包括:
S101:获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,其中,所述社交网络博主是指通过社交网络发布信息的人,所有待分类博主所具有的embedding向量的种类相同;
S102:针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
S103:针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
优选地,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
步骤101具体包括:
S1011:通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
S1012:通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
优选地,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
步骤102具体包括:
S1021:将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
S1022:针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结果。
优选地,所述针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,具体包括:
S1031:针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
S1032:取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
所述比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣,具体包括:
S1033:分别将每种embedding向量的评估结果与设定分数阈值进行比较;
S1034:当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
优选地,还包括:
S104:根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
如图2所示,提供一种社交网络博主的嵌入表达embedding评估***,包括:
训练单元21,用于获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,所述社交网络博主是指通过社交网络发布信息的人,其中,所有待分类博主所具有的embedding向量的种类相同;
聚类单元22,用于针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
评估比对单元23,用于针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
优选地,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
所述训练单元21,包括:
第一训练子单元211,用于通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
第二训练子单元212,用于通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
优选地,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
所述聚类单元22包括:
预设聚类中心子单元221,用于将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
聚类计算子单元222,用于针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结。
优选地,所述评估比对单元23包括:
差异计算子单元231,用于针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
评估效果计算子单元232,用于取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
比较子单元233,用于分别将每种embedding向量的评估结果与设定分数阈值进行比较;
判定子单元234,用于当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
优选地,还包括:
博主能力生成单元24,用于根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
本申请所取得的有益效果为:通过采用不同方式来训练得到所有博主embedding向量,充分利用了每个博主embedding向量、并且结合现有的衡量标准模型自动完成对有博主embedding向量进行聚类计算,对所使用的多种训练方式得到的embedding向量进行效果评估,提高了embedding向量评估效果的精度,从而采用与评估效果优的embedding向量进行推荐博主的方法提高推荐效果。避免样本量巨大时,且受限于人力资源成本的缺点,也避免随机抽取博主id评估样本较少、存在偶然性、缺乏统计意义的缺点;也避免人工评估账号特征存在主观因素的影响的缺点。
下面结合具体的应用实例对本发明实施例上述技术方案进行详细说明,实施过程中没有介绍到的技术细节,可以参考前文的相关描述。
本发明所用的缩短语与关键术语定义如下:
Embedding:嵌入表达或者嵌入表示
nlp:自然语言处理
如图3所示,本发明为一种基于聚类的社交网络博主embedding评估方法,主要针对社交网络中博主的embedding效果评估。旨在根据博主能力领域的垂直化以及用户短期时间内兴趣的固定性,相似博主embedding可被聚类到同一领域簇,由此根据博主能力领域的先验达到embedding评估的目的。不同博主在聚类后被聚到同一簇中,该簇博主能力领域越相似,则认为embedding效果越理想,否则效果越不佳。
一、博主能力领域划分
在社交媒体中,每个发博用户都会根据自身发布博文的领域范围通过模型打上不同的能力标签Ci以及能力标签权重wi,每个能力标签所对应的权重是一个范围,能力标签权重wi代表了博主在该领域内的垂直化程度。如用户常发布美食相关内容博文,则其将会被打上较高权重的美食领域标签。就是在博主发文时,能力生成模型会根据博主发布的博文生成该博主的能力标签和能力标签权重。
二、embedding训练
通过不同算法训练博主embedding向量,如利用交互矩阵通过矩阵分解训练;利用用户关系网络通过graph embedding方法训练;利用行为序列通过skip-gram方法训练等。即:通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。比如:
通过设定的训练方法分解训练用户与待分类博主之间的交互行为,转化成待分类博主的交互行为的embedding向量;
通过设定的训练方法训练用户关系网络,转化为待分类博主的用户关系网络的embedding向量;
通过设定的训练方法训练用户与待分类博主的交互行为序列,转化为待分类博主的用户行为序列的embedding向量;
所述待分类博主的交互行为的embedding向量、所述待分类博主的用户关系网络的embedding向量、所述待分类博主的用户行为序列的embedding向量均为该博主的embedding向量。
待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成。
三、embedding聚类
把博主embedding聚为固定K类,其中K为博主能力领域的类别数,在理想状态下不同类领域博主将被聚到其自身领域簇下。聚类过程中使用余弦相似度等衡量相似性方法作为样本到聚类中心的距离标准,则不同博主embedding将与距离最近的聚类中心聚为一簇。如下将以kmeans方法简述聚类算法的计算过程:
(1)随机选取K个样本点作为各个簇的中心点(θ1,θ2,…,θK);计算所有样本点xi(各博主embedding向量)与各个簇中心之间的距离dist(xi,θk);
(3)重复步骤(2),直到收敛或达到指定迭代次数。
即:每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取。
将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心。
针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结果。
四、embedding评估
根据博主能力标签、权重和embedding聚类结果,可计算各个簇中博主领域的分布差异作为该簇得分(其中DKL(pi||pj):博主i与博主j在不同能力领域概率分布的相对熵,由此反应博主间能力领域的相似性;pi(cl):博主i在领域cl的权重,即wl;n:该簇中博主数)。也就是针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;取各簇的领域分布差异值的总和作为该种embedding向量的评估结果。
若簇中博主能力领域与领域权重均相等,则表示博主相似程度达到最大,相对熵达到最小,即qk=0;反之博主能力领域与领域权重差异较大,则相对熵较大,qk也随之增大。
取每个簇得分的总和∑k∈K qk作为整体embedding效果的得分score。故score越小embedding效果越优。具体操作为:分别将每种embedding向量的评估结果与设定分数阈值进行比较;当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
本申请所取得的有益效果为:通过采用不同方式来训练得到所有博主embedding向量,充分利用了每个博主embedding向量、并且结合现有的衡量标准模型自动完成对有博主embedding向量进行聚类计算,对所使用的多种训练方式得到的embedding向量进行效果评估,提高了embedding向量评估效果的精度,从而采用与评估效果优的embedding向量进行推荐博主的方法提高推荐效果。避免样本量巨大时,且受限于人力资源成本的缺点,也避免随机抽取博主id评估样本较少、存在偶然性、缺乏统计意义的缺点;也避免人工评估账号特征存在主观因素的影响的缺点。同时也会避免采用类似“基于使用效果评估embedding向量:将训练完成的embedding应用于模型,若线上推荐效果有所提升,则认为embedding效果较优。但是存在如下缺点:需要进一步通过线上效果验证,实现成本较大,且可能影响线上数据表现;模型效果表现与embedding使用方式强相关,若使用方法存在错误则无法达到评估的目的”。同时也会避免采用类似“基于可视化分析评估embedding向量:训练完成后的embedding向量通常具有较高的向量维度,为实现向量的可视化,需利用pca等算法降维处理,然后通过可视化工具展现后进行人工评估”的缺点:“无法通过数值化的指标评估效果,存在较强的主观性;高纬度特征降维处理,影响特征评估准确性”。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个***的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种社交网络博主的嵌入表达embedding评估方法,其特征在于,包括:
获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,其中,所述社交网络博主是指通过社交网络发布信息的用户,所有待分类博主所具有的embedding向量的种类相同;
针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
2.根据权利要求1所述的社交网络博主的嵌入表达embedding评估方法,其特征在于,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
所述将每个待分类博主的特征信息进行多种embedding向量训练,为每个待分类博主生成多种embedding向量,具体包括:
通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
3.根据权利要求2所述的社交网络博主的嵌入表达embedding评估方法,其特征在于,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主,具体包括:
将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结果。
4.根据权利要求3所述的社交网络博主的嵌入表达embedding评估方法,其特征在于,所述针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,具体包括:
针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
所述比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣,具体包括:
分别将每种embedding向量的评估结果与设定分数阈值进行比较;
当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
5.根据权利要求1所述的社交网络博主的嵌入表达embedding评估方法,其特征在于,还包括:
根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
6.一种社交网络博主的嵌入表达embedding评估***,其特征在于,包括:
训练单元,用于获取各待分类博主的特征信息,将每个待分类博主的特征信息进行多种嵌入表达embedding向量训练,为每个待分类博主生成多种embedding向量,其中,所述社交网络博主是指通过社交网络发布信息的用户,所有待分类博主所具有的embedding向量的种类相同;
聚类单元,用于针对每种embedding向量,对所有待分类博主的该种embedding向量按照领域进行聚类,将其他博主的embedding向量与每个领域设定的中心博主的embedding向量之间的距离作为按照领域进行聚类的衡量标准,得到多个embedding向量聚类结果、以及每个embedding向量聚类结果所涉及的博主;其中,一个embedding向量聚类结果对应一个领域;
评估比对单元,用于针对每种embedding向量,根据该种embedding向量的多个聚类结果、以及每个embedding向量聚类结果所涉及博主的能力标签和能力标签权重形成对该种embedding向量的评估结果,比对所有种类embedding向量的评估结果,判断每种embedding向量训练的优劣。
7.根据权利要求6所述的社交网络博主的嵌入表达embedding评估***,其特征在于,所述待分类博主的特征信息包括如下种类:用户与待分类博主之间的交互行为、用户与待分类博主之间的关注关系网络、以及用户与待分类博主的交互行为序列;其中,所述用户与待分类博主的交互行为序列按用户与待分类博主交互的时间顺序将交互行为拼接形成;
所述训练单元,包括:
第一训练子单元,用于通过同一设定的训练方法分别训练待分类博主的每种特征信息,得到与特征信息种类相匹配的该待分类博主的多种不同embedding向量;或者,
第二训练子单元,用于通过多个设定的训练方法分别训练待分类博主的特征信息中的同一种类特征信息,得到与训练方法数量相匹配的该待分类博主的多种不同embedding向量;
其中,所述设定的训练方法包括:交叉矩阵训练方法、graph embedding训练方法和skip-gram训练方法。
8.根据权利要求7所述的社交网络博主的嵌入表达embedding评估***,其特征在于,所述每个领域仅设定一位中心博主,不同领域设定不同的中心博主,所述中心博主从待分类博主中选取;
所述聚类单元包括:
预设聚类中心子单元,用于将各中心博主的embedding向量分别作为各领域的embedding向量聚类中心;
聚类计算子单元,用于针对每个领域,计算其他博主的embedding向量与该领域的embedding向量聚类中心的距离,并根据其他博主的embedding向量与当前的embedding向量聚类中心之间的距离修订embedding向量聚类中心,直到其他博主的embedding向量与最新修订的embedding向量聚类中心之间的距离满足预设距离要求,并将满足预设距离要求的所有embedding向量与最新修订的embedding向量聚类中心形成一簇,每形成一簇就形成一个embedding向量聚类结。
9.根据权利要求8所述的社交网络博主的嵌入表达embedding评估***,其特征在于,所述评估比对单元包括:
差异计算子单元,用于针对由同一种embedding向量形成的各簇,根据每个博主的能力标签、能力标签权重、以及embedding向量,分别计算每两个博主的领域能力概率分布相对熵,取该簇内所有相对熵之和作为该簇的领域分布差异值;
评估效果计算子单元,用于取各簇的领域分布差异值的总和作为该种embedding向量的评估结果;
比较子单元,用于分别将每种embedding向量的评估结果与设定分数阈值进行比较;
判定子单元,用于当某种embedding向量的评估结果低于设定分数阈值时,则判定该种embedding向量训练方法优秀、满足博主推送选取要求,且embedding向量的评估结果越低,embedding向量训练方法越优秀;当某种embedding向量的评估结果高于设定分数阈值时,则判定该种embedding向量训练方法低劣、不满足博主推送选取要求。
10.根据权利要求6所述的社交网络博主的嵌入表达embedding评估***,其特征在于,还包括:
博主能力生成单元,用于根据每个博主发布的信息,使用预设的能力生成模型生成该博主的能力标签和能力标签权重;其中,所述能力生成模型对接信息的发布接口,以获取每个博主发布的信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873558.6A CN112115981B (zh) | 2020-08-26 | 2020-08-26 | 一种社交网络博主的embedding评估方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010873558.6A CN112115981B (zh) | 2020-08-26 | 2020-08-26 | 一种社交网络博主的embedding评估方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115981A true CN112115981A (zh) | 2020-12-22 |
CN112115981B CN112115981B (zh) | 2024-05-03 |
Family
ID=73803837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010873558.6A Active CN112115981B (zh) | 2020-08-26 | 2020-08-26 | 一种社交网络博主的embedding评估方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115981B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711721A (zh) * | 2021-01-08 | 2021-04-27 | 南京中廷网络信息技术有限公司 | 一种万网街精准定位方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198103A (zh) * | 2013-03-20 | 2013-07-10 | 微梦创科网络科技(中国)有限公司 | 一种基于密度词聚类的微博推送方法及装置 |
CN105740366A (zh) * | 2016-01-26 | 2016-07-06 | 哈尔滨工业大学深圳研究生院 | 微博用户兴趣推理方法及装置 |
CN107220311A (zh) * | 2017-05-12 | 2017-09-29 | 北京理工大学 | 一种利用局部嵌入话题建模的文本表示方法 |
US20180018573A1 (en) * | 2016-07-12 | 2018-01-18 | Xerox Corporation | Vector operators for distributional entailment |
KR20180072175A (ko) * | 2016-12-21 | 2018-06-29 | 주식회사 애드플레이어 | 블로그를 활용한 광고 시스템 및 방법 |
CN110020938A (zh) * | 2019-01-23 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 交易信息处理方法、装置、设备及存储介质 |
JP2019125145A (ja) * | 2018-01-16 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110413707A (zh) * | 2019-07-22 | 2019-11-05 | 百融云创科技股份有限公司 | 互联网中欺诈团伙关系的挖掘与排查方法及其*** |
CN110738989A (zh) * | 2019-10-21 | 2020-01-31 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN111046274A (zh) * | 2019-11-08 | 2020-04-21 | 微梦创科网络科技(中国)有限公司 | 一种基于实时博文的信息推送方法及装置 |
-
2020
- 2020-08-26 CN CN202010873558.6A patent/CN112115981B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103198103A (zh) * | 2013-03-20 | 2013-07-10 | 微梦创科网络科技(中国)有限公司 | 一种基于密度词聚类的微博推送方法及装置 |
CN105740366A (zh) * | 2016-01-26 | 2016-07-06 | 哈尔滨工业大学深圳研究生院 | 微博用户兴趣推理方法及装置 |
US20180018573A1 (en) * | 2016-07-12 | 2018-01-18 | Xerox Corporation | Vector operators for distributional entailment |
KR20180072175A (ko) * | 2016-12-21 | 2018-06-29 | 주식회사 애드플레이어 | 블로그를 활용한 광고 시스템 및 방법 |
CN107220311A (zh) * | 2017-05-12 | 2017-09-29 | 北京理工大学 | 一种利用局部嵌入话题建模的文本表示方法 |
JP2019125145A (ja) * | 2018-01-16 | 2019-07-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
CN110020938A (zh) * | 2019-01-23 | 2019-07-16 | 阿里巴巴集团控股有限公司 | 交易信息处理方法、装置、设备及存储介质 |
CN110097125A (zh) * | 2019-05-07 | 2019-08-06 | 郑州轻工业学院 | 一种基于嵌入表示的跨网络账户关联方法 |
CN110413707A (zh) * | 2019-07-22 | 2019-11-05 | 百融云创科技股份有限公司 | 互联网中欺诈团伙关系的挖掘与排查方法及其*** |
CN110738989A (zh) * | 2019-10-21 | 2020-01-31 | 浙江大学 | 一种利用多种语言模型的端到端网络学习解决基于地点的语音的自动识别任务的方法 |
CN111046274A (zh) * | 2019-11-08 | 2020-04-21 | 微梦创科网络科技(中国)有限公司 | 一种基于实时博文的信息推送方法及装置 |
Non-Patent Citations (5)
Title |
---|
KASPAR RIESEN等: "Kernel k-Means Clustering Applied to Vector Space Embeddings of Graphs", ARTIFICIAL NEURAL NETWORKS IN PATTERN RECOGNITION, vol. 5064, pages 24 - 35, XP055079712, DOI: 10.1007/978-3-540-69939-2_3 * |
TOMASZ WALKOWIAK等: "Evaluation of vector embedding models in clustering of text documents", PROCEEDINGS OF RECENT ADVANCES IN NATURAL LANGUAGE PROCESSING, pages 1304 - 1311 * |
孟欣: "基于Word Embedding的短文本特征扩展方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 9, pages 138 - 350 * |
曹中华等: "多原型词向量与文本主题联合学习模型", 中文信息学报, no. 3, pages 68 - 75 * |
潘常玮: "迁移学习中预训练中文词向量优化方法研究", 中国优秀硕士学位论文全文数据库 信息科技辑, no. 1, pages 138 - 5007 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112711721A (zh) * | 2021-01-08 | 2021-04-27 | 南京中廷网络信息技术有限公司 | 一种万网街精准定位方法 |
CN112711721B (zh) * | 2021-01-08 | 2024-02-09 | 南京中廷网络信息技术有限公司 | 一种万网街精准定位方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112115981B (zh) | 2024-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190333118A1 (en) | Cognitive product and service rating generation via passive collection of user feedback | |
CN111447574B (zh) | 短信分类方法、装置、***和存储介质 | |
WO2019242627A1 (zh) | 一种数据处理方法及其装置 | |
CN109933648B (zh) | 一种真实用户评论的区分方法和区分装置 | |
CN112364664B (zh) | 意图识别模型的训练及意图识别方法、装置、存储介质 | |
CN111797320A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN116467141A (zh) | 日志识别模型训练、日志聚类方法和相关***、设备 | |
CN111639485A (zh) | 基于文本相似性的课程推荐方法及相关设备 | |
CN111552865A (zh) | 用户兴趣画像方法及相关设备 | |
CN112115981B (zh) | 一种社交网络博主的embedding评估方法及*** | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN113515593A (zh) | 基于聚类模型的话题检测方法、装置和计算机设备 | |
CN114036921A (zh) | 一种政策信息匹配方法和装置 | |
CN110705308A (zh) | 语音信息的领域识别方法、装置、存储介质及电子设备 | |
CN116628202A (zh) | 意图识别方法、电子设备、存储介质 | |
CN110826616A (zh) | 信息处理方法及装置、电子设备、存储介质 | |
CN115438153A (zh) | 一种意图匹配度分析模型的训练方法及装置 | |
CN114282657A (zh) | 一种市场数据长期预测模型训练方法、装置、设备及存储介质 | |
CN113988085A (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN113962216A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN112463964A (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN112800215A (zh) | 一种文本处理方法、装置、可读存储介质和电子设备 | |
CN113743435A (zh) | 业务数据分类模型的训练、业务数据的分类方法和装置 | |
CN112115229A (zh) | 文本意图识别方法、装置、***以及文本分类*** | |
CN114765624B (zh) | 信息推荐方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |