CN109508414B - 一种同义词挖掘方法及装置 - Google Patents
一种同义词挖掘方法及装置 Download PDFInfo
- Publication number
- CN109508414B CN109508414B CN201811345950.2A CN201811345950A CN109508414B CN 109508414 B CN109508414 B CN 109508414B CN 201811345950 A CN201811345950 A CN 201811345950A CN 109508414 B CN109508414 B CN 109508414B
- Authority
- CN
- China
- Prior art keywords
- word
- search
- word vector
- words
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0242—Determining effectiveness of advertisements
- G06Q30/0245—Surveys
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0277—Online advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的同义词挖掘方法及装置,在对待匹配同义词的目标搜索词进行向量化处理时,所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词,而属于同一时间窗口的各个搜索词由于关联性较强,从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息,在此基础上,当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时,对于长尾形式的目标搜索词,可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果,且本申请由于在进行同义词挖掘时不需人工介入,从而可有效提升同义词挖掘效率。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种同义词挖掘方法及装置。
背景技术
同义词挖掘技术是基于用户搜索行为定向的广告召回中的重要技术,利用该技术对广告主设置的用户搜索词进行同义词扩展,可以提高广告的召回效率。
目前,常用的同义词挖掘方法通常可以分为两种,一种是基于规则的同义词挖掘方法,该方法需要大量的人工介入,通过人们的先验知识来提供同义词列表,虽然可以借助一些同义词词典,但是词典的信息有滞后性,对于网络语言的传播,依然需要人工介入处理,从而会导致挖掘效率较为低下;另一种是基于搜索引擎上下文的挖掘方法,该方法通常需要搜索点击日志及session日志(即搜索日志),通过不同搜索词的共现(点击同一统一资源定位符url,出现在同一session,即当基于不同的搜索词进行搜索并根据搜索结果点击了同一url时,认为上述不同的搜索词产生了共现)来计算同义词,该方法的缺点在于对于长尾同义词的挖掘效果不理想,而在基于用户搜索行为定向的广告召回中,有商业价值的往往是长尾词的搜索。
由此可见,现有的同义词挖掘方法均存在相应缺陷,从而,本领域需提供一种较优的同义词挖掘方案,以更好地满足基于用户搜索行为定向的广告召回中的同义词挖掘需求。
发明内容
有鉴于此,本发明的目的在于提供一种同义词挖掘方法及装置,以克服现有技术存在的问题,更好地满足基于用户搜索行为定向的广告召回中的同义词挖掘需求。
为此,本发明公开如下技术方案:
一种同义词挖掘方法,包括:
获得待处理的目标搜索词;
利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词;
基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达;
基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
上述方法,优选的,在所述获得待处理的目标搜索词之前,还包括以下的预处理过程:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
上述方法,优选的,所述获得待处理的目标搜索词,包括:
获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
上述方法,优选的,所述基于所述目标词向量以及预定的词语向量库中包括的各个词语对应的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度,包括:
利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
上述方法,优选的,所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,为所述目标搜索词与所述词语向量库中包括的每个词语的余弦距离或欧式距离。
上述方法,优选的,所述基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词,包括:
按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
一种同义词挖掘装置,包括:
搜索词获取单元,用于获得待处理的目标搜索词;
向量化处理单元,用于利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词;
相似度计算单元,用于基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达;
同义词选取单元,用于基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
上述装置,优选的,还包括预处理单元,用于在所述搜索词获取单元获得待处理的目标搜索词之前,执行如下操作:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
上述装置,优选的,所述搜索词获取单元,具体用于:
获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
上述装置,优选的,所述相似度计算单元,具体用于:
利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
上述装置,优选的,所述同义词选取单元,具体用于:
按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
根据以上方案可知,本申请的同义词挖掘方法及装置,在对待匹配同义词的目标搜索词进行向量化处理时,所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词,而属于同一时间窗口的各个搜索词(往往是用户基于同一搜索目的所产生的多个搜索词)由于关联性较强,从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息,在此基础上,当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时,对于长尾形式的目标搜索词,可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果,且本申请由于在进行同义词挖掘时不需人工介入,从而可有效提升同义词挖掘效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本申请实施例提供的同义词挖掘方法流程图;
图2是本申请实施例提供的词向量模型的训练过程示意图;
图3是本申请实施例提供的基于本申请方法实现同义词挖掘的逻辑原理示意图;
图4是本申请实施例提供的一种同义词挖掘装置的结构示意图;
图5是本申请实施例提供的另一种同义词挖掘装置的结构示意图。
具体实施方式
为了引用和清楚起见,下文中使用的技术名词、简写或缩写总结解释如下:
长尾词:即长尾关键词,Long Tail Keyword,是指网站上的非目标关键词但与目标关键词相关的也可以带来搜索流量的组合型关键词。长尾关键词的特征是比较长,往往是2-3个词组成,甚至是短语,存在于内容页面,除了内容页的标题,还存在于内容中。搜索量非常少,并且不稳定。长尾关键词带来的客户,转化为网站产品客户的概率比目标关键词高很多,因为长尾词的目的性更强。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了克服现有技术存在的问题,如同义词挖掘过程需要人工介入或者长尾同义词的挖掘效果不理想等,以便更好地满足基于用户搜索行为定向的广告召回中的同义词挖掘需求,本申请提供了一种同义词挖掘方法及装置,以下将通过具体实施例对本申请的方法及装置进行说明。
参考图1,是本申请实施例提供的同义词挖掘方法的流程图,本实施例中,所述方法包括如下步骤:
步骤101、获得待处理的目标搜索词。
所述待处理的目标搜索词,即为当前待匹配同义词的目标搜索词;所述目标搜索词可以是用户的当前搜索行为所对应的搜索词,还可以是广告主设置的用户搜索词,该搜索词可能是单一汉字(但并不常见),单词词语,也可能是长尾词、短句等等。
所述长尾词是指由多个(如2-3个)词语所构成的组合词语,如A品牌便携式电脑、B品牌散热运动鞋等等。
步骤102、利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词。
在获得待处理的目标搜索词后,在步骤102中,利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量,以使得为后续的同义词挖掘过程提供基础。
以下首先对上述词向量模型的训练过程进行说明,参考图2,该训练过程如下:
步骤201、获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系。
其中,所述搜索时间为用户进行搜索操作的时间点/时刻值。
以给定用户u为例,将其在不同时间点的历史搜索行为记为{<qu1,t1>,…,<qum,tm>},其中,qui(i为自然数,1≤i≤m)为用户u的历史搜索行为所对应的搜索词,ti为用户u的历史搜索行为发生的时间点。则本步骤可获得多个用户的上述一系列的历史搜索行为信息。
步骤202、利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词。
步骤203、利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型。
该步骤203可通过如下的处理过程实现:
1)基于每个时间窗口所对应的各个搜索词生成每个时间窗口对应的窗口文档,得到每个用户的窗口文档集合,每个用户的窗口文档集合包括不少于一个的窗口文档。
其中,针对每个用户的搜索行为信息可执行如下操作:
根据预定时长的时间窗口T以滑动时间窗(本实施例中所述滑动步长优选地为所述T)的方式对qu1,…,qum进行划分,并将在时间窗口T内发生的历史搜索行为所对应的各搜索词进行归并生成一窗口文档(document),将该窗口文档表示为dui’,对于滑动过程中的多个时间窗口则得到该用户的多个窗口文档,也即该用户的窗口文档集合du1,…,dup,其中,1≤i’≤p,p表示用户u的窗口文档数量。
2)合并各个用户的窗口文档集合,得到各个用户的历史搜索行为所对应的搜索词文档集合。
对各个用户的窗口文档集合进行归并,得到各个用户的历史搜索行为所对应的搜索词文档集合D,该搜索词文档集合D具体包括各个用户的一系列的窗口文档。
3)利用所述搜索词文档集合,训练一词向量模型。
在上述步骤的基础上,将所述搜索词文档集合D所包括的各个用户的一系列窗口文档作为训练样本来训练一词向量模型,具体地,该词向量模型可以是word2vec词向量模型。
这里,需要说明的是,单一用户在连续时间段内(如某一预定时长的时间窗口(如10分钟)内)的搜索行为往往是基于同一搜索目的所产生的,相对应地,在该时间段内往往会产生一系列的关联性较强的搜索词,如在某一时间段内用户可能不仅仅搜索了某一类型产品(如“电脑”),还搜索了该类型产品的某品牌产品(如“A品牌电脑”)、以及该品牌下特定功能倾向或特定形态的该产品等(如“A品牌平板电脑”、“A品牌便携式电脑”),而该类型产品、该类型产品的某品牌产品、该品牌下特定功能倾向或特定形态的该产品各自所对应的搜索词,则会因同时包括该产品的产品名称(如电脑)等共有信息而产生较强关联,基于该特点,本申请获得多个用户的历史搜索行为所对应的搜索行为信息,并针对每个用户按预定时长的时间窗口对用户的历史搜索行为所对应的搜索词/关键词进行划分,进而将其作为词向量模型的训练样本,可使得在训练样本中包含各个搜索词的上下文信息(该上下文信息即可理解为与该搜索词处于同一时间窗的各个其他搜索词),那么对于长尾词来说,相当于在模型训练中输入了各长尾词的上下文信息,这就使得训练所得的模型能够体现出长尾词与其上下文信息间的关联,进而为长尾词的同义词挖掘提供了较丰富的同义词基础,针对关键词定向广告召回***,通过本申请则可以更好的提高广告展现的效率。
记所述搜索词文档集合D中的各个历史搜索词的集合为Q,在训练得到所述词向量模型的基础上,可进一步基于所述词向量模型得到Q中各个历史搜索词的向量化表达,从而生成一词语向量库。该词语向量库包括所述Q中的各个历史搜索词与其词向量的对应关系信息,可记为V(Q)={qj,v(qj)|qj∈Q},qj为Q中第j个搜索词,v(qj)为qj对应的词向量,j为自然数,1≤j≤N,N为Q中包括的搜索词的数量。
上述词向量模型的训练过程以及词语向量库的生成过程可作为本申请方案的预处理过程,在此基础上,对于当前待处理的目标搜索词,本步骤102利用所述已预先训练的词向量模型对其进行向量化处理,得到该目标搜索词所对应的词向量。
步骤103、基于所述目标词向量以及所述词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度。
如前文所述,所述词语向量库中包括的各个词语即为所述历史搜索词的集合Q中所包括的各个搜索词(历史搜索词),本步骤具体以待处理的目标搜索词与所述Q中的各个搜索词的预定词向量距离来表示目标搜索词与所述Q中的各个搜索词间的相似度。
所述预定词向量距离可以是两个词之间的余弦距离(cosine距离)或欧氏距离,但并不以此为限。
以采用余弦距离为例,对于给定的待匹配同义词的目标搜索词qi,假设通过上述步骤获得的其向量化表达(即词向量)为v(qi),则本步骤遍历V(Q),利用V(Q)中每个搜索词的词向量(用v(qj)表示)与所述v(qi)来计算V(Q)中每个搜索词与所述目标搜索词的余弦距离,所基于的计算公式如下:
其中,n为v(q)的向量维度。
目标搜索词与V(Q)中某个词的余弦距离越小,表示两者之间的相似度越高。
步骤104、基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
所述预定规则可以是但不限于k近邻原则。
在计算出目标搜索词与V(Q)中的各个搜索词之间的相似度后,可基于k近邻原则选取出相似度最高的k个词作为目标搜索词的同义词,鉴于此,本步骤中,可按相似度降序顺序从所述词语向量库中选取出排序前预定数量(如前k个)的词语作为所述目标搜索词的同义词,而对于具体采用余弦距离表征相似度的情况,则可按余弦距离升序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词,参考图3,图3示出了基于本申请方法实现同义词挖掘的逻辑原理示意图。
根据以上方案可知,本申请的同义词挖掘方法,在对待匹配同义词的目标搜索词进行向量化处理时,所采用的词向量模型的训练样本包括多个用户中每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词,而属于同一时间窗口的各个搜索词(往往是用户基于同一搜索目的所产生的多个搜索词)由于关联性较强,从而使得在训练词向量模型时在训练样本中提供了长尾词的上下文信息,在此基础上,当利用该词向量模型以及基于该词向量模型所得的词语向量库对目标搜索词的同义词进行挖掘时,对于长尾形式的目标搜索词,可基于所述词向量模型及所述词语向量库中体现的上下文信息使得长尾词具有较好的同义词挖掘效果,且本申请由于在进行同义词挖掘时不需人工介入,从而可有效提升同义词挖掘效率。
本申请还提供一种与上述方法相对应的同义词挖掘装置,参考图4,是本申请实施例提供的同义词挖掘装置的结构示意图,该装置包括:
搜索词获取单元401,用于获得待处理的目标搜索词;
向量化处理单元402,用于利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的搜索词训练的模型,每个用户的历史搜索行为所对应的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个搜索词;
相似度计算单元403,用于基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的各个搜索词进行向量化处理后所得的向量化表达;
同义词选取单元404,用于基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词,所选取的每个词语与所述目标搜索词的相似度不低于所述词语向量库中未被选取的任何词语与所述目标搜索词的相似度。
在本申请实施例的一实施方式中,如图5所示,所述装置还包括预处理单元405,用于在所述搜索词获取单元401获得待处理的目标搜索词之前,执行如下操作:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
在本申请实施例的一实施方式中,所述搜索词获取单元401,具体用于:获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
在本申请实施例的一实施方式中,所述相似度计算单元403,具体用于:利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
在本申请实施例的一实施方式中,所述同义词选取单元404,具体用于:按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
对于本申请实施例公开的同义词挖掘装置而言,由于其与上述实施例公开的同义词挖掘方法相对应,所以描述的比较简单,相关相似之处请参见上述实施例中同义词挖掘方法部分的说明即可,此处不再详述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
为了描述的方便,描述以上***或装置时以功能分为各种模块或单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
最后,还需要说明的是,在本文中,诸如第一、第二、第三和第四等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种同义词挖掘方法,其特征在于,包括:
获得待处理的目标搜索词;
利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词训练的模型,每个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个包括长尾词及其上下文信息的搜索词;其中,同一个时间窗口内的历史搜索行为所对应的多个搜索词是基于同一搜索目的产生的相关联的搜索词,同一个时间窗口表示预定时长的连续时间段;
基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的各个搜索词进行向量化处理后所得的向量化表达;
基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
2.根据权利要求1所述的方法,其特征在于,在所述获得待处理的目标搜索词之前,还包括以下的预处理过程:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
3.根据权利要求1所述的方法,其特征在于,所述获得待处理的目标搜索词,包括:
获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标词向量以及预定的词语向量库中包括的各个词语对应的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度,包括:
利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,为所述目标搜索词与所述词语向量库中包括的每个词语的余弦距离或欧式距离。
6.根据权利要求1所述的方法,其特征在于,所述基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词,包括:
按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
7.一种同义词挖掘装置,其特征在于,包括:
搜索词获取单元,用于获得待处理的目标搜索词;
向量化处理单元,用于利用预先训练的词向量模型对所述目标搜索词进行向量化处理,得到所述目标搜索词对应的目标词向量;所述词向量模型为预先利用多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词训练的模型,每个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词包括:每个用户在至少一个预定时长的时间窗口内的历史搜索行为所对应的多个包括长尾词及其上下文信息的搜索词;其中,同一个时间窗口内的历史搜索行为所对应的多个搜索词是基于同一搜索目的产生的相关联的搜索词,同一个时间窗口表示预定时长的连续时间段;
相似度计算单元,用于基于所述目标词向量以及预定的词语向量库中包括的各个词语的词向量,计算所述词语向量库中的每个词语与所述目标搜索词的相似度;所述词语向量库包括多条词语与词向量的对应关系信息,所述词语向量库中的词语为所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的搜索词,所述词语向量库中的词向量为利用所述词向量模型对所述多个用户的历史搜索行为所对应的包括长尾词及其上下文信息的各个搜索词进行向量化处理后所得的向量化表达;
同义词选取单元,用于基于预定规则从所述词语向量库中选取预定数量的词语作为所述目标搜索词的同义词。
8.根据权利要求7所述的装置,其特征在于,还包括预处理单元,用于在所述搜索词获取单元获得待处理的目标搜索词之前,执行如下操作:
获得多个用户的历史搜索行为所对应的搜索行为信息,所述搜索行为信息包括搜索词与搜索时间的对应关系;
利用预定时长的时间窗口对每个用户的搜索行为信息进行划分,得到每个用户在所述预定时长的至少一个时间窗口内所对应的各个搜索词;
利用各个用户在所对应的各时间窗口内的各个搜索词,训练一词向量模型;
利用所述词向量模型对每个用户在所对应的时间窗口内的每个搜索词进行向量化处理,得到每个搜索词对应的词向量,并基于各个用户的各个搜索词与相应词向量的对应关系,生成一词语向量库。
9.根据权利要求7所述的装置,其特征在于,所述搜索词获取单元,具体用于:
获得用户的当前搜索行为所对应的搜索词,作为待处理的目标搜索词。
10.根据权利要求7所述的装置,其特征在于,所述相似度计算单元,具体用于:
利用预定的词向量距离计算公式,基于所述目标词向量以及所述词语向量库中包括的每个词语对应的词向量,计算所述目标搜索词与所述词语向量库中包括的每个词语的词向量距离,所述每个词语的词向量距离表征所述目标搜索词与所述词语向量库中包括的每个词语间的相似度。
11.根据权利要求7所述的装置,其特征在于,所述同义词选取单元,具体用于:
按相似度降序顺序从所述词语向量库中选取出排序前预定数量的词语作为所述目标搜索词的同义词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345950.2A CN109508414B (zh) | 2018-11-13 | 2018-11-13 | 一种同义词挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811345950.2A CN109508414B (zh) | 2018-11-13 | 2018-11-13 | 一种同义词挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109508414A CN109508414A (zh) | 2019-03-22 |
CN109508414B true CN109508414B (zh) | 2021-02-09 |
Family
ID=65748251
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811345950.2A Active CN109508414B (zh) | 2018-11-13 | 2018-11-13 | 一种同义词挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109508414B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110348010B (zh) * | 2019-06-21 | 2023-06-02 | 北京小米智能科技有限公司 | 同义短语获取方法及装置 |
CN110263347A (zh) * | 2019-06-26 | 2019-09-20 | 腾讯科技(深圳)有限公司 | 一种同义词的构建方法及相关装置 |
CN110795612A (zh) * | 2019-10-28 | 2020-02-14 | 北京字节跳动网络技术有限公司 | 搜索词的推荐方法、装置、电子设备和计算机可读存储介质 |
CN110889020B (zh) * | 2019-11-22 | 2022-08-23 | 百度在线网络技术(北京)有限公司 | 站点资源挖掘方法、装置以及电子设备 |
CN111126048B (zh) * | 2019-12-25 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 一种候选同义词确定方法、装置、服务器及存储介质 |
CN111460264B (zh) * | 2020-03-30 | 2023-08-01 | 口口相传(北京)网络技术有限公司 | 语义相似度匹配模型的训练方法及装置 |
CN111881255B (zh) * | 2020-06-24 | 2023-10-27 | 百度在线网络技术(北京)有限公司 | 同义文本获取方法、装置、电子设备及存储介质 |
CN111831786A (zh) * | 2020-07-24 | 2020-10-27 | 刘秀萍 | 完善主题词的全文数据库精准高效检索方法 |
CN111950254B (zh) * | 2020-09-22 | 2023-07-25 | 北京百度网讯科技有限公司 | 搜索样本的词特征提取方法、装置、设备以及存储介质 |
CN112115342A (zh) * | 2020-09-22 | 2020-12-22 | 深圳市欢太科技有限公司 | 搜索方法、装置、存储介质以及终端 |
CN113204622A (zh) * | 2021-05-25 | 2021-08-03 | 广州三星通信技术研究有限公司 | 电子装置及其信息处理方法 |
CN113239183A (zh) * | 2021-05-28 | 2021-08-10 | 北京达佳互联信息技术有限公司 | 排序模型的训练方法、装置、电子设备和存储介质 |
CN113821646A (zh) * | 2021-11-19 | 2021-12-21 | 达而观科技(北京)有限公司 | 基于语义检索的智能化专利相似度搜索方法及装置 |
CN116340469B (zh) * | 2023-05-29 | 2023-08-11 | 之江实验室 | 一种同义词挖掘方法、装置、存储介质及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981571A (zh) * | 2008-01-30 | 2011-02-23 | 谷歌公司 | 使用所存储的查询信息提供内容 |
CN102346778A (zh) * | 2011-10-11 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
CN106663104A (zh) * | 2014-06-17 | 2017-05-10 | 微软技术许可有限责任公司 | 学习和使用用于查询消歧的上下文内容检索规则 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105045781B (zh) * | 2015-08-27 | 2020-06-23 | 广州神马移动信息科技有限公司 | 查询词相似度计算方法及装置、查询词搜索方法及装置 |
US9984068B2 (en) * | 2015-09-18 | 2018-05-29 | Mcafee, Llc | Systems and methods for multilingual document filtering |
CN106547732A (zh) * | 2016-10-14 | 2017-03-29 | 深圳中兴网信科技有限公司 | 近义词识别方法和近义词识别*** |
CN106844571B (zh) * | 2017-01-03 | 2020-04-07 | 北京齐尔布莱特科技有限公司 | 识别同义词的方法、装置和计算设备 |
CN107451126B (zh) * | 2017-08-21 | 2020-07-28 | 广州多益网络股份有限公司 | 一种近义词筛选方法及*** |
-
2018
- 2018-11-13 CN CN201811345950.2A patent/CN109508414B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101981571A (zh) * | 2008-01-30 | 2011-02-23 | 谷歌公司 | 使用所存储的查询信息提供内容 |
CN102346778A (zh) * | 2011-10-11 | 2012-02-08 | 北京百度网讯科技有限公司 | 一种用于提供搜索结果的方法与设备 |
CN106663104A (zh) * | 2014-06-17 | 2017-05-10 | 微软技术许可有限责任公司 | 学习和使用用于查询消歧的上下文内容检索规则 |
CN108509474A (zh) * | 2017-09-15 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 搜索信息的同义词扩展方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109508414A (zh) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109508414B (zh) | 一种同义词挖掘方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107451126B (zh) | 一种近义词筛选方法及*** | |
CN104885081B (zh) | 搜索***和相应方法 | |
Neethu et al. | Sentiment analysis in twitter using machine learning techniques | |
US10515125B1 (en) | Structured text segment indexing techniques | |
US8204874B2 (en) | Abbreviation handling in web search | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
WO2010014082A1 (en) | Method and apparatus for relating datasets by using semantic vectors and keyword analyses | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Chen et al. | Doctag2vec: An embedding based multi-label learning approach for document tagging | |
CN114065758A (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110866102A (zh) | 检索处理方法 | |
Tiwari et al. | Ensemble approach for twitter sentiment analysis | |
Hillard et al. | Learning weighted entity lists from web click logs for spoken language understanding | |
CN115374362A (zh) | 多路召回模型训练方法、多路召回方法、装置及电子设备 | |
Shaikh | Keyword Detection Techniques: A Comprehensive Study. | |
Hashemzadeh et al. | Improving keyword extraction in multilingual texts. | |
Jia et al. | A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth | |
Gupta et al. | Keyword extraction: a review | |
CN111460177A (zh) | 影视类表情搜索方法、装置、存储介质、计算机设备 | |
US20210141823A1 (en) | Concept discovery from text via knowledge transfer | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
Figueroa et al. | Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |