CN108491462A - 一种基于word2vec的语义查询扩展方法及装置 - Google Patents
一种基于word2vec的语义查询扩展方法及装置 Download PDFInfo
- Publication number
- CN108491462A CN108491462A CN201810179478.3A CN201810179478A CN108491462A CN 108491462 A CN108491462 A CN 108491462A CN 201810179478 A CN201810179478 A CN 201810179478A CN 108491462 A CN108491462 A CN 108491462A
- Authority
- CN
- China
- Prior art keywords
- word
- expansion
- inquiry
- query
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 49
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000002203 pretreatment Methods 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 5
- 238000004458 analytical method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000013549 information retrieval technique Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。本发明方法包括:用户给定查询的预处理步骤:对查询进行分词处理,去除停用词并进行词干还原;扩展词候选集选取步骤:使用word2vec工具选取初始扩展词;建立扩展词表步骤:对扩展词候选集进行过滤,建立实际扩展词表;扩展检索步骤:将用户查询及其扩展词与索引集进行匹配,返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表,从而更好的体现扩展词与整个查询的相关性,进而提高查询扩展的效果。
Description
技术领域
本发明涉及一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。
背景技术
查询扩展技术是信息检索领域的一个重要问题。在当前的信息检索模型和***中,信息都是以字、词或是词组的形式来存储的,当用户给定一个查询后,只有当查询集中的查询词出现在文档中时,才有可能检索到相关的文档。但是在人类的自然语言中,同一个概念经常有很多种不同的表达方式,比如说查找automobile时,如果不进行扩展,那么那些包含car、sedan、Ford等与用户原查询相关度很高但是由于用词不同而无法被检索出来,从而使用户无法得到满意的结果。正是由于这种查询词不匹配问题的存在,用户有时不得不变换查询词才能找到所需要的信息,所以为了减轻用户的这种负担,需要信息检索***自动的选择一些与查询相关的其他词语来辅助查询,即通过查询扩展技术来解决这种词不匹配的问题。
用户提交一个查询,搜索引擎为了提高用户的检索满意度,通常将查询扩展作为一个必不可少的模块,目前常用的查询扩展方法主要有以下几种:
1、基于语义知识词典的查询扩展方法:
基于语义知识词典的方法主要是借助WordNet、HowNet或其他的同义词词林等语义知识词典,选出与查询词存在一定语义关联性的词来进行扩展,这种方法的依据一般是查询词的上下义词、同义词等,此方法过分依赖于完备的语义体系,而且独立于待检索的语料集,因此选出来的扩展词通常难以反映语料集的特性,难以取得好的查询效果。
2、基于全局分析的查询扩展:
全局分析是首先对全部文档中的词或词组进行相关分析,计算每对词的关联程度,然后再将与查询词关联性最高的词加入到初始查询中生成新的查询。这种方法的优点是可以最大限度的探求词之间的关系,特别是在建立词典之后能以较高的效率进行查询扩展;不足的是当文档集很大时,建立全部的词关系词典不论是在时间还是空间上往往都是不大可行的,而且文档集改变的话更新的代价更为巨大。
3、基于局部分析的查询扩展:
局部分析方法主要是利用二次检索的方法解决扩展问题,利用初次给定的查询直接检索,得到与原查询最相关的n篇文档作为扩展词的来源,在这n篇文档里找与原查询最相关的词加入到初始查询中来建立新的查询。目前比较流行的基于局部分析的查询扩展方法是伪相关反馈,它是在相关反馈的基础上发展起来的,这两种反馈的不同在于相关反馈对初次检索的结果需要由用户判定,将用户认为的相关文档作为扩展词的来源,而伪相关反馈不需要与用户交互,直接将返回的前n篇文档认为是相关文章。虽然局部分析方法是目前应用最广泛的查询扩展方法,但是它的不足之处在于当初次检索的文档排在前面的与原查询相关度不大时,容易将大量无关的词加入查询,造成“查询漂移”问题。
随着Word2Vec、Glove等语义模型的提出,近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系,可以通过计算词向量之间的余弦值来判断词项之间的相似性,因此可很好的用于查询扩展。
目前基于Word2Vec的查询扩展的研究工作,但多数工作多存在以下主要两个的不足:
(1)在构建扩展词表时,仅选取与查询词相关的词作为扩展词,而没有考虑到与整个查询的相关性。
(2)即使考虑与整个查询的相关性的工作也多认为查询向量对所有替换词而言是固定不变的,故其查询向量多为各查询词向量的简单加和或均值。
但通常情况下,对查询词q的某个扩展词而言,其它查询词对该扩展词的影响不应和q对该扩展词的影响相当。以查询中不同的词为中心词生成不同的查询向量的思想广泛应用于语义消歧等其它基于词嵌入的信息检索领域且取得了更好的效果,但尚未有效应用于查询扩展领域。
发明内容
本发明要解决的技术问题是提供一种基于word2vec的语义查询扩展方法及装置,目的在于构建与查询相关性更高的扩展词表,从而更全面的返回与用户查询相关的文档。
本发明的技术方案是:一种基于word2vec的语义查询扩展方法,包括:
查询和文档预处理步骤:对于用户提交的查询分词、去除停用词,提取出用户查询的关键词并进行词干还原,组成查询Q;对文档集做同样的预处理得到文档集D;
扩展词候选集的选取步骤:对于预处理之后的查询Q,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C
建立扩展词表步骤:对C中的每个词项,计算其与整个查询的相似度,选取相似度最高的k个扩展词来构造扩展词表T;
建立文档集倒排索引步骤:对预处理之后的文档集D建立倒排索引;
扩展检索步骤:计算扩展后的查询与对应倒排索引中的文档的相关度,根据相关度对文档进行排序。
所述的查询和文档预处理步骤,具体包括以下步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q;
(4)对文档集做同样的预处理生成新的文档集D。
所述扩展词候选集选取步骤,具体包括以下步骤:
(1)给定一个语料库,通过word2vec提供的训练模型训练词向量。词向量是一组多维的实数值向量,向量反映了自然语言中的语义和语法关系,因此可以通过计算词向量之间的余弦值来判断词项之间的相似性;
(2)得到词向量之后,对Q中每个关键词qi,通过词向量的余弦相似度计算并获取与qi最相似的n个词,构成查询的扩展词候选集。
所述扩展词表的建立步骤,具体包括以下步骤:
(1)对上述处理形成的查询Q,对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量
式中vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
对不同查询词的候选扩展词而言,采用不同的查询向量计算扩展词和查询Q的相似度,故本发明将生成查询向量的方法称作面向扩展词的查询向量生成方法,相应地,也被称作面向扩展词的查询向量;
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对扩展词根据相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
所述的建立文档集倒排索引步骤,具体包括以下步骤:
(1)对预处理后的文档集D,统计D的所有单词并去重,生成文档词集V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d(其中d∈D)的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中|D|表示D中文档的总数量。
所述扩展检索文档步骤,具体包括以下步骤:
(1)(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为
(2)对出现在中的每个文档d,累加其在中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
一种基于word2vec的语义查询扩展装置,包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
本发明的有益效果是:提出基于word2vec的语义查询扩展方法,考虑替换词对整个查询的相似度,且引入面向扩展词的查询向量生成方法,为不同查询词对应的扩展词词生成不同的查询向量,获得与查询相关性更高的扩展词集,进而获得更好的查询扩展效果。
附图说明
图1是本发明基于word2vec的语义查询扩展的功能模块图;
图2是本发明查询集中各个关键词的扩展词候选集图;
图3是本发明倒排索引集图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于word2vec的语义查询扩展方法,包括:
查询和文档预处理步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q。
(4)对文档集做同样的预处理生成新的文档集D。
示例1:查询预处理:假设用户提交的查询为“problems associated with highspeed aircraft”
(1)首先对用户提交的查询进行分词,分词之后的查询表现为:{problems,associated,with,high,speed,aircraft};
(2)去除停用词,然后选取查询中的名词构成最终的查询,查询表现为:{problems,speed,aircraft};
(3)对查询中的关键词进行词干还原,problems是名词复数,还原后的查询关键词集Q={problem,speed,aircraft}。
示例2:文档集预处理:假设有以下四篇文档组成的文档集:
D0="The main problem limiting the high velocity performance ofhelicopter is resistance"
D1="high altitude and high speed flying aircraft are often moreslender shape"
D2="There are many airplanes in the sky that make up a row"
D3="whether to fly today is a problem"
按空格和分隔符找出字符串中的所有单词,去除停用词并进行词干还原,形成的新的文档集为:
D0="problem,limit,velocity,performance,helicopter,resistance"
D1="altitude,speed,fly,aircraft,slender,shape"
D2="airplane,sky,row"
D3="fly,problem"
选取扩展词候选集步骤:
(1)选定***语料库,通过word2vec提供的CBOW模型训练出200维的词向量文件;
(2)得到词向量之后,对Q中的每个关键词,通过计算词向量的余弦相似度获取n个最相似的词,作为查询的扩展词候选集。
对于查询Q={problem,speed,aircraft}中的每个关键词,通过训练好的词向量选取前10个语义最相关的扩展词,扩展词候选集的情况如图3所示。
构造扩展词表T步骤:
(1)对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量
式中vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
示例:
(1)首先根据训练好的词向量可以得到查询Q中每个关键词的200维词向量:
vec(problem)=[0.29686138,1.71120727,...,-0.6585713,-1.86508703]
vec(speed)=[-2.00363445,1.05960512,...,-0.475373,-4.39991331]
vec(aircraft)=[-3.54158616,3.28720021,...,-2.34602952,-3.29022384]
然后计算Q中每个关键词面向扩展词的查询向量,计算过程如下:
2)以查询Q中的关键词aircraft为例,即q3=aircraft,计算q3的每个扩展词t与查询Q的相似度:
........
(3)以此类推,计算图2中每个扩展词与原查询Q的相似度,然后根据相似度对候选集中的扩展词进行排序,得到和查询Q最相似的k个扩展词,以k=4为例,最终得到的扩展词表T如下所示:
T={helicopter,airplane,velocity,altitude}
(4)将查询词和扩展词合并,得到扩展查询Qexp:
Qexp=Q∪T
={problem,speed,aircraft}∪{helicopter,airplane,velocity,altitude}
={problem,speed,aircraft,helicopter,airplane,velocity,altitude}
文档集倒排索引建立包括以下步骤:
(1)对预处理后的文档集D,统计D中的独立词项,生成词汇表V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d(其中d∈D)的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中|D|表示D中文档的总数量。
示例:
(1)文档集经过分词、去停用词等预处理后得到如下的文档集D:
D0="problem,limit,velocity,performance,helicopter,resistance"
D1="altitude,speed,fly,aircraft,slender,shape"
D2="airplane,sky,row"
D3="fly,problem"
统计D中的独立词项,生成词汇表V:
V={altitude,speed,fly,aircraft,slender,shape,problem,limit,velocity,performance,
helicopter,resistance,airplane,sky,row}
(2)以词汇表V中单词velocity为例,遍历文档集D找到包含velocity的文档有D1,记录其ID=D1,统计它在文档D1中出现的次数为1,则velocity的倒排列表的表示形式为<D1,1>;依此类推计算并建立V中所有词项的倒排列表的集合,构成倒排索引集I;
(3)对V中的每个单词v,统计其出现的文档数量m(即v的倒排列表长度),计算idf得分:
如v=velocity,倒排列表长度为1,即文档集中包含problem的文档只有1个,m=1,因此单词velocity的idf得分计算为:
依此计算所有单词的idf得分,并在索引中记录idf,最终的倒排索引集I如图3所示。
扩展检索步骤:
(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为
(2)对出现在中的每个文档d,累加其在中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
示例:
(1)对上述生成的Qexp,查询图3的倒排索引集,获取Qexp中所有关键词对应的倒排列表,求并集IQexp:
IQexp=I(problem)∪I(speed)∪......∪I(airplane)∪I(altitude)
={D1,D3}∪{D0}∪......∪{D2}∪{D0}
={D0,D1,D2,D3}
(2)对D0,D1,D2和D3号文档,计算Qexp与其相关度R(Qexp,d),其中此处令调节参数λ=0.6,计算过程如下:
(3)根据相关度的大小对这些文档进行排序,有D1>D0>D2>D3;若N=3,则返回D1,D0,D2号文档。
实施例2:一种基于word2vec的语义查询扩展装置,包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (7)
1.一种基于word2vec的语义查询扩展方法,其特征在于:所述方法包括以下步骤:
(1)查询和文档预处理:对于用户提交的查询分词、去除停用词,提取出用户查询的关键词并进行词干还原,组成查询Q;对文档集做同样的预处理得到文档集D;
(2)扩展词候选集的选取:对于预处理之后的查询Q,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
(3)建立扩展词表:对C中的每个词项,计算其与整个查询的相似度,选取相似度最高的k个扩展词来构造扩展词表T;
(4)建立文档集倒排索引:对预处理之后的文档集D建立倒排索引;
(5)扩展检索:计算扩展后的查询与对应倒排索引中的文档的相关度,根据相关度对文档进行排序。
2.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:查询和文档预处理步骤,具体包括以下步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q;
(4)对文档集做同样的预处理生成新的文档集D。
3.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展词候选集的选取步骤,具体包括以下步骤:
(1)给定一个语料库,通过word2vec提供的训练模型训练词向量,词向量是一组多维的实数值向量,向量反映了自然语言中的语义和语法关系,因此可以通过计算词向量之间的余弦值来判断词项之间的相似性;
(2)得到词向量之后,对Q中每个关键词qi,通过词向量的余弦相似度计算并获取与qi最相似的n个词,构成查询的扩展词候选集。
4.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展词表的建立步骤,具体包括以下步骤:
(1)对上述处理形成的查询Q,对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量vec(Qqi):
式中,vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
sim(t,Q)=cos(vec(t),vec(Qqi))
对不同查询词的候选扩展词而言,采用不同的查询向量vec(Qqi)计算扩展词和查询Q的相似度,将生成查询向量vec(Qqi)的方法称作面向扩展词的查询向量生成方法,相应地,vec(Qqi)也被称作面向扩展词的查询向量;
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对扩展词根据相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
5.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:建立文档集倒排索引具体包括以下步骤:
(1)对预处理后的文档集D,统计D的所有单词并去重,生成文档词集V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d,其中d∈D的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中,|D|表示D中文档的总数量。
6.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展检索具体包括以下步骤:
(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为IQexp;
(2)对出现在IQexp中的每个文档d,累加其在IQexp中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
7.一种基于word2vec的语义查询扩展装置,其特征在于包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810179478.3A CN108491462B (zh) | 2018-03-05 | 2018-03-05 | 一种基于word2vec的语义查询扩展方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810179478.3A CN108491462B (zh) | 2018-03-05 | 2018-03-05 | 一种基于word2vec的语义查询扩展方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108491462A true CN108491462A (zh) | 2018-09-04 |
CN108491462B CN108491462B (zh) | 2021-09-14 |
Family
ID=63341204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810179478.3A Active CN108491462B (zh) | 2018-03-05 | 2018-03-05 | 一种基于word2vec的语义查询扩展方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108491462B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063203A (zh) * | 2018-09-14 | 2018-12-21 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN109446399A (zh) * | 2018-10-16 | 2019-03-08 | 北京信息科技大学 | 一种影视实体搜索方法 |
CN109885766A (zh) * | 2019-02-11 | 2019-06-14 | 武汉理工大学 | 一种基于书评的书籍推荐方法及*** |
CN110008407A (zh) * | 2019-04-09 | 2019-07-12 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110196977A (zh) * | 2019-05-31 | 2019-09-03 | 广西南宁市博睿通软件技术有限公司 | 一种智能警情督导处理***及方法 |
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及*** |
WO2020062770A1 (zh) * | 2018-09-27 | 2020-04-02 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
CN112199461A (zh) * | 2020-09-17 | 2021-01-08 | 暨南大学 | 基于块索引结构的文档检索方法、装置、介质和设备 |
WO2021032824A1 (de) * | 2019-08-20 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente |
CN112836008A (zh) * | 2021-02-07 | 2021-05-25 | 中国科学院新疆理化技术研究所 | 基于去中心化存储数据的索引建立方法 |
CN112949304A (zh) * | 2021-03-24 | 2021-06-11 | 中新国际联合研究院 | 一种施工案例知识重用查询方法及其装置 |
CN113033197A (zh) * | 2021-03-24 | 2021-06-25 | 中新国际联合研究院 | 一种建筑施工合同法规查询方法及其装置 |
CN114723008A (zh) * | 2022-04-01 | 2022-07-08 | 北京健康之家科技有限公司 | 语言表征模型的训练方法、装置、设备、介质及用户响应方法 |
CN116340470A (zh) * | 2023-05-30 | 2023-06-27 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
CN106156272A (zh) * | 2016-06-21 | 2016-11-23 | 北京工业大学 | 一种基于多源语义分析的信息检索方法 |
US9798820B1 (en) * | 2016-10-28 | 2017-10-24 | Searchmetrics Gmbh | Classification of keywords |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及*** |
US20180004815A1 (en) * | 2015-12-01 | 2018-01-04 | Huawei Technologies Co., Ltd. | Stop word identification method and apparatus |
-
2018
- 2018-03-05 CN CN201810179478.3A patent/CN108491462B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104765769A (zh) * | 2015-03-06 | 2015-07-08 | 大连理工大学 | 一种基于词矢量的短文本查询扩展及检索方法 |
CN104778161A (zh) * | 2015-04-30 | 2015-07-15 | 车智互联(北京)科技有限公司 | 基于Word2Vec和Query log抽取关键词方法 |
US20180004815A1 (en) * | 2015-12-01 | 2018-01-04 | Huawei Technologies Co., Ltd. | Stop word identification method and apparatus |
CN106156272A (zh) * | 2016-06-21 | 2016-11-23 | 北京工业大学 | 一种基于多源语义分析的信息检索方法 |
US9798820B1 (en) * | 2016-10-28 | 2017-10-24 | Searchmetrics Gmbh | Classification of keywords |
CN107391671A (zh) * | 2017-07-21 | 2017-11-24 | 华中科技大学 | 一种文档泄露检测方法及*** |
Non-Patent Citations (3)
Title |
---|
ZHANG LIFENG等: "Behavior Targeting Based on Hierarchical Taxonomy Aggregation for Heterogeneous Online Shopping Applications", 《ZTE COMMUNICATIONS》 * |
徐康: "基于用户兴趣模型的个性化搜索排序研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
许侃等: "专利查询扩展的词向量方法研究", 《计算机科学与探索》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109063203A (zh) * | 2018-09-14 | 2018-12-21 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
CN109063203B (zh) * | 2018-09-14 | 2020-07-24 | 河海大学 | 一种基于个性化模型的查询词扩展方法 |
WO2020062770A1 (zh) * | 2018-09-27 | 2020-04-02 | 深圳大学 | 一种领域词典的构建方法、装置、设备及存储介质 |
CN109446399A (zh) * | 2018-10-16 | 2019-03-08 | 北京信息科技大学 | 一种影视实体搜索方法 |
CN109885766A (zh) * | 2019-02-11 | 2019-06-14 | 武汉理工大学 | 一种基于书评的书籍推荐方法及*** |
CN110008407A (zh) * | 2019-04-09 | 2019-07-12 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110008407B (zh) * | 2019-04-09 | 2021-05-04 | 苏州浪潮智能科技有限公司 | 一种信息检索方法及装置 |
CN110196977A (zh) * | 2019-05-31 | 2019-09-03 | 广西南宁市博睿通软件技术有限公司 | 一种智能警情督导处理***及方法 |
CN110196977B (zh) * | 2019-05-31 | 2023-06-09 | 广西南宁市博睿通软件技术有限公司 | 一种智能警情督导处理***及方法 |
CN110188204A (zh) * | 2019-06-11 | 2019-08-30 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110188204B (zh) * | 2019-06-11 | 2022-10-04 | 腾讯科技(深圳)有限公司 | 一种扩展语料挖掘方法、装置、服务器及存储介质 |
CN110489526A (zh) * | 2019-08-13 | 2019-11-22 | 上海市儿童医院 | 一种用于医学检索的检索词扩展方法、装置及存储介质 |
WO2021032824A1 (de) * | 2019-08-20 | 2021-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. | Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente |
CN110909116B (zh) * | 2019-11-28 | 2022-12-23 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及*** |
CN110909116A (zh) * | 2019-11-28 | 2020-03-24 | 中国人民解放军军事科学院军事科学信息研究中心 | 一种面向社交媒体的实体集合扩展方法及*** |
CN111897928A (zh) * | 2020-08-04 | 2020-11-06 | 广西财经学院 | 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法 |
CN112199461A (zh) * | 2020-09-17 | 2021-01-08 | 暨南大学 | 基于块索引结构的文档检索方法、装置、介质和设备 |
CN112199461B (zh) * | 2020-09-17 | 2022-05-31 | 暨南大学 | 基于块索引结构的文档检索方法、装置、介质和设备 |
CN112836008A (zh) * | 2021-02-07 | 2021-05-25 | 中国科学院新疆理化技术研究所 | 基于去中心化存储数据的索引建立方法 |
CN112836008B (zh) * | 2021-02-07 | 2023-03-21 | 中国科学院新疆理化技术研究所 | 基于去中心化存储数据的索引建立方法 |
CN112949304A (zh) * | 2021-03-24 | 2021-06-11 | 中新国际联合研究院 | 一种施工案例知识重用查询方法及其装置 |
CN113033197A (zh) * | 2021-03-24 | 2021-06-25 | 中新国际联合研究院 | 一种建筑施工合同法规查询方法及其装置 |
CN114723008A (zh) * | 2022-04-01 | 2022-07-08 | 北京健康之家科技有限公司 | 语言表征模型的训练方法、装置、设备、介质及用户响应方法 |
CN116340470A (zh) * | 2023-05-30 | 2023-06-27 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索*** |
CN116340470B (zh) * | 2023-05-30 | 2023-09-15 | 环球数科集团有限公司 | 一种基于aigc的关键词关联检索*** |
Also Published As
Publication number | Publication date |
---|---|
CN108491462B (zh) | 2021-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108491462A (zh) | 一种基于word2vec的语义查询扩展方法及装置 | |
Yin et al. | Ranking relevance in yahoo search | |
Carpineto et al. | A survey of automatic query expansion in information retrieval | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及*** | |
CN103136352B (zh) | 基于双层语义分析的全文检索*** | |
Moawad et al. | Bi-gram term collocations-based query expansion approach for improving Arabic information retrieval | |
Yusuf et al. | Query expansion method for quran search using semantic search and lucene ranking | |
Madnani et al. | Multiple alternative sentence compressions for automatic text summarization | |
El Mahdaouy et al. | Semantically enhanced term frequency based on word embeddings for Arabic information retrieval | |
Grineva et al. | Blognoon: Exploring a topic in the blogosphere | |
Kanwal et al. | Adaptively intelligent meta-search engine with minimum edit distance | |
Pasca | Open-domain fine-grained class extraction from web search queries | |
CN113642325A (zh) | 一种融合文本结构信息和语义信息的文本关键词抽取方法 | |
Artese et al. | What is this painting about? Experiments on Unsupervised Keyphrases Extraction algorithms | |
Gulati et al. | Ontology driven query expansion for better image retrieval | |
Manjula et al. | Semantic search engine | |
Wang et al. | Exploiting semantic knowledge base for patent retrieval | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
Liu et al. | A query suggestion method based on random walk and topic concepts | |
CN114186075B (zh) | 一种面向文化领域知识图谱的语义搜索方法 | |
Martínez et al. | Evaluation of MIRACLE approach results for CLEF 2003 | |
Qin et al. | Expansion model of semantic query based on ontology | |
Nwesri et al. | Applying Arabic stemming using query expansion | |
Reddy et al. | Cross lingual information retrieval using search engine and data mining | |
Khalid et al. | BERT-embedding and citation network analysis based query expansion technique for scholarly search |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |