CN108491462A - 一种基于word2vec的语义查询扩展方法及装置 - Google Patents

一种基于word2vec的语义查询扩展方法及装置 Download PDF

Info

Publication number
CN108491462A
CN108491462A CN201810179478.3A CN201810179478A CN108491462A CN 108491462 A CN108491462 A CN 108491462A CN 201810179478 A CN201810179478 A CN 201810179478A CN 108491462 A CN108491462 A CN 108491462A
Authority
CN
China
Prior art keywords
word
expansion
inquiry
query
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810179478.3A
Other languages
English (en)
Other versions
CN108491462B (zh
Inventor
章露露
贾连印
李孟娟
丁家满
李晓武
陈文焰
吕晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810179478.3A priority Critical patent/CN108491462B/zh
Publication of CN108491462A publication Critical patent/CN108491462A/zh
Application granted granted Critical
Publication of CN108491462B publication Critical patent/CN108491462B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。本发明方法包括:用户给定查询的预处理步骤:对查询进行分词处理,去除停用词并进行词干还原;扩展词候选集选取步骤:使用word2vec工具选取初始扩展词;建立扩展词表步骤:对扩展词候选集进行过滤,建立实际扩展词表;扩展检索步骤:将用户查询及其扩展词与索引集进行匹配,返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表,从而更好的体现扩展词与整个查询的相关性,进而提高查询扩展的效果。

Description

一种基于word2vec的语义查询扩展方法及装置
技术领域
本发明涉及一种基于word2vec的语义查询扩展方法及装置,属于信息检索技术领域。
背景技术
查询扩展技术是信息检索领域的一个重要问题。在当前的信息检索模型和***中,信息都是以字、词或是词组的形式来存储的,当用户给定一个查询后,只有当查询集中的查询词出现在文档中时,才有可能检索到相关的文档。但是在人类的自然语言中,同一个概念经常有很多种不同的表达方式,比如说查找automobile时,如果不进行扩展,那么那些包含car、sedan、Ford等与用户原查询相关度很高但是由于用词不同而无法被检索出来,从而使用户无法得到满意的结果。正是由于这种查询词不匹配问题的存在,用户有时不得不变换查询词才能找到所需要的信息,所以为了减轻用户的这种负担,需要信息检索***自动的选择一些与查询相关的其他词语来辅助查询,即通过查询扩展技术来解决这种词不匹配的问题。
用户提交一个查询,搜索引擎为了提高用户的检索满意度,通常将查询扩展作为一个必不可少的模块,目前常用的查询扩展方法主要有以下几种:
1、基于语义知识词典的查询扩展方法:
基于语义知识词典的方法主要是借助WordNet、HowNet或其他的同义词词林等语义知识词典,选出与查询词存在一定语义关联性的词来进行扩展,这种方法的依据一般是查询词的上下义词、同义词等,此方法过分依赖于完备的语义体系,而且独立于待检索的语料集,因此选出来的扩展词通常难以反映语料集的特性,难以取得好的查询效果。
2、基于全局分析的查询扩展:
全局分析是首先对全部文档中的词或词组进行相关分析,计算每对词的关联程度,然后再将与查询词关联性最高的词加入到初始查询中生成新的查询。这种方法的优点是可以最大限度的探求词之间的关系,特别是在建立词典之后能以较高的效率进行查询扩展;不足的是当文档集很大时,建立全部的词关系词典不论是在时间还是空间上往往都是不大可行的,而且文档集改变的话更新的代价更为巨大。
3、基于局部分析的查询扩展:
局部分析方法主要是利用二次检索的方法解决扩展问题,利用初次给定的查询直接检索,得到与原查询最相关的n篇文档作为扩展词的来源,在这n篇文档里找与原查询最相关的词加入到初始查询中来建立新的查询。目前比较流行的基于局部分析的查询扩展方法是伪相关反馈,它是在相关反馈的基础上发展起来的,这两种反馈的不同在于相关反馈对初次检索的结果需要由用户判定,将用户认为的相关文档作为扩展词的来源,而伪相关反馈不需要与用户交互,直接将返回的前n篇文档认为是相关文章。虽然局部分析方法是目前应用最广泛的查询扩展方法,但是它的不足之处在于当初次检索的文档排在前面的与原查询相关度不大时,容易将大量无关的词加入查询,造成“查询漂移”问题。
随着Word2Vec、Glove等语义模型的提出,近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系,可以通过计算词向量之间的余弦值来判断词项之间的相似性,因此可很好的用于查询扩展。
目前基于Word2Vec的查询扩展的研究工作,但多数工作多存在以下主要两个的不足:
(1)在构建扩展词表时,仅选取与查询词相关的词作为扩展词,而没有考虑到与整个查询的相关性。
(2)即使考虑与整个查询的相关性的工作也多认为查询向量对所有替换词而言是固定不变的,故其查询向量多为各查询词向量的简单加和或均值。
但通常情况下,对查询词q的某个扩展词而言,其它查询词对该扩展词的影响不应和q对该扩展词的影响相当。以查询中不同的词为中心词生成不同的查询向量的思想广泛应用于语义消歧等其它基于词嵌入的信息检索领域且取得了更好的效果,但尚未有效应用于查询扩展领域。
发明内容
本发明要解决的技术问题是提供一种基于word2vec的语义查询扩展方法及装置,目的在于构建与查询相关性更高的扩展词表,从而更全面的返回与用户查询相关的文档。
本发明的技术方案是:一种基于word2vec的语义查询扩展方法,包括:
查询和文档预处理步骤:对于用户提交的查询分词、去除停用词,提取出用户查询的关键词并进行词干还原,组成查询Q;对文档集做同样的预处理得到文档集D;
扩展词候选集的选取步骤:对于预处理之后的查询Q,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C
建立扩展词表步骤:对C中的每个词项,计算其与整个查询的相似度,选取相似度最高的k个扩展词来构造扩展词表T;
建立文档集倒排索引步骤:对预处理之后的文档集D建立倒排索引;
扩展检索步骤:计算扩展后的查询与对应倒排索引中的文档的相关度,根据相关度对文档进行排序。
所述的查询和文档预处理步骤,具体包括以下步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q;
(4)对文档集做同样的预处理生成新的文档集D。
所述扩展词候选集选取步骤,具体包括以下步骤:
(1)给定一个语料库,通过word2vec提供的训练模型训练词向量。词向量是一组多维的实数值向量,向量反映了自然语言中的语义和语法关系,因此可以通过计算词向量之间的余弦值来判断词项之间的相似性;
(2)得到词向量之后,对Q中每个关键词qi,通过词向量的余弦相似度计算并获取与qi最相似的n个词,构成查询的扩展词候选集。
所述扩展词表的建立步骤,具体包括以下步骤:
(1)对上述处理形成的查询Q,对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量
式中vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
对不同查询词的候选扩展词而言,采用不同的查询向量计算扩展词和查询Q的相似度,故本发明将生成查询向量的方法称作面向扩展词的查询向量生成方法,相应地,也被称作面向扩展词的查询向量;
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对扩展词根据相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
所述的建立文档集倒排索引步骤,具体包括以下步骤:
(1)对预处理后的文档集D,统计D的所有单词并去重,生成文档词集V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d(其中d∈D)的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中|D|表示D中文档的总数量。
所述扩展检索文档步骤,具体包括以下步骤:
(1)(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为
(2)对出现在中的每个文档d,累加其在中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
一种基于word2vec的语义查询扩展装置,包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
本发明的有益效果是:提出基于word2vec的语义查询扩展方法,考虑替换词对整个查询的相似度,且引入面向扩展词的查询向量生成方法,为不同查询词对应的扩展词词生成不同的查询向量,获得与查询相关性更高的扩展词集,进而获得更好的查询扩展效果。
附图说明
图1是本发明基于word2vec的语义查询扩展的功能模块图;
图2是本发明查询集中各个关键词的扩展词候选集图;
图3是本发明倒排索引集图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1-3所示,一种基于word2vec的语义查询扩展方法,包括:
查询和文档预处理步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q。
(4)对文档集做同样的预处理生成新的文档集D。
示例1:查询预处理:假设用户提交的查询为“problems associated with highspeed aircraft”
(1)首先对用户提交的查询进行分词,分词之后的查询表现为:{problems,associated,with,high,speed,aircraft};
(2)去除停用词,然后选取查询中的名词构成最终的查询,查询表现为:{problems,speed,aircraft};
(3)对查询中的关键词进行词干还原,problems是名词复数,还原后的查询关键词集Q={problem,speed,aircraft}。
示例2:文档集预处理:假设有以下四篇文档组成的文档集:
D0="The main problem limiting the high velocity performance ofhelicopter is resistance"
D1="high altitude and high speed flying aircraft are often moreslender shape"
D2="There are many airplanes in the sky that make up a row"
D3="whether to fly today is a problem"
按空格和分隔符找出字符串中的所有单词,去除停用词并进行词干还原,形成的新的文档集为:
D0="problem,limit,velocity,performance,helicopter,resistance"
D1="altitude,speed,fly,aircraft,slender,shape"
D2="airplane,sky,row"
D3="fly,problem"
选取扩展词候选集步骤:
(1)选定***语料库,通过word2vec提供的CBOW模型训练出200维的词向量文件;
(2)得到词向量之后,对Q中的每个关键词,通过计算词向量的余弦相似度获取n个最相似的词,作为查询的扩展词候选集。
对于查询Q={problem,speed,aircraft}中的每个关键词,通过训练好的词向量选取前10个语义最相关的扩展词,扩展词候选集的情况如图3所示。
构造扩展词表T步骤:
(1)对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量
式中vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
示例:
(1)首先根据训练好的词向量可以得到查询Q中每个关键词的200维词向量:
vec(problem)=[0.29686138,1.71120727,...,-0.6585713,-1.86508703]
vec(speed)=[-2.00363445,1.05960512,...,-0.475373,-4.39991331]
vec(aircraft)=[-3.54158616,3.28720021,...,-2.34602952,-3.29022384]
然后计算Q中每个关键词面向扩展词的查询向量,计算过程如下:
2)以查询Q中的关键词aircraft为例,即q3=aircraft,计算q3的每个扩展词t与查询Q的相似度:
........
(3)以此类推,计算图2中每个扩展词与原查询Q的相似度,然后根据相似度对候选集中的扩展词进行排序,得到和查询Q最相似的k个扩展词,以k=4为例,最终得到的扩展词表T如下所示:
T={helicopter,airplane,velocity,altitude}
(4)将查询词和扩展词合并,得到扩展查询Qexp
Qexp=Q∪T
={problem,speed,aircraft}∪{helicopter,airplane,velocity,altitude}
={problem,speed,aircraft,helicopter,airplane,velocity,altitude}
文档集倒排索引建立包括以下步骤:
(1)对预处理后的文档集D,统计D中的独立词项,生成词汇表V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d(其中d∈D)的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中|D|表示D中文档的总数量。
示例:
(1)文档集经过分词、去停用词等预处理后得到如下的文档集D:
D0="problem,limit,velocity,performance,helicopter,resistance"
D1="altitude,speed,fly,aircraft,slender,shape"
D2="airplane,sky,row"
D3="fly,problem"
统计D中的独立词项,生成词汇表V:
V={altitude,speed,fly,aircraft,slender,shape,problem,limit,velocity,performance,
helicopter,resistance,airplane,sky,row}
(2)以词汇表V中单词velocity为例,遍历文档集D找到包含velocity的文档有D1,记录其ID=D1,统计它在文档D1中出现的次数为1,则velocity的倒排列表的表示形式为<D1,1>;依此类推计算并建立V中所有词项的倒排列表的集合,构成倒排索引集I;
(3)对V中的每个单词v,统计其出现的文档数量m(即v的倒排列表长度),计算idf得分:
如v=velocity,倒排列表长度为1,即文档集中包含problem的文档只有1个,m=1,因此单词velocity的idf得分计算为:
依此计算所有单词的idf得分,并在索引中记录idf,最终的倒排索引集I如图3所示。
扩展检索步骤:
(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为
(2)对出现在中的每个文档d,累加其在中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
示例:
(1)对上述生成的Qexp,查询图3的倒排索引集,获取Qexp中所有关键词对应的倒排列表,求并集IQexp
IQexp=I(problem)∪I(speed)∪......∪I(airplane)∪I(altitude)
={D1,D3}∪{D0}∪......∪{D2}∪{D0}
={D0,D1,D2,D3}
(2)对D0,D1,D2和D3号文档,计算Qexp与其相关度R(Qexp,d),其中此处令调节参数λ=0.6,计算过程如下:
(3)根据相关度的大小对这些文档进行排序,有D1>D0>D2>D3;若N=3,则返回D1,D0,D2号文档。
实施例2:一种基于word2vec的语义查询扩展装置,包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (7)

1.一种基于word2vec的语义查询扩展方法,其特征在于:所述方法包括以下步骤:
(1)查询和文档预处理:对于用户提交的查询分词、去除停用词,提取出用户查询的关键词并进行词干还原,组成查询Q;对文档集做同样的预处理得到文档集D;
(2)扩展词候选集的选取:对于预处理之后的查询Q,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
(3)建立扩展词表:对C中的每个词项,计算其与整个查询的相似度,选取相似度最高的k个扩展词来构造扩展词表T;
(4)建立文档集倒排索引:对预处理之后的文档集D建立倒排索引;
(5)扩展检索:计算扩展后的查询与对应倒排索引中的文档的相关度,根据相关度对文档进行排序。
2.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:查询和文档预处理步骤,具体包括以下步骤:
(1)对用户提交的查询通过空格符和标点符号进行分词处理;
(2)分词之后去除停用词,将那些不代表概念的词语过滤掉;
(3)去除停用词后进行词干还原,生成查询Q;
(4)对文档集做同样的预处理生成新的文档集D。
3.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展词候选集的选取步骤,具体包括以下步骤:
(1)给定一个语料库,通过word2vec提供的训练模型训练词向量,词向量是一组多维的实数值向量,向量反映了自然语言中的语义和语法关系,因此可以通过计算词向量之间的余弦值来判断词项之间的相似性;
(2)得到词向量之后,对Q中每个关键词qi,通过词向量的余弦相似度计算并获取与qi最相似的n个词,构成查询的扩展词候选集。
4.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展词表的建立步骤,具体包括以下步骤:
(1)对上述处理形成的查询Q,对Q中的每个关键词qi,按以下公式生成一个Q相对于qi的查询向量vec(Qqi):
式中,vec(qi)表示查询词qi的向量,sim(qi,qj)表示qi和qj的相似度。
(2)对qi的每个候选扩展词t,按以下公式计算t与查询Q的相似度:
sim(t,Q)=cos(vec(t),vec(Qqi))
对不同查询词的候选扩展词而言,采用不同的查询向量vec(Qqi)计算扩展词和查询Q的相似度,将生成查询向量vec(Qqi)的方法称作面向扩展词的查询向量生成方法,相应地,vec(Qqi)也被称作面向扩展词的查询向量;
(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度,然后对扩展词根据相似度重新排序,返回相似度最高的k个扩展词,作为最终的扩展词集T;
(4)生成扩展查询Qexp=Q∪T。
5.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:建立文档集倒排索引具体包括以下步骤:
(1)对预处理后的文档集D,统计D的所有单词并去重,生成文档词集V;
(2)对V中的每个词项v,构造一个由所有包含v的文档d,其中d∈D的ID(did)以及v在d中出现次数tfv,d组成的倒排列表,列表中每个项表示为二元组<did,tfv,d>的形式,所有倒排列表的集合构成倒排索引集I;
(3)对每个词项v,统计其出现的文档数量m,并根据以下公式计算v的idf得分:
其中,|D|表示D中文档的总数量。
6.根据权利要求1所述的基于word2vec的语义查询扩展方法,其特征在于:扩展检索具体包括以下步骤:
(1)对Qexp中的每个关键词,查询倒排索引集I,获取该关键词对应的倒排列表,记这些倒排列表的集合为IQexp
(2)对出现在IQexp中的每个文档d,累加其在IQexp中各列表的tf-idf得分,获得Qexp与文档d的相关度R(Qexp,d),计算R(Qexp,d)的公式如下:
式中,λ表示调节参数,用于控制查询词和扩展词在计算相关度时的权重。
(3)根据相关度的大小对这些文档进行排序,从而返回与原查询最相关的N个文档。
7.一种基于word2vec的语义查询扩展装置,其特征在于包括:
查询和文档集预处理模块,用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D;
扩展词候选集选取模块,用于将查询Q中的每个关键词,利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项,构成扩展词候选集C;
扩展词表构造模块,用于对扩展词候选集中的每个词项,计算其与整个查询的相似度,选取相似度较高的一些扩展词来构造扩展词表T;
文档集倒排索引模块,用于对预处理之后的文档集D建立倒排索引;
扩展检索模块,用于计算扩展后的查询与对应倒排索引中的文档的相关度,获取相关文档。
CN201810179478.3A 2018-03-05 2018-03-05 一种基于word2vec的语义查询扩展方法及装置 Active CN108491462B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810179478.3A CN108491462B (zh) 2018-03-05 2018-03-05 一种基于word2vec的语义查询扩展方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810179478.3A CN108491462B (zh) 2018-03-05 2018-03-05 一种基于word2vec的语义查询扩展方法及装置

Publications (2)

Publication Number Publication Date
CN108491462A true CN108491462A (zh) 2018-09-04
CN108491462B CN108491462B (zh) 2021-09-14

Family

ID=63341204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810179478.3A Active CN108491462B (zh) 2018-03-05 2018-03-05 一种基于word2vec的语义查询扩展方法及装置

Country Status (1)

Country Link
CN (1) CN108491462B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063203A (zh) * 2018-09-14 2018-12-21 河海大学 一种基于个性化模型的查询词扩展方法
CN109446399A (zh) * 2018-10-16 2019-03-08 北京信息科技大学 一种影视实体搜索方法
CN109885766A (zh) * 2019-02-11 2019-06-14 武汉理工大学 一种基于书评的书籍推荐方法及***
CN110008407A (zh) * 2019-04-09 2019-07-12 苏州浪潮智能科技有限公司 一种信息检索方法及装置
CN110188204A (zh) * 2019-06-11 2019-08-30 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110196977A (zh) * 2019-05-31 2019-09-03 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理***及方法
CN110489526A (zh) * 2019-08-13 2019-11-22 上海市儿童医院 一种用于医学检索的检索词扩展方法、装置及存储介质
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及***
WO2020062770A1 (zh) * 2018-09-27 2020-04-02 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN111897928A (zh) * 2020-08-04 2020-11-06 广西财经学院 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
CN112199461A (zh) * 2020-09-17 2021-01-08 暨南大学 基于块索引结构的文档检索方法、装置、介质和设备
WO2021032824A1 (de) * 2019-08-20 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112949304A (zh) * 2021-03-24 2021-06-11 中新国际联合研究院 一种施工案例知识重用查询方法及其装置
CN113033197A (zh) * 2021-03-24 2021-06-25 中新国际联合研究院 一种建筑施工合同法规查询方法及其装置
CN114723008A (zh) * 2022-04-01 2022-07-08 北京健康之家科技有限公司 语言表征模型的训练方法、装置、设备、介质及用户响应方法
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索***

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US9798820B1 (en) * 2016-10-28 2017-10-24 Searchmetrics Gmbh Classification of keywords
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***
US20180004815A1 (en) * 2015-12-01 2018-01-04 Huawei Technologies Co., Ltd. Stop word identification method and apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
CN104778161A (zh) * 2015-04-30 2015-07-15 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法
US20180004815A1 (en) * 2015-12-01 2018-01-04 Huawei Technologies Co., Ltd. Stop word identification method and apparatus
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US9798820B1 (en) * 2016-10-28 2017-10-24 Searchmetrics Gmbh Classification of keywords
CN107391671A (zh) * 2017-07-21 2017-11-24 华中科技大学 一种文档泄露检测方法及***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG LIFENG等: "Behavior Targeting Based on Hierarchical Taxonomy Aggregation for Heterogeneous Online Shopping Applications", 《ZTE COMMUNICATIONS》 *
徐康: "基于用户兴趣模型的个性化搜索排序研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
许侃等: "专利查询扩展的词向量方法研究", 《计算机科学与探索》 *

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063203A (zh) * 2018-09-14 2018-12-21 河海大学 一种基于个性化模型的查询词扩展方法
CN109063203B (zh) * 2018-09-14 2020-07-24 河海大学 一种基于个性化模型的查询词扩展方法
WO2020062770A1 (zh) * 2018-09-27 2020-04-02 深圳大学 一种领域词典的构建方法、装置、设备及存储介质
CN109446399A (zh) * 2018-10-16 2019-03-08 北京信息科技大学 一种影视实体搜索方法
CN109885766A (zh) * 2019-02-11 2019-06-14 武汉理工大学 一种基于书评的书籍推荐方法及***
CN110008407A (zh) * 2019-04-09 2019-07-12 苏州浪潮智能科技有限公司 一种信息检索方法及装置
CN110008407B (zh) * 2019-04-09 2021-05-04 苏州浪潮智能科技有限公司 一种信息检索方法及装置
CN110196977A (zh) * 2019-05-31 2019-09-03 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理***及方法
CN110196977B (zh) * 2019-05-31 2023-06-09 广西南宁市博睿通软件技术有限公司 一种智能警情督导处理***及方法
CN110188204A (zh) * 2019-06-11 2019-08-30 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110188204B (zh) * 2019-06-11 2022-10-04 腾讯科技(深圳)有限公司 一种扩展语料挖掘方法、装置、服务器及存储介质
CN110489526A (zh) * 2019-08-13 2019-11-22 上海市儿童医院 一种用于医学检索的检索词扩展方法、装置及存储介质
WO2021032824A1 (de) * 2019-08-20 2021-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e. V. Verfahren und vorrichtung zur vorauswahl und ermittlung ähnlicher dokumente
CN110909116B (zh) * 2019-11-28 2022-12-23 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及***
CN110909116A (zh) * 2019-11-28 2020-03-24 中国人民解放军军事科学院军事科学信息研究中心 一种面向社交媒体的实体集合扩展方法及***
CN111897928A (zh) * 2020-08-04 2020-11-06 广西财经学院 查询词嵌入扩展词和统计扩展词并集的中文查询扩展方法
CN112199461A (zh) * 2020-09-17 2021-01-08 暨南大学 基于块索引结构的文档检索方法、装置、介质和设备
CN112199461B (zh) * 2020-09-17 2022-05-31 暨南大学 基于块索引结构的文档检索方法、装置、介质和设备
CN112836008A (zh) * 2021-02-07 2021-05-25 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112836008B (zh) * 2021-02-07 2023-03-21 中国科学院新疆理化技术研究所 基于去中心化存储数据的索引建立方法
CN112949304A (zh) * 2021-03-24 2021-06-11 中新国际联合研究院 一种施工案例知识重用查询方法及其装置
CN113033197A (zh) * 2021-03-24 2021-06-25 中新国际联合研究院 一种建筑施工合同法规查询方法及其装置
CN114723008A (zh) * 2022-04-01 2022-07-08 北京健康之家科技有限公司 语言表征模型的训练方法、装置、设备、介质及用户响应方法
CN116340470A (zh) * 2023-05-30 2023-06-27 环球数科集团有限公司 一种基于aigc的关键词关联检索***
CN116340470B (zh) * 2023-05-30 2023-09-15 环球数科集团有限公司 一种基于aigc的关键词关联检索***

Also Published As

Publication number Publication date
CN108491462B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN108491462A (zh) 一种基于word2vec的语义查询扩展方法及装置
Yin et al. Ranking relevance in yahoo search
Carpineto et al. A survey of automatic query expansion in information retrieval
CN110442777B (zh) 基于bert的伪相关反馈模型信息检索方法及***
CN103136352B (zh) 基于双层语义分析的全文检索***
Moawad et al. Bi-gram term collocations-based query expansion approach for improving Arabic information retrieval
Yusuf et al. Query expansion method for quran search using semantic search and lucene ranking
Madnani et al. Multiple alternative sentence compressions for automatic text summarization
El Mahdaouy et al. Semantically enhanced term frequency based on word embeddings for Arabic information retrieval
Grineva et al. Blognoon: Exploring a topic in the blogosphere
Kanwal et al. Adaptively intelligent meta-search engine with minimum edit distance
Pasca Open-domain fine-grained class extraction from web search queries
CN113642325A (zh) 一种融合文本结构信息和语义信息的文本关键词抽取方法
Artese et al. What is this painting about? Experiments on Unsupervised Keyphrases Extraction algorithms
Gulati et al. Ontology driven query expansion for better image retrieval
Manjula et al. Semantic search engine
Wang et al. Exploiting semantic knowledge base for patent retrieval
CN106708808B (zh) 一种信息挖掘方法及装置
Liu et al. A query suggestion method based on random walk and topic concepts
CN114186075B (zh) 一种面向文化领域知识图谱的语义搜索方法
Martínez et al. Evaluation of MIRACLE approach results for CLEF 2003
Qin et al. Expansion model of semantic query based on ontology
Nwesri et al. Applying Arabic stemming using query expansion
Reddy et al. Cross lingual information retrieval using search engine and data mining
Khalid et al. BERT-embedding and citation network analysis based query expansion technique for scholarly search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant