CN108491462A

CN108491462A - 一种基于word2vec的语义查询扩展方法及装置

Info

Publication number: CN108491462A
Application number: CN201810179478.3A
Authority: CN
Inventors: 章露露; 贾连印; 李孟娟; 丁家满; 李晓武; 陈文焰; 吕晓伟
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-03-05
Filing date: 2018-03-05
Publication date: 2018-09-04
Anticipated expiration: 2038-03-05
Also published as: CN108491462B

Abstract

本发明公开了一种基于word2vec的语义查询扩展方法及装置，属于信息检索技术领域。本发明方法包括：用户给定查询的预处理步骤：对查询进行分词处理，去除停用词并进行词干还原；扩展词候选集选取步骤：使用word2vec工具选取初始扩展词；建立扩展词表步骤：对扩展词候选集进行过滤，建立实际扩展词表；扩展检索步骤：将用户查询及其扩展词与索引集进行匹配，返回相关文档并排序。本发明提出一种面向扩展词的查询向量生成方法来过滤候选扩展词并构建扩展词表，从而更好的体现扩展词与整个查询的相关性，进而提高查询扩展的效果。

Description

一种基于word2vec的语义查询扩展方法及装置

技术领域

本发明涉及一种基于word2vec的语义查询扩展方法及装置，属于信息检索技术领域。

背景技术

查询扩展技术是信息检索领域的一个重要问题。在当前的信息检索模型和***中，信息都是以字、词或是词组的形式来存储的，当用户给定一个查询后，只有当查询集中的查询词出现在文档中时，才有可能检索到相关的文档。但是在人类的自然语言中，同一个概念经常有很多种不同的表达方式，比如说查找automobile时，如果不进行扩展，那么那些包含car、sedan、Ford等与用户原查询相关度很高但是由于用词不同而无法被检索出来，从而使用户无法得到满意的结果。正是由于这种查询词不匹配问题的存在，用户有时不得不变换查询词才能找到所需要的信息，所以为了减轻用户的这种负担，需要信息检索***自动的选择一些与查询相关的其他词语来辅助查询，即通过查询扩展技术来解决这种词不匹配的问题。

用户提交一个查询，搜索引擎为了提高用户的检索满意度，通常将查询扩展作为一个必不可少的模块，目前常用的查询扩展方法主要有以下几种：

1、基于语义知识词典的查询扩展方法：

基于语义知识词典的方法主要是借助WordNet、HowNet或其他的同义词词林等语义知识词典，选出与查询词存在一定语义关联性的词来进行扩展，这种方法的依据一般是查询词的上下义词、同义词等，此方法过分依赖于完备的语义体系，而且独立于待检索的语料集，因此选出来的扩展词通常难以反映语料集的特性，难以取得好的查询效果。

2、基于全局分析的查询扩展：

全局分析是首先对全部文档中的词或词组进行相关分析，计算每对词的关联程度，然后再将与查询词关联性最高的词加入到初始查询中生成新的查询。这种方法的优点是可以最大限度的探求词之间的关系，特别是在建立词典之后能以较高的效率进行查询扩展；不足的是当文档集很大时，建立全部的词关系词典不论是在时间还是空间上往往都是不大可行的，而且文档集改变的话更新的代价更为巨大。

3、基于局部分析的查询扩展：

局部分析方法主要是利用二次检索的方法解决扩展问题，利用初次给定的查询直接检索，得到与原查询最相关的n篇文档作为扩展词的来源，在这n篇文档里找与原查询最相关的词加入到初始查询中来建立新的查询。目前比较流行的基于局部分析的查询扩展方法是伪相关反馈，它是在相关反馈的基础上发展起来的，这两种反馈的不同在于相关反馈对初次检索的结果需要由用户判定，将用户认为的相关文档作为扩展词的来源，而伪相关反馈不需要与用户交互，直接将返回的前n篇文档认为是相关文章。虽然局部分析方法是目前应用最广泛的查询扩展方法，但是它的不足之处在于当初次检索的文档排在前面的与原查询相关度不大时，容易将大量无关的词加入查询，造成“查询漂移”问题。

随着Word2Vec、Glove等语义模型的提出，近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系，可以通过计算词向量之间的余弦值来判断词项之间的相似性，因此可很好的用于查询扩展。

目前基于Word2Vec的查询扩展的研究工作，但多数工作多存在以下主要两个的不足：

(1)在构建扩展词表时，仅选取与查询词相关的词作为扩展词，而没有考虑到与整个查询的相关性。

(2)即使考虑与整个查询的相关性的工作也多认为查询向量对所有替换词而言是固定不变的，故其查询向量多为各查询词向量的简单加和或均值。

但通常情况下，对查询词q的某个扩展词而言，其它查询词对该扩展词的影响不应和q对该扩展词的影响相当。以查询中不同的词为中心词生成不同的查询向量的思想广泛应用于语义消歧等其它基于词嵌入的信息检索领域且取得了更好的效果，但尚未有效应用于查询扩展领域。

发明内容

本发明要解决的技术问题是提供一种基于word2vec的语义查询扩展方法及装置，目的在于构建与查询相关性更高的扩展词表，从而更全面的返回与用户查询相关的文档。

本发明的技术方案是：一种基于word2vec的语义查询扩展方法，包括：

查询和文档预处理步骤：对于用户提交的查询分词、去除停用词，提取出用户查询的关键词并进行词干还原，组成查询Q；对文档集做同样的预处理得到文档集D；

扩展词候选集的选取步骤：对于预处理之后的查询Q，利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项，构成扩展词候选集C

建立扩展词表步骤：对C中的每个词项，计算其与整个查询的相似度，选取相似度最高的k个扩展词来构造扩展词表T；

建立文档集倒排索引步骤：对预处理之后的文档集D建立倒排索引；

扩展检索步骤：计算扩展后的查询与对应倒排索引中的文档的相关度，根据相关度对文档进行排序。

所述的查询和文档预处理步骤，具体包括以下步骤：

(1)对用户提交的查询通过空格符和标点符号进行分词处理；

(2)分词之后去除停用词，将那些不代表概念的词语过滤掉；

(3)去除停用词后进行词干还原，生成查询Q；

(4)对文档集做同样的预处理生成新的文档集D。

所述扩展词候选集选取步骤，具体包括以下步骤：

(1)给定一个语料库，通过word2vec提供的训练模型训练词向量。词向量是一组多维的实数值向量，向量反映了自然语言中的语义和语法关系，因此可以通过计算词向量之间的余弦值来判断词项之间的相似性；

(2)得到词向量之后，对Q中每个关键词q_i，通过词向量的余弦相似度计算并获取与q_i最相似的n个词，构成查询的扩展词候选集。

所述扩展词表的建立步骤，具体包括以下步骤：

(1)对上述处理形成的查询Q，对Q中的每个关键词q_i，按以下公式生成一个Q相对于q_i的查询向量

式中vec(q_i)表示查询词q_i的向量，sim(q_i,q_j)表示q_i和q_j的相似度。

(2)对q_i的每个候选扩展词t，按以下公式计算t与查询Q的相似度：

对不同查询词的候选扩展词而言，采用不同的查询向量计算扩展词和查询Q的相似度，故本发明将生成查询向量的方法称作面向扩展词的查询向量生成方法，相应地，也被称作面向扩展词的查询向量；

(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度，然后对扩展词根据相似度重新排序，返回相似度最高的k个扩展词，作为最终的扩展词集T；

(4)生成扩展查询Q_exp＝Q∪T。

所述的建立文档集倒排索引步骤，具体包括以下步骤：

(1)对预处理后的文档集D，统计D的所有单词并去重，生成文档词集V；

(2)对V中的每个词项v，构造一个由所有包含v的文档d(其中d∈D)的ID(d_id)以及v在d中出现次数tf_v,d组成的倒排列表，列表中每个项表示为二元组＜d_id,tf_v,d＞的形式，所有倒排列表的集合构成倒排索引集I；

(3)对每个词项v，统计其出现的文档数量m，并根据以下公式计算v的idf得分：

其中|D|表示D中文档的总数量。

所述扩展检索文档步骤，具体包括以下步骤：

(1)(1)对Q_exp中的每个关键词，查询倒排索引集I，获取该关键词对应的倒排列表，记这些倒排列表的集合为

(2)对出现在中的每个文档d，累加其在中各列表的tf-idf得分，获得Q_exp与文档d的相关度R(Q_exp,d)，计算R(Q_exp,d)的公式如下：

式中，λ表示调节参数，用于控制查询词和扩展词在计算相关度时的权重。

(3)根据相关度的大小对这些文档进行排序，从而返回与原查询最相关的N个文档。

一种基于word2vec的语义查询扩展装置，包括：

查询和文档集预处理模块，用于对文档集和用户提交的查询进行分词、去停用词和词干还原等处理形成查询Q和文档集D；

扩展词候选集选取模块，用于将查询Q中的每个关键词，利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项，构成扩展词候选集C；

扩展词表构造模块，用于对扩展词候选集中的每个词项，计算其与整个查询的相似度，选取相似度较高的一些扩展词来构造扩展词表T；

文档集倒排索引模块，用于对预处理之后的文档集D建立倒排索引；

扩展检索模块，用于计算扩展后的查询与对应倒排索引中的文档的相关度，获取相关文档。

本发明的有益效果是：提出基于word2vec的语义查询扩展方法，考虑替换词对整个查询的相似度，且引入面向扩展词的查询向量生成方法，为不同查询词对应的扩展词词生成不同的查询向量，获得与查询相关性更高的扩展词集，进而获得更好的查询扩展效果。

附图说明

图1是本发明基于word2vec的语义查询扩展的功能模块图；

图2是本发明查询集中各个关键词的扩展词候选集图；

图3是本发明倒排索引集图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1-3所示，一种基于word2vec的语义查询扩展方法，包括：

查询和文档预处理步骤：

(1)对用户提交的查询通过空格符和标点符号进行分词处理；

(2)分词之后去除停用词，将那些不代表概念的词语过滤掉；

(3)去除停用词后进行词干还原，生成查询Q。

(4)对文档集做同样的预处理生成新的文档集D。

示例1：查询预处理：假设用户提交的查询为“problems associated with highspeed aircraft”

(1)首先对用户提交的查询进行分词，分词之后的查询表现为：{problems，associated，with，high，speed，aircraft}；

(2)去除停用词，然后选取查询中的名词构成最终的查询，查询表现为：{problems，speed，aircraft}；

(3)对查询中的关键词进行词干还原，problems是名词复数，还原后的查询关键词集Q＝{problem，speed，aircraft}。

示例2：文档集预处理：假设有以下四篇文档组成的文档集：

D₀＝"The main problem limiting the high velocity performance ofhelicopter is resistance"

D₁＝"high altitude and high speed flying aircraft are often moreslender shape"

D₂＝"There are many airplanes in the sky that make up a row"

D₃＝"whether to fly today is a problem"

按空格和分隔符找出字符串中的所有单词，去除停用词并进行词干还原，形成的新的文档集为：

D₀＝"problem,limit,velocity,performance,helicopter,resistance"

D₁＝"altitude,speed,fly,aircraft,slender,shape"

D₂＝"airplane,sky,row"

D₃＝"fly,problem"

选取扩展词候选集步骤：

(1)选定***语料库，通过word2vec提供的CBOW模型训练出200维的词向量文件；

(2)得到词向量之后，对Q中的每个关键词，通过计算词向量的余弦相似度获取n个最相似的词，作为查询的扩展词候选集。

对于查询Q＝{problem，speed，aircraft}中的每个关键词，通过训练好的词向量选取前10个语义最相关的扩展词，扩展词候选集的情况如图3所示。

构造扩展词表T步骤：

(1)对Q中的每个关键词q_i，按以下公式生成一个Q相对于q_i的查询向量

(3)每个查询词的扩展词根据以上模型计算相对于整个查询Q的相似度，然后对相似度重新排序，返回相似度最高的k个扩展词，作为最终的扩展词集T；

(4)生成扩展查询Q_exp＝Q∪T。

示例：

(1)首先根据训练好的词向量可以得到查询Q中每个关键词的200维词向量：

vec(problem)＝[0.29686138,1.71120727,...,-0.6585713,-1.86508703]

vec(speed)＝[-2.00363445,1.05960512,...,-0.475373,-4.39991331]

vec(aircraft)＝[-3.54158616,3.28720021,...,-2.34602952,-3.29022384]

然后计算Q中每个关键词面向扩展词的查询向量，计算过程如下：

2)以查询Q中的关键词aircraft为例，即q₃＝aircraft，计算q₃的每个扩展词t与查询Q的相似度：

........

(3)以此类推，计算图2中每个扩展词与原查询Q的相似度，然后根据相似度对候选集中的扩展词进行排序，得到和查询Q最相似的k个扩展词，以k＝4为例，最终得到的扩展词表T如下所示：

T＝{helicopter,airplane,velocity,altitude}

(4)将查询词和扩展词合并，得到扩展查询Q_exp：

Q_exp＝Q∪T

＝{problem,speed,aircraft}∪{helicopter,airplane,velocity,altitude}

＝{problem,speed,aircraft,helicopter,airplane,velocity,altitude}

文档集倒排索引建立包括以下步骤：

(1)对预处理后的文档集D，统计D中的独立词项，生成词汇表V；

其中|D|表示D中文档的总数量。

示例：

(1)文档集经过分词、去停用词等预处理后得到如下的文档集D：

D₀＝"problem,limit,velocity,performance,helicopter,resistance"

D₁＝"altitude,speed,fly,aircraft,slender,shape"

D₂＝"airplane,sky,row"

D₃＝"fly,problem"

统计D中的独立词项，生成词汇表V：

V＝{altitude,speed,fly,aircraft,slender,shape,problem,limit,velocity,performance,

helicopter,resistance,airplane,sky,row}

(2)以词汇表V中单词velocity为例，遍历文档集D找到包含velocity的文档有D₁，记录其ID＝D₁，统计它在文档D₁中出现的次数为1，则velocity的倒排列表的表示形式为＜D₁,1＞；依此类推计算并建立V中所有词项的倒排列表的集合，构成倒排索引集I；

(3)对V中的每个单词v，统计其出现的文档数量m(即v的倒排列表长度)，计算idf得分：

如v＝velocity，倒排列表长度为1，即文档集中包含problem的文档只有1个，m＝1,因此单词velocity的idf得分计算为：

依此计算所有单词的idf得分，并在索引中记录idf，最终的倒排索引集I如图3所示。

扩展检索步骤：

(1)对Q_exp中的每个关键词，查询倒排索引集I，获取该关键词对应的倒排列表，记这些倒排列表的集合为

示例：

(1)对上述生成的Q_exp，查询图3的倒排索引集，获取Q_exp中所有关键词对应的倒排列表，求并集I_Qexp：

I_Qexp＝I(problem)∪I(speed)∪......∪I(airplane)∪I(altitude)

＝{D₁,D₃}∪{D₀}∪......∪{D₂}∪{D₀}

＝{D₀,D₁,D₂,D₃}

(2)对D₀,D₁,D₂和D₃号文档，计算Q_exp与其相关度R(Q_exp,d)，其中此处令调节参数λ＝0.6，计算过程如下：

(3)根据相关度的大小对这些文档进行排序，有D₁＞D₀＞D₂＞D₃；若N＝3，则返回D₁,D₀,D₂号文档。

实施例2：一种基于word2vec的语义查询扩展装置，包括：

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于word2vec的语义查询扩展方法，其特征在于：所述方法包括以下步骤：

(1)查询和文档预处理：对于用户提交的查询分词、去除停用词，提取出用户查询的关键词并进行词干还原，组成查询Q；对文档集做同样的预处理得到文档集D；

(2)扩展词候选集的选取：对于预处理之后的查询Q，利用基于word2vec模型训练的词向量计算并获取每个查询关键词的n个最相似的词项，构成扩展词候选集C；

(3)建立扩展词表：对C中的每个词项，计算其与整个查询的相似度，选取相似度最高的k个扩展词来构造扩展词表T；

(4)建立文档集倒排索引：对预处理之后的文档集D建立倒排索引；

(5)扩展检索：计算扩展后的查询与对应倒排索引中的文档的相关度，根据相关度对文档进行排序。

2.根据权利要求1所述的基于word2vec的语义查询扩展方法，其特征在于：查询和文档预处理步骤，具体包括以下步骤：

(1)对用户提交的查询通过空格符和标点符号进行分词处理；

(2)分词之后去除停用词，将那些不代表概念的词语过滤掉；

(3)去除停用词后进行词干还原，生成查询Q；

(4)对文档集做同样的预处理生成新的文档集D。

3.根据权利要求1所述的基于word2vec的语义查询扩展方法，其特征在于：扩展词候选集的选取步骤，具体包括以下步骤：

(1)给定一个语料库，通过word2vec提供的训练模型训练词向量，词向量是一组多维的实数值向量，向量反映了自然语言中的语义和语法关系，因此可以通过计算词向量之间的余弦值来判断词项之间的相似性；

4.根据权利要求1所述的基于word2vec的语义查询扩展方法，其特征在于：扩展词表的建立步骤，具体包括以下步骤：

(1)对上述处理形成的查询Q，对Q中的每个关键词q_i，按以下公式生成一个Q相对于q_i的查询向量vec(Q_qi)：

式中，vec(q_i)表示查询词q_i的向量，sim(q_i,q_j)表示q_i和q_j的相似度。

sim(t,Q)＝cos(vec(t),vec(Q_qi))

对不同查询词的候选扩展词而言，采用不同的查询向量vec(Q_qi)计算扩展词和查询Q的相似度，将生成查询向量vec(Q_qi)的方法称作面向扩展词的查询向量生成方法，相应地，vec(Q_qi)也被称作面向扩展词的查询向量；

(4)生成扩展查询Q_exp＝Q∪T。

5.根据权利要求1所述的基于word2vec的语义查询扩展方法，其特征在于：建立文档集倒排索引具体包括以下步骤：

(2)对V中的每个词项v，构造一个由所有包含v的文档d，其中d∈D的ID(d_id)以及v在d中出现次数tf_v,d组成的倒排列表，列表中每个项表示为二元组＜d_id,tf_v,d＞的形式，所有倒排列表的集合构成倒排索引集I；

其中，|D|表示D中文档的总数量。

6.根据权利要求1所述的基于word2vec的语义查询扩展方法，其特征在于：扩展检索具体包括以下步骤：

(1)对Q_exp中的每个关键词，查询倒排索引集I，获取该关键词对应的倒排列表，记这些倒排列表的集合为I_Qexp；

(2)对出现在I_Qexp中的每个文档d，累加其在I_Qexp中各列表的tf-idf得分，获得Q_exp与文档d的相关度R(Q_exp,d)，计算R(Q_exp,d)的公式如下：

7.一种基于word2vec的语义查询扩展装置，其特征在于包括：