CN108520033A

CN108520033A - 基于超空间模拟语言的增强伪相关反馈模型信息检索方法

Info

Publication number: CN108520033A
Application number: CN201810265291.5A
Authority: CN
Inventors: 何婷婷; 潘敏; 应志为; 张悦
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2018-03-28
Filing date: 2018-03-28
Publication date: 2018-09-11
Anticipated expiration: 2038-03-28
Also published as: CN108520033B

Abstract

本发明提供一种基于超空间模拟语言的增强伪相关反馈模型信息检索方法，包括对初始用户查询词Q检索反馈前N篇文档，用初始反馈的前N篇文档中所有词作为候选扩展词，采用超空间模拟语言模型，根据候选扩展词和初始查询词的位置距离，计算邻近词频权重；计算最终候选扩展词与所有查询词的邻近词权重；融合候选扩展词的邻近词权重与其在伪相关文档集合中重要性权重，得到最终查询词项，获取最终的反馈文档排名，进一步有效地提高了信息检索结果的精度。为用户更快更好地提供所需信息，节约搜索的时间和资源成本，其产生的意义是十分巨大的。

Description

基于超空间模拟语言的增强伪相关反馈模型信息检索方法

技术领域

本发明属于信息检索技术领域，特别涉及一种基于超空间模拟语言(HAL)的增强伪相关反馈模型信息检索方法。

背景技术

在信息纷繁复杂飞速发展的时代，尤其是网络信息呈现***式增长态势，形式也多种多样，大量无效冗余的信息和用户实际需要提取到的关键信息混合在一起，很大程度的浪费了用户的宝贵时间，想要从海量信息中准确、快速的甄别和提取到用户所需要的信息越来越困难。在自然语言处理领域中的信息检索方法已经成为信息处理技术的研究关键点。信息检索通常包括四个方面：文档与用户查询的表示方式、文档与用户查询的相关性匹配、文档的相关度评价与查询结果排序和相关性反馈。其中，信息检索模型是最核心的部分，目前已经产生了多种经典检索模型，主要有向量空间模型、概率检索模型、以及语言模型。

在自然语言里同一个概念经常会有多种不同的表达方式，或者说多种不同形式的词语都可以有相同的语义关系。因此一篇文档可能存在与用户初始输入查询词表达相同概念的其它术语，但由于关键词不匹配而检索不到，查询扩展是解决这种不匹配问题的最有效方法。在全文信息检索过程中，查询扩展处于用户输入查询之后，***检索文档之前。当然在查询扩展过程中，首先会对文档做初次检索，初次检索出的文档用于扩展原查询。初次检索过程对用户来说是不可见的。查询扩展一般包含两个基本的步骤：对原始查询做扩展；用扩展的查询做检索。

伪相关性反馈(PRF)是一种有效的技术用于查询扩展来提高整个信息检索(IR)性能，其中最常用的模型是对应概率检索的Rocchio模型和对应语言模型的RM3模型。查询扩展技术通过调整初步搜索结果，添加查询词来获得更符合用户需求的结果，PRF技术在初始查询词基础上，加入与该查询相关联的新词，从而构成新的更准确的查询，它在一定程度上克服了初始查询信息不足以及词不匹配的缺陷，提高了信息检索的效果。

为用户更快更好地提供所需信息，节约搜索的时间和资源成本，其产生的意义是十分巨大的。

发明内容

本发明所要解决的问题是，通过将邻近词权重添加到传统权重得分来优化最终的查询词从而得到更符合用户需求的反馈结果，提高检索的平均精度和召回率。

本发明技术方案提供一种基于超空间模拟语言的增强伪相关反馈模型信息检索方法，包括以下步骤，

步骤1，对初始用户查询词Q检索反馈前N篇文档；

步骤2，用初始反馈的前N篇文档中所有词作为候选扩展词，采用超空间模拟语言模型，根据候选扩展词和初始查询词的位置距离，计算邻近词频权重如下，

其中，l是候选扩展词t和初始查询中的某一个词q_i之间的距离，p(t,l,q_i)是在距离l下的t和q_i频率次数，用窗口半径D减去距离l再加1得中间间隔词项数w(l)；

步骤3，计算最终候选扩展词与所有查询词的邻近词权重W_HAL(t,Q)如下，

其中，IDF(q_i)为词区别因子，|Q|表示初始查询中词的总个数；

步骤4，融合候选扩展词t的邻近词权重与其在伪相关文档集合中重要性权重，得到最终查询词项，获取最终的反馈文档排名。

而且，词区别因子计算如下，

其中，T_doc表示数据集中总的文章数量，DF_t表示数据集中包含词t的文档数量。

而且，步骤4，融合候选扩展词t的邻近词权重与其在伪相关文档集合中重要性权重，实现方式为，

首先将步骤1中检索出的文章分为相关集合和不相关集合，前N篇伪相关反馈文档集合看作相关文档集合，只对这前N篇反馈文档中的文档和词分别进行向量表示为和用两者内积计算结果除以总的相关文档集合得分对候选扩展词进行排名，计算各查询候选扩展词t本身在伪相关文档集合中的重要度得分SR(t,d)如下，

在进行归一化后，计算如下，

其中，Q表示初始用户查询词Q，α'和β'是调节因子，取出前N1个词作为最终查询词项Q'。

依照本发明所提供的基于超空间模拟语言(HAL)的增强伪相关反馈模型信息检索方法，使传统仅依靠频率信息判断相关度，变为加入邻近位置共现信息和词区别度因子共同选择更符合用户需求的查询词项，提高最终检索的平均精度。为用户更快更好地提供所需信息，节约搜索的时间和资源成本，其产生的意义是十分巨大的。通过在多个国际标准评价数据集上对比实验结果表明，本发明提供的基于超空间模拟语言(HAL)的增强伪相关反馈模型信息检索方法比国际上最好的多个模型在检索精确度上实现了显著的提升，达到国际领先水平。

附图说明

图1为本发明实施例完整的信息检索过程流程图。

具体实施方式

以下结合附图和本发明实施例，详细描述本发明技术方案。

本发明提供了一种融合超空间模拟语言(HAL)的增强伪相关反馈模型信息检索方法，使最终生成的查询扩展词既包含了初始查询词与候选扩展词之间的语义位置邻近关系，又充分考虑到了两者之间重要性权重关系，使最终得到的检索结果精度更高。

融合超空间模拟语言(HAL)可参见：

https://www.researchgate.net/publication/255584951_An_Improved_Model_of_Semantic_Similarity_Based_on_Lexical_Co-Occurrence

本发明提出新技术方案的基本动机是，当人类遇到一个新概念时，它的意义是通过同一上下文中发生的其他概念派生出来的。例如，一个文档包含“心脏病”和“中国”，但可能与“心脏病在中国发展情况”这个话题是无关紧要的，如果这两个查询词不接近在上下文中。

本发明提供一种基于超空间模拟语言(HAL)的增强伪相关反馈模型信息检索方法，在特定距离下与查询词邻近关系权重越高成为扩展词的得分越高，将基于HAL融合伪相关反馈模型，根据采用固定的窗口半径大小，使最终生成的查询扩展词既包含了初始查询词与候选扩展词之间的语义位置邻近关系，又充分考虑到了两者之间重要性权重关系，进一步有效地提高了信息检索结果的精度。

本发明实施例将一个新的概念邻近词权重W_HAL(t,Q)作为引入信息到伪相关反馈Rocchio模型中，具体实现包括以下步骤，具体实施时可采用计算机软件技术实现自动运行：

步骤1，对用户提交的查询主题进行除停用词和抽取词干的一系列预处理操作，用基本方法(如BM25概率模型)对预处理过的初始用户查询词Q检索，得到排名前N篇的文档，初始用户查询词Q＝{q₁,q₂,......,q_i)，是由多个查询词构成的集合。之后与目标数据文档集Doc进行相关度匹配，通过计算得分排名得出前N篇文档。具体实施时，可由用户设定N的取值。

参见附图1，首先对搜索引擎里文档建立索引，对用户输入的查询条件进行除停用词和抽取词干的预处理，将两者用BM25概率模型对目标数据文档集Doc与用户查询匹配相关度，进行初始检索。

步骤2，用初始检索得到的前N篇文档中的所有词作为候选扩展词，采用超空间模拟语言(HAL)模型，根据候选扩展词和初始查询词的位置距离，如果小于等于特定半径窗口D，判断在此范围内候选扩展词t的邻近出现频率数以及和初始查询词之间的间隔词数，最终计算邻近词频权重。如果位置距离大于特定半径窗口D，判断权重为0。

超空间模拟语言(HAL)模型为每个单词构造一个高维向量，两个词之间的距离通过向量计算表示，反映了词语语义上的相似性。对于某一个词a，计算出现在a邻近的其它词b的次数。将文档设置入一系列滑动窗口中，每个窗口有一个固定的大小D，根据候选扩展词和初始查询词的位置距离，如果小于等于特定半径窗口D，首先判断在此距离范围内某个候选扩展词b的邻近频率次数；其次根据词b发生在a附近的具***置，判断两个词之间的间隔词数；最终根据前面判断的两个数值计算邻近词频权重。

如果位置距离大于特定半径窗口D，判断权重为0。一个邻近共现矩阵单元(A×B)通过一系列滑动窗口来构建，行A包含每篇文章中的所有词向量，列B包含该行维度的这个词的权重。

超空间模拟语言(HAL)模型将多个距离因子与互信息相结合，使用初始检索结果中的前N篇文档，为这些文档中每个词构造高维向量，计算邻近词权重。把文档设置入一系列滑动窗口中，从初始查询词的周围使用固定窗口大小选择查询扩展项。每个窗口有一个固定大小的值为D，一系列滑动窗口大小的设定使用2倍等比数列增长的方式，例如{50,100,200,400,800,1600,3200}用这种等比数列设置不同的窗口得到不一样的精度结果。通过大量数据实验的验证，确定使用固定窗口大小D＝1600。

HAL计算邻近词权重得分公式如下：

其中l是候选扩展词t和初始查询中的某一个词q_i之间的距离，p(t,l,q_i)是在距离l下的t和q_i频率次数，用窗口半径D减去距离l再加1得到w(l)来表示中间间隔词项数即：w(l)＝D-l+1。将两者相乘，如果D＝50且q_i与t之间紧挨着没有其它词项，则w(l)值为50。如果q_i与t之间隔了一个词，将得到w(l)为49，依次直到中间间隔为50个词的时候w(l)为1。

步骤3，计算出邻近频率次数与中间间隔词项数相乘生成邻近词权重之后，计算最终候选扩展词与所有查询词的权重W_HAL(t,Q)。

根据步骤2，计算出邻近频率次数与中间间隔词项数相乘生成邻近词权重之后，我们计算词区别因子IDF(t)，考虑文档中特定词的重复出现，更好的判断不同词之间的差异关系，

用T_doc表示数据集中总的文章数量，DF_t表示数据集中包含词t的文档数量，加上0.5是为了分母为零的问题出现。将该部分词区别因子与邻近词频权重得分相乘得到最终邻近词权重W_HAL(t,Q)如下，

其中|Q|表示初始查询中词的总个数，计算每个候选扩展词与所有初始查询词(从i＝1到|Q|)的权重进行求和，得到一个候选扩展词与所有初始查询词的最终权重值。

步骤4，根据步骤3，对W_HAL(t,Q)采取归一化方法之后与Rocchio模型的扩展词得分部分进行融合，得到最终更为精确的结果。

步骤4.1，首先将步骤1中检索出的文章分为相关集合和不相关集合，前N篇伪相关反馈文档集合看作相关文档集合，只对这前N篇反馈文档中的文档和词分别进行向量表示为和用两者内积计算结果除以总的相关文档集合得分对候选扩展词进行排名，计算各查询候选扩展词t本身在伪相关文档集合中的重要度得分SR(t,d)如下，

是对文档的向量表示，是对文档中词的向量表示，具体实施时可使用现有的技术建立向量，两者内积相乘(在公式中用“·”表示)表示文档中词的权重。候选扩展词t∈d表示这些词属于前N篇伪相关反馈文档集合。N表示反馈文档的数量。步骤4.2，由于不同词出现的概率和中间间隔词数差距较大，导致邻近词权重和词重要度权重差别很大，直接进行0到1比例的线性融合是不合理的。因此，本发明使用归一化的方法将不同的权重归一化到0-1范围内，更能有效地提高融合度，最终提高检索效率。在本例中我们采用了三种不同的方法来进行归一化，详情如下表所示：

表1三种归一化方法

在表1中，Norm(T)表示对权重得分T的归一化计算。T_i表示第i个候选扩展词的W_HAL(t,Q)或SR(t,d)权重得分，在具体进行归一化操作的时候，只需要采用表1中的一种方法即可，归一化后的W_HAL(t,Q)和SR(t,d)可分别表示如下：

其中，Norm(.)表示对权重得分的归一化计算。

步骤4.3，融合了候选扩展词t的邻近词权重与其在伪相关文档集合中重要性权重的得分公式如下所示，

Q表示用户最初提交的查询词，即初始查询Q＝{q₁,q₂,......,q_i)；α'和β'是调节因子，取值范围为0到1之间，用来平衡W_HAL(t,Q)和SR(t,d)之间的重要程度。根据公式(7)计算最终的权重值得分并进行排序，取出前N1个词作为Q'，这些词即为用作最终用户需求的查询扩展词。N1取值可优选设为10,20,30和50，在本例中N1值为50。

最后再用上述得到的最终查询词项Q'，使用BM25概率模型方法进行第二次检索，得到最终的反馈文档排名。

具体实施时，本领域技术人员可采用软件技术实现以上流程的自动运行。在本例中所采用的信息检索的开发环境为Java、Eclipse开发环境，开发支持库为Lucene。

为了验证本发明方法的实际效果，在TREC(文本检索会议)标准数据集上做了对比实验，表1展示数据集的具体内容，数据集中前两个为测试集，后两个为实验集，这些数据集为标准TREC临床决策支持数据集。文档集合进行了更新从PubMed中心(PMC)包含125万篇临床医学文章。可参见：https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/

数据集信息如下表所示：

表2数据集的基本信息

实验分为两组，第一组将本发明方法HRoc与标准的Rocchio和RM3伪相关反馈信息检索模型进行对比，本发明方法中的邻近窗口位置信息选用了超空间模拟语言(HAL)(也可以采用其他的模拟函数)，采用关键参数D值取1500。查询扩展词个数N设置为10，反馈文档篇数也设置为10，在五个评价标准，分别涉及精度(MAP),召回率精度比值F1,最相关文档数在前5，10，20篇占的比例一系列评价标准。“*”和“+”表示分别相对于BM25+Rocchio和RM3的一个显著性统计对比，带有这两个符号说明我们发明的方法与传统方法有显著提高，粗体意味着它是最好的结果。实验结果如下表(表3)所示：

表3 HRoc模型与基础模型评估对比

其中括号里的百分数为本发明方法与两个基础方法在5个不同的国际规范评估指标中提高的百分比。

另外一组采用本发明方法与世界上最先进的几种有代表性的方法进行对比。在表4中，同表3一样，同样涉及5个评价标准。“*”，“+”和“#”表示分别相对于PRoc2，PRoc3和TF-PRF的一个显著性统计对比，带有这三个符号说明我们发明的方法与国际先进方法对比有显著提高，加粗的数字意味着它是某个指标中是最好的结果。从表中可以观察得出，本发明方法在与国际领先的伪相关模型对比中：检索精度，召回率等方面提升效果显著，表明本发明技术方案有效。

表4 HRoc模型与先进模型评估对比

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于超空间模拟语言的增强伪相关反馈模型信息检索方法，其特征在于：包括以下步骤，

步骤1，对初始用户查询词Q检索反馈前N篇文档；

2.根据权利要求1所述基于超空间模拟语言的增强伪相关反馈模型信息检索方法，其特征在于：词区别因子计算如下，

3.根据权利要求1或2所述基于超空间模拟语言的增强伪相关反馈模型信息检索方法，其特征在于：步骤4，融合候选扩展词t的邻近词权重与其在伪相关文档集合中重要性权重，实现方式为，

在进行归一化后，计算如下，