CN116431768A

CN116431768A - 一种基于用户隐式检索意图的信息检索方法及***

Info

Publication number: CN116431768A
Application number: CN202310470365.XA
Authority: CN
Inventors: 宋大为; 张玉景; 张程
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-07-14

Abstract

本发明涉及一种基于用户隐式检索意图的信息检索方法及***，属于计算机信息检索技术领域。在使用搜索引擎进行搜索的过程中，本方法对符合搜索条件的文档按照其与查询的关键词的相关度进行排序，在欧几里得语义空间中引入语义凸包，形成检索意图和文档意图的可视化比较方案。***构建用户的检索意图，用于反映用户正在寻找的答案和量化文档的多样性。同时，***引入一个时间轴，将多轮查询的检索意图图形化展示，通过时间轴从先到后序列化组织起来。本发明将用户检索意图有效集成到传统的相关性排名搜索引擎中，使用户能挖掘各种文档，便于用户检索一些探索性问题，提升信息检索结果的多样性，增强了用户与搜索引擎间的互动，有效提高了检索效率。

Description

一种基于用户隐式检索意图的信息检索方法及***

技术领域

本发明涉及一种信息检索方法及***，具体涉及一种基于用户隐式检索意图语义建模和可视化的信息检索方法及***，属于计算机信息检索技术领域。

背景技术

信息检索是用户进行信息查询和获取的主要方式，是查找信息的方法和手段。随着计算机技术信息检索技术的不断发展，搜索引擎成为用户进行检索的首要工具，为人们的生活提供了极大便利。

信息检索方法，是由计算机将输入的检索表达式与检索***中存储的文献信息特征标识及其逻辑组配关系进行类比、匹配的技术。信息检索的原理是以信息的充分交流和有效利用为目标，在对大量分散的信息进行搜集的基础上，标引人员以文档/信息描述体构成文档/信息库，提炼/选取用以表达文档/信息特征和主题内容的标识，并对其分别按一定的方式进行序化组织，构建成各种各样的检索***。在统一存储和检索过程所使用检索和名称规范的基础上，将用户的查询的标识与检索***中文档或信息内容和形式特征的标识进行匹配，若双方标识一致，就将具有这些标识的文档或信息按要求输出。

通常情况下，搜索引擎使用文档相似性作为其主要排名因素。相关性用于计算和返回查询和搜索结果之间的相关程度，即搜索结果文档中的内容是否满足用户查询需求。现实中，用户的检索目标往往存在歧义性，例如，当用户输入“苹果”作为搜索词时，实际检索目标可能是水果，也可能手机。因此，适当使用文档多样性索引，将有效地覆盖用户意图并防止重复结果。但是，传统的搜索引擎仅使用文档相关性作为主要排名因素，忽视了检索到的内容的多样性。

文档的相关性和多样性是信息检索过程中常用的两个排名衡量标准。由于模型偏差，对相关性排名的过度依赖很容易导致检索结果缺乏广度及其引发的信息茧房问题，而对多样性排名的过度依赖很容易导致检索结果过于分散，加大了用户探索信息空间的难度，从而偏离了最初的检索目的。用户向搜索引擎提交的查询，除了单个单词表达的语义外，还包括可能的单词组合所产生隐含语义，称之为隐式检索意图。尽管通过以加权方式结合相关性和多样性指标，可以在一定程度上解决这一困难，但很难利用用户的隐式检索意图。

目前，已经有搜索结果多样化方法初步利用了文档的语义信息，并测量了它与一些文档之间的多样性分数，证明了用户的隐式检索意图在提高搜索引擎检索效率方面的可行性。但是，仍然缺乏用户隐式检索意图与检索结果中的文档意图之间关系的构建方式，缺乏直观的表现形式。

由于传统的信息检索技术基于关键词匹配进行检索，往往存在查不全、查不准、检索质量不高的现象，尤其是用户的搜索目标不明确时，目前的搜索引擎尚未充分利用用户在信息检索过程中的隐式检索意图来优化搜索结果的多样化排序情况。

发明内容

本发明的目的是针对现有技术存在的缺陷和不足，为了解决信息检索时如何有效形式化用户的隐式检索意图和文档之间的差异来进一步判定用户检索意图以及文档之间的多样性排名等技术问题，创造性地提出一种基于用户隐式检索意图的信息检索方法及***。

本发明采用以下技术方案实现。

一方面，本发明提出了一种基于用户隐式检索意图的信息检索方法，包括以下步骤：

步骤1：用户提交查询(关键词或语句)，搜索引擎在语料库中检索出满足用户要求的内容(文档)。对内容的相关性进行排序，并返回排序结果。

具体地，步骤1包括以下步骤：

步骤1.1：用户输入希望查询的关键词或语句，该查询被提交到服务器的搜索引擎中。

步骤1.2：搜索引擎计算出与该查询对应的搜索内容，并将相关性排序结果返回。

对于返回的搜索内容，是在没有进行搜索结果多样化时，按照用户提交的查询与文档之间的相关性，由高到低排序。

步骤2：在服务器端，利用意图引擎构建用户查询意图，使用文档标题构建文档意图。

具体地，步骤2包括以下步骤:

步骤2.1：用户将其意图总结为句子(即连续单词)作为查询，并将其提供给搜索引擎。

由于查询通常以单词序列的形式进行，广泛用于处理文本序列的循环神经网络(RNN)可以用于构建隐藏在查询后面的用户意图表示。

具体地，在服务器端，可以利用n维语义欧氏空间中的语义凸包的方法，完整构建信息检索过程中的用户隐式检索意图。通过词嵌入模型和预训练语言模型等方式获得词向量表示，可以将自然语言词汇映射为数值型向量表示。n维欧氏空间中的每个点(词向量)都与n维语义欧式空间中的点(语义点)一一映射。在n维语义欧式空间中，除了这些有具体语义直接对应的具体语义点之外，还存在不直接与具体语义相对应的抽象语义点。因此，使用凸包来表达序列的语义，不仅包括了具体语义点，还能包括具体语义点的可能组合中产生的隐式含义。凸包由式1表示，即：对于语义空间中的每个点x_i，用系数α_i加权平均得到的所有可能选择构成整个凸包。

其中，Conv()表示完整查询意图。

步骤2.2：同样地，根据文档标题构建每个候选文档的意图。

步骤3：服务器端根据生成的用户查询意图和文档意图，参与到多样性的评估之中。

用户意图和文档意图之间的“语意覆盖”和“中心思想偏移”反映了查询-文档、文档-文档语义之间的关系。例如，对于两个不同的文档，语义覆盖指的是它们语义凸包之间的交集的面积，中心思想偏移是指语义凸包的质心之间的欧式距离。语义覆盖越高，并且中心思想偏移越低时，文档之间表达的意图越接近。因此，语义覆盖和中心思想偏移能够用于评估多样性。

步骤4：搜索引擎将搜索结果返回给用户，同时将用户意图展示给用户。

具体地，步骤4包括以下步骤:

步骤4.1：搜索引擎将评估多样性后的文档进行排序，并结果将返回给客户端。

步骤4.2：可视化引擎完成数据的维度还原和可视化，向用户展示可视化的部分。

在客户端，界面显示搜索引擎返回的查询结果，以及用户查询意图的可视化图形。

步骤5：用户如果对查询结果中的一个文档感兴趣，会点击文档标题进一步查看其内容。进一步地，当用户准备点击文档标题时，可视化引擎将文档意图的可视化图形展示给用户。此文档意图与用户当前查询意图叠加显示，便于用户比较查询-文档之间意图的相似性和文档的新颖性。当用户点击位置离开时，文档的意图继续显示，而当用户重新选择一个文档，悬停在标题上时，文档意图便会更新。

步骤6：在检索会话中，用户向搜索引擎提交的每个查询都将沿时间轴添加一个用户查询意图的图形返回到客户端，供用户查看。

其中，检索会话是指用户围绕一个检索目标在短期内通过不断修改提交给搜索引擎的查询来最终满足其检索意图的过程。用户在浏览结果列表中排名靠前的若干个文档之后，如果需求没有被满足，会放弃检索或开始新一轮查询。

另一方面，本发明还提出一种基于用户隐式检索意图的信息检索***，包括在服务器端部署搜索引擎模块、意图引擎模块、可视化引擎模块。

搜索引擎模块用于满足用户的检索要求。用户在界面提交希望查询的关键词后，搜索引擎模块检索出满足用户要求的内容，进行多样化评估，并将搜索结果返回给用户。

意图引擎模块用于构建用户查询意图、构建文档意图。当用户将其意图总结为句子作为查询，提交给搜索引擎时，意图引擎模块利用语义欧氏空间中的语义凸包的方法构建用户隐式检索意图。对于搜索结果中的每个候选文档，意图引擎模块利用文档标题，构建每个候选文档的文档意图。当用户选择某一个文档查看时，意图引擎模块利用此文档标题，构建此选定文档的文档意图。

可视化引擎模块用于实现数据的维度还原和可视化。根据用户查询，显示用户查询意图的可视化图形，根据用户选择的文档，显示或更新文档意图并与用户当前查询意图叠加显示，在检索会话中，沿时间轴添加每一轮用户查询的意图返回给用户。

上述模块之间的连接关系为：

搜索引擎模块的输出端与意图引擎模块的输入端相连接，意图引擎模块的输出端与搜索引擎模块、可视化引擎模块的输入端相连接。

有益效果

本发明，与现有技术相比，具有以下有益效果：

1.在使用搜索引擎进行搜索的过程中，本发明的检索方法对符合搜索条件的文档按照其与查询的关键词的相关度进行排序，同时，在欧几里得语义空间中引入语义凸包，形成了检索意图和文档意图的可视化比较方案。***构建用户的检索意图，用于反映用户正在寻找的答案以及量化文档的多样性。同时，***引入了一个时间轴，将多轮查询的检索意图图形化展示通过时间轴从先到后序列化地组织起来。本发明将用户检索意图有效集成到传统的相关性排名搜索引擎中，全新的用户界面和检索机制使用户能够挖掘各种文档，便于用户检索一些探索性的问题，提升信息检索结果的多样性。相比于纯文本，在搜索引擎中添加视觉要素，将用户的隐式检索意图用图形化的方式直观地反馈给用户，增强了用户与搜索引擎之间的互动，有效地提高了检索效率并增强了检索乐趣。

附图说明

图1是基于用户隐式检索意图的信息检索过程；

图2是基于用户隐式检索意图的***框架结构图；

图3是基于用户隐式检索意图的***与web服务器构成的整体拓扑结构图；

图4是用户使用基于用户隐式检索意图的信息检索***时的第一个截屏图；

图5是用户使用基于用户隐式检索意图的信息检索***时的第二个截屏图。

具体实施方式

下面结合附图对本发明作进一步详细描述。

一种基于用户隐式检索意图的信息检索方法，包括以下步骤：

步骤1：用户提交查询(关键词或语句)，搜索引擎会在语料库中检索出满足用户要求的内容(文档)，对相关性进行排序，并返回排序结果。

其中，用户所使用的客户端包括浏览器，如Firefox、IE、Chrome等。

步骤1.2：服务器端的搜索引擎提前对已有的文档建立好倒排索引，当搜索引擎接收到客户端提交的查询后，搜索引擎通过文档的TF-IDF值和PageRank值进行排序得到检索结果，并将相关性排序结果返回。

对于返回的搜索内容，在没有进行搜索结果多样化时，按照用户提交的查询与文档之间的相关性由高到低排序。

步骤2.1:用户通常将其意图总结为句子(连续单词)作为查询，并将其提供给搜索引擎。

由于查询通常以单词序列的形式进行，广泛用于处理文本序列的循环神经网络(RNN)自然用于构建隐藏在查询后面的用户意图表示。循环神经网络是一类以序列数据为输入，在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络。不论是查询还是文档，都是自然语言序列数据，而长短期记忆网络(LSTM)是一种适用于处理文本序列数据的神经网络，它解决了原始循环神经网络的梯度消失问题，并往往能在各种任务中取得更好的结果，它隐含层可以记忆序列的上下文信息，而语义的表达需要序列的上下文信息。需要说明的是，长短期记忆网络只是一种具体的实施手段，本发明不局限于目前提到的方法。

在服务器端，利用n维语义欧氏空间中的语义凸包的方法，完整地构建信息检索过程中的用户隐式检索意图。在语义欧式空间中，用户查询生成了两个n维向量序列(χ和H)。χ中的每个点都是一个特定的语义点，可以对应一个实际的单词，H中的每个点都是一个抽象的语义点。显式查询意图可以表示为Conv(χ)，而Conv(H)可用于指示用户隐式查询意图。构成凸包的每个语义点都是一种分布式表示方法(word embedding)。查询的每个文档也可以表示为n维向量序列(χ_d和H_d)。

步骤2.2：同样地，根据文档标题构建每个候选文档的意图。

步骤3：服务器端根据生成的用户查询意图、文档意图，参与到多样性的评估之中。

由于用户意图和文档意图之间的语意覆盖和中心思想偏移反映了查询-文档、文档-文档语义之间的关系，可用于评估多样性。

自然语言序列的中心思想是衡量序列语义的另一个重要方面，序列的中心思想是指一个序列所表达的含义的核心总结，序列的中心思想应该处于语义凸包区域的中心。序列整体所表达的含义紧紧围绕着中心思想，例如，“北京理工大学”的中心思想是“北理”。

语义覆盖部分，代表了查询与文档之间意图的相似程度，语义覆盖面积越大，则查询与文档之间的意图越相似；反之，则越不同。中心思想偏移代表了查询与文档之间意图的相关性，偏移越小，则查询与文档之间的中心思想越相近；反之，则越不相关。

步骤4.2：可视化引擎完成数据的维度降低和可视化，向用户展示了可视化的部分。

将n维语义欧氏空间中的凸包降维至2维空间，即可将其绘制在页面上，从而获得检索意图的图形化表示。其中，降维方法可以采用t-SNE算法。t-SNE是一种非线性的降维算法，在降维时可以保存高维空间中的拓扑结构，非常适合将高维数据降到二维或三维。

步骤4.3：在客户端，界面左侧显示搜索引擎返回的查询结果，界面右侧显示用户查询意图的可视化图形。

步骤5：用户如果对查询结果中的一个文档感兴趣，通常会点击文档标题进一步查看其内容。当鼠标悬停在文档标题上时，可视化引擎将文档意图的可视化图形展示给用户。

此文档意图与用户当前查询意图叠加显示，便于用户比较查询-文档之间意图的相似性和文档的新颖性。当鼠标位置离开时，文档的意图的图形继续显示，而当用户重新选择一个文档，悬停在标题上时，文档意图的图形便会更新。

步骤6：在检索会话中，用户向搜索引擎提交的每个查询都会沿时间轴添加一个用户查询意图返回到客户端，供用户查看。

其中，检索会话是指用户围绕一个检索目标在短期内通过不断地修改提交给搜索引擎的查询来最终满足其检索意图的过程。用户在浏览结果列表中排名靠前的少数几个文档之后，如果需求没有被满足，往往就会放弃检索或是开始新一轮查询。

图1展示了基于用户隐式检索意图的信息检索过程。用户把查询提交给搜索引擎后，搜索引擎利用相关技术，例如向量空间模型计算文本相似度、TF-IDF算法计算文档权重等，计算出用户提交的查询所对应的文档集合，利用意图引擎构建用户查询意图，使用文档标题构建文档意图，根据生成的用户查询意图、文档意图进行多样性的评估，然后将该产生的结果文档集合作为搜索结果返回给用户。同时，将可视化的用户意图的图形展示给用户。

图2展示了基于用户隐式检索意图的***框架结构图。如图2所示，在服务器端部署以下模块，包括搜索引擎模块、意图引擎模块、可视化引擎模块。

其中，搜索引擎模块用于满足用户的检索要求。用户在界面提交希望查询的关键词后，搜索引擎模块产生查询补全提示，检索出满足用户要求的内容，进行多样化评估，并将网页排序后的搜索结果返回给用户。

意图引擎模块用于构建用户查询意图、构建文档意图。当用户将其意图总结为句子作为查询，提交给搜索引擎时，意图引擎模块利用语义欧氏空间中的语义凸包的方法，构建了用户隐式检索意图。对于搜索结果中的每个候选文档，意图引擎模块利用文档标题，构建每个候选文档的文档意图。当用户选择某一个文档查看时，意图引擎模块利用此文档标题，构建此选定文档的文档意图。

可视化引擎模块用于实现数据的维度还原和可视化。根据用户查询，显示搜索结果以及用户查询意图的可视化图形，根据用户选择的文档，显示或更新文档意图并与用户当前查询意图叠加显示，在检索会话中，沿时间轴添加每一轮用户查询的意图的图形返回给用户。

上述模块之间的连接关系为：

图3展示了基于用户隐式检索意图的***与web服务器构成的整体拓扑结构图。具体展示了实施过程中，基于社交互动的信息检索***采用的工具。其中，客户端主要使用vue.js来完成用户界面，Vue.js仅专注于视图层，并且易于与其他库集成。Web服务器采用了python的Tornado框架，该库具有异步和非阻塞网络I/O的属性。搜索引擎模块采用的了python的Whoosh工具包对已有的文档建立索引并提供搜索的支持。意图引擎模块采用了PyTorch进行相关模型的计算。可视化引擎模块采用t-SNE算法进行维度降低，采用了开源的JavaScript可视化工具ECharts5来实现图形可视化。

图4和图5是用户使用基于用户隐式检索意图的信息检索***时的截屏图。在图4中，用户在搜索框中输入“哈利波特与魔法石”这一查询进行检索，***在界面的左侧为用户返回了多样化后的搜索结果，同时，在界面右侧的图形部分，为用户展示了查询意图的图形。接下来，用户对查询结果中的一个文档感兴趣，准备点击文档标题进一步查看其内容。当用户将鼠标悬停在文档标题上时，可视化引擎将文档意图“哈利波特与魔法石-百科”的可视化图形展示给用户。此文档意图与用户当前查询意图通过不同颜色来叠加显示，便于用户比较查询-文档之间意图的相似性和文档的新颖性，如图5所示。当鼠标位置离开时，文档的意图的图形继续显示，而当用户重新选择一个文档，悬停在标题上时，文档意图的图形便会更新。相比于阅读搜索结果中的纯文本，在搜索引擎中添加视觉要素，用户可以直观地判断用户意图与文档的相关性，以及不同文档之间的差异性。当用户修改了查询并重新提交后，搜索引擎重新计算搜索结果并展示在***左侧，右侧则在之前的基础上沿时间轴添加新的用户查询意图的图形返回到客户端，供用户查看。

以上所述为本发明的较佳实施例，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于用户隐式检索意图的信息检索方法，其特征在于，包括以下步骤：

步骤1：用户提交查询，搜索引擎在语料库中检索出满足用户要求的内容；对内容的相关性进行排序，并返回排序结果；

对于返回的搜索内容，是在没有进行搜索结果多样化时，按照用户提交的查询与文档之间的相关性，由高到低排序；

步骤2：在服务器端，利用意图引擎构建用户查询意图，使用文档标题构建文档意图；

步骤2.1：用户将其意图总结为句子作为查询，并将其提供给搜索引擎；

在服务器端，利用n维语义欧氏空间中的语义凸包的方法，完整构建信息检索过程中的用户隐式检索意图；通过词嵌入模型和预训练语言模型，获得词向量表示，将自然语言词汇映射为数值型向量表示；n维欧氏空间中的每个点都与n维语义欧式空间中的点一一映射；

使用凸包来表达序列的语义，不仅包括具体语义点，还包括具体语义点的可能组合中产生的隐式含义；凸包由式1表示，即：对于语义空间中的每个点x_i，用系数α_i加权平均得到的所有可能选择构成整个凸包；

其中，Conv()表示完整查询意图；

步骤2.2：根据文档标题构建每个候选文档的意图；

步骤3：服务器端根据生成的用户查询意图和文档意图，参与到多样性的评估之中；

步骤4：搜索引擎将搜索结果返回给用户，同时将用户意图展示给用户；

步骤5：用户如果对查询结果中的一个文档感兴趣，会点击文档标题进一步查看其内容；

当用户准备点击文档标题时，可视化引擎将文档意图的可视化图形展示给用户，此文档意图与用户当前查询意图叠加显示；

当用户点击位置离开时，文档的意图继续显示；

当用户重新选择一个文档，悬停在标题上时，文档意图便会更新；

步骤6：在检索会话中，用户向搜索引擎提交的每个查询都将沿时间轴添加一个用户查询意图的图形返回到客户端，供用户查看；

其中，检索会话是指用户围绕一个检索目标在短期内通过不断修改提交给搜索引擎的查询来最终满足其检索意图的过程；用户在浏览结果列表中排名靠前的若干文档之后，如果需求没有被满足，将放弃检索或开始新一轮查询。

2.如权利要求1所述的一种基于用户隐式检索意图的信息检索方法，其特征在于，步骤1包括以下步骤：

步骤1.1：用户输入希望查询的关键词或语句，该查询被提交到服务器的搜索引擎中；

步骤1.2：服务器端的搜索引擎计算出与该查询对应的搜索内容，并将相关性排序结果返回。

3.如权利要求2所述的一种基于用户隐式检索意图的信息检索方法，其特征在于，步骤1.2中，搜索引擎提前对已有的文档建立好倒排索引，当搜索引擎接收到客户端提交的查询后，搜索引擎通过文档的TF-IDF值和PageRank值进行排序得到检索结果，并将相关性排序结果返回。

4.如权利要求1所述的一种基于用户隐式检索意图的信息检索方法，其特征在于，步骤4包括以下步骤：

步骤4.1：搜索引擎将评估多样性后的文档进行排序，并结果将返回给客户端；

步骤4.2：可视化引擎完成数据的维度还原和可视化，向用户展示可视化的部分；

5.一种基于用户隐式检索意图的信息检索***，其特征在于，包括在服务器端部署搜索引擎模块、意图引擎模块、可视化引擎模块；

搜索引擎模块用于满足用户的检索要求；用户在界面提交希望查询的关键词后，搜索引擎模块检索出满足用户要求的内容，进行多样化评估，并将搜索结果返回给用户；

意图引擎模块用于构建用户查询意图、构建文档意图；当用户将其意图总结为句子作为查询，提交给搜索引擎时，意图引擎模块利用语义欧氏空间中的语义凸包的方法构建用户隐式检索意图；对于搜索结果中的每个候选文档，意图引擎模块利用文档标题，构建每个候选文档的文档意图；当用户选择某一个文档查看时，意图引擎模块利用此文档标题，构建此选定文档的文档意图；

可视化引擎模块用于实现数据的维度还原和可视化；根据用户查询，显示用户查询意图的可视化图形，根据用户选择的文档，显示或更新文档意图并与用户当前查询意图叠加显示，在检索会话中，沿时间轴添加每一轮用户查询的意图返回给用户；

上述模块之间的连接关系为：