CN109948044A

CN109948044A - 基于向量最近邻搜索的文档查询

Info

Publication number: CN109948044A
Application number: CN201711343103.8A
Authority: CN
Inventors: 李明琴; 陈琪; 任刚; 王井东; 韩殿飞; 华杰锋; 张东擎; 罗威; 李增中; 谭锋; 张十; 朱素艳; 沈徽; 张霖涛
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-12-14
Filing date: 2017-12-14
Publication date: 2019-06-28
Also published as: WO2019118253A1

Abstract

本文公开的基于向量最近邻搜索的文档查询的技术方案，将向量近似匹配检索技术应用到搜索引擎中，通过将查询内容和网页文档分别进行语义向量化后，利用向量近似匹配检索的方式，获取与查询内容接近的网页文档，从而能够突破符号匹配的检索方式的限制，提供能够更好地把握用户意图的检索服务。

Description

基于向量最近邻搜索的文档查询

背景技术

随着网络技术的发展，搜索引擎的功能越来越强大，搜索的内容也越来越丰富。搜索引擎也为许多应用程序提供信息，是许多应用程序所必须的服务。在信息高速发展的时代，存在海量的网页文档，并且网页文档数量也在高速地增加。与此同时，用户对于信息的需求在不断的增加。如何能够实现更加快速、高效、准确地把我用户意图的检索服务是当前搜索引擎技术始终面临的挑战。

发明内容

提供本发明实施例内容是为了以精简的形式介绍将在以下详细描述中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

公开的基于向量最近邻搜索的文档查询的技术方案，将向量近似匹配检索技术应用到搜索引擎中，通过将查询内容和网页文档分别进行语义向量化后，利用向量近似匹配检索的方式，获取与查询内容接近的网页文档，从而能够突破符号匹配的检索方式的限制，提供能够更好地把握用户意图的检索服务。

上述说明仅是本公开技术方案的概述，为了能够更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂，以下特举本公开的具体实施方式。

附图说明

图1为本发明实施例公开的搜索引擎***的示例框图；

图2为本发明实施例的网页文档的查询处理过程之一的示意图；

图3为本发明实施例的网页文档查询处理装置之一的结构框图；

图4为本发明实施例的网页文档的查询处理过程之二的示意图；

图5为本发明实施例的网页文档查询处理装置之二的结构框图；

图6为本发明实施例的网页文档的查询处理过程之三的示意图；

图7为本发明实施例的针对网页文档的查询处理的***架构之一的框图；

图8为本发明实施例的网页文档的查询处理过程之四的示意图；

图9为本发明实施例的网页文档的查询处理过程之五的示意图；

图10为本发明实施例的针对网页文档的查询处理架构之二的框图；

图11为本发明实施例的针对网页文档的查询处理架构之三的框图；

图12为本发明实施例的基于CDSSM模型的向量最近邻搜索的应用示例的示意图；

图13为本发明实施例的电子设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本文中，术语“技术”可以指代例如(一个或多个)***、(一个或多个)方法、计算机可读指令、(一个或多个)模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA))、专用集成电路(ASIC)、专用标准产品(ASSP)、片上***(SOC)、复杂可编程逻辑设备(CPLD)和/或上述上下文以及在本文档通篇中所允许的(一项或多项)其它技术。

搜索引擎技术已经被广泛应用在各个行业中，除了一般的网页访问方式的使用搜索引擎以外，搜索引擎也关联到各类APP(应用程序)中，为用户提供各种信息搜索服务。

用户向搜索引擎发出查询请求，搜索引擎根据查询请求中包含的查询内容在已经存储的网页文档中进行搜索，获取与用户的查询内容匹配的网页文档，并返回用户。搜索引擎不仅只是对网页文档进行检索，也可以针对其他类型的文档(例如消息文档、数据文档)的进行检索的场景。在本文中，主要以网页文档为例来进行说明。

目前的文档检索大多是基于符号匹配的方式来完成，在网络搜索引擎中，较为常见的模式是：基于关键字的倒排索引的符号匹配方法来获取针对某一查询内容的相关文档。目前的基于符号匹配的检索方式，无法很好地理解用户意图。虽然，在一些搜索引擎中，会对输入的原始查询进行一些变化，然后再进行检索，从而提高召回率，但是这种变化也是非常有限的，尤其在遇到一些新的概念的时候，无法保证召回率。

本文提出的基于向量最近邻搜索的文档查询技术中，将搜索引擎中的文档事先转化为语义向量形式的文档向量，将用户输入的查询内容也转化为语义向量形式的查询向量，然后，基于向量近似匹配检索，在文档向量库(由多个文档转化的文档向量构成)中，寻找与查询向量近似的文档向量，最后，再根据找到的文档向量获取到对应的文档，作为查询结果返回给用户。

其中，上述的向量近似匹配检索可以具体采用近似最近邻搜索(ANN，approximatenearest neighbor search)技术。由于文档和查询都转化为了语义向量的形式，根据查询向量与文档向量之间的相似度来确定召回的文档，这种方式突破了符号匹配的检索方式的限制，能够更好地理解用户的意图。

如图1所示，其为本发明实施例公开的搜索引擎***的示例框图100，框图100包括：用户101、具有搜索引擎102的服务器103、存储网页文档的一个或多个数据库104，用户101与服务器103之间通过互联网105连接。在本文中，用户101可以指代人、软件形式的客户端、硬件形式的客户端(例如台式计算机、笔记本电脑、手机、平板电脑以及其他类似智能终端)、APP或者其他应用服务器。

一方面，搜索引擎102全天候在海量数据里识别并抓取内容，形成网页文档，存储于数据库104中。其中，网页文档的内容可以包括：标题、链接、锚、点击数据等等。另一方面，搜索引擎102接收用户101的查询请求，根据查询请求中的查询内容在数据库104中进行检索，获取与查询内容匹配的网页文档，然后返回给用户101。查询请求可以是基于用户在网页的搜索框中输入的文字内容生成的，也可以是来自APP根据用户的查询需求而生成的。用户输入查询内容时，可以采用文字输入的方式，也可以采用语音输入然后再识别为文字的形式。在本文中，无论用户以何种形式输入查询内容，最终都会转化为以自然语言形式存在的查询内容，从而以便使用本文介绍的技术进行进一步处理。

本发明实施例对搜索引擎中的针对网页文档的检索方面进行了改进。其主要涉及如下几个方面：

1)基于向量近似匹配检索的网页文档查询处理

本发明实施例引入了向量近似匹配检索，将查询内容和查询文档均转化为语义向量后，再进行匹配检索。从而突破符号匹配检索的限制，更好地理解用户的意图。

2)网页文档数据的分块处理

由于网页文档的数据量非常庞大，本发明实施例先对网页文档数据(由多个网页文档构成)进行分块处理，然后进行语义向量的转换以及索引建立。在检索的过程中，也是分别对各个网页文档数据块进行并行检索，然后再对网页文档合并，形成输出结果。

3)向量索引建立以及在查询处理中的应用

为了进一步提高向量近似匹配检索的效率，建立了向量索引，向量索引的主要作用是快速定位到可能存在匹配的网页文档向量在区域。

4)向量近似匹配检索与倒排索引检索的结合应用

为了对检索结果进行进一步优化，本发明实施例同时采用了倒排索引检索和向量近似匹配检索这两种方式来进行网页文档的检索，并充分利用两种检索方式获取到的网页文档来生成最终的检索结果。

下面将分别对这几方面的改进进行详细说明。

基于向量近似匹配检索的网页文档的查询处理

在本发明实施例中，搜索引擎102事先将抓取到的网页文档转化网页文档向量，并存储在数据库104中，作为后续进行文档查询的数据基础。在此基础上，当搜索引擎102接收到用户的查询请求后，提取出查询内容，然后执行如图2所示的本发明实施例的网页文档的查询处理过程之一的示意图200，该处理过程包括：

S201：根据查询内容生成查询向量。查询内容以自然语言的形式存在，通过对查询内容的语义进行特征提取来形成查询向量，在生成查询向量的过程中，会基于查询内容的上下文来提取语义特征，从而能够更好地把握用户意图。另外，查询向量和网页文档向量是基于相同的语义空间生成语义向量，这样便于后续的查询向量与网页文档向量之间的向量近似匹配处理。

S202：执行向量近似匹配检索，获取与查询向量匹配的网页文档向量。由于查询内容和网页文档都以语义向量的形式存在，因此，可以通过计算网页文档向量与查询向量之间的相似度来找到与查询向量最为接近的网页文档向量作为查询结果。这里提到的向量近似匹配检索的算法基础就是计算语义向量之间的相似度，在同一语义空间中，任意两个语义向量之间的距离体现了两个语义向量之间的接近程度，计算语义向量之间的距离的算法有很多，例如余弦近似度，即计算两个语义向量之间的夹角的余弦值，余弦值越小，两个语义向量之间的近似度越高。其中，向量近似匹配检索具体可以采用近似最近邻搜索(ANN，approximate nearest neighbor search)来完成，较为典型的ANN算法包括：KD树(KD-tree)算法，K邻近图(KNN graph)算法，局部敏感哈希(LSH，Locality Sensitive Hash)算法等。

S203：根据网页文档向量获取对应的网页文档。在数据库中会存储有网页文档向量与网页文档之间的映射关系，根据该映射关系就可以找到该网页文档向量对应的网页文档。

上述步骤S201到S203描述了基于查询内容检索匹配的网页文档的处理过程。如前面说介绍的，在此之前，需要将网页文档转化网页文档向量。因此，在上述的处理过程中，在步骤S202之前，还可以包括：

S204：根据文档的文档内容生成一个或多个网页文档向量。其中，文档内容可以包括：标题、链接、锚、点击数据。可以基于上述的文档内容中的任意一项或者多项的组合生来生成网页文档向量，一个文档可以对应生成多个网页文档向量。当一个文档对应存在多个网页文档向量时，上述的步骤S102中，查询向量与任何一个网页文档向量匹配时，都认为该文档与查询内容相匹配，可以将该文档作为查询结果返回。此外，由于搜索引擎102是全天候地抓取网络中的内容，并形成网页文档，因此，网页文档转换向量文档的过程也是不断地在进行的，当出现新的网页文档时，搜索引擎102就将新的网页文档转换为网页文档向量，并添加到数据库中。

如图3所示，其为本发明实施例的网页文档查询处理装置之一的结构框图300，上述的网页文档的查询处理可以通过图3所示的网页文档查询处理装置来完成，该处理装置可以设置于上述搜索引擎102中，其包括：

查询向量生成模块301，用于根据查询内容生成查询向量；

网页文档向量获取模块302，用于执行向量近似匹配检索，获取与查询向量匹配的网页文档向量；

文档获取模块303，用于根据网页文档向量获取对应的文档。

此外，该装置还可以包括网页文档向量生成模块304，用于根据文档的文档内容生成一个或多个网页文档向量。

在上述的网页文档查询处理过程中，通过将网页文档和查询内容转换为语义向量的形式，并通过针对语义向量执行向量近似匹配检索，能够基于语义向量的相似性来进行查找，可以获取到在向量空间中近似的网页文档向量，突破了符号匹配对于检索的限制。并且由于基于语义向量的检索其包含的特征元素不仅仅是待查询的词汇(单个词汇或者句子中的词汇)本身，而是可以包含更加丰富的特征元素，从而能够更好地理解用户的查询意图，提高召回率。

网页文档数据的分块处理

前面介绍了本发明实施例的最基本的基于向量近似匹配检索的查询处理过程，在实际应用中，搜索引擎102需要处理海量的网页文档，在本文中，将多个网页文档形成的集合体称作网页文档数据。面对由海量的网页文档构成的网页文档数据，其数据量是相当庞大，无论是存储还是建立索引都是一个巨大的工程，并且针对数据量如此庞大并且还在不断增长的网页文档数据，进行基于查询内容的匹配检索也是相当耗费时间的。对此，本发明实施例提出了针对网页文档数据进行分块处理并且分别建立索引的***架构，在这样的***架构基础上，将同一查询内容分别在各个网页文档数据块中进行并行查询处理，然后将从各个网页文档数据块中获得的网页文档进行整合，形成最终的查询结果。

如图4所示，其为本发明实施例的网页文档的查询处理过程之二的示意图400，基于上述对网页文档数据进行分块的***架构，查询处理过程包括：

S401：根据查询内容生成查询向量。

S402：根据查询向量，在多个网页文档向量库中执行向量近似匹配检索，获取与查询向量匹配的网页文档向量，并根据网页文档向量，在网页文档向量库对应的网页文档数据块中，获取与网页文档向量对应的网页文档。向量近似匹配检索具体可以采用上述的近似最近邻搜索(ANN)来完成。

S403：将从各个网页文档数据块中分别获取到的网页文档进行合并，生成最终的查询结果。各个网页文档数据块之间是相互独立的，从各个网页文档数据块中检索到的网页文档之间不会存在重复的情况，并且还会存在部分网页文档数据块中的查询结果为空的情形。可以将从各个网页文档数据块中获取到的作为中间查询结果的网页文档进行直接合并，作为最终的检索结果进行输出。较为优选的方式，也可以在合并处理的过程中，对从各个网页文档数据块中获取到的网页文档进行一下筛选或者进行一下混合排序，选择与查询内容最接近的一个或数个网页文档作为最终的查询结果。

如前面所介绍的，作为查询处理过程的准备工作，需要事先对庞大的网页文档数据进行分块，并且将各个网页文档转换为网页文档向量，因此，在上述的处理过程中，在步骤S401之前还可以包括：

S404：对网页文档数据进行分块处理，生成多个网页文档数据块。在实际应用中，由于搜索引擎102会持续地抓取网页信息并形成网页文档，可以在积累一定大小的网页文档数据后，再对其进行分块处理。

S405：对各个网页文档数据块中的多个文档进行处理，生成与各个网页文档数据块对应的多个网页文档向量库，每个网页文档向量库包括与网页文档数据块中的多个文档分别对应的多个网页文档向量。

如图5所示，其为本发明实施例的网页文档查询处理装置之二的结构框图500，上述的网页文档的查询处理可以通过图5所示的网页文档查询处理装置来完成，该处理装置可以设置于上述搜索引擎102中，其包括：

查询向量生成模块501，用于根据查询内容生成查询向量；

向量近似匹配检索模块502，用于根据查询向量，在多个网页文档向量库中执行向量近似匹配检索，获取与查询向量匹配的网页文档向量，并根据文档向量，在网页文档向量库对应的网页文档数据块中，获取与网页文档向量对应的网页文档；

查询结果生成模块503，用于将从各个网页文档数据块中分别获取到的网页文档进行合并，生成最终的查询结果。

此外，该装置还可以包括对网页文档数据进行分块处理以及进行网页文档向量转化的处理模块，具体包括：

分块处理模块504，对网页文档数据进行分块处理，生成多个网页文档数据块；

文档向量库生成模块505，对各个网页文档数据块中的多个网页文档进行处理，生成与各个网页文档数据块对应的多个网页文档向量库，每个网页文档向量库包括与网页文档数据块中的多个网页文档分别对应的多个网页文档向量，每个文档对应一个或多个文档向量。

本发明实施例通过对网页文档数据进行分块处理，能够将向量近似匹配检索的范围缩小到合理的范围上，从而能够更加快速地进行向量近似匹配检索。

向量索引建立以及在查询处理中的应用

为了能够更加快速地进行向量近似匹配检索，本发明实施例在对网页文档数据进行分块的基础上，还对每个网页文档数据块形成的网页文档向量库建立了向量索引。向量索引的主要作用对网页文档向量库中的各个网页文档向量进行分区，从而在执行查询处理的过程中，能够将查询向量快速定位到可能存在匹配的网页文档向量在区域中。在本发明实施例中，在对网页文档数据块进行分块之后才建立的向量索引，因此，向量索引的规模相对较小，从而能够进一步地提高向量匹配检索的速度。

在建立了向量索引的基础上，如图6所示，其为本发明实施例的网页文档的查询处理过程之三的示意图600，上述的步骤S402中，根据查询向量，在多个网页文档向量库中执行向量近似匹配检索，获取与查询向量匹配的网页文档向量的处理，可以具体包括：

S601：根据查询向量和各个文档向量库对应的向量索引，在各个文档向量库中确定待进行向量近似匹配检索的区域；

S602：根据查询向量，在确定的区域中，执行向量近似匹配检索，获取与查询向量匹配的文档向量。

如图7所示，其为本发明实施例的针对网页文档的查询处理的***架构之一的框图700，框图700包括查询处理器(Query Worker)701、多个检索处理器(Search Worker)702、汇总器(Aggregator)703以及与各个检索处理器702对应的数据库704。

在进行了网页文档数据的分块处理以及针对网页文档向量库建立了向量索引的基础上，查询处理器701将查询内容转化为语义向量后，进行复制，分发给各个检索处理器702，各个检索处理器702针对每个网页文档数据块并行执行网页文档向量的检索过程，然后向汇总器703输出检索到的网页文档，汇总器703会将各个检索处理器702提供的网页文档进行排序，选择出与查询内容最接近的一个或多个网页文档作为最终的查询结果提供给用户。

每个检索处理器702都对应一个数据库704，用来存储于该检索处理器702对应的网页文档数据块和网页文档向量库，检索处理器702中记录有网页文档向量库的向量索引。

本发明实施例通过建立向量索引能够快速地将向量近似匹配检索的处理范围缩小到网页文档向量库的具体区域中，从而减少了向量间的计算近似度的工作量，提高了向量近似匹配检索的效率。

向量近似匹配检索与倒排索引检索的结合应用

为了更好地对查询结果进行优化，本发明实施例将倒排索引检索与向量近似匹配检索相结合，从而充分利用两种检索方式的优势，来进一步提高查询结果的准确性。

在本发明实施例中，倒排索引和向量索引一样，都是在将网页文档数据进行分块后才建立的索引，倒排索引是针对各个网页文档数据库中的网页文档建立的索引，而向量索引是针对各个网页文档向量库中的各个网页文档向量建立的索引。

如图8所示，其为本发明实施例的网页文档的查询处理过程之四的示意图800，以及如图9所示，其为本发明实施例的网页文档的查询处理过程之五的示意图900。在本发明实施例中，倒排索引检索与向量近似匹配检索是并行执行的。在对网页文档数据进行分块的基础上，先对查询内容进行分析801，针对每个网页文档数据块，并行执行倒排索引检索和向量近似匹配检索，分别获得基于倒排索引检索得到的网页文档和基于向量近似匹配检索得到的网页文档，具体地，如图8和图9所示，针对查询内容分别执行提取关键字802和生成查询向量803，然后分别执行分布式的倒排索引检索804和分布式的ANN向量检索805。最后，针对从各个网页文档数据块获得的网页文档进行合并的处理，在合并处理的过程中，可以对获得的网页文档进行排序处理，从而确定最终作为向用户输出的检索结果。关于排序处理，可以采用如下两种方式：

方式一：如图8所示，分别对基于倒排索引检索得到的网页文档执行排序处理806和对基于向量近似匹配检索得到的网页文档执行排序处理807，然后将排序处理806和排序处理807输出的网页文档再进行排序处理808，将排序处理808输出的网页文档进行合并处理809后，生成最终的查询结果，然后执行查询结果输出810。

方式二：如图9所示，将通过向量近似匹配检索获得的网页文档和通过倒排索引检索获得的网页文档进行混合排序901，然后将混合排序901输出的网页文档进行合并处理902后，生成最终的查询结果，然后执行查询结果输出810。

如图10所示，其为本发明实施例的针对网页文档的查询处理架构之二的框图1000，上述的网页文档的查询处理过程可以基于图10所示的处理架构来完成。在框图1000，查询处理器(Query Worker)1001执行查询内容转化为语义向量的处理以及根据查询内容提取关键字的处理后，将从查询内容中提取的关键字和转化后的查询向量进行复制，分发给各个检索处理器(Search Worker)。其中，检索处理器分为两类，一类是执行向量近似匹配检索的检索处理器1002，另一类是执行倒排索引检索的检索处理器1003。排序处理器1004用于对通过向量近似匹配检索获得的网页文档进行排序，排序处理器1005用于对通过倒排索引检索获得的网页文档进行排序，排序处理器1006用于对排序处理器1004和排序处理器1005输出的网页文档在进行再次排序，最后汇总器(Aggregator)1007将排序处理器1005输出的网页文档进行合并处理后，生成最终提供给用户的查询结果。

如图11所示，其为本发明实施例的针对网页文档的查询处理架构之三的框图1100。上述的网页文档的查询处理过程还可以基于图11所示的处理架构来完成。在框图1100，查询处理器1101将查询内容转化为语义向量以及基于查询内容提取出关键字后，将提取出的关键字和转化后的查询向量进行复制，分发给各个检索处理器1102，各个检索处理器1102除了执行向量近似匹配检索之外，还执行倒排索引检索。各个检索处理器1102将通过向量近似匹配检索获得的网页文档和通过倒排索引检索获得的网页文档输出到混合排序处理器1103，混合排序处理器1103将通过向量近似匹配检索获得的网页文档和通过倒排索引检索获得的网页文档进行混合排序，然后，汇总器1104将混合排序处理器1103输出的网页文档进行合并处理后，生成最终提供给用户的查询结果。

关于对网页文档的排序的处理，可以采用例如LambdaRank(学习排序的一种算法)模型或者LambdaMart(学习排序的一种算法)模型来进行处理。

通过将倒排索引检索与向量近似匹配检索相结合使用，能够充分地利用这里两类检索方式的有点，从而能够获得更加准确并且更能理解用户意图的查询结果。

应用场景的实施例

以上介绍了本发明实施例的基于向量最近邻搜索的文档查询技术的处理过程以及整体架构。下面将通过一个具体应用示例来进一步说明一下本发明实施例的技术方案。

如图12所示，其为本发明实施例的基于CDSSM(Convolutional Deep StructuredSemantic Models，基于卷积的深度结构化语义模型)模型的向量最近邻搜索的应用示例的示意图1200。在本实施例中，以原始的查询内容为“coffee and teasouth melbourne”1201作为示例，并且假设目前已经存在三个网页文档，其中，网页文档1202的URL(UniformResoure Locator，统一资源定位符)为“www truelocal com au find coffee tea vicmelbourn city south melbourne”，网页文档二1203的标题(title)为“coffee teasuppliers in south melbourne Melbourne city vic”，网页文档1204的点击记录(click)“coffee beans supplier south melbourne”。这里所说的点击记录是指点击过该网页文档对应的网页链接的查询内容，即用户输入某个查询内容，搜索引擎返回了某个网页文档，用户点击了该网页文档的网页链接，访问了对应的网页，搜索引擎会将该查询内容记录为该网页文档的点击记录。

图中使用CDSSM模型来实现查询内容和网页文档的向量化以及相似性匹配。如图中所示，原始的查询内容和网页文档都通过词嵌入(word embedding)和深度神经网络(Deep Neural Network)进行语义向量的转换，在图中所示的模型中，首先采用基于三字模式(tri-letter)进行词嵌入(word embedding)1208，然后再采用基于卷积的深度结构化语义模型(CDSSM)1209(图中的d标识生成向量的维度)生成维度为100的语义向量。

如图中所示，在生成了查询向量1205和网页文档向量1206的基础上，通过对查询向量和各个网页文档向量之间执行余弦相似度计算1207来选择最相似度最高的网页文档作为查询结果。

具体实现示例

在一些例子中，上述图1至图12涉及的一个或多个模块或者一个或多个步骤或者一个或多个处理过程，可以通过软件程序、硬件电路，也可以通过软件程序和硬件电路相结合的方式来实现。例如，上述各个组件或者模块以及一个或多个步骤都可在芯片上***(SoC)中实现。SoC可包括：集成电路芯片，该集成电路芯片包括以下一个或多个：处理单元(如中央处理单元(CPU)、微控制器、微处理单元、数字信号处理单元(DSP)等)、存储器、一个或多个通信接口、和/或用于执行其功能的进一步的电路和可任选的嵌入的固件。

如图13所示，其为发明实施例的电子设备1300的结构框图。电子设备1300包括：存储器1301和处理器1302。

存储器1301，用于存储程序。除上述程序之外，存储器1301还可被配置为存储其它各种数据以支持在电子设备1300上的操作。这些数据的示例包括用于在电子设备1300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。

存储器1301可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

存储器1301耦合至处理器1302并且包含存储于其上的指令，所说的指令在由处理器1302执行时使电子设备执行动作，作为一种电子设备的实施例，该动作可以包括：

根据查询内容生成查询向量；

执行向量近似匹配检索，获取与查询向量匹配的文档向量；

根据文档向量获取对应的文档。

其中，执行向量近似匹配检索，获取与查询向量匹配的文档向量可以包括：基于近似最近邻搜索，获取与查询向量匹配的文档向量。

作为另一种电子设备的实施例，上述的动作可以包括：

根据查询内容生成查询向量；

根据查询向量，在多个文档向量库中执行向量近似匹配检索，获取与查询向量匹配的文档向量，并根据所述文档向量，在文档向量库对应的文档数据块中，获取与文档向量对应的文档；

将从各个文档数据块中分别获取到的文档进行合并，生成最终的查询结果。

其中，根据查询向量，在多个文档向量库中执行向量近似匹配检索，获取与查询向量匹配的文档向量可以包括：

根据查询向量和各个文档向量库对应的向量索引，在各个文档向量库中确定待进行向量近似匹配检索的区域；

根据查询向量，在确定的区域中，执行向量近似匹配检索，获取与查询向量匹配的文档向量。

此外，在将从各个文档数据块中分别获取到的文档进行合并之前，还可以包括：根据查询内容，在多个文档数据块中，执行倒排索引检索，并获取与查询内容对应的文档；

相应地，将从各个文档数据块中分别获取到的文档进行合并，生成最终的查询结果可以包括：将通过向量近似匹配检索获得的文档和通过倒排索引检索获得的文档进行混合排序，根据排序结果对文档进行合并处理，进行生成最终的查询结果。

对于上述的处理操作，在前面方法和装置的实施例中已经进行了详细说明，对于上述的处理操作的详细内容同样也适用于电子设备1300中，即可以将前面实施例中提到的具体处理操作，以程序的方式写入在存储器1301，并通过处理器1302来进行执行。

进一步，如图113所示，电子设备1300还可以包括：通信组件1303、电源组件1304、音频组件1305、显示器1306、芯片组107等其它组件。图13中仅示意性给出部分组件，并不意味着电子设备1300只包括图13所示组件。

通信组件1303被配置为便于电子设备1300和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件1303经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中，通信组件1303还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

电源组件1304，为电子设备的各种组件提供电力。电源组件1304可以包括电源管理***，一个或多个电源，及其他与为电子设备生成、管理和分配电力相关联的组件。

音频组件1305被配置为输出和/或输入音频信号。例如，音频组件1305包括一个麦克风(MIC)，当电子设备处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1301或经由通信组件1303发送。在一些实施例中，音频组件1305还包括一个扬声器，用于输出音频信号。

显示器1306包括屏幕，其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与触摸或滑动操作相关的持续时间和压力。

上述的存储器1301、处理器1302、通信组件1303、电源组件1304、音频组件1305以及显示器1306可以与芯片组1307连接。芯片组1307可以提供处理器1302与电子设备1300中的其余组件之间的接口。此外，芯片组1307还可以提供电子设备1300中的各个组件对存储器1301的访问接口以及各个组件间相互访问的通讯接口。

示例条款

A：一种方法，包括：

根据查询内容生成查询向量；

执行向量近似匹配检索，获取与所述查询向量匹配的文档向量；

根据所述文档向量获取对应的文档。

B：如段落A所述的方法，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

基于近似最近邻搜索，获取与所述查询向量匹配的文档向量。

C：如段落A所述的方法，其中，所述查询向量和所述文档向量为基于相同的语义空间生成语义向量。

D：如段落A所述的方法，其中，所述根据查询内容生成查询向量包括：

根据所述查询内容的上下文生成所述查询向量。

E：如段落A所述的方法，其中，还包括：

根据文档的文档内容生成一个或多个文档向量，所述文档内容包括：标题、链接、锚、点击数据中的任意一项或者多项的组合。

F：一种方法，包括：

根据查询内容生成查询向量；

根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量，并根据所述文档向量，在所述文档向量库对应的文档数据块中，获取与所述文档向量对应的文档；

将从各个文档数据块中分别获取到的所述文档进行合并，生成最终的查询结果。

G：如段落F所述的方法，其中，根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

根据所述查询向量和各个文档向量库对应的向量索引，在各个文档向量库中确定待进行向量近似匹配检索的区域；

根据所述查询向量，在确定的所述区域中，执行所述向量近似匹配检索，获取与所述查询向量匹配的文档向量。

H：如段落G所述的方法，其中，在将从各个文档数据块中分别获取到的文档进行合并之前，还包括：

根据所述查询内容，在多个所述文档数据块中，执行倒排索引检索，并获取与所述查询内容对应的文档；

所述将从各个文档数据块中分别获取到的所述文档进行合并，生成最终的查询结果包括：

针对每个所述文档数据块，将通过向量近似匹配检索获得的文档和通过倒排索引检索获得的文档进行混合排序，根据排序结果对所述文档进行合并处理，进行生成最终的查询结果。

I：如段落F所述的方法，其中，还包括：

对文档数据进行分块处理，生成多个所述文档数据块；

对各个所述文档数据块中的多个文档进行处理，生成与各个所述文档数据块对应的多个所述文档向量库，每个所述文档向量库包括与所述文档数据块中的多个文档分别对应的多个所述文档向量，每个所述文档对应一个或多个所述文档向量。

J：如段落I所述的方法，其中，还包括：

对各个文档向量库分别建立用于对所述文档向量库中的各个文档向量进行分区的所述向量索引。

K：一种电子设备，包括：

处理单元；以及

存储器，耦合至所述处理单元并且包含存储于其上的指令，所述指令在由所述处理单元执行时使所述设备执行动作，所述动作包括：

根据查询内容生成查询向量；

根据所述文档向量获取对应的文档。

L：如段落K所述的电子设备，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

M：一种电子设备，包括：

处理单元；以及

根据查询内容生成查询向量；

N：如段落M所述的电子设备，其中，

所述根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

O：如段落N所述的电子设备，其中，在将从各个文档数据块中分别获取到的文档进行合并之前，还包括：

P：一种装置，包括：

查询向量生成模块，用于根据查询内容生成查询向量；

文档向量获取模块，用于执行向量近似匹配检索，获取与所述查询向量匹配的文档向量；

文档获取模块，用于根据所述文档向量获取对应的文档。

Q：如段落P所述的装置，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：基于近似最近邻搜索，获取与所述查询向量匹配的文档向量。

R：一种装置，包括：

查询向量生成模块，用于根据查询内容生成查询向量；

向量近似匹配检索模块，用于根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量，并根据所述文档向量，在所述文档向量库对应的文档数据块中，获取与所述文档向量对应的文档；

查询结果生成模块，用于将从各个文档数据块中分别获取到的所述文档进行合并，生成最终的查询结果。

S：如段落R所述的装置，其中，所述根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

T：如段落S所述的装置，其中，还包括多个倒排索引检索模块，用于根据所述查询内容，在多个所述文档数据块中，执行倒排索引检索，并获取与所述查询内容对应的文档；

在所述查询结果生成模块中，所述将从各个文档数据块中分别获取到的所述文档进行合并，生成最终的查询结果包括：

将通过向量近似匹配检索获得的文档和通过倒排索引检索获得的文档进行混合排序，根据排序结果对所述文档进行合并处理，进行生成最终的查询结果。

结语

尽管已经用结构特征和/或方法动作专用的语言描述了本主题，但要理解，所附权利要求书中定义的主题不必限于所描述的具体特征或动作。而是，这些具体特征和动作是作为实现该权利要求的解说性形式而公开的。

除非另外具体声明，否则在上下文中可以理解并一般地使用条件语言(诸如“能”、“能够”、“可能”或“可以”)表示特定示例包括而其他示例不包括特定特征、元素和/或步骤。因此，这样的条件语言一般并非旨在暗示对于一个或多个示例以任何方式要求特征、元素和/或步骤，或者一个或多个示例必然包括用于决定的逻辑、具有或不具有用户输入或提示、在任何特定实施例中是否要包括或要执行这些特征、元素和/或步骤。

除非另外具体声明，应理解联合语言(诸如短语“X、Y或Z中至少一个”)表示项、词语等可以是X、Y或Z中的任一者、或其组合。

本文所述和/或附图中描述的流程图中任何例行描述、元素或框应理解成潜在地表示包括用于实现该例程中具体逻辑功能或元素的一个或多个可执行指令的代码的模块、片段或部分。替换示例被包括在本文描述的示例的范围内，其中各元素或功能可被删除，或与所示出或讨论的顺序不一致地执行，包括基本上同步地执行或按相反顺序执行，这取决于所涉及的功能，如本领域技术人也将理解的。

应当强调，可对上述示例作出许多变型和修改，其中的元素如同其他可接受的示例那样应被理解。所有这样的修改和变型在此旨在包括在本公开的范围内并且由以下权利要求书保护。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种方法，包括：

根据查询内容生成查询向量；

根据所述文档向量获取对应的文档。

2.根据权利要求1所述的方法，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

3.根据权利要求1所述的方法，其中，所述查询向量和所述文档向量为基于相同的语义空间生成语义向量。

4.根据权利要求1所述的方法，其中，所述根据查询内容生成查询向量包括：

根据所述查询内容的上下文生成所述查询向量。

5.根据权利要求1所述的方法，其中，还包括：

6.一种方法，包括：

根据查询内容生成查询向量；

7.根据权利要求6所述的方法，其中，根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

8.根据权利要求7所述的方法，其中，在将从各个文档数据块中分别获取到的文档进行合并之前，还包括：

9.根据权利要求6所述的方法，其中，还包括：

对文档数据进行分块处理，生成多个所述文档数据块；

10.根据权利要求9所述的方法，其中，还包括：

11.一种电子设备，包括：

处理单元；以及

根据查询内容生成查询向量；

根据所述文档向量获取对应的文档。

12.根据权利要求11所述的电子设备，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

13.一种电子设备，包括：

处理单元；以及

根据查询内容生成查询向量；

14.根据权利要求13所述的电子设备，其中，

15.根据权利要求14所述的电子设备，其中，在将从各个文档数据块中分别获取到的文档进行合并之前，还包括：

所述将从各个文档数据块中分别获取到的所述文档进行合并，生成最终的查询结果包括：将通过向量近似匹配检索获得的文档和通过倒排索引检索获得的文档进行混合排序，根据排序结果对所述文档进行合并处理，进行生成最终的查询结果。

16.一种装置，包括：

查询向量生成模块，用于根据查询内容生成查询向量；

文档获取模块，用于根据所述文档向量获取对应的文档。

17.根据权利要求16所述的装置，其中，所述执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：基于近似最近邻搜索，获取与所述查询向量匹配的文档向量。

18.一种装置，包括：

查询向量生成模块，用于根据查询内容生成查询向量；

19.根据权利要求18所述的装置，其中，所述根据所述查询向量，在多个文档向量库中执行向量近似匹配检索，获取与所述查询向量匹配的文档向量包括：

20.根据权利要求19所述的装置，其中，还包括多个倒排索引检索模块，用于根据所述查询内容，在多个所述文档数据块中，执行倒排索引检索，并获取与所述查询内容对应的文档；