WO2021081913A1

WO2021081913A1 - 向量查询方法、装置、电子设备及存储介质

Info

Publication number: WO2021081913A1
Application number: PCT/CN2019/114795
Authority: WO
Inventors: 张家兴
Original assignee: 北京欧珀通信有限公司
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Also published as: CN114245896A

Abstract

本申请公开了一种向量查询方法、装置、电子设备及存储介质，该安向量查询方法包括：获取查询向量；根据预先建立的第一索引，获取与查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量；获取查询向量与目标向量之间的残差向量，作为查询残差向量；根据预先建立的第二索引，获取多个样本向量中每个样本向量对应的编码，第二索引包括采用乘积量化方法对每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码；根据查询残差向量以及每个样本残差向量对应的编码，从多个样本向量中获取与查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。本方法可以提升向量查询的速度。

Description

向量查询方法、装置、电子设备及存储介质

技术领域

本申请涉及数据处理技术领域，更具体地，涉及一种向量查询方法、装置、电子设备及存储介质。

背景技术

随着互联网的发展，越来越多的用户利用互联网进行信息搜索工作，以搜索感兴趣的内容。通常在搜索时，查询内容和样本内容会以向量进行表示，并且根据向量来进行查询，最终获得与查询内容匹配的样本内容。随着用户需求的增多，用户查询的内容也越来越复杂，查询时花费的时间较多，因此需要提升查询的效率。

发明内容

鉴于上述问题，本申请提出了一种向量查询方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种向量查询方法，获取查询向量；根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量；获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量；根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量；根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

第二方面，本申请实施例提供了一种向量查询装置，所述装置包括：向量获取模块、第一确定模块、残差获取模块、第二确定模块以及向量确定模块，其中，所述向量获取模块用于获取查询向量；所述第一确定模块用于根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量；所述残差获取模块用于获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量；所述第二确定模块用于根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量；所述向量确定模块用于根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行上述第一方面提供的向量查询方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述第一方面提供的向量查询方法。

本申请提供的方案，通过获取查询向量，然后根据预先建立的第一索引，获取与查询向量的距离满足第一设定距离的第一聚类中心向量，再获取查询向量与目标向量之间的残差向量，作为残差查询向量，根据预先建立的第二索引，获取多个样本向量中每个样本向量对应的编码，第二索引包括采用乘积量化方法对每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，然后根据查询残差向量以及每个样本残差向量对应的编码，从多个样本向量中获取与查询向量距离满足第二设定距离条件的样本向量，作为查询结果，从而通过粗聚类和乘积量化，实现向量检索，分步降低了向量检索的复杂度，使得向量检索的速度和准确性都能得到保证。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本申请一个实施例的索引的构建方法流程图。

图2示出了根据本申请一个实施例的索引的构建方法中步骤S110的流程图。

图3示出了本申请实施例提供的建立第二索引的原理示意图。

图4示出了根据本申请一个实施例的向量查询方法流程图。

图5示出了本申请一个实施例中提供的向量查询方法中步骤S220的流程图。

图6示出了本申请一个实施例中提供的向量查询方法中步骤S250的流程图。

图7示出了根据本申请另一个实施例的向量查询方法流程图。

图8示出了根据本申请一个实施例的向量查询装置的一种框图。

图9是本申请实施例的用于执行根据本申请实施例的向量查询方法的电子设备的框图。

图10是本申请实施例的用于保存或者携带实现根据本申请实施例的向量查询方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

随着网络时代的来临，越来越多的用户利用互联网进行需求内容的查询。例如，利用互联网查询图片、商品、新闻等内容。在进行内容查询的过程中，会使用向量检索实现内容查询。例如，会将用户输入的查询内容量化为向量，然后采用暴力算法，分别比对该向量与每个样本内容的向量之间的距离或者相似度，并根据比对结果确定查询结果，如果数据规模较大时，会带来较大的运算压力。

在向量检索的传统技术中，也会建立索引结构，并在向量检索时，利用索引结构进行向量检索。目前索引结构主要包括：树索引结构、哈希索引、图索引及矢量量化等。其中，对于树索引结构，一般而言，在空间维度比较低的时候，树索引比较搞笑，但向量维度较高时，性能及准确度不太理想。对于哈希索引，该方法虽然可以完成快速的建立索引，但是在检索的准确率上表现不足，针对千万级别以上的高维向量，准确率通常低于50％，难以应用于大多场景。对于图索引，该索引方法在千万级别的向量相似计算上可以取得较好的效果，但是如果数据规模达到上亿级别时，建索引的时长会很长，检索时花费的时间也很长，不能满足在线计算的需求，并且对后续增加的样本添加索引时，会造成索引结构大范围的联动，性能难以得到保证。对于矢量量化(例如聚类、乘积量化等)，在解决上亿级别数据量的向量相似计算时，单纯依靠聚类或者乘积量化的方法，如果要保证检索的准确率，建立索引的时间会较长。

针对上述问题，发明人在经过长时间的研究之后，提出了本申请实施例提供的向量查询方法、装置、电子设备以及存储介质，通过对样本数据的粗聚类结果，获取与查询向量距离最近的聚类中心，再根据乘积量化建立的索引，在聚类中心所在聚类下，获取与查询向量距离最近的样本向量，从而无需暴力的计算查询向量与每个样本向量之间的距离，大幅缩减了查询时长，并且采用乘积量化的方法，能有效提升向量查询的准确率。其中，具体的向量查询方法在后续的实施例中进行详细的说明。

请参阅图1，图1示出了本申请一个实施例提供的索引的构建方法的流程示意图。所述索引的构建方法用于通过根据样本数据进行聚类，而根据聚类结果建立第一索引，以及根据聚类结果，再利用乘积量化方法获得码本，并建立第二索引，第一索引以及第二索引均用于向量查询的过程。在具体的实施例中，所述索引的构建方法可以应用于电子设备。下面将以电子设备为例，说明本实施例的具体流程，当然，可以理解的，本实施例所应用的电子设备可以为服务器等设备，在此不做限定。下面将针对图1所示的流程进行详细的阐述，所述索引的构建方法具体可以包括以下步骤：

步骤S110：对所有样本向量进行聚类，获得多个第一聚类。

在本申请实施例中，电子设备中可以存储有大量样本内容，样本内容可以为图像、视频、音频、文档、网页、新闻帖子等多种类型的内容，样本内容的具体类型可以不作为限定，例如，电子设备用于处理和查询图像时，则样本内容可以图像内容。为了使样本内容可以用于内容的分析和查询，可以对样本内容进行处理，以获得样本内容对应的样本向量，样本向量用于表征样本内容的特征。

在一些实施方式中，可以根据不同类型的样本内容，而提取样本内容的特征并形成样本向量。例如，对于图像类型的样本内容，可以提取亮度值、灰度值、像素数量、灰度均值、灰度中值等图像特征，作为构成样本向量的元素，从而形成样本向量。又例如，对于音频的样本内容，可以提取音色、音调、音量、音频内容中的文本内容、关键词等特征，作为构成样本向量的元素，从而形成样本向量。再例如，对于文档内容，可以提取分词、关键词、词频等特征，作为构成样本向量的元素，从而形成样本向量。当然，具体获取样本向量的方式可以不作为限定。

在一些实施方式中，对于内容较为复杂的类型的样本内容，可以对应提取到数量较多的特征，从而形成高维的样本向量。样本向量的具体维度可以不作为限定，例如，可以为几百维，也可以为几千维，在此不做限定。

进一步的，在对所有样本内容中每个样本内容构建样本向量后，可以获得每个样本内容对应的样本向量。

在一些实施方式中，由于通常样本向量的规模非常大，例如10亿级别，业务场景一般是从10亿的高维的样本向量中找出与查询向量相似的少数的向量，如果只是通过聚类去解决这个问题，聚类个数可能需要万级别以上，聚类收敛的过程会非常慢，可以先对所有样本向量先进行粗聚类划分，从而，在获取样本向量后，可以对所有样本向量进行聚类。

在一些实施方式中，在对样本向量进行聚类后，可以产生多个聚类，即产生多个类别，将产生的聚类作为第一聚类，每个第一聚类对应有一个聚类中心。其中，聚类中心可以理解为该聚类中的质心，处于该聚类下样本向量分布的中心。每个聚类中心可以用一个与样本向量相同维度的向量表示，该向量成为聚类中心的中心向量，可以将第一聚类的中心向量作为第一聚类中心向量。

在一些实施方式中，对所有样本向量进行聚类，可以采用K均值聚类算法对所有向量进行聚类。具体的，请参阅图2，对所有样本向量进行聚类，获得多个第一聚类，包括：

步骤S111：根据所述所有样本向量的数量，或者根据设定算法，确定聚类个数。

在一些实施方式中，由于是需要对样本向量进行粗聚类，因此可以根据样本向量的数量，及需求的精读而确定聚类个数，以实现聚类后获得的第一聚类的个数为预先确定的聚类个数。当然也可以根据设定算法，例如肘部法则、轮廓系数等算法，确定聚类个数。另外，该聚类个数可以与样本向量的数量满足一定关系，从而达到粗聚类的效果。

步骤S112：根据所述聚类个数，采用K均值聚类算法对所述所有样本向量进行聚类，获得多个第一聚类，所述第一聚类的个数与所述聚类个数相同。

在一些实施方式中，电子设备可以根据该聚类个数，设置和调整K均值聚类算法中的聚类参数，然后对所有样本向量进行聚类，从而聚类后获得的第一聚类的个数为步骤S111中确定的聚类个数，实现对样本向量的粗聚类。其中，采用K均值剧烈算法进行聚类时，可以随机选择K个样本向量作为初始均值向量，计算样本到各均值向量的距离，把它划到距离最小的聚类中；再计算新的均值向量，进行迭代，直至均值向量未更新或到达最大次数。

当然，具体对所有向量进行聚类的方法可以不作为限定，也还可以基于其他聚类方法进行聚类，例如基于层次的聚类算法、基于密度的聚类算法等。

步骤S120：获取每个第一聚类中的聚类中心对应的第一聚类中心向量。

在本申请实施例中，在对所有样本向量进行聚类后，可以获得多个第一聚类，以及多个第一聚类中每个第一聚类中的聚类中心对应的第一聚类中心向量，即步骤S110中获得的第一聚类中心向量。

步骤S130：获取与每个样本向量的距离最近的第一聚类中心向量。

在本申请实施例中，可以针对每个样本向量，计算该样本向量与各个第一聚类中心向量之间的距离。在得到样本向量与各个第一聚类中心向量之间的距离后，则可以根据计算的距离，确定与每个样本向量距离最近的第一聚类中心向量，也就是样本向量最靠近的第一聚类中心向量。样本向量距离最近的第一聚类中心向量，即为该样本向量所属的第一聚类对应的第一聚类中心向量。其中，样本向量与第一聚类中心向量之间的距离，用于表征两者之间相距的远近，可以指欧式距离、马氏距离、夹角余弦距离等，在此不做限定。

步骤S140：建立每个第一聚类与对应的第一聚类中心向量的索引关系，以及每个样本向量与对应的第一聚类的索引关系，得到第一索引。

在本申请实施例中，在确定出与每个样本向量距离最近的第一聚类中向量后，则可以根据与每个样本向量距离最近的第一聚类中心向量，确定出哪些样本向量对应的第一聚类中心向量相同，并将这些样本向量对应到第一聚类中心向量对应的第一聚类，也就是确定出第一聚类下的样本向量。基于此，可以建立出每个样本向量与对应的第一聚类的索引关系，并且建立出第一聚类与其对应的多个样本向量之间的倒排索引关系，还可以建立出每个第一聚类与对应的第一聚类中心向量的索引关系，从而得到第一索引。根据第一索引，可以查询到每个第一聚类对应的第一聚类中心向量，并且可以查询到每个样本向量所属的第一聚类，每个第一聚类下的样本向量。

步骤S150：获取所述所有样本向量中每个样本向量对应的样本残差向量，所述样本残差向量为每个样本向量与其对应的第一聚类中心向量之间的残差向量。

在本申请实施例中，在建立第一索引之后，可以根据第一索引中，每个样本向量对应的第一聚类中心向量，获取每个样本向量与其对应的第一聚类中心向量之间的残差向量，并将获取的残差向量作为样本残差向量。其中，可以将样本向量与其对应的第一聚类中心向量相减，从而获得样本向量与其对应的第一聚类中心向量之间的残差向量。

步骤S160：对每个样本残差向量降维为多个子空间中的多个子样本向量，所述多个子样本向量与所述多个子空间一一对应。

在本申请实施例中，在对样本向量进行粗聚类后，可以再进行乘积量化，以进行精算建立索引。具体的，进行乘积量化的过程，可以为本申请实施例中的步骤S160至步骤S190。

在本申请实施例中，考虑到样本向量通常为高维的向量(例如256维的样本向量)，第一聚类中心向量与样本向量的维度相同，因此每个样本向量对应的样本残差向量也与样本向量的维度相同，也就是说，样本残差向量也为高维。而高维的向量在处理时的复杂度较大，因此可以对样本残差向量进行降维。

在一些实施方式中，可以将样本残差向量降维为多个子空间中的多个样本子向量，多个样本子向量与多个子空间一一对应，也就是说，每个样本残差向量在每个子空间中存在一个样本子向量，各个子空间中对应的样本子向量组合后即为一个完整的样本残差向量。从而通过对样本残差向量进行降维，可以减小处理复杂度，并且在粗聚类的基础上进行精细划分。在降维时，可以按照均分的多个子空间进行划分，保证不同子空间中的样本子向量的维度数相同；也可以不按照均分的方式划分，这样的话，不同子空间中的样本子向量的维度数可能不同。

例如，样本残差向量为30维的向量，其表示为(i ₁，i ₂，i ₃，…，i ₂₈，i ₂₉，i ₃₀)，样本残差向量可以按照均分的6个子空间进行划分，第一个子空间中对应的子向量可以为(i ₁，i ₂，i ₃，i ₄，i ₅)，第二个子空间中对应的子向量可以为(i ₆，i ₇，i ₈，i ₉，i ₁₀)，第三个子空间中对应的子向量可以为(i ₁₁，i ₁₂，i ₁₃，i ₁₄，i ₁₅)，第四个子空间中对应的子向量可以为(i ₁₆，i ₁₇，i ₁₈，i ₁₉，i ₂₀)，第五个子空间中对应的子向量可以为(i ₂₁，i ₂₂，i ₂₃，i ₂₄，i ₂₅)，第六个子空间中对应的子向量可以为(i ₂₆，i ₂₇，i ₂₈，i ₂₉，i ₃₀)。当然，以上的空间划分以及子向量的划分仅为举例。

步骤S170：对同一子空间中的子样本向量进行聚类，获取每个子空间中的多个第二聚类，以及每个第二聚类对应的第二聚类中心向量。

在本申请实施例中，在对每个样本残差向量降维为多个子空间中的样本子向量后，则可以按照每个子空间，对相同子空间中的子样本向量进行聚类。作为一种具体的实施方式，可以采用K均值聚类算法，对同一子空间中的样本子向量进行聚类，获得聚类结果，聚类结果中包括多个第二聚类，每个第二聚类同样对应一个聚类中心，第二聚类对应的聚类中心作为第二聚类中心，另外，与步骤S110中的聚类相同的，第二聚类中心对应有一个第二聚类中心向量，并且第二聚类中心向量与样本子向量的维度相同。具体进行聚类的方式，可以参阅步骤S110中聚类的方式，在此不再赘述。

在一些实施方式中，由于对每个样本残差向量均按照相同降维的方式，进行了降维，因此每个样本残差向量都被分为相同个数的样本子向量。对每个子空间中的样本子向量进行聚类后，均可以获得多个第二聚类及其对应的第二聚类中心向量。其中，对于各个子空间中，可以采用相同的聚类算法，确定出相同数目的第二聚类；对于不同子空间，也可以采取不同的聚类算法，从而确定出不同数目的聚类结果。

在一些实施方式中，在对同一子空间中的样本子向量进行聚类之前，还可以对样本子向量进行处理，以提升准确率。具体的，可以采用参考正交矩阵对每个样本子向量进行变换后，再进行聚类。

其中，参考正交矩阵可以为基于最优乘积量化的方法确定，例如，可以对量化误差函数进行最小值求解，得到参考正交矩阵，又例如，对量化误差函数进行最小值求解后，再进行迭代优化，最后得到参考正交矩阵。

在该实施方式下，由于对样本子向量进行聚类之前，采用参考正交矩阵对样本子向量进行了变换，因此可以使得聚类时的误差较小，提升聚类的准确性。

在一些实施方式中，在对同一子空间中的样本子向量进行聚类时，还可以是，在同一第一聚类下，对第一聚类对应的多个样本向量的样本残差向量，按照降维为多个样本子向量后，对同一子空间中的样本子向量进行聚类。这样可以使得后续建立的第二索引，在用于向量查询时，在查询到查询向量对应的第一聚类后，能根据第二索引，更快的查找到作为查询结果的样本向量。

步骤S180：对每个第二聚类进行编码，获得每个第二聚类对应的子编码，其中，每个样本残差向量对应的多个子编码构成每个样本残差向量对应的编码。

在本申请实施例中，在对相同子空间下的样本子向量进行了聚类，获得了每个子空间对应的多个第二聚类后，可以对每个子空间中的第二聚类进行编码，从而获得每个第二聚类对应的子编码，以便根据每个第二聚类对应的子编码，建立索引。

例如，如果每个样本残差向量降维为2个子空间中的样本子向量，每个子空间可以对应L个第二聚类，第1个子空间中对应的L个第二聚类，可以按序编码，获得子编码，子编码分别为1，2，3，…，L。

步骤S190：建立每个样本残差向量对应的子编码与第二聚类中心向量的索引关系，获得第二索引。

在本申请实施例中，在对每个第二聚类进行编码后，则可以针对每个样本残差向量，对其对应的多个样本子向量中每个样本子向量，确定每个样本子向量在对应的子空间中距离最近的第二聚类中心向量，以及第二聚类中心向量对应的第二聚类，然后将第二聚类的子编码与该样本子向量对应，从而确定出该样本残差向量的多个样本子向量中每个样本子向量对应的子编码，并建立起每个样本残差向量对应的子编码与第二聚类中心向量的索引关系，获得第二索引。样本残差向量的多个样本子向量中每个样本子向量对应的子编码，即构成了该样本残差向量的编码。

下面，结合图3中的示例，对本申请实施例中建立第二索引的过程进行描述。例如，请参阅图3，在乘积量化训练阶段，针对N个样本残差向量，样本向量的维度为256维，可以将其均分为4个子空间，每一个子空间中的样本子向量的维度为64维。在每一个子空间中，对样本子向量进行聚类后，可以对每个子空间中的第二聚类编码为1字节的整型数，并且每个子空间中，对样本子向量聚类后，产生256个第二聚类，256个第二聚类对应的子编码可以作为该子空间对应的码本。由于，每个第二聚类都编码为1字节的整型数，因此在将样本残差向量近似用各个子空间中对应的第二聚类中心向量进行表示时，样本残差向量可以量化编码为一个4字节的整型数，即4个第二聚类的子编码。其中，各个子空间中对应的第二聚类中心向量，指样本残差向量的各个样本子向量在其对应的子空间中，距离最近的第二聚类中心向量。比如，样本残差向量A，在第一个子空间中，距离最近的第二聚类中心向量所在的第二聚类对应的子编码为23，在第二个子空间中，距离最近的第二聚类中心向量所在的第二聚类对应的子编码为148，在第三个子空间中，距离最近的第二聚类中心向量所在的第二聚类对应的子编码为235，在第四个子空间中，距离最近的第二聚类中心向量所在的第二聚类对应的子编码为230，则样本残差向量近似用各个子空间中对应的第二聚类中心向量进行表示时，可以量化编码为(23,148,235,230)，也就是样本残差向量对应的编码，并且根据编码对应的第二聚类中心向量，建立起样本残差向量对应的多个子编码与第二聚类中心向量的索引关系，获得第二索引。在查询样本残差向量时，通过第二索引以及样本残差向量的编码，可查询到每个子编码对应的第二聚类中心向量，并将查询到的四个第二聚类中心向量的组合，作为样本残差向量的近似。

本申请实施例提供的索引的构件方法，通过对样本向量进行粗聚类后，获得多个第一聚类，以及第一聚类对应的第一聚类中心向量，根据粗聚类结果建立每个第一聚类与对应的第一聚类中心向量的索引关系，每个样本向量与对应的第一聚类的索引关系，得到第一索引。进一步的，求取每个样本向量与其对应的第一聚类中心向量之间的样本残差向量，再经过降维后，进行聚类，再对每个第二聚类编码，最后建立每个样本残差向量对应的子编码与第二聚类中心向量的索引关系，得到第二索引。从而实现索引建立过程中，先做粗聚类，实现粗略的划分，再经过乘积量化，近似精算建立索引，大大的减少了建立索引的时间。

请参阅图4，图4示出了本申请一个实施例提供的向量查询方法的流程示意图。所述向量查询方法用于通过对样本数据的粗聚类结果，获取与查询向量距离最近的聚类中心，再根据乘积量化建立的索引，在聚类中心所在聚类下，获取与查询向量距离最近的样本向量，从而提升向量查询的效率。在具体的实施例中，所述向量查询方法可以应用于上述电子设备。下面将针对图4所示的流程进行详细的阐述，所述向量查询方法具体可以包括以下步骤：

步骤S210：获取查询向量。

在本申请实施例中，查询向量可以指根据用户需求的查询内容，生成的查询向量。例如，该查询向量可以为根据文字内容生成的查询向量，又例如，该查询向量也可以为根据图像内容生成的查询向量，在此不做限定，生成查询向量的方式可以参阅前述实施例中生成样本向量的方式，在此不再赘述。

步骤S220：根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量。

在本申请实施例中，预先建立的第一索引为每个第一聚类与对应的第一聚类中心向量的索引关系，以及每个样本向量与对应的第一聚类的索引关系，因此第一索引可以包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，每个第一聚类中包括多个样本向量。其中，第一索引的建立方式可以参照前述实施例中的内容，在此不再赘述。

电子设备中可以预先存储有第一索引，在获得查询向量时，可以根据第一索引，获取与查询向量之间的距离满足第一设定距离条件的第一聚类中心向量，并将获得的第一聚类中心向量作为目标向量。

在一些实施方式中，请参见图5，步骤S220可以包括：

步骤S221：根据所述第一索引，获取每个第一聚类对应的第一聚类中心向量。

步骤S222：分别计算所述查询向量与每个第一聚类中心向量之间的距离。

步骤S223：根据所述查询向量与每个第一聚类中心向量之间的距离，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量。

可以理解的，根据第一索引，可以查询到每个第一聚类对应的第一聚类中心向量，然后分别计算查询向量与每个第一聚类中心向量之间的距离，获取与查询向量的距离满足第一设定距离条件的第一聚类中心向量。获取到的第一聚类中心向量，作为目标向量，该目标向量对应的第一聚类即为该查询向量最匹配的一个聚类。

在一些实施方式中，第一设定距离条件可以包括：与所述查询向量的距离最小的第一聚类中心向量；或者与所述查询向量的距离小于第一距离阈值的第一聚类中心向量。

在该方式下，当第一设定距离条件为与所述查询向量的距离最小的第一聚类中心向量时，则可以在分别计算查询向量与每个第一聚类中心向量之间的距离后，对计算获得的多个距离进行从小到大的排序，然后根据排序结果，确定最小距离所对应的第一聚类中心向量作为目标向量。当第一设定距离条件为与查询向量的距离小于第一距离阈值的第一聚类中心向量时，则可以在分别计算查询向量与每个第一聚类中心向量之间的距离后，筛选出小于第一距离阈值的距离所对应的第一聚类中心向量作为目标向量。

步骤S230：获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量。

在本申请实施例中，可以将所述查询向量与所述目标向量相减，获得所述查询向量与所述目标向量之间的残差向量。

步骤S240：根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量。

在本申请实施例中，第二索引可以为每个样本残差向量对应的子编码与第二聚类中心向量的索引关系。第二索引可以包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，即前述实施例中建立第二索引时，获得的每个残差样本向量对应的编码。第二索引的建立方式可以参阅前述实施例的内容，在此不再赘述。

步骤S250：根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

在本申请实施例中，请参阅图6，步骤S250可以包括：

步骤S251：根据所述查询残差向量以及所述每个样本残差向量对应的编码，获取所述查询向量与所述每个样本向量之间的距离。

在本申请实施例中，由前述实施例中建立第二索引的过程可知，编码包括多个子编码，第二索引还包括每个子编码对应的第二聚类中心向量，子编码为将每个样本残差向量降维成多个子空间中的多个子样本向量之后，对同一子空间中的子样本向量进行聚类后获得每个子空间中的多个第二聚类，并对所述第二聚类进行编码获得，多个子样本向量与多个子空间一一对应。

在一些实施方式中，步骤S251可以包括：

将所述查询残差向量降维为多个子空间中的多个子向量，作为多个子查询向量，所述多个子查询向量与所述多个子空间一一对应；根据所述第二索引，获取所述每个样本残差向量的多个子编码中每个子编码所对应的第二聚类中心向量；根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离。

可以理解的，可以按照前述实施例中建立第二索引过程的方式，对查询残差向量进行降维，并且降维的方式可以一致，即也是降维为多个子空间中的多个子向量，将多个子向量作为多个子查询向量，并且多个子查询向量与多个子空间一一对应。根据第二索引，可以知道每个样本残差向量对应的编码，以及编码中每个子编码对应的第二聚类中心向量。然后则可以根据多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取查询向量与每个样本向量之间的距离。

其中，根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离，包括：对于所述多个样本残差向量中的任一样本残差向量，分别计算相同子空间中所述子查询向量与该样本残差向量对应的每个第二聚类中心向量之间的距离；对于所述每个样本残差向量，根据每个样本残差向量与样本向量的对应关系，对每个子空间中计算获得的距离求和，获得所述查询向量与所述每个样本向量之间的距离。

可以理解的，由于每个样本残差向量是与样本向量对应的，并且样本残差向量是样本向量与第一聚类中心向量之间的残差向量，而查询残差向量是查询向量与第一聚类中心向量之间的残差向量，因此，在计算查询残差向量与样本残差向量之间的距离，即是在计算查询向量与样本向量之间的距离。例如，(A-B)-(C-B)，即为A-C。而计算查询残差向量与样本残差向量之间的距离，可以分别通过计算相同子空间中，查询子向量与第二聚类中心向量之间的距离后，将计算获得的多个距离相加获得，因此可以获取到查询向量与样本向量之间的距离。

步骤S252：根据所述查询向量与每个样本向量之间的距离，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

在一些实施方式中，所述第二设定距离条件包括：与所述查询向量的距离最小的样本向量；或者与所述查询向量的距离小于第二距离阈值的样本向量。

本申请实施例提供的向量查询方法，通过获取查询向量，然后根据预先建立的第一索引，获取与查询向量的距离满足第一设定距离的第一聚类中心向量，再获取查询向量与目标向量之间的残差向量，作为残差查询向量，根据预先建立的第二索引，获取多个样本向量中每个样本向量对应的编码，第二索引包括采用乘积量化方法对每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，然后根据查询残差向量以及每个样本残差向量对应的编码，从多个样本向量中获取与查询向量距离满足第二设定距离条件的样本向量，作为查询结果，从而通过粗聚类和乘积量化，实现向量检索，分步降低了向量检索的复杂度，使得向量检索的速度和准确性都能得到保证。

请参阅图7，图7示出了本申请另一个实施例提供的向量查询方法的流程示意图。该向量查询方法可以应用于上述电子设备。下面将针对图7所示的流程进行详细的阐述，所述向量查询方法具体可以包括以下步骤：

步骤S310：获取查询向量。

在一些实施方式中，步骤S310可以包括：获取业务查询请求；判断所述业务查询请求中是否携带有向量；如果携带有向量，则将所述向量作为查询向量；如果未携带有向量，则生成与所述业务查询请求对应的查询向量。

可以理解的，电子设备在获得业务查询请求之后，可以解析业务查询请求中的参数，并确定参数是否携带向量，如果携带有向量，则可以直接将携带的向量作为查询向量。而如果未携带有向量，则可以按照前述实施例中的方式生成查询向量。

步骤S320：判断是否存在与所述查询向量对应的历史查询结果。

在一些实施方式中，电子设备中由于对不同用户的查询进行服务，并且相同用户可能多次查询相同的内容，因此电子设备可以将以往的历史查询结果，与查询向量对应后，进行存储。在获得查询向量后，可以判断本地是否保存有该查询向量对应的历史查询结果，以便根据查询结果，确定是否执行查询过程。

步骤S330：如果存在与所述查询向量对应的历史查询结果，则将所述历史查询结果中的样本向量，作为查询结果。

可以理解的，如果本地存储有查询向量对应的历史查询结果，则可以直接将该历史查询结果，作为本次查询向量对应的查询结果，而节省了查询过程所花费的时间。

步骤S340：如果不存在与所述查询向量对应的历史查询结果，根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量。

可以理解的，如果本地存储有查询向量对应的历史查询结果，则进行查询过程，即执行步骤S340至步骤S370。

步骤S350：获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量。

步骤S360：根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量。

步骤S370：根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

在本申请实施例中，步骤S340至步骤S370可以参阅前述实施例的内容，在此不再赘述。

在一些实施方式中，上述多个样本向量存储于第一数据库中，即上述步骤获取到的查询结果为基于第一数据库而获得的查询结果。还可以存在第二数据库，第二数据库与第一数据库中的样本向量、第一索引以第二索引可以不同。该向量查询方法还可以包括：

将所述查询结果作为第一查询结果；根据由第二数据库中的样本向量建立的第一索引以及第二索引，获取第二查询结果；将所述第一查询结果以及所述第二查询结果合并，获得第三查询结果，作为所述查询向量对应的查询结果。

可以理解的，可以基于第二数据库中的样本向量建立的第一索引以及第二索引，再按照上述步骤S340至步骤S370的方式，进行向量查询，获得第二查询结果。之后再将第一查询结果与第二查询结果合并，得到第三查询结果，并将第三查询结果作为本次向量查询的查询结果，从而使得向量查询更加准确。其中，合并可以指将第一查询结果以及第二查询结果均作为最终的查询结果。

在一些场景中，数据库可能存在大库和小库，大库可以指拥有大量样本数据的数据库，主要用于存放历史的样本向量，小库可以指拥有相对较少的样本数据的数据库，主要用于存放近期获取的样本向量，通过上述方式即可以使得向量查询能从所有样本向量中进行查询，提升向量查询的准确率。

本申请实施例提供的向量查询方法，通过获取查询向量，然后确定是否存在查询向量对应的历史查询结果，如果存在查询向量对应的历史查询结果，则可以直接作为查询结果，从而减少处理量。而不存在查询向量对应的历史查询结果时，根据预先建立的第一索引，获取与查询向量的距离满足第一设定距离的第一聚类中心向量，再获取查询向量与目标向量之间的残差向量，作为残差查询向量，根据预先建立的第二索引，获取多个样本向量中每个样本向量对应的编码，第二索引包括采用乘积量化方法对每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，然后根据查询残差向量以及每个样本残差向量对应的编码，从多个样本向量中获取与查询向量距离满足第二设定距离条件的样本向量，作为查询结果，从而通过粗聚类和乘积量化，实现向量检索，分步降低了向量检索的复杂度，使得向量检索的速度和准确性都能得到保证。

请参阅图8，其示出了本申请实施例提供的一种向量查询装置400的结构框图。该向量查询装置400可以应用于上述电子设备。该向量查询装置400包括：向量获取模块410、第一确定模块420、残差获取模块430、第二确定模块440以及向量确定模块450。其中，所述向量获取模块410用于获取查询向量；所述第一确定模块420用于根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量；所述残差获取模块430用于获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量；所述第二确定模块440用于根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量；所述向量确定模块450用于根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

在一些实施方式中，向量确定模块450可以包括：距离计算单元以及向量筛选单元。距离计算单元用于根据所述查询残差向量以及所述每个样本残差向量对应的编码，获取所述查询向量与所述每个样本向量之间的距离；向量筛选单元用于根据所述查询向量与每个样本向量之间的距离，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。

在该实施方式下，所述编码包括多个子编码，所述第二索引还包括每个子编码对应的第二聚类中心向量，所述子编码为将每个样本残差向量降维成多个子空间中的多个子样本向量之后，对同一子空间中的子样本向量进行聚类后获得每个子空间中的多个第二聚类，并对所述第二聚类进行编码获得，所述多个子样本向量与所述多个子空间一一对应。

进一步的，距离计算单元可以具体用于：将所述查询残差向量降维为多个子空间中的多个子向量，作为多个子查询向量，所述多个子查询向量与所述多个子空间一一对应；根据所述第二索引，获取所述每个样本残差向量的多个子编码中每个子编码所对应的第二聚类中心向量；根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离。

在该方式下，距离计算单元根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离，包括：对于所述多个样本残差向量中的任一样本残差向量，分别计算相同子空间中所述子查询向量与该样本残差向量对应的每个第二聚类中心向量之间的距离；对于所述每个样本残差向量，根据每个样本残差向量与样本向量的对应关系，对每个子空间中计算获得的距离求和，获得所述查询向量与所述每个样本向量之间的距离

在一些实施方式中，该向量查询装置400还可以包括第一索引建立模块。第一索引建立模块可以用于：对所有样本向量进行聚类，获得多个第一聚类；获取每个第一聚类中的聚类中心对应的第一聚类中心向量；获取与每个样本向量的距离最近的第一聚类中心向量；建立每个第一聚类与对应的第一聚类中心向量的索引关系，以及每个样本向量与对应的第一聚类的索引关系，得到第一索引。

在该实施方式下，第一索引建立模块对所有样本向量进行聚类，获得多个第一聚类，包括：根据所述所有样本向量的数量，或者根据设定算法，确定聚类个数；根据所述聚类个数，采用K均值聚类算法对所述所有样本向量进行聚类，获得多个第一聚类，所述第一聚类的个数与所述聚类个数相同。

进一步的，该向量查询装置400还可以包括第二索引建立模块。第二索引建立模块可以用于：获取所述所有样本向量中每个样本向量对应的样本残差向量，所述样本残差向量为每个样本向量与其对应的第一聚类中心向量之间的残差向量；对每个样本残差向量降维为多个子空间中的多个子样本向量，所述多个子样本向量与所述多个子空间一一对应；对同一子空间中的子样本向量进行聚类，获取每个子空间中的多个第二聚类，以及每个第二聚类对应的第二聚类中心向量；对每个第二聚类进行编码，获得每个第二聚类对应的子编码，其中，每个样本残差向量对应的多个子编码构成每个样本残差向量对应的编码；建立每个样本残差向量对应的子编码与第二聚类中心向量的索引关系，获得第二索引。

在一些实施方式中，所述第一设定距离条件包括：与所述查询向量的距离最小的第一聚类中心向量；或者与所述查询向量的距离小于第一距离阈值的第一聚类中心向量。

在一些实施方式中，该向量查询装置400还可以包括缓存查询模块，缓存查询模块用于在所述根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量之前，判断是否存在与所述查询向量对应的历史查询结果；如果不存在与所述查询向量对应的历史查询结果，则第一确定模块根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量。

在该实施方式下，该向量查询装置400还可以包括结果确定模块。结果确定模块用于如果存在与所述查询向量对应的历史查询结果，则将所述历史查询结果中的样本向量，作为查询结果。

在一些实施方式中，所述多个样本向量存储于第一数据库中。该向量查询装置400还可以包括：结果标识模块、结果查询模块以及结果合并模块。结果标识模块用于将所述查询结果作为第一查询结果；结果查询模块用于根据由第二数据库中的样本向量建立的第一索引以及第二索引，获取第二查询结果；结果合并模块用于将所述第一查询结果以及所述第二查询结果合并，获得第三查询结果，作为所述查询向量对应的查询结果。

在一些实施方式中，向量获取模块410可以包括：请求获取单元，用于获取业务查询请求；向量判断单元，用于判断所述业务查询请求中是否携带有向量；第一执行单元，用于如果携带有向量，则将所述向量作为查询向量；第二执行单元，用于如果未携带有向量，则生成与所述业务查询请求对应的查询向量。

在一些实施方式中，残差获取模块430可以具体用于：将所述查询向量与所述目标向量相减，获得所述查询向量与所述目标向量之间的残差向量。

在一些实施方式中，该向量查询装置400还可以包括索引更新模块。索引更新模块用于每间隔预设时长，根据新获取的样本向量，对所述第一索引以及所述第二索引进行更新。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请提供的方案，

请参考图9，其示出了本申请实施例提供的一种电子设备的结构框图。该电子设备100可以是服务器等能够运行应用程序的电子设备。本申请中的电子设备100可以包括一个或多个如下部件：处理器110、存储器120以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器120中并被配置为由一个或多个处理器110执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器110可以包括一个或者多个处理核。处理器110利用各种接口和线路连接整个电子设备100内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行电子设备100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端100在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图10，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质800中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质800可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质800包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码810的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码810可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种向量查询方法，其特征在于，所述方法包括：

获取查询向量；

根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量；

获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量；

根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量；

根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。
根据权利要求1所述的方法，其特征在于，所述根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果，包括：

根据所述查询残差向量以及所述每个样本残差向量对应的编码，获取所述查询向量与所述每个样本向量之间的距离；

根据所述查询向量与每个样本向量之间的距离，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。
根据权利要求2所述的方法，其特征在于，所述编码包括多个子编码，所述第二索引还包括每个子编码对应的第二聚类中心向量，所述子编码为将每个样本残差向量降维成多个子空间中的多个子样本向量之后，对同一子空间中的子样本向量进行聚类后获得每个子空间中的多个第二聚类，并对所述第二聚类进行编码获得，所述多个子样本向量与所述多个子空间一一对应。
根据权利要求3所述的方法，其特征在于，所述根据所述查询残差向量以及所述每个样本残差向量对应的编码，获取所述查询向量与所述每个样本向量之间的距离，包括：

将所述查询残差向量降维为多个子空间中的多个子向量，作为多个子查询向量，所述多个子查询向量与所述多个子空间一一对应；

根据所述第二索引，获取所述每个样本残差向量的多个子编码中每个子编码所对应的第二聚类中心向量；

根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离。
根据权利要求4所述的方法，其特征在于，所述根据所述多个子查询向量，以及所述每个样本残差向量对应的多个第二聚类中心向量，获取所述查询向量与所述每个样本向量之间的距离，包括：

对于所述多个样本残差向量中的任一样本残差向量，分别计算相同子空间中所述子查询向量与该样本残差向量对应的每个第二聚类中心向量之间的距离；

对于所述每个样本残差向量，根据每个样本残差向量与样本向量的对应关系，对每个子空间中计算获得的距离求和，获得所述查询向量与所述每个样本向量之间的距离。
根据权利要求1-5任一项所述的方法，其特征在于，预先建立所述第一索引的过程，包括：

对所有样本向量进行聚类，获得多个第一聚类；

获取每个第一聚类中的聚类中心对应的第一聚类中心向量；

获取与每个样本向量的距离最近的第一聚类中心向量；

建立每个第一聚类与对应的第一聚类中心向量的索引关系，以及每个样本向量与对应的第一聚类的索引关系，得到第一索引。
根据权利要求6所述的方法，其特征在于，所述对所有样本向量进行聚类，获得多个第一聚类，包括：

根据所述所有样本向量的数量，或者根据设定算法，确定聚类个数；

根据所述聚类个数，采用K均值聚类算法对所述所有样本向量进行聚类，获得多个第一聚类，所述第一聚类的个数与所述聚类个数相同。
根据权利要求6或7所述的方法，其特征在于，预先建立所述第二索引的过程，包括：

获取所述所有样本向量中每个样本向量对应的样本残差向量，所述样本残差向量为每个样本向量与其对应的第一聚类中心向量之间的残差向量；

对每个样本残差向量降维为多个子空间中的多个子样本向量，所述多个子样本向量与所述多个子空间一一对应；

对同一子空间中的子样本向量进行聚类，获取每个子空间中的多个第二聚类，以及每个第二聚类对应的第二聚类中心向量；

对每个第二聚类进行编码，获得每个第二聚类对应的子编码；

建立每个样本残差向量对应的子编码与第二聚类中心向量的索引关系，获得第二索引，其中，每个样本残差向量对应的多个子编码构成每个样本残差向量对应的编码。
根据权利要求1-8任一项所述的方法，其特征在于，所述第一设定距离条件包括：

与所述查询向量的距离最小的第一聚类中心向量；或者

与所述查询向量的距离小于第一距离阈值的第一聚类中心向量。
根据权利要求1-9任一项所述的方法，其特征在于，所述第二设定距离条件包括：

与所述查询向量的距离最小的样本向量；或者

与所述查询向量的距离小于第二距离阈值的样本向量。
根据权利要求1-10任一项所述的方法，其特征在于，在所述根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量之前，所述方法还包括：

判断是否存在与所述查询向量对应的历史查询结果；

如果不存在与所述查询向量对应的历史查询结果，则执行所述根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量。
根据权利要求11所述的方法，其特征在于，所述方法还包括：

如果存在与所述查询向量对应的历史查询结果，则将所述历史查询结果中的样本向量，作为查询结果。
根据权利要求1-12任一项所述的方法，其特征在于，所述多个样本向量存储于第一数据库中，所述方法还包括：

将所述查询结果作为第一查询结果；

根据由第二数据库中的样本向量建立的第一索引以及第二索引，获取第二查询结果；

将所述第一查询结果以及所述第二查询结果合并，获得第三查询结果，作为所述查询向量对应的查询结果。
根据权利要求1-13任一项所述的方法，其特征在于，所述获取查询向量，包括：

获取业务查询请求；

判断所述业务查询请求中是否携带有向量；

如果携带有向量，则将所述向量作为查询向量；

如果未携带有向量，则生成与所述业务查询请求对应的查询向量。
根据权利要求1-14任一项所述的方法，其特征在于，所述根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，包括：

根据所述第一索引，获取每个第一聚类对应的第一聚类中心向量；

分别计算所述查询向量与每个第一聚类中心向量之间的距离；

根据所述查询向量与每个第一聚类中心向量之间的距离，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量。
根据权利要求1-15任一项所述的方法，其特征在于，所述获取所述查询向量与所述目标向量之间的残差向量，包括：

将所述查询向量与所述目标向量相减，获得所述查询向量与所述目标向量之间的残差向量。
根据权利要求1-16任一项所述的方法，其特征在于，所述方法还包括：

每间隔预设时长，根据新获取的样本向量，对所述第一索引以及所述第二索引进行更新。
一种向量查询装置，其特征在于，所述装置包括：向量获取模块、第一确定模块、残差获取模块、第二确定模块以及向量确定模块，其中，

所述向量获取模块用于获取查询向量；

所述第一确定模块用于根据预先建立的第一索引，获取与所述查询向量的距离满足第一设定距离条件的第一聚类中心向量，作为目标向量，所述第一索引包括对样本向量进行聚类获得的多个第一聚类以及每个第一聚类对应的第一聚类中心向量，所述每个第一聚类中包括多个样本向量；

所述残差获取模块用于获取所述查询向量与所述目标向量之间的残差向量，作为查询残差向量；

所述第二确定模块用于根据预先建立的第二索引，获取所述多个样本向量中每个样本向量对应的编码，所述第二索引包括采用乘积量化方法对所述每个样本向量对应的样本残差向量进行乘积量化获得的每个残差样本向量对应的编码，所述样本残差向量为所述样本向量与所述目标向量之间的残差向量；

所述向量确定模块用于根据所述查询残差向量以及所述每个样本残差向量对应的编码，从所述多个样本向量中获取与所述查询向量的距离满足第二设定距离条件的样本向量，作为查询结果。
一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-17任一项所述的方法。
一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-17任一项所述的方法。