CN113626471B

CN113626471B - 数据检索方法、装置、电子设备及存储介质

Info

Publication number: CN113626471B
Application number: CN202110895405.6A
Authority: CN
Inventors: 刘铠玮; 张存义; 朱润秋
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2024-02-23
Anticipated expiration: 2041-08-05
Also published as: CN113626471A

Abstract

本公开关于一种数据检索方法、装置、电子设备及存储介质，该方法包括：对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；根据多个聚类中心，将检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个聚类中建立聚类中心与检索数据之间的索引；根据多个聚类中心，将查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果；根据查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定查询数据集的检索结果。本公开降低了建库和检索的数据规模，减少建库和检索过程中的内存和计算压力，可以减少查询时间，提高检索效率，节省计算资源。

Description

数据检索方法、装置、电子设备及存储介质

技术领域

本公开涉及数据检索技术领域，尤其涉及一种数据检索方法、装置、电子设备及存储介质。

背景技术

海量数据最近邻检索作为数据检索中使用最为广泛的技术一直以来都是研究热点，由于维度高、数据规模大，直接应用最近邻方法并不可行，而且由于维数灾难，很难在高维欧式空间中以较小的代价找到精确的最近邻。因此，可以使用ANN(Approximate NearestNeighbor，近似最近邻)查询，通过牺牲精度来换取时间和空间的方式从大量样本中获取最近邻。

但是，由于数据量大，使用普通的ANN索引服务也存在以下问题，比如建立单个索引对于内存需求比较大，其耗费的查询时间急速增长，相应的召回率也会下降，需要计算资源难以满足。

发明内容

本公开提供一种数据检索方法、装置、电子设备及存储介质，以至少解决相关技术中对内存需求大、计算资源难以满足的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种数据检索方法，包括：

对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；

根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引；

根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果；

根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果。

可选的，对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心，包括：

对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据；

对所述多个抽样数据进行聚类，得到多个聚类中心。

可选的，对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据，包括：

在第一MapReduce任务的Map阶段，对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据；

对所述多个抽样数据进行聚类，得到多个聚类中心，包括：

在第一MapReduce任务的Reduce阶段，对所述多个抽样数据进行聚类，得到多个聚类中心。

可选的，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，包括：

分别确定所述检索数据集中的检索数据与所述聚类中心的第一距离，并将所述检索数据分发到所述第一距离最小的聚类中心所在的聚类中；

根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，包括：

分别确定所述查询数据集中的查询数据与所述聚类中心的第二距离，并将所述查询数据分发到所述第二距离最小的一个或多个聚类中心所在的一个或多个聚类中。

可选的，在每个聚类中分别根据索引检索查询数据所对应的检索结果，包括：

在当前聚类中，根据所述当前聚类的索引获取所述当前聚类中的检索数据；

分别确定分发到当前聚类的查询数据与每个检索数据的第三距离，并召回所述第三距离最小的预设数量的检索数据，作为所述分发到当前聚类的查询数据在当前聚类中所对应的检索结果。

可选的，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果，包括：

在将查询数据集中的查询数据分发到一个聚类中心所在的聚类中时，将所述查询数据集中每个查询数据在一个聚类中所对应的检索结果作为所述查询数据集的检索结果；或者

在将查询数据集中的查询数据分发到多个聚类中心所在的聚类中时，对所述查询数据集中每个查询数据在多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果。

可选的，对所述查询数据集中每个查询数据在多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果，包括：

对所述查询数据集中每个查询数据在多个聚类中所对应的检索数据进行合并；

从合并后的检索数据中获取与每个查询数据的第三距离最小的预设数量的检索数据；

根据每个查询数据与检索数据的第三距离，对每个查询数据所对应的预设数量的检索数据进行排序，得到查询数据集的检索结果。

可选的，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引，包括：

在第二MapReduce任务的Map阶段，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中；

在第二MapReduce任务的Reduce阶段，在每个所述聚类中建立聚类中心与所述检索数据之间的索引。

可选的，根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果，包括：

在第三MapReduce任务的Map阶段，根据所述多个聚类中心，将查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中；

在第三MapReduce任务的Reduce阶段，在每个聚类中分别根据索引检索查询数据所对应的检索结果。

在第四MapReduce任务的Map阶段，获取查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果；

在第四MapReduce任务的Reduce阶段，对查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果。

根据本公开实施例的第二方面，提供一种数据检索装置，包括：

聚类模块，被配置为执行对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；

检索数据分库模块，被配置为执行根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引；

查询数据检索模块，被配置为执行根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果；

检索结果确定模块，被配置为执行根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果。

可选的，所述聚类模块包括：

抽样单元，被配置为执行对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据；

聚类单元，被配置为执行对所述多个抽样数据进行聚类，得到多个聚类中心。

可选的，所述抽样单元被配置为执行：

所述聚类单元被配置为执行：

可选的，所述检索数据分库模块包括：

检索数据分库单元，被配置为执行分别确定所述检索数据集中的检索数据与所述聚类中心的第一距离，并将所述检索数据分发到所述第一距离最小的聚类中心所在的聚类中；

所述查询数据检索模块包括：

查询数据分库单元，被配置为执行分别确定所述查询数据集中的查询数据与所述聚类中心的第二距离，并将所述查询数据分发到所述第二距离最小的一个或多个聚类中心所在的一个或多个聚类中。

可选的，所述查询数据检索模块包括：

检索数据获取单元，被配置为执行在当前聚类中，根据所述当前聚类的索引获取所述当前聚类中的检索数据；

当前聚类检索结果确定单元，被配置为执行分别确定分发到当前聚类的查询数据与每个检索数据的第三距离，并召回所述第三距离最小的预设数量的检索数据，作为所述分发到当前聚类的查询数据在当前聚类中所对应的检索结果。

可选的，所述检索结果确定模块包括：

第一检索结果确定单元，被配置为执行在将查询数据集中的查询数据分发到一个聚类中心所在的聚类中时，将所述查询数据集中每个查询数据在一个聚类中所对应的检索结果作为所述查询数据集的检索结果；或者

第二检索结果确定单元，被配置为执行在将查询数据集中的查询数据分发到多个聚类中心所在的聚类中时，对所述查询数据集中每个查询数据在多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果。

可选的，所述第二检索结果确定单元被配置为执行：

可选的，所述检索数据分库模块被配置为执行：

可选的，所述查询数据检索模块被配置为执行：

可选的，所述检索结果确定模块被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的数据检索方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的数据检索方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现第一方面所述的数据检索方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例通过对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心，根据多个聚类中心，将检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个聚类中建立聚类中心与检索数据的索引，根据多个聚类中心将查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果，根据查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定查询数据集的检索结果，由于对数据进行聚类后，可以分别将检索数据集和查询数据集分发到不同的聚类中，并基于每个聚类的索引分别进行检索，降低了建库和检索的数据规模，大大减少建库和检索过程中的内存和计算压力，可以减少查询时间，提高检索效率，节省计算资源。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据检索方法的流程图；

图2是根据一示例性实施例示出的一种数据检索装置的框图；

图3是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种数据检索方法的流程图，如图1所示，该数据检索方法用于服务器或服务器集群等电子设备中，包括以下步骤。

在步骤S11中，对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心。

本公开实施例的数据检索方法是对海量数据的检索，目的是从检索数据集中检索出查询数据集中每个查询数据的近似最近邻，可以离线进行数据检索。其中，所述检索数据集是用于检索近似最近邻的数据集，查询数据集是待检索的数据的集合。

基于检索数据集和查询数据集分布相似的特性，可以选择检索数据集和查询数据集中一个数据集进行聚类中心的训练。使用聚类算法对检索数据集中的所有数据进行聚类，或者，使用聚类算法对查询数据集中的所有数据进行聚类，得到多个聚类中心，将所述多个聚类中心保存至HDFS(Hadoop Distributed File System，Hadoop分布式文件***)中。所述聚类中心的数据维度与检索数据和查询数据的数据维度相同。其中，所述聚类算法例如可以是KMeans或者谱聚类等。

在一个示例性实施例中，对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心，包括：对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据；对所述多个抽样数据进行聚类，得到多个聚类中心。

在使用检索数据集训练聚类中心时，可以对检索数据集中的检索数据进行随机抽样，得到多个抽样数据；或者，在使用查询数据集训练聚类中心时，可以对查询数据集中的查询数据进行随机抽样，得到多个抽样数据。在抽样得到多个抽样数据后，使用聚类算法对所述多个抽样数据进行聚类，得到多个聚类中心。通过对检索数据集或查询数据集中的数据进行抽样，并基于抽样数据进行聚类，可以减少聚类的计算量，提高聚类效率，进而提高数据检索效率，节省计算资源。

在一个示例性实施例中，对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据，包括：在第一MapReduce任务的Map阶段，对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据；

对所述多个抽样数据进行聚类，得到多个聚类中心，包括：在第一MapReduce任务的Reduce阶段，对所述多个抽样数据进行聚类，得到多个聚类中心。

通过第一MapReduce任务来对检索数据集或查询数据集中的数据进行聚类，即在第一MapReduce任务的Map阶段，由服务器集群中Map设备执行，对检索数据集或查询数据集中的数据进行随机抽样，将抽样得到的多个抽样数据发送至服务器集群中的Reduce设备，在第一MapReduce任务的Reduce阶段，由Reduce设备使用聚类算法对多个抽样数据进行聚类，得到多个聚类中心，可以将得到的多个聚类中心保存至HDFS中。通过MapReduce任务来进行聚类，可以使用集群来进行分布式处理，提高处理速度，并满足海量数据的要求。

在步骤S12中，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引。

基于检索数据集中的检索数据与多个聚类中心的距离或者相似度，将检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，即一个检索数据只会分发到距离最小或相似度最大的一个聚类中，实现对检索数据的分库处理。将检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中后，在每个聚类中建立当前聚类的聚类中心与当前聚类中的检索数据之间的索引，即建立聚类中心与当前聚类中的检索数据的数据标识之间的映射关系。建立索引后，可以将每个聚类中的索引保存至HDFS中。

在一个示例性实施例中，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引，包括：在第二MapReduce任务的Map阶段，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中；在第二MapReduce任务的Reduce阶段，在每个所述聚类中建立聚类中心与所述检索数据之间的索引。

通过第二MapReduce任务来对检索数据进行分库处理，并建立索引，在第二MapReduce任务的Map阶段，根据多个聚类中心，确定与检索数据集中每个检索数据距离最小的聚类中心，并标记检索数据的数据标识对应的聚类中心的标签，根据检索数据的数据标识对应的聚类中心的标签，将检索数据分发到所述标签所对应的Reduce设备中，在第二MapReduce任务的Reduce阶段，Reduce设备对分发到当前设备中的检索数据建立索引，该索引为倒排索引，也就是建立了聚类中心与检索数据的数据标识之间的映射关系。通过MapReduce任务来对检索数据进行分库及建立索引，可以使用集群来进行分布式处理，提高处理速度，并满足海量数据的要求。

在步骤S13中，根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果。

基于查询数据集中的查询数据与多个聚类中心的距离或者相似度，将查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，即一个查询数据可以分发到距离最小或相似度最大的一个或多个聚类中，实现对查询数据的分库处理。在将查询数据分发到一个或多个聚类中心所在的聚类中后，在每个聚类中分别根据当前聚类的索引检索分发到当前聚类的查询数据在当前聚类中所对应的检索结果。

在一个示例性实施例中，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，包括：分别确定所述检索数据集中的检索数据与所述聚类中心的第一距离，并将所述检索数据分发到所述第一距离最小的聚类中心所在的聚类中；

根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，包括：分别确定所述查询数据集中的查询数据与所述聚类中心的第二距离，并将所述查询数据分发到所述第二距离最小的一个或多个聚类中心所在的一个或多个聚类中。

在对检索数据集中的检索数据进行分库处理时，分别确定检索数据集中每个检索数据与每个聚类中心的距离，作为第一距离，分别确定与每个检索数据的第一距离最小的聚类中心，并将检索数据分发到第一距离最小的聚类中心所在的聚类中。在对查询数据集中的查询数据进行分库处理时，分别确定查询数据集中每个查询数据与每个聚类中心的距离，作为第二距离，确定与查询数据集中每个查询数据的第二距离最小的一个或多个聚类中心，并将查询数据分发到第二距离最小的一个或多个聚类中心所在的聚类中。其中，在将查询数据分发到一个或多个聚类中心所在的聚类中，可以基于配置的聚类数量来确定查询数据分发到聚类的数量，在配置的数量为一时，将查询数据分发到第二距离最小的一个聚类中心中，在配置的数量为多个时，将查询数据分发到第二距离最小的多个聚类中心中。

通过利用聚类的方式与train ivf mode方法相结合，将检索数据集和查询数据集分别分库，降低了建立索引和查询的数据规模，可以实现近似搜索。

在一个示例性实施例中，在每个聚类中分别根据索引检索查询数据所对应的检索结果，包括：在当前聚类中，根据所述当前聚类的索引获取所述当前聚类中的检索数据；分别确定分发到当前聚类的查询数据与每个检索数据的第三距离，并召回所述第三距离最小的预设数量的检索数据，作为所述分发到当前聚类的查询数据在当前聚类中所对应的检索结果。

对于查询数据集中的一个查询数据会被分发到一个或多个聚类中心所在的聚类中，在每个聚类中，针对分发到当前聚类的查询数据，根据当前聚类的索引确定当前聚类中的检索数据的标识，并基于检索数据的标识获取当前聚类中的检索数据，确定分发到当前聚类的查询数据与每个检索数据的距离，作为第三距离，并召回第三距离最小的预设数量的检索数据，即召回TopK个检索数据，这TopK个检索数据和对应的第三距离为对应的查询数据在当前聚类中所对应的检索结果。

通过在每个聚类中分别基于查询数据与检索数据的第三距离来获取查询数据的近似最近邻，可以获取到较为准确的检索结果。

在一个示例性实施例中，根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果，包括：在第三MapReduce任务的Map阶段，根据所述多个聚类中心，将查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中；在第三MapReduce任务的Reduce阶段，在每个聚类中分别根据索引检索查询数据所对应的检索结果。

通过第三MapReduce任务来对查询数据进行分库处理并进行索引，在第三MapReduce任务的Map阶段，根据多个聚类中心，确定与查询数据集中每个查询数据距离最小的一个或多个聚类中心，并标记查询数据的数据标识对应的一个或多个聚类中心的标签，根据查询数据的数据标识对应的一个或多个聚类中心的标签，将查询数据分发到一个或多个标签所对应的一个或多个Reduce设备中，在第三MapReduce任务的Reduce阶段，Reduce设备根据索引检索分发到当前设备中的查询数据所对应的检索结果，将查询数据对应的检索结果保存至HDFS中。通过MapReduce任务来对查询数据进行分库及进行检索，可以使用集群来进行分布式处理，提高处理速度，并满足海量数据的要求。

在步骤S14中，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果。

在将每个查询数据分发到一个聚类中时，查询数据在该聚类中的检索结果即为查询数据的检索结果，所有查询数据的检索结果组成查询数据集的检索结果。在将每个查询数据分发到多个聚类中时，对查询数据在多个聚类中的检索结果进行合并，得到查询数据的检索结果，所有查询数据的检索结果组成查询数据集的检索结果。

在一个示例性实施例中，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果，包括：

在将查询数据集中的一个查询数据分发到一个聚类中心所在的聚类中时，只需将每个查询数据在对应的聚类中所对应的检索结果作为查询数据的检索结果，所有查询数据的检索结果组成查询数据集的检索结果。在将查询数据集中的查询数据分发到多个聚类中心所在的聚类中时，对每个查询数据在多个聚类中所对应的检索结果进行合并，得到每个查询数据的检索结果，所有查询数据的检索结果组成查询数据集的检索结果。通过将查询数据分发到一个聚类中心所在的聚类中时，可以快速检索到查询数据的检索结果；通过将查询数据分发到多个聚类中心所在的聚类中时，可以检索到较为准确的检索结果。

在一个示例性实施例中，对所述查询数据集中每个查询数据在多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果，包括：对所述查询数据集中每个查询数据在多个聚类中所对应的检索数据进行合并；从合并后的检索数据中获取与每个查询数据的第三距离最小的预设数量的检索数据；根据每个查询数据与检索数据的第三距离，对每个查询数据所对应的预设数量的检索数据进行排序，得到查询数据集的检索结果。

在对每个查询数据在多个聚类中所对应的检索数据进行合并后，对第三距离最小的预设数量的检索数据进行排序，作为查询数据的检索结果，这样从多个聚类中可以检索到较为准确的检索结果，提高查询数据的检索结果的准确性。

在一个示例性实施例中，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果，包括：在第四MapReduce任务的Map阶段，获取查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果；在第四MapReduce任务的Reduce阶段，对查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果。

通过第四MapReduce任务来对查询数据对应的检索结果进行合并，在第四MapReduce任务的Map阶段，从HDFS中读取每个聚类中心索引的检索结果，在第四MapReduce任务的Reduce阶段，每个Reduce设备对同一查询数据所对应的检索结果进行合并，得到查询数据集的检索结果，即保存每个查询数据标识对应的检索数据标识和第三距离。通过MapReduce任务来对查询数据的检索结果进行合并，可以使用集群来进行分布式处理，提高处理速度，并满足海量数据的要求。

本公开通过离线检索可以避免了在线服务流程中需要制作索引、部署、扩容，查询、保存数据等复杂、较长、不易操作的流程，而且可以通过4个MapReduce任务将查询结果保存到HDFS上(或导入hive表里)，更加方便简洁。

本示例性实施例提供的数据检索方法，通过对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心，根据多个聚类中心，将检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个聚类中建立聚类中心与检索数据的索引，根据多个聚类中心将查询数据集中的查询数据分别分发到一个或多个聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果，根据查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定查询数据集的检索结果，由于对数据进行聚类后，可以分别将检索数据集和查询数据集分发到不同的聚类中，并基于每个聚类的索引分别进行检索，降低了建库和检索的数据规模，大大减少建库和检索过程中的内存和计算压力，可以减少查询时间，提高检索效率，节省计算资源。

图2是根据一示例性实施例示出的一种数据检索装置的框图。参照图2，该装置包括聚类模块21、检索数据分库模块22、查询数据检索模块23和检索结果确定模块24。

该聚类模块21被配置为执行对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；

该检索数据分库模块22被配置为执行根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引；

该查询数据检索模块23被配置为执行根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果；

该检索结果确定模块24被配置为执行根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果。

可选的，所述聚类模块包括：

可选的，所述抽样单元被配置为执行：

所述聚类单元被配置为执行：

可选的，所述检索数据分库模块包括：

所述查询数据检索模块包括：

可选的，所述查询数据检索模块包括：

可选的，所述检索结果确定模块包括：

可选的，所述第二检索结果确定单元被配置为执行：

可选的，所述检索数据分库模块被配置为执行：

可选的，所述查询数据检索模块被配置为执行：

可选的，所述检索结果确定模块被配置为执行：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图3是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备300可以被提供为一服务器或集群。参照图3，电子设备300包括处理组件322，其进一步包括一个或多个处理器，以及由存储器332所代表的存储器资源，用于存储可由处理组件322的执行的指令，例如应用程序。存储器332中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件322被配置为执行指令，以执行上述数据检索方法。

电子设备300还可以包括一个电源组件326被配置为执行电子设备300的电源管理，一个有线或无线网络接口350被配置为将电子设备300连接到网络，和一个输入输出(I/O)接口358。电子设备300可以操作基于存储在存储器332的操作***，例如WindowsServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器332，上述指令可由电子设备300的处理组件322执行以完成上述数据检索方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序或计算机指令，所述计算机程序或计算机指令被处理器执行时实现上述的数据检索方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据检索方法，其特征在于，包括：

对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；其中，所述查询数据集是待检索的数据的集合，所述检索数据集是用于检索查询数据集中每个查询数据的近似最近邻的数据集；

基于所述检索数据集中的检索数据与所述多个聚类中心的距离或相似度，将所述检索数据集中的所述检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引；

基于所述查询数据集中的查询数据与所述多个聚类中心的距离或相似度，将所述查询数据集中的所述查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索所述查询数据所对应的检索结果；

2.根据权利要求1所述的方法，其特征在于，对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心，包括：

对所述多个抽样数据进行聚类，得到多个聚类中心。

3.根据权利要求2所述的方法，其特征在于，对所述检索数据集或查询数据集中的数据进行随机抽样，得到多个抽样数据，包括：

对所述多个抽样数据进行聚类，得到多个聚类中心，包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述检索数据集中的检索数据与所述多个聚类中心的距离或相似度，将所述检索数据集中的所述检索数据分别分发到每个聚类中心所在的聚类中，包括：

所述基于所述查询数据集中的查询数据与所述多个聚类中心的距离或相似度，将所述查询数据集中的所述查询数据分别分发到一个或多个聚类中心所在的聚类中，包括：

5.根据权利要求1所述的方法，其特征在于，在每个聚类中分别根据索引检索所述查询数据所对应的检索结果，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果，包括：

7.根据权利要求6所述的方法，其特征在于，对所述查询数据集中每个查询数据在多个聚类中所对应的检索结果进行合并，得到所述查询数据集的检索结果，包括：

8.根据权利要求1所述的方法，其特征在于，根据所述多个聚类中心，将所述检索数据集中的检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引，包括：

9.根据权利要求1所述的方法，其特征在于，根据所述多个聚类中心，将所述查询数据集中的查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索查询数据所对应的检索结果，包括：

10.根据权利要求1所述的方法，其特征在于，根据所述查询数据集中每个查询数据在一个或多个聚类中所对应的检索结果，确定所述查询数据集的检索结果，包括：

11.一种数据检索装置，其特征在于，包括：

聚类模块，被配置为执行对检索数据集或查询数据集中的数据进行聚类，得到多个聚类中心；其中，所述查询数据集是待检索的数据的集合，所述检索数据集是用于检索查询数据集中每个查询数据的近似最近邻的数据集；

检索数据分库模块，被配置为执行基于所述检索数据集中的检索数据与所述多个聚类中心的距离或相似度，将所述检索数据集中的所述检索数据分别分发到每个聚类中心所在的聚类中，并在每个所述聚类中建立聚类中心与所述检索数据之间的索引；

查询数据检索模块，被配置为执行基于所述查询数据集中的查询数据与所述多个聚类中心的距离或相似度，将所述查询数据集中的所述查询数据分别分发到一个或多个所述聚类中心所在的聚类中，并在每个聚类中分别根据索引检索所述查询数据所对应的检索结果；

12.根据权利要求11所述的装置，其特征在于，所述聚类模块包括：

13.根据权利要求12所述的装置，其特征在于，所述抽样单元被配置为执行：

所述聚类单元被配置为执行：

14.根据权利要求11所述的装置，其特征在于，所述检索数据分库模块包括：

所述查询数据检索模块包括：

15.根据权利要求11所述的装置，其特征在于，所述查询数据检索模块包括：

16.根据权利要求15所述的装置，其特征在于，所述检索结果确定模块包括：

17.根据权利要求16所述的装置，其特征在于，所述第二检索结果确定单元被配置为执行：

18.根据权利要求11所述的装置，其特征在于，所述检索数据分库模块被配置为执行：

19.根据权利要求11所述的装置，其特征在于，所述查询数据检索模块被配置为执行：

20.根据权利要求11所述的装置，其特征在于，所述检索结果确定模块被配置为执行：

21.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至10任一项所述的数据检索方法。

22.一种计算机可读存储介质，其特征在于，当所述计算机存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至10任一项所述的数据检索方法。