CN116028500A

CN116028500A - 一种基于高维数据的范围查询索引方法

Info

Publication number: CN116028500A
Application number: CN202310060522.XA
Authority: CN
Inventors: 黎玲利; 孙文静
Original assignee: Heilongjiang University
Current assignee: Heilongjiang University
Priority date: 2023-01-17
Filing date: 2023-01-17
Publication date: 2023-04-28
Anticipated expiration: 2043-01-17
Also published as: CN116028500B

Abstract

一种基于高维数据的范围查询索引方法，涉及数据库相似性搜索技术领域，针对现有技术中索引方法应用在高维数据时，存在准确率低的问题，本发明在各种数据集(大规模、高维度的真实数据集；不同类型的合成数据集)上，都可以实现快速高效的范围查询。整个查询框架进行了优化，达到了效率和精度的平衡；并且实现了自动调整参数，更能满足客户的多样性需求。本申请可以在高维数据上进行高效、准确查询，使范围查询更有效率(查询时间短)且准确(精确度高)，本申请通过采用PCA方法进行数据预处理，避免了维度灾难问题，并且将数据按照特征进行分类。并且本申请通过在不同分块上构建最佳索引，合理应用数据特征以及索引本身特点，最大化方法效率。

Description

一种基于高维数据的范围查询索引方法

技术领域

本发明涉及数据库相似性搜索技术领域，具体为一种基于高维数据的范围查询索引方法。

背景技术

在当今社会中，众所周知数据无处不在，它出现在现实生活中的各个领域。处于大空间数据时代，每天都会产生万亿字节的多维数据。对这些规模庞大的高维数据，我们要对其进行分析处理使其发挥价值。相似性搜索就是其中关键一步。相似性搜索目的是寻找与给定对象相似的对象。而范围查询是相似性搜索领域核心部分之一。给定查询对象集合

其中

距离阈值τ，距离函数dist(.,.)，范围查询的任务是返回数据集D中所有距离查询q在给定距离阈值τ内的查询对象。它对文本搜索、图像搜索、产品推荐等都很重要。

目前解决当前相似性搜索问题的方法有传统的精确查询方法，例如EPT、GANT、LC、M-Tree等；近似查询方法，例如属于图结构的HNSW、HVS方法，属于量化的VAQ、PQ方法，属于哈希的OASIS、SAS方法，属于学习索引的LIMS、ZM-index以及LISA等。

随着数据规模的增大，现有的一些方法(例如LC等)索引构建时间非常长，还有一些方法(例如M-tree等)查询时间很长，计算成本很高；并且随着数据的维度越来越高，有的方法在低维数据上非常有效的方法，应用到高维数据，就会不是那么准确了。使用深度学习方法的学习索引尽管大幅度减少了查询时间，但存在一个很大的问题是精度会有损失，很难保证。

发明内容

本发明的目的是：针对现有技术中索引方法应用在高维数据时，存在准确率低的问题，提出一种基于高维数据的范围查询索引方法。

本发明为了解决上述技术问题采取的技术方案是：

一种基于高维数据的范围查询索引方法，包括以下步骤：

步骤一：对数据库中的数据进行降维处理，所述数据为高维数据；

步骤二：基于降维处理后的数据，将降到相同维度的数据作为一类，并将类按升序排列，然后对排序后的所有类进行合并分块，合并分块策略为：

每个块内包含的不同维度的数量相同，每个块内不同维度的数量为1-10个；

步骤三：在每个分块内根据数据分布情况随机均匀选取多个数据，并利用多种索引分别对选取的数据进行查询，然后记录查询时间，在多种索引中选取最优索引作为每个分块的索引，之后在每个分块内确定最高维度，并将分块内其余维度调整至最高维度；

步骤四：在数据库中抽取符合均匀分布的多个数据，并在抽取的数据上增加噪声，将多个包含噪声的数据作为查询工作负载Q，在所述查询工作负载Q中，每个数据为一个查询q；

步骤五：针对每个查询q，在数据库中，利用M-tree做距离阈值τ的第一范围查询，所述第一范围查询具体为：

以查询q为中心点，以阈值τ为半径，得到一个超球体，所述超球体内包含的数据即为标签；

步骤六：针对每个查询q，在数据库中，做距离阈值τ的第二范围查询，所述第二范围查询具体为：

针对查询q进行降维，得到查询q'，然后确定查询q'所在的分块B，并使查询q'的维度与分块B的维度相同，在该分块中以查询q'为中心，以阈值τ为半径，得到一个候选点集，并将候选点集中的数据以及查询q'恢复到原来的维度，得到恢复数据和查询q”，然后分别计算每个恢复数据与查询q”的欧式距离，若不大于距离阈值τ，则将该恢复数据作为答案集中的数据，计算完所有恢复数据与查询q”的距离，得到答案集；

步骤七：将第一范围查询与第二范围查询进行比对，确定答案集中的数据与标签是否一一对应，若存在不对应，则基于第二范围查询中的分块B进行左右跨块搜索，直至不存在不对应为止，即完成查询；

所述基于第二范围查询中的分块B进行左右跨块搜索的具体步骤为：

步骤七一：以分块B为中心，向左和向右分别选取一个块，然后使左侧块内数据的维度与查询q'的维度相同，之后使查询q'的维度与右侧块的维度相同；

步骤七二：若仍存在不对应，则令步骤七一中向左和向右分别选取的块数加一，然后使左侧所有块内数据的维度与查询q'的维度相同，之后使查询q'的维度与最右侧块的维度相同；

步骤七三：重复步骤七二进行迭代，直至不存在不对应为止。

进一步的，所述步骤六和步骤七替换为：

针对每个查询q进行降维，得到查询q'，然后确定查询q'所需要查找的分块B，在该分块中以查询q'为中心，以阈值τ为半径，得到一个候选点集，并将候选点集中的数据以及查询q'恢复到原来的维度，得到恢复数据和查询q”，然后分别计算每个恢复数据与查询q”的欧式距离，若不大于距离阈值τ，则将该恢复数据作为答案集中的数据，计算完所有恢复数据与查询q”的距离，得到答案集；

步骤七：将答案集中的数据与标签进行比对计算，得到召回率，确定该召回率是否满足召回率R，若满足则停止，若不满足，则基于第二范围查询中的分块B进行左右跨块搜索，直至满足召回率R；

所述召回率R通过以下步骤得到：

步骤1：设置召回率下限值，然后以横轴为召回率，以纵轴为时间，构建坐标系，所述召回率为答案集中数据的数量与标签的数量的比值；

步骤2：根据构建的坐标系，获取时间-召回率的曲线，当曲线出现拐点时，且该拐点所对应的召回率大于召回率下限值，则该拐点对应的召回率为召回率R；

进一步的，所述数据为enron数据。

进一步的，所述降维处理采用PCA，即主成分分析进行。

进一步的，所述降维处理中降低的维度为误差ε内的最大维度；

所述误差ε为原数据与降维后又恢复到原来维度的重构数据之间的欧式距离差值。

进一步的，所述每个块内包含的维度数量的初始值为2或4。

进一步的，所述多种现有索引包括：GNAT、EPT和M-tree。

进一步的，所述步骤三中在每个分块内根据数据分布情况随机均匀选取的多个数据为100个。

进一步的，所述步骤四中在现有数据库中抽取符合均匀分布的多个数据为1000个。

进一步的，所述召回率下限值为95％。

本发明的有益效果是：

本发明在各种数据集(大规模、高维度的真实数据集；不同类型的合成数据集)上，都可以实现快速高效的范围查询。整个查询框架进行了优化，达到了效率和精度的平衡；并且实现了自动调整参数，更能满足客户的多样性需求。

本申请可以在高维数据上进行高效、准确查询，使范围查询更有效率(查询时间短)且准确(精确度高)，本申请通过采用PCA方法进行数据预处理，避免了维度灾难问题，并且将数据按照特征进行分类。并且本申请通过在不同分块上构建最佳索引，合理应用数据特征以及索引本身特点，最大化方法效率。

附图说明

图1为索引构建部分示意图；

图2为查询处理部分示意图。

具体实施方式

需要特别说明的是，在不冲突的情况下，本申请公开的各个实施方式之间可以相互组合。

具体实施方式一：参照图1具体说明本实施方式，本实施方式所述的一种基于高维数据的范围查询索引方法，包括：

步骤一：对现有数据库中的数据(enron数据集，1369维)进行预处理，降维处理，在高维数据上进行范围查询具有非常大的挑战性。比如许多对低维数据有效的方法，随着维数的增加，准确性明显下降；并且在对高维数据进行处理运用时，其运算量以及所用时间都是巨大的。所以对数据集中原始数据进行预处理是很有必要的。

本申请的难点是数据是高维的，一种直观的想法就是对数据进行降维处理，将原本较高维度的数据，在尽量不损失数据信息和数据之间关系的基础上，降低到一个较低的维度，以便本申请进行后续的处理。这里本申请采用PCA的方法，即主成分分析。将数据

降维成

对于数据集中每个数据点所降低到的维度的确定，本申请根据误差ε来确定。误差ε内的最大维度，误差ε为36；

其中，误差ε指原数据与降维后又恢复到原来维度的重构数据之间的距离差值。可以认为对于距离很近的点对，其降低的维度一样。

步骤二：确定分块策略。

经过对数据的预处理，将原始数据降到了不同维度。本申请这里简单的将每个维度称为一类，规模为根据给定误差降到该维度的数据点数量。由此得到维度从小到大的若干类。

在此基础上，本申请对类进行合并分块。分块策略为每个块内包含的维度数量相同，每个块内包含的维度数量的初始值为1-10(最优值为2或4)；

因为此时降落在不同维度上的数据点具有不同的特征，本申请需要对其进行细粒度的分析，在其上建立最符合自身特征的索引结构；有利于剪枝操作，便于筛掉与所给查询q差异很大的数据点，减少了计算量，从而提高了查询效率。

在分区时，本申请考虑分块策略要尽可能降低查询成本，并且保证查询精度。因为在同一维度上的数据具有相同特征的，那么本申请认为相近维度上的数据点特征相似，比较适合构建同一种索引。本申请使每个分块内包含维度大致相同，对于每个分块内所包含维度上的所有数据点构建同一种索引，以实现性能的平衡。在此分块下，在具体查询时，想要跨块较少，从而减少计算距离的时间；但也要保证查询精度。因此，本申请应该同时优化两个目标：(1)最大化查询精度(recall)；(2)最小化查询时间(t)。

步骤三：索引的构建。

在每个分块内根据数据分布情况随机均匀选择100个数据，并利用GNAT、EPT以及M-tree分别对100个数据进行查询，根据查询时间选择最优索引；在每个分块内，确定最高维度，并将其余维度调整至最高维度；

每种索引所适用的情况不一样，有的索引对维度比较敏感，而有的索引对于数据规模又比较敏感。本申请结合每个分块内不同维度下的数据特征，以及分块规模，对现有备选索引(GNAT、EPT以及M-tree)进行选择，使查询效率最大化。每个分区上的数据点以其上最高维度作为代表，统一将分区内数据点重构为该分区最高维度。

步骤四：查询处理。

在现有数据库中抽取符合均匀分布的1000个数据，在数据上增加噪声(为了区分于现有数据)，将1000个包含噪声的数据作为查询工作负载Q，在所述查询工作负载Q中，每个数据为一个查询q；

利用M-tree做查询工作负载为1000个数据分布为均匀分布，距离阈值τ为54的范围查询(设置一个阈值τ，所述距离阈值τ为54，然后以查询q为中心点，以阈值τ为半径，得到一个超球体，所述超球体内包含的数据即为标签；

所述范围查询可以通过以下两个技术方案实现：

P1：以查询q为中心点，以阈值τ为半径，得到一个超球体，所述超球体内包含的数据即为标签，之后，针对查询q进行降维，得到查询q'，然后确定查询q'所需要查找的分块B，在该分块中以查询q'为中心，以阈值τ为半径，得到一个候选点集，并将候选点集中的数据以及查询q'恢复到原来的维度，得到恢复数据和查询q”，然后分别计算每个恢复数据与查询q”的距离，若不大于距离阈值τ，则将该恢复数据作为答案集中的数据，计算完所有恢复数据与查询q”的距离，得到答案集；之后确定答案集中的数据与标签是否一一对应，若存在不对应，则基于分块B进行左右跨块搜索，直至不存在不对应为止。

P2：以查询q为中心点，以阈值τ为半径，得到一个超球体，所述超球体内包含的数据即为标签，之后，针对每个查询q进行降维，得到查询q'，然后确定查询q'所需要查找的分块B，在该分块中以查询q'为中心，以阈值τ为半径，得到一个候选点集，并将候选点集中的数据以及查询q'恢复到原来的维度，得到恢复数据和查询q”，然后分别计算每个恢复数据与查询q”的距离，若不大于距离阈值τ，则将该恢复数据作为答案集中的数据，计算完所有恢复数据与查询q”的距离，得到答案集，之后将答案集中的数据与标签进行比对计算，得到召回率，确定该召回率是否满足召回率R，若满足则停止，若不满足，则基于分块B进行左右跨块搜索，直至满足召回率R；

所述召回率R通过以下步骤得到：

步骤2：根据构建的坐标系，获取时间-召回率的曲线，当曲线出现拐点时，且该拐点所对应的召回率大于召回率下限值，则该拐点对应的召回率为召回率R。

范围查询将构建的索引Forest、查询对象q、阈值τ作为输入，返回数据集D中距离查询q在τ范围内所有的数据点。简单来说，查询分为两个步骤：1)通过在索引上查找，确定分块，以此进一步确定候选点集；2)通过计算与查询之间的距离来确定距离查询在给定距离阈值范围内的所有数据点。

确定候选点集，本申请首先要确定目标点所在的分块，即与查询范围有相交的分块。对于查询对象q，本申请同样也对其进行降维处理。根据索引构建阶段确定的误差ε，将q转换成q'，q'对应维度为tq。本申请有了tq即可确定查询点q落在了哪个分块中。以该分块为中心，左右跨块搜索。左右跨块后涉及的块的数量为sum_B＝1+2Δb(b为向左或向右跨的块数)。对于与查询范围相交的分块，本申请继续对其进行查询，确定候选集。此时候选集内数据点为降维后数据点，非原数据点。

对于候选集内数据点，本申请进行一次筛选操作。降维后的点对距离dist_pac小于原数据点之间的距离dist。计算候选集内数据点与查询点间距离dist_pac,若dist_pca<τ-2ε，为查询结果；否则将降维后数据点进行还原操作，计算原数据点对间距离dist，若dist<τ，为查询结果。

需要注意的是，具体实施方式仅仅是对本发明技术方案的解释和说明，不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的，仍应落入本发明的保护范围内。

Claims

1.一种基于高维数据的范围查询索引方法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种基于高维数据的范围查询索引方法，其特征在于所述步骤六和步骤七替换为：

所述召回率R通过以下步骤得到：

3.根据权利要求1或2所述的一种基于高维数据的范围查询索引方法，其特征在于所述数据为enron数据。

4.根据权利要求3所述的一种基于高维数据的范围查询索引方法，其特征在于所述降维处理采用PCA，即主成分分析进行。

5.根据权利要求4所述的一种基于高维数据的范围查询索引方法，其特征在于所述降维处理中降低的维度为误差ε内的最大维度；

6.根据权利要求5所述的一种基于高维数据的范围查询索引方法，其特征在于所述每个块内包含的维度数量的初始值为2或4。

7.根据权利要求6所述的一种基于高维数据的范围查询索引方法，其特征在于所述多种索引包括：GNAT、EPT和M-tree。

8.根据权利要求7所述的一种基于高维数据的范围查询索引方法，其特征在于所述步骤三中在每个分块内根据数据分布情况随机均匀选取的多个数据为100个。

9.根据权利要求8所述的一种基于高维数据的范围查询索引方法，其特征在于所述步骤四中在数据库中抽取符合均匀分布的多个数据为1000个。

10.根据权利要求9所述的一种基于高维数据的范围查询索引方法，其特征在于所述召回率下限值为95％。