CN108416027B

CN108416027B - 一种基于范围查询边界集的合并数据分片优化方法

Info

Publication number: CN108416027B
Application number: CN201810194425.9A
Authority: CN
Inventors: 葛微; 李先贤; 王金艳
Original assignee: Guangxi Normal University
Current assignee: Guangxi Normal University
Priority date: 2018-03-09
Filing date: 2018-03-09
Publication date: 2021-07-20
Anticipated expiration: 2038-03-09
Also published as: CN108416027A

Abstract

本发明公开了一种基于范围查询边界集的自底向上合并数据分片优化方法，其特征是，包括如下步骤：1)建立范围查询负载下的数据访问概率模型；2)用范围查询边界集初始化分片方案P；3)计算相邻两个数据片合并带来的代价偏差F_c；4)遍历代价偏差数组，找出最小代价偏差，合并这两个相邻数据片；5)更新步骤4)合并影响的代价偏差数组中的两个代价偏差值，重新计算F_c；6)跳转到步骤4)，循环执行数据片合并，直到达到数据最优分片数。这种方法地降低了数据的管理维护开销，得到了最优的数据查询代价，从而提高了查询效率。

Description

一种基于范围查询边界集的合并数据分片优化方法

技术领域

本发明涉及面向大数据上具有倾斜特性的范围查询负载下的数据分片优化技术，具体是一种基于范围查询边界集的自底向上合并数据分片优化方法。

背景技术

数据之间存在着关联关系，数据倾斜意味着数据的关联存在某种模式，找到并利用数据之间的关联模式是进行查询优化的有效方法。在倾斜的范围查询负载下，在数据的某个属性上，一些连续的记录经常被范围查询同时命中。从数据管理的角度看，经常被同时命中的记录可以被看作一个整体，用一份元数据标识，查询时整体地被读取或者被跳过，这样多条记录的管理和维护成本都可以大大降低。为了获得最优的范围查询性能，为数据划分切片的最优分片位置一定是在范围查询的边界上，因为从来没有被范围查询分割开的相邻数据理应被看作一个整体而存在于同一个数据片中。

发明内容

本发明的目的是针对现有技术的不足，为数据集提供一种高效的最优化分片方法。这种方法基于范围查询边界集为数据初始化分片，通过自底向上合并高效地实现数据的最优分片，从而能降低数据的管理维护开销、以及数据查询中的定位寻址代价和传输代价、提高查询效率。

实现本发明的目的的技术方案是：

一种基于范围查询边界集的自底向上合并数据分片优化方法，与现有技术不同的是，包括如下步骤：

1)建立范围查询负载下的数据访问概率模型：定义数据集上范围查询的所有边界组成的集合叫做范围查询边界集，在基于记录的数据组织方式下，一条数据记录的查询累积概率＝数据记录被查询负载访问的次数/总查询次数，在基于数据片的数据组织方式下，定义第k个数据片DS_k的长度为l_k，数据片DS_k上的查询累积概率为P_k，由于对数据片DS_k上任意记录的访问都体现为对数据片DS_k的访问，因此数据片DS_k查询累积概率 P_k取值为DS_k所含数据记录的查询累积概率的最大值，数据片DS_k上的查询代价表示为：

DS_k上的查询代价＝定位寻址代价+数据传输代价

＝磁盘每次定位寻址代价S×DS_k的查询累积概率P_k+数据片的长度l_k×每字节数据的传输代价×DS_k的查询累积概率P_k，由于数据分片后，可能存在查询“误命中”的情况，即片内部分数据不是查询结果集，但会被访问的情况，这就带来了额外的传输开销，定义这部分额外的传输开销叫做代价偏差，用F_c表示，数据的分片粒度越粗，则数据查询的定位寻址代价越小，而数据传输代价偏差越大，导致数据传输代价越大，反之亦然，数据的分片粒度越细，则数据查询的定位寻址代价越大，数据传输代价越小，也就是说，定位寻址代价和数据传输代价是两个互相制约的指标，因此在倾斜范围查询工作负载下，数据分片问题是一个最优化问题；

2)用范围查询边界集初始化分片方案P：假设范围查询边界集中有B个不同的元素，那么数据集被初始化成B-1个数据片；

3)计算相邻两个数据片合并带来的代价偏差F_c(DS₁，DS₂),F_C(DS₂,DS₃)…, F_c(DS_i-1，DS_i),F_c(DS_i，DS_i+1),…,F_c(DS_B-2，DS_B-1)；

4)遍历代价偏差数组，找出最小代价偏差，合并这两个相邻数据片：假设 F_c(DS_i，DS_i+1)是代价偏差中代价最小的，则合并数据片DS_i和DS_i+1，合并后数据片为： DS₁，…，DS_i，DS_i+2，…，DS_B-1；

5)更新步骤4)合并影响的代价偏差数组中的两个代价偏差值，重新计算F_c；如合并数据片DS_i和DS_i+1为新的DS_i的时候，需要重新计算F_c(DS_i-1，DS_i)和 F_c(DS_i+1，DS_i+2)；

6)跳转到步骤4)，循环执行数据片合并，直到达到数据最优分片数：代价偏差 F_c(DS_i，DS_i+1)的计算可以在常数时间内，即

内完成，循环第一轮需要执行B-1个代价偏差，以后每轮需要计算合并数据片相邻2个代价偏差，共需执行B-K轮直到剩余的数据片个数为K，总的计算代价为(B-1)+2(B-K)，其中B为范围查询边界集的基数， K是分片的数据片个数。

由步骤6)可知，总的计算代价为(B-1)+2(B-K)，忽略掉常数零头，本技术方案的方法的时间复杂度为

在倾斜范围查询工作负载下，数据分片应该尽量适应范围查询的访问模式，以降低数据传输代价偏差。数据分片的切片位置如果不在范围查询边界上，一定会带来无谓的传输代价偏差，因此，数据的最优分片切片位置一定落在范围查询边界上，基于这一结论，只在范围查询的边界点上寻找数据分片的切片位置，这就是基于范围查询边界集的数据分片优化方法，也就是技术方案步骤2)中首先用范围查询边界集来初始化数据分片的依据，然后迭代地合并相邻的数据片，每次合并都会选择产生最小代价偏差的相邻数据片合并。

这种方法地降低了数据的管理维护开销，得到了最优的数据查询代价，从而提高了查询效率。

附图说明

图1为实施例中的数据最优分片切片位置一定落在范围查询边界上的示意图。

具体实施方式

下面结合附图和实施例对本发明内容作进一步的阐述，但不是对本发明的限定。

实施例：

DS_k上的查询代价＝定位寻址代价+数据传输代价

评估本实施例方法的时间复杂度：由步骤6)可知，总的计算代价为 (B-1)+2(B-K)，忽略掉常数零头，算法的时间复杂度为

数据被划分成数据片后，数据片上的查询累积概率分布是对范围查询累积概率分布的拟合，这个拟合是有偏差的，称为拟合代价偏差，它增加了数据片上的范围查询代价，如图1所示，图1中的阴影部分面积就是数据分片带来的拟合代价偏差。

在面对倾斜范围查询需求时，需要感知范围查询的访问模式，并基于此为数据分片，将访问模式下关联性强的数据划分成一个数据片。这种基于关联感知的数据分片模型可以使得数据片在被范围查询访问时会被全部或大比率命中，降低数据的传输代价偏差，从而提高查询效率。

在倾斜范围查询工作负载下，数据分片应该尽量适应范围查询的访问模式，以降低数据查询中的传输代价偏差，最小化数据集上的范围查询代价，获得最优的查询性能，为了降低DS_k的查询累积概率P_k，数据的最优分片切片位置一定落在范围查询边界上，如图1所示，数据分片的切片位置如果不落在范围查询边界上，例如b′₂，那么[b′₂，b₂]之间的数据被分到DS₃数据片中，[b′₂，b₂]之间的数据的查询累积概率增加，查询代价增加，因此，切片位置落在范围查询边界上的数据分片方案，数据片的查询累积概率分布和数据集上的查询负载概率分布拟合的最好。

本例提出的方法旨在最小化拟合代价偏差，以最优化数据集上的范围查询性能。

本实施例首先将数据集初始化为若干个数据片，然后迭代地合并相邻的数据片，每次合并都会选择产生最小代价偏差的相邻数据片合并。

Claims

1.一种基于范围查询边界集的自底向上合并数据分片优化方法，其特征是，包括如下步骤：

1)建立范围查询负载下的数据访问概率模型：定义数据集上范围查询的所有边界组成的集合叫做范围查询边界集，在基于记录的数据组织方式下，一条数据记录的查询累积概率＝数据记录被查询负载访问的次数/总查询次数，在基于数据片的数据组织方式下，定义第k个数据片DS_k的长度为l_k，数据片DS_k上的查询累积概率为P_k，数据片DS_k查询累积概率P_k取值为DS_k所含数据记录的查询累积概率的最大值，数据片DS_k上的查询代价表示为：

DS_k上的查询代价＝定位寻址代价+数据传输代价

＝磁盘每次定位寻址代价S×DS_k的查询累积概率P_k+数据片的长度l_k×每字节数据的传输代价×DS_k的查询累积概率P_k，数据分片后，存在查询“误命中”的情况，即片内部分数据不是查询结果集，但会被访问的情况，带来了额外的传输开销，定义这部分额外的传输开销叫做代价偏差，用F_c表示；

3)计算相邻两个数据片合并带来的代价偏差F_c(DS₁，DS₂)，F_c(DS₂，DS₃)…，F_c(DS_i-1，DS_i)，F_c(DS_i，DS_i+1)，…，F_c(DS_B-2，DS_B-1)；

4)遍历代价偏差数组，找出最小代价偏差，合并这两个相邻数据片：假设F_c(DS_i，DS_i+1)是代价偏差中代价最小的，则合并数据片DS_i和DS_i+1，合并后数据片为：DS₁，…，DS_i，DS_i+2，…，DS_B-1；

5)更新步骤4)合并影响的代价偏差数组中的两个代价偏差值，重新计算F_c；

6)跳转到步骤4)，循环执行数据片合并，直到达到数据最优分片数：代价偏差F_c(DS_i，DS_i+1)的计算在常数时间内，即

内完成，循环第一轮需要执行B-1个代价偏差，以后每轮需要计算合并数据片相邻2个代价偏差，共需执行B-K轮直到剩余的数据片个数为K，总的计算代价为(B-1)+2(B-K)，其中B为范围查询边界集的基数，K是分片的数据片个数。