CN102722531B

CN102722531B - 一种云环境中基于分片位图索引的查询方法

Info

Publication number: CN102722531B
Application number: CN201210155253.7A
Authority: CN
Inventors: 孟必平; 王腾蛟; 李红燕; 高军; 杨冬青; 唐世渭
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2012-05-17
Filing date: 2012-05-17
Publication date: 2014-04-16
Anticipated expiration: 2032-05-17
Also published as: CN102722531A

Abstract

本发明提出一种云环境中基于分片位图索引的查询方法，1）建立分片位图索引，1.1）对云环境中数据表上的索引属性进行值域划分，生成属性值的全局排序表，全局排序表对元组用设定的规则排序；1.2）根据值域划分结果建立每个数据节点上的指示位图，指示位图记录局部属性值存储情况；1.3)根据云环境构架在各数据节点上建立局部位图索引，完成分片位图索引的创建；2）输入查询条件，主节点根据查询条件建立条件位图，并分发至各个数据节点，条件位图覆盖查询条件所包含所有可能；各数据节点并发执行检索任务，主节点收集各个数据节点的查询结果，并向用户返回各数据节点上查询结果的并集。通过建立分片位图索引可以充分利用了云环境中的可配置的并行计算资源，能够为以比较大小为条件的数据查询请求提供快速响应。

Description

一种云环境中基于分片位图索引的查询方法

技术领域

本发明属于信息技术领域，涉及一种云环境中的分布式位图索引方法以及利用该方法对数据进行查询。

背景技术

云计算环境以及数据管理

云计算技术的快速发展为海量数据的存储和管理提供了可能。相比传统的单机计算环境，云环境可以有效地利用分布式集群的庞大计算资源来满足海量数据管理对计算资源和存储资源的需求，并且拥有易于维护、易于扩展和易于管理等优良特性。面对数据量的快速增长，云计算技术能够快速调整并分配所需资源以适应数据的疯狂膨胀；同时能够为非机构化数据提供具有弹性的、松散组织的存储模式以及建立在这种存储模式之上的分布式并行计算资源。随着网络时代数据的迅速膨胀，管理大规模数据成为了一个非常迫切的需求。云环境在计算资源与存储资源方面的优势使其具备了存储和管理大规模数据的能力。

位图索引

位图索引是一种使用位图的特殊的数据库索引技术。在位图索引中，位图中每个位的取值为0或1，表示对应的元组在是否在被索引属性上取得某项给定的取值。因此位图的长度等于元组总数。属性A上的位图索引将为该属性上所有可能的取值建立一个位图，用以指示各元组在该属性上的取值情况。如果属性A上可能的取值较多，将产生较多个位图。在这种情况下，可以使用B⁺树来组织这些位图。B⁺树可以保证快速定位所欲查找的位图。位图索引的优势在于，可以利用传统计算机高效的按位逻辑操作来快速处理复合的查询条件。例如，将在属性A₁上检索得到的位图和在属性A₂上检索得到的位图执行逻辑按位与即可得到同时满足这两个属性上的查询条件的结果。

云环境中索引的集中式管理方案

在集中式方案中，被索引字段上的所有值被全局排序并集中管理。具体而言，每条记录对应的索引项将包含被索引的字段的值以及该记录对应的主键值。在索引结构中，这些索引项按照被索引字段的值全局排序。***处理被索引字段上的查询请求的过程分为两个步骤。首先在全局排序的索引结构中找到符合条件的索引项，从而得知相应记录的主键值。然后，依据主键值访问聚集索引从而定位完整的记录。

集中式方案的最大挑战莫过于全局排序了的索引项的管理。一个最直接的方法是将这些索引项如同其他一般数据一样分布式的存储在数据管理***中。以开源项目HBase中的主键检索机制为例，图1展示了集中式方案中索引结构的构成与访问方式，其中根表记录了目标元组应当对应于哪一个元数据表，而元数据表则记录了目标元组在数据表中真实的位置。检索过程中，首先通过第1,2,3步获得目标元组所对应的主键值，然后经过第5,6,7步根据主键值找到目标元组。通过这种方式，庞大的索引结构也可以享受到海量数据管理***提供的可靠性、可扩展性和易管理性。但是，整个访问过程中的每一个步骤仅有一个单独的数据节点参与完成，这并没有有效利用分布式计算资源带来的优势。从而，查询的响应时间将会非常长。

云环境中索引的分布式管理方案

在分布式方案中，各数据节点上独立建立各自管理的局部数据上的索引。分布式方案没有维护索引值的全局排序，而是将其局部化到每个单独的数据节点上。从而，数据节点相互之间不存在依赖关系，这为查询请求的并发执行带来了便利。当被索引键值上的查询请求到达时，检索任务将被分发到所有的数据节点上并以并发方式执行，最终的查询结果是所有数据节点上返回结果的并集。每个数据节点上数据的索引将被独立维护，因此其局部的索引结构具有很强的灵活性：各节点使用的索引技术可以是同构的，例如均使用B⁺树索引；也可以使异构的，例如有的节点上使用B⁺树索引，而其他的节点上则使用位图索引等等。异构的局部索引允许各数据节点依据自身的计算资源来选择所使用的索引技术，例如，主存资源不充足的节点可以使用B⁺树索引并仅在主存中维护B⁺树靠近根部两层的节点。而CPU计算能力较差的节点则可以使用位图索引，从而利用位图上的逻辑操作来降低计算量。图2展示了分布式方案中索引结构的构成与访问方式。

通过这种方式，索引结构依附于数据本身而被分散到各个节点中。节点之间具有独立性。检索任务也分配到各节点中独立执行，从而，并行计算资源得到很好地利用。但是，特别以最常用到的等值条件为代表，由于绝大多数检索任务的目标记录数量很少，在分布式集群中并行地执行该任务往往造成很多未存储任何目标记录的数据节点也触发了检索过程，而最终将返回空集。在检索任务频繁的情况下，这一并行执行过程将会耗费大量的不必要的计算资源，最终将会降低***的吞吐量。

发明内容

本发明的目的在于提供一种云环境中的分布式位图索引方法——分片位图索引（Regional Bitmap Index，RBI）以及利用该方法对大规模数据进行高效查询。本发明吸取了集中式索引方案和分布式索引方案中各自的优点，提出分片位图索引结构通过属性值的全局排序机制而建立指示位图使得各数据节点可以了解局部数据在全局数据中的分布情况；通过将索引结构局部化，使得数据节点之间尽可能相互独立从而便于并行检索的实施。本发明中的方法充分利用了云环境中的并行计算资源显著提高的查询的响应时间，同时各数据节点利用值域上的数值分布信息避免了在大量无命中的数据节点中进行检索而引起的不必要的计算代价和开销，从而查询吞吐量也获得了提高。

本发明提出一种云环境中基于分片位图索引的查询方法，其步骤包括：

1）建立分片位图索引，

1.1）对云环境中每个元组的属性值进行值域划分，生成属性值的全局排序表，所述全局排序表对元组用设定的规则排序；

1.2）根据值域划分结果，在每个分布式数据节点上建立指示位图，所述指示位图记录局部属性值存储情况；

1.3)根据云环境构架在各分布式数据节点上建立局部位图索引，完成分片位图索引的创建；

2）输入查询条件，主节点根据查询条件建立条件位图，并分发至各个数据节点，所述条件位图覆盖查询条件所包含所有可能；各数据节点并发执行检索任务，主节点收集各个数据节点的查询结果，并向用户返回各数据节点上查询结果的并集。

用长为的位串表示每个元组，其中，元组的属性i的值域被切割为c_i个子域，f是参与切割的属性的个数，1≤i≤f。

所述c_i个子域构成集合C_i，并用笛卡尔积Des_1...f=C₁×C₂×C₃×…C_f表示，所述笛卡尔积的大小为：

B = Π_{i = 1}^{f} c_{i} .

所述位串进行全局排序，得到的排序值与任意元组在被查询字段上的取值唯一对应，所述元组对应位串的所有可能取值按照从小到大的顺序排序。

所述指示位图的长度等于该元组属性值域被划分子域的个数，与笛卡尔积的大小B相同。

步骤3)中建立位图索引的方法是：对该节点上存在的元组所对应的位串的全局排序值建立B⁺树，树的叶节点中的每一个键对应于一个排序值；为B⁺树的叶子节点上的各个键附加一个长度为本数据节点所管理的元组总数的位图作为相应排序值所对应的元组位图。

当查询条件为单个查询条件时，

a)各计算节点分别将条件位图拆分为属性笛卡尔积内的元素所对应的位串，并将拆分得到的位串转换为相应的排序值建立一目标排序值集合；

b)生成长度等于B的全0位串cb，并将属于目标排序值集合内的位置为1；

c)检查逻辑按位与eb&cb的计算结果是否为0，其中eb表示该计算节点上的指示位图，cb是元组位串；

d)如果为0则在该计算节点上直接返回空集作为计算结果；

e)否则，搜索该计算节点的局部B⁺树并找到对应的叶子节点及其上附着的元组位图，一一检查元组位图中被置为1的位所对应的元组是否满足条件。

当查询条件为多个查询条件时，

ⅰ)依照单个查询条件情况执行查询；

ⅱ)将步骤ⅰ)中各查询条件的查询结果按照原查询中条件的复合方式执行相应的按位逻辑操作，一一检查计算结果中被置为1的位所对应的元组是否满足条件；

ⅲ)最后向主节点返回所有满足条件的结果作为查询结果。

条件位图是元组属性位串笛卡尔积内符合条件的元素所对应的位串的逻辑按位与。

查询请求到达分布式数据节点时，通过比对指示位图来确定本数据节点是否包含目标元组，如果不存在，则直接返回空值作为该数据节点的查询结果，而无需执行检索任务。本发明的有益效果在于：

本发明在分析对比集中式方案与分布式方案的差异基础上设计出了结合二者优势的索引机制。该方法可以充分利用了云环境中的可配置的并行计算资源，能够为以比较大小为条件的数据查询请求提供快速相应。得益于指示位图的使用，本发明有效地避免了不必要的计算资源开销。本发明被部署于云环境中，面对大规模数据，本发明提供的检索方法具有良好的可扩展性。

附图说明

图1是现有技术中的集中式方案示意图；

图2是现有技术中的分布式方案示意图；

图3是本发明云环境中基于分片位图索引的查询方法在响应时间方面与现有技术检索方法的比较示意图；

图4是本发明云环境中基于分片位图索引的查询方法在查询吞吐量方面与现有技术检索方法的比较示意图；

图5是本发明云环境中基于分片位图索引的查询方法一实施例中在某数据节点上的元组及其位串值与排序值；

图6是本发明云环境中基于分片位图索引的查询方法一实施例中的局部B⁺树结构以及元组位图的示意图；

图7是本发明云环境中基于分片位图索引的查询方法查询步骤流程图。

具体实施方式

在一个具有4.5亿条元组，大小为52GB的记录Twitter微博转发关系的数据集上进行实验的结果表明，本发明中提出的索引方法在响应时间和查询吞吐量上均具有良好的表现。图3和图4列出了集中式方案索引的基本实现（Global Approach，GA），分布式方案索引的基本实现（DistributedApproach，DA）与本方法提出的分片位图索引（Regional Bitmap Index，RBI）的对比实验结果。实验使用了由4台机器构成的一个分布式集群作为实验环境。

以下结合附图7详细介绍本发明提出的分片位图索引的构建过程中的各个步骤：

首先，生成数据在被索引属性上的值进行全局排序表。全局排序表的生成方法如下：

1.在数值属性为A₁，A₂，A₃，...，A_f共f个数据列上建立位图索引；首先将各属性A₁的值域切割为c_i个子域（如果属性取值为离散值，则可将每一个取值单独划分为一个子域），设这些子域构成的集合为C_i，那么子域的笛卡尔积Des_1...f=C₁×C₂×C₃×…C_f的大小为：

2.使用一个长为

的位串来表示每个元组，其中c_i是值域集合的大小。设元组t的属性A_i的第j个子域对应的位为b_i，j，那么规定该元组所对应的位串可为：

3.给定任意元组t所对应的位串，

有且仅有唯一的一个i∈[1,c_i]使得b_i，j＝1。因此该位串的所有可能取值可一一对应于上述子域笛卡尔积Des_1...f中的元素。从而，任意元组所对应的位串将拥有

个可能的取值。同一张数据表中的不同的元组拥有相同的表模式，表模式决定了表所拥有的属性，在给定属性列及其上的子域划分的情况下，将元组对应的位串的所有可能取值按照从小到大的顺序排序。位串的所有可能的取值均一一对应到一个排序值r∈[1,B]上。这样，任意元组在被检测的数据字段上的取值均对应于一个唯一的排序值r。至此，完成了对所有元组上的索引值的全局排序。

下面以为某公司员工信息表中的两个属性建立组合索引为例，介绍从元组生成对应的位串，进而计算对应的排序值的过程。

例1：给定某公司的员工信息表，设该表属性A₁指示员工性别，包含男male和女female两个取值；属性A₂记录员工薪水，取值为[0，3000]范围内的整数。首先，属性A₁的值域被分割为两个子域，分别仅包括取值男male和女female；属性A₂的值域被分割为三个子域：[0，1000]，(1000,2000]和(2000，3000]。考虑员工1，设其性别为男性，薪水为1300，那么该员工1对应的位串为：‘10010’。其中前两位‘10’表示属性A₁上取值为male，后三位‘010’表示其薪水在范围(1000,2000]内。再考虑员工2，设其性别为女性，薪水为2600，那么该员工对应的位串为：‘01001’。其中前两位‘01’表示属性A₁上取值为male，后三位‘001’表示其薪水在范围(2000，3000]内。根据以上对属性值域的划分，可知属性子域的笛卡尔积的大小为B=2×3=6。任意元组所对应的位串可能的取值有6个，将其按照从小到大的顺序排列可得：‘01001’，‘01010’，‘01100’，‘10001’，‘10010’以及‘10100’。对比可知，员工1对应的位串排在第5位，而员工2对应的位串排在第1位。因此，员工1和员工2对应的位串的排序值分别为5和1。

接下来，在各数据节点分别生成指示位图。指示位图是一个长度为子域笛卡尔积的大小B的位串。如果该数据节点上存在排序值为r的元组，则该数据节点上指示位图的第r位为1，如果该数据节点上不存在排序值为r的元组（大于或小于r元组），则该数据节点上指示位图的第r位为0。指示位图反映了局部数据在属性的整体值域中的分布情况。它将被存储于数据节点的内存中。

例2：关于员工信息表的假设同例1。如图5所示，设该表在某个数据节点上共有7条记录。由于B=6，因此该数据节点上的指示位图长度为6。又由于该数据节点仅包含排序值为1、3、4和5的元组，因此其指示位图应为：101110。

指示位图记录了局部属性值的存在情况。查询请求到达分布式数据节点时，首先通过比对指示位图来确定本数据节点是否包含目标元组，如果不存在，则直接返回空值，而不执行检索任务。对指示位图的比对通过位串的按位逻辑与操作来完成。

例3：关于员工信息表的假设同例1。如图5所示，设该表在某个数据节点上共有7条记录。由例3可知其指示位图为101110。假设用户发出了查询性别为女性且薪水范围在(1000,2000]内的员工，据此可生成目标记录的对应的位串为01010，其排序值为2。从而，构造位串01000与存在101110进行逻辑按位与：01000&101110=0，结果为全零，因此该节点上不存在目标元组，可直接返回空集作为本节点的查询结果。

最后，在各数据节点为局部管理的数据建立位图索引。

类似于前文所述分布式方案，本方法同样采用数据节点独立管理局部数据上的索引的方式，以便提高执行检索时的并行度。在每个数据节点上，并行执行以下步骤：

1.对该节点上存在的元组所对应的位串的全局排序值建立B⁺树，树的每个叶节点对应于一个排序值。B⁺树的构建过程如Goetz Graefe and Harumi A.Kuno.Modern B-Tree techniques.（In ICDE，pages 1370-1373，2011.）中所述。

2.为B⁺树的各个叶子节点附加一个长度为本数据节点所管理的元组总数的位图作为该叶子节点对应的数据。位图中拥有该排序值的元组所对应的位被置为1其他位被置为0。该位图被称为元组位图。易见，单个数据节点上的B⁺树最多拥有B个叶子节点，因此最多存在B个元组位图。

继续例1中的假设，下面的例子介绍了某个数据节点上的局部位图索引的生成过程。

例4：关于员工信息表的假设同例1。如图5所示，设该表在某个数据节点上共有7条记录。其中位串Bit String和排序值Rank不是原表中的属性，而是由性别和薪水两个属性上的值生成的位串及其对应的排序值。依据各记录的排序值建立的B⁺树结构如图6所示（该B⁺树中的每个节点至多含有3个孩子节点）。

以下结合附图7详细介绍给定查询条件，以分布式方式执行检索任务的步骤：

首先，主节点根据查询条件生成条件位图，并将其分发至各个数据节点。条件位图是属性笛卡尔积内符合条件的元素所对应的位串的逻辑按位与。例如，查询女性薪水为1500到1800之间的员工将得到条件位图01010；又如，查询条件薪水低于1300的男性员工将被转换为条件位图10110。注意，生成的条件位串应当覆盖查询条件所包含的所有可能性。另外，如果查询条件是涉及与多个索引结构相关的属性上的多个查询条件的复合条件，那么应当为各个条件生成独立的条件位图。

然后，各数据节点并行执行检索任务。对于单个查询条件和多个查询条件组成的复合查询条件，以下分情况介绍：

1.单个查询条件的情况：

a)将条件位图拆分为属性笛卡尔积内的元素所对应的位串，并将拆分得到的位串转换为相应的排序值。这些排序值组成了的一个目标排序值的集合。

b)接着生成长度等于B的全0位串cb，并将属于目标排序值集合内的位置为1。

c)检查逻辑按位与eb&cb的计算结果是否为0。其中eb表示该数据节点上的指示位图。

d)如果为0则在该数据节点上直接返回空集作为计算结果。

e)否则，搜索该数据节点的局部B⁺树并找到对应的叶子节点及其上附着的元组位图，一一检查元组位图中被置为1的位所对应的元组是否满足条件。最后向主节点返回所有满足条件的结果作为查询结果。

2.多个查询条件组成的复合查询条件的情况：

a)对于各个单独的查询条件，依次执行以下步骤：

ⅰ各数据节点分别将条件位串转换为对应的排序值的范围。

ⅱ接着生成长度等于B的全0位串cb，并将属于排序值范围内的位置为1。

ⅲ检查按位逻辑与eb&cb的计算结果是否为0。

ⅳ如果为0则在该数据节点上直接生成长度等于该数据节点管理的局部元组数量的全0位图作为该查询条件的查询结果。

ⅴ否则，搜索该数据节点的局部B⁺树并找到对应的叶子节点及其上附着的元组位图作为该查询条件的查询结果。

b)将步骤a)中各查询条件的查询结果按照原查询中条件的复合方式执行相应的按位逻辑操作，一一检查计算结果中被置为1的位所对应的元组是否满足条件。

c)最后向主节点返回所有满足条件的结果作为本数据节点上的查询结果。

最后，主节点收集各数据节点返回的查询结果，并取并集作为最终结果。

Claims

1.一种云环境中基于分片位图索引的查询方法，其步骤包括：

1）建立分片位图索引，

1.1）对云环境中每个元组的属性值进行值域划分，生成属性值的全局排序表，所述全局排序表对元组用设定的规则排序；用长为

ci的位串表示每个元组，其中，元组的属性i的值域被切割为c_i个子域，f是参与切割的属性的个数，1≤i≤f；所述c_i个子域构成集合c_i，并用笛卡尔积Des_1...f＝C₁×C₂×C₃×…×C_f表示，所述笛卡尔积的大小为：

2）输入查询条件，主节点根据查询条件建立条件位图，所述条件位图是元组属性位串笛卡尔积内符合条件的元素所对应的位串的逻辑按位与；并分发至各个数据节点，所述条件位图覆盖查询条件所包含的所有可能；各数据节点并发执行检索任务，主节点收集各个数据节点的查询结果，并向用户返回各数据节点上查询结果的并集；

当查询条件为单个查询条件时，

2.1)各计算节点分别将条件位图拆分为属性笛卡尔积内的元素所对应的位串，并将拆分得到的位串转换为相应的排序值建立一目标排序值集合；

2.2)生成长度等于B的全0位串cb，并将属于目标排序值集合内的位置为1；

2.3)检查逻辑按位与eb&cb的计算结果是否为0，其中eb表示该计算节点上的指示位图；

2.4)如果为0则在该计算节点上直接返回空集作为计算结果；

2.5)否则，搜索该计算节点的局部B⁺树并找到对应的叶子节点及其上附着的元组位图，一一检查元组位图中被置为1的位所对应的元组是否满足条件。

2.如权利要求1所述的云环境中基于分片位图索引的查询方法，其特征在于，对所述位串进行全局排序，得到的排序值与任意元组在被查询字段上的取值唯一对应，所述元组对应位串的所有可能取值按照从小到大的顺序排序。

3.如权利要求1所述的云环境中基于分片位图索引的查询方法，其特征在于，所述指示位图的长度等于该元组属性值域被划分子域的个数，与笛卡尔积的大小B相同。

4.如权利要求1所述的云环境中基于分片位图索引的查询方法，其特征在于，所述步骤1.3)中建立局部位图索引的方法是：对该节点上存在的元组所对应的位串的全局排序值建立B⁺树，树的叶节点中的每一个键对应于一个排序值；为B⁺树的叶子节点上的各个键附加一个长度为本数据节点所管理的元组总数的位图作为相应排序值所对应的元组位图。

5.如权利要求1所述的云环境中基于分布式位图索引的查询方法，其特征在于，当查询条件为多个查询条件时，

1)依照单个查询条件情况执行查询；

2)将步骤1)中根据各查询条件检索得到的元组位图按照原查询中条件的复合方式执行相应的按位逻辑操作，一一检查计算结果中被置为1的位所对应的元组是否满足条件；

3)最后向主节点返回所有满足条件的结果作为查询结果。

6.如权利要求1所述的云环境中基于分片位图索引的查询方法，其特征在于，查询请求到达分布式数据节点时，通过比对指示位图来确定本数据节点是否包含目标元组，如果不包含，则直接返回空值作为该数据节点的查询结果，而无需执行检索任务。