CN102402617A

CN102402617A - 一种利用分片及稀疏位图的易压缩数据库索引存储***及其相应的构建、调度和查询处理方法

Info

Publication number: CN102402617A
Application number: CN2011104366935A
Authority: CN
Inventors: 蔡华林; 曹晖; 冯柯; 何清法; 顾云苏; 王嘉春; 毛云青; 徐昶; 李阳; 周宇
Original assignee: TIANJIN SHENZHOU GENERAL DATA CO Ltd
Current assignee: TIANJIN SHENZHOU GENERAL DATA CO Ltd
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2012-04-04

Abstract

本发明涉及一种利用分片及稀疏位图的易压缩数据库索引存储***及其相应的构建、调度和查询处理方法。所述索引存储***具体包括分片的数据存储结构，以及针对分片数据的稀疏哈希位图索引存储结构，稀疏哈希位图为对需索引数据的概要知识，也可扩充为对分片数据特征的其他概要提取方法。本发明涉及的过滤索引***和构建、查询处理方法可以实现对海量数据高效的等值查询，大大减少对数据的磁盘读写次数，并且索引空间占用量极小，相对于B+树索引更适用于历史海量数据的查询，且基于此***及方法能够方便的实现对数据库和索引的压缩存储，并能过滤分片压缩包从而极大减小压缩数据库的解码开销。

Description

一种利用分片及稀疏位图的易压缩数据库索引存储***及其相应的构建、调度和查询处理方法

技术领域

本发明涉及数据信息处理，数据库技术，特别是涉及一种利用分片及稀疏哈希作为数据库等值查询的过滤索引***及其构建、查询处理方法。

背景技术

在很多行业中，每时每刻都在产生着大量数据，从而形成了对海量历史数据的存储需求，而随着各行业信息***的发展，又产生了对这些海量历史数据的查询需求，特别是等值查询需求，例如查询某一特定用户的记录，从而要求我们为用户ID数据建立索引以满足快速查询需求。同时由于在不断产生新的数据要求导入到存储***中，还要求数据库***有极高的导入速度。

然而，传统的索引对于这些海量历史数据并不适合。传统的索引(如B+树、HASH等)，这些索引用于海量历史数据存在着两方面的问题：

1)空间成本高，索引难以被压缩；对于海量历史数据来说，往往非常容易压缩，因此通过压缩能够将数据量大大缩小，但是一旦使用传统索引，索引庞大又几乎无法压缩从而使数据压缩带来的好处几乎抵消。以B+树为例，每个元组包含<键值、ROWID>两部分，尽管键值由于被排序后可以被压缩得很好，但是ROWID则是离散的。由于应用通常将B+树建立在高密度(DISTINCT值高)属性上，导致其压缩后的空间通常会比属性本身在表中压缩后的空间还要大，而在压缩过程中，难以被压缩的数据通常就是那些高密度属性，因此，建立多个B+树索引所占用的空间几乎是无法接受的。HASH索引也存在着同样的问题。

2)维护成本高，建立索引速度慢；有两种方式建立索引，一是先建立，其代价是数据在导入时需要同步地维护索引，随机的索引***可能是非常耗时的，同时，在索引建立完成之后，还是需要一个独立的压缩过程；二是后建立，这意味着在数据装载完成之后，需要对大批数据进行排序(相对于B树，对于HASH索引，则意味着随机的数据***过程)以进行索引创建，如果单个索引维护的数据较少，则意味着索引的数量会增加，这就降低了索引本身的效能。综合起来看，无论采用那种模式，维护传统索引对数据装载速度都会产生严重的影响。

在这一背景下，如何利用好海量历史数据等值查询特征，如何为海量历史数据等值查询建立空间占用小且有效的索引，实现对海量历史数据特别是为其压缩后数据的快速导入和查询是一个具有重要意义的技术问题，是提高数据库***在电信等行业大型数据应用中的性价比的关键所在。

发明内容

本发明目的在于提供利用分片及稀疏位图的易压缩数据库索引存储***，以及基于其上的过滤索引构建、查询处理方法，使得数据库能够对数据和索引进行有效压缩，并且能够提供高效的等值查询过滤功能，大大减少不必要数据的读取及解压，在节省存储空间的同时大幅度提高***的响应性能。

为达到上述目标，本发明采用的技术方案如下：

一、一种利用分片及稀疏位图的易压缩数据库索引存储***

本***对所有导入的数据按一定行数进行分片存储，分片可以按照导入顺序进行截取，也可以根据需要按一定规则进行聚集，或是按某列排序聚集后分片。

从每个分片数据中提取出的稀疏哈希位图概要知识构成稀疏位图过滤索引，过滤索引可以每列一个索引，也可以多列构成一个复合索引，也可以一列存在多种不同类型概要知识索引，所有索引存储于概要知识存储结构中。

概要知识存储结构中，过滤索引要求同一个过滤索引的各分片概要知识在物理存储上保证一定的空间连续性从而减少查询时随机存储访问，不同索引不要求存储物理上连续。

分片数据在存储时，同一个分片数据作为一个整体进行存储，在分片数据内部，数据按列进行组织，实现中，可运用大对象对分片数据进行存储。概要知识存储结构在实现中，可为每个索引建立一张表进行存储，也可为索引整体建立一张表，每列存储一个索引，每列索引使用列存存储。

数据库***在运行过程中，可以不定期动态增加数据或索引，并对增加的数据进行分片存储并提取稀疏哈希位图概要知识进行存储。数据增加不影响查询结果正确性。

二、基于上述***的过滤索引构建方法

首先对所有导入的数据进行分片，分片可按导入顺序每隔一定行数作为一个分片，或者按照哈希或其他规则进行聚集分片，或是对缓冲区内的导入数据排序后按顺序分片。

对于每个分片数据，分别计算各个索引所需的哈希值，并按列进行保存；若索引是由多列复合构成，则将同一行多列值复合后计算哈希值并保存。

为每个索引构建一个稀疏位图，位图的位数为分片数据行数的N倍(其中N为自然数)， N允许用户设置，N越大则位图越稀疏，查询效果越好。将索引对应列数据的哈希值分散映射到该索引稀疏位图上。

在物理存储中为每个索引预存足够连续空间，在内存中维护各个索引的缓存，当缓存积累到一定大小时将索引数据回刷到物理存储，同一个索引的数据在物理存储中连续存放。

在分片数据及其哈希概要知识保存后可对分片数据包按列进行压缩；对每个稀疏哈希位图也可进行压缩。数据及索引是否压缩并不影响查询有效性。

对于已有的数据新建索引，可以只遍历已有数据的相应列，若需解压，只需解压分片数据包中的相应列，单独为该索引建立稀疏哈希位图索引，并申请存储空间，存储稀疏哈希位图索引。

三、基于上述***的等值查询处理方法

首先根据查询等值查询条件计算等值的哈希值，作为过滤索引的过滤条件，计算这些哈希值在稀疏位图中所处的位置下标。

使用稀疏哈希位图决定某个分片数据包可被过滤。根据查询条件，取得每一个条件的索引数据，即该条件对应的稀疏哈希位图数据，遍历每个分片数据对应的位图，测试位图中过滤哈希值所对应位置是否为0从而确定相应分片数据是否可被过滤。

使用位图进行过滤结果的保存。为所有分片数据包按顺序建立一个过滤位图，在使用每个过滤索引进行过滤时，将被过滤的分片数据包对应位置置位。

在对多条件查询进行分片过滤过程中，可多个查询条件同时进行，将结果进行合并然后置位到结果位图中。也可一个查询条件处理完后再使用下一个查询条件进行过滤并将结果进行合并。

在对多条件查询进行分片过滤过程中，若被过滤掉的分片数据占所有分片数据的比例达到一定阈值时，可停止对剩余查询条件的过滤处理。

遍历结果位图，获取未被过滤的分片数据，遍历查询条件对应列，判断真实数据是否符合查询条件，若符合则返回该行数据。

在查询过程中，若索引数据为压缩数据，则先解压索引数据。若分片数据位压缩后数据，

则只对查询条件列和被查询列进行解压。

附图说明

图1是***整体框架图。

图2是稀疏哈希位图映射标记示意图。

图3是***过滤索引构建流程图。

图4是***等值查询处理流程图。

具体实施方式

下面结合附图及具体实施方式对本发明作进一步的描述：

如图1所示，给出了整个存储***的结构示意图。存储***包含分片数据的存储和索引数据的存储。

分片数据存储于数据库中，每个分片数据的存储相当于普通数据库中的一行，只是每个分片数据都较大，并连续的存储，从而可以获得较高的访问性能。对于不同分片数据，要求在存储中能够快速在实际存储中根据分片编号快速定位，即分片数据的存储对外提供随机存取功能。具体实现中，数据库大对象能够满足上述要求作为分片数据的存储。在分片数据内部，还可将同一分片的数据按列进行组织存储，进一步提升访问性能和压缩率。

索引数据存储架构中，包含对多个不同索引的存储。对于同一个索引，要求所有分片数据的稀疏哈希位图数据连续的存放，以获得尽可能高的顺序访问性能。对于不同的索引，对空间的连续性没有要求。因此，索引数据可以是每个索引单独存储于一张普通数据库表中，每个分片对应的稀疏哈希位图为一行数据，遍历该索引时即是对该表的遍历。也可以用单张表来存储所有索引，每个索引是该表中的一列，为了较高的索引访问性能，应使用列存。

同时***压缩模块和解压模块实现对分片数据和稀疏索引的压缩解压功能。

如图2所示，给出了稀疏哈希位图映射标记示意图。稀疏哈希位图根据一个分片数据包的行数申请足够稀疏的位图空间并清0，稀疏度可由用户指定，***根据分片数据包中索引对应列的每一行数据的哈希值映射到该分片数据对应的稀疏位图中进行标记，图中*号即表示稀疏位图中的某位被标记，若该标记与等值查询的哈希值的映射存在碰撞，则表明该分片数据可能存在被查询值，需要进一步提取分片数据包数据进行精确查询。

如图3所示，该图为本发明提出的分片过滤索引构建的工作流程，其详细描述如下：

301 为索引和分片数据创建存储空间，若使用大对象及数据表来存储分片数据和索引，则创建相应的分片数据大对象表和索引数据表并设好足够大的初始大小和扩展大小使其存储在物理上足够连续。

302 导入一行数据，计算该行数据中有索引的每一列数据的哈希值。

303 判断导入的行数是否满足用户设置的分片大小阈值，或是否已经完成所有数据的导入，若不满足条件返回302继续导入流程，若满足进入下一流程。

304 将前面导入的能够组成一个分片的所有数据进行压缩和存储，形成一个分片数据包。

305 为分片数据包按照图2的映射方法创建每个索引列的稀疏哈希位图。

306 压缩并存储这些稀疏哈希位图索引。

307 判断是否已导入完成所有数据，若没有回到302继续进行导入操作，若导入完成进入下一流程。

308 已完成所有数据导入，结束导入流程。

如图4所示，该图为本发明提出的等值查询的工作流程，其详细描述如下：

401 创建分片数据的过滤结果位图，用来标明每个分片数据包是否已被过滤索引掉，从而在实际查询时可跳过被过滤的数据包。

402 计算查询条件的哈希值，从而可以获得该哈希值在稀疏位图中的映射位置。

403 对查询条件所在列的稀疏哈希位图索引进行遍历，获取每个位图在查询条件哈希值映射位置的数据。

404 测试位图在该映射位置是否被置位，若未被置位则表明该数据包不可能包含被查询值，可被过滤掉，进入405，否则表明该位图对应的分片数据包为可疑数据包，进入406流程继续下一个数据包的检验。

405 进入这一流程表明当前稀疏哈希位图对应的数据包可被过滤，在结果位图中相应数据包位置进行置位。

406 判断该索引是否已扫描完成，若未完成则回到403继续检验下一数据包可否被过滤，若已完成进入下一流程。

407 判断是否还有其他等值查询条件可供过滤用，若是则进入408，开始下一个查询条件的过滤，否则进入409开始从分片数据中获取真正的结果。。

408 获取下一个查询条件，回到402开始新的查询条件的过滤，值得注意的是，新查询条件的过滤是在原有的结果位图上追加进行，可保证更多查询条件就能过滤掉更多的数据包。

409 根据最终的过滤结果位图，访问未被过滤掉的所有分片数据包。

410 对未被过滤掉的分片数据包执行精确查询，在这时候，大部分不符合查询条件的分片数据已经不用进行访问和解压及查询了，从而大大提高了***查询性能。

本发明解决了传统索引空间占用大，压缩数据难以索引的的问题，具有的有益效果是：

1)将数据进行分片能够允许对数据在分片内部按列进行压缩及存储，能够获得更高的压缩率和单列访问性能。

2)对分片数据的稀疏哈希位图描述能够大大避免对不存在查询值的分片数据包的访问，从而大大降低磁盘访问开销以及数据解压开销，从而大大提高数据库性能。

3)稀疏哈希位图的概要知识是可扩展的，能够在此存储框架上进一步优化对分片数据的描述方法，进一步提高访问性能。

4)稀疏哈希位图由于其稀疏特性，极易压缩，因此索引空间占用极小，相对于数据大小几乎可以忽略，但在海量历史数据的等值查询中可获取与传统索引相当的查询性能。

本发明虽然仅结合限定数量的实施例进行了详细的描述，但是应容易理解本发明并不局限于这些公开的实施例。反而，可以修改本发明以结合在此并未描述的任何数量的变化、改变、替代或等效布置，而这是与本发明的精神和范围成比例的。另外，虽然已经描述了本发明的各个实施例，要理解本发明的实例可以仅包括一部分所描述的实施例。因此，本发明不能视为受到前述描述的限制，其仅仅受到附加权利预期的范围的限制。

Claims

1.一种利用分片及稀疏位图的易压缩数据库索引存储***，包括：

分片式的数据存储结构，用以所有导入的数据按一定行数进行分片存储，并从每个分片数据中提取出稀疏哈希位图概要知识，构成稀疏位图过滤索引；和

概要知识存储结构，用以存储所述所有索引。

2.根据权利要求1所述的易压缩数据库索引存储***，其特征还在于：对所述数据按一定行数进行分片存储时，分片可以按照导入顺序进行截取，也可以根据需要按一定规则进行聚集，或按某列排序聚集后分片；

在进行分片数据存储时，同一个分片数据作为一个整体进行存储，而分片内部按列进行组织。

3.根据权利要求1所述的易压缩数据库索引存储***，其特征还在于：在所述概要知识存储结构中，所述过滤索引要求同一个过滤索引的各分片概要知识在物理存储上保证一定的空间连续性从而减少查询时随机存储访问，而不同索引不要求存储物理上连续。

4.根据权利要求1所述的易压缩数据库索引存储***，其特征还在于：在所述分片存储结构，可运用大对象对所述分片数据进行存储，在所述概要知识存储结构，可为每个索引建立一张表进行存储，也可为索引整体建立一张表，每列存储一个索引，每列索引使用列存存储。

5.根据权利要求1-4中任意一个所述的易压缩数据库索引存储***，其特征还在于：所述分片数据以及所述概要知识索引可以存储压缩后的数据。

6.一种在根据权利要求1-5中任意一个所述的易压缩数据库索引存储***上构建过滤索引的方法，其包括步骤：

对所有导入的数据进行分片存储，分片可按导入顺序每隔一定行数作为一个分片，或者按照哈希或其他规则进行聚集分片，或是对缓冲区内的导入数据排序后按顺序分片；

对于每个分片数据，分别计算各个索引所需的哈希值，并按列进行保存；若索引是由多列复合构成，则将同一行多列值复合后计算哈希值并保存；

为每个索引构建一个稀疏位图，位图的位数为分片数据行数的N倍，N允许用户设置，N越大则位图越稀疏，查询效果越好，将索引对应列数据的哈希值分散映射到该索引稀疏位图上，其中N为自然数；

7.根据权利要求6的构建过滤索引的方法，其进一步包括：在对于已有的数据新建索引时，可以只遍历已有数据的相应列；若需解压，只需解压分片数据包中的相应列，并单独按上述步骤为该索引建立稀疏哈希位图索引，并申请存储空间，存储稀疏哈希位图索引。

8.一种基于权利要求6或7所述的构建过滤索引的方法而进行的调度方法，其包括步骤：在分片数据及其哈希概要知识保存后可对分片数据包按列进行压缩；对每个稀疏哈希位图也可进行压缩，数据及索引是否压缩并不影响查询有效性。

9.一种基于根据权利要求1-5中任意一个所述的易压缩数据库索引存储***的等值查询处理方法，其包括步骤：

根据查询等值查询条件计算等值的哈希值，作为过滤索引的过滤条件，计算这些哈希值在稀疏位图中所处的位置下标；

使用稀疏哈希位图决定某个分片数据包可被过滤，根据查询条件，取得每一个条件的索引数据，即该条件对应的稀疏哈希位图数据，遍历每个分片数据对应的位图，测试位图中过滤哈希值所对应位置是否为0从而确定相应分片数据是否可被过滤；

使用位图进行过滤结果的保存，为所有分片数据包按顺序建立一个过滤位图，在使用每个过滤索引进行过滤时，将被过滤的分片数据包对应位置置位；

在对多条件查询进行分片过滤过程中，可多个查询条件同时进行，将结果进行合并然后置位到结果位图中，也可一个查询条件处理完后再使用下一个查询条件进行过滤并将结果进行合并；

在对多条件查询进行分片过滤过程中，若被过滤掉的分片数据占所有分片数据的比例达到一定阈值时，可停止对剩余查询条件的过滤处理；

10.根据权利要求9所述的等值查询处理方法，其进一步包括：在查询过程中，若索引数据为压缩数据，则先解压索引数据；若分片数据为压缩后数据，则只对查询条件列和被查询列进行解压。