CN113849478A

CN113849478A - 一种云原生大数据分析引擎

Info

Publication number: CN113849478A
Application number: CN202111018815.9A
Authority: CN
Inventors: 张颖峰; 颜文泽; 张旭
Original assignee: Moment Intelligence Force Shanghai Information Technology Co ltd
Current assignee: Moment Intelligence Force Shanghai Information Technology Co ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2021-12-28

Abstract

本发明公开了一种云原生大数据分析引擎，具体涉及大数据分析技术领域，包括以下内容：将OLAP数据库按照数据的分布划分成为不同的分区，并将每个分区称为Shard，每个Shard都把数据文件保存在S3对象存储当中。本发明通过提出一种新型OLAP分析型数据库的设计实现，它适合为企业利用公有云基础设施部署，提供廉价而高速的OLAP分析型数据库解决方案，是企业云原生基础架构的重要组件之一；同时，本发明也不单纯只适用于公有云部署，在私有化机房中，也同样可以提供快速廉价的高性能OLAP分析引擎，因此，采用本发明的作为基础组件的企业应用，可以容易的在不同公有云和私有云之间切换。

Description

一种云原生大数据分析引擎

技术领域

本发明涉及大数据分析技术领域，具体涉及一种云原生大数据分析引擎。

背景技术

OLAP分析型数据库是公有云服务的基石之一，它使分析人员能够迅速、一致、交互地从各个方面洞察数据，以达到深入理解数据的目的。公有云的OLAP数据库包含如下几类：把开源的OLAP数据库搬迁到公有云，提供DBaaS(Database as a Service)服务；公有云提供商依靠自身力量研发出专门面向云端用户的OLAP数据库。不同企业在公有云上部署应用的时候，对于OLAP数据库的选择也有两种不同的方式：一种是直接采用上述公有云的两类托管OLAP数据库服务，另一种是购买公有云基础设施，包含计算和存储，然后自行部署和维护开源的OLAP数据库。

现有技术存在以下不足：企业在迁移到云原生架构的过程中，面临各种困难的选择，这不仅在于OLAP本身技术的复杂和各种限制，还在于公有云能够购买的资源相比私有化部署也有其特殊性：公有云能购买的基础计算资源包含虚拟机和物理主机，后者价格昂贵，前者通常只提供很小的本地存储，而且公有云的大数据型虚拟机，通常是给单个机器挂载很大的本地存储，因此这难以利用更多的并行计算资源。因此选择公有云托管的开源OLAP：不论是行存、列存、还是基于索引的方案，既不能廉价，也无法高性能，它们在存储上不能做到高性价比，性能上不能做到最优。

发明内容

为此，本发明提供一种云原生大数据分析引擎，通过提出一种新型OLAP分析型数据库的设计实现，它适合为企业利用公有云基础设施部署，提供廉价而高速的OLAP分析型数据库解决方案，是企业云原生基础架构的重要组件之一；同时，本发明也不单纯只适用于公有云部署，在私有化机房中，也同样可以提供快速廉价的高性能OLAP分析引擎，因此，采用本发明的作为基础组件的企业应用，可以容易的在不同公有云和私有云之间切换，以解决现有技术中由于选择公有云托管的开源OLAP导致的价格高、性能低的问题。

为了实现上述目的，本发明实施例提供如下技术方案：一种云原生大数据分析引擎，包括以下内容：

S1、将OLAP数据库按照数据的分布划分成为不同的分区，并将每个分区称为Shard，每个Shard都把数据文件保存在S3对象存储当中；

S2、针对每一条***的记录，将记录存储为行存格式，保存到S3对象存储；将记录的每一列，都产生对应的列存，保存到S3存储；为每条记录分配一个自增的整数ID，然后为记录的绝大多数列，采用Bitmap位图技术(BSI)构建对应的倒排索引；

S3、为行存和Bitmap倒排索引底层采用通常的Key Value接口存储：采用开源KeyValue嵌入式引擎Pebble来提供Key Value接口；Pebble底层是SST文件，在不同的Level上会进行相应的压缩；为列存实现单独的批量接口：在内存中构建简单区块索引：记录每固定数目的列的最大和最小值，从而在扫描时尽力避免无效的IO；

S4、提供一个全局的WAL日志服务，供所有的Shard所共享访问，在***数据时，数据首先***到全局WAL，然后才分别***到不同的Shard当中；

S5、提供全面充分的SQL支持：SQL的执行层基于关系代数构建而非基于Plan构建，并且能够直接根据属性来判断：假设属性a存在倒排索引，则执行index plan，否则走列存，全表扫描后过滤。

进一步地，所述BSI索引包含一组Bitmap，它根据选定的列数值转换为二进制表示，并将其垂直切为Bitmap，对于基数较高的字符串的列选择不构建倒排索引。

进一步地，所有Shard内部的存储，包括Key Value接口的Pebble存储、以及列存专有存储，都关闭WAL日志功能。

进一步地，每个Shard挂载到块存储的文件缓存，针对行存和Bitmap倒排索引所依赖的Pebble，还有列存的专有格式，分别提供不同的缓存机制；针对Pebble存储，缓存的对象以Pebble底层的SST文件为单元；具体来说，在Level 0和Level 1的SST文件，都会优先存储到文件缓存，然后再推送到S3对象存储，针对列存，则是以列存文件单元为单位的常规LRU缓存机制。

进一步地，所述全局WAL日志服务的选型为开源的Pulsar，全局WAL日志服务在底层包含一个块存储和配套的S3对象存储。

进一步地，每个所述Shard默认只启动一个实例，其工作顺序为：新虚拟机从共享S3对象存储当中加载某Shard存放的对象文件，并继续从全局WAL日志服务消费数据，确保后续数据的一致性。

进一步地，所述云原生大数据分析引擎支持Schema Free的数据导入，此时接受任意的JSON数据作为输入，对于基础的JSON类型，会将其解释为基础的SQL类型String，Number，Boolean，对于null则当成SQL的NULL处理。

进一步地，所述原生大数据分析引擎服务于公有云环境和私有云环境。

本发明具有如下优点：

1、本发明是一个依托于公有云S3对象存储的OLAP分析型数据库，为兼顾成本和高性能，本发明采用了多种数据格式存储，包含行存、列存和倒排索引，使得采用不同格式服务不同种类查询，能够充分利用行存、列存和索引的不同优势服务不同种类查询，尽可能减少用户的选择成本，为用户提供高性能的查询服务；

2、本发明解决了普通倒排索引难以服务全SQL能力的问题，对于数值类型包括浮点数，依然采用倒排索引提供了高并发的SQL过滤和SQL聚合能力，并且让倒排索引工作于S3对象存储之上；

3、本发明提供了在公有云对象存储之上，一种应对多变业务场景的Schema Free的***手段，通过提供Schema Free的数据入库能力，使得用户***数据时无需事先定义数据库字段和类型，这样极大的方便了用户入库操作，并且针对复杂多变的业务场景对数据库Schema却无需任何修改；本发明不仅提供了在公有云对象存储之上的部署能力，还能够对私有化环境中提供同样的查询分析服务，这依赖于本发明对于已有的Multi-Raft机制的封装，使得它能够以单独库的方式运行，能够同时管理常规的Key Value引擎和定制的列存，并且本发明将对基于Multi-Raft机制管理本地存储和管理S3对象存储的机制统一封装。

附图说明

为了更清楚地说明本发明的实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是示例性的，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图引伸获得其它的实施附图。

本说明书所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

图1为本发明提供的基本框架图；

图2为本发明提供的BSI索引的二进制示意图；

图3为本发明提供的云环境示意图。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参照说明书附图1-3，本发明提供的一种云原生大数据分析引擎，包括以下内容：

OLAP数据库按照数据的分布划分成为不同的分区，并将每个分区称为Shard。每个Shard都把数据文件保存在S3对象存储当中。同时，为克服S3文件***吞吐量不足的缺点，每个Shard本身都挂载一块存储，用来作为S3存储的文件缓存。

针对每一条***的记录，本发明都做如下处理：

1.将记录存储为行存格式，保存到S3对象存储。

2.将记录的每一列，都产生对应的列存，保存到S3存储。

3.为每条记录分配一个自增的整数ID，然后为记录的绝大多数列，都产生对应的倒排索引。具体来说，是采用Bitmap位图技术构建倒排索引。Bitmap索引，同样存入到S3对象存储当中。

因此，本发明中，任何数据，都有行存、列存和Bitmap倒排索引三种格式的数据。数据尽管相比原始记录会膨胀至少3倍，但是因为数据存放在S3对象存储中，相比本地磁盘或者块存储，成本仅有后者的不到1/10，因此整体开销相比其他OLAP数据库不仅没有增加，反而减少很多。在SQL查询计划中，只要涉及到的查询列存在Bitmap倒排索引，就会通过Bitmap倒排索引完成SQL的执行。

不是所有的列都能够创建倒排索引。通常的倒排索引，仅能针对枚举型的字符串建立倒排索引，例如ElasticSearch就是这样。针对数值类型，后者采用了不是很有效的BKDTree，它的查询过滤性能不太好，并且无法满足在数值列类型之上的聚合型查询。本发明采用BSI技术建立Bitmap倒排索引。BSI索引包含一组Bitmap，它根据选定的列数值转换为二进制表示，并将其垂直切为Bitmap，如图2所示。图2的例子，只需要15个Bitmap即可表示从0到30000的值，因此可以方便的在这些Bitmap里设置行号，从而为整数类型的字段也建立了Bitmap倒排索引。对于浮点数字段，本发明也采用BSI技术，只需要针对基数和尾数分别考虑。BSI索引解决了倒排索引难以针对数值型字段建立聚合查询和高速范围过滤的缺点。然而对于字符串的列，并且基数很高，建立Bitmap索引就没有任何优势了，一个典型例子是MD5加密的用户字符串ID。本发明针对这种场景可以选择不构建倒排索引。

本发明中，行存和列存可以通过配置关闭。因为对于OLAP数据库来说，行存只在很少情况下会采用，这就是随机点查询。这种查询对于OLTP型数据库比较常见。因为用户根据需求关闭行存，可以进一步节省资源。列存在大多数情况下，也不会来采用，一般在查询涉及的列没有倒排索引，或者对列的分析查询包含Like类型等需要大范围扫描的，才会用列存来进行。

本发明中，行存和Bitmap倒排索引，其底层采用通常的Key Value接口存储。其中倒排索引的Key为该列的具体取值，Value为该具体取值在哪些行中存在的行号列表。由于Bitmap本身是稀疏数据结构，因此本发明采用Roaring Bitmap格式对Bitmap倒排索引压缩，减少IO开销。为避免倒排索引持续更新带来的开销，本发明对倒排索引首先在内存中构建，待内存桶满之后才写入存储。本发明采用开源Key Value嵌入式引擎Pebble来提供KeyValue接口。Pebble底层是SST文件，在不同的Level上会进行相应的压缩，其工作机理类似于流行的RocksDB，但无需WAL日志和多行事务保证，具有高于RocksDB数倍的吞吐量。

本发明中，列存没有依赖Key Value接口，因为会大大降低列存扫描记录的吞吐量，因此本发明为列存实现了单独的批量接口，其特点在于针对每条记录每列的数据，都是直接存储而没有任何序列化开销。在内存中构建简单区块索引：记录每固定数目的列的最大和最小值，从而在扫描时尽力避免无效的IO。本发明的列存格式借鉴了开源OLAP引擎ClickHouse的单机存储引擎格式，因为后者是目前最快的开源OLAP数据库。

本发明中，每个Shard挂载到块存储的文件缓存，针对行存和Bitmap倒排索引所依赖的Pebble，还有列存的专有格式，分别提供不同的缓存机制。针对Pebble存储，缓存的对象以Pebble底层的SST文件为单元。具体来说，在Level 0和Level 1的SST文件，都会优先存储到文件缓存，然后在推送到S3对象存储。针对列存，则是以列存文件单元为单位的常规LRU缓存机制。

本发明，所有Shard内部的存储，包括Key Value接口的Pebble存储，以及列存专有存储，都关闭WAL日志功能，目的是为减少IO开销。本发明另外提供一个全局的WAL日志服务，可以供所有的Shard所共享访问。在***数据时，数据首先***到全局WAL，然后才分别***到不同的Shard当中。这样，即使某个Shard所在的虚拟机出现故障，也能够很快重建另一个虚拟机，从全局WAL当中恢复重建数据。

全局WAL日志服务的选型为开源的Pulsar，全局WAL日志服务在底层包含一个块存储，和配套的S3对象存储。由Pulsar负责将WAL当中的冷数据搬迁到S3当中。没有选择流行的Kafka的原因在于后者对云原生十分不友好，缺乏数据冷热自动搬迁的能力。

本发明中每个Shard默认只启动一个实例，然而在某些情况下，会需要针对某些Shard启动额外的副本实例，其工作顺序为：新虚拟机从共享S3对象存储当中加载某Shard存放的对象文件，并继续从全局WAL日志服务消费数据，确保后续数据的一致性。

启动额外副本实例的典型场景在于：如果***的吞吐量达到限制，需要通过增加副本的方式增加吞吐量。因此，为使得该过程尽可能迅速，本发明采用Kubernetes容器进行编排。因此本发明的Shard实例，其实运行于容器当中，而并不一定是虚拟机。本发明会根据查询的负载动态向Kubernetes容器云请求容器资源。

本发明提供全面充分的SQL支持。SQL的执行层基于关系代数构建而非基于Plan构建。

本发明则直接根据属性来判断：假设属性a存在倒排索引，则执行index plan，否则走列存，全表扫描后过滤。

本发明可以配置为支持Schema Free的数据导入，此时接受任意的JSON数据作为输入，对于基础的JSON类型，会将其解释为基础的SQL类型String，Number，Boolean，对于null则当成SQL的NULL处理。JSON的Object作为SQL子关系处理，Array则作为数组存在，但是数组的每个元素的类型可以不同。本发明中，特定属性的各个值的类型可以是不同的，不过每个值都有其确定的类型，此外还支持子关系这种特殊类型。比如对于属性a，接受了两个值{"a":"B"}和{"c":1,"a":"c"}，则对于属性a而言存在一个子关系，该关系的属性为a和c，该关系包含2个元组。

本发明虽然主要服务于公有云环境，但在私有云环境中同样可以部署使用。这包含两种方案：如果私有云可以提供兼容S3的对象存储接口，例如Ceph分布式文件***等，那么本发明可以直接部署。如果私有云只提供物理机，那么本发明将依赖自有的存储抽象库来管理底层存储，具体定义如图3所示。图3是一个基于Multi-Raft多组强一致协议实现的分布式存储库。一些新型数据库如TiDB都采用了类似的机制提供底层存储。本发明把Multi-Raft机制抽象出来，使之跟底层存储引擎分离，并且跟上层应用解耦，因此这是一个嵌入式的分布式存储管理工具而不是独立运行的进程。由于本发明的计算和存储分离架构，前述的所有设计，在私有化环境中可运行于上述Multi-Raft框架之上。Multi-Raft框架负责管理Pebble的Key Value存储引擎，也同时管理专有列存引擎，并提供这些存储引擎的多副本机制和自动负载均衡。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种云原生大数据分析引擎，其特征在于：包括以下内容：

2.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：所述BSI索引包含一组Bitmap，它根据选定的列数值转换为二进制表示，并将其垂直切为Bitmap，对于基数较高的字符串的列选择不构建倒排索引。

3.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：所有Shard内部的存储，包括Key Value接口的Pebble存储、以及列存专有存储，都关闭WAL日志功能。

4.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：每个Shard挂载到块存储的文件缓存，针对行存和Bitmap倒排索引所依赖的Pebble，还有列存的专有格式，分别提供不同的缓存机制；针对Pebble存储，缓存的对象以Pebble底层的SST文件为单元；具体来说，在Level 0和Level 1的SST文件，都会优先存储到文件缓存，然后再推送到S3对象存储，针对列存，则是以列存文件单元为单位的常规LRU缓存机制。

5.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：所述全局WAL日志服务的选型为开源的Pulsar，全局WAL日志服务在底层包含一个块存储和配套的S3对象存储。

6.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：每个所述Shard默认只启动一个实例，其工作顺序为：新虚拟机从共享S3对象存储当中加载某Shard存放的对象文件，并继续从全局WAL日志服务消费数据，确保后续数据的一致性。

7.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：所述云原生大数据分析引擎支持Schema Free的数据导入，此时接受任意的JSON数据作为输入，对于基础的JSON类型，会将其解释为基础的SQL类型String，Number，Boolean，对于null则当成SQL的NULL处理。

8.根据权利要求1所述的一种云原生大数据分析引擎，其特征在于：所述原生大数据分析引擎服务于公有云环境和私有云环境。