CN112559459B

CN112559459B - 一种基于云计算的自适应存储分层***及方法

Info

Publication number: CN112559459B
Application number: CN202011483292.0A
Authority: CN
Inventors: 占绍雄; 李扬; 韩卿
Original assignee: Yunyun Shanghai Information Technology Co ltd
Current assignee: Yunyun Shanghai Information Technology Co ltd
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-02-13
Anticipated expiration: 2040-12-15
Also published as: EP4040303A1; CN112559459A; EP4040303A4; WO2022126839A1; US20240028604A1

Abstract

本发明提供一种基于云计算的自适应存储分层***及方法，包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块，根据预定义规则对节点容量进行扩展和收缩、对收集的查询命中的模型以及扫描文件路径进行聚合和排序、对文件进行分层加载和预加载。基于本发明，可以构建出一个高效的OLAP查询执行引擎，应对各类报表***的复杂OLAP查询，可以显著提高云上OLAP引擎的执行效率。

Description

一种基于云计算的自适应存储分层***及方法

技术领域

本发明涉及数据分析技术领域，尤其涉及一种基于云计算的自适应存储分层***及方法。

背景技术

在云计算环境下，大数据架构体系往往是基于存储与计算分离的架构。将存储与计算分离的好处是可以大大提升用户在云上进行大数据处理的性价比，当一个ETL工作流完成后，数据已经完整保存在云存储上，这时候用户可以直接将不用的机器停止或者删除，释放计算资源，减少云成本。同样，存储与计算分离的情况下，可以根据需求对计算资源进行水平扩展或者动态减少而不会影响到存储，在大数据使用并发量较大时，对集群进行水平扩展来应对高并发请求，同时并发下降后动态减少计算节点来降低使用成本。然而这种架构下也存在缺陷，在计算存储分离情况下，往往计算与存储之间通过网络传输，传输的速率依赖带宽，尽管云基础设施供应商都在不断地提升网络硬件设施，但是相对于本地存储，云环境下存储与计算之间因为带宽传输速率受限，通常会成为数据分析的瓶颈。为了加速云存储的访问，我们一方面可以权衡成本尽可能选择较高带宽的机器来缓解网络传输带来的性能损耗；另一方面，可以将热数据尽量缓存在计算集群中，以达到对热数据查询的快速响应。

当前，在云计算环境下能够支持多云的分布式文件缓存***主要有Alluxio。该分布式文件缓存***优点是支持多级存储，同时支持多种公有云，但是其缺点也比较明显。在需要缓存的文件很多时只能进行根据访问情况进行缓存文件置换，且替换算法比较简单，不适宜预计算的场景；不支持弹性伸缩，当我们有更多文件需要缓存时，往往无法自动扩展；另外，在云上基于成本考虑，集群往往会在闲置时停止，在需要时启动，这时候在使用OLAP引擎进行初次查询时，往往会因为无法对模型索引文件动态预热会导致初始一段时间的文件扫描速度很慢。以上是以Alluxio为分布式文件缓存方案所欠缺的。

由于当前OLAP引擎与Alluxio集成方案存在的缺陷，难以支持高并发下的亚秒级查询响应。因此，本发明构思出一种基于云计算的自适应存储分层方案，可以显著提高云上OLAP引擎的执行效率。

发明内容

有鉴于此，本公开提供一种基于云计算的自适应存储分层***及方法，技术方案如下：

一方面，本发明提供了一种基于云计算的自适应存储分层***，包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块，数据节点管理模块用于收集存储集群运行情况，按照预定义的规则进行水平扩展和收缩，元数据管理模块用于收集OLAP查询引擎的查询命中的模型以及扫描的文件路径，并对这些数据进行聚合和排序，自适应存储分层模块根据元数据管理模块维护的模型命中次数以及文件扫描次数的排行列表来对文件进行分层加载以及预加载，预聚合查询路由模块根据模型以及索引在元数据库中的缓存情况自动切换查询存储地址。

进一步地，所述的数据节点管理模块收集的存储集群运行情况数据包括：存储集群各节点的容量、存储集群各节点已使用容量、存储集群各节点缓存文件及其大小。

进一步地，所述数据节点管理模块的集群包括存储集群和计算集群，存储集群主要用于存储数据，计算集群主要用于提供计算功能，存储集群和计算集群均具备缓存功能。

进一步地，所述的存储集群包括：内存层MEN、固态硬盘层SSD、硬盘层HDD存储。

进一步地，所述的数据节点管理模块的扩展和收缩的规则是：当存储集群内缓存容量小于实际计算集群所需容量的20％时，对存储集群进行水平扩展；当存储集群内数据过期或不再使用时，优化数据节点配置，对存储集群进行收缩。

进一步地，所述的元数据管理模块通过连接到OLAP查询引擎的日志***，从日志文件中分析出查询命中的模型及其扫描的文件信息存储到元数据库，更新当前模型及其扫描文件的次数顺序排行榜。

进一步地，所述的自适应存储分层模块的分层加载策略是：将列表中文件分为非常热、比较热以及热三个层次，对应数据节点上的内存层MEN、固态硬盘层SSD以及硬盘层HDD存储，根据预配置的各层次百分比和集群内的各层存储大小分别将这三层数据加载到缓存中。

进一步地，所述的自适应存储分层模块的预加载策略是：每次集群重启后，将层次为非常热的部分通过命令预加载到内存中。

进一步地，所述的预聚合查询路由模块的自动切换查询存储地址的策略是：当用户查询命中模型后，向元数据管理模块询问当前模型是否在缓存中，若已缓存，则将加载文件请求重定向到缓存，否则，将直接向源数据加载。

另一方面，本发明提供了一种基于云计算的自适应存储分层方法，所述方法应用在上述基于云计算的自适应存储分层***中,包括以下步骤：

步骤1：查询请求通过预聚合查询路由模块提交分布式计算任务；

步骤2：预聚合查询路由模块根据模型以及索引在元数据库中的缓存情况自动切换查询存储地址；

步骤3：元数据管理模块用于收集OLAP查询引擎的查询命中的模型以及扫描的文件路径，并对这些数据进行聚合和排序；

步骤4：自适应存储分层模块根据元数据管理模块维护的模型命中数量以及文件扫描数量排行列表来对文件进行分层加载以及预加载；

步骤5：数据节点管理模块收集存储集群运行情况，按照预定义的规则进行水平扩展和收缩；步骤2、步骤3和步骤4执行过程中均需执行步骤5；

步骤6：元数据管理模块将查询结果与预聚合查询路由模块的查询请求匹配后，提交查询结果。

本发明提供一种基于云计算的自适应存储分层***及方法，提供了OLAP引擎在加载预计算内容时网络传输的性能优化方案，极大降低了对象存储和OLAP引擎之间的网络传输数据量；提供了分布式缓存基于容量的水平扩展和自动收缩，极大的提高了分布式缓存***的吞吐量的和降低了用户的使用成本；提供了分布式缓存***在初始化时的预热方案，结合OLAP查询引擎的特点，极大地提高了查询性能。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明提供的一种基于云计算的自适应存储分层***示意图；

图2为本发明提供的一种基于云计算的自适应存储分层方法示意图；

图3为本发明具体实施例的整体方案流程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本申请及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本申请中的具体含义。

另外，术语“多个”的含义应为两个以及两个以上。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

实施例一

本发明实施例一，提供了一种基于云计算的自适应存储分层***，如图1所示，包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块，数据节点管理模块用于收集存储集群运行情况，按照预定义的规则进行水平扩展和收缩，元数据管理模块用于收集OLAP查询引擎的查询命中的模型以及扫描的文件路径，并对这些数据进行聚合和排序，自适应存储分层模块根据元数据管理模块维护的模型命中次数以及文件扫描数量次数的排行列表来对文件进行分层加载以及预加载，预聚合查询路由模块根据模型以及索引在元数据库中的缓存情况自动切换查询存储地址。

数据节点管理模块收集的存储集群运行情况数据包括：存储集群各节点的容量、存储集群各节点已使用容量、存储集群各节点缓存文件及其大小。

数据节点管理模块的集群包括存储集群和计算集群，存储集群主要用于存储数据，计算集群主要用于提供计算功能，存储集群和计算集群均具备缓存功能。

存储集群包括：内存层MEN、固态硬盘层SSD、硬盘层HDD存储。

数据节点管理模块的扩展和收缩的规则是：当存储集群内缓存容量远小于实际计算集群所需容量时，对存储集群进行水平扩展；当存储集群内数据过期或不再使用时，优化数据节点配置，对存储集群进行收缩。

具体实施时，数据节点管理模块，首先，收集如节点容量、节点已使用容量、节点缓存文件及大小等信息，然后根据预定义的扩展和收缩的规则，当存储集群内缓存容量远小于实际计算集群所需容量时，对存储集群进行水平扩展，当存储集群内数据过期或不再使用时，优化数据节点配置，对存储集群进行收缩，生成一组节点扩展或者收缩计划，最后根据节点扩展或者收缩计划执行实际的创建和销毁节点操作。本发明提供了分布式缓存基于容量的水平扩展和自动收缩，极大的提高了分布式缓存***的吞吐量的和降低了用户的使用成本。

具体实施时，元数据管理模块首先连接到OLAP查询引擎的日志***，然后从日志文件中分析出查询命中的模型及其扫描的文件信息存储到元数据库，之后更新当前模型及其扫描文件的次数顺序排行榜，维持当前OLAP模型命中次数排行列表以及文件扫描次数排行列表，为自适应存储分层模块做准备，提供了OLAP引擎在加载预计算内容时网络传输的性能优化方案，极大降低了对象存储和OLAP引擎之间的网络传输数据量。

自适应存储分层模块的分层加载策略是：将列表中文件分为非常热、比较热以及热三个层次，对应数据节点上的内存层MEN、固态硬盘层SSD以及硬盘层HDD存储，根据预配置的各层次百分比和集群内的各层存储大小分别将这三层数据加载到缓存中。自适应存储分层模块的预加载策略是：每次集群重启后，将层次为非常热的部分通过命令预加载到内存中。本发明提供了分布式缓存***在初始化时的预热方案，结合OLAP查询引擎的特点，极大地提高了查询性能，解决了查询数据量大时存在的性能问题。

进一步地，所述的预聚合查询路由模块的自动切换查询存储地址的策略是：当用户查询命中模型后，向元数据管理模块询问当前模型是否在缓存中，若已缓存，则将加载文件请求重定向到缓存，否则，将直接向源数据加载，支持从不同数据源动态切换加载文件，确保每个查询能够以最快的速度响应。

实施例二

本发明实施例二，提供了一种基于云计算的自适应存储分层方法，所述方法应用在上述基于云计算的自适应存储分层***中,如图2所示，包括以下步骤：

具体实施时，当用户查询命中模型后，首先向元数据管理模块询问当前模型是否在缓存中，若已缓存，则将加载文件请求重定向到缓存，否则，将直接向源数据加载。

具体实施时，首先，连接到OLAP查询引擎的日志***，然后从其日志文件中分析出查询命中的模型及其扫描的文件信息存储到元数据库中，最后更新当前模型及其扫描文件的次数顺序排行榜。

关于分层加载，首先，将列表中文件分为非常热、比较热以及热三个层次，对应数据节点上的内存层MEN、固态硬盘层SSD以及硬盘层HDD存储，然后根据预配置的各层次百分比和集群内的各层存储大小分别将这三层数据加载到缓存中。关于预加载，将在每次集群重启后，将层次为非常热部分通过命令预加载到内存中。

当存储集群内缓存容量小于实际计算集群所需容量的20％时，对存储集群进行水平扩展，当存储集群内数据过期或不再使用时，优化数据节点配置，对存储集群进行收缩。

实施例三

本发明的一个具体实施例，提供了一种基于云计算的自适应存储分层***，整体方案流程如图3所示，具体实施时，从客户端提交查询请求，通过预聚合查询路由模块提交分布式计算任务，当用户查询命中模型后，首先向元数据模块询问当前模型是否在缓存中，若已缓存，则将加载文件请求重定向到缓存，分布式执行引擎从分布式文件缓存***获取数据，分布式执行引擎可以从对象存储直接获取数据，否则分布式执行引擎直接从对象存储获取数据，数据节点管理模块收集存储集群运行情况，按照预定义的规则进行水平扩展和收缩进行节点管理，元数据管理模块收集OLAP查询引擎的查询命中的模型以及扫描的文件路径，并对这些数据进行聚合和排序，维持当前OLAP模型命中次数排行列表以及文件扫描次数排行列表，为自适应存储分层模块做准备，自适应存储分层模块根据元数据管理模块维护的模型命中数量以及文件扫描数量排行列表来对文件进行分层加载以及预加载，数据管理模块将查询结果与预聚合查询路由模块的查询请求匹配后，提交查询结果。

本发明的一个具体实施例，测试了现有技术在云计算环境下使用Alluxio作为分布式缓存方案和本发明自适应存储分层方案在常用报表***下的查询性能，对比结果，后者比前者的查询速度普遍快2-5倍。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于云计算的自适应存储分层***，其特征在于，包括数据节点管理模块、元数据管理模块、自适应存储分层模块以及预聚合查询路由模块，数据节点管理模块用于收集存储集群运行情况，按照预定义的规则进行水平扩展和收缩，元数据管理模块用于收集OLAP查询引擎的查询命中的模型以及扫描的文件路径，并对这些数据进行聚合和排序，自适应存储分层模块根据元数据管理模块维护的模型命中次数以及文件扫描次数的排行列表来对文件进行分层加载以及预加载，预聚合查询路由模块根据模型以及索引在元数据库中的缓存情况自动切换查询存储地址；

所述的元数据管理模块通过连接到OLAP查询引擎的日志***，从日志文件中分析出查询命中的模型及其扫描的文件信息存储到元数据库，更新当前模型及其扫描文件的次数顺序排行榜；

所述的预聚合查询路由模块的自动切换查询存储地址的策略是：当用户查询命中模型后，向元数据管理模块询问当前模型是否在缓存中，若已缓存，则将加载文件请求重定向到缓存，否则，将直接向源数据加载；

所述数据节点管理模块的集群包括存储集群和计算集群，存储集群主要用于存储数据，计算集群主要用于提供计算功能，存储集群和计算集群均具备缓存功能；

所述的数据节点管理模块的扩展和收缩的规则是：当存储集群内缓存容量小于实际计算集群所需容量的20％时，对存储集群进行水平扩展；当存储集群内数据过期或不再使用时，优化数据节点配置，对存储集群进行收缩；

所述的自适应存储分层模块的分层加载策略是：将列表中文件分为非常热、比较热以及热三个层次，对应数据节点上的内存层MEN、固态硬盘层SSD以及硬盘层HDD存储，根据预配置的各层次百分比和集群内的各层存储大小分别将这三层数据加载到缓存中；

所述的自适应存储分层模块的预加载策略是：每次集群重启后，将层次为非常热的部分通过命令预加载到内存中。

2.根据权利要求1所述的一种基于云计算的自适应存储分层***，其特征在于，所述的数据节点管理模块收集的存储集群运行情况数据包括：存储集群各节点的容量、存储集群各节点已使用容量、存储集群各节点缓存文件及其大小。

3.根据权利要求1所述的一种基于云计算的自适应存储分层***，其特征在于，所述的存储集群包括：内存层MEN、固态硬盘层SSD、硬盘层HDD存储。

4.一种基于云计算的自适应存储分层方法，其特征在于，所述方法应用在上述权利要求1-3中任一项所述的一种基于云计算的自适应存储分层***中，包括以下步骤：