WO2016023372A1

WO2016023372A1 - 数据存储处理方法及装置

Info

Publication number: WO2016023372A1
Application number: PCT/CN2015/075302
Authority: WO
Inventors: 杨庆平; 屠趁锋; 黄震江; 汪峰来
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-08-14
Filing date: 2015-03-27
Publication date: 2016-02-18
Also published as: CN105335450A; CN105335450B

Abstract

本发明提供了一种数据存储处理方法及装置，其中，该方法包括：获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，HBASE表中各个列族存储数据副本的副本数不同；依据获取的副本数生成对数据的存储副本，通过本发明，不仅解决了相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题，进而达到了对HBASE的列族设置了不同的副本数，实现了对数据有区别地存储，在不降低数据写入读取的前提下，能够有效降低存储成本的效果。

Description

数据存储处理方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种数据存储处理方法及装置。

背景技术

Hadoop，是一种开源的大数据存储和分析平台，已成为业界处理大数据的事实标准。Hadoop平台包含分布式文件***(Hadoop Distributed File System，简称为HDFS)和MapReduce(并行计算框架)两个重要的子***，其中HDFS为海量的数据提供存储，MapReduce为海量的数据提供计算。

Hadoop存储

Hadoop是一个高度容错的多副本的分布式***，适用于部署在廉价的机器上，并且Hadoop支持机器上多块硬盘的并行数据写入和读取。

因此随着大数据的发展，数据量急剧增加，企业为了减少成本采用Hadoop平台部署在廉价的PC服务器(Server)上，Hadoop采用多副本存储文件，保证了在廉价的设备上文件的可靠性。

HBASE

HBASE是一个分布式、面向列的开源数据库，是基于HDFS之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库***。HBASE是大数据分析平台Hadoop平台生态***中重要的组成部分，并在业界获得了广泛的应用。HBASE在HDFS上存储的模式采用以列为主模式进行存储，每一列对应一个或多个存储文件。下面针对HBASE对数据的存储进行说明。

在HBASE数据库中创建表时，HBASE的处理方案是：创建HBASE表时，***对于所有列数据采用同样副本数的进行存储，同时副本数不允许用户创建表时设置，只能依赖HBASE***默认设置的3副本。即表数据中所有列全部采用3副本存储。

从以上技术方案可以看出，相关技术中的HBASE处理表数据存储的方案存在以下缺点：硬件成本高：对于所有存储在HBASE的表数据采用同一种存储副本，对于重要数据和非重要数据，存储副本相同，大大占用了硬件成本。数据不能差异化处理：对于热点数据列，希望多副本，以提高读取速度，现在无法实现差异化针对单独数据列进行设置存储副本。

因此，在相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题。

发明内容

本发明提供了一种数据存储处理方法及装置，以至少解决相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题。

根据本发明的一个方面，提供了一种数据存储处理方法，包括：获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，所述HBASE表中各个列族存储数据副本的副本数不同；依据获取的所述副本数生成对所述数据的存储副本。

优选地，在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前，还包括：在建立所述HBASE表时，通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性，依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。

优选地，在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前，还包括：接收到动态输入的所述副本数。

优选地，通过以下方式至少之一，获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数：接收携带所述副本数的命令；接收携带所述副本数的Web页面信息。

优选地，依据获取的所述副本数生成对所述数据的所述存储副本包括：在数据写入时，将所述副本数传递到HBASE数据写入文件类；依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。

优选地，在依据获取的所述副本数生成对所述数据的所述存储副本之后，还包括：读取依据所述副本数单独加载的所述存储副本。

根据本发明的另一方面，提供了一种数据存储处理装置，包括：获取模块，设置为获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，所述HBASE表中各个列族存储数据副本的副本数不同；生成模块，设置为依据获取的所述副本数生成对所述数据的存储副本。

优选地，该装置还包括：创建模块，设置为在建立所述HBASE表时，通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性，依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。

优选地，该装置还包括：接收模块，设置为接收到动态输入的所述副本数。

优选地，所述获取模块包括以下至少之一：第一接收单元，设置为接收携带所述副本数的命令；第二接收单元，设置为接收携带所述副本数的Web页面信息。

优选地，所述生成模块包括：传递单元，设置为在数据写入时，将所述副本数传递到HBASE数据写入文件类；生成单元，设置为依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。

优选地，该装置还包括：读取模块，设置为读取依据所述副本数单独加载的所述存储副本。

通过本发明，采用获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，所述HBASE表中各个列族存储数据副本的副本数不同；依据获取的所述副本数生成对所述数据的存储副本，不仅解决了相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题，进而达到了对HBASE的列族设置了不同的副本数，实现了对数据有区别地存储，在不降低数据写入读取的前提下，能够有效降低存储成本的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据存储处理方法的流程图；

图2是根据本发明实施例的数据存储处理装置的结构框图；

图3是根据本发明实施例的数据存储处理装置的优选结构框图一；

图4是根据本发明实施例的数据存储处理装置的优选结构框图二；

图5是根据本发明实施例的数据存储处理装置中获取模块22的优选结构框图；

图6是根据本发明实施例的数据存储处理装置中生成模块24的优选结构框图；

图7是根据本发明实施例的数据存储处理装置的优选结构框图三；

图8是根据本发明实施方式的HBASE存储结构示意图；

图9是根据本发明实施方式的HBASE数据逻辑视图；

图10是根据本发明优选实施方式的动态创建HBASE多副本的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本实施例中提供了一种数据存储处理方法，图1是根据本发明实施例的数据存储处理方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，HBASE表中各个列族存储数据副本的副本数不同；

步骤S104，依据获取的副本数生成对数据的存储副本。

通过上述步骤，通过设置HBASE表中各个列族存储数据副本的副本数不同，即为重要和非重要数据的不同处理提供了基础，不仅解决了相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题，进而达到了对HBASE的列族设置了不同的副本数，实现了对数据有区别地存储，在不降低数据写入读取的前提下，能够有效降低存储成本的效果。

在获取用于存储数据的HBASE表中列族的存储数据副本的副本数之前，还可能涉及以下处理：在建立HBASE表时，通过Ruby散列属性值创建HBASE表中各个列族对应的副本数属性，依据该Ruby散列属性值对应的副本数属性获取用于存储数据的HBASE表中列族的存储数据副本的副本数。需要说明的是，通过上述Ruby散列属性值的创建，可以接收到动态输入的副本数，依据动态接收到的该副本数，动态地依据该副本数进行数据的存储。

获取用于存储数据的HBASE表中列族的存储数据副本的副本数时，可以采用多种方式，例如，可以采用以下方式至少之一来实现，例如，可以通过命令的方式，即接收携带副本数的命令；也可以通过网页的形式，即接收携带副本数的Web页面信息。

优选地，依据获取的副本数生成对数据的存储副本时也可以采用多种方式，例如，在数据写入时，将副本数传递到HBASE数据写入文件类；依据传递到HBASE数据写入文件类中的副本数生成对应的存储副本。

较优地，在依据获取的副本数生成对数据的存储副本之后，在对数据进行读取时，对各列副本数不一致的该HBASE表进行数据读取时，对各列族的副本单独进行加载读取，即读取依据副本数单独加载的存储副本，各列族之间互不影响。

在本实施例中还提供了一种数据存储处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图2是根据本发明实施例的数据存储处理装置的结构框图，如图2所示，该装置包括获取模块22和生成模块24，下面对该装置进行说明。

获取模块22，设置为获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，HBASE表中各个列族存储数据副本的副本数不同；生成模块24，连接至上述获取模块22，设置为依据获取的副本数生成对数据的存储副本。

图3是根据本发明实施例的数据存储处理装置的优选结构框图一，如图3所示，该装置除包括图2所示的所有模块外，还包括创建模块32，下面对该创建模块32进行说明。

创建模块32，连接至上述获取模块22，设置为在建立HBASE表时，通过Ruby散列属性值创建HBASE表中各个列族对应的副本数属性，依据Ruby散列属性值对应的副本数属性获取用于存储数据的HBASE表中列族的存储数据副本的副本数。

图4是根据本发明实施例的数据存储处理装置的优选结构框图二，如图4所示，该装置除包括图2所示的所有模块外，还包括接收模块42，下面对该接收模块42进行说明。

接收模块42，连接至上述获取模块22，设置为接收到动态输入的副本数。

图5是根据本发明实施例的数据存储处理装置中获取模块22的优选结构框图，如图5所示，该获取模块22包括以下至少之一：第一接收单元52、第二接收单元54，下面对该获取模块22进行说明。

第一接收单元52，设置为接收携带副本数的命令；第二接收单元54，设置为接收携带副本数的Web页面信息。

图6是根据本发明实施例的数据存储处理装置中生成模块24的优选结构框图，如图6所示，该生成模块24包括传递单元62和生成单元64，下面对该生成模块24进行说明。

传递单元62，设置为在数据写入时，将副本数传递到HBASE数据写入文件类；生成单元64，连接至上述传递单元62，依据传递到HBASE数据写入文件类中的副本数生成对应的存储副本。

图7是根据本发明实施例的数据存储处理装置的优选结构框图三，如图7所示，该装置除包括图2所示的所有模块外，还包括读取模块72，下面对该读取模块72进行说明。

读取模块72，连接至上述生成模块24，设置为读取依据副本数单独加载的存储副本。

针对相关技术中，HBASE数据库对数据存储不能动态设置各个列的存储副本数，在本实施例中，提供了一种HBASE数据库多副本动态处理方法。主要包括如下处理：在对HBASE创建表时，可以设置每一列的副本数，每一列的副本数存储不依赖于统一的配置，创建表是支持针对每一列设置不同的副本数，存储在HBASE的表定义中，在表数据***和读取时动态生效，不需要重启HBASE数据库。通过上述处理，能够对列存储的多副本进行动态处理，不依赖于底层存储设置的默认副本数，并且保证每一列的副本数可以动态处理。

该方案可以采用以下处理步骤实现：

步骤一，HBASE表数据创建定义：HBASE创建表支持Ruby散列属性定义，散列形式：{’key1’＝>’value’,’key2’＝>’value2’,…}。

例如：create‘testtable’,{NAME＝>’colfam1’,VERSION＝>1,…}。这是创建表testtable，并创建对应的列族；每个列族有对应的散列属性定义。

在创建表时将每个列族对应的副本数通过Ruby散列属性key进行定义。

步骤二，当***检测到需要对每个列族单独设置副本数时，动态调整HBASE对列族的定义，将副本数值设置到HBASE的列族类中。

步骤三，数据写入时，***将列族对应的副本数动态传输到HBASE数据写入文件类，HBASE写入HDFS***时将动态副本数传递给HDFS，由HDFS根据副本数生成存储副本。

步骤四，数据读出时，针对副本数不一致的表读取，对列族副本加载时，单独处理，互不影响。

通过上述处理，不仅实现了HBASE多列族动态副本设置，提供了重要和非重要数据的不同处理，降低了存储成本，对表数据的精细化管理有了大幅提升，该方法可靠有效，并未降低写入和读取的性能。

下面结合附图对本发明优选实施方式进行说明。

图8是根据本发明实施方式的HBASE存储结构示意图，如图8所示，该结构包括HRegionServer(分布式存储服务器)和HDFS，该HRegionServer包括一个或多个HRegion，该HRegion包括HLog和一个或多个存储器(Stroe)，该Store包括MemSotore和一个或多个StoreFile(存储文件)。该HDFS包括一个或多个DataNode(存储节点)。

图9是根据本发明实施方式的HBASE数据逻辑视图，如图9所示，该HBASE表(Table)中的各列对应存储区域(Region)的存储文件，如图中所示，各列的副本数(Column)分别对应于不同的存储文件(StroeFile)。

图10是根据本发明优选实施方式的动态创建HBASE多副本的流程图，如图10所示，该流程包括如下步骤：

步骤S1002，创建表数；

步骤S1004，判断创建HBASE表中的列族的副本数是否已定义？

步骤S1006，确定HBASE表中的列族的副本数是否已定义；

步骤S1008，解析封装，获取HBASE表中的各列族的副本数；

步骤S1010，依据获取的副本数创建HBASE表，其中，HBASE表中各列族的副本数不同；

步骤S1012，依据HBASE表中各列族副本数的不同创建相应的副本文件。

下面基于上述步骤，进行详细阐述。

HBASE创建表可以采用以下方式：

1、shell命令行方式实现，基于HBASE提供的shell的实现，增加支持新的{’REPLICATION’＝>’2’}，针对每个列族支持设置对应的副本；

2、最终实施创建表命令：create‘testtable’,{NAME＝>’colfam1’,VERSION＝>1，REPLICATION＝>2}；

3、同时也可以基于WEB页面的方式实时创建表参数传递；

4、将用户输入参数解析后，传给HBASE的创建表接口。

需要说明的是，依据动态变化的HBASE表中各列的副本数，也可以动态地创建HBASE表，下面对HBASE动态创建表的方式进行描述，当然也可以有其他不同实施方式。

1、HBASE的列族描述类支持新定义的副本参数；

2、HBASE创建表接口中支持副本参数；

3、HBASE生成Store文件的类中增加带副本的参数；

4、HBASE在调用StoreFile写文件***时，支持副本参数值。

另外，在多列族表数据创建时，也可以采用多种方式，例如，可以采用以下的创建方式来实现：

步骤一、用户定义HBASE表结构，对每个列进行副本数定义；

步骤二、***解析HBASE表定义参数，后去副本数；

步骤三、HBASE根据表定义参数创建storeFile文件；

步骤四、HBASE提交分布式文件***，按storeFile文件副本数创建相应的文件。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

工业实用性

如上所述，通过上述实施例及优选实施方式，不仅解决了相关技术中，对于HBASE处理表数据存储时，无法对数据进行差异化存储处理，不仅存在存储资源的浪费，而且对于数据的读取效率也低的问题，进而达到了对HBASE的列族设置了不同的副本数，实现了对数据有区别地存储，在不降低数据写入读取的前提下，能够有效降低存储成本的效果。

Claims

一种数据存储处理方法，包括：

获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，所述HBASE表中各个列族存储数据副本的副本数不同；

依据获取的所述副本数生成对所述数据的存储副本。
根据权利要求1所述的方法，其中，在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前，还包括：

在建立所述HBASE表时，通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性，依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。
根据权利要求1所述的方法，其中，在获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数之前，还包括：

接收到动态输入的所述副本数。
根据权利要求1所述的方法，其中，通过以下方式至少之一，获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数：

接收携带所述副本数的命令；

接收携带所述副本数的Web页面信息。
根据权利要求1所述的方法，其中，依据获取的所述副本数生成对所述数据的所述存储副本包括：

在数据写入时，将所述副本数传递到HBASE数据写入文件类；

依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。
根据权利要求1至5中任一项所述的方法，其中，在依据获取的所述副本数生成对所述数据的所述存储副本之后，还包括：

读取依据所述副本数单独加载的所述存储副本。
一种数据存储处理装置，包括：

获取模块，设置为获取用于存储数据的分布式数据库HBASE表中列族的存储数据副本的副本数，其中，所述HBASE表中各个列族存储数据副本的副本数不同；

生成模块，设置为依据获取的所述副本数生成对所述数据的存储副本。
根据权利要求7所述的装置，其中，还包括：

创建模块，设置为在建立所述HBASE表时，通过Ruby散列属性值创建所述HBASE表中各个列族对应的副本数属性，依据所述Ruby散列属性值对应的副本数属性获取用于存储数据的所述HBASE表中列族的存储数据副本的所述副本数。
根据权利要求7所述的装置，其中，还包括：

接收模块，设置为接收到动态输入的所述副本数。
根据权利要求7所述的装置，其中，所述获取模块包括以下至少之一：

第一接收单元，设置为接收携带所述副本数的命令；

第二接收单元，设置为接收携带所述副本数的Web页面信息。
根据权利要求7所述的装置，其中，所述生成模块包括：

传递单元，设置为在数据写入时，将所述副本数传递到HBASE数据写入文件类；

生成单元，设置为依据传递到所述HBASE数据写入文件类中的所述副本数生成对应的所述存储副本。
根据权利要求7至11中任一项所述的装置，其中，还包括：

读取模块，设置为读取依据所述副本数单独加载的所述存储副本。