CN104331460A

CN104331460A - 一种基于Hbase的数据读写操作方法及***

Info

Publication number: CN104331460A
Application number: CN201410602645.2A
Authority: CN
Inventors: 李晓静
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2014-10-31
Filing date: 2014-10-31
Publication date: 2015-02-04

Abstract

本发明公开了一种基于Hbase数据库的数据读写操作方法及***，其中，基于Hbase数据库的数据读写操作方法包括：获取至少一个数据源文件中的数据；将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将所述数据记录存储于Hbase数据库的第一数据表；通过Rowkey读取Hbase数据库的第一数据表中的数据记录；对所述读取的数据记录进行预定处理后，以相同的Rowkey将所述预定处理后的数据记录存储于Hbase数据库的第二数据表。通过本发明的方法，将数据源文件中的数据存储于Hbase数据库中，既满足了对存储云化的需求，也满足了数据读写的性能要求。

Description

一种基于Hbase的数据读写操作方法及***

技术领域

本发明涉及数据库技术领域，具体涉及一种基于Hbase的数据读写操作方法及***。

背景技术

在单机版的应用软件***中，传统的文件存放在文件***上，用读文件和写文件的方式来获取和存放数据。参见图1，一般情况下，采用本地文件***来存放文件，比如，在计费***中，可以将采集下来的话单文件存放于本地文件***中，然后从话单文件中获取数据文件，经过预处理后，将经过预处理后的数据文件存放于本地文件***中，随后的剔重、批价和详单存储采用相同的方法。

随着云计算的发展，在应用软件***云化后，只采用普通的文件***(即本地文件***)来存放数据已经不能满足云化后***的需求,所以分布式文件***就应运而生。

采用分布式文件***来存放数据，沿用了单机版采用文件***的传统，理解和使用上比较方便，但是存在数据的读写性能问题和数据的正确性问题：分布式文件***几乎所有的读写、打开或关闭文件都是跨网络操作，数据的读写性能相对单机版的文件***低很多；在分布式文件***读写数据的过程中,通常会采用缓存技术,此时可能会存在数据的不正确性。

应用软件***云化后，本地文件***已经不适合，而使用分布式文件***又会存在性能问题和数据的正确性问题。

发明内容

本发明所要解决的技术问题是提供一种基于Hbase的数据读写操作方法及***，能够满足存储云化的需求，也能够满足数据读写的性能问题。

依据本发明的一个方面，提供了一种基于Hbase的数据读写操作方法，包括：

获取至少一个数据源文件中的数据；

将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将所述数据记录存储于Hbase数据库的第一数据表；

通过Rowkey读取Hbase数据库的第一数据表中的数据记录；

对所述读取的数据记录进行预定处理后，以相同的Rowkey将所述预定处理后的数据记录存储于Hbase数据库的第二数据表。

依据本发明的另一个方面，提供了一种基于Hbase的数据读写操作***，包括：

数据获取模块，用于获取至少一个数据源文件中的数据；

第一数据存储模块，用于将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将所述数据记录存储于Hbase数据库的第一数据表；

数据读取模块，用于通过Rowkey读取Hbase数据库的第一数据表中的数据记录；

第二数据存储模块，用于对所述读取的数据记录进行预定处理后，以相同的Rowkey将所述预定处理后的数据记录存储于Hbase数据库第二数据表。

本发明提供的一种基于Hbase的数据读写操作方法及***，首先获取数据源文件中的数据，将数据源文件中的数据作为一条数据记录，为该数据记录设计合理的Rowkey，并将其存储于Hbase数据库的第一数据表中，然后通过Rowkey从第一数据表中获取数据记录，经过预定处理后，以相同的Rowkey将处理后的数据记录存储于Hbase数据库的第二数据表中。本发明方法将Hbase作为文件***来存储和读写临时过程文件(也可称为临时过程数据)，能够满足应用软件云化后对存储云化的需求；由于Hbase合理利用内存，相对于分布式文件***，数据的读写性能非常高，因此也能满足数据存储和读写的性能要求。

附图说明

图1为现有技术本地文件***存放数据示意图；

图2为本发明实施例一的一种基于Hbase的数据读写操作方法流程图；

图3为本发明实施例二的一种基于Hbase的数据读写操作方法流程图；

图4为本发明实施例二的一种基于Hbase的数据读写操作***示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例一、一种基于Hbase的数据读写操作方法。下面结合图2对本实施例提供的方法进行详细说明。

图2中，S201、获取至少一个数据源文件中的数据。

具体的，由于Hbase数据库主要用于存储非结构化和半结构化的松散数据，通常存储数据量大的数据，数据一旦存储入Hbase数据库，不再做改动，只对外提供查询，通常根据主键(rowkey)和主键的range来查询检索数据。Hbase数据库合理利用内存，数据读写性能非常高，本实施例采用Hbase数据库作为文件***来读写各个临时过程文件中的数据。在将临时过程文件中的数据存储于Hbase数据库之前，需要获取数据源文件(或者称为临时过程文件)中的数据。为了提高数据源文件中的数据存入Hbase数据库的效率，通常同时获取多个数据源文件中的数据。同时，为了能够分批对数据源文件中出的数据进行存储，可以按照预定时间间隔定时获取数据源文件中的数据，并记录下数据源文件的文件名称，数据源文件的文件名称与该数据源文件中的数据存在一一对应关系。

S202、将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将所述数据记录存储于Hbase数据库的第一数据表。

具体的，步骤S201获取了数据源文件中的数据，该步骤将获取的数据源文件中的数据作为一条数据记录，即将每个数据源文件中的数据作为一条数据记录，并为该数据记录合理设计rowkey，即为数据记录设计的rowkey能区分出各数据源文件中的数据，并将数据记录按照设计的rowkey存储于Hbase数据库的第一数据表中。其中，rowkey能唯一标识该条数据记录，相当于本地文件***中的路径名+文件名。具体实施时，参见下述的表1所示，将数据记录对应的数据源文件的文件名称(例如表1中的“a.txt”、“b.txt”或“c.txt”)作为该数据记录的rowkey，数据源文件的文件名称是无重复的，因此将数据源文件的文件名称作为对应的数据记录的rowkey能够唯一标识该条数据记录。

另外，在将数据存储于第一数据表之前，根据多个数据源文件中的数据内容为数据源文件对应的数据记录设计列簇(column family)和列(column)，为了方面数据的存储和读写，本实施例为数据源文件对应的数据记录设计一个column family和column即可。为数据源文件中的数据设计好了rowkey、column family及column后，将按照表1中的存储结构将数据源文件中的数据存储于Hbase数据库的第一数据表中。

表1

需要说明的是，与按照预定时间间隔定时获取数据源文件中的数据相对应，在Hbase数据库中也建立若干个第一数据表，用来存储获取的数据源文件中的数据。其中，第一数据表存储各源数据文件中的数据的时间与获取各数据源文件中的数据的时间存在对应关系。例如，前述步骤S201每天都获取数据源文件中的数据，对每天获取的数据源文件中的数据设计好rowkey、column family及column后，将其存储于其中的某个第一数据表，并记录存储的时间。当两个第一数据表存储数据记录的时间间隔达到预定时间阈值，则将存储数据记录的时间在前的第一数据表删除，以便释放Hbase的内存空间。

S203、通过Rowkey读取Hbase数据库的第一数据表中的数据记录。

具体的，若需要对存储于Hbase数据库的第一数据表中的数据进行处理时，可以通过rowkey获取Hbase数据库的第一数据表中的数据记录，即采用rowkey作为查询条件从Hbase数据库的第一数据表中查询相应的数据记录。

S204、对读取的数据记录进行预定处理后，以相同的Rowkey将预定处理后的数据记录存储于Hbase数据库的第二数据表。

具体的，步骤S203通过rowkey从Hbase数据库的第一数据表中获取数据记录，对获取的数据记录进行预定处理后，以同样的rowkey将预定处理后的数据记录存储于Hbase数据库的第二数据表中。

与前述按照预定时间间隔定时获取数据源文件中的数据及建立的若干第一数据表相对应，在Hbase数据库中建立与第一数据表数目相同的第二数据表。其中，第二数据表存储对第一数据表中的数据记录经过预定处理后的数据记录的时间与第一数据表存储各数据源文件中的数据的时间存在对应关系。例如，如前所述，每天都获取数据源文件的数据，并将这一天获取的数据按照前述的存储结构将其存储于Hbase数据库的第一数据表中，对这一天第一数据表中的数据记录进行预定处理后，将其按照同样的存储结构存储于Hbase数据库的第二数据表中，即整个存储及处理过程可以按天进行。当两个第二数据表存储数据记录的时间间隔达到预定时间阈值，则将存储数据记录的时间在前的第二数据表删除，以便释放Hbase的内存空间。

需要说明的是，在删除第一数据表和第二数据表中过期数据记录的过程中，若按照rowkey来删除第一数据表和第二数据表中的数据记录会非常麻烦。因此，为了清除过期数据的方便，本实施例在hbase数据库中都按天建立第一数据表和第二数据表，每天的数据都存放于相应的数据表中，当数据表中的数据过期时，将数据过期的整张表删除即可。

另外，若需要对存储于Hbase数据库的第二数据表中的数据进行处理时，可以按照步骤S203和S204的方法来获取数据并将处理后的数据再次存储于Hbase数据库的第三数据表中，依次类推，直到数据处理完，并将最终处理后的数据存储于Hbase数据库的数据表中。

实施例二、一种基于Hbase的数据读写操作方法。下面结合图3对本实施例提供的方法进行详细说明。

本实施例以计费为例对本发明提供的方法进行说明。首先，计费过程中采集的话单文件为数据源文件，可以按天获取这些话单文件；然后将该天获取的每个话单文件中的数据作为一条数据记录，以话单文件的文件名称作为该条数据记录的rowkey，并为多个话单文件中的数据统一设计一个共同的列簇(column family)和列(column)，设计好之后，将这些话单文件中的数据以数据记录的形式存储于在Hbase数据库中建立的话单文件表1中；然后通过rowkey从话单文件表1中获取相应的数据记录，对获取的数据记录进行预处理后，得到预处理后的数据记录，并将其存储于在Hbase数据库中建立的话单文件表2中；同样，将从话单文件表2中获取的数据记录进行批价处理后，将批价处理后的数据存储于建立在Hbase数据库的话单文件表3中。

实施例三、一种基于Hbase的数据读写操作***。下面结合图4对本实施例提供的***进行详细说明。

图4中，本实施例提供的***包括数据获取模块401、第一数据存储模块402、数据读取模块403和第二数据存储模块404。

其中，数据获取模块401主要用于获取至少一个数据源文件中的数据。

具体的，本实施例采用Hbase数据库作为文件***来读写各个临时过程文件中的数据。在将临时过程文件中的数据存储于Hbase数据库之前，需要获取数据源文件(或者称为临时过程文件)中的数据。

为了提高数据源文件中的数据存入Hbase数据库的效率，本实施例利用数据获取模块401同时获取多个数据源文件中的数据。同时，为了能够分批对数据源文件中出的数据进行存储，数据获取模块401可以按照预定时间间隔定时获取数据源文件中的数据，并记录下数据源文件的文件名称，数据源文件的文件名称与该数据源文件中的数据存在一一对应关系。

第一数据存储模块402主要用于将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将该数据记录存储于Hbase数据库的第一数据表。

第一数据存储模块402还包括第一建立模块，主要用于在Hbase数据库中建立若干个第一数据表，第一数据表存储各数据源文件中的数据，其中，第一数据表存储各源数据文件中的数据的时间与获取各数据源文件中的数据的时间存在对应关系。

具体的，数据获取模块401获取了各数据源文件中的数据，第一数据存储模块402将获取的数据源文件中的数据作为一条数据记录，即将每个数据源文件中的数据作为一条数据记录，并为该数据记录合理设计rowkey，并将数据记录按照设计的rowkey存储于第一建立模块在Hbase数据库中建立的第一数据表中。

另外，在将数据存储于第一数据表之前，根据多个数据源文件中的数据内容为数据源文件对应的数据记录设计列簇(column family)和列(column)，为了方面数据的存储和读写，本实施例为数据源文件对应的数据记录设计一个column family和column即可。为数据源文件中的数据设计好了rowkey、column family及column后，第一数据存储模块402将按照多行一列的存储结构将数据源文件中的数据存储于第一建立模块在Hbase数据库中建立的第一数据表中。

需要说明的是，与按照预定时间间隔定时获取数据源文件中的数据相对应，第一建立模块在Hbase数据库中也建立若干个第一数据表，用来存储获取的数据源文件中的数据。其中，第一数据表存储各源数据文件中的数据的时间与获取各数据源文件中的数据的时间存在对应关系。例如，数据获取模块401每天都获取数据源文件中的数据，对每天获取的数据源文件中的数据设计好rowkey、column family及column后，将其存储于第一建立模块建立的其中的某个第一数据表，并记录存储的时间。当两个第一数据表存储数据记录的时间间隔达到预定时间阈值，则将存储数据记录的时间在前的第一数据表删除，以便释放Hbase的内存空间。

数据读取模块403主要用于通过Rowkey读取Hbase数据库的第一数据表中的数据记录。

第二数据存储模块404主要用于对数据读取模块403读取的数据记录进行预定处理后，以相同的Rowkey将经过预定处理后的数据记录存储于Hbase数据库第二数据表。

具体的，若需要对存储于Hbase数据库的第一数据表中的数据进行处理时，数据读取模块403可以通过rowkey获取Hbase数据库的第一数据表中的数据记录。

数据读取模块403通过rowkey从Hbase数据库的第一数据表中读取数据记录，第二数据存储模块404对数据读取模块403读取的数据记录进行预定处理后，以同样的rowkey将预定处理后的数据记录存储于Hbase数据库的第二数据表中。

第二数据存储模块404还包括第二建立模块，主要用于在Hbase数据库中建立若干个第二数据表，第二数据表存储对第一数据表中的数据记录预定处理后的数据记录，其中，第二数据表存储所述对第一数据表中的数据记录预定处理后的数据记录的时间与第一数据表存储各数据源文件中的数据的时间存在对应关系。

具体的，与数据获取模块401按照预定时间间隔定时获取数据源文件中的数据及第一建立模块建立的若干第一数据表相对应，第二建立模块在Hbase数据库中建立与第一数据表数目相同的第二数据表。其中，第二数据表存储对第一数据表中的数据记录预定处理后的数据记录的时间与第一数据表存储各数据源文件中的数据的时间存在对应关系。例如，如前所述，数据获取模块401每天都获取数据源文件的数据，第一数据存储模块402将数据获取模块401这一天获取的数据按照前述的存储结构将其存储于Hbase数据库的第一数据表中，第二数据存储模块404对这一天第一数据表中的数据记录进行预定处理后，将其按照同样的存储结构存储于Hbase数据库的第二数据表中，即整个数据存储及处理过程可以按天进行。

需要说明的是，若需要对存储于Hbase数据库的第二数据表中的数据进行处理时，可以采用数据读取模块403和第二数据存储模块404来获取数据并将处理后的数据再次存储于Hbase数据库的第三数据表中，依次类推，直到数据处理完，并将最终处理后的数据存储于Hbase数据库的数据表中。

本发明提供的一种基于Hbase的数据读写操作方法及***，首先获取数据源文件中的数据，将数据源文件中的数据作为一条数据记录，为该数据记录设计合理的Rowkey，并将其存储于Hbase数据库的第一数据表中，然后通过Rowkey从第一数据表中获取数据记录，经过预定处理后，以相同的Rowkey将处理后的数据记录存储于Hbase数据库的第二数据表中。本发明方法将Hbase作为文件***来存储和读写临时过程文件(也可称为临时过程数据，即每个过程中处理后的数据)，能够满足应用软件云化后对存储云化的需求；由于Hbase合理利用内存，相对于分布式文件***，数据的读写性能非常高，因此也能满足数据存储和读写的性能要求。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Hbase数据库的数据读写操作方法，其特征在于，包括：

步骤S201、获取至少一个数据源文件中的数据；

步骤S202、将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey，并将所述数据记录存储于Hbase数据库的第一数据表；

步骤S203、通过Rowkey读取Hbase数据库的第一数据表中的数据记录；

步骤S204、对所述读取的数据记录进行预定处理后，以相同的Rowkey将所述预定处理后的数据记录存储于Hbase数据库的第二数据表。

2.如权利要求1所述的数据读写操作方法，其特征在于，所述步骤S201包括：

按照预定时间间隔定时获取至少一个数据源文件中的数据；

所述步骤S202包括：

在Hbase数据库中建立若干个第一数据表，所述第一数据表存储各数据源文件中的数据，其中，第一数据表存储各源数据文件中的数据的时间与获取各数据源文件中的数据的时间存在对应关系；

所述步骤S204还包括：

在Hbase数据库中建立若干个第二数据表，所述第二数据表存储对第一数据表中的数据记录经过预定处理后的数据记录，其中，第二数据表存储所述对第一数据表中的数据经过记录预定处理后的数据记录的时间与第一数据表存储各数据源文件中的数据的时间存在对应关系。

3.如权利要求2所述的数据读写操作方法，其特征在于，当两个第一数据表存储各数据源文件中的数据的时间间隔达到预定时间阈值时，删除存储数据时间在前的第一数据表；

或者，

当两个第二数据表存储对第一数据表中的数据记录经过预定处理后的数据记录的时间间隔达到预定时间阈值时，删除存储数据时间在前的第二数据表。

4.如权利要求1所述的数据读写操作方法，其特征在于，所述步骤S202中将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey具体包括：

将获取的各数据源文件的文件名称作为该数据源文件中的数据记录的Rowkey。

5.如权利要求1或2所述的数据读写操作方法，其特征在于，在步骤S202将所述数据记录存储于Hbase数据库的第一数据表之前还包括：

根据各数据源文件的数据内容为各数据源文件中的数据记录统一设计一个合理的列簇和列。

6.一种基于Hbase数据库的数据读写操作***，其特征在于，包括：

数据获取模块，用于获取至少一个数据源文件中的数据；

7.如权利要求6所述的数据读写操作***，其特征在于，所述数据获取模块用于获取至少一个数据源文件中的数据具体包括：

按照预定时间间隔定时获取至少一个数据源文件中的数据；

所述第一数据存储模块还包括：

第一建立模块，用于在Hbase数据库中建立若干个第一数据表，所述第一数据表存储各数据源文件中的数据，其中，第一数据表存储各源数据文件中的数据的时间与获取各数据源文件中的数据的时间存在对应关系；

第二数据存储模块还包括：

第二建立模块，用于在Hbase数据库中建立若干个第二数据表，所述第二数据表存储对第一数据表中的数据记录经过预定处理后的数据记录，其中，第二数据表存储所述对第一数据表中的数据记录经过预定处理后的数据记录的时间与第一数据表存储各数据源文件中的数据的时间存在对应关系。

8.如权利要求7所述的数据读写操作***，其特征在于，当两个第一数据表存储各数据源文件中的数据的时间间隔达到预定时间阈值时，删除存储数据时间在前的第一数据表；

或者，

当两个第二数据表存储对第一数据表中的数据记录预定处理后的数据记录的时间间隔达到预定时间阈值时，删除存储数据时间在前的第二数据表。

9.如权利要求6所述的数据读写操作***，其特征在于，所述第一数据存储模块，用于将各数据源文件中的数据作为一条数据记录，为该数据记录合理设计Rowkey具体包括：

10.如权利要求6所述的数据读写操作***，其特征在于，所述第一数据存储模块在将所述数据记录存储于Hbase数据库的第一数据表之前还包括：