CN104657502A

CN104657502A - 基于Hadoop对海量数据进行实时统计的***和方法

Info

Publication number: CN104657502A
Application number: CN201510109490.3A
Authority: CN
Inventors: 牛硕; 徐正礼; 魏金雷; 臧勇真; 赵明超
Original assignee: Inspur Group Co Ltd
Current assignee: Inspur Group Co Ltd
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2015-05-27

Abstract

本发明提供一种基于Hadoop对海量数据进行实时统计的***和方法，该***包括：由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库，内存数据库；还包括：网络数据处理单元，用于获取网络数据，对获取的网络数据进行解析；入队单元，用于将解析后的数据组织为结构化数据格式，存储到MQ队列中；Storm处理单元，用于通过Storm对MQ队列中的数据进行流式计算处理，获得处理后的数据，将获得的处理后的数据存入内存数据库中；上传单元，用于将所述内存数据库中预定量的数据汇总持久化至Hadoop集群的Hbase数据库中。本方案能够实现海量数据的实时存储到Hbase数据库。

Description

基于Hadoop对海量数据进行实时统计的***和方法

技术领域

本发明涉及网络通信技术领域，特别涉及一种基于Hadoop对海量数据进行实时统计的方法和装置。

背景技术

随着信息数据的***性增长以及各个行业业务的需要，目前出现了分布式***基础架构Hadoop，Hadoop提供集群的高速运算与海量存储。

HBase是一个分布式的、面向列的一个具有高可靠性、可伸缩的开源数据库，是Hadoop项目的子项目，就如同Bigtable利用了Google文件***(FileSystem)所提供的分布式数据存储一样，HBase在Hadoop之上提供了类似于Bigtable的能力。

目前，基于Hadoop可以对海量数据进行离线式统计，其实现方式包括：获取并先缓存海量数据；对存储的海量数据进行处理；在到达一个上传周期，比如一个星期后，将处理后的海量数据以离线方式上传到Hadoop的HBase数据库中。

由此可见，在现有技术中，海量数据是以离线方式上传到HBase数据库中的，因此无法满足数据实时统计的要求。

发明内容

本发明提供一种基于Hadoop对海量数据进行实时统计的方法和装置，能够将海量数据实时统计到HBase数据库中。

一种基于Hadoop对海量数据进行实时统计的***，包括：由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库，内存数据库；还包括：

网络数据处理单元，用于获取网络数据，对获取的网络数据进行解析；

入队单元，用于将解析后的数据组织为结构化数据格式，存储到MQ队列中；

Storm处理单元，用于通过Storm对MQ队列中的数据进行流式计算处理，获得处理后的数据，将获得的处理后的数据存入内存数据库中；

上传单元，用于将所述内存数据库中预定量的数据汇总持久化至Hadoop集群的Hbase数据库中。

所述内存数据库包括：Memcached数据库；

所述Storm处理单元，进一步根据预设的Hbase数据库对应的row-key规则，将所述获得的处理后的数据存入所述Memcached数据库中。

所述Hadoop集群包括：

1个NameNode节点，1个SecondaryNameNode节点，1个zookeeper节点与18个DateNode节点。

所述网络数据处理单元包括：

Nutch爬虫子单元，用于利用Nutch爬虫获取网络数据；

解析子单元，用于对Nutch爬虫子单元获取的网络数据进行清洗和过滤。

所述上传单元，用于在每当计时到达预设第一时间长度时，将当前第一时间长度内存储到Memcached数据库中的数据汇总持久化至Hadoop集群的Hbase数据库中。

一种基于Hadoop对海量数据进行实时统计的方法，建立由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库；设置内存数据库，包括：

获取网络数据，对获取的网络数据进行解析；

将解析后的数据组织为结构化数据格式，存储到MQ队列中；

通过Storm对MQ队列中的数据进行流式计算处理，获得处理后的数据；

将获得的处理后的数据存入内存数据库中；

将内存数据库中预定量的数据汇总持久化至Hadoop集群的Hbase数据库中。

所述内存数据库包括：Memcached数据库；

所述将获得的处理后的数据存入内存数据库中包括：

根据预设的Hbase数据库对应的row-key规则，将所述获得的处理后的数据存入Memcached数据库中。

所述建立由多个节点组成的Hadoop集群包括：

利用21个节点组成Hadoop集群，所述21个节点包括1个NameNode节点，1个SecondaryNameNode节点，1个zookeeper节点与18个DateNode节点。

所述获取网络数据，对获取的网络数据进行解析包括：

由Nutch爬虫对获取的网络数据进行清洗和过滤。

所述预定量的数据为在预设的第一时间长度内存储到Memcached数据库中的数据。

可见，本发明实施例提供的一种基于Hadoop对海量数据进行实时统计的***和方法，能够针对海量数据建立Hadoop集群及Hbase数据库，在获取到网络数据后，通过MQ队列、Storm流式计算的配合，能够使得获取到的网络数据逐一进入MQ队列，Storm再从MQ队列中逐一取出数据进行流式计算处理，这样，通过MQ队列与Storm的配合，则完成了对海量数据的实时处理，并且，为了保证实时存储的实现，还将Storm处理后的数据先存入内存数据库中，然后再从内存数据库中汇总至Hbase数据库中，这样，则大大提高了数据存储速度，保证了海量数据能够被实时统计到Hbase数据库中。

附图说明

图1是本发明一个实施例中基于Hadoop对海量数据进行实时统计的方法的流程图。

图2是本发明另一个实施例中基于Hadoop对海量数据进行实时统计的方法的流程图。

图3是图2所示的本发明实施例的处理示意图。

图4是本发明一个实施例中基于Hadoop对海量数据进行实时统计的***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明一个实施例提出了一种基于Hadoop对海量数据进行实时统计的方法，参见图1，该方法包括：

步骤101：建立由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库；

步骤102：设置内存数据库；

步骤103：获取网络数据，对获取的网络数据进行解析；

步骤104：将解析后的数据组织为结构化数据格式，存储到MQ队列中；

步骤105：通过Storm对MQ队列中的数据进行流式计算处理，获得处理后的数据；

步骤106：将获得的处理后的数据存入内存数据库中；

步骤107：将内存数据库中预定量的数据汇总持久化至Hadoop集群的Hbase数据库中。

可见，本发明实施例提供的一种基于Hadoop对海量数据进行实时统计的***和方法，能够针对海量数据建立Hadoop集群及Hbase数据库，在获取到网络数据后，通过MQ队列、Storm流式计算的配合，能够使得获取到的网络数据逐一进入MQ队列，Storm再从MQ队列中逐一取出数据进行流式计算处理，这样，通过MQ队列与Storm的配合，则完成了对海量数据的实时处理，并且，为了保证实时存储的实现，还将Storm处理后的数据先存入内存数据库中，然后再从内存数据库中汇总至Hbase数据库中，这样，则大大提高了数据存储速度。可见，本发明实施例保证了海量数据能够被实时统计到Hbase数据库中。

在本发明一个实施例中，内存数据库可以为多种类型的数据库，比如可以包括：Memcached数据库；

为了进一步提高数据被存储到Hbase数据库中的效率，在将获得的处理后的数据存入内存数据库中时，具体可以是根据预设的Hbase数据库对应的row-key规则，将所述获得的处理后的数据存入Memcached数据库中。

在本发明一个实施例中，建立由多个节点组成的Hadoop集群包括：

在本发明一个实施例中，所述获取网络数据，对获取的网络数据进行解析包括：由Nutch爬虫从网页上获取网络数据，并对获取的网络数据进行清洗和过滤等处理。

在本发明一个实施例中，可以定时将内存数据库中的数据持久化到Hbase数据库中。此时，上述预定量的数据为在预设的第一时间长度内存储到Memcached数据库中的数据。

本发明另一个实施例也提出了一种基于Hadoop对海量数据进行实时统计的方法，参见图2，该方法包括：

步骤201：搭建Hadoop大数据平台，利用21个节点组成Hadoop集群，从21个节点组成的集群中，设置1个NameNode节点，1个SecondaryNameNode节点，1个zookeeper节点与18个DateNode节点；并且，建立出Hadoop集群中的Hbase数据库。

步骤202：预先设置Memcached数据库。

这里，Memcached数据库是一种内存数据库。

步骤203：由Nutch爬虫从网页上获取网络数据。

步骤204：对获取的网络数据进行清洗和过滤等处理。

步骤205：将当前处理后的数据组织为结构化数据格式，推送到MQ消息队列中。

步骤206：从MQ队列中取出数据，通过Storm对MQ队列中取出的数据进行流式计算处理。

在实际业务实现中，Storm为分布式实时计算提供了一组通用原语，可被用于“流处理”之中，实时处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。Storm也可被用于“连续计算”(continuouscomputation)，对数据流做连续查询，在计算时就将结果以流的形式输出。本步骤中利用Storm技术保证了海量数据的实时处理。

步骤207：将当前处理后的数据按照设计好的Hbase数据库要求的row-key规则，直接放入Memcached数据库中。

步骤208：每当计时到达预设的第一时间长度时，定时任务将该第一时间长度内Memcached数据库中存储的数据汇总，持久化至Hadoop集群的Hbase数据库中。

上述图2所示的实施例中的过程也可以参见图3所示。

本发明一个实施例提出了一种基于Hadoop对海量数据进行实时统计的***，参见图4，包括：由多个节点组成的Hadoop集群401及Hadoop集群401中的Hbase数据库402，内存数据库403；还包括：

网络数据处理单元404，用于获取网络数据，对获取的网络数据进行解析；

入队单元405，用于将网络数据处理单元404解析后的数据组织为结构化数据格式，存储到MQ队列中；

Storm处理单元406，用于通过Storm对MQ队列中的数据进行流式计算处理，获得处理后的数据，将获得的处理后的数据存入内存数据库403中；

上传单元407，用于将所述内存数据库403中预定量的数据汇总持久化至Hadoop集群401的Hbase数据库402中。

所述内存数据库403包括：Memcached数据库；

所述Storm处理单元406，进一步根据预设的Hbase数据库402对应的row-key规则，将所述获得的处理后的数据存入所述Memcached数据库中。

所述Hadoop集群401包括：

所述网络数据处理单元404包括：

Nutch爬虫子单元，用于利用Nutch爬虫获取网络数据；

所述上传单元407，用于在每当计时到达预设第一时间长度时，将当前第一时间长度内存储到Memcached数据库中的数据汇总持久化至Hadoop集群401的Hbase数据库402中。

本发明的实施例至少具有如下的有益效果：

1、可见，本发明实施例提供的一种基于Hadoop对海量数据进行实时统计的***和方法，能够针对海量数据建立Hadoop集群及Hbase数据库，在获取到网络数据后，通过MQ队列、Storm流式计算的配合，能够使得获取到的网络数据逐一进入MQ队列，Storm再从MQ队列中逐一取出数据进行流式计算处理，这样，通过MQ队列与Storm的配合，则完成了对海量数据的实时处理，并且，为了保证实时存储的实现，还将Storm处理后的数据先存入内存数据库中，然后再从内存数据库中汇总至Hbase数据库中，这样，则大大提高了数据存储速度。可见，本发明实施例保证了海量数据能够被实时统计到Hbase数据库中。

2、本发明实施例中，能够将MQ队列、Storm、Nutch爬虫、Memcached数据库及Hbase数据库各种技术相配合处理，从而能够更加高效地实现将海量数据实时统计到Hbase数据库中。

需要说明的是，在本文中，诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个······”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于Hadoop对海量数据进行实时统计的***，其特征在于，包括：由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库，内存数据库；还包括：

2.根据权利要求1所述的***，其特征在于，所述内存数据库包括：Memcached数据库；

3.根据权利要求1所述的***，其特征在于，所述Hadoop集群包括：

4.根据权利要求1所述的***，其特征在于，所述获取单元包括：

Nutch爬虫子单元，用于利用Nutch爬虫获取网络数据；

5.根据权利要求1至4中任一所述的***，其特征在于，所述上传单元，用于在每当计时到达预设第一时间长度时，将当前第一时间长度内存储到Memcached数据库中的数据汇总持久化至Hadoop集群的Hbase数据库中。

6.一种基于Hadoop对海量数据进行实时统计的方法，其特征在于，建立由多个节点组成的Hadoop集群及Hadoop集群中的Hbase数据库；设置内存数据库，包括：

获取网络数据，对获取的网络数据进行解析；

将解析后的数据组织为结构化数据格式，存储到MQ队列中；

将获得的处理后的数据存入内存数据库中；

7.根据权利要求6所述的方法，其特征在于，所述内存数据库包括：Memcached数据库；

所述将获得的处理后的数据存入内存数据库中包括：

8.根据权利要求6所述的方法，其特征在于，所述建立由多个节点组成的Hadoop集群包括：

9.根据权利要求6所述的方法，其特征在于，所述获取网络数据，对获取的网络数据进行解析包括：

由Nutch爬虫从网页上获取网络数据，并对获取的网络数据进行清洗和过滤。

10.根据权利要求6至9中任一所述的方法，其特征在于，所述预定量的数据为在预设的第一时间长度内存储到Memcached数据库中的数据。