CN104317899A

CN104317899A - 一种大数据分析与处理***及访问方法

Info

Publication number: CN104317899A
Application number: CN201410577412.1A
Authority: CN
Inventors: 王茜; 葛新; 李安颖; 史晨昱; 梁小江
Original assignee: Xi'an Following International Information Ltd Co
Current assignee: Xi'an Following International Information Ltd Co
Priority date: 2014-10-24
Filing date: 2014-10-24
Publication date: 2015-01-28

Abstract

本发明公开了一种大数据分析与处理***，包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群。本发明的基于Hadoop和MongoDB的大数据分析与处理***，能够通过hadoop的MapReduce组件直接处理MongoDB中的数据，并将处理结果直接写回MongoDB数据库。本发明的另一目的是提供一种采用上述基于Hadoop和MongoDB的大数据分析与处理***的大数据访问方法，能够通过hadoop的MapReduce组件直接处理MongoDB中的数据，并将处理结果直接写回MongoDB数据库。

Description

一种大数据分析与处理***及访问方法

技术领域

本发明属于大数据处理技术领域，涉及一种大数据分析与处理***，本发明还涉及一种大数据访问方法。

背景技术

随着信息技术的发展，信息数量呈现几何式增长，各种非关系型数据结构充斥在互联网中，传统关系型数据库很难满足新的需求，同时，集中式数据分析与处理从海量信息中快速分析与统计出真正需要的信息正变得越来越困难，所以数据存储与数据分析都应具备分布式处理能力，能根据需要处理信息的增长，不断地扩展***规模以增强***存储能力、信息分析与处理能力。NoSQL数据库技术的出现为当前面临的问题提供了新的解决方案，它采用了分布式多节点的方式，更加适合大数据的存储和管理。NoSQL数据库在设计上非常关注对数据高并发的读写和对海量数据的存储等，与关系型数据库相比，它们在架构和数据模型方面做了“减法”，而在扩展和并发等方面做了“加法”。现今的计算机体系结构在数据存储方面要求具备庞大的水平扩展性，而NoSQL致力于改变这一现状。目前Google、Yahoo、Facebook、Twitter、Amazon都在大量应用NoSQL型数据库。NoSQL数据库正在逐渐地成为数据库领域中不可或缺的一部分。

MongoDB是NoSQL数据库产品中最热门的一种。它是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bjson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。它的特点是高性能、易部署、易使用，存储数据非常方便。

分布式的云计算技术通过整合资源的方式，为降低成本和能耗提供了一种简化的、集中的计算平台。Hadoop是一个开源的分布式的并行计算平台，其Map/Reduce运算功能被广泛地应用在数据分析与处理领域，Hadoop正在发展成为绝佳的大数据分析方法。

Hadoop软件是用于大数据分析的完整开源框架。它包括一个分布式文件***(HDFS)、一个并行处理框架(Apache HadoopMapReduce)和多种不同的组件，支持数据获取、工作流协调、任务管理以及集群监控等功能。Hadoop能够比传统方法更经济高效地处理大型非结构化数据集。

当海量数据存储在NoSQL数据库中时，hadoop要对这些数据进行处理时的做法是先将NoSQL数据库中的要分析的数据导入到HDFS中，然后再对其进行MapReduce操作，MapReduce处理完成之后再将数据写入HDFS中，最后将处理结果写回NoSQL数据库。整个过程中HDFS只是做了数据存储的中间件，并没有对数据进行实质性的分析处理，而NoSQL数据库本身就是数据持久化的工具，如果将HDFS这一过程省略，数据处理过程的效率将会提高很多。

发明内容

本发明的目的是提供一种大数据分析与处理***，能够通过hadoop的MapReduce组件直接处理MongoDB中的数据，并将处理结果直接写回MongoDB数据库。

本发明的另一目的是提供一种大数据访问方法，能够通过hadoop的MapReduce组件直接处理MongoDB中的数据，并将处理结果直接写回MongoDB数据库。

本发明一种技术方案所采用的技术方案是，一种大数据分析与处理***，包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群。

本发明一种技术方案的特点还在于，

物理服务器包括主节点物理服务器和从节点物理服务器。

Hadoop MapRuduce模块包括jobtracker单元和tasktracker单元，jobtracker单元分布于主节点物理服务器上，tasktracker单元分布于从节点物理服务器上。

mongodb数据库分片集群包括mongood进程单元、路由进程单元和配置服务器单元，路由进程单元分布于主节点物理服务器上，mongood进程单元和配置服务器单元均分布于从节点物理服务器上。

从节点物理服务器的数量不少于2个。

本发明另一种技术方案所采用的技术方案是，一种大数据访问方法，采用一种大数据分析与处理***，其结构为：包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群；

物理服务器包括主节点物理服务器和从节点物理服务器。；

Hadoop MapRuduce模块包括jobtracker单元和tasktracker单元，jobtracker单元分布于主节点物理服务器上，tasktracker单元分布于从节点物理服务器上。；

mongodb数据库分片集群包括mongood进程单元、路由进程单元和配置服务器单元，路由进程单元分布于主节点物理服务器上，mongood进程单元和配置服务器单元均分布于从节点物理服务器上；

从节点物理服务器的数量不少于2个；

采用上述大数据分析与处理***的大数据访问方法，具体按照以下步骤实施：

步骤1，用户向Hadoop提交mapreduce作业，配置hadoop mapreduce的数据源为mongodb数据库，所述mapreduce作业包括数据源地址、结果数据输出的地址以及具体的map和reduce过程；

步骤2，Hadoop通过访问路由进程单元获取到数据的存储信息，并将数据分割成Hadoop mapreduce的输入数据块；

步骤3，jobtracker单元将数据块信息分发给不同的tasktracker单元，tasktracker单元根据获得的数据块信息向mongodb分片集群获取具体数据；

步骤4，获取的数据经过mongo-Hadoop连接器适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce，

其中，数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式；

步骤5，mapreduce对步骤4中经过适配后的数据进行并行计算处理；

步骤6，tasktracker单元将处理结果经过mongo-Hadoop连接器适配mongodb可以写入的数据格式后发送给mongodb分片集群，并存入mongodb数据库，其中，mongodb可以写入的数据格式指BSON格式。

本发明的有益效果是省去了Hadoop中的HDFS这一过程，通过hadoop的MapReduce组件直接访问MongoDB中的数据，可以满足hadoop高效的读取并处理MongoDB中存储的数据，并能顺利的将处理结果返回给MongoDB数据库，数据处理过程的效率得到明显提高。

附图说明

图1是本发明一种大数据分析与处理***的结构示意图；

图2是本发明一种大数据访问方法的流程示意图。

图中，1.mongo-hadoop连接器，2.jobtracker单元，3.tasktracker单元，4.mongood进程单元，5.路由进程单元，6.配置服务器单元。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种大数据分析与处理***，如图1所示，包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器1和mongodb数据库分片集群。物理服务器包括主节点物理服务器和从节点物理服务器。Hadoop MapRuduce模块包括jobtracker单元2和tasktracker单元3，jobtracker单元2分布于主节点物理服务器上，tasktracker单元3分布于从节点物理服务器上。mongodb数据库分片集群包括mongood进程单元4、路由进程单元5和配置服务器单元6，路由进程单元5分布于主节点物理服务器上，mongood进程单元4和配置服务器单元6均分布于从节点物理服务器上。从节点物理服务器的数量不少于2个。

本发明一种大数据分析与处理***中各个模块的具体作用为：

1、Mapreduce模块

(a)TaskTracker单元3在集群中的计算节点上管理和执行各个Map和Reduce作业；

(b)JobTracker单元2接受作业提交，提供作业的监测和控制，管理任务，以及分配作业到TaskTracker单元3的节点上。

2、Mongodb数据库分片集群

(1)非关系数据库分片1、非关系数据库分片2，本方发明中使用3个mongod进程单元4组成一个非关系数据库副本集(用于数据可靠存储，用于自己的复制机制，能够自动进行故障转移)，构成一个非关系数据库分片，用于存储实际集群的一部分数据块；

(2)配置服务器单元6，存储整个mongodb分片集群的集群元数据信息，包括全局集群配置，每个数据库、集合和特定范围数据的位置，一份变更记录；

(3)路由进程单元5，提供了一个接口连接整个集群，将所有的读写请求指引到合适的分片上；

3、mongo-hadoop连接器1

作用是连接mongodb和Hadoop进行数据交互，将mongodb向Hadoop的输入数据(BSON)适配为Hadoop mapreduce可以直接处理的数据类型(BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text等)，并将Hadoop mapreduce的处理结果数据类型(BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text等)适配成能够直接存入mongodb的数据类型(BSON)。

本发明一种大数据分析与处理***的工作原理为，数据存储在mongodb分片集群中，用户向Hadoop提交作业，Hadoop通过访问路由进程获取到数据的存储信息，将数据分割成Hadoop mapreduce的输入数据块，jobtracker单元2将数据块信息分发给不同的tasktracker单元3，tasktracker单元3根据获得的数据块信息向mongodb分片集群获取具体数据(中间过程数据通过mongo-Hadoop连接器进行适配)进行mapreduce处理，处理完后tasktracker单元3将处理结果返回给mongodb分片集群(中间过程数据通过mongo-Hadoop连接器进行适配)。

本发明另一种大数据访问方法，采用上述大数据分析与处理***的结构，如图2所示，具体按照以下步骤实施：

步骤1，用户向Hadoop提交mapreduce作业，配置hadoop mapreduce的数据源为mongodb数据库，mapreduce作业包括数据源地址、结果数据输出的地址以及具体的map和reduce过程；

步骤2，Hadoop通过访问路由进程单元5获取到数据的存储信息，并将数据分割成Hadoop mapreduce的输入数据块；

步骤3，jobtracker单元2将数据块信息分发给不同的tasktracker单元3，不同的tasktracker单元3根据获得的数据块信息向mongodb分片集群获取具体数据；

步骤4，获取的数据经过mongo-Hadoop连接器1适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce，数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式；

步骤6，tasktracker单元3将处理结果经过mongo-Hadoop连接器1适配mongodb可以写入的数据格式后发送给mongodb分片集群，并存入mongodb数据库，其中，mongodb可以写入的数据格式指BSON格式。

Claims

1.一种大数据分析与处理***，其特征在于，包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器(1)和mongodb数据库分片集群。

2.根据权利要求1所述的一种大数据分析与处理***，其特征在于，所述物理服务器包括主节点物理服务器和从节点物理服务器。

3.根据权利要求2所述的一种大数据分析与处理***，其特征在于，所述Hadoop MapRuduce模块包括jobtracker单元(2)和tasktracker单元(3)，所述jobtracker单元(2)分布于主节点物理服务器上，所述tasktracker单元(3)分布于从节点物理服务器上。

4.根据权利要求1所述的一种大数据分析与处理***，其特征在于，所述mongodb数据库分片集群包括mongood进程单元(4)、路由进程单元(5)和配置服务器单元(6)，所述路由进程单元(5)分布于主节点物理服务器上，所述mongood进程单元(4)和配置服务器单元(6)均分布于从节点物理服务器上。

5.根据权利要求2或3或4所述的一种大数据分析与处理***，其特征在于，所述从节点物理服务器的数量不少于2个。

6.一种大数据访问方法，其特征在于，采用一种大数据分析与处理***，其结构为：包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器(1)和mongodb数据库分片集群；

所述物理服务器包括主节点物理服务器和从节点物理服务器；

所述Hadoop MapRuduce模块包括jobtracker单元(2)和tasktracker单元(3)，所述jobtracker单元(2)分布于主节点物理服务器上，所述tasktracker单元(3)分布于从节点物理服务器上；

所述mongodb数据库分片集群包括mongood进程单元(4)、路由进程单元(5)和配置服务器单元(6)，所述路由进程单元(5)分布于主节点物理服务器上，所述mongood进程单元(4)和配置服务器单元(6)均分布于从节点物理服务器上；

所述从节点物理服务器的数量不少于2个；

采用上述基于Hadoop和MongoDB的大数据分析与处理***的大数据访问方法，具体按照以下步骤实施：

步骤2，Hadoop通过访问路由进程单元(5)获取到数据的存储信息，并将数据分割成Hadoop mapreduce的输入数据块；

步骤3，jobtracker单元(2)将数据块信息分发给不同的tasktracker单元(3)，所述不同的tasktracker单元(3)根据获得的数据块信息向mongodb分片集群获取具体数据；

步骤4，获取的数据经过mongo-Hadoop连接器(1)适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce，

所述数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式；

步骤6，tasktracker单元(3)将处理结果经过mongo-Hadoop连接器(1)适配mongodb可以写入的数据格式后发送给mongodb分片集群，并存入mongodb数据库，其中，mongodb可以写入的数据格式指BSON格式。