CN104317899A - 一种大数据分析与处理***及访问方法 - Google Patents

一种大数据分析与处理***及访问方法 Download PDF

Info

Publication number
CN104317899A
CN104317899A CN201410577412.1A CN201410577412A CN104317899A CN 104317899 A CN104317899 A CN 104317899A CN 201410577412 A CN201410577412 A CN 201410577412A CN 104317899 A CN104317899 A CN 104317899A
Authority
CN
China
Prior art keywords
unit
hadoop
data
physical server
mongodb
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410577412.1A
Other languages
English (en)
Inventor
王茜
葛新
李安颖
史晨昱
梁小江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an Following International Information Ltd Co
Original Assignee
Xi'an Following International Information Ltd Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xi'an Following International Information Ltd Co filed Critical Xi'an Following International Information Ltd Co
Priority to CN201410577412.1A priority Critical patent/CN104317899A/zh
Publication of CN104317899A publication Critical patent/CN104317899A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种大数据分析与处理***,包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群。本发明的基于Hadoop和MongoDB的大数据分析与处理***,能够通过hadoop的MapReduce组件直接处理MongoDB中的数据,并将处理结果直接写回MongoDB数据库。本发明的另一目的是提供一种采用上述基于Hadoop和MongoDB的大数据分析与处理***的大数据访问方法,能够通过hadoop的MapReduce组件直接处理MongoDB中的数据,并将处理结果直接写回MongoDB数据库。

Description

一种大数据分析与处理***及访问方法
技术领域
本发明属于大数据处理技术领域,涉及一种大数据分析与处理***,本发明还涉及一种大数据访问方法。
背景技术
随着信息技术的发展,信息数量呈现几何式增长,各种非关系型数据结构充斥在互联网中,传统关系型数据库很难满足新的需求,同时,集中式数据分析与处理从海量信息中快速分析与统计出真正需要的信息正变得越来越困难,所以数据存储与数据分析都应具备分布式处理能力,能根据需要处理信息的增长,不断地扩展***规模以增强***存储能力、信息分析与处理能力。NoSQL数据库技术的出现为当前面临的问题提供了新的解决方案,它采用了分布式多节点的方式,更加适合大数据的存储和管理。NoSQL数据库在设计上非常关注对数据高并发的读写和对海量数据的存储等,与关系型数据库相比,它们在架构和数据模型方面做了“减法”,而在扩展和并发等方面做了“加法”。现今的计算机体系结构在数据存储方面要求具备庞大的水平扩展性,而NoSQL致力于改变这一现状。目前Google、Yahoo、Facebook、Twitter、Amazon都在大量应用NoSQL型数据库。NoSQL数据库正在逐渐地成为数据库领域中不可或缺的一部分。
MongoDB是NoSQL数据库产品中最热门的一种。它是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。它的特点是高性能、易部署、易使用,存储数据非常方便。
分布式的云计算技术通过整合资源的方式,为降低成本和能耗提供了一种简化的、集中的计算平台。Hadoop是一个开源的分布式的并行计算平台,其Map/Reduce运算功能被广泛地应用在数据分析与处理领域,Hadoop正在发展成为绝佳的大数据分析方法。
Hadoop软件是用于大数据分析的完整开源框架。它包括一个分布式文件***(HDFS)、一个并行处理框架(Apache HadoopMapReduce)和多种不同的组件,支持数据获取、工作流协调、任务管理以及集群监控等功能。Hadoop能够比传统方法更经济高效地处理大型非结构化数据集。
当海量数据存储在NoSQL数据库中时,hadoop要对这些数据进行处理时的做法是先将NoSQL数据库中的要分析的数据导入到HDFS中,然后再对其进行MapReduce操作,MapReduce处理完成之后再将数据写入HDFS中,最后将处理结果写回NoSQL数据库。整个过程中HDFS只是做了数据存储的中间件,并没有对数据进行实质性的分析处理,而NoSQL数据库本身就是数据持久化的工具,如果将HDFS这一过程省略,数据处理过程的效率将会提高很多。
发明内容
本发明的目的是提供一种大数据分析与处理***,能够通过hadoop的MapReduce组件直接处理MongoDB中的数据,并将处理结果直接写回MongoDB数据库。
本发明的另一目的是提供一种大数据访问方法,能够通过hadoop的MapReduce组件直接处理MongoDB中的数据,并将处理结果直接写回MongoDB数据库。
本发明一种技术方案所采用的技术方案是,一种大数据分析与处理***,包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群。
本发明一种技术方案的特点还在于,
物理服务器包括主节点物理服务器和从节点物理服务器。
Hadoop MapRuduce模块包括jobtracker单元和tasktracker单元,jobtracker单元分布于主节点物理服务器上,tasktracker单元分布于从节点物理服务器上。
mongodb数据库分片集群包括mongood进程单元、路由进程单元和配置服务器单元,路由进程单元分布于主节点物理服务器上,mongood进程单元和配置服务器单元均分布于从节点物理服务器上。
从节点物理服务器的数量不少于2个。
本发明另一种技术方案所采用的技术方案是,一种大数据访问方法,采用一种大数据分析与处理***,其结构为:包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器和mongodb数据库分片集群;
物理服务器包括主节点物理服务器和从节点物理服务器。;
Hadoop MapRuduce模块包括jobtracker单元和tasktracker单元,jobtracker单元分布于主节点物理服务器上,tasktracker单元分布于从节点物理服务器上。;
mongodb数据库分片集群包括mongood进程单元、路由进程单元和配置服务器单元,路由进程单元分布于主节点物理服务器上,mongood进程单元和配置服务器单元均分布于从节点物理服务器上;
从节点物理服务器的数量不少于2个;
采用上述大数据分析与处理***的大数据访问方法,具体按照以下步骤实施:
步骤1,用户向Hadoop提交mapreduce作业,配置hadoop mapreduce的数据源为mongodb数据库,所述mapreduce作业包括数据源地址、结果数据输出的地址以及具体的map和reduce过程;
步骤2,Hadoop通过访问路由进程单元获取到数据的存储信息,并将数据分割成Hadoop mapreduce的输入数据块;
步骤3,jobtracker单元将数据块信息分发给不同的tasktracker单元,tasktracker单元根据获得的数据块信息向mongodb分片集群获取具体数据;
步骤4,获取的数据经过mongo-Hadoop连接器适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce,
其中,数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式;
步骤5,mapreduce对步骤4中经过适配后的数据进行并行计算处理;
步骤6,tasktracker单元将处理结果经过mongo-Hadoop连接器适配mongodb可以写入的数据格式后发送给mongodb分片集群,并存入mongodb数据库,其中,mongodb可以写入的数据格式指BSON格式。
本发明的有益效果是省去了Hadoop中的HDFS这一过程,通过hadoop的MapReduce组件直接访问MongoDB中的数据,可以满足hadoop高效的读取并处理MongoDB中存储的数据,并能顺利的将处理结果返回给MongoDB数据库,数据处理过程的效率得到明显提高。
附图说明
图1是本发明一种大数据分析与处理***的结构示意图;
图2是本发明一种大数据访问方法的流程示意图。
图中,1.mongo-hadoop连接器,2.jobtracker单元,3.tasktracker单元,4.mongood进程单元,5.路由进程单元,6.配置服务器单元。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种大数据分析与处理***,如图1所示,包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器1和mongodb数据库分片集群。物理服务器包括主节点物理服务器和从节点物理服务器。Hadoop MapRuduce模块包括jobtracker单元2和tasktracker单元3,jobtracker单元2分布于主节点物理服务器上,tasktracker单元3分布于从节点物理服务器上。mongodb数据库分片集群包括mongood进程单元4、路由进程单元5和配置服务器单元6,路由进程单元5分布于主节点物理服务器上,mongood进程单元4和配置服务器单元6均分布于从节点物理服务器上。从节点物理服务器的数量不少于2个。
本发明一种大数据分析与处理***中各个模块的具体作用为:
1、Mapreduce模块
(a)TaskTracker单元3在集群中的计算节点上管理和执行各个Map和Reduce作业;
(b)JobTracker单元2接受作业提交,提供作业的监测和控制,管理任务,以及分配作业到TaskTracker单元3的节点上。
2、Mongodb数据库分片集群
(1)非关系数据库分片1、非关系数据库分片2,本方发明中使用3个mongod进程单元4组成一个非关系数据库副本集(用于数据可靠存储,用于自己的复制机制,能够自动进行故障转移),构成一个非关系数据库分片,用于存储实际集群的一部分数据块;
(2)配置服务器单元6,存储整个mongodb分片集群的集群元数据信息,包括全局集群配置,每个数据库、集合和特定范围数据的位置,一份变更记录;
(3)路由进程单元5,提供了一个接口连接整个集群,将所有的读写请求指引到合适的分片上;
3、mongo-hadoop连接器1
作用是连接mongodb和Hadoop进行数据交互,将mongodb向Hadoop的输入数据(BSON)适配为Hadoop mapreduce可以直接处理的数据类型(BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text等),并将Hadoop mapreduce的处理结果数据类型(BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text等)适配成能够直接存入mongodb的数据类型(BSON)。
本发明一种大数据分析与处理***的工作原理为,数据存储在mongodb分片集群中,用户向Hadoop提交作业,Hadoop通过访问路由进程获取到数据的存储信息,将数据分割成Hadoop mapreduce的输入数据块,jobtracker单元2将数据块信息分发给不同的tasktracker单元3,tasktracker单元3根据获得的数据块信息向mongodb分片集群获取具体数据(中间过程数据通过mongo-Hadoop连接器进行适配)进行mapreduce处理,处理完后tasktracker单元3将处理结果返回给mongodb分片集群(中间过程数据通过mongo-Hadoop连接器进行适配)。
本发明另一种大数据访问方法,采用上述大数据分析与处理***的结构,如图2所示,具体按照以下步骤实施:
步骤1,用户向Hadoop提交mapreduce作业,配置hadoop mapreduce的数据源为mongodb数据库,mapreduce作业包括数据源地址、结果数据输出的地址以及具体的map和reduce过程;
步骤2,Hadoop通过访问路由进程单元5获取到数据的存储信息,并将数据分割成Hadoop mapreduce的输入数据块;
步骤3,jobtracker单元2将数据块信息分发给不同的tasktracker单元3,不同的tasktracker单元3根据获得的数据块信息向mongodb分片集群获取具体数据;
步骤4,获取的数据经过mongo-Hadoop连接器1适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce,数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式;
步骤5,mapreduce对步骤4中经过适配后的数据进行并行计算处理;
步骤6,tasktracker单元3将处理结果经过mongo-Hadoop连接器1适配mongodb可以写入的数据格式后发送给mongodb分片集群,并存入mongodb数据库,其中,mongodb可以写入的数据格式指BSON格式。

Claims (6)

1.一种大数据分析与处理***,其特征在于,包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器(1)和mongodb数据库分片集群。
2.根据权利要求1所述的一种大数据分析与处理***,其特征在于,所述物理服务器包括主节点物理服务器和从节点物理服务器。
3.根据权利要求2所述的一种大数据分析与处理***,其特征在于,所述Hadoop MapRuduce模块包括jobtracker单元(2)和tasktracker单元(3),所述jobtracker单元(2)分布于主节点物理服务器上,所述tasktracker单元(3)分布于从节点物理服务器上。
4.根据权利要求1所述的一种大数据分析与处理***,其特征在于,所述mongodb数据库分片集群包括mongood进程单元(4)、路由进程单元(5)和配置服务器单元(6),所述路由进程单元(5)分布于主节点物理服务器上,所述mongood进程单元(4)和配置服务器单元(6)均分布于从节点物理服务器上。
5.根据权利要求2或3或4所述的一种大数据分析与处理***,其特征在于,所述从节点物理服务器的数量不少于2个。
6.一种大数据访问方法,其特征在于,采用一种大数据分析与处理***,其结构为:包括分布于物理服务器上的Hadoop MapRuduce模块、mongo-hadoop连接器(1)和mongodb数据库分片集群;
所述物理服务器包括主节点物理服务器和从节点物理服务器;
所述Hadoop MapRuduce模块包括jobtracker单元(2)和tasktracker单元(3),所述jobtracker单元(2)分布于主节点物理服务器上,所述tasktracker单元(3)分布于从节点物理服务器上;
所述mongodb数据库分片集群包括mongood进程单元(4)、路由进程单元(5)和配置服务器单元(6),所述路由进程单元(5)分布于主节点物理服务器上,所述mongood进程单元(4)和配置服务器单元(6)均分布于从节点物理服务器上;
所述从节点物理服务器的数量不少于2个;
采用上述基于Hadoop和MongoDB的大数据分析与处理***的大数据访问方法,具体按照以下步骤实施:
步骤1,用户向Hadoop提交mapreduce作业,配置hadoop mapreduce的数据源为mongodb数据库,所述mapreduce作业包括数据源地址、结果数据输出的地址以及具体的map和reduce过程;
步骤2,Hadoop通过访问路由进程单元(5)获取到数据的存储信息,并将数据分割成Hadoop mapreduce的输入数据块;
步骤3,jobtracker单元(2)将数据块信息分发给不同的tasktracker单元(3),所述不同的tasktracker单元(3)根据获得的数据块信息向mongodb分片集群获取具体数据;
步骤4,获取的数据经过mongo-Hadoop连接器(1)适配成HadoopMapReduce可以直接处理的数据类型并发送给mapreduce,
所述数据类型指BooleanWritable、ByteWritable、DoubleWritable、FloatWritable、IntWritable、LongWritable、Text格式;
步骤5,mapreduce对步骤4中经过适配后的数据进行并行计算处理;
步骤6,tasktracker单元(3)将处理结果经过mongo-Hadoop连接器(1)适配mongodb可以写入的数据格式后发送给mongodb分片集群,并存入mongodb数据库,其中,mongodb可以写入的数据格式指BSON格式。
CN201410577412.1A 2014-10-24 2014-10-24 一种大数据分析与处理***及访问方法 Pending CN104317899A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410577412.1A CN104317899A (zh) 2014-10-24 2014-10-24 一种大数据分析与处理***及访问方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410577412.1A CN104317899A (zh) 2014-10-24 2014-10-24 一种大数据分析与处理***及访问方法

Publications (1)

Publication Number Publication Date
CN104317899A true CN104317899A (zh) 2015-01-28

Family

ID=52373131

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410577412.1A Pending CN104317899A (zh) 2014-10-24 2014-10-24 一种大数据分析与处理***及访问方法

Country Status (1)

Country Link
CN (1) CN104317899A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104918117A (zh) * 2015-03-24 2015-09-16 四川长虹电器股份有限公司 一种智能电视广告及用户标签推荐方法
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN106844399A (zh) * 2015-12-07 2017-06-13 中兴通讯股份有限公司 分布式数据库***及其自适应方法
CN108446371A (zh) * 2018-03-15 2018-08-24 平安科技(深圳)有限公司 数据回导方法、装置、计算机设备及存储介质
CN109471837A (zh) * 2018-10-08 2019-03-15 国网经济技术研究院有限公司 电力基础设施数据的分布式存储方法
EP3819774A1 (en) * 2019-11-06 2021-05-12 Microsoft Technology Licensing, LLC Confidential computing mechanism
CN114911876A (zh) * 2022-05-18 2022-08-16 山东浪潮科学研究院有限公司 一种实现数字能源管理***的分布式计算方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937980A (zh) * 2012-10-18 2013-02-20 亿赞普(北京)科技有限公司 一种集群数据库数据查询方法
US20130144605A1 (en) * 2011-12-06 2013-06-06 Mehrman Law Office, PC Text Mining Analysis and Output System

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144605A1 (en) * 2011-12-06 2013-06-06 Mehrman Law Office, PC Text Mining Analysis and Output System
CN102937980A (zh) * 2012-10-18 2013-02-20 亿赞普(北京)科技有限公司 一种集群数据库数据查询方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张广弟: "分布式环境下海量空间数据的存储和并行查询技术研究", 《中国优秀硕士学位论文全文数据库基础科学辑》 *
雷德龙: "基于MongoDB的矢量空间数据云存储与处理***", 《地球信息科学学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104918117A (zh) * 2015-03-24 2015-09-16 四川长虹电器股份有限公司 一种智能电视广告及用户标签推荐方法
CN106844399B (zh) * 2015-12-07 2022-08-09 中兴通讯股份有限公司 分布式数据库***及其自适应方法
CN106844399A (zh) * 2015-12-07 2017-06-13 中兴通讯股份有限公司 分布式数据库***及其自适应方法
CN106599253A (zh) * 2016-12-21 2017-04-26 济南浪潮高新科技投资发展有限公司 一种采用NoSQL数据库实现分布式计算的方法
CN106778351B (zh) * 2016-12-30 2020-04-21 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN106778351A (zh) * 2016-12-30 2017-05-31 中国民航信息网络股份有限公司 数据脱敏方法及装置
CN108446371A (zh) * 2018-03-15 2018-08-24 平安科技(深圳)有限公司 数据回导方法、装置、计算机设备及存储介质
CN108446371B (zh) * 2018-03-15 2020-10-27 平安科技(深圳)有限公司 数据回导方法、装置、计算机设备及存储介质
CN109471837A (zh) * 2018-10-08 2019-03-15 国网经济技术研究院有限公司 电力基础设施数据的分布式存储方法
EP3819774A1 (en) * 2019-11-06 2021-05-12 Microsoft Technology Licensing, LLC Confidential computing mechanism
WO2021091744A1 (en) * 2019-11-06 2021-05-14 Microsoft Technology Licensing, Llc Confidential computing mechanism
US12013794B2 (en) 2019-11-06 2024-06-18 Microsoft Technology Licensing, Llc Confidential computing mechanism
CN114911876A (zh) * 2022-05-18 2022-08-16 山东浪潮科学研究院有限公司 一种实现数字能源管理***的分布式计算方法
CN114911876B (zh) * 2022-05-18 2024-05-31 山东浪潮科学研究院有限公司 一种实现数字能源管理***的分布式计算方法

Similar Documents

Publication Publication Date Title
CN104317899A (zh) 一种大数据分析与处理***及访问方法
Ji et al. Big data processing in cloud computing environments
CN103106249B (zh) 一种基于Cassandra的数据并行处理***
CN103440288A (zh) 一种大数据存储方法及装置
Ji et al. Big data processing: Big challenges and opportunities
JP6964384B2 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
Kim et al. Fast, energy efficient scan inside flash memory SSDs
Liang et al. Express supervision system based on NodeJS and MongoDB
JP6159908B1 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
CN111078781A (zh) 一种多源流式大数据融合汇聚处理框架模型实现方法
CN104199889A (zh) 基于CEP技术的RTLogic大数据处理***及方法
JPWO2017170459A6 (ja) 異種データソース混在環境におけるフィールド間の関係性の自動的発見のための方法、プログラム、および、システム
Zheng et al. Big data storage and management in SaaS applications
CN104239470A (zh) 一种面向分布式环境的空间数据复合处理***和方法
Suriarachchi et al. Big provenance stream processing for data intensive computations
CN104571946A (zh) 一种支持逻辑电路快速查询的存储器装置及其访问方法
Zhang et al. Quegel: A general-purpose system for querying big graphs
CN105426119A (zh) 一种存储设备及数据处理方法
CN108319604B (zh) 一种hive中大小表关联的优化方法
Cheng et al. [Retracted] Sports Big Data Analysis Based on Cloud Platform and Its Impact on Sports Economy
Asbern et al. Performance evaluation of association mining in Hadoop single node cluster with Big Data
CN102591978B (zh) 一种分布式文本拷贝检测***
CN102637200B (zh) 一种使多级关联数据分配到集群相同节点的方法
CN105243063A (zh) 信息推荐的方法和装置
CN111399838A (zh) 一种基于SparkSQL和物化视图的数据建模方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150128