CN107145585A - Hadoop数据仓库的自动导入数据方法及*** - Google Patents

Hadoop数据仓库的自动导入数据方法及*** Download PDF

Info

Publication number
CN107145585A
CN107145585A CN201710325690.1A CN201710325690A CN107145585A CN 107145585 A CN107145585 A CN 107145585A CN 201710325690 A CN201710325690 A CN 201710325690A CN 107145585 A CN107145585 A CN 107145585A
Authority
CN
China
Prior art keywords
data
server
hadoop
warehouses
hdfs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710325690.1A
Other languages
English (en)
Inventor
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Original Assignee
Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou Lucheng District New Research Institute Of Advanced Technology filed Critical Wenzhou Lucheng District New Research Institute Of Advanced Technology
Priority to CN201710325690.1A priority Critical patent/CN107145585A/zh
Publication of CN107145585A publication Critical patent/CN107145585A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明公开了一种Hadoop数据仓库的自动导入数据方法,包括:步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;步骤三:服务器B按照执行周期定期执行调用命令;步骤四:服务器C从服务器A中获取数据并生成HDFS文件;步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。此外,本发明还公开了一种Hadoop数据仓库的自动导入数据***,包括服务器A、服务器B以及服务器C。本发明解决了现有技术中每次将关系型数据库中的数据传输至Hadoop的数据仓库时需要人工操作的不便之处。

Description

Hadoop数据仓库的自动导入数据方法及***
技术领域
本发明涉及了一种Hadoop数据仓库的自动导入数据方法及***。
背景技术
随着企业要存储和分析处理的数据量越来越大,Hadoop越来越受到重视,Hadoop是Apache软件基金会的开源项目。Hadoop实现了一个分布式文件***(HadoopDistributed File System),简称HDFS。由于Hadoop在可伸缩性、健壮性、计算性能和成本上具有无可替代的优势,已然成为当前主流的大数据存储和分析平台。
目前应用于大数据分析的基础数据通常是保存于如mysql、sqlsever、db2等关系型数据库中,由于对数据分析和处理的需要,需要将这些基础数据进行筛选并导入至Hadoop的Hive数据仓库中,通过Hadoop平台的运算处理能力实现针对大数据的数据分析。Sqoop是一款开源工具,利用Sqoop我们能够在Hadoop生态圈中建立一个供其他服务器调用的接口,通过调用该接口可以实现将关系型数据库中指定的数据导入到Hadoop的HDFS中,Hadoop最终再将这些HDFS文件导入至Hive数据仓库中。由于用于分析的数据经常性会变动,每次进行数据更新时,都需要采用人工敲入代码的方式来调用数据传输接口,面对复杂的传输和处理流程,要求工作人员必须定时定期操作,因此费时费力。
发明内容
针对现有技术的不足,本发明提供了一种Hadoop数据仓库的自动导入数据方法及***,解决了现有技术中每次将关系型数据库中的数据传输至Hadoop的数据仓库时需要人工操作的不便之处。
为实现上述目的,本发明提供了一种Hadoop数据仓库的自动导入数据方法,包括:
步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;
步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;
步骤三:服务器B按照执行周期定期执行调用命令;
步骤四:服务器C从服务器A中获取数据并生成HDFS分布式文件***文件;
步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。
作为本发明的进一步改进,
所述步骤一具体包括:
服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。
作为本发明的进一步改进,
所述步骤三和步骤四之间还包括:
步骤A:服务器B监控服务器A中HDFS文件的生成情况;
所述步骤四和步骤五之间还包括:
步骤B:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。
本发明还提供了一种Hadoop数据仓库的自动导入数据***,包括:
服务器A,用于搭载存储基础数据的关系型数据库;
服务器B,用于搭载作业调度器,用于预先配置调用所述数据传输接口的调用命令,以及按照执行周期定期执行调用命令;
服务器C,用于搭载Hadoop数据仓库,用于预先配置从搭载关系型数据库的服务器A中获取数据的数据传输接口,用于从服务器A中获取数据并生成HDFS文件,以及将生成的HDFS文件导入至Hive数据仓库中。
作为本发明的进一步改进,
所述服务器B包括:
调用命令配置模块,用于输入数据传输接口的调用命令;
执行周期配置模块,用于配置执行调用指令的执行周期。
作为本发明的进一步改进,
所述服务器C包括:
数据传输接口配置模块,用于配置数据传输接口;
HDFS文件生成模块,用于将获取的数据转化为HDFS文件;
Hive数据仓库导入模块,用于将生成的HDFS文件导入至Hive数据仓库中。
作为本发明的进一步改进,
所述调用命令配置模块包括:
接口参数配置单元:用于配置数据传输接口的接口参数,接口参数包括数据筛选条件、服务器A的数据库地址、表名以及列名。
作为本发明的进一步改进,
所述服务器B还包括:
HDFS文件监控模块:用于监控服务器C中HDFS文件的生成情况;
指令发送模块:用于向服务器C发送将HDFS数据导入至Hive数据仓库的指令。
本发明的有益效果是:本申请技术方案提供的Hadoop数据仓库的自动导入数据方法及***,应用于关系型数据库到分布式***架构中Hive数据仓库的数据导入,实现了关系型数据库的数据能够定时定期地导入至Hadoop的Hive数据仓库中。与传统技术相比,面对复杂的传输和处理流程不需要人工进行操作,节省了工作人员的时间,而且不容易出错。
附图说明
图1为本发明Hadoop数据仓库的自动导入数据方法实施例的流程图;
图2为本发明Hadoop数据仓库的自动导入数据***实施例的结构框图;
图3为本发明Hadoop数据仓库的自动导入数据***实施例中服务器B的结构框图;
图4为本发明Hadoop数据仓库的自动导入数据***实施例中服务器C的结构框图;
图5为本发明Hadoop数据仓库的自动导入数据***实施例中调用命令配置模块的结构框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明进一步详细说明。
本发明Hadoop数据仓库的自动导入数据方法的实施例,如图1所示,包括:
步骤一100:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;
步骤二101:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;
步骤三102:服务器B按照执行周期定期执行调用命令;
步骤四103:服务器C从服务器A中获取数据并生成HDFS文件;
步骤五104:服务器C将生成的HDFS文件导入至Hive数据仓库中。
在本实施例中,所述步骤一具体包括:
服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。
服务器B通过调用服务器A中预先配置的数据传输接口能够实现服务器A和服务器C之间建立连接关系,并且服务器C从服务器A中获取指定的数据。
在本实施例中,
所述步骤三102和步骤四103之间还包括:
步骤A110:服务器B监控服务器A中HDFS文件的生成情况;
服务器C在从服务器A中获取数据时,会生成相应的HDFS文件,服务器B定时通过hadoopfs -get < hdfs file > < local file or dir>语句获取此hdfs文件,以此判断数据获取是否完成。
所述步骤四103和步骤五104之间还包括:
步骤B120:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。
在此过程中,服务器B向服务器C发送Hive接口的Load指令,服务器C在收到服务器B发送的指令后将HDFS文件导入至Hive数据仓库中。
本发明Hadoop数据仓库的自动导入数据***的实施例如图2-5所示,包括:
服务器A200,用于搭载存储基础数据的关系型数据库;
服务器B210,用于搭载作业调度器,用于预先配置调用所述数据传输接口的调用命令,以及按照执行周期定期执行调用命令;
服务器C220,用于搭载Hadoop数据仓库,用于预先配置从搭载关系型数据库的服务器A200中获取数据的数据传输接口,用于从服务器A200中获取数据并生成HDFS文件,以及将生成的HDFS文件导入至Hive数据仓库中。
在本实施例中,所述服务器B210包括:
调用命令配置模块211,用于输入数据传输接口的调用命令;
执行周期配置模块212,用于配置执行调用指令的执行周期。
在本实施例中,所述服务器C220包括:
数据传输接口配置模块221,用于配置数据传输接口;
HDFS文件生成模块222,用于将获取的数据转化为HDFS文件;
Hive数据仓库导入模块223,用于将生成的HDFS文件导入至Hive数据仓库中。
在本实施例中,所述调用命令配置模块211包括:
接口参数配置单元211a:用于配置数据传输接口的接口参数,接口参数包括数据筛选条件、服务器A200的数据库地址、表名以及列名。
作为本发明的进一步改进,
所述服务器B210还包括:
HDFS文件监控模块213:用于监控服务器C220中HDFS文件的生成情况;
指令发送模块214:用于向服务器C220发送将HDFS数据导入至Hive数据仓库的指令。
本发明应用于关系型数据库到分布式***架构中Hive数据仓库的数据导入,实现了关系型数据库的数据能够定时定期地导入至Hadoop的Hive数据仓库中。与传统技术相比,面对复杂的传输和处理流程不需要人工进行操作,节省了工作人员的时间,而且不容易出错。
需要说明的是,本发明中所述的服务器B和服务器C可以是同一服务器,当服务器B和服务器C为同一服务器时,该服务器同时搭载有Hadoop集群和作业调度器,通过在该服务器端进行相应的配置,同样能够实现本发明所能达到的效果。
以上实施例,只是本发明优选地具体实施例的一种,本领域技术人员在本发明技术方案范围内进行的通常变化和替换都包含在本发明的保护范围内。

Claims (8)

1.一种Hadoop数据仓库的自动导入数据方法,其特征在于:
包括:
步骤一:搭载Hadoop数据仓库的服务器C预先配置用于从搭载关系型数据库的服务器A中获取数据的数据传输接口;
步骤二:搭载作业调度器的服务器B预先配置用于调用所述数据传输接口的调用命令以及执行该调用命令的执行周期;
步骤三:服务器B按照执行周期定期执行调用命令;
步骤四:服务器C从服务器A中获取数据并生成HDFS文件;
步骤五:服务器C将生成的HDFS文件导入至Hive数据仓库中。
2.根据权利要求1中所述的Hadoop数据仓库的自动导入数据方法,其特征在于:
所述步骤一具体包括:
服务器C预先配置数据传输接口的接口参数,该接口参数包括用于和服务器A建立连接关系的服务器A的数据库地址、数据库用户名和密码、服务器C的主机名以及用户名和密码,以及用于获取指定数据的数据筛选条件、表名以及列名。
3.根据权利要求1或2中所述的Hadoop数据仓库的自动导入数据方法,其特征在于:
所述步骤三和步骤四之间还包括:
步骤A:服务器B监控服务器A中HDFS文件的生成情况;
所述步骤四和步骤五之间还包括:
步骤B:服务器B在监控到服务器A中HDFS文件生成完毕后向服务器C发送将HDFS数据导入至Hive数据仓库的指令。
4.一种Hadoop数据仓库的自动导入数据***,其特征在于:包括:
服务器A,用于搭载存储基础数据的关系型数据库;
服务器B,用于搭载作业调度器,用于预先配置调用所述数据传输接口的调用命令,以及按照执行周期定期执行调用命令;
服务器C,用于搭载Hadoop数据仓库,用于预先配置从搭载关系型数据库的服务器A中获取数据的数据传输接口,用于从服务器A中获取数据并生成HDFS文件,以及将生成的HDFS文件导入至Hive数据仓库中。
5.根据权利要求4中所述的Hadoop数据仓库的自动导入数据***,其特征在于:
所述服务器B包括:
调用命令配置模块,用于输入数据传输接口的调用命令;
执行周期配置模块,用于配置执行调用指令的执行周期。
6.根据权利要求4中所述的Hadoop数据仓库的自动导入数据***,其特征在于:
所述服务器C包括:
数据传输接口配置模块,用于配置数据传输接口;
HDFS文件生成模块,用于将获取的数据转化为HDFS文件;
Hive数据仓库导入模块,用于将生成的HDFS文件导入至Hive数据仓库中。
7.根据权利要求6中所述的Hadoop数据仓库的自动导入数据***,其特征在于:
所述调用命令配置模块包括:
接口参数配置单元:用于配置数据传输接口的接口参数,接口参数包括数据筛选条件、服务器A的数据库地址、表名以及列名。
8.根据权利要求5中所述的Hadoop数据仓库的自动导入数据***,其特征在于:
所述服务器B还包括:
HDFS文件监控模块:用于监控服务器C中HDFS文件的生成情况;
指令发送模块:用于向服务器C发送将HDFS数据导入至Hive数据仓库的指令。
CN201710325690.1A 2017-05-10 2017-05-10 Hadoop数据仓库的自动导入数据方法及*** Pending CN107145585A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710325690.1A CN107145585A (zh) 2017-05-10 2017-05-10 Hadoop数据仓库的自动导入数据方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710325690.1A CN107145585A (zh) 2017-05-10 2017-05-10 Hadoop数据仓库的自动导入数据方法及***

Publications (1)

Publication Number Publication Date
CN107145585A true CN107145585A (zh) 2017-09-08

Family

ID=59777108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710325690.1A Pending CN107145585A (zh) 2017-05-10 2017-05-10 Hadoop数据仓库的自动导入数据方法及***

Country Status (1)

Country Link
CN (1) CN107145585A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814435A (zh) * 2020-07-22 2020-10-23 济南浪潮数据技术有限公司 一种数据库数据传输方法、装置、设备及可读存储介质
CN112667733A (zh) * 2021-03-15 2021-04-16 北京焦点新干线信息技术有限公司 数据仓库数据导入方法与***
CN113722353A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 多源数据查询方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227500A (zh) * 2008-02-21 2008-07-23 上海交通大学 基于光网格的任务调度方法
CN102855297A (zh) * 2012-08-14 2013-01-02 北京高森明晨信息科技有限公司 一种控制数据传输的方法和连接器
CN103631868A (zh) * 2013-11-04 2014-03-12 中国电子科技集团公司第十五研究所 一种兼容关系数据库的数据管理***
US20160070778A1 (en) * 2014-09-09 2016-03-10 Sas Institute Inc. Techniques for dynamic partitioning in a distributed parallel computational environment
CN105930417A (zh) * 2016-04-18 2016-09-07 四川创意信息技术股份有限公司 一种基于云计算的大数据etl交互式处理平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101227500A (zh) * 2008-02-21 2008-07-23 上海交通大学 基于光网格的任务调度方法
CN102855297A (zh) * 2012-08-14 2013-01-02 北京高森明晨信息科技有限公司 一种控制数据传输的方法和连接器
CN103631868A (zh) * 2013-11-04 2014-03-12 中国电子科技集团公司第十五研究所 一种兼容关系数据库的数据管理***
US20160070778A1 (en) * 2014-09-09 2016-03-10 Sas Institute Inc. Techniques for dynamic partitioning in a distributed parallel computational environment
CN105930417A (zh) * 2016-04-18 2016-09-07 四川创意信息技术股份有限公司 一种基于云计算的大数据etl交互式处理平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814435A (zh) * 2020-07-22 2020-10-23 济南浪潮数据技术有限公司 一种数据库数据传输方法、装置、设备及可读存储介质
CN112667733A (zh) * 2021-03-15 2021-04-16 北京焦点新干线信息技术有限公司 数据仓库数据导入方法与***
CN113722353A (zh) * 2021-08-31 2021-11-30 平安国际智慧城市科技股份有限公司 多源数据查询方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN105045607B (zh) 一种实现多种大数据计算框架统一接口的方法
WO2019019400A1 (zh) 任务分布式处理方法、装置、存储介质和服务器
TWI547817B (zh) 叢集運算架構的資源規劃方法、系統及裝置
CN107145585A (zh) Hadoop数据仓库的自动导入数据方法及***
CN104636678B (zh) 一种云计算环境下对终端设备进行管控的方法和***
CN109726004B (zh) 一种数据处理方法及装置
CN107391243A (zh) 线程任务处理设备、装置及方法
CN107145576B (zh) 一种支持可视化和流程化的大数据etl调度***
CN108319499A (zh) 任务调度方法及装置
CN104391705A (zh) 一种应用于高可用集群软件的分布式自动化测试框架
CN115277692B (zh) 边缘网络计算终端设备自动运维方法、装置和***
CN108710530A (zh) 任务分布式处理方法、装置、网络终端设备和存储介质
CN106407432B (zh) 一种Oracle数据仓库的查询方法及装置
WO2015196805A1 (zh) 批命令的执行方法及装置
CN107153679B (zh) 一种针对半结构化大数据的提取统计方法及***
CN106210159A (zh) 一种域名解析方法和设备
CN116974994A (zh) 一种基于集群的高效能文件协作***
CN110868330B (zh) 云平台可划分cpu资源的评估方法、装置及评估***
CN112667393B (zh) 分布式任务计算调度框架搭建的方法、装置及计算机设备
CN115543345A (zh) 一种针对电力时序数据的分布式计算***及其实现方法
CN113821560A (zh) 一种基于dap平台的大数据处理方法及***
CN113220480A (zh) 分布式的数据任务跨云调度***及方法
CN112882696A (zh) 一种基于超级计算机的全要素模型训练***
JP5475736B2 (ja) 運用管理システム及びその監視設定方法
US10950328B2 (en) Method, apparatus and system for detecting structural variations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170908

RJ01 Rejection of invention patent application after publication