CN104408047A - 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法 - Google Patents

一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法 Download PDF

Info

Publication number
CN104408047A
CN104408047A CN201410584207.8A CN201410584207A CN104408047A CN 104408047 A CN104408047 A CN 104408047A CN 201410584207 A CN201410584207 A CN 201410584207A CN 104408047 A CN104408047 A CN 104408047A
Authority
CN
China
Prior art keywords
node
file
uploading
hdfs
uploaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410584207.8A
Other languages
English (en)
Inventor
房体盈
辛国茂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Langchao Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Langchao Electronic Information Industry Co Ltd filed Critical Langchao Electronic Information Industry Co Ltd
Priority to CN201410584207.8A priority Critical patent/CN104408047A/zh
Publication of CN104408047A publication Critical patent/CN104408047A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提供一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法,是选取HDFS集群中N个主机,然后选择任一节点作为主节点,其他N-1个节点作为从节点,在主节点上,获取要上传的NFS文件服务器要上传目录下文件,对于每一个文件,采用并行上传方法,即集群中所有机器都参与上传,集群中每一台主机负责上传每一个文件1/N大小的连续的数据块,达到并行上传的目的,从而提高上传速度。

Description

一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法
技术领域
本发明涉及大数据存储技术领域, 具体地说是一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法。
背景技术
伴随着计算机网络的发展,海量数据的时代已经到来。互联网数据中心预测全球的数据使用量到2020年将会增长44倍,达到35.2ZB。
对于如此大数据集的存储、分析、管理和挖掘,传统技术(包括传统关系数据库)是无法胜任的,如何最快最好的分析和理解这些数据是摆在大家面前的当务之急。而在现在已拥有的技术和工具中,最成熟也最成功的一套大数据解决方案为Hadoop文件存储计算框架及构架于其上的相关组件。对于每天生成的大量文本文件,如果快速的上传到HDFS用于后续的处理,是当前面临的一个问题。为解决文本文件快速上传的问题,本文提出了一种基于基于NFS文件服务器的文本文件多机并行上传到HDFS方法。
HDFS默认采用三副本机制,对于HDFS的客户端来说,当某一个用户正在用一个客户端来向HDFS中写数据,如果该客户端上有DataNode节点,NameNode最优先考虑把正在写入的数据的一个副本保存在这个客户端的DataNode节点上,另外两个副本保存到集群其他DataNode节点上,这样在整个集群中,如果仅有一个客户端写入操作的话,集群中只有3个DataNode节点工作,其他DataNode节点是空闲的,不能发挥整个集群的性能。
发明内容
本发明的目的是提供一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法。
本发明的目的是按以下方式实现的,选取HDFS集群中N个主机,然后选择任一节点作为主节点,其他N-1个节点作为从节点,在主节点上,获取要上传的NFS文件服务器要上传目录下文件,对于每一个文件,采用并行上传方法,即集群中所有机器都参与上传,集群中每一台主机负责上传每一个文件1/N大小的连续的数据块,达到并行上传的目的,从而提高上传速度,具体步骤流程为:
1)主节点上MainPut程序计算N个节点每个节点待上传数据块起止字节流,并启动N个节点上BlockPut程序并行上传;如果第一次运行,会在每一个节点上安装一个可执行程序BlockPut,用于上传本节点所负责上传的数据块,然后向每一个从节点发起命令启动BlockPut程序;
2)每个节点上BlockPut程序负责将待上传数据块上传到HDFS,BlockPut打开一个待上传文件输入流InputStream,InputStream定位到起始字节流,后在HDFS上创建一个独立文件,将起止字节流写入到HDFS独立文件中。
将待上传目录挂载到N个节点的默认统一目录。
N不大于NFS文件服务器并行读时可达最大带宽时的客户端数,
本发明的目的有益效果是:本分明选取了集群中N个节点作为客户端,将一个文件分成N个数据块同时上传,每个客户端负责一块,每个分块在HDFS上保存为一个独立的文件,能最大限度的利用整个集群的性能。将一个文本文件分块并行上传,最大限度的发挥集群的性能,提高上传效率。
附图说明
图1 是基于多机并行上传处理框架图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
选取HDFS集群中N个主机,然后选择任一节点作为主节点,其他N-1个节点作为从节点,在主节点上,获取要上传的NFS文件服务器要上传目录下文件,对于每一个文件,采用并行上传方法,即集群中所有机器都参与上传,集群中每一台主机负责上传每一个文件1/N大小的连续的数据块,达到并行上传的目的,从而提高上传速度, 本发明的一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法, 整个流程为:
1)主节点上MainPut程序计算N个节点每个节点待上传数据块起止字节流,,并启动N个节点上BlockPut程序并行上传;如果第一次运行,会在每一个节点上安装一个可执行程序BlockPut,用于上传本节点所负责上传的数据块,然后向每一个从节点发起命令启动BlockPut程序;
2)每个节点上BlockPut程序负责将待上传数据块上传到HDFS,BlockPut打开一个待上传文件输入流InputStream,InputStream定位到起始字节流,后在HDFS上创建一个独立文件,将起止字节流写入到HDFS独立文件中。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (3)

1.一种基于NFS文件服务器的文本文件多机并行上传到HDFS方法, 其特征在于,选取HDFS集群中N个主机,然后选择任一节点作为主节点,其他N-1个节点作为从节点,在主节点上,获取要上传的NFS文件服务器要上传目录下文件,对于每一个文件,采用并行上传方法,即集群中所有机器都参与上传,集群中每一台主机负责上传每一个文件1/N大小的连续的数据块,达到并行上传的目的,从而提高上传速度,具体步骤流程为:
主节点上MainPut程序计算N个节点每个节点待上传数据块起止字节流,并启动N个节点上BlockPut程序并行上传;如果第一次运行,会在每一个节点上安装一个可执行程序BlockPut,用于上传本节点所负责上传的数据块,然后向每一个从节点发起命令启动BlockPut程序;
2)每个节点上BlockPut程序负责将待上传数据块上传到HDFS,BlockPut打开一个待上传文件输入流InputStream,InputStream定位到起始字节流,后在HDFS上创建一个独立文件,将起止字节流写入到HDFS独立文件中。
2.根据权利要求1所述的方法,其特征在于将待上传目录挂载到N个节点的默认统一目录。
3.根据权利要求1所述的方法,其特征在于,N不大于NFS文件服务器并行读时可达最大带宽时的客户端数。
CN201410584207.8A 2014-10-28 2014-10-28 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法 Pending CN104408047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410584207.8A CN104408047A (zh) 2014-10-28 2014-10-28 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410584207.8A CN104408047A (zh) 2014-10-28 2014-10-28 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法

Publications (1)

Publication Number Publication Date
CN104408047A true CN104408047A (zh) 2015-03-11

Family

ID=52645679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410584207.8A Pending CN104408047A (zh) 2014-10-28 2014-10-28 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法

Country Status (1)

Country Link
CN (1) CN104408047A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357317A (zh) * 2015-12-07 2016-02-24 金蝶软件(中国)有限公司 一种基于多客户端轮循排队的数据上传方法及***
CN105357280A (zh) * 2015-10-19 2016-02-24 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105610899A (zh) * 2015-12-10 2016-05-25 浪潮(北京)电子信息产业有限公司 一种文本文件并行上传方法及装置
CN106339473A (zh) * 2016-08-29 2017-01-18 北京百度网讯科技有限公司 文件复制方法及装置
CN107800691A (zh) * 2017-10-12 2018-03-13 云巅(上海)网络科技有限公司 基于分布式存储机制实现按需构建应用程序访问数据副本的***及方法
CN108280214A (zh) * 2017-02-02 2018-07-13 马志强 应用于分布式基因组分析的快速i/o***
CN109325002A (zh) * 2018-09-03 2019-02-12 北京京东金融科技控股有限公司 文本文件处理方法、装置、***、电子设备、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110237A1 (en) * 2001-12-06 2003-06-12 Hitachi, Ltd. Methods of migrating data between storage apparatuses
CN101227460A (zh) * 2007-01-19 2008-07-23 秦晨 分布式文件上传、下载方法及其装置和***
CN103530388A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种云存储***中提升性能的数据处理方法
CN103544285A (zh) * 2013-10-28 2014-01-29 华为技术有限公司 一种数据加载方法及装置
CN103970881A (zh) * 2014-05-16 2014-08-06 浪潮(北京)电子信息产业有限公司 一种实现文件上传的方法及***
CN103971066A (zh) * 2014-05-20 2014-08-06 浪潮电子信息产业股份有限公司 一种hdfs中大数据迁移完整性验证的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030110237A1 (en) * 2001-12-06 2003-06-12 Hitachi, Ltd. Methods of migrating data between storage apparatuses
CN101227460A (zh) * 2007-01-19 2008-07-23 秦晨 分布式文件上传、下载方法及其装置和***
CN103530388A (zh) * 2013-10-22 2014-01-22 浪潮电子信息产业股份有限公司 一种云存储***中提升性能的数据处理方法
CN103544285A (zh) * 2013-10-28 2014-01-29 华为技术有限公司 一种数据加载方法及装置
CN103970881A (zh) * 2014-05-16 2014-08-06 浪潮(北京)电子信息产业有限公司 一种实现文件上传的方法及***
CN103971066A (zh) * 2014-05-20 2014-08-06 浪潮电子信息产业股份有限公司 一种hdfs中大数据迁移完整性验证的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨锋 等: "基于Hadoop 的海量农业数据资源管理平台", 《计算机工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357280A (zh) * 2015-10-19 2016-02-24 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105357280B (zh) * 2015-10-19 2019-02-19 福建新大陆软件工程有限公司 一种基于hdfs的文件溯源ftp***
CN105357317A (zh) * 2015-12-07 2016-02-24 金蝶软件(中国)有限公司 一种基于多客户端轮循排队的数据上传方法及***
CN105357317B (zh) * 2015-12-07 2019-06-07 金蝶软件(中国)有限公司 一种基于多客户端轮循排队的数据上传方法及***
CN105610899A (zh) * 2015-12-10 2016-05-25 浪潮(北京)电子信息产业有限公司 一种文本文件并行上传方法及装置
CN105610899B (zh) * 2015-12-10 2019-09-24 浪潮(北京)电子信息产业有限公司 一种文本文件并行上传方法及装置
CN106339473A (zh) * 2016-08-29 2017-01-18 北京百度网讯科技有限公司 文件复制方法及装置
CN108280214A (zh) * 2017-02-02 2018-07-13 马志强 应用于分布式基因组分析的快速i/o***
CN107800691A (zh) * 2017-10-12 2018-03-13 云巅(上海)网络科技有限公司 基于分布式存储机制实现按需构建应用程序访问数据副本的***及方法
CN109325002A (zh) * 2018-09-03 2019-02-12 北京京东金融科技控股有限公司 文本文件处理方法、装置、***、电子设备、存储介质

Similar Documents

Publication Publication Date Title
CN104408047A (zh) 一种基于nfs文件服务器的文本文件多机并行上传到hdfs方法
CN111966684B (zh) 用于分布式数据集索引的装置、方法和计算机程序产品
EP3080720B1 (en) Social-driven recaching of accessible objects
US20190114537A1 (en) Distributed training and prediction using elastic resources
US11716271B2 (en) Automated data flows using flow-based data processor blocks
US20140115282A1 (en) Writing data from hadoop to off grid storage
US9767040B2 (en) System and method for generating and storing real-time analytics metric data using an in memory buffer service consumer framework
US9715532B1 (en) Systems and methods for content object optimization
US10284671B2 (en) Dynamic bundling of web components for asynchronous delivery
US9712612B2 (en) Method for improving mobile network performance via ad-hoc peer-to-peer request partitioning
JP7038740B2 (ja) キャッシュ最適化及び効率的な処理のためのデータ集約の方法
JP6386089B2 (ja) 最適化されたブラウザレンダリングプロセス
US9754015B2 (en) Feature rich view of an entity subgraph
Pal et al. Big data real time ingestion and machine learning
US20160259494A1 (en) System and method for controlling video thumbnail images
Dev et al. A survey of different technologies and recent challenges of big data
US20170236132A1 (en) Automatically modeling or simulating indications of interest
Chen et al. The research about video surveillance platform based on cloud computing
US20220231980A1 (en) Enhancing a social media post with content that is relevant to the audience of the post
US11481168B2 (en) Data streams of production intents
Ting et al. Smart video hosting and processing platform for Internet-of-Things
US10540669B2 (en) Managing object values and resource consumption
US9767217B1 (en) Streaming graph computations in a distributed processing system
Li et al. Enabling performance as a service for a cloud storage system
Basha et al. Storage and processing speed for knowledge from enhanced cloud computing with Hadoop frame work: A survey

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150311

WD01 Invention patent application deemed withdrawn after publication