CN103198097A - 一种基于分布式文件***的海量地学数据并行处理方法 - Google Patents

一种基于分布式文件***的海量地学数据并行处理方法 Download PDF

Info

Publication number
CN103198097A
CN103198097A CN2013100768952A CN201310076895A CN103198097A CN 103198097 A CN103198097 A CN 103198097A CN 2013100768952 A CN2013100768952 A CN 2013100768952A CN 201310076895 A CN201310076895 A CN 201310076895A CN 103198097 A CN103198097 A CN 103198097A
Authority
CN
China
Prior art keywords
data
computing node
distributed file
scheduling system
job scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100768952A
Other languages
English (en)
Other versions
CN103198097B (zh
Inventor
黎建辉
沈庚
周园春
王学志
韦远科
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Computer Network Information Center of CAS
Original Assignee
Computer Network Information Center of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Computer Network Information Center of CAS filed Critical Computer Network Information Center of CAS
Priority to CN201310076895.2A priority Critical patent/CN103198097B/zh
Publication of CN103198097A publication Critical patent/CN103198097A/zh
Application granted granted Critical
Publication of CN103198097B publication Critical patent/CN103198097B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于分布式文件***的海量地学数据并行处理方法。本方法为:1)采用分布式文件***作为地学数据的存储***,部署在计算集群上;分布式文件***拥有统一的名称空间;2)计算集群的作业调度***将接收的计算作业保存到一等待队列中;3)调度***从等待队列中选择一个计算作业进入运行队列;4)调度***根据计算作业信息在分布式文件***的元数据中查找该计算作业运行需要的数据文件所在的计算节点;5)作业调度***挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并返回执行结果。本方法最大程度的做到了计算本地化。

Description

一种基于分布式文件***的海量地学数据并行处理方法
技术领域
本发明属于生态及地理信息学技术领域,涉及海量遥感地学数据的存储与并行处理,尤其涉及一种基于分布式文件***的海量地学数据并行处理方法,主要应用于遥感生态监测、物种分布预测以及遥感地学数据反演等相关领域的针对海量数据的处理方法。
背景技术
文件***是计算机***重要的组成部分,随着网络技术的发展,独立平台上的文件***有向高速局域网上发展的趋势,逐渐形成分布式计算机环境中的一个支撑技术-分布式文件***(Distributed File System)。分布式文件***的关键技术主要包括虚拟文件***、高速缓存技术以及所需的通讯技术(应朝晖高洪奎.《计算机工程与科学》1995年第3期。)分布式文件***是指文件***管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件***的设计基于客户机/服务器模式。
作业调度***又叫做任务调度***,用于将大批量的计算任务分配给多个计算单元,使这些计算单元可以并行的处理计算任务,最常见的是操作***的进程调度器。在一个分布式计算***中,作业调度器的主要功能是收集并管理计算任务,将任务合理的分配给网络上的各个节点,使批量的任务可以并行高效的执行。同时,它还要具备一些与作业执行相关的辅助功能,比如追踪作业执行的过程,回收作业执行的结果等等。作业调度***多用于高性能计算和计算网格中,调度技术的应用,不仅缩短了大批量计算任务的处理时间,而且使得计算集群的计算性能得以高效的发挥。
遥感影像是地理信息数据的主要组成部分,凡是纪录各种地物电磁波大小的胶片(或相片),都称为遥感影像,在这里主要是指航空像片和卫星像片。对于大量的遥感数据,想要从中获取有用的地学信息,需要使用复杂的计算机***对其进行处理。常见的软件工具像GDAL(Geospatial Data Abstraction Library),GDAL(http://www.gdal.org/)是一个在X/MIT许可协议下的开源栅格空间数据转换库。它利用抽象数据模型来表达所支持的各种文件格式,还包含一系列命令行工具来进行数据转换和处理。过去二十年里,对地观测已经获取了海量的影像数据。在下个十年,对地观测***(EOS)和其他地球观察平台将以每天超过115TB的速度产生海量影像数据。面对这些堆积如山的影像数据,如何从中高效地检索、显示用户感兴趣的数据成为当前的研究热点。(Ruixin Yang.Value range queries on earth science data viahistogram clustering[M].Lecture Notes In Computer Science,1999.)
地学影像数据大数据量和计算复杂度高的特点使得地学数据的处理,特别是海量数据相关的计算和对响应时间要求较高的在线数据计算服务成为了一个重大的挑战。因此需要一种方法能够解决海量地学数据的存储和快速处理的问题,并且能够提供高质量的数据计算服务。虽然一些传统的大数据处理技术已被应用于各个领域的数据处理,但对于以遥感影像文件为主的地学信息计算,受制于数据文件的特别格式和处理工具的单一使用方式,传统的处理技术很难在短时间内满足地学信息计算的需求。
发明内容
从以上的分析可以看出,地学数据的数据量非常大,遥感数据的存储和处理亟需高效可用的技术方案。单台服务器处理数据的方式受制于机器内存和存储空间的限制,无法满足处理海量数据的需求。现有的一些通用的大数据处理集群技术,比如MapReduce、MPI等,由于地学计算的特殊性,又无法方便快速的应用于地学数据的计算。针对现有技术存在的技术问题,本发明的目的在于提供一种基于分布式文件***的海量地学数据并行处理方法,本发明利用分布式文件***和作业调度技术,将一个单台服务器上运行的地学数据处理应用扩展为一个可在集群上高效并行执行的应用的技术。
本发明的技术方案为:
一种基于分布式文件***的海量地学数据并行处理方法,其步骤为:
1)采用分布式文件***作为地学数据的存储***,将所述分布式文件***部署在计算集群上;其中,所述分布式文件***拥有一个统一的名称空间;
2)计算集群的作业调度***将接收的计算作业保存到一等待队列中;
3)作业调度***从所述等待队列中选择一个计算作业进入运行队列;
4)作业调度***根据进入所述运行队列的计算作业信息,在分布式文件***的元数据中查找该计算作业运行需要的数据文件所在的计算节点;
5)作业调度***从4)所得计算节点中挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并将执行结果返回给作业调度***;
6)作业调度***从所述运行队列中删除该计算作业。
进一步的,每个地学数据文件在所述计算集群中存在至少一个副本;所有属于一个文件副本的数据都仅保存在一个计算节点上,其存储位置信息保存在分布式文件***的元数据中。
进一步的,每一计算节点具有多个磁盘,文件副本分为多个文件块,属于同一文件副本的文件块在多磁盘上随机均匀分布。
进一步的,所述作业调度***对所述等待队列中的计算作业请求实时备份到一磁盘文件中。
进一步的,所述作业调度***对所述等待队列中的计算作业请求实时备份到一关系数据库中。
进一步的,所述作业调度***根据先入先出策略从所述等待队列中选择一个作业进入所述运行队列。
进一步的,所述作业调度***部署在所述计算集群的调度器中。
本发明中使用高性能分布式文件***作为地学数据的存储***,同时由一个作业调度***管理用户提交的计算任务。分布式文件***部署在多台服务器上,每台服务器安装有多块硬盘,一个文件(即原文件或副本文件)被分散成多个文件块,文件块分布在多个硬盘上,这样,当有一个对某文件的IO请求出现时,文件***可以同时在多块磁盘上搜索属于这个文件的文件块,文件的IO将由多块磁盘同时发起。本发明中的分布式文件***拥有统一的名称空间,计算集群中的所有节点(节点即分布式框架或计算集群中的一服务器)都可挂载此文件***,可以使用这个统一的名称空间,所以每个计算节点都可以访问到文件***中的所有地学数据文件。文件***支持文件副本,即每个文件在集群中都存在一个或一个以上的副本。在每个计算节点上,属于同一文件副本的文件块在多磁盘上的分布使用随机的均匀分布,但属于同一文件副本的文件块不会跨节点存储,即所有属于一个文件副本的数据都仅保存在一个计算节点上。文件副本的物理位置是固定的,其位置相关信息保存在分布式文件***的元数据中。
与现有技术相比,本发明的积极效果为:
本发明为了保证作业相关信息的安全性,调度***中的队列都有一个在本地存储***上的实时备份,这个备份保存在磁盘文件或者关系数据库中,与内存中的队列保持一致,在遇到类似于断电这种***无法预防的特殊情况时,作业的完整信息不会丢失,在作业调度***重新启动后,内存中的队列会恢复到断电前最后一次保存的状态。
一个计算作业可能需要不止一个输入文件,借助分布式文件***的功能支持,调度***可以获取所有输入文件的位置和文件大小,通过简单计算即可选择出持有输入文件数据量最大的计算节点,为最大程度的做到计算本地化,调度***会把作业安排到这个节点。
附图说明
附图为地学计算作业调度***工作流程图。
具体实施方式
在很多分布式计算框架中,对海量数据的处理最大的问题就是很难避免大量数据在网络上的传输。比如常用的开源MapReduce***Hadoop,很多算法在Reduce阶段会在网络上产生较大的流量,由于CPU处理速度与网络传输速度之间存在巨大差别,整个计算过程的效率最大的瓶颈往往在于此。由于地学数据具有数据量大,计算复杂程度高的特点,使用常规的分布式计算方式很难满足用户对计算时间的要求,为了解决这个问题,本发明设计了一个作业调度***,结合具备特定功能(允许用户指定文件副本的物理位置,使得某一文件副本的所有数据块都可以保存在一台节点上,无需通过网络传输就可以保证需要读取此副本的计算作业获取到所需数据)的分布式文件***,根据计算需要的地学数据文件的所在位置,将复杂的计算作业安排到文件所在的服务器上执行,尽可能的减少海量数据在网络上的传输,计算作业对输入文件的读取基本上被限制在本地磁盘的读操作,最大程度的做到了计算本地化。本发明中最核心的部分是作业调度***,作业调度***主要由两个队列构成,等待队列中保存了所有用户提交的但还未被分配的作业,运行队列保存了所有已被分配到某台服务器,正在运行的作业。作业调度***在短时间内接受大量的前端***提交的计算作业,根据提交的作业中包含的地学数据相关信息计算出本次计算需要的地学数据文件的分布,找到包含所需数据最多的计算节点,将作业分配到这个节点。
如图所示,本发明作业调度***的工作流程如下:
1.接收新作业进入等待队列。
2.更新等待队列的备份。
3.根据先入先出策略选择一个作业进入运行队列。
4.根据进入运行队列的作业中包含的关于输入数据的文件信息(文件在分布式文件***中保存的路径),在分布式文件***的元数据中查找此作业运行需要的数据文件分布在哪些计算节点上。
5.挑选一个持有需要数据最多的计算节点。
6.在这个计算节点上执行作业,作业所需的所有数据从分布式文件***中读取。由于大部分数据保存在本地,计算作业只需获取少量的远程数据,网络流量较小。
7.计算节点与调度器保持通信。
8.计算节点通知调度器作业完成。
9.调度器取回运算结果将作业从运行队列中删除。

Claims (7)

1.一种基于分布式文件***的海量地学数据并行处理方法,其步骤为:
1)采用分布式文件***作为地学数据的存储***,将所述分布式文件***部署在计算集群上;其中,所述分布式文件***拥有一个统一的名称空间;
2)计算集群的作业调度***将接收的计算作业保存到一等待队列中;
3)作业调度***从所述等待队列中选择一个计算作业进入运行队列;
4)作业调度***根据进入所述运行队列的计算作业信息,在分布式文件***的元数据中查找该计算作业运行需要的数据文件所在的计算节点;
5)作业调度***从4)所得计算节点中挑选一持有该计算作业运行需要的数据最多的计算节点;该计算节点远程获取该计算作业需要但该计算节点未持有的数据文件,然后在该计算节点执行该计算作业,并将执行结果返回给作业调度***;
6)作业调度***从所述运行队列中删除该计算作业。
2.如权利要求1所述的方法,其特征在于每个地学数据文件在所述计算集群中存在至少一个副本;所有属于一个文件副本的数据都仅保存在一个计算节点上,其存储位置信息保存在分布式文件***的元数据中。
3.如权利要求2所述的方法,其特征在于每一计算节点具有多个磁盘,文件副本分为多个文件块,属于同一文件副本的文件块在多磁盘上随机均匀分布。
4.如权利要求1或2或3所述的方法,其特征在于所述作业调度***对所述等待队列中的计算作业请求实时备份到一磁盘文件中。
5.如权利要求1或2或3所述的方法,其特征在于所述作业调度***对所述等待队列中的计算作业请求实时备份到一关系数据库中。
6.如权利要求1所述的方法,其特征在于所述作业调度***根据先入先出策略从所述等待队列中选择一个作业进入所述运行队列。
7.如权利要求1所述的方法,其特征在于所述作业调度***部署在所述计算集群的调度器中。
CN201310076895.2A 2013-03-11 2013-03-11 一种基于分布式文件***的海量地学数据并行处理方法 Active CN103198097B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310076895.2A CN103198097B (zh) 2013-03-11 2013-03-11 一种基于分布式文件***的海量地学数据并行处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310076895.2A CN103198097B (zh) 2013-03-11 2013-03-11 一种基于分布式文件***的海量地学数据并行处理方法

Publications (2)

Publication Number Publication Date
CN103198097A true CN103198097A (zh) 2013-07-10
CN103198097B CN103198097B (zh) 2016-02-10

Family

ID=48720655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310076895.2A Active CN103198097B (zh) 2013-03-11 2013-03-11 一种基于分布式文件***的海量地学数据并行处理方法

Country Status (1)

Country Link
CN (1) CN103198097B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530182A (zh) * 2013-10-22 2014-01-22 海南大学 一种作业调度方法和装置
CN103631657A (zh) * 2013-11-19 2014-03-12 浪潮电子信息产业股份有限公司 一种基于MapReduce的任务调度算法
CN105205183A (zh) * 2015-10-29 2015-12-30 哈尔滨工业大学 一种基于xml的dds分布式***自动构建方法
CN105426235A (zh) * 2015-11-06 2016-03-23 东莞理工学院 一种陆地大气气溶胶反演分布式工作流依赖关系刻画方法
CN106227397A (zh) * 2016-08-05 2016-12-14 北京市计算中心 基于应用虚拟化技术的计算集群作业管理***及方法
CN106250473A (zh) * 2016-07-29 2016-12-21 江苏物联网研究发展中心 遥感影像云存储方法
CN106371931A (zh) * 2016-09-30 2017-02-01 电子科技大学 一种基于Web框架的高性能地学计算服务***
CN107729435A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 分布式文件***任务分派的方法、装置、设备和存储介质
CN108763299A (zh) * 2018-04-19 2018-11-06 贵州师范大学 一种大规模数据处理计算加速***
CN111897792A (zh) * 2020-08-11 2020-11-06 北京无线电测量研究所 一种分布式文件存取方法、***、介质及设备
CN113176910A (zh) * 2021-04-29 2021-07-27 南方电网科学研究院有限责任公司 一种分布式文件***算法并行执行方法
CN114661637A (zh) * 2022-02-28 2022-06-24 中国科学院上海天文台 针对射电天文数据密集型科学运算的数据处理***及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055328A1 (en) * 2003-09-10 2005-03-10 Hitachi, Ltd. Method and apparatus for data integration
CN102033889A (zh) * 2009-09-29 2011-04-27 熊凡凡 分布式数据库并行处理***
CN102880832A (zh) * 2012-08-28 2013-01-16 曙光信息产业(北京)有限公司 一种集群下的数据海量管理的***的实现方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050055328A1 (en) * 2003-09-10 2005-03-10 Hitachi, Ltd. Method and apparatus for data integration
CN102033889A (zh) * 2009-09-29 2011-04-27 熊凡凡 分布式数据库并行处理***
CN102880832A (zh) * 2012-08-28 2013-01-16 曙光信息产业(北京)有限公司 一种集群下的数据海量管理的***的实现方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103530182A (zh) * 2013-10-22 2014-01-22 海南大学 一种作业调度方法和装置
CN103631657A (zh) * 2013-11-19 2014-03-12 浪潮电子信息产业股份有限公司 一种基于MapReduce的任务调度算法
CN103631657B (zh) * 2013-11-19 2017-08-25 浪潮电子信息产业股份有限公司 一种基于MapReduce的任务调度方法
CN105205183A (zh) * 2015-10-29 2015-12-30 哈尔滨工业大学 一种基于xml的dds分布式***自动构建方法
CN105205183B (zh) * 2015-10-29 2018-06-22 哈尔滨工业大学 一种基于xml的dds分布式***自动构建方法
CN105426235B (zh) * 2015-11-06 2018-09-25 东莞理工学院 一种陆地大气气溶胶反演分布式工作流依赖关系刻画方法
CN105426235A (zh) * 2015-11-06 2016-03-23 东莞理工学院 一种陆地大气气溶胶反演分布式工作流依赖关系刻画方法
CN106250473A (zh) * 2016-07-29 2016-12-21 江苏物联网研究发展中心 遥感影像云存储方法
CN106250473B (zh) * 2016-07-29 2019-11-12 江苏物联网研究发展中心 遥感影像云存储方法
CN106227397A (zh) * 2016-08-05 2016-12-14 北京市计算中心 基于应用虚拟化技术的计算集群作业管理***及方法
CN106371931B (zh) * 2016-09-30 2019-11-05 电子科技大学 一种基于Web框架的高性能地学计算服务***
CN106371931A (zh) * 2016-09-30 2017-02-01 电子科技大学 一种基于Web框架的高性能地学计算服务***
CN107729435A (zh) * 2017-09-29 2018-02-23 郑州云海信息技术有限公司 分布式文件***任务分派的方法、装置、设备和存储介质
CN108763299A (zh) * 2018-04-19 2018-11-06 贵州师范大学 一种大规模数据处理计算加速***
CN111897792A (zh) * 2020-08-11 2020-11-06 北京无线电测量研究所 一种分布式文件存取方法、***、介质及设备
CN113176910A (zh) * 2021-04-29 2021-07-27 南方电网科学研究院有限责任公司 一种分布式文件***算法并行执行方法
CN114661637A (zh) * 2022-02-28 2022-06-24 中国科学院上海天文台 针对射电天文数据密集型科学运算的数据处理***及方法
CN114661637B (zh) * 2022-02-28 2023-03-24 中国科学院上海天文台 针对射电天文数据密集型科学运算的数据处理***及方法

Also Published As

Publication number Publication date
CN103198097B (zh) 2016-02-10

Similar Documents

Publication Publication Date Title
CN103198097B (zh) 一种基于分布式文件***的海量地学数据并行处理方法
Padhy Big data processing with Hadoop-MapReduce in cloud systems
Hongchao et al. Distributed data organization and parallel data retrieval methods for huge laser scanner point clouds
US9774676B2 (en) Storing and moving data in a distributed storage system
CN102200979A (zh) 一种分布式并行信息检索***及其方法
CN106570145B (zh) 一种基于分层映射的分布式数据库结果缓存方法
CN103491155A (zh) 一种实现移动计算和获取移动数据的云计算方法及***
CN106815254A (zh) 一种数据处理方法和装置
CN111258978A (zh) 一种数据存储的方法
US11818012B2 (en) Online restore to different topologies with custom data distribution
US11223528B2 (en) Management of cloud-based shared content using predictive cost modeling
Su et al. Sdquery dsi: integrating data management support with a wide area data transfer protocol
EP3646187B1 (en) Cost-based garbage collection scheduling in a distributed storage environment
Merceedi et al. A comprehensive survey for hadoop distributed file system
Zhang et al. Oceanrt: Real-time analytics over large temporal data
Banaei et al. Hadoop and its role in modern image processing
Davoudian et al. A workload-adaptive streaming partitioner for distributed graph stores
Azari et al. A data replication algorithm for groups of files in data grids
CN112597369A (zh) 基于改良云平台的网页蜘蛛主题式搜索***
Mansouri et al. Weighted data replication strategy for data grid considering economic approach
Pan et al. A remote sensing image cloud processing system based on Hadoop
CN112988904A (zh) 一种分布式数据管理***及数据存储方法
Alikhan et al. Dingo optimization based network bandwidth selection to reduce processing time during data upload and access from cloud by user
Jin et al. Optimization of task assignment strategy for map-reduce
Jolfaei et al. Improvement of job scheduling and tow level data replication strategies in data grid

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant