CN103699656A - 一种基于GPU的面向海量多媒体数据的MapReduce平台 - Google Patents

一种基于GPU的面向海量多媒体数据的MapReduce平台 Download PDF

Info

Publication number
CN103699656A
CN103699656A CN201310738761.2A CN201310738761A CN103699656A CN 103699656 A CN103699656 A CN 103699656A CN 201310738761 A CN201310738761 A CN 201310738761A CN 103699656 A CN103699656 A CN 103699656A
Authority
CN
China
Prior art keywords
data
platform
gpu
task
mapreduce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310738761.2A
Other languages
English (en)
Inventor
王瀚漓
肖波
王雷
朱冯贶天
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201310738761.2A priority Critical patent/CN103699656A/zh
Publication of CN103699656A publication Critical patent/CN103699656A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于GPU的面向海量多媒体数据的MapReduce平台,包括平台驱动器和工作子模块,平台驱动器采用MapReduce计算模型将图像/视频检索处理任务分割为若干Map任务,Map任务的数据存储在HDFS中,每个Map任务启动时,利用平台驱动器传入的文件列表获取任务数据,并将具体的计算任务分配给所述的工作子模块计算,工作子模块中的任务调度器将任务派发给GPU或CPU处理,在计算处理过程中通过HDFS的本地库libhdfs.so获得计算所需的数据,之后将计算处理后的数据直接写入HDFS。与现有技术相比,本发明可以实现海量多媒体数据的高性能处理,不仅能大大提高计算速度,同时还能保证计算精度。

Description

一种基于GPU的面向海量多媒体数据的MapReduce平台
技术领域
本发明涉及海量数据处理与高性能计算处理技术领域,尤其是涉及一种基于GPU的面向海量多媒体数据的MapReduce平台。 
背景技术
当信息时代进入到Web2.0之后,随着多媒体原创互动体系的崛起,网络多媒体和移动多媒体等新媒体的流行,以及便携智能终端设备(如:IPhone,IPad、笔记本等)的流行和普及,互联网上的多媒体(如视频、图像等)数量正呈现海量级***式地增长。海量的图片与视频在互联网上传输,通过互联网搜索和观看丰富的图片和视频资源已成为广大网民获取信息的重要方式。面对海量的多媒体数据,如何有效地对其进行组织、管理、搜索已成为一项迫切的任务,也是多媒体、搜索引擎、数据挖掘等领域的研究热点。为此,不仅需要先进的算法对视频数据进行基于内容的分析与理解;针对分析处理所需的巨大计算量,还需要云计算平台、GPU(Graphics Processing Unit)等以支持对海量的多媒体数据进行处理。云计算是基于互联网的一种新兴计算模式,旨在通过互联网上异构、自治的服务为个人和企业用户提供按需即取的计算。MapReduce是由Google提出的一种实现云计算的分布式计算框架。云计算将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算能力、存储空间以及各种软件服务。 
近年来,随着集成电路和半导体产业的蓬勃发展,GPU的计算性能有了迅猛的发展。与此同时GPGPU(General Programming for GPU)的出现使得GPU不再局限于传统的图形图像处理与显示,还可以作为高性能的通用计算设备。CUDA就是这样一套由NVidia公司提出的用于在GPU上解决并行运算的软件架构。同时由于GPU的硬件发展速度大大超过CPU的发展速度,也使得GPU的性能成倍提升,因而越来越受到广大科研工作者、应用工程师的重视。 
对于视频,其不同于传统文档,它需要通过提取海量的特征来表征其复杂的数 据,尤其是局部特征点,对计算量的需求更大。对视频数据的分析和处理将给普通的计算机***带来巨大的负担。面对视频信息成指数形式增长现状,尤其是网络视频的***式发展,传统的计算和存储模式难以满足对这些海量数据信息进行分析和处理。云计算借助其大规模、可扩展、非结构化数据处理等技术优势,正是解决这一问题的极佳平台和解决方案。 
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于GPU的面向海量多媒体数据的MapReduce平台。 
本发明的目的可以通过以下技术方案来实现:一种基于GPU的面向海量多媒体数据的MapReduce平台,利用计算机集群实现对图像/视频检索任务的计算处理,每个计算机集群中设有多个CPU和GPU,其特征在于,所述的平台建立在CUDA和HDFS之上,包括平台驱动器和工作子模块,所述的平台驱动器采用MapReduce计算模型,调度计算机集群节点上的主控程序将图像/视频检索处理任务分割为若干Map任务,所述的Map任务的数据存储在HDFS中,每个Map任务启动时,利用平台驱动器传入的文件列表获取任务数据,并将具体的计算任务分配给所述的工作子模块计算,所述的工作子模块中的任务调度器将任务派发给GPU或CPU处理,在计算处理过程中通过HDFS的本地库libhdfs.so获得计算所需的数据,之后将计算处理后的数据直接写入HDFS。 
所述的平台驱动器和工作子模块之间采用Protocol Buffer序列化协议作为传输协议,以简化二者之间数据交换的复杂性,同时利用JNI技术进行交互,以保证其交互的高效性。 
所述的平台驱动器使用Java语言编写,是Hadoop框架在具体应用中的实现与拓展。 
所述的工作子模块建立在CUDA基础上使用C/C++和CUDA-C语言编写。 
所述的工作子模块在计算处理过程中采用分布式缓存技术,以减少实现具有数据不变性的图像/视频检索处理算法时HDFS的网络传输,提高整个集群的性能。 
所述的平台驱动器负责管理平台的软、硬件资源,控制平台的工作流程,其主要工作包括任务的启动、切分、调度、容错处理等;所述的工作子模块则是主要图像、视频检索处理算法如特征点提取、聚类等的实现,承担了平台中最为繁重的计 算任务。不同的工作子模块在平台驱动器的管理下,相互协作完成某个任务,与此同时它们之间又保持着相互独立性,利于平台的维护与扩展。 
与现有技术相比,本发明是一套完整的海量多媒体数据分析理论及技术体系,通过该本发明平台,可以实现海量多媒体数据的高性能处理,以满足视频内容分析、视频检索、图像检索及事件检测等多种服务需求,不仅能大大提高计算速度,同时还能保证计算精度。 
附图说明
图1为本发明的框架示意图; 
图2为本发明平台驱动器的功能模块示意图; 
图3为本发明工作子模块的功能模块示意图。 
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。 
如图1-3所示,一种基于GPU的面向海量多媒体数据的MapReduce平台,利用计算机集群实现对图像/视频检索任务的计算处理,每个计算机集群中设有多个CPU和GPU,其特征在于,所述的平台建立在CUDA和HDFS之上,包括平台驱动器1和工作子模块2,所述的平台驱动器1负责管理平台的软、硬件资源,控制平台的工作流程,其主要工作包括任务的启动、切分、调度、容错处理等;所述的工作子模块2则是主要图像、视频检索处理算法如特征点提取、聚类等的实现,承担了平台中最为繁重的计算任务。不同的工作子模块2在平台驱动器1的管理下,相互协作完成某个任务,与此同时它们之间又保持着相互独立性,利于平台的维护与扩展。所述的平台驱动器1和工作子模块2之间采用Protocol Buffer序列化协议作为传输协议,以简化二者之间数据交换的复杂性,同时利用JNI技术进行交互,以保证其交互的高效性。所述的平台驱动器1使用Java语言编写,是Hadoop框架在具体应用中的实现与拓展。所述的工作子模块2建立在CUDA基础上使用C/C++和CUDA-C语言编写。 
所述的平台驱动器1采用MapReduce计算模型,调度计算机集群节点上的主控程序将图像/视频检索处理任务分割为若干Map任务,所述的Map任务的数据存储在HDFS中。每个Map任务启动时,利用平台驱动器1传入的文件列表获取任 务数据,并将具体的计算任务分配给所述的工作子模块2计算,所述的工作子模块2中的任务调度器将任务派发给GPU或CPU处理,在计算处理过程中通过HDFS的本地库libhdfs.so获得计算所需的数据,之后将计算处理后的数据直接写入HDFS。所述的工作子模块2在计算处理过程中采用分布式缓存技术,以减少实现具有数据不变性的图像/视频检索处理算法时HDFS的网络传输,提高整个集群的性能。 
实施例:在一个由12个主机节点,每个节点包含一个CPU和两个GPU的计算机集群上进行了大量的图像/视频检索处理实验。实验表明,本发明平台不仅能大大加速处理速度(最高处达到近1500倍),同时也能大大提高算法精度。集群配置如表1所示: 
表1计算机集群配置 
Figure BDA0000447976230000041
从上表可以看到,本发明平台可以在普通廉价的PC机集群上运行,而不需要专门的昂贵的服务器集群,且性能毫不逊色于后者。本实施例选用了不同的数据集在本发明平台上进行实验,其中包括MSR-Bing、Flickr100k、CCVideo和Oxford等,其图片数量已达到百万级,特征点数量已超过亿级。在对Flickr100k图片集进行聚类算法时,其加速比如表2所示: 
表2在对Flickr100k图片集进行聚类算法时的加速比 
Figure BDA0000447976230000051
其中: 
S——单机版单线程程序 
C——本发明平台不启用GPU加速 
C+G——本发明平台启用GPU加速 
实验过程中,整个平台工作流畅,基本不需要人为干预和监督。从表2可以看出,本发明平台在不启用GPU时,加速比与主机数成正比;启用GPU后,整个集群的加速比获得极大提升,主要得益于GPU优越的加速性能。 
不同图像检索算法的精度如表3所示: 
表3本发明实施不同图像检索算法的精度 
Figure 20131073876121000022
表3中第一行20K、200K、1M分别表示聚类中中心点数目,第二行中的0和1M分别表示加入到参考集中进行干扰的图片的数目,即分别是0张和100万张。Baseline(Inv)、HE和WGC分别表示三种常见的用于图像内容检索的方法。从表3中可以看到,在本发明平台上实施算法的精度也有不少提升,这主要是因为本发明平台同时能处理的数据量加大,能处理其他算法不能处理的大数据量。 

Claims (5)

1.一种基于GPU的面向海量多媒体数据的MapReduce平台,利用计算机集群实现对图像/视频检索任务的计算处理,每个计算机集群中设有多个CPU和GPU,其特征在于,所述的平台建立在CUDA和HDFS之上,包括平台驱动器和工作子模块,所述的平台驱动器采用MapReduce计算模型,调度计算机集群节点上的主控程序将图像/视频检索处理任务分割为若干Map任务,所述的Map任务的数据存储在HDFS中,每个Map任务启动时,利用平台驱动器传入的文件列表获取任务数据,并将具体的计算任务分配给所述的工作子模块计算,所述的工作子模块中的任务调度器将任务派发给GPU或CPU处理,在计算处理过程中通过HDFS的本地库libhdfs.so获得计算所需的数据,之后将计算处理后的数据直接写入HDFS。
2.根据权利要求1所述的一种基于GPU的面向海量多媒体数据的MapReduce平台,其特征在于,所述的平台驱动器和工作子模块之间采用Protocol Buffer序列化协议作为传输协议,以简化二者之间数据交换的复杂性,同时利用JNI技术进行交互,以保证其交互的高效性。
3.根据权利要求1所述的一种基于GPU的面向海量多媒体数据的MapReduce平台,其特征在于,所述的平台驱动器使用Java语言编写,是Hadoop框架在具体应用中的实现与拓展。
4.根据权利要求1所述的一种基于GPU的面向海量多媒体数据的MapReduce平台,其特征在于,所述的工作子模块建立在CUDA基础上使用C/C++和CUDA-C语言编写。
5.根据权利要求1所述的一种基于GPU的面向海量多媒体数据的MapReduce平台,其特征在于,所述的工作子模块在计算处理过程中采用分布式缓存技术,以减少实现具有数据不变性的图像/视频检索处理算法时HDFS的网络传输,提高整个集群的性能。
CN201310738761.2A 2013-12-27 2013-12-27 一种基于GPU的面向海量多媒体数据的MapReduce平台 Pending CN103699656A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310738761.2A CN103699656A (zh) 2013-12-27 2013-12-27 一种基于GPU的面向海量多媒体数据的MapReduce平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310738761.2A CN103699656A (zh) 2013-12-27 2013-12-27 一种基于GPU的面向海量多媒体数据的MapReduce平台

Publications (1)

Publication Number Publication Date
CN103699656A true CN103699656A (zh) 2014-04-02

Family

ID=50361184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310738761.2A Pending CN103699656A (zh) 2013-12-27 2013-12-27 一种基于GPU的面向海量多媒体数据的MapReduce平台

Country Status (1)

Country Link
CN (1) CN103699656A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049485A (zh) * 2015-06-09 2015-11-11 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算***
CN105094981A (zh) * 2014-05-23 2015-11-25 华为技术有限公司 一种数据处理的方法及装置
CN105243160A (zh) * 2015-10-28 2016-01-13 西安美林数据技术股份有限公司 基于海量数据的分布式视频处理***
CN105263050A (zh) * 2015-11-04 2016-01-20 山东大学 基于云平台的移动终端实时渲染***及其方法
CN106604063A (zh) * 2016-12-28 2017-04-26 北京恒华伟业科技股份有限公司 一种调取视频的方法及装置
CN107038482A (zh) * 2017-04-21 2017-08-11 上海极链网络科技有限公司 应用于ai算法工程化、***化的分布式框架
CN107273435A (zh) * 2017-05-23 2017-10-20 北京环境特性研究所 基于MapReduce的视频人员模糊检索并行化方法
CN107861723A (zh) * 2017-10-25 2018-03-30 深圳市华成峰科技有限公司 海量数据处理方法及其***
CN108762915A (zh) * 2018-04-19 2018-11-06 上海交通大学 一种在gpu内存中缓存rdf数据的方法
CN111507466A (zh) * 2019-01-30 2020-08-07 北京沃东天骏信息技术有限公司 数据处理方法、装置、电子设备及可读介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047172A1 (en) * 2009-08-20 2011-02-24 Qiming Chen Map-reduce and parallel processing in databases
CN102662639A (zh) * 2012-04-10 2012-09-12 南京航空航天大学 一种基于Mapreduce的多GPU协同计算方法
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110047172A1 (en) * 2009-08-20 2011-02-24 Qiming Chen Map-reduce and parallel processing in databases
CN102662639A (zh) * 2012-04-10 2012-09-12 南京航空航天大学 一种基于Mapreduce的多GPU协同计算方法
CN102708088A (zh) * 2012-05-08 2012-10-03 北京理工大学 面向海量数据高性能计算的cpu/gpu协同处理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANLI WANG ET AL.: "Large-Scale Multimedia Data Mining Using MapReduce Framework", 《2012 IEEE 4TH INTERNATIONAL CONFERENCE ON CLOUD COMPUTING TECHNOLOGY AND SCIENCE》 *
HE B ET AL.: "Mars: A MapReduce framework on graphics", 《IN: PROC. PACT’08》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105094981A (zh) * 2014-05-23 2015-11-25 华为技术有限公司 一种数据处理的方法及装置
CN105094981B (zh) * 2014-05-23 2019-02-12 华为技术有限公司 一种数据处理的方法及装置
CN105049485B (zh) * 2015-06-09 2018-10-16 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算***
CN105049485A (zh) * 2015-06-09 2015-11-11 中国石油大学(华东) 一种面向实时视频处理的负载感知云计算***
CN105243160A (zh) * 2015-10-28 2016-01-13 西安美林数据技术股份有限公司 基于海量数据的分布式视频处理***
CN105263050A (zh) * 2015-11-04 2016-01-20 山东大学 基于云平台的移动终端实时渲染***及其方法
CN105263050B (zh) * 2015-11-04 2018-01-12 山东大学 基于云平台的移动终端实时渲染***及其方法
CN106604063A (zh) * 2016-12-28 2017-04-26 北京恒华伟业科技股份有限公司 一种调取视频的方法及装置
CN107038482A (zh) * 2017-04-21 2017-08-11 上海极链网络科技有限公司 应用于ai算法工程化、***化的分布式框架
CN107273435A (zh) * 2017-05-23 2017-10-20 北京环境特性研究所 基于MapReduce的视频人员模糊检索并行化方法
CN107861723A (zh) * 2017-10-25 2018-03-30 深圳市华成峰科技有限公司 海量数据处理方法及其***
CN108762915A (zh) * 2018-04-19 2018-11-06 上海交通大学 一种在gpu内存中缓存rdf数据的方法
CN108762915B (zh) * 2018-04-19 2020-11-06 上海交通大学 一种在gpu内存中缓存rdf数据的方法
CN111507466A (zh) * 2019-01-30 2020-08-07 北京沃东天骏信息技术有限公司 数据处理方法、装置、电子设备及可读介质

Similar Documents

Publication Publication Date Title
CN103699656A (zh) 一种基于GPU的面向海量多媒体数据的MapReduce平台
You et al. Large-scale spatial join query processing in cloud
US9053067B2 (en) Distributed data scalable adaptive map-reduce framework
Padhy Big data processing with Hadoop-MapReduce in cloud systems
Yan et al. Large-scale image processing research cloud
Agrawal et al. Cloudcv: Large-scale distributed computer vision as a cloud service
KR101460062B1 (ko) 동영상 파일을 하둡 분산 파일 시스템에 분산 저장하는 시스템, 동영상 맵리듀스 시스템 및 그 제공방법
You et al. Spatial join query processing in cloud: Analyzing design choices and performance comparisons
Arfat et al. Big data for smart infrastructure design: Opportunities and challenges
US10326824B2 (en) Method and system for iterative pipeline
Banaei et al. Hadoop and its role in modern image processing
Tanase et al. A highly efficient runtime and graph library for large scale graph analytics
Luo et al. Big-data analytics: challenges, key technologies and prospects
Wang et al. CHCF: A cloud-based heterogeneous computing framework for large-scale image retrieval
Althebyan et al. A scalable Map Reduce tasks scheduling: a threading-based approach
Li et al. Survey of recent research progress and issues in big data
Adam et al. Big data management and analysis
Mei et al. An overview on the convergence of high performance computing and big data processing
US11042530B2 (en) Data processing with nullable schema information
Liang et al. A Survey on Spatio-temporal Big Data Analytics Ecosystem: Resource Management, Processing Platform, and Applications
CN113836235B (zh) 基于数据中台的数据处理方法及其相关设备
Wang et al. Geospatial big data analytics engine for spark
Wang et al. ODDS: Optimizing data-locality access for scientific data analysis
Samal et al. Big data processing: Big challenges and opportunities
Xiong et al. HiGIS: An open framework for high performance geographic information system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140402