CN104853061A

CN104853061A - 一种基于Hadoop的视频处理方法及***

Info

Publication number: CN104853061A
Application number: CN201510223784.9A
Authority: CN
Inventors: 徐玮; 谭瀚霖; 赖世铭; 王炜; 刘煜
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2015-05-05
Filing date: 2015-05-05
Publication date: 2015-08-19
Anticipated expiration: 2035-05-05
Also published as: CN104853061B

Abstract

本发明提供一种基于Hadoop的视频处理方法及***。其中方法包括将待处理视频文件上传至Hadoop分布式文件***；基于Fuse-DFS子项目，将所述待处理视频文件挂载到所述Hadoop分布式文件***中各集群节点的本地文件***上；通过JavaCV调用OpenCV和FFMEPG对挂载于本地文件***，但存储于所述Hadoop分布式文件***中的待处理视频文件基于MapReduce并行计算模型进行并行分析。本发明提供的视频处理方法在Hadoop***上实现与集群节点数成正比的加速。

Description

一种基于Hadoop的视频处理方法及***

技术领域

本发明实施例涉及数字图像处理技术领域，尤其涉及基于Hadoop的视频处理方法及***。

背景技术

目前大规模视频监控***在交通控制，如交通路口、高速公路等，敏感公共场所，如机场、火车站、银行等的部署越来越多，由此产生了大量视频数据。

越来越多的海量视频数据有着处理和分析的需求。这种需求超越了大大超出了人工处理的能力，就连传统的计算机处理程序面对大规模视频数前处理的时间超出需求能承受的范围。超级计算是解决问题的途径之一。可是超级计算机本身就价格昂贵、运行维护费用也不容小觑，普通用户难以承受。

发明内容

本发明针对海量视频数据现有单台计算机计算能力不足的问题，提供一种基于Hadoop的视频处理方法及***以实现在Hadoop上实现有效加速视频处理算法的运行。

本发明提供一种基于Hadoop的视频处理方法，包括：

将待处理视频文件上传至Hadoop分布式文件***；

基于Fuse-DFS子项目，将所述待处理视频文件挂载到所述Hadoop分布式文件***中各集群节点的本地文件***上；

通过JavaCV调用OpenCV和FFMEPG对挂载于本地文件***，但存储于所述Hadoop分布式文件***中的待处理视频文件基于MapReduce并行计算模型进行并行分析。

进一步地，基于MapReduce并行计算模型对视频文件进行并行分析包括：

将所述视频文件的视频帧加载存储在所述Hadoop分布式文件***中；

基于Map策略对所述加载的视频文件的视频帧进行分组处理；

基于Reduce策略对视频文件分组后的视频帧进行并行分析。

进一步地，基于Map策略对所述加载的视频文件的视频帧进行分组处理时：

若是面向单帧的视频分析，则仅将各视频帧的键值对<帧ID，帧数据>传递给Reduce处理；

若是面向帧序列的视频分析，则将各视频帧的键值对<帧ID，帧数据>组合成键值对<帧ID，帧序列数据>传递给Reduce处理。

进一步地，基于Reduce策略对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；

若是面向帧序列的视频分析，则Reduce任务将视频帧序号写入到Reduce任务的相应输出文件上，以使根据所述重叠视频帧序号将所述输出文件合并出单个视频文件。

本发明还提供一种基于Hadoop的视频处理***，包括Hadoop分布式文件***及其集群节点上的本地文件***，其中：

所述Hadoop分布式文件***用于存储待处理视频文件；

所述Hadoop分布式文件***还用于基于Fuse-DFS子项目，将所述待处理视频文件挂载到其各集群节点的本地文件***上；

所述Hadoop分布式文件***还用于通过JavaCV调用OpenCV和FFMEPG对挂载于本地文件***，但存储于所述Hadoop分布式文件***中的待处理视频文件基于MapReduce并行计算模型进行并行分析。

进一步地，所述Hadoop分布式文件***包括：

加载模块，用于将所述视频文件的视频帧加载存储在所述Hadoop分布式文件***中；

Map分组模块，用于基于Map策略对所述加载的视频文件的视频帧进行分组处理；

Reduce分析模块，用于基于Reduce策略对视频文件分组后的视频帧进行并行分析。

进一步地，所述Map分组模块对所述加载的视频文件的视频帧进行分组处理时：

若是面向单帧的视频分析，则仅将各视频帧的键值对<帧ID，帧数据>传递给所述Reduce分析模块处理；

若是面向帧序列的视频分析，则将各视频帧的键值对<帧ID，帧数据>组合成键值对<帧ID，帧序列数据>传递给所述Reduce分析模块处理。

进一步地，所述Reduce分析模块对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；

本发明提供的基于Hadoop的视频处理方法和***，在Hadoop***上实现与集群节点数成正比的加速，有效解决了视频数据的数据量较大时单台计算机计算能力不足的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为Hadoop的云平台架构图；

图2为本发明基于Hadoop的视频处理方法实施例的流程示意图；

图3为图2中Hadoop基于MapReduce并行计算模型并行分析处理的流程图；

图4为本发明基于Hadoop的视频处理***实施例的***框架模型图；

图5为本发明基于Hadoop的视频处理***实施例的***加速效果图(运行时间-数据量)；

图6为本发明基于Hadoop的视频处理***实施例的***加速效果图(运行时间-集群子节点数)。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供一种基于Hadoop的视频处理方法，图2为本发明基于Hadoop的视频处理方法实施例的流程示意图，如图2所示，该方法包括：

步骤10、将待处理视频文件上传至Hadoop分布式文件***(HadoopDistributed File System，简称HDFS)；

本步骤中，待处理视频文件一般指海量文件，一般指现有单台计算机计算能力不足以处理的数量。实际实施时，可通过Hadoop自带的命令“ubuntu:hadoop dfs put[src_path][dst_path]”将视频文件从本地文件***上传到HDFS。

步骤20、基于Fuse-DFS子项目，将所述待处理视频文件挂载到所述Hadoop分布式文件***中各集群节点的本地文件***上。

Hadoop分布式文件***中集群节点越多，其分布式计算越能体现其优势。但是成本也就相对越高，在具体实施时，可以根据视频的数量进行配置集群节点的数目。

本步骤中，Fuse-DFS是Hadoop项目下的一个子项目，它的目的是为Hadoop的HDFS分布式文件***提供到本地文件***的接口，从而使得Hadoop能够利用众多专门为本地文件***设计的库和接口，极大地提升开发效率。在步骤中，Fuse_DFS子项目可以将存储在HDFS分布式文件***挂载到本地文件***(如Linux文件***)，从而得以利用OpenCV、FFMEPG等成熟的视频处理库。

步骤30、通过JavaCV调用OpenCV和FFMEPG对挂载于本地文件***，但存储于所述Hadoop分布式文件***中的待处理视频文件基于MapReduce并行计算模型进行并行分析。

在视频处理领域，OpenCV、FFMPEG两大视频处理库是最成熟、使用频率最高的。众多的算法均是在它们的基础上实现的。OpenCV、FFMPEG等视频处理库均是用C/C++语言编写，而Hadoop本身是Java语言编写。如果要利用OpenCV、FFMPEG，需要有到Java的编程接口。而GoogleCode的JavaCV项目就提供了这样一个接口。JavaCV是Github上的一个开源项目，它是第一个向包括Android在内的Linux内核***提供视频处理库Java接口的开源项目，提供的视频处理库接口包括：OpenCV、FFMEPG、lib1394、PRG、FlyCapture、OpenKinect、VideoInput等。

FFMPEG是视频处理库，但它实现的主要是视频帧的编码、解码。视频帧在从文件输入时需要解码，在输出到文件时需要编码。

OpenCV是实现视频处理算法的库，包含众多已有算法的实现。它处理的是经过FFMPEG解码之后的视频帧，它处理的结果需要经过FFMPEG编码(编码也是压缩的过程)再存入文件。

在上述处理步骤中，都可以通过JavaCV调用OpenCV视频处理算法库和FFMEPG视频编码解码库为视频处理算法的实现提供支撑。

进一步地，图3为图2中Hadoop基于MapReduce并行计算模型并行分析处理的流程图，如图3所示，步骤30具体可以包括：

步骤31、将所述视频文件的视频帧加载存储在所述Hadoop分布式文件***中；

具体实施时，首先是加载被存储在HDFS中视频文件的视频帧；然后将JavaCV(IplImage结构)的帧转变成Hadoop的键值对数据类型<Text，BytesWritable>，其中键是视频帧唯一的ID，值是对应的以字节方式存储在内存中的图像帧。

步骤32、基于Map策略对所述加载的视频文件的视频帧进行分组处理；

其中，基于Map策略对所述加载的视频文件的视频帧进行分组处理时：

若是面向单帧的视频分析(如人脸检测，帧与帧之间没有相关性)，则仅将各视频帧的键值对<帧ID，帧数据>传递给Reduce处理；帧数据就是单帧数据，对于人脸检测这类应用，只需要当前帧的数据即可，帧与帧之间可以是无序的。

若是面向帧序列的视频分析(如运动检测，帧与帧之间存在时间相关性)，则将各视频帧的键值对<帧ID，帧数据>组合成键值对<帧ID，帧序列数据>传递给Reduce处理。使得每一帧序列构成原问题的一个类似的子问题，并且可以通过的Hadoop的Reduce同时执行。其中帧序列数据是一小段视频数据，特征是有序。比如对运动目标跟踪，输入视频帧序列必须是有序的。

步骤33、基于Reduce策略对视频文件分组后的视频帧进行并行分析；

其中，基于Reduce策略对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；

上述实施例提供的基于Hadoop的视频处理方法和***，在Hadoop***上实现与集群节点数成正比的加速，有效解决了视频数据数据量大时单台计算机计算能力不足的问题。

本发明还提供一种基于Hadoop的视频处理***，图4为本发明基于Hadoop的视频处理***实施例的***框架模型图，如图4所示，该***包括Hadoop分布式文件***及其集群节点上的本地文件***，其中：

所述Hadoop分布式文件***用于存储待处理视频文件；

在上述方案的基础上，具体地，所述Hadoop分布式文件***包括：

Reduce分析模块，用于基于Reduce策略对视频文件分组后的视频帧进行并行分析

进一步地所述Reduce分析模块对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；

上述实施例提供的***可以运行如图2和图3所示的方法，其技术效果与其相同，在此不再赘述。

为验证本发明的有效性，申请人进行了性能试验。实验采用六台台式算机，其中一台作为主控节点(Namenode兼JobTracker)，其余五台作为从节点(DataNode和TaskTracker)，对比单机运算速度和本发明的多节点运算速度。

针对面向单帧的视频处理问题，申请人实现了人脸检测算法，选取大小为2.1MB、总帧数690帧(15fps×46s)、分别率为320×240的一段flv格式视频作为标准输入视频，得出的实验结果如表1所示，其中节点数为1表示单机运算。

表1人脸检测程序在Hadoop云***上的运行时间(秒)

注：这里的“运行时间”是从启动Hadoop程序到运行结束的总运行时间。表中行号为Hadoop从节点数，列号为标准输入视频数。表中的数据为指定条件下五次运行程序时间的平均值。

针对面向帧序列的视频处理问题，选择运动目标检测算法进行测试，输入视频不变。得到的运行时间如表2所示。

表2人脸检测程序在Hadoop云***上的运行时间(秒)

将表1所示的运行时间数据可以从两个角度进行可视化。图5为本发明基于Hadoop的视频处理***实施例的***加速效果图(运行时间-数据量)；图6为本发明基于Hadoop的视频处理***实施例的***加速效果图(运行时间-集群子节点数)。图5和图6展示了在6台计算机组成的MapRedcue集群中运行人脸检测算法的运行时间(五次平均值)。由图5可以看出：

对于相同集群，测试程序运行时间与输入标准视频数大致成线性关系。综观五条曲线的趋势不难看出线性关系的存在。从理论上分析人脸检测算法的运行时间与输入帧数确实是线性关系，二者相互印证。

对于相同数目的标准输入视频，测试程序运行时间随集群子节点数增加而显著减少。这说明在一定范围内扩大集群规模对于减少计算时间是有益的。

由图6可以看出：对于同一输入，运行时间随着子节点数的增加而减小，但运行时间减小的幅度随着子节点数的增加而减小。

现有视频处理技术主要都是运行在单台计算机上的。综合图5和图6，可以看出Hadoop***对视频处理有明显的加速效果，五个子节点的集群即可将处理时间缩减到单机的25％以下。

本发明的方法有效加速了视频处理算法的运行。增加节点总能提高***性能，但由于运行时间减小的幅度随着子节点数的增加而减小，增加节点的费效比在提高，应当综合效果与费用考虑来确定集群大小。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于Hadoop的视频处理方法，其特征在于，包括：

将待处理视频文件上传至Hadoop分布式文件***；

2.根据权利1所述的基于Hadoop的视频处理方法，其特征在于，基于MapReduce并行计算模型对视频文件进行并行分析包括：

基于Map策略对所述加载的视频文件的视频帧进行分组处理；

基于Reduce策略对视频文件分组后的视频帧进行并行分析。

3.根据权利2所述的基于Hadoop的视频处理方法，其特征在于，基于Map策略对所述加载的视频文件的视频帧进行分组处理时：

4.根据权利2所述的基于Hadoop的视频处理方法，其特征在于，基于Reduce策略对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；

5.一种基于Hadoop的视频处理***，包括Hadoop分布式文件***及其集群节点上的本地文件***，其特征在于：

所述Hadoop分布式文件***用于存储待处理视频文件；

6.根据权利要求5所述的基于Hadoop的视频处理***，其特征在于，所述Hadoop分布式文件***包括：

7.根据权利要求6所述的基于Hadoop的视频处理***，其特征在于，所述Map分组模块对所述加载的视频文件的视频帧进行分组处理时：

8.根据权利要求6所述的基于Hadoop的视频处理***，其特征在于，所述Reduce分析模块对视频文件分组后的视频帧进行并行分析时：

若是面向单帧的视频分析，则执行单机算法；