CN109815911B

CN109815911B - 基于深度融合网络的视频运动物体检测***、方法及终端

Info

Publication number: CN109815911B
Application number: CN201910078362.5A
Authority: CN
Inventors: 陈立; 蔡春磊; 张小云; 高志勇
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2019-01-26
Filing date: 2019-01-26
Publication date: 2020-11-03
Anticipated expiration: 2039-01-26
Also published as: CN109815911A

Abstract

本发明提供过了一种基于深度融合网络的视频运动物体检测***，包括：视频特征提取模块，接收视频序列输入，对视频内容进行特征提取，得到视频中关于场景信息的特征表达，即视频场景特征表达，并发送至深度融合模块；基础结果检测模块，接收视频序列输入，利用基础检测子对运动物体进行检测，得到相应的基础检测结果，并发送至深度融合模块；深度融合模块，接收视频场景特征表达和基础检测结果，利用深度神经网络进行最优融合，输出最终的检测结果。同时提供了一种视频运动物体检测方法、终端。本发明能够取得高准确度的检测结果。

Description

基于深度融合网络的视频运动物体检测***、方法及终端

技术领域

本发明涉及视频运动物体检测技术领域，具体地，涉及一种基于深度融合网络的视频运动物体检测***、方法及终端。

背景技术

视频运动物体检测可以作为视频图像处理和视频内容分析的第一个环节，为后续操作提供初步分析结果，有助于提高整个视频处理及分析***的性能，因此视频运动物体检测是一项至关重要的技术。

对于视频运动物体检测问题，研究人员已经提出了大量的方法。但是这些研究成果大多数都是针对某个或某类特定的场景、基于特征工程、采用手工设计操作子的方法进行方法设计。这些传统的方法分为基于统计模型，基于聚类，基于稀疏表达等类型。目前还没有一种传统方法可以鲁棒的应对各种场景，大多都只是针对某些场景高效，而对其他场景则表现不佳。

最近出现了少量基于深度学习的视频运动物体检测方法，这些方法和传统方法最大的不同在于不需要进行人工调参，而是从数据中自动学习得到检测模型。比如Wang等人利用深度卷积网络设计了一种半自动的视频运动物体检测算法。该方法需要人工先标注一些关键帧的检测结果，然后深度卷积神经网络根据标注的结果进行训练，训练完成后，自动对剩余视频帧进行分析，得到这些帧的运动物体检测结果。该方法可以取得很高准确度的检测结果，但是需要人工干预，无法全自动完成。

利用深度学习获得检测模型最大的难点在于训练数据的匮乏，没有足够的标注数据，则无法有效的训练神经网络。目前没有发现同本发明类似技术的说明或报道，也尚未收集到国内外类似的资料。

发明内容

本发明针对现有技术中存在的上述不足，提供了一种基于深度融合网络的视频运动物体检测***、方法及终端，结合传统方法和深度学习技术，针对多种场景都可以取得非常稳健的检测结果。

本发明是通过以下技术方案实现的。

根据本发明的一个方面，提供了一种基于深度融合网络的视频运动物体检测***，包括如下模块：

视频特征提取模块，接收视频序列输入，对视频内容进行特征提取，得到视频中关于场景信息的特征表达，即视频场景特征表达，并发送至深度融合模块；

基础结果检测模块，接收视频序列输入，利用基础检测子对运动物体进行检测，得到相应的基础检测结果，并发送至深度融合模块；

深度融合模块，接收视频场景特征表达和基础检测结果，利用深度神经网络进行最优融合，输出最终的检测结果。

优选地，所述视频特征提取模块采用基于预训练的VGG-16网络作为特征提取器，提取每帧视频的特征，再将每帧视频的特征堆叠在一起，组成一组用于描述视频场景的描述子，即视频场景特征表达。

优选地，所述基础检测子为多个，其中每一个基础检测子分别采用一种传统运动检测方法对运动物体进行检测，得到多个相应的基础检测结果。

优选地，所述基础检测子为四个，相应地，每一个基础检测子分别采用如下传统运动检测方法：

-基于像素的自适应语义关联分割方法；

-基于边缘检测的前后背景分割方法；

-基于共享模型的背景分割方法；

-基于采样点加权的背景分割方法。。

优选地，所述深度融合模块接收视频场景特征表达作为输入，经过四层卷积层和一层Soft-Max层得到最优融合权重图，再根据最优融合权重图对基础检测结果进行逐像素线性加权。

根据本发明的另一个方面，提供了一种基于深度融合网络的视频运动物体检测方法，包括如下步骤：

S1：顺序读取视频中当前帧及当前帧之前的多帧作为视频序列输入；

S2：利用特征提取器对输入的视频序列中的每帧视频进行分析，得到多组视频帧特征，将这多组视频特征在通道方向上堆叠在一起，组成一个描述视频场景特征的描述子，即视频场景描述子；利用传统运动检测方法对输入的视频序列进行运动物体分析，得到基础检测结果；

S3：将S2中得到的视频场景描述子和基础检测结果输入到深度融合网络中；所述深度融合网络对视频场景描述子进行分析，得到最优融合权重图，利用最优融合权重图，对基础检测结果进行线性加权融合。

优选地，所述深度融合网络基于深度卷积网络，将输入的视频场景描述子经过四层卷积层和一层Soft-Max层得到最优融合权重图，再根据最优融合权重图对基础检测结果进行逐像素线性加权。

优选地，所述基于深度融合网络的运动物体检测方法，还包括对特征提取器和深度融合网络的离线训练，步骤如下：

在训练视频中随机采样视频片段作为预测运动掩模，并与真实运动物体的标注掩模即真实运动掩模一起作为训练对，多个训练对构成一个训练集；对训练对中的训练视频进行随机裁剪，得到训练样本，然后对训练样本进行随机左右和上下翻转以扩种训练集；

使用一个训练对作为输入，利用随机梯度下降算法对特征提取器和深度融合网络的参数进行联合优化，在训练集中的所有训练对上进行多轮学习，直到损失收敛。

优选地，所述随机梯度下降算法中采用的损失函数为预测运动掩模和真实运动掩模的平均方差。

优选地，深度融合网络参数更新率设置为特征提取器参数更新率的100～10000倍。

根据本发明的第三方面，提供一种检测终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的基于深度融合网络的视频运动物体检测方法。

与现有技术相比，本发明具有如下的有益效果：

1、本发明充分利用多种现有传统视频运动物体检测***，提高针对不同场景的有效性；

2、本发明充分利用深度学习技术，提高对于视频图像高层语义特征的描述能力；

3、本发明通过将***中的参数从数据中自动学习得到，不需要采用基于特征工程的调参；

4、本发明结合传统方法和深度学习方法，得到了一种稳健高性能的视频运动物体检测***及方法，针对各种场景都有较高的检测准确度；

5、本发明结合传统方法针对特定场景的高效性能和深度学习提取视频图像内容特征的强大表达能力，利用一个深度融合网络，根据视频场景特征，对多种传统检测结果进行最优融合，从而对于各种场景都能得到都稳健的检测结果。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明一实施例所提供的基于深度融合网络的视频运动物体检测***结构框图；

图2为本发明一实施例所提供的基于深度融合网络的运动物体检测方法的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

本发明实施例提供一种基于深度融合网络的视频运动物体检测***，包括如下模块：

模块一：视频特征提取模块，接收视频序列输入，对视频内容进行特征提取，得到视频中关于场景信息的特征表达，即视频场景特征表达，并发送至深度融合模块，用于深度融合模块对各个基础检测结果进行最优融合；

模块二：基础结果检测模块，接收视频序列输入，利用基础检测子对运动物体进行检测，得到相应的基础检测结果，并发送至深度融合模块；

模块三：深度融合模块，接收视频场景特征表达和基础检测结果，利用深度神经网络进行最优融合，输出最终的检测结果。

在部分优选实施方式中，视频特征提取模块采用基于预训练的VGG-16网络作为特征提取器，提取每帧视频的特征，再将每帧视频的特征堆叠在一起，组成一组可以描述视频场景的描述子。

进一步地，基础结果检测模块的基础检测子为多个，其中每一个基础检测子分别采用一种传统运动检测方法对运动物体进行检测，得到多个相应的基础检测结果。在实施方式中，基础检测子可以为四个，也可以为其他数量。比如当基础检测子为四个时，相应地，运动检测方法可以采用如下方法，但不限于如下方法：PWACS、EFIC、SharedModel和WeSamBE。其中PWACS为基于像素的自适应语义关联分割方法；EFIC为基于边缘检测的前后背景分割方法；ShareModel为基于共享模型的背景分割方法；WeSamBE为基于采样点加权的背景分割方法。上述方法都是用于运动物体检测的基于非深度学习的传统方法。当然，在不同实施例中，可以采用不同的运动检测方法，本发明实施例通过融合几种传统运动检测方法的结果，可以得到一个更加稳健的检测结果。

在部分优选实施方式中，深度融合模块接收视频场景特征表达(视频特征描述子)作为输入，经过四层卷积层和一层Soft-Max层得到最优融合权重图，再根据该最优融合权重图对基础检测结果进行逐像素线性加权。

本发明实施例还提供一种基于深度融合网络的视频运动物体检测方法，其步骤包括：

步骤一：顺序读取视频中当前帧及其之前的多帧(例如16帧，该数量是根据具体实现的输入格式而定，如果实现不同，这里数量也会变化)作为视频序列输入；

步骤二：对输入的视频序列中的每帧视频利用特征提取器进行分析，得到多组(当为16帧时，此处得到16组视频帧)视频帧的特征，将这多组视频帧的特征在通道方向上堆叠在一起，组成一个描述视频场景特征的描述子；同时使用传统运动检测方法，对输入的视频序列进行运动物体分析，得到基础检测结果；

步骤三：对步骤二中得到的视频场景描述子和基础检测结果输入到深度融合网络中；深度融合网络对视频场景描述子进行进一步分析，得到最优融合权重图，最后利用该最优融合权重图，对基础检测结果进行线性加权融合。

步骤一中，视频序列输入作为***输入，是包括当前帧及其之前的多帧的视频片段。

步骤二中，特征提取器输出是一组基于深度学习的特征图。

步骤三中，最优融合是基于深度卷积网络的。融合的最后一步是基于最优融合图的线性加权操作。

进一步的，所述方法还可以包括对特征提取器和深度融合网络的离线训练步骤，具体如下：

步骤1：在训练视频中随机采样视频片段作为预测运动掩模，并和真实运动物体的标注掩模即真实运动掩模一起作为训练对，多个训练对构成一个训练集；对训练对中的训练视频进行随机裁剪，得到训练样本，然后对样本进行随机左右和上下翻转以扩种训练集；

步骤2：使用一个训练对作为输入，利用随机梯度下降算法对特征提取器和深度融合网络的的参数进行联合优化，在训练集中的所有训练对上进行多轮学习，直到损失收敛。

步骤1中，训练样本的尺寸可以为128x128，也可以是其他大小，根据计算资源而定，如果计算资源允许，可以采用更大尺寸，比如256x256，或者512x512等。

步骤2中，所述随机梯度下降算法中采用的损失函数可以是预测运动掩模和真实运动掩模的平均方差。进一步地，深度融合网络参数的更新率设为特征提取器参数的更新率的100～10000倍。步骤2中联合优化方法是对基础检测结果的误差进行梯度下降法，逐步迭代优化。训练之后的最优模型参数保存之后，直接用在视频运动物体检测方法中。

基于上述，下面结合附图以及具体实例对本发明的技术方案进一步详细描述。

如图1所示，本发明一实施例中的基于深度融合网络的视频运动物体检测***，该***包括三类模块：视频特征提取模块(视频特征提取网络)、基础结果检测模块和深度融合模块(深度融合网络)。

本实施例中，***含有一个视频特征提取模块和一个深度融合模块，基础结果检测模块中基础检测***的类型和数量可以根据具体场景特点和处理平台的性能灵活选区。

本实施例中，视频特征提取模块采用预训练的VGG-16网络作为特征提取器，对一个视频片段内的所有视频帧依次进行分析，得到的特征图堆叠在一起作为视频特征的描述子。

本实施例中，基础结果检测模块采用四种基本的检测***：PWACS，EFIC，SharedModel和WeSamBE，他们在动态背景，夜间场景，镜头抖动和红外场景中有着互补的性能表现。

本实施例中，深度融合模块主要由四层卷积层和一层Soft-Max层级联组成。模块接收视频描述子作为输入，进一步分析得到最优融合权重图，再根据该权重图对基础检测结果进行逐像素线性加权。

如图2所示，在一具体实施例中，利用基于深度融合网络的视频运动物体检测***进行视频运动物体检测的方法，步骤如下：

步骤一、顺序读取包括当前帧及其之前的16帧作为***输入(视频序列输入)；

步骤二、对每帧利用VGG-16网络进行分析，将每帧经过网络得到的最后一层特征图在通道方向上堆叠在一起，组成一个描述视频特征的描述子；

同时使用基础结果检测模块，对***输入进行分析，得到4个基础检测结果，记为B(n)，n＝1，2，3，4，表示四个基础检测方法的检测结果；

步骤三、对步骤二中的视频描述子和基础检测结果输入到深度融合网络中。深度融合网络对视频描述子进行进一步分析，得到最优融合权重图，最后利用该权重图M，对基础检测结果进行如式(1)的线性加权融合；

式(1)中B(n)代表第n个基础检测结果，M(n)代表对应于第n个基础检测结果的加权系数，他们都是和输入视频帧尺寸一样的二维图像。⊙表示的元素乘。所以式(1)表示将四个基础检测结果进行逐像素加权平均作为最终的预测结果P。

本实施例中，对于特征提取器和深度融合网络中的参数的离线训练步骤如下：

步骤1：在训练视频中随机采样视频片段，和真实运动物体的标注掩模一起作为训练对。对训练视频进行随机裁剪，得到128x128的训练样本，然后对样本进行随机左右、上下翻转以扩种训练集；

步骤2：利用随机梯度下降算法对整个***中的参数进行联合优化，直到损失收敛；

步骤2中的优化方法是Adam优化方法。损失函数设为式(2)：

式(2)中H和W代表图像的高度和宽度，G代表真实的运动标注掩模；

步骤2中对于视频特征提取模块中的参数学习率设为10^-7，而对深度融合网络的学习率设为10^-4。训练收敛后，保存参数，实际使用时直接加载使用即可。

基于上述方法，本发明一实施例还提供一种检测终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时可用于执行上述的基于深度融合网络的视频运动物体检测方法。

本发明上述实施例提供的基于深度融合网络的视频运动物体检测***及方法、检测终端，视频序列输入到***中后，同时进行视频特征提取操作和基本结果检测操作，然后利用深度融合模块，根据视频特征对多个基本检测结果进行最优融合。本发明上述实施例使用深度卷积网络构建特征提取模块和深度融合模块，利用大量数据进行训练得到最优模型参数，在实际应用中可自动进行运动物体检测；实验结果表明该***能够取得高准确度的检测结果。

本发明上述实施例中的具体参数仅为说明本发明技术方案的实施而举例，本发明在另外的实施例中也可以采用其他的具体参数，这对于本发明实现没有本质性的影响。

要说明的是，本发明提供的所述方法中的步骤，可以利用所述***中对应的模块、装置、单元等予以实现，本领域技术人员可以参照所述***的技术方案实现所述方法的步骤流程，即，所述***中的实施例可理解为实现所述方法的优选例，在此不予赘述。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***及其各个模块、装置、单元以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以，本发明提供的***及其各项装置可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构；也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于深度融合网络的视频运动物体检测***，其特征在于，包括：

深度融合模块，接收视频场景特征表达和基础检测结果，利用深度神经网络进行最优融合，输出最终的检测结果；

所述深度融合模块接收视频场景特征表达作为输入，经过四层卷积层和一层Soft-Max层得到最优融合权重图，再根据最优融合权重图对基础检测结果进行逐像素线性加权。

2.根据权利要求1所述的一种基于深度融合网络的视频运动物体检测***，其特征在于，所述视频特征提取模块采用基于预训练的VGG-16网络作为特征提取器，提取每帧视频的特征，再将每帧视频的特征堆叠在一起，组成一组用于描述视频场景的描述子，即视频场景特征表达。

3.根据权利要求1所述的一种基于深度融合网络的视频运动物体检测***，其特征在于，所述基础检测子为多个，其中每一个基础检测子分别采用一种传统运动检测方法对运动物体进行检测，得到多个相应的基础检测结果。

4.根据权利要求3所述的一种基于深度融合网络的视频运动物体检测***，其特征在于，所述基础检测子为四个，相应地，每一个基础检测子分别采用如下传统运动检测方法：

-基于像素的自适应语义关联分割方法；

-基于边缘检测的前后背景分割方法；

-基于共享模型的背景分割方法；

-基于采样点加权的背景分割方法。

5.一种基于深度融合网络的视频运动物体检测方法，其特征在于，包括：

6.根据权利要求5所述的一种基于深度融合网络的视频运动物体检测方法，其特征在于，所述深度融合网络基于深度卷积网络，将输入的视频场景描述子经过四层卷积层和一层Soft-Max层得到最优融合权重图，再根据最优融合权重图对基础检测结果进行逐像素线性加权。

7.根据权利要求5或6所述的一种基于深度融合网络的视频运动物体检测方法，其特征在于，还包括对特征提取器和深度融合网络的离线训练，其中：

在训练视频中随机采样视频片段作为预测运动掩模，并与真实运动物体的标注掩模即真实运动掩模一起作为训练对，多个训练对构成一个训练集；对训练对中的训练视频进行随机裁剪，得到训练样本，然后对训练样本进行随机左右和/或上下翻转以扩种训练集；

8.根据权利要求7所述的一种基于深度融合网络的视频运动物体检测方法，其特征在于，所述随机梯度下降算法中采用的损失函数为预测运动掩模和真实运动掩模的平均方差；和/或，

所述深度融合网络的参数更新率设置为特征提取器参数更新率的100～10000倍。

9.一种检测终端，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时可用于执行上述权利要求5-8任一项所述方法。