CN109829398B

CN109829398B - 一种基于三维卷积网络的视频中的目标检测方法

Info

Publication number: CN109829398B
Application number: CN201910041920.0A
Authority: CN
Inventors: 王田; 李玮匡; 单光存
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2019-01-16
Filing date: 2019-01-16
Publication date: 2020-03-31
Anticipated expiration: 2039-01-16
Also published as: CN109829398A

Abstract

本发明涉及一种基于三维卷积网络的视频中的目标检测方法，包括：使用交叉训练的方法对整个网络进行融合训练，使用三维卷积网络提取特征并融合前后帧的上下文信息，使用候选区域生成网络生成可能存在目标的候选区域，使用区域标准池化方法对候选区域进行标准池化，对每一个候选区域进行分类与边界框回归微调，使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测；在特征提取时，为充分利用视频中图像序列的时序信息，使用待检测目标帧的前后若干帧构成立方体，并使用三维卷积网络进行特征提取，从而实现精确的视频中目标检测效果。

Description

一种基于三维卷积网络的视频中的目标检测方法

技术领域

本发明涉及视频中图像序列的处理技术，特别是涉及一种基于三维卷积网络的视频中的目标检测方法。

背景技术

视频中的目标检测是计算机视觉中的一个重要任务，它广泛应用于自动驾驶，无人机的视觉导航等诸多领域。视频中的目标检测要求在视频中图像序列的每一帧中给出目标的边界框坐标和目标类别的预测信息。现有的目标检测方法大多直接针对单帧图像进行检测，如果直接利用这些方法对视频中的目标进行检测，将无法利用视频中图像序列的时序信息，会造成检测精度的下降。三维卷积网络是处理视频中图像序列的一种常用网络，相对于二维卷积网络，三维卷积网络多了时间的维度，可以有效提取图像序列的时序信息。为了提取视频中图像序列的时序信息，从而得到精确的视频中目标检测结果，研究一种基于三维卷积网络的视频中的目标检测方法具有重要意义。

发明内容

本发明技术解决问题：克服现有技术的不足，提供一种检测精度高的基于三维卷积网络的视频中的目标检测方法，充分挖掘利用视频中图像序列的时序信息，从而提高检测精度。

本发明提出的技术方案为：一种基于三维卷积网络的视频中的目标检测方法，实现步骤如下：

步骤1，读取数据库中训练样本的视频及对应标签，将训练样本的视频分解成连续的N'帧图像序列，对于图像序列中的每一帧图像，取其向前的若干帧图像和向后的相同帧数的图像，进行堆叠得到N个立方体结构，N'＝N；

步骤2，构建三维卷积特征提取网络、候选区域生成网络、检测网络，使用步骤1得到的N个立方体结构和对应标签，使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练，得到可用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络；

步骤3，读取待检测的视频，将待检测的视频分解成连续的M'帧图像，并对每一帧图像取其前后的若干帧进行堆叠，得到M个立方体结构，M'＝M；

步骤4，取步骤3得到的M个立方体结构其中之一，使用三维卷积特征提取网络，提取立方体结构的特征，得到对应的特征图；

步骤5，将步骤4得到的特征图输入到候选区域生成网络中，预测可能存在目标的候选区域，得到候选区域的坐标x_p,y_p,w_p,h_p以及是否存在目标的概率P_is,P_not，P_is为存在目标的概率，P_not为不存在目标的概率，x_p,y_p为候选区域中心点的横纵坐标，w_p,h_p为候选区域的宽和高；

步骤6，设定存在目标的概率P_is的阈值P_threshold，将存在目标的概率P_is大于设定阈值P_threshold的区域映射到步骤4得到的的特征图上；

步骤7，将步骤6得到的映射到特征图上的区域进行区域标准池化，把不同大小的候选区域池化为固定大小的特征图；

步骤8，对于步骤7得到的各个固定大小的特征图，使用检测网络对各个固定大小的特征图进行分类与边界框的回归微调，得到目标的分类类别、目标属于该类别的概率P和目标的边界框的坐标x,y,w,h，P为目标属于该类别的概率，x,y为目标的边界框的中心点横纵坐标，w,h为目标的边界框的宽和高；

步骤9，采用非最大抑制对检测到的重叠度较高的目标进行过滤，对于检测到的每一类目标，计算目标所在区域交集部分面积与并集部分面积的比例，当交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时，则仅保留目标属于该类别概率P最大的检测结果，而对其他的检测结果进行过滤；

步骤10，对步骤3中得到的M个立方体结构，重复步骤4至步骤9的过程，分别进行检测，得到视频中图像序列每一帧的检测结果。

所述步骤1中，立方体结构的获取方法如下：

将训练样本的视频分解成连续的N'帧图像序列，对于N'帧图像序列的每一帧图像，取其向前的l帧图像和向后的l帧图像，从而接受一定的时间上下文信息，将这2l+1帧图像进行堆叠，构成大小为W×H×(2l+1)的立方体结构，其中，W为图像的宽，H为图像的高，2l+1表示堆叠图片的帧数；在图像序列的开始和末端，向前或向后的图像帧数小于l帧时，使用补零的方法使立方体的大小仍为W×H×(2l+1)，得到N个大小为W×H×(2l+1)的立方体结构，N'＝N。

所述步骤2中的过程如下：

步骤21，使用若干层三维卷积层和三维池化层经行堆叠，构建三维卷积特征提取网络，使用Sport1M数据库为训练样本，针对视频分类任务对三维卷积特征提取网络进行训练，将得到的权值作为三维卷积特征提取网络的初始权值；

步骤22，使用二维卷积层和全连接层构建候选区域生成网络，使用随机初始化的权值作为候选区域生成网络的初始权值；

步骤23，构建检测网络，检测网络由分类子网络和回归子网络构成，分类子网络和回归子网络的结构均为全连接层，使用随机初始化的权值作为初始权值；

步骤24，使用步骤1中得到的N个立方体结构和对应标签，对步骤22得到的候选区域生成网络和步骤21得到的三维卷积特征提取网络进行训练，训练的损失函数为L_rpn＝L_P+L_reg，其中L_P为候选区域生成网络输出的是否存在目标的概率与标签真实值的交叉熵，L_reg为候选区域生成网络输出的候选区域坐标偏移量与标签中目标区域坐标偏移量的平方和；

步骤25，对步骤23得到的检测网络和步骤21得到的三维卷积特征提取网络进行训练，训练的损失函数为检测网络输出分类结果损失与坐标回归损失的加权和；

步骤26，重复步骤24和步骤25若干次，直到步骤24和步骤25中的损失函数稳定。

所述步骤4中，三维卷积特征提取网络的结构为：

三维卷积特征提取网络的整体结构为若干层嵌套的三维卷积层和三维池化层；三维卷积的卷积核是具有长宽高三个维度的张量；在输出的特征图中，位于空间坐标(a,b,c)处的响应输出由下式计算得出：

上式中，W_ijg为卷积核在位置(i,j,g)处的权值，X_{(a+i)(b+j)(c+g)}为输入立方体单位在位置(a+i,b+j,c+g)处的值，v为偏置项，sw,sh,sl分别为三维卷积核的宽高和长，H_abc为空间坐标(a,b,c)处的响应输出，f为激活函数；

所述步骤5中，候选区域生成的过程如下：

步骤51，对于步骤4中三维卷积特征提取网络得到的特征图，使用一个大小为3×3的二维卷积核，在特征图上进行滑动，进行卷积计算，在卷积核滑动的每个位置得到一个512维的向量；

步骤52，在卷积核滑动的每一个位置设定9个锚方框作为参考，锚方框长宽比按1:2、1:1、2:1设定为三种比例，面积大小设定为128²、256²、512²像素三种大小，锚方框的中心点为所在滑动窗口的中心；

步骤53，将步骤51在卷积核滑动的每个位置得到的512维向量通过全连接网络输出9个6维的向量，表示相对于步骤52中设定的锚方框，候选区域的中心点坐标、长和宽的偏移量d_x,d_y,d_h,d_w和是否存在目标的概率P_is,P_not，其中：d_x＝(x_p-x_a)/w_a，d_y＝(y_p-y_a)/h_a，d_h＝log(h_p/h_a)，d_w＝log(w_p/w_a)，x_p,y_p,w_p,h_p表示候选区域中心点坐标、宽和高，x_a,y_a,h_a,w_a表示锚方框中心点坐标、长和宽，P_is,P_not使用softmax函数进行归一化处理，表示是否存在目标的概率；

步骤54根据步骤53得到的偏移量d_x,d_y,d_h,d_w，与步骤52设定的锚方框的中心点坐标、长和宽x_a,y_a,h_a,w_a，计算出生成的候选区域实际的中心点坐标、宽和高x_p,y_p,w_p,h_p。

所述步骤7区域标准池化过程如下：

步骤71，把待池化的区域大小表示为m×n，将待池化的区域划分成7×7个大小约为m/7×n/7的小格子，当m/7或n/7无法取整时，则按照四舍五入近似取整；

步骤72，在步骤71划分的每一个小格子中，使用最大池化的方法，将小格子的中的特征池化为1×1维的，这样，将不同大小的特征区域池化为7×7维固定大小的特征图；

所述步骤8中，检测网络对候选区域进行分类和边界框微调的过程如下：

步骤81，将步骤7中得到的固定大小的特征图拉平为一维向量，将一维向量分别输入到分类子网络和回归子网络；

步骤82，分类子网络通过两层全连接输出n+1维向量{p₁,p₂,…,p_n+1}，p₁,p₂,…,p_n表示该候选区域分别属于n类目标的概率，p_n+1表示该候选区域属于背景的概率，网络输出层使用softmax函数作为激活函数，n为待检测目标的类别数目；

步骤83，回归子网通过两层全连接输出4维的向量{t_x,t_y,t_w,t_h}，表示目标边界框相对于的候选区域的偏移量，t_x＝(x-x_p)/w_a,t_y＝(y-y_p)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a)，x,y为目标的边界框的中心点横纵坐标，w,h为目标的边界框的宽和高，x_p,y_p,w_p,h_p为候选区域中心点坐标、宽和高；

步骤84，求步骤82中得到的n+1维向量{p₁,p₂,…,p_n+1}中的最大值，如果最大值为P_n+1，表明该候选区域为背景，不进行输出，否则，根据最大值判断目标的类别，根据{t_x,t_y,t_w,t_h}计算目标的边界框的坐标x,y,w,h，将n+1维向量{p₁,p₂,…,p_n+1}中的最大值作为目标属于该类别的概率P。

综上所述，本发明所述的一种基于三维卷积的视频中的目标精准检测方法，包括：使用交叉训练的方法对整个网络进行融合训练，使用三维卷积网络提取特征并融合前后帧的上下文信息，使用候选区域生成网络生成可能存在目标的候选区域，使用区域标准池化方法对候选区域进行标准池化，对每一个候选区域进行分类与边界框回归微调，使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测；在特征提取时，为充分利用视频中图像序列的时序信息，使用待检测目标帧的前后若干帧构成立方体，并使用三维卷积网络进行特征提取，从而实现精确的视频中目标检测效果。

本发明与现有技术相比的优点在于：相对于单帧图像，视频中的图像序列在连续帧之间具有时序性，存在着丰富的时序信息。本方法在视频中的目标检测中引入了三维卷积网络提取连续帧图像序列的时序信息，充分利用挖掘连续帧之间的时序信息特征，达到视频中目标检测的准确性。

附图说明

图1为本发明的实现流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图及具体实施例对本发明作进一步地详细描述。

本发明所述的一种基于关键区域检测的复杂目标精准识别方法，包括：使用交叉训练的方法对整个网络进行融合训练，使用三维卷积网络提取特征并融合前后帧的上下文信息，使用候选区域生成网络生成可能存在目标的候选区域，使用区域标准池化方法对候选区域进行标准池化，对每一个候选区域进行分类与边界框回归微调，使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测；在特征提取时，为充分利用视频中图像序列的时序信息，使用待检测目标帧的前后若干帧构成立方体，并使用三维卷积网络进行特征提取，从而实现精确的视频中目标检测效果。

如图1所示，本发明具体实现如下步骤：

步骤2，构建三维卷积特征提取网络、候选区域生成网络、检测网络，使用步骤1得到的N个立方体结构和对应标签，使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练，得到可用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络；；

步骤4，选取步骤3得到的M个立方体结构其中之一，使用三维卷积特征提取网络提取立方体结构的特征，得到对应的特征图；

步骤6，设定存在目标的概率P_is的阈值P_threshold，将存在目标的概率P_is大于设定阈值P_threshold的候选区域映射到步骤4的特征图上；

步骤9，采用非最大抑制对检测到的重叠度较高的目标进行过滤，对于检测到的每一类目标，计算目标所在区域交集部分面积与并集部分面积的比例，当交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时，则仅保留目标属于该类别概率P最大的最大的检测结果，而对其他的检测结果进行过滤；

所述步骤1中，立方体结构的获取方法如下：

将训练样本的视频分解成连续的N'帧图像序列，对于N'帧图像序列的每一帧图像，取其向前的2帧图像和向后的2帧图像，从而接受一定的时间上下文信息，将这5帧图像进行堆叠，构成大小为W×H×5的立方体结构，其中，W为图像的宽，H为图像的高，5表示堆叠图片的帧数；在图像序列的开始和末端，向前或向后的图像帧数小于2帧时，使用补零的方法使立方体的大小仍为W×H×5，得到N个大小为W×H×5的立方体结构，N'＝N；

所述步骤2中的过程如下：

步骤21，使用5层三维卷积层和三维池化层经行堆叠，构建三维卷积特征提取网络，使用Sport1M数据库为训练样本，、针对视频分类任务对三维卷积特征提取网络进行训练，将得到的权值作为三维卷积特征提取网络的初始权值；

步骤22，使用一层二维卷积层和两层全连接层构建候选区域生成网络，使用随机初始化的权值作为候选区域生成网络的初始权值；

步骤23，构建检测网络，检测网络由分类子网络和回归子网络构成，分类子网络和回归子网络的结构均为两层全连接层，使用随机初始化的权值作为初始权值；

步骤26，重复步骤24和步骤25共计10000次，直到步骤24和步骤25中的损失函数稳定；

所述步骤4中，三维卷积特征提取网络的结构为：

三维卷积特征提取网络的整体结构为5层嵌套的三维卷积层和5层三维池化层；三维卷积的卷积核是具有长宽高三个维度的张量；在输出的特征图中，位于空间坐标(a,b,c)处的响应输出由下式计算得出：

所述步骤5中，候选区域生成的过程如下：

步骤54根据步骤53得到的偏移量d_x,d_y,d_h,d_w，与步骤52设定的锚方框的中心点坐标、长和宽x_a,y_a,h_a,w_a，计算出生成的候选区域实际的中心点坐标、宽和高x_p,y_p,w_p,h_p；

所述步骤7中，区域标准池化过程如下：

步骤72，在步骤71划分的每一个小格子中，使用最大池化的方法，将小格子的中的特征池化为1×1维的，则将不同大小的特征区域池化为7×7维固定大小的特征图；

步骤81，将步骤7中得到的固定大小的特征图拉平为一维向量，将一维向量分别输入到分类子网络和边界框回归子网络；

综上所述，以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于三维卷积网络的视频中的目标检测方法，其特征在于，包括如下步骤：

步骤2，构建三维卷积特征提取网络、候选区域生成网络、检测网络，使用步骤1得到的N个立方体结构和对应标签，使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练，得到用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络；

步骤10，对步骤3中得到的M个立方体结构，重复步骤4至步骤9的过程，分别进行检测，得到视频中图像序列每一帧的检测结果；

所述步骤2的过程如下：

步骤21，使用若干层三维卷积层和三维池化层经行堆叠，构建三维卷积特征提取网络，使用Sport 1M数据库为训练样本，针对视频分类任务对三维卷积特征提取网络进行训练，将得到的权值作为三维卷积特征提取网络的初始权值；

步骤26，重复步骤24和步骤25若干次，直到步骤24和步骤25中的损失函数稳定；

所述步骤5中，候选区域生成的过程如下：

步骤53，将步骤51在卷积核滑动的每个位置得到的512维向量通过全连接网络输出9个6维的向量；表示相对于步骤52中设定的锚方框，候选区域的中心点坐标、长和宽的偏移量d_x,d_y,d_h,d_w和是否存在目标的概率P_is,P_not，其中：d_x＝(x_p-x_a)/w_a，d_y＝(y_p-y_a)/h_a，d_h＝log(h_p/h_a)，d_w＝log(w_p/w_a)，x_p,y_p,w_p,h_p表示候选区域中心点坐标、宽和高，x_a,y_a,h_a,w_a表示锚方框中心点坐标、高和宽，P_is,P_not使用softmax函数进行归一化处理表示是否存在目标的概率；

步骤54，根据步骤53得到的偏移量d_x,d_y,d_h,d_w，与步骤52设定的锚方框的中心点坐标、长和宽x_a,y_a,h_a,w_a，计算出生成的候选区域实际的中心点坐标、宽和高x_p,y_p,w_p,h_p。

2.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法，其特征在于：所述步骤1中，立方体结构的获取方法如下：

3.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法，其特征在于：所述步骤4中，三维卷积特征提取网络的结构为：

上式中，W_ijg为卷积核在位置(i,j,g)处的权值，X_{(a+i)(b+j)(c+g)}为输入立方体单位在位置(a+i,b+j,c+g)处的值，v为偏置项，sw,sh,sl分别为三维卷积核的宽高和长，H_abc为空间坐标(a,b,c)处的响应输出，f为激活函数。

4.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法，其特征在于：所述步骤7中，区域标准池化过程如下：

步骤72，在步骤71划分的每一个小格子中，使用最大池化的方法，将小格子的中的特征池化为1×1维的，则将不同大小的特征区域池化为7×7维固定大小的特征图。

5.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法，其特征在于：所述步骤8中，检测网络对候选区域进行分类和边界框微调的过程如下：

步骤83，边界框回归子网通过两层全连接输出4维的向量{t_x,t_y,t_w,t_h}表示目标边界框相对于的候选区域的偏移量，t_x＝(x-x_p)/w_a,t_y＝(y-y_p)/h_a,t_w＝log(w/w_a),t_h＝log(h/h_a)，x,y为目标的边界框的中心点横纵坐标，w,h为目标的边界框的宽和高，x_p,y_p,w_p,h_p为候选区域中心点坐标、宽和高；