CN109829398B - 一种基于三维卷积网络的视频中的目标检测方法 - Google Patents

一种基于三维卷积网络的视频中的目标检测方法 Download PDF

Info

Publication number
CN109829398B
CN109829398B CN201910041920.0A CN201910041920A CN109829398B CN 109829398 B CN109829398 B CN 109829398B CN 201910041920 A CN201910041920 A CN 201910041920A CN 109829398 B CN109829398 B CN 109829398B
Authority
CN
China
Prior art keywords
network
target
dimensional
dimensional convolution
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910041920.0A
Other languages
English (en)
Other versions
CN109829398A (zh
Inventor
王田
李玮匡
单光存
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201910041920.0A priority Critical patent/CN109829398B/zh
Publication of CN109829398A publication Critical patent/CN109829398A/zh
Application granted granted Critical
Publication of CN109829398B publication Critical patent/CN109829398B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明涉及一种基于三维卷积网络的视频中的目标检测方法,包括:使用交叉训练的方法对整个网络进行融合训练,使用三维卷积网络提取特征并融合前后帧的上下文信息,使用候选区域生成网络生成可能存在目标的候选区域,使用区域标准池化方法对候选区域进行标准池化,对每一个候选区域进行分类与边界框回归微调,使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测;在特征提取时,为充分利用视频中图像序列的时序信息,使用待检测目标帧的前后若干帧构成立方体,并使用三维卷积网络进行特征提取,从而实现精确的视频中目标检测效果。

Description

一种基于三维卷积网络的视频中的目标检测方法
技术领域
本发明涉及视频中图像序列的处理技术,特别是涉及一种基于三维卷积网络的视频中的目标检测方法。
背景技术
视频中的目标检测是计算机视觉中的一个重要任务,它广泛应用于自动驾驶,无人机的视觉导航等诸多领域。视频中的目标检测要求在视频中图像序列的每一帧中给出目标的边界框坐标和目标类别的预测信息。现有的目标检测方法大多直接针对单帧图像进行检测,如果直接利用这些方法对视频中的目标进行检测,将无法利用视频中图像序列的时序信息,会造成检测精度的下降。三维卷积网络是处理视频中图像序列的一种常用网络,相对于二维卷积网络,三维卷积网络多了时间的维度,可以有效提取图像序列的时序信息。为了提取视频中图像序列的时序信息,从而得到精确的视频中目标检测结果,研究一种基于三维卷积网络的视频中的目标检测方法具有重要意义。
发明内容
本发明技术解决问题:克服现有技术的不足,提供一种检测精度高的基于三维卷积网络的视频中的目标检测方法,充分挖掘利用视频中图像序列的时序信息,从而提高检测精度。
本发明提出的技术方案为:一种基于三维卷积网络的视频中的目标检测方法,实现步骤如下:
步骤1,读取数据库中训练样本的视频及对应标签,将训练样本的视频分解成连续的N'帧图像序列,对于图像序列中的每一帧图像,取其向前的若干帧图像和向后的相同帧数的图像,进行堆叠得到N个立方体结构,N'=N;
步骤2,构建三维卷积特征提取网络、候选区域生成网络、检测网络,使用步骤1得到的N个立方体结构和对应标签,使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练,得到可用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络;
步骤3,读取待检测的视频,将待检测的视频分解成连续的M'帧图像,并对每一帧图像取其前后的若干帧进行堆叠,得到M个立方体结构,M'=M;
步骤4,取步骤3得到的M个立方体结构其中之一,使用三维卷积特征提取网络,提取立方体结构的特征,得到对应的特征图;
步骤5,将步骤4得到的特征图输入到候选区域生成网络中,预测可能存在目标的候选区域,得到候选区域的坐标xp,yp,wp,hp以及是否存在目标的概率Pis,Pnot,Pis为存在目标的概率,Pnot为不存在目标的概率,xp,yp为候选区域中心点的横纵坐标,wp,hp为候选区域的宽和高;
步骤6,设定存在目标的概率Pis的阈值P_threshold,将存在目标的概率Pis大于设定阈值P_threshold的区域映射到步骤4得到的的特征图上;
步骤7,将步骤6得到的映射到特征图上的区域进行区域标准池化,把不同大小的候选区域池化为固定大小的特征图;
步骤8,对于步骤7得到的各个固定大小的特征图,使用检测网络对各个固定大小的特征图进行分类与边界框的回归微调,得到目标的分类类别、目标属于该类别的概率P和目标的边界框的坐标x,y,w,h,P为目标属于该类别的概率,x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高;
步骤9,采用非最大抑制对检测到的重叠度较高的目标进行过滤,对于检测到的每一类目标,计算目标所在区域交集部分面积与并集部分面积的比例,当交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留目标属于该类别概率P最大的检测结果,而对其他的检测结果进行过滤;
步骤10,对步骤3中得到的M个立方体结构,重复步骤4至步骤9的过程,分别进行检测,得到视频中图像序列每一帧的检测结果。
所述步骤1中,立方体结构的获取方法如下:
将训练样本的视频分解成连续的N'帧图像序列,对于N'帧图像序列的每一帧图像,取其向前的l帧图像和向后的l帧图像,从而接受一定的时间上下文信息,将这2l+1帧图像进行堆叠,构成大小为W×H×(2l+1)的立方体结构,其中,W为图像的宽,H为图像的高,2l+1表示堆叠图片的帧数;在图像序列的开始和末端,向前或向后的图像帧数小于l帧时,使用补零的方法使立方体的大小仍为W×H×(2l+1),得到N个大小为W×H×(2l+1)的立方体结构,N'=N。
所述步骤2中的过程如下:
步骤21,使用若干层三维卷积层和三维池化层经行堆叠,构建三维卷积特征提取网络,使用Sport1M数据库为训练样本,针对视频分类任务对三维卷积特征提取网络进行训练,将得到的权值作为三维卷积特征提取网络的初始权值;
步骤22,使用二维卷积层和全连接层构建候选区域生成网络,使用随机初始化的权值作为候选区域生成网络的初始权值;
步骤23,构建检测网络,检测网络由分类子网络和回归子网络构成,分类子网络和回归子网络的结构均为全连接层,使用随机初始化的权值作为初始权值;
步骤24,使用步骤1中得到的N个立方体结构和对应标签,对步骤22得到的候选区域生成网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为Lrpn=LP+Lreg,其中LP为候选区域生成网络输出的是否存在目标的概率与标签真实值的交叉熵,Lreg为候选区域生成网络输出的候选区域坐标偏移量与标签中目标区域坐标偏移量的平方和;
步骤25,对步骤23得到的检测网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为检测网络输出分类结果损失与坐标回归损失的加权和;
步骤26,重复步骤24和步骤25若干次,直到步骤24和步骤25中的损失函数稳定。
所述步骤4中,三维卷积特征提取网络的结构为:
三维卷积特征提取网络的整体结构为若干层嵌套的三维卷积层和三维池化层;三维卷积的卷积核是具有长宽高三个维度的张量;在输出的特征图中,位于空间坐标(a,b,c)处的响应输出由下式计算得出:
Figure GDA0002353733560000031
上式中,Wijg为卷积核在位置(i,j,g)处的权值,X(a+i)(b+j)(c+g)为输入立方体单位在位置(a+i,b+j,c+g)处的值,v为偏置项,sw,sh,sl分别为三维卷积核的宽高和长,Habc为空间坐标(a,b,c)处的响应输出,f为激活函数;
所述步骤5中,候选区域生成的过程如下:
步骤51,对于步骤4中三维卷积特征提取网络得到的特征图,使用一个大小为3×3的二维卷积核,在特征图上进行滑动,进行卷积计算,在卷积核滑动的每个位置得到一个512维的向量;
步骤52,在卷积核滑动的每一个位置设定9个锚方框作为参考,锚方框长宽比按1:2、1:1、2:1设定为三种比例,面积大小设定为1282、2562、5122像素三种大小,锚方框的中心点为所在滑动窗口的中心;
步骤53,将步骤51在卷积核滑动的每个位置得到的512维向量通过全连接网络输出9个6维的向量,表示相对于步骤52中设定的锚方框,候选区域的中心点坐标、长和宽的偏移量dx,dy,dh,dw和是否存在目标的概率Pis,Pnot,其中:dx=(xp-xa)/wa,dy=(yp-ya)/ha,dh=log(hp/ha),dw=log(wp/wa),xp,yp,wp,hp表示候选区域中心点坐标、宽和高,xa,ya,ha,wa表示锚方框中心点坐标、长和宽,Pis,Pnot使用softmax函数进行归一化处理,表示是否存在目标的概率;
步骤54根据步骤53得到的偏移量dx,dy,dh,dw,与步骤52设定的锚方框的中心点坐标、长和宽xa,ya,ha,wa,计算出生成的候选区域实际的中心点坐标、宽和高xp,yp,wp,hp
所述步骤7区域标准池化过程如下:
步骤71,把待池化的区域大小表示为m×n,将待池化的区域划分成7×7个大小约为m/7×n/7的小格子,当m/7或n/7无法取整时,则按照四舍五入近似取整;
步骤72,在步骤71划分的每一个小格子中,使用最大池化的方法,将小格子的中的特征池化为1×1维的,这样,将不同大小的特征区域池化为7×7维固定大小的特征图;
所述步骤8中,检测网络对候选区域进行分类和边界框微调的过程如下:
步骤81,将步骤7中得到的固定大小的特征图拉平为一维向量,将一维向量分别输入到分类子网络和回归子网络;
步骤82,分类子网络通过两层全连接输出n+1维向量{p1,p2,…,pn+1},p1,p2,…,pn表示该候选区域分别属于n类目标的概率,pn+1表示该候选区域属于背景的概率,网络输出层使用softmax函数作为激活函数,n为待检测目标的类别数目;
步骤83,回归子网通过两层全连接输出4维的向量{tx,ty,tw,th},表示目标边界框相对于的候选区域的偏移量,tx=(x-xp)/wa,ty=(y-yp)/ha,tw=log(w/wa),th=log(h/ha),x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高,xp,yp,wp,hp为候选区域中心点坐标、宽和高;
步骤84,求步骤82中得到的n+1维向量{p1,p2,…,pn+1}中的最大值,如果最大值为Pn+1,表明该候选区域为背景,不进行输出,否则,根据最大值判断目标的类别,根据{tx,ty,tw,th}计算目标的边界框的坐标x,y,w,h,将n+1维向量{p1,p2,…,pn+1}中的最大值作为目标属于该类别的概率P。
综上所述,本发明所述的一种基于三维卷积的视频中的目标精准检测方法,包括:使用交叉训练的方法对整个网络进行融合训练,使用三维卷积网络提取特征并融合前后帧的上下文信息,使用候选区域生成网络生成可能存在目标的候选区域,使用区域标准池化方法对候选区域进行标准池化,对每一个候选区域进行分类与边界框回归微调,使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测;在特征提取时,为充分利用视频中图像序列的时序信息,使用待检测目标帧的前后若干帧构成立方体,并使用三维卷积网络进行特征提取,从而实现精确的视频中目标检测效果。
本发明与现有技术相比的优点在于:相对于单帧图像,视频中的图像序列在连续帧之间具有时序性,存在着丰富的时序信息。本方法在视频中的目标检测中引入了三维卷积网络提取连续帧图像序列的时序信息,充分利用挖掘连续帧之间的时序信息特征,达到视频中目标检测的准确性。
附图说明
图1为本发明的实现流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
本发明所述的一种基于关键区域检测的复杂目标精准识别方法,包括:使用交叉训练的方法对整个网络进行融合训练,使用三维卷积网络提取特征并融合前后帧的上下文信息,使用候选区域生成网络生成可能存在目标的候选区域,使用区域标准池化方法对候选区域进行标准池化,对每一个候选区域进行分类与边界框回归微调,使用非极大抑制过滤冗余的检测结果。该检测方法利用基于候选区域生成网络的两阶段检测框架对目标进行检测;在特征提取时,为充分利用视频中图像序列的时序信息,使用待检测目标帧的前后若干帧构成立方体,并使用三维卷积网络进行特征提取,从而实现精确的视频中目标检测效果。
如图1所示,本发明具体实现如下步骤:
步骤1,读取数据库中训练样本的视频及对应标签,将训练样本的视频分解成连续的N'帧图像序列,对于图像序列中的每一帧图像,取其向前的若干帧图像和向后的相同帧数的图像,进行堆叠得到N个立方体结构,N'=N;
步骤2,构建三维卷积特征提取网络、候选区域生成网络、检测网络,使用步骤1得到的N个立方体结构和对应标签,使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练,得到可用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络;;
步骤3,读取待检测的视频,将待检测的视频分解成连续的M'帧图像,并对每一帧图像取其前后的若干帧进行堆叠,得到M个立方体结构,M'=M;
步骤4,选取步骤3得到的M个立方体结构其中之一,使用三维卷积特征提取网络提取立方体结构的特征,得到对应的特征图;
步骤5,将步骤4得到的特征图输入到候选区域生成网络中,预测可能存在目标的候选区域,得到候选区域的坐标xp,yp,wp,hp以及是否存在目标的概率Pis,Pnot,Pis为存在目标的概率,Pnot为不存在目标的概率,xp,yp为候选区域中心点的横纵坐标,wp,hp为候选区域的宽和高;
步骤6,设定存在目标的概率Pis的阈值P_threshold,将存在目标的概率Pis大于设定阈值P_threshold的候选区域映射到步骤4的特征图上;
步骤7,将步骤6得到的映射到特征图上的区域进行区域标准池化,把不同大小的候选区域池化为固定大小的特征图;
步骤8,对于步骤7得到的各个固定大小的特征图,使用检测网络对各个固定大小的特征图进行分类与边界框的回归微调,得到目标的分类类别、目标属于该类别的概率P和目标的边界框的坐标x,y,w,h,P为目标属于该类别的概率,x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高;
步骤9,采用非最大抑制对检测到的重叠度较高的目标进行过滤,对于检测到的每一类目标,计算目标所在区域交集部分面积与并集部分面积的比例,当交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留目标属于该类别概率P最大的最大的检测结果,而对其他的检测结果进行过滤;
步骤10,对步骤3中得到的M个立方体结构,重复步骤4至步骤9的过程,分别进行检测,得到视频中图像序列每一帧的检测结果。
所述步骤1中,立方体结构的获取方法如下:
将训练样本的视频分解成连续的N'帧图像序列,对于N'帧图像序列的每一帧图像,取其向前的2帧图像和向后的2帧图像,从而接受一定的时间上下文信息,将这5帧图像进行堆叠,构成大小为W×H×5的立方体结构,其中,W为图像的宽,H为图像的高,5表示堆叠图片的帧数;在图像序列的开始和末端,向前或向后的图像帧数小于2帧时,使用补零的方法使立方体的大小仍为W×H×5,得到N个大小为W×H×5的立方体结构,N'=N;
所述步骤2中的过程如下:
步骤21,使用5层三维卷积层和三维池化层经行堆叠,构建三维卷积特征提取网络,使用Sport1M数据库为训练样本,、针对视频分类任务对三维卷积特征提取网络进行训练,将得到的权值作为三维卷积特征提取网络的初始权值;
步骤22,使用一层二维卷积层和两层全连接层构建候选区域生成网络,使用随机初始化的权值作为候选区域生成网络的初始权值;
步骤23,构建检测网络,检测网络由分类子网络和回归子网络构成,分类子网络和回归子网络的结构均为两层全连接层,使用随机初始化的权值作为初始权值;
步骤24,使用步骤1中得到的N个立方体结构和对应标签,对步骤22得到的候选区域生成网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为Lrpn=LP+Lreg,其中LP为候选区域生成网络输出的是否存在目标的概率与标签真实值的交叉熵,Lreg为候选区域生成网络输出的候选区域坐标偏移量与标签中目标区域坐标偏移量的平方和;
步骤25,对步骤23得到的检测网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为检测网络输出分类结果损失与坐标回归损失的加权和;
步骤26,重复步骤24和步骤25共计10000次,直到步骤24和步骤25中的损失函数稳定;
所述步骤4中,三维卷积特征提取网络的结构为:
三维卷积特征提取网络的整体结构为5层嵌套的三维卷积层和5层三维池化层;三维卷积的卷积核是具有长宽高三个维度的张量;在输出的特征图中,位于空间坐标(a,b,c)处的响应输出由下式计算得出:
Figure GDA0002353733560000071
上式中,Wijg为卷积核在位置(i,j,g)处的权值,X(a+i)(b+j)(c+g)为输入立方体单位在位置(a+i,b+j,c+g)处的值,v为偏置项,sw,sh,sl分别为三维卷积核的宽高和长,Habc为空间坐标(a,b,c)处的响应输出,f为激活函数;
所述步骤5中,候选区域生成的过程如下:
步骤51,对于步骤4中三维卷积特征提取网络得到的特征图,使用一个大小为3×3的二维卷积核,在特征图上进行滑动,进行卷积计算,在卷积核滑动的每个位置得到一个512维的向量;
步骤52,在卷积核滑动的每一个位置设定9个锚方框作为参考,锚方框长宽比按1:2、1:1、2:1设定为三种比例,面积大小设定为1282、2562、5122像素三种大小,锚方框的中心点为所在滑动窗口的中心;
步骤53,将步骤51在卷积核滑动的每个位置得到的512维向量通过全连接网络输出9个6维的向量,表示相对于步骤52中设定的锚方框,候选区域的中心点坐标、长和宽的偏移量dx,dy,dh,dw和是否存在目标的概率Pis,Pnot,其中:dx=(xp-xa)/wa,dy=(yp-ya)/ha,dh=log(hp/ha),dw=log(wp/wa),xp,yp,wp,hp表示候选区域中心点坐标、宽和高,xa,ya,ha,wa表示锚方框中心点坐标、长和宽,Pis,Pnot使用softmax函数进行归一化处理,表示是否存在目标的概率;
步骤54根据步骤53得到的偏移量dx,dy,dh,dw,与步骤52设定的锚方框的中心点坐标、长和宽xa,ya,ha,wa,计算出生成的候选区域实际的中心点坐标、宽和高xp,yp,wp,hp
所述步骤7中,区域标准池化过程如下:
步骤71,把待池化的区域大小表示为m×n,将待池化的区域划分成7×7个大小约为m/7×n/7的小格子,当m/7或n/7无法取整时,则按照四舍五入近似取整;
步骤72,在步骤71划分的每一个小格子中,使用最大池化的方法,将小格子的中的特征池化为1×1维的,则将不同大小的特征区域池化为7×7维固定大小的特征图;
所述步骤8中,检测网络对候选区域进行分类和边界框微调的过程如下:
步骤81,将步骤7中得到的固定大小的特征图拉平为一维向量,将一维向量分别输入到分类子网络和边界框回归子网络;
步骤82,分类子网络通过两层全连接输出n+1维向量{p1,p2,…,pn+1},p1,p2,…,pn表示该候选区域分别属于n类目标的概率,pn+1表示该候选区域属于背景的概率,网络输出层使用softmax函数作为激活函数,n为待检测目标的类别数目;
步骤83,回归子网通过两层全连接输出4维的向量{tx,ty,tw,th},表示目标边界框相对于的候选区域的偏移量,tx=(x-xp)/wa,ty=(y-yp)/ha,tw=log(w/wa),th=log(h/ha),x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高,xp,yp,wp,hp为候选区域中心点坐标、宽和高;
步骤84,求步骤82中得到的n+1维向量{p1,p2,…,pn+1}中的最大值,如果最大值为Pn+1,表明该候选区域为背景,不进行输出,否则,根据最大值判断目标的类别,根据{tx,ty,tw,th}计算目标的边界框的坐标x,y,w,h,将n+1维向量{p1,p2,…,pn+1}中的最大值作为目标属于该类别的概率P。
综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于三维卷积网络的视频中的目标检测方法,其特征在于,包括如下步骤:
步骤1,读取数据库中训练样本的视频及对应标签,将训练样本的视频分解成连续的N'帧图像序列,对于图像序列中的每一帧图像,取其向前的若干帧图像和向后的相同帧数的图像,进行堆叠得到N个立方体结构,N'=N;
步骤2,构建三维卷积特征提取网络、候选区域生成网络、检测网络,使用步骤1得到的N个立方体结构和对应标签,使用交叉训练的方法对三维卷积特征提取网络、候选区域生成网络、检测网络进行融合训练,得到用于视频中目标检测的三维卷积特征提取网络、候选区域生成网络、检测网络;
步骤3,读取待检测的视频,将待检测的视频分解成连续的M'帧图像,并对每一帧图像取其前后的若干帧进行堆叠,得到M个立方体结构,M'=M;
步骤4,取步骤3得到的M个立方体结构其中之一,使用三维卷积特征提取网络,提取立方体结构的特征,得到对应的特征图;
步骤5,将步骤4得到的特征图输入到候选区域生成网络中,预测可能存在目标的候选区域,得到候选区域的坐标xp,yp,wp,hp以及是否存在目标的概率Pis,Pnot,Pis为存在目标的概率,Pnot为不存在目标的概率,xp,yp为候选区域中心点的横纵坐标,wp,hp为候选区域的宽和高;
步骤6,设定存在目标的概率Pis的阈值P_threshold,将存在目标的概率Pis大于设定阈值P_threshold的区域映射到步骤4得到的的特征图上;
步骤7,将步骤6得到的映射到特征图上的区域进行区域标准池化,把不同大小的候选区域池化为固定大小的特征图;
步骤8,对于步骤7得到的各个固定大小的特征图,使用检测网络对各个固定大小的特征图进行分类与边界框的回归微调,得到目标的分类类别、目标属于该类别的概率P和目标的边界框的坐标x,y,w,h,P为目标属于该类别的概率,x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高;
步骤9,采用非最大抑制对检测到的重叠度较高的目标进行过滤,对于检测到的每一类目标,计算目标所在区域交集部分面积与并集部分面积的比例,当交集部分面积与并集部分面积的比例超过规定的阈值IOU_threshold时,则仅保留目标属于该类别概率P最大的检测结果,而对其他的检测结果进行过滤;
步骤10,对步骤3中得到的M个立方体结构,重复步骤4至步骤9的过程,分别进行检测,得到视频中图像序列每一帧的检测结果;
所述步骤2的过程如下:
步骤21,使用若干层三维卷积层和三维池化层经行堆叠,构建三维卷积特征提取网络,使用Sport 1M数据库为训练样本,针对视频分类任务对三维卷积特征提取网络进行训练,将得到的权值作为三维卷积特征提取网络的初始权值;
步骤22,使用二维卷积层和全连接层构建候选区域生成网络,使用随机初始化的权值作为候选区域生成网络的初始权值;
步骤23,构建检测网络,检测网络由分类子网络和回归子网络构成,分类子网络和回归子网络的结构均为全连接层,使用随机初始化的权值作为初始权值;
步骤24,使用步骤1中得到的N个立方体结构和对应标签,对步骤22得到的候选区域生成网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为Lrpn=LP+Lreg,其中LP为候选区域生成网络输出的是否存在目标的概率与标签真实值的交叉熵,Lreg为候选区域生成网络输出的候选区域坐标偏移量与标签中目标区域坐标偏移量的平方和;
步骤25,对步骤23得到的检测网络和步骤21得到的三维卷积特征提取网络进行训练,训练的损失函数为检测网络输出分类结果损失与坐标回归损失的加权和;
步骤26,重复步骤24和步骤25若干次,直到步骤24和步骤25中的损失函数稳定;
所述步骤5中,候选区域生成的过程如下:
步骤51,对于步骤4中三维卷积特征提取网络得到的特征图,使用一个大小为3×3的二维卷积核,在特征图上进行滑动,进行卷积计算,在卷积核滑动的每个位置得到一个512维的向量;
步骤52,在卷积核滑动的每一个位置设定9个锚方框作为参考,锚方框长宽比按1:2、1:1、2:1设定为三种比例,面积大小设定为1282、2562、5122像素三种大小,锚方框的中心点为所在滑动窗口的中心;
步骤53,将步骤51在卷积核滑动的每个位置得到的512维向量通过全连接网络输出9个6维的向量;表示相对于步骤52中设定的锚方框,候选区域的中心点坐标、长和宽的偏移量dx,dy,dh,dw和是否存在目标的概率Pis,Pnot,其中:dx=(xp-xa)/wa,dy=(yp-ya)/ha,dh=log(hp/ha),dw=log(wp/wa),xp,yp,wp,hp表示候选区域中心点坐标、宽和高,xa,ya,ha,wa表示锚方框中心点坐标、高和宽,Pis,Pnot使用softmax函数进行归一化处理表示是否存在目标的概率;
步骤54,根据步骤53得到的偏移量dx,dy,dh,dw,与步骤52设定的锚方框的中心点坐标、长和宽xa,ya,ha,wa,计算出生成的候选区域实际的中心点坐标、宽和高xp,yp,wp,hp
2.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法,其特征在于:所述步骤1中,立方体结构的获取方法如下:
将训练样本的视频分解成连续的N'帧图像序列,对于N'帧图像序列的每一帧图像,取其向前的l帧图像和向后的l帧图像,从而接受一定的时间上下文信息,将这2l+1帧图像进行堆叠,构成大小为W×H×(2l+1)的立方体结构,其中,W为图像的宽,H为图像的高,2l+1表示堆叠图片的帧数;在图像序列的开始和末端,向前或向后的图像帧数小于l帧时,使用补零的方法使立方体的大小仍为W×H×(2l+1),得到N个大小为W×H×(2l+1)的立方体结构,N'=N。
3.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法,其特征在于:所述步骤4中,三维卷积特征提取网络的结构为:
三维卷积特征提取网络的整体结构为若干层嵌套的三维卷积层和三维池化层;三维卷积的卷积核是具有长宽高三个维度的张量;在输出的特征图中,位于空间坐标(a,b,c)处的响应输出由下式计算得出:
Figure FDA0002353733550000031
上式中,Wijg为卷积核在位置(i,j,g)处的权值,X(a+i)(b+j)(c+g)为输入立方体单位在位置(a+i,b+j,c+g)处的值,v为偏置项,sw,sh,sl分别为三维卷积核的宽高和长,Habc为空间坐标(a,b,c)处的响应输出,f为激活函数。
4.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法,其特征在于:所述步骤7中,区域标准池化过程如下:
步骤71,把待池化的区域大小表示为m×n,将待池化的区域划分成7×7个大小约为m/7×n/7的小格子,当m/7或n/7无法取整时,则按照四舍五入近似取整;
步骤72,在步骤71划分的每一个小格子中,使用最大池化的方法,将小格子的中的特征池化为1×1维的,则将不同大小的特征区域池化为7×7维固定大小的特征图。
5.根据权利要求1所述的一种基于三维卷积网络的视频中的目标检测方法,其特征在于:所述步骤8中,检测网络对候选区域进行分类和边界框微调的过程如下:
步骤81,将步骤7中得到的固定大小的特征图拉平为一维向量,将一维向量分别输入到分类子网络和回归子网络;
步骤82,分类子网络通过两层全连接输出n+1维向量{p1,p2,…,pn+1},p1,p2,…,pn表示该候选区域分别属于n类目标的概率,pn+1表示该候选区域属于背景的概率,网络输出层使用softmax函数作为激活函数,n为待检测目标的类别数目;
步骤83,边界框回归子网通过两层全连接输出4维的向量{tx,ty,tw,th}表示目标边界框相对于的候选区域的偏移量,tx=(x-xp)/wa,ty=(y-yp)/ha,tw=log(w/wa),th=log(h/ha),x,y为目标的边界框的中心点横纵坐标,w,h为目标的边界框的宽和高,xp,yp,wp,hp为候选区域中心点坐标、宽和高;
步骤84,求步骤82中得到的n+1维向量{p1,p2,…,pn+1}中的最大值,如果最大值为Pn+1,表明该候选区域为背景,不进行输出,否则,根据最大值判断目标的类别,根据{tx,ty,tw,th}计算目标的边界框的坐标x,y,w,h,将n+1维向量{p1,p2,…,pn+1}中的最大值作为目标属于该类别的概率P。
CN201910041920.0A 2019-01-16 2019-01-16 一种基于三维卷积网络的视频中的目标检测方法 Active CN109829398B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910041920.0A CN109829398B (zh) 2019-01-16 2019-01-16 一种基于三维卷积网络的视频中的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910041920.0A CN109829398B (zh) 2019-01-16 2019-01-16 一种基于三维卷积网络的视频中的目标检测方法

Publications (2)

Publication Number Publication Date
CN109829398A CN109829398A (zh) 2019-05-31
CN109829398B true CN109829398B (zh) 2020-03-31

Family

ID=66860338

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910041920.0A Active CN109829398B (zh) 2019-01-16 2019-01-16 一种基于三维卷积网络的视频中的目标检测方法

Country Status (1)

Country Link
CN (1) CN109829398B (zh)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287826B (zh) * 2019-06-11 2021-09-17 北京工业大学 一种基于注意力机制的视频目标检测方法
CN110264457B (zh) * 2019-06-20 2020-12-15 浙江大学 基于旋转区域候选网络的焊缝自主识别方法
CN110334752B (zh) * 2019-06-26 2022-11-08 电子科技大学 一种基于梯形卷积的不规则形状物体检测方法
CN110473284B (zh) * 2019-07-29 2021-02-12 电子科技大学 一种基于深度学习的运动物体三维模型重建方法
CN110533691B (zh) * 2019-08-15 2021-10-22 合肥工业大学 基于多分类器的目标跟踪方法、设备和存储介质
CN111199199B (zh) * 2019-12-27 2023-05-05 同济大学 一种基于自适应上下文区域选取的动作识别方法
CN111160255B (zh) * 2019-12-30 2022-07-29 成都数之联科技股份有限公司 一种基于三维卷积网络的捕鱼行为识别方法及***
CN111144376B (zh) * 2019-12-31 2023-12-05 华南理工大学 视频目标检测特征提取方法
CN111310609B (zh) * 2020-01-22 2023-04-07 西安电子科技大学 基于时序信息和局部特征相似性的视频目标检测方法
CN111178344B (zh) * 2020-04-15 2020-07-17 中国人民解放军国防科技大学 一种多尺度时序行为识别方法
CN111624659B (zh) * 2020-06-05 2022-07-01 中油奥博(成都)科技有限公司 一种地震数据的时变带通滤波方法及装置
CN112016569A (zh) * 2020-07-24 2020-12-01 驭势科技(南京)有限公司 基于注意力机制的目标检测方法、网络、设备和存储介质
CN112215123B (zh) * 2020-10-09 2022-10-25 腾讯科技(深圳)有限公司 一种目标检测方法、装置及存储介质
CN112613428B (zh) * 2020-12-28 2024-03-22 易采天成(郑州)信息技术有限公司 基于平衡损失的Resnet-3D卷积牛视频目标检测方法
CN112733747A (zh) * 2021-01-14 2021-04-30 哈尔滨市科佳通用机电股份有限公司 一种缓解阀拉杆脱落故障的识别方法、***及装置
CN113822172B (zh) * 2021-08-30 2024-06-14 中国科学院上海微***与信息技术研究所 一种视频时空行为检测方法
CN115082713B (zh) * 2022-08-24 2022-11-25 中国科学院自动化研究所 引入空间对比信息的目标检测框提取方法、***及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别***
CN107145889A (zh) * 2017-04-14 2017-09-08 中国人民解放军国防科学技术大学 基于具有RoI池化的双CNN网络的目标识别方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
CN108537286A (zh) * 2018-04-18 2018-09-14 北京航空航天大学 一种基于关键区域检测的复杂目标精准识别方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107527363B (zh) * 2016-06-20 2022-01-25 青岛海尔智能技术研发有限公司 一种冷藏装置存储物管理***和冷藏装置
CN106203283A (zh) * 2016-06-30 2016-12-07 重庆理工大学 基于三维卷积深度神经网络和深度视频的动作识别方法
US10366292B2 (en) * 2016-11-03 2019-07-30 Nec Corporation Translating video to language using adaptive spatiotemporal convolution feature representation with dynamic abstraction
CN108399380A (zh) * 2018-02-12 2018-08-14 北京工业大学 一种基于三维卷积和Faster RCNN的视频动作检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975941A (zh) * 2016-05-31 2016-09-28 电子科技大学 一种基于深度学习的多方向车型检测识别***
CN107145889A (zh) * 2017-04-14 2017-09-08 中国人民解放军国防科学技术大学 基于具有RoI池化的双CNN网络的目标识别方法
CN107506740A (zh) * 2017-09-04 2017-12-22 北京航空航天大学 一种基于三维卷积神经网络和迁移学习模型的人体行为识别方法
CN107808150A (zh) * 2017-11-20 2018-03-16 珠海习悦信息技术有限公司 人体视频动作识别方法、装置、存储介质及处理器
CN108537286A (zh) * 2018-04-18 2018-09-14 北京航空航天大学 一种基于关键区域检测的复杂目标精准识别方法
CN108805083A (zh) * 2018-06-13 2018-11-13 中国科学技术大学 单阶段的视频行为检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Using Gabor Filter in 3D Convolutional Neural Networks for Human Action Recognition;Li, Jiakun 等;《PROCEEDINGS OF THE 36TH CHINESE CONTROL CONFERENCE (CCC 2017)》;20170728;第11139-11144页 *
一种基于三维卷积网络的暴力视频检测方法;宋伟 等;《技术研究》;20171231(第12期);第54-60页 *

Also Published As

Publication number Publication date
CN109829398A (zh) 2019-05-31

Similar Documents

Publication Publication Date Title
CN109829398B (zh) 一种基于三维卷积网络的视频中的目标检测方法
CN108510467B (zh) 基于深度可变形卷积神经网络的sar图像目标识别方法
US9846946B2 (en) Objection recognition in a 3D scene
CN109903331B (zh) 一种基于rgb-d相机的卷积神经网络目标检测方法
CN112084869B (zh) 一种基于紧致四边形表示的建筑物目标检测方法
CN111462200A (zh) 一种跨视频行人定位追踪方法、***及设备
CN107767400B (zh) 基于层次化显著性分析的遥感图像序列动目标检测方法
EP2874097A2 (en) Automatic scene parsing
JP6397379B2 (ja) 変化領域検出装置、方法、及びプログラム
CN112435338B (zh) 电子地图的兴趣点的位置获取方法、装置及电子设备
JP5833507B2 (ja) 画像処理装置
CN108229416A (zh) 基于语义分割技术的机器人slam方法
JP6095817B1 (ja) 物体検出装置
CN110929649B (zh) 一种面向小目标检测的网络和困难样本挖掘方法
CN111882586A (zh) 一种面向剧场环境的多演员目标跟踪方法
CN114926747A (zh) 一种基于多特征聚合与交互的遥感图像定向目标检测方法
CN114972968A (zh) 基于多重神经网络的托盘识别和位姿估计方法
CN111323024A (zh) 定位方法及装置、设备、存储介质
Ferguson et al. A 2d-3d object detection system for updating building information models with mobile robots
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN116109950A (zh) 一种低空域反无人机视觉检测、识别与跟踪方法
CN113657225B (zh) 一种目标检测方法
CN112241736A (zh) 一种文本检测的方法及装置
CN108256444B (zh) 一种用于车载视觉***的目标检测方法
Yang et al. Design flow of motion based single camera 3D mapping

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant