CN108304808B - 一种基于时空信息与深度网络的监控视频对象检测方法 - Google Patents
一种基于时空信息与深度网络的监控视频对象检测方法 Download PDFInfo
- Publication number
- CN108304808B CN108304808B CN201810118845.9A CN201810118845A CN108304808B CN 108304808 B CN108304808 B CN 108304808B CN 201810118845 A CN201810118845 A CN 201810118845A CN 108304808 B CN108304808 B CN 108304808B
- Authority
- CN
- China
- Prior art keywords
- target
- frame
- motion
- candidate
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000012544 monitoring process Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 37
- 239000013598 vector Substances 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 13
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000013528 artificial neural network Methods 0.000 claims abstract description 5
- 238000002372 labelling Methods 0.000 claims abstract description 3
- 238000013527 convolutional neural network Methods 0.000 claims description 24
- 238000013507 mapping Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 3
- 238000010586 diagram Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 238000009432 framing Methods 0.000 claims 1
- 230000001537 neural effect Effects 0.000 abstract description 3
- 238000004364 calculation method Methods 0.000 description 4
- 230000001965 increasing effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/10—Image enhancement or restoration using non-spatial domain filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/70—Denoising; Smoothing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20024—Filtering details
- G06T2207/20032—Median filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时空信息与深度网络的监控视频对象检测方法,包括收集、标注数据集,训练深度卷积神经网络;利用训练好的深度神经卷积网络提取鲁棒的多尺度深度特征;在多尺度深度特征上提取运动目标候选区域;根据视频前后帧检测结果预测下一帧目标出现的位置;针对运动目标候选区域和预测候选区域进行RoI归一化并对特征向量进行分类和回归得到初步检测结果;利用运动和预测信息,对得到的初步结果进行微调,进一步精准检测结果。本发明综合考虑了视频中所包含的丰富的时空信息,利用运动和预测大大减少了冗余的候选框,并且解决了单帧检测结果不稳定的问题,与其他基于区域的目标检测检测方法相比,在时间和检测精准度上都有了一定的提升。
Description
技术领域
本发明属于计算机数字图像处理与模式识别技术领域,特别涉及一种基于时空信息与深度网络的监控视频对象检测方法。
背景技术
如今,城市中的大量摄像头可用于捕获重要区域不间断的视觉监控信息。其为城市的信息化、城市智能交通以及城市安防等起到重要作用。据IMS Research统计,2016年城市监控摄像头出货量达13800万件,每天产生的监控视频数量就达上千PB。目前,监控视频业务步入数据的喷井时代,比如深圳市目前摄像头超134万个,目前深圳市利用摄像头破案已占刑事案件破案总数的50%。如今智能监控***被广泛应用于各类公共场所,交通监管***,如何对海量的监控视频进行智能分析,面临着巨大挑战。
监控视频中有用的信息主要是其中的运动目标(主要包括人、车),然而监控视频的信息量巨大,如何从大量的城市监控视频中快速查询到感兴趣的目标是一个急需解决的问题。而目标检测作为检索的前提发挥着重要的作用。目前,在发生重大事件后,公安人员往往采用人工观看视频、手动查找的方式进行目标的定位搜索。因此,如何避免花费大量的人力手工筛选成为一个亟待解决的问题。除此之外,由于光线、距离、遮挡、复杂背景等因素的影响,传统方法在检测时间和性能上已经不能满足日益增长的需求。
发明内容
本发明的目的是提供一种基于时空信息与深度网络的监控视频对象检测方法,对于监控视频检测出需要的人、车等目标,利用监控视频中丰富的时空信息,精准定位候选区域可能出现的位置,减少候选区域的个数。并且利用深度神经卷积网路,获取鲁棒的多尺度的深度神经卷积特征。本发明方法在减少计算量的同时,大大提高了检测的精准度。
为了实现上述目的,本发明采用如下技术方案:
本发明提供一种基于时空信息与深度网络的监控视频对象检测方法,包括以下步骤:
步骤1:采集监控视频数据,标注监控数据和测试集,并利用训练集训练深度卷积神经网络;
步骤2:对于测试集,利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征;
步骤3:在多尺度深度特征图上提取运动目标候选区域;
步骤4:根据视频前两帧检测结果预测下一帧目标出现的位置;
步骤5:对提取到的运动和预测候选区域进行RoI归一化及分类回归;
步骤6:利用运动与预测信息,对初始检测结果进行微调,进一步精准检测结果。
进一步的,步骤1中收集、标注数据集并训练深度卷积神经网络:利用PASCALVOC0712数据集并且增加收集的部分监控视频数据集用于训练深度神经网;将数据集整合并做成PASCAL VOC的格式;训练的时候主要的步骤包括数据增强转换、分批输入前向传播、计算损失函数、反向传播修改权重、迭代。
进一步的,步骤2中利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征:利用VGG16或者PVANET提取特征的部分提取深度特征;VGG16的卷积层是13层,PVANET是16层;用表示视频第n帧利用第k层卷积层提取的深度特征,其中i表示卷积层的通道数。为了减小计算量同时为了保持不变性,在进行了3~4次卷积之后往往会进行一次采样操作;经过若干次的采样,获取到的特征图将是多尺度的。前几层的特征图包含更丰富的局部特征,后面提取的特征图包含更丰富的全局特征。
进一步的,步骤3中在多尺度深度特征上提取运动目标候选区域,将提取过程分为粗略运动区域提取和运动目标初始候选区域调整分析两部分;具体步骤是:
3.1)粗略运动目标区域提取,针对步骤2提取得到的多尺度特征图,提取多尺度的运动区域,具体提取过程描述如下:
3.1.1)对相邻两帧之间的对应卷积层的特征图进行帧差,获取不同的尺度特征图上的运动部分:
其中m表示第k层通道的个数;
3.1.3)进一步利用形态学滤波方法来减少噪声,增强运动区域,具体步骤是:
(1)利用最大类间差分法(OTSU)区分前景和背景;
(2)利用中值滤波和下采样来滤除独立的噪声点;
(3)膨胀运动区域来加强运动目标;
(4)上采样恢复图像原本的大小;
(5)提取运动区域的边缘,并且用矩形框标出;
(6)将不同尺度的特征图上的运动区域等比例映射回原图得到运动目标初始候选区域;
3.2)运动目标初始候选区域调整分析,流程如图3所示,具体步骤是:
(1)对于每个运动目标初始候选框改变大小,长宽比和框的中心位置,得到转换后的运动区域候选框;采用三个不同的大小、三个不同的长宽比,三个不同的中心位置得到27个调整版的候选框;
(2)将调整后的候选框从原图等比例的映射到最后一个卷积层产生的特征图;
(3)利用max pooling将映射得到的特征块归一化到同一大小:
(4)利用全连接层对归一化后的特征块提取全局特征,得到4096维的特征向量;
(5)将得到的特征向量送进分类层,得到前后背景的置信度;
(6)利用非极大值抑制(none-maximum suppression,NMS)滤除冗余的候选框。
进一步的,步骤4根据视频的时间轴信息对下一帧目标可能出现的位置进行预测,将得分不小于0.5的称为高置信度目标,得分低于0.5并且高于0.3的目标称为低置信度目标,预测具体步骤是:
4.1)高置信度目标位置预测:用Pn,b={wn,b,hn,b,cxn,b,cyn,b}来表示目标的宽、高和中心位置坐标。用第n-1和第n帧的检测结果来预测第n+1帧的结果:
P(n+1),b={wn,b+Δwn,b,hn,b+Δhn,b,cxn,b+Δcxb,cyn,b+Δcyb} (3)
其中,Δwn,b=wn,b-w(n-1),b,Δhn,b=hn,b-h(n-1),b,Δcxn,b=cxn,b-cx(n-1),b,Δcyb=cyn,b-cy(n-1),b。
4.2)低置信度目标位置预测:先根据公式3预测出物体的下一帧将要出现的位置,然后改变大小,长宽比和框的中心位置,得到转换后的预测区域候选框。采用三个不同的大小、三个不同的长宽比,三个不同的中心位置得到27个调整版的预测候选框。
进一步的,步骤5对步骤3和步骤4产生的候选区域进行映射以及大小归一化,并且对全局特征进行分类回归;具体步骤包括:
5.1)等比例将上两个步骤产生候选区域,映射到最后一个卷积层产生的特征图上;
5.2)由于此时产生的特征块大小不同,并且在利用全连接层提取全局特征前需要将特征块归一化到相同的大小,因此利用RoI pooling层将特征块归一化到相同的大小;
5.3)利用两个级联的全连接层得到4096维的特征向量;
5.4)将特征向量分别送进分类层和回归层得到每个候选框的对于每个类别的打分和回归后的四维坐标。
进一步的,利用运动与预测信息,步骤6对步骤5的初步检测结果进行微调,进一步精准检测结果;用表示运动候选框的检测坐标结果,表示预测候选框的检测坐标结果;其中,(ln,tn)表示目标框的左上角坐标,(rn,bn)表示目标框的右下角坐标;具体步骤包括:
6.1)计算运动框和预测的框之间的重叠率On,i,j:
6.2)根据得分和重叠率来判断是加强正例还是削弱可能为负例的目标:
6.2.1)如果重叠率大于θ(θ=0.5),并且两方中有一方的得分大于ts(ts=0.5),便调整目标的位置并增强目标的得分:
6.2.2)如果重叠率大于θ(θ=0.5),并且两方的得分都小于tmin(tmin=0.3),抑制false positive,降低此目标的得分。
6.2.3)如果重叠率小于0.5,则保持原本框的结果。
相对于现有技术,本发明具有以下有益效果:本发明一种基于时空信息与深度网络的监控视频对象检测方法:收集数据集并训练深度卷积神经网络;通过深度神经网络(VGG16、PVANET)提取鲁棒的多尺度深度特征;充分利用视频中运动信息,提取运动目标候选区域并进行位置调整;对于相邻帧间检测结果不稳定问题,采用预测机制,利用目标出现在时间轴上的信息预测目标下一帧出现的位置;将上面产生的两部分候选区域:运动候选区域和预测候选区域映射到最后一层产生的特征图上,利用RoI pooling对特征块进行归一化;对上面产生的特征块利用全连接层提取全局特征,产生4096维的向量;将4096维的特征向量分别送入分类层和回归层,得到每个类别的得分以及框回归后的坐标;利用运动信息和预测信息进行初步结果的融合与调整,进一步增强true positive并且抑制falsepositive。本发明利用视频中丰富的时空信息,有效的提取精准的候选区域,减少冗余候选区域数量,对监控视频中常见目标进行检测分析,降低计算的复杂度,并提高检测的性能,为目标检索创造一个好的前提。并且对远处的小目标和部分遮挡问题也有了一定的改善。除此之外,本发明可以应用于所有基于区域的目标检测算法,并取得一定的性能提升。
附图说明
下面结合附图和实施例对本发明进一步说明:
图1是本发明一种基于时空信息与深度网络的监控视频对象检测方法的流程图;
图2是粗略运动目标候选区域提取流程示意图;
图3是运动目标初始候选区域调整的流程示意图;
图4是基于置信度的目标预测的示意图;
图5初步检测结果的调整流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施用于说明本发明,但不用来限制本发明的范围。
如图1所示,本实施例基于时空信息与深度网络的监控视频对象检测方法,包括深度特征提取、运动目标候选框与预测候选框的产生和RoI分类与位置调整三个大部分。本发明可以采用不同的深度神经网络提取多尺度的深度特征,本实例分别采用了VGG16网络和PVANET提取特征的部分。VGG有13个卷积层和5个max-pooling层,利用这13个卷积层的输出结果来作为运动目标候选区域产生部分的输入。同样的,PVANET特征提取部分有16个卷积层,利用这16个卷积层的输出结果来作为运动目标候选区域产生部分的输入。
运动目标候选框与预测候选框的产生可以分为运动目标和预测两大部分。其中,可以将运动目标候选区域产生分为粗略运动区域提取和运动目标初始候选区域调整两个部分。如图2所示,粗略运动目标区域提取分为帧差、融合和形态学滤波三个部分。首先,比如VGG16中,对13层逐层做相邻帧间特征图的帧差,根据公式1得到(第n帧第k卷积层的第i通道)。接下来,为综合不同特征图所获得运动区域之间的差异性,将根据公式2综合不同通道的进行融合并归一化得到ΔFk,n。然后是对获得的ΔFk,n进行形态学滤波:a.利用最大类间法(OTSU)区分前景和背景,得到二值图像;b.利用3*3的二维模板对得到的二值图像进行中值滤波并且将图像下采样为原图像的1/2大小,滤除一个不连续的孤立的噪声点;c.为了突出运动目标,增强运动目标像素之间的连续性,采用3*3的核对运动目标进行膨胀;d.为了恢复原图大小对图像进行2倍的上采样;e.提取目标边缘,并用矩形框标出;f.将从不同尺度特征图上提取的运动区域等比例映射回原图得到运动目标初始候选区域。
图3是运动目标初始候选区域调整的流程示意图。得到运动目标初始区域后,调整包括以下操作:1)对每个运动目标初始候选区域进行调整,采用(1,0.41,2)三个不同的长宽比,(0.5,1,2)倍三个不同的目标面积,以及以左上坐标、目标中心、右下坐标为基准调整框的位置。这样将得到27个调整后的框;2)将扩展后的候选框从原图映射到最后一个卷积层上,在VGG16中即为Conv5-3层;3)由于在进入全连接层前特征快的大小需要固定,所以利用max pooling对特征快进行下采样到相同大小(7*7);4)将得到的归一化后的特征块送入两个级联的全连接层,每个全连接层输出的都是4096维的特征向量;5)将得到的4096维向量输入到分类层(全链接)得到一个三维向量:人、车、背景三类对应的得分;6)利用非极大值抑制(NMS)来滤除冗余重叠的框,其中重叠率设为0.3。
图4是基于置信度的目标预测的示意图。用Pn,b={wn,b,hn,b,cxn,b,cyn,b}来表示目标的宽、高和中心位置坐标。用第n-1和第n帧的检测结果来预测第n+1帧的结果(n>2)。第一帧和第二帧采用逐像素点提取候选区域的方法,从第三帧开始根据目标的得分将目标分为高置信度的目标和低置信度的目标。定义ts为区分高低置信度的阈值。根据表1参数讨论,最后选取为ts=0.5区分高置信度与低置信度。将相邻两帧目标的移动轨迹看为线性运动,所以对于高置信度目标,根据公式3可以预测得到目标在n+1帧出现的位置。而低置信度的目标,需要设置一个下限阈值来滤除不相关的框,根据表2的参数讨论结果,选取tmin=0.3。由于可能存在框的位置不精准的问题,在预测完位置之后,还需要对位置进行一个调整,即用(1,0.41,2)三个不同的长宽比,(0.5,1,2)倍三个不同的目标面积,以及以左上坐标、目标中心、右下坐标为基准调整框的位置。这样将得到27个调整后的框。
表1ts参数讨论(AVSS数据集)
t<sub>s</sub> | 0.1 | 0.3 | 0.5 | 0.7 | 0.9 |
AP | 88.37% | 88.49% | 88.80% | 88.49% | 88.52% |
表2:tmin参数讨论(AVSS数据集)
t<sub>min</sub> | 0.1 | 0.2 | 0.3 | 0.4 |
AP | 88.71% | 88.76% | 88.80% | 87.15% |
在得到了运动目标候选区域和预测候选区域后,将他们映射到最后一个卷积层输出的特征图上,然后利用max pooling归一化到7*7大小的特征块,接着,利用两个全连接层即可得到4096维特征向量。将这个4096维的向量分别输入到两个并行的全链接层中即可得到3维的分类结果向量和4为的回归坐标向量。
图5是初始检测结果调整的流程示意图。可以利用运动信息和预测信息对初始结果进行进一步的微调。具体可以以下几步:1)根据公式4计算重叠率;2)判断重叠率,若重叠率大于θ(θ=0.5)进入下一层的判断,若与所有框的重叠率都小于0.5,认为是两部分的互补部分,保留原框结果;3)当重叠率大于0.5时,则根据两个框的得分来判断;若两方中有一方的得分大于ts(ts=0.5)便根据公式6~9调整目标的位置并增强目标的得分。若两方的得分都小于tmin(tmin=0.3),根据公式10对结果进行抑制。
下面给出实验结果分析:
实验结果分析采用PASCAL VOC数据集的标准-平均精准度:
本发明一种基于时空信息与深度网络的监控视频对象检测方法简称为MPNET,其中基于Faster R-CNN的称为MPNET(Faster R-CNN),基于PVANET的称为MPNET(PVANET)。YOLO9000,SSD300,SSD512,PVANET,Faster R-CNN都是最近提出的目标检测方法;
1.车辆检测对比实验
1.1)AVSS数据集:从表3可以看,本发明方法比其他方法的性能好。相比于FasterR-CNN,方法的平均精准度提高了9.83%。相比于PVANET,方法的平均精准度提高了2.34%。并且取得了最优平均精准度(AP)。除此之外,相比于Faster R-CNN和PVANET时间也都略有提升。
表3AVSS数据集上的车辆检测结果
Methods | AP | Time |
Yolo9000 | 39.39% | 0.03s |
SSD300 | 62.69% | 0.03s |
SSD512 | 73.08% | 0.09s |
Faster R-CNN | 41.17% | 0.17s |
MPNET(Faster R-CNN) | 51.00% | 0.15s |
PVANET | 86.46% | 0.19s |
MPNET(PVANET) | 88.80% | 0.16s |
2.行人检测对比实验
2.1)CUHK数据集:从表4可以看出本发明比其他方法的性能好。相比于Faster R-CNN,方法的平均精准度提高了4.32%。相比于PVANET,方法的平均精准度提高了18.33%。并且取得了最优平均精准度(AP)。除此之外,相比于Faster R-CNN和PVANET时间也都略有提升。
表4CUHK数据集上的行人检测结果
Methods | AP | Time |
YOLO9000 | 26.85% | 0.03s |
SSD300 | 53.79% | 0.03s |
SSD512 | 59.79% | 0.07s |
PVANET | 46.80% | 0.167s |
MPNET(PVANET) | 65.13% | 0.152s |
Faster R-CNN | 63.10% | 0.19s |
MPNET(Faster R-CNN) | 67.42% | 0.18s |
2.2)XJTU数据集:XJTU数据集是由西安交通大学Smiles LAB采集的监控视频数据集。从表5可以看出本发明方法比其他方法的性能好。相比于Faster R-CNN,方法的平均精准度提高了2.15%。相比于PVANET,方法的平均精准度提高了0.37%。并且取得了最优平均精准度(AP)。除此之外,相比于Faster R-CNN和PVANET时间也都略有提升。表5XJTU数据集上的行人检测结果
Methods | AP | Time |
Yolo9000 | 33.09% | 0.015s |
SSD300 | 52.02% | 0.05s |
SSD512 | 58.91% | 0.09s |
Faster R-CNN | 47.59% | 0.28s |
MPNET(Faster R-CNN) | 49.74% | 0.26s |
PVANET | 75.52% | 0.207s |
MPNET(PVANET) | 75.95% | 0.191s |
Claims (6)
1.一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,包括以下步骤:
步骤1:采集监控视频数据,标注训练集和测试集,并利用训练集训练深度卷积神经网络;
步骤2:对于测试集,利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征;
步骤3:在多尺度深度特征图上提取运动目标候选区域;
步骤4:根据视频前两帧检测结果预测下一帧目标将出现的位置;
步骤5:对提取到的运动和预测候选区域进行RoI归一化及分类回归,得到初步检测结果;
步骤6:利用运动与预测信息,对初始检测结果进行微调,进一步精准检测结果;
步骤3中,利用视频中丰富的运动信息在多尺度深度特征上提取运动目标候选区域,其中包括:粗略运动目标区域提取和运动目标初始候选区域调整分析;粗略运动目标区域提取包含以下步骤:
1)对相邻两帧之间对应卷积层的特征图进行帧差,获取不同尺度的特征图上的运动部分:
其中m表示第k层通道的个数;
3)进一步利用形态学滤波方法来减少噪声,增强运动区域,具体步骤是:
a.利用最大类间差分法区分前景和背景;
b.利用中值滤波和下采样来滤除独立的噪声点;
c.膨胀运动区域加强运动目标;
d.上采样恢复图像原本的大小;
e.提取运动区域的边缘,并且用框出;
f.将不同尺度的特征图上的运动区域等比例映射回原图得到运动目标初始候选区域;
针对运动目标初始候选区域调整分析,包括以下步骤:
1)对于每个运动目标初始候选框改变大小,长宽比和框的中心位置,得到转换后的运动区域候选框;即采用1,0.41,2三个不同的长宽比,0.5,1,2倍三个不同的目标面积,以及以左上坐标、目标中心、右下坐标为基准调整框的位置,得到27个调整后的框;
2)将调整后的候选框从原图等比例的映射到最后一个卷积层产生的特征图;
3)利用max pooling将映射得到的特征块归一化到同一大小:
4)利用全连接层对归一化后的特征块提取全局特征,得到4096维的特征向量;
5)将得到的特征向量送进分类层,得到前后背景的置信度;
6)利用非极大值抑制滤除冗余的候选框。
2.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,步骤1中,采集不同场景和不同姿态角度的行人、车辆监控视频数据集,一部分标注制作成训练集,一部分作为测试集;采用训练集对设计的深度卷积神经网络进行训练;训练深度卷积神经网络分为行人、车辆、背景三个类别。
3.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,步骤2中利用训练好的深度卷积神经网络框架提取鲁棒的多尺度深度特征:利用VGG16或者PVANET提取特征的部分进行前向传播提取深度特征;在进行了3~4次卷积之后进行一次采样操作;经过若干次的采样,获取多尺度特征图。
4.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,步骤4中,根据视频前两帧检测结果预测下一帧目标出现的位置:将得分不小于0.5的称为高置信度目标,得分低于0.5并高于0.3的目标称为低置信度目标;用Pn,b={wn,b,hn,b,cxn,b,cyn,b}来表示目标的宽、高和中心位置坐标;用第n-1和第n帧的检测结果来预测第n+1帧的目标可能出现的位置;对于高置信度目标的第n+1帧位置P(n+1),b预测:
P(n+1),b={wn,b+Δwn,b,hn,b+Δhn,b,cxn,b+Δcxb,cyn,b+Δcyb} (3)
其中,Δwn,b=wn,b-w(n-1),b,Δhn,b=hn,b-h(n-1),b,Δcxb=cxn,b-cx(n-1),b,Δcyb=cyn,b-cy(n-1),b;
针对低置信度目标的第n+1帧位置预测,先根据公式(3)预测出物体的下一帧将要出现的位置,然后改变大小,长宽比和框的中心位置,得到转换后的预测区域候选框,即用1,0.41,2三个不同的长宽比,0.5,1,2倍三个不同的目标面积,以及以左上坐标、目标中心、右下坐标为基准调整框的位置。
5.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,步骤5中,对提取到的运动和预测候选区域进行RoI归一化及分类回归:得到了运动目标候选区域和预测候选目标区域之后,首先等比例将候选区域映射到最后一个卷积层产生的特征图上;由于此时产生的特征块大小不同,而用全连接层提取全局特征前要将特征块归一化到相同的大小,因此利用RoIpooling层将特征块归一化到相同的大小;然后,将得到的特征块利用两个全连接层得到4096维的特征向量,然后将特征向量分别送进分类层和回归层得到每个候选框的对于每个类别的打分和回归后的四维坐标。
6.如权利要求1所述的一种基于时空信息与深度网络的监控视频对象检测方法,其特征在于,步骤6中,利用运动与预测信息,对初始检测结果进行微调,进一步精准检测结果:用表示运动候选框的检测结果,表示预测候选框的检测结果;其中,(ln,tn)表示目标框的左上角坐标,(rn,bn)表示目标框的右下角坐标;具体步骤包括:
1)计算运动框和预测框之间的重叠率On,i,j:
2)根据得分和重叠率来判断是加强正例还是削弱可能为负例的目标:
a.如果重叠率大于等于θ,θ=0.5,并且两方中有一方的得分大于ts,ts=0.5,便调整目标的位置并增强目标的得分:
b.如果重叠率大于等于θ,并且两方的得分都小于tmin,tmin=0.3,抑制falsepositive,降低此目标的得分:
c.如果重叠率小于0.5,则保持原本框的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810118845.9A CN108304808B (zh) | 2018-02-06 | 2018-02-06 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810118845.9A CN108304808B (zh) | 2018-02-06 | 2018-02-06 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108304808A CN108304808A (zh) | 2018-07-20 |
CN108304808B true CN108304808B (zh) | 2021-08-17 |
Family
ID=62864414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810118845.9A Active CN108304808B (zh) | 2018-02-06 | 2018-02-06 | 一种基于时空信息与深度网络的监控视频对象检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108304808B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109166106B (zh) * | 2018-08-02 | 2021-07-30 | 山东大学 | 一种基于滑动窗口的目标检测位置矫正方法和装置 |
CN109145784B (zh) * | 2018-08-03 | 2022-06-03 | 百度在线网络技术(北京)有限公司 | 用于处理视频的方法和装置 |
CN109255350B (zh) * | 2018-08-29 | 2021-12-10 | 南京邮电大学 | 一种基于视频监控的新能源车牌检测方法 |
CN109255351B (zh) * | 2018-09-05 | 2020-08-18 | 华南理工大学 | 基于三维卷积神经网络的边界框回归方法、***、设备及介质 |
CN109344899B (zh) * | 2018-09-30 | 2022-05-17 | 百度在线网络技术(北京)有限公司 | 多目标检测方法、装置和电子设备 |
CN109492534A (zh) * | 2018-10-12 | 2019-03-19 | 高新兴科技集团股份有限公司 | 一种基于Faster RCNN的跨场景多姿态的行人检测方法 |
CN109919974B (zh) * | 2019-02-21 | 2023-07-14 | 上海理工大学 | 基于r-fcn框架多候选关联的在线多目标跟踪方法 |
CN109886208B (zh) * | 2019-02-25 | 2020-12-18 | 北京达佳互联信息技术有限公司 | 物体检测的方法、装置、计算机设备及存储介质 |
CN110009006B (zh) * | 2019-03-15 | 2021-03-26 | 华中科技大学 | 一种基于机器学习的点目标检测方法及*** |
CN109993772B (zh) * | 2019-03-26 | 2022-12-20 | 东北大学 | 基于时空采样的实例级别特征聚合方法 |
CN110069666B (zh) * | 2019-04-03 | 2021-04-06 | 清华大学 | 基于近邻结构保持的哈希学习方法和装置 |
CN110348329B (zh) * | 2019-06-24 | 2022-04-19 | 电子科技大学 | 基于视频序列帧间信息的行人检测方法 |
CN110516538B (zh) * | 2019-07-16 | 2022-10-11 | 广州中科凯泽科技有限公司 | 基于深度学习目标检测的监狱双人离岗违规评估方法 |
CN110276739B (zh) * | 2019-07-24 | 2021-05-07 | 中国科学技术大学 | 一种基于深度学习的视频去抖方法 |
CN110472628B (zh) * | 2019-08-10 | 2022-11-15 | 四创科技有限公司 | 一种基于视频特征的改进Faster R-CNN网络检测漂浮物方法 |
CN110689021A (zh) * | 2019-10-17 | 2020-01-14 | 哈尔滨理工大学 | 一种基于深度学习的低可见度环境下实时目标检测方法 |
CN111368625B (zh) * | 2019-11-08 | 2024-02-27 | 深圳北航新兴产业技术研究院 | 一种基于级联优化的行人目标检测方法 |
CN111355992B (zh) * | 2020-03-11 | 2021-02-26 | 珠海格力电器股份有限公司 | 空调电视机的控制方法、装置、空调电视机及存储介质 |
CN111639563B (zh) * | 2020-05-18 | 2023-07-18 | 浙江工商大学 | 一种基于多任务的篮球视频事件与目标在线检测方法 |
CN111681243B (zh) * | 2020-08-17 | 2021-02-26 | 广东利元亨智能装备股份有限公司 | 焊接图像处理方法、装置及电子设备 |
CN113392725B (zh) * | 2021-05-26 | 2022-10-18 | 苏州易航远智智能科技有限公司 | 基于视频数据的行人过街意图识别方法 |
CN114299138B (zh) * | 2021-08-30 | 2024-07-05 | 国网山东省电力公司信息通信公司 | 基于动静检测结合的会议轮询中人体目标检测方法及*** |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN106354816A (zh) * | 2016-08-30 | 2017-01-25 | 东软集团股份有限公司 | 一种视频图像处理方法及装置 |
CN106372650A (zh) * | 2016-08-19 | 2017-02-01 | 南通大学 | 一种基于运动预测的压缩跟踪方法 |
CN106920250A (zh) * | 2017-02-14 | 2017-07-04 | 华中科技大学 | 基于rgb‑d视频的机器人目标识别与定位方法及*** |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8515127B2 (en) * | 2010-07-28 | 2013-08-20 | International Business Machines Corporation | Multispectral detection of personal attributes for video surveillance |
-
2018
- 2018-02-06 CN CN201810118845.9A patent/CN108304808B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105354548A (zh) * | 2015-10-30 | 2016-02-24 | 武汉大学 | 一种基于ImageNet检索的监控视频行人重识别方法 |
CN106372650A (zh) * | 2016-08-19 | 2017-02-01 | 南通大学 | 一种基于运动预测的压缩跟踪方法 |
CN106354816A (zh) * | 2016-08-30 | 2017-01-25 | 东软集团股份有限公司 | 一种视频图像处理方法及装置 |
CN106920250A (zh) * | 2017-02-14 | 2017-07-04 | 华中科技大学 | 基于rgb‑d视频的机器人目标识别与定位方法及*** |
Non-Patent Citations (2)
Title |
---|
Cascaded Regional Spatio-Temporal Feature-Routing Networks for Video Object Detection;Hui Shuai et al;《IEEE Access》;20171227;摘要及正文第I-II节 * |
Object Detection from Video Tubelets with Convolutional Neural Networks;Kai Kang et al;《2016 IEEE Conference on Computer Vision and Pattern Recognition》;20160630;第817-825页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108304808A (zh) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108304808B (zh) | 一种基于时空信息与深度网络的监控视频对象检测方法 | |
CN110728200B (zh) | 一种基于深度学习的实时行人检测方法及*** | |
WO2019196130A1 (zh) | 面向车载热成像行人检测的分类器训练方法和装置 | |
WO2019196131A1 (zh) | 面向车载热成像行人检测的感兴趣区域过滤方法和装置 | |
CN110910420B (zh) | 一种基于图像流的移动目标检测追踪方法 | |
CN106971155B (zh) | 一种基于高度信息的无人车车道场景分割方法 | |
CN111639564B (zh) | 一种基于多注意力异构网络的视频行人重识别方法 | |
CN108416780B (zh) | 一种基于孪生-感兴趣区域池化模型的物体检测与匹配方法 | |
CN108804992B (zh) | 一种基于深度学习的人群统计方法 | |
CN107944354B (zh) | 一种基于深度学习的车辆检测方法 | |
CN111027475A (zh) | 一种基于视觉的实时交通信号灯识别方法 | |
Xiao et al. | Defocus blur detection based on multiscale SVD fusion in gradient domain | |
CN111461039A (zh) | 基于多尺度特征融合的地标识别方法 | |
Saran et al. | Traffic video surveillance: Vehicle detection and classification | |
Nejati et al. | License plate recognition based on edge histogram analysis and classifier ensemble | |
CN113763427A (zh) | 一种基于从粗到精遮挡处理的多目标跟踪方法 | |
CN112785626A (zh) | 一种基于多尺度特征融合的孪生网络小目标跟踪方法 | |
CN112115871A (zh) | 适用于行人目标检测的高低频交织边缘特征增强方法及构建增强网络的方法 | |
CN114743126A (zh) | 一种基于图注意力机制网络的车道线标志分割方法 | |
CN111931572B (zh) | 一种遥感影像的目标检测方法 | |
Song et al. | All-day traffic states recognition system without vehicle segmentation | |
Barnouti et al. | Automatic Iraqi license plate recognition system using back propagation neural network (BPNN) | |
Hommos et al. | Hd Qatari ANPR system | |
Qadar et al. | A comparative study of nighttime object detection with datasets from australia and china | |
CN112115977B (zh) | 基于尺度不变性与特征融合的目标检测算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |