CN109948628A - 一种基于判别性区域挖掘的目标检测方法 - Google Patents
一种基于判别性区域挖掘的目标检测方法 Download PDFInfo
- Publication number
- CN109948628A CN109948628A CN201910200092.0A CN201910200092A CN109948628A CN 109948628 A CN109948628 A CN 109948628A CN 201910200092 A CN201910200092 A CN 201910200092A CN 109948628 A CN109948628 A CN 109948628A
- Authority
- CN
- China
- Prior art keywords
- feature
- characteristic
- characteristic pattern
- module
- stream
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 28
- 238000010276 construction Methods 0.000 claims abstract description 6
- 238000013100 final test Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 19
- 230000000295 complement effect Effects 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- 230000001629 suppression Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000012549 training Methods 0.000 description 15
- 230000000694 effects Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000003475 lamination Methods 0.000 description 2
- 238000004382 potting Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明提供一种基于判别性区域挖掘的目标检测方法,通过特征提取网络进行特征提取,获取特征流;构建LDRM模块,将特征流进行局部的判别性特征学习;构建CDRM模块,对局部的判别性特征学习后的特征流进行上下文判别特征学习;构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。本发明提供的一种基于判别性区域挖掘的目标检测方法,基于感受野的特征图产生判别性区域的特征表达,避免了从原图中提取判别性区域,再进行特征提取而引入的大量计算量,保证该方法以高的效率进行目标检测,防止受到表观相似的前景目标和背景区域的干扰;通过将生成的判别性区域特征与候选目标的特征进行融合,结合不同感受野的特征,优化特征表达。
Description
技术领域
本发明涉及计算机视觉技术领域,更具体的,涉及一种基于判别性区域挖掘的目标检测方法。
背景技术
视频监控作为一项重要的安全监控手段,对于保障人民的生命财产安全、打击违法犯罪等活动具有重要意义。目前,视频监控遍布城市的角落,而现有的视频监控***通常只被用于记录、存储和调取视频图像,无法对异常情况进行预测和报警。为了实现实时监控,需要工作人员对视频数据进行分析。随着数据规模的扩大,人工分析难以保持较高的准确率和处理效率。因此,人们希望计算机能自动对视频进行分析,完成预设的视觉任务,如目标识别、目标检测和目标跟踪等,实现实时有效的监控。
目标检测作为智能视频监控中的关键环节,一直是计算机视觉领域的重要研究方向。基于图像的目标检测算法的主要任务是检测图像中感兴趣的目标并对其实现定位。目前,目标检测在行人重识别、视频监控、视频检索、视频描述、人机交互、自动驾驶、医学图像分析等领域得到广泛应用。
常见的基于图像的目标检测算法可分两类,一类是基于候选区域的方法,另一类是无候选区域的方法。基于候选区域的方法以Fast R-CNN[1]、R-FCN[2]、 Mask R-CNN[3]为代表,它们将目标检测分为两个步骤:第一步生成一系列目标候选区域,第二步对每一个候选区域进行位置预测和精细类别的分类。这类方法大多能获得较高的检测准确率,但相对耗时,计算量较大,难以满足实时的要求。为了解决这些问题,研究者们提出了无候选区域的方法,典型代表是YOLO[4], SSD[5]。无候选区域的方法从图像中提取特征后,直接预测目标位置及判断目标类别,而无需经过生成目标候选区域这一阶段。这类方法由于其运行的高效性受到广泛关注,但其检测准确率略低于基于候选区域的方法。
本发明以无候选区域的方法为基础,进一步提升它的检测准确率。在实验中发现,大部分无候选区域的方法都存在检测器鲁棒性不足的问题。具体而言,检测器很容易受到表观相似的前景目标或背景区域的影响。例如,检测器容易将背景区域中的“树”判断为前景目标“盆栽”,也容易将前景目标“自行车”与“摩托车”混淆。由于“树”与“盆栽”均为植物,而“自行车”和“摩托车”同属交通工具,它们之间存在一定的表观相似性,这使得检测器出现了混淆。而在人类视觉***中,我们能准确地区分这些表观具有一定相似性的目标,如在区分“自行车”和“摩托车”时,两者的车轮、车把、坐垫等可以为我们提供重要的判别信息。因此,若检测器也具有捕获这些判别性区域的能力,将有利于提高特征的判别性,从而避免表观相似前景目标和背景区域对其造成干扰。为了提高特征判别性,现有方法[6,7,8]大多采用多层特征融合的方法来优化特征表达,即融合浅层的空间信息和高层的语义信息。然而,这些方法仍然缺少对某个判别性区域的关注,这使得学习的细节特征不够准确,缺乏一定的判别性。因此,我们希望检测器能有效地捕获前景目标中的判别性区域并学习其特征表达,从而提高检测器的判别性。
发明内容
本发明为克服上述现有图像目标检测算法所使用的检测器存在容易受到表观相似的前景目标和背景区域干扰的技术缺陷,提供一种基于判别性区域挖掘的目标检测方法。
为解决上述技术问题,本发明的技术方案如下:
一种基于判别性区域挖掘的目标检测方法,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2;
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。
其中,所述步骤S1包括以下步骤:
S11:将一张图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
上述方案中,所述步骤S12应用于特征提取网络的训练过程中,在测试阶段可以忽略。
其中,所述步骤S2包括以下步骤:
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2;
S22:判定性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中 W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W; yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判定性区域表示为(x,y),则其判定性区域的特征表示为:
其中:Fdiscri表示判定性特征图;表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判定性区域特征表达;表示互补特征图Fcomp的变换函数,这里取恒等换;其中:
表示(x,y)的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块模块内分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
上述方案中,所述步骤S24应用于LDRM模块的训练过程中,在测试阶段可以忽略。
其中,所述步骤S3具体包括以下步骤:
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F'basic,输出空间分别率小的特征作为互补特征图F'comp,构建CDRM模块的输入特征图对;
S32:判定性区域定位:设输入的基础特征图F'basic的大小为W'×H'×C',其中W'、H'、C'分别表示基础特征图F'basic的宽、高和通道数;基础特征图F'basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M';对于中心位置为(x'n,y'n)的候选目标区域,其判别性区域表示为:
(x',y')=(x'n,y'n)+λ'(Δx',Δy'); (4)
其中,(x'n,y'n)遍历了基础特征图F'basic中所有的空间位置,即:x'n=1,2,...,W'; y'n=1,2,...,H';(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M'中的空间位置为(x'n,y'n)的数值;λ'为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x'n,y'n)的候选目标,设其判定性区域表示为(x',y'),则其判定性区域的特征表示为:
其中:F'discri表示判定性特征图;表示特征图F'discri在空间位置(x'n,y'n)上的特征,表示以(x'n,y'n)为中心的候选目标的判定性区域特征表达;表示互补特征图F'comp的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
表示(x',y')的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G'是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G'(u',v',x',y')=g'(u',x')·g'(v',y'); (6)
其中,g'(a',b')=1-|a'-b'|;
在CDRM模块中,基础特征图F'basic经过一个3×3的卷积层后与特征图F'discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块模块内分类:将特征图F'discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
上述方案中,所述步骤S34应用于CDRM模块的训练过程中,在测试阶段可以忽略。
其中,所述步骤S4具体为:
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
与现有技术相比,本发明技术方案的有益效果是:
本发明提供的一种基于判别性区域挖掘的目标检测方法,在不明显增加参数量和运算量的情况下,对判别性区域的位置进行有效的预测,实现判别性区域定位;在判别性区域的特征学习中,一方面,基于一定感受野的特征图产生判别性区域的特征表达,避免了从原图中提取判别性区域,再进行特征提取这一操作所引入的大量计算量,保证该方法以高的效率进行目标检测,防止受到表观相似的前景目标和背景区域的干扰;另一方面,将生成的判别性区域特征与候选目标的特征进行融合,结合不同感受野的特征,优化特征表达;为保证LDRM模块、 CDRM模块能有效地进行训练,引入了模块内的分类分支,提供了额外的监督信号,保证了模块的判别性。
附图说明
图1为本方法流程示意图;
图2为基于判别性区域挖掘的目标检测网络示意图;
图3为LDRM模块结构示意图;
图4为CDRM模块结构示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,一种基于判别性区域挖掘的目标检测方法,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2;
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。
更具体的,如图2所示,所述步骤S1包括以下步骤:
S11:将一张输入大小为300×300的图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;对于原始输入为300 ×300的结构,特征流s1包含空间分辨率分别为38×38,19×19,10×10,5×5, 3×3,1×1的特征图;特征流s2包含空间分辨率分别为75×75,38×38,19×19, 10×10,5×5,3×3,1×1的特征图;由于特征流s2是基于×2上采样的图像得到的,它比特征流s1具有更丰富的空间信息。所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
在具体实施过程中,将原始尺寸的图像输入到ResNet-18进行特征提取,获取特征流s1;利用检测器d1进行目标类别判定及目标位置预测;计算分类损失和回归损失计算总的损失函数求解梯度,更新特征提取网络和检测器d1的参数,若迭代未结束,则重新进行特征提取,最终完成特征提取网络的训练。
在具体实施过程中,所述步骤S12应用于特征提取网络的训练过程中,在测试阶段可以忽略。
更具体的,如图3所示,所述步骤S2包括以下步骤:
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2;
S22:判定性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中 W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W; yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判定性区域表示为(x,y),则其判定性区域的特征表示为:
其中:Fdiscri表示判定性特征图;表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判定性区域特征表达;表示互补特征图Fcomp的变换函数,这里取恒等换;其中:
表示(x,y)的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块模块内分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
在具体实施过程中,所述步骤S24应用于LDRM模块的训练过程中,在测试阶段可以忽略。
更具体的,如图4所示,所述步骤S3具体包括以下步骤:
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F'basic,输出空间分别率小的特征作为互补特征图F'comp,构建CDRM模块的输入特征图对;
S32:判定性区域定位:设输入的基础特征图F'basic的大小为W'×H'×C',其中W'、H'、C'分别表示基础特征图F'basic的宽、高和通道数;基础特征图F'basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M';对于中心位置为(x'n,y'n)的候选目标区域,其判别性区域表示为:
(x',y')=(x'n,y'n)+λ'(Δx',Δy'); (4)
其中,(x'n,y'n)遍历了基础特征图F'basic中所有的空间位置,即:x'n=1,2,...,W'; y'n=1,2,...,H';(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M'中的空间位置为(x'n,y'n)的数值;λ'为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x'n,y'n)的候选目标,设其判定性区域表示为(x',y'),则其判定性区域的特征表示为:
其中:F'discri表示判定性特征图;表示特征图F'discri在空间位置(x'n,y'n)上的特征,表示以(x'n,y'n)为中心的候选目标的判定性区域特征表达;表示互补特征图F'comp的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
表示(x',y')的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G'是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G'(u',v',x',y')=g'(u',x')·g'(v',y'); (6)
其中,g'(a',b')=1-|a'-b'|;
在CDRM模块中,基础特征图F'basic经过一个3×3的卷积层后与特征图F'discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块模块内分类:将特征图F'discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
在具体实施过程中,所述步骤S34应用于CDRM模块的训练过程中,在测试阶段可以忽略。
更具体的,所述步骤S4具体为:
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
在具体实施过程中,通过由原始尺寸和×2上采样的图像输入到训练完成的参数固定的特征提取网络ResNet-18得到的特征流s1、特征流s2,利用LDRM模块获取判别性局部特征,并使用分类器c1对其进行分类;利用CDRM模块获取判别性上下文特征,并使用分类器c2对其进行分类;构建特征流s3,使用检测器d2进行目标类别判定及目标位置检测;求解与分类器c1、c2和检测器d2相关的多项损失,计算总的损失函数其中α=1.5,β=γ=1;求解梯度,更新出特征提取网络和检测器d1外的参数,若迭代未结束,则重新提取特征流s1、特征流s2,最终完成LDRM模块、CDRM模块的训练。
在具体实施过程中,在测试过程中,将原始尺寸和×2上采样的图像输入到参数固定的特征提取网络ResNet-18,获取特征流s1、特征流s2;利用LDRM模块获取判别性局部特征;利用CDRM模块获取判别性上下文特征;构建特征流 s3,使用检测器d2进行目标类别判定及目标位置检测,并进行非极大值抑制得到最终的检测结果。
实施例2
更具体的,在实施例1的基础上,为了体现本发明的技术效果,在PASCAL VOC 2007[9]和MS COCO[10]两个数据集进行实验,并与其它先进的目标检测方法进行对比。
在具体实施过程中,实验的输入图像有两种分辨率,分别为300×300和 512×512。实验中,选取经ImageNet数据集预训练的ResNet-18和ResNet-34作为特征提取网络。
在具体实施过程中,本实验在PASCAL VOC 2007和VOC 2012的trainval 数据集进行训练,在PASCAL VOC 2007test数据集进行测试,特征提取网络为 ResNet-18。训练过程中批大小设置为16,迭代次数为120k。初始学习率设置为 1×10-3,iv迭代次数为80k和100k时,学习率分别调整为1×10-4和1×10-5。相关的实验数据如表1所示,体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。
表1 PASCAL VOC 2007test数据集的检测效果
目标检测方法 | 特征提取网络 | 图像输入大小 | mAP(%) |
SSD300[5] | VGG-16 | 300×300 | 77.2 |
RefineDet320[9] | VGG-16 | 320×320 | 80.0 |
RFBNet 300[10] | VGG-16 | 300×300 | 80.5 |
DRM-Det300 | ResNet-18 | 300×300 | 80.7 |
SSD512[5] | VGG-16 | 512×512 | 79.8 |
RefineDet512[9] | VGG-16 | 512×512 | 81.8 |
RFBNet512[10] | VGG-16 | 512×512 | 82.2 |
DRM-Det512 | ResNet-18 | 512×512 | 82.3 |
注:mAP数值越高表示模型效采越好,黒体表示相近图像输入尺寸下的最好效果。
本实验在MS COCO的trainval35k数据集训练,在MS COCO test-dev数据集进行测试,特征提取网络为ResNet-34。训练过程中批大小(batch size)设置为 16,迭代次数为115epoch。初始学习率设置为1×10-3,在迭代次数为75epoch 和95epoch时,学习率分别调整为1×10-4和1×10-5。相关的实验数据如表2 所示,体现出本发明提出的基于判别性区域挖掘的目标检测网络的有效性。
表2 MS COCO test-dev数据集的检测效果
检测器 | 特征提取网络 | 输入大小 | AP | AP<sub>50</sub> | AP<sub>75</sub> | AP<sub>S</sub> | AP<sub>M</sub> | AP<sub>L</sub> |
SSD300[5] | VGG-16 | 300×300 | 25.1 | 43.1 | 25.8 | 6.6 | 25.9 | 41.4 |
RefineDet320[9] | ResNet-101 | 320×320 | 32.0 | 51.4 | 34.2 | 10.5 | 34.7 | 50.4 |
RFBNet300[10] | VGG-16 | 300×300 | 30.3 | 49.3 | 31.8 | 11.8 | 31.9 | 45.9 |
DRM-Det300 | ResNet-34 | 300×300 | 33.3 | 53.5 | 35.7 | 16.0 | 38.0 | 46.6 |
sSD512[5] | VGG-16 | 512×512 | 28.8 | 48.5 | 30.0 | 10.9 | 31.8 | 43.5 |
RefineDet512[9] | ResNet-101 | 512×512 | 36.4 | 57.5 | 39.5 | 16.6 | 39.9 | 51.4 |
RFBNet512[10] | VGG-16 | 512×512 | 33.8 | 54.2 | 35.9 | 16.2 | 37.1 | 47.4 |
DRM-Det512 | ResNet-34 | 512×512 | 37.9 | 59.3 | 40.8 | 22.2 | 41.3 | 49.0 |
注:各项与AP相关的指标数值越高表示模型效果越好,黒体表示相近图像输入尺寸上的最好效果。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
[1]S.Ren,K.He,R.Girshick,and J.Sun,“Faster R-CNN:Towards real-timeobject detection with region proposal networks,”TPAMI,vol.39,no.6,pp.1137-1149,June 2017.
[2]J.Dai,Y.Li,K.He,and J.Sun,“R-FCN:Object detection via region-basedfully convolutional networks,”In NeurIPS,pp.379-387,2016.
[3]K.He,G.Gkioxari,P.Dollár and R.Girshick,“Mask R-CNN,”In ICCV,pp.2980-2988,2017.
[4]J.Redmon,S.Divvala,R.Girshick,and A.Farhadi,“You Only Look Once:Unified,Real-Time Object Detection,”In CVPR,pp.779-788,2016.
[5]W.Liu,D.Anguelov,D.Erhan,C.Szegedy,S.Reed,C.Fu,and A.C.Berg,“SSD:Single shot multibox detector,”In ECCV,pp.21-37,2016.
[6]T.Lin,P.Dollár,R.B.Girshick,K.He,B.Hariharan and S.Belongie,“Feature pyramid networks for object detection,”In CVPR,pp.936-944,2017.
[7]A.Shrivastava,R.Sukthankar,J.Malik and A.Gupta,“Beyond skipconnections: Top down modulation for object detection,”CoRR,abs/1612.06851,2016.
[8]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,”In CVPR,pp.4203-4212,2018.
[9]M.Everingham,L.V.Gool,C.K.I.Williams,J.Winn,and A.Zisserman,“ThePASCAL visual object classes(VOC)challenge,″IJCV,vol.88,no.2, pp.303--338,June 2010.
[10]T.Lin,M.Maire,S.Belongie,J.Hays,P.Perona,D.Ramanan,P.Dollar,andC. L.Zitnick,“Microsoft COCO:Common objects in context,″In ECCV,pp. 740--755,2014.
[11]S.Zhang,L.Wen,X.Bian,Z.Lei,and S.Z.Li,“Single-shot refinementneural network for object detection,"In CVPR,pp.4203--4212,2018.
[12]S.Liu,D.Huang,and Y.Wang,“Receptive field block net for accurateand fast object detection,"In ECCV,pp.404--419,2018. 。
Claims (5)
1.一种基于判别性区域挖掘的目标检测方法,其特征在于,包括以下步骤:
S1:通过特征提取网络进行特征提取,获取特征流s1、s2;
S2:构建局部判别性区域挖掘LDRM模块,将特征流s1、s2进行局部的判别性特征学习;
S3:构建基于上下文判别性区域挖掘CDRM模块,对局部的判别性特征学习后的特征流s1、s2进行上下文判别特征学习;
S4:构建特征流s3,采用检测器对特征流s3的特征图进行检测,得到最终的检测结果。
2.根据权利要求2所述的一种基于判别性区域挖掘的目标检测方法,其特征在于:所述步骤S1包括以下步骤:
S11:将一张图像及它的×2上采样图像输入同一特征提取网络中,选取特征层的输出构成特征流s1和特征流s2;所述特征流s1用于目标的整体描述,所述特征流s2用于目标的细节描述;
S12:特征流s1经检测器d1进行目标类别判定及目标位置预测,分别得到分类损失和回归损失。
3.根据权利要求2所述的一种基于判别性区域挖掘的目标检测方法,其特征在于:所述步骤S2包括以下步骤:
S21:按照特征图生成的顺序,分别从特征流s1和特征流s2中取生成次序相同的特征图构成特征图对,构建LDRM模块的输入特征图对;
对于每一个LDRM模块,其输入有基础特征图Fbasic和互补特征图Fcomp构成,其中特征图Fbasic来自特征流s1,特征图Fcomp来自特征流s2;
S22:判定性区域定位:设输入的基础特征图Fbasic的大小为W×H×C,其中W、H、C分别表示基础特征图Fbasic的宽、高和通道数;基础特征图Fbasic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M;对于中心位置为(xn,yn)的候选目标区域,其判别性区域表示为:
(x,y)=(xn,yn)+λ(Δx,Δy); (1)
其中,(xn,yn)遍历了基础特征图Fbasic中所有的空间位置,即:xn=1,2,...,W;yn=1,2,...,H;(Δx,Δy)表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M中的空间位置为(xn,yn)的数值;λ为缩放权重,取值为0.75;
S23:判别性特征学习:对于一个中心位置为(xn,yn)的候选目标,设其判定性区域表示为(x,y),则其判定性区域的特征表示为:
其中:Fdiscri表示判定性特征图;表示特征图Fdiscri在空间位置(xn,yn)上的特征,表示以(xn,yn)为中心的候选目标的判定性区域特征表达;表示互补特征图Fcomp的变换函数,这里取恒等换;其中:
表示(x,y)的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G(u,v,x,y)=g(u,x)·g(v,y); (3)
其中,g(a,b)=1-|a-b|;
在LDRM模块中,特征图Fdiscri经过一个3×3的卷积层后与基础特征图Fbasic进行融合拼接,得到LDRM模块的输出;
S24:LDRM模块模块内分类:将特征图Fdiscri输入由3×3的卷积层实现的分类器c1中,完成对目标类别的判定;根据分类器c1输出的结果,得到损失函数
4.根据权利要求3所述的一种基于判别性区域挖掘的目标检测方法,其特征在于:所述步骤S3具体包括以下步骤:
S31:CDRM模块的输入特征图对由相邻的两个LDRM模块的输出构成,取输出空间分辨率大的特征作为基础特征图F'basic,输出空间分别率小的特征作为互补特征图F'comp,构建CDRM模块的输入特征图对;
S32:判定性区域定位:设输入的基础特征图F'basic的大小为W'×H'×C',其中W'、H'、C'分别表示基础特征图F'basic的宽、高和通道数;基础特征图F'basic经过一个3×3的卷积层生成一个通道数为2的偏移量特征图,记为M';对于中心位置为(x'n,y'n)的候选目标区域,其判别性区域表示为:
(x',y')=(x'n,y'n)+λ'(Δx',Δy'); (4)
其中,(x'n,y'n)遍历了基础特征图F'basic中所有的空间位置,即:x'n=1,2,...,W';y'n=1,2,...,H';(Δx',Δy')表示从候选目标区域到判别性区域的位置偏移量;其中,其表示特征图M'中的空间位置为(x'n,y'n)的数值;λ'为缩放权重,取值为1;
S33:判别性特征学习:对于一个中心位置为(x'n,y'n)的候选目标,设其判定性区域表示为(x',y'),则其判定性区域的特征表示为:
其中:F'discri表示判定性特征图;表示特征图F'discri在空间位置(x'n,y'n)上的特征,表示以(x'n,y'n)为中心的候选目标的判定性区域特征表达;表示互补特征图F'comp的变换函数,这里取核为2×2、步长为2的解卷积操作;其中:
表示(x',y')的四个邻近整数空间位置,其中表示向下取整,表示向上取整;函数G'是一个二维的双线性插值的核,表示为两个一维的双线性插值的核的乘积形式:
G'(u',v',x',y')=g'(u',x')·g'(v',y'); (6)
其中,g'(a',b')=1-|a'-b'|;
在CDRM模块中,基础特征图F'basic经过一个3×3的卷积层后与特征图F discri进行逐元素相加操作,从而得到CDRM模块的输出;
S34:CDRM模块模块内分类:将特征图F'discri输入由3×3的卷积层实现的分类器c2中,完成对目标类别的判定;根据分类器c2输出的结果,得到损失函数
5.根据权利要求4所述的一种基于判别性区域挖掘的目标检测方法,其特征在于:所述步骤S4具体为:
S41:取所有CDRM模块的输出和最后两个LDRM模块的输出构成的集合作为特征流s3,采用检测器d2对特征流s3中的特征图进行最终的检测,在检测过程中对检测器d2的输出进行非极大值抑制,得到最终的检测结果;
S42:特征流s3经检测器d2进行目标类别判定及目标位置预测,分别得到分类损失和回归损失
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910200092.0A CN109948628B (zh) | 2019-03-15 | 2019-03-15 | 一种基于判别性区域挖掘的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910200092.0A CN109948628B (zh) | 2019-03-15 | 2019-03-15 | 一种基于判别性区域挖掘的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109948628A true CN109948628A (zh) | 2019-06-28 |
CN109948628B CN109948628B (zh) | 2023-01-03 |
Family
ID=67008447
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910200092.0A Active CN109948628B (zh) | 2019-03-15 | 2019-03-15 | 一种基于判别性区域挖掘的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109948628B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396097A (zh) * | 2020-11-09 | 2021-02-23 | 中山大学 | 基于加权最优传输的无监督域自适应视觉目标检测方法、***及存储介质 |
CN114937154A (zh) * | 2022-06-02 | 2022-08-23 | 中南大学 | 一种基于递归解码器的显著性检测方法 |
CN115858846A (zh) * | 2023-02-16 | 2023-03-28 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
WO2006114003A1 (en) * | 2005-04-27 | 2006-11-02 | The Governors Of The University Of Alberta | A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images |
US20060251339A1 (en) * | 2005-05-09 | 2006-11-09 | Gokturk Salih B | System and method for enabling the use of captured images through recognition |
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及*** |
CN109086792A (zh) * | 2018-06-26 | 2018-12-25 | 上海理工大学 | 基于检测和识别网络架构的细粒度图像分类方法 |
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
-
2019
- 2019-03-15 CN CN201910200092.0A patent/CN109948628B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4131387A1 (de) * | 1991-09-20 | 1993-03-25 | Siemens Ag | Verfahren zur erkennung von mustern in zeitvarianten messsignalen |
WO2006114003A1 (en) * | 2005-04-27 | 2006-11-02 | The Governors Of The University Of Alberta | A method and system for automatic detection and segmentation of tumors and associated edema (swelling) in magnetic resonance (mri) images |
US20060251339A1 (en) * | 2005-05-09 | 2006-11-09 | Gokturk Salih B | System and method for enabling the use of captured images through recognition |
WO2019018063A1 (en) * | 2017-07-19 | 2019-01-24 | Microsoft Technology Licensing, Llc | FINAL GRAIN IMAGE RECOGNITION |
CN107766890A (zh) * | 2017-10-31 | 2018-03-06 | 天津大学 | 一种细粒度识别中判别性图块学习的改进方法 |
CN108875827A (zh) * | 2018-06-15 | 2018-11-23 | 广州深域信息科技有限公司 | 一种细粒度图像分类的方法及*** |
CN109086792A (zh) * | 2018-06-26 | 2018-12-25 | 上海理工大学 | 基于检测和识别网络架构的细粒度图像分类方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112396097A (zh) * | 2020-11-09 | 2021-02-23 | 中山大学 | 基于加权最优传输的无监督域自适应视觉目标检测方法、***及存储介质 |
CN112396097B (zh) * | 2020-11-09 | 2022-05-17 | 中山大学 | 基于加权最优传输的无监督域自适应视觉目标检测方法 |
CN114937154A (zh) * | 2022-06-02 | 2022-08-23 | 中南大学 | 一种基于递归解码器的显著性检测方法 |
CN114937154B (zh) * | 2022-06-02 | 2024-04-26 | 中南大学 | 一种基于递归解码器的显著性检测方法 |
CN115858846A (zh) * | 2023-02-16 | 2023-03-28 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
CN115858846B (zh) * | 2023-02-16 | 2023-04-21 | 云南派动科技有限公司 | 一种基于深度学习的滑雪者图像检索方法和*** |
Also Published As
Publication number | Publication date |
---|---|
CN109948628B (zh) | 2023-01-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334847B (zh) | 一种真实场景下的基于深度学习的人脸识别方法 | |
CN110287849A (zh) | 一种适用于树莓派的轻量化深度网络图像目标检测方法 | |
CN110298266A (zh) | 基于多尺度感受野特征融合的深度神经网络目标检测方法 | |
CN110147743A (zh) | 一种复杂场景下的实时在线行人分析与计数***及方法 | |
Gao et al. | MLNet: Multichannel feature fusion lozenge network for land segmentation | |
CN108875595A (zh) | 一种基于深度学习和多层特征融合的驾驶场景目标检测方法 | |
CN110378222A (zh) | 一种输电线路防震锤目标检测与缺陷识别方法及装置 | |
CN106408015A (zh) | 基于卷积神经网络的岔路口识别及深度估计方法 | |
CN107016357A (zh) | 一种基于时间域卷积神经网络的视频行人检测方法 | |
CN108960059A (zh) | 一种视频动作识别方法及装置 | |
CN107292247A (zh) | 一种基于残差网络的人体行为识别方法及装置 | |
CN106096577A (zh) | 一种摄像头分布地图中的目标追踪***及追踪方法 | |
CN110084165A (zh) | 基于边缘计算的电力领域开放场景下异常事件的智能识别与预警方法 | |
CN106570893A (zh) | 一种基于相关滤波的快速稳健视觉跟踪方法 | |
CN110163836A (zh) | 基于深度学习用于高空巡检下的挖掘机检测方法 | |
CN109948628A (zh) | 一种基于判别性区域挖掘的目标检测方法 | |
CN113379771B (zh) | 带有边缘约束的层次化人体解析语义分割方法 | |
CN109002752A (zh) | 一种基于深度学习的复杂公共场景快速行人检测方法 | |
CN110287806A (zh) | 一种基于改进ssd网络的交通标志识别方法 | |
CN113469071B (zh) | 一种针对嵌入式设备的运煤皮带异物视频检测方法 | |
CN107767416A (zh) | 一种低分辨率图像中行人朝向的识别方法 | |
CN110245754A (zh) | 一种基于位置敏感图的知识蒸馏方法 | |
Liu et al. | Coastline extraction method based on convolutional neural networks—A case study of Jiaozhou Bay in Qingdao, China | |
CN109670555A (zh) | 基于深度学习的实例级行人检测和行人重识别*** | |
CN113298817A (zh) | 一种准确率高的遥感图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
OL01 | Intention to license declared | ||
OL01 | Intention to license declared |