CN113743505A - 基于自注意力和特征融合的改进ssd目标检测方法 - Google Patents
基于自注意力和特征融合的改进ssd目标检测方法 Download PDFInfo
- Publication number
- CN113743505A CN113743505A CN202111037457.6A CN202111037457A CN113743505A CN 113743505 A CN113743505 A CN 113743505A CN 202111037457 A CN202111037457 A CN 202111037457A CN 113743505 A CN113743505 A CN 113743505A
- Authority
- CN
- China
- Prior art keywords
- feature
- target detection
- layer
- ssd
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 201
- 230000004927 fusion Effects 0.000 title claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000010586 diagram Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 26
- 238000000605 extraction Methods 0.000 claims description 17
- 230000009466 transformation Effects 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000007499 fusion processing Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 10
- 230000008901 benefit Effects 0.000 abstract description 3
- 230000007246 mechanism Effects 0.000 abstract description 3
- 238000012360 testing method Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011897 real-time detection Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Operations Research (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于自注意力和特征融合的改进SSD目标检测方法,涉及目标检测技术领域。该方法在SSD目标检测模型的基础上构建改进的SSD目标检测模型进行目标检测;改进的SSD目标检测模型在原SSD目标检测模型的基础上增加了自注意力机制,利用全局上下文信息,获得更大的感受野,以此得到更加细化的信息来指导目标检测;通过特征融合充分融合深层和浅层的特征信息,并使得融合后的特征层能同时包含丰富的几何细节和语义信息,有利于降低漏检和提高小目标检测的效果;损失函数引入FocalLoss损失,使得在训练时更注重于难分类样本的分类问题。既保留原SSD目标检测的优点,同时又更好地学习对象特性。
Description
技术领域
本发明涉及目标检测技术领域,尤其涉及一种基于自注意力和特征融合的改进SSD目标检测方法。
背景技术
目标检测技术是我国计算机视觉技术领域中应用研究的热门方向,作为最基本的技术课题之一,其为解决图像分割、图像理解、目标追溯、和活动识别等更复杂或更高级的计算机视觉识别技术问题奠定了坚实的基础。同时其在电子消费、智能监控、自动驾驶、无人机、安全防护等人工智能技术领域有着广泛的应用。
目标检测算法现今主要有两大类:传统算法和基于深度学习的算法。他们的目的均为从图像中检测不同尺度、类别的对象并预测出它们的位置,并用预测框标定。目前,更为常用的目标检测方法是基于深度学习的目标检测方法。该方法最值得关注的就是通过卷积神经网络(ConvolutionalNeural Network,CNN)进行特征提取,相比传统手工方式,其展现出了一定的优越性,可以大幅度提升检测精度和速度。基于深度学习的目标检测方法可分为两大类:一种是两阶段目标检测,例如R-CNN、Fast-RCNN和Faster-RCNN等。该类型算法将候选框机制和卷积网络分类器相结合,分两个阶段进行:第一阶段是对图像中提取的特征进行粗略的回归分类得到一系列建议区域(proposal);第二阶段利用前面得到的proposal框进行回归分类和计算。这些两阶段的目标检测器精度虽高,但效率低下。相比之下,另一种以SSD(single shot multiBox detector)和YOLO(you only look once)系列为代表的单阶段目标检测模型提出将所有运算封装在一个CNN中,通过主网络提取特征进行一次回归与多分类计算,同时预测目标的位置和类别信息,从而很大程度上加快了检测速度。YOLO作为端到端的目标检测算法,在速度上具有很大优势,但是同一网格中可能出现多个目标,出现漏检情况。随后SSD算法被提出,它是最早尝试将特征金字塔用于目标检测的算法之一,使用多尺度特征图提取特征,来检测不同尺度的对象,是结构简单、最佳权衡速度和精度的目标检测方法。它运用深度卷积网络前向传播产生不同尺度的特征图进行检测,使用浅层特征图预测小目标,深层特征图预测大目标,以保证即使在低分辨率图像上也能有比较好的检测效果。但是其每个特征层都是独立进行预测,没有考虑不同特征层之间的关系,忽略对于小目标检测很重要的上下文信息,导致特征信息利用不够充分,造成小目标的检测效果一般、检测不够鲁棒。对于SSD算法检测速度较快,检测精度稍差的情况,大量改进方法被提出。Fu等提出的DSSD模型基于SSD,通过反卷积模块,在最后特征图上加入上下文信息来提高小目标检测能力,其检测精确度(meanaverageprecision,mAP)对比SSD模型提升了1.4%。但是其骨干网络选择提取能力更强的Resnet-101,因该模型网络层数很深,使得达不到实时性检测。Li等提出FSSD(featurefusionSSD)模型,通过特征融合和下采样操作重构检测模型,更好丰富细节信息,其检测精确度与DSSD模型相比提升0.2%,相比SSD模型提升1.6%。还有,如RefineDet和DSOD,通过细化关键点,或者多尺度融合特征图来提高检测精度。CornerNet采用了不同的方法,该目标检测模型基于关键点的标记,以此提高了检测精度。RetinaNet建立了基于FPN的一级探测器,具有高效的推理能力。但是,其损失函数参数的调优需要很大的工作量。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于自注意力和特征融合的改进SSD目标检测方法,实现SSD目标的检测。
为解决上述技术问题,本发明所采取的技术方案是:基于自注意力和特征融合的改进SSD目标检测方法,包括以下步骤:
步骤1、通过公开的已标注的图片数据集训练SSD目标检测模型,获得SSD目标检测初始模型;
对公开的已标注的图片数据集进行数据增强操作,使用这些数据对SSD目标检测模型进行训练,获得SSD目标检测初始模型;
步骤2、在步骤1获得的SSD目标检测初始模型的基础上构建改进的SSD目标检测模型;
所述改进的SSD目标检测模型由特征提取模块、特征融合模块、自注意力模块和检测模块组成;
所述特征提取模块与SSD目标检测初始模型结构相同,使用VGG16网络结构,包含:VGG16中所有的卷积层,并将VGG16中两个全连接层替换为卷积层,同时增加四个卷积结构,每个结构由两个卷积层构成;
所述特征融合模块将特征提取模块中的卷积层和最大池化层、卷积层和卷积层进行融合,增强卷积层的特征映射,融合过程如下公式所示:
xi=RELU{WK{Concat[Tc(xi-1),Tn(xi),Td(xi+1)]}} (1)
其中,xi为第i层特征层,xi-1为与第i层特征层相邻的前卷积层,xi+1为与第i层特征层相邻的后反卷积层,i=1、2、…、n,n为特征层总数,所述特征层为用于特征融合的卷积层;Tc为对输入特征层进行卷积、下采样、激活函数操作;Tn为对输入特征层进行卷积、激活函数操作;Td为对输入特征层进行反卷积、上采样、激活函数操作;将需融合的特征层xi-1,xi和xi+1分别经过T操作后,进行Concat融合,最后经过3×3卷积操作,通过卷积WK和激活ReLU操作得到新特征层;
所述自注意力模块从特征层中输出的预测特征图中估计预测所需相关信息,构建特征图内部所有特征像素之间的全局依赖关系,针对不同区域进行目标检测,具体方法为:
(2)将预测特征图xt经过线性变换变换到Q、K和V三个不同的特征空间,变换公式如下:
(3)将Q、K特征空间下的特征图Q(xt)和K(xt)通过矩阵相乘得到注意力权重矩阵Ft,然后通过softmax对权重矩阵中元素进行归一化操作如下公式所示:
Ft=Q(xt)TK(xt) (5)
所述改进的SSD目标检测模型的目标损失函数由特征图上每个候选框的分类损失和定位损失的加权和组成,如下公式所示:
其中,n为所有特征图上候选框的个数;α和β为调节损失占比参数,α+β=1;Ll为定位损失,采用SmoothL1 loss作为损失函数;Lc为分类损失,使用多类别信息交叉熵;Lfl表示焦点损失函数(Focal loss),用于解决正负样本不均衡的问题,计算公式为:
其中,y为真实目标的标签,y=0为负样本,y=1为正样本;y'为经过Sigmoid函数的预测输出,取值范围为0~1;δ为平衡因子,用于避免正负样本数量比例不均;γ为调节样本权重降低的速率;
所述检测模块对通过自注意力模块得到的有效特征层中的每一个特征层均进行两次卷积操作,一次用于预测该特征层上每个特征点上每一个先验框的变化情况,另一次用于预测该特征层上每一个特征点上每一个预测对应的种类;所述特征点就是整个图片分成与其长宽对应的网格的中心;
步骤3、通过公开的已标注的图片数据集再训练改进后的SSD目标检测模型;
在步骤1中训练的SSD目标检测模型的基础上,对改进后SSD目标检测模型进行参数再训练,得到最终的SSD目标检测模型;
步骤4、将待检测的图像通过最终的SSD目标检测模型,实现对图像中的目标进行检测。
采用上述技术方案所产生的有益效果在于:基于自注意力和特征融合的改进SSD目标检测方法,首先通过卷积和反卷积的方法提出了新的特征融合结构,旨在对细节信息和语义信息加以丰富,从而提升以低层特征信息为主要检测依据的小目标检测精度,减少漏检情况发生;其次在预测特征层后串联自注意力机制模块,并应用焦点损失函数,扩大卷积神经网络感受野,改进了目标检测定位不准确的问题,有效提高了定位精度和检测效果。
附图说明
图1为本发明实施例提供的基于自注意力和特征融合的改进SSD目标检测方法的流程图;
图2为本发明实施例提供的SSD目标检测模型的结构示意图;
图3为本发明实施例提供的改进的SSD目标检测模型的结构示意图;
图4为本发明实施例提供的特征融合模块的结构示意图;
图5为本发明实施例提供的自注意力模块的结构示意图;
图6为本发明实施例提供的不同检测模型针对6类小目标的检测精度对比图;
图7为本发明实施例提供的针对椅子图片采用不同检测模型的检测结果图的结构示意图,其中,(a)为SSD目标检测模型的检测结果,(b)为改进的SSD目标检测模型的检测结果;
图8为本发明实施例提供的针对飞机图片采用不同检测模型的检测结果图,其中,(a)为SSD目标检测模型的检测结果,(b)为改进的SSD目标检测模型的检测结果;
图9为本发明实施例提供的针对船舶图片采用不同检测模型的检测结果图,其中,(a)为SSD目标检测模型的检测结果,(b)为改进的SSD目标检测模型的检测结果。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本实施例中,基于自注意力和特征融合的改进SSD目标检测方法,如图1所示,包括以下步骤:
步骤1、通过公开的已标注的图片数据集训练SSD目标检测模型,获得SSD目标检测初始模型;
对公开的已标注的图片数据集进行数据增强操作,使用这些数据对SSD目标检测模型进行训练,获得SSD目标检测初始模型;
SSD目标检测模型作为主流的单阶段目标检测模型之一,骨干网络采用VGG16分类网络,并新增一系列尺度不同的卷积层获取更多的特征图用于检测。其中,较大的特征图来检测相对较小的目标,较小的特征图检测相对较大的目标。VGG16中的Conv4_3层将作为第一个特征图,从后面新增卷积层中再提取五个检测所用的特征图,具体模型如图2所示。
PASCALVOC数据集包含训练图片和测试图片,有飞机、自行车、船舶、瓶子、公共汽车、猫、桌子、狗、火车、植物、电视、沙发等20个类别。本实施例中,训练数据采用PASCALVOC2007trainval和PASCALVOC 2012trainval,共16551张图片。实验验证数据采用PASCALVOC2007test的4952张图片。
步骤2、在步骤1获得的SSD目标检测初始模型的基础上构建改进的SSD目标检测模型;
所述改进的SSD目标检测模型如图3所示,由特征提取模块、特征融合模块、自注意力模块和检测模块组成;
所述特征提取模块与SSD目标检测初始模型相同,使用VGG16网络结构,包含:VGG16中所有的卷积层、将VGG16中两个全连接层替换为卷积层,并增加四个卷积结构,每个结构由两个卷积层构成;
所述特征融合模块将特征提取模块中的卷积层和最大池化层、卷积层和卷积层进行融合,如图4所示,增强卷积层的特征映射,融合过程如下公式所示:
xi=RELU{WK{Concat[Tc(xi-1),Tn(xi),Td(xi+1)]}} (1)
其中,xi为第i层特征层,xi-1为与第i层特征层相邻的前卷积层,xi+1为与第i层特征层相邻的后反卷积层,i=1、2、…、n,n为特征层总数,所述特征层为用于特征融合的卷积层;Tc为对输入特征层进行卷积(Conv)、下采样(Downsample)、激活函数(ReLU)操作;Tn为对输入特征层进行卷积(Conv)、激活函数(ReLU)操作;Td为对输入特征层进行反卷积(Convtranspose)、上采样(Downsample)、激活函数(ReLU)操作;将需融合的特征层xi-1,xi和xi+1分别经过T操作(即Tc、Tn和Td操作)后,进行Concat融合,最后经过3×3卷积操作,通过卷积WK和激活ReLU操作得到新特征层;
实际检测中,大多数检测器使用各种多尺度结构来解决图像中物体多样性的问题,但是小目标的检测精度效果一直不太满意,究其原因是分辨率低,信息有限,基本特征在卷积神经网络的传播中丢失。而对于大目标的检测,其特征在传播过程中不容易丢失。因此,对于小目标检测效果的提高,一方面选择适当的骨干网络;另一方面学习更强大精确的特征信息。结合多尺度特征融合的特点,本发明通过组合前后两个距离较近特征层的特征融合模块来获取互补信息,充分融合深层和浅层的特征信息,并使得融合后的特征层能同时包含丰富的几何细节和语义信息,有利于提高小目标检测的效率同时避免漏检情况。本实施例中,前三层用于特征提取的卷积层包含的位置和细节信息较多,感受野小,更好的和小目标匹配,但是特征语义信息过少,会对是目标还是背景的判断产生影响,所以本实施例重点对前三层特征进行融合处理。而后三层特征尺寸比较小,已经丢失大部分的位置和细节信息,同时如果进行上采样操作容易引入噪声。所以本实施例分别将前三个用于特征提取的卷积层的前后距离较近的卷积层和最大池化层经过特征融合模块得到三个新的特征层;
所述自注意力模块如图5所示,从特征层中输出的预测特征图中估计预测所需相关信息,构建特征图内部所有特征像素之间的全局依赖关系,针对不同区域进行目标检测,具体方法为:
(2)将预测特征图xt经过线性变换变换到Q、K和V三个不同的特征空间,变换公式如下:
(3)将Q、K特征空间下的特征图Q(xt)和K(xt)通过矩阵相乘(MatMul)得到注意力权重矩阵Ft,然后通过softmax对权重矩阵中元素进行归一化操作如下公式所示:
Ft=Q(xt)TK(xt) (5)
SSD目标检测算法所采用的多尺度特征图,会形成数量众多的候选框,但是实际每个图片中目标对象数量较少,只有少数位置的候选框包含目标对象,这样负样本数量过于庞大导致损失太大,而掩盖了正样本的损失。所以在训练期间,各个类别的样本数量不均衡,使训练不容易收敛,训练效率较低。对此问题,本发明引入Lin等提出Focal loss损失,在原损失函数的基础上增加Focal loss惩罚项,改进原损失函数,改善训练时所面临的类别不平衡问题。因此,改进的SSD目标检测模型的目标损失函数由特征图上每个候选框的分类损失和定位损失的加权和组成,如下公式所示:
其中,n为所有特征图上候选框的个数;α和β为调节损失占比参数,α+β=1;Ll为定位损失,采用SmoothL1 loss作为损失函数;Lc为分类损失,使用多类别信息交叉熵;Lfl表示焦点损失函数(Focal loss),用于解决正负样本不均衡的问题,计算公式为:
其中,y为真实目标的标签,y=0为负样本(即在训练时包含目标主题的样本),y=1为正样本(即在训练时不包含目标主题的样本);y'为经过Sigmoid函数的预测输出,取值范围为0~1;δ为平衡因子,用于避免正负样本数量比例不均;γ为调节样本权重降低的速率;本实施例中,焦点损失函数Lfl中参数取δ=0.25,γ=2,α=0.95,β=0.05。
所述检测模块对通过自注意力模块得到的有效特征层中的每一个特征层均进行两次卷积操作,一次用于预测该特征层上每个特征点上每一个先验框的变化情况,另一次用于预测该特征层上每一个特征点上每一个预测对应的种类;所述特征点就是整个图片分成与其长宽对应的网格的中心;有效的六个特征层,每个特征层的每个特征点对应的先验框数量分别为4、6、6、6、4、4,共生成8732个先验框。
本实施例中,改进后的SSD目标检测模型,使用VGG16作为网络骨干,金字塔卷积结构(conv8-11)遵循与原SSD目标检测模型相同的设计,利用conv4-11输出的特征图来检测不同尺寸的目标,通过特征融合模块将Maxpooling2和conv7融合至conv4_3、conv4_3和conv8融合至conv7、conv5_3和conv9融合至conv8,增强conv4_3,conv7,conv8的特征映射,再将自注意力模块串联接入模型进行训练。最终得到六组特征图,尺寸分别为38×38,19×19,10×10,5×5,3×3,1×1,将其送入检测模块,进行分类和回归,得到预测结果。
步骤3、通过公开的已标注的图片数据集再训练改进后的SSD目标检测模型;
在步骤1中训练的SSD目标检测模型的基础上,对改进后SSD目标检测模型进行参数再训练,得到最终的SSD目标检测模型;
将最终的SSD目标检测模型与SSD目标检测模型、效果更好的DSSD模型进行比较,验证本发明方法的有效性。
步骤4、将待检测的图像通过最终的SSD目标检测模型,实现对图像中的目标进行检测。
本实施例中,最终的SSD目标检测模型对待检测图像进行目标检测的具体方法为:
(1)输入图片通过resize操作将长宽均变成300;
(2)将步骤(1)处理后的图片输入到主干特征提取网络VGG16中,提取conv4_3作为第一个特征层,提取由原全连接层FC7改变而来的新卷积层conv7作为第二个特征层。随后添加四个卷积结构,分别提取每个卷积结构内第二个卷积层作为第三、四、五和六特征层。
(3)先将步骤(2)中得到的前三个特征层进行特征融合处理,然后将得到的新特征层和剩余三个特征层均通过自注意力模块进行处理,得到六个有效特征层。
(4)对于步骤(3)中每个有效特征层,特征点就是整个图片分成与其长宽对应的网格的中心,上述提到的六个特征层,每个特征层的每个特征点对应的先验框数量分别为4、6、6、6、4、4。对每一个特征层通过两次卷积操作,一次用于预测该特征层上每个特征点上每一个先验框的变化情况,另一次用于预测该特征层上每一个特征点上每一个预测对应的种类。共生成8732个先验框。
(5)通过图片高度和宽度调整先验框获得预测框的宽和高以及中心位置,对每一个预测框进行得分进行排序,并通过非极大抑制筛选,得到最终预测框,并在图片上绘制结果。
本实施例中,使用的深度学***移旋转、灰度变换、随机裁剪等)以及锚框参数均与SSD目标检测模型一致。
本发明方法与当前主流目标检测方法在VOC2007测试集上的测试结果如表1所示,其中,算法精度采用均值平均精度mAP(mean average precision)作为评价指标,算法时间性能采用FPS(frames per second)作为评价指标。可以看出改进后的SSD目标检测模型在输入图像尺寸相差不多的情况下,比其余改进SSD算法的检测精度都有不同程度的提升:改进后的SSD目标检测模型的mAP为80.6%,相比于两阶段算法Faster R-CNN平均检测精度高出7.4%,比SSD目标检测模型平均检测精度高出3.1%,同时相较于Yolo V2、FSSD、RSSD、DSSD和RefineDet一阶段检测方法平均精度分别提高了2%、1.8%、2.1%、2.0%和1.1%。
表1不同目标检测算法在PASCAL VOC2007测试集上的测试结果
对比各个类别的目标检测精度,如表2所示,改进后的SSD目标检测模型在PASCALVOC2007测试集相比其他目标检测算法的检测精度均有不同程度的提升,能够确认添加自注意力模块并进行特征融合使得特征图包含更多的语义信息和细节信息,对目标检测起到了积极作用,帮助解决SSD目标检测算法特征图信息不够丰富的问题,也避免DSSD算法单个特征图反卷积次数过多导致引入大量噪声的问题。
表2 PASCAL VOC2007测试集下不同类别检测精度对比
本实施例还选取6个小目标占比较大的类别,通过图片更加形象的对比展示不同目标检测模型的检测精度,如图6所示,其中,方框代表原SSD目标检测模型,圆圈代表DSSD目标检测模型,三角形代表改进后的SSD目标检测模型。图中可以更加清晰的看出,改进后的SSD目标检测模型在这6类中检测精度大多数有不同程度的提高,证明使用自注意力模块细化指导目标检测,同时通过特征融合丰富特征层,对于小目标的检测能力提升有显著效果。
本实施例为了更直观的展现改进后SSD目标检测模型的优越性,在测试集中随机抽取图片,先通过原SSD目标检测模型进行检测,再通过改进后的SSD目标检测模型进行检测,检测结果对比如图7-9所示,(a)为原始SSD目标检测模型的检测结果,(b)为改进后的SSD目标检测模型的检测结果。
原SSD目标检测模型在图片检测时,观察图7(a)-9(a)可以发现当两个或多个对象重叠部分较多、对象个数过多等情况,会造成漏检现象。改进后的SSD目标检测模型通过特征融合方式,将既包含细节的低层特征图和包含语义信息的高层特征图融合至当前层,以此达到减少漏检现象。同时,对于原SSD目标检测模型存在误检和定位不准确的问题,通过添加自注意力模块进行改进。从7(b)-9(b)可以看出,改进后的SSD目标检测模型有效降低了漏检情况,同时对小目标的检测效果更好。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。
Claims (6)
1.一种基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:包括以下步骤:
步骤1、通过公开的已标注的图片数据集训练SSD目标检测模型,获得SSD目标检测初始模型;
步骤2、在步骤1获得的SSD目标检测初始模型的基础上构建改进的SSD目标检测模型;
所述改进的SSD目标检测模型由特征提取模块、特征融合模块、自注意力模块和检测模块组成;
所述特征提取模块与SSD目标检测初始模型结构相同,使用VGG16网络结构,包含:VGG16中所有的卷积层,并将VGG16中两个全连接层替换为卷积层,同时增加四个卷积结构,每个结构由两个卷积层构成;
所述特征融合模块将特征提取模块中的卷积层和最大池化层、卷积层和卷积层进行融合,增强卷积层的特征映射;
所述自注意力模块从特征层中输出的预测特征图中估计预测所需相关信息,构建特征图内部所有特征像素之间的全局依赖关系,针对不同区域进行目标检测;
所述检测模块对通过自注意力模块得到的有效特征层中的每一个特征层均进行两次卷积操作,一次用于预测该特征层上每个特征点上每一个先验框的变化情况,另一次用于预测该特征层上每一个特征点上每一个预测对应的种类;所述特征点就是整个图片分成与其长宽对应的网格的中心;
步骤3、通过公开的已标注的图片数据集再训练改进后的SSD目标检测模型;
步骤4、将待检测的图像通过最终的SSD目标检测模型,实现对图像中的目标进行检测。
2.根据权利要求1所述的基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:所述步骤1对公开的已标注的图片数据集进行数据增强操作,使用这些数据对SSD目标检测模型进行训练,获得SSD目标检测初始模型。
3.根据权利要求1所述的基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:所述特征融合模块的融合过程如下公式所示:
xi=RELU{WK{Concat[Tc(xi-1),Tn(xi),Td(xi+1)]}} (1)
其中,xi为第i层特征层,xi-1为与第i层特征层相邻的前卷积层,xi+1为与第i层特征层相邻的后反卷积层,i=1、2、…、n,n为特征层总数,所述特征层为用于特征融合的卷积层;Tc为对输入特征层进行卷积、下采样、激活函数操作;Tn为对输入特征层进行卷积、激活函数操作;Td为对输入特征层进行反卷积、上采样、激活函数操作;将需融合的特征层xi-1,xi和xi+1分别经过T操作后,进行Concat融合,最后经过3×3卷积操作,通过卷积WK和激活ReLU操作得到新特征层。
4.根据权利要求3所述的基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:所述自注意力模块从特征层中输出的预测特征图中估计预测所需相关信息,构建特征图内部所有特征像素之间的全局依赖关系,针对不同区域进行目标检测的具体方法为:
(2)将预测特征图xt经过线性变换变换到Q、K和V三个不同的特征空间,变换公式如下:
(3)将Q、K特征空间下的特征图Q(xt)和K(xt)通过矩阵相乘(MatMul)得到注意力权重矩阵Ft,然后通过softmax对权重矩阵中元素进行归一化操作如下公式所示:
5.根据权利要求4所述的基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:所述改进的SSD目标检测模型的目标损失函数由特征图上每个候选框的分类损失和定位损失的加权和组成,如下公式所示:
其中,n为所有特征图上候选框的个数;α和β为调节损失占比参数,α+β=1;Ll为定位损失,采用Smooth L1 loss作为损失函数;Lc为分类损失,使用多类别信息交叉熵;Lfl表示焦点损失函数(Focal loss),用于解决正负样本不均衡的问题,计算公式为:
其中,y为真实目标的标签,y=0为负样本,y=1为正样本;y'为经过Sigmoid函数的预测输出,取值范围为0~1;δ为平衡因子,用于避免正负样本数量比例不均;γ为调节样本权重降低的速率。
6.根据权利要求5所述的基于自注意力和特征融合的改进SSD目标检测方法,其特征在于:所述步骤6在步骤1中训练的SSD目标检测模型的基础上,对改进后SSD目标检测模型进行参数再训练,得到最终的SSD目标检测模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111037457.6A CN113743505A (zh) | 2021-09-06 | 2021-09-06 | 基于自注意力和特征融合的改进ssd目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111037457.6A CN113743505A (zh) | 2021-09-06 | 2021-09-06 | 基于自注意力和特征融合的改进ssd目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113743505A true CN113743505A (zh) | 2021-12-03 |
Family
ID=78735839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111037457.6A Pending CN113743505A (zh) | 2021-09-06 | 2021-09-06 | 基于自注意力和特征融合的改进ssd目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743505A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821246A (zh) * | 2022-06-28 | 2022-07-29 | 山东省人工智能研究院 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
CN115115863A (zh) * | 2022-06-28 | 2022-09-27 | 成都信息工程大学 | 水面多尺度目标检测方法、装置及***和存储介质 |
CN115424023A (zh) * | 2022-11-07 | 2022-12-02 | 北京精诊医疗科技有限公司 | 一种增强小目标分割性能的自注意力机制模块 |
WO2023207411A1 (zh) * | 2022-04-28 | 2023-11-02 | 京东城市(北京)数字科技有限公司 | 一种基于时空数据的流量确定方法、装置、设备和介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111445478A (zh) * | 2020-03-18 | 2020-07-24 | 吉林大学 | 一种用于cta图像的颅内动脉瘤区域自动检测***和检测方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
CN112949673A (zh) * | 2019-12-11 | 2021-06-11 | 四川大学 | 一种基于全局注意力的特征融合目标检测与识别方法 |
-
2021
- 2021-09-06 CN CN202111037457.6A patent/CN113743505A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949673A (zh) * | 2019-12-11 | 2021-06-11 | 四川大学 | 一种基于全局注意力的特征融合目标检测与识别方法 |
CN111445478A (zh) * | 2020-03-18 | 2020-07-24 | 吉林大学 | 一种用于cta图像的颅内动脉瘤区域自动检测***和检测方法 |
CN111639692A (zh) * | 2020-05-25 | 2020-09-08 | 南京邮电大学 | 一种基于注意力机制的阴影检测方法 |
Non-Patent Citations (2)
Title |
---|
蔡皓洋: "基于注意力机制的图像语义分割方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 45 - 46 * |
高建瓴;孙健;王子牛;韩毓璐;冯娇娇;: "基于注意力机制和特征融合的SSD目标检测算法", 《软件》, vol. 41, no. 2, pages 205 - 210 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023207411A1 (zh) * | 2022-04-28 | 2023-11-02 | 京东城市(北京)数字科技有限公司 | 一种基于时空数据的流量确定方法、装置、设备和介质 |
CN114821246A (zh) * | 2022-06-28 | 2022-07-29 | 山东省人工智能研究院 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
CN115115863A (zh) * | 2022-06-28 | 2022-09-27 | 成都信息工程大学 | 水面多尺度目标检测方法、装置及***和存储介质 |
CN114821246B (zh) * | 2022-06-28 | 2022-10-14 | 山东省人工智能研究院 | 基于多层次残差网络感知和注意力机制的小目标检测方法 |
CN115424023A (zh) * | 2022-11-07 | 2022-12-02 | 北京精诊医疗科技有限公司 | 一种增强小目标分割性能的自注意力机制模块 |
CN115424023B (zh) * | 2022-11-07 | 2023-04-18 | 北京精诊医疗科技有限公司 | 一种增强小目标分割性能的自注意力方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639692B (zh) | 一种基于注意力机制的阴影检测方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN112507777A (zh) | 一种基于深度学习的光学遥感图像舰船检测与分割方法 | |
CN113743505A (zh) | 基于自注意力和特征融合的改进ssd目标检测方法 | |
CN111079739B (zh) | 一种多尺度注意力特征检测方法 | |
CN112800838A (zh) | 一种基于深度学习的航道船舶检测与识别方法 | |
CN112287941B (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
Hara et al. | Towards good practice for action recognition with spatiotemporal 3d convolutions | |
CN111680705B (zh) | 适于目标检测的mb-ssd方法和mb-ssd特征提取网络 | |
CN113052006B (zh) | 一种基于卷积神经网络的图像目标检测方法,***及可读存储介质 | |
CN111832453A (zh) | 基于双路深度神经网络的无人驾驶场景实时语义分割方法 | |
CN116612378B (zh) | 一种基于ssd改进的不平衡数据及复杂背景下水下小目标检测方法 | |
Liu et al. | Analysis of anchor-based and anchor-free object detection methods based on deep learning | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别***及方法 | |
CN113128476A (zh) | 一种基于计算机视觉目标检测的低功耗实时头盔检测方法 | |
CN115410081A (zh) | 一种多尺度聚合的云和云阴影辨识方法、***、设备及存储介质 | |
CN115410078A (zh) | 一种低质量水下图像鱼类目标检测方法 | |
CN114596480A (zh) | 一种基于yolov5优化的海底生物目标检测方法和*** | |
CN112132207A (zh) | 基于多分支特征映射目标检测神经网络构建方法 | |
CN117079095A (zh) | 基于深度学习的高空抛物检测方法、***、介质和设备 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
CN116682090A (zh) | 一种基于改进YOLOv3算法的车辆目标检测方法 | |
CN115861595A (zh) | 一种基于深度学习的多尺度域自适应异源图像匹配方法 | |
CN115035429A (zh) | 一种基于复合主干网络和多预测头的航拍目标检测方法 | |
Liu et al. | Text detection based on bidirectional feature fusion and sa attention mechanism |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |