CN115631344B - 一种基于特征自适应聚合的目标检测方法 - Google Patents
一种基于特征自适应聚合的目标检测方法 Download PDFInfo
- Publication number
- CN115631344B CN115631344B CN202211219905.9A CN202211219905A CN115631344B CN 115631344 B CN115631344 B CN 115631344B CN 202211219905 A CN202211219905 A CN 202211219905A CN 115631344 B CN115631344 B CN 115631344B
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- image
- prediction
- adaptive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于特征自适应聚合的目标检测方法,目的是解决现有实时目标检测方法检测精度有待提高的问题。技术方案是:构建由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成的基于特征自适应聚合的目标检测***;准备目标检测***所需的数据集并通过数据增强技术对训练集图像数据进行优化;采用训练集对目标检测***进行训练,辅助任务模块辅助网络训练;然后对训练后的目标检测***进行验证,选择性能最优异的模型参数,得到性能最优异的训练后目标检测***;最后采用性能最优异的训练后目标检测***对用户输入图像进行目标检测,得到目标的位置和类别。本发明以较小的时间开销,实现了较大的精度提升。
Description
技术领域
本发明涉及图像识别目标检测领域,具体涉及一种优化目标检测精度的基于特征自适应聚合的目标检测方法。
背景技术
目标检测是计算机视觉的重要任务之一,拥有如智能安防、智能机器人、智能交通等众多应用。随着人工智能和深度学习的发展,目标检测技术的性能得到了显著的提升。目标检测方法的性能评价一般有精确性和实时性两个方面,前者反映方法的检测准确度,后者反映方法的处理速度。对于如人脸检测、车辆检测、行人检测等任务来说,实时性也是衡量目标检测方法性能的重要指标。在现实应用中,需要在较短的时间内,完成对输入图像的检测,否则就会造成延迟过高的情况,轻则使用户体验欠佳,重则导致出现如车祸等严重交通事故。
现有的实时目标检测方法一般分为两大类:anchor-base方法和anchor-free方法。Anchor-base方法生成预定义遍布全图的先验框,并提取先验框特征完成分类和回归任务。但因anchor-base方法的预定义先验框需要人工设置超参数,且对不同数据集长宽比、大小等均不一样,因此泛化能力较弱,而且该方法较anchor-free方法也更为复杂,实时性上略显不足。Anchor-free方法无需预定义先验框,直接提取特征图像素点特征完成分类和回归任务。Anchor-free方法在速度和泛化性上更占优势,但该方法的精度却受限于表征能力较弱的点特征。
文献“Zhou X,Wang D.Objects as points[J].arXiv preprint arXiv:1904.07850,2019.”(CenterNet)介绍了一种基于anchor-free的实时目标检测方法,其利用关键点检测的思想,为每一个物体生成一个高斯核,用于定位物体的中心点位置,再利用回归分支预测物体框的长和宽。CenterNet实现了简单的模型结构,运行速度快,但需要长时间的训练,才能使模型收敛。文献“Liu Z,Zheng T,Xu G,et al.Training-time-friendly network for real-time object detection[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11685-11692.”(TTFNet)针对CenterNet训练时间长的问题,设置了范围更广的高斯核,并将更多的像素点视为训练样本,增大了训练样本的数量,使模型更容易收敛。该方法不再只定位物体中心点,而是将物体高斯核区域的任意一点都视为预测基点,再利用回归分支预测预测基点到预测框上、下、左、右四个方向的距离。经过上述改进,减少了训练时间且精度有所提升。
上述两种anchor-free方法在速度和泛化性上实现了较大的性能优势,但因为没有考虑到像素点特征能力不足,且分类、回归分支耦合度较高这些影响精度的关键问题,在精度上比起anchor-base方法仍较低。
如何提高目标检测方法中特征表征能力不足,提高准确度仍然是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题是针对现有的实时目标检测方法特征表征能力不足、分类和回归分支特征耦合度较高、检测精度有待提高的问题,提出一种基于特征自适应聚合的目标检测方法。在不影响实时性的前提下,利用自适应特征聚合技术,增加少量计算量,缓解特征表征能力不足、分类和回归分支特征耦合度较高的问题,提升目标检测精度。
为解决上述技术问题,本发明技术方案是:构建基于特征自适应聚合的目标检测***。该***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。准备、构建目标检测***所需的数据集,将数据集划分为训练集、验证集和测试集。通过数据增强技术对训练集图像数据进行随机裁剪、随机翻转、随机平移、随机亮度、饱和度、对比度变化处理、标准化处理,增强训练数据多样性。对验证集和测试集只采用尺寸缩放和标准化处理,保持原图像的视觉线索。然后采用训练集对目标检测***中的主特征提取模块、特征自适应聚合模块、辅助任务模块和主任务模块进行训练。训练时辅助任务模块辅助网络训练,目的是增强目标检测网络对物体角点位置的关注,提升定位准确性。在一轮训练结束后,使用验证集对训练后的目标检测***进行测试,选择性能最优异的模型参数,赋值到目标检测***中的可训练模块(主特征提取模块、特征自适应聚合模块、主任务模块)中,得到性能最优异的训练后的目标检测***;最后采用性能最优异的训练后的目标检测***对用户输入的图像进行目标检测,得到目标的位置和类别。
本发明技术方案包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***。如图1所示,目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络(见文献“Redmon J,Farhadi A.Yolov3:Anincremental improvement[J].arXiv preprint arXiv:1804.02767,2018.”Redmon J,Farhadi A等人的论文:Yolov3)和一个特征金字塔网络(见文献“Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:2117-2125.”Lin T Y,Dollár P,Girshick R等人的论文:特征金字塔网络用于目标检测)组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块。
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE(Squeeze-and-excitation)网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成,从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块,不仅使主任务模块拥有自适应空间感知能力,还缓解输入特征耦合度高影响检测精度的问题。
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知。辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确。在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃,不增加额外计算量。
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成。精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块。
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置。通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别。后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框。
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:
使用MS COCO公开的通用场景数据集(见文献“Tsung-Yi Lin,Michael Maire,Serge Belongie,James Hays,Pietro Perona,Deva Ramanan,Piotr Dollar,and CLawrence′Zitnick.Microsoft coco:Common objects in context.In ECCV,2014.”Tsung-Yi Lin,Michael Maire等人的论文:Microsoft coco:情景中的常见物体)或Cityscapes无人驾驶场景数据集(见文献“Cordts M,Omran M,Ramos S,et al.TheCityscapes Dataset for Semantic Urban Scene Understanding[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2016.”CordtsM,Omran M等人的论文:Cityscapes数据集语义城市场景理解)作为目标检测数据集。MSCOCO数据集拥有80个类别,包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,S为205000或2975,T为20000或1524,V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别。
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt,方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比(IoU)对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比(IoU)采用的最小尺寸比为0.3。
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32。
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5)。
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5)。
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中。
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt,转2.3。
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签。一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为令第i个标注框的标注类别为ci,代表第i个标注框的左上角点坐标,代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns。
2.3.2.1构建一个大小为的全零矩阵图Hzeros,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,如MS COCO数据集为80类、Cityscapes数据集为19类,H是第s张图像的高,W是第s张图像的宽;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel;
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心(可以是B′si的中心也可以是B′si的角点),x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值。(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标。(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系。表示二维高斯核在宽方向的方差,表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量。w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数,设置为0.54。将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中。将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,yp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr;
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到S张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM;
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,得到由V张缩放标准化后的图像组成的新的验证集DV,方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像。
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV,转2.5。
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT。
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数。方法是:
3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https://www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;采用均值为0,方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。
3.2设置目标检测***训练参数。设置初始学习率learning_rate为0.01,设置学习率衰减系数为0.1,即学习率缩小10倍(在训练步长为80和110时进行衰减)。选用随机梯度下降(SGD)作为模型训练优化器,该优化器的超参数“动量”为0.9,“权重衰减”为0.0004。网络训练的批次大小(mini_batch_size)为64。最大训练步长(maxepoch)为120。
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss),利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束。在最后Nm(一般为10)个训练步,每训练一轮,保存一次网络权重参数。
方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch,初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像。其中的H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道。
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块。方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即4个特征图(后四个串行子网络的输出),发送给特征金字塔网络。
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为将多尺度特征图发送给特征自适应聚合模块。
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块。方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收采用自适应多尺度特征聚合方法对进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH。FH的特征图分辨率为FH的特征图通道数为64。具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对进行并行通道自注意力增强,即第一SE网络对施加在通道上的加权求和,得到第一通道表征增强后的图像同时第二SE网络对施加在通道上的加权求和,得到第二通道表征增强后的图像同时第三SE网络对施加在通道上的加权求和,得到第三通道表征增强后的图像
3.3.4.1.3自适应多尺度特征聚合网络对采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为的软权重图软权重图的像素点的数值大小表明应更关注这3个尺度中的哪一个,即中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图。
3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图与对应的第l个上采样后的特征图逐元素乘,即将与对应逐元素乘,将与对应逐元素乘,与分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH。具体过程如公式(3)所示:
其中SE4为第四SE网络,表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积。自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络。
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是的矩阵,分辨率大小为通道数为4。通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框。Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围。并且,对Bcoarse与2.2.5.4构建的粗略框真实值计算损失 的损失计算是基于GIoU loss(见文献“Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalizedintersection over union:A metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:658-666.”Rezatofighi H,Tsoi N等人的论文:广义交并比:边界框回归的度量和损失):
其中Sb是回归样本集合,由不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标注框的位置更准确。
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS。方法是:
3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。可形变卷积(DConv)(见文献“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:9308-9316.”Zhu X,Hu H等人的论文:Deformable convnets v2:更易变形,更好的结果)因自适应稀疏采样的特性常被用于增强特征的空间感知能力,但其采样范围未加以限制,导致采样点容易过分偏移,且对于不同大小的物体,自适应学习采样最具代表性特征点的难度不一致,导致对于不同大小物体检测的适应性较差,因此本发明设计区域受限的可形变卷积(R-DConv)以增强适应性。具体方法是:
3.3.4.3.1.2利用限制可形变卷积采样区域。给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量。Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围。令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图。采用R-DConv计算y(p),如公式(6)所示:
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重。Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道(代表不同偏移值特征的权重)为Δmk的值。Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域。
3.3.4.3.2为使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.2采用利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS。允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域。因此,令使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块。
3.3.4.3.3为使R-DConv在粗略框范围内学习物体的边界区域信息,提取使物***置回归更准确的特征,采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数对可形变卷积的偏移量Δp进行变换。将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下。分别对四子区域进行均匀采样,即每个区域分配等额的采样点。通过这种方式,R-DConv操作的空间采样点被分散了,从而能提取包含更多来自边界的信息的特征,能够更准确地回归物***置。设置K=9,函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获。回归偏移量转换函数如公式(7)所示:
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为通道数为4。对Hcorner与2.3.3构建的角点预测真实值计算损失,得到Hcorner和的损失值 的计算是基于修改版的Focal Loss(见文献“Law H,DengJ.Cornernet:Detecting objects as paired keypoints[C]//Proceedings of theEuropean conference on computer vision(ECCV).2018:734-750.”Law H,Deng J等人的论文:Cornernet:用成对的关键点检测物体):
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值,是第c通道、像素位置(i,j)的角点预测真实值。辅助任务模块学习定位标注框的四个角点的位置,辅助目标检测网络训练,使提取特征更关注物体角点位置,从而使目标检测***定位物体的位置更准确。
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置Brefine。Brefine的分辨率大小为通道数为4。通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框。对Brefine与2.3.5得到的精细框真实值计算损失 的计算基于GIoU loss:
其中Sb是回归样本集合,由不为0的像素集合组成。Nb是回归样本集合的数量,Wij是对应不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标准框的位置更准确。Brefine的学习质量代表目标检测***回归物***置的准确度。
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter。Hcenter的分辨率大小为通道数为数据集类别数量C。MS COCO数据集的C为80,CityScapes数据集的C为8。将Hcenter与2.2.5.2构建的中心点预测真实值计算损失 的计算基于修改版的Focal Loss:
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。是第c通道、(i,j)像素位置的中心点预测热力图,是第c通道、(i,j)像素位置的中心点预测真实值。Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力。
其中是角点预测网络输出的Hcorner和真实值计算的损失值,是中心点预测网络输出的Hcenter和真实值计算的损失值,是粗略框预测网络输出的Bcoarse和真实值计算的损失值,是精细框预测网络输出的Brefine和真实值计算的损失值。根据重要性令角点预测网络损失权重中心点预测网络损失权重粗略框预测网络损失权重精细框预测网络损失权重
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数。
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数。方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将经过2.4步采用图像缩放标准化方法处理过的新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络。BHVcoarse也是的矩阵,分辨率大小为通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作(2D Max-Pooling),提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-1,pd+d,pr+r}。Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp。Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp;
4.11.3后处理模块保留第v个验证图像Dv中置信度sp大于置信度阈值(一般设置为0.3)的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式(https://cocodataset.org/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式(https://www.cityscapes-dataset.com/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***。
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块。
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络。BIcoarse也是的矩阵,分辨率大小为通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别。
第六步,结束。
采用本发明能达到以下有益的效果:
本发明提出了一种基于特征自适应聚合的目标检测方法。本发明采用自适应多尺度特征聚合网络和自适应空间特征聚合网络,以少量计算开销,实现较大的精度提升。本发明适用于绝大多数基于图像的目标检测。采用本发明能取得以下效果:
1.本发明构建了一个融合了主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块的目标检测***,在保证目标检测方法较快实时性的基础上,利用自适应多尺度特征聚合模块的通道自注意力增强、尺度级别软权重聚合和自适应空间特征聚合模块的可形变卷积的自适应特征聚合能力,设计适合目标检测的聚合方式和网络结构,实现了较大的检测精度提升。通过采用MS COCO和Cityscapes数据集对本发明进行实验,本发明的检测精度较背景技术所述的CenterNet和TTFNet有较大提高。
2.本发明的自适应多尺度特征聚合网络利用SE模块增强特征通道表征能力,利用尺度级别的软权重图增强特征的多尺度表征能力;本发明的自适应空间特征聚合网络利用粗略框限定可形变卷积空间采样的范围,缓解其过度偏移的问题,并针对中心点预测任务和精细框预测网络设计不同的偏移量转换函数,使回归任务关注物体边界区域,分类任务关注物体显著性区域,缓解分类和回归任务特征耦合问题,能实现较大的检测精度提升。
附图说明
图1为本发明第一步构建的目标检测***的逻辑结构图。
图2为本发明总体流程图。
图3为本发明检测结果与TTFNet方法结果的比较图。
图4为对本发明效果进行的测试时的检测图像示例图。
具体实施方式
下面结合附图对本发明具体实例进行说明。如图2所示,本发明包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***。如图1所示,目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块。
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成,从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块,不仅使主任务模块拥有自适应空间感知能力,还缓解输入特征耦合度高影响检测精度的问题。
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知。辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确。在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃,不增加额外计算量。
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成。精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块。
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置。通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别。后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框。
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:
使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集。MS COCO数据集拥有80个类别,包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,S为205000或2975,T为20000或1524,V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别。
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt,方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比(IoU)对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比(IoU)采用的最小尺寸比为0.3。
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32。
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5)。
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5)。
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中。
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt,转2.3。
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签。一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为令第i个标注框的标注类别为ci,代表第i个标注框的左上角点坐标,代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns。
2.3.2.1构建一个大小为的全零矩阵图Hzeros,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,如MS COCO数据集为80类、Cityscapes数据集为19类,H是第s张图像的高,W是第s张图像的宽;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel;
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心(可以是B′si的中心也可以是B′si的角点),x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值。(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标。(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系。表示二维高斯核在宽方向的方差,表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量。w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数,设置为0.54。将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中。将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,xp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr;
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到s张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM;
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,得到由V张缩放标准化后的图像组成的新的验证集DV,方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像。
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV,转2.5。
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT。
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数。方法是:
3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https://www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;采用均值为0,方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。
3.2设置目标检测***训练参数。设置初始学习率learning_rate为0.01,设置学习率衰减系数为0.1,即学习率缩小10倍(在训练步长为80和110时进行衰减)。选用随机梯度下降(SGD)作为模型训练优化器,该优化器的超参数“动量”为0.9,“权重衰减”为0.0004。网络训练的批次大小(mini_batch_size)为64。最大训练步长(maxepoch)为120。
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss),利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束。在最后Nm(本实施例设置为10)个训练步,每训练一轮,保存一次网络权重参数。方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch,初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像。其中的H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道。
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块。方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即4个特征图(后四个串行子网络的输出),发送给特征金字塔网络。
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为将多尺度特征图发送给特征自适应聚合模块。
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块。方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收采用自适应多尺度特征聚合方法对进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH。FH的特征图分辨率为FH的特征图通道数为64。具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对进行并行通道自注意力增强,即第一SE网络对施加在通道上的加权求和,得到第一通道表征增强后的图像同时第二SE网络对施加在通道上的加权求和,得到第二通道表征增强后的图像同时第三SE网络对施加在通道上的加权求和,得到第三通道表征增强后的图像
3.3.4.1.3自适应多尺度特征聚合网络对采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为的软权重图软权重图的像素点的数值大小表明应更关注这3个尺度中的哪一个,即中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图。
3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图与对应的第l个上采样后的特征图逐元素乘,即将与对应逐元素乘,将与对应逐元素乘,与分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH。具体过程如公式(3)所示:
其中SE4为第四S E网络,表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积。自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络。
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是的矩阵,分辨率大小为通道数为4。通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框。Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围。并且,对Bcoarse与2.2.5.4构建的粗略框真实值计算损失 的损失计算是基于GIoU loss(见文献“Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalizedintersection over union:A metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:658-666.”Rezatofighi H,Tsoi N等人的论文:广义交并比:边界框回归的度量和损失):
其中Sb是回归样本集合,由不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标注框的位置更准确。
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS。方法是:
3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。具体方法是:
3.3.4.3.1.2利用限制可形变卷积采样区域。给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量。Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围。令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图。采用R-DConv计算y(p),如公式(6)所示:
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重。Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道(代表不同偏移值特征的权重)为Δmk的值。Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域。
3.3.4.3.2为使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.2采用利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS。允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域。因此,令使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块。
3.3.4.3.3为使R-DConv在粗略框范围内学习物体的边界区域信息,提取使物***置回归更准确的特征,采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数对可形变卷积的偏移量Δp进行变换。将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下。分别对四子区域进行均匀采样,即每个区域分配等额的采样点。通过这种方式,R-DConv操作的空间采样点被分散了,从而能提取包含更多来自边界的信息的特征,能够更准确地回归物***置。设置K=9,函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获。回归偏移量转换函数如公式(7)所示:
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为通道数为4。对Hcorner与2.3.3构建的角点预测真实值计算损失,得到Hcorner和的损失值 的计算是基于修改版的Focal Loss:
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值,是第c通道、像素位置(i,j)的角点预测真实值。辅助任务模块学习定位标注框的四个角点的位置,辅助目标检测网络训练,使提取特征更关注物体角点位置,从而使目标检测***定位物体的位置更准确。
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置Brefine。Brefine的分辨率大小为通道数为4。通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框。对Brefine与2.3.5得到的精细框真实值计算损失 的计算基于GIoU loss:
其中Sb是回归样本集合,由不为0的像素集合组成。Nb是回归样本集合的数量,Wij是对应不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标准框的位置更准确。Brefine的学习质量代表目标检测***回归物***置的准确度。
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter。Hcenter的分辨率大小为通道数为数据集类别数量C。MS COCO数据集的C为80,CityScapes数据集的C为8。将Hcenter与2.2.5.2构建的中心点预测真实值计算损失 的计算基于修改版的Focal Loss:
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。是第c通道、(i,j)像素位置的中心点预测热力图,是第c通道、(i,j)像素位置的中心点预测真实值。Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力。
其中是角点预测网络输出的Hcorner和真实值计算的损失值,是中心点预测网络输出的Hcenter和真实值计算的损失值,是粗略框预测网络输出的Bcoarse和真实值计算的损失值,是精细框预测网络输出的Brefine和真实值计算的损失值。根据重要性令角点预测网络损失权重中心点预测网络损失权重粗略框预测网络损失权重精细框预测网络损失权重
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数。
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数。方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将经过2.4步采用图像缩放标准化方法处理过的新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络。BHVcoarse也是的矩阵,分辨率大小为通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作(2D Max-Pooling),提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-l,pd+d,pr+r}。Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp。Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp;
4.11.3后处理模块保留第v个验证图像Dv中置信度sp大于置信度阈值(一般设置为0.3)的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式(https://cocodataset.org/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式(https://www.cityscapes-dataset.com/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***。
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块。
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络。BIcoarse也是的矩阵,分辨率大小为通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别。
第六步,结束。
选取来自MS COCO数据集的20000测试集数据或来自Cityscapes数据集的1524测试集数据(如第二步所述的测试集划分方式),对本发明进行检测精度AP(AveragePrecision)和运行速度FPS(Frames Per Second)的数值测试,实验环境为Ubuntu20.04(Linux***的一个版本),搭载英特尔i9-10900K系列的中央处理器,处理频率为3.70GHz,另外配有四块英伟达RTX 2080Ti图像处理器,核心频率为1635MHz,显存容量为12GB。对本发明进行测试的一个实施例如图4所示,输入一张待检测图像(图4中的上图,为一张行车过程中拍摄的图像),经过本发明的目标检测***,输出图像预测集合,并进行可视化,生成检测后的可视化图(图4中的下图,为该检测图像的检测结果可视化图,检测框和物体类别已进行标注。如图4下图中①处检测出的“bicycle”、②处检测出的“person”、③处检测出远处的“car”类别,并用矩形框的形式框出)。
首先,定义目标检测算法性能评价指标。本实验采用标准的MS COCO评测方式,拥有6个具体指标:AP、AP50、AP75、APS、APM和APL。AP表示交并比(IoU)值在[0.5,0.95]区间上每隔0.05计算的平均精度(Average Precision,AP),再对所有间隔的AP求平均。AP50和AP75分别表示IoU大于0.5和0.75的AP值。APS、APM和APL分别表示小尺寸物体、中尺寸物体和大尺寸物体的AP,其中尺寸定义范围分别为[0,642]、[642,1282]和[1282,∞]。AP值越大检测精度越高。
根据本发明的实验结果,分别对MS COCO数据集和Cityscapes数据集的实验结果进行分析。
MS COCO数据集目标检测算法性能对比如表1所示。展示了本发明对比经典实时目标检测方法YOLOv3、与本发明最相关的方法CenterNet和TTFNet。从实验结果可知,本发明能快速且准确地进行目标检测。对比CenterNet,以更快的运行速度,约2.2ms,实现了4.4AP的精度提升。对比TTFNet,以少量的速度延迟,约3.15ms,实现了2.5AP的精度提升。在几乎不影响实时性的前提下,实现了较大的精度提升。目标检测算法精度和速度是需要权衡的两个指标,在少量计算负荷下实现较大精度提升在现实应用中是很有意义的。对于精度来说,越高的精度越难以提升,经典的MaskRCNN算法(见文献“He K,Gkioxari G,Dollár P,etal.Mask r-cnn[C]//Proceedings of the IEEE international conference oncomputer vision.2017:2961-2969.”He K,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings of the IEEE international conference on computervision.2017:2961-2969等人的论文:Mask r-cnn)在11FPS下实现了39.8AP的精度,本发明比MaskRCNN快5.45倍,精度高2.0AP。因此,只牺牲约3.15ms的速度延迟(这对于现实应用中是完全可以接收的),就实现了2.5AP的精度提升是较大的精度提升。
表1
方法 | 主干网络 | FPS | AP | <![CDATA[AP<sub>50</sub>]]> | <![CDATA[AP<sub>75</sub>]]> | <![CDATA[AP<sub>S</sub>]]> | <![CDATA[AP<sub>M</sub>]]> | <![CDATA[AP<sub>L</sub>]]> |
YOLOv3 | DarkNet-53 | 48 | 33.4 | 56.3 | 35.2 | 19.5 | 36.4 | 43.6 |
CenterNet | DLA-34 | 53 | 37.4 | 55.1 | 40.8 | 20.6 | 42.0 | 50.6 |
TTFNet | DarkNet-53 | 74 | 39.3 | 56.8 | 42.5 | 20.6 | 43.3 | 54.3 |
本发明 | DarkNet-53 | 60 | 41.8 | 58.7 | 45.3 | 22.7 | 45.6 | 54.9 |
Cityscapes数据集目标检测算法性能对比如表2所示。Cityscapes数据集是经典的智能驾驶场景数据集,本实验以统一的768×384图像为输入,在Cityscapes数据集下比较了TTFNet和本发明方法的性能。TTFNet虽然运行速度比本发明快,但检测精度差距明显(5.8AP)。而且速度延迟只有3.46ms,对于现实应用是完全可以接受的。因此,本发明在运行速度和检测精度上有较好的权衡,以较小的时间开销,实现了较大的精度提升。
表2
方法 | 主干网络 | FPS | AP | <![CDATA[AP<sub>50</sub>]]> | <![CDATA[AP<sub>75</sub>]]> | <![CDATA[AP<sub>S</sub>]]> | <![CDATA[AP<sub>M</sub>]]> | <![CDATA[AP<sub>L</sub>]]> |
TTFNet | DarkNet-53 | 58.7 | 17.2 | 33.9 | 15.6 | 6.4 | 22.5 | 30.1 |
本发明 | DarkNet-53 | 48.8 | 23.0 | 41.7 | 22.1 | 4.3 | 22.1 | 45.2 |
对训练的目标检测***进行可视化分析。如图3所示,本实验对TTFNet和本发明在Cityscapes数据集下进行了可视化分析。图3(a)和图3(b)为TTFNet的检测结果、图3(c)和图3(d)为本发明的检测结果。为方便观察,用箭头表示出了TTFNet检测有误的区域(即图3(a)左边箭头指出的误检测出“bicycle”类,右边箭头指出的检测出多个重叠的假阳性框;图3(b)箭头指出的误将背景区域检测为前景区域)。本发明比TTFNet检测更为准确,拥有更小的误检率,且分类精度也更高(图3(c)对应图3(a)左边箭头处没有出现误检,对应图3(a)右边箭头处也没有检测出多个重叠假阳性框;图3(d)对应图3(b)箭头处没有误将背景区域检测为前景区域)。优秀的可视化结果也证明本发明提出方法的有效性。
Claims (9)
1.一种基于特征自适应聚合的目标检测方法,其特征在于包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***;目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成;
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块;主特征提取模块由一个DarkNet-53卷积神经网络和一个特征金字塔网络组成;DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征;特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块;
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度;特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成;自适应多尺度特征聚合网络由4个权重不共享的SE网络组成,4个SE网络分别记为第一、第二、第三、第四SE网络;从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块;粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络;自适应空间特征聚合网络由分类偏移量转换函数和回归偏移量转换函数的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知;辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确;在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃;
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成;精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块;
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置;通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别;后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框;
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集;即采用MS COCO数据集或Cityscapes数据集中的训练图像作为训练集、验证图像作为验证集、测试图像作为测试集;令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别;
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt;
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签;一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为令第i个标注框的标注类别为ci,代表第i个标注框的左上角点坐标,代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel;
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心,x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值;(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标;(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系;表示二维高斯核在宽方向的方差,表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量;w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数;将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中;将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,yp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为采用2.3.2.4所述二维高斯核生成方法,计算以为二维高斯核的基点,方差为(σx,σy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr;
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到S张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM;
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,即对V张图像进行缩放、标准化,得到由V张缩放标准化后的图像组成的新的验证集DV;
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT;
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数;方法是:
3.1初始化目标检测***中各模块的网络权重参数;采用ImageNet数据集上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数;
3.2设置目标检测***训练参数;包括初始化初始学习率learning_rate衰减系数,选用随机梯度下降作为模型训练优化器,初始化优化器的超参数“动量”,初始化“权重衰减”;初始化网络训练的批次大小mini_batch_size为正整数;初始化最大训练步长maxepoch为正整数;
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值loss,利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束;在最后Nm个训练步,每训练一个训练步,保存一次网络权重参数;方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch;初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像;H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道;
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块;方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即后四个串行子网络的输出的4个特征图,发送给特征金字塔网络;
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为将多尺度特征图发送给特征自适应聚合模块;
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收采用自适应多尺度特征聚合方法对进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH;FH的特征图分辨率为FH的特征图通道数为64;具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对进行并行通道自注意力增强,即第一SE网络对施加在通道上的加权求和,得到第一通道表征增强后的图像同时第二SE网络对施加在通道上的加权求和,得到第二通道表征增强后的图像同时第三SE网络对施加在通道上的加权求和,得到第三通道表征增强后的图像
3.3.4.1.3自适应多尺度特征聚合网络对采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为的软权重图软权重图的像素点的数值大小表明应更关注这3个尺度中的哪一个,即中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图;
3.3.4.1.4自适应多尺度特征聚合网络将第lvl个尺度的权重图与对应的第lvl个上采样后的特征图逐元素乘,即将与对应逐元素乘,将与对应逐元素乘,与分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH;具体过程如公式(3)所示:
其中SE4为第四SE网络,表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积;自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络;
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是的矩阵,分辨率大小为通道数为4;通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框;Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围;并且,对Bcoarse与2.2.5.4构建的粗略框真实值计算损失
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS;方法是:
3.3.4.3.1设计区域受限的可形变卷积R-Dconv,方法是:
3.3.4.3.1.1设计偏移量转换函数对可形变卷积的偏移量Δp进行变换,得到变换后的偏移量;限制可形变卷积的空间采样点的偏移范围在Bcoarse内,同时也使可形变卷积的偏移量Δp可微分;采用Sigmoid函数对Bcoarse内的偏移量Δp进行归一化,使Δp在[0,1]区间内;将Δp拆分为hΔp和wΔp,hΔp表示Δp在垂直方向的偏移,wΔp表示Δp在水平方向的偏移;如公式(5)所示:
3.3.4.3.1.2利用限制可形变卷积采样区域;给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量;Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围;令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图;采用R-DConv计算y(p),如公式(6)所示:
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重;Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道为Δmk的值;Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域;
3.3.4.3.2采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.2采用利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS;允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域;令使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块;
3.3.4.3.3采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数对可形变卷积的偏移量Δp进行变换;将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下;分别对四子区域进行均匀采样,即每个区域分配等额的采样点;设置K=9,函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获;回归偏移量转换函数如公式(7)所示:
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为通道数为4;对Hcorner与2.3.3构建的角点预测真实值计算损失,得到Hcorner和的损失值
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置BrefIne;BrefIne的分辨率大小为通道数为4;通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框;对Brefine与2.3.5得到的精细框真实值计算损失
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter;Hcenter的分辨率大小为通道数为数据集类别数量C;将Hcenter与2.2.5.2构建的中心点预测真实值计算损失
其中Ns是该图像标注框的数量,αl和β是超参数,是第c通道、(i,j)像素位置的中心点预测热力图,是第c通道、(i,j)像素位置的中心点预测真实值;Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力;
其中是角点预测网络输出的Hcorner和真实值计算的损失值,是中心点预测网络输出的Hcenter和真实值计算的损失值,是粗略框预测网络输出的Bcoarse和真实值计算的损失值,是精细框预测网络输出的Brefine和真实值计算的损失值;为角点预测网络损失权重,为中心点预测网络损失权重,为粗略框预测网络损失权重,为精细框预测网络损失权重;
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数;
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数;方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络;BHVcoarse也是 的矩阵,分辨率大小为通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作,提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-l,pd+d,pr+r};Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp;Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp;
4.11.3后处理模块保留第v个验证图像Dv中置信度sD大于置信度阈值的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***;
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络;BIcoarse也是的矩阵,分辨率大小为通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别;
第六步,结束。
2.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.1步所述MS COCO数据集拥有80个类别,包含105000张训练图像作为训练集、5000张验证图像作为验证集和20000张测试图像作为测试集;Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集;S为205000或2975,T为20000或1524,V为5000或500。
3.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.2步所述对训练集中S张图像进行优化处理,得到优化后的训练集Dt的方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比采用的最小尺寸比为0.3;
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32;
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5);
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5);
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中;
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt。
4.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.3.2.4.3步所述二维高斯核中心是B′si的中心或是B si的角点,α设置为0.54。
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
6.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.4步所述采用图像缩放标准化方法对验证集中V张图像进行优化处理的方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像;
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV。
7.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于第三步所述初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数是采用均值为0,方差为0.01的正态分布初始化;初始学习率learning_rate初始化为0.01,衰减系数初始化为0.1,优化器的超参数“动量”初始化为0.9,“权重衰减”初始化为0.0004;网络训练的批次大小mini_batch_size初始化为64;最大训练步长maxepoch初始化为120。
9.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于4.11.3步所述置信度阈值设置为0.3。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219905.9A CN115631344B (zh) | 2022-10-06 | 2022-10-06 | 一种基于特征自适应聚合的目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211219905.9A CN115631344B (zh) | 2022-10-06 | 2022-10-06 | 一种基于特征自适应聚合的目标检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115631344A CN115631344A (zh) | 2023-01-20 |
CN115631344B true CN115631344B (zh) | 2023-05-09 |
Family
ID=84905182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211219905.9A Active CN115631344B (zh) | 2022-10-06 | 2022-10-06 | 一种基于特征自适应聚合的目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115631344B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116052026B (zh) * | 2023-03-28 | 2023-06-09 | 石家庄铁道大学 | 一种无人机航拍图像目标检测方法、***及存储介质 |
CN117152083B (zh) * | 2023-08-31 | 2024-04-09 | 哈尔滨工业大学 | 一种基于类别激活映射的探地雷达道路病害图像预测可视化方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821357A (zh) * | 2022-04-24 | 2022-07-29 | 中国人民解放军空军工程大学 | 一种基于transformer的光学遥感目标检测方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135267B (zh) * | 2019-04-17 | 2020-09-25 | 电子科技大学 | 一种大场景sar图像细微目标检测方法 |
CN111475650B (zh) * | 2020-04-02 | 2023-04-07 | 中国人民解放军国防科技大学 | 一种俄语语义角色标注方法、***、装置以及存储介质 |
CN112418268A (zh) * | 2020-10-22 | 2021-02-26 | 北京迈格威科技有限公司 | 目标检测方法、装置及电子设备 |
CN113158862B (zh) * | 2021-04-13 | 2023-08-22 | 哈尔滨工业大学(深圳) | 一种基于多任务的轻量级实时人脸检测方法 |
CN114841244B (zh) * | 2022-04-05 | 2024-03-12 | 西北工业大学 | 一种基于鲁棒采样和混合注意力金字塔的目标检测方法 |
-
2022
- 2022-10-06 CN CN202211219905.9A patent/CN115631344B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821357A (zh) * | 2022-04-24 | 2022-07-29 | 中国人民解放军空军工程大学 | 一种基于transformer的光学遥感目标检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115631344A (zh) | 2023-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188705B (zh) | 一种适用于车载***的远距离交通标志检测识别方法 | |
CN109584248B (zh) | 基于特征融合和稠密连接网络的红外面目标实例分割方法 | |
CN106845487B (zh) | 一种端到端的车牌识别方法 | |
CN115631344B (zh) | 一种基于特征自适应聚合的目标检测方法 | |
US20210081695A1 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
CN110782420A (zh) | 一种基于深度学习的小目标特征表示增强方法 | |
CN114359851A (zh) | 无人驾驶目标检测方法、装置、设备及介质 | |
CN104299006A (zh) | 一种基于深度神经网络的车牌识别方法 | |
US11615612B2 (en) | Systems and methods for image feature extraction | |
CN112990065B (zh) | 一种基于优化的YOLOv5模型的车辆分类检测方法 | |
CN116188999B (zh) | 一种基于可见光和红外图像数据融合的小目标检测方法 | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN111461213A (zh) | 一种目标检测模型的训练方法、目标快速检测方法 | |
CN113723377A (zh) | 一种基于ld-ssd网络的交通标志检测方法 | |
CN113657409A (zh) | 车辆损失检测方法、装置、电子设备及存储介质 | |
CN112287859A (zh) | 物体识别方法、装置和***,计算机可读存储介质 | |
CN117058646B (zh) | 基于多模态融合鸟瞰图的复杂道路目标检测方法 | |
CN112395962A (zh) | 数据增广方法及装置、物体识别方法及*** | |
CN110909656B (zh) | 一种雷达与摄像机融合的行人检测方法和*** | |
US20070223785A1 (en) | Image processor and method | |
CN111062347B (zh) | 一种自动驾驶中交通要素分割方法、电子设备及存储介质 | |
CN114764856A (zh) | 图像语义分割方法和图像语义分割装置 | |
CN115995042A (zh) | 一种视频sar运动目标检测方法及装置 | |
CN113743163A (zh) | 交通目标识别模型训练方法、交通目标定位方法、装置 | |
CN115641584B (zh) | 一种雾天图像识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |