CN115631344B - 一种基于特征自适应聚合的目标检测方法 - Google Patents

一种基于特征自适应聚合的目标检测方法 Download PDF

Info

Publication number
CN115631344B
CN115631344B CN202211219905.9A CN202211219905A CN115631344B CN 115631344 B CN115631344 B CN 115631344B CN 202211219905 A CN202211219905 A CN 202211219905A CN 115631344 B CN115631344 B CN 115631344B
Authority
CN
China
Prior art keywords
feature
network
image
prediction
adaptive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211219905.9A
Other languages
English (en)
Other versions
CN115631344A (zh
Inventor
陈微
何玉麟
罗馨
李晨
姚泽欢
汤明鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211219905.9A priority Critical patent/CN115631344B/zh
Publication of CN115631344A publication Critical patent/CN115631344A/zh
Application granted granted Critical
Publication of CN115631344B publication Critical patent/CN115631344B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于特征自适应聚合的目标检测方法,目的是解决现有实时目标检测方法检测精度有待提高的问题。技术方案是:构建由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成的基于特征自适应聚合的目标检测***;准备目标检测***所需的数据集并通过数据增强技术对训练集图像数据进行优化;采用训练集对目标检测***进行训练,辅助任务模块辅助网络训练;然后对训练后的目标检测***进行验证,选择性能最优异的模型参数,得到性能最优异的训练后目标检测***;最后采用性能最优异的训练后目标检测***对用户输入图像进行目标检测,得到目标的位置和类别。本发明以较小的时间开销,实现了较大的精度提升。

Description

一种基于特征自适应聚合的目标检测方法
技术领域
本发明涉及图像识别目标检测领域,具体涉及一种优化目标检测精度的基于特征自适应聚合的目标检测方法。
背景技术
目标检测是计算机视觉的重要任务之一,拥有如智能安防、智能机器人、智能交通等众多应用。随着人工智能和深度学习的发展,目标检测技术的性能得到了显著的提升。目标检测方法的性能评价一般有精确性和实时性两个方面,前者反映方法的检测准确度,后者反映方法的处理速度。对于如人脸检测、车辆检测、行人检测等任务来说,实时性也是衡量目标检测方法性能的重要指标。在现实应用中,需要在较短的时间内,完成对输入图像的检测,否则就会造成延迟过高的情况,轻则使用户体验欠佳,重则导致出现如车祸等严重交通事故。
现有的实时目标检测方法一般分为两大类:anchor-base方法和anchor-free方法。Anchor-base方法生成预定义遍布全图的先验框,并提取先验框特征完成分类和回归任务。但因anchor-base方法的预定义先验框需要人工设置超参数,且对不同数据集长宽比、大小等均不一样,因此泛化能力较弱,而且该方法较anchor-free方法也更为复杂,实时性上略显不足。Anchor-free方法无需预定义先验框,直接提取特征图像素点特征完成分类和回归任务。Anchor-free方法在速度和泛化性上更占优势,但该方法的精度却受限于表征能力较弱的点特征。
文献“Zhou X,Wang D.Objects as points[J].arXiv preprint arXiv:1904.07850,2019.”(CenterNet)介绍了一种基于anchor-free的实时目标检测方法,其利用关键点检测的思想,为每一个物体生成一个高斯核,用于定位物体的中心点位置,再利用回归分支预测物体框的长和宽。CenterNet实现了简单的模型结构,运行速度快,但需要长时间的训练,才能使模型收敛。文献“Liu Z,Zheng T,Xu G,et al.Training-time-friendly network for real-time object detection[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11685-11692.”(TTFNet)针对CenterNet训练时间长的问题,设置了范围更广的高斯核,并将更多的像素点视为训练样本,增大了训练样本的数量,使模型更容易收敛。该方法不再只定位物体中心点,而是将物体高斯核区域的任意一点都视为预测基点,再利用回归分支预测预测基点到预测框上、下、左、右四个方向的距离。经过上述改进,减少了训练时间且精度有所提升。
上述两种anchor-free方法在速度和泛化性上实现了较大的性能优势,但因为没有考虑到像素点特征能力不足,且分类、回归分支耦合度较高这些影响精度的关键问题,在精度上比起anchor-base方法仍较低。
如何提高目标检测方法中特征表征能力不足,提高准确度仍然是本领域技术人员极为关注的技术问题。
发明内容
本发明要解决的技术问题是针对现有的实时目标检测方法特征表征能力不足、分类和回归分支特征耦合度较高、检测精度有待提高的问题,提出一种基于特征自适应聚合的目标检测方法。在不影响实时性的前提下,利用自适应特征聚合技术,增加少量计算量,缓解特征表征能力不足、分类和回归分支特征耦合度较高的问题,提升目标检测精度。
为解决上述技术问题,本发明技术方案是:构建基于特征自适应聚合的目标检测***。该***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。准备、构建目标检测***所需的数据集,将数据集划分为训练集、验证集和测试集。通过数据增强技术对训练集图像数据进行随机裁剪、随机翻转、随机平移、随机亮度、饱和度、对比度变化处理、标准化处理,增强训练数据多样性。对验证集和测试集只采用尺寸缩放和标准化处理,保持原图像的视觉线索。然后采用训练集对目标检测***中的主特征提取模块、特征自适应聚合模块、辅助任务模块和主任务模块进行训练。训练时辅助任务模块辅助网络训练,目的是增强目标检测网络对物体角点位置的关注,提升定位准确性。在一轮训练结束后,使用验证集对训练后的目标检测***进行测试,选择性能最优异的模型参数,赋值到目标检测***中的可训练模块(主特征提取模块、特征自适应聚合模块、主任务模块)中,得到性能最优异的训练后的目标检测***;最后采用性能最优异的训练后的目标检测***对用户输入的图像进行目标检测,得到目标的位置和类别。
本发明技术方案包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***。如图1所示,目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络(见文献“Redmon J,Farhadi A.Yolov3:Anincremental improvement[J].arXiv preprint arXiv:1804.02767,2018.”Redmon J,Farhadi A等人的论文:Yolov3)和一个特征金字塔网络(见文献“Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:2117-2125.”Lin T Y,Dollár P,Girshick R等人的论文:特征金字塔网络用于目标检测)组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块。
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE(Squeeze-and-excitation)网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成,从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块,不仅使主任务模块拥有自适应空间感知能力,还缓解输入特征耦合度高影响检测精度的问题。
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知。辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确。在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃,不增加额外计算量。
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成。精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块。
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置。通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别。后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框。
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:
使用MS COCO公开的通用场景数据集(见文献“Tsung-Yi Lin,Michael Maire,Serge Belongie,James Hays,Pietro Perona,Deva Ramanan,Piotr Dollar,and CLawrence′Zitnick.Microsoft coco:Common objects in context.In ECCV,2014.”Tsung-Yi Lin,Michael Maire等人的论文:Microsoft coco:情景中的常见物体)或Cityscapes无人驾驶场景数据集(见文献“Cordts M,Omran M,Ramos S,et al.TheCityscapes Dataset for Semantic Urban Scene Understanding[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2016.”CordtsM,Omran M等人的论文:Cityscapes数据集语义城市场景理解)作为目标检测数据集。MSCOCO数据集拥有80个类别,包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,S为205000或2975,T为20000或1524,V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别。
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt,方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比(IoU)对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比(IoU)采用的最小尺寸比为0.3。
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32。
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5)。
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5)。
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中。
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt,转2.3。
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签。一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为
Figure BDA0003876971850000051
令第i个标注框的标注类别为ci
Figure BDA0003876971850000052
代表第i个标注框的左上角点坐标,
Figure BDA0003876971850000053
代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns
2.3.2构建中心点预测任务的中心点预测真实值
Figure BDA0003876971850000054
方法是:
2.3.2.1构建一个大小为
Figure BDA0003876971850000055
的全零矩阵图Hzeros,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,如MS COCO数据集为80类、Cityscapes数据集为19类,H是第s张图像的高,W是第s张图像的宽;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.3将
Figure BDA0003876971850000056
标注坐标除以4,记为下采样4倍的标注框
Figure BDA0003876971850000057
Figure BDA0003876971850000058
Figure BDA0003876971850000059
代表Bsi′的左上、右上、左下、右下角点位置。
2.3.2.4采用二维高斯核生成方法,计算以Bsi′的中心点
Figure BDA00038769718500000510
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的全部像素点的高斯值,得到第一高斯值集合Sctr。具体步骤为:
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
Figure BDA00038769718500000511
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心(可以是B′si的中心也可以是B′si的角点),x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值。(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标。(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系。
Figure BDA00038769718500000512
表示二维高斯核在宽方向的方差,
Figure BDA00038769718500000513
表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量。w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数,设置为0.54。将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中。将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,yp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.2.7令第s张图像的中心点预测真实值
Figure BDA0003876971850000061
2.3.3构建角点预测任务的角点预测真实值
Figure BDA0003876971850000062
方法是:
2.3.3.1构建一个大小为
Figure BDA0003876971850000063
的全零矩阵
Figure BDA0003876971850000064
“4”表示下采样4倍的标注框的角点数量4,也表示矩阵的4个通道;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为
Figure BDA0003876971850000065
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA0003876971850000066
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl
2.3.3.4将Stl中的元素坐标和高斯值赋值到
Figure BDA0003876971850000067
的第1个通道中,即按照
Figure BDA0003876971850000068
的规则赋值;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为
Figure BDA0003876971850000069
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA00038769718500000610
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str
2.3.3.6将Str中的元素坐标和高斯值赋值到
Figure BDA00038769718500000611
的第2个通道中,即按照
Figure BDA00038769718500000612
的规则赋值;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为
Figure BDA00038769718500000613
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA00038769718500000614
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl
2.3.3.8将Sdl中的元素坐标和高斯值赋值到
Figure BDA00038769718500000615
的第3个通道中,按照
Figure BDA00038769718500000616
的规则赋值;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为
Figure BDA00038769718500000617
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA00038769718500000618
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr
2.3.3.10将Sdr中的元素坐标和高斯值赋值到
Figure BDA00038769718500000619
的第4个通道中,即按照
Figure BDA00038769718500000620
的规则赋值;
2.3.3.11令i=i+1,若i≤Ns,转2.3.3.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到
Figure BDA00038769718500000621
中,转2.3.3.12;
2.3.3.12令第s张图像的角点预测真实值
Figure BDA00038769718500000622
2.3.4根据第s张图像的Ns个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值
Figure BDA0003876971850000071
方法是:
2.3.4.1构建一个大小为
Figure BDA0003876971850000072
的全零矩阵
Figure BDA0003876971850000073
“4”表示下采样4倍的标注框的4个坐标;
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
2.3.4.3对Hzeros在第i个下采样4倍的标注框Bsi′内部的像素点进行赋值,即将Bsi′坐标值
Figure BDA0003876971850000074
赋值到
Figure BDA0003876971850000075
的像素位置的4个通道中;
2.3.4.4令i=i+1,若i≤Ns,转2.3.4.3;若i>Ns,说明第s张图像的Ns个标注框对应的粗略框真实值已赋值到
Figure BDA0003876971850000076
中,赋了值的
Figure BDA0003876971850000077
成为第s张图像的真值标签,转2.3.4.5;
2.3.4.5令第s张图像的粗略框真实值
Figure BDA0003876971850000078
2.3.5根据
Figure BDA0003876971850000079
构建精细框预测任务的精细框真实值
Figure BDA00038769718500000710
Figure BDA00038769718500000711
值与
Figure BDA00038769718500000712
相等,即
Figure BDA00038769718500000713
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到S张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,得到由V张缩放标准化后的图像组成的新的验证集DV,方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像。
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV,转2.5。
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数。方法是:
3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https://www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;采用均值为0,方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。
3.2设置目标检测***训练参数。设置初始学习率learning_rate为0.01,设置学习率衰减系数为0.1,即学习率缩小10倍(在训练步长为80和110时进行衰减)。选用随机梯度下降(SGD)作为模型训练优化器,该优化器的超参数“动量”为0.9,“权重衰减”为0.0004。网络训练的批次大小(mini_batch_size)为64。最大训练步长(maxepoch)为120。
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss),利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束。在最后Nm(一般为10)个训练步,每训练一轮,保存一次网络权重参数。
方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch,初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像。其中的H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道。
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块。方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即4个特征图(后四个串行子网络的输出),发送给特征金字塔网络。
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为
Figure BDA0003876971850000081
将多尺度特征图
Figure BDA0003876971850000082
发送给特征自适应聚合模块。
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图
Figure BDA0003876971850000083
生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块。方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收
Figure BDA0003876971850000084
采用自适应多尺度特征聚合方法对
Figure BDA0003876971850000085
进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH。FH的特征图分辨率为
Figure BDA0003876971850000086
FH的特征图通道数为64。具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对
Figure BDA0003876971850000087
进行并行通道自注意力增强,即第一SE网络对
Figure BDA0003876971850000088
施加在通道上的加权求和,得到第一通道表征增强后的图像
Figure BDA0003876971850000089
同时第二SE网络对
Figure BDA00038769718500000810
施加在通道上的加权求和,得到第二通道表征增强后的图像
Figure BDA00038769718500000811
同时第三SE网络对
Figure BDA00038769718500000812
施加在通道上的加权求和,得到第三通道表征增强后的图像
Figure BDA00038769718500000813
3.3.4.1.2自适应多尺度特征聚合网络的第一、第二、第三SE网络并行采用双线性插值将
Figure BDA0003876971850000091
上采样到相同的分辨率大小
Figure BDA0003876971850000092
得到上采样后的特征图
Figure BDA0003876971850000093
成为上采样后的特征图集合
Figure BDA0003876971850000094
具体计算过程如公式(2)所示:
Figure BDA0003876971850000095
其中SEn表示第n个SE网络,
Figure BDA0003876971850000096
表示第l个多尺度特征图,Upsample表示双线性插值上采样,1≤l≤3,1≤n≤3。
3.3.4.1.3自适应多尺度特征聚合网络对
Figure BDA0003876971850000097
采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为
Figure BDA0003876971850000098
的软权重图
Figure BDA0003876971850000099
软权重图的像素点的数值大小表明应更关注
Figure BDA00038769718500000910
这3个尺度中的哪一个,即
Figure BDA00038769718500000911
中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图。
3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图
Figure BDA00038769718500000912
与对应的第l个上采样后的特征图
Figure BDA00038769718500000913
逐元素乘,即将
Figure BDA00038769718500000914
Figure BDA00038769718500000915
对应逐元素乘,将
Figure BDA00038769718500000916
Figure BDA00038769718500000917
对应逐元素乘,
Figure BDA00038769718500000918
Figure BDA00038769718500000919
分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH。具体过程如公式(3)所示:
Figure BDA00038769718500000920
其中SE4为第四SE网络,
Figure BDA00038769718500000921
表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积。自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络。
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是
Figure BDA00038769718500000922
的矩阵,分辨率大小为
Figure BDA00038769718500000923
通道数为4。通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框。Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围。并且,对Bcoarse与2.2.5.4构建的粗略框真实值
Figure BDA00038769718500000924
计算损失
Figure BDA00038769718500000925
Figure BDA00038769718500000926
的损失计算是基于GIoU loss(见文献“Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalizedintersection over union:A metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:658-666.”Rezatofighi H,Tsoi N等人的论文:广义交并比:边界框回归的度量和损失):
Figure BDA00038769718500000927
其中Sb是回归样本集合,由
Figure BDA00038769718500000928
不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应
Figure BDA00038769718500000929
不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标注框的位置更准确。
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS。方法是:
3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。可形变卷积(DConv)(见文献“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:9308-9316.”Zhu X,Hu H等人的论文:Deformable convnets v2:更易变形,更好的结果)因自适应稀疏采样的特性常被用于增强特征的空间感知能力,但其采样范围未加以限制,导致采样点容易过分偏移,且对于不同大小的物体,自适应学习采样最具代表性特征点的难度不一致,导致对于不同大小物体检测的适应性较差,因此本发明设计区域受限的可形变卷积(R-DConv)以增强适应性。具体方法是:
3.3.4.3.1.1设计偏移量转换函数
Figure BDA0003876971850000101
对可形变卷积的偏移量Δp(Δp为基于特征点的可学***方向的偏移。
Figure BDA0003876971850000105
如公式(5)所示:
Figure BDA0003876971850000106
Figure BDA0003876971850000107
其中
Figure BDA0003876971850000108
表示在垂直方向的偏移量转换函数,
Figure BDA0003876971850000109
表示在水平方向的偏移量转换函数,总体的偏移量转换函数
Figure BDA00038769718500001010
(t,l,r,d)是卷积核位置p与Bcoarse的上下左右四个方向的距离。
3.3.4.3.1.2利用
Figure BDA00038769718500001011
限制可形变卷积采样区域。给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量。Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围。令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图。采用R-DConv计算y(p),如公式(6)所示:
Figure BDA00038769718500001012
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重。Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道(代表不同偏移值特征的权重)为Δmk的值。Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域。
3.3.4.3.2为使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.1令分类偏移量转换函数
Figure BDA0003876971850000111
用公式(6)计算得到位置p处的输出特征ycls(p)。
3.3.4.3.2.2采用
Figure BDA0003876971850000112
利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS
Figure BDA0003876971850000113
允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域。因此,令
Figure BDA0003876971850000114
使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块。
3.3.4.3.3为使R-DConv在粗略框范围内学习物体的边界区域信息,提取使物***置回归更准确的特征,采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数
Figure BDA0003876971850000115
对可形变卷积的偏移量Δp进行变换。
Figure BDA0003876971850000116
将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下。
Figure BDA0003876971850000117
分别对四子区域进行均匀采样,即每个区域分配等额的采样点。通过这种方式,R-DConv操作的空间采样点被分散了,从而能提取包含更多来自边界的信息的特征,能够更准确地回归物***置。设置K=9,
Figure BDA0003876971850000118
函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获。回归偏移量转换函数
Figure BDA0003876971850000119
如公式(7)所示:
Figure BDA00038769718500001110
Figure BDA00038769718500001111
为对粗略框区间内的偏移量进行归一化的Sigmoid函数,通过归一化可平衡不同大小物体的采样难度。
Figure BDA00038769718500001112
代入公式(6)中的
Figure BDA00038769718500001113
得到位置p处的输出特征yreg(p)。因此
Figure BDA00038769718500001114
使R-DConv在粗略框范围内学习物体边界的区域,提取使预测框回归位置更准确的特征,即边界区域感知的高像素特征图FHR
3.3.4.3.3.2采用
Figure BDA00038769718500001115
利用卷积核遍历FH,得到边界区域感知的高像素特征图FHR,将FHR发送给主任务模块。
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为
Figure BDA00038769718500001116
通道数为4。对Hcorner与2.3.3构建的角点预测真实值
Figure BDA00038769718500001117
计算损失,得到Hcorner
Figure BDA0003876971850000121
的损失值
Figure BDA0003876971850000122
Figure BDA0003876971850000123
的计算是基于修改版的Focal Loss(见文献“Law H,DengJ.Cornernet:Detecting objects as paired keypoints[C]//Proceedings of theEuropean conference on computer vision(ECCV).2018:734-750.”Law H,Deng J等人的论文:Cornernet:用成对的关键点检测物体):
Figure BDA0003876971850000124
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。
Figure BDA0003876971850000125
是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值,
Figure BDA0003876971850000126
是第c通道、像素位置(i,j)的角点预测真实值。辅助任务模块学习定位标注框的四个角点的位置,辅助目标检测网络训练,使提取特征更关注物体角点位置,从而使目标检测***定位物体的位置更准确。
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置Brefine。Brefine的分辨率大小为
Figure BDA0003876971850000127
通道数为4。通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框。对Brefine与2.3.5得到的精细框真实值
Figure BDA0003876971850000128
计算损失
Figure BDA0003876971850000129
Figure BDA00038769718500001210
的计算基于GIoU loss:
Figure BDA00038769718500001211
其中Sb是回归样本集合,由
Figure BDA00038769718500001212
不为0的像素集合组成。Nb是回归样本集合的数量,Wij是对应
Figure BDA00038769718500001213
不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标准框的位置更准确。Brefine的学习质量代表目标检测***回归物***置的准确度。
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter。Hcenter的分辨率大小为
Figure BDA00038769718500001214
通道数为数据集类别数量C。MS COCO数据集的C为80,CityScapes数据集的C为8。将Hcenter与2.2.5.2构建的中心点预测真实值
Figure BDA00038769718500001215
计算损失
Figure BDA00038769718500001216
Figure BDA00038769718500001217
的计算基于修改版的Focal Loss:
Figure BDA00038769718500001218
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。
Figure BDA00038769718500001219
是第c通道、(i,j)像素位置的中心点预测热力图,
Figure BDA00038769718500001220
是第c通道、(i,j)像素位置的中心点预测真实值。Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力。
3.3.8设计目标检测***的总损失函数
Figure BDA00038769718500001221
如公式(11)所示:
Figure BDA00038769718500001222
其中
Figure BDA00038769718500001223
是角点预测网络输出的Hcorner和真实值
Figure BDA00038769718500001224
计算的损失值,
Figure BDA00038769718500001225
是中心点预测网络输出的Hcenter和真实值
Figure BDA0003876971850000131
计算的损失值,
Figure BDA0003876971850000132
是粗略框预测网络输出的Bcoarse和真实值
Figure BDA0003876971850000133
计算的损失值,
Figure BDA0003876971850000134
是精细框预测网络输出的Brefine和真实值
Figure BDA0003876971850000135
计算的损失值。根据重要性令角点预测网络损失权重
Figure BDA0003876971850000136
中心点预测网络损失权重
Figure BDA0003876971850000137
粗略框预测网络损失权重
Figure BDA0003876971850000138
精细框预测网络损失权重
Figure BDA0003876971850000139
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数。
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数。方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将经过2.4步采用图像缩放标准化方法处理过的新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络。BHVcoarse也是
Figure BDA00038769718500001310
的矩阵,分辨率大小为
Figure BDA00038769718500001311
通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作(2D Max-Pooling),提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-1,pd+d,pr+r}。Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp。Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp
4.11.3后处理模块保留第v个验证图像Dv中置信度sp大于置信度阈值(一般设置为0.3)的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式(https://cocodataset.org/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式(https://www.cityscapes-dataset.com/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***。
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块。
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络。BIcoarse也是
Figure BDA0003876971850000151
的矩阵,分辨率大小为
Figure BDA0003876971850000152
通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别。
第六步,结束。
采用本发明能达到以下有益的效果:
本发明提出了一种基于特征自适应聚合的目标检测方法。本发明采用自适应多尺度特征聚合网络和自适应空间特征聚合网络,以少量计算开销,实现较大的精度提升。本发明适用于绝大多数基于图像的目标检测。采用本发明能取得以下效果:
1.本发明构建了一个融合了主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块的目标检测***,在保证目标检测方法较快实时性的基础上,利用自适应多尺度特征聚合模块的通道自注意力增强、尺度级别软权重聚合和自适应空间特征聚合模块的可形变卷积的自适应特征聚合能力,设计适合目标检测的聚合方式和网络结构,实现了较大的检测精度提升。通过采用MS COCO和Cityscapes数据集对本发明进行实验,本发明的检测精度较背景技术所述的CenterNet和TTFNet有较大提高。
2.本发明的自适应多尺度特征聚合网络利用SE模块增强特征通道表征能力,利用尺度级别的软权重图增强特征的多尺度表征能力;本发明的自适应空间特征聚合网络利用粗略框限定可形变卷积空间采样的范围,缓解其过度偏移的问题,并针对中心点预测任务和精细框预测网络设计不同的偏移量转换函数,使回归任务关注物体边界区域,分类任务关注物体显著性区域,缓解分类和回归任务特征耦合问题,能实现较大的检测精度提升。
附图说明
图1为本发明第一步构建的目标检测***的逻辑结构图。
图2为本发明总体流程图。
图3为本发明检测结果与TTFNet方法结果的比较图。
图4为对本发明效果进行的测试时的检测图像示例图。
具体实施方式
下面结合附图对本发明具体实例进行说明。如图2所示,本发明包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***。如图1所示,目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块。
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成,从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块,不仅使主任务模块拥有自适应空间感知能力,还缓解输入特征耦合度高影响检测精度的问题。
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知。辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确。在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃,不增加额外计算量。
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成。精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块。
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置。通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别。后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框。
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:
使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集。MS COCO数据集拥有80个类别,包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,S为205000或2975,T为20000或1524,V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别。
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt,方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比(IoU)对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比(IoU)采用的最小尺寸比为0.3。
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32。
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5)。
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5)。
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中。
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt,转2.3。
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签。一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为
Figure BDA0003876971850000181
令第i个标注框的标注类别为ci
Figure BDA0003876971850000182
代表第i个标注框的左上角点坐标,
Figure BDA0003876971850000183
代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns
2.3.2构建中心点预测任务的中心点预测真实值
Figure BDA0003876971850000184
方法是:
2.3.2.1构建一个大小为
Figure BDA0003876971850000185
的全零矩阵图Hzeros,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,如MS COCO数据集为80类、Cityscapes数据集为19类,H是第s张图像的高,W是第s张图像的宽;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.3将
Figure BDA0003876971850000191
标注坐标除以4,记为下采样4倍的标注框
Figure BDA0003876971850000192
Figure BDA0003876971850000193
Figure BDA0003876971850000194
代表Bsi′的左上、右上、左下、右下角点位置。
2.3.2.4采用二维高斯核生成方法,计算以Bsi′的中心点
Figure BDA0003876971850000195
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的全部像素点的高斯值,得到第一高斯值集合Sctr。具体步骤为:
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
Figure BDA0003876971850000196
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心(可以是B′si的中心也可以是B′si的角点),x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值。(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标。(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系。
Figure BDA0003876971850000197
表示二维高斯核在宽方向的方差,
Figure BDA0003876971850000198
表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量。w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数,设置为0.54。将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中。将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,xp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.2.7令第s张图像的中心点预测真实值
Figure BDA0003876971850000199
2.3.3构建角点预测任务的角点预测真实值
Figure BDA00038769718500001910
方法是:
2.3.3.1构建一个大小为
Figure BDA00038769718500001911
的全零矩阵
Figure BDA00038769718500001912
“4”表示下采样4倍的标注框的角点数量4,也表示矩阵的4个通道;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为
Figure BDA00038769718500001913
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA0003876971850000201
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl
2.3.3.4将Stl中的元素坐标和高斯值赋值到
Figure BDA0003876971850000202
的第1个通道中,即按照
Figure BDA0003876971850000203
的规则赋值;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为
Figure BDA0003876971850000204
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA0003876971850000205
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str
2.3.3.6将Str中的元素坐标和高斯值赋值到
Figure BDA0003876971850000206
的第2个通道中,即按照
Figure BDA0003876971850000207
的规则赋值;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为
Figure BDA0003876971850000208
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA0003876971850000209
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl
2.3.3.8将Sdl中的元素坐标和高斯值赋值到
Figure BDA00038769718500002010
的第3个通道中,按照
Figure BDA00038769718500002011
的规则赋值;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为
Figure BDA00038769718500002012
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure BDA00038769718500002013
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr
2.3.3.10将Sdr中的元素坐标和高斯值赋值到
Figure BDA00038769718500002014
的第4个通道中,即按照
Figure BDA00038769718500002015
的规则赋值;
2.3.3.11令i=i+1,若i≤Ns,转2.3.3.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到
Figure BDA00038769718500002016
中,转2.3.3.12;
2.3.3.12令第s张图像的角点预测真实值
Figure BDA00038769718500002017
2.3.4根据第s张图像的Ns个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值
Figure BDA00038769718500002018
方法是:
2.3.4.1构建一个大小为
Figure BDA00038769718500002019
的全零矩阵
Figure BDA00038769718500002020
“4”表示下采样4倍的标注框的4个坐标;
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
2.3.4.3对Hzeros在第i个下采样4倍的标注框Bsi′内部的像素点进行赋值,即将Bsi′坐标值
Figure BDA00038769718500002021
赋值到
Figure BDA00038769718500002022
的像素位置的4个通道中;
2.3.4.4令i=i+1,若i≤Ns,转2.3.4.3;若i>Ns,说明第s张图像的Ns个标注框对应的粗略框真实值已赋值到
Figure BDA00038769718500002023
中,赋了值的
Figure BDA00038769718500002024
成为第s张图像的真值标签,转2.3.4.5;
2.3.4.5令第s张图像的粗略框真实值
Figure BDA00038769718500002025
2.3.5根据
Figure BDA00038769718500002026
构建精细框预测任务的精细框真实值
Figure BDA00038769718500002027
Figure BDA00038769718500002028
值与
Figure BDA00038769718500002029
相等,即
Figure BDA00038769718500002030
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到s张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,得到由V张缩放标准化后的图像组成的新的验证集DV,方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像。
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV,转2.5。
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数。方法是:
3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https://www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;采用均值为0,方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。
3.2设置目标检测***训练参数。设置初始学习率learning_rate为0.01,设置学习率衰减系数为0.1,即学习率缩小10倍(在训练步长为80和110时进行衰减)。选用随机梯度下降(SGD)作为模型训练优化器,该优化器的超参数“动量”为0.9,“权重衰减”为0.0004。网络训练的批次大小(mini_batch_size)为64。最大训练步长(maxepoch)为120。
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss),利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束。在最后Nm(本实施例设置为10)个训练步,每训练一轮,保存一次网络权重参数。方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch,初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像。其中的H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道。
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块。方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即4个特征图(后四个串行子网络的输出),发送给特征金字塔网络。
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为
Figure BDA0003876971850000221
将多尺度特征图
Figure BDA0003876971850000222
发送给特征自适应聚合模块。
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图
Figure BDA0003876971850000223
生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块。方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收
Figure BDA0003876971850000224
采用自适应多尺度特征聚合方法对
Figure BDA0003876971850000225
进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH。FH的特征图分辨率为
Figure BDA0003876971850000226
FH的特征图通道数为64。具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对
Figure BDA0003876971850000227
进行并行通道自注意力增强,即第一SE网络对
Figure BDA0003876971850000228
施加在通道上的加权求和,得到第一通道表征增强后的图像
Figure BDA0003876971850000229
同时第二SE网络对
Figure BDA00038769718500002210
施加在通道上的加权求和,得到第二通道表征增强后的图像
Figure BDA00038769718500002211
同时第三SE网络对
Figure BDA00038769718500002212
施加在通道上的加权求和,得到第三通道表征增强后的图像
Figure BDA00038769718500002213
3.3.4.1.2自适应多尺度特征聚合网络的第一、第二、第三SE网络并行采用双线性插值将
Figure BDA00038769718500002214
上采样到相同的分辨率大小
Figure BDA00038769718500002215
得到上采样后的特征图
Figure BDA00038769718500002216
成为上采样后的特征图集合
Figure BDA00038769718500002217
具体计算过程如公式(2)所示:
Figure BDA00038769718500002218
其中SEn表示第n个SE网络,
Figure BDA00038769718500002219
表示第l个多尺度特征图,Upsample表示双线性插值上采样,1≤l≤3,1≤n≤3。
3.3.4.1.3自适应多尺度特征聚合网络对
Figure BDA00038769718500002220
采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为
Figure BDA00038769718500002221
的软权重图
Figure BDA00038769718500002222
软权重图的像素点的数值大小表明应更关注
Figure BDA00038769718500002223
这3个尺度中的哪一个,即
Figure BDA00038769718500002224
中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图。
3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图
Figure BDA00038769718500002225
与对应的第l个上采样后的特征图
Figure BDA00038769718500002226
逐元素乘,即将
Figure BDA00038769718500002227
Figure BDA00038769718500002228
对应逐元素乘,将
Figure BDA00038769718500002229
Figure BDA00038769718500002230
对应逐元素乘,
Figure BDA00038769718500002231
Figure BDA00038769718500002232
分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH。具体过程如公式(3)所示:
Figure BDA0003876971850000231
其中SE4为第四S E网络,
Figure BDA0003876971850000232
表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积。自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络。
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是
Figure BDA0003876971850000233
的矩阵,分辨率大小为
Figure BDA0003876971850000234
通道数为4。通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框。Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围。并且,对Bcoarse与2.2.5.4构建的粗略框真实值
Figure BDA0003876971850000235
计算损失
Figure BDA0003876971850000236
Figure BDA0003876971850000237
的损失计算是基于GIoU loss(见文献“Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalizedintersection over union:A metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:658-666.”Rezatofighi H,Tsoi N等人的论文:广义交并比:边界框回归的度量和损失):
Figure BDA0003876971850000238
其中Sb是回归样本集合,由
Figure BDA0003876971850000239
不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应
Figure BDA00038769718500002310
不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标注框的位置更准确。
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS。方法是:
3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。具体方法是:
3.3.4.3.1.1设计偏移量转换函数
Figure BDA00038769718500002311
对可形变卷积的偏移量Δp(Δp为基于特征点的可学***方向的偏移。
Figure BDA0003876971850000241
如公式(5)所示:
Figure BDA00038769718500002415
Figure BDA0003876971850000242
其中
Figure BDA0003876971850000243
表示在垂直方向的偏移量转换函数,
Figure BDA0003876971850000244
表示在水平方向的偏移量转换函数,总体的偏移量转换函数
Figure BDA0003876971850000245
(t,l,r,d)是卷积核位置p与Bcoarse的上下左右四个方向的距离。
3.3.4.3.1.2利用
Figure BDA0003876971850000246
限制可形变卷积采样区域。给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量。Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围。令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图。采用R-DConv计算y(p),如公式(6)所示:
Figure BDA0003876971850000247
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重。Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道(代表不同偏移值特征的权重)为Δmk的值。Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域。
3.3.4.3.2为使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.1令分类偏移量转换函数
Figure BDA0003876971850000248
用公式(6)计算得到位置p处的输出特征ycls(p)。
3.3.4.3.2.2采用
Figure BDA0003876971850000249
利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS
Figure BDA00038769718500002410
允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域。因此,令
Figure BDA00038769718500002411
使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块。
3.3.4.3.3为使R-DConv在粗略框范围内学习物体的边界区域信息,提取使物***置回归更准确的特征,采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数
Figure BDA00038769718500002412
对可形变卷积的偏移量Δp进行变换。
Figure BDA00038769718500002413
将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下。
Figure BDA00038769718500002414
分别对四子区域进行均匀采样,即每个区域分配等额的采样点。通过这种方式,R-DConv操作的空间采样点被分散了,从而能提取包含更多来自边界的信息的特征,能够更准确地回归物***置。设置K=9,
Figure BDA0003876971850000251
函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获。回归偏移量转换函数
Figure BDA0003876971850000252
如公式(7)所示:
Figure BDA0003876971850000253
Figure BDA0003876971850000254
为对粗略框区间内的偏移量进行归一化的Sigmoid函数,通过归一化可平衡不同大小物体的采样难度。
Figure BDA0003876971850000255
代入公式(6)中的
Figure BDA0003876971850000256
得到位置p处的输出特征yreg(p)。因此
Figure BDA0003876971850000257
使R-DConv在粗略框范围内学习物体边界的区域,提取使预测框回归位置更准确的特征,即边界区域感知的高像素特征图FHR
3.3.4.3.3.2采用
Figure BDA0003876971850000258
利用卷积核遍历FH,得到边界区域感知的高像素特征图FHR,将FHR发送给主任务模块。
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为
Figure BDA0003876971850000259
通道数为4。对Hcorner与2.3.3构建的角点预测真实值
Figure BDA00038769718500002510
计算损失,得到Hcorner
Figure BDA00038769718500002511
的损失值
Figure BDA00038769718500002512
Figure BDA00038769718500002513
的计算是基于修改版的Focal Loss:
Figure BDA00038769718500002514
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。
Figure BDA00038769718500002515
是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值,
Figure BDA00038769718500002516
是第c通道、像素位置(i,j)的角点预测真实值。辅助任务模块学习定位标注框的四个角点的位置,辅助目标检测网络训练,使提取特征更关注物体角点位置,从而使目标检测***定位物体的位置更准确。
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置Brefine。Brefine的分辨率大小为
Figure BDA00038769718500002517
通道数为4。通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框。对Brefine与2.3.5得到的精细框真实值
Figure BDA00038769718500002518
计算损失
Figure BDA00038769718500002519
Figure BDA00038769718500002520
的计算基于GIoU loss:
Figure BDA00038769718500002521
其中Sb是回归样本集合,由
Figure BDA00038769718500002522
不为0的像素集合组成。Nb是回归样本集合的数量,Wij是对应
Figure BDA00038769718500002523
不为0的(i,j)位置权重值,用于对中心区域位置像素点施加更大损失权重,使中心区域位置的像素点回归标准框的位置更准确。Brefine的学习质量代表目标检测***回归物***置的准确度。
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter。Hcenter的分辨率大小为
Figure BDA0003876971850000261
通道数为数据集类别数量C。MS COCO数据集的C为80,CityScapes数据集的C为8。将Hcenter与2.2.5.2构建的中心点预测真实值
Figure BDA0003876971850000262
计算损失
Figure BDA0003876971850000263
Figure BDA0003876971850000264
的计算基于修改版的Focal Loss:
Figure BDA0003876971850000265
其中Ns是该图像标注框的数量,αl和β是超参数,分别设置为2和4,用于控制损失函数的梯度曲线。
Figure BDA0003876971850000266
是第c通道、(i,j)像素位置的中心点预测热力图,
Figure BDA0003876971850000267
是第c通道、(i,j)像素位置的中心点预测真实值。Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力。
3.3.8设计目标检测***的总损失函数
Figure BDA0003876971850000268
如公式(11)所示:
Figure BDA0003876971850000269
其中
Figure BDA00038769718500002610
是角点预测网络输出的Hcorner和真实值
Figure BDA00038769718500002611
计算的损失值,
Figure BDA00038769718500002612
是中心点预测网络输出的Hcenter和真实值
Figure BDA00038769718500002613
计算的损失值,
Figure BDA00038769718500002614
是粗略框预测网络输出的Bcoarse和真实值
Figure BDA00038769718500002615
计算的损失值,
Figure BDA00038769718500002616
是精细框预测网络输出的Brefine和真实值
Figure BDA00038769718500002617
计算的损失值。根据重要性令角点预测网络损失权重
Figure BDA00038769718500002618
中心点预测网络损失权重
Figure BDA00038769718500002619
粗略框预测网络损失权重
Figure BDA00038769718500002620
精细框预测网络损失权重
Figure BDA00038769718500002621
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数。
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数。方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将经过2.4步采用图像缩放标准化方法处理过的新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络。BHVcoarse也是
Figure BDA0003876971850000271
的矩阵,分辨率大小为
Figure BDA0003876971850000272
通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作(2D Max-Pooling),提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-l,pd+d,pr+r}。Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp。Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp
4.11.3后处理模块保留第v个验证图像Dv中置信度sp大于置信度阈值(一般设置为0.3)的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式(https://cocodataset.org/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式(https://www.cityscapes-dataset.com/)测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***。
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块。
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络。BIcoarse也是
Figure BDA0003876971850000281
的矩阵,分辨率大小为
Figure BDA0003876971850000282
通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别。
第六步,结束。
选取来自MS COCO数据集的20000测试集数据或来自Cityscapes数据集的1524测试集数据(如第二步所述的测试集划分方式),对本发明进行检测精度AP(AveragePrecision)和运行速度FPS(Frames Per Second)的数值测试,实验环境为Ubuntu20.04(Linux***的一个版本),搭载英特尔i9-10900K系列的中央处理器,处理频率为3.70GHz,另外配有四块英伟达RTX 2080Ti图像处理器,核心频率为1635MHz,显存容量为12GB。对本发明进行测试的一个实施例如图4所示,输入一张待检测图像(图4中的上图,为一张行车过程中拍摄的图像),经过本发明的目标检测***,输出图像预测集合,并进行可视化,生成检测后的可视化图(图4中的下图,为该检测图像的检测结果可视化图,检测框和物体类别已进行标注。如图4下图中①处检测出的“bicycle”、②处检测出的“person”、③处检测出远处的“car”类别,并用矩形框的形式框出)。
首先,定义目标检测算法性能评价指标。本实验采用标准的MS COCO评测方式,拥有6个具体指标:AP、AP50、AP75、APS、APM和APL。AP表示交并比(IoU)值在[0.5,0.95]区间上每隔0.05计算的平均精度(Average Precision,AP),再对所有间隔的AP求平均。AP50和AP75分别表示IoU大于0.5和0.75的AP值。APS、APM和APL分别表示小尺寸物体、中尺寸物体和大尺寸物体的AP,其中尺寸定义范围分别为[0,642]、[642,1282]和[1282,∞]。AP值越大检测精度越高。
根据本发明的实验结果,分别对MS COCO数据集和Cityscapes数据集的实验结果进行分析。
MS COCO数据集目标检测算法性能对比如表1所示。展示了本发明对比经典实时目标检测方法YOLOv3、与本发明最相关的方法CenterNet和TTFNet。从实验结果可知,本发明能快速且准确地进行目标检测。对比CenterNet,以更快的运行速度,约2.2ms,实现了4.4AP的精度提升。对比TTFNet,以少量的速度延迟,约3.15ms,实现了2.5AP的精度提升。在几乎不影响实时性的前提下,实现了较大的精度提升。目标检测算法精度和速度是需要权衡的两个指标,在少量计算负荷下实现较大精度提升在现实应用中是很有意义的。对于精度来说,越高的精度越难以提升,经典的MaskRCNN算法(见文献“He K,Gkioxari G,Dollár P,etal.Mask r-cnn[C]//Proceedings of the IEEE international conference oncomputer vision.2017:2961-2969.”He K,Gkioxari G,Dollár P,et al.Mask r-cnn[C]//Proceedings of the IEEE international conference on computervision.2017:2961-2969等人的论文:Mask r-cnn)在11FPS下实现了39.8AP的精度,本发明比MaskRCNN快5.45倍,精度高2.0AP。因此,只牺牲约3.15ms的速度延迟(这对于现实应用中是完全可以接收的),就实现了2.5AP的精度提升是较大的精度提升。
表1
方法 主干网络 FPS AP <![CDATA[AP<sub>50</sub>]]> <![CDATA[AP<sub>75</sub>]]> <![CDATA[AP<sub>S</sub>]]> <![CDATA[AP<sub>M</sub>]]> <![CDATA[AP<sub>L</sub>]]>
YOLOv3 DarkNet-53 48 33.4 56.3 35.2 19.5 36.4 43.6
CenterNet DLA-34 53 37.4 55.1 40.8 20.6 42.0 50.6
TTFNet DarkNet-53 74 39.3 56.8 42.5 20.6 43.3 54.3
本发明 DarkNet-53 60 41.8 58.7 45.3 22.7 45.6 54.9
Cityscapes数据集目标检测算法性能对比如表2所示。Cityscapes数据集是经典的智能驾驶场景数据集,本实验以统一的768×384图像为输入,在Cityscapes数据集下比较了TTFNet和本发明方法的性能。TTFNet虽然运行速度比本发明快,但检测精度差距明显(5.8AP)。而且速度延迟只有3.46ms,对于现实应用是完全可以接受的。因此,本发明在运行速度和检测精度上有较好的权衡,以较小的时间开销,实现了较大的精度提升。
表2
方法 主干网络 FPS AP <![CDATA[AP<sub>50</sub>]]> <![CDATA[AP<sub>75</sub>]]> <![CDATA[AP<sub>S</sub>]]> <![CDATA[AP<sub>M</sub>]]> <![CDATA[AP<sub>L</sub>]]>
TTFNet DarkNet-53 58.7 17.2 33.9 15.6 6.4 22.5 30.1
本发明 DarkNet-53 48.8 23.0 41.7 22.1 4.3 22.1 45.2
对训练的目标检测***进行可视化分析。如图3所示,本实验对TTFNet和本发明在Cityscapes数据集下进行了可视化分析。图3(a)和图3(b)为TTFNet的检测结果、图3(c)和图3(d)为本发明的检测结果。为方便观察,用箭头表示出了TTFNet检测有误的区域(即图3(a)左边箭头指出的误检测出“bicycle”类,右边箭头指出的检测出多个重叠的假阳性框;图3(b)箭头指出的误将背景区域检测为前景区域)。本发明比TTFNet检测更为准确,拥有更小的误检率,且分类精度也更高(图3(c)对应图3(a)左边箭头处没有出现误检,对应图3(a)右边箭头处也没有检测出多个重叠假阳性框;图3(d)对应图3(b)箭头处没有误将背景区域检测为前景区域)。优秀的可视化结果也证明本发明提出方法的有效性。

Claims (9)

1.一种基于特征自适应聚合的目标检测方法,其特征在于包括以下步骤:
第一步,构建基于特征自适应聚合的目标检测***;目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成;
主特征提取模块与特征自适应聚合模块相连,主特征提取模块从输入图像提取多尺度特征,将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块;主特征提取模块由一个DarkNet-53卷积神经网络和一个特征金字塔网络组成;DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络,这53层神经网络分为5个串行子网络,用于提取图像的主干网络特征;特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征,经过上采样、特征提取、特征融合操作,得到包含多尺度特征的多尺度特征图,将多尺度特征图发送给特征自适应聚合模块;
特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连,特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图,为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图,提升目标检测***的检测精度;特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成;自适应多尺度特征聚合网络由4个权重不共享的SE网络组成,4个SE网络分别记为第一、第二、第三、第四SE网络;从主特征提取模块的特征金字塔网络接收多尺度特征图,采用自适应多尺度特征聚合方法,对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图,将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块;粗略框预测网络由两层3×3卷积和一层1×1卷积构成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,对多尺度感知的高像素特征图进行预测,得到粗略框预测位置,将粗略框预测位置发送给自适应空间特征聚合网络;自适应空间特征聚合网络由分类偏移量转换函数和回归偏移量转换函数的区域受限可形变卷积组成,从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,从粗略框预测网络接收粗略框预测位置,生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;
辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连,辅助任务模块是一个角点预测网络,角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成,辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图,角点预测网络对多尺度感知的高像素特征图进行预测,得到角点预测热力图,用于目标检测***训练中计算角点预测损失,辅助目标检测***对角点区域的感知;辅助任务模块只在训练目标检测***时使用,用于增强目标检测***对物体角点位置的感知,使预测物体框的位置更准确;在训练后的目标检测***对用户输入图像进行检测时,该模块直接丢弃;
主任务模块与自适应空间特征聚合网络、后处理模块相连,由精细框预测网络和中心点预测网络构成;精细框预测网络是一个一层1×1卷积层,从自适应空间特征聚合网络接收边界区域感知的高像素特征图,对边界区域感知的高像素特征图进行1×1卷积,得到精细框预测位置,将精细框预测位置发送给后处理模块;中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成,从自适应空间特征聚合网络接收显著性区域感知的高像素特征图,对显著性区域感知的高像素特征图进行1×1卷积和激活,得到中心点预测热力图,将中心点预测热力图发送给后处理模块;
后处理模块是一个3×3池化层,与主任务模块中的精细框预测网络和中心点预测网络相连,从精细框预测网络接收精细框预测位置,从中心点预测网络接收中心点预测热力图,采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值,提取出保留的预测最大值的位置,即峰值点,作为物体中心区域点位置;通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离,生成预测物体框位置,且该中心区域点位置所在的中心点类别即为物体预测的类别;后处理模块通过提取3×3范围内的峰值点抑制重叠伪框,减少假阳性预测框;
第二步,构建训练集、验证集和测试集,方法是:
2.1收集目标检测场景图像作为目标检测数据集,并对目标检测数据集中的每个目标检测场景图像进行人工标注,方法是:使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集;即采用MS COCO数据集或Cityscapes数据集中的训练图像作为训练集、验证图像作为验证集、测试图像作为测试集;令训练集中图像总数为S,令测试集中图像总数为T,令验证集中图像总数为V,MS COCO和Cityscapes数据集的每张图像都进行了人工标注,即每张图像都以矩形框的形式标注了物***置,并标注了物体的类别;
2.2对训练集中S张图像进行优化处理,包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化,得到优化后的训练集Dt
2.3根据优化后的训练集Dt,制作用于模型训练的任务真值标签;一共分为四个任务,分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务,方法是:
2.3.1令变量s=1;令优化后的训练集中的第s张图像有Ns个标注框,令Ns个标注框中的第i个标注框为
Figure FDA0004170244520000021
令第i个标注框的标注类别为ci
Figure FDA0004170244520000022
代表第i个标注框的左上角点坐标,
Figure FDA0004170244520000028
代表第i个标注框的右下角点坐标,Ns为正整数,1≤i≤Ns
2.3.2构建中心点预测任务的中心点预测真实值
Figure FDA0004170244520000023
方法是:
2.3.2.1构建一个大小为
Figure FDA0004170244520000024
的全零矩阵图Hzeros,C表示优化后的训练集的分类类别数量,该类别数量为目标检测数据集标注目标的类别数量,H是第s张图像的高,W是第s张图像的宽;
2.3.2.2令i=1,表示第i个下采样4倍的标注框;
2.3.2.3将
Figure FDA0004170244520000025
标注坐标除以4,记为下采样4倍的标注框
Figure FDA0004170244520000026
Figure FDA0004170244520000027
Figure FDA0004170244520000031
代表Bsi′的左上、右上、左下、右下角点位置;
2.3.2.4采用二维高斯核生成方法,计算以Bsi′的基点
Figure FDA0004170244520000032
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的全部像素点的高斯值,得到第一高斯值集合Sctr;具体方法为:
2.3.2.4.1令二维高斯核内像素点数量为Npixel,Npixel为正整数,令第一高斯值集合Sctr为空;
2.3.2.4.2令p=1,表示二维高斯核内像素点编号,1≤p≤Npixel
2.3.2.4.3第s张图像中以(x0,y0)为基点的高斯核范围内任意一个像素点(xp,yp)的二维高斯值K(xp,yp)为:
Figure FDA0004170244520000033
其中(x0,y0)是二维高斯核的基点,即二维高斯核中心,x0为基点的宽方向的坐标值,y0为基点的高方向的坐标值;(xp,yp)为基点(x0,y0)高斯核范围内的像素点,xp为该像素点的宽方向的坐标值,yp为该像素点的高方向的坐标;(x0,y0)和(xp,yp)均位于下采样4倍后的图像坐标系;
Figure FDA0004170244520000034
表示二维高斯核在宽方向的方差,
Figure FDA0004170244520000035
表示二维高斯核在高方向的方差,通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量;w表示Bsi′在特征图尺度下的宽,h表示Bsi′在特征图尺度下的高,α是决定中心区域位置占Bsi′比例的参数;将(xp,yp)和计算得出的K(xp,yp)存入第一高斯值集合Sctr中;
2.3.2.4.4令p=p+1;若p≤Npixel,转2.3.2.4.3;若p>Npixel,Bsi′的高斯核内的坐标和二维高斯值已全部存入Sctr中,Sctr中有Npixel个像素点及其对应的二维高斯值,转2.3.2.5;
2.3.2.5将Sctr中的值赋值到Hzeros中;将Sctr中的元素(xp,yp)和K(xp,yp)按照Hzeros[xp,yp,ci]=K(xp,yp)的规则赋值,ci代表Bsi′的类别编号,1≤ci≤C且ci为正整数;
2.3.2.6令i=i+1;若i≤Ns,转2.3.2.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到Hzeros中,转2.3.2.7;
2.3.2.7令第s张图像的中心点预测真实值
Figure FDA0004170244520000041
2.3.3构建角点预测任务的角点预测真实值
Figure FDA0004170244520000042
方法是:
2.3.3.1构建一个大小为
Figure FDA0004170244520000043
的全零矩阵
Figure FDA0004170244520000044
“4”表示下采样4倍的标注框的角点数量4,也表示矩阵的4个通道;
2.3.3.2令i=1,表示第i个下采样4倍的标注框;
2.3.3.3令二维高斯核的基点为Bsi′的左上角点,坐标为
Figure FDA0004170244520000045
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure FDA0004170244520000046
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第二高斯值集合Stl
2.3.3.4将Stl中的元素坐标和高斯值赋值到
Figure FDA0004170244520000047
的第1个通道中,即按照
Figure FDA0004170244520000048
的规则赋值;
2.3.3.5令二维高斯核的基点为Bsi′的右上角点,坐标为
Figure FDA0004170244520000049
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure FDA00041702445200000410
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第三高斯值集合Str
2.3.3.6将Str中的元素坐标和高斯值赋值到
Figure FDA00041702445200000411
的第2个通道中,即按照
Figure FDA00041702445200000412
的规则赋值;
2.3.3.7令二维高斯核的基点为Bsi′的左下角点,坐标为
Figure FDA00041702445200000413
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure FDA00041702445200000414
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第四高斯值集合Sdl
2.3.3.8将Sdl中的元素坐标和高斯值赋值到
Figure FDA00041702445200000415
的第3个通道中,按照
Figure FDA00041702445200000416
的规则赋值;
2.3.3.9令二维高斯核的基点为B′si的右下角点,坐标为
Figure FDA00041702445200000417
采用2.3.2.4所述二维高斯核生成方法,计算以
Figure FDA00041702445200000418
为二维高斯核的基点,方差为(σxy)的二维高斯核范围内的内全部像素点的高斯值,得到第五高斯值集合Sdr
2.3.3.10将Sdr中的元素坐标和高斯值赋值到
Figure FDA00041702445200000419
的第4个通道中,即按照
Figure FDA00041702445200000420
的规则赋值;
2.3.3.11令i=i+1,若i≤Ns,转2.3.3.3;若i>Ns,说明第s张图像的Ns个下采样4倍的标注框生成的二维高斯值均已赋值到
Figure FDA0004170244520000051
中,转2.3.3.12;
2.3.3.12令第s张图像的角点预测真实值
Figure FDA0004170244520000052
2.3.4根据第s张图像的Ns个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值
Figure FDA0004170244520000053
2.3.5根据
Figure FDA0004170244520000054
构建精细框预测任务的精细框真实值
Figure FDA0004170244520000055
Figure FDA0004170244520000056
值与
Figure FDA0004170244520000057
相等,即
Figure FDA0004170244520000058
2.3.6令s=s+1,若s≤S,转2.3.2;若s>S,转2.3.7;
2.3.7得到S张图像用于模型训练的任务真实标签,并将其和S张图像组成一个集合,构成用于模型训练的训练集DM
2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理,即对V张图像进行缩放、标准化,得到由V张缩放标准化后的图像组成的新的验证集DV
2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理,得到由T张缩放标准化后的图像组成的新的测试集DT
第三步,利用梯度反向传播方法对第一步构建的目标检测***进行训练,得到Nm个模型参数;方法是:
3.1初始化目标检测***中各模块的网络权重参数;采用ImageNet数据集上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数;初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数;
3.2设置目标检测***训练参数;包括初始化初始学习率learning_rate衰减系数,选用随机梯度下降作为模型训练优化器,初始化优化器的超参数“动量”,初始化“权重衰减”;初始化网络训练的批次大小mini_batch_size为正整数;初始化最大训练步长maxepoch为正整数;
3.3训练目标检测***,方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值loss,利用梯度反向传播更新网络权重参数,直到损失值达到阈值或训练步长达到maxepoch结束;在最后Nm个训练步,每训练一个训练步,保存一次网络权重参数;方法如下:
3.3.1令训练步epoch=1,训练集所有数据训练一个周期为一个epoch;初始化批次序号Nb=1;
3.3.2主特征提取模块从DM读取第Nb批次,共B=64个图像,将这B个图像记为矩阵形式Itrain,Itrain中包含B个H×W×3的图像;H表示输入图像的高,W表示输入图像的宽,“3”代表图像的RGB三个通道;
3.3.3主特征提取模块采用主特征提取方法提取Itrain的多尺度特征,得到Itrain的多尺度特征,将包含Itrain的多尺度特征的多尺度特征图发送给自适应特征聚合模块;方法为:
3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取Itrain的图像特征,得到主干网络特征图集合,方法是:DarkNet-53卷积神经网络的5个串行子网络对Itrain的B个图像进行下采样、特征提取,得到主干网络特征,即后四个串行子网络的输出的4个特征图,发送给特征金字塔网络;
3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图,特征金字塔网络对4个特征图进行上采样、特征提取和特征融合,得到3个多尺度特征图,令为
Figure FDA0004170244520000061
将多尺度特征图
Figure FDA0004170244520000062
发送给特征自适应聚合模块;
3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图
Figure FDA0004170244520000063
生成多尺度感知的高像素特征图FH,将FH发送给辅助任务模块;并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图,将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块;方法是:
3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收
Figure FDA0004170244520000064
采用自适应多尺度特征聚合方法对
Figure FDA0004170244520000065
进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FH;FH的特征图分辨率为
Figure FDA0004170244520000066
FH的特征图通道数为64;具体方法如下:
3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对
Figure FDA0004170244520000067
进行并行通道自注意力增强,即第一SE网络对
Figure FDA0004170244520000068
施加在通道上的加权求和,得到第一通道表征增强后的图像
Figure FDA0004170244520000069
同时第二SE网络对
Figure FDA00041702445200000610
施加在通道上的加权求和,得到第二通道表征增强后的图像
Figure FDA00041702445200000611
同时第三SE网络对
Figure FDA00041702445200000612
施加在通道上的加权求和,得到第三通道表征增强后的图像
Figure FDA00041702445200000613
3.3.4.1.2自适应多尺度特征聚合网络的第一、第二、第三SE网络并行采用双线性插值将
Figure FDA00041702445200000614
上采样到相同的分辨率大小
Figure FDA00041702445200000615
得到上采样后的特征图
Figure FDA00041702445200000616
成为上采样后的特征图集合
Figure FDA00041702445200000617
具体计算过程如公式(2)所示:
Figure FDA00041702445200000618
其中SEn表示第n个SE网络,
Figure FDA00041702445200000619
表示第lvl个多尺度特征图,Upsample表示双线性插值上采样,1≤lvl≤3,1≤n≤3;
3.3.4.1.3自适应多尺度特征聚合网络对
Figure FDA00041702445200000620
采用1×1卷积计算权重,将通道数从64减少为1,再在尺度维度上执行Softmax操作,得到大小为
Figure FDA0004170244520000071
的软权重图
Figure FDA0004170244520000072
软权重图的像素点的数值大小表明应更关注
Figure FDA0004170244520000073
这3个尺度中的哪一个,即
Figure FDA0004170244520000074
中哪一个所占权重更大,从而让不同尺寸的物体响应不同尺度的特征图;
3.3.4.1.4自适应多尺度特征聚合网络将第lvl个尺度的权重图
Figure FDA0004170244520000075
与对应的第lvl个上采样后的特征图
Figure FDA0004170244520000076
逐元素乘,即将
Figure FDA0004170244520000077
Figure FDA0004170244520000078
对应逐元素乘,将
Figure FDA0004170244520000079
Figure FDA00041702445200000710
对应逐元素乘,
Figure FDA00041702445200000711
Figure FDA00041702445200000712
分别逐元素乘,得到3个乘积,然后对这3个乘积进行加权求和,融合为一个特征图,得到融合后的特征图;接着采用第四SE网络增强融合后的特征图的通道表征,得到多尺度感知的高像素特征图FH;具体过程如公式(3)所示:
Figure FDA00041702445200000713
其中SE4为第四SE网络,
Figure FDA00041702445200000714
表示同一位置元素在不同尺度中所占权重,“×”表示对应位置元素乘积,Conv表示1×1卷积;自适应多尺度特征聚合网络将FH发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络;
3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,采用粗略框预测方法对FH中每一个特征点位置进行粗略框位置预测,生成粗略框预测位置Bcoarse,将Bcoarse发送给自适应空间特征聚合网络,Bcoarse也是
Figure FDA00041702445200000715
的矩阵,分辨率大小为
Figure FDA00041702445200000716
通道数为4;通道数4表示从像素点出发到上、下、左、右四个方向的距离,每一个像素点形成一个粗略框;Bcoarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围;并且,对Bcoarse与2.2.5.4构建的粗略框真实值
Figure FDA00041702445200000717
计算损失
Figure FDA00041702445200000718
Figure FDA00041702445200000719
其中Sb是回归样本集合,由
Figure FDA00041702445200000720
不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应
Figure FDA00041702445200000721
不为0的(i,j)位置权重值;
3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图FH,从粗略框预测网络接收粗略框预测位置Bcoarse,生成边界区域感知的高像素特征图FHR和显著性区域感知的高像素特征图FHS;方法是:
3.3.4.3.1设计区域受限的可形变卷积R-Dconv,方法是:
3.3.4.3.1.1设计偏移量转换函数
Figure FDA00041702445200000815
对可形变卷积的偏移量Δp进行变换,得到变换后的偏移量;
Figure FDA0004170244520000081
限制可形变卷积的空间采样点的偏移范围在Bcoarse内,同时也使可形变卷积的偏移量Δp可微分;采用Sigmoid函数
Figure FDA0004170244520000082
对Bcoarse内的偏移量Δp进行归一化,使Δp在[0,1]区间内;将Δp拆分为hΔp和wΔp,hΔp表示Δp在垂直方向的偏移,wΔp表示Δp在水平方向的偏移;
Figure FDA0004170244520000083
如公式(5)所示:
Figure FDA00041702445200000817
Figure FDA0004170244520000087
其中
Figure FDA00041702445200000816
表示在垂直方向的偏移量转换函数,
Figure FDA0004170244520000088
表示在水平方向的偏移量转换函数,总体的偏移量转换函数
Figure FDA0004170244520000089
(t,l,r,d)是卷积核位置p与Bcoarse的上下左右四个方向的距离;
3.3.4.3.1.2利用
Figure FDA00041702445200000810
限制可形变卷积采样区域;给定一个3×3卷积核,其拥有K=9个空间采样位置点,wk表示第k个位置的卷积核权重,Pk表示第k个位置的预定义位置偏移量;Pk∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围;令x(p)表示卷积核中心位置p处的输入特征图,y(p)表示卷积核中心位置p处的输出特征图;采用R-DConv计算y(p),如公式(6)所示:
Figure FDA00041702445200000811
其中Δpk表示第k个位置的可学习偏移量,Δmk表示第k个位置的权重;Δpk和Δmk由一个3×3卷积生成,3×3卷积生成27通道的特征图,其中9个通道为Δpk横坐标偏移值,9个通道为Δpk纵坐标偏移值,9个通道为Δmk的值;Bcoarse表示在当前特征图尺度上预测的粗略框,也是预定义限制区域;
3.3.4.3.2采用分类自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,分类自适应空间特征聚合方法具体为:
3.3.4.3.2.1令分类偏移量转换函数
Figure FDA00041702445200000812
用公式(6)计算得到位置p处的输出特征ycls(p);
3.3.4.3.2.2采用
Figure FDA00041702445200000813
利用卷积核遍历FH,得到显著性区域感知的高像素特征图FHS
Figure FDA00041702445200000814
允许采样点集中,使分类分支可以专注最具鉴别能力的显著性区域;令
Figure FDA0004170244520000091
使R-DConv在粗略框范围内学习物体的显著性区域,提取出使物体分类更准确的特征,即显著性区域感知的高像素特征图FHS,将FHS发送给主任务模块;
3.3.4.3.3采用回归自适应空间特征聚合方法利用Bcoarse限制采样范围对FH进行特征聚合,回归自适应空间特征聚合方法具体为:
3.3.4.3.3.1设计回归偏移量转换函数
Figure FDA0004170244520000092
对可形变卷积的偏移量Δp进行变换;
Figure FDA0004170244520000093
将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分,使限定区域被划分为四个子区域,分别对应左上、右上、左下和右下;
Figure FDA0004170244520000094
分别对四子区域进行均匀采样,即每个区域分配等额的采样点;设置K=9,
Figure FDA0004170244520000095
函数从四个子区域各采样两个点,总共八个边缘点,再加上一个中心点,形成3×3的卷积核,增强中心特征点对边界信息的捕获;回归偏移量转换函数
Figure FDA0004170244520000096
如公式(7)所示:
Figure FDA0004170244520000097
Figure FDA0004170244520000098
为对粗略框区间内的偏移量进行归一化的Sigmoid函数;
Figure FDA0004170244520000099
代入公式(6)中的
Figure FDA00041702445200000910
得到位置p处的输出特征yreg(p);
3.3.4.3.3.2采用
Figure FDA00041702445200000911
利用卷积核遍历FH,得到边界区域感知的高像素特征图FHR,将FHR发送给主任务模块;
3.3.5辅助任务模块从自适应多尺度特征聚合网络接收FH,经过两层3×3卷积、一层1×1卷积和sigmoid函数处理,得到角点预测热力图Hcorner,Hcorner的分辨率大小为
Figure FDA00041702445200000912
通道数为4;对Hcorner与2.3.3构建的角点预测真实值
Figure FDA00041702445200000913
计算损失,得到Hcorner
Figure FDA00041702445200000914
的损失值
Figure FDA00041702445200000915
Figure FDA00041702445200000916
其中Ns是该图像标注框的数量,αl和β是超参数,用于控制损失函数的梯度曲线;
Figure FDA00041702445200000917
是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值,
Figure FDA00041702445200000918
是第c通道、像素位置(i,j)的角点预测真实值;
3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图FHR,经过一层1×1卷积处理,得到FHR特征点位置的精细框预测位置BrefIne;BrefIne的分辨率大小为
Figure FDA00041702445200000919
通道数为4;通道数4表示像素点到预测精细框上、下、左、右四个方向的距离,每一个像素点可形成一个精细预测框;对Brefine与2.3.5得到的精细框真实值
Figure FDA0004170244520000101
计算损失
Figure FDA0004170244520000102
Figure FDA0004170244520000103
其中Sb是回归样本集合,由
Figure FDA0004170244520000104
不为0的像素集合组成;Nb是回归样本集合的数量,Wij是对应
Figure FDA0004170244520000105
不为0的(i,j)位置权重值,Brefine的学习质量代表目标检测***回归物***置的准确度;
3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图FHS,经过一层1×1卷积和sigmoid函数处理,得到FHS特征点位置的中心点预测热力图Hcenter;Hcenter的分辨率大小为
Figure FDA00041702445200001026
通道数为数据集类别数量C;将Hcenter与2.2.5.2构建的中心点预测真实值
Figure FDA0004170244520000107
计算损失
Figure FDA0004170244520000108
Figure FDA0004170244520000109
其中Ns是该图像标注框的数量,αl和β是超参数,
Figure FDA00041702445200001010
是第c通道、(i,j)像素位置的中心点预测热力图,
Figure FDA00041702445200001011
是第c通道、(i,j)像素位置的中心点预测真实值;Hcenter的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力;
3.3.8设计目标检测***的总损失函数
Figure FDA00041702445200001012
如公式(11)所示:
Figure FDA00041702445200001013
其中
Figure FDA00041702445200001014
是角点预测网络输出的Hcorner和真实值
Figure FDA00041702445200001015
计算的损失值,
Figure FDA00041702445200001016
是中心点预测网络输出的Hcenter和真实值
Figure FDA00041702445200001017
计算的损失值,
Figure FDA00041702445200001018
是粗略框预测网络输出的Bcoarse和真实值
Figure FDA00041702445200001019
计算的损失值,
Figure FDA00041702445200001020
是精细框预测网络输出的Brefine和真实值
Figure FDA00041702445200001021
计算的损失值;
Figure FDA00041702445200001022
为角点预测网络损失权重,
Figure FDA00041702445200001023
为中心点预测网络损失权重,
Figure FDA00041702445200001024
为粗略框预测网络损失权重,
Figure FDA00041702445200001025
为精细框预测网络损失权重;
3.3.9令epoch=epoch+1,若epoch为80或110,令learning_rate=learning_rate×0.1,转3.3.10;若epoch既不是80也不是110,直接转3.3.10;
3.3.10若epoch≤maxepoch,转3.3.2;若epoch>maxepoch,说明训练结束,转3.3.11;
3.3.11保存后Nm个epoch的网络权重参数;
第四步,使用验证集验证装载后Nm个epoch的网络权重参数的目标检测***的检测精度,保留性能最好的网络权重参数作为目标检测***的网络权重参数;方法是:
4.1令变量nm=1;
4.2目标检测***加载后Nm个epoch的网络权重参数中的第nm个网络权重参数;将新的验证集DV输入目标检测***;
4.3令v=1,为验证集的第v张图像,V是验证集的图像数量;
4.4主特征提取模块接收第v张验证集图像Dv,采用3.3.3所述的主特征提取方法提取Dv的多尺度特征,得到Dv的多尺度特征,将包含Dv的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Dv的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到Dv的多尺度感知的高像素特征图FHV,将FHV发送给粗略框预测网络、自适应空间特征聚合网络;
4.6特征自适应聚合模块中的粗略框预测网络接收FHV,采用3.3.4.2所述的粗略框预测方法对FHV中每一个特征点位置进行粗略框位置预测,生成第v张验证集图像Dv的粗略框预测位置BHVcoarse;将BHVcoarse发送给自适应空间特征聚合网络;BHVcoarse也是
Figure FDA0004170244520000111
Figure FDA0004170244520000112
的矩阵,分辨率大小为
Figure FDA0004170244520000113
通道数为4;
4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收BHVcoarse,从自适应多尺度特征聚合网络接收FHV,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行分类任务空间特征聚合,得到第v张验证集图像Dv的显著性区域感知的高像素特征图;将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络;
4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BHVcoarse对采样范围进行限制,对FHV进行回归任务空间特征聚合,得到第v张验证集图像Dv的边界区域感知的高像素特征图;将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络;
4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv物体的精细框预测位置,将第v个验证图像的精细框预测位置发送给后处理模块;
4.10主任务模块中的中心点预测网络接收第v张验证集图像Dv的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到第v张验证集图像Dv的中心点预测热力图,将第v个验证图像Dv的中心点预测热力图发送给后处理模块;
4.11后处理模块接收第v个验证图像Dv的精细框预测位置和中心点预测热力图,采用去除重叠伪框方法对第v个验证图像Dv的精细框预测位置和中心点预测热力图进行去除重叠伪框操作,得到第v个验证图像Dv的预测物体框集合,具体方法如下:
4.11.1后处理模块对第v个验证图像Dv的中心点预测热力图执行3×3最大池化操作,提取第v个验证图像Dv的中心点预测热力图的峰值点集合,每一个峰值点表示预测物体内的一个中心区域点;
4.11.2从第v个验证图像Dv的中心点预测热力图得到峰值点(Px,Py)的坐标值Px,Py,后处理模块从Dv的精细框预测位置得到峰值点(Px,Py)上、左、下、右四个方向的距离信息(t,l,d,r),得到Dv的预测框Bp={Py-t,pl-l,pd+d,pr+r};Bp的类别即为峰值点(Px,Py)位置的中心点热力图像素值最大的通道值,记为cp;Bp的置信度即为峰值点(Px,Py)位置的中心点热力图第cp通道的像素值,记为sp
4.11.3后处理模块保留第v个验证图像Dv中置信度sD大于置信度阈值的预测框,形成第v个验证图像Dv的物体框预测集合,该物体框预测集合保留预测框Bp和Bp的类别cp信息;
4.12令v=v+1,若v≤V,转4.4;若v>V,说明得到第nm个模型的V张验证图像的物体框预测集合,转4.13;
4.13若验证集采用MS COCO公开的通用场景数据集,则采用标准的MS COCO评测方式测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;若验证集采用Cityscapes无人驾驶场景数据集,则采用Cityscapes评测方式测试目标检测***输出的最终物体框预测集合的精度,记录物体框预测集合的精度,转4.14;
4.14令nm=nm+1;若nm≤Nm,转4.2;若nm>Nm,说明完成Nm个模型的精度测试,转4.15;
4.15从Nm个模型的物体框预测集合的精度中选择精度最高的物体框预测集合,并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数,将该权重参数作为目标检测***选定的权重参数,将该选定权重参数加载到目标检测***,加载了此选定权重参数的目标检测***成为训练后的目标检测***;
第五步,采用训练后的目标检测***对用户输入的待检测图像进行目标检测,方法是:
5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理,得到标准化后的待检测图像Inor,将Inor输入主特征提取模块;
5.2主特征提取模块接收Inor,采用3.3.3所述的主特征提取方法提取Inor的多尺度特征,得到Inor的多尺度特征,将包含Inor的多尺度特征的多尺度特征图发送给自适应特征聚合模块;
5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含Inor的多尺度特征的多尺度特征图,采用3.3.4.1所述的自适应多尺度特征聚合方法对包含Inor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作,得到多尺度感知的高像素特征图FIH,将FIH发送给粗略框预测网络、自适应空间特征聚合网络;
5.4特征自适应聚合模块中的粗略框预测网络接收FIH,采用3.3.4.2所述的粗略框预测方法对FIH进行粗略框位置预测,得到待检测图像I中粗略框预测位置BIcoarse;将BIcoarse发送给自适应空间特征聚合网络;BIcoarse也是
Figure FDA0004170244520000131
的矩阵,分辨率大小为
Figure FDA0004170244520000132
通道数为4;
5.5特征自适应聚合模块中的自适应空间特征聚合网络接收FIH和BIcoarse,采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行分类任务空间特征聚合,得到待检测图像I的显著性区域感知的高像素特征图;将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络;
5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用BIcoarse限制采样范围,对FIH进行回归任务空间特征聚合,得到待检测图像I的边界区域感知的高像素特征图;将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络;
5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I中物体的精细框预测位置;将待检测图像I中物体的精细框预测位置发送给后处理模块;
5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图,经过一层1×1卷积处理,得到待检测图像I的物体的中心点预测热力图;将待检测图像I的物体的中心点预测热力图发送给后处理模块;
5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图,采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作,得到待检测图像I的物体框预测集合,待检测图像I的物体框预测集合保留预测框Bp和预测框的类别信息,即待检测图像的预测物体框的坐标位置和预测类别;
第六步,结束。
2.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.1步所述MS COCO数据集拥有80个类别,包含105000张训练图像作为训练集、5000张验证图像作为验证集和20000张测试图像作为测试集;Cityscapes数据集拥有8个类:行人、骑手、小车、卡车、巴士、火车、摩托车和自行车,其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集;S为205000或2975,T为20000或1524,V为5000或500。
3.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.2步所述对训练集中S张图像进行优化处理,得到优化后的训练集Dt的方法是:
2.2.1令变量s=1,初始化优化后的训练集Dt为空;
2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转,得到第s个翻转后的图像,随机翻转方法的随机概率为0.5;
2.2.3采用最小交并比对第s个翻转后的图像进行随机裁剪,得到第s个裁剪后的图像;最小交并比采用的最小尺寸比为0.3;
2.2.4对第s个裁剪后的图像进行随机图像平移,得到第s个平移后的图像;
2.2.5采用随机亮度对第s个平移后的图像进行亮度变换,得到第s个亮度变换后的图像;随机亮度采用的亮度差值为32;
2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理,得到第s个对比度变换后的图像;随机对比度的对比度范围为(0.5,1.5);
2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换,得到第s个饱和度变换后的图像;随机饱和度的饱和度范围为(0.5,1.5);
2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小,得到第s个缩放后的图像;
2.2.9采用标准化操作将第s个缩放后的图像进行标准化,得到第s个标准图像,将第s个标准图像放到优化后的训练集Dt中;
2.2.10若s≤S,令s=s+1,转2.2.2;若s>S,得到由S个标准图像组成的优化后的训练集Dt
4.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.3.2.4.3步所述二维高斯核中心是B′si的中心或是B si的角点,α设置为0.54。
5.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.3.4步所述根据第s张图像的Ns个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值
Figure FDA0004170244520000141
的方法是:
2.3.4.1构建一个大小为
Figure FDA0004170244520000142
的全零矩阵
Figure FDA0004170244520000143
“4”表示下采样4倍的标注框的4个坐标;
2.3.4.2令i=1,表示第i个下采样4倍的标注框;
2.3.4.3对Hzeros在第i个下采样4倍的标注框Bsi′内部的像素点进行赋值,即将Bsi′坐标值
Figure FDA0004170244520000144
赋值到
Figure FDA0004170244520000145
的像素位置的4个通道中;
2.3.4.4令i=i+1,若i≤Ns,转2.3.4.3;若i>Ns,说明第s张图像的Ns个标注框对应的粗略框真实值已赋值到
Figure FDA0004170244520000146
中,赋了值的
Figure FDA0004170244520000147
成为第s张图像的真值标签,转2.3.4.5;
2.3.4.5令第s张图像的粗略框真实值
Figure FDA0004170244520000151
6.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于2.4步所述采用图像缩放标准化方法对验证集中V张图像进行优化处理的方法是:
2.4.1令变量v=1;
2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小,得到第v张缩放好的图像;
2.4.3采用标准化操作将第v张缩放好的图像进行标准化,得到标准化后的第v张图像;
2.4.4若v≤V,令v=v+1,转2.4.2;若v>V,得到由V个缩放标准化后的图像组成的新验证集DV
7.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于第三步所述初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数是采用均值为0,方差为0.01的正态分布初始化;初始学习率learning_rate初始化为0.01,衰减系数初始化为0.1,优化器的超参数“动量”初始化为0.9,“权重衰减”初始化为0.0004;网络训练的批次大小mini_batch_size初始化为64;最大训练步长maxepoch初始化为120。
8.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于第三步中,所述Nm=10,3.3.5步所述αl设置为2,β设置为4;3.3.8步所述角点预测网络损失权重
Figure FDA0004170244520000152
中心点预测网络损失权重
Figure FDA0004170244520000153
粗略框预测网络损失权重
Figure FDA0004170244520000154
精细框预测网络损失权重
Figure FDA0004170244520000155
9.如权利要求1所述的一种基于特征自适应聚合的目标检测方法,其特征在于4.11.3步所述置信度阈值设置为0.3。
CN202211219905.9A 2022-10-06 2022-10-06 一种基于特征自适应聚合的目标检测方法 Active CN115631344B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211219905.9A CN115631344B (zh) 2022-10-06 2022-10-06 一种基于特征自适应聚合的目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211219905.9A CN115631344B (zh) 2022-10-06 2022-10-06 一种基于特征自适应聚合的目标检测方法

Publications (2)

Publication Number Publication Date
CN115631344A CN115631344A (zh) 2023-01-20
CN115631344B true CN115631344B (zh) 2023-05-09

Family

ID=84905182

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211219905.9A Active CN115631344B (zh) 2022-10-06 2022-10-06 一种基于特征自适应聚合的目标检测方法

Country Status (1)

Country Link
CN (1) CN115631344B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052026B (zh) * 2023-03-28 2023-06-09 石家庄铁道大学 一种无人机航拍图像目标检测方法、***及存储介质
CN117152083B (zh) * 2023-08-31 2024-04-09 哈尔滨工业大学 一种基于类别激活映射的探地雷达道路病害图像预测可视化方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821357A (zh) * 2022-04-24 2022-07-29 中国人民解放军空军工程大学 一种基于transformer的光学遥感目标检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135267B (zh) * 2019-04-17 2020-09-25 电子科技大学 一种大场景sar图像细微目标检测方法
CN111475650B (zh) * 2020-04-02 2023-04-07 中国人民解放军国防科技大学 一种俄语语义角色标注方法、***、装置以及存储介质
CN112418268A (zh) * 2020-10-22 2021-02-26 北京迈格威科技有限公司 目标检测方法、装置及电子设备
CN113158862B (zh) * 2021-04-13 2023-08-22 哈尔滨工业大学(深圳) 一种基于多任务的轻量级实时人脸检测方法
CN114841244B (zh) * 2022-04-05 2024-03-12 西北工业大学 一种基于鲁棒采样和混合注意力金字塔的目标检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114821357A (zh) * 2022-04-24 2022-07-29 中国人民解放军空军工程大学 一种基于transformer的光学遥感目标检测方法

Also Published As

Publication number Publication date
CN115631344A (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN110188705B (zh) 一种适用于车载***的远距离交通标志检测识别方法
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN106845487B (zh) 一种端到端的车牌识别方法
CN115631344B (zh) 一种基于特征自适应聚合的目标检测方法
US20210081695A1 (en) Image processing method, apparatus, electronic device and computer readable storage medium
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN114359851A (zh) 无人驾驶目标检测方法、装置、设备及介质
CN104299006A (zh) 一种基于深度神经网络的车牌识别方法
US11615612B2 (en) Systems and methods for image feature extraction
CN112990065B (zh) 一种基于优化的YOLOv5模型的车辆分类检测方法
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN113723377A (zh) 一种基于ld-ssd网络的交通标志检测方法
CN113657409A (zh) 车辆损失检测方法、装置、电子设备及存储介质
CN112287859A (zh) 物体识别方法、装置和***,计算机可读存储介质
CN117058646B (zh) 基于多模态融合鸟瞰图的复杂道路目标检测方法
CN112395962A (zh) 数据增广方法及装置、物体识别方法及***
CN110909656B (zh) 一种雷达与摄像机融合的行人检测方法和***
US20070223785A1 (en) Image processor and method
CN111062347B (zh) 一种自动驾驶中交通要素分割方法、电子设备及存储介质
CN114764856A (zh) 图像语义分割方法和图像语义分割装置
CN115995042A (zh) 一种视频sar运动目标检测方法及装置
CN113743163A (zh) 交通目标识别模型训练方法、交通目标定位方法、装置
CN115641584B (zh) 一种雾天图像识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant