CN115631344B

CN115631344B - 一种基于特征自适应聚合的目标检测方法

Info

Publication number: CN115631344B
Application number: CN202211219905.9A
Authority: CN
Inventors: 陈微; 何玉麟; 罗馨; 李晨; 姚泽欢; 汤明鑫
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-10-06
Filing date: 2022-10-06
Publication date: 2023-05-09
Anticipated expiration: 2042-10-06
Also published as: CN115631344A

Abstract

本发明公开了一种基于特征自适应聚合的目标检测方法，目的是解决现有实时目标检测方法检测精度有待提高的问题。技术方案是：构建由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成的基于特征自适应聚合的目标检测***；准备目标检测***所需的数据集并通过数据增强技术对训练集图像数据进行优化；采用训练集对目标检测***进行训练，辅助任务模块辅助网络训练；然后对训练后的目标检测***进行验证，选择性能最优异的模型参数，得到性能最优异的训练后目标检测***；最后采用性能最优异的训练后目标检测***对用户输入图像进行目标检测，得到目标的位置和类别。本发明以较小的时间开销，实现了较大的精度提升。

Description

一种基于特征自适应聚合的目标检测方法

技术领域

本发明涉及图像识别目标检测领域，具体涉及一种优化目标检测精度的基于特征自适应聚合的目标检测方法。

背景技术

目标检测是计算机视觉的重要任务之一，拥有如智能安防、智能机器人、智能交通等众多应用。随着人工智能和深度学习的发展，目标检测技术的性能得到了显著的提升。目标检测方法的性能评价一般有精确性和实时性两个方面，前者反映方法的检测准确度，后者反映方法的处理速度。对于如人脸检测、车辆检测、行人检测等任务来说，实时性也是衡量目标检测方法性能的重要指标。在现实应用中，需要在较短的时间内，完成对输入图像的检测，否则就会造成延迟过高的情况，轻则使用户体验欠佳，重则导致出现如车祸等严重交通事故。

现有的实时目标检测方法一般分为两大类：anchor-base方法和anchor-free方法。Anchor-base方法生成预定义遍布全图的先验框，并提取先验框特征完成分类和回归任务。但因anchor-base方法的预定义先验框需要人工设置超参数，且对不同数据集长宽比、大小等均不一样，因此泛化能力较弱，而且该方法较anchor-free方法也更为复杂，实时性上略显不足。Anchor-free方法无需预定义先验框，直接提取特征图像素点特征完成分类和回归任务。Anchor-free方法在速度和泛化性上更占优势，但该方法的精度却受限于表征能力较弱的点特征。

文献“Zhou X,Wang D.Objects as points[J].arXiv preprint arXiv:1904.07850,2019.”(CenterNet)介绍了一种基于anchor-free的实时目标检测方法，其利用关键点检测的思想，为每一个物体生成一个高斯核，用于定位物体的中心点位置，再利用回归分支预测物体框的长和宽。CenterNet实现了简单的模型结构，运行速度快，但需要长时间的训练，才能使模型收敛。文献“Liu Z,Zheng T,Xu G,et al.Training-time-friendly network for real-time object detection[C]//Proceedings of the AAAIConference on Artificial Intelligence.2020,34(07):11685-11692.”(TTFNet)针对CenterNet训练时间长的问题，设置了范围更广的高斯核，并将更多的像素点视为训练样本，增大了训练样本的数量，使模型更容易收敛。该方法不再只定位物体中心点，而是将物体高斯核区域的任意一点都视为预测基点，再利用回归分支预测预测基点到预测框上、下、左、右四个方向的距离。经过上述改进，减少了训练时间且精度有所提升。

上述两种anchor-free方法在速度和泛化性上实现了较大的性能优势，但因为没有考虑到像素点特征能力不足，且分类、回归分支耦合度较高这些影响精度的关键问题，在精度上比起anchor-base方法仍较低。

如何提高目标检测方法中特征表征能力不足，提高准确度仍然是本领域技术人员极为关注的技术问题。

发明内容

本发明要解决的技术问题是针对现有的实时目标检测方法特征表征能力不足、分类和回归分支特征耦合度较高、检测精度有待提高的问题，提出一种基于特征自适应聚合的目标检测方法。在不影响实时性的前提下，利用自适应特征聚合技术，增加少量计算量，缓解特征表征能力不足、分类和回归分支特征耦合度较高的问题，提升目标检测精度。

为解决上述技术问题，本发明技术方案是：构建基于特征自适应聚合的目标检测***。该***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。准备、构建目标检测***所需的数据集，将数据集划分为训练集、验证集和测试集。通过数据增强技术对训练集图像数据进行随机裁剪、随机翻转、随机平移、随机亮度、饱和度、对比度变化处理、标准化处理，增强训练数据多样性。对验证集和测试集只采用尺寸缩放和标准化处理，保持原图像的视觉线索。然后采用训练集对目标检测***中的主特征提取模块、特征自适应聚合模块、辅助任务模块和主任务模块进行训练。训练时辅助任务模块辅助网络训练，目的是增强目标检测网络对物体角点位置的关注，提升定位准确性。在一轮训练结束后，使用验证集对训练后的目标检测***进行测试，选择性能最优异的模型参数，赋值到目标检测***中的可训练模块(主特征提取模块、特征自适应聚合模块、主任务模块)中，得到性能最优异的训练后的目标检测***；最后采用性能最优异的训练后的目标检测***对用户输入的图像进行目标检测，得到目标的位置和类别。

本发明技术方案包括以下步骤：

第一步，构建基于特征自适应聚合的目标检测***。如图1所示，目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成。

主特征提取模块与特征自适应聚合模块相连，主特征提取模块从输入图像提取多尺度特征，将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络(见文献“Redmon J,Farhadi A.Yolov3:Anincremental improvement[J].arXiv preprint arXiv:1804.02767,2018.”Redmon J,Farhadi A等人的论文：Yolov3)和一个特征金字塔网络(见文献“Lin T Y,Dollár P,Girshick R,et al.Feature pyramid networks for object detection[C]//Proceedings of the IEEE conference on computer vision and patternrecognition.2017:2117-2125.”Lin T Y,Dollár P,Girshick R等人的论文：特征金字塔网络用于目标检测)组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络，这53层神经网络分为5个串行子网络，用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征，经过上采样、特征提取、特征融合操作，得到包含多尺度特征的多尺度特征图，将多尺度特征图发送给特征自适应聚合模块。

特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连，特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图，为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图，提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE(Squeeze-and-excitation)网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成，从主特征提取模块的特征金字塔网络接收多尺度特征图，采用自适应多尺度特征聚合方法，对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图，将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，对多尺度感知的高像素特征图进行预测，得到粗略框预测位置，将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，从粗略框预测网络接收粗略框预测位置，生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图，将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块，不仅使主任务模块拥有自适应空间感知能力，还缓解输入特征耦合度高影响检测精度的问题。

辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连，辅助任务模块是一个角点预测网络，角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成，辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，角点预测网络对多尺度感知的高像素特征图进行预测，得到角点预测热力图，用于目标检测***训练中计算角点预测损失，辅助目标检测***对角点区域的感知。辅助任务模块只在训练目标检测***时使用，用于增强目标检测***对物体角点位置的感知，使预测物体框的位置更准确。在训练后的目标检测***对用户输入图像进行检测时，该模块直接丢弃，不增加额外计算量。

主任务模块与自适应空间特征聚合网络、后处理模块相连，由精细框预测网络和中心点预测网络构成。精细框预测网络是一个一层1×1卷积层，从自适应空间特征聚合网络接收边界区域感知的高像素特征图，对边界区域感知的高像素特征图进行1×1卷积，得到精细框预测位置，将精细框预测位置发送给后处理模块；中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成，从自适应空间特征聚合网络接收显著性区域感知的高像素特征图，对显著性区域感知的高像素特征图进行1×1卷积和激活，得到中心点预测热力图，将中心点预测热力图发送给后处理模块。

后处理模块是一个3×3池化层，与主任务模块中的精细框预测网络和中心点预测网络相连，从精细框预测网络接收精细框预测位置，从中心点预测网络接收中心点预测热力图，采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值，提取出保留的预测最大值的位置，即峰值点，作为物体中心区域点位置。通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离，生成预测物体框位置，且该中心区域点位置所在的中心点类别即为物体预测的类别。后处理模块通过提取3×3范围内的峰值点抑制重叠伪框，减少假阳性预测框。

第二步，构建训练集、验证集和测试集，方法是：

2.1收集目标检测场景图像作为目标检测数据集，并对目标检测数据集中的每个目标检测场景图像进行人工标注，方法是：

使用MS COCO公开的通用场景数据集(见文献“Tsung-Yi Lin,Michael Maire,Serge Belongie,James Hays,Pietro Perona,Deva Ramanan,Piotr Dollar,and CLawrence′Zitnick.Microsoft coco:Common objects in context.In ECCV,2014.”Tsung-Yi Lin,Michael Maire等人的论文：Microsoft coco：情景中的常见物体)或Cityscapes无人驾驶场景数据集(见文献“Cordts M,Omran M,Ramos S,et al.TheCityscapes Dataset for Semantic Urban Scene Understanding[C]//2016IEEEConference on Computer Vision and Pattern Recognition(CVPR).IEEE,2016.”CordtsM,Omran M等人的论文：Cityscapes数据集语义城市场景理解)作为目标检测数据集。MSCOCO数据集拥有80个类别，包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类：行人、骑手、小车、卡车、巴士、火车、摩托车和自行车，其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S，令测试集中图像总数为T，令验证集中图像总数为V，S为205000或2975，T为20000或1524，V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注，即每张图像都以矩形框的形式标注了物***置，并标注了物体的类别。

2.2对训练集中S张图像进行优化处理，包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化，得到优化后的训练集D_t，方法是：

2.2.1令变量s＝1，初始化优化后的训练集D_t为空；

2.2.2采用随机翻转方法对训练集中的第s张图像进行翻转，得到第s个翻转后的图像，随机翻转方法的随机概率为0.5；

2.2.3采用最小交并比(IoU)对第s个翻转后的图像进行随机裁剪，得到第s个裁剪后的图像；最小交并比(IoU)采用的最小尺寸比为0.3。

2.2.4对第s个裁剪后的图像进行随机图像平移，得到第s个平移后的图像；

2.2.5采用随机亮度对第s个平移后的图像进行亮度变换，得到第s个亮度变换后的图像；随机亮度采用的亮度差值为32。

2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理，得到第s个对比度变换后的图像；随机对比度的对比度范围为(0.5,1.5)。

2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换，得到第s个饱和度变换后的图像；随机饱和度的饱和度范围为(0.5,1.5)。

2.2.8采用缩放操作将第s个饱和度变换后的图像缩放为512×512大小，得到第s个缩放后的图像；

2.2.9采用标准化操作将第s个缩放后的图像进行标准化，得到第s个标准图像，将第s个标准图像放到优化后的训练集D_t中。

2.2.10若s≤S，令s＝s+1，转2.2.2；若s>S，得到由S个标准图像组成的优化后的训练集D_t，转2.3。

2.3根据优化后的训练集D_t，制作用于模型训练的任务真值标签。一共分为四个任务，分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务，方法是：

2.3.1令变量s＝1；令优化后的训练集中的第s张图像有N_s个标注框，令N_s个标注框中的第i个标注框为

令第i个标注框的标注类别为cⁱ，

代表第i个标注框的左上角点坐标，

代表第i个标注框的右下角点坐标，N_s为正整数，1≤i≤N_s。

2.3.2构建中心点预测任务的中心点预测真实值

方法是：

2.3.2.1构建一个大小为

的全零矩阵图H_zeros，C表示优化后的训练集的分类类别数量，该类别数量为目标检测数据集标注目标的类别数量，如MS COCO数据集为80类、Cityscapes数据集为19类，H是第s张图像的高，W是第s张图像的宽；

2.3.2.2令i＝1，表示第i个下采样4倍的标注框；

2.3.2.3将

标注坐标除以4，记为下采样4倍的标注框

代表B_si′的左上、右上、左下、右下角点位置。

2.3.2.4采用二维高斯核生成方法，计算以B_si′的中心点

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的全部像素点的高斯值，得到第一高斯值集合S_ctr。具体步骤为：

2.3.2.4.1令二维高斯核内像素点数量为N_pixel,N_pixel为正整数，令第一高斯值集合S_ctr为空；

2.3.2.4.2令p＝1，表示二维高斯核内像素点编号，1≤p≤N_pixel；

2.3.2.4.3第s张图像中以(x₀,y₀)为基点的高斯核范围内任意一个像素点(x_p,y_p)的二维高斯值K(x_p,y_p)为：

其中(x₀,y₀)是二维高斯核的基点，即二维高斯核中心(可以是B′_si的中心也可以是B′_si的角点)，x₀为基点的宽方向的坐标值，y₀为基点的高方向的坐标值。(x_p,y_p)为基点(x₀,y₀)高斯核范围内的像素点，x_p为该像素点的宽方向的坐标值，y_p为该像素点的高方向的坐标。(x₀,y₀)和(x_p,y_p)均位于下采样4倍后的图像坐标系。

表示二维高斯核在宽方向的方差，

表示二维高斯核在高方向的方差，通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量。w表示B_si′在特征图尺度下的宽，h表示B_si′在特征图尺度下的高，α是决定中心区域位置占B_si′比例的参数，设置为0.54。将(x_p,y_p)和计算得出的K(x_p,y_p)存入第一高斯值集合S_ctr中；

2.3.2.4.4令p＝p+1；若p≤N_pixel，转2.3.2.4.3；若p>N_pixel，B_si′的高斯核内的坐标和二维高斯值已全部存入S_ctr中，S_ctr中有N_pixel个像素点及其对应的二维高斯值，转2.3.2.5；

2.3.2.5将S_ctr中的值赋值到H_zeros中。将S_ctr中的元素(x_p,y_p)和K(x_p,y_p)按照H_zeros[x_p,y_p,cⁱ]＝K(x_p,y_p)的规则赋值，cⁱ代表B_si′的类别编号，1≤cⁱ≤C且cⁱ为正整数；

2.3.2.6令i＝i+1；若i≤N_s，转2.3.2.3；若i>N_s，说明第s张图像的N_s个下采样4倍的标注框生成的二维高斯值均已赋值到H_zeros中，转2.3.2.7；

2.3.2.7令第s张图像的中心点预测真实值

2.3.3构建角点预测任务的角点预测真实值

方法是：

2.3.3.1构建一个大小为

的全零矩阵

“4”表示下采样4倍的标注框的角点数量4，也表示矩阵的4个通道；

2.3.3.2令i＝1，表示第i个下采样4倍的标注框；

2.3.3.3令二维高斯核的基点为B_si′的左上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的内全部像素点的高斯值，得到第二高斯值集合S_tl；

2.3.3.4将S_tl中的元素坐标和高斯值赋值到

的第1个通道中，即按照

的规则赋值；

2.3.3.5令二维高斯核的基点为B_si′的右上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的内全部像素点的高斯值，得到第三高斯值集合S_tr；

2.3.3.6将S_tr中的元素坐标和高斯值赋值到

的第2个通道中，即按照

的规则赋值；

2.3.3.7令二维高斯核的基点为B_si′的左下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的内全部像素点的高斯值，得到第四高斯值集合S_dl；

2.3.3.8将S_dl中的元素坐标和高斯值赋值到

的第3个通道中，按照

的规则赋值；

2.3.3.9令二维高斯核的基点为B′_si的右下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的内全部像素点的高斯值，得到第五高斯值集合S_dr；

2.3.3.10将S_dr中的元素坐标和高斯值赋值到

的第4个通道中，即按照

的规则赋值；

2.3.3.11令i＝i+1，若i≤N_s，转2.3.3.3；若i>N_s，说明第s张图像的N_s个下采样4倍的标注框生成的二维高斯值均已赋值到

中，转2.3.3.12；

2.3.3.12令第s张图像的角点预测真实值

2.3.4根据第s张图像的N_s个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值

方法是：

2.3.4.1构建一个大小为

的全零矩阵

“4”表示下采样4倍的标注框的4个坐标；

2.3.4.2令i＝1，表示第i个下采样4倍的标注框；

2.3.4.3对H_zeros在第i个下采样4倍的标注框B_si′内部的像素点进行赋值，即将B_si′坐标值

赋值到

的像素位置的4个通道中；

2.3.4.4令i＝i+1，若i≤N_s，转2.3.4.3；若i>N_s，说明第s张图像的N_s个标注框对应的粗略框真实值已赋值到

中，赋了值的

成为第s张图像的真值标签，转2.3.4.5；

2.3.4.5令第s张图像的粗略框真实值

2.3.5根据

构建精细框预测任务的精细框真实值

值与

相等，即

2.3.6令s＝s+1，若s≤S，转2.3.2；若s>S，转2.3.7；

2.3.7得到S张图像用于模型训练的任务真实标签，并将其和S张图像组成一个集合，构成用于模型训练的训练集D_M；

2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理，得到由V张缩放标准化后的图像组成的新的验证集D_V，方法是：

2.4.1令变量v＝1；

2.4.2采用缩放操作将验证集中第v张图像缩放为512×512大小，得到第v张缩放好的图像；

2.4.3采用标准化操作将第v张缩放好的图像进行标准化，得到标准化后的第v张图像。

2.4.4若v≤V，令v＝v+1，转2.4.2；若v>V，得到由V个缩放标准化后的图像组成的新验证集D_V，转2.5。

2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理，得到由T张缩放标准化后的图像组成的新的测试集D_T。

第三步，利用梯度反向传播方法对第一步构建的目标检测***进行训练，得到N_m个模型参数。方法是：

3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https://www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数；采用均值为0，方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。

3.2设置目标检测***训练参数。设置初始学习率learning_rate为0.01，设置学习率衰减系数为0.1，即学习率缩小10倍(在训练步长为80和110时进行衰减)。选用随机梯度下降(SGD)作为模型训练优化器，该优化器的超参数“动量”为0.9，“权重衰减”为0.0004。网络训练的批次大小(mini_batch_size)为64。最大训练步长(maxepoch)为120。

3.3训练目标检测***，方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss)，利用梯度反向传播更新网络权重参数，直到损失值达到阈值或训练步长达到maxepoch结束。在最后N_m(一般为10)个训练步，每训练一轮，保存一次网络权重参数。

方法如下：

3.3.1令训练步epoch＝1，训练集所有数据训练一个周期为一个epoch，初始化批次序号N_b＝1；

3.3.2主特征提取模块从D_M读取第N_b批次，共B＝64个图像，将这B个图像记为矩阵形式I_train，I_train中包含B个H×W×3的图像。其中的H表示输入图像的高，W表示输入图像的宽，“3”代表图像的RGB三个通道。

3.3.3主特征提取模块采用主特征提取方法提取I_train的多尺度特征，得到I_train的多尺度特征，将包含I_train的多尺度特征的多尺度特征图发送给自适应特征聚合模块。方法为：

3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取I_train的图像特征，得到主干网络特征图集合，方法是：DarkNet-53卷积神经网络的5个串行子网络对I_train的B个图像进行下采样、特征提取，得到主干网络特征，即4个特征图(后四个串行子网络的输出)，发送给特征金字塔网络。

3.3.3.2特征金字塔网络从DarkNet-53卷积神经网络接收4个特征图，特征金字塔网络对4个特征图进行上采样、特征提取和特征融合，得到3个多尺度特征图，令为

将多尺度特征图

发送给特征自适应聚合模块。

3.3.4特征自适应聚合模块从特征金字塔网络接收多尺度特征图

生成多尺度感知的高像素特征图F_H，将F_H发送给辅助任务模块；并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图，将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块。方法是：

3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收

采用自适应多尺度特征聚合方法对

进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图F_H。F_H的特征图分辨率为

F_H的特征图通道数为64。具体方法如下：

3.3.4.1.1自适应多尺度特征聚合网络使用第一、第二、第三SE网络并行对

进行并行通道自注意力增强，即第一SE网络对

施加在通道上的加权求和，得到第一通道表征增强后的图像

同时第二SE网络对

施加在通道上的加权求和，得到第二通道表征增强后的图像

同时第三SE网络对

施加在通道上的加权求和，得到第三通道表征增强后的图像

3.3.4.1.2自适应多尺度特征聚合网络的第一、第二、第三SE网络并行采用双线性插值将

上采样到相同的分辨率大小

得到上采样后的特征图

成为上采样后的特征图集合

具体计算过程如公式(2)所示：

其中SE_n表示第n个SE网络，

表示第l个多尺度特征图，Upsample表示双线性插值上采样，1≤l≤3，1≤n≤3。

3.3.4.1.3自适应多尺度特征聚合网络对

采用1×1卷积计算权重，将通道数从64减少为1，再在尺度维度上执行Softmax操作，得到大小为

的软权重图

软权重图的像素点的数值大小表明应更关注

这3个尺度中的哪一个，即

中哪一个所占权重更大，从而让不同尺寸的物体响应不同尺度的特征图。

3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图

与对应的第l个上采样后的特征图

逐元素乘，即将

与

对应逐元素乘，将

与

对应逐元素乘，

与

分别逐元素乘，得到3个乘积，然后对这3个乘积进行加权求和，融合为一个特征图，得到融合后的特征图；接着采用第四SE网络增强融合后的特征图的通道表征，得到多尺度感知的高像素特征图F_H。具体过程如公式(3)所示：

其中SE₄为第四SE网络，

表示同一位置元素在不同尺度中所占权重，“×”表示对应位置元素乘积，Conv表示1×1卷积。自适应多尺度特征聚合网络将F_H发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络。

3.3.4.2粗略框预测网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图F_H，采用粗略框预测方法对F_H中每一个特征点位置进行粗略框位置预测，生成粗略框预测位置B_coarse，将B_coarse发送给自适应空间特征聚合网络，B_coarse也是

的矩阵，分辨率大小为

通道数为4。通道数4表示从像素点出发到上、下、左、右四个方向的距离，每一个像素点形成一个粗略框。B_coarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围。并且，对B_coarse与2.2.5.4构建的粗略框真实值

计算损失

的损失计算是基于GIoU loss(见文献“Rezatofighi H,Tsoi N,Gwak J Y,et al.Generalizedintersection over union:A metric and a loss for bounding box regression[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:658-666.”Rezatofighi H,Tsoi N等人的论文：广义交并比：边界框回归的度量和损失)：

其中S_b是回归样本集合，由

不为0的像素集合组成；N_b是回归样本集合的数量，W_ij是对应

不为0的(i,j)位置权重值，用于对中心区域位置像素点施加更大损失权重，使中心区域位置的像素点回归标注框的位置更准确。

3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图F_H，从粗略框预测网络接收粗略框预测位置B_coarse，生成边界区域感知的高像素特征图F_HR和显著性区域感知的高像素特征图F_HS。方法是：

3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。可形变卷积(DConv)(见文献“Zhu X,Hu H,Lin S,et al.Deformable convnets v2:More deformable,better results[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2019:9308-9316.”Zhu X,Hu H等人的论文：Deformable convnets v2：更易变形，更好的结果)因自适应稀疏采样的特性常被用于增强特征的空间感知能力，但其采样范围未加以限制，导致采样点容易过分偏移，且对于不同大小的物体，自适应学习采样最具代表性特征点的难度不一致，导致对于不同大小物体检测的适应性较差，因此本发明设计区域受限的可形变卷积(R-DConv)以增强适应性。具体方法是：

3.3.4.3.1.1设计偏移量转换函数

对可形变卷积的偏移量Δp(Δp为基于特征点的可学***方向的偏移。

如公式(5)所示：

其中

表示在垂直方向的偏移量转换函数，

表示在水平方向的偏移量转换函数，总体的偏移量转换函数

(t,l,r,d)是卷积核位置p与B_coarse的上下左右四个方向的距离。

3.3.4.3.1.2利用

限制可形变卷积采样区域。给定一个3×3卷积核，其拥有K＝9个空间采样位置点，w_k表示第k个位置的卷积核权重，P_k表示第k个位置的预定义位置偏移量。P_k∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围。令x(p)表示卷积核中心位置p处的输入特征图，y(p)表示卷积核中心位置p处的输出特征图。采用R-DConv计算y(p)，如公式(6)所示：

其中Δp_k表示第k个位置的可学习偏移量，Δm_k表示第k个位置的权重。Δp_k和Δm_k由一个3×3卷积生成，3×3卷积生成27通道的特征图，其中9个通道为Δp_k横坐标偏移值，9个通道为Δp_k纵坐标偏移值，9个通道(代表不同偏移值特征的权重)为Δm_k的值。B_coarse表示在当前特征图尺度上预测的粗略框，也是预定义限制区域。

3.3.4.3.2为使R-DConv在粗略框范围内学习物体的显著性区域，提取出使物体分类更准确的特征，采用分类自适应空间特征聚合方法利用B_coarse限制采样范围对F_H进行特征聚合，分类自适应空间特征聚合方法具体为：

3.3.4.3.2.1令分类偏移量转换函数

用公式(6)计算得到位置p处的输出特征y_cls(p)。

3.3.4.3.2.2采用

利用卷积核遍历F_H，得到显著性区域感知的高像素特征图F_HS。

允许采样点集中，使分类分支可以专注最具鉴别能力的显著性区域。因此，令

使R-DConv在粗略框范围内学习物体的显著性区域，提取出使物体分类更准确的特征，即显著性区域感知的高像素特征图F_HS，将F_HS发送给主任务模块。

3.3.4.3.3为使R-DConv在粗略框范围内学习物体的边界区域信息，提取使物***置回归更准确的特征，采用回归自适应空间特征聚合方法利用B_coarse限制采样范围对F_H进行特征聚合，回归自适应空间特征聚合方法具体为：

3.3.4.3.3.1设计回归偏移量转换函数

对可形变卷积的偏移量Δp进行变换。

将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分，使限定区域被划分为四个子区域，分别对应左上、右上、左下和右下。

分别对四子区域进行均匀采样，即每个区域分配等额的采样点。通过这种方式，R-DConv操作的空间采样点被分散了，从而能提取包含更多来自边界的信息的特征，能够更准确地回归物***置。设置K＝9，

函数从四个子区域各采样两个点，总共八个边缘点，再加上一个中心点，形成3×3的卷积核，增强中心特征点对边界信息的捕获。回归偏移量转换函数

如公式(7)所示：

为对粗略框区间内的偏移量进行归一化的Sigmoid函数，通过归一化可平衡不同大小物体的采样难度。

将

代入公式(6)中的

得到位置p处的输出特征y_reg(p)。因此

使R-DConv在粗略框范围内学习物体边界的区域，提取使预测框回归位置更准确的特征，即边界区域感知的高像素特征图F_HR。

3.3.4.3.3.2采用

利用卷积核遍历F_H，得到边界区域感知的高像素特征图F_HR，将F_HR发送给主任务模块。

3.3.5辅助任务模块从自适应多尺度特征聚合网络接收F_H，经过两层3×3卷积、一层1×1卷积和sigmoid函数处理，得到角点预测热力图H_corner，H_corner的分辨率大小为

通道数为4。对H_corner与2.3.3构建的角点预测真实值

计算损失，得到H_corner和

的损失值

的计算是基于修改版的Focal Loss(见文献“Law H,DengJ.Cornernet:Detecting objects as paired keypoints[C]//Proceedings of theEuropean conference on computer vision(ECCV).2018:734-750.”Law H,Deng J等人的论文：Cornernet：用成对的关键点检测物体)：

其中N_s是该图像标注框的数量，α_l和β是超参数，分别设置为2和4，用于控制损失函数的梯度曲线。

是第c通道、(i,j)像素位置处的辅助任务模块输出的角点预测值，

是第c通道、像素位置(i,j)的角点预测真实值。辅助任务模块学习定位标注框的四个角点的位置，辅助目标检测网络训练，使提取特征更关注物体角点位置，从而使目标检测***定位物体的位置更准确。

3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图F_HR，经过一层1×1卷积处理，得到F_HR特征点位置的精细框预测位置B_refine。B_refine的分辨率大小为

通道数为4。通道数4表示像素点到预测精细框上、下、左、右四个方向的距离，每一个像素点可形成一个精细预测框。对B_refine与2.3.5得到的精细框真实值

计算损失

的计算基于GIoU loss：

其中S_b是回归样本集合，由

不为0的像素集合组成。N_b是回归样本集合的数量，W_ij是对应

不为0的(i,j)位置权重值，用于对中心区域位置像素点施加更大损失权重，使中心区域位置的像素点回归标准框的位置更准确。B_refine的学习质量代表目标检测***回归物***置的准确度。

3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图F_HS，经过一层1×1卷积和sigmoid函数处理，得到F_HS特征点位置的中心点预测热力图H_center。H_center的分辨率大小为

通道数为数据集类别数量C。MS COCO数据集的C为80，CityScapes数据集的C为8。将H_center与2.2.5.2构建的中心点预测真实值

计算损失

的计算基于修改版的Focal Loss：

是第c通道、(i,j)像素位置的中心点预测热力图，

是第c通道、(i,j)像素位置的中心点预测真实值。H_center的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力。

3.3.8设计目标检测***的总损失函数

如公式(11)所示：

其中

是角点预测网络输出的H_corner和真实值

计算的损失值，

是中心点预测网络输出的H_center和真实值

计算的损失值，

是粗略框预测网络输出的B_coarse和真实值

计算的损失值，

是精细框预测网络输出的B_refine和真实值

计算的损失值。根据重要性令角点预测网络损失权重

中心点预测网络损失权重

粗略框预测网络损失权重

精细框预测网络损失权重

3.3.9令epoch＝epoch+1，若epoch为80或110，令learning_rate＝learning_rate×0.1，转3.3.10；若epoch既不是80也不是110，直接转3.3.10；

3.3.10若epoch≤maxepoch，转3.3.2；若epoch>maxepoch，说明训练结束，转3.3.11；

3.3.11保存后N_m个epoch的网络权重参数。

第四步，使用验证集验证装载后N_m个epoch的网络权重参数的目标检测***的检测精度，保留性能最好的网络权重参数作为目标检测***的网络权重参数。方法是：

4.1令变量n_m＝1；

4.2目标检测***加载后N_m个epoch的网络权重参数中的第n_m个网络权重参数；将经过2.4步采用图像缩放标准化方法处理过的新的验证集D_V输入目标检测***；

4.3令v＝1，为验证集的第v张图像，V是验证集的图像数量；

4.4主特征提取模块接收第v张验证集图像D_v，采用3.3.3所述的主特征提取方法提取D_v的多尺度特征，得到D_v的多尺度特征，将包含D_v的多尺度特征的多尺度特征图发送给自适应特征聚合模块；

4.5特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含D_v的多尺度特征的多尺度特征图，采用3.3.4.1所述的自适应多尺度特征聚合方法对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到D_v的多尺度感知的高像素特征图F_HV，将F_HV发送给粗略框预测网络、自适应空间特征聚合网络；

4.6特征自适应聚合模块中的粗略框预测网络接收F_HV，采用3.3.4.2所述的粗略框预测方法对F_HV中每一个特征点位置进行粗略框位置预测，生成第v张验证集图像D_v的粗略框预测位置B_HVcoarse；将B_HVcoarse发送给自适应空间特征聚合网络。B_HVcoarse也是

的矩阵，分辨率大小为

通道数为4；

4.7特征自适应聚合模块中的自适应空间特征聚合网络从粗略框预测网络接收B_HVcoarse，从自适应多尺度特征聚合网络接收F_HV，采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用B_HVcoarse对采样范围进行限制，对F_HV进行分类任务空间特征聚合，得到第v张验证集图像D_v的显著性区域感知的高像素特征图；将第v个验证图像的显著性区域感知的高像素特征图发送给中心点预测网络；

4.8特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用B_HVcoarse对采样范围进行限制，对F_HV进行回归任务空间特征聚合，得到第v张验证集图像D_v的边界区域感知的高像素特征图；将第v个验证图像的边界区域感知的高像素特征图发送给精细框预测网络；

4.9主任务模块中的精细框预测网络接收边界区域感知的高像素特征图，经过一层1×1卷积处理，得到第v张验证集图像D_v物体的精细框预测位置，将第v个验证图像的精细框预测位置发送给后处理模块；

4.10主任务模块中的中心点预测网络接收第v张验证集图像D_v的显著性区域感知的高像素特征图，经过一层1×1卷积处理，得到第v张验证集图像D_v的中心点预测热力图，将第v个验证图像D_v的中心点预测热力图发送给后处理模块；

4.11后处理模块接收第v个验证图像D_v的精细框预测位置和中心点预测热力图，采用去除重叠伪框方法对第v个验证图像D_v的精细框预测位置和中心点预测热力图进行去除重叠伪框操作，得到第v个验证图像D_v的预测物体框集合，具体方法如下：

4.11.1后处理模块对第v个验证图像D_v的中心点预测热力图执行3×3最大池化操作(2D Max-Pooling)，提取第v个验证图像D_v的中心点预测热力图的峰值点集合，每一个峰值点表示预测物体内的一个中心区域点；

4.11.2从第v个验证图像D_v的中心点预测热力图得到峰值点(P_x，P_y)的坐标值P_x，P_y，后处理模块从D_v的精细框预测位置得到峰值点(P_x，P_y)上、左、下、右四个方向的距离信息(t，l，d，r)，得到D_v的预测框B_p＝{P_y-t，p_l-1，p_d+d，p_r+r}。B_p的类别即为峰值点(P_x，P_y)位置的中心点热力图像素值最大的通道值，记为c_p。B_p的置信度即为峰值点(P_x，P_y)位置的中心点热力图第c_p通道的像素值，记为s_p；

4.11.3后处理模块保留第v个验证图像D_v中置信度s_p大于置信度阈值(一般设置为0.3)的预测框，形成第v个验证图像D_v的物体框预测集合，该物体框预测集合保留预测框B_p和B_p的类别c_p信息；

4.12令v＝v+1，若v≤V，转4.4；若v＞V，说明得到第n_m个模型的V张验证图像的物体框预测集合，转4.13；

4.13若验证集采用MS COCO公开的通用场景数据集，则采用标准的MS COCO评测方式(https：//cocodataset.org/)测试目标检测***输出的最终物体框预测集合的精度，记录物体框预测集合的精度，转4.14；若验证集采用Cityscapes无人驾驶场景数据集，则采用Cityscapes评测方式(https：//www.cityscapes-dataset.com/)测试目标检测***输出的最终物体框预测集合的精度，记录物体框预测集合的精度，转4.14；

4.14令n_m＝n_m+1；若n_m≤N_m，转4.2；若n_m＞N_m，说明完成N_m个模型的精度测试，转4.15；

4.15从N_m个模型的物体框预测集合的精度中选择精度最高的物体框预测集合，并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数，将该权重参数作为目标检测***选定的权重参数，将该选定权重参数加载到目标检测***，加载了此选定权重参数的目标检测***成为训练后的目标检测***。

第五步，采用训练后的目标检测***对用户输入的待检测图像进行目标检测，方法是：

5.1采用2.4步所述图像缩放标准化方法对用户输入的待检测图像I进行优化处理，得到标准化后的待检测图像I_nor，将I_nor输入主特征提取模块；

5.2主特征提取模块接收I_nor，采用3.3.3所述的主特征提取方法提取I_nor的多尺度特征，得到I_nor的多尺度特征，将包含I_nor的多尺度特征的多尺度特征图发送给自适应特征聚合模块。

5.3特征自适应聚合模块中的自适应多尺度特征聚合网络接收包含I_nor的多尺度特征的多尺度特征图，采用3.3.4.1所述的自适应多尺度特征聚合方法对包含I_nor的多尺度特征的多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图F_IH，将F_IH发送给粗略框预测网络、自适应空间特征聚合网络；

5.4特征自适应聚合模块中的粗略框预测网络接收F_IH，采用3.3.4.2所述的粗略框预测方法对F_IH进行粗略框位置预测，得到待检测图像I中粗略框预测位置B_Icoarse；将B_Icoarse发送给自适应空间特征聚合网络。B_Icoarse也是

的矩阵，分辨率大小为

通道数为4；

5.5特征自适应聚合模块中的自适应空间特征聚合网络接收F_IH和B_Icoarse，采用3.3.4.3.2所述的分类自适应空间特征聚合方法利用B_Icoarse限制采样范围，对F_IH进行分类任务空间特征聚合，得到待检测图像I的显著性区域感知的高像素特征图；将待检测图像I的显著性区域感知的高像素特征图发送给中心点预测网络；

5.6特征自适应聚合模块中的自适应空间特征聚合网络采用3.3.4.3.3所述的回归自适应空间特征聚合方法利用B_Icoarse限制采样范围，对F_IH进行回归任务空间特征聚合，得到待检测图像I的边界区域感知的高像素特征图；将待检测图像I的边界区域感知的高像素特征图发送给精细框预测网络；

5.7主任务模块中的精细框预测网络接收待检测图像I的边界区域感知的高像素特征图，经过一层1×1卷积处理，得到待检测图像I中物体的精细框预测位置；将待检测图像I中物体的精细框预测位置发送给后处理模块；

5.8主任务模块中的中心点预测网络接收待检测图像I的显著性区域感知的高像素特征图，经过一层1×1卷积处理，得到待检测图像I的物体的中心点预测热力图；将待检测图像I的物体的中心点预测热力图发送给后处理模块；

5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图，采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作，得到待检测图像I的物体框预测集合，待检测图像I的物体框预测集合保留预测框B_p和预测框的类别信息，即待检测图像的预测物体框的坐标位置和预测类别。

第六步，结束。

采用本发明能达到以下有益的效果：

本发明提出了一种基于特征自适应聚合的目标检测方法。本发明采用自适应多尺度特征聚合网络和自适应空间特征聚合网络，以少量计算开销，实现较大的精度提升。本发明适用于绝大多数基于图像的目标检测。采用本发明能取得以下效果：

1.本发明构建了一个融合了主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块的目标检测***，在保证目标检测方法较快实时性的基础上，利用自适应多尺度特征聚合模块的通道自注意力增强、尺度级别软权重聚合和自适应空间特征聚合模块的可形变卷积的自适应特征聚合能力，设计适合目标检测的聚合方式和网络结构，实现了较大的检测精度提升。通过采用MS COCO和Cityscapes数据集对本发明进行实验，本发明的检测精度较背景技术所述的CenterNet和TTFNet有较大提高。

2.本发明的自适应多尺度特征聚合网络利用SE模块增强特征通道表征能力，利用尺度级别的软权重图增强特征的多尺度表征能力；本发明的自适应空间特征聚合网络利用粗略框限定可形变卷积空间采样的范围，缓解其过度偏移的问题，并针对中心点预测任务和精细框预测网络设计不同的偏移量转换函数，使回归任务关注物体边界区域，分类任务关注物体显著性区域，缓解分类和回归任务特征耦合问题，能实现较大的检测精度提升。

附图说明

图1为本发明第一步构建的目标检测***的逻辑结构图。

图2为本发明总体流程图。

图3为本发明检测结果与TTFNet方法结果的比较图。

图4为对本发明效果进行的测试时的检测图像示例图。

具体实施方式

下面结合附图对本发明具体实例进行说明。如图2所示，本发明包括以下步骤：

主特征提取模块与特征自适应聚合模块相连，主特征提取模块从输入图像提取多尺度特征，将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块。主特征提取模块由一个DarkNet-53卷积神经网络组成。DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络，这53层神经网络分为5个串行子网络，用于提取图像的主干网络特征。特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征，经过上采样、特征提取、特征融合操作，得到包含多尺度特征的多尺度特征图，将多尺度特征图发送给特征自适应聚合模块。

特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连，特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图，为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图，提升目标检测***的检测精度。特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成。自适应多尺度特征聚合网络由4个权重不共享的SE网络(分别记这4个SE网络为第一、第二、第三、第四SE网络)组成，从主特征提取模块的特征金字塔网络接收多尺度特征图，采用自适应多尺度特征聚合方法，对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图，将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块。粗略框预测网络由两层3×3卷积和一层1×1卷积构成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，对多尺度感知的高像素特征图进行预测，得到粗略框预测位置，将粗略框预测位置发送给自适应空间特征聚合网络。自适应空间特征聚合网络由两个拥有不同偏移量转换函数(分类偏移量转换函数和回归偏移量转换函数)的区域受限可形变卷积组成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，从粗略框预测网络接收粗略框预测位置，生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图，将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块，不仅使主任务模块拥有自适应空间感知能力，还缓解输入特征耦合度高影响检测精度的问题。

第二步，构建训练集、验证集和测试集，方法是：

使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集。MS COCO数据集拥有80个类别，包含105000张训练图像(train2017)作为训练集、5000张验证图像(val2017)作为验证集和20000张测试图像(test-dev)作为测试集。Cityscapes数据集拥有8个类：行人、骑手、小车、卡车、巴士、火车、摩托车和自行车，其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集。令训练集中图像总数为S，令测试集中图像总数为T，令验证集中图像总数为V，S为205000或2975，T为20000或1524，V为5000或500。MS COCO和Cityscapes数据集的每张图像都进行了人工标注，即每张图像都以矩形框的形式标注了物***置，并标注了物体的类别。

2.2.1令变量s＝1，初始化优化后的训练集D_t为空；

令第i个标注框的标注类别为cⁱ，

代表第i个标注框的左上角点坐标，

代表第i个标注框的右下角点坐标，N_s为正整数，1≤i≤N_s。

2.3.2构建中心点预测任务的中心点预测真实值

方法是：

2.3.2.1构建一个大小为

2.3.2.2令i＝1，表示第i个下采样4倍的标注框；

2.3.2.3将

标注坐标除以4，记为下采样4倍的标注框

代表B_si′的左上、右上、左下、右下角点位置。

2.3.2.4采用二维高斯核生成方法，计算以B_si′的中心点

表示二维高斯核在宽方向的方差，

2.3.2.5将S_ctr中的值赋值到H_zeros中。将S_ctr中的元素(x_p,y_p)和K(x_p,y_p)按照H_zeros[x_p,x_p,cⁱ]＝K(x_p,y_p)的规则赋值，cⁱ代表B_si′的类别编号，1≤cⁱ≤C且cⁱ为正整数；

2.3.2.7令第s张图像的中心点预测真实值

2.3.3构建角点预测任务的角点预测真实值

方法是：

2.3.3.1构建一个大小为

的全零矩阵

2.3.3.2令i＝1，表示第i个下采样4倍的标注框；

2.3.3.3令二维高斯核的基点为B_si′的左上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.4将S_tl中的元素坐标和高斯值赋值到

的第1个通道中，即按照

的规则赋值；

2.3.3.5令二维高斯核的基点为B_si′的右上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.6将S_tr中的元素坐标和高斯值赋值到

的第2个通道中，即按照

的规则赋值；

2.3.3.7令二维高斯核的基点为B_si′的左下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.8将S_dl中的元素坐标和高斯值赋值到

的第3个通道中，按照

的规则赋值；

2.3.3.9令二维高斯核的基点为B′_si的右下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.10将S_dr中的元素坐标和高斯值赋值到

的第4个通道中，即按照

的规则赋值；

中，转2.3.3.12；

2.3.3.12令第s张图像的角点预测真实值

方法是：

2.3.4.1构建一个大小为

的全零矩阵

“4”表示下采样4倍的标注框的4个坐标；

2.3.4.2令i＝1，表示第i个下采样4倍的标注框；

赋值到

的像素位置的4个通道中；

中，赋了值的

成为第s张图像的真值标签，转2.3.4.5；

2.3.4.5令第s张图像的粗略框真实值

2.3.5根据

构建精细框预测任务的精细框真实值

值与

相等，即

2.3.6令s＝s+1，若s≤S，转2.3.2；若s>S，转2.3.7；

2.4.1令变量v＝1；

2.4.4若v≤V，令v＝v+1，转2.4.2；若v＞V，得到由V个缩放标准化后的图像组成的新验证集D_V，转2.5。

第三步，利用梯度反向传播方法对第一步构建的目标检测***进行训练，得到Nm个模型参数。方法是：

3.1初始化目标检测***中各模块的网络权重参数。采用ImageNet数据集(https：//www.image-net.org/)上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数；采用均值为0，方差为0.01的正态分布初始化其余网络权重参数(主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数)。

3.3训练目标检测***，方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值(loss)，利用梯度反向传播更新网络权重参数，直到损失值达到阈值或训练步长达到maxepoch结束。在最后Nm(本实施例设置为10)个训练步，每训练一轮，保存一次网络权重参数。方法如下：

将多尺度特征图

发送给特征自适应聚合模块。

3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收

采用自适应多尺度特征聚合方法对

F_H的特征图通道数为64。具体方法如下：

进行并行通道自注意力增强，即第一SE网络对

施加在通道上的加权求和，得到第一通道表征增强后的图像

同时第二SE网络对

施加在通道上的加权求和，得到第二通道表征增强后的图像

同时第三SE网络对

施加在通道上的加权求和，得到第三通道表征增强后的图像

上采样到相同的分辨率大小

得到上采样后的特征图

成为上采样后的特征图集合

具体计算过程如公式(2)所示：

其中SE_n表示第n个SE网络，

3.3.4.1.3自适应多尺度特征聚合网络对

的软权重图

软权重图的像素点的数值大小表明应更关注

这3个尺度中的哪一个，即

3.3.4.1.4自适应多尺度特征聚合网络将第l个尺度的权重图

与对应的第l个上采样后的特征图

逐元素乘，即将

与

对应逐元素乘，将

与

对应逐元素乘，

与

其中SE₄为第四S E网络，

的矩阵，分辨率大小为

计算损失

其中S_b是回归样本集合，由

3.3.4.3.1设计区域受限的可形变卷积(R-DConv)。具体方法是：

3.3.4.3.1.1设计偏移量转换函数

如公式(5)所示：

其中

表示在垂直方向的偏移量转换函数，

表示在水平方向的偏移量转换函数，总体的偏移量转换函数

(t,l,r,d)是卷积核位置p与B_coarse的上下左右四个方向的距离。

3.3.4.3.1.2利用

3.3.4.3.2.1令分类偏移量转换函数

用公式(6)计算得到位置p处的输出特征y_cls(p)。

3.3.4.3.2.2采用

3.3.4.3.3.1设计回归偏移量转换函数

对可形变卷积的偏移量Δp进行变换。

如公式(7)所示：

将

代入公式(6)中的

得到位置p处的输出特征y_reg(p)。因此

3.3.4.3.3.2采用

通道数为4。对H_corner与2.3.3构建的角点预测真实值

计算损失，得到H_corner和

的损失值

的计算是基于修改版的Focal Loss：

计算损失

的计算基于GIoU loss：

其中S_b是回归样本集合，由

计算损失

的计算基于修改版的Focal Loss：

是第c通道、(i,j)像素位置的中心点预测热力图，

3.3.8设计目标检测***的总损失函数

如公式(11)所示：

其中

是角点预测网络输出的H_corner和真实值

计算的损失值，

是中心点预测网络输出的H_center和真实值

计算的损失值，

是粗略框预测网络输出的B_coarse和真实值

计算的损失值，

是精细框预测网络输出的B_refine和真实值

计算的损失值。根据重要性令角点预测网络损失权重

中心点预测网络损失权重

粗略框预测网络损失权重

精细框预测网络损失权重

3.3.11保存后N_m个epoch的网络权重参数。

4.1令变量n_m＝1；

4.3令v＝1，为验证集的第v张图像，V是验证集的图像数量；

的矩阵，分辨率大小为

通道数为4；

4.11.2从第v个验证图像D_v的中心点预测热力图得到峰值点(P_x，P_y)的坐标值P_x，P_y，后处理模块从D_v的精细框预测位置得到峰值点(P_x，P_y)上、左、下、右四个方向的距离信息(t，l，d，r)，得到D_v的预测框B_p＝{P_y-t，p_l-l，p_d+d，p_r+r}。B_p的类别即为峰值点(P_x，P_y)位置的中心点热力图像素值最大的通道值，记为c_p。B_p的置信度即为峰值点(P_x，P_y)位置的中心点热力图第c_p通道的像素值，记为s_p；

的矩阵，分辨率大小为

通道数为4；

第六步，结束。

选取来自MS COCO数据集的20000测试集数据或来自Cityscapes数据集的1524测试集数据(如第二步所述的测试集划分方式)，对本发明进行检测精度AP(AveragePrecision)和运行速度FPS(Frames Per Second)的数值测试，实验环境为Ubuntu20.04(Linux***的一个版本)，搭载英特尔i9-10900K系列的中央处理器，处理频率为3.70GHz，另外配有四块英伟达RTX 2080Ti图像处理器，核心频率为1635MHz，显存容量为12GB。对本发明进行测试的一个实施例如图4所示，输入一张待检测图像(图4中的上图，为一张行车过程中拍摄的图像)，经过本发明的目标检测***，输出图像预测集合，并进行可视化，生成检测后的可视化图(图4中的下图，为该检测图像的检测结果可视化图，检测框和物体类别已进行标注。如图4下图中①处检测出的“bicycle”、②处检测出的“person”、③处检测出远处的“car”类别，并用矩形框的形式框出)。

首先，定义目标检测算法性能评价指标。本实验采用标准的MS COCO评测方式，拥有6个具体指标：AP、AP₅₀、AP₇₅、AP_S、AP_M和AP_L。AP表示交并比(IoU)值在[0.5，0.95]区间上每隔0.05计算的平均精度(Average Precision，AP)，再对所有间隔的AP求平均。AP₅₀和AP₇₅分别表示IoU大于0.5和0.75的AP值。AP_S、AP_M和AP_L分别表示小尺寸物体、中尺寸物体和大尺寸物体的AP，其中尺寸定义范围分别为[0，64²]、[64²，128²]和[128²，∞]。AP值越大检测精度越高。

根据本发明的实验结果，分别对MS COCO数据集和Cityscapes数据集的实验结果进行分析。

MS COCO数据集目标检测算法性能对比如表1所示。展示了本发明对比经典实时目标检测方法YOLOv3、与本发明最相关的方法CenterNet和TTFNet。从实验结果可知，本发明能快速且准确地进行目标检测。对比CenterNet，以更快的运行速度，约2.2ms，实现了4.4AP的精度提升。对比TTFNet，以少量的速度延迟，约3.15ms，实现了2.5AP的精度提升。在几乎不影响实时性的前提下，实现了较大的精度提升。目标检测算法精度和速度是需要权衡的两个指标，在少量计算负荷下实现较大精度提升在现实应用中是很有意义的。对于精度来说，越高的精度越难以提升，经典的MaskRCNN算法(见文献“He K，Gkioxari G，Dollár P，etal.Mask r-cnn[C]//Proceedings of the IEEE international conference oncomputer vision.2017：2961-2969.”He K，Gkioxari G，Dollár P，et al.Mask r-cnn[C]//Proceedings of the IEEE international conference on computervision.2017:2961-2969等人的论文：Mask r-cnn)在11FPS下实现了39.8AP的精度，本发明比MaskRCNN快5.45倍，精度高2.0AP。因此，只牺牲约3.15ms的速度延迟(这对于现实应用中是完全可以接收的)，就实现了2.5AP的精度提升是较大的精度提升。

表1

方法	主干网络	FPS	AP	<![CDATA[AP<sub>50</sub>]]>	<![CDATA[AP<sub>75</sub>]]>	<![CDATA[AP<sub>S</sub>]]>	<![CDATA[AP<sub>M</sub>]]>	<![CDATA[AP<sub>L</sub>]]>
									YOLOv3	DarkNet-53	48	33.4	56.3	35.2	19.5	36.4	43.6
CenterNet	DLA-34	53	37.4	55.1	40.8	20.6	42.0	50.6
									TTFNet	DarkNet-53	74	39.3	56.8	42.5	20.6	43.3	54.3
本发明	DarkNet-53	60	41.8	58.7	45.3	22.7	45.6	54.9

Cityscapes数据集目标检测算法性能对比如表2所示。Cityscapes数据集是经典的智能驾驶场景数据集，本实验以统一的768×384图像为输入，在Cityscapes数据集下比较了TTFNet和本发明方法的性能。TTFNet虽然运行速度比本发明快，但检测精度差距明显(5.8AP)。而且速度延迟只有3.46ms，对于现实应用是完全可以接受的。因此，本发明在运行速度和检测精度上有较好的权衡，以较小的时间开销，实现了较大的精度提升。

表2

方法	主干网络	FPS	AP	<![CDATA[AP<sub>50</sub>]]>	<![CDATA[AP<sub>75</sub>]]>	<![CDATA[AP<sub>S</sub>]]>	<![CDATA[AP<sub>M</sub>]]>	<![CDATA[AP<sub>L</sub>]]>
									TTFNet	DarkNet-53	58.7	17.2	33.9	15.6	6.4	22.5	30.1
本发明	DarkNet-53	48.8	23.0	41.7	22.1	4.3	22.1	45.2

对训练的目标检测***进行可视化分析。如图3所示，本实验对TTFNet和本发明在Cityscapes数据集下进行了可视化分析。图3(a)和图3(b)为TTFNet的检测结果、图3(c)和图3(d)为本发明的检测结果。为方便观察，用箭头表示出了TTFNet检测有误的区域(即图3(a)左边箭头指出的误检测出“bicycle”类，右边箭头指出的检测出多个重叠的假阳性框；图3(b)箭头指出的误将背景区域检测为前景区域)。本发明比TTFNet检测更为准确，拥有更小的误检率，且分类精度也更高(图3(c)对应图3(a)左边箭头处没有出现误检，对应图3(a)右边箭头处也没有检测出多个重叠假阳性框；图3(d)对应图3(b)箭头处没有误将背景区域检测为前景区域)。优秀的可视化结果也证明本发明提出方法的有效性。

Claims

1.一种基于特征自适应聚合的目标检测方法，其特征在于包括以下步骤：

第一步，构建基于特征自适应聚合的目标检测***；目标检测***由主特征提取模块、特征自适应聚合模块、辅助任务模块、主任务模块和后处理模块构成；

主特征提取模块与特征自适应聚合模块相连，主特征提取模块从输入图像提取多尺度特征，将包含多尺度特征的多尺度特征图发送给特征自适应聚合模块；主特征提取模块由一个DarkNet-53卷积神经网络和一个特征金字塔网络组成；DarkNet-53卷积神经网络是一个含有53层神经网络的轻量级主干网络，这53层神经网络分为5个串行子网络，用于提取图像的主干网络特征；特征金字塔网络从DarkNet-53卷积神经网络接收主干网络特征，经过上采样、特征提取、特征融合操作，得到包含多尺度特征的多尺度特征图，将多尺度特征图发送给特征自适应聚合模块；

特征自适应聚合模块与主特征提取模块、辅助任务模块和主任务模块相连，特征自适应聚合模块的功能是为辅助任务模块提供多尺度感知的高像素特征图，为主任务模块提供边界区域感知的高像素特征图和显著性区域感知的高像素特征图，提升目标检测***的检测精度；特征自适应聚合模块由自适应多尺度特征聚合网络、自适应空间特征聚合网络和粗略框预测网络构成；自适应多尺度特征聚合网络由4个权重不共享的SE网络组成，4个SE网络分别记为第一、第二、第三、第四SE网络；从主特征提取模块的特征金字塔网络接收多尺度特征图，采用自适应多尺度特征聚合方法，对多尺度特征图进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图，将多尺度感知的高像素特征图发送给自适应空间特征聚合网络、粗略框预测网络和辅助任务模块；粗略框预测网络由两层3×3卷积和一层1×1卷积构成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，对多尺度感知的高像素特征图进行预测，得到粗略框预测位置，将粗略框预测位置发送给自适应空间特征聚合网络；自适应空间特征聚合网络由分类偏移量转换函数和回归偏移量转换函数的区域受限可形变卷积组成，从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，从粗略框预测网络接收粗略框预测位置，生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图，将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块；

辅助任务模块与特征自适应聚合模块中的自适应多尺度特征聚合网络相连，辅助任务模块是一个角点预测网络，角点预测网络由两层3×3卷积、一层1×1卷积和sigmoid激活层组成，辅助任务模块从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图，角点预测网络对多尺度感知的高像素特征图进行预测，得到角点预测热力图，用于目标检测***训练中计算角点预测损失，辅助目标检测***对角点区域的感知；辅助任务模块只在训练目标检测***时使用，用于增强目标检测***对物体角点位置的感知，使预测物体框的位置更准确；在训练后的目标检测***对用户输入图像进行检测时，该模块直接丢弃；

主任务模块与自适应空间特征聚合网络、后处理模块相连，由精细框预测网络和中心点预测网络构成；精细框预测网络是一个一层1×1卷积层，从自适应空间特征聚合网络接收边界区域感知的高像素特征图，对边界区域感知的高像素特征图进行1×1卷积，得到精细框预测位置，将精细框预测位置发送给后处理模块；中心点预测网络由一个一层1×1卷积层和sigmoid激活层组成，从自适应空间特征聚合网络接收显著性区域感知的高像素特征图，对显著性区域感知的高像素特征图进行1×1卷积和激活，得到中心点预测热力图，将中心点预测热力图发送给后处理模块；

后处理模块是一个3×3池化层，与主任务模块中的精细框预测网络和中心点预测网络相连，从精细框预测网络接收精细框预测位置，从中心点预测网络接收中心点预测热力图，采用步长为1的3×3最大池化操作保留中心点预测热力图3×3范围内的预测最大值，提取出保留的预测最大值的位置，即峰值点，作为物体中心区域点位置；通过中心区域点位置找出精细框预测位置中对应的上、下、左、右四个方向距离，生成预测物体框位置，且该中心区域点位置所在的中心点类别即为物体预测的类别；后处理模块通过提取3×3范围内的峰值点抑制重叠伪框，减少假阳性预测框；

第二步，构建训练集、验证集和测试集，方法是：

2.1收集目标检测场景图像作为目标检测数据集，并对目标检测数据集中的每个目标检测场景图像进行人工标注，方法是：使用MS COCO公开的通用场景数据集或Cityscapes无人驾驶场景数据集作为目标检测数据集；即采用MS COCO数据集或Cityscapes数据集中的训练图像作为训练集、验证图像作为验证集、测试图像作为测试集；令训练集中图像总数为S，令测试集中图像总数为T，令验证集中图像总数为V，MS COCO和Cityscapes数据集的每张图像都进行了人工标注，即每张图像都以矩形框的形式标注了物***置，并标注了物体的类别；

2.2对训练集中S张图像进行优化处理，包括翻转、裁剪、平移、亮度变换、对比度变换、饱和度变换、缩放、标准化，得到优化后的训练集D_t；

2.3根据优化后的训练集D_t，制作用于模型训练的任务真值标签；一共分为四个任务，分别是中心点预测任务、角点预测任务、粗略框预测任务和精细框预测任务，方法是：

令第i个标注框的标注类别为cⁱ，

代表第i个标注框的左上角点坐标，

代表第i个标注框的右下角点坐标，N_s为正整数，1≤i≤N_s；

2.3.2构建中心点预测任务的中心点预测真实值

方法是：

2.3.2.1构建一个大小为

的全零矩阵图H_zeros，C表示优化后的训练集的分类类别数量，该类别数量为目标检测数据集标注目标的类别数量，H是第s张图像的高，W是第s张图像的宽；

2.3.2.2令i＝1，表示第i个下采样4倍的标注框；

2.3.2.3将

标注坐标除以4，记为下采样4倍的标注框

；

代表B_si′的左上、右上、左下、右下角点位置；

2.3.2.4采用二维高斯核生成方法，计算以B_si′的基点

为二维高斯核的基点，方差为(σ_x,σ_y)的二维高斯核范围内的全部像素点的高斯值，得到第一高斯值集合S_ctr；具体方法为：

其中(x₀,y₀)是二维高斯核的基点，即二维高斯核中心，x₀为基点的宽方向的坐标值，y₀为基点的高方向的坐标值；(x_p,y_p)为基点(x₀,y₀)高斯核范围内的像素点，x_p为该像素点的宽方向的坐标值，y_p为该像素点的高方向的坐标；(x₀,y₀)和(x_p,y_p)均位于下采样4倍后的图像坐标系；

表示二维高斯核在宽方向的方差，

表示二维高斯核在高方向的方差，通过控制二维高斯核的宽、高方向的方差控制高斯核范围内点的数量；w表示B_si′在特征图尺度下的宽，h表示B_si′在特征图尺度下的高，α是决定中心区域位置占B_si′比例的参数；将(x_p,y_p)和计算得出的K(x_p,y_p)存入第一高斯值集合S_ctr中；

2.3.2.5将S_ctr中的值赋值到H_zeros中；将S_ctr中的元素(x_p,y_p)和K(x_p,y_p)按照H_zeros[x_p,y_p,cⁱ]＝K(x_p,y_p)的规则赋值，cⁱ代表B_si′的类别编号，1≤cⁱ≤C且cⁱ为正整数；

2.3.2.7令第s张图像的中心点预测真实值

2.3.3构建角点预测任务的角点预测真实值

方法是：

2.3.3.1构建一个大小为

的全零矩阵

2.3.3.2令i＝1，表示第i个下采样4倍的标注框；

2.3.3.3令二维高斯核的基点为B_si′的左上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.4将S_tl中的元素坐标和高斯值赋值到

的第1个通道中，即按照

的规则赋值；

2.3.3.5令二维高斯核的基点为B_si′的右上角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.6将S_tr中的元素坐标和高斯值赋值到

的第2个通道中，即按照

的规则赋值；

2.3.3.7令二维高斯核的基点为B_si′的左下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.8将S_dl中的元素坐标和高斯值赋值到

的第3个通道中，按照

的规则赋值；

2.3.3.9令二维高斯核的基点为B′_si的右下角点，坐标为

采用2.3.2.4所述二维高斯核生成方法，计算以

2.3.3.10将S_dr中的元素坐标和高斯值赋值到

的第4个通道中，即按照

的规则赋值；

中，转2.3.3.12；

2.3.3.12令第s张图像的角点预测真实值

2.3.5根据

构建精细框预测任务的精细框真实值

值与

相等，即

2.3.6令s＝s+1，若s≤S，转2.3.2；若s>S，转2.3.7；

2.4采用图像缩放标准化方法对验证集中V张图像进行优化处理，即对V张图像进行缩放、标准化，得到由V张缩放标准化后的图像组成的新的验证集D_V；

2.5采用2.4步所述图像缩放标准化方法对测试集中T张图像进行优化处理，得到由T张缩放标准化后的图像组成的新的测试集D_T；

第三步，利用梯度反向传播方法对第一步构建的目标检测***进行训练，得到N_m个模型参数；方法是：

3.1初始化目标检测***中各模块的网络权重参数；采用ImageNet数据集上训练的预训练模型初始化主特征提取模块中的DarkNet-53卷积神经网络的参数；初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数；

3.2设置目标检测***训练参数；包括初始化初始学习率learning_rate衰减系数，选用随机梯度下降作为模型训练优化器，初始化优化器的超参数“动量”，初始化“权重衰减”；初始化网络训练的批次大小mini_batch_size为正整数；初始化最大训练步长maxepoch为正整数；

3.3训练目标检测***，方法是将一次训练时目标检测***输出的粗略框预测位置、精细框预测位置、角点预测热力图和中心点预测热力图与真实值之间的差异作为损失值loss，利用梯度反向传播更新网络权重参数，直到损失值达到阈值或训练步长达到maxepoch结束；在最后N_m个训练步，每训练一个训练步，保存一次网络权重参数；方法如下：

3.3.1令训练步epoch＝1，训练集所有数据训练一个周期为一个epoch；初始化批次序号N_b＝1；

3.3.2主特征提取模块从D_M读取第N_b批次，共B＝64个图像，将这B个图像记为矩阵形式I_train，I_train中包含B个H×W×3的图像；H表示输入图像的高，W表示输入图像的宽，“3”代表图像的RGB三个通道；

3.3.3主特征提取模块采用主特征提取方法提取I_train的多尺度特征，得到I_train的多尺度特征，将包含I_train的多尺度特征的多尺度特征图发送给自适应特征聚合模块；方法为：

3.3.3.1主特征提取模块的DarkNet-53卷积神经网络提取I_train的图像特征，得到主干网络特征图集合，方法是：DarkNet-53卷积神经网络的5个串行子网络对I_train的B个图像进行下采样、特征提取，得到主干网络特征，即后四个串行子网络的输出的4个特征图，发送给特征金字塔网络；

将多尺度特征图

发送给特征自适应聚合模块；

生成多尺度感知的高像素特征图F_H，将F_H发送给辅助任务模块；并生成边界区域感知的高像素特征图和显著性区域感知的高像素特征图，将边界区域感知的高像素特征图和显著性区域感知的高像素特征图发送给主任务模块；方法是：

3.3.4.1自适应多尺度特征聚合网络从特征金字塔网络接收

采用自适应多尺度特征聚合方法对

进行通道自注意力增强、双线性插值上采样和尺度级别软权重聚合操作，得到多尺度感知的高像素特征图F_H；F_H的特征图分辨率为

F_H的特征图通道数为64；具体方法如下：

进行并行通道自注意力增强，即第一SE网络对

施加在通道上的加权求和，得到第一通道表征增强后的图像

同时第二SE网络对

施加在通道上的加权求和，得到第二通道表征增强后的图像

同时第三SE网络对

施加在通道上的加权求和，得到第三通道表征增强后的图像

上采样到相同的分辨率大小

得到上采样后的特征图

成为上采样后的特征图集合

具体计算过程如公式(2)所示：

其中SE_n表示第n个SE网络，

表示第lvl个多尺度特征图，Upsample表示双线性插值上采样，1≤lvl≤3，1≤n≤3；

3.3.4.1.3自适应多尺度特征聚合网络对

的软权重图

软权重图的像素点的数值大小表明应更关注

这3个尺度中的哪一个，即

中哪一个所占权重更大，从而让不同尺寸的物体响应不同尺度的特征图；

3.3.4.1.4自适应多尺度特征聚合网络将第lvl个尺度的权重图

与对应的第lvl个上采样后的特征图

逐元素乘，即将

与

对应逐元素乘，将

与

对应逐元素乘，

与

分别逐元素乘，得到3个乘积，然后对这3个乘积进行加权求和，融合为一个特征图，得到融合后的特征图；接着采用第四SE网络增强融合后的特征图的通道表征，得到多尺度感知的高像素特征图F_H；具体过程如公式(3)所示：

其中SE₄为第四SE网络，

表示同一位置元素在不同尺度中所占权重，“×”表示对应位置元素乘积，Conv表示1×1卷积；自适应多尺度特征聚合网络将F_H发送给辅助任务模块、粗略框预测网络和自适应空间特征聚合网络；

的矩阵，分辨率大小为

通道数为4；通道数4表示从像素点出发到上、下、左、右四个方向的距离，每一个像素点形成一个粗略框；B_coarse用于限制自适应空间特征聚合网络中的可形变卷积采样范围；并且，对B_coarse与2.2.5.4构建的粗略框真实值

计算损失

其中S_b是回归样本集合，由

不为0的(i,j)位置权重值；

3.3.4.3自适应空间特征聚合网络从自适应多尺度特征聚合网络接收多尺度感知的高像素特征图F_H，从粗略框预测网络接收粗略框预测位置B_coarse，生成边界区域感知的高像素特征图F_HR和显著性区域感知的高像素特征图F_HS；方法是：

3.3.4.3.1设计区域受限的可形变卷积R-Dconv，方法是：

3.3.4.3.1.1设计偏移量转换函数

对可形变卷积的偏移量Δp进行变换，得到变换后的偏移量；

限制可形变卷积的空间采样点的偏移范围在B_coarse内，同时也使可形变卷积的偏移量Δp可微分；采用Sigmoid函数

对B_coarse内的偏移量Δp进行归一化，使Δp在[0,1]区间内；将Δp拆分为h_Δp和w_Δp，h_Δp表示Δp在垂直方向的偏移，w_Δp表示Δp在水平方向的偏移；

如公式(5)所示：

其中

表示在垂直方向的偏移量转换函数，

表示在水平方向的偏移量转换函数，总体的偏移量转换函数

(t,l,r,d)是卷积核位置p与B_coarse的上下左右四个方向的距离；

3.3.4.3.1.2利用

限制可形变卷积采样区域；给定一个3×3卷积核，其拥有K＝9个空间采样位置点，w_k表示第k个位置的卷积核权重，P_k表示第k个位置的预定义位置偏移量；P_k∈{(-1,-1),(-1,0),...,(1,1)}表示以(0,0)为中心的3×3范围；令x(p)表示卷积核中心位置p处的输入特征图，y(p)表示卷积核中心位置p处的输出特征图；采用R-DConv计算y(p)，如公式(6)所示：

其中Δp_k表示第k个位置的可学习偏移量，Δm_k表示第k个位置的权重；Δp_k和Δm_k由一个3×3卷积生成，3×3卷积生成27通道的特征图，其中9个通道为Δp_k横坐标偏移值，9个通道为Δp_k纵坐标偏移值，9个通道为Δm_k的值；B_coarse表示在当前特征图尺度上预测的粗略框，也是预定义限制区域；

3.3.4.3.2采用分类自适应空间特征聚合方法利用B_coarse限制采样范围对F_H进行特征聚合，分类自适应空间特征聚合方法具体为：

3.3.4.3.2.1令分类偏移量转换函数

用公式(6)计算得到位置p处的输出特征y_cls(p)；

3.3.4.3.2.2采用

利用卷积核遍历F_H，得到显著性区域感知的高像素特征图F_HS；

允许采样点集中，使分类分支可以专注最具鉴别能力的显著性区域；令

使R-DConv在粗略框范围内学习物体的显著性区域，提取出使物体分类更准确的特征，即显著性区域感知的高像素特征图F_HS，将F_HS发送给主任务模块；

3.3.4.3.3采用回归自适应空间特征聚合方法利用B_coarse限制采样范围对F_H进行特征聚合，回归自适应空间特征聚合方法具体为：

3.3.4.3.3.1设计回归偏移量转换函数

对可形变卷积的偏移量Δp进行变换；

将R-DConv操作的空间采样点沿上、下、左、右四个方向均匀划分，使限定区域被划分为四个子区域，分别对应左上、右上、左下和右下；

分别对四子区域进行均匀采样，即每个区域分配等额的采样点；设置K＝9，

函数从四个子区域各采样两个点，总共八个边缘点，再加上一个中心点，形成3×3的卷积核，增强中心特征点对边界信息的捕获；回归偏移量转换函数

如公式(7)所示：

为对粗略框区间内的偏移量进行归一化的Sigmoid函数；

将

代入公式(6)中的

得到位置p处的输出特征y_reg(p)；

3.3.4.3.3.2采用

利用卷积核遍历F_H，得到边界区域感知的高像素特征图F_HR，将F_HR发送给主任务模块；

通道数为4；对H_corner与2.3.3构建的角点预测真实值

计算损失，得到H_corner和

的损失值

其中N_s是该图像标注框的数量，α_l和β是超参数，用于控制损失函数的梯度曲线；

是第c通道、像素位置(i,j)的角点预测真实值；

3.3.6主任务模块的精细框预测网络从自适应空间特征聚合网络接收边界区域感知的高像素特征图F_HR，经过一层1×1卷积处理，得到F_HR特征点位置的精细框预测位置B_refIne；B_refIne的分辨率大小为

通道数为4；通道数4表示像素点到预测精细框上、下、左、右四个方向的距离，每一个像素点可形成一个精细预测框；对B_refine与2.3.5得到的精细框真实值

计算损失

其中S_b是回归样本集合，由

不为0的(i,j)位置权重值，B_refine的学习质量代表目标检测***回归物***置的准确度；

3.3.7主任务模块的中心点预测网络从自适应空间特征聚合网络接收显著性区域感知的高像素特征图F_HS，经过一层1×1卷积和sigmoid函数处理，得到F_HS特征点位置的中心点预测热力图H_center；H_center的分辨率大小为

通道数为数据集类别数量C；将H_center与2.2.5.2构建的中心点预测真实值

计算损失

其中N_s是该图像标注框的数量，α_l和β是超参数，

是第c通道、(i,j)像素位置的中心点预测热力图，

是第c通道、(i,j)像素位置的中心点预测真实值；H_center的学习质量代表目标检测***定位物体中心位置和区分物体类别的能力；

3.3.8设计目标检测***的总损失函数

如公式(11)所示：

其中

是角点预测网络输出的H_corner和真实值

计算的损失值，

是中心点预测网络输出的H_center和真实值

计算的损失值，

是粗略框预测网络输出的B_coarse和真实值

计算的损失值，

是精细框预测网络输出的B_refine和真实值

计算的损失值；

为角点预测网络损失权重，

为中心点预测网络损失权重，

为粗略框预测网络损失权重，

为精细框预测网络损失权重；

3.3.11保存后N_m个epoch的网络权重参数；

第四步，使用验证集验证装载后N_m个epoch的网络权重参数的目标检测***的检测精度，保留性能最好的网络权重参数作为目标检测***的网络权重参数；方法是：

4.1令变量n_m＝1；

4.2目标检测***加载后N_m个epoch的网络权重参数中的第n_m个网络权重参数；将新的验证集D_V输入目标检测***；

4.3令v＝1，为验证集的第v张图像，V是验证集的图像数量；

4.6特征自适应聚合模块中的粗略框预测网络接收F_HV，采用3.3.4.2所述的粗略框预测方法对F_HV中每一个特征点位置进行粗略框位置预测，生成第v张验证集图像D_v的粗略框预测位置B_HVcoarse；将B_HVcoarse发送给自适应空间特征聚合网络；B_HVcoarse也是

的矩阵，分辨率大小为

通道数为4；

4.11.1后处理模块对第v个验证图像D_v的中心点预测热力图执行3×3最大池化操作，提取第v个验证图像D_v的中心点预测热力图的峰值点集合，每一个峰值点表示预测物体内的一个中心区域点；

4.11.2从第v个验证图像D_v的中心点预测热力图得到峰值点(P_x，P_y)的坐标值P_x，P_y，后处理模块从D_v的精细框预测位置得到峰值点(P_x，P_y)上、左、下、右四个方向的距离信息(t，l，d，r)，得到D_v的预测框B_p＝{P_y-t，p_l-l，p_d+d，p_r+r}；B_p的类别即为峰值点(P_x，P_y)位置的中心点热力图像素值最大的通道值，记为c_p；B_p的置信度即为峰值点(P_x，P_y)位置的中心点热力图第c_p通道的像素值，记为s_p；

4.11.3后处理模块保留第v个验证图像D_v中置信度s_D大于置信度阈值的预测框，形成第v个验证图像D_v的物体框预测集合，该物体框预测集合保留预测框B_p和B_p的类别c_p信息；

4.13若验证集采用MS COCO公开的通用场景数据集，则采用标准的MS COCO评测方式测试目标检测***输出的最终物体框预测集合的精度，记录物体框预测集合的精度，转4.14；若验证集采用Cityscapes无人驾驶场景数据集，则采用Cityscapes评测方式测试目标检测***输出的最终物体框预测集合的精度，记录物体框预测集合的精度，转4.14；

4.15从N_m个模型的物体框预测集合的精度中选择精度最高的物体框预测集合，并找到精度最高的物体框预测集合对应的目标检测***对应的权重参数，将该权重参数作为目标检测***选定的权重参数，将该选定权重参数加载到目标检测***，加载了此选定权重参数的目标检测***成为训练后的目标检测***；

5.2主特征提取模块接收I_nor，采用3.3.3所述的主特征提取方法提取I_nor的多尺度特征，得到I_nor的多尺度特征，将包含I_nor的多尺度特征的多尺度特征图发送给自适应特征聚合模块；

5.4特征自适应聚合模块中的粗略框预测网络接收F_IH，采用3.3.4.2所述的粗略框预测方法对F_IH进行粗略框位置预测，得到待检测图像I中粗略框预测位置B_Icoarse；将B_Icoarse发送给自适应空间特征聚合网络；B_Icoarse也是

的矩阵，分辨率大小为

通道数为4；

5.9后处理模块接收待检测图像I的物体的精细框预测位置和中心点预测热力图，采用4.9步所述的去除重叠伪框方法对待检测图像I的物体的精细框预测位置和待检测图像I的物体的中心点预测热力图进行去除重叠伪框操作，得到待检测图像I的物体框预测集合，待检测图像I的物体框预测集合保留预测框B_p和预测框的类别信息，即待检测图像的预测物体框的坐标位置和预测类别；

第六步，结束。

2.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于2.1步所述MS COCO数据集拥有80个类别，包含105000张训练图像作为训练集、5000张验证图像作为验证集和20000张测试图像作为测试集；Cityscapes数据集拥有8个类：行人、骑手、小车、卡车、巴士、火车、摩托车和自行车，其中2975张训练图像作为训练集、500张验证图像作为验证集、1525张测试图像作为测试集；S为205000或2975，T为20000或1524，V为5000或500。

3.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于2.2步所述对训练集中S张图像进行优化处理，得到优化后的训练集D_t的方法是：

2.2.1令变量s＝1，初始化优化后的训练集D_t为空；

2.2.3采用最小交并比对第s个翻转后的图像进行随机裁剪，得到第s个裁剪后的图像；最小交并比采用的最小尺寸比为0.3；

2.2.5采用随机亮度对第s个平移后的图像进行亮度变换，得到第s个亮度变换后的图像；随机亮度采用的亮度差值为32；

2.2.6采用随机对比度对第s个亮度变换后的图像进行对比度变换处理，得到第s个对比度变换后的图像；随机对比度的对比度范围为(0.5，1.5)；

2.2.7采用随机饱和度对第s个对比度变换后的图像进行饱和度变换，得到第s个饱和度变换后的图像；随机饱和度的饱和度范围为(0.5，1.5)；

2.2.9采用标准化操作将第s个缩放后的图像进行标准化，得到第s个标准图像，将第s个标准图像放到优化后的训练集D_t中；

2.2.10若s≤S，令s＝s+1，转2.2.2；若s＞S，得到由S个标准图像组成的优化后的训练集D_t。

4.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于2.3.2.4.3步所述二维高斯核中心是B′_si的中心或是B _si的角点，α设置为0.54。

5.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于2.3.4步所述根据第s张图像的N_s个下采样4倍的标注框构建粗略框预测任务的第s张图像的粗略框真实值

的方法是：

2.3.4.1构建一个大小为

的全零矩阵

“4”表示下采样4倍的标注框的4个坐标；

2.3.4.2令i＝1，表示第i个下采样4倍的标注框；

赋值到

的像素位置的4个通道中；

2.3.4.4令i＝i+1，若i≤N_s，转2.3.4.3；若i＞N_s，说明第s张图像的N_s个标注框对应的粗略框真实值已赋值到

中，赋了值的

成为第s张图像的真值标签，转2.3.4.5；

2.3.4.5令第s张图像的粗略框真实值

6.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于2.4步所述采用图像缩放标准化方法对验证集中V张图像进行优化处理的方法是：

2.4.1令变量v＝1；

2.4.3采用标准化操作将第v张缩放好的图像进行标准化，得到标准化后的第v张图像；

2.4.4若v≤V，令v＝v+1，转2.4.2；若v＞V，得到由V个缩放标准化后的图像组成的新验证集D_V。

7.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于第三步所述初始化主特征模块中的特征金字塔网络、特征自适应聚合模块、辅助任务模块、主任务模块网络权重参数是采用均值为0，方差为0.01的正态分布初始化；初始学习率learning_rate初始化为0.01，衰减系数初始化为0.1，优化器的超参数“动量”初始化为0.9，“权重衰减”初始化为0.0004；网络训练的批次大小mini_batch_size初始化为64；最大训练步长maxepoch初始化为120。

8.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于第三步中，所述N_m＝10，3.3.5步所述α_l设置为2，β设置为4；3.3.8步所述角点预测网络损失权重

中心点预测网络损失权重

粗略框预测网络损失权重

精细框预测网络损失权重

9.如权利要求1所述的一种基于特征自适应聚合的目标检测方法，其特征在于4.11.3步所述置信度阈值设置为0.3。