CN117593516A

CN117593516A - 一种目标检测方法、装置、设备及存储介质

Info

Publication number: CN117593516A
Application number: CN202410074673.5A
Authority: CN
Inventors: 许博; 朱礼明
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2024-01-18
Filing date: 2024-01-18
Publication date: 2024-02-23
Anticipated expiration: 2044-01-18
Also published as: CN117593516B

Abstract

本申请实施例涉及图像识别技术领域，具体而言，涉及一种目标检测方法、装置、设备及存储介质，旨在对图像中的目标进行准确识别。所述方法包括：接收待检测的目标图像；通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征；通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征；通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。

Description

一种目标检测方法、装置、设备及存储介质

技术领域

本申请实施例涉及图像识别技术领域，具体而言，涉及一种目标检测方法、装置、设备及存储介质。

背景技术

目标检测在日常生活以及工业生产的各个领域有着广泛应用，主要作用是检测出图片中的目标位置，判定目标的类别，随着计算机视觉技术的发展，基于深度学习的目标检测方法成为了研究热点。相关技术中，通过深度学习获取到的神经网络模型对图像进行识别，进而完成对图像的目标检测。

相关技术中的目标检测方法的模型尺寸较大，识别精度有限，容易误检或漏检目标，无法对复杂图像中的所有目标进行准确的识别。

发明内容

本申请实施例提供一种目标检测方法、装置、设备及存储介质，旨在对图像中的目标进行准确识别。

本申请实施例第一方面提供一种目标检测方法，所述方法包括：

接收待检测的目标图像；

通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征；

通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征；

通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。

可选地，所述方法基于目标检测模型，所述目标检测模型的训练步骤包括：

将预先收集好的训练集输入待训练的目标检测模型中；

通过预设的损失函数，对所述目标检测模型进行训练，得到训练好的目标检测模型。

可选地，所述通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征，包括：

在所述主干网络中设置多个采集通道，每个所述采集通道对所述目标图片的采集尺寸不同；

通过所述多个采集通道分别对所述目标图像进行特征提取，得到所述浅层特征。

可选地，所述通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征，包括：

通过所述模型颈部网络接收所述浅层特征；

对所述浅层特征进行特征融合，得到所述深层特征。

可选地，所述对所述浅层特征进行特征融合，得到所述深层特征，包括：

通过特征图金字塔网络对所述浅层特征进行特征融合，得到融合后的特征；

通过多路径聚合网络对所述融合后的特征进行进一步特征融合，得到所述深层特征。

可选地，所述通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，包括：

通过所述检测头接收所述深层特征；

根据所述深层特征，对所述目标图像进行识别，得到所述目标图像对应的目标识别结果。

可选地，所述根据所述深层特征，对所述目标图像进行识别，得到所述目标图像对应的目标识别结果，包括：

为所述深层特征对应的每个输入通道赋予对应的权重；

通过解耦式注意力机制，对加权处理后的所述深层特征进行分离检测处理，得到所述目标识别结果。

可选地，所述为所述深层特征对应的每个输入通道赋予对应的权重，包括：

根据所述深层特征，计算所述深层特征对应的每个所述输入通道的通道权重；

为每个所述输入通道赋予对应的权重。

可选地，所述通过解耦式注意力机制，对加权处理后的所述深层特征进行分离检测处理，得到所述目标识别结果，包括：

通过目标框处理函数对所述深层特征进行目标框检测，得到目标框识别结果；

通过预测概率处理函数对所述深层特征进行类别概率检测，得到类别概率识别结果；

通过置信度处理函数对所述深层特征进行目标框置信度检测，得到目标框置信度识别结果；

将所述目标框识别结果、所述类别概率识别结果以及所述目标框置信度识别结果进行合并，得到所述目标识别结果。

可选地，所述解耦式注意力检测头的生成步骤包括：

通过所述主干网络通过多个不同的预设倍数对图片进行采样，得到多个浅层特征；

通过所述模型颈部网络对所述多个浅层特征进行融合，得到多个深层特征；

通过所述多个深层特征对解耦式注意力检测网络进行训练，得到所述解耦式注意力检测头。

可选地，所述通过预设的损失函数，对所述目标检测模型进行训练，得到训练好的目标检测模型，包括：

根据所述训练集中的训练数据，得到所述训练集中的目标图片对应的目标识别结果；

将所述目标识别结果与预先标注好的目标识别结果进行对比，得到损失值；

通过所述预设的损失函数，根据所述损失值对所述目标检测模型进行参数调整，得到训练好的所述目标检测模型。

可选地，所述预设的损失函数的表达式为：

其中，为损失值，/>，/>与/>为预设的系数，。

本申请实施例第二方面提供一种目标检测装置，所述装置包括：

图像接收模块，用于接收待检测的目标图像；

浅层特征获取模块，用于通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征；

深层特征获取模块，用于通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征；

识别结果获取模块，用于通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。

将预先收集好的训练集输入待训练的目标检测模型中；

可选地，所述浅层特征获取模块包括：

图片采集子模块，用于在所述主干网络中设置多个采集通道，每个所述采集通道对所述目标图片的采集尺寸不同；

浅层特征提取子模块，用于通过所述多个采集通道分别对所述目标图像进行特征提取，得到所述浅层特征。

可选地，所述深层特征获取模块包括：

浅层特征接收子模块，用于通过所述模型颈部网络接收所述浅层特征；

特征融合子模块，用于对所述浅层特征进行特征融合，得到所述深层特征。

可选地，所述特征融合子模块包括：

第一网络处理子模块，用于通过特征图金字塔网络对所述浅层特征进行特征融合，得到融合后的特征；

第二网络处理子模块，用于通过多路径聚合网络对所述融合后的特征进行进一步特征融合，得到所述深层特征。

可选地，所述识别结果获取子模块包括：

深层特征接收子模块，用于通过所述检测头接收所述深层特征；

图像识别子模块，用于根据所述深层特征，对所述目标图像进行识别，得到所述目标图像对应的目标识别结果。

可选地，所述图像识别子模块包括：

权重处理子模块，用于为所述深层特征对应的每个输入通道赋予对应的权重；

识别结果获取子模块，用于通过解耦式注意力机制，对加权处理后的所述深层特征进行分离检测处理，得到所述目标识别结果。

可选地，所述权重处理子模块包括：

权重计算子模块，用于根据所述深层特征，计算所述深层特征对应的每个所述输入通道的通道权重；

权重赋予子模块，用于为每个所述输入通道赋予对应的权重。

可选地，所述识别结果获取子模块包括：

目标框识别结果获取子模块，拥有通过目标框处理函数对所述深层特征进行目标框检测，得到目标框识别结果；

类别概率识别结果获取子模块，用于通过预测概率处理函数对所述深层特征进行类别概率检测，得到类别概率识别结果；

目标框置信度识别结果获取子模块，用于通过置信度处理函数对所述深层特征进行目标框置信度检测，得到目标框置信度识别结果；

结果合并子模块，用于将所述目标框识别结果、所述类别概率识别结果以及所述目标框置信度识别结果进行合并，得到所述目标识别结果。

可选地，所述装置还包括注意力检测头生成模块，所述注意力检测头生成模块包括：

图片采样子模块，用于通过所述主干网络通过多个不同的预设倍数对图片进行采样，得到多个浅层特征；

特征融合子模块，用于通过所述模型颈部网络对所述多个浅层特征进行融合，得到多个深层特征；

网络训练子模块，用于通过所述多个深层特征对解耦式注意力检测网络进行训练，得到所述解耦式注意力检测头。

可选地，所述预设的损失函数的表达式为：

其中，为损失值，/>，/>与/>为预设的系数，。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

采用本申请提供的目标检测方法，接收待检测的目标图像；通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征；通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征；通过多个预设尺寸的检测头对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。本申请中，在对目标图像进行检测时，通过主干网络与模型颈部网络对目标图像进行由浅入深的特征提取，再对提取到的图像进行特征融合，在主干网络采集时采用了多个不同的采集尺寸，进而使得主干网络与模型颈部网络进行了多级特征融合，更加丰富了特征图片中的信息，有利于目标的识别，再使用检测头对深层特征进行检测，得到目标图像对应的目标识别结果，其中检测头是解耦式注意力检测头，对目标图像中的各个指标进行解耦式处理，减少了各个特征信息之间的混淆，避免了目标漏检，提高了检测精度，进而实现了对目标图片的高精度目标检测。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的目标检测模型结构示意图

图2是本申请一实施例提出的目标检测方法的流程图；

图3是本申请一实施例提出的Neck+DetectHead模块示意图；

图4是本申请一实施例提出的DetectHead结构图；

图5是本申请一实施例提出的实验热力图；

图6a是本申请一实施例提出的目标框位置损失曲线图；

图6b是本申请一实施例提出的目标框置信度损失曲线图；

图6c是本申请一实施例提出的类别概率损失曲线图；

图7a是本申请一实施例提出的全类平均精确度0.5曲线图；

图7b是本申请一实施例提出的精确度曲线图；

图7c是本申请一实施例提出的召回率曲线图；

图8是本申请一实施例提出的夜间目标检测效果示意图；

图9是本申请一实施例提出的日间目标检测效果示意图；

图10是本申请一实施例提出的目标检测装置的示意图；

图11是本申请一实施例提出的电子设备的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中的目标检测方法是基于目标检测模型实现的，目标检测模型的训练步骤包括：

S11：将预先收集好的训练集输入待训练的目标检测模型中。

本实施例中，参考图1，图1是本申请一实施例提出的目标检测模型结构示意图，如图1所示，目标检测模型中包括主干网络（backbone）,模型颈部网络（neck）以及解耦式注意力检测头（DADH，Decoupled attention detection head）。其中主干网络部分使用多个通道采集输入的目标图片（input），得到浅层特征C0、C1、C2、C3，模型颈部网络对C0、C1、C2、C3进行进一步的特征提取和特征融合，得到深层特征，最后由解耦式注意力检测头根据模型颈部网络输出的深层特征，得到对应的输出（detect）。

本实施例中，训练集是由训练图片构成的集合。

本实施例中，在对目标检测模型进行训练时，将预先收集好的训练集输入待训练的目标检测模型中。训练集中预先标注了每个图片中的需要识别的目标的目标框。

示例地，训练集中的训练图片可以从网络中使用抓取工具进行抓取，也可以设置一定的条件，例如图片中的物体数量大于一定的预设阈值。

S12：通过预设的损失函数，对所述目标检测模型进行训练，得到训练好的目标检测模型。

本实施例中，预设的损失函数是一种用于训练目标检测模型的损失函数BBR（Bounding Box Regression）函数，是一种经过优化后的新的IoU函数，现有的大多数目标回归框损失函数在不同预测结果下具有相同的值，这降低了目标回框回归的收敛速度和准确性，因此，考虑到现有的BBR损失函数的缺点，并受到水平矩形的几何特征启发，本实施例采用一种基于最小点距离的新型损失函数，用MPDIoU（Intersection over Union withMinimum Points Distance）作为新的度量标准，比较目标框回归过程中预测目标框与实际目标框之间的相似性，并且还提供了一个简单易实现的解决方案，用于计算两个轴对齐矩形之间的MPDIoU，使其可以作为评估指标纳入最先进的目标检测和实例分割算法中。

MPDIoU的计算公式如下：

其中，为目标框A左上角和右下角的坐标，d1为目标框A左上角和目标框B左上角之间的距离，/>为目标框B左上角和右下角的坐标，d2为目标框A右下角和目标框B右下角之间的距离，w和h为输入图片的宽度和高度值。

MPDIoU简化了两个目标框之间的相似性比较，适用于重叠或非重叠的目标框回归。MPDIoU的损失函数采用IoU损失函数的方式，IoU的损失函数如下式所示：

（4）

所以MPDIoU的损失函数公式为：

（5）所以MPDIoU的损失函数公式可以表示为：

(6)

其中，。

当IoU=0时，即在真实边框和预测边框不重叠的情况下，MPDIoU损失可以简化为：

(7)

当IoU=1时，即在真实边框和预测边框完全重叠的情况下，MPDIoU损失可以简化为：

（8）

因,所以/>。

因为小样本数量少并且小样本像素质量相对于大样本较差，因此利用FocalL1Loss函数来解决高低质量样本类别不平衡的问题。

FocalL1 Loss函数关系式如下：

(9)

其中，,/>与/>为预设的系数，/>为中间变量，。

因此整合后的新的IoU损失函数为：

(10)

其中，为损失值，/>，/>与/>为预设的系数，/>为中间变量，。

如给定偏移量,其中/>是回归结果，/>是回归目标。

的梯度为/>,其中，因此即使偏移很小，/>还可以带来足够的梯度以使模型持续优化。但当/>替换偏移量/>。梯度计算可以表示为。这里/>为变量，当/>接近于0时，整个梯度将非常小。在进行乘法之后，削弱了/>对目标框重新进行加权的效果。为了解决这个问题，使用公式11进行/>的计算。

(11)

其中为预先设置的系数。

本实施例中，在将训练集输入待训练的目标检测模型之后，使用新的IoU损失函数对目标检测模型进行训练，得到训练好的目标检测模型，具体的步骤包括：

S11-1：根据所述训练集中的训练数据，得到所述训练集中的目标图片对应的目标识别结果。

本实施例中，目标识别模型在接收到训练数据后，通过主干网络对图片进行特征提取，再通过模型颈部网络对提取到的浅层特征进行特征融合，最后再通过检测头，根据融合后的深层特征进行识别，得到识别结果，在目标图片上标注出识别框。

S11-2：将所述目标识别结果与预先标注好的目标识别结果进行对比，得到损失值。

本实施例中，在目标识别模型得到目标识别结果之后，将得到的目标识别结果与事先标注好的目标识别结果进行对比，得到两者之间的差值，将两者之间的差值作为损失值。

S11-3：通过所述预设的损失函数，根据所述损失值对所述目标检测模型进行参数调整，得到训练好的所述目标检测模型。

本实施例中，在得到损失值之后，通过预设的损失函数对目标模型的参数进行调整，当参数调整至最优时，得到训练好的目标检测模型。

参考图2，图2是本申请一实施例提出的目标检测方法的流程图。如图2所示，该方法包括以下步骤：

S21：接收待检测的目标图像。

本实施例中，目标图像是需要进行目标识别的图像。

本实施例中，通过训练好的目标检测模型接收待检测的目标图像。

示例地，当目标检测模型运用于交通***时，接收到的目标图像有可能是马路上各个路口的图像，其中的目标物体可能包括车辆、行人、路边的建筑物等物体，也有很多小目标物体，例如车上的人、地上掉落的钱包等物体。一般情况下，小目标通常有两种定义：一种是绝对小目标，一种是相对小目标，其中绝对小目标是指MSCOCO(Microsoft CommonObjects in Context)数据集中尺寸小于 32*32px(pixel)的目标区域，相对小目标是根据国际光学工程学会(Society of Photo-Optical Instrumentation Engineers, SPIE)的定义，在 256*256px 的图像中面积小于 80px 的目标区域，即尺寸小于原图像面积的0.12%的目标区域。

S22：通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征。

本实施例中，浅层特征是主干网络对目标图像进行初步提取后得到的特征，其包含的语义信息较少，故称之为浅层特征。

本实施例中，通过主干网络，使用多个不同的采集尺寸对目标图像进行特征提取，得到目标图像对应的浅层特征。主干网络在采集图像时，采用了SPPF（Spatial PyramidPooling - Fast，快速特征金字塔池化）网络。

示例地，输入图片为路口摄像头拍摄的图片时，主干网络对该图片进行特征提取，得到图片中的各个物体，例如汽车、人、建筑物等的特征，还可以得到虫子、地上掉落的手机、钱包等小目标的特征。

本实施例中，通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征的具体步骤包括：

S22-1：在所述主干网络中设置多个采集通道，每个所述采集通道对所述目标图片的采集尺寸不同。

本实施例中，在主干网络中设置多个采集通道，每个采集通道对目标图片的采集尺寸不同。

示例地，可以在1/8、1/16、1/32 倍下对图片进行采样，若是要检出小目标，还需要加入一个1/4倍的采样通道，该特征层的感受野较小，目标位置信息更加丰富，生成的深层特征也更加丰富。

S22-2：通过所述多个采集通道分别对所述目标图像进行特征提取，得到所述浅层特征。

本实施例中，通过多个采集通道分别对目标图像进行特征提取，提取时使用SPPF网络进行特征提取，得到浅层特征。

S23：通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征。

本实施例中，模型颈部网络是位于主干网络和检测头之间的网络，主要是对浅层特征进行融合，得到深层特征，深层特征与浅层特征相比，尺寸更小，语义更加丰富。

本实施例中，通过模型颈部网络对浅层特征进行特征融合，模型颈部网络中包括了FPN(Feature Pyramid Network,特征金字塔网络)以及PANet（Path AggregationNetwork，多路径聚合网络）。通过颈部模型网络对浅层特征进行语义增强以及特征融合，得到目标图像对应的深层特征。

本实施例中，通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征的具体步骤包括：

所述通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征，包括：

S23-1：通过所述模型颈部网络接收所述浅层特征。

本实施例中，首先通过模型颈部网络接收主干网络输出的浅层特征。

S23-2：对所述浅层特征进行特征融合，得到所述深层特征。

本实施例中，模型颈部网络对浅层特征进行特征融合，得到深层特征，具体的步骤包括：

S23-2-1：通过特征图金字塔网络对所述浅层特征进行特征融合，得到融合后的特征。

本实施例中，模型颈部网络中包括特征金字塔网络，首先通过特征金字塔网络对浅层特征进行融合，得到融合后的特征。

S23-2-2：通过多路径聚合网络对所述融合后的特征进行进一步特征融合，得到所述深层特征。

本实施例中，通过多路径聚合网络对特征金字塔网络输出的融合后的特征进行进一步特征融合，得到深层特征。

S24：通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。

本实施例中，目标识别网络中有多个尺寸的检测头，该检测头由多个卷积层构成，可以根据深层特征识别出目标图片中的物体。检测头为解耦式注意力检测头（DADH，Decoupled attention detection head）。

本实施例中，通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果的具体步骤包括：

S24-1：通过所述检测头接收所述深层特征。

本实施例中，检测头接收模型颈部网络发送的深层特征。

S24-2：根据所述深层特征，对所述目标图像进行识别，得到所述目标图像对应的目标识别结果。

本实施例中，检测头根据接收到的深层特征，对目标图像进行识别，得到目标图像对应的识别结果，具体的步骤包括：

S14-2-1：为所述深层特征对应的每个输入通道赋予对应的权重。

多尺度融合和跨层连接被广泛用于目标检测网络中，用来提高模型的特征提取能力，增加目标检测效果，但FPN结构在跨尺度融合中存在混叠效应，即目标识别框可能重叠，由于多尺度特征图的语义差异，直接融合会混淆输出特征张量中的定位和识别信息。该模型将输入图像划分为HW网格，每个网络预测3个识别框，H、W表示特征图的高度和宽度，每个锚盒需要(x, y, w, h，置信度)5个基本参数和C个类别概率。模型输出形状为HW × (C+1+4) × 3。通常采用3 × 3的卷积核作为检测头，这样的特征表示并不完整，会导致不同目标框预测的数据交叉混淆，因此，采用解耦式注意力检测头。该解耦式注意力检测头首先根据输入的深层特征计算每个输入通道对应的权重，再为每个输入通道赋予对应的权重。

本实施例中，为所述深层特征对应的每个输入通道赋予对应的权重的具体步骤包括：

S24-2-1-1：根据所述深层特征，计算所述深层特征对应的每个所述输入通道的通道权重。

本实施例中，根据深层特征，计算深层特征对应的每个输入通道的通道权重。

S24-2-1-2：为每个所述输入通道赋予对应的权重。

本实施例中，在计算出每个通道的通道权重之后，为输入通道赋予对应的权重。

S24-2-2：通过解耦式注意力机制，对加权处理后的所述深层特征进行分离检测处理，得到所述目标识别结果。

本实施例中，在确定每个通道的通道权重之后，对输入通道进行加权处理，进而对加权处理后的深层特征进行分离检测处理，得到目标识别结果，具体的步骤包括：

S24-2-2-1：通过目标框处理函数对所述深层特征进行目标框检测，得到目标框识别结果。

本实施例中，目标框处理函数用于根据深层特征得到目标图像中的目标框。

本实施例中，通过目标框处理函数对深层特征进行目标框检测，得到目标框识别结果。

S24-2-2-2：通过预测概率处理函数对所述深层特征进行类别概率检测，得到类别概率识别结果。

本实施例中，概率处理函数用于根据深层特征得到目标图片内的物体为哪个类别的概率。

本实施例中，通过预测概率处理函数对深层特征进行类别概率检测，得到类别概率识别结果。

S24-2-2-3：通过置信度处理函数对所述深层特征进行目标框置信度检测，得到目标框置信度识别结果。

本实施例中，置信度处理函数用于根据深层特征，判断每个识别框的置信度。

本实施例中，通过置信度处理函数对深层特征进行目标框置信度检测，得到目标框置信度识别结果。

S24-2-2-4：将所述目标框识别结果、所述类别概率识别结果以及所述目标框置信度识别结果进行合并，得到所述目标识别结果。

本实施例中，将目标框识别结果，类别概率识别结果，目标框置信度识别结果进行合并，得到目标识别结果。

示例地，通过解耦式注意力机制，将目标框位置检测、目标框置信度检测、类别概率检测分离进行处理，避免可能的信息交叉混淆，最后将三部分的输出进行合并，得到最终的预测结果，具体的关系可以表示为：

（12）

（13）

（14）

（15）

其中，表示预测结果；

表示目标框的处理函数，包含3组3X3的2d卷积、BN和SiLU激活函数和1组1X1的2d卷积、BN和SiLU激活函数，其输出通道为3X4；

表示类别预测概率处理函数，包含1组3X3的2d卷积、BN和SiLU激活函数和1组1X1的2d卷积、BN和SiLU激活函数，其输出通道为3Xn，其中n为预测的类别数量；

表示目标框的置信度处理函数，包含1组3X3的2d卷积、BN和SiLU激活函数和1组1X1的2d卷积、BN和SiLU激活函数，其输出通道为3X1。

在本申请的另一个实施例中，所述解耦式注意力检测头的生成步骤包括：

S31：通过所述主干网络通过多个不同的预设倍数对图片进行采样，得到多个浅层特征。

S32：通过所述模型颈部网络对所述多个浅层特征进行融合，得到多个深层特征。

S33：通过所述多个深层特征对解耦式注意力检测网络进行训练，得到所述解耦式注意力检测头。

本实施例中，为了检测出更多的小目标，提高对图片的识别精度，需要检测头具有更加丰富的语义信息和更高的分辨率，基于此，设置了多个不同分辨率的解耦式注意力检测头，在设置检测头时，主干网络通过多个不同预设倍数对图片进行采样，得到多个浅层特征，再通过模型颈部网络对多个浅层特征进行融合，得到多个深层特征，再使用多个深层特征对解耦式注意力检测网络进行训练，得到多个解耦式注意力检测头。

示例地，可以在1/4、1/8、1/16、1/32 倍下进行采样，得到4个不同分辨率的解耦式注意力检测头。

参考图3，图3是本申请一实施例提出的Neck+DetectHead模块示意图，如图4所示，在目标图片输入后，特征C0、C1、C2、C3进入FPN网络得到P0、P1、P2、P3四个特征，再通过PANet网络对特征进行处理，得到Detect0、Detect1、Detect2、Detect3这四个识别结果对应的输出。

参考图4，图4是本申请一实施例提出的DetectHead结构图，图中采用了3路卷积层（Cnov）对深层向量进行处理，表示目标框的处理函数，/>表示类别预测概率处理函数，/>表示目标框的置信度处理函数，得到预测结果/>。这样就保证了在对结果进行识别时各因素不会互相影响，进而提升了识别的准确率。

在本申请另一个实施例中，对本申请提出的目标检测模型进行了测试，本次测试选择BDD100K数据集对网络进行训练，并在该数据集上进行消融实验，以测试本模型的有效性。BDD100K 数据集具有数据量大、数据属性多(运动模糊、眩光目标、路灯和车尾灯等情况）等优点，能充分测试出网络的泛化能力。网络训练参数设置如下：批量大小为 32，最大迭代次数为 300，图片输入尺寸为640X640，采用余弦退火策略动态调整网络训练的学习率，初始学习率为0.01。

本次测试分为四组，其中A组使用的模型为YOLOv5s的基础版本效果测试，B组使用的模型为YOLOv5s增加检测头多级特征融合，C组使用的模型为YOLOv5s增加检测头多级特征融合，将普通检测头改为解耦式注意力检测头，D组使用的模型为YOLOv5s增加检测头多级特征融合，将普通检测头改为解耦式注意力检测头，将IoU损失函数更改为新的IoU损失函数，D组为本申请实施例提出的目标检测模型。

分别对四组实验过程中模型最后特征图进行可视化，得到四组算法的热力图如图5所示，图5是本申请一实施例提出的实验热力图。从图5可以看出实验D即改进后的YOLOv5s相对于原YOLOv5s(实验A)而言，其提取的小目标特征点位置更多，包含的错误目标位置数量减少，有效提高了小目标的检测精度，降低了模型的误检率。实验B和实验C对比于实验A而言，其热力图同样展示了更多的目标位置，但其包含错误目标的情况随之增多。

不同方法在训练过程中均使用相同的数据集和参数设置。根据训练过程中的参数信息，绘制出改进过程中不同算法实验的目标框位置损失曲线、目标框置信度损失曲线，和类别概率损失曲线，图6a是本申请一实施例提出的目标框位置损失曲线图，图6b是本申请一实施例提出的目标框置信度损失曲线图，图6c是本申请一实施例提出的类别概率损失曲线图。由图6a、图6b、图6c可看出,最改进后的YOLOv5s和原YOLOv5s相比，其目标框位置损失值、目标框置信度损失值和类别概率损失值均有一定程度的降低，并且其收敛速度更快。其中改进后的YOLOv5s和原YOLOv5s相比，类别概率损失值降低了0.005，目标框位置损失值大约降低了0.07，目标框置信度损失值大概降低了0.05，对于目标框置信度损失曲线，用原YOLOv5s预训练模型参数初始化模型参数，导致原YOLOv5s刚开始的目标框置信度损失值先有一段上升继而进行下降。

根据训练过程中的参数信息，绘制出改进过程中不同算法实验的精确度曲线，召回率曲线，和mAP（全类平均精确度）0.5曲线，图7a是本申请一实施例提出的全类平均精确度0.5曲线图，图7b是本申请一实施例提出的精确度曲线图，图7c是本申请一实施例提出的召回率曲线图。由图7a、图7b、图7c可看出, 改进后的YOLOv5s和原YOLOv5s相比，改进后的YOLOv5s算法的精确度，召回率，和mAP0.5均得到了提升，其中精确度提升了1.5%，召回率提升了4%，mAP0.5的值提升了5.8%。

四组实验在BDD100K数据集上各类别的Map0.5的值如表1所示，从表1可以看出，改进后的YOLOv5s的对于BDD100K中各类别mAP0.5的检测值明显高于YOLOv5s。其中小目标如交通信号标识mAP0.5的值由51.6%提升至56.9%，提高了5.5%；交通信号灯mAP0.5的值由34.4%提升至41%，提高了6.6%;针对大目标如火车mAP0.5的值由0提升至6.64%；卡车mAP0.5的值由54.2%提升至56.2%，提高了2%。

表1

四组实验在BDD100K数据集上的整体性能指标如表2所示。从表2 可以看出，改进后的YOLOv5s在mAP（全类平均精确度）0.5、mAP0.5:0.95、P（精确度）和R（召回率）上均有一定程度的提升，其中mAP0.5提升了5.8%，mAP0.5:0.95提升了3.2%，精确度P提升了1.5%，召回率R提升了4%。但模型的参数量Parameters增加了7.6M，模型推理的帧率FPS也有一定程度的降低。

表2

本实施例中，为了更好地验证改进后YOLOv5s的可行性，从BDD100K数据集中随机提取在不同场景下两组图片进行测试，分别验证改进后YOLOv5s和原YOLOv5s的检测效果，在夜间场景下对目标检测，光线不好的情况下效果图如图8所示，图8是本申请一实施例提出的夜间目标检测效果示意图。

YOLOv5s和改进后的YOLOv5s相比没有检测到交通信号标识。在白天场景下对目标检测，光线明亮的情况下效果图如图9所示，图9是本申请一实施例提出的日间目标检测效果示意图。YOLOv5s和改进后的YOLOv5s相比没有检测到交通信号灯。

本实施例中，提出了一种目标检测网络，其检测头采用了多级特征融合，从模型主干网络中提取更大尺寸的特征图融合到PANet网络，加入了新的检测头，增加检测头输出特征的分辨率，有效的防止了小目标的丢失，增加了小目标的特征提取能力。将检测头设置为解耦式注意力检测头，将目标框位置检测、目标框置信度检测、类别概率检测进行分离处理，减少各个特征信息之间的混淆，避免了目标漏检，提高了检测精度。进一步地，将检测算法由传统的IoU损失修改为新的IoU损失，避免了数据集中类别不均衡，小目标像素质量差，目标框和真实框之间长宽比、重叠域和中心距离等因素的影响，进一步增加了小目标的检测能力。进而提升了对图像的目标检测的准确度。

基于同一发明构思，本申请一实施例提供一种目标检测装置。参考图10，图10是本申请一实施例提出的目标检测装置1000的示意图。如图10所示，该装置包括：

图像接收模块1001，用于接收待检测的目标图像；

浅层特征获取模块1002，用于通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征；

深层特征获取模块1003，用于通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征；

识别结果获取模块1004，用于通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，所述检测头为解耦式注意力检测头。

将预先收集好的训练集输入待训练的目标检测模型中；

可选地，所述浅层特征获取模块包括：

可选地，所述深层特征获取模块包括：

可选地，所述特征融合子模块包括：

可选地，所述识别结果获取子模块包括：

可选地，所述图像识别子模块包括：

可选地，所述权重处理子模块包括：

可选地，所述识别结果获取子模块包括：

可选地，所述预设的损失函数的表达式为：

其中，为损失值，/>，/>与/>为预设的系数，。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的目标检测方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，参考图11，图11是本申请一实施例提出的电子设备1100的示意图，包括存储器1102、处理器1101及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的目标检测方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的目标检测方法、装置、设备及存储介质，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种目标检测方法，其特征在于，所述方法包括：

接收待检测的目标图像；

2.根据权利要求1所述的方法，其特征在于，所述方法基于目标检测模型，所述目标检测模型的训练步骤包括：

将预先收集好的训练集输入待训练的目标检测模型中；

3.根据权利要求1所述的方法，其特征在于，所述通过主干网络，使用多个不同的采集尺寸对所述目标图像进行特征提取，得到所述目标图像对应的浅层特征，包括：

在所述主干网络中设置多个采集通道，每个所述采集通道对所述目标图像的采集尺寸不同；

4.根据权利要求1所述的方法，其特征在于，所述通过模型颈部网络对所述浅层特征进行特征融合，得到所述目标图像对应的深层特征，包括：

通过所述模型颈部网络接收所述浅层特征；

对所述浅层特征进行特征融合，得到所述深层特征。

5.根据权利要求4所述的方法，其特征在于，所述对所述浅层特征进行特征融合，得到所述深层特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述通过多个尺寸的检测头分别对所述深层特征进行检测，得到所述目标图像对应的目标识别结果，包括：

通过所述检测头接收所述深层特征；

7.根据权利要求6所述的方法，其特征在于，所述根据所述深层特征，对所述目标图像进行识别，得到所述目标图像对应的目标识别结果，包括：

为所述深层特征对应的每个输入通道赋予对应的权重；

8.根据权利要求7所述的方法，其特征在于，所述为所述深层特征对应的每个输入通道赋予对应的权重，包括：

为每个所述输入通道赋予对应的权重。

9.根据权利要求7所述的方法，其特征在于，所述通过解耦式注意力机制，对加权处理后的所述深层特征进行分离检测处理，得到所述目标识别结果，包括：

10.根据权利要求1所述的方法，所述解耦式注意力检测头的生成步骤包括：

11.根据权利要求2所述的方法，其特征在于，所述通过预设的损失函数，对所述目标检测模型进行训练，得到训练好的目标检测模型，包括：

根据所述训练集中的训练数据，得到所述训练集中的目标图像对应的目标识别结果；

12.根据权利要求2所述的方法，其特征在于，所述预设的损失函数的表达式为：

其中，为损失值，/>，/>与/>为预设的系数，/>。

13.一种目标检测装置，其特征在于，所述装置包括：

图像接收模块，用于接收待检测的目标图像；

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现如权利要求1至12任一所述的方法中的步骤。

15.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现如权利要求1至12任一所述的方法的步骤。