CN114241340A

CN114241340A - 一种基于双路深度残差网络的图像目标检测方法及***

Info

Publication number: CN114241340A
Application number: CN202111544670.6A
Authority: CN
Inventors: 王素玉; 张磊; 车其晓; 晋一淑
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-03-25
Anticipated expiration: 2041-12-16
Also published as: CN114241340B

Abstract

本发明提供一种基于双路深度残差网络的图像目标检测方法及***，涉及目标检测技术领域，包括：识别图像的光照情况，若为低照度图像则进行亮度增强处理；对图像进行特征提取，获得初始图像特征；基于双路深度残差软阈值特征去噪网络对初始图像特征进行去噪优化，得到优化后图像特征；对优化后图像特征进行分类及目标检测，获取检测结果。本发明对航拍图像中的低照度图像进行亮度增强，再进行目标检测，同时设计了一种双路深度残差软阈值特征去噪网络，更好的降低无人机图像背景特征中的噪声对目标检测的影响，提升目标检测效果。

Description

一种基于双路深度残差网络的图像目标检测方法及***

技术领域

本发明涉及目标检测技术领域，涉及一种基于双路深度残差网络的图像目标检测方法及***，尤其是涉及一种基于双路深度残差软阈值特征去噪的无人机航拍图像目标检测方法及***。

背景技术

随着无人机技术的进步，使用无人机来获取高清图像越来越方便。通过在无人机图像中使用目标检测技术，在公共安全监测和特殊情况下人员检测发挥着越来越重要的作用。

目标检测技术最近几年取得了很大的进步，尤其是随着大规模数据集的出现以及计算能力的提升，基于深度神经网络(DNN)的技术尤其是卷积神经网络(CNN)，已经在众多目标检测技术中脱颖而出。

尽管基于深度学习的目标检测框架在通用数据集上取得了很大进步，但是在无人机航拍的图像还存在检测效果不佳的问题。这些问题主要归因于一下几个方面：无人机操控非常灵活，拍摄环境也是多变的，比如在低照度环境下拍摄的图像没有清晰的目标信息、拍摄尺度多变导致图像中背景占比较大，从而包含过多的背景噪声信息，这些问题都会影响目标检测算法在无人机图像中的检测效果。

发明内容

针对上述问题，本发明提供了一种基于双路深度残差网络的图像目标检测方法及***，对航拍图像中的低照度图像进行亮度增强，再进行目标检测，同时设计了一种双路深度残差软阈值特征去噪网络，更好的降低无人机图像背景特征中的噪声对目标检测的影响，提升目标检测效果。

为实现上述目的，本发明提供了一种基于双路深度残差网络的图像目标检测方法，包括：

识别图像的光照情况，若为低照度图像则进行亮度增强处理；

对所述图像进行特征提取，获得初始图像特征；

基于双路深度残差软阈值特征去噪网络对所述初始图像特征进行去噪优化，得到优化后图像特征；

对所述优化后图像特征进行分类及目标检测，获取检测结果。

作为本发明的进一步改进，基于HSV色域分析识别所述图像的光照情况，判断所述图像是否为低照度的图像；

若为低照度图像，则采用Zero-DCE算法对所述图像进行亮度增强；

若为正常图像，则直接进行特征提取。

作为本发明的进一步改进，所述双路深度残差软阈值特征去噪网络包括并行连接的通道维软阈值去噪模块和空间维软阈值去噪模块；

所述通道维软阈值去噪模块和所述空间维软阈值去噪模块分别对所述初始图像特征进行处理，再进行相加融合，获得完整的图像特征输出。

作为本发明的进一步改进，所述通道维软阈值去噪模块对所述初始图像特征进行处理，过程包括：

先对所述初始图像特征中H×W×C的中间特征进行Absolute操作，再进行GAP全局平均池化操作，提取到深层次的特征信息并转换成尺度为C×1×1的特征向量；

将C×1×1的特征向量经过两个全连接层的操作FC，再经过BN层处理之后输入到Sigmoid激活函数，得到一个0到1范围内的尺度参数α；

将α与C×1×1的特征向量的绝对值相乘，得到一组C×1×1的阈值参数τ；

通过所述阈值参数τ对初始图像特征进行通道维软阈值去噪，得到通道维软阈值去噪后的图像特征；公式如下：

τ＝α·average|x_i,j,c|

其中，

x_i,j,c代表输入的图像特征；

α为尺度参数；

τ为最终用于去噪的软阈值。

作为本发明的进一步改进，所述空间维软阈值去噪模块对所述初始图像特征进行处理，过程包括：

对所述初始图像特征取绝对值；

第一条分支将所述初始图像特征通过1×1的卷积方式，将所述初始图像特征的通道数从C降到1，随后经过Sigmoid激活函数进行归一化操作，得到空间注意力权重参数H×W×1；

第二分支对所述初始图像特征中H×W×C的中间特征沿着C通道取平均值，得到H×W×1的输出，作为基线空间阈值；

将所述第一条分支得到的所述空间注意力权重参数H×W×1与所述第二分支得到的基线阈值H×W×1相乘，得到H×W×1的软阈值输出矩阵；

根据H×W×1的所述软阈值输出矩阵对所述初始图像特征进行空间维软阈值去噪，得到空间软阈值特征去噪后的图像特征。

本发明还提供了一种基于双路深度残差网络的图像目标检测***，包括数据预处理模块和目标检测模型，所述目标检测模型包括：主干特征提取网络、双路深度残差软阈值特征去噪网络、目标检测模块；

所述数据预处理模块，用于：

所述主干特征提取网络，用于：

对所述图像进行特征提取，获得图像特征；

所述双路深度残差软阈值特征去噪网络，用于：

基于双路深度残差软阈值特征去噪网络对所述图像特征进行去噪优化；

所述目标检测模块，用于：

对优化后的所述图像特征进行分类及目标检测，获取检测结果。

作为本发明的进一步改进，所述目标检测模型具体包括：卷积核大小为1×1和3×3的卷积层、ReLU激活函数、最大池化层、平均池化层、批量归一化层、残差连接、特征拼接、双线性插值上采样层。

作为本发明的进一步改进，所述目标检测模型的训练过程，包括：

使用COCO公开数据集预训练所述目标检测模型的初始化权重参数；

采用迁移学习的方式训练图像；

采用QFocal Loss进行分类损失实验；

使用GIOU Loss进行回归损失实验；

选择随机梯度下降的方式作为所述目标检测模型训练的优化器，设置动量为0.9，权重衰减为10-4，初始化学习率为0.02，训练过程自动保存最佳的训练模型参数，作为所述目标检测模型进行目标检测时的参数。

作为本发明的进一步改进，所述采用QFocal Loss进行分类损失实验，包括：

在Focal Loss的基础上，采用QFocal Loss将分类得分与检测框质量得分进行联合训练。

作为本发明的进一步改进，所述采用QFocal Loss将分类得分与检测框质量得分进行联合训练，具体包括：

基于在Focal Loss中标签的值仅支持0-1标签，而QFocal loss中标签y使用0到1之间连续值，因此：

交叉熵部分使用-((1-y)log(1-σ)+y log(σ))；

尺度参数部分使用|y-σ|^β(β≥0)表示预测值σ与连续的标签y之间的绝对距离；

具体损失函数为：

QFL(σ)＝-|y-σ|^β((1-y)log(1-σ)+y log(σ))

当样本的质量估计不准确并且偏离标签y时，调制因子相对较大，因此关注学***滑地控制降权率，设置β＝2。

与现有技术相比，本发明的有益效果为：

本发明相较于现有的基于深度神经网络(DNN)的目标检测方法，对航拍图像中的低照度图像进行亮度增强，再进行目标检测，同时设计了一种双路深度残差软阈值特征去噪网络，更好的降低无人机图像背景特征中的噪声对目标检测的影响，提升目标检测效果。

本发明采用QFocal Loss分类损失函数来针对无人机图像中难易检测样本不均衡以及预测过程检测框位置不精确的问题。

附图说明

图1为本发明一种实施例公开的基于双路深度残差网络的图像目标检测方法流程图；

图2为本发明一种实施例公开的基于双路深度残差网络的图像目标检测方法流程示意图；

图3为本发明一种实施例公开的双路深度残差软阈值特征去噪网络示意图；

图4为本发明一种实施例公开的通道软阈值去噪模块示意图；

图5为本发明一种实施例公开的空间软阈值去噪模块示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1、2所示，本发明提供的一种基于双路深度残差网络的图像目标检测方法，包括：

S1、识别图像的光照情况，若为低照度图像则进行亮度增强处理；

其中，

由于无人机工作环境复杂，拍摄的图像中会包含一些低照度图像，所以低照度图像也是影响目标检测性能的很大原因。根据光度学和色度学相关理论，低照度图像与普通光照充足的图像相比，其色调中蓝色和绿色的光谱成分偏低，而红色和黄色成分偏高，这主要是由于低照度环境下人工光源与自然光源光谱成分之间的差异造成的。因此通过检测图像中的光谱成分差异，可以有效判别图像采集环境的光源类别，从而对低照度图像与普通图像进行区分。

具体的，基于HSV色域分析识别图像的光照情况，判断图像是否为低照度的图像；本发明中通过统计图像上半部分红色和黄色光谱成分所占的比例，进行阈值判定分析，使用图像上半部分一是因为该部分依然具有整张图像的色调和亮度属性，二是降低图像尺寸有利于加速算法的整个推理过程；

若为低照度图像，则采用Zero-DCE算法对图像进行亮度增强；

若为正常图像，则直接进行特征提取。

进一步的，

使用了VisDrone2020公开的数据集，使用yolov5目标检测算法作为主要模型进行训练，首先对图像进行预处理，该网络的输入图像大小是640×640，对输入图像自适应缩放到网络的输入大小，并进行归一化操作。

通过HSV色域分析方法对图像的光照情况进行判别，若判断图像为低照度图像则采用Zero-DCE算法对图像进行亮度增强，以提升算法的检测效果。

S2、对图像进行特征提取，获得初始图像特征；

S3、如图3所示，基于双路深度残差软阈值特征去噪网络对初始图像特征进行去噪优化，得到优化后图像特征；

其中，

由于无人机图像本身会包含除检测目标之外的无关背景噪声信息，从而影响到目标检测的整体效果，基于通道维和空间维的双路深度残差软阈值特征去噪网络(DRSN)，对图像特征中不重要的背景噪声信息进行抑制操作；

双路深度残差软阈值特征去噪网络包括并行连接的通道维软阈值去噪模块和空间维软阈值去噪模块；

通道维软阈值去噪模块和空间维软阈值去噪模块分别对初始图像特征进行处理，再进行相加融合，获得完整的图像特征输出。

进一步的，

(1)如图4所示，通道维软阈值去噪模块对初始图像特征进行处理，过程包括：

先对初始图像特征中H×W×C的中间特征进行Absolute操作，再进行GAP全局平均池化操作，提取到深层次的特征信息并转换成尺度为C×1×1的特征向量；

通过阈值参数τ对初始图像特征进行通道维软阈值去噪，得到通道维软阈值去噪后的图像特征；公式如下：

τ＝α·average|x_i,j,c|

其中，

x_i,j,c代表输入的图像特征；

α为尺度参数；

τ为最终用于去噪的软阈值。

经过在无人机图像中不断进行实验，单纯的使用通道软阈值特征去噪模块并不能最优的提升目标检测模型的检测效果，无人机图像往往分辨率较大，所以图像空间层中往往会包含更多的信息，因此参考了空间注意力的设计，尝试并设计了空间软阈值特征去噪模块。

(2)如图5所示，空间维软阈值去噪模块对初始图像特征进行处理，过程包括：

对初始图像特征取绝对值；

第一条分支将初始图像特征通过1×1的卷积方式，将初始图像特征的通道数从C降到1，随后经过Sigmoid激活函数进行归一化操作，得到空间注意力权重参数H×W×1；

第二分支对初始图像特征中H×W×C的中间特征沿着C通道取平均值，得到H×W×1的输出，作为基线空间阈值；

将第一条分支得到的空间注意力权重参数H×W×1与第二分支得到的基线阈值H×W×1相乘，得到H×W×1的软阈值输出矩阵；

根据H×W×1的软阈值输出矩阵对初始图像特征进行空间维软阈值去噪，得到空间软阈值特征去噪后的图像特征。

S4、对优化后图像特征进行分类及目标检测，获取检测结果。

本发明还提供了一种基于双路深度残差网络的图像目标检测***，包括数据预处理模块和目标检测模型，目标检测模型包括：主干特征提取网络、双路深度残差软阈值特征去噪网络、目标检测模块；目标检测模型具体包括：卷积核大小为1×1和3×3的卷积层、ReLU激活函数、最大池化层、平均池化层、批量归一化层、残差连接、特征拼接、双线性插值上采样层；尺寸为640×640的图像数据输入模型，经过主干网络特征提取获得图像深层语义信息，经过Neck网络特征融合，最后经过双路深度残差软阈值特征去噪网络对图像背景特征去噪，最终得到去噪后的无人机图像特征用于目标的判别和定位；

数据预处理模块，用于：

主干特征提取网络，用于：

对图像进行特征提取，获得图像特征；

双路深度残差软阈值特征去噪网络，如图3所示，用于：

基于双路深度残差软阈值特征去噪网络对图像特征进行去噪优化；

目标检测模块，用于：

对优化后的图像特征进行分类及目标检测，获取检测结果。

本发明中，目标检测模型的训练过程，包括：

使用COCO公开数据集预训练目标检测模型的初始化权重参数；

使用VisDrone无人机航拍图像数据集，先对图像做归一化操作，将所有的像素值映射为0到1范围内，模型中输入图像的尺寸大小限制为640×640，因此，将输入图像采用resize等比缩放的方式，输入到模型中；

采用迁移学习的方式训练图像；

采用QFocal Loss进行分类损失实验；

使用GIOU Loss进行回归损失实验；

选择随机梯度下降的方式作为目标检测模型训练的优化器，设置动量为0.9，权重衰减为10-4，初始化学习率为0.02，训练过程自动保存最佳的训练模型参数，作为目标检测模型进行目标检测时的参数。

其中，

无人机工作在高空环境中，图像尺度比较大，可能包含的检测目标的数量较少，目标检测算法在一张图像可以生成成千上万个目标检测的候选框，但是只有很少的一部分候选框中会包含要检测的目标，候选框中正样本的数量较少，负样本数量太多，这样就带来了严重的正负样本不均衡的问题以及检测框位置精确的问题，本发明采用QFocal Loss来解决。

在无人机图像目标检测中，置信度是每个检测框输出的一项重要参数，一方面代表当前检测框有对象的概率P_r(object)；另一方面表示当前检测框有对象时，预测的检测框与物体真实的检测框的IOU的值。用数学形式表达置信度的定义为：

在一般的训练过程中，分类得分(P_r)与检测框质量估计(IOU)是分开单独训练的，但是到了预测过程中又将分类得分和检测框质量估计得分相乘，将其相乘得到的最终结果用到NMS排序过程中，对于单阶段检测器来说，由于负样本在训练过程中不参与检测框质量计算，所以必然会导致一部分负样本检测框质量估计出现了不准确的极高的得分，使得它排序到了一个真正的正样本的前面。所以针对上述存在的问题，保证训练和预测的一致性，QFocal loss采用的解决方案是将两者的表示进行联合，保留分类得分，但是对应类别位置置信度含义不再是分类得分，而是替换为检测框质量得分，通过这种方式将两者结合起来，在训练过程中y＝0表示负样本的质量，正样本的目标检测IOU得分0<y<1。

在继承了Focal Loss损失的基础上，使用分类-IOU联合交叉熵损失对整个图像进行训练，然而Focal Loss中y的值仅支持0-1标签，但是在QFocal loss中label使用0到1之间连续值，即IOU的大小；

交叉熵部分使用-((1-y)log(1-σ)+y log(σ))代替；

尺度参数部分使用|y-σ|^β(β≥0)表示预测值σ与连续的标签y(预测IOU)之间的绝对距离，具体损失函数如下：

QFL(σ)＝-|y-σ|^β((1-y)log(1-σ)+y log(σ))

当样本的质量估计不准确并且偏离标签y时，调制因子相对较大，因此更关注学***滑地控制降权率，设置β＝2。

本发明，通过在预测时加载保存好的模型参数，整个实验在yolov5检测框架的基础上进行改进和测试，针对多种方法分别进行了实验对比和分析，得到对比结果如下表：

通过对比所示，在VisDrone数据集上，本发明方法相较于其他通用的目标检测算法，获得了比较好的检测结果，证明本发明对于无人机航拍图像目标检测算法是有效的。

本发明在训练及目标预测过程中，采用平均准确率(map)作为最终评测模型好与坏的评价指标。在VisDrone无人机图像数据集上评估了所提出方法的性能，对比目前通用的目标检测算法，本方法在无人机图像目标检测map有了较为明显的提升。

本发明的优点：

相较于现有的基于深度神经网络(DNN)的目标检测方法，对航拍图像中的低照度图像进行亮度增强，再进行目标检测，同时设计了一种双路深度残差软阈值特征去噪网络，更好的降低无人机图像背景特征中的噪声对目标检测的影响，提升目标检测效果。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于双路深度残差网络的图像目标检测方法，其特征在于，包括：

对所述图像进行特征提取，获得初始图像特征；

2.根据权利要求1所述的方法，其特征在于：基于HSV色域分析识别所述图像的光照情况，判断所述图像是否为低照度的图像；

若为正常图像，则直接进行特征提取。

3.根据权利要求1所述的方法，其特征在于：所述双路深度残差软阈值特征去噪网络包括并行连接的通道维软阈值去噪模块和空间维软阈值去噪模块；

4.根据权利要求3所述的方法，其特征在于：所述通道维软阈值去噪模块对所述初始图像特征进行处理，过程包括：

τ＝α·average|x_i,j,c|

其中，

x_i,j,c代表输入的图像特征；

α为尺度参数；

τ为最终用于去噪的软阈值。

5.根据权利要求3所述的方法，其特征在于，所述空间维软阈值去噪模块对所述初始图像特征进行处理，过程包括：

对所述初始图像特征取绝对值；

6.一种实现如权利要求1～5任一项所述的图像目标检测方法的***，其特征在于，包括数据预处理模块和目标检测模型，所述目标检测模型包括：主干特征提取网络、双路深度残差软阈值特征去噪网络、目标检测模块；

所述数据预处理模块，用于：

所述主干特征提取网络，用于：

对所述图像进行特征提取，获得图像特征；

所述双路深度残差软阈值特征去噪网络，用于：

所述目标检测模块，用于：

7.根据权利要求5所述的***，其特征在于，所述目标检测模型具体包括：卷积核大小为1×1和3×3的卷积层、ReLU激活函数、最大池化层、平均池化层、批量归一化层、残差连接、特征拼接、双线性插值上采样层。

8.根据权利要求5所述的***，其特征在于，所述目标检测模型的训练过程，包括：

采用迁移学习的方式训练图像；

采用QFocal Loss进行分类损失实验；

使用GIOU Loss进行回归损失实验；

9.根据权利要求8所述的***，其特征在于：所述采用QFocal Loss进行分类损失实验，包括：

10.根据权利要求9所述的***，其特征在于：所述采用QFocal Loss将分类得分与检测框质量得分进行联合训练，具体包括：

交叉熵部分使用-((1-y)log(1-σ)+ylog(σ))；

具体损失函数为：

QFL(σ)＝-|y-σ|^β((1-y)log(1-σ)+ylog(σ))