CN114170526A

CN114170526A - 基于轻量化网络的遥感影像多尺度目标检测识别方法

Info

Publication number: CN114170526A
Application number: CN202111388223.6A
Authority: CN
Inventors: 蒋丽婷; 张志超; 喻金桃
Original assignee: CETC 15 Research Institute
Current assignee: CETC 15 Research Institute
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-03-11

Abstract

本发明公开了一种基于轻量化网络的遥感影像多尺度目标检测识别方法，包括以下步骤：对获取的遥感图像进行预处理；基于深度可分离卷积替换特征提取主干和检测分枝中的标准卷积过程，并将处理后的图像输入卷积神经网络进行特征提取；采用特征金字塔，从卷积神经网络不同层抽取不同尺度特征图像进行预测，融合不同层检测结果，得到多尺度融合特征图；在特征图上设置候选框，生成预测张量，基于此预测目标所属类别的置信度及位置信息。通过引入深度可分离卷积，减少模型参数，提升网络检测速度；提取多个尺度特征图，满足不同尺度目标检测需求；将语义信息特征强的高层特征图与几何信息特征强的底层特征图融合，提升小目标检测性能。

Description

基于轻量化网络的遥感影像多尺度目标检测识别方法

技术领域

本发明涉及遥感图像检测技术领域，更具体的说是涉及基于轻量化网络的遥感影像多尺度目标检测识别方法。

背景技术

目前，随着遥感技术不断发展，遥感影像的分辨率，包括时间分辨率、空间分辨率、辐射分辨率和光谱分辨率正在不断提高，高质量的遥感影像逐渐被广泛应用于军事和民用领域，基于深度学习的遥感影像目标检测也逐渐成为研究热点。为了实现遥感影像中的目标检测，研究学者们相继提出了许多有价值的目标检测方法，目前主流检测算法通常可以分为2类：分阶段检测方法和端到端检测方法。

第一类是分阶段检测方法，该方法一般先通过滑动窗等方法获得候选区域，之后提取特征训练分类器，再通过分类器判断候选框中是否包含目标。目前遥感领域许多目标检测算法都是基于这种方法实现的，这类方法优势在拥有较高的检测精度高。

第二类是基于回归方法的端到端目标检测算法，将候选框提取阶段和类别预测阶段有效结合，YOLO与SSD都是通过回归的方式完成目标检测，使利用深度学习的方式进行目标检测速度大大提升。

但是，现有遥感影像目标检测方法的不足主要包括：分阶段检测方法的检测流程均包含多个阶段，实现过程复杂，通过滑窗提取了大量冗余候选区域，导致检测速度慢，难以满足遥感影像处理实时需求。基于回归方法的端到端目标检测算法主要是针对自然场景设计，而遥感影像范围广，目标尺度差异大，小目标占比大，分辨率低。因此，该方法不能直接适用于遥感图像，存在多尺度目标提取能力差、小目标漏检等问题

因此，引入深度可分离卷积，减少模型参数，提升网络检测速度；提取多个尺度特征图，满足不同尺度目标检测需求；将语义信息特征强的高层特征图与几何信息特征强的底层特征图融合，提升小目标检测性能是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种基于轻量化网络的遥感影像多尺度目标检测识别方法，通过引入深度可分离卷积，减少模型参数，提升网络检测速度；提取多个尺度特征图，满足不同尺度目标检测需求；将语义信息特征强的高层特征图与几何信息特征强的底层特征图融合，提升小目标检测性能。

为了实现上述目的，本发明采用如下技术方案：

一种基于轻量化网络的遥感影像多尺度目标检测识别方法，包括以下步骤：

S1、对获取的遥感图像进行预处理；

S2、基于深度可分离卷积替换特征提取主干和检测分枝中的标准卷积过程，并将处理后的图像输入卷积神经网络进行特征提取；

S3、采用特征金字塔，从卷积神经网络不同层抽取不同尺度特征图像进行预测，融合不同层检测结果，得到多尺度融合特征图；

S4、在特征图上设置候选框，生成预测张量，基于此预测目标所属类别的置信度及位置信息。

优选的，所述步骤S2具体包括：

S21、通过32个3x3的卷积核卷积，在初始层的基础上增加网络层数，提高特征表达能力；

S22、然后由block1和block2交替堆积，每个block由深度卷积和点卷积组成，每个卷积后都进行了批归一化，接着输出到relu层，其中block1的深度卷积卷积步长为1，block2的深度卷积卷积步长为2；

S23、经过13个卷积块实现特征提取后，将conv13特征图反卷积后与conv5融合，将融合后的特征图与conv11、conv13特征图同时送入目标检测模块，进行坐标回归和分类，并对多个尺度特征图上的检测结果进行非极大值抑制，筛选出最终结果，完成特征提取。

优选的，所述步骤S3具体包括：

S31、计算特征图感受野：

选取合适的特征图

f(x)＝k,其中R_k-1＜x≤R_k

其中R_k表示第k层感受野大小，初始感受野R₀＝1，K_k表示第k层卷积核大小，s_k表示第k层卷积步长，m为特征图总层数，x为样本长度，f(x)表示该样本长度对应的特征图；

S32、将样本划分为大、中、小3个阶段，分别选取最后3种不同大小的特征图；

S33、采用步长为2的2×2卷积核，通过对38×38的高语义信息特征图进行上采样，将反卷积输出经过批归一化处理和ReLU层后，与10×10的低语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图，利用多通道卷积对经拼接而成的多通道特征图提取特征，使用3×3×256的卷积核实现特征融合。

优选的，所述步骤S4具体包括：

S41、选取有效感受野与理论感受野比例为1/3，并计算候选框大小

k∈[1,m]

其中，R_k表示第k层感受野大小，m为特征图总层数；

确定候选框长宽比，计算出每张特征图候选框对应原图的长宽占比，当长宽比为1时，增加2个长度分别为S_k和

的候选框，因此每张特征图有6个候选框，

其中r为长宽比系数，w_k，h_k分别为第k层特征图候选框长宽；

S42、建立真实标签和候选框的对应关系，真实标签从候选框中选择，匹配原则为：图中真实目标与候选框交并比IoU最大的候选框进行匹配，确保候选框覆盖每一个真实目标，与真实目标覆盖的候选框为正样本，没有匹配目标的候选框为负样本；当候选框匹配多个真实目标，取IoU最大的目标；

S43、采用SSD的损失函数训练模型，损失函数由置信度误差与位置误差的加权构成

其中x表示候选框与这是目标是否匹配，匹配为1，不匹配为0；c为多类目标置信度预测值；为对应于候选框的边界框位置预测值；g是真实目标的位置参数；N是与真实目标匹配的候选框数量；是对位置误差与置信度误差之间的比例进行调整的参数，通常取1；

对于位置误差，其采用真实目标和候选框之间的Smooth_L1损失，定义如下：

其中

表示第i个候选框与类别k的第j个真实目标进行匹配；

表示平滑L1范数，i∈Pos表示第i个正样本预测框；x，y，w，h分别表示候选框中心坐标以及其宽度和高度；

是对g进行编码得到的；l表示对应于候选框的预测框的偏移量；g表示真实框；d表示候选框；

置信度误差是多类别置信度c的softmax损失，

中i∈Neg表示第i个正样本预测框；

作为一个指示参数，当它为1时表示第i个候选框与第j个真实目标匹配，并且真实目标为P；

指第i个候选框与第j个真实目标关于类别P匹配，则P的概率预测越高，损失越小；

指预测框没有物体，则预测框作为背景的概率越高，损失越小，其中概率通过softmax产生。

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种基于轻量化网络的遥感影像多尺度目标检测识别方法，通过引入深度可分离卷积，减少模型参数，提升网络检测速度；提取多个尺度特征图，满足不同尺度目标检测需求；将语义信息特征强的高层特征图与几何信息特征强的底层特征图融合，提升小目标检测性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的卷积过程示意图。

图2附图为本发明提供的方法流程结构示意图。

图3附图为本发明提供的网络结构示意图。

图4附图为本发明提供的融合模块结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例公开了一种基于轻量化网络的遥感影像多尺度目标检测识别方法，包括以下步骤：

S1、对获取的遥感图像进行预处理；

为进一步优化上述技术方案，步骤S2具体包括：

为进一步优化上述技术方案，步骤S3具体包括：

S31、计算特征图感受野：

选取合适的特征图

f(x)＝k,其中R_k-1＜x≤R_k

为进一步优化上述技术方案，步骤S4具体包括：

其中，R_k表示第k层感受野大小，m为特征图总层数；

的候选框，因此每张特征图有6个候选框，

其中

表示第i个候选框与类别k的第j个真实目标进行匹配；

置信度误差是多类别置信度c的softmax损失，

中i∈Neg表示第i个正样本预测框；

1、特征提取

随着卷积神经网络在计算机视觉领域取得了巨大成功，卷积神经网络的深度宽度不断提升，造成了神经网络计算量大、模型容量大，难以满足遥感影像目标检测的实时检测需求，神经网络的压缩和加速问题也逐渐成为研究热点。本发明引入深度可分离卷积替代标准卷积，极大缩减了网络参数，使网络检测速度达到实时级别。

(1)轻量化方法

标准卷积和深度可分离卷积过程分别如图1(a)、(b)所示，两种卷积涉及到的参数量分别如公式(2)和(3)所示。

D_k×D_k×M×N (2)

所以深度可分离卷积参数量为：

D_k×D_k×M+M×N (3)

将深度可分离卷积和标准卷积参数量比较如下：

深度可分离卷积是先用深度卷积对不同输入通道分别进行卷积，然后采用点卷积将上面的输出再进行结合，在保证整体效果的情况下，使得参数量缩减为原来的

达到模型的轻量化。而且由于大量使用1×1的卷积，可以直接使用高度优化的矩阵相乘来完成，减少内存重组，大大提升运算效率。因此，本发明使用深度可分离卷积替换特征提取主干和检测分枝中的标准卷积过程，极大缩减了网络参数，使模型达到实时检测效果。

(2)轻量化特征提取主干

本发明采用SSD(Single Shot MultiBox Detector，SSD)检测框架，该框架主要由特征提取和目标检测2部分组成，特征提取部分由13个卷积块组成，整体框架如图3所示：首先通过32个3x3的卷积核卷积，在初始层的基础上增加网络层数，提高特征表达能力；然后由block1和block2交替堆积，每个block由深度卷积和点卷积组成，每个卷积后都进行了批归一化(BatchNormalization)，接着输出到relu层。其中block1的深度卷积卷积步长为1，block2的深度卷积卷积步长为2；经过13个卷积块实现特征提取后，将conv13特征图反卷积后与conv5融合，融合后的特征图既保留了高层语义信息又包含了低层几何信息，将融合后的特征图与conv11、conv13特征图同时送入目标检测模块，进行坐标回归和分类，并对多个尺度特征图上的检测结果进行非极大值抑制，筛选出最终结果，实现多尺度目标检测，该网络结构低层高分辨率特征图具备更全局的信息与更强的拟合能力，同时高层特征拟合能力不变，不会产生过拟合的问题。

2、多尺度特征融合

遥感影像目标种类繁多，不同目标尺度差异大，即使同一类目标，也存在较大差异。传统方法是通过建立图像金字塔，将图像转化为不同尺寸，在各个尺寸图像上生成特征图，在不同特征图上分别进行预测，该方法时间复杂度高，本发明采用特征金字塔，从网络不同层抽取不同尺度特征图做预测，融合不同层检测结果实现多尺度目标检测。

(1)特征图选取

不同大小特征图中单位像素的感受野不同，低层特征图感受野较小，适合检测较小目标，而高层感受野大，适合检测尺寸较大的目标。为了使特征图覆盖目标，先采用公式(5)计算特征图感受野，并根据公式(6)选取合适的特征图。

f(x)＝k,其中R_k-1＜x≤R_k (6)

其中R_k表示第k层感受野大小，初始感受野R₀＝1，K_k表示第k层卷积核大小，s_k表示第k层卷积步长，m为特征图总层数，x为样本长度，f(x)表示该样本长度对应的特征图。

因此针对多尺度目标需求，本发明将样本划分为大、中、小3个阶段，分别选取最后3种不同大小的特征图。根据图3网络结构定义，当输入为300时，高层的特征图大小分别为38/19/10，其中部分特征图大小相同，由于层数越高，感受野越大，因此最终选取featuremap 5、feature map 11、feature map13用于大、中、小3种尺寸目标检测，其中feature map5是卷积层conv5和conver11输出特征图融合，feature map 11、feature map 13分别是卷积层conv11、conv13输出特征图，按照公式(6)计算出三层感受野分别为43/219/315。对于输入分辨率为300x300的图片，用于检测的特征图大小与目标尺度对应关系如表1：其中特征图feature map 5用于检测小目标，由于低层特征图较大，为了覆盖整个特征图，候选框个数较多，导致检测速度较慢，大量冗余候选框且容易造成误检，因此当数据集中小目标低于1/4时，可以舍弃该层特征图。

表1特征图选取实例

(2)特征融合

低层特征图分辨率大但保留了丰富的几何信息，能够更加准确定位目标位置；高层特征图经过多层卷积对目标抽象程度更深，包含丰富的语义信息，更加容易对目标类别做出判断。在SSD检测框架中，中型尺寸与大型尺寸目标检测能力较好，而小型尺寸目标上存在检测能力弱。对于小目标来说，经过多层卷积后，目标位置信息像素丢失，难以检测到小目标，而选择低层特征图，缺乏语义信息，容易造成大量误检，所以本发明只针对低层特征图进行改进，以避免引入过多转置卷积而增加计算量。

融合过程如图4所示，采用步长为2的2×2卷积核，通过对38×38的高语义信息特征图进行上采样，将反卷积输出经过批归一化处理和ReLU层后，与10×10的低语义信息特征图分辨率相同，将两种特征图拼接成多通道特征图，利用多通道卷积对经拼接而成的多通道特征图提取特征，使用3×3×256的卷积核实现特征融合。因为卷积核参数可通过反向传播学习调整，所以利用多通道卷积实现特征融合较直接对特征图相加实现特征融合的方式更有效。

本发明采用跳跃连接方式使得模型运算简化，降低复杂度，增加输出特征层数量。将高层特征图与低层特征图融合，利用通道同时保留位置和语义信息，使得网络上下文语义信息得到充分利用，提升小目标检测性能。

3、目标检测

通过特征提取网络，获得了多尺度特征图，为了在具有丰富语义信息和几何信息的特征图上检测不同尺度目标，需要在不同寸尺的特征图上设置相匹配的候选框，生成不同大小的预测张量、基于此预测目标所属类别的置信度以及位置信息。

(1)候选框设计

不同大小的候选框对特征图进行卷积操作应匹配相应的感受野，尽可能覆盖原图上的所有目标，即每个目标都能匹配到一个候选框。越小的特征图单位像素的感受野越大，因而高层特征图的候选框适用于检测规格较大的目标，候选框越少越稀疏，低层特征图中的候选框适用于检测较小的目标，候选框越多越密集。候选框的设计需要基于以下2个原则：

a)候选框大小应与特征图感受野接近；

b)候选框长宽比应与目标长宽比接近；

卷积神经网络中的一个单位有两种感受野。一个是理论感受野，它表示理论上可以影响该单位值的输入区域。然而，并非理论感受野中的每个像素对最终输出的贡献相等。通常，中心像素比外部像素具有更大的影响，即只有一小部分面积对输出值有有效影响，称为有效感受野。根据该理论，候选框应明显小于理论感受野，以匹配有效感受野。相关研究表明，随着网络层数的加深，实际有效的感受野是程级别增长，有效感受野占理论感受野的比例是按照级别进行缩减的，参考相关实验，本发明取有效感受野与理论感受野比例为1/3，因此采用公式(7)计算候选框大小。

其中R_k表示第k层感受野大小，m为特征图总层数。

对于候选框长宽比，一般采用长宽比为

对于长形目标，比如舰船或汽车，可以设置长宽比为

对于特殊数据，可通过统计样本长宽分布选取合适的长宽比。确定长宽比后，根据公式(8)计算出每张特征图候选框对应原图的长宽占比，当长宽比为1时，增加2个长度分别为S_k和

的候选框，因此每张特征图有6个候选框。

其中r为长宽比系数，w_k，h_k分别为第k层特征图候选框长宽。

(2)训练

训练阶段主要是建立真实标签和候选框的对应关系，真实标签从候选框中选择，匹配原则有2个：图中真实目标与候选框交并比(Intersection-over-Union，IoU)最大的候选框进行匹配，确保候选框覆盖每一个真实目标，与真实目标覆盖的候选框为正样本，没有匹配目标的候选框为负样本；当候选框匹配多个真实目标，取IoU最大的目标。

本发明采用SSD的损失函数训练模型，损失函数由置信度误差(confidence loss,conf)与位置误差(locatizationloss loc)的加权构成，如公式(8)所示：

其中x表示候选框与这是目标是否匹配，匹配为1，不匹配为0；c为多类目标置信度预测值；l为对应于候选框的边界框位置预测值；g是真实目标的位置参数；N是与真实目标匹配的候选框数量；α是对位置误差与置信度误差之间的比例进行调整的参数，通常取1。

其中

表示第i个候选框与类别k的第j个真实目标进行匹配；

是对g进行编码得到的；l表示对应于候选框的预测框的偏移量；g表示真实框；d表示候选框。

置信度误差是多类别置信度c的softmax损失，如公式(10)所示。

其中i∈Neg表示第i个正样本预测框；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。