CN111950488B

CN111950488B - 一种改进的Faster-RCNN遥感图像目标检测方法

Info

Publication number: CN111950488B
Application number: CN202010833754.0A
Authority: CN
Inventors: 郭艳艳
Original assignee: Shanxi University
Current assignee: Shanxi University
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2022-07-19
Anticipated expiration: 2040-08-18
Also published as: CN111950488A

Abstract

本发明涉及遥感图像目标检测领域，尤其涉及一种改进的Faster‑RCNN遥感图像目标检测方法。所述方法包括：(1)将遥感图像数据集划分成训练集和测试集两部分；(2)对训练集中的遥感图像依次进行尺寸变换、标准化与归一化处理和数据增强：(3)搭建改进的Faster‑RCNN遥感图像目标检测网络；(4)训练改进的Faster‑RCNN遥感图像目标检测网络；(5)测试改进的Faster‑RCNN遥感图像目标检测网络。该方法提高了遥感图像目标检测的平均准确率，尤其是小目标检测的平均准确率，减少了小目标目标被错检和漏检的概率。

Description

一种改进的Faster-RCNN遥感图像目标检测方法

技术领域

本发明涉及遥感图像目标检测领域，涉及一种改进的Faster-RCNN遥感图像目标检测方法。

背景技术

目标检测是计算机视觉识别任务中的基本问题之一，在多个领域有着广泛的应用。遥感图像中的目标检测在军事应用、城市规划和环境管理等方面具有广泛的应用前景。与自然图像上的目标检测不同，遥感图像上的目标比自然图像上的目标要小得多，目标的尺寸和方向具有多样性(比如操场，车，桥等)，且目标实例的视觉外观由于遮挡、阴影、照明、分辨率和视点变化而变化。因此，遥感图像上的目标检测比自然图像上的目标检测要困难得多。

最近几年，一些研究将深度卷积神经网络引入到目标检测中，可以从数据中自动学习到具有很好鲁棒性且具有强大表达能力的特征表示，该目标检测方法在速度和精度上都取得了很大的进步。其中，基于候选区域提取的目标检测算法与基于回归的目标检测算法是目前深度卷积神经网络目标检测算法中最为经典的算法，基于候选区域提取的算法先在给定图像中提取候选区域，然后对每个提取到的候选区域进行分类和回归定位，在目标检测的准确度上有一定优势；而基于回归的目标检测算法给出了一个单一、整体的卷积神经网络，将目标检测问题重新构造成一个回归问题来直接预测目标的类别和位置，在目标检测速度上面有一定优势。

虽然，目前的目标检测算法已经在自然图像目标检测中达到了很好的效果，但是在遥感图像的目标检测中还有待提升，特别是对于遥感图像中的小目标检测效果仍然不理想，很容易出现目标错检和漏检的情况。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种改进的Faster-RCNN遥感图像目标检测方法，能够提高遥感图像的目标检测准确率，降低目标检测时出现错检和漏检的概率，且具有较好的泛化能力。

为了达到上述目的，本发明采用了下列技术方案：

一种改进的Faster-RCNN遥感图像目标检测方法，包括以下步骤：

(1.1)将遥感图像数据集划分成训练集和测试集两部分；

(1.2)对训练集中的遥感图像依次进行尺寸变换、归一化处理、数据增强：

a、尺寸变换是将训练集中遥感图像的大小设置为800像素×960像素；

b、归一化处理是将训练集中的图像的每个像素值均映射到0～1范围之内；

c、数据增强是将训练集中归一化后的遥感图像做旋转90度、180度和270度及镜像操作；

(1.3)搭建改进的Faster-RCNN遥感图像目标检测网络：该网络由Faster-RCNN子网络和定位精修子网络两部分组成；

(1.4)训练改进的Faster-RCNN遥感图像目标检测网络：预先对搭建好的改进的Faster-RCNN遥感图像目标检测网络的节点参数进行随机配置，然后将训练集中的遥感图像输入到搭建好的改进的Faster-RCNN遥感图像目标检测网络，通过随机梯度下降的方式更新改进的Faster-RCNN遥感图像目标检测网络模型中的节点参数，直到找到最优解；

(1.5)测试改进的Faster-RCNN遥感图像目标检测网络：利用训练好的改进的Faster-RCNN遥感图像目标检测网络对测试集中的遥感图像进行检测，并进行检测效果的分析。

进一步，所述步骤(1.3)搭建改进的的Faster-RCNN遥感图像目标检测网络具体步骤为：

(2.1)将遥感图像输入到Faster-RCNN子网络中的VGG16网络，提取遥感图像中目标的纹理、颜色和尺度特征，经过VGG16网络后，得到的特征图y₁大小为50×60×256；

(2.2)将得到的特征图y₁分为并行的三条支路，这三条支路分别为Faster-RCNN子网络中的RPN网络和RoI池化层，及定位精修子网络中的RoI池化层；

(2.3)在Faster-RCNN子网络中的RPN网络中，用一个大小为3×3的滑动窗口，对y₁做步长为1的标准卷积操作，每滑动一次，以滑动窗口的中心点为中心生成大小为16×16、16×32、32×16、32×32、32×64、64×64、64×32、64×128、128×128、128×64、128×256、256×128共12个不同尺度锚点框；生成锚点框后经过RPN网络中的Relu激活函数输出后，分成两条支路，一条支路为分类损失分支，该支路首先通过一个输出通道数为18的逐点卷积操作后，通过RPN网络中的Softmax分类器对12个不同尺度的锚点框进行分类，每个锚点框输出两个概率值，用以区分出图像的目标或背景，每滑动1次，共输出24个概率值；另一条支路为边界回归损失分支，该支路通过一个输出通道数为36的逐点卷积后，通过RPN网络中的边界框回归损失层计算锚点框的边界回归偏移量：一个锚点框输出4个相对位置坐标，分别是锚点框的中心坐标(x_a，y_a)和锚点框的宽和高(w_a，h_a)，每滑动1次，12个锚点框共输出48个相对位置坐标，最后，RPN网络中的分类损失分支与边界回归损失分支的输出通过RPN网络中的提议层综合，得到带有相对位置坐标值的锚点框的特征图y₂；

(2.4)在经过Faster-RCNN子网络中的RPN网络后，将特征图y₂和从VGG16网络得到的特征图y₁输入到Faster-RCNN子网络中的RoI池化层中，将尺寸不统一的特征图输出为大小为25×30×256的特征图y₃，经过Faster-RCNN子网络中的一个带Relu激活函数的全连接层后，通过Faster-RCNN子网络中的回归损失层得到回归结果y₄；

(2.5)将Faster-RCNN子网络中回归损失层得到的回归结果y₄和VGG16网络中得到的特征图y₁输入到定位精修子网络中的RoI池化层中，输出大小为6×7×256的特征图，通过定位精修子网络中的一个带Relu激活函数的全连接层后，将输出的结果分为两路，一路通过定位精修子网络中的回归损失层输出该遥感图像中目标的位置信息y₅；另一路通过定位精修子网络中的Softmax分类器输出该遥感图像中目标的分类结果y₆。

本发明中所有的回归损失层(Regressor)利用鲁棒损失函数计算锚点框的边界回归偏移量。

与现有技术相比本发明具有以下优点：该方法在现有Faster-RCNN网络基础上，将Faster-RCNN中RPN网络的锚点框增加到12个，并加入了带有RoI池化层的定位精修子网络对Faster-RCNN网络输出的遥感图像进行进一步检测，该方法提高了遥感图像目标检测的平均准确率，尤其是提高了对遥感图像中汽车、飞机等小目标的检测准确率。

附图说明

图1为本发明改进的Faster-RCNN遥感图像目标检测网络结构示意图；

图2为本发明的RPN网络；

图3为本发明改进的Faster-RCNN遥感图像目标检测网络和现有方法的可视化图比较。

具体实施方式

本发明使用的遥感图像目标检测数据集来自西北工业大学Gong Cheng博士等人制作的NWPU VHR 10数据集，该数据集共有10个种类，分别为飞机(airplane)、船舶(ship)、存储罐(storage)、棒球场(baseball diamond)、网球场(tennis court)、篮球场(basketball court)、田径场(ground track field)、港口(harbor)、桥梁(bridge)和车辆(vehicle)。该数据集是一个包含800张高分辨率遥感图像的数据集，其中，负样本数据集包括150张不属于任何类别的图像。待检测的目标尺寸相差很大，最大的目标大小约为418×418，最小的目标大小为33×33。

参见图1、图2、图3，本发明公开的一种改进的Faster-RCNN遥感图像目标检测方法，包括以下步骤：

(1.1)将遥感图像数据集划分成训练集和测试集两部分，80％用于网络训练的训练集、20％用于网络测试的测试集，尽量保持训练集和测试集中不同类别样本的数据分布一致性；

(1.2)对训练集中的遥感图像依次进行尺寸变换、归一化处理和数据增强：

b、归一化处理是将训练集中的遥感图像的每个像素值均映射到0～1范围之内；

c、数据增强是将训练集中归一化后的遥感图像做旋转90度、180度和270度及镜像操作，从而保证改进的Faster-RCNN遥感图像目标检测网络的鲁棒性；

(1.3)搭建改进的Faster-RCNN遥感图像目标检测网络：该网络由Faster-RCNN子网络和定位精修子网络两部分组成，Faster-RCNN子网络是对遥感图像进行目标初步的检测，而定位精修子网络将Faster-RCNN网络的输出进行进一步检测，解决对目标的定位不准确、漏检和错检问题；

所述Faster-RCNN子网络由一个VGG16网络、一个RPN网络、一个RoI池化层、带Relu激活函数的全连接层(FC)和一个回归损失层(Regressor)组成；所述定位精修子网络由一个RoI池化层(RoI Pooling)、带Relu激活函数的全连接层、一个Softmax分类器和一个回归损失层(Regressor)组成。

所述Faster-RCNN子网络中RPN网络包括一个大小为3×3的标准卷积层(Conv2d)，一个Relu激活函数，两个逐点卷积层(Pwise)，一个Softmax分类器，一个边界框回归损失层(Bbox Regressor)和一个提议层(Proposal)组成。

所述搭建改进的Faster-RCNN遥感图像目标检测网络，具体步骤为：

(2.1)将遥感图像输入到Faster-RCNN子网络中的VGG16网络，所述VGG16网络包括13个后面带一个Relu激活函数的卷积层(Conv2d)，及4个池化层(Pooling)，输入特征图每经过一个卷积层都要通过一个Relu激活函数进行激活，其中第2、4、7、10卷积层后都通过一个池化层进行最大池化操作，所述每个卷积层采用大小为3×3的标准卷积，填充数(Padding)都为1，步长都为1，所述每个池化层采用最大池化，池化核大小为2×2，步长都为2，经过VGG16网络提取遥感图像中目标的纹理、颜色和尺度特征后，得到的特征图y₁大小为50×60×256，VGG16网络配置如表1所示：

表1 VGG16网络配置表

(2.3)在Faster-RCNN子网络中的RPN网络中，用一个大小为3×3的滑动窗口，对y₁做步长为1的标准卷积操作，每滑动一次，以滑动窗口的中心点为中心生成大小为16×16、16×32、32×16、32×32、32×64、64×64、64×32、64×128、128×128、128×64、128×256、256×128共12个不同尺度锚点框；生成锚点框后经过RPN网络中的Relu激活函数输出后，分成两条支路，一条支路为分类损失分支，该支路首先通过一个输出通道数为18的逐点卷积操作后，通过RPN网络中的Softmax分类器对12个不同尺度的锚点框进行分类，每个锚点框输出两个概率值，用以区分出图像的目标或背景，每滑动1次，共输出24个概率值；另一条支路为边界回归损失分支，该支路通过一个输出通道数为36的逐点卷积后，通过RPN网络中的边界框回归损失层(Bbox_Regressor)计算锚点框的边界回归偏移量：一个锚点框输出4个相对位置坐标，分别是锚点框的中心坐标(x_a，y_a)和锚点框的宽和高(w_a，h_a)，每滑动1次，12个锚点框共输出48个相对位置坐标；最后，RPN网络中的分类损失分支与边界回归损失分支的输出通过RPN网络中的提议层综合，得到带有相对位置坐标值的锚点框的特征图y₂，提议层(Proposal)采用非极大值抑制算法(NMS)，实现对锚点框的初步筛选，并去掉超出图像边界的锚点框；

(2.4)在经过Faster-RCNN子网络中的RPN网络后，将特征图y₂和从VGG16网络得到的特征图y₁输入到Faster-RCNN子网络中的RoI池化层中，将尺寸不统一的特征图输出为大小为25×30×256的特征图y₃，经过Faster-RCNN子网络中的一个带Relu激活函数的全连接层(FC)后，通过Faster-RCNN子网络中的回归损失层(Regressor)得到回归结果y₄；

(2.5)将Faster-RCNN子网络中回归损失层得到的回归结果y₄和VGG16网络中得到的特征图y₁输入到定位精修子网络中的RoI池化层中，输出大小为6×7×256的特征图，通过定位精修子网络中的一个带Relu激活函数的全连接层(FC)后，将输出的结果分为两路，一路通过定位精修子网络中的回归损失层(Regressor)输出该遥感图像中目标的位置信息y₅；另一路通过定位精修子网络中的Softmax分类器输出该遥感图像中目标的分类结果y₆。

(1.4)训练改进的Faster-RCNN遥感图像目标检测网络：首先对搭建好的改进的Faster-RCNN遥感图像目标检测网络的节点参数进行随机配置，将训练集中的遥感图像输入到搭建好的改进的Faster-RCNN遥感图像目标检测网络，通过随机梯度下降的方式，根据每次迭代过程中的下降方向，更新改进的Faster-RCNN遥感图像目标检测网络模型中的节点参数，直到找到最优解，迭代停止。

该训练该网络的硬件条件和参数配置如S401和S402所示：

S401、本发明采用一台CPU为英特尔Core i7-9700处理器，显卡的配置为NvidiaGeForce GTX 10606GB，内存总容量为16G的计算机，并用Pytorch搭建算法框架。

S402、本发明采用随机梯度下降算法对网络中的参数进行更新，预训练模型为resnet50网络，采用动态的学习率来使网络快速收敛到最优，初始学习率设为0.001，每迭代4000次学习率乘以0.1，共迭代10万次，非极大值抑制(NMS)的阈值设置为0.7。

(1.5)测试改进的Faster-RCNN遥感图像目标检测网络：利用训练好的改进的Faster-RCNN遥感图像目标检测网络对测试集中的遥感图像进行检测，并进行检测效果的分析，选取平均准确率(mAP)作为衡量遥感图像目标检测效果的评价指标。

下面对本实施例进一步详细说明：

标准卷积(Conv2d)：标准卷积的计算公式如公式(1)所示：

Conv2d(W,b,x)＝W·x+b (1)

其中，W为卷积核的权重，x为输入特征图，b为偏置项参数，M为输入通道数，V和U分别为卷积核的宽和高，N为输出通道数。

逐点卷积(Pwise)：逐点卷积的卷积核W_p大小为1×1×N，N为输出通道数，假如输入图像大小为h×d×M，输出的特征图大小为h×d×N。逐点卷积计算如公式(2)所示：

Pwise(W_p,x)＝W_p·x (2)

Relu激活函数：数学公式为Relu(x)＝max(0,x)，其中，max()表示0和x中取大的那个值；

池化层(Pooling)：每个池化层采用最大池化，池化核大小为2×2，步长都为2；

RoI池化层(RoIPooling)：RoI池化层具体操作分为三步，第一步根据输入的特征图将感兴趣的区域映射到特征图对应的位置；第二步将映射后的区域划分为大小相同的部分(数量与输出的维度相同)；第三步对划分后的每个部分做最大池化操作。通过这三步操作就可以把大小不一样的特征图中输出为尺寸固定的特征图，而且输出的特征图大小跟RoI池化层和输入特征图的大小都不相关。

全连接层(FC)：全连接层的每一个神经元和前一层的神经元完全连接；

平均准确率(mAP)：计算公式如公式(3)所示：

假设共有k+1个类(其中包含一个空类或者背景类)，p_ij为本属于i类但被预测为j类的数量，称为假正；p_ii为真正分类正确的数量；

Softmax分类器：Softmax分类器一般用于多分类问题，通过训练网络使Softmax损失函数最小化。假设对于一个大小为J数据集{(x⁽¹⁾,y⁽¹⁾),…(x^(m),y^(m)),…(x^(J),y^(J))}，对应数据集中的每个样本，都有正确分类的标签，即标签值：{y⁽¹⁾,…,y^(k)}，k为类别的数目。对于第m个样本都会对应一个类别j，都有一个概率，也称为得分值，第m个样本的得分值如公式(4)所示：

其中，θ＝(θ₀,θ₁…θ_k-1)是需要优化的参数，y^(m)表示的是第m个样本标签，x^(m)表示第m个样本，h(x^(m))表示第m个样本的得分值，通过

这一项对概率分布进行归一化处理，使概率之和为1。

NMS：非极大值抑制算法(Non-Maximum Suppression)，该算法是一种去除非极大值的算法，算法步骤如下所示：

假设目前待识别的物体被F个候选框包围，第n个候选框被分类器计算得分为s_n,1≤n≤F：(1)新建一个集合H，将F个候选框放入这个集合中，同时新建一个空集合T；(2)将集合H中所有的候选框按照分类器得分值排序，将分数最高的框t放入集合T中；(3)对集合H中的候选框进行遍历，分别与框t做交并比运算，如果高于某个阈值，则认为此框与框t重合，将此框从集合H中删除；(4)回到(2)中继续迭代，直到集合H为空集。集合T中的框就是我们需要的。

回归损失层(Regressor)：回归损失函数L_reg如公式(5)所示：

L_reg(tⁿ,vⁿ)＝∑_{c∈{x,y,w,h}}smoothL₁(t_c-v_c) (5)

其中，SmoothL₁为鲁棒损失函数如公式(6)所示：

其中，vⁿ＝(v_x,v_y,v_w,v_h)为真实框所在的坐标向量，tⁿ＝(t_x,t_y,t_w,t_h)是预测框所在的坐标向量。四个坐标计算公式如下所示：

x和y为预测框的中心坐标，w和h分别为预测框的宽和高，x_a和y_a为RPN网络生成的锚点框的中心坐标，w_a和h_a分别为在RPN网络生成的锚点框的宽和高，x^*和y^*为真实框的中心坐标，w^*和h^*分别为真实框的宽和高。

边界框回归损失层(Bbox Regressor)：RPN网络中边界框回归损失层的损失函数定义为：

该损失函数分为两部分，

是分类损失函数，输出用p_n表示，L_reg为回归损失函数，输出用tⁿ表示，L_reg是公式(5)表示的回归损失函数；n为锚点框索引；p_n为第n个锚点框中包含目标的概率，

表示如果第n个锚点框包含目标，则为1，反之则为0；N_reg表示在RPN网络中含有目标的锚点框的个数，N_cls为总的锚点框数量；λ为权重。

将本发明所述方法与Faster-RCNN的检测结果进行对比分析(如表2所示)，从而进一步分析本发明的优缺点。

表2本发明和现有方法的平均准确率

从表2可以看出，本发明所述方法的平均准确率(mAP)有所提升，对于目标较小的车辆，由于其背景比较复杂，同时容易被阴影遮挡，在现有方法中准确率比较低，而本发明的网络，车辆的平均准确率提高了7％左右，这说明本发明采用定位精修子网络有效提高了小目标的检测效果；同时我们发现，对于桥梁这样比较大的目标，在本发明和现有的平均准确率都不高，这是因为该数据集中桥梁和道路相连，都是长条状，而且颜色特征和纹理特征也相似，在检测过程中很容易将桥梁识别为道路，造成桥梁的平均准确率低；对于油罐这种在图像中分布比较密集的目标，本发明和现有的网络检测的准确率都比较低，所以需要继续改进网络来检测分布密度高的目标。

同时，在本数据集下，本发明还对设置不同的锚点框对改进后网络的平均准确率进行了测试，如表3所示。

表3不同锚点框数量下的平均准确率

锚点框数量	mAP(％)
		3	78.2
6	80.6
		9	81.5
12	83.1
		15	82.6

从表3可以看出，在利用不同的锚点框对NWPU VHR 10数据集进行训练时，锚点框数量在3个到12的范围之间时，平均准确率在稳步提高，而在超过12个时，平均准确率略微下降。这说明锚点框的数量在一定范围内能够有效提高平均准确率，超过一定的范围时，单纯增加锚点框的数量并不能提高目标检测的准确性，不但会增加网络的额外计算量，还会增加网络的过拟合风险，从而增加网络的复杂度。

如图3所示为改进的Faster-RCNN遥感图像目标检测方法与现有方法可视化图的比较，共两列三行，从左往右第一列为本发明的可视化图，第二列为现有方法的可视化图。从第一行图像可以看出，现有方法对桥梁的预测框有较大的移位，对船只的定位有较小的偏差；第二行图像中共5个车辆目标，从图中可以看出对于目标较小的车辆，现有方法存在对一个车辆的漏检和一个车辆的误检，其他三个车辆的定位略有偏差的问题；第三行图像中共有5个飞机，从图中可以看出，现有方法对飞机有一个漏检的情况。

上述实施例对本发明的具体描述，只用于对本发明进行进一步说明，不能理解为对本发明保护范围的限定，本领域的技术工程师根据上述发明的内容对本发明做出一些非本质的改进和调整均落入本发明的保护范围之内。

Claims

1.一种改进的Faster-RCNN遥感图像目标检测方法，其特征在于，包括以下步骤：

(1.1)将遥感图像数据集划分成训练集和测试集两部分；

(1.5)测试改进的Faster-RCNN遥感图像目标检测网络：利用训练好的改进的Faster-RCNN遥感图像目标检测网络对测试集中的遥感图像进行检测，并进行检测效果的分析；

所述步骤(1.3)搭建改进的Faster-RCNN遥感图像目标检测网络具体步骤为：