CN113887330A

CN113887330A - 一种基于遥感图像的目标检测***

Info

Publication number: CN113887330A
Application number: CN202111064365.7A
Authority: CN
Inventors: 张树东; 郝成亮; 吕洋; 王志钢; 丛犁; 张艳; 姜华; 窦增
Original assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Current assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Priority date: 2021-09-10
Filing date: 2021-09-10
Publication date: 2022-01-04

Abstract

本发明公开了一种基于遥感图像的目标检测***，包括：本地端用于依据预设时间间隔获取原始遥感图像，针对每一原始遥感图像，识别其中的预定区域是否为空白区域，若否将该原始遥感图像中预定区域的图像确定为目标图像并发送给云服务端；云服务端用于将目标图像输入预先训练得到的改进型YOLOv3网络中，利用密集连接形式的主干网络对目标图像进行特征提取，得到x个不同尺度的特征图；利用改进型FPN网络对x个不同尺度的特征图进行自顶向下、密集连接方式的特征融合，得到各尺度对应的预测结果；将所有预测结果经由分类网络和非极大值抑制模块进行处理，得到目标图像中的目标检测结果。本发明能够降低设备功耗，并提高目标检测精度。

Description

一种基于遥感图像的目标检测***

技术领域

本发明属于目标检测技术领域，具体涉及一种基于遥感图像的目标检测***。

背景技术

遥感图像具有宏观、客观、综合、实时、动态、快速等特点，为地球资源调查与开发、国土整治、环境监测，以及全球性研究，提供了一种新的探测手段，已广泛应用于测绘、动态监测、地球资源调查、地质灾害调查与救治，以及军事侦查等领域。

目前，目标检测可以利用多种神经网络检测方法实现，比如当前热门的YOLO系列网络模型等等。但是YOLO系列网络模型对于本身体积较小的物体的检测和定位精度较差，而遥感图像通常存在相邻非常近的数目较多的小目标，因此，现有的YOLO系列网络模型针对遥感图像的小目标检测存在识别精度不高的问题。

并且，由于现有的目标检测网络通常较为复杂，若直接对待检测的遥感图像利用目标检测网络进行检测，这样的持续运行会导致对应的检测设备功耗较大。

发明内容

本发明实施例的目的在于提供一种基于遥感图像的目标检测***，以实现降低设备功耗，提高目标检测精度的目的。具体技术方案如下：

所述基于遥感图像的目标检测***，包括本地端和云服务端，其中：

所述本地端，用于依据预设时间间隔获取原始遥感图像，针对每一原始遥感图像，识别该原始遥感图像中的预定区域是否为空白区域，若否，则将该原始遥感图像中预定区域的图像确定为目标图像并发送给云服务端；

所述云服务端，用于将所述目标图像输入预先训练得到的改进型YOLOv3网络中，利用密集连接形式的主干网络对所述目标图像进行特征提取，得到x个不同尺度的特征图；利用改进型FPN网络对所述x个不同尺度的特征图进行自顶向下、密集连接方式的特征融合，得到各尺度对应的预测结果；将所有预测结果经由分类网络和非极大值抑制模块进行处理，得到所述目标图像中的目标检测结果；

其中，所述改进型YOLOv3网络包括顺次连接的所述密集连接形式的主干网络、所述改进型FPN网络、所述分类网络和所述非极大值抑制模块；所述改进型YOLOv3网络是在YOLOv3网络基础上，将主干网络中的残差模块更换为密集连接模块、增加特征提取尺度、优化FPN网络的特征融合方式后形成的；所述改进型YOLOv3网络是根据样本目标图像，以及所述样本目标图像的目标检测结果训练得到的，x为大于等于4的自然数。

本发明可选的一个实施例中，所述本地端包括MCU。

本发明可选的一个实施例中，所述MCU加载有Tensorflow lite深度学习框架。

本发明可选的一个实施例中，所述识别该原始遥感图像中的预定区域是否为空白区域，包括：

利用轻量级神经网络获得该原始遥感图像中的预定区域为空白区域的第一置信度和为非空白区域的第二置信度；

计算所述第一置信度与所述第二置信度的差值；

判断所述差值是否大于或等于预先设定的置信度差值阈值，如果是，则判定该原始遥感图像中的预定区域为空白区域；

其中，所述轻量级神经网络包括MobileNet、ShuffleNet、SqueezeNet、mcu-net。

本发明可选的一个实施例中，所述密集连接形式的主干网络，包括：

间隔串接的密集连接模块和过渡模块；所述密集连接模块的数量为y；所述密集连接模块包括串行连接的卷积网络模块和密集连接单元组；所述卷积网络模块包括串行连接的卷积层、BN层、Leaky relu层；所述密集连接单元组包括m个密集连接单元；每个密集连接单元包括多个采用密集连接形式连接的所述卷积网络模块，并采用级联方式融合多个卷积网络模块输出的特征图；其中，y为大于等于4的自然数，m为大于1的自然数。

本发明可选的一个实施例中，所述过渡模块为所述卷积网络模块。

本发明可选的一个实施例中，所述过渡模块包括所述卷积网络模块和最大池化层；所述卷积网络模块的输入和所述最大池化层的输入共用，所述卷积网络模块输出的特征图和所述最大池化层输出的特征图采用级联方式融合。

本发明可选的一个实施例中，所述过渡模块包括的所述卷积网络模块的数量为两个或三个，且各个卷积网络模块之间采用串接方式。

本发明可选的一个实施例中，所述改进型FPN网络包括尺度依次增大的x个预测支路Y₁～Y_x；其中，所述预测支路Y₁～Y_x的尺度与所述x个特征图的尺度一一对应；

所述对所述x个不同尺度的特征图进行自顶向下、密集连接方式的特征融合，得到各尺度对应的预测结果，包括：

针对预测支路Y_i，从所述x个特征图中，获取对应尺度的特征图并进行卷积处理，将卷积处理后的特征图，与预测支路Y_i-1～Y₁分别经上采样处理后的特征图进行级联融合；其中，预测支路Y_i-j的上采样倍数为2^j；i＝2、3，…，x；j为小于i的自然数。

本发明可选的一个实施例中，所述目标检测结果，包括：

目标的位置和类别。

本发明实施例所提供的基于遥感图像的目标检测***，利用本地端对原始遥感图像进行粗识别，当原始遥感图像中的预定区域为非空白区域时，才将对应的目标图像发送给云服务端，以唤醒云服务端进行较为细致的目标检测。因此执行具体检测任务的云服务端不必实时处理，可以降低设备功耗。同时，所述云服务端采用改进型YOLOv3网络，通过将原有YOLOv3网络主干网络中的残差模块更换为密集连接模块、增加特征提取尺度、优化FPN网络的特征融合方式，能够提高目标检测精度，尤其针对较小尺寸的目标，可以实现较好的检测效果。

附图说明

图1为本发明实施例所提供的一种基于遥感图像的目标检测***的结构示意图；

图2为现有技术中的YOLOv3网络的结构示意图；

图3为本发明实施例提供的一种改进型YOLOv3网络的结构示意图；

图4为本发明实施例提供的一种过渡模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了实现降低设备功耗，提高目标检测精度的目的，本发明实施例提供了一种基于遥感图像的目标检测***。

如图1所示，本发明实施例所提供的一种基于遥感图像的目标检测***100，可以包括本地端110和云服务端120，其中：

以下对各部分分别进行说明：

1)本地端110：

本发明实施例中，对于本地端的位置并不做具体限制，本地端可以设置在预定区域附近，也可以远离预定区域。

本发明实施例中的预定区域可以根据场景需要具体选择，比如可以为一地面区域或者一海洋区域等等，更为具体的，预定区域可以为地面区域中的一个地理辖区，或者一段道路、一个矿区等等。预定区域也可以为海洋区域中的一个岛屿，或者一片水域等等。可以理解的是，针对的预定区域不同，设置的目标类型也不同，比如针对海洋区域，目标可以包括船、岛屿、漂浮物等等；而针对城市区域，目标可以包括建筑物、车辆、行人等等。关于其余预定区域的目标在此不做一一举例。

所述本地端可以包括图像获取模块以及初步识别模块。其中，图像获取模块可以获取原始遥感图像并从中得到预定区域的图像。所述原始遥感图像可以利用航空、卫星等遥感技术获得，比如利用无人机获得遥感图像等。通过对所述图像获取模块进行配置，可以使得其按照预设时间间隔获取原始遥感图像，比如所述预设时间间隔可以为30秒等等，本发明实施例可依据需要设置预设时间间隔。

初步识别模块与图像获取模块被配置为通信连接，比如可以通过有线或者无线方式进行连接。

可选的一种实施方式中，所述本地端包括MCU(Microcontroller Unit，微控制单元)。MCU通常是小型、低能耗的计算设备。本发明实施例的MCU自身搭载实时操作***可以利用自身的实时并发性，同时处理图像采集、AI推理、通信等任务，能够较大化的利用超低功耗设备的资源。本发明实施例可以选用成熟的MCU产品，或者通过对现有MCU开发板(评估板)进行预先配置实现，在此并不做限制。

本发明实施例中，所述MCU加载有Tensorflow lite深度学习框架。TensorFlowLite是一款TensorFlow用于移动设备和嵌入式设备的轻量级解决方案。允许小binarysize和快速初始化/启动的设备端机器学习模型进行推断，可以大幅提升模型加载时间，支持硬件加速。具体的，本发明实施例是在初步识别模块中加载TensorFlow Lite forMicrocontrollers。

可选的一种实施方式中，所述识别该原始遥感图像中的预定区域是否为空白区域，可以包括以下步骤：

1)利用轻量级神经网络获得该原始遥感图像中的预定区域为空白区域的第一置信度和为非空白区域的第二置信度；。

轻量级神经网络相比于结构复杂、参数较多的神经网络而言，在保证模型准确率的同时体积更小，速度更快，适合部署在移动设备、边缘设备上。本发明实施例中，所述轻量级神经网络可以包括MobileNet、ShuffleNet、SqueezeNet、mcu-net等。

其中，置信度以数值形式体现，具体可以为一个百分比数值，如70％等。

本领域技术人员可以理解的是，上述轻量级神经网络是利用大量已标注的、预定区域为空白区域的样本原始遥感图像和预定区域为非空白区域的样本原始遥感图像，预先训练得到的。

关于置信度的概念、上述轻量级神经网络的详细内容以及如何对原始遥感图像进行预定区域是否为空白区域的检测，请参见相关现有技术，在此不做赘述。

2)计算所述第一置信度与所述第二置信度的差值。

3)判断所述差值是否大于或等于预先设定的置信度差值阈值，如果是，则判定该原始遥感图像中的预定区域为空白区域。

可以理解的是，预定区域为空白区域表示不含有目标，预定区域为非空白区域表示含有目标。

在本发明实施中，置信度差值阈值是根据大量样本原始遥感图像所得的经验值设定，比如置信度差值阈值可以为39％，等等。相比于现有技术仅通过含有目标的置信度相对一设定阈值的高低来判断图像中是否含有目标。本发明实施例将有无目标的置信度之差，和置信度差值阈值进行比较，来判断原始遥感图像中是否含有目标，针对两个置信度的数值相对接近的较为模糊的原始遥感图像，可以减小误判率及扰动项，提高判断的准确性。

一种可选的实施方式中，所述轻量级神经网络利用CMSIS-NN算子进行加速。基于CMSIS-NN内核的神经网络推理运算，对运行时间及吞吐量都将会有极大提升，能够让微控制器效率提升5倍。因此，能够满足本发明实施例对于本地端这种边缘设备的AI推理需求。进一步的，本发明实施例还可以缩减TF Lite Micro的kTensorArenaSize值来进一步提高处理速度。

本发明实施例中，将原始遥感图像中，非空白的预定区域所对应的图像确定为目标图像。目标图像的尺寸为416×416×3。

具体的，可以将其中预定区域为非空白区域的任意尺寸的原始遥感图像，将其中非空白区域的图像提取出来并经过一定的尺寸缩放处理，得到416×416×3尺寸的目标图像。

并且，在上述实施方式中，还可以对获取到的目标图像进行平滑、滤波、边缘填充等图像增强操作，以增强图像中感兴趣的特征，扩展数据集的泛化能力。

2)云服务端120：

当本地端将目标图像发送给云服务端时可以实现唤醒云服务端工作，使得其开始进行较为细致的目标检测，在被唤醒此之前，云服务端处于低功耗待机状态或者关机状态。

为了便于理解，将云服务端的处理过程分为以下几个步骤：

S1，将所述目标图像输入预先训练得到的改进型YOLOv3网络中，利用密集连接形式的主干网络对所述目标图像进行特征提取，得到x个不同尺度的特征图。

为了便于理解本发明实施例所提出的改进型YOLOv3网络的网络结构，首先，对现有技术中的YOLOv3网络的网络结构进行介绍，请参见图2，图2为现有技术中的YOLOv3网络的结构示意图。在图2中，虚线框内的部分为YOLOv3网络。其中点划线框内的部分为YOLOv3网络的主干(backbone)网络，即darknet-53网络；YOLOv3网络的主干网络由CBL模块和5个resn模块串接构成。CBL模块为卷积网络模块，包括串行连接的conv层(Convolutionallayer，卷积层，简称conv层)、BN(Batch Normalization，批量归一化)层和激活函数Leakyrelu对应的Leaky relu层，CBL即表示conv+BN+Leaky relu。resn模块为残差模块，n代表自然数，如图2所示，具体地，沿输入方向依次有res1、res2、res8、res8、res4；resn模块包括串行连接的zero padding(零填充)层、CBL模块和残差单元组，残差单元组用Res unit*n表示，含义是包括n个残差单元Res unit，每个残差单元包括采用残差网络(ResidualNetwork，简称为ResNets)连接形式连接的多个CBL模块，特征融合方式采用并行方式，即add方式。

主干网络之外的其余部分为FPN(Feature Pyramid Networks，特征金字塔网络)网络，FPN网络又分为三个预测支路Y₁～Y₃，预测支路Y₁～Y₃的尺度分别与沿输入逆向的3个残差模块res4、res8、res8分别输出的特征图的尺度一一对应。各预测支路的预测结果分别以Y1、Y2、Y3表示，Y1、Y2、Y3的尺度依次增大。

FPN网络的各个预测支路中均包括卷积网络模块组，具体包括5个卷积网络模块，即图2中的CBL*5。另外，US(up sampling，上采样)模块为上采样模块；concat表示特征融合采用级联方式，concat为concatenate的简称。

YOLOv3网络中各个主要模块的具体构成请参见图2中虚线框下的示意图。

本发明实施例中，所述改进型YOLOv3网络包括顺次连接的所述密集连接形式的主干网络、所述改进型FPN网络、所述分类网络和所述非极大值抑制模块；所述改进型YOLOv3网络是在YOLOv3网络基础上，将主干网络中的残差模块更换为密集连接模块、增加特征提取尺度、优化FPN网络的特征融合方式后形成的；所述改进型YOLOv3网络是根据样本目标图像，以及所述样本目标图像的目标检测结果训练得到的，关于网络训练过程在后文中予以介绍。

为了便于理解本发明方案，以下先对改进型YOLOv3网络的结构进行介绍，首先是其主干网络部分。

本发明实施例的改进型YOLOv3网络的结构请参见图3，图3为本发明实施例所提供的改进型YOLOv3网络的结构示意图；在图3中，可以看到主干网络发生了变化，请参见图3中的点划线框内的部分。

本发明实施例所提供的改进型YOLOv3网络的主干网络相比于YOLOv3网络的主干网络，一方面的改进思想在于，借鉴密集卷积网络DenseNet的连接方式，提出一种具体的密集连接模块，用来替换YOLOv3网络的主干网络中的残差模块(resn模块)。即改进型YOLOv3网络的主干网络采用的是密集连接形式的主干网络，已知的是，ResNets在将特征传递到图层之前通过求和来组合特征，即采用并行方式进行特征融合。而密集连接方式为了确保信息以最大程度在网络中各层之间流动，将所有层(具有匹配的特征图大小)彼此直接连接。具体的，针对每个层，它之前层的所有特征图被用作它的输入，它本身的特征图被用作它所有后续层的输入，也就是特征融合采用级联方式(也称为串联方式)。因此，相比于YOLOv3网络使用残差模块，改进型YOLOv3网络通过改用密集连接模块，获得的特征图的信息量更多，在进行图像检测时，能够增强特征传播，提高检测精度。同时，因为它不需要重新学习冗余的特征图，可以大大减小参数数量，减少计算量，还可以减轻梯度消失问题。另一方面，本发明实施例将特征图由浅到深进行传递，提取至少四个尺度的特征图，让网络能够检测不同尺度的物体，通过增加细粒度的特征提取尺度，可以使得在后续目标检测时，针对微小目标能够提高检测精度，因此，针对于目标图像中占比较小的目标可以实现高精度的检测效果。

示例性的，请参见图3，密集连接形式的主干网络可以包括：

间隔串接的密集连接模块和过渡模块；图3中密集连接模块表示为denm。密集连接模块的数量为y；密集连接模块包括串行连接的卷积网络模块和密集连接单元组；卷积网络模块包括串行连接的卷积层、BN层、Leaky relu层；密集连接单元组包括m个密集连接单元；每个密集连接单元包括多个采用密集连接形式连接的卷积网络模块，并采用级联方式融合多个卷积网络模块输出的特征图；其中，y为大于等于4的自然数，m为大于1的自然数。

作为示例，图3中密集连接模块的数量为5个，相比于4个密集连接模块，5个密集连接模块所构成的改进型YOLOv3网络的精度更高。

卷积网络模块，如前表示为CBL；密集连接单元组表示为den unit*m，其含义是，密集连接单元组包括m个密集连接单元，m可以为2。每个密集连接单元表示为den unit；其包括多个采用密集连接形式连接的卷积网络模块，并采用级联方式融合多个卷积网络模块输出的特征图，级联方式即concat，含义为张量拼接，该操作和残差模块中的add的操作是不一样的，concat会扩充张量的维度，而add只是直接相加不会导致张量维度的改变。因此，上述改进型YOLOv3网络的主干网络在进行特征提取时，利用密集连接模块，将特征融合方式从并行改为了串行，能够直接将早期的特征图作为后面每一层的输入，强化特征的传递，并通过复用浅层网络的特征图参数来减少参数的数量以及运算量。

本发明实施例中，密集连接形式的主干网络至少提取4个尺度的特征图以进行后续预测支路的特征融合，因此，密集连接模块的数量y大于等于4，以便将自身输出的特征图对应融合进各个预测支路。可见，改进型YOLOv3网络相比于YOLOv3网络，明显在主干网络增加了至少一个更细粒度的特征提取尺度。请参见图3，相比于YOLOv3网络增加了提取沿输入逆向的第四个密集连接模块输出的特征图进行后续的特征融合。因此，密集连接形式的主干网络沿输入逆向的四个密集连接模块分别输出对应的特征图，这四个特征图的尺度依次增大。具体的，各个特征图的尺度分别为13×13×72、26×26×72、52×52×72、104×104×72。

当然，在可选的实施方式中，也可以设置五个特征提取尺度，即再增加提取沿输入逆向的第五个密集连接模块输出的特征图进行后续的特征融合，等等。

具体的，针对S1，得到x个不同尺度的特征图，包括：

得到沿输入逆向的x个密集连接模块输出的、尺度依次增大的x个特征图。

参见图3，即得到沿输入逆向的第一个密集连接模块至第四个密集连接模块分别输出的特征图，这四个特征图尺寸依次增大。

在本发明实施例中，对于过渡模块的结构：

可选的第一种实施方式中，过渡模块为卷积网络模块。也就是使用CBL模块作为过渡模块。那么，在搭建改进型YOLOv3网络的主干网络时，仅需要将残差模块更换为密集连接模块，再将密集连接模块和原有的CBL模块进行串联即可得到。这样，网络搭建过程会较为快速，所得到的网络结构较为简单。但这样的过渡模块仅使用卷积层进行过渡，即直接通过增加步长来对特征图进行降维，这样做只能照顾到局部区域特征，而不能结合整张图的信息，因此会使得特征图中的信息丢失较多。

可选的第二种实施方式中，过渡模块包括卷积网络模块和最大池化层；卷积网络模块的输入和最大池化层的输入共用，卷积网络模块输出的特征图和最大池化层输出的特征图采用级联方式融合。该种实施方式中过渡模块的结构请参见图4，图4为本发明实施例所提供的一种过渡模块的结构示意图。该种实施方式中，用tran模块表示该种过渡模块，MP层为最大池化层(Maxpool，缩写MP，含义为最大池化)。进一步的，MP层的步长可以选择为2。在该种实施方式中，引入的MP层可以以较大的感受野对特征图进行降维；使用的参数比较少，因此不会过多地增加计算量，可以减弱过拟合的可能，提高网络模型的泛化能力；并且结合原有的CBL模块，可以看做从不同的感受野对特征图进行降维，因此可以保留更多信息。

针对上述第二种实施方式，可选的，过渡模块包括的卷积网络模块的数量为两个或三个，且各个卷积网络模块之间采用串接方式。相比于使用一个卷积网络模块，采用串接的两个或三个卷积网络模块，能够增加模型的复杂度，充分提取特征。

S2，利用改进型FPN网络对所述x个不同尺度的特征图进行自顶向下、密集连接方式的特征融合，得到各尺度对应的预测结果。

参见图3，除主干网络、分类网络和非极大值抑制模块之外的其余部分为改进型FPN(Feature Pyramid Networks，简称FPN，特征金字塔网络)网络，所述改进型FPN网络包括尺度依次增大的x个预测支路Y₁～Y_x；其中，所述预测支路Y₁～Y_x的尺度与所述x个特征图的尺度一一对应；参见图3，即预测支路Y₁～Y_x的尺度分别与沿输入逆向的4个密集连接模块分别输出对应的特征图的尺度一一对应。

参见图3进行理解；以i＝3也就是预测支路Y₃为例说明，其进行级联融合处理的特征图来源于三方面：第一方面，是从4个特征图中，获取对应尺度的特征图并进行卷积处理，也就是沿输入逆向的第三个密集连接模块res8输出的特征图经CBL模块后的特征图，该特征图也可以理解为经过1倍上采样，尺寸是52×52×72；第二方面来源于预测支路Y₂(即Y_i-1＝Y₂)，即沿输入逆向的第二个密集连接模块res8输出的特征图(尺寸是26×26×72)经过预测支路Y₂的CBL模块再经2¹＝2倍上采样处理后的特征图(尺寸是52×52×72)；第三方面来源于预测支路Y₁(即Y_i-2＝Y₁)，即沿输入逆向的第一个密集连接模块res4输出的特征图(尺寸是13×13×72)经预测支路Y₁的CBL模块后再经2²＝4倍上采样处理后的特征图(尺寸是52×52×72)；那么，本领域技术人员可以理解的是，上述过程将主干网络输出的三个不同尺度的特征图经过不同倍数的上采样处理后，可以使得待级联融合的三个特征图的尺寸一致，均为52×52×72。这样，预测支路Y₃可以在级联融合之后，继续进行卷积等处理，得到预测结果Y3，Y3尺寸为52×52×72。

关于其余预测支路的特征融合过程，请参见预测支路Y₃，在此不再赘述。而针对预测支路Y₁，其获取沿输入逆向的第一个密集连接模块输出的特征图后自行进行后续的预测过程，并不接受其余预测支路的特征图与之融合。

本实施例采用密集连接的融合方法，即深层特征直接进行不同倍数的上采样，以此来使得传递的所有特征图具有相同的尺寸。将这些特征图和浅层的特征图通过级联的方式融合起来，对融合的结果再次提取特征来消除里面的噪声，保留主要信息，然后进行预测，这样可以利用到更多的原始信息，在浅层网络中也有高维语义信息的参与。有助于提高检测的精度；同时通过直接接收更浅层网络的特征，可以得到更加具体的特征，将有效的减少特征的损失，可以减少需要运算的参数量，提高检测速度，实现实时检测。

在该步骤中，主要针对特征融合方式进行介绍，各预测支路在特征融合之后主要是利用一些卷积操作进行预测，关于如何获取各自的预测结果请参见相关的现有技术，在此不进行说明。各预测支路的预测结果分别为Y1～Y4，尺寸在名称之下标识，具体请参见图3的网络结构图进行理解。

S3，将所有预测结果经由分类网络和非极大值抑制模块进行处理，得到所述目标图像中的目标检测结果。

针对每一目标图像，非极大值抑制模块之后得到的检测结果的形式为一向量，包括：目标位置、预测框内目标的置信度，还可以包括预测框内目标的类别。其中，目标位置以包含目标的预测框的位置体现，具体的，目标位置可以是预测框四个顶点的像素坐标，或者，是用bx,by,bw,bh四个值表示，bx,by用于表示预测框的中心点位置，bw、bh为预测框的宽和高，预测框通常为矩形。

可选的，所述分类网络可以为SoftMax分类器，也可以用logistic回归进行分类，目的是实现检测结果的分类。

非极大值抑制模块用于进行NMS(non_max_suppression，非极大值抑制)处理，用于在重复框选同一目标的多个预测框中，排除置信度相对较小的预测框。

关于分类网络和非极大值抑制模块的处理过程请参见相关的现有技术，在此不做赘述。

在图3中，4个预测支路共输出四个尺度的特征图，分别为13×13×72、26×26×72、52×52×72、104×104×72，最小的13×13×72的特征图上由于其感受野最大，适合较大的目标检测；中等的26×26×72特征图上由于其具有中等感受野，适合检测中等大小的目标；较大的52×52×72特征图上由于其具有较小的感受野，适合检测较小的目标；最大的104×104×72特征图上由于其具有更小的感受野，故适合检测再小的目标。本发明实施例对图像的划分更加精细，预测结果对尺寸较小的目标更有针对性。因此，较小目标也可以得到精确的检测结果。

以下，对所述改进型YOLOv3网络的训练前过程以及训练过程予以简单介绍。

(一)，搭建出具体的网络结构，可以在YOLOv3网络基础上进行改进，将主干网络中的残差模块更换为密集连接模块、增加特征提取尺度、优化FPN网络的特征融合方式，改进过渡模块，得到如图3的网络结构，作为搭建好的网络；其中m＝4。

(二)，获得若干样本目标图像，以及所述样本目标图像的目标检测结果。在该过程中，各样本目标图像对应的目标位置和类别是已知的，确定各样本目标图像对应目标位置和类别的方式可以是：通过人工识别，或者通过其他图像识别工具识别等等。之后，需要对样本目标图像进行标记，可以采用人工标记方式，当然也可以利用其余人工智能方法进行非人工标记，这都是合理的。其中，各样本目标图像对应的目标位置是以包含目标的矩形框的形式标记的，这个矩形框是真实准确的，各个矩形框标记有坐标信息，以此来体现目标在样本目标图像中的位置。

(三)，利用各样本目标图像，以及各样本目标图像中各个目标的位置和类别，训练如图3所示的网络，包括以下步骤：

1)将每一样本目标图像对应的目标检测结果作为该样本目标图像对应的真值，将各样本目标图像和对应的真值，通过图3所示的网络进行训练，获得各样本目标图像的训练结果。

2)将每一样本目标图像的训练结果与该样本目标图像对应的真值进行比较，得到该样本目标图像对应的输出结果。

3)根据各个样本目标图像对应的输出结果，计算网络的损失值。

4)根据所述损失值，调整网络的参数，并重新进行1)-3)步骤，直至网络的损失值达到了一定的收敛条件，也就是所述损失值达到最小，这时，意味着每一样本目标图像的训练结果与该样本目标图像对应的真值一致，从而完成网络的训练，得到训练完成的改进型YOLOv3网络。

本发明实施例将YOLOv3网络的主干网络中的残差模块更换为密集连接模块，将特征融合方式从并行改为了串行，使得主干网络在进行特征提取时，能够直接将早期的特征图作为后面每一层的输入，获得的特征图的信息量更多，强化了特征的传递，因此在进行目标检测时，能够提高检测精度。

本发明实施例将特征图由浅到深进行传递，提取至少四个尺度的特征图，通过增加细粒度的特征提取尺度，让网络能够检测到不同尺度的目标，尤其是小尺寸目标，能够实现准确识别。

本发明实施例通过利用改进型FPN网络，进行自上而下、密集连接方式进行特征融合，将深层特征直接进行不同倍数的上采样，以此来使得传递的所有特征图具有相同的尺寸，将这些特征图和浅层的特征图通过级联的方式融合起来，可以利用到更多的原始信息，在浅层网络中也有高维语义信息的参与，有助于提高检测的精度；同时通过直接接收更浅层网络的特征，可以得到更加具体的特征，将有效的减少特征的损失，可以减少需要运算的参数量，提高检测速度，实现实时检测。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于遥感图像的目标检测***，其特征在于，包括本地端和云服务端，其中：

2.根据权利要求1所述的***，其特征在于，所述本地端包括MCU。

3.根据权利要求2所述的***，其特征在于，所述MCU加载有Tensorflow lite深度学习框架。

4.根据权利要求1或3所述的***，其特征在于，所述识别该原始遥感图像中的预定区域是否为空白区域，包括：

计算所述第一置信度与所述第二置信度的差值；

5.根据权利要求1所述的***，其特征在于，所述密集连接形式的主干网络，包括：

6.根据权利要求5所述的***，其特征在于，所述过渡模块为所述卷积网络模块。

7.根据权利要求5所述的***，其特征在于，所述过渡模块包括所述卷积网络模块和最大池化层；所述卷积网络模块的输入和所述最大池化层的输入共用，所述卷积网络模块输出的特征图和所述最大池化层输出的特征图采用级联方式融合。

8.根据权利要求7所述的***，其特征在于，所述过渡模块包括的所述卷积网络模块的数量为两个或三个，且各个卷积网络模块之间采用串接方式。

9.根据权利要求5或8所述的***，其特征在于，所述改进型FPN网络包括尺度依次增大的x个预测支路Y₁～Y_x；其中，所述预测支路Y₁～Y_x的尺度与所述x个特征图的尺度一一对应；

10.根据权利要求1所述的***，其特征在于，所述目标检测结果，包括：

目标的位置和类别。