CN114140680A

CN114140680A - 一种基于深度学习的海面目标检测与识别方法及***

Info

Publication number: CN114140680A
Application number: CN202111476925.XA
Authority: CN
Inventors: 林丽真; 彭鹭斌; 江文涛; 林育良
Original assignee: Lop Xiamen System Integration Co ltd; Ropt Technology Group Co ltd
Current assignee: Lop Xiamen System Integration Co ltd; Ropt Technology Group Co ltd
Priority date: 2021-12-02
Filing date: 2021-12-02
Publication date: 2022-03-04

Abstract

本申请提供了一种基于深度学习的海面目标检测与识别方法及***，该方法包括：获取多张图片作为原始图像数据并进行边框和类别标注；对原始图像数据进行数据增强，新生成的图片与采集图片作为训练图片；特征提取网络Darknet53中部分卷积处理层修改为Inception模块和ResNet模块，利用修改后的特征提取网络提取训练图片的特征图；将特征图送入多尺度检测网络中，在特征图上生成不同尺度、不同宽高比的预测框拟合图片中的待测目标，多尺度检测网络包括有至少四个检测尺度；采用NMS对预测框进行多余预测框剔除得到待测目标的唯一标识框；对修改后的特征提取网络、多尺度检测网络以及NMS的整个模型进行迭代训练，最终输出整个模型。有效提高对小目标的检测率、减少漏检现象。

Description

一种基于深度学习的海面目标检测与识别方法及***

技术领域

本申请涉及图像处理技术领域，具体涉及一种基于深度学习的海面目标检测与识别方法及***。

背景技术

目标检测技术是计算机视觉领域中一项关键的技术，其主要目的是对图片中的物体进行定位并准确输出其所在位置。目前，常用的方法有基于手工特征的方法和基于深度学习的方法，其中基于深度学习的方法是通过卷积神经网络来从大量图片数据中学习到不同物体所具有的特征，并与标注数据进行拟合回归来达到检测所需物体的目的。YOLO算法是先将输入图像归一化固定尺度，再一幅图分为S*S个的网格，例如13*13，若某物体的中心落在此网格中，那么此网格就负责预测该物体。YOLOv3使用多尺度检测，经过卷积后，目标的置信度和边框区域属于不同类别的概率将作为每个网格的检测结果输出，传统YOLOv3的检测框架如说明书附图1所示。

由于海洋目标的分辨率一般较小，一般包含更少的像素点。而且，海面目标存在紧密排列的现象，如果网格划分过大，有可能出现一个特殊的检测问题，即两个或多个船舶小目标由于排列过于紧密，落在同一个网格中。为了在不影响其他检测的条件下，改善这种情况，需要对原网络结构做相应修改，同时增加更多的尺度，并使用更大尺度的输入层。

因此，需要对基于深度学习的海面目标检测与识别方法做进一步改进，来满足实际应用中的各种需求。

发明内容

本申请实施例提出了一种基于深度学习的海面目标检测与识别方法及***，来解决以上背景技术部分提到的技术问题。

第一方面，本申请实施例提供了一种基于深度学习的海面目标检测与识别方法，该方法包括以下步骤：

S110、获取多张图片，作为原始图像数据，对原始图像数据中的检测目标进行边框和类别的标注；

S120、对原始图像数据进行数据增强操作，将新生成的图片与步骤S110中采集到的图片一起作为训练图片；

S130、将特征提取网络Darknet53中部分卷积处理层修改为Inception模块和ResNet模块，并利用修改后的特征提取网络提取训练图片的特征图；

S140、将步骤S130提取的特征图送入多尺度检测网络中，在特征图上生成不同尺度、不同宽高比的预测框来拟合图片中的待测目标，其中，多尺度检测网络包括有至少四个检测尺度；

S150、采用非极大值抑制NMS对预测框进行多余预测框剔除，得到待测目标的唯一标识框；以及

S160、重复步骤S130-S150对包括修改后的特征提取网络、多尺度检测网络以及非极大值抑制NMS的整个模型进行迭代训练，最终输出整个模型。

该方法可以有效提高对小目标的检测率，适用于海面船舶检测场景。

在一些实施例中，在步骤S130中，Inception模块和ResNet模块的处理过程为：将多个不同的卷积层进行特征融合后，使用1*1卷积层统一所有输出通道的值，最后使用ResNet残差结构获得整体的模块。

在一些实施例中，ResNet残差结构具体包括2个CBR单元和2个ResNet单元。在检测部分增加该ResNet残差结构可以避免梯度消失并增强特征的复用，更加适用于目标较小且排列紧密的船舶检测。

在一些实施例中，在步骤S140中，将步骤S130提取的特征图送入多尺度检测网络中，多尺度检测网络采用了第一改进SSD模型，第一改进SSD模型保留VGG 16结构中conv 1_1至conv 5_3的结构，增加conv7、conv8、conv9和conv10卷积层；拟合图片中的待测目标是通过深层特征融合的方式进行，具体包括以下步骤：

S141、对conv 4_3层的特征图进行反卷积操作，获得增大后的Deconv 4图像，使用特征映射的方式将conv 4_3层的特征图的特征对应加入到Deconv 4图像中；

S142、对特征映射后的Deconv 4图像进行池化操作，获得Pool4特征图；

S143、对conv 11_2层的特征图进行上采样得到conv’11特征图；

S144、将conv’11特征图和Pool 4特征图的特征融合到改进后的conv’4特征图上，最后将conv’4特征图与第一改进SSD模型中提取的conv4_3、conv7、conv 8_2、conv9_2以及conv 10_2的特征图拼接融合。

与传统SSD网络模型相比，该深层特征融合的方式加入了更多的语义信息，一定程度上增强了图像特征信息，能够用更为复杂的特征图来提高小目标性能。

在一些实施例中，使用特征映射的方式将conv 4_3层的特征图的特征对应加入到Deconv 4图像中，具体使用以下公式进行特征映射：

x_i+1＝stride_i*x_i+((kernel_size-1)/2-padding))

其中，x_i和x_i+1分别指代第i层特征映射特征图输入和输出的坐标点，stridei为第i层反卷积的步长。

特征映射是将数据从原始空间映射到其他特征空间，保持有相同的分布不变，但是却是全新的特征。通过该公式能够将原特征图中每一个像素位置进行相应的坐标变换。

在一些实施例中，在步骤S140中，拟合图片中的待测目标是采用第二改进SSD模型进行相邻层特征融合，第二改进SSD模型去除原本SSD模型的conv 10和conv 11卷积层，保留浅层特征conv 4_3的基础上将剩余的层数两两融合，形成新的检测层newconv 7、newconv7、newconv8和newconv9。

复杂的语义信息可以融合进检测图中，通过第二改进SSD模型进行检测能够得到更好的性能，也在一定程度上提升小目标精度。同时，该方法比起类似FasterR-CNN类型需要候选框的方式，减少了区域建议网络的训练过程，从训练角度而言更为容易。

在一些实施例中，在步骤S150中，采用非极大值抑制NMS对所述预测框进行多余预测框剔除，具体的是采用权值衰减的方式对置信度进行更新，使用的公式如下所示：

其中，ci表示置信度，iou(I，b_k)表示交并比。

通过该公式根据iou的不同，对置信度进行对应处理，可以有效削减假阳性的检测结果置信度，有助于提高检测的准确率。

在一些实施例中，在步骤S140中，多尺度检测网络是在原YOLOv3算法中1个上采样和2个下采样的3尺度特征信息提取的基础上，至少增加1个对小目标进行检测的尺度；采用k-means聚类算法对目标物体进行识别，其中锚点anchor聚类使用的目标函数如下所示：

其中，D是指样本数据data，G和K则代表每个簇的中心坐标及簇的总个数，IOU(D，G)是簇的中心框和聚类框之间的交并比。

在三个检测尺度的基础上增加多个检测尺度，以提高检测网络对小目标的召回率和检测的准确率，通过聚类分析可以得到个数和对比关系，找到贴合船舶小目标的合适anchor，

在一些实施例中，在步骤S120中，数据增强操作包括水平镜像、旋转图像、随机裁剪、随机亮度和对比度增强。对原始图像数据进行数据增强操作以增加泛化能力。

第二方面，本申请提供了一种基于深度学习的海面目标检测与识别***，该***包括以下模块：

获取模块，用以获取多张图片，作为原始图像数据，对原始图像数据中的检测目标进行边框和类别的标注；以及

预处理模块，用以对原始图像数据进行数据增强操作，将新生成的图片与获取模块中采集到的图片一起作为训练图片；以及

特征提取模块，用以将特征提取网络Darknet53中部分卷积处理层修改为Inception模块和ResNet模块，并利用修改后的特征提取网络提取所述训练图片的特征图；以及

检测模块，用以将特征提取模块提取的特征图送入多尺度检测网络中，在特征图上生成不同尺度、不同宽高比的预测框来拟合图片中的待测目标，其中，多尺度检测网络包括有至少四个检测尺度；以及

冗余去除模块，用以采用非极大值抑制NMS对预测框进行多余预测框剔除，得到待测目标的唯一标识框；以及

输出模块，用以运行特征提取模块、检测模块和冗余去除模块，对由修改后的特征提取网络、多尺度检测网络以及非极大值抑制NMS组成的整个模型进行迭代训练，最终输出整个模型。

第三方面，本申请提供了一种计算机可读存储介质，该介质中存储有计算机程序，在计算机程序被处理器执行时，实施如上述中任一项的方法。

本申请实施例提供的一种基于深度学***均准确率均有明显的提高，在紧密排列船舶小目标上检测效果也得到了相应提升；以及对现有SSD算法进行改进，提出基于特征图融合的改进SSD模型网络结构，结合深层特征融合和相邻层特征融合这两种融合方式提升算法计算的精度。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是现有技术中YOLOv3的检测框架示意图；

图2是根据本发明的一个具体实施例的基于深度学习的海面目标检测与识别方法的流程示意图；

图3是根据本发明的一个具体实施例的Inception模块+ResNet模块示意图；

图4是根据本发明的一个具体实施例的改进后YOLOv3的检测框架示意图；

图5a是YOLO v3原网络的输出结构示意图；

图5b是根据本发明的一个具体实施例的改进后YOLO v3网络的输出结构示意图；

图5c是根据本发明的一个具体实施例的ResNet结构示意图；

图6是根据本发明的一个具体实施例的第一改进SSD模型结构示意图；

图7是根据本发明的一个具体实施例的深层特征融合结构示意图；

图8是根据本发明的一个具体实施例的第二改进SSD模型结构示意图；

图9是根据本发明的一个具体实施例的相邻层特征融合结构示意图；

图10a是根据本发明的一个具体实施例的损失值函数曲线示意图；

图10b是根据本发明的一个具体实施例的Avg IOU曲线示意图；

图11a是YOLO v3原网络的PR曲线示意图；

图11b是根据本发明的一个具体实施例的改进后的YOLO v3网络的PR曲线示意图；

图12a是采用原NMS算法进行检测的效果示意图；

图12b是采用Soft-NMS算法进行检测的效果示意图；

图12c是根据本发明的一个具体实施例的改进的NMS算法进行检测的效果示意图；

图13是根据本发明的一个具体实施例的各阶段可视化特征图；

图14是根据本发明的基于深度学习的海面目标检测与识别方法及***示意图；

图15是适于用来实现本申请实施例的电子设备的计算机***的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图2示出了本发明的一个具体实施例的基于深度学习的海面目标检测与识别方法的流程示意图。如图2所示，该方法包括

在本实施例中，以海面船舶图片样本为例，选取包含海面船舶的图片作为原始图像数据，然后使用标注软件对该原始图像数据进行边框和类别标注。

在本实施例中，数据增强操作包括水平镜像、旋转图像、随机裁剪、随机亮度和对比度增强。对原始图像数据进行数据增强操作以增加泛化能力。

在本实施例中，图3示出了根据本发明的一个具体实施例的Inception模块+ResNet模块示意图，将图3所示的“Inception模块+ResNet模块”替代图1所示原YOLOv3的检测框架中左半边虚框显示的部分卷积处理层，将原网络中部分“Convolutional”变为“Inception”模块。具体的Inception模块和ResNet模块的处理过程为：将多个不同的卷积层(包括1*1卷积层和3*3卷积层)进行特征融合后，使用1*1卷积层统一所有输出通道的值，最后使用ResNet残差结构获得整体的模块。

用该“Inception模块+ResNet模块”替换部分卷积处理层的整体改进后YOLOv3的检测框架示意如图4所示，修改后的特征提取网络相比传统的Darknet53网络增加了一个检测尺度，并且在最终的检测部分增加了ResNet残差结构，以适应目标较小且排列紧密的海面船舶的检测。

图5示出了YOLO v3原网络的输出结构示意图，如图5所示，YOLOv3原网络的目标检测输出层包含6个CBR(Conv+BN+Relu)单元和1个1*1的卷积层。本申请将原本的6个CBR(Conv+BN+Relu)单元更改为2个CBR(Conv+BN+Relu)单元和2个ResNet单元，如图5b所示。在检测部分增加该ResNet残差结构可以避免梯度消失并增强特征的复用，具体的ResNet残差结构请参考图5c。

在本实施例中，为提高检测网络对小目标的召回率和检测的准确率，在检测网络中使用了多个尺度的信息。在原YOLOv3算法中1个上采样和2个下采样的3尺度特征信息提取的基础上，根据本申请数据集的聚类结果，增加一个尺度来对小目标进行检测，能够在一定程度上使图像信息在特征图上不断融合，对解决同一YOLO小网格存在两个不同物体这一问题有所帮助。采用k-means聚类算法对目标物体进行识别，具体的，anchor聚类所使用的目标函数S的公式(1)如下所示：

其中，D是指样本数据data，G和K分别代表每个簇的中心坐标和簇的总个数。IOU(D,G)是将簇的中心框和聚类框之间计算交并比。经过聚类分析可以得到簇个数和比率大小之间的对比关系，根据本申请发明人的多次试验，发现当k>9以后数值增长趋势放缓，k＝12时趋于平稳。优选的，将anchor设置为12个并设置四个不同的尺度，将所采用的anchor框大小K及比率大小R部分结果(8个)展示在下表中。

与一般目标检测相比，遥感小目标由于视角的关系，它的“小”更为直观，其语义特征应该更易在浅层特征图上更能体现出来。遥感图像分辨率较高，而未经过大量的卷积池化的分辨率将保持在较高的数值。因此，常用的构建复杂特征图的方法是特征融合。

为实现良好检测性能，本申请以两种方法提出特征融合的SSD结构，又称为FFSSD(feature map fused SSD)。第一种方法是将深层处的特征与浅层特征融合，第二种方法是是相邻特征层之间的融合，通过这两种融合方式，可以很好地对特征图的语义信息进行补充，以达成提升小目标检测性能的目的。下文将针对浅层特征图反映小目标特征这一性质，使用反卷积操作以增大特征图分辨率，并使用这样的方式融合建立新的特征图，进一步来提高小目标检测的准确率。

不同特征图需要设置一定数目的先验框。若用于做预测的特征图数量为m个，初始第一个默认框大小为输入尺寸的0.1倍，第二个为0.2倍，从第三个起则能够使用公式(2)分别计算出其余默认框的尺寸大小，该尺寸是需要根据公式来线性变换的。

其中，S_max和S_min的取值分别为0.9和0.2，分别代表最高层和最底层特征图的尺度。本申请两种方法特征图个数分别为6和4，根据公式(2)可得出两种方法对应的实验参数。

图6示出了根据本发明的一个具体实施例的第一改进SSD模型结构示意图，图7示出了根据本发明的一个具体实施例的深层特征融合结构示意图。结合参考图6和图7，在第一种方法中，多尺度检测网络采用了第一改进SSD模型，第一改进SSD模型保留VGG 16结构中conv 1_1至conv 5_3的结构，增加conv7、conv8、conv9和conv10卷积层。在第一种方法中，具体的特征融合步骤为：

S141、对负责检测小目标的尺寸为38*38的conv 4_3层的特征图进行反卷积操作，获得增大后的尺寸为300*300的Deconv 4图像，使用特征映射的方式将conv 4_3层的特征图的特征对应加入到Deconv 4图像中，具体使用公式(3)进行特征映射：

x_i+1＝stride_i*x_i+((kernel_size-1)/2-padding)) (3)

S142、对使用公式(3)完成坐标特征映射后的Deconv4图像进行池化操作，获得Pool4特征图；

S143、对拥有丰富语义信息的conv11_2层的特征图进行上采样得到conv’11特征图；

如图7所示，在相同尺寸(38*38)下，将维度分别为10和20的卷积层通过拼接操作获得维度为30的卷积层(尺寸仍为38*38)。

在本实施例中，融合改进后的检测网络共使用6个特征图，以实验尺寸800为例，则大小分别是(100*100)、(50*50)、(25*25)、(13*13)、(7*7)、(100*100)，相比原SSD网络，深层特征融合的改进方式加入了更多的语义信息，一定程度上增强了图像特征信息，能够用更为复杂的特征图来提高小目标性能。

图8示出了根据本发明的一个具体实施例的第二改进SSD模型结构结构示意图，图9示出了根据本发明的一个具体实施例的相邻层特征融合结构示意图。结合参考图8和图9，第二种方法中，多尺度检测网络采用了第二改进SSD模型进行相邻层特征融合。第二改进SSD模型在原SSD基础上只保留了四层结构，去除原本SSD模型的conv 10和conv 11，保留浅层特征conv 4_3的基础上将剩余的层数两两融合，形成新的检测层newconv 7、newconv7、newconv8和newconv9。

在矩阵运算中有一种相乘方式叫哈达玛积，是指每个元素单独相乘，而本实施例中特征图融合则采用的是在相同维度下对两张特征图中处在同样位置的元素进行加法操作。如图9中的虚线框所示，将两个4*4的特征图进行特征融合，由于计算过程仅为对应元素相加，则最终结果尺度不变，对应元素坐标5和8相加得到13，则生成另一个4*4的特征图，元素为13。

继续参考图9，在本实施例中，以fc7和conv 4_3两层的操作为例进行特征融合。fc7层先进行反卷积操作得到fc 7_deconv，再卷积为与conv4_3层大小维度相同的特征层，最后通过直接对应相加的方式实现两层的特征融合，结果为newconv 4_3。其余的相邻两层也是同样的道理，最终生成4个特征图，大小分别为(100x100)、(100x100)、(50x50)、(25x25)。

总之，复杂的语义信息可以通过深层特征融合和相邻层特征融合的方式加入到检测图中，该方法比起FasterR-CNN类型等需要候选框的方式，减少了区域建议网络的训练过程，从训练角度而言更为容易。

S150、采用非极大值抑制NMS对预测框进行多余预测框剔除，得到待测目标的唯一标识框；

在YOLO v3中引入多尺度检测将得到更多的检测候选框。同一个目标产生的互相重叠候选框在不同尺度下可能属于同种或不同种类别，每个结果都会对应一个置信度。由于坐标系共享，因此需要使用非极大值抑制(简称NMS)做冗余去除，根据检测框设定IOU阈值筛选去除置信度低的框来解决问题降低结果虚警率。原来的NMS算法将在检测过程保留检测的置信度得分，并基于一定的阈值进行筛选。然而，在紧密的目标排列情况下，普通的非极大值抑制在本文数据集紧密目标的检测中就会存在一些不足之处，导致相邻检测框“消失”。

在本实施例中，本申请通过改进非极大值抑制NMS，对置信度这一检测结果使用权重衰减(weight decay)的方式进行更新。本申请改进非极大值抑制NMS的原理在于当检测流程进行到对检测结果筛选时，待筛选的检测框数量多，排列紧密，其置信度得分有时候会被抑制，为了避免该问题，将用采用权值衰减的方式来改进NMS算法。受到Soft-NMS的启发，本申请提出改进的非极大值抑制算法主要关注检测结果的置信度。当检测IOU大于阈值时，设置一个函数，对置信度通过公式统一进行一定程度的指数削减。由于IOU越大，检测结果是假阳性的概率越大，设置较大的函数削减这一检测结果的置信度，可以提高整体的检测精度。另外，值得注意的是，在这种方法下若产生误检，相应区域的检测框置信度也会随之降低，则能够一定程度上改进检测性能。

原始NMS算法在阈值处理上使用公式(3)可以看出，当iou大于阈值时，置信度之间变为0，此时一些检测结果将被直接忽略。

本申请采用非极大值抑制NMS对所述预测框进行多余预测框剔除，具体的是采用权值衰减的方式对置信度进行更新，使用的公式(4)为:

其中，ci表示置信度，iou(I,b_k)表示交并比。

通过公式(4)，根据iou的不同对置信度进行对应处理，使得本身iou较低的检测结果没有变化，而可能是假阳性的检测结果置信度将会削减。

本申请针对改进后的YOLOv3网络对海面目标进行检测分析，具体实验数据如下所示:

以初始学习率0.001开启训练阶段，对比YOLO v3与其改进结构，将其衰减系数设置成0.005。当训练迭代次数达到16000次及18000次时，为使损失函数进一步收敛，将学习率降低至0.0001和0.00001。损失函数画出的收敛曲线和Avg IOU曲线如图10a、图10b所示。在达到训练最大值2000次后，最终的结果是Loss和Avg IOU分别保持在在0.25和0.857左右，参数训练的过程慢慢地趋于稳定。

图11a示出了YOLO v3原网络的PR曲线示意图，图11b示出了根据本发明的一个具体实施例的改进后的YOLO v3网络的PR曲线示意图；通过参数的收敛情况，可知改进后的YOLO v3网络的训练结果稳定性较好，收敛趋势变化较小。

1)定量对比

下表为使用不同算法的目标检测结果对比(％)，由该表可以看出，本申请改进的YOLO v3网络对小目标检测的准确率较原网络提高了16.4％，召回率提高了6.2％，网络性能也比Faster R-CNN的检测精度高4.5％。若直接在原YOLO v3网络上采用改进的NMS进行实验，结果表明也能取得1％的精度提升。

2)定性对比

图12a、图12b和图12c是分别采用原NMS算法、Soft-NMS算法和改进的NMS算法进行检测的效果示意图。结合参考图12a、图12b和图12c，可以看出对于三张图中右侧从上往下第四艘船舶，原NMS算法的检测结果存在漏检，原因是由于检测框非常接近而被抑制，而Soft-NMS算法的检测结果不仅漏检了第四艘，对第五艘的检测存在多个检测框，说明在该检测条件下，soft-NMS算法无法抑制该检测框。而本申请提出的改进NMS算法通过权值衰减对该误检框更新更低的置信度，并实现了对第四艘船舶的检测。与Soft-NMS算法的检测结果相比，本申请的改进NMS算法并不会出现多个检测框同时存在的现象，NMS和soft-NMS是在结果确定的检测框上表现的置信度并不高，同时存在漏检现象，而改进的NMS能将确定的高置信度表现出来，并检测出被原NMS抑制的漏检目标。

总之，本申请提供的改进NMS算法能够将原本定位准确的目标保持更高的置信度，而对一些存在漏检和偏差的目标进行置信度得分的降低。这种并非直接保留最高的置信度，而是权值衰减置信度的做法，能够在紧密小目标检测中避免一定的漏检现象。

本申请提供的一种基于深度学***均准确率均有明显的提高，而在紧密排列船舶小目标上检测效果也得到了相应提升。改进的YOLO v3网络在遥感图像下的船舶检测中将mAP从56.1％提高到72.5％。除了单一类别的船舶检测外，本申请提供的方法也能够应用在多类别的小目标检测，并且能够在一定程度上提升检测性能。

将本申请提出的两种改进的SSD特征融合方法在遥感图像船舶数据集中进行实验，实验将使用Pytorch，在SSD框架中修改，GPU为NVIDIAGeForce GTX TITAN X。在实验中，我们将对原SSD网络和基于两种特征融合的改进SSD结构分别进行训练，下面将从可视化特征图和定量对比两个角度来分析实验结果。

1)可视化特征图

图13示出了根据本发明的一个具体实施例的各阶段可视化特征图，如图13所示，图13(a)为图像的浅层特征，图13(b)是原图像中数据标注的位置，图13(c)展示了检测的结果，随着层数的加深，图13(f)、13(g)和13(h)三幅图中显示出了较为明显的语义信息，而高层特征13(i)由于尺寸较小，语义信息边缘粗糙、颗粒感较强。浅层网络提取的是纹理、细节特征，而深层网络提取的是轮廓和最强特征(船舶的区域和形状)，随着层数的增加，图像的分辨率是越来越小的。相对而言，随着层数越来越深，浅层中所包含更多的特征数目将渐渐减少，而更具有代表性的特征将会在深层被提取出来。

改进的SSD相邻特征融合阶段自顶向下的将语义信息叠加到底层特征上，都强化了目标所在位置。通过特征融合进一步缩小目标位置语义信息的范围并增强其边缘，使得目标位置的特征更加收敛和凝练最终在输出的多层特征图中都强化了小目标的特征信息。

2)定量对比

设置初始学习率为0.001，BatchSize设置为32，当训练迭代次数增加到80000次和100000次时，为损失函数进一步收敛，分别将学习率更改为0.0001和0.00001。

不同方法对该遥感船舶数据集的检测结果如下表所示，在训练网络时，使用的FasterR-CNN是以ResNet50作为基础网络的，并且利用精度更高的Efficient Net网络和速度更快Mobile Net作为对比实验。以上算法均训练迭代120000次，初始学习率定为0.001，单张图像的预测耗时对比结果如下表的最后一栏所示。

从表中可以看出，一阶段的检测算法SSD在检测精度上明显低于二阶段的RCNN算法。从精度指标AP-0.5来看，改进的两种FFSSD网络相较于原网络，总体map都有所提升，深层特征的融合方法使网络精度提升了6.8％，而基于相邻特征融合的网络提升精度较大，达到了10.9％，特别地在小目标尺寸为S的物体检测上，较原网络也均有相应提升。而对比FasterR-CNN网络，改进FFSSD1(第一改进SSD模型)和FFSSD2(第二改进SSD模型)也有4.9％和8.6％的提升效果。

另外，从表中还能看出，在计算开销上，改进SSD算法模型参数量较SSD+VGG16仅增加了3.19MB和4.27MB，相对于Faster R-CNN方法的19.35MB均有明显降低。从时间代价来看，由于基于相邻特征融合的第二SSD改进模型(FFSSD2)的方法网络层数比第一SSD改进模型(FFSSD1)少很多，因此检测速度更快，且较SSD+VGG16仅增加58ms，速度也比Faster R-CNN方法快。

两种SSD改进方法均能使漏检现象有所改善，总体相较FasterR-CNN算法而言速度更快、开销更小，可在一定程度上解决对小目标数据集的适应效果差的问题。特征融合方法具备一定的有效性，而且具有更好的语义和位置信息。从目标检测时间开销来看，FFSSD比Faster R-CNN检测更快。

进一步参考图14，作为对上述所述方法的实现，本申请提供了基于深度学习的海面目标检测与识别***的一个实施例，该***实施例与图2所示的方法实施例相对应，该***具体可以应用于各种电子设备中。该***200包括：

获取模块210，用以获取多张图片，作为原始图像数据，对原始图像数据中的检测目标进行边框和类别的标注；

预处理模块220，用以对原始图像数据进行数据增强操作，将新生成的图片与获取模块中采集到的图片一起作为训练图片；

特征提取模块230，用以将特征提取网络Darknet53中部分卷积处理层修改为Inception模块和ResNet模块，并利用修改后的特征提取网络提取所述训练图片的特征图；

检测模块240，用以将特征提取模块提取的特征图送入多尺度检测网络中，在特征图上生成不同尺度、不同宽高比的预测框来拟合图片中的待测目标，其中，多尺度检测网络包括有至少四个检测尺度；

冗余去除模块250，用以采用非极大值抑制NMS对预测框进行多余预测框剔除，得到待测目标的唯一标识框；以及

输出模块260，用以运行特征提取模块、检测模块和冗余去除模块，对由修改后的特征提取网络、多尺度检测网络以及非极大值抑制NMS组成的整个模型进行迭代训练，最终输出整个模型。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序在被处理器执行时实施如上述中任一项方法。

如图15所示，计算机***300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有***300操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括获取模块、分析模块和输出模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于深度学习的海面目标检测与识别方法，其特征在于，包括以下步骤：

S120、对所述原始图像数据进行数据增强操作，将新生成的图片与步骤S110中采集到的图片一起作为训练图片；

S130、将特征提取网络Darknet53中部分卷积处理层修改为Inception模块和ResNet模块，并利用修改后的特征提取网络提取所述训练图片的特征图；

S140、将步骤S130提取的特征图送入多尺度检测网络中，在所述特征图上生成不同尺度、不同宽高比的预测框来拟合图片中的待测目标，其中，所述多尺度检测网络包括有至少四个检测尺度；

S150、采用非极大值抑制NMS对所述预测框进行多余预测框剔除，得到待测目标的唯一标识框；以及

S160、重复步骤S130-S150对包括所述修改后的特征提取网络、多尺度检测网络以及非极大值抑制NMS的整个模型进行迭代训练，最终输出整个模型。

2.根据权利要求1所述的基于深度学习的海面目标检测与识别方法，其特征在于，在步骤S130中，所述Inception模块和ResNet模块的处理过程为：将多个不同的卷积层进行特征融合后，使用1*1卷积层统一所有输出通道的值，最后使用ResNet残差结构获得整体的模块。

3.根据权利要求2所述的基于深度学习的海面目标检测与识别方法，其特征在于，所述ResNet残差结构具体包括2个CBR单元和2个ResNet单元。

4.根据权利要求1所述的基于深度学习的海面目标检测与识别方法，其特征在于，在步骤S140中，将步骤S130提取的特征图送入多尺度检测网络中，所述多尺度检测网络采用了第一改进SSD模型，所述第一改进SSD模型保留VGG 16结构中conv 1_1至conv 5_3的结构，增加conv7、conv8、conv9和conv10卷积层；所述拟合图片中的待测目标是通过深层特征融合的方式进行，具体包括以下步骤：

S141、对conv 4_3层的特征图进行反卷积操作，获得增大后的Deconv4图像，使用特征映射的方式将所述conv 4_3层的特征图的特征对应加入到所述Deconv 4图像中；

S142、对特征映射后的所述Deconv 4图像进行池化操作，获得Pool4特征图；

S143、对conv 11_2层的特征图进行上采样得到conv’11特征图；

S144、将所述conv’11特征图和所述Pool 4特征图的特征融合到改进后的conv’4特征图上，最后将所述conv’4特征图与所述第一改进SSD模型中提取的conv4_3、conv7、conv 8_2、conv9_2以及conv 10_2的特征图拼接融合。

5.根据权利要求4所述的基于深度学习的海面目标检测与识别方法，其特征在于，使用特征映射的方式将所述conv 4_3层的特征图的特征对应加入到所述Deconv 4图像中，具体使用以下公式进行特征映射：

x_i+1＝stride_i*x_i+((kernel_size-1)/2-padding))

6.根据权利要求1所述的基于深度学习的海面目标检测与识别方法，其特征在于，在步骤S140中，所述拟合图片中的待测目标是采用第二改进SSD模型进行相邻层特征融合，所述第二改进SSD模型去除原本SSD模型的conv 10和conv 11卷积层，保留浅层特征conv 4_3的基础上将剩余的层数两两融合，形成新的检测层newconv 7、newconv7、newconv8和newconv9。

7.根据权利要求1所述的基于深度学习的海面目标检测与识别方法，其特征在于，在步骤S150中，采用非极大值抑制NMS对所述预测框进行多余预测框剔除，具体的是采用权值衰减的方式对置信度进行更新，使用的公式如下所示：

其中，ci表示置信度，iou(I，b_k)表示交并比。

8.根据权利要求1所述的基于深度学习的海面目标检测与识别方法，其特征在于，在步骤S140中，所述多尺度检测网络是在原YOLOv3算法中1个上采样和2个下采样的3尺度特征信息提取的基础上，至少增加1个对小目标进行检测的尺度；采用k-means聚类算法对目标物体进行识别，其中anchor聚类使用的目标函数如下所示：

其中，D是指样本数据data，G和K分别代表每个簇的中心坐标及簇的总个数，IOU(D，G)是簇的中心框和聚类框之间的交并比。

9.根据权利要求1所述的基于深度学***镜像、旋转图像、随机裁剪、随机亮度和对比度增强。

10.一种基于深度学习的海面目标检测与识别***，其特征在于，包括以下模块：

预处理模块，用以对所述原始图像数据进行数据增强操作，将新生成的图片与所述获取模块中采集到的图片一起作为训练图片；以及

检测模块，用以将所述特征提取模块提取的特征图送入多尺度检测网络中，在所述特征图上生成不同尺度、不同宽高比的预测框来拟合图片中的待测目标，其中，所述多尺度检测网络包括有至少四个检测尺度；以及

冗余去除模块，用以采用非极大值抑制NMS对所述预测框进行多余预测框剔除，得到待测目标的唯一标识框；以及

输出模块，用以运行特征提取模块、检测模块和冗余去除模块，对由所述修改后的特征提取网络、多尺度检测网络以及非极大值抑制NMS组成的整个模型进行迭代训练，最终输出整个模型。

11.一种计算机可读存储介质，所述介质中存储有计算机程序，在所述计算机程序被处理器执行时，实施如权利要求1-8中任一项所述的方法。