CN112052817B - 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 - Google Patents
基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 Download PDFInfo
- Publication number
- CN112052817B CN112052817B CN202010967912.1A CN202010967912A CN112052817B CN 112052817 B CN112052817 B CN 112052817B CN 202010967912 A CN202010967912 A CN 202010967912A CN 112052817 B CN112052817 B CN 112052817B
- Authority
- CN
- China
- Prior art keywords
- model
- prediction
- sunken ship
- frame
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/20—Scenes; Scene-specific elements in augmented reality scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法,属于侧扫声纳图像目标识别和深度学习技术领域。本发明提出一种基于迁移学习的改进YOLOv3模型侧扫声纳图像沉船目标识别方法,解决现有侧扫声纳图像人工判读和人工特征提取存在的问题,同时解决Faster R‑CNN模型在小目标识别上效果不佳,存在漏警率高以及识别速度慢的问题。进一步提高沉船目标的识别定位精度,使模型达到更好的收敛效果,最终达到提升模型整体性能以及实时探测的目的。
Description
技术领域
本发明属于侧扫声纳图像目标识别和深度学习技术领域,涉及一种基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法,是深度学习目标识别技术领域的一种改进的识别算法,在侧扫声纳图像沉船目标识别上应用。
背景技术
如何精准、快速、高效的搜索失事船只是海上搜救和障碍物核查的重要组成部分。侧扫声纳可用于探测海底目标,在应急搜救方面发挥了关键作用。侧扫声纳探测一般采用拖曳测量方式,受海上机动制约和拖缆长度影响,拖鱼入水深度一般仅为几十米,这对于深海区域测量存在的分辨率低、目标影像特征不明显、声纳图像质量差的缺陷。目前侧扫声纳图像主要采用人工判读的方式,对于图像的分辨率有较高的要求。而自主式水下潜器(AUV)搭载侧扫深纳实施深海高精度、高分辨率海底沉船探测可弥补船载拖曳式测量的缺陷,但由于水声通信的限制,扫测的沉船数据无法实时传输,这势必造成搜索效率的低下,从而错失救援的黄金时间。同时传统人工判读存在效率低、耗时长、资源消耗大及主观不确定性强和过分依赖经验等问题。为了弥补人工判读方式存在的问题,减弱人为主观因素的影响,国内外学者进行了广泛的研究,主要包括利用图像处理的基本算法、基于脉冲耦合神经网络(PCNN)的图像处理算法、形态学图像处理算法及通过中值滤波、二值化处理、噪声抑制、增益负反馈控制、边缘特征提取、图像增强、图像分割等方式识别侧扫声纳图像目标。这些方法尽管在人工干预的情况下可以识别部分典型目标,但由于人工干涉多,存在特征设计难度大、处理过程繁杂、检测精度和可靠性低、泛化能力不强等问题。
近年来,卷积神经网络(CNN)在目标定位与检测、图像分类与识别、人脸验证、交通标志识别、语音识别等各方面获得广泛的应用。本发明者曾提出了利用Faster R-CNN模型进行侧扫声纳图像海底沉船目标识别方法,该方法虽然识别精度很高,但由于其中区域生成网络(RPN)网络生成建议框耗费时间过多,导致模型处理速度较低,满足不了沉船海上搜救的实时性需求。同时侧扫声纳图像沉船目标一般占比较小,属于小尺度目标,而FasterR-CNN模型由于在卷积网络的深层特征图中进行回归预测,在获得丰富语义信息的同时丢失了部分位置信息,在小目标识别上效果不佳,存在漏警率高的问题。
同时,卷积神经网络尽管在各个领域得到了广泛的应用,但其性能只有在网络结构比较复杂、训练样本数足够多的情况下才能得以展现,卷积神经网络往往有数百万个参数,因此训练卷积神经网络需要使用大量的标记样本。而侧扫声纳沉船图像数据较少,在训练时,模型容易出现过拟合、陷入局部最优解以及模型泛化能力差等现象。
发明内容
本发明的目的是针对上述现有技术的不足,提出一种基于迁移学习的改进YOLOv3模型侧扫声纳图像沉船目标识别方法,解决现有侧扫声纳图像人工判读和人工特征提取存在的问题,同时解决Faster R-CNN模型在小目标识别上效果不佳,存在漏警率高以及识别速度慢的问题。进一步提高沉船目标的识别定位精度,使模型达到更好的收敛效果,最终达到提升模型整体性能以及实时探测的目的。
本发明解决其技术问题所采用的技术方案如下:
一种基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法,包括以下步骤:
步骤1:对侧扫声纳沉船图像数据集进行预处理;
所述步骤1包括:①对整个数据集图像的像素进行标准化,将尺寸不一致的图像强制性统一为相同像素;②进行归一化处理,转换为float32格式并转换为0-1范围内的浮点数;③采用中心剪裁的方式剪裁图像的不同比例,再放大到原始图像大小;④采用数据增强进行数据集扩充。
步骤2:使用K-means聚类算法重新聚类先验框。数据集的侧扫声纳图像沉船目标呈扁平竖长形状,YOLOv3采用以交并比为距离度量的K-means算法得到的,距离公式如下所示。
d(b,o)=1-IOU(b,o)
式中:d(b,o)为先验框b和聚类中心o之间的距离;IOU(b,o)为先验框b和聚类框o之间的交并比;bpt为先验框;bgt为实际框。
通过多次聚类求得相对更加符合沉船目标的形状特点的先验框。
步骤3:基于YOLOv3模型进行浅层特征融合的多尺度特征训练。将由YOLOv3模型4倍降采样和2倍降采样学习到的浅层特征与传统YOLOv3模型中的三个尺度特征(32倍降采样,16倍降采样,8倍降采样)进行融合,将由YOLOv3模型学习到浅层沉船轮廓纹理灰度信息与深层语义抽象特征融合,使图像具有更加丰富的信息。
步骤4:增加二分类交叉熵进行损失值计算。采用Momentum和RMSProp算法结合的自适应学习率Adam算法对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(Second Moment Estimation,即梯度的未中心化的方差)进行综合考虑,计算出更新步长。模型的损失函数如下式所示。
其中,x,y,w,h为预测框的中心坐标以及长和宽,S2为特征图被划分栅格数,B为每个栅格包含预测框数量,当第i个栅格中第j个预测框负责预测某个对象时,否则当第i个栅格中第j个预测框不负责预测某个对象但是却与实际框的IOU大于设定阈值时(本文IOU=0.5),Gij=0,否则Gij=1。tx,ty为预测边界框中心偏离量,/>为真实边框中心偏移量,tw,th为预测边界框宽高缩放比,/>为真实边框缩放比,σ为Sigmod函数,目的是将计算值压缩在[0,1]之间,确保目标中心在预测的网格单元中,防止偏移过多。表示第i个网格的第j个预测框负责预测时与真实框之间中心坐标误差,/>表示第i个网格的第j个预测框负责预测时与真实框之间宽高误差。C为预测的置信度,p为类别的概率,L为二分类交叉熵函数,L/>表示第i个网格的第j个预测框负责预测时置信度误差,/>表示第i个网格的第j个预测框负责预测时分类误差。其中预测框中心点坐标以及长宽采用均方差,使用Sigmod函数σ计算误差,计算量大,参数更新速度慢,收敛时间长,反向传播时,,梯度更新幅度小,容易出现梯度消失的情况。因此置信度以及类别误差采用二分类交叉熵函数进行计算,以达到更好的收敛效果,如下式。
步骤5:使用迁移学习策略进行模型训练。采用迁移学习策略进行网络模型的训练。
预训练完成的COCO数据集基础上冻结了多尺度特征融合前卷积层的权重参数,在目标数据集上初始化并重新训练部分卷积层、全连接层和Sigmoid输出层,具体流程图如图5所示。
步骤6:使用训练完成的模型对测试集的数据进行测试。
本发明的有益效果:
1、本发明采用的YOLOv3算法,通过端到端的训练和检测,极大的提高了识别的速度,满足了沉船目标识别实时性的需求。
2、本发明采用迁移学习的方式进行模型的训练,将已经学到的模型参数通过迁移分享给新模型从而加快并优化模型的学习效率,有效缓解数据集样本小的局限性,防止模型过拟合,提高模型性能。
3、本发明采用浅层特征融合的多尺度训练,在兼顾检测效率的同时丰富算法学习的图像信息,提高非线性程度,增加泛化能力,提高网络对小尺度目标的识别和定位精度,有效降低了小尺度目标的漏警率。
4、本发明使用K-means聚类算法重新聚类先验框参数及大小,生成更加适合沉船数据集特点的先验框,使预测值与真实值取得更好的交并比(IOU)提高目标定位精度。
5、本发明增加二分类交叉熵函数进行损失值计算,使模型参数具有更高的鲁棒性,有效防止过拟合,加速模型收敛速度,达到更好的收敛效果。
附图说明
图1是传统的YOLOv3模型结构图;
图2是Darknet-53结构图;
图3是重新聚类后先验框对沉船目标的作用范围示例图,(a)是原始先验框作用范围示例图,(b)是K-means重新聚类后先验框作用范围示例图;
图4是浅层特征融合的多尺度特征训练示意图;
图5是迁移学习流程图;
图6是两种YOLOv3模型损失值;
图7是三种模型的P-R曲线图,(a)(b)(c)分别为Faster R-CNN、全新学习YOLOv3以及迁移学习YOLOv3模型的P-R曲线;
图8是三种模型部分目标检测结果对比,(a-1)(b-1)(c-1)分别为三张不一样图片Faster R-CNN模型的检测结果图,(a-2)(b-2)(c-2)分别为三张不一样图片全新学习YOLOv3模型的检测结果图,(a-3)(b-3)(c-3)分别为三张不一样图片迁移学习YOLOv3模型的检测结果。
具体实施方式
下面对本发明的实验结合附图作详细说明:
本实验训练和测试均基于TensorFlow框架下用python编程实现,实验环境为:Linux:Ubuntu18.04版本操作***;CPU为Inter(R)Xeon(R)CPU E5-2678 [email protected];GPU为NVIDIA TITAN RTX,24GB内存。
本发以YOLOv3模型为基础,具体的模型结构如图2所示,YOLOv3模型采用了Darknet-53网络结构进行图像的特征提取,如图所示,该网络主要由53个1×1和3×3的卷积层(Convolutional)组成,位于Res层之前,且每个卷积层后都会跟一个BN层和一个LeakyReLU层,它们共同组成DBL,如图2所示,是YOLOv3网络结构的基本组件。YOLOv3模型在Darknet-53的网络基础上增加了跳跃连接层和上采样层,共有75个卷积层。
步骤1:原始实验数据由海洋测量部门和侧扫声纳生产厂家提供的图片以及网络截图组成,共1000张图片,同时利用开源软件LabelImg对图片中目标进行标注。
步骤2:对侧扫声纳沉船图像数据集进行预处理。
所述步骤2包括:①对整个数据集的像素进行标准化,将尺寸不一致的图像强制性统一为416piexl×416piexl;②进行归一化处理,转换为float32格式并除以255,得到0-1范围内的浮点数;③采用中心剪裁的方式剪裁图像的50%、60%、70%、80%、90%,再放大到原始图像大小;④采用数据增强包括翻转变换、旋转变换、色彩抖动、平移变换、对比度变换、噪声扰动进行数据集扩充。
经预处理后数据集共有5000张,通过样本平衡采样的方式随机抽取4000张作为训练集,1000张作为测试集。
步骤3:使用K-means聚类算法重新聚类先验框。数据集的侧扫声纳图像沉船目标呈扁平竖长形状,因此继续使用COCO数据集的先验框将会不利于沉船目标的识别。传统K-means算法是采用欧氏距离作为相似性度量,但在检测算法中,合理的预设锚点框设置的目的是使预测值和真实值取得更好的交并比(IOU)。因此YOLOv3采用以交并比为距离度量的K-means算法得到的,距离公式如下所示。
d(b,o)=1-IOU(b,o)
式中:d(b,o)为先验框b和聚类中心o之间的距离;bpt为先验框;bgt为实际框。
通过五次聚类求得平均结果为((75,55)、(85,30)、(116,76));((46,24)、(52,17)、(57,25));((22,13)、(31,12)、(34,41))。如图3所示,原始先验框不能很好的适应侧扫声纳图像海底沉船目标,而重新聚类后的先验框相对更加符合沉船目标的形状特点。
步骤4:进行浅层特征融合的多尺度特征训练。本发明进行了浅层特征融合的多尺度训练,具体如图4所示,将4倍降采样和2倍降采样学习到的特征与传统的三个尺度特征进行融合,将学习到浅层沉船轮廓纹理等信息与深层语义抽象特征融合,增加轮廓纹理灰度变化等特征比重,使图像具有更加丰富的信息。通过浅层特征的多尺度融合训练,既可以在兼顾检测效率的同时保证浅层与深层特征的学习,提高非线性程度,增加泛化能力,提高网络对小尺度目标的识别和定位精度。
步骤5:增加二分类交叉熵进行损失值计算。针对侧扫声纳沉船数据集存在样本少以及梯度存在很大噪声的问题,在模型训练时很难选择合适的初始学习率,如果学习率太小,收敛速度会很慢,如果太大,损失值就会在极小值处不停地震荡甚至偏离,同时相同的学习率不可能被应用于各个参数的学习,为了让模型尽可能学习到更加精细的图像特征,获得参数解的最优值,本文采用Momentum和RMSProp算法结合的自适应学习率Adam算法对梯度的一阶矩估计(First Moment Estimation,即梯度的均值)和二阶矩估计(SecondMoment Estimation,即梯度的未中心化的方差)进行综合考虑,计算出更新步长。因为模型参数的更新不受梯度的伸缩变化影响,同时能够较好的处理噪声样本,自动调整学习率,对参数具有更高的鲁棒性,使模型更好的达到收敛,有效的防止过拟合。YOLOv3模型的损失函数如下式所示。
当预测框预测某个对象时否则/>当预测框不负责预测某个对象但是却与实际框的IOU大于设定阈值时(本文IOU=0.5),Gij=0,否则Gij=1。x,y,w,h为预测框的中心坐标以及长和宽,S为特征图被划分栅格数,B为每个栅格包含预测框数量,C为预测的置信度,p为类别的概率。其中预测框中心点坐标以及长宽采用均方差,使用Sigmod函数σ计算误差。由于均方差对参数的偏导的结果都乘了sigmoid的导数σ′,σ′在其变量值很大或很小时趋近于0,梯度更新幅度小,参数更新速度慢,收敛时间长。因此本发明置信度以及类别误差采用二分类交叉熵函数进行计算,以达到更好的收敛效果,如下式。
步骤6:使用迁移学习策略进行模型训练。采用迁移学习策略进行网络模型的训练。重新训练一个复杂的卷积神经网络需要海量的数据资源、大量的计算资源和时间资源,考虑当任务之间具有一定的相关性,先前任务中得到的知识可以经过微小变换甚至无需任何改动就可直接应用于新的任务中,当这些普遍有效的知识在新任务中使用少量数据很难获得,迁移学习可以将已经学到的模型参数通过迁移分享给新模型从而加快并优化模型的学习效率,减少重复劳动和对目标任务训练数据的依赖,提高模型性能。
根据卷积神经网络随着卷积层的深度增加学习到更加深层次的抽象特定目标特征的特点,浅层的纹理、轮廓和色彩等特征属于普适浅层特征,由浅层卷积层学习获得,迁移性较高。而多尺度特征融合后的卷积层属于深层卷积层,学习提取到的图像特征较为抽象,可迁移性较低。为此,本发明在在预训练完成的COCO数据集基础上冻结了多尺度特征融合前卷积层的权重参数,在目标数据集上初始化并重新训练第59层、67层以及第75层卷积层、全连接层和Sigmoid输出层,具体流程图如图5所示。
步骤7:采用小批量梯度下降法,即将所有图片分88批次输入模型训练,每批次输入训练(batch size)的图片为64张,共训练了1000步(epoch)。两种YOLOv3模型的损失值如图6所示,两个模型的损失值都随着训练次数的增加而不断下降,最终趋于稳定。全新学习的YOLOv3模型在训练600步后趋于稳定,损失值最终维持在5.5左右。迁移学习的YOLOv3模型因为共用基于COCO数据集训练完成模型的部分浅层特征提取参数,初始损失值较低并且下降很快,但是由于侧扫声纳沉船数据集毕竟与COCO数据集存在一定差异,抽象特征的学习使用了大量COCO数据集上的参数,数量较多且差异较大,所以在训练的前350步损失值波动较大,但是由于模型能够很好的获得目标的位置信息,同时采用了交叉熵进行误差计算,所以模型损失值随后趋于稳定,且最终损失值在训练750步后趋于收敛,维持在4.3左右,低于全新学习YOLOv3模型的损失值,证明基于迁移学习的YOLOv3模型具有更好的泛化能力。
步骤8:使用训练完成的模型对测试集的数据进行测试。
本实验使用的评价标准为平均准确率(AP Average Precision)和调和平均数F1,AP是反应整个模型性能的指标,为P-R(Precision-Recall)曲线的面积值,也就是平均精度。其中Precision(准确率又叫查准率)表示检测出来的目标有多少是准确的,衡量结果的准确性;Recall(召回率又叫查全率)表示准确的目标中有多少被检测出来,衡量结果的完整性。
其中分类的样本根据分类结果可以分为四类:正确分类的正样本(TP truepositives)、错误分类的正样本(FP false positives)、正确分类的负样本(TN truenegatives)和错误分类的负样本(FN false negatives)。TP+FP为分类样本的总数,TP+FN为正样本的总数。可得AP定义如下式
Faster R-CNN、全新学***均准确率比全新学习的YOLOv3模型提高了0.31%。Faster R-CNN模型在查全率达到85%的情况下准确率达到88%,在查全率进一步提高的情况下准确率有较大幅度的下降。而YOLOv3模型下降趋势更加的缓慢,在保持较高查全率的同时保持较高的准确率,全新学习的YOLOv3在查全率达到90%的情况下准确率为89%,而基于迁移学习的YOLOv3模型相比全新学习的YOLOv3模型P-R曲线下降幅度更加缓慢,曲线与坐标轴的面积更大,同样在查全率为90%的情况下准确率达到了91%,证明基于迁移学习的YOLOv3模型在侧扫声纳沉船目标的识别上效果更佳。
F1是准确率和查全率的调和平均数,使用如下式所示的F1值来表征算法的综合性能。
本文将区间置信度和IOU均设置为0.5。三种模型的测试结果如表1所示。
表1三种模型测试结果对比
Tab1 Comparison of Test results of Three Models
从表1可以看出,Faster R-CNN模型的识别准确率虽然较全新学习YOLOv3模型高出了2.37%,但是在查全率上却低了6%,证明Faster R-CNN在小目标探测上性能不如YOLOv3模型,同时F1值也低了2.33%,在考虑模型综合性能的情况下,全新学习YOLOv3模型优于Faster R-CNN模型。基于迁移学习的YOLOv3模型在准确率、查全率、AP值以及F1上均高于另外两个模型,AP值分别较Faster R-CNN模型和全新学习YOLOv3模型提高了1.77%和0.31%,F1值分别提高了1.63%和3.96%。对于模型的综合性能而言,检测速度同样是衡量的一个重要指标,从表中可以看出,Faster R-CNN检测一张图片耗时2.8s,而YOLOv3模型检测一张图片的时间需要0.17s,仅为Faster R-CNN的3/50,检测效率得到了极大的提升,证明了基于迁移学习YOLOv3模型的综合性能要明显优于Faster R-CNN模型,较全新学习YOLOv3模型有一定的提升。
图8对比了三种模型对部分侧扫声纳图像沉船目标的检测效果,从左到右分别是Faster R-CNN、全新学习YOLOv3和迁移学习YOLOv3模型的检测结果。图8中(a-1)至(a-3)的特点是沉船目标大小不同,具有尺度的多样性。从识别效果来看,Faster R-CNN模型能很好的识别大尺度沉船目标,但是对小尺度沉船目标的识别效果欠佳,存在较高的漏警率。而全新学习的YOLOv3模型较Faster R-CNN模型在小目标的识别性能上有了较大的提升,红色框代表识别出的漏检目标。迁移学习YOLOv3模型在小尺度目标的识别性能上较全新学习有了进一步的提高,但是当沉船目标排列紧密时,定位精度有一定程度的下降,将两个沉船目标误检成一个目标,但就总体而言,YOLOv3模型能够更好的对小尺度目标进行识别和区分,极大降低了模型的陋警率。从图8中(b-1)至(b-3)、(c-1)至(c-3)可以看出,基于迁移学习的YOLOv3模型的检测框与实际框交并比更高,定位更加的准确,图8中(b-1)至(b-3)IOU分别为69.92%、75.93%和86.09%,图8中(c-1)至(c-3)IOU分别为77.03%、69.32%和91.15%。同时三个模型对图8中(b-1)至(b-3)沉船目标的的置信度分别为98.88%、98.97%和99.07%,对图8中(c-1)至(c-3)沉船目标的置信度分别为96.51%、94.45%和99.42%,显然基于迁移学习的YOLOv3模型具有更高的识别准确率和定位精度,模型的综合性能要优于其他两个模型。
Claims (1)
1.一种基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法,其特征在于,包括以下步骤:
步骤1:对侧扫声纳沉船图像数据集进行预处理;
所述步骤1包括:①对整个数据集图像的像素进行标准化,将尺寸不一致的图像强制性统一为相同像素;②进行归一化处理,转换为float32格式并转换为0-1范围内的浮点数;③采用中心剪裁的方式剪裁图像的不同比例,再放大到原始图像大小;④采用数据增强进行数据集扩充;
步骤2:使用K-means聚类算法重新聚类先验框;数据集的侧扫声纳图像沉船目标呈扁平竖长形状,YOLOv3采用以交并比为距离度量的K-means算法得到的,距离公式如下所示;
d(b,o)=1-IOU(b,o)
式中:d(b,o)为先验框b和聚类中心o之间的距离;IOU(b,o)为先验框b和聚类框o之间的交并比;bpt为先验框;bgt为实际框;
通过多次聚类求得相对更加符合沉船目标的形状特点的先验框;
步骤3:基于YOLOv3模型进行浅层特征融合的多尺度特征训练;将由YOLOv3模型4倍降采样和2倍降采样学习到的浅层特征与传统YOLOv3模型中的三个尺度特征进行融合,将由YOLOv3模型学习到浅层沉船轮廓纹理灰度信息与深层语义抽象特征融合,使图像具有更加丰富的信息;
步骤4:增加二分类交叉熵进行损失值计算;采用Momentum和RMSProp算法结合的自适应学习率Adam算法对梯度的一阶矩估计和二阶矩估计进行综合考虑,计算出更新步长;模型的损失函数如下式所示;
其中,x,y,w,h为预测框的中心坐标以及长和宽,S2为特征图被划分栅格数,B为每个栅格包含预测框数量,当第i个栅格中第j个预测框负责预测某个对象时,否则/>当第i个栅格中第j个预测框不负责预测某个对象但是却与实际框的IOU大于设定阈值时,Gij=0,否则Gij=1;tx,ty为预测边界框中心偏离量,/>为真实边框中心偏移量,tw,th为预测边界框宽高缩放比,/>为真实边框缩放比,σ为Sigmod函数,目的是将计算值压缩在[0,1]之间,确保目标中心在预测的网格单元中,防止偏移过多;表示第i个网格的第j个预测框负责预测时与真实框之间中心坐标误差,/>表示第i个网格的第j个预测框负责预测时与真实框之间宽高误差;C为预测的置信度,p为类别的概率,L为二分类交叉熵函数,L/>表示第i个网格的第j个预测框负责预测时置信度误差,/>表示第i个网格的第j个预测框负责预测时分类误差;其中预测框中心点坐标以及长宽采用均方差,使用Sigmod函数σ计算误差,计算量大,参数更新速度慢,收敛时间长,反向传播时,梯度更新幅度小,容易出现梯度消失的情况;因此置信度以及类别误差采用二分类交叉熵函数进行计算,以达到更好的收敛效果,如下式:
步骤5:使用迁移学习策略进行模型训练;采用迁移学习策略进行网络模型的训练;
预训练完成的COCO数据集基础上冻结了多尺度特征融合前卷积层的权重参数,在目标数据集上初始化并重新训练部分卷积层、全连接层和Sigmoid输出层;
步骤6:使用训练完成的模型对测试集的数据进行测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967912.1A CN112052817B (zh) | 2020-09-15 | 2020-09-15 | 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010967912.1A CN112052817B (zh) | 2020-09-15 | 2020-09-15 | 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112052817A CN112052817A (zh) | 2020-12-08 |
CN112052817B true CN112052817B (zh) | 2023-09-05 |
Family
ID=73603994
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010967912.1A Active CN112052817B (zh) | 2020-09-15 | 2020-09-15 | 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112052817B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112598040B (zh) * | 2020-12-16 | 2021-11-02 | 浙江方圆检测集团股份有限公司 | 一种基于深度学习的开关一致性实时检测方法 |
CN112613504A (zh) * | 2020-12-17 | 2021-04-06 | 上海大学 | 一种声呐水下目标检测方法 |
CN113065446B (zh) * | 2021-03-29 | 2022-07-01 | 青岛东坤蔚华数智能源科技有限公司 | 一种用于舰艇锈蚀区自动化识别的深度巡检方法 |
CN113077017B (zh) * | 2021-05-24 | 2022-12-13 | 河南大学 | 基于脉冲神经网络的合成孔径图像分类方法 |
CN113343964B (zh) * | 2021-08-09 | 2022-06-10 | 湖南汇视威智能科技有限公司 | 一种平衡的水下声学图像目标检测方法 |
CN113781421A (zh) * | 2021-08-31 | 2021-12-10 | 深圳市爱深盈通信息技术有限公司 | 基于水下的目标识别方法、装置及*** |
CN114758237A (zh) * | 2022-04-19 | 2022-07-15 | 哈尔滨工程大学 | 一种输水隧洞缺陷自动识别模型的构建方法、检测方法、构建装置、计算机及存储介质 |
CN114677568B (zh) * | 2022-05-30 | 2022-08-23 | 山东极视角科技有限公司 | 一种基于神经网络的线性目标检测方法、模块及*** |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN110147807A (zh) * | 2019-01-04 | 2019-08-20 | 上海海事大学 | 一种船舶智能识别跟踪方法 |
CN110991516A (zh) * | 2019-11-28 | 2020-04-10 | 哈尔滨工程大学 | 一种基于风格迁移的侧扫声呐图像目标分类方法 |
CN111222574A (zh) * | 2020-01-07 | 2020-06-02 | 西北工业大学 | 基于多模型决策级融合的舰船与民船目标检测与分类方法 |
CN111460894A (zh) * | 2020-03-03 | 2020-07-28 | 温州大学 | 一种基于卷积神经网络的车标智能检测方法 |
-
2020
- 2020-09-15 CN CN202010967912.1A patent/CN112052817B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447034A (zh) * | 2018-11-14 | 2019-03-08 | 北京信息科技大学 | 基于YOLOv3网络的自动驾驶中交通标识检测方法 |
CN110147807A (zh) * | 2019-01-04 | 2019-08-20 | 上海海事大学 | 一种船舶智能识别跟踪方法 |
CN110991516A (zh) * | 2019-11-28 | 2020-04-10 | 哈尔滨工程大学 | 一种基于风格迁移的侧扫声呐图像目标分类方法 |
CN111222574A (zh) * | 2020-01-07 | 2020-06-02 | 西北工业大学 | 基于多模型决策级融合的舰船与民船目标检测与分类方法 |
CN111460894A (zh) * | 2020-03-03 | 2020-07-28 | 温州大学 | 一种基于卷积神经网络的车标智能检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112052817A (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112052817B (zh) | 基于迁移学习的改进YOLOv3模型侧扫声纳沉船目标自动识别方法 | |
CN111222574B (zh) | 基于多模型决策级融合的舰船与民船目标检测与分类方法 | |
WO2021243743A1 (zh) | 基于深度卷积神经网络的沉底油声呐探测图像识别方法 | |
Yulin et al. | Shipwreck target recognition in side-scan sonar images by improved YOLOv3 model based on transfer learning | |
CN109740460B (zh) | 基于深度残差密集网络的光学遥感图像舰船检测方法 | |
CN112395987B (zh) | 基于无监督域适应cnn的sar图像目标检测方法 | |
CN111368671A (zh) | 基于深度学习的sar图像舰船目标检测识别一体化方法 | |
CN109581339B (zh) | 一种基于头脑风暴自动调整自编码网络的声呐识别方法 | |
CN110647802A (zh) | 基于深度学习的遥感影像舰船目标检测方法 | |
CN110991516A (zh) | 一种基于风格迁移的侧扫声呐图像目标分类方法 | |
CN115471746A (zh) | 一种基于深度学习的船舶目标识别检测方法 | |
CN112418028A (zh) | 一种基于深度学习的卫星图像中船舶识别与分割方法 | |
CN113052215A (zh) | 基于神经网络可视化的声呐图像自动目标识别方法 | |
Yulin et al. | Wreckage target recognition in side-scan sonar images based on an improved faster r-cnn model | |
CN113064133B (zh) | 一种基于时频域深度网络的海面小目标特征检测方法 | |
CN114549909A (zh) | 一种基于自适应阈值的伪标签遥感图像场景分类方法 | |
CN114219763A (zh) | 基于Faster RCNN算法的配电设备异常发热点红外图片检测方法 | |
CN113344148A (zh) | 一种基于深度学习的海上舰船目标识别方法 | |
Zou et al. | Maritime target detection of intelligent ship based on faster R-CNN | |
CN117456346A (zh) | 一种水下合成孔径声呐图像目标检测方法及*** | |
CN115861787A (zh) | 面向复杂海事环境的舰艇识别算法 | |
CN116246139A (zh) | 一种无人艇航行环境基于多传感器融合的目标识别方法 | |
CN112308002B (zh) | 一种基于单阶段深度学习网络的海底生物识别和检测方法 | |
CN115240058A (zh) | 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法 | |
Shi et al. | Fast classification and detection of marine targets in complex scenes with YOLOv3 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |