CN115240058A - 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法 - Google Patents

一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法 Download PDF

Info

Publication number
CN115240058A
CN115240058A CN202210669858.1A CN202210669858A CN115240058A CN 115240058 A CN115240058 A CN 115240058A CN 202210669858 A CN202210669858 A CN 202210669858A CN 115240058 A CN115240058 A CN 115240058A
Authority
CN
China
Prior art keywords
target
image
sonar
shadow
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210669858.1A
Other languages
English (en)
Inventor
王惠刚
雷灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Shenzhen Institute of Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University, Shenzhen Institute of Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202210669858.1A priority Critical patent/CN115240058A/zh
Publication of CN115240058A publication Critical patent/CN115240058A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/759Region-based matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法。该方法首先针对侧扫声呐图像中存在的灰度差异过大和物理分辨率不同等问题,利用成像时的高度、角度等先验信息,自主对图像进行增益补偿和分辨率校正。再对经过校正的声呐图像进行基于改进DeepLabV3+网络模型的图像分割。分割完后运用侧扫声呐的成像原理和几何关系对同一个目标的高亮区域和阴影区域进行匹配,选择感兴趣目标。通过图像校正和精准分割,制作完数据集后,构建基于YOLOv5s网络的声呐目标检测模型,并进行模型训练,最后利用训练好的结果对分割后的待检测声呐图像进行目标检测。本发明同时引入目标声影区信息和图像精准分割,有效提升了侧扫声呐目标的检测识别精度。

Description

一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测 方法
技术领域
本发明属于水下探测识别领域,具体涉及一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法。
背景技术
海上作业中,水下目标检测识别是最常见的应用。水下目标范围广泛,小型目标有鱼群、礁石、沉船、水雷、潜艇和水下机器人等,大型目标有海底火山、大海沟和大面积的海底底质等。在海洋资源开发中,侧扫声呐是非常重要的水下精细探测手段,通常拖曳在无人艇的后方或者安装在水下航行器两侧,采用回波定位和波束形成来形成航行器两侧不同距离、不同方位区域内的回波强度。侧扫声呐的使用量大、成像范围大、成本低廉、图像分辨率适中,是最流行的一类图像声呐,已广泛应用于地形地貌测绘、海底搜救和海洋勘探等众多领域。
侧扫声呐成像特点与海底地形地貌有非常大的关联,声呐图像大致可分为目标、阴影和背景三个部分,背景区域为海底混响,包含很多噪点;阴影区域由于声波受到目标或小丘阻挡无法通过到该区域而形成。声呐图像存在噪声大、失真严重、目标边缘模糊、分辨率低、纹理性差的特点,导致水下目标分类识别精度不高,那么如何提高分类准确性和快速性,以及减小模型的复杂度都是急需研究解决的关键问题。考虑到以上情况,深度学习算法因其能够提取更加丰富的特征,且鲁棒性强、实用性强,拥有更优秀的性能,非常适合应用于声呐目标检测识别领域。其中YOLOv5s是YOLO检测算法系列中网络模型最小,特征图宽度最小,识别速度最快的网络,因而利用此网络作为声呐目标检测识别的主模型可以在分类的准确性,高效性和模型复杂度上获得很好的改善。
侧扫声呐图像中的阴影区域包含着声呐目标的形状和高度等信息,在常规的声呐图像识别中往往会忽略阴影部分,但该部分的信息量不亚于目标高亮区域的信息量,因而有必要将目标区和阴影区的图像联合考虑,以期望获得更多有效的目标信息。那么对声呐目标高亮区和阴影区的同时提取并将两个区域的信息均用于目标识别中去,对提高声呐目标的识别效果是非常有效的。
基于以上考虑,本方法针对侧扫声呐目标检测识别开展研究,提出联合图像精准分割和目标阴影信息的侧扫声呐目标检测识别方法。根据侧扫声呐成像的特点,对侧扫声呐图像进行目标高亮区域和阴影区域的同步分割,最后将两个区域的信息量均作为后续检测识别的特征信息,从而完成侧扫声呐目标的识别工作。
发明内容
针对上述存在的技术问题,本发明公开了一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法。该方法从侧扫声呐图像的成像原理出发,充分考虑声影区的信息,首先针对侧扫声呐图像中存在的灰度差异过大和不同距离下的物理分辨率不同的问题,利用侧扫声呐成像时的高度、角度等先验信息,自主对图像进行增益补偿和分辨率校正,实现自主增益补偿与校正技术。接下来将经过校正的声呐图像进行图像分割,基于改进DeepLabV3+网络模型分别对侧扫声呐图像中感兴趣目标的高亮区域和阴影区域进行特征提取与图像精准分割。分割完后运用侧扫声呐的成像原理和几何关系对同一个目标的高亮区域和阴影区域进行匹配,选择感兴趣目标。经过以上预处理操作后,最后利用YOLOv5s网络模型对分割结果图像进行声呐目标的检测识别,同时引入目标声影区信息以及图像精准分割,有效提升了声呐目标的识别精度。
本发明目的在于一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,该方法的步骤如下:
S1:针对侧扫声呐图像中存在的由于距离远近导致能量衰减引起的灰度差异以及水下环境恶劣导致移动平台本身的不稳定引起的左右舷灰度差异过大,进行自主增益补偿。
S2:针对侧扫声呐图像中存在不同距离下的物理分辨率不同的问题,进行几何畸变校正。
S3:对经过校正后的侧扫声呐图像进行基于改进DeepLabV3+网络的图像分割,提取出侧扫声呐图像中感兴趣目标的高亮区域和阴影区域。
S4:得到分割区域后,运用侧扫声呐的成像原理和几何关系对同一个目标的高亮区域和阴影区域进行匹配。
S5:构建基于YOLOv5s网络的声呐目标检测模型,将经过校正和分割后的图像送入到网络中进行训练,并将训练好的模型用做真实声呐目标的检测识别。
S6:消融实验设置,验证声呐图像中阴影区域的有效性以及声呐图像分割的有效性。
进一步的,所述步骤S1包括一下步骤:
S11:寻找海底线:
海底线寻找由移动平台的姿态信息做参照,再左右精确搜寻海底线位置。在声呐数据采集时,将水下移动平台的高度信息和姿态信息进行存储,然后将声呐数据按ping条数进行解析,获得声强数据与高度信息,通过预先存储的高度信息,对海底线进行初步粗略的计算,由于侧扫声呐分为左舷和右舷,因而在进行从高度到图像像素位置点换算时按照如下:
lineorig=Ns-(altitude*Ns/range) (1)
式中lineorig表示声呐图像中初始海底线位置点,altitude表示高度信息,range表示声呐的工作范围,Ns表示单侧舷获取的某一条(ping(n))声强数据采样点数。然后在初始值左右附近50个像素值内,寻找最大灰度值所对应像素点即为声呐的海底线位置点。
S12:计算出图像内拖鱼深度最大时对应的图像区的宽度:
航行器在水下移动时高度在不断变化,若将每条ping数据进行处理后图像会出现参差不齐的状态,由于最终要形成规整排列的图像数据,因而需寻找到最小区域范围。拖鱼深度最大时,所采集到的水下信息范围最小,从右舷的角度出发,采用N条数据形成完整的一幅侧扫声呐图像,定义各点声强值转换为的灰度值组成序列s(n,i),其中n为ping的序列号,i为每条数据中的各点序列号。由上述算法寻找得到的第n条数据的海底线位置为a(n),从而可以根据下式计算出图像内拖鱼高度最大时对应的图像区的宽度Nmin
Nmin=min(Ns-a(n)),n=1...N (2)
S13:统计各ping断面灰度的均值:
得到海底线位置和图像内拖鱼深度最大时对应的图像区的宽度后,需对区域内的所有像素点进行灰度校正。首先对图像纵向方向统计各ping断面(声呐图像横向固定,统计纵向方向)灰度的均值:
Figure BDA0003694409370000031
S14:得到图像灰度校正因子序列:
得到纵向ping断面的灰度均值后,再从声呐图像横向方向做灰度均值,从而最后得到图像区域内所有像素点的灰度校正因子序列:
Figure BDA0003694409370000041
进一步的,所述步骤S2包括以下步骤:
S21:获得斜距、水平距离和深度三者之间的关系:
根据声呐换能器的位置以及声波的射线方向可以获得斜距、水平距离和深度三者之间的几何关系,具体如下:
Figure BDA0003694409370000042
式中,PlantRange表示水平距离,SlantRange表示倾斜距离,TowfishAlt表示换能器距离海底高度。TowfishAlt可通过声呐图像中的海底线检测获得。
S22:根据几何关系获得原始斜距图像上的某点对应改正后的平距图像上的点:
侧扫声呐分为左舷和右舷,且声呐数据按照声呐信号的返回顺序存储,所以分辨率校正要考虑左右舷的问题。设原始斜距图像上的某点P(x2,y2)对应改正后的平距图像上的点为P(x1,y1),根据上述的几何关系可以得到平距点和斜距点的具体对应关系如下:
左舷分辨率校正因子:
Figure BDA0003694409370000043
右舷分辨率校正因子:
Figure BDA0003694409370000044
其中,Res表示图像的分辨率,width表示图像宽度。以上根据成像时航行器的运动参数先验信息,自动在分辨率校正模块里得到校正后图像上各点的像素坐标,然后将其一一映射到像素坐标上,最终得到分辨率校正后的侧扫声呐图像。
进一步的,所述步骤S3包括以下步骤:
S31:构建分割网络模型:
构建基于改进DeepLabv3+网络的声呐图像分割模型,替换原Xception系列网络为MobilenetV2作为主干特征提取网络。在Encoder和Decoder中加强特征网络提取,并采用交叉熵进行损失的计算,引入Dice loss指标对语义分割结果进行评价。
更进一步的,所述步骤S31包括以下步骤:
S311:修改主干特征提取网络:
针对用于侧扫声呐图像分割的DeepLabv3+网络模型,其原结构网络中采用参数量大导致训练速度较慢的Xception系列作为主干提取网络,因而本发明中替换为轻量级的mobilenetV2作为主干提取网络,mobilenetV2采用Inverted Residuals结构先进行扩张,再进行压缩,最后加入残差块将输入和输出直接相连接。
S312:加强特征网络提取:
在完成mobilenetV2的特征提取后,获得了两个有效特征层,接下来对初步有效特征进行加强特征提取。加强特征提取网络分为Encoder和Decoder两部分:在Encoder中,针对压缩四次的初步有效特征层,首先利用并行的不同rate(扩张率)的空洞卷积进行特征提取,针对输入x以及卷积核w,空洞卷积在第i个位置点的输出特征y具体计算如下:
Figure BDA0003694409370000051
其中r表示空洞卷积中的扩张率,kernel-size表示卷积核大小。提取后进行特征合并,最后对特征进行1x1卷积压缩。
在Decoder中,针对压缩两次的初步有效特征层,首先利用1x1卷积调整通道数,调整后再与上述空洞卷积特征进行上采样后的结果堆叠,堆叠结果再进行两次深度可分离卷积,从而获得一个最终的有效特征层。
S313:改进损失函数:
在模型训练时,使用Focal loss函数以及Dice loss函数评估网络模型的训练效果。由于声呐图像样本分类难易程度不一致,为了解决样本非平衡带来的模型训练问题,在交叉熵损失函数的基础上做出改进,提出Focal loss函数,其根据样本分辨的难易程度给样本对应的损失添加权重,降低了大量简单负样本在训练中所占的权重,具体表达式写为:
FL(pt)=-αt(1-pt)γlog(pt) (9)
其中pt为预测该类别的概率,在多分类中,即为Softmax输出的概率,αt为每一个类的权重因子,γ为调节因子,当γ=0是即为交叉熵损失函数。
Dice系数是一种集合相似度度量函数,取值范围在[0,1],系数值越大表示预测结果和真实结果重合度越大,但在模型训练时,损失值越小越好,因而Dice loss进行定义如下:
Figure BDA0003694409370000061
其中|X∩Y|表示预测结果和真实结果的交集,|X|和|Y|分别表示预测结果和真实结果的元素个数。在本发明采用的DeepLabV3+语义分割模型中,X表示ground truth,Y表示预测的分割图像。
S32:制作声呐图像数据集,并做模型训练:
模型修改完后,制作声呐图像数据集,并做相应处理。声呐图像分割部分的目的是为了分割出由主动声波回波形成的目标高亮区域以及由物体遮挡形成的阴影区域,并不区分各自区域代表的目标类型,因而在分割任务中,对于数据集只标注两种类型,分别为高亮区域(light)以及阴影区域(dark)。经过实验收集,整理侧扫声呐图像训练集488张,验证集71张,测试集136张。将测试集和验证集中的每张图像进行目标亮区和阴影区域的标注,标注完后送入到网络中去,再修改网络中的类别参数、主干模型和预训练权重等,最终完成关于声呐图像分割模型的训练。
S33:利用训练好的模型,对待分割的声呐图像进行目标亮区和声影区的分割,得到最终的图像分割结果:
将测试代码中的权重文件修改为训练结果最好的权重,同时修改类别参数,修改完后就测试集中待分割的声呐图像进行目标亮区和阴影区域的分割,得到最终的分割结果。分割完后,原始声呐图像转换为只包含3种像素值大小的Mask(掩膜),3种值分别表示:目标亮区、阴影分割和背景,从而有效解决了声呐目标边缘模糊以及声呐图像噪声大、分辨率低的问题。
声呐图像分割部分未对目标进行分类,相当于对原始声呐图像做了进一步的预处理,经过以上预处理同时完成了图像精准分割以及声呐目标阴影信息的提取,因而接下来需将分割完后的图像进行目标的检测识别。
进一步的,所述步骤S4包括以下步骤:
S41:运用侧扫声呐的成像原理对同一目标的亮区和阴影区域进行匹配。
得到分割区域后,根据侧扫声呐图像的成像原理,由于侧扫声呐发射和探测回波垂直于航向,当声波发射后,经过声信道的传播,到达海底后反射波沿原路返回至换能器形成相应的目标回波。而目标阴影区则是由于声波受到目标的阻挡而没受到照射,因而目标阴影区与目标高亮区应与声线在同一方向上,也即亮区与阴影在同一水平线上,且阴影和亮区形成的区域高度(航行器运动方向)一致。位于海底的目标,其阴影紧连接于目标的强回波之后。
由于分割网络获得的目标高亮区域和阴影区域可能存在多个,所以根据上述侧扫声呐图像的成像原理对同一个目标的高亮区域和阴影区域进行匹配,选择感兴趣的目标。
进一步的,所述步骤S5包括以下步骤:
S51:构建网络模型及算法:
YOLOv5s是YOLOv5检测算法系列中网络模型最小,特征图宽度最小,识别速度最快的网络,因而本发明利用该网络作为声呐目标检测识别的主模型,YOLOv5s网络结构由4个主要部分组成:Input(输入端),Backbone(主干网络),Neck(多尺度特征融合)和Output(输出端),其中Input包括Mosaic数据增强、自适应锚框计算和自适应图片缩放;Backbone使用了Focus结构和CSP结构;Neck采用了FPN+PAN结构;Output包括Bounding box损失函数计算和NMS非极大值抑制。
S52:数据收集,标注以及数据集构建:
经过上述预处理操作后,通过图像校正和精准分割,改善了声呐目标边缘模糊等问题,实现了目标阴影信息的精确提取,本部分进行基于图像精准分割和目标阴影信息的侧扫声呐目标检测,因而将由DeepLabV3+网络获得的分割结果作为声呐目标检测网络的原始数据。
首先对分割结果的目标高亮区域与阴影区域同时进行边框标注,将其标注到同一个目标框中,共标注4类数据,分别为溺水者、水雷、飞机和沉船,再将标注好的数据分解为训练集、验证集和测试集。训练集488张,其中溺水者目标图像98张,水雷目标图像119张,飞机目标图像87张,沉船目标图像184张;验证集71张,其中溺水者目标图像17张,水雷目标图像18张,飞机目标图像13张,沉船目标图像23张;测试集136张,其中溺水者目标图像13张,水雷目标图像35张,飞机目标图像23张,沉船目标图像65张。
S53:实验设置以及模型训练:
实验环境配置及参数设置:本发明的模型均在NVIDIAGeForce RTX 3080显卡上基于PyTorch深度学习框架完成训练与测试,使用Python作为编程语言,修改目标种类,预训练权重路径,网络结构的配置文件,设置epochs、batch-size、图片大小、初始学习率、循环学习率、学习率动量、权重衰减系数、IoU损失系数、cls损失系数和cls BCELoss正样本权重等参数,从而完成整体模型的构建与设置。
模型训练:完成各项参数的修改与设置后,将上面得到的声呐图像分割结果制作为的数据集送入到网络中进行模型的训练,使用Tensorboard可视化工具查看模型训练结果。获得预测框回归损失函数均值、目标检测损失函数均值和分类损失函数均值三种损失函数均值随迭代次数变化趋势,精确率和召回率随着迭代次数变化情况,以及交并比IoU阈值为0.5时的平均精度均值和交并比IoU阈值为0.5:0.95时的平均精度均值随迭代次数的变化曲线。
S54:模型测试与结果分析:
网络模型训练完成后,选取训练效果最佳的权重文件对测试集数据进行识别声呐目标的位置回归,从而完成模型的测试,最后从精确度(Precision)、召回率(Recall)、PR曲线、F1分数和平均精度平均值等评价指标对模型进行多方位评估。TP(真阳性)表示样本的真实类别是正例,并且模型预测的结果也是正例;TN(真阴性)表示样本的真实类别是负例,并且模型将其预测成为负例;FP(假阳性)表示样本的真实类别是负例,但是模型将其预测成为正例;FN(假阴性)表示样本的真实类别是正例,但是模型将其预测成为负例。
精度(Precision)是精确性的度量,表示被分为正例的示例中实际为正例的比例,其计算公式定义如下:
Figure BDA0003694409370000081
召回率(Recall)是覆盖面的度量,度量有多个正例被分为正例,其计算公式定义如下:
Figure BDA0003694409370000091
PR曲线是以Recall为横坐标,Precision为纵坐标组成的曲线,其左下方的面积越大表示模型对数据集的效果越好。PR曲线左下方的阴影面积为平均精度值(AP),其计算公式定义如下:
Figure BDA0003694409370000092
F1-score(F1分数)代表准确率和召回率的调和平均数,是用于评价模型检测能力的综合评价指标,取值为[0,1],其计算公式定义如下:
Figure BDA0003694409370000093
进一步的,所述步骤S6包括以下步骤:
S61:验证声呐目标阴影区域的有效性:
首先将原始声呐图像只做目标物高亮区域标注,注意此处不做图像分割,直接将声呐原始图像进行标注。将标注完的数据集分解为训练集、验证集和测试集,训练集数据送入到YOLOv5s网络中进行模型的训练,验证集对模型的优劣进行验证,测试集对训练好的模型进行结果预测,最终获得Precision、Recall、PR曲线和F1-score等指标曲线图以及混淆矩阵结果。
其次将原始声呐图像进行目标物高亮区域与阴影区域的同时标注,同样获得一系列指标曲线图以及混淆矩阵结果。最后将基于声呐目标高亮区域得到的测试结果与基于声呐目标高亮区域和阴影区域联合得到的测试结果进行对比,从而验证声学图像中阴影区域信息的有效性。
S62:验证图像精准分割的有效性:
根据以上步骤获得的结果,将原始声呐图像中目标高亮区域和阴影区域同时检测获得的指标曲线结果以及混淆矩阵与预先利用DeepLabV3+网络对声呐目标的亮区和阴影部分进行分割后再检测获得的测试结果进行对比,从而验证侧扫声呐图像预先精准分割的有效性。
S63:验证联合图像精准分割和目标阴影信息的有效性:
根据以上获得的测试结果,将原始不做分割只包含目标亮区的检测识别效果与同时联合阴影区域和图像精准分割获得的指标曲线结果以及混淆矩阵作对比,从而对联合图像精准分割和目标阴影信息的有效性进行验证。
附图说明
图1为本发明的流程框图。
图2为本发明的侧扫声呐成像原理图。
图3为本发明的侧扫声呐图像预处理后结果示意图。
图4为本发明的基于YOLOv5s模型检测的训练过程曲线示意图。
图5为本发明的测试结果中所有类别的指标值。
图6为本发明的测试结果中的精度(Precision)随置信度变化曲线。
图7为本发明的测试结果中的召回率(Recall)随置信度变化曲线。
图8为本发明的测试结果中的PR曲线示意图。
图9为本发明的测试结果中的F1-score随置信度变化曲线。
图10为本发明的测试结果中的混淆矩阵结果示意图。
图11为本发明的测试结果中的部分检测结果实例图。
图12为本发明的验证阴影区域有效性下的对比结果示意图。
图13为本发明的验证图像分割有效性下的对比结果示意图。
图14为本发明的验证联合目标阴影区域和图像精准分割效果对比图。
具体实施方式
下面结合附图对本发明实施方式作详细说明。
参考图1,图1为本发明提供的一种联合联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法流程图,包括以下步骤:
S1:针对侧扫声呐图像中存在的由于距离远近导致能量衰减引起的灰度差异以及水下环境恶劣导致移动平台本身的不稳定引起的左右舷灰度差异过大,进行自主增益补偿。
S2:针对侧扫声呐图像中存在不同距离下的物理分辨率不同的问题,进行几何畸变校正。
S3:对经过校正后的侧扫声呐图像进行基于改进DeepLabV3+网络的图像分割,提取出侧扫声呐图像中感兴趣目标的高亮区域和阴影区域。
S4:得到分割区域后,运用侧扫声呐的成像原理和几何关系对同一个目标的高亮区域和阴影区域进行匹配。
S5:构建基于YOLOv5s网络的声呐目标检测模型,将经过校正和分割后的图像送入到网络中进行训练,并将训练好的模型用做真实声呐目标的检测识别。
S6:消融实验设置,验证声呐图像中阴影区域的有效性以及声呐图像分割的有效性。
进一步的,所述步骤S1包括以下步骤:
S11:寻找海底线,海底线寻找由移动平台的姿态信息做参照,再左右精确搜寻海底线位置:
在声呐数据采集时,将水下移动平台的高度信息和姿态信息进行存储,然后将声呐数据按ping条数进行解析,获得声强数据与高度信息,通过预先存储的高度信息,对海底线进行初步粗略的计算,由于侧扫声呐分为左舷和右舷,因而在进行从高度到图像像素位置点换算时按照如下:
lineorig=Ns-(altitude*Ns/range) (15)
式中lineorig表示声呐图像中初始海底线位置点,altitude表示高度信息,range表示声呐的工作范围,Ns表示单侧舷获取的某一条(ping(n))声强数据采样点数。然后在初始值左右附近50个像素值内,寻找最大灰度值所在点即为声呐的海底线位置点a(n):
a(n)=max(lineorig±50) (16)
在本发明采用的声呐款式中,Ns=1000,range=20m,altitude为由水下移动平台搭载的高度传感器实时采集到的高度信息。
S12:计算出图像内拖鱼深度最大时对应的图像区的宽度:
航行器在水下移动时高度在不断变化,若将每条ping数据进行处理后图像会出现参差不齐的状态,由于最终要形成规整排列的图像数据,因而需寻找到最小区域范围。拖鱼深度最大时,所采集到的水下信息范围最小,从右舷的角度出发,采用N条数据形成完整的一幅侧扫声呐图像,定义各点声强值转换为的灰度值组成序列s(n,i),其中n为ping的序列号,i为每条数据中的各点序列号。由上述算法寻找得到的第n条数据的海底线位置为a(n),从而可以根据下式计算出图像内拖鱼高度最大时对应的图像区的宽度Nmin
Nmin=min(Ns-a(n)),n=1...N (17)
S13:统计各ping断面灰度的均值:
得到海底线位置和图像内拖鱼深度最大时对应的图像区的宽度后,需对区域内的所有像素点进行灰度校正。首先对图像纵向方向统计各ping断面(声呐图像横向固定,统计纵向方向)灰度的均值:
Figure BDA0003694409370000121
为了观察侧扫声呐图像美观,本发明中采取N=500。
S14:得到图像灰度校正因子序列:
得到纵向ping断面的灰度均值后,再从声呐图像横向方向做灰度均值,从而最后得到图像区域内所有像素点的灰度校正因子序列:
Figure BDA0003694409370000122
进一步的,所述步骤S2包括以下步骤:
S21:获得斜距、水平距离和深度三者之间的关系:
根据声呐换能器的位置以及声波的射线方向可以获得斜距、水平距离和深度三者之间的几何关系,具体如下:
Figure BDA0003694409370000123
式中,PlantRange表示水平距离,SlantRange表示倾斜距离,TowfishAlt表示换能器距离海底高度。TowfishAlt可通过声呐图像中的海底线检测获得。
S22:根据几何关系获得原始斜距图像上的某点对应改正后的平距图像上的点:
侧扫声呐分为左舷和右舷,且声呐数据按照声呐信号的返回顺序存储,所以分辨率校正要考虑左右舷的问题。设原始斜距图像上的某点P(x2,y2)对应改正后的平距图像上的点为P(x1,y1),根据上述的几何关系可以得到平距点和斜距点的具体对应关系如下:
左舷分辨率校正因子:
Figure BDA0003694409370000131
右舷分辨率校正因子:
Figure BDA0003694409370000132
其中,Res表示图像的分辨率,width表示图像宽度。本发明中width=2000,TowfishAlt=a,Res=1。在计算时,由于x2为整数,经过一系列计算后获得的x1为非整数,非整数数值在图像中无法找到相应的像素位置点,因而在做完对应关系计算后,需采用双线性插值原理计算出非整数图像坐标位置点处的像素值。由于y1=y2,那么图像坐标只有横向x轴方向的插值,从而根据双线性插值计算公式可获得非整数x1处的像素值:
Figure BDA0003694409370000133
以上根据成像时航行器的运动参数先验信息,自动在分辨率校正模块里得到校正后图像上各点的像素坐标,然后将其一一映射到像素坐标上,最终得到分辨率校正后的侧扫声纳图像。
进一步的,所述步骤S3包括以下步骤:
S31:构建分割网络模型:
构建基于改进DeepLabV3+网络的声呐图像分割模型,替换原Xception系列网络为MobilenetV2作为主干特征提取网络。在Encoder和Decoder中加强特征网络提取,并采用Focal loss进行损失的计算,引入Dice loss指标对语义分割结果进行评价。
更进一步的,所述步骤S31包括以下步骤:
S311:修改主干特征提取网络:
针对用于侧扫声呐图像分割的DeepLabV3+网络模型,其原结构网络中采用参数量大导致训练速度较慢的Xception系列作为主干提取网络,因而本发明中替换为轻量级的mobilenetV2作为主干提取网络,mobilenetV2采用Inverted residuals结构先进行扩张,再进行压缩,具体为先利用1x1卷积升维,再利用3x3深度可分离卷积进行特征提取,最后利用1x1卷积降维。在mobilenetV2结构中采用新的激活函数ReLU6:
y=ReLU6(x)=min(max(x,0),6) (24)
在最后一层的1x1卷积降维,为了防止ReLU激活函数对低维的信息造成比较大的损失,而对于高维的信息造成的损失很小的问题,采用linear激活函数:
y=linear(x)=x (25)
最后整个结构加入残差块将输入和输出直接相连接。
S312:加强特征网络提取:
在完成mobilenetV2的特征提取后,获得了两个有效特征层,接下来对初步有效特征进行加强特征提取。加强特征提取网络分为Encoder和Decoder两部分:在Encoder中,针对压缩四次的初步有效特征层,首先利用并行的不同rate(扩张率)的空洞卷积进行特征提取,针对输入x以及卷积核w,空洞卷积在第i个位置点的输出特征y具体计算如下:
Figure BDA0003694409370000141
式中r表示空洞卷积中的扩张率,kernel-size表示卷积核大小。提取后进行特征合并,最后对特征进行1x1卷积压缩。其中采用不同rate下的空洞卷积可以获得不同范围的感受野r:
Figure BDA0003694409370000142
式中Skernal-i为第i层卷积核大小,Vi为第i层感受野大小,stepi-1为第i-1层核大小。
在Decoder中,针对压缩两次的初步有效特征层,首先利用1x1卷积调整通道数,调整后再与上述空洞卷积特征进行上采样后的结果堆叠,堆叠结果再进行两次深度可分离卷积,从而获得一个最终的有效特征层。
S313:改进损失函数:
在模型训练时,使用交叉熵损失函数以及Dice loss函数评估网络模型的训练效果。其中交叉熵损失函数具体表达如下:
Figure BDA0003694409370000143
式中,θ表示权重参数,x表示批次训练样本大小,p1表示期望类别概率,p2表示预测类别概率。
由于声呐图像样本分类难易程度不一致,为了解决样本非平衡带来的模型训练问题,在交叉熵损失函数的基础上做出改进,提出Focal loss函数,其根据样本分辨的难易程度给样本对应的损失添加权重,降低了大量简单负样本在训练中所占的权重,具体表达式写为:
FL(pt)=-αt(1-pt)γlog(pt) (29)
其中pt为预测该类别的概率,在多分类中,即为Softmax输出的概率,αt为每一个类的权重因子,γ为调节因子,当γ=0是即为交叉熵损失函数。
Dice系数是一种集合相似度度量函数,通常用于计算两个样本的相似度,取值范围在[0,1],计算公式如下:
Figure BDA0003694409370000151
其中|X∩Y|表示预测结果和真实结果的交集,|X|和|Y|分别表示预测结果和真实结果的元素个数。在本发明采用的DeepLabV3+语义分割模型中,X表示ground truth,Y表示预测的分割图像。系数值越大表示预测结果和真实结果重合度越大,但在模型训练时,损失值越小越好,因而作为语义分割损失的Dice loss定义如下:
Figure BDA0003694409370000152
S32:制作声呐图像数据集,并做模型训练:
模型修改完后,制作声呐图像数据集,并做相应处理。声呐图像分割部分的目的是为了分割出由主动声波回波形成的目标高亮区域以及由物体遮挡形成的阴影区域,并不区分各自区域代表的目标类型,因而在分割任务中,对于数据集只标注两种类型,分别为高亮区域(light)以及阴影区域(dark)。经过实验收集,整理出侧扫声呐图像训练集488张,验证集71张,测试集136张。将测试集和验证集中的每张图像进行目标亮区和阴影区域的标注,标注完后送入到网络中去,再修改网络中的类别参数、主干模型和预训练权重等,最终完成关于声呐图像分割模型的训练。
S33:利用训练好的模型,对待分割的声呐图像进行目标亮区和声影区的分割,得到最终的图像分割结果:
将测试代码中的权重文件修改为训练结果最好的权重,同时修改类别参数,修改完后就测试集中待分割的声呐图像进行目标亮区和阴影区域的分割,得到最终的分割结果。分割完后,原始声呐图像转换为只包含3种像素值大小的Mask(掩膜),3种值分别表示:目标亮区、阴影分割和背景,从而有效解决了声呐目标边缘模糊以及声呐图像噪声大、分辨率低的问题。
参考图2显示了经过上述校正和预分割后的侧扫声呐图像结果。声呐图像分割部分未对目标进行分类,相当于对原始声呐图像做了进一步的预处理,经过以上预处理同时完成了图像精准分割以及声呐目标阴影信息的提取,因而接下来需将分割完后的图像进行目标的检测识别。
进一步的,所述步骤S4包括以下步骤:
S41:运用侧扫声呐的成像原理对同一目标的亮区和阴影区域进行匹配:
得到分割区域后,根据侧扫声呐图像的成像原理,由于侧扫声呐发射和探测回波垂直于航向,当声波发射后,经过声信道的传播,到达海底后反射波沿原路返回至换能器形成相应的目标回波。而目标阴影区则是由于声波受到目标的阻挡而没受到照射,从而该区域的声波回波非常少,因而目标阴影区与目标高亮区应与声线在同一方向上,也即亮区与阴影在同一水平线上,且阴影和亮区形成的区域高度(航行器运动方向)一致。
参考图3显示了侧扫声呐图像的成像原理以及目标产生的阴影形态,从图中可知,声呐目标形成的高亮区域与声影区在同一水平线上,且形成的高度一致。图中位于海底的目标,其阴影紧连接于目标的强回波之后。
由于分割网络获得的目标高亮区域和阴影区域可能存在多个,所以根据上述侧扫声呐图像的成像原理对同一个目标的高亮区域和阴影区域进行匹配,选择感兴趣的目标。
进一步的,所述步骤S5包括以下步骤:
S51:构建网络模型及算法:
YOLOv5s是YOLOv5检测算法系列中网络模型最小,特征图宽度最小,识别速度最快的网络,因而本发明利用该网络作为声呐目标检测识别的主模型,4个主要部分组成:Input(输入端),Backbone(主干网络),Neck(多尺度特征融合)和Output(输出端),其中Input包括Mosaic数据增强、自适应锚框计算和自适应图片缩放;Backbone使用了Focus结构和CSP结构;Neck采用了FPN+PAN结构;Output包括Bounding box损失函数计算和NMS非极大值抑制。采用YOLOv5s网络进行侧扫声呐目标检测的大致流程如下:
(1)图像预处理。首先将侧扫声呐图像进行Mosaic数据增强,再自适应缩放至预先指定的图片大小(640x640),最后按照预先设定的minibatch(批次)批量输入到网络中去。
(2)数据前向传播。前向传播包含基于Backbone的特征提取、基于Neck的特征融合与Prediction,最终获得声呐目标预测框的位置、大小和所包含声呐目标的类型。
(3)计算误差。根据损失函数计算预测框与Ground truth间的误差大小。
(4)参数更新。通过梯度下降法更新前向传播中的系数矩阵和偏置,从而减小预测框与Ground truth间的误差。最终选取损失值最小时所对应的系数矩阵和偏置。
(5)目标预测。将迭代结束选取的系数矩阵和偏置替换到前向传播中,对待检测的侧扫声呐图像求解出目标物的预测信息。
S52:数据收集,标注以及数据集构建:
经过上述预处理操作后,通过图像校正和精准分割,改善了声呐目标边缘模糊等问题,实现了目标阴影信息的精确提取,本部分进行基于图像精准分割和目标阴影信息的侧扫声呐目标检测,因而将由DeepLabV3+网络获得的分割结果作为声呐目标检测网络的原始数据。
首先对分割结果的目标高亮区域与阴影区域同时进行边框标注,将其标注到同一个目标框中,共标注4类数据,分别为溺水者、水雷、飞机和沉船,再将标注好的数据分解为训练集、验证集和测试集。训练集488张,其中溺水者目标图像98张,水雷目标图像119张,飞机目标图像87张,沉船目标图像184张;验证集71张,其中溺水者目标图像17张,水雷目标图像18张,飞机目标图像13张,沉船目标图像23张;测试集136张,其中溺水者目标图像13张,水雷目标图像35张,飞机目标图像23张,沉船目标图像65张。具体如下表格所示:
类别 训练集/张 验证集/张 测试集/张
溺水者 98 17 13
水雷 119 18 35
飞机 87 13 23
沉船 184 23 65
S53:实验设置以及模型训练:
实验环境配置:本发明模型的训练与测试均在Ubuntu***下完成,使用Python作为编程语言,选用PyTorch深度学习框架,CPU型号为
Figure BDA0003694409370000181
silver 4110 [email protected],内存为64G,GPU型号为NVIDIA GeForce RTX 3080,GPU加速库为CUDA 11.4。
参数设置:修改目标种类(number of classes)为4,修改预训练权重路径为yolov5s.pt,修改网络结构的配置文件为yolov5s.yaml,修改数据集路径为自行创建的声呐数据集数据文件sonar.yaml,epochs设置为150,batch-size为16,图片大小为640*640,初始学习率为0.01,循环学习率为0.1,学习率动量为0.937,权重衰减系数为0.0005,预热学习为3.0,预热学习动量为0.8,预热初始学习率为0.1,IoU损失系数为0.05,cls损失系数为0.5,cls BCELoss正样本权重为1.0,IoU训练时的阈值为0.2,anchor的长宽比为4.0。
模型训练:完成各项参数的修改与设置后,将上面得到的声呐图像分割结果制作为的数据集送入到网络中进行模型的训练,使用Tensorboard可视化工具查看模型训练结果。获得预测框回归损失函数均值,目标检测损失函数均值,分类损失函数均值三种损失函数均值随迭代次数变化趋势,精确率和召回率随着迭代次数变化情况,以及交并比IoU阈值为0.5时的平均精度均值和交并比IoU阈值为0.5:0.95时的平均精度均值随迭代次数的变化曲线。
参考图4显示了训练过程中多种类型的函数值的变化趋势。
其中第1排第1幅图为训练集中预测框回归损失函数均值随迭代次数的变化情况,其值越小方框预测越准,从训练结果得知方框预测的结果在0.02以下,因而结果较为准确。第1排第2幅图为训练集中目标检测损失函数均值随迭代次数的变化情况,值越小目标检测越准确,从训练结果得知损失函数最后降低到了0.01,因而目标检测结果较为准确。第1排第3幅图为训练集中分类损失函数均值随迭代次数的变化情况,值越小分类越准确,从训练结果得知损失函数值降到了0.01,因而分类结果较为准确。上面3种损失函数均值随迭代次数的增加急速下降,训练后期迭代到100次左右趋于稳定。
第1排第4幅图为训练集中精度随迭代次数的变化情况,值越大预测正确率越高。第1排第5幅图为训练集中召回率随迭代次数的变化情况,值越大预测正确率越高。从图中可知精确率和召回率随着迭代次数的增加快速上升后趋于稳定。
第2排第1、2、3幅图分别为验证集中预测框回归损失函数均值、目标检测损失函数均值和分类损失函数均值随迭代次数的变化情况,同样随着迭代次数的增加快速下降,最后在100次左右趋于稳定,但相较于训练集其曲线波动较大,不平滑。
第2排第4幅图为交并比Iou阈值为0.5时的平均精度均值([email protected])。第2排第5幅图为交并比IoU阈值为0.5:0.95时的平均精度均值([email protected]:0.95)。[email protected][email protected]:0.95值均在逐步提升并趋于稳定。
S54:模型测试与结果分析:
网络模型训练完成后,选取训练效果最佳的权重文件对测试集数据进行识别声呐目标的位置回归,从而完成模型的测试,最后从精确度(Precision)、召回率(Recall)、PR曲线、F1分数和平均精度平均值等评价指标对模型进行多方位评估。TP(真阳性)表示样本的真实类别是正例,并且模型预测的结果也是正例;TN(真阴性)表示样本的真实类别是负例,并且模型将其预测成为负例;FP(假阳性)表示样本的真实类别是负例,但是模型将其预测成为正例;FN(假阴性)表示样本的真实类别是正例,但是模型将其预测成为负例。
精度(Precision)是精确性的度量,表示被分为正例的示例中实际为正例的比例,其计算公式定义如下:
Figure BDA0003694409370000191
召回率(Recall)是覆盖面的度量,度量有多个正例被分为正例,其计算公式定义如下:
Figure BDA0003694409370000201
PR曲线是以Recall为横坐标,Precision为纵坐标组成的曲线,其左下方的面积越大表示模型对数据集的效果越好。PR曲线左下方的阴影面积为平均精度值(AP),其计算公式定义如下:
Figure BDA0003694409370000202
F1-score(F1分数)代表准确率和召回率的调和平均数,是用于评价模型检测能力的综合评价指标,取值为[0,1],其计算公式定义如下:
Figure BDA0003694409370000203
参考图5显示了测试集结果中所有种类和各类的精度(Precision)值、召回率(Recall)值、[email protected]值和[email protected]:0.95值。其中当交并比IoU值为0.5时,总体预测值为:P=0.944,R=0.925,[email protected]=0.974,[email protected]:0.95=0.698,4种水下声呐目标的识别精度分别为:human为1,mine为91.2%,plane为92.7%,ship为93.9%。从预测结果可知,测试集的预测值很高,预测效果较好,达到了较高的识别精度结果。
参考图6显示了测试集结果中精度(Precision)随着置信度变化的曲线示意图。图中显示所有类别在置信度为0.753及以上,其预测精度达到了1。其中human类别的预测精度在0.4的置信度就到达了1。
参考图7显示了测试集结果中召回率(Recall)随着置信度变化的曲线示意图。置信度取值一般取做0.5,图中显示在置信度为0.5时,human类别的召回率为0.915,mine类别的召回率为0.886,plane类别的召回率为0.886,ship类别的召回率为0.941。从上述结果可知,召回率值均很高,因而预测效果较好。
参考图8显示了测试集结果中PR曲线示意图。图中显示了由PR曲线下方与坐标轴围成的面积AP值,所有类别的AP平均值为[email protected],其值为0.974,各个别类的AP值分别为:human为0.982,mine为0.959,plane为0.977,ship为0.978。mAP值很高,验证了本发明模型的性能很好。
参考图9显示了测试集结果中F1-score随着置信度变化的曲线示意图。图中显示,所有类别的F1分数在置信度为0.393达到了0.93,该分数值接近1,验证了本发明模型的检测能力很强。
参考图10显示了测试集结果中混淆矩阵结果示意图。混淆矩阵显示了分类模型在进行预测时会对哪一部分产生混淆。矩阵从左上到右下的主对角线上的值为正确分类概率值,从图中可以解读出具体正确分类概率分别为:human为0.85,mine为0.89,plane为0.96,ship为0.94。该矩阵从横轴开始解读,human类别容易误识别为plane类别,mine类别容易误识别为ship类别,plane类别容易误识别为背景,ship类别容易误识别为mine类别。
参考图11显示了测试集结果中部分检测结果示意图。4中类别的检测识别结果均有显示,且均能够正确的检测出目标以及准确识别出声呐目标类型。
进一步的,所述步骤S6包括以下步骤:
S61:验证声呐目标阴影区域的有效性:
首先将原始声呐图像只做目标物高亮区域标注,注意此处不做图像分割,直接将声呐原始图像进行标注。将标注完的数据集分解为训练集、验证集和测试集,训练集数据送入到YOLOv5s网络中进行模型的训练,验证集对模型的优劣进行验证,测试集对训练好的模型进行结果预测,最终获得Precision、Recall、PR曲线和F1-score等指标曲线图以及混淆矩阵结果。
其次将原始声呐图像进行目标物高亮区域与阴影区域的同时标注,同样获得一系列指标曲线图以及混淆矩阵结果。最后将基于声呐目标高亮区域得到的测试结果与基于声呐目标高亮区域和阴影区域联合得到的测试结果进行对比,从而验证声学图像中阴影区域信息的有效性。
参考图12显示了验证阴影区域有效性下的对比结果示意图。由数据表格中的各项指标对比可知,同时包含阴影区域和高亮区域信息的目标检测效果在各项指标上均优于只包含目标亮区信息的检测结果,富含阴影信息的[email protected]值比没有阴影信息的高3.8%,[email protected]:0.95高11.6%,R值高3.9%,P值高0.2%。再对比F1分数与置信度之间的关系曲线,P值与置信度的关系曲线,R值与置信度的关系曲线,PR关系曲线以及混淆矩阵,从而验证了该算法中提出的结合声呐目标阴影区域信息的正确性和有效性。
S62:验证图像精准分割的有效性:
根据以上步骤获得的结果,将原始声呐图像中目标高亮区域和阴影区域同时检测获得的指标曲线结果以及混淆矩阵与预先利用DeepLabV3+网络对声呐目标的亮区和阴影部分进行分割后再检测获得的测试结果进行对比,从而验证侧扫声呐图像预先精准分割的有效性。
参考图13显示了验证图像分割有效性下的对比结果示意图。由数据表格中的各项指标对比可知,先经过DeepLabV3+网络进行声呐目标的亮区与阴影部分分割的目标检测效果在各项指标上均优于不进行分割预处理(但此处仍包含目标阴影信息)的检测结果,经过图像分割后的[email protected]值比没有分割的高0.8%,[email protected]:0.95高6.3%,R值高1.3%,P值高4.3%,从而说明该算法中提出的在目标检测之前预先将声呐图像中的目标亮区与阴影进行分割预处理的正确性和有效性。
对比图12和图13的结果,可以发现加入声呐目标阴影信息在mAP值上提升很大,说明加入阴影信息提升了模型在所有类别上的检测识别效果。在目标检测之前预先将声呐图像中的目标亮区与阴影进行分割预处理操作在P值上提升很大,说明预分割操作有效提升了模型的识别目标类别的效果。也即阴影区域有效提升了整体模型的检测效果,图像分割有效提升了模型的目标识别效果。
S63:验证联合图像精准分割和目标阴影信息的有效性:
根据以上获得的测试结果,将原始不做分割只包含目标亮区的检测识别效果与同时联合阴影区域和图像精准分割获得的指标曲线结果以及混淆矩阵作对比,从而对联合图像精准分割和目标阴影信息的有效性进行验证。
参考图14显示了该对比效果,由数据表格中的各项指标对比可知,联合阴影区域以及图像分割的目标检测效果在各项指标上均优于原始不做分割只包含目标亮区的检测结果,前者的[email protected]值比没有分割的高4.6%,[email protected]:0.95高17.9%,R值高5.2%,P值高4.5%,从而验证了本算法中的提出的联合阴影区域以及图像分割的正确性与有效性
以上对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (7)

1.一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,包括以下步骤:
S1:针对侧扫声呐图像中存在的由于距离远近导致能量衰减引起的灰度差异以及水下环境恶劣导致移动平台本身的不稳定引起的左右舷灰度差异过大,进行自主增益补偿;
S2:针对侧扫声呐图像中存在不同距离下的物理分辨率不同的问题,进行几何畸变校正;
S3:对经过校正后的侧扫声呐图像进行基于改进DeepLabV3+网络的图像分割,提取出侧扫声呐图像中感兴趣目标的高亮区域和阴影区域;
S4:得到分割区域后,运用侧扫声呐的成像原理和几何关系对同一个目标的高亮区域和阴影区域进行匹配;
S5:构建基于YOLOv5s网络的声呐目标检测模型,将经过校正和分割后的图像送入到网络中进行训练,并将训练好的模型用做真实声呐目标的检测识别;
S6:消融实验设置,验证声呐图像中阴影区域的有效性以及声呐图像分割的有效性。
2.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S1包括以下步骤:
S11:寻找海底线:
海底线寻找由移动平台的姿态信息做参照,再左右精确搜寻海底线位置;由于侧扫声呐分为左舷和右舷,因而在进行从高度到图像像素位置点换算时按照如下规则:
lineorig=Ns-(altitude*Ns/range) (1)
式中lineorig表示声呐图像中初始海底线位置点,altitude表示高度信息,range表示声呐的工作范围,Ns表示单侧舷获取的某一条(ping(n))声强数据采样点数;然后在初始值左右附近50个像素点内,寻找最大灰度值所对应像素点即为声呐的海底线位置点;
S12:计算出图像内拖鱼深度最大时对应的图像区的宽度:
从右舷的角度出发,采用N条数据形成完整的一幅侧扫声呐图像,定义各点声强值转换为的灰度值组成序列s(n,i),其中n为ping的序列号,i为每条数据中的各点序列号;由上述算法寻找得到的第n条数据的海底线位置为a(n),从而可以根据下式计算出图像内拖鱼高度最大时对应的图像区的宽度Nmin
Nmin=min(Ns-a(n)),n=1…N (2)
S13:统计各ping断面灰度的均值:
得到海底线位置和图像内拖鱼深度最大时对应的图像区的宽度后,需对区域内的所有像素点进行灰度校正;首先对图像纵向方向统计各ping断面(声呐图像横向固定,统计纵向方向)灰度的均值:
Figure FDA0003694409360000021
S14:得到图像灰度校正因子序列:
得到纵向ping断面的灰度均值后,再从声呐图像横向方向做灰度均值,从而最后得到图像区域内所有像素点的灰度校正因子序列:
Figure FDA0003694409360000022
3.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S2包括以下步骤:
S21:获得斜距、水平距离和深度三者之间的关系:
根据声呐换能器的位置以及声波的射线方向可以获得斜距、水平距离和深度三者之间的几何关系,具体如下:
Figure FDA0003694409360000023
式中,PlantRange表示水平距离,SlantRange表示倾斜距离,TowfishAlt表示换能器距离海底高度;TowfishAlt可通过声呐图像中的海底线检测获得;
S22:根据几何关系获得原始斜距图像上的某点对应改正后的平距图像上的点:
侧扫声呐分为左舷和右舷,设原始斜距图像上的某点P(x2,y2)对应改正后的平距图像上的点为P(x1,y1),根据上述的几何关系可以得到平距点和斜距点的具体对应关系如下:
左舷分辨率校正因子:
Figure FDA0003694409360000031
右舷分辨率校正因子:
Figure FDA0003694409360000032
其中,Res表示图像的分辨率,width表示图像宽度。
4.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S3包括以下步骤:
S31:构建分割网络模型:
构建基于改进DeepLabv3+网络的声呐图像分割模型,替换原Xception系列网络为MobilenetV2作为主干特征提取网络;在Encoder和Decoder中加强特征网络提取,并采用交叉熵进行损失的计算,引入Dice loss指标对语义分割结果进行评价;
S32:制作声呐图像数据集,并做模型训练:
模型修改完后,制作声呐图像数据集,并做相应处理;声呐图像分割部分的目的是为了分割出由主动声波回波形成的目标高亮区域以及由物体遮挡形成的阴影区域,并不区分各自区域代表的目标类型,因而在分割任务中,对于数据集只标注两种类型,分别为高亮区域(light)以及阴影区域(dark);经过实验收集,整理侧扫声呐图像训练集488张,验证集71张,测试集136张;将测试集和验证集中的每张图像进行目标亮区和阴影区域的标注,标注完后送入到网络中去,再修改网络中的类别参数、主干模型和预训练权重等,最终完成关于声呐图像分割模型的训练;
S33:利用训练好的模型,对待分割的声呐图像进行目标亮区和声影区的分割,得到最终的图像分割结果:
将测试代码中的权重文件修改为训练结果最好的权重,同时修改类别参数,修改完后就测试集中待分割的声呐图像进行目标亮区和阴影区域的分割,得到最终的分割结果;分割完后,原始声呐图像转换为只包含3种像素值大小的Mask(掩膜),3种值分别表示:目标亮区、阴影分割和背景,从而有效解决了声呐目标边缘模糊以及声呐图像噪声大、分辨率低的问题。
5.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S4具体为:
由于分割网络获得的目标高亮区域和阴影区域可能存在多个,所以需运用侧扫声呐的成像原理对同一目标的亮区和阴影区域进行匹配,选择感兴趣的目标;
得到分割区域后,根据侧扫声呐图像的成像原理可知,目标阴影区形成是由于声波受到目标的阻挡而没受到照射,因而目标阴影区与目标高亮区应与声线在同一方向上,也即亮区与阴影在同一水平线上,且阴影和亮区形成的区域高度(航行器运动方向)一致;位于海底的目标,其阴影紧连接于目标的强回波之后。
6.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S5包括以下步骤:
S51:构建网络模型及算法:
YOLOv5s网络结构由4个主要部分组成:Input(输入端)、Backbone(主干网络)、Neck(多尺度特征融合)和Output(输出端),其中Input包括Mosaic数据增强、自适应锚框计算和自适应图片缩放;Backbone使用了Focus结构和CSP结构;Neck采用了FPN+PAN结构;Output包括Bounding box损失函数计算和NMS非极大值抑制;
S52:数据收集、标注以及数据集构建:
首先对分割结果的目标高亮区域与阴影区域同时进行边框标注,将其标注到同一个目标框中,共标注4类数据,分别为溺水者、水雷、飞机和沉船,再将标注好的数据分解为训练集、验证集和测试集;训练集488张,其中溺水者目标图像98张,水雷目标图像119张,飞机目标图像87张,沉船目标图像184张;验证集71张,其中溺水者目标图像17张,水雷目标图像18张,飞机目标图像13张,沉船目标图像23张;测试集136张,其中溺水者目标图像13张,水雷目标图像35张,飞机目标图像23张,沉船目标图像65张;
S53:实验设置以及模型训练:
实验环境配置及参数设置:本发明的模型均在NVIDIA GeForce RTX 3080显卡上基于PyTorch深度学习框架完成训练与测试,使用Python作为编程语言,修改目标种类,预训练权重路径,网络结构的配置文件,设置epochs、batch-size、图片大小、初始学习率、循环学习率、学习率动量、权重衰减系数、IoU损失系数、cls损失系数和cls BCELoss正样本权重等参数,从而完成整体模型的构建与设置;
模型训练:完成各项参数的修改与设置后,将上面得到的声呐图像分割结果制作为的数据集送入到网络中进行模型的训练,使用Tensorboard可视化工具查看模型训练结果;获得预测框回归损失函数均值、目标检测损失函数均值和分类损失函数均值三种损失函数均值随迭代次数变化趋势,精确率和召回率随着迭代次数变化情况,以及交并比IoU阈值为0.5时的平均精度均值和交并比IoU阈值为0.5:0.95时的平均精度均值随迭代次数的变化曲线;
S54:模型测试与结果分析:
网络模型训练完成后,选取训练效果最佳的权重文件对测试集数据进行识别声呐目标的位置回归,从而完成模型的测试,最后从精确度(Precision)、召回率(Recall)、PR曲线、F1分数和平均精度平均值等评价指标对模型进行多方位评估。
7.根据权利要求1所述的一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法,其特征在于,所述步骤S6包括以下步骤:
S61:验证声呐目标阴影区域的有效性:
首先将原始声呐图像只做目标物高亮区域标注,注意此处不做图像分割,直接将声呐原始图像进行标注;将标注完的数据集分解为训练集、验证集和测试集,训练集数据送入到YOLOv5s网络中进行模型的训练,验证集对模型的优劣进行验证,测试集对训练好的模型进行结果预测,最终获得Precision、Recall、PR曲线和F1-score等指标曲线图以及混淆矩阵结果;
其次将原始声呐图像进行目标物高亮区域与阴影区域的同时标注,同样获得一系列指标曲线图以及混淆矩阵结果;最后将基于声呐目标高亮区域得到的测试结果与基于声呐目标高亮区域和阴影区域联合得到的测试结果进行对比,从而验证声学图像中阴影区域信息的有效性;
S62:验证图像精准分割的有效性:
根据以上步骤获得的结果,将原始声呐图像中目标高亮区域和阴影区域同时检测获得的指标曲线结果以及混淆矩阵与预先利用DeepLabv3+网络对声呐目标的亮区和阴影部分进行分割后再检测获得的测试结果进行对比,从而验证侧扫声呐图像预先精准分割的有效性;
S63:验证联合图像精准分割和目标阴影信息的有效性:
根据以上获得的测试结果,将原始不做分割只包含目标亮区的检测识别效果与同时联合阴影区域和图像精准分割获得的指标曲线结果以及混淆矩阵作对比,从而对联合图像精准分割和目标阴影信息的有效性进行验证。
CN202210669858.1A 2022-06-14 2022-06-14 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法 Pending CN115240058A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210669858.1A CN115240058A (zh) 2022-06-14 2022-06-14 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210669858.1A CN115240058A (zh) 2022-06-14 2022-06-14 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法

Publications (1)

Publication Number Publication Date
CN115240058A true CN115240058A (zh) 2022-10-25

Family

ID=83669661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210669858.1A Pending CN115240058A (zh) 2022-06-14 2022-06-14 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法

Country Status (1)

Country Link
CN (1) CN115240058A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883434A (zh) * 2023-09-05 2023-10-13 昆明理工大学 一种基于语义分割的加速度传感器芯片封装缺陷检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883434A (zh) * 2023-09-05 2023-10-13 昆明理工大学 一种基于语义分割的加速度传感器芯片封装缺陷检测方法
CN116883434B (zh) * 2023-09-05 2023-11-17 昆明理工大学 一种基于语义分割的加速度传感器芯片封装缺陷检测方法

Similar Documents

Publication Publication Date Title
CN112395987B (zh) 基于无监督域适应cnn的sar图像目标检测方法
CN108444447B (zh) 一种用于水下避障***中的渔网实时自主检测方法
CN108447074B (zh) 基于双向自适应语义融合的水下目标识别方法
CN111368671A (zh) 基于深度学习的sar图像舰船目标检测识别一体化方法
CN109213204B (zh) 基于数据驱动的auv海底目标搜寻航行***及方法
CN112613504A (zh) 一种声呐水下目标检测方法
CN112949380B (zh) 一种基于激光雷达点云数据的智能水下目标识别***
CN116468995A (zh) 一种联合slic超像素和图注意力网络的声呐图像分类方法
CN115220007A (zh) 一种针对姿态识别的雷达点云数据增强方法
Li et al. Real-time underwater target detection for AUV using side scan sonar images based on deep learning
CN115240058A (zh) 一种联合图像精准分割和目标阴影信息的侧扫声呐目标检测方法
Li et al. Vision-based target detection and positioning approach for underwater robots
CN116310837B (zh) 一种sar舰船目标旋转检测方法及***
CN116243289A (zh) 一种基于成像声呐的无人艇水下目标智能识别方法
CN115810144A (zh) 一种基于区域预检测的水中悬浮声呐目标识别方法
CN115511853A (zh) 基于方向可变特征的遥感船舶检测与识别方法
CN115410102A (zh) 基于联合注意力机制的sar图像飞机目标检测方法
CN115496998A (zh) 一种遥感影像码头目标检测方法
CN113534146A (zh) 一种雷达视频图像目标自动检测方法与***
CN113050098A (zh) 基于块稀疏稳健主成分分析的反蛙人声呐混响抑制方法
Oliveira et al. Probabilistic positioning of a mooring cable in sonar images for in-situ calibration of marine sensors
CN113269172B (zh) 干涉逆合成孔径雷达三维图像分类方法、装置及存储介质
CN117111013B (zh) 一种雷达目标跟踪航迹起始方法、装置、设备及介质
CN113971755B (zh) 基于改进yolov3模型的全天候海面目标检测方法
CN117173549B (zh) 复杂场景下合成孔径声纳图像多尺度目标检测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination