CN117115632A - 一种水下目标检测方法、装置、设备及介质 - Google Patents

一种水下目标检测方法、装置、设备及介质 Download PDF

Info

Publication number
CN117115632A
CN117115632A CN202310994182.8A CN202310994182A CN117115632A CN 117115632 A CN117115632 A CN 117115632A CN 202310994182 A CN202310994182 A CN 202310994182A CN 117115632 A CN117115632 A CN 117115632A
Authority
CN
China
Prior art keywords
image
module
convolution
target detection
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310994182.8A
Other languages
English (en)
Inventor
魏连锁
黄沈浩
马龙雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian College
Original Assignee
Suqian College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suqian College filed Critical Suqian College
Priority to CN202310994182.8A priority Critical patent/CN117115632A/zh
Publication of CN117115632A publication Critical patent/CN117115632A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/30Assessment of water resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种水下目标检测方法、装置、设备及介质。该方法获取待识别图像并对待识别图像进行预处理;将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。本发明能够有效提高水下目标检测的效果和精度。

Description

一种水下目标检测方法、装置、设备及介质
技术领域
本发明涉及图像处理技术领域,尤其涉及一种水下目标检测方法、装置、设备及介质。
背景技术
随着海洋观测的快速发展,水下目标检测在海军沿海防御任务以及海洋经济中的应用,如渔业和水产养殖,扮演着越来越重要的角色。传统的水下目标检测算法主要集中在颜色分割、边缘检测和形态学处理等方面。然而,这些方法易受到外部因素,如光照和水质的影响,在复杂的水下环境中检测效果不佳。相比之下,基于卷积神经网络(CNN)的水下目标检测算法不仅可以通过自动学习特征来减少对光照和水质的敏感性,而且具有较好的鲁棒性和泛化能力。因此,基于卷积神经网络的水下目标检测在研究和实际应用中逐渐成为主流。
关于传统水下目标检测算法,Strachan等人提出了一种算法,通过生成鱼类图像的形状和颜色描述符,这些描述符不受鱼类的弯曲和变形的影响,但是需要清晰的鱼类轮廓形状,因此无法应用于实际水下场景。Spampinato等人提出了一种基于机器视觉的水下鱼类检测跟踪***,该算法通过对鱼类纹理的分析来手工制作特征,并结合CamShif算法实现检测,但该算法难以处理复杂的目标特征,导致对于形状各异的鱼类目标检测的效果不佳。
基于卷积神经网络的目标检测算法,可分为单阶段和双阶段两种。单阶段算法通过一次前向传递直接输出输入图像中所有目标的类别和位置信息,具有快捷高效等优点,常见的算法有YOLO系列、SSD等;双阶段算法则采用传统流程,先在第一阶段生成提议框(region proposals),再在第二阶段对提议框进行分类和定位,具有更精确、适用广泛等优点,常见的算法有Fast-R-CNN、Faster R-CNN、Mask R-CNN、Cascade R-CNN等。关于双阶段水下目标检测算法,Song等人改进了R-CNN,提出了RetinaRPN区域建议网络,通过困难样本加权手段减少分类损失,提升了复杂环境下的检测能力。Zeng等人将对抗性遮挡网络(AON)加入Faster R-CNN检测算法联合训练,提高了遮挡目标的识别度,但联合训练速度较慢且训练开销大。YuhangLi等人提出了一种基于改进的Faster R-CNN的快速识别算法。该算法采用Resnet网络进行特征提取,并通过12个不同的错点生成候选目标区域,以提高检测精度。最终,将生成的特征传输到两个子网络,实现分类和位置定位。然而,该算法对于困难样本会产生大量无效框,从而降低模型性能。关于单阶段水下目标检测,Ma等人提出了基于改进SSD的海参检测方法。该方法使用Retinex增加图像清晰度,采用深度可分离卷积作为基础特征提取模块,但该算法依赖于图像中特定的特征结构不利于多类别目标的检测。Tang等人基于YOLOv3结合自适应暗道除雾算法和数据增强方法实现实时水下目标检测,但缺乏对目标多尺度问题的考虑,无法融合高层与底层语义信息导致小目标检测效果差。Li等人提出了基于改进的YOLOv4水下目标检测算法,采用K-means++算法重新获取锚框,结合MSRCR算法提升检测精度。Wen等人通过添加注意力机制模块提高YOLOv5s的目标捕获能力,但参数量增大导致检测速度下降。
发明内容
针对水下探测机器人拍摄视像时背景复杂噪声大、检测目标尺度变化多样,导致传统的YOLOv5算法对水下多尺度、密集、遮挡目标存在检测精度低、漏检率高的问题,提出一种基于多尺度特征融合增强策略改进YOLOv5的水下目标检测网络。首先,本文通过灰度均衡化提升图像整体的对比度,从而增加图像亮度,再利用色彩空间(YIQ)变换矫正解决了色彩偏移问题;然后引入多层卷积和最大池化操作模块(PCBR模块)替换原YOLOv5中的卷积特征提取模块(CBS模块)增强目标特征突出目标与背景的差异性;再通过水平与垂直方向构建多尺度全局感受野混合池化模块(MHP模块)代替原YOLOV5中的空间金字塔池化模块(SPP模块),捕获远程依赖关系,进一步挖掘隐藏的特征信息,解决高语义层级对小目标信息特征提取困难的问题。
为了达到上述目的,本发明的技术方案如下:
一种水下目标检测方法,包括如下步骤:
获取待识别图像并对待识别图像进行预处理;
将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
优选地,所述预处理,包括如下步骤:
使用灰度均衡化对待识别图像进行增强,获得增强图像;
对增强图像进行色彩偏移校正。
优选地,所述使用灰度均衡化对待识别图像进行增强,获得增强图像,具体包括如下步骤:
将待识别图像分割为若干个等面积的子块;
针对每个子块分别进行灰度均衡化处理并将处理后的子块进行拼接,获得增强图像。
优选地,所述对增强图像进行色彩偏移校正,具体包括如下步骤:
将增强图像进行色彩空间的转换,从RGB颜色空间转换到YIQ颜色空间,获得转换图像;
提取增强图像中亮度大于转换图像中亮度最大值的像素点,构建白点集;
分别计算白点集中三个RGB颜色分量的平均值,表示为
计算增强图像的色彩平衡调整参数:
式中,kR、kG、kB分别表示为增强图像RGB色彩空间的色彩平衡调整参数;为白点集的平均亮度;
对增强图像进行色彩平衡调整:
R*=kR×R;G*=kG×G;B*=kB×B
式中,R*、G*、B*分别为计算后得到的增强图像RGB色彩空间对应像素点的颜色值;R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
优选地,所述RGB颜色空间转换到YIQ颜色空间之间的对应关系的方程式如下:
Y=0.299R+0.587G+0.144B
I=0.596R+0.275G+0.321B
Q=0.212R+0.523G+0.311B
式中,Y、I、Q分别为计算后得到的YIQ色彩空间对应像素点的颜色值,R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
优选地,所述多层卷积和最大池化操作模块包括顺序连接的最大池化层、卷积层、BN层和ReLU激活函数,其中,最大池化层采用为3*3大小的池化核、步长为2、填充为1;卷积层采用为3*3大小的卷积核、步长和填充为1。
优选地,所述多尺度全局感受野混合池化模块,操作如下:
采用1*1卷积层对输入特征图进行降维操作,获得降维特征图;
采用1*1卷积层对输入特征图进行降维操作并通过级联5*5和9*9核大小的最大池化层进行池化操作,获得局部特征图;
采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和1*3核大小的池化和卷积运算,获得水平特征图;
采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和3*1核大小的池化和卷积运算,获得垂直特征图;
将所述局部特征图、水平特征图和垂直特征图进行融合,获得融合特征图;
对所述降维特征图和融合特征图进行残差操作,输出多尺度全局特征。
基于上述内容,本发明还公开了基于改进YOLOv5的水下目标检测装置,包括图像处理模块和图像识别模块,其中,
所述图像处理模块,用于获取待识别图像并对待识别图像进行预处理;
所述图像识别模块,用于将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
基于上述内容,本发明还公开了一种计算机设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上述任一所述的方法。
基于上述内容,本发明还公开了一种可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一所述的方法。
基于上述技术方案,本发明的有益效果是:本发明利用灰度均衡化提高整个图像的对比度,并利用色彩空间变换校准色彩偏移问题;本发明改进了卷积模块,引入多层卷积和最大池化操作模块(PCBR模块)替换原YOLOv5中的卷积特征提取模块(CBS模块)增强目标特征突出目标与背景的差异性;本发明通过水平与垂直方向构建多尺度全局感受野混合池化模块(MHP模块)代替原YOLOV5中的空间金字塔池化模块(SPP模块),捕获远程依赖关系,提高网络模型对水下小目标的检测性能。
附图说明
图1是一个实施例中一种水下目标检测方法的应用环境图;
图2是一个实施例中一种水下目标检测方法的流程示意图;
图3是一个实施例中UWOD-YOLOv5模型的结构示意图;
图4是一个实施例中PCBR模块的结构示意图;
图5是一个实施例中CBS模块与PCBR模块的特征图可视化对比图,其中,图5(a)为CBS模块输出特征图;图5(b)为PCBR模块输出特征图;
图6是一个实施例中MHP模块的结构示意图;
图7是一个实施例中SPP模块与MHP模块感受野对比图,其中,图7(a)为SPP模块感受野;图7(b)为MHP模块感受野;
图8是一个实施例中低质量水下图像恢复效果对比图,其中图8(a)为原图1,图8(b)为原图1对应的恢复效果图;图8(c)为原图2,图8(d)为原图2对应的恢复效果图;
图9是一个实施例中一种水下目标检测方法中PCBR模块位置设计图;
图10是一个实施例中一种水下目标检测装置的结构示意图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本申请实施例提供的一种水下目标检测方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取待识别图像并对待识别图像进行预处理;计算机设备110可以将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种水下目标检测方法,包括如下步骤:
步骤210,获取待识别图像并对待识别图像进行预处理。
计算机设备可以获取待识别图像,待识别图像可以用于表示需要进行目标检测的图像。计算机设备可以对待识别图像进行预处理,具体的,可以增强图像和色彩偏移校正。
步骤220,将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
计算机设备可以获取预处理后的待识别图像,并将预处理后的待识别图像输入改进YOLOv5模型(UWOD-YOLOv5)中,输出识别结果。UWOD-YOLOv5模型以YOLOv5s模型为基础,通过骨干网络依次输出80*80*256,40*40*512,20*20*512三层骨干图,UWOD-YOLOv5模型的结构如图3所示。
在一个实施例中,提供的一种水下目标检测方法还包括进行预处理的过程,具体过程包括:使用灰度均衡化对待识别图像进行增强,获得增强图像;对增强图像进行色彩偏移校正。
在一个实施例中,提供的一种水下目标检测方法中还包括使用灰度均衡化对待识别图像进行增强,获得增强图像的过程,具体过程包括:将待识别图像分割为若干个等面积的子块;针对每个子块分别进行灰度均衡化处理并将处理后的子块进行拼接,获得增强图像。
在水下环境中,光线会被吸收和散射以红色和橙色波长的光线最为明显,进而导致采集到的水下图像出现对比度低和色彩偏移等问题。低质量的水下图像数据集会降低模型对水下目标识别的准确性。本实施例为了提高水下图像的可视性和目标识别度,首先使用灰度均衡化对图像进行增强。通过处理矫正后的像素灰度值,使其符合特定的灰度值均衡化函数,从而提高图像对比度,具体:
定义待识别图像为I(x,y),将待识别图像分割为若干个不重叠的子块,每个子块大小为n×n,计算每个子块的灰度直方图:
其中L表示灰度级,n(i)表示像素值为i的像素个数,h(i)表示灰度级为i的累计分布函数。再计算归一化的累计分布函数:
其中N表示子块内像素总数。计算映射函数:
其中round()表示四舍五入函数,对小块内的每个像素值进行映射:
f(x,y)=S(f(x,y)) (4)
最后,将所有均衡化后的子块拼接成一幅图像并输出。待识别图像的灰度级值主要分布在0~50之间,主体较暗。经过灰度均衡化后,图像的灰度级值集中在0~100之间,显著提升了图像的亮度。但灰度均衡化后的图像任然有明显的色彩偏移问题,导致整幅图像呈现绿色调。因此,需要进行色彩偏移校正。
在一个实施例中,还提供一种水下目标检测方法中还包括对增强图像进行色彩偏移校正的过程,具体过程包括:将增强图像进行色彩空间的转换,从RGB颜色空间转换到YIQ颜色空间,获得转换图像,代表RGB和YIQ之间的对应关系的方程式如下:
Y=0.299R+0.587G+0.144B
I=0.596R+0.275G+0.321B
Q=0.212R+0.523G+0.311B
其中,Y、I、Q分别为计算后得到的YIQ色彩空间对应像素点的颜色值,R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。由于灰度均衡化后图像中仍然存在色彩偏移问题,导致真实场景中的白点可能不是图像中理想的白色即Y≠255。
将图像中白点的最大亮度记为Ymax为并将图像平均亮度记为假设图像中亮度大于0.95(Ymax)的所有像素都是原始场景中的白点,这些像素构成一组白点集{f(i,j)∈Ωwhite},然后计算白点集Ωwhitc中所有像素的三个颜色分量(R、G、B)的平均值,分别表示为
计算增强图像的色彩平衡调整参数:
式中,kR、kG、kB分别表示为增强图像RGB色彩空间的色彩平衡调整参数;为白点集中平均亮度;
对增强图像进行色彩平衡调整:
R*=kR×R;G*=kG×G;B*=kB×B
式中,R*、G*、B*分别为计算后得到的增强图像RGB色彩空间对应像素点的颜色值;R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
在一个实施例的一种水下目标检测方法中还提供多层卷积和最大池化操作模块的结构,其多层卷积和最大池化操作模块包括顺序连接的最大池化层、卷积层、BN层和ReLU激活函数,其中,最大池化层采用为3*3大小的池化核、步长为2、填充为1;卷积层采用为3*3大小的卷积核、步长和填充为1。
本实施例中,通过多层卷积和最大池化操作模块(PCBR模块)替换YOLOv5骨干网络中的第二和第三个卷积特征提取模块(CBS模块),如图4所示,PCBR模块使用最大池化将输入特征图缩小到其原始大小的一半,然后使用包括BN层和ReLU激活函数的传统卷积层提取特征。池化和卷积核的大小均为3×3,但池化操作的步长为2,填充为1,而卷积操作的步长和填充为1。通过这种方式,PCBR模块可以有效提取目标特征。
如图5所示,为了更直观地比较PCBR模块与原始CBS模块在提取目标特征方面的效果,进行了特征图的可视化,图5(a)为CBS模块输出特征图;图5(b)为PCBR模块输出特征图。观察结果表明,相比于原始CBS模块,PCBR模块在提取图像中的纹理细节方面更敏感,且提取的目标特征信息更加完整并保留了目标位置的信息。这证明了PCBR模块在低激活条件下生成的特征图具有优异的表现。
在一个实施例中一种水下目标检测方法中还包括多尺度全局感受野混合池化模块的操作过程,具体过程如下:采用1*1卷积层对输入特征图进行降维操作,获得降维特征图;采用1*1卷积层对输入特征图进行降维操作并通过级联5*5和9*9核大小的最大池化层进行池化操作,获得局部特征图;采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和1*3核大小的池化和卷积运算,获得水平特征图;采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和3*1核大小的池化和卷积运算,获得垂直特征图;将所述局部特征图、水平特征图和垂直特征图进行融合,获得融合特征图;对所述降维特征图和融合特征图进行残差操作,输出多尺度全局特征。
在深度学***或垂直方向上的感受野上下文信息,如图7(b)所示。
因此,提出了多尺度全局感受野混合池化模块(MHP模块),其结构如图6所示。首先,通过1*1卷积层减少了通道数量,以降低模块的计算复杂度,然后通过级联5*5和9*9核大小池化,以获得局部感受野。串联操作允许随后的池化操作在前一个池化操作的感受野的基础上进行堆叠。此外,并行1*3以及3*1核大小池化层获得水平和垂直方向上的感受野。由自适应最大池化层生成的具有水平和垂直维度感受野的1*W以及H*1尺寸特征图会被扩展为W*H尺寸,然后将具有局部感受野、水平以及垂直方向上的感受野的特征图进行融合,以获得更加细致的全局上下文信息。最后,利用残差连接将融合的特征图与降维后的特征图相结合。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
实验结果与分析
创建一个包含3000张水下鱼类图片的数据集,其中1300张来自Labeled Fishesin the Wild Image、700张来自海底视频关键帧、1000张来自WildFish_part2。该数据集被命名为Easy_Fish,以下简称EFish。实验基于EFish进行水下小目标检测任务评估。基于Windows***,英伟达RTX2080ti显卡设备、Torch版本1.8.0以及Python版本3.8.5。为了确保训练结果的公正性,统一设置训练Epoch为200轮,批大小为8,优化器为SGD,并使用超参数文件hyp.scratch-high.yaml。实验包括:
1)低质量水下图像恢复实验
由于水的折射、反射、吸收以及悬浮颗粒等影响,导致水下光线强度不均匀、波长失真。因此,采集到的水下图像存在昏暗、色彩偏移和模糊等问题。针对上述问题,利用灰度均衡化和色彩空间转换有效提升了水下图像的质量。效果如图8所示,其中,图8(a)为原图1,图8(b)为原图1对应的恢复效果图;图8(c)为原图2,图8(d)为原图2对应的恢复效果图,证实通过UWOD-YOLOv5模型可以获得更清晰、明亮的水下图像。
2)PCBR模块消融实验
PCBR模块旨在对图像目标特征进行增强。利用最大池化快速剔除背景噪音并最大限度保留目标特征。相对于原始YOLOv5模型的纯卷积特征提取模块CBS,提出的PCBR对目标特征更加敏感。为获取更出色的UWOD-YOLOv5模型,对PCBR模块数量进行了消融实验。测试结果和对应PCBR模块位置设计如表1和图9所示。由表1可知,当PCBR模块数量为2时,UWOD-YOLOv5取得了最佳效果。由图9可知,PCBR模块代替YOLOv5原始Stage3与Stage5的CBS模块即骨干网络中第2、3个CBS模块最佳。
表1PCBR模块消融实验结果
模型 PCBR模块数量 Precision Recall map@50 map@50:90
UWOD-YOLOv5 0 0.856 0.838 0.902 0.497
UWOD-YOLOv5 1 0.879 0.8 0.893 0.493
UWOD-YOLOv5 2 0.881 0.827 0.902 0.496
UWOD-YOLOv5 3 0.863 0.831 0.903 0.496
UWOD-YOLOv5 4 0.869 0.824 0.896 0.493
3)模型对比实验
将UWOD-YOLOv5与近年来热门的YOLOv5、YOLOv3、YOLO、Faster RCNN、Fast RCNN和SSD目标检测模型在构建的数据集EFish上进行对比,结果如表2所示。
表2基于不同模型的水下目标检测评价结果
对比试验 Precision Recall map@50 map@50:90
UWOD-YOLOv5 0.881 0.827 0.902 0.496
YOLOv5 0.855 0.833 0.896 0.492
YOLOv3 0.844 0.819 0.871 0.452
YOLO 0.771 0.702 0.709 0.314
Faster RCNN 0.865 0.82 0.888 0.458
Fast RCNN 0.825 0.806 0.83 0.38
SSD 0.831 0.814 0.807 0.401
根据表2的数据分析,UWOD-YOLOv5与目前流行的两阶段目标检测网络FasterRCNN相比,在Precision、map@50和map@50:90指标上都有明显提升,分别提升了1.6%、1.4%和3.8%。相比原始模型YOLOv5,UWOD-YOLOv5的Precision提升了2.6%;此外,UWOD-YOLOv5在map@50和map@50∶90指标上分别比SSD算法提升了9.5%和5%,进一步证明了UWOD-YOLOv5模型在目标检测方面的有效性。
如图10所示,在一个实施例中,提供一种基于改进YOLOv5的水下目标检测装置300,包括图像处理模块310和图像识别模块320,其中,
图像处理模块310,用于获取待识别图像并对待识别图像进行预处理;
图像识别模块320,用于将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
在一个实施例中,图像处理模块310还用于将待识别图像分割为若干个等面积的子块;针对每个子块分别进行灰度均衡化处理并将处理后的子块进行拼接,获得增强图像。
在一个实施例中,图像处理模块310还用于对增强图像进行色彩偏移校正的过程,具体过程包括:将增强图像进行色彩空间的转换,从RGB颜色空间转换到YIQ颜色空间,获得转换图像,代表RGB和YIQ之间的对应关系的方程式如下:
Y=0.299R+0.587G+0.144B
I=0.596R+0.275G+0.321B
Q=0.212R+0.523G+0.311B
其中,Y、I、Q分别为计算后得到的YIQ色彩空间对应像素点的颜色值,R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。由于灰度均衡化后图像中仍然存在色彩偏移问题,导致真实场景中的白点可能不是图像中理想的白色即Y≠255。
将图像中白点的最大亮度记为Ymax为并将图像平均亮度记为假设图像中亮度大于0.95(Ymax)的所有像素都是原始场景中的白点,这些像素构成一组白点集{f(i,j)∈Ωwhite},然后计算白点集Ωwhite中所有像素的三个颜色分量(R、G、B)的平均值,分别表示为
计算增强图像的色彩平衡调整参数:
式中,kR、kG、kB分别表示为增强图像RGB色彩空间的色彩平衡调整参数;为白点集中平均亮度;
对增强图像进行色彩平衡调整:
R*=kR×R;G*=kG×G;B*=kB×B
式中,R*、G*、B*分别为计算后得到的增强图像RGB色彩空间对应像素点的颜色值;R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
在一个实施例中,图像识别模块320中多层卷积和最大池化操作模块包括顺序连接的最大池化层、卷积层、BN层和ReLU激活函数,其中,最大池化层采用为3*3大小的池化核、步长为2、填充为1;卷积层采用为3*3大小的卷积核、步长和填充为1。
在一个实施例中,图像识别模块320还用于采用1*1卷积层对输入特征图进行降维操作,获得降维特征图;采用1*1卷积层对输入特征图进行降维操作并通过级联5*5和9*9核大小的最大池化层进行池化操作,获得局部特征图;采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和1*3核大小的池化和卷积运算,获得水平特征图;采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和3*1核大小的池化和卷积运算,获得垂直特征图;将所述局部特征图、水平特征图和垂直特征图进行融合,获得融合特征图;对所述降维特征图和融合特征图进行残差操作,输出多尺度全局特征。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种水下目标检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别图像并对待识别图像进行预处理;
将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别图像并对待识别图像进行预处理;
将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种水下目标检测方法,其特征在于,包括如下步骤:
获取待识别图像并对待识别图像进行预处理;
将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
2.根据权利要求1所述的一种水下目标检测方法,其特征在于,所述预处理,包括如下步骤:
使用灰度均衡化对待识别图像进行增强,获得增强图像;
对增强图像进行色彩偏移校正。
3.根据权利要求2所述的一种水下目标检测方法,其特征在于,所述使用灰度均衡化对待识别图像进行增强,获得增强图像,具体包括如下步骤:
将待识别图像分割为若干个等面积的子块;
针对每个子块分别进行灰度均衡化处理并将处理后的子块进行拼接,获得增强图像。
4.根据权利要求3所述的一种水下目标检测方法,其特征在于,所述对增强图像进行色彩偏移校正,具体包括如下步骤:
将增强图像进行色彩空间的转换,从RGB颜色空间转换到YIQ颜色空间,获得转换图像;
提取增强图像中亮度大于转换图像中亮度最大值的像素点,构建白点集;
分别计算白点集中三个RGB颜色分量的平均值,表示为
计算增强图像的色彩平衡调整参数:
式中,kR、kG、kB分别表示为增强图像RGB色彩空间的色彩平衡调整参数;为白点集的平均亮度;
对增强图像进行色彩平衡调整:
R*=kR×R;G*=kG×G;B*=kB×B
式中,R*、G*、B*分别为计算后得到的增强图像RGB色彩空间对应像素点的颜色值;R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
5.根据权利要求4所述的一种水下目标检测方法,其特征在于,所述RGB颜色空间转换到YIQ颜色空间之间的对应关系的方程式如下:
Y=0.299R+0.587G+0.144B
I=0.596R+0.275G+0.321B
Q=0.212R+0.523G+0.311B
式中,Y、I、Q分别为计算后得到的YIQ色彩空间对应像素点的颜色值,R、G、B分别为增强图像RGB色彩空间对应像素点的颜色值。
6.根据权利要求1所述的一种水下目标检测方法,其特征在于,所述多层卷积和最大池化操作模块包括顺序连接的最大池化层、卷积层、BN层和ReLU激活函数,其中,最大池化层采用为3*3大小的池化核、步长为2、填充为1;卷积层采用为3*3大小的卷积核、步长和填充为1。
7.根据权利要求6所述的一种水下目标检测方法,其特征在于,所述多尺度全局感受野混合池化模块,操作如下:
采用1*1卷积层对输入特征图进行降维操作,获得降维特征图;
采用1*1卷积层对输入特征图进行降维操作并通过级联5*5和9*9核大小的最大池化层进行池化操作,获得局部特征图;
采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和1*3核大小的池化和卷积运算,获得水平特征图;
采用1*1卷积层对输入特征图进行降维操作并通过自适应最大池化和3*1核大小的池化和卷积运算,获得垂直特征图;
将所述局部特征图、水平特征图和垂直特征图进行融合,获得融合特征图;
对所述降维特征图和融合特征图进行残差操作,输出多尺度全局特征。
8.基于改进YOLOv5的水下目标检测装置,其特征在于,包括图像处理模块和图像识别模块,其中,
所述图像处理模块,用于获取待识别图像并对待识别图像进行预处理;
所述图像识别模块,用于将预处理后的待识别图像输入改进YOLOv5模型中,输出识别结果,所述改进YOLOv5模型以YOLOv5s模型为基础,引入多层卷积和最大池化操作模块替换骨干网络中第2、3个卷积特征提取模块,用于增强目标特征,突出目标与背景的差异性;引入多尺度全局感受野混合池化模块替换骨干网络中空间金字塔池化模块,用于多维度信息融合捕获远程依赖关系,采用查准率、查全率和平均精度作为水下目标检测模型的评价指标。
9.一种计算机设备,其特征在于,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
CN202310994182.8A 2023-08-09 2023-08-09 一种水下目标检测方法、装置、设备及介质 Pending CN117115632A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310994182.8A CN117115632A (zh) 2023-08-09 2023-08-09 一种水下目标检测方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310994182.8A CN117115632A (zh) 2023-08-09 2023-08-09 一种水下目标检测方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN117115632A true CN117115632A (zh) 2023-11-24

Family

ID=88799360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310994182.8A Pending CN117115632A (zh) 2023-08-09 2023-08-09 一种水下目标检测方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117115632A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636149A (zh) * 2024-01-26 2024-03-01 济南市勘察测绘研究院 基于图像增强的水下目标物勘探识别方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117636149A (zh) * 2024-01-26 2024-03-01 济南市勘察测绘研究院 基于图像增强的水下目标物勘探识别方法及***
CN117636149B (zh) * 2024-01-26 2024-04-26 济南市勘察测绘研究院 基于图像增强的水下目标物勘探识别方法及***

Similar Documents

Publication Publication Date Title
Han et al. Underwater image processing and object detection based on deep CNN method
Li et al. Underwater image enhancement via medium transmission-guided multi-color space embedding
Yeh et al. Lightweight deep neural network for joint learning of underwater object detection and color conversion
CN109584248B (zh) 基于特征融合和稠密连接网络的红外面目标实例分割方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112446270B (zh) 行人再识别网络的训练方法、行人再识别方法和装置
Zhang et al. Ensnet: Ensconce text in the wild
US20210264144A1 (en) Human pose analysis system and method
Ding et al. Underwater image dehaze using scene depth estimation with adaptive color correction
CN115331087B (zh) 融合区域语义与像素特征的遥感影像变化检测方法及***
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
Luo et al. Thermal infrared image colorization for nighttime driving scenes with top-down guided attention
Bo et al. BASNet: Burned area segmentation network for real-time detection of damage maps in remote sensing images
CN110569782A (zh) 一种基于深度学习目标检测方法
Zhang et al. CNN cloud detection algorithm based on channel and spatial attention and probabilistic upsampling for remote sensing image
Liu et al. Image de-hazing from the perspective of noise filtering
CN116188999B (zh) 一种基于可见光和红外图像数据融合的小目标检测方法
CN111768415A (zh) 一种无量化池化的图像实例分割方法
Chen et al. SARAS-net: scale and relation aware siamese network for change detection
CN117115632A (zh) 一种水下目标检测方法、装置、设备及介质
Liu et al. Overview of image inpainting and forensic technology
CN114897782B (zh) 基于生成式对抗网络的胃癌病理切片图像分割预测方法
CN112329662B (zh) 基于无监督学习的多视角显著性估计方法
Tolie et al. DICAM: Deep Inception and Channel-wise Attention Modules for underwater image enhancement
Xu et al. MDTL-NET: Computer-generated image detection based on multi-scale deep texture learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination