CN115565056A - 基于条件生成对抗网络的水下图像增强方法及*** - Google Patents

基于条件生成对抗网络的水下图像增强方法及*** Download PDF

Info

Publication number
CN115565056A
CN115565056A CN202211179797.7A CN202211179797A CN115565056A CN 115565056 A CN115565056 A CN 115565056A CN 202211179797 A CN202211179797 A CN 202211179797A CN 115565056 A CN115565056 A CN 115565056A
Authority
CN
China
Prior art keywords
image
layer
underwater
global
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211179797.7A
Other languages
English (en)
Inventor
李振波
李一鸣
李飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202211179797.7A priority Critical patent/CN115565056A/zh
Publication of CN115565056A publication Critical patent/CN115565056A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/05Underwater scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/80Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in fisheries management
    • Y02A40/81Aquaculture, e.g. of fish

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Processing (AREA)

Abstract

本发明提出了一种基于条件生成对抗网络的水下图像增强方法及***,通过提取并融合多尺度局部特征以及全局特征来校正退化水下图像的色彩,通过构建用于水下图像增强的注意力模块AMU来提升特征提取效果,在训练中引入感知损失与总变差损失来提升生成图像的质量,抑制噪声出现。本发明的方法可为智能化水产养殖的行为监测、病害识别等高层次视觉任务提供清晰的水下环境信息,推动智能集约化水产养殖健康可持续发展。

Description

基于条件生成对抗网络的水下图像增强方法及***
技术领域
本发明属于图像处理技术领域,尤其涉及一种基于条件生成对抗网络的水下图像增强方法及***。
背景技术
截至2021年,全球水产养殖业规模已达到2094.2亿美元。随着水产养殖业的飞速发展,鱼群行为监测、鱼病识别等工作的需求逐步扩大,因此需要清晰的水下图像为这些高层次视觉任务提供高度可用的图像资源。目前,已有相关研究证明,与原始图像相比,经过增强后的图像对关键点匹配、目标检测、目标追踪等方面均有较好的改善效果。在智慧水产养殖业中,如水下水下生物监测、水下鱼类追踪等视觉工作需要清晰的水下图像资源。然而,与大气环境不同,在水下环境中,水体对光线具有吸收和散射作用,水中也会有悬浮颗粒的存在,这些因素导致水下图像出现偏色、模糊等退化现象,为相关水下工作的开展造成阻碍。
退化后的水下图像难以直接应用于智能化水产养殖的相关水下工作,也为传统的图像处理技术带来了挑战。因此,研究人员逐步开展水下图像增强的相关研究。传统水下图像增强方法采用固定参数和物理模型,通过对图像的像素值进行调整来增强退化图像。但是,上述方法仅针对单一环境中的图像进行处理,无法适应各种复杂的水下环境。由于卷积神经网络(CNN)的出色性能,使其在诸多计算机视觉任务中得到广泛应用。因此,研究人员开始将CNN引入水下图像增强领域。基于CNN提出了水下图像增强框架UIE-Net,用来进行颜色校正;引入残差学习策略,结合CNN提出了水下残差卷积神经网络URCNN。自生成对抗网络出现以来,其在图像处理、文本生成、音视频生成等领域均有广泛应用,该网络能够以对抗性的方式生成类似真实的数据,而这一特性恰好弥补了水下图像数据集缺少退化之前图像的弊端。也有人提出WaterGAN用于生成成对的水下图像数据集并进行颜色校正;通过结合循环生成对抗网络(CycleGAN)和暗通道先验算法,另一些研究者提出了基于多尺度循环生成对抗网络(MCycle GAN)的水下图像修复方法以及基于条件生成对抗网络(CGAN)提出了一种新的水下图像增强模型FUnIE-GAN,还构建了包含成对和非成对水下图像的数据集EUVP。这些基于学习的方法通过大量数据进行训练,以适应多种水下环境。所以,提高水下图像提取的清晰等是现阶段针对智慧养殖亟待解决的问题。
发明内容
为了解决上述问题,本发明提出了一种基于条件生成对抗网络的水下图像增强方法及***,用来对退化的水下图像进行颜色校正,从而为后续视觉工作提供清晰的视觉环境。
一方面,本发明提出了一种基于条件生成对抗网络的水下图像增强方法,包括如下步骤:
步骤1:获取水下退化图像和对应的纯净图像的成对图像集,并分为训练集和测试集;
步骤2:将所有图像缩放为大小相同的尺寸;
步骤3:模型构建,包括:基于编解码器结构对图像进行全局和局部特征提取;将全局特征分别与各尺度的局部特征进行融合;将全局特征经过逐层上采样进行图像还原,每个上采样层与对应尺度的融合特征进行连接;将生成的图像送入判别器网络,判断其是否来自于真实数据,促使生成器网络进行调整;
步骤4:模型训练和测试,保存测试好的模型;
步骤5:利用测试好的模型对实际水下图像进行处理。
优选地,编解码器结构为改进的U-Net网络,其包括8层降采样,并通过逐层卷积的方式对输入图像进行全局和局部特征提取。
更优选地,降采样层的每一个由LeakyRelu层、二维卷积层和批归一化层组成。
优选地,在降采样过程中基于SENet与NAM模块,将SENet中的全局平均池化模块更换为NAM模块中的批归一化比例因子,构建用于水下图像增强的注意力模块。
更优选地,在所述注意力模块中,输入的特征图经过批归一化层和1×1卷积处理,并与权重系数相乘,再经过ReLU激活函数、1×1卷积层和sigmoid激活函数,最终与输入特征图进行跳层连接。
优选地,在逐层上采样的结果与具备相同分辨率的降采样结果进行跳层连接之前进行全局和局部特征融合,融合过程为:
步骤4-1:通过卷积核大小为1×1、步长为1的卷积层将全局特征fg的通道数量cg调整为与对应尺度i的局部特征图fl相同的通道数ci,该步骤表示为fg1=Fconv(fg,W)
其中,Fconv表示卷积操作,W为可学习权重;
步骤4-2:对fg1进行复制,复制数量为hi×wi,其中,hi与wi为尺度i的局部特征图fl的长度和宽度,该操作表示为
fg2=Fcopy(fg1,num=hi×wi)
步骤4-3:将fg2重塑为与fl相同的维度hi×wi×ci
fg3=Fre(fg2,size=hi×wi×ci)
其中,Fre表示重塑操作。
步骤4-4:将fg3与fl进行连接操作
fout=Fconcat(fl,fg3)。
优选地,基于改进的U-Net网络进行图像还原,其包括8层上采样,并与降采样层对应。
更优选地,上采样层的每个包括ReLU层、双线性上采样层、卷积层和批归一化层。
优选地,模型训练损失的总体目标函数为:
Figure BDA0003866241950000041
其中,WGAN-GP、L1、Lp、LTV均为损失函数,λ1=10-12=10-23=10-3
Figure BDA0003866241950000042
其中,x为退化的水下图像,gt为具备良好细节的真实水下图像,
Figure BDA0003866241950000043
为介于生成图像G(x)与真实图像gt之间的均匀采样,λ=10。
另一方面,本发明提出了一种基于条件生成对抗网络的水下图像增强***,包括:
数据集构建模块,用于获取水下退化图像和对应的纯净图像的成对图像集,并分为训练集和测试集;
图像处理模块,用于将所有图像缩放为大小相同的尺寸;
模型构建模块,包括:基于编解码器结构对图像进行全局和局部特征提取;将全局特征分别与各尺度的局部特征进行融合;将全局特征经过逐层上采样进行图像还原,每个上采样层与对应尺度的融合特征进行连接;将生成的图像送入判别器网络,判断其是否来自于真实数据,促使生成器网络进行调整;
模型训练及测试模块,用于将图像输入模型进行训练和测试,保存测试好的模型;
模型应用模块,利用测试好的模型对实际水下图像进行处理。
本发明的有益效果在于:针对水下图像的退化现象,本发明提出了一种基于条件生成对抗网络的水下图像增强方法及***,基于条件生成对抗网络框架提取并融合全局特征和多尺度局部特征,过滤退化图像中的噪声,有效改善图像在质量。在特征提取网络的末端构建用于水下图像增强的注意力模块AMU,提高了特征提取效果;利用训练后的模型权重差异测量来突出关键特征,并对注意力模块施加权重稀疏性惩罚,提高计算效率;引入感知损失与总变差损失,促使生成图像具备与真实图像相似的高层次语义信息,增强了生成器网络的图像生成效果,抑制了图像噪声。
附图说明
图1是现有技术中的GAN模型结构图;
图2是本发明实施例的一种条件生成对抗网络的水下图像增强方法流程图;
图3是嵌入ResNet的SE模块结构图;
图4是通道注意力子模块结构图;
图5是空间注意力子模块结构图;
图6是SE模块与AMU模块结构图;
图7是利用本发明的方法增强后的图像在UGAN数据集中的视觉对比结果。
具体实施方式
下面结合附图,对实施例作详细说明。
得益于生成对抗网络(GAN)的对抗式训练方式,其在文本生成、图像处理等领域具有良好表现。GAN包含两个模型,即生成器和判别器,在网络训练过程中,生成器通过接收随机噪声z来产生与原数据相似的实例,记作G(z),以此来欺骗判别器。判别器用来判断生成器产生的实例是否为人工伪造的还是来自真实数据。判别器输入为x,即生成器产生的实例;输出为D(x),即x为真实数据的概率。双方在不断地迭代过程中进行交替优化,以此达到二者的均衡,即生成器能够产生具备较好细节的实例,而判别器对生成器的输出结果很难进行判断。GAN的整体流程如下图1所示。
GAN模型的目标函数如下:
Figure BDA0003866241950000051
其中,
Figure BDA0003866241950000052
是指生成器固定的情况下,通过最大化交叉熵损失V(D,G)来更新判别器D的参数。
Figure BDA0003866241950000061
是指生成器要在判别器最大化真、假实例交叉熵损失V(D,G)的情况下,最小化这个交叉熵损失。在训练过程中,一般先对判别器参数进行更新,这是由于在训练初期,判别器的性能较差,无法起到推动生成器产生更高质量实例的作用。
本发明实施例提出了一种基于条件生成对抗网络的水下图像增强方法,相比于传统的生成对抗网络,条件生成对抗网络的输入引入了条件信息,使得整个网络的生成结果更加稳定可控。图2为其流程图。包括:
步骤1:数据集构建
选取UGAN数据集作为本方法的训练与测试数据集,其由CycleGAN通过学习退化图像与纯净图像之间的映射关系生成。在该实施例中数据集包含6128对图像。从中选取了6000对图像作为训练集,剩余128对图像为测试集。
步骤2:图像预处理
图像预处理主要是统一图像大小,将图像缩放为大小一致的图像。在本发明的实施例中将所有图像均缩放为256×256的尺寸大小。
步骤3:多尺度特征提取
全局特征图一般包含图像的整体信息,如颜色、纹理、形状等,能够增强模型对场景环境的感知能力。本发明参考经典的U-Net网络,基于编解码器结构进行全局和局部特征提取。在全局和局部特征提取网络中,原有U-Net网络中的4层降采样被扩展为8层降采样,旨在提取更多尺度的局部特征,丰富全局特征图的语义信息。此外,不同于U-Net网络中通过最大池化的方式来进行降采样,通过进行逐层卷积的方式对输入图像进行全局和局部特征提取,每个降采样层由一个LeakyRelu层、一个二维卷积层(卷积核大小为4,步长为2)和一个批归一化层组成,输出的大小为1×1×cg,cg为通道数量。这样的降采样方式能够提升局部特征的提取效果,从而使生成的图像具备更多的细节。
随着降采样层数的增加,所包含的特征数量逐步增加,为了使网络聚焦于图像的关键性特征,在降采样过程中基于SENet与NAM模块构建了用于水下图像增强的注意力模块(AMU),该模块专注于细节信息和上下文信息,从而提高特征提取效果。
SENet模型能够较为便利地嵌入到其他的网络结构当中。SENet更加关注通道维度上的联系,包含Squeeze和Excitation两个操作。在Squeeze操作中,该模型采用全局平均池化将通道维度上整个空间的特征编码为全局特征图。在Excitation操作中,SENet能够学习到各个通道的权重系数,增强了模型对各个通道特征的辨别能力。在相关实验中,SE模块被嵌入到其他网络中,如ResNet、VGG-16等,并在误差指标方面取得了明显改善,嵌入ResNet的SE模块如图3所示。
基于归一化的通道注意力模块(NAM)旨在关注不显著的特征权重,通过在注意力模块上施加稀疏权重惩罚,在提高权重计算效率的同时保持网络性能。NAM模块基于CBAM模块进行整合,对通道和空间注意力子模块进行了重新设计。在残差网络中,该模块嵌入在残差结构的末尾,在通道注意力子模块中,该模块使用批归一化中的比例因子,其公式如下:
Figure BDA0003866241950000071
其中,γ和β为可训练的变换参数,
Figure BDA0003866241950000072
Figure BDA0003866241950000073
分别为小批量
Figure BDA0003866241950000074
的均值和标准差。通道注意力子模块如图4所示,Mc表示输出,γ为各个通道的比例因子,ω为各通道的权值。
归一化的比例因子还应用在空间注意力子模块中,命名为像素归一化。空间注意力子模块如图5所示,Ms表示输出,λ为比例因子。
在本发明中,将SENet中的全局平均池化模块更换为NAM模块中的批归一化比例因子,来改善非显著特征的抑制效果。AMU模块的结构如图6所示,输入的特征图经过批归一化层和1×1卷积处理,并与权重系数相乘,再经过ReLU激活函数、1×1卷积层和sigmoid激活函数,最终与输入特征图进行跳层连接。
步骤4:全局和局部特征融合
为了使具有高层次语义信息的全局特征图提升低分辨率图像的处理效果以及图像增强后的色彩与细节,在逐层上采样的结果与具备相同分辨率的降采样结果进行跳层连接之前构建了全局和局部特征融合模块,从而抑制增强后的图像中产生伪影。该模块的流程如下:
首先,通过一个卷积核大小为1×1、步长为1的卷积层将全局特征图fg的通道数量cg调整为与对应尺度i的局部特征图fl相同的通道数ci,该步骤表示为fg1=Fconv(fg,W)
其中,Fconv表示卷积操作,W为可学习权重。
随后,对fg1进行复制,复制数量为hi×wi,其中,hi与wi为尺度i的局部特征图fl的长度和宽度,该操作表示为
fg2=Fcopy(fg1,num=hi×wi)
然后,将fg2重塑为与fl相同的维度hi×wi×ci
fg3=Fre(fg2,size=hi×wi×ci)
其中,Fre表示重塑操作。
最终,将fg3与fl进行连接操作
fout=Fconcat(fl,fg3)
至此,全局特征图完成了卷积、复制、重塑和连接步骤。
步骤5:特征上采样
将全局特征图通过逐层上采样进行图像还原,每个上采样层与具有相同大小的融合特征进行连接操作,对原图像中存在的色偏现象进行校正。将U-Net网络中的4层上采样扩展为8层上采样,与特征提取阶段的降采样层对应。每个上采样层包括一个ReLU层、一个双线性上采样层、一个卷积层(卷积核大小为4,步长为2)以及一个批归一化层,输出的大小为256×256×cg,cg为通道数量。
步骤6:图像判别
将生成图像送入判别器网络PatchGAN进行判别,输入为256×256×cg,cg为通道数量,PatchGAN将输入图像映射成一个N×N矩阵,该矩阵中的每一个点代表对于图像的一小块区域的判别值,这样的判别方式能够对图像的更多细节进行判别,当所有区域均具备良好的细节时,整体图像才会被判别为是真实的。
步骤7:模型训练及测试
在模型训练阶段引入WGAN-GP的损失函数来稳定训练,公式如下:
Figure BDA0003866241950000091
其中,x为退化的水下图像,gt为具备良好细节的真实水下图像,
Figure BDA0003866241950000092
为介于生成图像G(x)与真实图像gt之间的均匀采样,λ代表权重因子。
此外,传统的L1损失相较于L2损失能够促使生成器产生更少的模糊,因此,本发明引入L1损失,其公式如下:
Figure BDA0003866241950000093
本发明引入了感知损失函数,在深度特征层面对生成图像进行约束,促使生成图像具备与真实图像相似的高层次语义信息。感知损失模型基于VGG-19网络进行训练,针对每个模块的特征匹配进行了权重分配,公式如下:
Figure BDA0003866241950000094
其中,
Figure BDA0003866241950000095
为第j层卷积层,J表示参考图像,
Figure BDA0003866241950000096
为增强后图像。
为了降低生成图像的噪点,增大图像的平滑性,本发明引入了传统的总变差损失函数,其公式如下:
Figure BDA0003866241950000097
其中,
Figure BDA0003866241950000098
为水平梯度算子,
Figure BDA0003866241950000099
表示垂直梯度算子。
总体目标函数如下:
Figure BDA0003866241950000101
在训练之前,将所有参与训练的图片缩放为256×256的尺寸大小。在Intel(R)Xeon(R)E5-2630 v4和NVIDIA GTX 1080上进行模型训练,环境配置为Pytorch1.5,损失函数的权重设置为λ=10,λ1=10-12=10-23=10-3。引入Adam优化器来替代传统梯度下降的优化算法,初始学习率设置为1e-4,β1=0.5,β2=0.99,批大小设置为16,模型训练的迭代次数为50。
UGAN数据集评估指标的比较如表1所示。
表1 UGAN数据集评估指标对比
PSNR↑ SSIM↑ UIQM↑ UCIQE↑
Fusion 18.2647 0.6437 2.7266 0.0625
IBLA 20.2019 0.6059 3.1725 0.0523
UDCP 18,6979 0.6171 3.5883 0.0415
ULAP 20.6336 0.6535 3.3515 0.0533
UGAN 23.3311 0.7497 2.8354 0.0392
FunieGAN 22.8422 0.7248 3.1934 0.0788
WaterNet 23.5637 0.7491 2.4786 0.0393
Style-Transfer 24.2179 0.7714 2.9364 <u>0.0695</u>
UWCNN 17.2855 0.6332 2.3561 0.0452
MLFcGAN <u>25.1974</u> <u>0.7982</u> <u>4.1145</u> 0.0533
MA-cGAN 26.1698 0.8281 5.0935 0.0638
MA-cGAN在PSNR和SSIM指标上具有明显的优势。值得注意的是,传统方法的得分普遍低于学***衡、清晰度和对比度方面都处于良好的水平。
由于缺乏真实图像的配对纯净图像,本发明只选择无参考指标来评价增强结果的质量,对比结果见表2。
表2真实数据集评估指标对比
UIQM↑ UICM↑ UISM↑ UIConM↑ UCIQE↑
Fusion <u>3.8687</u> 3.2421 1.8985 0.0536 0.0465
IBLA 3.7646 3.6631 <u>1.3435</u> 0.0643 0.0476
UDCP 3.4876 3.1727 1.0694 0.0319 0.0297
ULAP 3.6588 <u>3.6379</u> 1.2364 <u>0.0719</u> 0.0488
UGAN 2.4739 2.5876 0.9506 0.0374 0.0314
FunieGAN 2.5422 3.1297 1.1004 0.0526 0.0469
WaterNet 2.7389 2.6592 1.0301 0.0584 0.0421
Style-Transfer 3.3795 3.0789 1.1373 0.0939 0.0513
UWCNN 2.5208 2.2156 1.1123 0.0417 0.0494
MLFcGAN 3.4831 3.0118 1.2366 0.0549 <u>0.0536</u>
MA-cGAN 4.0794 3.3511 1.1626 0.0517 0.0562
MA-cGAN在UIQM和UCIQE指标中表现较好,这表明使用本发明方法的结果具有良好的色密度和清晰度。在无参考指标方面,传统方法优于基于学习的方法,这些方法的增强结果可能具有较好的饱和色彩,但这些饱和度较高的图像可能无法用于后续的目标检测等工作。结果还表明,本发明的方法(MA-cGAN)可以应用于多种水下环境。
增强后的图像在UGAN数据集中的对比结果如图7所示。结果表明,基于学习的方法能够取得比传统方法更好的效果。传统方法的结果大多存在过饱和现象,如UDCP、IBLA和ULAP。对于Fusion来说,它的结果存在过曝。在基于学习的方法中,基于GAN的方法如UGAN、FunieGAN和Style-Transfer的结果会损失一些纹理信息。同时,包括WaterNet和UWCNN在内的基于CNN的方法的结果缺乏细节信息。与上述结果不同,MLFcGAN的作用似乎更自然。与MLFcGAN相比,使用本发明方法的结果在颜色饱和度方面进一步优化。
步骤8:利用训练好的模型进行水下图像处理。
此外,本发明还提出了一种基于条件生成对抗网络的水下图像增强***,包括:
数据集构建模块,用于获取水下退化图像和对应的纯净图像集,并分为训练集和测试集;
图像处理模块,用于将所有图像缩放为大小相同的尺寸;
全局和局部特征提取模块,基于编解码器结构对图像进行全局和局部特征提取;
全局和局部特征融合模块,用于将全局特征图分别与各尺度的局部特征进行融合;
特征上采样模块,用于将全局特征图经过逐层上采样进行图像还原,每个上采样层与对应尺度的融合特征进行连接;
图像判别模块,用于将生成的图像送入判别器网络,判断其是否来自于真实数据,促使生成器网络进行调整;
模型训练及测试模块,用于将图像输入模型进行训练和测试,保存测试好的模型;
模型应用模块,利用测试好的模型进行水下图像处理。
此实施例仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种基于条件生成对抗网络的水下图像增强方法,包括如下步骤:
步骤1:获取水下退化图像和对应的纯净图像的成对图像集,并分为训练集和测试集;
步骤2:将所有图像缩放为大小相同的尺寸;
步骤3:模型构建,包括:基于编解码器结构对图像进行全局和局部特征提取;将全局特征分别与各尺度的局部特征进行融合;将全局特征经过逐层上采样进行图像还原,每个上采样层与对应尺度的融合特征进行连接;将生成的图像送入判别器网络,判断其是否来自于真实数据,促使生成器网络进行调整;
步骤4:模型训练和测试,保存测试好的模型;
步骤5:利用测试好的模型对实际水下图像进行处理。
2.根据权利要求1所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,所述编解码器结构为改进的U-Net网络,其包括8层降采样,并通过逐层卷积的方式对输入图像进行全局和局部特征提取。
3.根据权利要求2所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,所述降采样层的每一个由LeakyRelu层、二维卷积层和批归一化层组成。
4.根据权利要求2所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,在降采样过程中基于SENet与NAM模块,将SENet中的全局平均池化模块更换为NAM模块中的批归一化比例因子,构建用于水下图像增强的注意力模块。
5.根据权利要求4所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,在所述注意力模块中,输入的特征图经过批归一化层和1×1卷积处理,并与权重系数相乘,再经过ReLU激活函数、1×1卷积层和sigmoid激活函数,最终与输入特征图进行跳层连接。
6.根据权利要求2所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,在逐层上采样的结果与具备相同分辨率的降采样结果进行跳层连接之前进行全局和局部特征融合,融合过程为:
步骤4-1:通过卷积核大小为1×1、步长为1的卷积层将全局特征fg的通道数量cg调整为与对应尺度i的局部特征图fl相同的通道数ci,该步骤表示为
fg1=Fconv(fg,W)
其中,Fconv表示卷积操作,W为可学习权重;
步骤4-2:对fg1进行复制,复制数量为hi×wi,其中,hi与wi为尺度i的局部特征图fl的长度和宽度,该操作表示为
fg2=Fcopy(fg1,num=hi×wi)
步骤4-3:将fg2重塑为与fl相同的维度hi×wi×ci
fg3=Fre(fg2,size=hi×wi×ci)
其中,Fre表示重塑操作。
步骤4-4:将fg3与fl进行连接操作
fout=Fconcat(fl,fg3)。
7.根据权利要求2所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,基于改进的U-Net网络进行图像还原,其包括8层上采样,并与降采样层对应。
8.根据权利要求7所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,所述上采样层的每个包括ReLU层、双线性上采样层、卷积层和批归一化层。
9.根据权利要求1所述的一种基于条件生成对抗网络的水下图像增强方法,其特征在于,模型训练损失的总体目标函数为:
Figure FDA0003866241940000021
其中,WGAN-GP、L1、Lp、LTV均为损失函数,λ1=10-1,λ2=10-2,λ3=10-3
Figure FDA0003866241940000031
其中,x为退化的水下图像,gt为具备良好细节的真实水下图像,
Figure FDA0003866241940000032
为介于生成图像G(x)与真实图像gt之间的均匀采样,λ=10。
10.一种基于条件生成对抗网络的水下图像增强***,包括:
数据集构建模块,用于获取水下退化图像和对应的纯净图像的成对图像集,并分为训练集和测试集;
图像处理模块,用于将所有图像缩放为大小相同的尺寸;
模型构建模块,包括:基于编解码器结构对图像进行全局和局部特征提取;将全局特征分别与各尺度的局部特征进行融合;将全局特征经过逐层上采样进行图像还原,每个上采样层与对应尺度的融合特征进行连接;将生成的图像送入判别器网络,判断其是否来自于真实数据,促使生成器网络进行调整;
模型训练及测试模块,用于将图像输入模型进行训练和测试,保存测试好的模型;
模型应用模块,利用测试好的模型对实际水下图像进行处理。
CN202211179797.7A 2022-09-27 2022-09-27 基于条件生成对抗网络的水下图像增强方法及*** Pending CN115565056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211179797.7A CN115565056A (zh) 2022-09-27 2022-09-27 基于条件生成对抗网络的水下图像增强方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211179797.7A CN115565056A (zh) 2022-09-27 2022-09-27 基于条件生成对抗网络的水下图像增强方法及***

Publications (1)

Publication Number Publication Date
CN115565056A true CN115565056A (zh) 2023-01-03

Family

ID=84742138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211179797.7A Pending CN115565056A (zh) 2022-09-27 2022-09-27 基于条件生成对抗网络的水下图像增强方法及***

Country Status (1)

Country Link
CN (1) CN115565056A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029947A (zh) * 2023-03-30 2023-04-28 之江实验室 一种用于恶劣环境的复杂光学图像增强方法、装置和介质
CN116681627A (zh) * 2023-08-03 2023-09-01 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN117391975A (zh) * 2023-12-13 2024-01-12 中国海洋大学 一种高效的实时水下图像增强方法及其模型搭建方法
CN117808712A (zh) * 2024-02-28 2024-04-02 山东科技大学 一种基于水下相机的图像校正方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029947A (zh) * 2023-03-30 2023-04-28 之江实验室 一种用于恶劣环境的复杂光学图像增强方法、装置和介质
CN116681627A (zh) * 2023-08-03 2023-09-01 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN116681627B (zh) * 2023-08-03 2023-11-24 佛山科学技术学院 一种跨尺度融合的自适应水下图像生成对抗增强方法
CN117391975A (zh) * 2023-12-13 2024-01-12 中国海洋大学 一种高效的实时水下图像增强方法及其模型搭建方法
CN117391975B (zh) * 2023-12-13 2024-02-13 中国海洋大学 一种高效的实时水下图像增强方法及其模型搭建方法
CN117808712A (zh) * 2024-02-28 2024-04-02 山东科技大学 一种基于水下相机的图像校正方法
CN117808712B (zh) * 2024-02-28 2024-05-07 山东科技大学 一种基于水下相机的图像校正方法

Similar Documents

Publication Publication Date Title
CN115565056A (zh) 基于条件生成对抗网络的水下图像增强方法及***
CN112001960A (zh) 基于多尺度残差金字塔注意力网络模型的单目图像深度估计方法
CN111583285A (zh) 一种基于边缘关注策略的肝脏影像语义分割方法
CN113256494B (zh) 一种文本图像超分辨率方法
CN115620010A (zh) 一种rgb-t双模态特征融合的语义分割方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN115063318A (zh) 自适应频率分解的低光照图像增强方法与相关设备
CN115641391A (zh) 一种基于密集残差和双流注意力的红外图像彩色化方法
CN116563693A (zh) 基于轻量级注意力机制的水下图像色彩复原方法
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN115660979A (zh) 一种基于注意力机制的双判别器图像修复方法
CN115861094A (zh) 一种融合注意力机制的轻量级gan水下图像增强模型
CN115272072A (zh) 一种基于多特征图像融合的水下图像超分辨率方法
Wu et al. Fish Target Detection in Underwater Blurred Scenes Based on Improved YOLOv5
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN117292117A (zh) 一种基于注意力机制的小目标检测方法
CN117333750A (zh) 空间配准与局部全局多尺度的多模态医学图像融合方法
CN116823659A (zh) 一种基于深度特征提取的微光图像增强方法
CN111814693A (zh) 一种基于深度学习的海上船舶识别方法
CN116137043A (zh) 一种基于卷积和Transformer的红外图像彩色化方法
Gao et al. TEGAN: Transformer embedded generative adversarial network for underwater image enhancement
CN114663315B (zh) 基于语义融合生成对抗网络的图像比特增强方法及装置
CN116091918A (zh) 一种基于数据增强的土地利用分类方法及***
CN115100091A (zh) 一种sar图像转光学图像的转换方法及装置
CN117314751A (zh) 一种基于生成式对抗网络的遥感图像超分辨率重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination