CN114881879A

CN114881879A - 一种基于亮度补偿残差网络的水下图像增强方法

Info

Publication number: CN114881879A
Application number: CN202210541384.2A
Authority: CN
Inventors: 张文明; 王斌; 李雅倩; 肖存军
Original assignee: Yanshan University
Current assignee: Yanshan University
Priority date: 2022-05-17
Filing date: 2022-05-17
Publication date: 2022-08-09

Abstract

本发明公开了一种基于亮度补偿残差网络的水下图像增强方法，包括获取数据集；数据预处理：将图片裁剪为相同尺寸的大小，将RGB类型的图片转换为HSV类型，提取V通道并单独保存；模型训练：将RGB类型的训练集放入RGB多尺度残差子网络进行训练，得到增强网络1和输出结果；将V类型的训练集放入V通道亮度补偿子网络进行训练，得到增强网络2和输出结果；将两个的输出结果送入增强重构子网络得到最终的输出结果；模型测试：将测试集分别放入训练好的增强网络1和增强网络2，将输出结果一起送入增强重构子网络即可得到增强后的水下图片，本发明能够解决水下图像颜色失真、模糊、低对比度问题，通过亮度补偿进一步提高图像的细节信息。

Description

一种基于亮度补偿残差网络的水下图像增强方法

技术领域

本发明涉及一种基于亮度补偿残差网络的水下图像增强方法，属于水下图像增强技术领域。

背景技术

近年来高质量的水下图像对于勘测海洋资源、保护海洋生物、防卫海洋安全等方面有着重要的意义。但是由于水下成像的复杂性，导致拍摄所得的图像存在严重的质量问题，不利于信息的获取与深入研究。因此，需要对水下图像进行增强与修复，以进一步提取更多有用信息。

水下图像呈现模糊、低对比度、颜色失真等问题是由于光在水下传播的特殊性。由于不同波长的光在水下传播时的衰减不同，导致水下图像出现颜色失真的问题。其次，水中悬浮粒子对光的散射作用，导致水下图像出现模糊、对比度低的问题。

水下图像处理技术，主要分为基于非物理模型的图像增强方法，基于物理模型的图像恢复方法和基于深度学习的图像增强方法。非物理模型方法主要是直接通过调整图像的像素值来改善效果，但是由于不考虑水下成像的光学特性，容易产生色差和伪影。基于物理模型的图像恢复方法是建立水下图像退化的数学模型，根据模型估计参数，然后反推得到清晰的水下图像，但是模型通常是基于一种先验性假设，具有一定的局限性。基于深度学习的水下图像增强方法分为卷积神经网络和对抗生成网络，通过构建相应的网络模型，通过大量成对数据的训练，可将低质量的水下图像转换为高质量的图像，但是仍存在部分细节丢失、过饱和等问题。

发明内容

本发明所要解决的技术问题是针对现有技术的现状，提供一种基于亮度补偿残差网络的水下图像增强方法，能够解决水下图像颜色失真、模糊、低对比度等问题，同时通过亮度补偿进一步提高图像的细节信息。

为解决上述技术问题，本发明所采用的技术方案是：

包括如下步骤：

S1、获取网络训练所需数据集：通过选取水下图片和相应的增强图片作为训练集和测试集；

S2、数据预处理：对图片的尺寸和类型进行相应处理；

S3、RGB多尺度残差子网络训练：将RGB类型的训练集放入RGB多尺度残差子网络进行训练，得到增强网络模型1和输出结果y₁；

S4、V通道亮度补偿子网络训练：将V通道的训练集放入V通道亮度补偿子网络进行训练，得到增强网络模型2和输出结果y₂；

S5、增强重构环节：将输出结果y₁和y₂放入增强重构子网络进行计算，得到最终的增强结果y；

S6、模型测试：将待测的数据集放入训练好的增强网络1、增强网络2，通过增强重构子网络计算后即可得到增强后的图片。

本发明技术方案的进一步改进在于：所述S1中从公开数据集UIEBD、EUVP、UFO-120中随机选取6400张水下图片和相应的增强图片作为训练集；随机选取1600张水下图片包含或不包含相应的增强图片作为测试集。

本发明技术方案的进一步改进在于：所述S2的具体步骤包括：

将训练集和测试集裁剪为256×256的大小；原有的训练集和测试集是RGB类型的，将RGB类型转为HSV类型，提取亮度通道V并单独保存。

本发明技术方案的进一步改进在于：所述S3的具体步骤包括：

RGB多尺度残差子网络包括2个卷积层、3个多尺度残差块和1个激活函数，输入为RGB类型的水下图片x₁，标签为相应的RGB类型的增强图片b₁，输出为RGB类型的增强图片y₁；损失采用的是感知损失L_con和内容损失L₂的线性组合；

第一个卷积层将输入图片x₁的3通道转成64通道，经过RELU激活函数送入连续的3个多尺度残差块进行特征提取，最后经过第二个卷积层将通道数转为3，得到生成的增强图片y₁；

多尺度残差块包含4个通道：第一个通道不做处理，第二个通道采用两个3×3的卷积，第三个通道采用2个3×3的空洞卷积，在增大感受野的同时，不引入额外的计算量，第四个通道采用res2net模块，将原先的3×3卷积替换成3个3×3卷积，增大了感受野；第二个通道的第一个卷积层的输出和第三个通道的第一个卷积层的输出通过拼接作为第二个通道的第二个卷积层的输入和第三通道的第二个卷积层的输入，第二个通道的输出和第三个通道的输出通过拼接的方式，再经过1×1卷积与第一通道和第四通道的输出相加作为整个多尺度残差块的输出；

内容损失L₂₁是计算增强图片y₁与标签b₁的像素间损失；

其中y_i是RGB多尺度残差子网络训练的增强结果，b_i是输入图片对应的增强图片，n是训练的图片数量；

感知损失L_con1计算增强图片y₁与标签b₁的高级感知特征之间的损失，采用的ImageNet上预训练的VGG19模型；

其中y_i是RGB多尺度残差子网络训练的增强结果，b_i是输入图片对应的增强图片，φ是预训练的VGG19网络，j表示该网络的第j层，C_jH_jW_j是第j层特征图的形状，n是训练的图片数量；

总损失L_t1是内容损失L₂₁和感知损失L_con1的线性组合；

L_t1＝L₂+L_con1。

本发明技术方案的进一步改进在于：所述S4的具体步骤包括：

V通道亮度补偿网络包括卷积层、池化层、多尺度残差块、上采样和激活函数，输入为V通道水下图片x₂，标签为相应的V通道增强图片b₂，输出为V通道增强图片y₂；损失采用的是感知损失L_con、内容损失L₂以及多尺度结构相似损失L_{ms_ssim}的线性组合；

第一个卷积层将输入图片x₂的单通道转成64通道，经过RELU激活函数得到特征f₁，f₁经过自适应池化将图片的尺寸从256×256变成128×128，然后通过1×1卷积，通道数由64变为128，送入第一个多尺度残差块得到特征f₂，f₂经过自适应池化将图片的尺寸从128×128变成64×64，然后通过1×1卷积，通道数由128变为256，送入第二个多尺度残差块得到特征f₃，f₃经过自适应池化将图片的尺寸从64×64变成32×32，然后通过1×1卷积，通道数由256变为512，送入第三个多尺度残差块得到特征f₄，f₂、f₃、f₄经过1×1卷积，通道数变为64，f₄经过上采样后与f3进行残差连接，得到后的特征再经过上采样后与f2进行残差连接，得到后的特征再经过上采样与f1进行残差连接，最终通过3×3的卷积得到增强的V通道图片y₂；

内容损失L₂₂是计算增强图片y₂与标签b₂的像素间损失；

其中y_i是V通道亮度补偿子网络训练的增强结果，b_i是输入图片对应的增强图片，n是训练的图片数量；

感知损失L_con2计算的是增强图片y₂与标签b₂的高级感知特征之间的损失，采用的ImageNet上预训练的VGG19模型；由于增强图片y₂与标签b₂都是单通道的，VGG19模型的输入是3通道的，计算损失时需要将其扩展为3通道；

其中y_i是V通道亮度补偿子网络训练的增强结果，b_i是输入图片对应的增强图片，φ是预训练的VGG19网络，j表示该网络的第j层，C_jH_jW_j是第j层特征图的形状，n是训练的图片数量；

多尺度结构相似损失Lms_ssim基于多层的SSIM损失，考虑了分辨率、亮度、对比度、结构指标；

其中M表示不同的尺度，μ_p，μ_g分别表示y₂和b₂的均值，σ_p，σ_g表示y₂和b₂的之间的标准差，σ_pg表示y₂和b₂之间的协方差，β_m，γ_m表示两项之间的相对重要性，c₁，c₂是常数项防止除数为0；

总损失L_t2是内容损失L₂₁、感知损失L_con1和多尺度结构相似损失L_{ms_ssim}的线性组合：

L_t2＝L₂+L_con1+L_{ms_ssim}。

本发明技术方案的进一步改进在于：所述S5具体包括：

增强重构子网络是将RGB多尺度残差子网络的输出y₁转为HSV类型，将其中的V通道值与V通道亮度补偿子网络的输出y₂进行线组合，得到最终增强图片的V通道值，与y₁的HS通道融合成新的HSV类型，再转为RGB类型，结合两个网络的优势，得到最终增强图片y。

由于采用了上述技术方案，本发明取得的技术进步是：

本发明提出了一种基于亮度补偿残差网络的水下图像增强方法，在基于多尺度残差块的RGB增强子网络中提出了一种新型的多尺度残差块，第三通道采用空洞卷积的好处是在减少计算量的同时扩大了感受野，第四通道将普通的3*3卷积替换成了res2net模块，在减少计算量的同时扩大了感受野；通过残差连接，使得浅层的细节信息与高层的语义信息相融，使得生成的图片颜色得到了修正，细节得到了增强；基于亮度补偿的V通道增强子网络，采用CAPAFE上采样的方式，基于输入特征进行特征重组，在特征重组时具有更大的感受野，计算量小；多尺度特征融合，将浅层的细节信息与高层的语义信息相互融合，细节得到进一步补充；增强重构子网络将两者的优势相结合，使得最终生成的图片效果更好。

附图说明

图1是本发明实施例的流程图；

图2是本发明实施例的网络结构示意图；

图3是本发明实施例多尺度残差块的结构示意图；

图4是本发明实施例res2net模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例一种基于亮度补偿残差网络的水下图像增强方法的流程图。

参见图1，实施例的水下图像增强方法，具体步骤如下：

步骤S1：获取网络训练所需数据集，通过选取水下图片和相应的增强图片作为训练集和测试集；

从公开数据集UIEBD、EUVP、UFO-120随机选取6400张水下图片和相应的增强图片作为训练集，训练集用以训练网络模型；随机选取1600张水下图片和相应的增强图片作为测试集，测试集也可以不包括相应的增强的图片，测试集用于评估模型的性能和泛化能力；

步骤S2：数据预处理，对图片的尺寸和类型进行相应处理；

将训练集和测试集裁剪为256×256的大小，便于计算，同时减少了内存的占用；

原有的训练集和测试集是RGB类型的，需要将RGB类型转为HSV类型，提取亮度通道V并单独保存；

步骤S3：RGB多尺度残差子网络训练；将RGB类型的训练集放入RGB多尺度残差子网络进行训练，得到增强网络模型1和输出结果y₁；

所述多尺度残差子网络如图2所示：

RGB多尺度残差子网络是由2个卷积层、3个多尺度残差块、1个激活函数组成的，输入为RGB类型的水下图片x₁，标签为相应的RGB类型的增强图片b₁,输出为RGB类型的增强图片y₁；损失采用的是感知损失L_con1和内容损失L₂₁的线性组合；

第一个卷积层卷积核大小是3×3，步长为1，padding为1，作用是将输入图片x₁的3通道转成64通道，经过RELU激活函数送入连续的3个多尺度残差块进行特征提取，最后经过第二个卷积层，卷积核大小是3×3，步长是1，padding为1，作用是将多尺度残差块的输出通道数由64转为3，得到生成的增强图片y₁；

所述多尺度残差块如图3所示：

多尺度残块的输入参数为feat，feat用于设定多尺度残差块内部输入输出通道数，多尺度残差块包含4个通道：第一个通道不做处理，第二个通道采用两个3×3的卷积，步长都为1，padding为1，但是两个卷积层的输入输出通道数不同，第一个卷积层的输入输出通道数是feat，第二个卷积层的输入输出通道数是feat×2；第三个通道采用2个3×3的空洞卷积，空洞率为2，步长都为1，padding为1，但是两个卷积层的输入输出通道数不同，第一个卷积层的输入输出通道数是feat，第二个卷积层的输入输出通道数是feat×2，在增大感受野的同时，不引入额外的参数；第四个通道采用res2net模块，将原先的3×3卷积替换成3个3×3卷积，增大了感受野；第二个通道的第一个卷积层的输出和第三个通道的第一个卷积层的输出通过拼接作为第二个通道的第二个卷积层的输入和第三通道的第二个卷积层的输入，第二个通道的输出和第三个通道的输出通过拼接的方式，再经过1×1卷积与第一通道和第四通道的输出相加作为整个多尺度残差块的输出，1×1卷积层的作用是将拼接后的特征的通道数由feat×4变成feat。在RGB多尺度残差子网络中所用的多尺度残差块的feat设为64；

所述res2net模块如图4所示：

res2net模块结构：输入特征经过1×1卷积后，将特征分为4部分。第一部分不经过处理；第二部分经过3×3卷积输出；第三部分与第二部分的输出相加后经过3×3卷积输出；第四部分与第三部分的输出相加后经过3×3卷积后输出；四部分的输出拼接后经过1×1输出；

内容损失L₂₁是计算增强图片y₁与标签b₁的像素间损失；

其中y_i是RGB多尺度残差子网络训练的增强结果,b_i是输入图片对应的增强图片，n是训练的图片数量；

其中y_i是RGB多尺度残差子网络训练的增强结果,b_i是输入图片对应的增强图片，φ是预训练的VGG19网络，j表示该网络的第j层，C_jH_jW_j是第j层特征图的形状，n是训练的图片数量；

总损失L_t1是内容损失L₂₁和感知损失L_con1的线性组合：

L_t1＝L₂+L_con1。

步骤S4：V通道亮度补偿子网络训练；将V通道的训练集放入V通道亮度补偿子网络进行训练，得到增强网络模型2和输出结果y₂；

V通道亮度补偿网络由卷积层、池化层、多尺度残差块、上采样、激活函数组成的，输入为V通道水下图片x₂，标签为相应的V通道增强图片b₂，输出为V通道增强图片y₂；损失采用的是感知损失L_con、内容损失L₂以及多尺度结构相似损失L_{ms_ssim}的线性组合；

第一个卷积层卷积核大小是3×3，步长为1，padding为1，作用是将输入图片x₂的1通道转成64通道，经过RELU激活函数得到特征f₁，f₁经过自适应池化将图片的尺寸从256×256变成128×128，然后通过1×1卷积，通道数由64变为128，送入第一个多尺度残差块得到特征f₂，第一个多尺度残差块的feat设为128，f₂经过自适应池化将图片的尺寸从128×128变成64×64，然后通过1×1卷积，通道数由128变为256，送入第二个多尺度残差块得到特征f₃，第二个多尺度残差块的feat设为256，f₃经过自适应池化将图片的尺寸从64×64变成32×32，然后通过1×1卷积，通道数由256变为512，送入第三个多尺度残差块得到特征f₄，第三个多尺度残差块的feat设为512。f₂、f₃、f₄经过1×1卷积，通道数变为64，f₄经过上采样后与f3进行残差连接，得到后的特征再经过上采样后与f2进行残差连接，得到后的特征再经过上采样与f1进行残差连接，最终通过3×3的卷积得到增强的V通道图片y₂；

内容损失L₂₂是计算增强图片y₂与标签b₂的像素间损失；

其中y_i是V通道亮度补偿子网络训练的增强结果,b_i是输入图片对应的增强图片，n是训练的图片数量；

感知损失L_con2计算的是增强图片y₂与标签b₂的高级感知特征之间的损失，采用的ImageNet上预训练的VGG19模型。由于增强图片y₂与标签b₂都是单通道的，VGG19模型的输入是3通道的，计算损失时需要将其扩展为3通道；

其中y_i是V通道亮度补偿子网络训练的增强结果,b_i是输入图片对应的增强图片，φ是预训练的VGG19网络，j表示该网络的第j层，C_jH_jW_j是第j层特征图的形状，n是训练的图片数量；

多尺度结构相似损失Lms_ssim基于多层的SSIM损失，考虑了分辨率、亮度、对比度、结构指标。

L_t2＝L₂+L_con1+L_{ms_ssim}

步骤S5：增强重构环节；将输出结果y₁和y₂放入增强重构子网络进行计算，得到最终的增强结果y；

增强重构子网络是将RGB多尺度残差子网络的输出y₁转为HSV类型，将其中的V通道值与V通道亮度补偿子网络的输出y₂进行线组合，得到最终增强图片的V通道值，与y₁的HS通道融合成新的HSV类型，再转为RGB类型，结合两个网络的优势，得到最终增强图片y；

步骤S6：模型测试，将待测的数据集放入训练好的增强网络1、增强网络2，通过增强重构子网络计算后即可得到增强后的图片；

本实施例的基于亮度补偿残差网络的水下图像增强方法在基于多尺度残差块的RGB增强子网络中提出了一种新型的多尺度残差块，第三通道采用空洞卷积的好处是在减少计算量的同时扩大了感受野，第四通道采用res2net模块，在减少计算量的同时扩大了感受野；通过残差连接，使得浅层的细节信息与高层的语义信息相融，使得生成的图片颜色得到了修正，细节得到了增强；基于亮度补偿的V通道增强子网络，采用CAPAFE上采样的方式，基于输入特征进行特征重组，在特征重组时具有更大的感受野，计算量小；多尺度特征融合，将浅层的细节信息与高层的语义信息相互融合，细节得到进一步补充。增强重构子网络将两者的优势相结合，使得最终生成的图片效果更好。

对于实施例公开的***而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。