CN117036182A

CN117036182A - 一种单幅图像去雾方法及***

Info

Publication number: CN117036182A
Application number: CN202310705338.6A
Authority: CN
Inventors: 张南; 宁泉澄; 段振华
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-06-14
Filing date: 2023-06-14
Publication date: 2023-11-10

Abstract

本发明属于图像处理和计算机视觉技术领域，公开了一种单幅图像去雾方法和***，结合动态卷积模块和Transformer模块，动态卷积能够根据输入变换卷积核的参数，Transformer能够捕获有雾特征图之间的关系，将两者集合用于去雾取得了较好的结果；同时在两个模块中加入注意力机制，使模型关注到有雾区域；模型基于编码器解码器架构，将有雾图像经过编码器进行编码，再经过解码器进行解码得到去雾图像。在模型的设计中加入了门控模块，可以融合不同阶段的提取的特征图，有利于去雾效果的提升。解码器加入跳接结构，是网络的梯度得到更快的更新，缓解网络过深产生梯度消失与梯度弥散，使模型更容易收敛。

Description

一种单幅图像去雾方法及***

技术领域

本发明属于图像处理和计算机视觉技术领域，尤其涉及一种单幅图像去雾方法及***。

背景技术

大气粒子的散射作用使得传感器采集的照片的质量严重下降。因此图像去雾算法成为图像处理领域与计算机视觉的重要研究方向。图像去雾技术的主要任务就是去除天气因素对于图像质量的影响，增强图像的可见度。1999年，Srinivasa G.Narasimhan等人建立了大气散射模型用于描述雾图的形成。

深度学习之前，图像去雾算法主要是基于图像增强的去雾算法和基于图像复原的去雾算法。图像图像增强的去雾算法主要的思路是提高有雾图像的对比度和亮度实现去雾。基于图像增强的去雾算法有直方图均衡化，Retinex算法，小波变换，同态滤波，基于分数阶偏微分方程的图像增强算法；基于图像复原的去雾算法有暗通道先验，Fattal的单幅图像去雾算法，Tan的单一图像去雾算法，Tarel的快速图像恢复算法，贝叶斯去雾算法。深度学习大规模普及后，许多基于卷积神经网络的去雾方法被相继提出。但基于神经网络的去无雾算法也分为两类，一类是基于大气散射模型，通过神经网络的强大学习能力，学习的到透射率t和大气光A，然后通过大气散射模型去实现雾的去除，代表的方法有DehazeNet和密连金字塔去雾网络。第二类是网络直接学习有雾图像和去雾图像的映射关系，代表的方法有All-in-OneNet，GCANet，Cycle-Dehaze等网络。

通过上述分析，现有技术存在的问题及缺陷为：卷积神经网络在去雾的过程中只能对近程的图像特征进行建模，对于远程的图像特征无法做到有效的建模。

发明内容

为了解决上述问题，本发明是设计了一种单幅图像去雾方法，该方法结合动态卷积模块和Transformer模块。动态卷积根据输入变换卷积核的参数，Transformer捕获有雾特征图之间的关系，将两者集合用于去雾取得了较好的结果；同时加入注意力机制，使模型能够关注到有雾区域；模型设计基于编码器解码器架构，将有雾图像经过编码器进行编码，再经过解码器进行解码得到去雾图像；在模型中加入门控模块，融合不同阶段的提取的特征图；解码器采用转置卷积将特征图的大小恢复到原始的分辨率；在最后加入跳接结构，网络的梯度得到更快的更新。

进一步，所述单幅图像去雾方法包括如下步骤：

步骤一：构建训练用的数据集；

步骤二：搭建实现图像去雾的网络模型：网络模型是基于U-Net结构，在编码区先经过三个深度可分离模块用来提取有雾图像的浅层特征，编码区域的后端使动态卷积模块和transformer模块并行，在并行的过程中将他们的特征进行融合，最后使用门控模块将低中高三组特征进行融合生成编码模块的最终特征。解码区域采用两个反卷积模块进行上采样，在特征进入反卷积模块之前，使用跳接结构，将初级特征经过通道和像素注意力模块和进入反卷积模块的特征相加，最后采用一个普通卷积层，将通道数降为3通道，再将该特征图和原始的有雾图像相加得到最终的去雾图像；

步骤三：使用SmoothL1损失和对比损失通过最小化误差来优化整个网络，如下式：

其中：x代表去雾图像：

其中：wi是权重系数，I代表有雾图像；

D代表L1距离，G_i代表代表从VGG19预训练网络中第i层提取到的隐藏层特征，代表有雾图像经过去雾网络生成的无雾图像，w代表网络的权重，n代表n个隐藏层；

步骤四：训练上述的去雾网络模型；

步骤五：测试：将待进行去雾处理的雾图输入到步骤四训练好的的网络模型中，最后输出的图像即为去雾图像。

进一步，在步骤二中，动态卷积模块包括动态密集残差块，动态卷积层，通道注意力，像素注意力和跳接结构；

动态密集残差块，是由3个动态卷积层和最终卷积核尺寸为1*1的动态卷积层和跳接结构构成；

动态卷积层是将4个不同的卷积核进行注意力加权组合形成最后的卷积核，动态卷积的过程表示为：

其中C表示动态卷积操作，W(x)表示样本自适应生成的卷积核参数，K表示生成的权重个数，A_k(x)表示第k个注意力权值，W_k表示第k个个卷积核参数。

进一步，在步骤二中，通道注意力是先将特征经过全局平均池化，一个卷积层将特征降为原来的1/8，经过relu激活函数，一个卷积层将特征的通道数恢复到原始通道数，在经过sigmoid激活函数生成通道权重，将原始的特征和权重进行逐元素相乘，表示为：

F^r＝sigmoid(conv(relu(conv(gap(x)))))*x

其中gap表示全局平均池化，conv代表卷积操作，relu代表ReLU激活函数，sigmoid代表Sigmoid激活函数，F^r代表生成后特征；

像素注意力是先将特征经过一个卷积操作将通道数降为原来的1/8，经过relu激活函数，经过卷积操作将通道数降为1，经过sigmoid生成权重，表示为：

F^r＝sigmoid(conv(relu(conv(x))))*x

Transformer模块由层归一化，MDTA模块和GDFN模块组成，MDTA模块是一个多头注意力模块，对特征图生成相应的Q，K，V，根据Q和K来对V进行加权，加入跳接结构；GDFN是门控深度卷积前馈网，由卷积核为1*1的卷积，卷积核为3*3的深度卷积，gelu激活函数和跳接结构组成。

进一步，所述步骤二中的融合模块是一个卷积层，将经过tranformer模块的特征和经过动态卷积模块的特征进行融合，表示为：

F＝conv(cat(x1，x2))

其中x1表示经过了transformer块产生的特征图，x2是经过了卷积模块产生的特征图，cat代表拼接操作，将特征图x1和x2按照通道进行拼接，conv代表卷积操作。

进一步，所述步骤二中的门控模块是一个卷积层，输入是低，中，高三组特征，输出通道数3，即生成三组特征各自对应的权重，然后按照权重将他们相乘求和得到上下文融合特征，表示为：

其中x^l，x^m，x^h分别代表低中高三种特征，gate是门控模块，特征经过产生对应的权重，经权重和原始的特征相乘求和得到了融合的特征；

本发明的目的在于提供一种实施所述单幅图像去雾方法的单幅图像去雾***，所述单幅图像去雾***包括：

图像缩放模块，用于获取到有雾图像，将图像缩放为256*256的分辨率；

参数加载模块，用于加载经过训练后的模型参数；

图像处理模块，用于将有雾图像输入到网络中就可得到去雾图像。

结合上述的技术方案和解决的技术问题，本发明所要保护的技术方案所具备的优点及积极效果为：

第一、针对上述现有技术存在的技术问题以及解决该问题的难度，紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等，详细、深刻地分析本发明技术方案如何解决的技术问题，解决问题之后带来的一些具备创造性的技术效果。具体描述如下：结合动态卷积模块和Transformer模块，动态卷积能够根据输入变换卷积核的参数，Transformer能够捕获有雾特征图之间的关系，将两者集合用于去雾取得了较好的结果。同时在两个模块中加入注意力机制，使模型能够关注到有雾区域。模型设计基于编码器解码器架构，将有雾图像经过编码器进行编码，然后再经过解码器进行解码得到去雾图像。在模型的设计中加入了门控模块，可以融合不同阶段的提取的特征图，有利于去雾效果的提升。解码器的设计采用转置卷积将特征图的大小恢复到原始的分辨率，在最后加入跳接结构，是网络的梯度得到更快的更新，缓解网络过深产生梯度消失与梯度弥散，使模型更容易收敛。由于添加了注意力机制，网络可以根据图像的输入给不同浓度的雾分分配不同的权重，从而实现雾霾的去除。使用步骤：第一步，获取到有雾图像；第二步，将图像缩放为256*256的分辨率；第三步，加载经过训练后的模型参数；第四步，将有雾图像输入到网络中就可得到去雾图像。

第二，采用并行动态卷积和transformer块，在两个模块中加入了通道注意力与像素注意力，使网络能很好的注意到图像中的有雾区域，并对有雾区域进行注意。动态卷积可以根据输入动态的调整卷积核，所以在网络设计的过程中采用动态卷积这种设计。集体的参考了Reformer的结构形成了Transformer块，Transformer包括MDTA模块和GDFN模块，这种transformer模块可已捕捉到去雾特征的长程信息。将动态卷积取得的特征和transformer取得的特征进行融合，有利于形成更好的去雾特征，实现去雾性能的提升。

第三，本发明将Transformer块引入网络，实现了Transformer在图像去雾领域的应用，使得CNN和Transformer能够相互补充实现去雾效果提升。

附图说明

图1是本发明实施例提供的单图像去雾方法流程图；

图2是本发明实施例提供的单图像去雾方法原理图；

图3是本发明实施例提供的Transformer模块框图；

图4是本发明实施例提供的MDTA模块框图；

图5是本发明实施例提供的GDFN模块框图；

图6是本发明实施例提供的动态残差模块框图；

图7是本发明实施例提供的SOTS测试集的部分结果示意图；

图8、图9是本发明实施例提供的NH-HAZE的五张测试图像示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，本发明实施例提供的单幅图像去雾方法包括以下步骤：

S101：获取到有雾图像；

S102：将图像缩放为256*256的分辨率；

S103：加载经过训练后的模型参数；

S104：将有雾图像输入到网络中就可得到去雾图像。

本发明实施例提供的基于动态卷积和transformer的单幅图像去雾方法，包括以下步骤：

步骤1、训练用数据集构建：本发明选择Reside数据集和NH-HAZE数据集作为训练集。具体来说，采用reside数据集中的ITS数据子集作为训练集，该数据集有1399张清晰室内图像组成，选择不同的透射率和大气光将每张清晰图像合成10张有雾图像，将这些有雾图像和清晰图像对作为训练集；NH-HAZE数据集由于图像数量较少，因此通过对原图的裁剪扩充数据集，最终将数据集的有雾无雾图像对扩展到了3877对。Reside数据集的测试图像采用SOTS数据集(Reside数据集的子集)，NH-HAZE数据集的测试图像取数据集中最后5张图像。

步骤2：搭建实现图像去雾的网络。

网络整体结构如图2所示，该网络基于U-Net结构。

在编码区采用Transformer模块如图3所示，Transformer模块的MDTA模块如图4所示，Transformer模块的GDFN模块如图5所示，动态残差模块如图6所示，的并对他们的特征进行融合。解码区采用转置卷积将特征图的分辨率恢复到原始分辨率。具体的编码区域，首先使用3个深度可分离卷积模块用于提取初级的雾图特征。然后将特征输入并行的动态卷积模块和transformer模块，动态卷积模块和transformer模块共三组，在每组的特征输出后，将这样的特征组合形成组合特征并输入下一组。在编码模块的最后通过门控融合模块，将3组并行模块的特征进行聚合最为最终的编码输出。

具体的解码区域包括反卷积模块和普通卷积模块。在特征进入反卷积模块之前，将编码器模块的输出特征和初级雾图特征经过通道注意力和像素注意力的特征相加输入反卷积模块。经过2个反卷积模块特征的分辨率被提升到原始分辨率，然后将该特征图和经过第一深度卷积模块的特征经过通道注意力和像素注意力相加输入到最后一个普通卷积层，将该卷积层的输出与原始的有雾图像相加得到最后的去雾图像。

步骤3，确定损失函数，本发明设置对比损失的权重为1，即整体的损失函数为SmoothL1损失加上对比损失。具体的对比损失函数是将去雾图像，有雾图像和无雾图像输入到vgg19网络中，采用vgg19网络中的2,7,12,21,30层输出的特征图，对应的权重分别为1/32，1/16，1/8，1/4，1构成了最终的对比损失函数。

步骤4，训练上述的去雾模型。在训练过程中通过损失函数的计算损失，不断更新迭代更新网络参数，最终得到优化的去雾模型，进行图像去雾。

步骤5，测试。将测试集中的有雾图像和无雾图像对输入到去雾网络中，得到的输出图像即为去雾图像。评估指标采用峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似度(Structural Similarity,SSIM)。

实施例1：

本发明是一种基于动态卷积模块和transformer模块的单幅图像去雾雾算法，所述的单幅图像去雾方法包括如下步骤：

步骤1：构建训练用的数据集；

步骤2：搭建实现图像去雾的网络模型：网络模型是基于U-Net结构，在编码区先经过三个深度可分离模块用来提取有雾图像的浅层特征，编码区域的后端使动态卷积模块和transformer模块并行，在并行的过程中将他们的特征进行融合，最后使用门控模块将低中高三组特征进行融合生成编码模块的最终特征。解码区域采用两个反卷积模块进行上采样，在特征进入反卷积模块之前，使用跳接结构，将初级特征经过通道和像素注意力模块和进入反卷积模块的特征相加，最后采用一个普通卷积层，将通道数降为3通道，再将该特征图和原始的有雾图像相加得到最终的去雾图像。

步骤3：使用SmoothL1损失和对比损失通过最小化误差来优化整个网络，如下式：

其中：x代表去雾图像：

其中：wi是权重系数，I代表有雾图像；

步骤4：训练上述的去雾网络模型；

步骤5：测试：将待进行去雾处理的雾图输入到步骤4训练好的的网络模型中，最后输出的图像即为去雾图像。

在步骤2中，动态卷积模块包括动态密集残差块，动态卷积层，通道注意力，像素注意力和跳接结构。

动态卷积层是将4个不同的卷积核进行注意力加权组合形成最后的卷积核，动态卷积的过程可表示为：

其中C表示动态卷积操作，W(x)表示样本自适应生成的卷积核参数，K表示生成的权重个数，A_k(x)表示第k个注意力权值，W_k表示第k个个卷积核参数；

通道注意力是先将特征经过全局平均池化，一个卷积层将特征降为原来的1/8，经过relu激活函数，一个卷积层将特征的通道数恢复到原始通道数，在经过sigmoid激活函数生成通道权重，将原始的特征和权重进行逐元素相乘，可表示为：

F^r＝sigmoid(conv(relu(conv(gap(x)))))*x

像素注意力是先将特征经过一个卷积操作将通道数降为原来的1/8，经过relu激活函数，经过卷积操作将通道数降为1，经过sigmoid生成权重，可表示为：

F^r＝sog,pod(conv(relu(conv(c))))*x

其中conv，relu，sogmoid，F^r同上面所述；

Transformer模块由层归一化，MDTA模块和GDFN模块组成。MDTA模块是一个多头注意力模块，可对特征图生成相应的Q，K，V，根据Q和K来对V进行加权，加入跳接结构。GDFN是门控深度卷积前馈网，主要由卷积核为1*1的卷积，卷积核为3*3的深度卷积，gelu激活函数和跳接结构组成。

步骤2中的融合模块是一个卷积层，将经过tranformer模块的特征和经过动态卷积模块的特征进行融合，可表示为：

F＝conv(cat(x1，x2))

其中x1表示经过了transformer块产生的特征图，x2是经过了卷积模块产生的特征图，cat代表拼接操作，将特征图x1和x2按照通道进行拼接，conv代表卷积操作；

步骤2中的门控模块是一个卷积层，它的输入是低，中，高三组特征，它的输出通道数3，即生成三组特征各自对应的权重，然后按照权重将他们相乘求和得到上下文融合特征，可表示为：

其中x^l，x^m，x^h分别代表低中高三种特征，gate是门控模块，特征经过它可以产生对应的权重，经权重和原始的特征相乘求和得到了融合的特征；

本发明实施例提供的单幅图像去雾***包括：

参数加载模块，用于加载经过训练后的模型参数；

通过以上的模型设计、实现、训练。本发明测试测模型在测试集的去雾效果来作为应用实例。

测试集去雾结果展示。图像去雾模型在SOTS测试集500张图像视觉结果如图7所示，只展示了五张测试照片。在该数据集求得的平均峰值信噪比为27.0256，平均结构相似度为0.9330。最高峰值信噪比为33.472，最高的结构相似度为0.9831。实现了较好的去雾结果。在NH-HAZE测试的五张图像的视觉结果如图8所示，五张图像的平均峰值信噪比和结构相似度分别为17.525和0.6119。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种单幅图像去雾方法，其特征在于，所述单幅图像去雾方法结合动态卷积模块和Transformer模块，动态卷积根据输入变换卷积核的参数，Transformer捕获有雾特征图之间的关系，将两者集合用于去雾取得了较好的结果；同时加入注意力机制，使模型能够关注到有雾区域；模型设计基于编码器解码器架构，将有雾图像经过编码器进行编码，再经过解码器进行解码得到去雾图像；在模型中加入门控模块，融合不同阶段的提取的特征图；解码器采用转置卷积将特征图的大小恢复到原始的分辨率；在最后加入跳接结构，网络的梯度得到更快的更新。

2.如权利要求1所述的单幅图像去雾方法，其特征在于，所述单幅图像去雾方法包括如下步骤：

步骤一：构建训练用的数据集；

步骤二：搭建实现图像去雾的网络模型：网络模型是基于U-Net结构，在编码区先经过三个深度可分离模块用来提取有雾图像的浅层特征，编码区域的后端使动态卷积模块和transformer模块并行，在并行的过程中将他们的特征进行融合，最后使用门控模块将低中高三组特征进行融合生成编码模块的最终特征；解码区域采用两个反卷积模块进行上采样，在特征进入反卷积模块之前，使用跳接结构，将初级特征经过通道和像素注意力模块和进入反卷积模块的特征相加，最后采用一个普通卷积层，将通道数降为3通道，再将该特征图和原始的有雾图像相加得到最终的去雾图像；

其中：x代表去雾图像：

其中：w_i是权重系数，I代表有雾图像；

步骤四：训练上述的去雾网络模型；

3.如权利要求2所述的单幅图像去雾方法，其特征在于，在步骤二中，动态卷积模块包括动态密集残差块，动态卷积层，通道注意力，像素注意力和跳接结构；

4.如权利要求3所述的单幅图像去雾方法，其特征在于，在步骤二中，通道注意力是先将特征经过全局平均池化，一个卷积层将特征降为原来的1/8，经过relu激活函数，一个卷积层将特征的通道数恢复到原始通道数，在经过sigmoid激活函数生成通道权重，将原始的特征和权重进行逐元素相乘，表示为：

F^r＝sigmoid(conv(relu(conv(gap(x)))))*x

F^r＝sigmoid(conv(relu(conv(x))))*x

5.如权利要求2所述的单幅图像去雾方法，其特征在于，所述步骤二中的融合模块是一个卷积层，将经过tranformer模块的特征和经过动态卷积模块的特征进行融合，表示为：

F＝conv(cat(x1，x2))

6.如权利要求2所述的单幅图像去雾方法，其特征在于，所述步骤二中的门控模块是一个卷积层，输入是低，中，高三组特征，输出通道数3，即生成三组特征各自对应的权重，然后按照权重将他们相乘求和得到上下文融合特征，表示为：

[0026]

其中x^l，x^m，x^h分别代表低中高三种特征，gate是门控模块，特征经过产生对应的权重，经权重和原始的特征相乘求和得到了融合的特征。

7.一种实施权利要求1～6任意一项所述单幅图像去雾方法的单幅图像去雾***，其特征在于，所述单幅图像去雾***包括：

参数加载模块，用于加载经过训练后的模型参数；