CN115578638A - 一种基于U-Net的多层次特征交互去雾网络的构建方法 - Google Patents

一种基于U-Net的多层次特征交互去雾网络的构建方法 Download PDF

Info

Publication number
CN115578638A
CN115578638A CN202211340900.1A CN202211340900A CN115578638A CN 115578638 A CN115578638 A CN 115578638A CN 202211340900 A CN202211340900 A CN 202211340900A CN 115578638 A CN115578638 A CN 115578638A
Authority
CN
China
Prior art keywords
feature
layer
image
local information
fusion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211340900.1A
Other languages
English (en)
Inventor
孙航
李勃辉
但志平
余梅
郑锐林
杨雯
方帅领
刘致远
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202211340900.1A priority Critical patent/CN115578638A/zh
Publication of CN115578638A publication Critical patent/CN115578638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

一种基于U‑Net的多层次特征交互去雾网络的构建方法,该网络的基础框架为U型架构,其中包括多层次特征交互模块和通道非局部信息增强注意力模块。给U型网络架构输入有雾图像,进行卷积下采样的分别得到EB1,EB2,EB3,之后通过多层次特征模块将EB1,EB2,EB3进行特征融合得到融合特征EF1,EF2,EF3。将上一步得到的融合特征通过通道非局部信息增强注意力模块之后分别与解码阶段DB1,DB2,DB3相融合,再通过上采样得到最终的去雾图像。在浓雾、非均雾图像以及尺度变化较大的遥感图像上,本发明所提的方法能够恢复出具有更好的颜色、亮度以及细节信息的去雾图像。

Description

一种基于U-Net的多层次特征交互去雾网络的构建方法
技术领域
本发明属于图像处理领域,具体涉及一种基于U-Net的多层次特征交互去雾网络的构建方法。
背景技术
雾霾是由大气中的烟雾灰尘等微小颗粒产生的常见大气现象,雾霾是造成物体外观和对比度等视觉质量下降的重要因素。在雾天拍摄的图片往往会出现图像模糊、信息损失、对比度下降等问题,雾霾会严重损失图像信息对众多高级视觉任务,诸如人脸识别、图像分割、目标检测、目标跟踪等任务产生负面影响。因此,在过去的十几年间,图像去雾任务在视觉领域中受到了广泛的关注。
目前,图像去雾算法主要分为两大类:基于参数估计的去雾方法和端到端的去雾方法。基于参数估计的去雾方法依赖于大气散射模型,通过预估全球大气光和传输图等参数来实现图像去雾。虽然基于先验的方法取得了显著的进展,但是在无约束条件下,这些基于中间参数估计的去雾方法容易产生较大误差,会出现大量伪影、颜色失真等图像退化现象。随着深度学习的发展,近年来,端到端的去雾方法成为了主流,研究人员提出了许多端到端的去雾方法,这些方法利用卷积神经网络直接学习有雾图像到无雾图像之间的映射关系,不需要估计任何中间参数。Qing等人发表的《Enhanced Pix2pix Dehazing Network》,以U型网络基础提出了一种增强pix2pix去雾算法构建了多分辨率生成器和多尺度判别器,在多分辨率生成器末端设计了增强模块,增强了图像纹理和色彩上的恢复效果。Done等人发表了《Multi-Scale Boosted Dehazing Network with Dense Feature Fusion》提出了MSBDN去雾网络,该模型结合U型架构和密集特征融合,在编码层和解码层上分别进行密集跳连接,达到了优秀的去雾性能。Wu等人发表的《Contrastive Learning for CompactSingle Image Dehazing》提出了一种基于对比学习思想的去雾网络AECR-Net,该模型基于U型架构基础,其算法在表示空间上将网络去雾后图像与正样本GT图像拉近,与输入有雾图像推远,进一步提升了去雾效果。Qing等人发表的《FFA-Net:Feature Fusion AttentionNetwork for Single Image Dehazing》提出一种特征融合注意网络FFA-Net,该方法利用通道注意力和像素注意力在特征图的空间维度和通道维度上分配权重,取得了良好的去雾性能。
虽然基于深度学习的端到端去雾方法取得了优秀的去雾性能。然而,当使用U型网络和非U型网络进行图像去雾时,依然存在以下几个问题。
(1)大多数去雾算法的采用U型网络结构,直接将解码层与对应尺度的编码层进行融合,不仅忽视了不同编码层信息的有效利用,而且存在特征信息稀释的问题,从而导致去雾图像恢复的边缘细节和整体场景(颜色、亮度等)等方面不够理想。
通道注意力中的两层全连接的降维操作会对特征通道权重预测产生负面影响,从而降低去雾网络的性能。
发明内容
本发明的目的是为了解决现有技术在使用U型网络进行图像去雾时,直接将解码层与对应尺度的编码层进行融合,缺乏不同层次编码层信息的有效利用的技术问题,以及基于u型网络结构模型的下采样会破坏图像的空间细节信息,上采样的过程中存在特征稀释问题;此外,本发明还能解决SE通道注意力中的两层全连接的降维操作会对特征通道权重预测产生负面影响,降低去雾网络性能的技术问题,而提供的一种多层次特征交互和高效的通道非局部信息增强注意力的图像去雾方法。
一种基于U-Net的多层次特征交互去雾网络的构建方法,它包括以下步骤:
步骤S1:构建U型图像去雾网络,该网络包括:编码层特征提取模块、特征修复模块、解码层图像恢复模块、单特征-通道非局部信息增强注意力模块SF-NEA、多特征-通道非局部信息增强注意力模块MF-NEA;
步骤S2:构建通道非局部信息增强注意力模块NEA添加到U型网络中,增强去雾网络性能,该模块包含两个子模块,分别是单特征-通道非局部信息增强注意力模块SF-NEA和多特征-通道非局部信息增强注意力模块MF-NEA;
步骤S3:将有雾图像送入U型图像去雾网络,通过多层次特征融合模块和通道非局部信息增强注意力模块,最终输出清晰的无雾图像,最后利用输出的清晰图像来计算损失,约束网络的训练;
通过以上步骤对基于U-Net的多层次特征交互去雾网络进行构建。
在步骤S1中,构建的U型图像去雾网络如下:
编码层特征提取模块的第一层EB1→InstanceNorm层IN1→编码层特征提取模块的第二层EB2→InstanceNormIN2→编码层特征提取模块的第三层EB3→InstanceNorm层IN3;
InstanceNorm层IN1,InstanceNorm层IN2,InstanceNorm层IN3→第三个多层次特征交互模块MFS3→得到融合特征EF3→第三个多特征通道非局部信息增强注意力MF-NEA3;
第三个多特征通道非局部信息增强注意力MF-NEA3,解码恢复层DB3→融合操作→第一个反卷积层→InstanceNorm层IN4→SF-NEA模块→解码恢复层DB2;
InstanceNorm层IN2,InstanceNorm层IN1,InstanceNorm层IN3→第二个多层次特征交互模块MFS2→得到融合特征EF2→第二个多特征通道非局部信息增强注意力MF-NEA2;
第二个多特征通道非局部信息增强注意力MF-NEA2,解码恢复层DB2→融合操作→第二个反卷积层→InstanceNorm层IN5→SF-NEA模块→解码恢复层DB1;
InstanceNorm层IN3,InstanceNorm层IN2,InstanceNorm层IN1→第一个多层次特征交互模块MFS1→得到融合特征EF1→第一个多特征通道非局部信息增强注意力MF-NEA1;
第一个多特征通道非局部信息增强注意力MF-NEA1,解码恢复层DB1→融合操作→第三个反卷积层→无雾图像。
MFS3的具体操作为:对InstanceNorm层IN3进行1*1Convolution,对InstanceNorm层IN2进行3*3的Convolution,对InstanceNorm层IN1进行3*3的Convolution→融合操作;
其中,MFS2的具体操作为:对InstanceNorm层IN2进行1*1Convolution,3*3的Convolution,对InstanceNorm层IN3进行3*3的Convolution transpose→融合操作;
其中,MSF1的具体操作为:对InstanceNorm层IN1进行1*1Convolution,对InstanceNorm层IN2进行3*3的Convolution transpose,对InstanceNorm层IN3进行3*3的Convolution transpose→融合操作。
在步骤S2中通道非局部信息增强注意力模块中的单特征-通道非局部信息增强注意力模块SF-NEA结构如下:
输入特征F→经过全局平均池化GAP操作→通道描述符向量S→1D卷积操作→包含局部信息的向量Slc
通道描述符向量S→转置操作得到通道描述符的转置向量ST→通道描述符向量S,通道描述符的转置向量ST经过点乘操作→包含非局部信息的向量Sgc
包含非局部信息的向量Sgc,包含局部信息的向量Slc→融合操作→1D卷积操作→特征分配权重W;
特征分配权重W,输入特征图F→逐像素相乘操作→特征图F*
在步骤S3中通道非局部信息增强注意力模块中的多特征-通道非局部信息增强注意力模块MF-NEA结构如下:
多层次特征EC1,EC2,EC→融合操作→融合特征EF→全局平均池化→三个1D卷积操作→包含局部信息的
Figure BDA0003916240670000031
融合特征通道描述符SEF→转置操作得到融合特征通道描述符转置
Figure BDA0003916240670000032
→融合特征通道描述符SEF
Figure BDA0003916240670000033
进行点乘操作→包含非局部信息的向量;
包含局部信息的向量
Figure BDA0003916240670000034
分别与包含非局部信息的向量相加→经过三个1D卷积操作→包含局部信息的向量
Figure BDA0003916240670000035
→Concat操作→Softmax激活函数→得到W1,W2,W3权重→W1与输入特征Ec1相乘,W2与输入特征Ec2相乘,W3与输入特征Ec3分别对应相乘→融合操作→融合特征F。
在步骤S4中,所述多层次特征交互和高效的通道非局部信息增强注意力的图像去雾网络、多层次特征融合模块和通道非局部信息增强注意力模块在使用时采用以下步骤:
步骤1)将有雾图像输入U型图像去雾网络;
步骤2)将U型网络所提取的特征信息输入到多层次特征融合模块,得到融合特征;
步骤3)将融合特征分别和相对应编码层融合,获取具有更多细节纹理语义的特征,并且通过通道非局部信息增强注意力模块提升去雾网络性能,得到最后的输出清晰无雾图像;
步骤4)使用四种损失约束网络训练的过程。
在步骤4)中,四种损失约束如下:
(1)L1损失,具体公式为:
Figure BDA0003916240670000041
xi和yi分别代表有雾图像和GT图像在像素i处的值,G()代表去雾网络参数,G(xi)代表输入图像i处的像素值然后经过去雾网络参数运算得到的值。N表示图像中的像素个数。
(2)感知损失,使用VGG16在ImageNet上的预训练模型进行计算感知损失,具体公式为:
Figure BDA0003916240670000042
其中x和y分别代表有雾图像和GT图像。i代表特征图的第i层,H代表特征图的长度,W代表特征图的宽度,C代表特征图的通道。其中Ci代表特征图第i层的通道,Wi代表特征图第i层的宽度,Hi代表特征图第i层的长度。φi(x)代表输入的有雾图像经过VGG16预训练模型后得到第i层大小为长度为Hi,宽度为Wi,通道数为Ci的特征图。||||表示L2范数,N表示在感知损失中使用VGG16预训练模型特征层的数量。
(3)多尺度结构相似度损失,具体公式为:
Figure BDA0003916240670000043
其中,x代表生成图像,y代表清晰图像。μxy分别代表生成图像和GT图像的均值。σxy分别代表标准差,σxy代表生成图像和清晰图像的协方差。βmγm表示两项相对重要性,C1,C2为常数项。M表示尺度的总数。
(4)对抗损失,具体公式为:
Figure BDA0003916240670000044
其中,D(y)表示将去雾后的图像y判断为清晰图像的概率,N代表图像总数。
整体网络的损失函数表示为:
Lloss=λ1Ladv2Ll13Lperc4Lms-ssim
其中λ1,λ2,λ3,λ4为每个损失函数的超参数。
与现有技术相比,本发明具有如下技术效果:
1)本发明提出了一种多层次特征交互和高效的通道非局部信息增强注意力的去雾网络,通过有效的编解码层信息交互和通道非局部信息增强注意力,实现了高质量的图像去雾结果,并且在RESIDE、Densehaze、NHhaze以及StateHaze1k等多个自然图像和遥感数据集上取得了最佳的性能;
2)本发明提出的多层次特征交互模块,在解码阶段的每一层特征中融合编码阶段的浅层和深层信息,减少特征信息稀释,能够有效改善去雾网络在细节、语义、场景信息恢复能力;
3)本发明提出的高效通道非局部信息增强注意力机制,利用ID卷积和非局部信息融合进行通道权重分配的有效学习,在减少学习参数量的同时,更好的strength对于去雾重要的通道特征,抑制不重要通道特征,从而提升网络去雾性能。
附图说明
下面结合附图和实施例对本发明作进一步说明:
图1为本发明实施例的整体网络结构图;
图2为图1中单特征-通道非局部信息增强注意力模块SF-NEA的结构示意图;
图3为图1中多特征-通道非局部信息增强注意力模块MF-NEA的结构示意图。
具体实施方式
如图1至图3所示,一种多层次特征交互和高效的通道非局部信息增强注意力的图像去雾网络的构建方法,包括以下步骤:
S1、构建U型图像去雾网络,该网络包括:编码层特征提取模块、特征修复模块、解码层图像恢复模块。
S2、构建多层次特征融合模块,利用S1中编码层特征提取模块所提取特征,将不同层次的特征进行融合。
S3、构建通道非局部信息增强注意力模块,该模块包含两个子模块,分别是单特征-通道非局部信息增强注意力模块(SF-NEA)和多特征-通道非局部信息增强注意力模块(MF-NEA)。
S4、将有雾图像送入U型图像去雾网络,通过多层次特征融合模块和通道非局部信息增强注意力模块,输出清晰的无雾图像,最后利用输出的清晰图像来计算损失,约束网络的训练。
步骤S1具体包括:
如图1所示,编码层特征提取模块,采用3次卷积操作进行4倍下采样进行特征提取。编码阶段的每一层由卷积层、激活层、Instance-Norm组成。其次,在提取的低分辨率特征上采用6个连续的残差块组合进一步强化的特征提取。最后,对连续残差块提取的包含大量语义场景信息的特征采用反卷积和卷积操作进行解码重建,恢复到原始图像分辨率。
构建多层次特征融合模块,利用S1中编码层特征提取模块所提取特征,将不同层次的特征进行融合。如图1中框选部分所示,多层次特征交互模块,以图1中EB2编码层为例,首先利用3*3的卷积核将EB1层进行下采样到EB2层相同分辨率,同时利用3*3的反卷积层将EB3层恢复到EB2层相同分辨率,最后对这些包含不同信息的特征融合得到特征EF2。本文提出的多层次特征交互模块有3个多层次交互过程,公式表达如下:
EF1=(Conv(EB1)+TConv(EB2)+TConv(EB3))
EF2=(Conv(EB1)+Conv(EB2)+TConv(EB3))
EF3=(Conv(EB1)+Conv(EB2)+Conv(EB3))
其中EBi代表第i层的编码特征,EFi代表第i层的融合特征,DBi代表第i层的解码层特征,我们的多层次特征交互模块有3个多层次交互过程,因此i属于{1,2,3},Conv和Tconv分别代表卷积和反卷积。本发明通过这种方式不仅将编码层浅层细节纹理和深层语义特征充分融合到各个解码层中,而且可以有效的缓解在解码阶段上采样过程中造成的特征稀释问题,最终达到改善去雾网络在细节、语义、场景信息的恢复能力的目的。
步骤S2具体包括:构建通道非局部信息增强注意力模块,包含两个子模块,分别是单特征-通道非局部信息增强注意力模块(SF-NEA)和多特征-通道非局部信息增强注意力模块(MF-NEA)。
如图2和图3所示,SF-NEA模块首先对特征进行全局平均池化和一维卷积操作捕获局部通道依赖关系。其次,利用自相关操作获取非局部信息,并融合到表示局部通道依赖关系的向量中,弥补非局部信息的缺失。最后,再次使用一维卷积操作进行特征通道的权重学习。单特征-NEA模块通过引入非局部通道信息和两次1D卷积的学习,能够挖掘更有效的特征通道信息用于特征图权重的分配。MF-NEA总体过程分为聚合-分散-聚合三个过程。第一次聚合是将不同层次的特征进行融合,获取具有更完善纹理、细节以及语义信息的融合特征。分散过程是根据融合特征统计量自适应的学习不同层次特征的权重,并将学习到的权重分配给对应层次的特征。第二次聚合是将不同层次特征的相同通道特征按照权重进行融合,用于去雾图像的重构。
步骤S3具体包括:
将有雾图像输入U型图像去雾网络,通过多层次特征融合模块,再通过多层次特征融合模块和通道非局部信息增强注意力模块,输出清晰的无雾图像,最后利用输出的清晰图像来计算损失最后,使用四种损失约束网络训练的过程四种损失约束如下:
第一种为L1损失,具体公式为:
Figure BDA0003916240670000061
xi和yi分别代表有雾图像和GT图像在像素i处的值,G()代表去雾网络参数,G(xi)代表输入图像i处的像素值然后经过去雾网络参数运算得到的值。N表示图像中的像素个数。
第二种为感知损失,使用VGG16在ImageNet上的预训练模型进行计算感知损失;具体公式为:
Figure BDA0003916240670000071
其中x和y分别代表有雾图像和GT图像。i代表特征图的第i层,H代表特征图的长度,W代表特征图的宽度,C代表特征图的通道。其中Ci代表特征图第i层的通道,Wi代表特征图第i层的宽度,Hi代表特征图第i层的长度。φi(x)代表输入的有雾图像经过VGG16预训练模型后得到第i层大小为长度为Hi,宽度为Wi,通道数为Ci的特征图。|| ||表示L2范数,N表示在感知损失中使用VGG16预训练模型特征层的数量。
第三种多尺度结构相似度损失,多尺度结构相似度损失,具体公式为:
Figure BDA0003916240670000072
其中,x代表生成图像,y代表清晰图像。μxy分别代表生成图像和GT图像的均值。σxy分别代表标准差,σxy代表生成图像和清晰图像的协方差。βmγm表示两项相对重要性,C1,C2为常数项。M表示尺度的总数。
第四种为对抗损失,具体公式为:
Figure BDA0003916240670000073
其中,D(y)表示将去雾后的图像y判断为清晰图像的概率,N代表图像总数。
整体网络的损失函数表示为:
Lloss=λ1Ladv2Ll13Lperc4Lms-ssim
其中λ1,λ2,λ3,λ4为每个损失函数的超参数,λ1=0.5,λ2=1,λ3=1,λ4=1。
实施例
1.参数设置
本发明的代码基于Pytorch框架实现,实验在NVIDIA RTX3090Ti GPU上进行,代码基于Pytorch框架实现。采用Adam优化器优化网络,学习率和批处理大小分别设置为0.001和8,动量衰减指数β1=0.9,β2=0.999。初始化学习率设置为0.001,采用余弦退火策略调整学习率,余弦函数半周期设置为5。此外,本发明在合成数据集RESIDE和NTIRE去雾挑战赛真实数据集DenseHaze、NHHaze21以及SateHaze1k遥感数据集上来评估各种去雾算法。在RESIDE数据集中,我们采用室外训练集OTS对网络进行训练,SOTS的outdoor作为测试集。其中,OTS包含8970清晰图片和313950张有雾图片,SOTS包含500张室内测试数据和室外测试数据集。DenseHaze包含45张稠密雾数据集,其中包含35张训练数据集,5张验证集,5张测试集。NHHaze2021包含25张非均匀有雾图像,由于其验证集和测试集GT图像还未公布,我们选取前20张作为训练集,剩余5张作为测试集用于评估。公开遥感数据集SateHaze1k包含三个子数据集,分别代表不同雾的浓度,其中Thin代表子数据集中的薄雾数据集,Moderate代表子数据集中的中浓雾数据集、Thick代表子数据集中的浓雾数据集。每个子训练集包含320张图像,验证集包含35张图像,测试集包含45张图像。为了验证本发明方法的正确性和有效性,增加目前优秀的去雾算法和本发明方法进行对比,这些方法如下:DCP、AOD-Net、GCA-Net、EPDN、Grideehaze-Net、MSBDN、FFA、AECR、TBN
2.实验结果
表1在SOTS-outdoor数据集和真实场景数据集上与SOTA方法的对比
Figure BDA0003916240670000081
我们的发明在SOTS(outdoor)数据集上取得了PSNR第一名,SSIM第二名的良好性能。如表1中第2列所示,基于端到端的去雾算法普遍优于基于参数估计的算法。在基于学习的方法中,我们的算法相比基于U型结构的EDPN、MSBDN、AECR在PSNR上分别提升了11.31db、1.72db、2.98db,在SSIM上分别提升了0.118、0.005、0.013。这些算法仅仅融合其对应的编解码特征或者分别在编码层解码层上进行密集连接进行特征融合,忽视了编码层阶段各个层之间的利用,我们的算法融合了不同层次的编码特征,利用所提出的注意力挖掘对于去雾更重要的通道,提升了网络去雾性能并能生成更高质量的去雾图像。此外,本发明提出的去雾算法在浓雾(Dense-haze)和非均匀雾数据集(NH-haze21)上分别达到18.34db PSNR、0.609SSIM和23.47db PSNR、0.873SSIM,均优于所有对比的去雾方法,取得了优秀的性能。
3.消融分析
为了评估发明各个模块的有效性,本发明按照对框架的创新和注意力的创新设计了消融实验。其中共包含7个实验:(1)Base表示U型基础框架,其主要由两个下采样层、六个残差块和两个上采样层构成,其中编码层和解码层之间直接利用跳越连接。(2)Base+1MFS:基础框架+一个多尺度特征融合跳越连接(3)Base+2MFS:基础框架+两个多尺度特征融合跳跃连接(4)Base+3MFS:基础框架+三个多尺度特征融合跳跃连接(5)Base+3MFS+CA:基础框架+三个多尺度特征融合跳跃连接+CA+PA(6)Base+3MFS+ECA:在基础框架+三个多尺度特征融合跳跃连接+ECA+PA(7)Base+3MFS+NEA:在基础框架+三个多尺度特征融合跳跃连接+NEA+PA。
表2在SOTS室外数据集上的PSNR和SSIM结果
Figure BDA0003916240670000091
消融实验实在SOTS室外数据集上进行测试,对比了上述的七个实验,其中PSNR和SSIM结果如表所示。首先基础的Base框架在PSNR和SSIM上取得了29.55和0.963的成绩。在基准Base的基础上,我们加入一个多尺度特征融合跳连,在指标上PSNR取得了2.03dB的提升,SSIM取得了0.005的提升。而通过不断的添加多尺度特征融合跳跃连接,PSNR逐步上涨,加上三个多尺度特征融合跳连在Base的基础上PSNR取得了2.66db的提升,SSIM取得了0.007的提升。该实验验证了多尺度特征融合跳连的有效性。其次,为了验证我们的注意力模块的性能,在融合三个多尺度特征融合跳的基础上,我们分别对比了CA、ECA和我们所提出注意力模型的结果。如表3所示,利用CA在三个特征融合跳基础上PSNR提升了1.3db,SSIM提升了0.008,利用ECA避免通道降维的方式,其性能略有提升。最后利用本文设计的高效的通道非局部信息增强注意力模型,相较于没有加注意力PSNR提升了1.67db,SSIM提升了0.011.相较于加入CA模块,PSNR提升了0.37db,SSIM提升了0.003。
本发明提出了一种基于多层次特征交互和高效的通道非局部信息增强注意力的单幅图像去雾算法,网络包含多层次特征融合模块和高效通道非局部信息增强注意力模块。多层次特征融合模块充分的利用了编码层不同层次的信息,高效通道非局部信息增强注意力模块通过加入全新信息指导充分的挖掘了更有效的通道特征。本发明验证了多尺度特征融的有效性,并且有效的提升网络的去雾效果,恢复出更高质量的清晰图像。

Claims (7)

1.一种基于U-Net的多层次特征交互去雾网络的构建方法,它包括以下步骤:
步骤S1:构建U型图像去雾网络;
步骤S2:构建通道非局部信息增强注意力模块NEA添加到U型网络中;
步骤S3:将有雾图像送入U型图像去雾网络,通过多层次特征融合模块和通道非局部信息增强注意力模块,最终输出清晰的无雾图像,最后利用输出的清晰图像来计算损失,约束网络的训练;
通过以上步骤对基于U-Net的多层次特征交互去雾网络进行构建。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,构建的U型图像去雾网络如下:
编码层特征提取模块的第一层EB1→InstanceNorm层IN1→编码层特征提取模块的第二层EB2→InstanceNormIN2→编码层特征提取模块的第三层EB3→InstanceNorm层IN3;
InstanceNorm层IN1,InstanceNorm层IN2,InstanceNorm层IN3→第三个多层次特征交互模块MFS3→得到融合特征EF3→第三个多特征通道非局部信息增强注意力MF-NEA3;
第三个多特征通道非局部信息增强注意力MF-NEA3,解码恢复层DB3→融合操作→第一个反卷积层→InstanceNorm层IN4→SF-NEA模块→解码恢复层DB2;
InstanceNorm层IN2,InstanceNorm层IN1,InstanceNorm层IN3→第二个多层次特征交互模块MFS2→得到融合特征EF2→第二个多特征通道非局部信息增强注意力MF-NEA2;
第二个多特征通道非局部信息增强注意力MF-NEA2,解码恢复层DB2→融合操作→第二个反卷积层→InstanceNorm层IN5→SF-NEA模块→解码恢复层DB1;
InstanceNorm层IN3,InstanceNorm层IN2,InstanceNorm层IN1→第一个多层次特征交互模块MFS1→得到融合特征EF1→第一个多特征通道非局部信息增强注意力MF-NEA1;
第一个多特征通道非局部信息增强注意力MF-NEA1,解码恢复层DB1→融合操作→第三个反卷积层→无雾图像。
3.根据权利要求1所述的方法,其特征在于,第三个多层次特征交互模块MFS3的具体操作为:对InstanceNorm层IN3进行1*1Convolution,对InstanceNorm层IN2进行3*3的Convolution,对InstanceNorm层IN1进行3*3的Convolution→融合操作;
其中,第二个多层次特征交互模块MFS2的具体操作为:对InstanceNorm层IN2进行1*1Convolution,3*3的Convolution,对InstanceNorm层IN3进行3*3的Convolutiontranspose→融合操作;
其中,第一个多层次特征交互模块MSF1的具体操作为:对InstanceNorm层IN1进行1*1Convolution,对InstanceNorm层IN2进行3*3的Convolution transpose,对InstanceNorm层IN3进行3*3的Convolution transpose→融合操作。
4.根据权利要求1所述的方法,其特征在于,如图2所示,在步骤S2中通道非局部信息增强注意力模块中的单特征-通道非局部信息增强注意力模块SF-NEA结构如下:
输入特征F→经过全局平均池化GAP操作→通道描述符向量S→1D卷积操作→包含局部信息的向量Slc
通道描述符向量S→转置操作得到通道描述符的转置向量ST→通道描述符向量S,通道描述符的转置向量ST经过点乘操作→包含非局部信息的向量Sgc
包含非局部信息的向量Sgc,包含局部信息的向量Slc→融合操作→1D卷积操作→特征分配权重W;
特征分配权重W,输入特征图F→逐像素相乘操作→特征图F*。
5.根据权利要求1所述的方法,其特征在于,在步骤S3中通道非局部信息增强注意力模块中的多特征-通道非局部信息增强注意力模块MF-NEA结构如下:
多层次特征EC1,EC2,EC→融合操作→融合特征EF→全局平均池化GAP操作→三个1D卷积操作→包含局部信息的向量
Figure FDA0003916240660000021
融合特征通道描述符SEF→转置操作得到融合特征通道描述符转置
Figure FDA0003916240660000022
→融合特征通道描述符SEF
Figure FDA0003916240660000023
进行点乘操作→包含非局部信息的向量;
包含局部信息的向量
Figure FDA0003916240660000024
→Concat操作→Softmax激活函数→得到W1,W2,W3权重→W1与输入特征Ec1相乘,W2与输入特征Ec2相乘,W3与输入特征Ec3分别对应相乘→融合操作→融合特征F。
6.根据权利要求1所述的方法,其特征在于,在步骤S1中,U型图像去雾网络包括:编码层特征提取模块、特征修复模块、解码层图像恢复模块、单特征-通道非局部信息增强注意力模块SF-NEA、多特征-通道非局部信息增强注意力模块MF-NEA;在步骤S2中,通道非局部信息增强注意力模块NEA包含两个子模块,分别是单特征-通道非局部信息增强注意力模块SF-NEA和多特征-通道非局部信息增强注意力模块MF-NEA。
7.根据权利要求1所述的方法,其特征在于,在步骤S4中,所述多层次特征交互和高效的通道非局部信息增强注意力的图像去雾网络、多层次特征融合模块和通道非局部信息增强注意力模块在使用时采用以下步骤:
步骤1)将有雾图像输入U型图像去雾网络;
步骤2)将U型网络所提取的特征信息输入到多层次特征融合模块,得到融合特征;
步骤3)将融合特征分别和相对应编码层融合,获取具有更多细节纹理语义的特征,并且通过通道非局部信息增强注意力模块提升去雾网络性能,得到最后的输出清晰无雾图像;
步骤4)使用四种损失约束网络训练的过程;
在步骤4)中,四种损失约束如下:
(1)L1损失,具体公式为:
Figure FDA0003916240660000031
xi和yi分别代表有雾图像和GT图像在像素i处的值,G(xi)代表输入图像i处的像素值然后经过去雾网络参数运算得到的值;N表示图像中的像素个数;
(2)感知损失,使用VGG16在ImageNet上的预训练模型进行计算感知损失;具体公式为:
Figure FDA0003916240660000032
其中x和y分别代表有雾图像和GT图像,i代表特征图的第i层,H代表特征图的长度,W代表特征图的宽度,C代表特征图的通道,其中Ci代表特征图第i层的通道,Wi代表特征图第i层的宽度,Hi代表特征图第i层的长度,φi(x)代表输入的有雾图像经过VGG16预训练模型后得到第i层大小为长度为Hi,宽度为Wi,通道数为Ci的特征图;|| ||表示L2范数,N表示在感知损失中使用VGG16预训练模型特征层的数量;
(3)多尺度结构相似度损失,具体公式为:
Figure FDA0003916240660000033
其中,x代表生成图像,y代表清晰图像,μxy分别代表生成图像和GT图像的均值,σxy分别代表标准差,σxy代表生成图像和清晰图像的协方差,βmγm表示两项相对重要性,C1,C2为常数项,M表示尺度的总数;
(4)对抗损失,具体公式为:
Figure FDA0003916240660000034
其中,D(y)表示将去雾后的图像y判断为清晰图像的概率,N代表图像总数,n表示从第一张图像开始;
整体网络的损失函数表示为:
Lloss=λ1Ladv2Ll13Lperc4Lms-ssim
其中λ1,λ2,λ3,λ4为每个损失函数的超参数。
CN202211340900.1A 2022-10-30 2022-10-30 一种基于U-Net的多层次特征交互去雾网络的构建方法 Pending CN115578638A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211340900.1A CN115578638A (zh) 2022-10-30 2022-10-30 一种基于U-Net的多层次特征交互去雾网络的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211340900.1A CN115578638A (zh) 2022-10-30 2022-10-30 一种基于U-Net的多层次特征交互去雾网络的构建方法

Publications (1)

Publication Number Publication Date
CN115578638A true CN115578638A (zh) 2023-01-06

Family

ID=84586215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211340900.1A Pending CN115578638A (zh) 2022-10-30 2022-10-30 一种基于U-Net的多层次特征交互去雾网络的构建方法

Country Status (1)

Country Link
CN (1) CN115578638A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115937647A (zh) * 2023-01-31 2023-04-07 西南石油大学 一种多特征融合的图像显著性检测方法
CN115937647B (zh) * 2023-01-31 2023-05-19 西南石油大学 一种多特征融合的图像显著性检测方法

Similar Documents

Publication Publication Date Title
CN111882002B (zh) 一种基于msf-am的低照度目标检测方法
CN110363716B (zh) 一种基于条件生成对抗网络复合降质图像高质量重建方法
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN113392711B (zh) 一种基于高层语义与噪声抑制的烟雾语义分割方法及***
CN112991350B (zh) 一种基于模态差异缩减的rgb-t图像语义分割方法
CN113870124B (zh) 基于弱监督的双网络互激励学习阴影去除方法
CN113066089B (zh) 一种基于注意力引导机制的实时图像语义分割方法
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、***及设备
CN115908205A (zh) 图像修复方法、装置、电子设备和存储介质
CN114842216A (zh) 一种基于小波变换的室内rgb-d图像语义分割方法
CN115578280A (zh) 一种双分支遥感图像去雾网络的构建方法
CN115565043A (zh) 结合多表征特征以及目标预测法进行目标检测的方法
CN116468605A (zh) 基于时空分层掩膜注意力融合的视频超分辨率重建方法
CN116205962A (zh) 基于完整上下文信息的单目深度估计方法及***
CN115578638A (zh) 一种基于U-Net的多层次特征交互去雾网络的构建方法
CN117952883A (zh) 一种基于双边网格和显著性引导的逆光图像增强方法
Quan et al. Deep learning-based image and video inpainting: A survey
CN113628143A (zh) 一种基于多尺度卷积的加权融合图像去雾方法及装置
CN117408924A (zh) 一种基于多重语义特征融合网络的低光照图像增强方法
CN117541505A (zh) 基于跨层注意力特征交互和多尺度通道注意力的去雾方法
CN117078553A (zh) 一种基于多尺度深度学习的图像去雾方法
CN117036436A (zh) 一种基于双编码器-解码器的单目深度估计方法及***
CN116703750A (zh) 基于边缘注意力和多阶微分损失的图像去雾方法及***
CN116597142A (zh) 基于全卷积神经网络与变换器的卫星图像语义分割方法及***
Kumar et al. Underwater image enhancement using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination