CN111275643A

CN111275643A - 基于通道和空间注意力的真实噪声盲去噪网络模型及方法

Info

Publication number: CN111275643A
Application number: CN202010064130.7A
Authority: CN
Inventors: 李小霞; 吕念祖; 肖娟; 王学渊; 王顺利
Original assignee: Southwest University of Science and Technology
Current assignee: Southwest University of Science and Technology
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-12
Anticipated expiration: 2040-01-20
Also published as: CN111275643B

Abstract

一种基于通道和空间注意力的真实噪声盲去噪网络模型及方法，该盲去噪网络模型包括加权特征提取模块，其通过自适应地调整通道重要性来提取待处理图像更具有判别性的像素特征；多路径残差密集模块，其提取有利于学习更具有判别性的像素特征复杂像素分布的多尺度特征并兼顾图像局部和全局细节信息的多层次特征；以及多尺度特征融合模块，其通过自适应加权融合多尺度特征和多层次特征以突出特征的空间和通道差异性，得到盲去噪后的图像。该网络模型能显著提高真实噪声图像的去噪性能，在真实图像去噪任务中具有更大的实际应用价值。

Description

基于通道和空间注意力的真实噪声盲去噪网络模型及方法

技术领域

本发明涉及图像去噪领域，具体涉及一种基于通道和空间注意力的真实噪声盲去噪网络模型及方法。

背景技术

图像去噪是低维视觉中的一项重要任务，也是一种不可或缺的图像预处理方法，其目的是从噪声图像中移除噪声从而恢复出一幅干净的图像。目前基于卷积神经网络(Convolutional neural network，CNN)的去噪方法表现尤其突出，但它们大多采用加性高斯白噪声(Add White Gaussian Noise，AWGN)来模拟真实噪声。而真实噪声来源广泛且远比AWGN复杂，且基于CNN的去噪方法的性能依赖于仿真采用的噪声(AWGN)与真实噪声的像素分布之间的匹配度，因此在AWGN图像去噪上表现良好的算法却在真实噪声图像上表现很差。

目前，已有一些去噪算法利用图像分布特征获得不错的性能，但仍存在以下三个问题：第一，所有通道特征均被同等对待，没有根据其重要性进行调整；第二，固定的感受野不能充分提取丰富的层次空间特征；第三，特征融合方式单一，如简单的像素相加和通道拼接，忽略了尺度特征的空间和通道特异性。

发明内容

有鉴于此，本发明的主要目的之一在于提出一种基于通道和空间注意力的真实噪声盲去噪网络模型及方法，以期至少部分地解决上述技术问题中的至少之一。

为了实现上述目的，作为本发明的一个方面，提供了一种基于通道和空间注意力的真实噪声盲去噪网络模型，包括：

加权特征提取模块，其通过自适应地调整通道重要性来提取待处理图像更具有判别性的像素特征；

多路径残差密集模块，其提取有利于学习更具有判别性的像素特征复杂像素分布的多尺度特征并兼顾图像局部和全局细节信息的多层次特征；以及

多尺度特征融合模块，其通过自适应加权融合多尺度特征和多层次特征以突出特征的空间和通道差异性，得到盲去噪后的图像。

作为本发明的另一个方面，还提供了一种建立盲去噪网络模型的方法，包括：

(1)输入待处理图像到如上所述的盲去噪网络；

(2)利用加权特征提取模块提取具有判别性的像素特征；

(3)将所述像素特征与待处理图像进行通道拼接形成一个两通道的特征图，以避免底层特征的丢失；

(4)所述两通道的特征图进入多路径残差密集模块获得多尺度特征和多层次特征；

(5)再利用多尺度特征融合模块以自适应加权融合多尺度特征，以突出特征的空间和通道差异性；

(6)输出预测到的干净图像；

(7)计算干净图像与预测到的干净图像之间的最小绝对值误差；

(8)重复步骤(1)至(7)以降低网络损失为目的来调整网络参数，使该网络性能达到最优，得到的最优网络模型即为所述盲去噪网络模型。

基于上述技术方案可知，本发明的基于通道和空间注意力的真实噪声盲去噪网络模型及方法相对于现有技术至少具有以下优势之一：

1、本发明方法能通过通道注意力机制自适应调整通道重要性以有效提取像素特征，通过多路径残差密集模块充分提取兼顾全局信息和局部细节信息的多尺度层次空间特征，同时通过空间注意力机制来自适应加权融合多尺度特征以突出特征的空间和通道特异性，从而在DND和NC12数据集中获得显著的性能提升和良好的视觉效果；

2、多尺度特征融合模块不同于简单的像素相加和通道拼接的特征融合方式，而是基于空间注意力机制自适应地加权融合不同尺度的特征，从而突出多尺度特征的空间和通道特异性；

3、该网络能显著提高真实噪声图像的去噪性能，在真实图像去噪任务中具有更大的实际应用价值。

附图说明

图1为本发明实施例中EDFNet网络模型结构示意图；

图2为本发明实施例中通道注意力机制的结构示意图；

图3为本发明实施例中残差密集模块的结构示意图；

图4为本发明实施例中多尺度特征融合模块的结构示意图；

图5为本发明实施例中DND数据集上去噪效果对比图；

图6为本发明实施例中图像CarlosV palace的去噪效果对比图；

图7为本发明实施例中图像woman的去噪效果对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明针对基于卷积神经网络的去噪方法在加性高斯白噪声(AWGN) 图像上表现突出，但在真实噪声图像上表现差的问题，本发明通过统计分析AWGN和真实噪声的像素直方图分布之间的差异，构建出一个基于注意力机制的有利于学习复杂像素分布特征的端到端盲去噪网络EDFNet。

本发明公开了一种盲去噪网络模型，包括：

在本发明的一些事实例中，所述加权特征提取模块包括：

卷积层，用于提取像素特征；

通道注意力机制，通过调整通道重要性提取待处理图像的更具有判别性的像素特征；以及

二维特征图，用于与输入的待处理图像进行通道拼接以加强底层特征的提取。

在本发明的一些事实例中，所述通道注意力机制包括：

全局平均池化层，用于忽略卷积层的每个通道内的局部信息，突出更有判别性的通道特征，得到1×1×c维张量；

第一全连接层，用于获得1×1×2维的张量；以及

第二全连接层，用于获得通道权重向量；

其中，1是特征维度，2和c是特征图中的通道个数。

在本发明的一些事实例中，所述的卷积层仅包括多个ReLU。

在本发明的一些事实例中，所述多路径残差密集模块包括多条并行的路径，其中，每条路径均包括：

一扩张卷积层，用于提取将输入噪声图像特征与经加权特征提取模块处理后的特征进行通道数拼接后获得的多尺度特征；以及

一残差密集块，用于提取多尺度特征的多层次特征。

在本发明的一些事实例中，所述残差密集块包括：

密集连接层，将经过扩张卷积层输出的特征图F₀和每一个块的输出F_i(i＝1～6)进行通道拼接；局部特征融合层，将特征图F₀，F₁，...，F₅，F₆进行通道连接以进一步增强局部信息，得到融合后的局部特征F_LFF；以及

局部残差学习层，将融合后的局部特征F_LFF和输入特征图F₀进行像素级求和获得局部融合特征F_LRL。

在本发明的一些事实例中，所述多尺度特征融合模块将多路径残差密集模块中每一条路径输出的特征求和后进行全局平均池化和两次全卷积操作。

在本发明的一些事实例中，所述加权特征提取模块基于通道注意力机制。

在本发明的一些事实例中，所述多尺度特征融合模块基于空间注意力机制。

本发明还公开了一种建立盲去噪网络模型的方法，包括：

(1)输入待处理图像到如上所述的盲去噪网络；

(2)利用加权特征提取模块提取具有判别性的像素特征；

(6)输出预测到的干净图像；

在一个示例性实施例中，本发明分析真实噪声图像和含有AWGN的图像的像素直方图分布之间的差异，提出一个能有效学习真实噪声图像复杂像素分布特征的端到端盲去噪网络EDFNet。该网络由基于通道注意力机制的加权特征提取模块(E)、包含空洞卷积和残差密集结构的多路径残差密集模块(D)以及多尺度特征融合模块(F)组成。加权特征提取模块通过自适应地调整通道重要性来提取出更具有判别性的底层像素特征；多路径残差密集模块采用多路径网络提取多个尺度特征，同时采用残差密集 (Residual Dense，RD)结构提取全局信息并保留局部细节信息。

在另一个示例性实施例中，为了提高对真实噪声图像的复杂像素分布特征的学习能力，本发明提出的端对端基于通道和空间注意力的真实噪声盲去噪网络模型(EDFNet网络模型)结构如图1所示。该网络有三个模块：用于提取更具有判别性的像素特征的加权特征提取模块(E)、用于提取有利于学习真实噪声图像复杂像素分布的多尺度特征的多路径残差密集模块(D)以及用于突出特征的空间和通道特异性的多尺度特征融合模块(F)。

如图1所示，加权特征提取模块(E)由5个带有ReLU的卷积层和一个通道注意力机制以及一个单通道的二维特征图组成，通道注意力机制用于加权提取像素级特征，二维特征图用于与输入x_i进行通道拼接以加强底层特征的提取，图1中x_i是输入的待处理图像，y_i是输出的去噪后的图像，k代表卷积核大小，其他未被指定的k均默认为“3×3”，“1”、“2”和“32” 分别代表特征图的通道数c，r代表扩张率。整个网络为了避免底层像素特征的丢失，E的输出先与输入x_i进行通道拼接后再进入D。

其中，设计的通道注意力机制(CA)的结构如图2所示，包括全局平均池化层、第一全连接层FC₁、第二全连接层FC₂。通道注意力机制通过将特征图A中的c个通道与学***均池化层(Global average pooling， GAP)被用来得到1×1×c维张量V，1是特征维度，第一全连接层FC1(Fully connected，FC)操作获得1×1×2维的张量，第二全连接层FC₂操作获得通道权重向量u。其数学模型如公式(1)所示，其中×表示特征图A与权重u之间的乘法运算，ReLU代表激活函数，Sigmoid代表激活函数：

A′＝A×u

＝A×Sigmoid{FC₂[ReLU[FC₁(GAP(A))]]}； (1)

由图1可知，设计的多路径残差密集模块(D)由四条并行的路径组成，每一条路径包含一扩张卷积层和一个残差密集块。其中，扩张卷积层用于提取多尺度特征；残差密集块用于提取多层次特征；第一条路径的卷积核大小k＝1×1、扩张率r＝1，其余三条路径上的卷积核大小k＝3×3、扩张率r分别为3、5和7。

其中残差密集块的结构如图3所示，与被广泛应用于高级计算机视觉任务的DenseNet不同，该残差密集块包含密集连接层、局部特征融合层(Local feature fusion，LFF)和局部残差学习层(Local residual learning， LRL)，可充分提取多层次特征，非常适合图像恢复类的任务，其中，密集连接层包括6个密集连接块，每个密集连接块由三个卷积层组合而成。使用跳线连接结构将前面各个密集连接块的输出和当前密集连接块的输出连接起来一起作为下一个密集连接块的输入。由于去除批次归一化 (BatchNormalization，BN)和池化更有利于特征的保留，因此每个卷积层仅有一个ReLU(线性整流单元)。令该密集连接块输入的输入特征图为 F₀，每个密集连接输出的特征为F_i(i＝1～6)，令融合F_i后获得的局部融合特征为F_LFF：

F_LFF＝Conv[Concat(F₀，F₁，...，F₅，F₆)]； (2)

其中，Conv代表1×1的卷积操作，用来融合局部特征， Concat(F₀，F₁，...，F₅，F₆)表示将特征图F₀，F₁，...，F₅，F₆进行通道连接以进一步增强局部信息，再利用局部残差学习将融合后的局部特征F_LFF和 F₀进行像素级求和获得最终输出F_LRL：

F_LRL＝F_LFF+F₀； (3)

多尺度特征融合模块(F)采用空间注意力机制融合多路径残差密集模块输出的多尺度特征，结构如图4所示，

图4中A′，A″，A″′，A″″分别是多路径残差密集模块(D)中每一条路径的输出特征，

为这四个分支的像素和：

然后，

依次进行全局平均池化(Global average pooling，GAP)和两次全卷积操作，且在第二次的全卷积操作中，在通道级跨分支地应用 softmax获得四个1×1×c维的注意力向量α、β、γ、δ，其中c代表通道数。最后输出的特征图B＝[B₁，B₂，...，B_i，B_c]，其中第i(0＜i＜c)个通道B_i为：

B_i＝α_iA′+β_iA″+γ_iA″′+δ_iA″″； (5)

其中α_i、β_i、γ_i、δ_i分别是向量α、β、γ、δ的第i(0＜i＜c)个变量，且必须满足公式(6)：

α_i+β_i+γ_i+δ_i＝1。 (6)

利用本发明的盲去噪网络模型的方法包括：训练阶段和测试阶段：

其中，训练阶段包括：

步骤1：输入待处理图像到EDFNet网络；

步骤2：利用加权特征提取模块(E)提取具有判别性的像素特征；

步骤3：将像素特征与待处理图像进行通道拼接形成一个两通道的特征图，以避免底层特征的丢失；

步骤4：这个两通道的特征图再进入多路径残差密集模块获得兼顾全局和局部细节信息的多尺度特征和多层次特征；

步骤5：再利用多尺度特征融合模块(F)以自适应加权融合多尺度特征，以突出特征的空间和通道差异性；

步骤6：输出预测到的干净图像；

步骤7：计算真实噪声图像的标签(即干净图像)与预测到的干净图像之间的最小绝对值误差，即L1损失；

步骤8：重复步骤1-7以降低网络损失为目的来调整网络参数，使该网络性能达到最优；

步骤9：保存网络模型。

其中，测试阶段包括：

步骤1：输入训练阶段中未被使用的真实噪声图像(待处理图像)；

步骤2：调用网络模型；

步骤3：得到去噪后的图像。

以下通过具体实施例结合附图对本发明的技术方案做进一步阐述说明。需要注意的是，下述的具体实施例仅是作为举例说明，本发明的保护范围并不限于此。

在真实噪声图像去噪实验中，采用来自智能手机拍摄的数据集 SmartphoneImage Denoising Dataset(SIDD)的sRGB空间的160个图像对(干净和真实噪声图像)作为训练集；再随机选择40张图片并裁剪成 1280个256×256大小的块作为验证集；最后采用两个被广泛使用的标准真实数据集DND和NC12作为测试集。其中标准真实数据集DND包含50幅真实噪声图像，但其干净图像并未被公布，因此本发明只能通过一个在线提交***(https：//noise.visinf.tu-darmstadt.de/)来获得性能指标：峰值信噪比(Peak signalto noise ratio，PSNR/dB)和结构相似性(Structural similarity index method，SSIM)。NC12包括12张真实噪声图像，由于没有与其对应的干净图像，本发明仅展示部分图像的去噪效果图。

本发明实验是在GPU型号为NVIDIA GTX1080Ti的计算平台下进行，所用深度学习框架为TensorFlow1.8、CuDNN V6以及Cuda9.1。在训练过程中，本发明使用L1(最小绝对值误差)损失函数以及Adam(自适应矩估计)优化器优化网络参数，整个模型总共训练2500个epochs，学习率被初始化为5e-4。为了微调整个模型，在训练1000个epoches后，学习率降为5e-5，在训练2000个epoches后，学习率降为5e-6，批次大小被设置为8，输入图像块大小为256×256。

消融实验

实施例1

实施例1为采用本发明加权特征提取模块(E)、多路径残差密集模块 (D)以及多尺度特征融合模块(F)进行的消融实验，结果如表1所示。

对比例1

对比例1为不采用本发明加权特征提取模块(E)、多路径残差密集模块(D)以及多尺度特征融合模块(F)进行的消融实验，结果如表1所示。

对比例2

对比例2为只采用本发明多路径残差密集模块(D)以及多尺度特征融合模块(F)进行的消融实验，结果如表1所示。

对比例3

对比例3为只采用本发明加权特征提取模块(E)以及多尺度特征融合模块(F)进行的消融实验，结果如表1所示。

对比例4

对比例4为只采用本发明加权特征提取模块(E)以及多路径残差密集模块(D)进行的消融实验，结果如表1所示。

表1为EDFNet结构中的加权特征提取模块(E)、多路径残差密集模块(D)以及多尺度特征融合模块(F)之间的消融实验结果。其中，对比例1-4和实施例1可知E、D和F中任意两个模块的组合可获得平均10.36dB 的增益，而这三个模块的组合可获得11.07dB的增益；对比例2和实施例 1可知特征提取模块(E)获得了0.12dB的增益；对比例3和实施例1可知残差密集模块(D)获得了1.23dB的增益；对比例4和实施例1可知特征融合模块(F)获得了0.78dB的增益。综上所述，EDFNet结构中的E、 D和F这三个模块均能提升去噪性能，且组合起来能达到最优的去噪效果。

表1 EDFNet结构中三模块之间的消融实验

DND数据集上的去噪性能对比

表2为不同算法在DND数据集上的去噪指标对比，包括一个盲图像去噪方法(CDnCNN B)以及四个非盲图像去噪算法(TNRD、BM3D、 WNNM和FFDNet)。实验结果表明，本发明方法的PSNR值达到36.10dB， SSIM值达到0.9019，分别比盲去噪方法(CDnCNN-B)提高了3.67dB和 0.1119，比非盲去噪方法(TNRD、FFDNet、BM3D、WNNM)平均提高了1.79dB和0.0536，说明了本文方法具有良好的去噪性能。

表2不同算法在DND数据集上的去噪指标对比

图5对比了不同算法在DND数据集上某张图像的去噪效果，其中，图5(a)的PSNR值为19.17dB，图5(c)～(h)的PSNR值分别为25.85dB、 26.51dB、30.43dB、31.36dB、30.85dB和32.99dB。由图5中(a)～(h)可知，本发明方法在真实噪声的去除以及纹理细节的保留上均表现更好； CDnCNN-B和TNRD算法对真实噪声的去除性能较差，FFDNet和WNNM 算法存在边缘失真，看起来较模糊；本发明方法较BM3D更好地保留了边缘结构，且在PSNR值较BM3D提高了1.63dB。

NC12数据集上的去噪性能对比

图6中(a)～(f)和图7中(a)～(f)是不同算法在NC12数据集上的对比结果，这些算法包括一个盲图像去噪方法CDnCNN-B和三个非盲图像去噪方法 BM3D、FFDNet和WNNM。由图6和图7可知，本发明提出的去噪网络 EDFNet可通过通道注意力机制获得更具有判别性的底层像素特征，可通过多路径残差密集网络获得兼顾全局信息和局部细节信息的多尺度层次空间特征，基于空间注意力机制的多尺度特征融合模块可自适应加权多尺度特征，从而对真实噪声图像获得了更干净的噪声去除效果，且更好地保留了边缘和纹理细节信息，有更清晰的视觉效果。而CDnCNN-B算法和 WNNM对真实噪声的去除效果不够好(如图6和图7的(b)和(e))，BM3D 算法对含有真实噪声的图像细节和边缘纹理信息的保留效果也显然不够 (如图6(b)的直角和图7(b)的发际线)，FFDNet算法丢失了部分边缘结构信息，看起来较模糊(如图6(d)的直角和图7(d)的眼睛)。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种盲去噪网络模型，其特征在于，包括：

2.根据权利要求1所述的盲去噪网络模型，其特征在于，

所述加权特征提取模块包括：

卷积层，用于提取像素特征；

3.根据权利要求2所述的盲去噪网络模型，其特征在于，

所述通道注意力机制包括：

第一全连接层，用于获得1×1×2维的张量；以及

第二全连接层，用于获得通道权重向量；

其中，l是特征维度，2和c是特征图中的通道个数。

4.根据权利要求2所述的盲去噪网络模型，其特征在于，

所述的卷积层仅包括多个ReLU。

5.根据权利要求1所述的盲去噪网络模型，其特征在于，

所述多路径残差密集模块包括多条并行的路径，其中，每条路径均包括：

一残差密集块，用于提取多尺度特征的多层次特征。

6.根据权利要求5所述的盲去噪网络模型，其特征在于，

所述残差密集块包括：

7.根据权利要求1所述的盲去噪网络模型，其特征在于，

所述多尺度特征融合模块将多路径残差密集模块中每一条路径输出的特征求和后进行全局平均池化和两次全卷积操作。

8.根据权利要求1所述的盲去噪网络模型，其特征在于，

所述加权特征提取模块基于通道注意力机制。

9.根据权利要求1所述的盲去噪网络模型，其特征在于，

所述多尺度特征融合模块基于空间注意力机制。

10.一种建立盲去噪网络模型的方法，包括：

(1)输入待处理图像到权利要求1至9任一项所述的盲去噪网络；

(2)利用加权特征提取模块提取具有判别性的像素特征；

(6)输出预测到的干净图像；