CN116051408B

CN116051408B - 一种基于残差自编码的图像深度去噪方法

Info

Publication number: CN116051408B
Application number: CN202310022026.5A
Authority: CN
Inventors: 张�杰; 卢淼鑫; 黄雯潇; 张焕龙; 张建伟; 王凤仙; 李林伟; 曲光
Original assignee: Zhengzhou University of Light Industry
Current assignee: Zhengzhou University of Light Industry
Priority date: 2023-01-06
Filing date: 2023-01-06
Publication date: 2023-10-27
Anticipated expiration: 2043-01-06
Also published as: CN116051408A

Abstract

本发明提出了一种基于残差自编码的图像深度去噪方法，步骤如下：以噪声的标准差作为分级依据将噪声分级；通过数据增强策略扩充数据集中的图片数量得到训练集；构建图像去噪模型：图像去噪模型包括依次连接的编码模块、密集残差模块和解码模块；将训练集的图片分别添加步骤一中各个噪声等级范围内的高斯噪声得到含噪图像，将含噪图像输入图像去噪模型分别进行学习训练，获得训练好的不同噪声等级的图像去噪模型；在图像去噪应用时将含噪图片输入训练好的图像去噪模型，直接重构输出去噪后的图片。本发明在去除大部分噪声信息的同时能够有效的保留图像的局部细节特征和图像的边缘特征信息，获得高质量的重建图像；实现简单且轻量化，参数量少。

Description

一种基于残差自编码的图像深度去噪方法

技术领域

本发明涉及图像处理的技术领域，具体涉及一种基于残差自编码的图像深度去噪方法，实现图像的高质量重建，尤其涉及高噪声条件下的图像快速重建能力。

背景技术

利用计算机视觉技术提升国家重要安全区域和城市敏感公共场所的全天候实时监控和有效人员管理已经成为世界各国高度重视的研究课题。在现实生活中，由于图像传感器CMOS/CCD的工作特性导致在夜间光照条件差的环境下，获得的图像通常含有大量的随机噪声，进而影响了图像质量。如何从含有噪声图像或者视频中实现对重要人员的有效跟踪监视和重要区域的人员识别以及进出管理，已经成为目前智能安防***研究的一个重要发展方向。然而含随机噪声图像影响了安防***的有效特征信息提取，进而影响了目标的识别精度。因此，如何从含随机噪声的图像中获得高质量的重建图像是研究的重点问题。

近年来，人工智能技术的快速发展，促进了机器学习技术的快速兴起。深度学习技术作为机器学习中重要的研究方向，是人工智能发展的主要驱动力。深度学习主要使用的是人工神经网络算法，允许发现中间表示来扩展标准机器学习。这些中间表示能够解决更复杂的问题，并且以更高的精度、更少的观察和更简便的手动调谐，潜在地解决其他问题。深度学习在某些方面已经超越了人类的认知能力和认知范围深度学习，目前在图像识别、语音识别、自动驾驶、机器翻译和智能安防等领域都得到了落地和实际的应用。在图像去噪方面，深度学习方法能够更深层次地挖掘图像的内部信息，对图像数据进行更精细地筛选，从含噪图像数据中精确筛选出图像数据信息。

在深度学习图像去噪中，图像去噪自编码器具有结构简单、参数量少、重建速度快的优点，然而在图像细节特征信息的保护方面有限，导致去噪重建图像细节特征丢失较多，进而影响了重建图像质量。如何在去除噪声信息的同时对细节特征信息进行有效保护，是图像去噪自编码器需要解决的重要问题。

发明内容

针对传统图像去噪自编码器不能提取图像细节特征信息，图像重建质量差的技术问题，本发明提出一种基于残差自编码的图像深度去噪方法，能快速准确的去除图像噪声，复原图像原始信息，尤其对图像细节复原较好。

为了达到上述目的，本发明的技术方案是这样实现的：一种基于残差自编码的图像深度去噪方法，其步骤如下：

步骤一：以噪声的标准差作为分级依据将噪声分为10级；

步骤二：选用BSD500数据集中的图片，通过数据增强策略扩充图片数量得到训练集；

步骤三：构建图像去噪模型：图像去噪模型包括依次连接的编码模块、密集残差模块和解码模块；

步骤四：将训练集的图片分别添加步骤一中各个噪声等级范围内的高斯噪声得到含噪图像，将含噪图像输入步骤三构建的图像去噪模型分别进行学习训练，获得训练好的不同噪声等级的图像去噪模型；

步骤五：在图像去噪应用时将含噪图片输入训练好的图像去噪模型，直接重构输出去噪后的图片。

优选地，所述噪声的分级情况为：

噪声等级	1	2	3	4	5
						标准差范围	0～5	5～10	10～15	15～20	20～25
噪声等级	6	7	8	9	10
						标准差范围	25～30	30～35	35～40	40～45	45～50

。

优选地，所述数据增强策略包括按相关比例缩放、旋转和裁剪一系列处理，实现方法为：将BSD500数据集中的图片按相关比例进行缩放处理，之后根据欲搭建的图像去噪模型的深度和感受野的范围将缩放后的图片按照10步长切割为30*30的图像补丁块，再将图像补丁块随机进行翻转、旋转处理，最后获得的图像块作为训练集。

优选地，所述编码模块用于将输入的含噪图像映射到低维特征空间中，在此过程中卷积层不断学习图像的特征信息并且过滤掉噪声信息，得到全局图像特征；所述密集残差模块用于将编码模块所得到的全局图像特征进行更加细致的提取融合，充分获得含噪图像的局部细节特征信息，得到低维特征；所述解码模块用于将低维特征向高维图像转换，即将图像的抽象特征逐步还原成图像数据，同时逐层增大特征图尺寸，直至还原到与输入图片尺寸相同，还原过程中对部分图像细节进行恢复。

优选地，所述编码模块包括6个卷积核大小为3*3的卷积层，卷积核个数分别为32、32、64、64、64、128，其中第5个卷积层的步长为2，其余均为1，第五个卷积层用来代替最大池化层从而减少参数个数，卷积层后连接采用LeakyReLU激活函数的激活层；所述密集残差模块的网络结构为两个卷积核大小3*3、卷积核个数128的卷积层和一个卷积核大小1*1、卷积核个数128的卷积层组成的密集残差结构，其中每个卷积层后面都添加BN层；所述解码模块包括5个卷积核大小为3*3以及卷积核个数分别为128、64、64、32、32的反卷积层，卷积层后跟采用LeakyReLU激活函数用来增加该神经网络模型的非线性表达能力，第一个卷积层后面为2*2的上采样层；最后通过卷积核大小3*3、卷积核个数为1的卷积层用来重构复原去噪后的图像。

优选地，所述LeakyReLU激活函数为：

其中，参数a1取值为0.1，表示输入的自变量，LReLU(LeakyReLU)是ReLU激活函数的变体，在≥0时，导数为1，可以加快梯度下降的收敛速度，x＜0时也有很小的斜率，能在一定程度上保留负梯度信息，有效缓解DeadReLU现象。

优选地，所述密集残差结构自适应的融合来自上一编码模块和当前密集残差模块中所有卷积层的特征，将上层编码模块的全局特征图以拼接的方式直接引入密集残差模块，用来增强提取图像局部细节特征，其公式为：

F_g＝H_d([F0,1,…,d])；

其中，0,1,…,d分别表示编码模块和密集残差模块中生成的特征图，H_d表示用1*1卷积层将不同级别的特征自适应融合在一起，F_g表示通过密集残差融合提取后的细节特征。

优选地，对图像块添加不同等级的符合正态随机分布的高斯噪声，获得含噪水平不同的含噪图像，高斯噪声的函数公式为：

其中，x代表图像的灰度值，代表灰度值x的均值，σ²代表灰度值x的方差。

优选地，所述图像去噪模型模型的训练过程中采用MSE和MS-SSIM联合函数作为图像的重构误差函数计算降噪图像和目标图像之间的损失，联合损失函数为：

Loss＝a·lOSS_MSE+b·OSS_MS-SSIM；

其中，a、b为系数，Loss表示总的联合损失函数，LOSS_MSE表示MSE损失函数，

LOSS_MS-SSIM表示MS-SSIM损失函数，n表示网络训练样本总数，y_i表示输入的含噪图像，表示重建后的图像，/>表示输入补丁块的中心像素，/>表示补丁块的中心像素的多尺度结构相似；两者LOSS_MSE、LOSS_MS-SSIM的取值范围为[0,1]，用于计算梯度并利用反向传播算法更新网络权重参数。

优选地，训练过程中图像去噪模型采用Adam优化器，初始学习率设置为0.001，在训练过程中利用梯度的一阶矩估计和二阶矩估计动态的调整学习率进行偏差修正，训练batch大小选为64。

与现有技术相比，本发明的有益效果：针对传统自编码器去噪算法对细节特征恢复不完美的问题，本发明能够得到有效解决。本发明采用的编码解码结构具有轻量化的优点，后续对实际应用具有指导意义。相比于传统自编码器去噪，本发明设计了更加细致的噪声等级，并且改进了激活函数，同时添加了密集残差结构等优化了去噪模型，所设计的密集残差结构可以更好的恢复图像的局部细节特征，所采用的MSE和MS-SSIM联合损失函数相比于单一的MSE损失函数，其图像的边缘细节特征能够得到有效保留，本发明处理后的图像在图像评估指标和视觉效果方面均得到有效提升。本发明在去除含噪图像中大部分噪声信息的同时能够有效的保留图像的局部细节特征和图像的边缘特征信息，进而获得高质量的重建图像；且实现简单且轻量化，参数量少，可以有效解决含噪图像的去噪重建问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的流程图。

图2为本发明的去噪模型的结构图。

图3为本发明中密集残差网络的结构图。

图4为本发明中具有高斯白噪声(标准方差σ＝20)的图像测试集的结果，其中，(a)为原始图像，(b)为添加噪声标准差20的图像，(c)为去噪后图像。

图5为本发明中具有高斯白噪声(标准方差σ＝25)的图像测试集的结果，其中，(a)为原始图像，(b)为添加噪声标准差25的图像，(c)为去噪后图像。

图6为本发明中具有高斯白噪声(标准方差σ＝30)的图像测试集的结果，其中，(a)为原始图像，(b)为添加噪声标准差30的图像，(c)为去噪后图像。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的思想在于：(1)引入编码、解码这种轻量化结构模型用于去噪，结构简洁适用于嵌入式小型***，可以较容易落地实际应用。(2)基于编码、解码结构引入密集残差模块，密集残差模块可以更好的提取局部细节特征，使重构出的降噪图像局部细节更加真实。(3)采用联合损失函数算法，随着迭代次数的增加，该函数既兼顾弥补图像边缘结构的缺陷，也保证了算法较快的收敛至最优解。

本发明用于实施的硬件环境为：CPU:Intel(R)Core(TM)i7-12700H；GPU:RTX3060；RAM:16GB；硬盘：512G固态硬盘；运行的软件环境是：PyCharm集成环境和Windows 11。

一种基于残差自编码的图像深度去噪方法，具体包括图像降噪模型构建和利用该图像降噪模型对噪声去噪两部分。本实施例的基本流程如图1所示，其包括：

步骤一：如表1所示，首先将噪声细致分级，以噪声标准差作为分级依据将噪声水平分为10级。

表1噪声分级情况

根据噪声标准差将噪声分成10级可以增强去噪模型与输入含噪图像的匹配度，使得该模型对实际输入的含噪图像的去噪效果得到进一步优化提升。

步骤二：制作训练集：选用BSD500数据集中的图片，通过数据增强策略扩充图片数量得到训练集。

选用BSD500数据集中的400张图片，该数据集可用于图像降噪；将400张图片通过按相关比例缩放、旋转和裁剪等一系列数据增强策略扩充图片数据量，之后根据欲搭建的图像去噪模型的深度和感受野的范围将扩充后的图片按照10步长切割为30*30的图像补丁块，再将图像补丁块随机进行翻转、旋转的处理，最后获得共计27W图像块作为训练集，将其用于图像去噪模型训练。数据增强策略扩充图片数量可以避免过拟合，提高模型的鲁棒性；图像去噪模型的深度越深，感受野就越大，就能够更好的联系上下文信息；切割图像补丁块可以使输入的图像尺寸与模型感受野相匹配，节约计算成本，同时也能增加训练数据，提升模型泛化能力。

步骤三：构建图像去噪模型：模型结构如图2所示，图像去噪模型包括编码模块、密集残差模块和解码模块，编码模块处理含噪图像，编码模块与密集残差模块相连接，密集残差模块与解码模块相连接，解码模块输出重构图像。

原始图片经过预处理后输入到编码模块中，预处理包括对图片平移、旋转、缩放等几何变换和切割、裁剪、添加噪声等数据增强，该步骤可以扩充数据集丰富训练数据的分布，完善图像特征，提高模型的鲁棒性，对原始图片添加步骤一所定义的不同等级的高斯噪声，获得含噪水平不同的含噪图像。编码模块用于将输入的含噪图像映射到低维特征空间中，在此过程中卷积层不断学习图像的特征信息并且过滤掉噪声信息，得到全局图像特征。编码模块包括6个卷积核大小为3*3的卷积层，卷积核个数分别为32、32、64、64、64、128，其中第5个卷积层的步长为2，其余均为1，第五个卷积层用来代替最大池化层从而减少参数个数，卷积层后连接采用LeakyReLU激活函数的激活层。

LeakyReLU激活函数既有ReLU函数的优点，也能保留一定的负梯度信息，其中，参数a1取值为0.1。LeakyReLU激活函数公式为：

其中，表示输入的自变量，LRelU(LeakyReLU)是ReLU激活函数的变体，在≥0时，导数为1，可以加快梯度下降的收敛速度，x＜0时也有很小的斜率，可以有效缓解DeadReLU现象。

密集残差模块用于将编码模块所得到的全局图像特征进行更加细致的提取融合，充分获得含噪图像的局部细节特征信息，得到低维特征。密集残差模块的网络结构如图3所示，包括两个卷积核大小3*3、卷积核个数128的卷积层和一个卷积核大小1*1、卷积核个数128的卷积层组成的密集残差结构，其中每个卷积层后面都添加BN层，BN层可以加快网络训练和收敛速度，控制梯度***防止梯度消失。密集残差结构具有局部特征融合和局部残余学习的特点，自适应的融合来自上一编码模块和当前密集残差模块中所有卷积层的特征，将上层编码模块的全局特征图以拼接的方式直接引入密集残差模块，用来增强提取图像局部细节特征，其公式为：

F_g＝H_d([F0,1,…,d])(2)

解码模块用于将低维特征向高维图像转换，即将图像的抽象特征逐步还原成图像数据，同时逐层增大特征图尺寸，直至还原到与输入图片尺寸相同，复原过程中也对部分图像细节进行恢复。解码模块包括5个卷积核大小为3*3以及卷积核个数分别为128、64、64、32、32的反卷积层，卷积层后采用LeakyReLU激活函数用来增加该神经网络模型的非线性表达能力，第一个卷积层后面为2*2的上采样层。最后通过卷积核大小3*3、卷积核个数为1的卷积层用来重构复原去噪后的图像。

步骤四：分别训练不同噪声等级的图像去噪模型：将训练集的图片分别添加各个噪声等级范围内的高斯噪声之后输入图像去噪模型分别进行学习训练，获得训练好的不同噪声等级的图像去噪模型。

对图像块添加所定义的不同等级的符合正态随机分布的高斯噪声，获得含噪水平不同的含噪图像，将含噪图像作为训练集输入图像去噪模型进行批量训练。高斯噪声的函数公式为：

模型训练过程中采用MSE和MS-SSIM联合函数作为图像去噪模型图像的重构误差函数计算降噪图像和目标图像之间的损失。MSE和MS-SSIM损失函数两者的权重取值范围为[0,1]用于计算梯度并利用反向传播算法更新网络权重参数，根据经验所得，本发明中参数a取值为1，参数b取值为0.1。相关Loss损失函数公式如下：

Loss＝a·MSE+b·MS-SSIM(4)

其中，表示总的联合损失函数，LOSS_MSE表示MSE损失函数，LOSS_MS-SSIM表示MS-SSIM损失函数，n表示网络训练样本总数，y_i表示输入的含噪图像，表示重建后的图像，/>表示输入补丁块的中心像素，/>表示补丁块的中心像素的多尺度结构相似。公式(4)是将公式(5)和公式(6)相加并分别赋予a,b权重，模型应用公式(4)进行训练。

训练过程中图像去噪模型采用Adam优化器，初始学习率设置为0.001，在训练过程中利用梯度的一阶矩估计和二阶矩估计动态的调整学习率进行偏差修正，训练batch大小选为64，按照以上参数设置，20个epoch后完成训练。完成后将图像去噪模型的参数保存，共获得10个不同噪声等级的图像去噪模型参数。

步骤五：在图像去噪应用时将含噪图片输入训练好的图像去噪模型，图像去噪模型可直接重构输出去噪后的图片。

在图像去噪应用时先对含噪图像的噪声标准差进行测量，之后将含噪图像输入到与之噪声标准差相匹配的噪声等级的图像去噪模型中。

在图像去噪应用时输入图片不再进行裁剪预处理，可直接将含噪图片输入训练好的模型，加载保存好的模型参数，模型可直接重构输出去噪后的图片。

根据上述方法和具体实施步骤，通过实验验证该发明的有效性。

本发明的实验采用的实验参数和训练集如上述具体步骤所示，采用set12数据集作为测试集，通过客观评价指标PSNR和SSIM来评估测试该发明的性能。PSNR用来衡量图像去噪模型的去噪效果，PSNR值越高说明去噪效果越好，SSIM用来衡量两幅图像之间的相似性，SSIM最大值为1，其值越大说明两幅图相似性越高，PSNR和SSIM公式为：

其中，表示原始图像和重建后的图像之间的均方误差，MAX_I表示原始图像可能的最大像素值，μ_x是x的均值，μ_y是y的均值，σ_x ²是x的方差，σ_y ²是y的方差，σ_xy是x和y的协方差，c₁和c₂是维持稳定的常数。

实验结果分析：本实验分别在测试集中添加噪声标准差为20、25、30的高斯噪声，利用预先训练好的不同噪声等级模型处理重构出不含噪声的图像。图4、图5和图6分别展示了set12测试集中的部分图片效果，其相关PNSR和SSIM值如下表2所示：

表2测试结果比较

由表2中的PSNR和SSIM数值以及通过图4-图6的人视觉直观评价可以看出，本发明在不同噪声标准差下均有较好的去噪效果，且相关的细节特征和边缘特征也得到了有效保留，复原后的图像具有相对较好的视觉效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于残差自编码的图像深度去噪方法，其特征在于，其步骤如下：

步骤一：以噪声的标准差作为分级依据将噪声分为10级；

所述编码模块包括6个卷积核大小为3*3的卷积层，卷积核个数分别为32、32、64、64、64、128，其中第5个卷积层的步长为2，其余均为1，第五个卷积层用来代替最大池化层从而减少参数个数，卷积层后连接采用LeakyReLU激活函数的激活层；所述密集残差模块的网络结构为两个卷积核大小3*3、卷积核个数128的卷积层和一个卷积核大小1*1、卷积核个数128的卷积层组成的密集残差结构，其中每个卷积层后面都添加BN层；所述解码模块包括5个卷积核大小为3*3以及卷积核个数分别为128、64、64、32、32的卷积层，卷积层后跟采用LeakyReLU激活函数用来增加神经网络模型的非线性表达能力，第一个卷积层后面为步长为2，卷积核大小为3*3的反卷积层用来实现上采样操作；最后通过卷积核大小3*3、卷积核个数为1的卷积层用来重构复原去噪后的图像；

2.根据权利要求1所述的基于残差自编码的图像深度去噪方法，其特征在于，所述噪声的分级情况为：

。

3.根据权利要求1或2所述的基于残差自编码的图像深度去噪方法，其特征在于，所述数据增强策略包括按相关比例缩放、旋转和裁剪一系列处理，实现方法为：将BSD500数据集中的图片按相关比例进行缩放处理，之后根据欲搭建的图像去噪模型的深度和感受野的范围将缩放后的图片按照10步长切割为30*30的图像补丁块，再将图像补丁块随机进行翻转、旋转处理，最后获得的图像块作为训练集。

4.根据权利要求3所述的基于残差自编码的图像深度去噪方法，其特征在于，所述编码模块用于将输入的含噪图像映射到低维特征空间中，在此过程中卷积层不断学习图像的特征信息并且过滤掉噪声信息，得到全局图像特征；所述密集残差模块用于将编码模块所得到的全局图像特征进行更加细致的提取融合，充分获得含噪图像的局部细节特征信息，得到低维特征；所述解码模块用于将低维特征向高维图像转换，即将图像的抽象特征逐步还原成图像数据，同时逐层增大特征图尺寸，直至还原到与输入图片尺寸相同，还原过程中对部分图像细节进行恢复。

5.根据权利要求1所述的基于残差自编码的图像深度去噪方法，其特征在于，所述LeakyReLU激活函数为：

其中，参数al取值为0.1，x表示输入的自变量，LReLU(LeakyReLU)是ReLU激活函数的变体，在x≥0时，导数为1，可以加快梯度下降的收敛速度，x<0时也有很小的斜率，能在一定程度上保留负梯度信息，有效缓解DeadReLU现象。

6.根据权利要求4或5所述的基于残差自编码的图像深度去噪方法，其特征在于，所述密集残差结构自适应的融合来自上一编码模块和当前密集残差模块中所有卷积层的特征，将上层编码模块的全局特征图以拼接的方式直接引入密集残差模块，用来增强提取图像局部细节特征，其公式为：

F_g＝H_d([F0，F1，…，Fd])；

其中，F0，F1，…，Fd分别表示编码模块和密集残差模块中生成的特征图，H_d表示用1*1卷积层将不同级别的特征自适应融合在一起，F_g表示通过密集残差融合提取后的细节特征。

7.根据权利要求6所述的基于残差自编码的图像深度去噪方法，其特征在于，对图像块添加不同等级的符合正态随机分布的高斯噪声，获得含噪水平不同的含噪图像，高斯噪声的函数公式为：

8.根据权利要求7所述的基于残差自编码的图像深度去噪方法，其特征在于，所述图像去噪模型模型的训练过程中采用MSE和MS-SSIM联合函数作为图像的重构误差函数计算降噪图像和目标图像之间的损失，联合损失函数为：

Loss＝a·LOSS_MSE+b·LOSS_MS-SSIM；

其中，a、b为系数，Loss表示总的联合损失函数，LOSS_MSE表示MSE损失函数，LOSS_MS-SSIM表示MS-SSIM损失函数，n表示网络训练样本总数，y_i表示输入的含噪图像，表示重建后的图像，/>表示输入补丁块的中心像素，/>表示补丁块的中心像素的多尺度结构相似；两者LOSS_MSE、LOSS_MS-SSIM的取值范围为[0，1]，用于计算梯度并利用反向传播算法更新网络权重参数。

9.根据权利要求8所述的基于残差自编码的图像深度去噪方法，其特征在于，训练过程中图像去噪模型采用Adam优化器，初始学习率设置为0.001，在训练过程中利用梯度的一阶矩估计和二阶矩估计动态的调整学习率进行偏差修正，训练batch大小选为64。