CN110570353A

CN110570353A - 密集连接生成对抗网络单幅图像超分辨率重建方法

Info

Publication number: CN110570353A
Application number: CN201910797707.2A
Authority: CN
Inventors: 李素梅; 陈圣
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2019-12-13
Anticipated expiration: 2039-08-27
Also published as: CN110570353B

Abstract

本发明属于视频和图像处理领域，为使得高分辨率图像的重建效果和重建精度获得进一步提升,推动生成对抗网络的结构以及损失函数的改进，本发明密集连接生成对抗网络单幅图像超分辨率重建方法，包括生成网络和对抗网络两部分，生成网络采用残差密集网络RDN的基本框架，对抗网络采用深度卷积生成对抗网络DCGAN鉴别器网络框架，低分辨率图像作为输入送进生成网络经处理后，将得到的输出送到对抗网络进行判定，判定结果再通过损失函数反馈回生成网络，如此循环，直至对抗网络判定合格，生成网络可以生成清晰图像，然后利用训练好的生成网络完成低分辨率图像的超分辨率重建。本发明主要应用于图像处理场合。

Description

密集连接生成对抗网络单幅图像超分辨率重建方法

技术领域

属于视频和图像处理领域，涉及到图像超分辨率重建算法的改进和深度学习理论与图像超分辨率重建的融合，密集残差卷积神经网络以及生成对抗网络在高分辨率图像重建领域的实现与应用。具体涉及基于密集连接的生成对抗网络单幅图像超分辨率重建方法。

背景技术

图像超分辨率是指通过利用单幅或多幅低分辨率降质图像序列来获得相应的高分辨率图像的过程。在图像处理领域的许多实际应用中，人们往往希望获取高分辨率的原始图像，因为高分辨率的图像意味着更高的像素密度，可以提供更丰富的高频细节信息，从而为图像的后期处理和图像信息的准确提取与利用创设良好的基础。但在现实情况下，由于硬件成像设备和光照条件限制、人为或自然因素干扰等原因，在成像、传输、存储等过程中都有可能引入不同类型的噪声，这些因素都会直接影响图像的质量，我们往往很难获得所期望的高分辨率图像。因此如何提升所获取图像的质量，得到符合应用需求的高分辨率图像就成为图像处理中的一个关键研究课题。同时，作为一门有着较强专业性的实用技术，图像超分辨率重建在生物医疗[1]、卫星遥感[2]、医学影像以及公共安全[3]和国防军事和科技领域有着极为广泛的应用前景，愈发受到人们的重视。例如：在高清数字电视信号应用***中采用超分辨率重建技术可以进一步降低信号的传输成本，同时又能够保证画面的清晰度和质量。在军用图像和卫星观测图像中往往可以获取关于同一地域的多帧图像，基于此采用超分辨率重建技术可以实现高于***分辨率的图像观测，提升目标观测准确性。在医学成像***(CT、核磁共振成像(MRI))中利用超分辨率技术可以提升图像质量，对于病变目标的细节进行清晰呈现，辅助病人的治疗。在银行、交通路口、商场等公共场所，可以通过对监控图像关键部分的超分辨率重建，抓取更多细节信息，为诸多公共安全事件的处理提供重要线索。

图像超分辨率重建作为一门有着巨大实际应用价值的图像处理方法，其概念实质是起源于光学领域的相关研究，在该领域中，超分辨率意为复原光谱衍射极限以外的图像信息。Toraldo di Francia最初在关于雷达研究的文献中明确提出超分辨率的概念，而针对于图像的超分辨率复原则是由Harris和Goodman在成为Harris-Goodman的频谱外推的方法中最初提出。由于最初的图像超分辨率研究主要针对于单帧图像进行，图像的超分辨率效果受到极大的限制，所以尽管许多学者针对于图像复原工作提出了许多方法，但这些方法只在某些前提假设的条件下获得了较好的仿真效果，在实际应用中效果并不理想。1984年Tsai和Huang首次提出基于多帧或序列低分辨率图像的超分辨率重建方法，并给出基于频率域逼近的重建方法，使得多帧图像超分辨率重建研究取得了长足的进步与发展。经过数十年的研究与探索，图像超分辨率领域已经涌现出许多种类的具体重建方法。按照处理的原始低分辨率图像数量不同，图像的超分辨率重建可分为基于单帧图像的重建方法和基于多帧序列图像的重建方法。前者主要是利用单帧图像的先验信息，恢复出图像获取时丢失的高频信息。后者不仅利用单帧图像的先验信息，而且考虑充分利用不同帧图像间的互补信息，为图像高频信息的恢复提供了更完备充分的特征数据，因此其超分辨率复原效果往往要明显优于前者。但在多数现实情况下，获取关于同一场景的多帧采集图像有时存在较大难度，并且基于多帧图像的超分辨率研究也是建立在对单帧图像处理的基础上的，所以基于单帧图像的超分辨率研究一直都是图像超分辨率领域的研究热点。按照具体的实现方法，图像的超分辨率重建可以划分为频域法和空域法。频域法是在频域上去除频谱的混叠，从而相应地改善空间分辨率。目前较为流行的频域方法包括能量连续降解法和消混叠重建方法。频域法的优点是理论简单，运算复杂度低，容易实现并行处理，缺点是方法的理论前提过于理想化，无法有效适用于多数实际场合，只能局限应用于较为简单的降质模型，包含的空域先验知识有限。而空域法适用范围较广，具有很强的包含空间先验约束的能力，主要包括迭代反投影法、集合论法，统计复原法等。而对于图像超分辨率重建效果的客观评价体系:作为图像超分辨率重建领域的最为关键评价指标，峰值信噪比(PSNR)和结构相似度(SSIM)是衡量和比较最终重建效果的关键参数。峰值信噪比是通过逐像素点累计计算重建所得高分辨率图像与原始真实高分辨率图像的像素值偏差，从而反映出二者在整体像素值上的偏差程度，计量单位为dB。结构相似度则注重于比较重建图像与原始图像在纹理特征、结构特征等方面的相似程度,计量结果为介于0-1之间的实数，一般越接近于1，表明该重建方法对于图像结构和纹理的恢复性能更好，能够更大限度的保持重建图像和原始高分辨率图像的结构相似性。另外在对重建图像的重建效果进行主观评价时，我们往往会采用放大图像局部重点区域，观察对比不同算法对于图像细节和高频信息的恢复程度的方法，评价各类算法的优劣。

当前，图像超分辨率技术主要分为三个研究方向：基于插值的方法[16,17]、基于重建的方法[18,19,20]和基于学习[21,22,23]的方法。其中基于插值的方法比较有代表性的包括双线性插值、双三次插值等。该大类方法简单易行，复杂度相对较低，但对高频有效信息的恢复效果相对较差。基于重建的方法主要包括凸集投影法、贝叶斯分析法、迭代反投影法、最大后验概率法、正则化法、混合方法等。基于学习的方法主要包括Example-based方法、邻域嵌入法(neighbor embedding)、支持向量回归方法(SVR)、稀疏表示法(sparsepresentation)。

由于基于学习的图像重建方法往往可以获得更多图像的高层信息，对于恢复图像的高频信息大有助益，因此该类方法较易获得更理想的重建结果。尤其近年来，随着人工智能浪潮的涌现，深度学习理论在经典图像处理领域的应用日益增多，并不断取得优于传统算法的优秀成果。有鉴于此，相关科研人员对深度学习在图像超分辨率领域的应用进行了深入研究，并取得大量的研究成果。在2014年的欧洲计算机视觉会议(ECCV)上，来自香港中文大学的董超等人首次提出将卷积神经网络(CNN)应用于图像超分辨率重建领域的构想，并通过搭建一个简单的三层CNN网络SRCNN[4]实现了完全端到端的从低分辨率图像到高分辨率图像的映射，图像的特征提取、低分辨率与高分辨率图像的非线性映射以及最终图像的构建与输出都完全由网络完成，而网络的模型参数由基于大量数据集的学习得到。SRCNN[4]取得了明显优于传统超分辨率算法的实验效果，证明了深度学习在超分辨率领域的良好应用前景，也为图像的超分辨率研究指明了新的方向。在SRCNN[4]之后，针对于SRCNN[4]网络层数较浅，特征提取和映射能力较弱、感受野不足、收敛速度慢等问题。韩国首尔大学的Kim等人提出了包含20层卷积层的极深超分辨率重建网络(VDSR[5])，大大增加了网络的感受野，增强了网络的学习能力。并在网络中引入全局残差结构，使网络的学习目标变为残差图像，从而大大降低了网络的学习难度，加快了收敛速率。同时，为了控制网络的参数数量，Kim等人在DRCN[6](深度递归卷积网络)中尝试利用递归结构，确保在不引入新的待学习参数的情况下，通过广泛使用递归块来增加网络深度，提升重建效果。为了实现对低分辨率图像的尺度放大并有效降低网络的计算量，董超等人在改进的FSRCNN[11]网络中率先引入反卷积网络，将图像的尺度扩大交由网络的自身参数学习实现。随着网络深度的增加，网络退化问题导致的学习效能下降严重影响了网络的学习效果，何凯明等人在ResNet[7]中提出局部残差结构，通过在局部残差块中创建shortcut捷径连接，有效避免了网络过深所导致的效果退化，进一步增强了网络的训练速度和学习效果。Tai等人在充分分析ResNet[7]、DRCN[6]、VDSR[5]等网络的基础上，融合局部和全局残差以及递归结构的优点，提出深度递归残差网络(DRRN[8])，实现了重建效果的显著提升。SRCNN、DRCN和DRRN都需要网络之外的预处理，不能实现低分辨率图像到高分辨率图像的端到端的重建，降低了网络的效率。为了实现端到端的图像重建Wenzhe Shi[9]等人引入了子像素卷积层(sub-pixelconvolutional layer)，上采样过程被包含进网络之中，大大的提高了模型的效率。2017年Jia-Bin Huang[10]等人利用深度拉普拉斯金字塔实现了快速且准确的图像超分，该文章将传统的拉普拉斯金字塔和卷积神经网络相结合，网络实现对低分辨率图像的逐级放大，通过递归实现不同级别的金字塔间的参数共享，在减少计算量的同时，也有效的提高了精度。随着深度学习的广泛研究，基于卷积神经网络的图像重建算法在精度和速度上都已经有了很大的提升。然而，重建结果在重复纹理、边界、角等区域的效果较差，不能满足人眼主观视觉。2016年SRGAN[11]出现，作者采用了基于生成对抗网络的架构，并且引入了视觉损失函数。从定量评价结果上来看，SRGAN得到的评价值不是很高。但是从主观上来说SRGAN生成的高分辨率图像看起来更真实。SRGAN的出现掀起了生成对抗网络在图像超分领域的研究热潮，2017年Bingzhe Wu等[12]提出了SRPGAN,构建了更加稳定的基于判别网络的视觉损失函数，且利用Charbonnier损失函数作为模型的内容损失。SRPGAN大大提升了重建结果的SSIM值。Wang[13]对SRGAN进行改进，利用移除了BN层后的Residual-in-Residual DenseBlock(RRDB)作为生成网络，SRGAN的视觉损失是基于激活函数后的输出特征图，在该模型中作者采用激活前的特征图计算视觉损失。改进后的模型在亮度和重复纹理区域的表现得到提升。

发明内容

为克服现有技术的不足，本发明旨在利用生成对抗网络可以有效恢复出令人眼舒适的结果和充分利用残差间的紧密联系的稠密残差结构可以实现对图像高频特征的快速准确的学习的能力，使得高分辨率图像的重建效果和重建精度获得进一步提升,同时在一定程度上推动生成对抗网络的结构以及损失函数的改进，及其在图像的超分辨率重建领域的深度运用和发展。为此，本发明采取的技术方案是，密集连接生成对抗网络单幅图像超分辨率重建方法，包括生成网络和对抗网络两部分，生成网络采用残差密集网络RDN的基本框架，使用5个稠密连接块DCB块作为基本模块，对抗网络采用深度卷积生成对抗网络DCGAN鉴别器网络框架，低分辨率图像作为输入送进生成网络经处理后，将得到的输出送到对抗网络进行判定，判定结果再通过损失函数反馈回生成网络，如此循环，直至对抗网络判定合格，生成网络可以生成清晰图像，然后利用训练好的生成网络完成低分辨率图像的超分辨率重建。

需要进行训练集的制作与数据预处理：

首先对原始的高分辨率彩色图像进行下采样处理，得到相对应的低分辨率图像，并以此模拟真实情况下所获取的低分辨率图像，将其作为输入，然后利用双三次插值公式，对高分辨率图像进行下采样处理:

I_lr＝W(x)*I_hr

其中I_lr为下采样得到的低分辨率图像,I_hr为高分辨率图像，W(x)为双三次插值的权重矩阵，根据I_lr和I_hr中对应像素点的距离x进行计算：

然后对下采样得到的低分辨率图像I_lr和高分辨率图像进行数据归一化处理，得到归一化图像矩阵I_lrb:I_lrb＝I_lr/255，I_hrb:I_hrb＝I_hr/255，然后对低分辨率图像和对应的高分辨率图像进行随机切块，最后制作完成的低分辨率图像的切块用于级联残差网络的输入，而高分辨率图像的切块作为网络的标签，利用所制训练集完成对神经网络的训练。

生成网络基本框架前两层为浅层特征提取层，核大小与数量为(3,64)；中间为特征提取层，由5个DCB模块组成，每个模块的输出都送到一个连接层concat(Concatenatedlayer,)层，concat层后紧跟一个核大小与数量为(1,64)的瓶颈层；然后将瓶颈层的输出与第一层的输出做残差；最后为一层上采样层,核大小、步长与数量为(6,2,2,3)。

每个DCB块包含四个卷积层Conv1、2、3、4和一个瓶颈层Conv5，在每个卷积层之后，都有一个级联操作来实现残差中的密集连接，DCB末端的瓶颈层是局部特征融合层，用于对大量特征图进行融合；

DCB中四个卷积层的卷积核大小设置为3×3，最后瓶颈层的核大小设置为1×1，假设第d个DCB块的输入和输出分别是D_d-1和D_d，D_c表示为第4个concat[29]层的输出，则：

D_c＝f_cat4f_cr4(f_cat3f_cr3(f_cat2f_cr2(f_cat1f_cr1(D_d-1)))) (1)

其中，f_cri表示第i(i＝1,2,3,4)个卷积层与ReLU层的卷积、ReLU激活操作，f_cati表示第i(1,2,3,4)个卷积层的concat[29]级联操作，使用f_bo表示瓶颈层中的卷积操作，DCB的输出表示为：

D_d＝f_bo(D_c) (2)

DCB中的瓶颈层是局部特征融合操作，用于自适应地融合D_d-1模型的特征和当前模型中所有卷积层的输出。

深层生成对抗网络DCGAN(Deep Convolutional Generative AdversarialNetworks)中利用长步长卷积替代上采样层，归一化层将特征层的输出归一化到一起，在判别器中调整激活函数，防止梯度稀疏，基于DCGAN的对抗网络由一个卷积块，6个CBL块，和一个稠密连接构成，CBL块中采用LeakyReLU作为激活函数δ，输出为1024的全连接层Dense1024和输出为1的全连接层Dense1由卷积层来实现，最后经过一个sigmoid函数得到输出值，网络中卷积核的大小均为3×3，填充均为1。

损失函数由三部分加权组合而成：

第一部分为l_{im age}是基于像素点的L1范数损失函数，其中，Gⁱ(x)代表输入的第i幅低分辨率的图像X通过生成器后得到的分辨率提升后的图像，Xⁱ为对应的原始图像，n代表图像的数目；卷积神经网络VGG16[20]的内容损失函数l_VGG[23]，将模型训练得到的结果Gⁱ(x)，与原始的清晰的图像Xⁱ分别送入预训练好的VGG16[20]的网络中，计算通过第k个卷积层得到的特征图之间的欧式距离，φ_k,j表示VGG16[20]的第k个卷积层输出的第j张特征图，N代表第k个卷积层输出的特征图的总量，内容损失函数能确保两图像的内容相似。对抗损失l_D，

本发明的特点及有益效果是：

改进了SRGAN的损失函数，将L1范数用于生成损失，将L2范数用于感知损失。本文提出密集残差结构作为生成网络，密集残差结构不仅可以充分提取图片的高频抽象特征，而且还能保留低层次的特征，使结果更加符合视觉要求。如图2所示，在基准数据集上的测试结果表明，本模型对比SRGAN无论是在客观指标，还是在主观视觉效果上都取得了更加优异的结果。

附图说明：

图1基于生成对抗网络的图像超辨率重建模型。

图2不同损失函数下4倍重建结果对比。

图3.4倍放大下我们的重建结果与LapSRN、VDSR、SRGAN进行比较。我们使用颜色框来突出显示包含丰富细节的子区域。我们放大了下面框中的子区域，以显示更多的细节。从子区域图像可以看出，我们的方法具有较强的恢复高频细节和锐边的能力。

图4稠密连接模块(DCB)结构。

图5CBL单元的具体结构.

具体实施方式

与SRGAN相比，本发明生成网络采用了Residual-in-Residual Dense Block提取高层次特征。与SRPGAN相比，内容损失函数采用基于特征的1范数。与ESRGAN相比，生成网络在上采样之前使用全局特征融合层，RRDB模块的激活函数使用relu。实验结果表明生成的图片有更好的视觉效果。

作为人工神经网络中的一种经典拓扑结构，卷积神经网络在模式识别、图像和语音信息分析处理等领域有着极为广泛的应用。而在图像的超分辨率重建领域，在董超等人率先提出SRCNN[4]网络，成功将卷积神经网络(CNN)应用于高分辨率图像的恢复与重建之后，许多改进型CNN被相继提出，并都在关键重建效果评价指标上取得了明显提升。然而，重建结果在重复纹理、边界、角等区域的效果较差，不能满足人眼主观视觉。2016年SRGAN[11]出现，作者采用了基于生成对抗网络的架构，并且引入了感知损失函数。从定量评价结果上来看，SRGAN得到的评价值不是很高。但是从主观上来说SRGAN生成的高分辨率图像看起来更真实。

超分辨率生成对抗网络(SRGAN)是一项具有开创性的工作，它能够在单幅图像超分辨率期间生成逼真的纹理。然而，由于损耗函数采用基于像素点的L2范数，所以产生幻觉的细节往往伴随着不愉快的伪影。为此，我们提出了基于稠密连接的生成对抗网络，如图1所示。

本模型将残差密集网络(RDN)[14]基本框架模型与深度卷积生成对抗网络(DCGAN)[28]网络相结合。生成网络借鉴了RDN[14]的基本框架，使用5个稠密连接块(DCB)块作为基本模块，对抗网络中借鉴了DCGAN鉴别器[28]网络框架。下面将描述具体的实现过程。本模型的输入输出均是彩色图像。

本文所提的基于稠密连接的生成对抗网络的图像超分辨率重建方法主要涉及以下内容：我们模型的生成网络是基于稠密连接的残差结构，利用残差间的紧密联系，实现了对输入图像高频特征的快速准确的学习。我们的对抗网络以DCGAN[28]的对抗网络为模型。生成网络的生成损失函数调整为L1范数，L1代价函数可以获得符合人眼主观特征的真实纹理特征，而基于VGG的感知损失函数仍然基于L2范数，两种损失函数的组合保证了重建结果在低层像素值、高层抽象特征和总体上都非常接近目标图像。对抗网络的损失函数去掉了原有的取对数操作，确保生成器得到与原始数据相同的分布。通过生成网络和对抗网络的博弈使得最终的重建效果上获得了较大的提升，我们将在下文的方案具体实施环节中介绍网络的工作流程，并展示生成网络的详细结构以及对最终重建效果进行比较分析。

训练样本：本文使用公开的数据库VOC2012[24]用于网络的训练，该数据集是应用于视觉对象的分类识别和检测的一个基准测试，图片集包括20个目录。该数据集图像质量好，标注完备，非常适合用来测试算法性能。本文从该数据集中选取了16,700幅图像用于网络的训练，100幅图像用于网络的验证集。实验实现4倍的上采样，通过使用双三次插值对随机裁剪得到的88×88的清晰的彩色图像进行处理得到22×22的低分辨率的小块作为网络的输入。

测试样本：本文采用Set5[25]、Set14[26]和BSD100[27]作为测试数据集，本模型直接对三通道的输入(RGB)图像进行处理，结果表明本模型在采样因子2、4和8时不仅能重建得到符合人眼主观的结果，而且客观评价指标也大大超过了以往的GAN网络，具有很大的实际应用价值。

下面结合技术方案详细说明本方法：

模型构造完成之后需要选择合适的优化算法来最小化损失函数获得最优的参数，本模型采用自适应时刻估计方法(Adam：Adaptive Moment Estimation)来更新模型的权重和偏差，Adam算法和传统的随机梯度下降SGD不同。随机梯度下降保持单一的学习率更新所有的权重，学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。算法参数包括：步长ε(默认为0.001)，矩估计的指数衰减速率ρ₁和ρ₂(默认为0.9和0.999)，用于数值稳定的小常数δ(默认为：10^-8)。我们的实现基于Pytorch。我们分别训练了3个模型,缩放系数分别为2,4,8。

具体步骤如下：

1训练集的制作与数据预处理

首先我们对原始的高分辨率彩色图像进行下采样处理，得到相对应的低分辨率图像，并以此模拟真实情况下我们所获取的低分辨率图像，将其作为输入。然后利用双三次插值公式，对高分辨率图像进行下采样处理:

I_lr＝W(x)*I_hr

其中I_lr为下采样得到的低分辨率图像,I_hr为高分辨率图像，W(x)为双三次插值的权重矩阵，可根据I_lr和I_hr中对应像素点的距离x进行计算：

由于要将图像数据送入神经网络进行训练，所以需要对下采样得到的低分辨率图像I_lr和高分辨率图像进行数据归一化处理,得到归一化图像矩阵I_lrb:I_lrb＝I_lr/255，I_hrb:I_hrb＝I_hr/255，然后对低分辨率图像和对应的高分辨率图像进行随机切块，在我们的实施方案中，所有的低分辨率图像切块大小都设置为22×22,相应的高分辨率图像也会按照放大倍数被切割成规定大小的小块，例如在2倍率放大重建时，高分辨率图像的切块大小为44×44，而在4倍率放大重建时，高分辨率图像的切块大小为88×88。最后制作完成的低分辨率图像的切块用于级联残差网络的输入，而高分辨率图像的切块作为网络的标签，利用所制训练集完成对神经网络的训练。

2生成网络及稠密连接模块(DCB)结构分析及训练过程

我们的生成网络基本框架与RDN[14]相同，即前两层为浅层特征提取层，核大小与数量为(3,64)；中间为特征提取层，由5个DCB模块组成，每个模块的输出都送到一个concat[29]层，concat[29]层后紧跟一个核大小与数量为(1,64)的瓶颈层；然后将瓶颈层的输出与第一层的输出做残差；最后为一层上采样层,核大小、步长与数量为(6,2,2,3)。

现在让我们解释一下DCB块的细节。如图4所示。我们的每个DCB块包含四个卷积层(Conv1、2、3、4)和一个瓶颈层(Conv5)。在每个卷积层之后，都有一个级联操作来实现残差中的密集连接，这意味着所有先前卷积层的输出特征图被级联和融合。DCB末端的瓶颈层是局部特征融合层，用于对大量特征图进行融合。

对于DCB中每一层的设置，我们将所有四个卷积层的卷积核大小设置为3×3，最后瓶颈层的核大小设置为1×1。假设第d个DCB块的输入和输出分别是D_d-1和D_d，那么我们可以表示它们之间的关系如下。首先，D_c表示为第4个concat[29]层的输出：

D_c＝f_cat4f_cr4(f_cat3f_cr3(f_cat2f_cr2(f_cat1f_cr1(D_d-1)))) (1)

其中，f_cri表示第i(i＝1,2,3,4)个卷积层与ReLU层的卷积、ReLU激活操作，f_cati表示第i(1,2,3,4)个卷积层的concat[29]级联操作。接下来，我们使用f_bo表示瓶颈层中的卷积操作，DCB的输出可以表示为：

D_d＝f_bo(D_c) (2)

实际上，DCB中的瓶颈层是局部特征融合操作，用于自适应地融合D_d-1模型的特征和当前模型中所有卷积层的输出。通过特征融合，不仅融合了不同层次的特征映射，而且通过将瓶颈层的生长速率设置为64，有效地降低了计算复杂度。我们使用一个1×1卷积层来控制信息的输出。

3对抗网络结构分析及训练过程

相比传统的网络结构，GAN可以得到更加清晰的样本。GAN一出现就得到了广泛的研究，诞生了大量优秀的网络。本文的生成网络便是基于其中较有影响力DCGAN[28]。

相较原始的GAN，DCGAN[28]几乎完全使用了卷积层代替全连接层，整个网络没有池化层和上采样层的存在，其利用长步长卷积替代上采样层，通过归一化层将特征层的输出归一化到一起，加速了网络收敛，提高了训练的稳定性，在判别器中调整了激活函数，防止梯度稀疏。DCGAN[28]虽然有很好的架构，但仍然不能很好的平衡生成网络和判别网络之间的训练过程，存在训练不稳定的情况。模型中的基于DCGAN[28]的对抗网络由一个卷积块，6个CBL块，和一个稠密连接构成，CBL块的结构如图五所示，这里采用LeakyReLU作为激活函数δ，LeakyReLU的表达式与PReLU相同只是公式中的α不再是一个可学习的系数，而是一个固定的小常数0.2，图2中的Dense1024和Dense1由卷积层来实现，最后经过一个sigmoid函数得到输出值，网络中卷积核的大小均为3×3，填充均为1。

4损失函数

损失函数用于衡量模型得到的数据分布于真实数据分布之间的差异性，图像重建领域的大部分模型采用均方误差函数作为损失函数。利用该类基于像素点的函数重建得到的结果客观评价指标较高，但存在丢失高频信息，过于平滑的现象。这是由于人眼的视觉感知对于误差的敏感度不是绝对的，其感知结果会受到许多因素的影响，如人眼对亮度更敏感，对其他细节关注较少。本文改进了损失函数，新的损失函数由三部分加权组合而成。

第一部分为l_image，是基于像素点的L1范数损失函数。其中，Gⁱ(x)代表输入的第i幅低分辨率的图像X通过生成器后得到的分辨率提升后的图像，Xⁱ为对应的原始图像，n代表图像的数目。第二部分为基于VGG16[20]的内容损失函数l_VGG[23]，将模型训练得到的结果Gⁱ(x)，与原始的清晰的图像Xⁱ分别送入预训练好的VGG16[20]的网络中，计算通过第k个卷积层得到的特征图之间的欧式距离，φ_k,j表示VGG16[20]的第k个卷积层输出的第j张特征图，N代表第k个卷积层输出的特征图的总量，内容损失函数能确保两图像的内容相似。对抗损失l_D，与传统的GAN相比这里损失函数没有取对数，对抗损失确保生成器得到与原始数据相同的分布。

5重建效果评价

我们对所得到的结果进行了主观和客观的质量评价，对于图像的主观质量评价我们挑选15名评分员分别对不同算法在set5、set14以及BSD100上得到的重建结果进行打分，采用主观质量评分法(MOS：Mean Opinion Score)来衡量图像的主观质量，评分人员需要对每种方法得到的结果主观的给出1到5分之间的一个分数，其中5分代表图片清晰，质量好；1分代表图片十分模糊，严重妨碍观看。评分员在set5、set14以及BSD100上对12种版本的模型进行客观评分，客观评价指标我们使用峰值信噪比(PSNR)和结构相似指数(SSIM)作为评估准则，PSNR主要根据对应图像像素点之间的差异来衡量图像间的差别，表1展示了在2、4、8倍采样因子下的全部比较结果。表2展示了四倍放大下的MOS指标。

表1不同算法在×4倍率重建所得MOS值

表2各类算法在三种测试集上进行×2，×4，×8倍率重建所得平均PSNR/SSIM值

从表1的客观质量评价中可以看出我们的结果，恢复图片的PSNR、SSIM比起基于CNN的网络还有点差距，但是超过了基于GAN网络的SRGAN。从表2中可以看出我们的主观质量评价(MOS)超过了以前的框架。

传统生成网络的损失函数中的对抗损失函数都是用的最小平方误差(MSE)，利用该类基于像素点的函数重建得到的结果客观评价指标较高，但存在丢失高频信息，过于平滑的现象。我们使用基于1范数的损失函数作为内容损失函数。我们将不同损失函数的主客观质量评价的部分结果在表3中展示。

表3×4不同损失函数的主客观评价指标

从图2可以看出L1比MSE重建的结果有更好的感知质量，从局部放大的结果可以看出(b),(d),(f),(h),(j),(l)得到了更多的纹理细节，能够生成主观上更加接近原图的结果，实验结果也再次证明了主客观评价指标具有一定的出入。

我们也做了一系列实验去展示我们提出的SISR框架以及损失函数的有效性。在图3中，我们与一些先进的思想进行了比较。我们仅列出了LapSRN[10]、VDSR[5]以及SRGAN[11]这3个放大4倍的比对结果。为了更好地显示我们的方法的有效性，我们在图片中选择了不易恢复的小区域来放大。从图3中，我们可以看出我们重建出的图片在一些纹理细节处更加清晰。例如，在鸟嘴处的色彩以及鸟嘴的纹理相对于LapSRN、VDSR恢复的更加清晰。当然，我们还比较了其他基于CNN的方法，如SRCNN[4]。相比之下，我们的方法超越了其他先进的方法生成了更丰富的纹理细节。

为了生成主观上与原图更加相似的结果，本文搭建了基于生成对抗网络图像的超分辨率模型，在公开的标准数据集上的测试结果表明本文算法在一般图像超分上得到了更加逼真的结果，生成图像的纹理，色彩等细节更加符合人眼观看习惯，对比现有的基于卷积神经网络的传统超分算法取得了最高的MOS值。GAN网络中判别器和生成器的不断博弈使得生成图像细节不断丰富越来越接近真实图像，但并不能保证得到的细节就是真实图像的细节部分，可能掺杂有网络自己生成的噪声，故PSNR值往往不高，因此在医学图像领域不建议采用该类算法，然而在图像重建大部分领域本文算法还是具有很大的应用价值。接下来应对GAN的对抗训练机制进行深入研究，已期望获得在主客观上表现更加优异的模型。

参考文献

[1]W.Shi,J.Caballero,C.Ledig,X.Zhuang,W.Bai,K.Bhatia,A.Marvao,T.Dawes,D.ORegan,and D.Rueckert.Cardiac image super-resolution with globalcorrespondence using multi-atlas patchmatch[C].In MICCAI,2013.

[2]M.W.Thornton,P.M.Atkinson,and D.a.Holland.Subpixel mapping ofrural land cover objects from fine spatial resolution satellite sensorimagery using super-resolution pixel-swapping[J].International Journal ofRemote Sensing,27(3):473–491,2006.1

[3]W.Zou and P.C.Yuen.Very low resolution face recognition problem[J].IEEE Transactions on image processing,21(1):327–340,2012.1

[4]J.Kim,J.K.Lee,and K.M.Lee.Accurate image super resolution usingvery deep convolutional networks[C].In CVPR,2016.1,2,3,5,6,7,8

[5]C.Dong,C.C.Loy,K.He and X.Tang,"Image Super-Resolution Using DeepConvolutional Networks,"in IEEE Transactions on Pattern Analysis and MachineIntelligence,vol.38,no.2,pp.295-307,Feb.2016.

[6]Kim J,Lee J K,Lee KM.Deeply-Recursive Convolutional Network forImage Super-Resolution[C].2016IEEE Conference on Computer Vision and PatternRecognition(CVPR),pp.1637-1645,June.2016.

[7]Kim J,Lee J K,Lee K M.Accurate image super-resolution using verydeep convolutional networks[C].2016IEEE Conference on Computer Vision andPattern Recognition(CVPR),pp.1646-1654,June.2016.

[8]Tai Y,Yang J,Liu X.Image Super-Resolution via Deep RecursiveResidual Network[C]//2017IEEE Conference on Computer Vision and PatternRecognition(CVPR).IEEE Computer Society,pp.2790-2798,July.2017.

[9]Shi W,Caballero J,Huszár,Ferenc,et al.Real-Time Single Image andVideo Super-Resolution Using an Efficient Sub-Pixel Convolutional NeuralNetwork[J].2016.

[10]Lai W S,Huang J B,Ahuja N,et al.Deep Laplacian Pyramid Networksfor Fast and Accurate Super-Resolution[C]//IEEE Conference on ComputerVision&Pattern Recognition.pp.5835-5843,July.2017.

[11]Ledig C,Theis L,Huszar F,et al.Photo-Realistic Single ImageSuper-Resolution Using a Generative Adversarial Network[C].2017IEEEConference on Computer Vision and Pattern Recognition(CVPR).pp.105-114,July.2017.

[12]Wu B,Duan H,Liu Z,et al.SRPGAN:Perceptual Generative AdversarialNetwork for Single Image Super Resolution.arXiv:1712.05927v2[cs.CV].pp.1-9,Dec.2017.

[13]Wang X,Yu K,Wu S,et al.ESRGAN:Enhanced Super-ResolutionGenerative Adversarial Networks.arXiv:1809.00219v2[cs.CV].pp.1-23,Sep.2018.

[14]Zhang Y,Tian Y,Kong Y,et al.Residual Dense Network for ImageSuper-Resolution[C].2018IEEE/CVF Conference on Computer Vision and PatternRecognition.pp.2472-2481,June.2018.

[15]Simonyan K,Zisserman A.Very Deep Convolutional Networks forLarge-Scale Image Recognition.arXiv:1409.1556v6[cs.CV].pp.1-14,Apr.2015.

[16]H.Chang,D.-Y.Yeung,and Y.Xiong.Super-resolution through neighborembedding[C].In CVPR,2004.1,8

[17]C.G.Marco Bevilacqua,Aline Roumy and M.-L.A.Morel.Low-complexitysingle-image super-resolution based on nonnegative neighbor embedding[C].InBMVC,2012.1,2,6,8

[18]D.Glasner,S.Bagon,and M.Irani.Super-resolution from a singleimage[C].In ICCV,2009.1

[19]J.Yang,J.Wright,T.Huang,and Y.Ma.Image super resolution viasparse representation[J].IEEE Transactions on image processing,19(11):2861–2873,2010.1,5

[20]R.Zeyde,M.Elad,and M.Protter.On single image scale-up usingsparse-representations[J].In Curves and Surfaces,pages 711–730.Springer,2012.1,5,8

[21]E.Perez-Pellitero,J.Salvador,J.Ruiz-Hidalgo,andB.Rosenhahn.PSyCo:Manifold span reduction for super resolution[C].In CVPR,2016.1,6,7,8

[22]S.Schulter,C.Leistner,and H.Bischof.Fast and accurate imageupscaling with super-resolution forests[C].In CVPR,2015.1,5,6,7,8

[23]R.Timofte,V.D.Smet,and L.V.Gool.A+:Adjusted anchored neighborhoodregression for fast super-resolution[C].In ACCV,2014.1,8

[24]http://cvlab.postech.ac.kr/～mooyeol/pascal_voc_2012/

[25]C.M.Bevilacqua,A.Roumy,and M.Morel.Low-complexity single imagesuper-resolution based on non negative neighbor embedding[C].British MachineVision Conference,2012

[26]R.Zeyde,M.Elad,M.Protter,On single image scale-up using sparse-representations[C].International conference on curves and surfaces.Springer,2010:711-730.

[27]D.Martin,C.Fowlkes,D.Tal,and J.Malik.Adatabase of human segmentednatural images and its application to evaluating segmentation algorithms andmeasuring ecological statistics[C].In ICCV,2001.5。

[28]Radford,Alec,L.Metz,and S.Chintala."Unsupervised RepresentationLearning with Deep Convolutional Generative Adversarial Networks."ComputerScience(2015).

[29]Ronneberger O,Fischer P,Brox T.U-Net:Convolutional Networks forBiomedical Image Segmentation[J].2015。

Claims

1.一种密集连接生成对抗网络单幅图像超分辨率重建方法，其特征是，包括生成网络和对抗网络两部分，生成网络采用残差密集网络RDN的基本框架，使用5个稠密连接块DCB块作为基本模块，对抗网络采用深度卷积生成对抗网络DCGAN鉴别器网络框架，低分辨率图像作为输入送进生成网络经处理后，将得到的输出送到对抗网络进行判定，判定结果再通过损失函数反馈回生成网络，如此循环，直至对抗网络判定合格，生成网络可以生成清晰图像，然后利用训练好的生成网络完成低分辨率图像的超分辨率重建。

2.如权利要求1所述的密集连接生成对抗网络单幅图像超分辨率重建方法，其特征是，需要进行训练集的制作与数据预处理：

I_lr＝W(x)*I_hr

3.如权利要求1所述的密集连接生成对抗网络单幅图像超分辨率重建方法，其特征是，生成网络基本框架前两层为浅层特征提取层，核大小与数量为(3,64)；中间为特征提取层，由5个DCB模块组成，每个模块的输出都送到一个连接层concat(Concatenated layer,)层，concat层后紧跟一个核大小与数量为(1,64)的瓶颈层；然后将瓶颈层的输出与第一层的输出做残差；最后为一层上采样层,核大小、步长与数量为(6,2,2,3)。

4.如权利要求3所述的密集连接生成对抗网络单幅图像超分辨率重建方法，其特征是，每个DCB块包含四个卷积层Conv1、2、3、4和一个瓶颈层Conv5，在每个卷积层之后，都有一个级联操作来实现残差中的密集连接，DCB末端的瓶颈层是局部特征融合层，用于对大量特征图进行融合；

D_c＝f_cat4f_cr4(f_cat3f_cr3(f_cat2f_cr2(f_cat1f_cr1(D_d-1)))) (1)

D_d＝f_bo(D_c)

(2)

5.如权利要求3所述的密集连接生成对抗网络单幅图像超分辨率重建方法，其特征是，深层生成对抗网络DCGAN(Deep Convolutional Generative Adversarial Networks)中利用长步长卷积替代上采样层，归一化层将特征层的输出归一化到一起，在判别器中调整激活函数，防止梯度稀疏，基于DCGAN的对抗网络由一个卷积块，6个CBL块，和一个稠密连接构成，CBL块中采用LeakyReLU作为激活函数δ，输出为1024的全连接层Dense1024和输出为1的全连接层Dense1由卷积层来实现，最后经过一个sigmoid函数得到输出值，网络中卷积核的大小均为3×3，填充均为1；

损失函数由三部分加权组合而成：

第一部分为l_image是基于像素点的L1范数损失函数，其中，Gⁱ(x)代表输入的第i幅低分辨率的图像X通过生成器后得到的分辨率提升后的图像，Xⁱ为对应的原始图像，n代表图像的数目；卷积神经网络VGG16[20]的内容损失函数lVGG[23]，将模型训练得到的结果Gⁱ(x)，与原始的清晰的图像Xⁱ分别送入预训练好的VGG16[20]的网络中，计算通过第k个卷积层得到的特征图之间的欧式距离，φ_k,j表示VGG16[20]的第k个卷积层输出的第j张特征图，N代表第k个卷积层输出的特征图的总量，内容损失函数能确保两图像的内容相似。对抗损失l_D，