CN110136062A

CN110136062A - 一种联合语义分割的超分辨率重建方法

Info

Publication number: CN110136062A
Application number: CN201910389111.9A
Authority: CN
Inventors: 向炟; 陈军; 杨玉红
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-05-10
Filing date: 2019-05-10
Publication date: 2019-08-16
Anticipated expiration: 2039-05-10
Also published as: CN110136062B

Abstract

本发明提出一种联合了语义分割的图像超分辨率重建方法，利用低质量图像在进行语义分割时产生的中间结果以及最终结果对其进行超分辨率重建，在进行大倍数的超分辨率重建时能更具有真实感的效果。由于图像的高层级语义信息作为图像的固有信息，在像素级层面上含有大量的类别先验，因此可以作为超分辨率重建过程中的约束信息提升其重建结果的质量。本发明将图像超分辨率重建这一计算机视觉的低层级问题与作为高层级问题的图像语义分割结合起来，利用图像经过语义分割之后产生的各种信息，对超分辨率重建的过程进行约束和增强，解决了在大缩放因子的条件下低分辨率图像的重建缺乏真实性的问题，在主观质量评价上有较高的提升。

Description

一种联合语义分割的超分辨率重建方法

技术领域

本发明涉及图像处理技术领域，具体涉及一种利用语义分割进行图像超分辨率重建的方法。

背景技术

图像超分辨率重建指使用各种技术手段将低分辨率图像转换为高分辨率图像，恢复出更多的高频信息，使得图像拥有更加清晰的纹理和细节。图像的超分辨率重建方法自首次提出以来已经历半个世纪的发展，众多的图像超分辨率重建方法根据其原理不同可大致分为三类：基于插值的方法、基于重建的方法和基于学习的方法。

基于插值的方法将超分辨率重建问题与图像插值问题联系在一起，是超分辨率重建中最直接的方法。常见的插值方法有最近邻插值方法、双线性插值方法、双三次插值方法等。其核心思路是将目标图像中的点按照缩放关系寻找源图像中与其相关的点，然后通过源图像中相关点的像素值经过插值计算得到目标点的像素值。基于插值的方法，优点是非常简单直观,且运行速度很快，缺点是适应性相对较差，不易加入图像的先验信息，容易引入额外噪声，使重建出来的图像缺失细节，产生模糊、锯齿等现象。

基于重建的方法得到了最广泛的关注和研究，此种方法假定高分辨率图像是经过了适当的运动变换、模糊及噪声才得到低分辨率图像，将超分辨率重建问题转化为对一个约束条件下的代价函数的优化问题。其核心思路是从图像的退化模型出发，利用正则化等方法提取低分辨率图像中的关键信息，并结合对未知的超分辨率图像的先验知识来约束超分辨率图像的生成。此类方法在重建时只需要一些局部性的先验假设，在一定程度上缓解了插值方法所产生的模糊或者锯齿效果，但当放大倍数过大时，退化模型不能很好地提供重建所需要的先验知识，导致重建结果缺乏高频信息。

基于学习的方法是近年来超分辨率算法研究的热点方向。其基本思路是通过对一组同时包括高分辨率图像和低分辨率图像的训练集合的训练，学习到一个联合的***模型，利用学习到的模型对相似的低分辨率图像进行超分辨率重建，达到提高图像分辨率的目的。基于学习的方法充分利用了图像的先验知识，能恢复出低分辨率图像中更多的高频信息，获得比其余两种方法更好的重建结果。而所有基于学习的方法之中，基于深度学习的超分辨率重建方法在近几年中取得了优秀的成绩。

尽管如今的单幅图像超分辨率重建技术依靠深度学习在精度和速度上都取得了不小的突破，但在处理较为复杂的低分辨率图像时，其效果会有所下降。例如：当处理的低分辨率图像中含有许多物体且物体之间有较大部分的重叠和遮挡时，现有的方法不能很好地划分重叠和遮挡物体间的界线，导致其重建结果的纹理细节不足，甚至会将多个重叠的物体重建为一个。

发明内容

为了解决上述中出现的问题，本发明提出一种全新的联合了语义分割的超分辨率重建方法。语义分割是计算机视觉中的基本任务之一，其目的将视觉输入分为不同的语义可解释类别，对一幅图像来说就是将图像中的像素划分为不同类别。基于语义分割将像素分类的特性，联合了语义分割的超分辨率重建方法能较好地处理带有多个重叠和遮挡物体的低分辨率图像。

本发明针对现有技术的不足，提供了一种对低分辨率图像进行超分辨率重建的方法，包含以下步骤：

步骤1，构建低分辨率的语义分割数据集，所述低分辨率的语义分割数据集包括低分辨率图像和对应的语义布局图；

步骤2，使用低分辨率的语义分割数据集训练语义分割网络，；

步骤3，构建用于训练超分辨率重建网络的数据集，所述用于训练超分辨率重建网络的数据集包括低分辨率图像的语义布局图、语义特征图和对应的高分辨率图像，其中低分辨率图像的语义布局图、语义特征图通过将低分辨率图像输入到步骤2中训练好的语义分割网络中获得；

步骤4，将语义布局图和语义特征图作为输入，语义布局图对应的高分辨率图像作为真实值，训练超分辨率重建网络，使其能根据输入的语义布局图输出对应的高分辨率重建结果；

步骤5，将一张待重建的低分辨率图片输入到步骤2中得到的语义分割结果，得到其语义布局图和语义特征图，然后将其输入至步骤4中训练得到的超分辨率重建网络，最终得到重建后的高分辨率图像。

进一步的，步骤1所述低分辨率的语义分割数据集是将通常的语义分割数据集中的高分辨率图像和语义布局图进行相同缩放因子的下采样，得到的低分辨率图像和语义布局图构成了低分辨率的语义分割数据集。

进一步的，步骤2中的语义分割网络为全卷积网络，该全卷积网络是将VGG16中的全连接层改为卷积层后所得，具体网络结构为：卷积层×2+池化层+卷积层×2+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×2+反卷积层，其中卷积层的卷积核大小为3×3，池化层采用的是最大池化。

进一步的，全卷积网络的权值初始化为经过预训练的VGG16中的权值；训练中所优化的损失函数为网络最后一层的像素预测值的偏差之和；训练的具体参数为：训练的批大小为20，采用动量为0.9、衰变率为10^-4的Adam算法进行优化，网络的学习率为10^-4。

进一步的，步骤4所述超分辨率重建网络是由一系列级联的重建模块所组成的级联重建网络，级联的重建模块以递增的分辨率运行，其中每个重建模块由3个网络层组成：第一层为特征融合层，作用为将输入的语义布局图和语义特征图与前一层的输出结果融合；后面两层为带有3×3卷积核、层正则化和修正线性单元的卷积层，作为是对融合后的特征进行重建。

进一步的，超分辨率重建网络中的重建模块之间的具体运行关系如下，

第一个重建模块将下采样到当前分辨率的语义布局图和语义特征图作为输入，输出一个当前分辨率的结果，此结果看作是经过合并和卷积后的特征图，后面的重建模块将前一个模块的结果和下采样后的语义布局图以及语义特征图一起作为输入，输出一个新的结果，经过多次这样的过程，最终的重建模块输出的结果即为超分辨率重建的结果，此过程的数学描述如下：

其中，O_i表示第i个重建模块的输出，f表示重建模块中的卷积等操作，L表示语义布局图，F表示语义特征图，表示特征融合。

进一步的，步骤4中训练超分辨率重建网络时使用的损失函数为，

其中，I为代表真实值的高分辨率图像，f为待训练的级联重建网络，θ为f中的参数集合，L为输入的语义布局图，Φ为经过训练的视觉感知网络，该视觉感知网络为VGG网络，Φ_l表示视觉感知网络中的卷积层，λ_l为控制权重的超参数，在训练过程中其值随着训练进程进行调整。

进一步的，训练超分辨率重建网络时，具体设置为：整体的迭代次数为200代；模型的学习率为10^-4，并且每经过100代训练，学习率降为一半；采用动量为0.9、衰变率为10^-4的Adam算法进行优化。

与现有技术相比，本发明具有以下优点和积极效果：

由于图像的高层级语义信息作为图像的固有信息，在像素级层面上含有大量的类别先验，因此可以作为超分辨率重建过程中的约束信息提升其重建结果的质量。本发明将图像超分辨率重建这一计算机视觉的低层级问题与作为高层级问题的图像语义分割结合起来，利用图像经过语义分割之后产生的各种信息，对超分辨率重建的过程进行约束和增强，解决了在大缩放因子的条件下低分辨率图像的重建缺乏真实性的问题，在主观质量评价上有较高的提升。

附图说明

图1为本发明实施例中全卷积网络的网络结构图。

图2为本发明实施例中级联重建网络的模块结构图。

图3为本发明的整体流程图。

图4为本发明与对比方法的视觉效果对比图，其中(a)为双三次插值(Bicubic)，(b)为SRCNN，(c)为SRDenNet，(d)为SRGAN，(e)为本发明。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本发明将图像语义分割和图像超分辨率重建两种计算机视觉任务的特点结合了起来，将图像经过语义分割产生的特征作为超分辨率重建的先验信息，提出了一种联合语义分割的图像超分辨率重建方法。此方法阐述的总体流程如图3所示，此方法能够用计算机软件技术实现，实施例以网络的训练为主要内容对本发明的流程进行一个具体的阐述，如下：

步骤1，构建低分辨率的语义分割数据集，所述低分辨率的语义分割数据集包括低分辨率图片和对应的语义布局图。通常的语义分割数据集包含高分辨率的图片和其对应的语义布局图，将高分辨率的图片和对应的语义布局图统一降采样得到低分辨率的语义分割数据集。

具体实施中，使用图像处理软件读入全部的高分辨率的图片和其对应的语义布局图，将其尺寸统一，随后使用双三次插值对全部高分辨率图片进行缩放因子为4的降采样。再使用同样的方法将对应的语义布局图降采样至相同分辨率。如此，便得到了由低分辨率的图像与对应的语义布局图构成的低分辨率的语义分割数据集。

步骤2，使用低分辨率的语义分割数据集训练语义分割网络。通常的语义分割网络所处理的对象为高分辨率图片，使用步骤1中所得低分辨率的数据集训练语义分割网络使其在输入低分辨率图像时能输出对应的准确的语义布局图；

在本实施例中，语义分割网络以全卷积网络(FCN，Fully ConvolutionalNetworks)为例来进行说明。全卷积网络是一种不含全连接层的卷积神经网络，能为图片中的每个像素预测分类从而得到语义分割结果，其网络结构如图1所示。特别地，本实施例中的全卷积网络改进自VGG16分类网络，是将VGG16中的全连接层改为卷积层后所得。在全卷积网络中，记x_ij为网络某层(i，j)位置的数据向量，y_ij为下一网络层的(i，j)位置的数据向量，y_ij由x_ij经以下公式可以得出：

y_ij＝f_ks({xsi+δi,sj+δj}0≤δi,δj≤k)

其中，k表示卷积核的大小，s表示卷积核的步长或者下采样因子，si，sj表示原网络层(i，j)位置的数据向量经过卷积或池化操作后位置坐标发生了与s有关的变化，δi，δj表示在卷积或者池化过程中产生的空间位移，通常由补零操作引起。f_ks决定了网络层的类型，它可能是用于卷积或者池化的矩阵乘法，也有可能是用于最大池化的空间最大化，或者是激活函数的元素非线性映射。对全卷积网络而言，其中的每一个网络层实现的功能都能用以上公式概括。

训练全卷积网络的具体实施方案如下：

1.构建网络。本实施例中全卷积网络主体由VGG16组成，其网络结构为：卷积层×2+池化层+卷积层×2+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×2+反卷积层。其中卷积层的卷积核大小为3×3，池化层采用的是最大池化，随着卷积层的深入，数据的尺寸变小而通道变多。

2.初始化网络中的权值。与通常情况下随机初始化不同，本实施例中的权值初始化为经过预训练的VGG16中的权值。

3.训练网络。训练中所优化的损失函数为网络最后一层的像素预测值的偏差之和。本实施例中，训练的具体参数为：训练的批大小为20，采用动量为0.9、衰变率为10^-4的Adam算法进行优化，网络的学习率为10^-4。

步骤3，构建用于训练超分辨率重建网络的数据集，所述用于训练超分辨率重建网络的数据集包括低分辨率图片的语义布局图和对应的高分辨率图片。将低分辨率图片输入步骤2中所得语义分割网络，得到其语义分割结果—语义布局图。此外，还能得到语义分割的过程中产生的中间结果，语义特征图。语义布局图和相应的特征图以及对应的高分辨率照片将组成一个新的数据集去训练超分辨率重建网络。将图像输入语义分割网络后，网络最终的输出结果即为语义布局图，而语义特征图则需要从语义分割网络的不同网络层中去提取。本实施例中，所选择的语义特征图为全卷积网络中池化层之前的卷积层中的特征。

步骤4，将语义布局图和语义特征图作为输入，语义布局图对应的高分辨率图像作为真实值，训练一个超分辨率重建网络，使其能根据输入的语义布局图输出对应的高分辨率重建结果；

本实施例中，选择作为超分辨率重建网络的是由一系列级联的重建模块所组成的级联重建网络，其结构如图2所示。每个重建模块以不同的分辨率运行，第一个模块的分辨率被设置为8×16，后面的模块分辨率依次加倍，经过5个重建模块后，最终的输出分辨率为256×512。第一个重建模块将下采样到当前分辨率的语义布局图和特征图作为输入，输出一个当前分辨率的结果，此结果可看作是经过合并和卷积后的特征图。后面的重建模块会将前一个模块的结果和下采样后的语义布局图以及特征图一起作为输入，输出一个新的结果。经过多次这样的过程，最终的重建模块输出的结果即为超分辨率重建的结果。此过程的数学描述如下：

每个重建模块由3个网络层组成：第一层为特征融合层，作用为将输入的语义布局图和语义特征图与前一层的输出结果融合；后面两层为带有3×3卷积核、层正则化和修正线性单元的卷积层，作为是对融合后的特征进行重建。除了最后的重建模块外，每个重建模块的结构都一样，但每个模块重建的侧重点却不一样，因为输入的特征图含有不同层次的信息。

级联重建网络将语义布局图作为框架，利用特征图中包含的各种信息来重建图像的细节，因此在训练时使用的损失函数和一般的超分辨率重建方法也有区别，不同于常规的均方误差损失函数直接将重建结果与原始高清图像逐像素进行对比，级联重建网络使用了被称为感知损失的损失函数，目的是对比重建结果与真实值两者在视觉感知网络中的特征差异，其定义为：

其中，I为代表真实值的高分辨率图像，f为待训练的级联重建网络，θ为f中的参数集合，L为输入的语义布局图，λ_l为控制权重的超参数，在训练过程中其值随着训练进程会有所调整，Φ为经过训练的视觉感知网络，Φ_l表示视觉感知网络中的卷积层，视觉感知网络是一个经过大量数据训练好的图像分类网络，具有将输入图像中的物体正确分类的能力，通常使用的是已经公开发布的VGG系列网络，在其官网上可以找到。经过感知损失函数的训练，级联重建网络能重建出更真实的重建结果。

训练超分辨率重建网络的具体实施方案如下：

1.构建网络。本实施例中的超分辨率重建网络由一系列重建模块级联而成，每个级联模块的结构一致。所构建的重建模块由三层网络组成，第一层网络将输入的特征进行融合，后两层网络为卷积层，其卷积核大小为3×3，且带有层正则化和LRELU激活函数。

2.初始化网络中的权值，随机初始化网络中的权值。

3.训练网络。训练中需要优化的函数为感知损失，训练的具体设置为，整体的迭代次数为200代；模型的学习率为10^-4，并且每经过100代训练，学习率降为一半；采用动量为0.9、衰变率为10^-4的Adam算法进行优化。

步骤5，使用训练所得网络进行超分辨率重建。具体实施方案为：将一张待重建的低分辨率图片输入到步骤2中得到的语义分割网络，得到其语义布局图和语义特征图，然后将其输入至步骤4中训练得到的超分辨率重建网络，最终得到重建后的高分辨率图像。

为验证本发明技术效果，使用Cityscapes城市景观数据集进行验证。Cityscapes数据集中有2975张高分辨率图像和对应的精细语义布局图。将2975张图像中的1000张用作训练语义分割网络，其余的1975张图像训练超分辨率重建网络。用作对比的方法有双三次插值(Bicubic)，超分辨率卷积神经网络SRCNN(C.Dong,C.C.Loy,K.He,and X.Tang.Imagesuper-resolution using deep convolutional networks.IEEE Transactions onPattern Analysis and Machine Intelligence,38(2):295–307,2016.)、超分辨率密集神经网络SRDenNet(T.Tong,G.Li,X.Liu,and Q.Gao,“Image super-resolution usingdense skip connections,”in 2017 IEEE International Conference on ComputerVision(ICCV).IEEE,2017,pp.4809–4817.)和超分辨率生成对抗网络SRGAN(C.Ledig,L.Theis,F.Huszar,J.Caballero,A.Cunningham,A.Acosta,A.Aitken,A.Tejani,J.Totz,Z.Wang,et al.Photo-realistic single image super-resolution using a generativeadversarial network.arXiv preprint arXiv:1609.04802,2016.2)。

表1展示了各方法在缩放因子为4的情况下对应的客观和主观评价指标，包括PSNR(峰值信噪比)和SSIM(结构相似性)以及MOS(平均主观意见得分)。从表1中可以看出，本发明方法在恢复图像的主观质量上，有稳定的提升。

表1各方法客观以及主观评分

视觉效果对比如图4，从对比结果可知，本发明的方法相对于其它方法在重建的细节上更为生动具体，在整体上具有更高的真实感和视觉说服力，在保持了客观评价指标基本不变的水准下，在主观评价指标上有较大幅度提高。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制。本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，但仍属于本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种联合语义分割的超分辨率重建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种联合语义分割的超分辨率重建方法，其特征在于：步骤1所述低分辨率的语义分割数据集是将通常的语义分割数据集中的高分辨率图像和语义布局图进行相同缩放因子的下采样，得到的低分辨率图像和语义布局图构成了低分辨率的语义分割数据集。

3.根据权利要求1所述的一种联合语义分割的超分辨率重建方法，其特征在于：步骤2中的语义分割网络为全卷积网络，该全卷积网络是将VGG16中的全连接层改为卷积层后所得，具体网络结构为：卷积层×2+池化层+卷积层×2+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×3+池化层+卷积层×2+反卷积层，其中卷积层的卷积核大小为3×3，池化层采用的是最大池化。

4.根据权利要求3所述的一种联合语义分割的超分辨率重建方法，其特征在于：全卷积网络的权值初始化为经过预训练的VGG16中的权值；训练中所优化的损失函数为网络最后一层的像素预测值的偏差之和；训练的具体参数为：训练的批大小为20，采用动量为0.9、衰变率为10^-4的Adam算法进行优化，网络的学习率为10^-4。

5.根据权利要求1所述的一种联合语义分割的超分辨率重建方法，其特征在于：步骤4所述超分辨率重建网络是由一系列级联的重建模块所组成的级联重建网络，级联的重建模块以递增的分辨率运行，其中每个重建模块由3个网络层组成：第一层为特征融合层，作用为将输入的语义布局图和语义特征图与前一层的输出结果融合；后面两层为带有3×3卷积核、层正则化和修正线性单元的卷积层，作为是对融合后的特征进行重建。

6.根据权利要求5所述的一种联合语义分割的超分辨率重建方法，其特征在于：超分辨率重建网络中的重建模块之间的具体运行关系如下，

其中，O_i表示第i个重建模块的输出，f表示重建模块中的卷积等操作，L表示语义布局图，F表示语义特征图，⊕表示特征融合。

7.根据权利要求5所述的一种联合语义分割的超分辨率重建方法，其特征在于：步骤4中训练超分辨率重建网络时使用的损失函数为，

8.根据权利要求5所述的一种联合语义分割的超分辨率重建方法，其特征在于：训练超分辨率重建网络时，具体设置为：整体的迭代次数为200代；模型的学习率为10^-4，并且每经过100代训练，学习率降为一半；采用动量为0.9、衰变率为10^-4的Adam算法进行优化。