CN114140316A

CN114140316A - 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

Info

Publication number: CN114140316A
Application number: CN202111393116.2A
Authority: CN
Inventors: 杨旭广; 杨欣; 罗子扬; 李恒锐; 周大可
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-03-04

Abstract

本发明公开了一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法，包括如下步骤：(1)基于ResNet和SRGAN，设计残差块，作为前馈卷积神经网络的核心部分；(2)将图像输入生成网络，得到前馈卷积神经网络的输出；(3)将前馈卷积神经网络的输出与目标图像共同输入vgg16网络模型；(4)通过感知损失函数衡量二者之间的差距；(5)通过对vgg16网络和感知损失函数的模型进行大量数据训练改变前馈网络中的参数，使损失降低。本发明能够在图像风格转换以及超分辨率重建上实现比较好的画面效果和相对较快的训练速度。

Description

一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

技术领域

本发明涉及图像增强技术领域，尤其是一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法。

背景技术

超分辨率重建是隶属于计算机视觉中的一个经典的应用，它在监控设备、显微成像、视频编码通信、视频复原、卫星成像遥感、数字高清影像、医学图像处理等方面有着广泛的应用。超分辨率重建通过分析数字图像的信号并且采用软件的算法，将一帧或多帧图像重建成更高分辨率图像或视频。图像风格化则是通过分别输入一张风格图和内容图，将内容图渲染成有风格图类型的画作，从语义维度输出图片需跟输入图像接近，在风格、颜色和纹理上与目标图片接近。

图像超分辨率重建问题以及风格化的问题都可以看作是对于图像的处理转换问题，其一在有监督模式下对前馈卷积神经网络进行训练，损失函数用于表示输出、输入图像之间的不同，在该网络中使用逐像素求差法作为损失函数。该方法可做的只需一次前馈即可得已训练好的网络，但缺点在于这种运用了逐像素求差的损失函数的方法，无法在感知上体现出输入和输出图像的差距。其二是建立一个感知损失函数，从已经训练好的CNN中提取高层的图像特征用来求差，通过使损失函数最小化来实现超分辨率图像重建，得到的图像综合及图像风格化后的图像质量较高。但是缺点是训练过程非常缓慢，需要长期的迭代优化过程。

当前超分辨率重建仍然存在着一个难以解决的问题，即低分辨率图像和转换后高分辨率的图像可能存在一对多的关系。这种不确定性会随着超分辨率因子变大而变得更大。高分辨率图像中的细节很可能只有一丁点或者根本没有出现在它的低分辨率版本中。

发明内容

本发明所要解决的技术问题在于，提供一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法，能够在图像风格转换以及超分辨率重建上实现比较好的画面效果和相对较快的训练速度。

为解决上述技术问题，本发明提供一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法，包括如下步骤：

(1)基于ResNet和SRGAN，设计残差块，作为前馈卷积神经网络的核心部分；

(2)将图像输入生成网络，得到前馈卷积神经网络的输出；

(3)将前馈卷积神经网络的输出与目标图像共同输入vgg16网络模型；

(4)通过感知损失函数衡量二者之间的差距；

(5)通过对vgg16网络和感知损失函数的模型进行大量数据训练改变前馈网络中的参数，使损失降低。

优选的，步骤(1)中，残差块模型为ResNet和SRGAN的结合，前馈卷积神经网络中包含了5个基于ResNet的残差模块，再通过SRGAN提高照片的分辨率作为前馈卷积网络的核心部分。在计算机视觉中，加深网络的深度可以分层次地分解需要学习的问题，进而提高网络效果，但随着深度的增加，网络往往会存在梯度弥散问题导致无法收敛。而ResNet能够将冗余的块学习成恒等映射且对性能没有太多影响，具有某种深度自适应的能力，使训练更多层数的网络、提升网络性能成为了可能。SRGAN是一种利用感知损失和对抗损失来提升图片分辨率的算法。感知损失通过目标图片和原图片经过卷积神经网络的差异，使两者在风格和语义上达到相近，而对抗损失由GAN提供，根据图像是否可以欺骗过判别网络进行训练。

优选的，步骤(2)和步骤(3)中，基于前馈卷积神经网络的Generator生成网络结构利用步幅卷积做网络内的上采样或者下采样，前馈卷积神经网络中心由5个残差块组成，在所有的残差卷积层后加一个BN层，第一个和最后一个层用9x9的kernel，其他所有卷积层都用3x3的kernel，该网络用2个stride＝2的卷积去下采样输入，通过残差快后再用2个stride＝1/2的卷积去做上采样，先下采样再上采样可以使有效的感受野变大。

优选的，步骤(4)中，在构建损失网络之前，预先训练好vgg16模型，损失网络φ是基于vgg16模型，网络中的权重提前训练好，该权重能定义特征(内容)损失和风格损失作为衡量内容和风格上差距的标准。

本发明的有益效果为：(1)通过该模型，可改变图片的风格，将其转换为具有目标风格图的风格的图像，可实现较好的图像风格化功能；(2)通过该模型，得到的超分辨结果与原有的方法，如SRGAN、SRCNN等方法对比，这些方法通常训练过程非常缓慢，需要长期的迭代优化过程，网络模型得到了与上述方法相近的效果，并且加快了训练的速度。

附图说明

图1为本发明的总体结构示意图。

图2为本发明基于前馈卷积神经网络的Generator生成网络结构示意图。

图3为本发明的残差网络结构示意图。

图4为本发明的SRGAN结构示意图。

图5为本发明的内容损失、风格损失和总损失示意图。

图6为本发明的损失函数下降曲线示意图。

图7为本发明的目标风格图、目标转换图和风格转换图。

图8为本发明与其他方法超分辨率重建上的效果对比图。

具体实施方式

一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法，包括如下步骤：

(2)将图像输入生成网络，得到前馈卷积神经网络的输出；

(3)将前馈网络的输出与目标图像共同输入vgg16网络模型；

(4)通过感知损失函数衡量二者之间的差距；

如图1所示为模型的整体结构，模型由两部分组成：一个生成网络和一个损失网络(用于定义一系列损失函数)，生成网络的主要结构是深度残差网络与SRGAN网络的结合；损失网络中的权重是参数，它将输入图片通过映射转换成输出图像，每个损失函数计算标量值是图像输出和目标图像之间的差距的衡量标准。图像网络使用Adam来训练，使一系列损失函数的加权和保持下降。

如图2所示为图像转换网络，即生成网络，通过步幅卷积对网络内部采取上下采样生成网络结构，本发明的前馈神经网络中心共有五个残差块。其中第一个以及最后一个残差卷积层kernel为9x9，其余层的kernel均为3x3。该网络用了两个stride＝2的卷积层进行网络中的下采样，其次接有五个残差块，最后是两个stride＝1/2的反卷积层来做上采样。

如图3所示为残差网络结构图，其动机在于解决“退化”问题。ResNet能够将冗余的块学习成恒等映射，并且对性能没有太多影响，具有某种深度自适应的能力，使训练更多层数的网络，提升网络性能成为了可能。本发明中前馈卷积神经网络中使用了5个基于ResNet的残差模块，仅借鉴使用SRGAN其中的一块网络结构。

如图4所示为SRGAN结构图，GAN在超分辨率重建领域应用广泛，它主要的功能就是将一张低分辨率图片转换成为一张高分辨率图片。该专利使用的仅为SRGAN中的一部分网络结构，并没有使用其损失函数。

损失网络是基于vgg16模型的含有特征损失和风格损失的误差函数的模型，用两个定义的感知损失函数，来衡量两张图片之间语义差别以及高级感知的差距。

(1)特征(内容)损失：

相比于做逐像素对比，该实验网络借用了已经训练好的VGG-16这一网络。将目标设定为VGG-16网络的中间层activations，以此来计算输入的两个图象经过VGG-16中间层的欧氏距离。

其中：j是VGG-16的中间层代号；

指的是输入图像是y，VGG-16网络的j中间层的输出，C_jH_jW_j是

的长宽高。

该数学公式意为两幅图像在模型中间层j的欧氏距离。两个图形的欧氏距离越小，说明VGG-16网络越接近。特性重构损失函数保证了语义信息能够从预训练好的损失网络传输到超分辨率网络。

(2)风格损失：

一张图片具有颜色、纹理、特征等信息。因此在风格转换上还需要风格损失函数来帮助训练网络。让

代表网络φ的第j层，输入是x。特征图谱的形状就是C_jxH_jxW_j、定义矩阵G_j(x)为C_jxC_j矩阵(特征矩阵)，其中的元素来自于Gram矩阵：

如果把

理解成一个C_jx维度的特征，每个特征的尺寸是H_jxW_j，那么上式左边G_j(x)就是与C_j维的非中心的协方差成比例。每一个网格位置都可以当做一个独立的样本。这因此能抓住是哪个特征能带动其他的信息。

通过较高的速度计算梯度矩阵，调整

的形状为一个矩阵ψ，形状为C_jxH_jW_j，然后G_j(x)就是

梯度矩阵可以将输出的和目标有不同的尺寸的图像调整到相同的形状。求出两张图片通过损失网络后的每一个层的Gram矩阵，计算对应层的欧氏距离并对不同层的欧氏距离相加，得到最后的风格损失：

(3)全变量正则化：

为了使输出图像更加平滑，遵循前人在特征反演、超分辨率重建等方面的研究，并利用全变差正则化(一般用于信号去噪)。

实施例：

步骤1、训练集使用了2014版本coco数据集，将训练集中每一个图像变换到256x256的尺寸，该训练集共8万余张训练图；

步骤2、验证集采用了8张经典的图像超分辨率重建领域的图片和两张风格转换的图片；

步骤3、对于风格转换，本次实验采用batch-size＝4，迭代20000次。用Adam进行优化。对所有的风格转换实验我们取relu3_3层做内容，relu1_2，relu2_2，relu3_3和relu4_3作为风格。本次训练用了大约2个小时，在一块RTX 2080ti上。所得的内容损失、风格损失和总损失的下降曲线分别如图5所示；

步骤4、对于超分辨率重建，本次实验通过已经训练好的模型来完成x4和x8的超分辨率重建，通过用vgg16在relu4_2层提取出实现最小化特征损失，训练时bacth-size＝4，迭代次数为40000次，用Adam优化，学习速率1e-3，无dropout,增加正则化计算。训练用了大约2个小时，在一块RTX 2080ti上。所得损失函数下降曲线如图6所示；

步骤4、使用验证集通过训练好的前馈网络对网络的超分辨率性能进行验证。得到风格转换图像与超分辨率重建图像如图7所示。

如图8所示，通过该模型，得到的超分辨结果与原有的方法如SRGAN、SRCNN等方法对比，这些方法通常训练过程非常缓慢，需要长期的迭代优化过程，网络模型得到了与上述方法相近的效果，并且加快了训练的速度。

Claims

1.一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法，其特征在于，包括如下步骤：

(2)将图像输入生成网络，得到前馈卷积神经网络的输出；

(3)将前馈网络的输出与目标图像共同输入vgg16网络模型；

(4)通过感知损失函数衡量二者之间的差距；

(5)通过对vgg16网络进行大量数据训练改变前馈网络中的参数，使损失降低。

2.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法，其特征在于，步骤(1)中，残差块模型为ResNet和SRGAN的结合，ResNet将冗余的块学习成恒等映射；前馈卷积神经网络中使用了5个基于ResNet的残差模块，SRGAN提高照片的分辨率，将其从低分辨率转换为高分辨率。

3.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法，其特征在于，步骤(2)和步骤(3)中，基于前馈卷积神经网络的Generator生成网络结构利用步幅卷积做网络内的上采样或者下采样，前馈卷积神经网络中心由5个残差块组成，在所有的残差卷积层后加一个BN层，第一个和最后一个层用9x9的kernel，其他所有卷积层都用3x3的kernel，该网络用2个stride＝2的卷积去下采样输入，通过残差快后再用2个stride＝1/2的卷积去做上采样，先下采样再上采样可以使有效的感受野变大。

4.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法，其特征在于，步骤(4)中，在构建输出与目标图形之间的感知损失函数之前，预先训练好vgg16模型，损失网络φ是基于vgg16模型，网络中的权重提前训练好，该权重能定义特征损失和风格损失作为衡量内容和风格上差距的标准。