CN114140316A - 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法 - Google Patents

一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法 Download PDF

Info

Publication number
CN114140316A
CN114140316A CN202111393116.2A CN202111393116A CN114140316A CN 114140316 A CN114140316 A CN 114140316A CN 202111393116 A CN202111393116 A CN 202111393116A CN 114140316 A CN114140316 A CN 114140316A
Authority
CN
China
Prior art keywords
network
feedforward
neural network
image
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111393116.2A
Other languages
English (en)
Inventor
杨旭广
杨欣
罗子扬
李恒锐
周大可
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Aeronautics and Astronautics
Original Assignee
Nanjing University of Aeronautics and Astronautics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Aeronautics and Astronautics filed Critical Nanjing University of Aeronautics and Astronautics
Priority to CN202111393116.2A priority Critical patent/CN114140316A/zh
Publication of CN114140316A publication Critical patent/CN114140316A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • G06T3/4076Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution using the original low-resolution images to iteratively correct the high-resolution images

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法,包括如下步骤:(1)基于ResNet和SRGAN,设计残差块,作为前馈卷积神经网络的核心部分;(2)将图像输入生成网络,得到前馈卷积神经网络的输出;(3)将前馈卷积神经网络的输出与目标图像共同输入vgg16网络模型;(4)通过感知损失函数衡量二者之间的差距;(5)通过对vgg16网络和感知损失函数的模型进行大量数据训练改变前馈网络中的参数,使损失降低。本发明能够在图像风格转换以及超分辨率重建上实现比较好的画面效果和相对较快的训练速度。

Description

一种基于前馈神经网络与感知损失函数的图像超分辨率重建 方法
技术领域
本发明涉及图像增强技术领域,尤其是一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法。
背景技术
超分辨率重建是隶属于计算机视觉中的一个经典的应用,它在监控设备、显微成像、视频编码通信、视频复原、卫星成像遥感、数字高清影像、医学图像处理等方面有着广泛的应用。超分辨率重建通过分析数字图像的信号并且采用软件的算法,将一帧或多帧图像重建成更高分辨率图像或视频。图像风格化则是通过分别输入一张风格图和内容图,将内容图渲染成有风格图类型的画作,从语义维度输出图片需跟输入图像接近,在风格、颜色和纹理上与目标图片接近。
图像超分辨率重建问题以及风格化的问题都可以看作是对于图像的处理转换问题,其一在有监督模式下对前馈卷积神经网络进行训练,损失函数用于表示输出、输入图像之间的不同,在该网络中使用逐像素求差法作为损失函数。该方法可做的只需一次前馈即可得已训练好的网络,但缺点在于这种运用了逐像素求差的损失函数的方法,无法在感知上体现出输入和输出图像的差距。其二是建立一个感知损失函数,从已经训练好的CNN中提取高层的图像特征用来求差,通过使损失函数最小化来实现超分辨率图像重建,得到的图像综合及图像风格化后的图像质量较高。但是缺点是训练过程非常缓慢,需要长期的迭代优化过程。
当前超分辨率重建仍然存在着一个难以解决的问题,即低分辨率图像和转换后高分辨率的图像可能存在一对多的关系。这种不确定性会随着超分辨率因子变大而变得更大。高分辨率图像中的细节很可能只有一丁点或者根本没有出现在它的低分辨率版本中。
发明内容
本发明所要解决的技术问题在于,提供一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法,能够在图像风格转换以及超分辨率重建上实现比较好的画面效果和相对较快的训练速度。
为解决上述技术问题,本发明提供一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法,包括如下步骤:
(1)基于ResNet和SRGAN,设计残差块,作为前馈卷积神经网络的核心部分;
(2)将图像输入生成网络,得到前馈卷积神经网络的输出;
(3)将前馈卷积神经网络的输出与目标图像共同输入vgg16网络模型;
(4)通过感知损失函数衡量二者之间的差距;
(5)通过对vgg16网络和感知损失函数的模型进行大量数据训练改变前馈网络中的参数,使损失降低。
优选的,步骤(1)中,残差块模型为ResNet和SRGAN的结合,前馈卷积神经网络中包含了5个基于ResNet的残差模块,再通过SRGAN提高照片的分辨率作为前馈卷积网络的核心部分。在计算机视觉中,加深网络的深度可以分层次地分解需要学习的问题,进而提高网络效果,但随着深度的增加,网络往往会存在梯度弥散问题导致无法收敛。而ResNet能够将冗余的块学习成恒等映射且对性能没有太多影响,具有某种深度自适应的能力,使训练更多层数的网络、提升网络性能成为了可能。SRGAN是一种利用感知损失和对抗损失来提升图片分辨率的算法。感知损失通过目标图片和原图片经过卷积神经网络的差异,使两者在风格和语义上达到相近,而对抗损失由GAN提供,根据图像是否可以欺骗过判别网络进行训练。
优选的,步骤(2)和步骤(3)中,基于前馈卷积神经网络的Generator生成网络结构利用步幅卷积做网络内的上采样或者下采样,前馈卷积神经网络中心由5个残差块组成,在所有的残差卷积层后加一个BN层,第一个和最后一个层用9x9的kernel,其他所有卷积层都用3x3的kernel,该网络用2个stride=2的卷积去下采样输入,通过残差快后再用2个stride=1/2的卷积去做上采样,先下采样再上采样可以使有效的感受野变大。
优选的,步骤(4)中,在构建损失网络之前,预先训练好vgg16模型,损失网络φ是基于vgg16模型,网络中的权重提前训练好,该权重能定义特征(内容)损失和风格损失作为衡量内容和风格上差距的标准。
本发明的有益效果为:(1)通过该模型,可改变图片的风格,将其转换为具有目标风格图的风格的图像,可实现较好的图像风格化功能;(2)通过该模型,得到的超分辨结果与原有的方法,如SRGAN、SRCNN等方法对比,这些方法通常训练过程非常缓慢,需要长期的迭代优化过程,网络模型得到了与上述方法相近的效果,并且加快了训练的速度。
附图说明
图1为本发明的总体结构示意图。
图2为本发明基于前馈卷积神经网络的Generator生成网络结构示意图。
图3为本发明的残差网络结构示意图。
图4为本发明的SRGAN结构示意图。
图5为本发明的内容损失、风格损失和总损失示意图。
图6为本发明的损失函数下降曲线示意图。
图7为本发明的目标风格图、目标转换图和风格转换图。
图8为本发明与其他方法超分辨率重建上的效果对比图。
具体实施方式
一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法,包括如下步骤:
(1)基于ResNet和SRGAN,设计残差块,作为前馈卷积神经网络的核心部分;
(2)将图像输入生成网络,得到前馈卷积神经网络的输出;
(3)将前馈网络的输出与目标图像共同输入vgg16网络模型;
(4)通过感知损失函数衡量二者之间的差距;
(5)通过对vgg16网络和感知损失函数的模型进行大量数据训练改变前馈网络中的参数,使损失降低。
如图1所示为模型的整体结构,模型由两部分组成:一个生成网络和一个损失网络(用于定义一系列损失函数),生成网络的主要结构是深度残差网络与SRGAN网络的结合;损失网络中的权重是参数,它将输入图片通过映射转换成输出图像,每个损失函数计算标量值是图像输出和目标图像之间的差距的衡量标准。图像网络使用Adam来训练,使一系列损失函数的加权和保持下降。
如图2所示为图像转换网络,即生成网络,通过步幅卷积对网络内部采取上下采样生成网络结构,本发明的前馈神经网络中心共有五个残差块。其中第一个以及最后一个残差卷积层kernel为9x9,其余层的kernel均为3x3。该网络用了两个stride=2的卷积层进行网络中的下采样,其次接有五个残差块,最后是两个stride=1/2的反卷积层来做上采样。
如图3所示为残差网络结构图,其动机在于解决“退化”问题。ResNet能够将冗余的块学习成恒等映射,并且对性能没有太多影响,具有某种深度自适应的能力,使训练更多层数的网络,提升网络性能成为了可能。本发明中前馈卷积神经网络中使用了5个基于ResNet的残差模块,仅借鉴使用SRGAN其中的一块网络结构。
如图4所示为SRGAN结构图,GAN在超分辨率重建领域应用广泛,它主要的功能就是将一张低分辨率图片转换成为一张高分辨率图片。该专利使用的仅为SRGAN中的一部分网络结构,并没有使用其损失函数。
损失网络是基于vgg16模型的含有特征损失和风格损失的误差函数的模型,用两个定义的感知损失函数,来衡量两张图片之间语义差别以及高级感知的差距。
(1)特征(内容)损失:
相比于做逐像素对比,该实验网络借用了已经训练好的VGG-16这一网络。将目标设定为VGG-16网络的中间层activations,以此来计算输入的两个图象经过VGG-16中间层的欧氏距离。
Figure BDA0003369046270000041
其中:j是VGG-16的中间层代号;
Figure BDA0003369046270000042
指的是输入图像是y,VGG-16网络的j中间层的输出,CjHjWj
Figure BDA0003369046270000043
的长宽高。
该数学公式意为两幅图像在模型中间层j的欧氏距离。两个图形的欧氏距离越小,说明VGG-16网络越接近。特性重构损失函数保证了语义信息能够从预训练好的损失网络传输到超分辨率网络。
(2)风格损失:
一张图片具有颜色、纹理、特征等信息。因此在风格转换上还需要风格损失函数来帮助训练网络。让
Figure BDA0003369046270000044
代表网络φ的第j层,输入是x。特征图谱的形状就是CjxHjxWj、定义矩阵Gj(x)为CjxCj矩阵(特征矩阵),其中的元素来自于Gram矩阵:
Figure BDA0003369046270000045
如果把
Figure BDA0003369046270000046
理解成一个Cjx维度的特征,每个特征的尺寸是HjxWj,那么上式左边Gj(x)就是与Cj维的非中心的协方差成比例。每一个网格位置都可以当做一个独立的样本。这因此能抓住是哪个特征能带动其他的信息。
通过较高的速度计算梯度矩阵,调整
Figure BDA0003369046270000051
的形状为一个矩阵ψ,形状为CjxHjWj,然后Gj(x)就是
Figure BDA0003369046270000052
梯度矩阵可以将输出的和目标有不同的尺寸的图像调整到相同的形状。求出两张图片通过损失网络后的每一个层的Gram矩阵,计算对应层的欧氏距离并对不同层的欧氏距离相加,得到最后的风格损失:
Figure BDA0003369046270000053
(3)全变量正则化:
为了使输出图像更加平滑,遵循前人在特征反演、超分辨率重建等方面的研究,并利用全变差正则化(一般用于信号去噪)。
实施例:
步骤1、训练集使用了2014版本coco数据集,将训练集中每一个图像变换到256x256的尺寸,该训练集共8万余张训练图;
步骤2、验证集采用了8张经典的图像超分辨率重建领域的图片和两张风格转换的图片;
步骤3、对于风格转换,本次实验采用batch-size=4,迭代20000次。用Adam进行优化。对所有的风格转换实验我们取relu3_3层做内容,relu1_2,relu2_2,relu3_3和relu4_3作为风格。本次训练用了大约2个小时,在一块RTX 2080ti上。所得的内容损失、风格损失和总损失的下降曲线分别如图5所示;
步骤4、对于超分辨率重建,本次实验通过已经训练好的模型来完成x4和x8的超分辨率重建,通过用vgg16在relu4_2层提取出实现最小化特征损失,训练时bacth-size=4,迭代次数为40000次,用Adam优化,学习速率1e-3,无dropout,增加正则化计算。训练用了大约2个小时,在一块RTX 2080ti上。所得损失函数下降曲线如图6所示;
步骤4、使用验证集通过训练好的前馈网络对网络的超分辨率性能进行验证。得到风格转换图像与超分辨率重建图像如图7所示。
如图8所示,通过该模型,得到的超分辨结果与原有的方法如SRGAN、SRCNN等方法对比,这些方法通常训练过程非常缓慢,需要长期的迭代优化过程,网络模型得到了与上述方法相近的效果,并且加快了训练的速度。

Claims (4)

1.一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法,其特征在于,包括如下步骤:
(1)基于ResNet和SRGAN,设计残差块,作为前馈卷积神经网络的核心部分;
(2)将图像输入生成网络,得到前馈卷积神经网络的输出;
(3)将前馈网络的输出与目标图像共同输入vgg16网络模型;
(4)通过感知损失函数衡量二者之间的差距;
(5)通过对vgg16网络进行大量数据训练改变前馈网络中的参数,使损失降低。
2.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法,其特征在于,步骤(1)中,残差块模型为ResNet和SRGAN的结合,ResNet将冗余的块学习成恒等映射;前馈卷积神经网络中使用了5个基于ResNet的残差模块,SRGAN提高照片的分辨率,将其从低分辨率转换为高分辨率。
3.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法,其特征在于,步骤(2)和步骤(3)中,基于前馈卷积神经网络的Generator生成网络结构利用步幅卷积做网络内的上采样或者下采样,前馈卷积神经网络中心由5个残差块组成,在所有的残差卷积层后加一个BN层,第一个和最后一个层用9x9的kernel,其他所有卷积层都用3x3的kernel,该网络用2个stride=2的卷积去下采样输入,通过残差快后再用2个stride=1/2的卷积去做上采样,先下采样再上采样可以使有效的感受野变大。
4.如权利要求1所述的基于前馈神经网络与感知损失函数的图像超分辨率重建方法,其特征在于,步骤(4)中,在构建输出与目标图形之间的感知损失函数之前,预先训练好vgg16模型,损失网络φ是基于vgg16模型,网络中的权重提前训练好,该权重能定义特征损失和风格损失作为衡量内容和风格上差距的标准。
CN202111393116.2A 2021-11-23 2021-11-23 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法 Pending CN114140316A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111393116.2A CN114140316A (zh) 2021-11-23 2021-11-23 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111393116.2A CN114140316A (zh) 2021-11-23 2021-11-23 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

Publications (1)

Publication Number Publication Date
CN114140316A true CN114140316A (zh) 2022-03-04

Family

ID=80391440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111393116.2A Pending CN114140316A (zh) 2021-11-23 2021-11-23 一种基于前馈神经网络与感知损失函数的图像超分辨率重建方法

Country Status (1)

Country Link
CN (1) CN114140316A (zh)

Similar Documents

Publication Publication Date Title
CN111243066A (zh) 一种基于自监督学习与生成对抗机制的人脸表情迁移方法
KR20200084434A (ko) 초해상도 영상 복원을 위한 기계 학습 방법
CN112132959A (zh) 数字岩心图像处理方法、装置、计算机设备及存储介质
CN112270644A (zh) 基于空间特征变换和跨尺度特征集成的人脸超分辨方法
CN112837224A (zh) 一种基于卷积神经网络的超分辨率图像重建方法
CN109214989A (zh) 基于多方向特征预测先验的单幅图像超分辨率重建方法
Luo et al. Lattice network for lightweight image restoration
CN113989129A (zh) 基于门控和上下文注意力机制的图像修复方法
CN111242999B (zh) 基于上采样及精确重匹配的视差估计优化方法
CN113298716B (zh) 基于卷积神经网络的图像超分辨率重建方法
CN115511767B (zh) 一种自监督学习的多模态图像融合方法及其应用
CN116258652B (zh) 基于结构注意和文本感知的文本图像修复模型及方法
CN115936983A (zh) 基于风格迁移的核磁图像超分辨率方法、装置及计算机存储介质
CN116739899A (zh) 基于saugan网络的图像超分辨率重建方法
CN113379606B (zh) 一种基于预训练生成模型的人脸超分辨方法
CN114881856A (zh) 一种人体图像超分辨率重建方法、***、装置及存储介质
Liu et al. Facial image inpainting using multi-level generative network
CN117593187A (zh) 基于元学习和Transformer的遥感图像任意尺度超分辨率重建方法
CN116523985B (zh) 一种结构和纹理特征引导的双编码器图像修复方法
CN113421186A (zh) 使用生成对抗网络的非监督视频超分辨率的设备和方法
CN114708353B (zh) 图像重建方法、装置、电子设备与存储介质
CN116523733A (zh) 图像跨域迁移方法、计算机设备、可读存储介质和程序产品
CN114862679A (zh) 基于残差生成对抗网络的单图超分辨率重建方法
CN116051609A (zh) 一种基于带限变形傅里叶网络的无监督医学图像配准方法
CN111382845B (zh) 一种基于自注意力机制的模板重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination