CN111325681B - 一种结合元学习机制与特征融合的图像风格迁移方法 - Google Patents

一种结合元学习机制与特征融合的图像风格迁移方法 Download PDF

Info

Publication number
CN111325681B
CN111325681B CN202010071306.1A CN202010071306A CN111325681B CN 111325681 B CN111325681 B CN 111325681B CN 202010071306 A CN202010071306 A CN 202010071306A CN 111325681 B CN111325681 B CN 111325681B
Authority
CN
China
Prior art keywords
style
image
feature
encoder
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010071306.1A
Other languages
English (en)
Other versions
CN111325681A (zh
Inventor
程春玲
季苏瑞
闵丽娟
王亚石
杨维荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010071306.1A priority Critical patent/CN111325681B/zh
Publication of CN111325681A publication Critical patent/CN111325681A/zh
Application granted granted Critical
Publication of CN111325681B publication Critical patent/CN111325681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/70Denoising; Smoothing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种结合元学习机制与特征融合的图像风格迁移方法,本发明将基于卷积计算的特征融合和利用元学习机制解码特征图的两种方法结合。首先通过卷积计算初步融合内容特征和风格特征,且对初步融合的特征图和内容特征图做加权求和操作,通过调节权重控制风格化程度;然后利用元学习机制把融合特征图解码为风格化图像,且在解码的过程中对风格进行二次学习,保证了风格特征的充分表达。本发明提高了风格化图像的质量,使得合成图像的风格更加忠实于原风格;基于内容图像和风格图像的特性,控制风格化的程度;利用元学习机制同时进行风格二次学习和解码特征图操作,缩短了风格迁移的时间,快速实现任意图像的风格化。

Description

一种结合元学习机制与特征融合的图像风格迁移方法
技术领域
本发明涉及一种图像融合和图像重构方法,尤其涉及一种基于元学习和特征融合的图像风格迁移方法,属于深度学习领域。
背景技术
图像风格迁移的前身是图像纹理合成。自2012年深度学习的兴起,研究者们将深度学习方法用于图像纹理合成。2015年Gatys等人提出了用卷积网络提取图像纹理特征,于是产生了图像风格迁移领域。图像风格迁移,是指将风格图像的风格迁移到内容图像上,得到风格化的图像,其本质是图像的融合。目前,图像风格迁移技术应用火热,不仅在图像处理领受到了广大用户的青睐,而且在漫画手稿上色等传统的手工操作领域也备受关注。
图像风格迁移技术从2015年出现至今,发展迅速,大致经历了三个阶段,分别是单风格迁移模型、多风格迁移模型和任意风格迁移模型。
第一阶段是单风格迁移模型,即一种模型只能实现一种风格迁移,其中一种方式是基于在线优化方式迁移风格,主要以(L.A.Gatys,A.S.Ecker,and M.Bethge.Imagestyle transfer using convolutional neural networks.In CVPR,2016.)为代表,在输入图像和目标图像之间优化内容损失和风格损失,经过大量迭代直至损失函数趋于稳定,这需要消耗大量时间,且合成图像质量不稳定;另一种方式是基于离线优化方式,以(J.Johnson,A.Alahi,and L.Fei-Fei.Perceptual losses for real-time styletransfer and super-resolution.In ECCV,2016.)为代表,将时间消耗集中在模型的训练阶段,对特定的风格学习一个端到端的前馈生成网络,仅需耗费极少的时间就可以合成风格化的图像,但是每种风格都需要训练一个前馈模型,极大限制了风格迁移的灵活性。
第二阶段是多风格迁移模型,即一种模型可以迁移多种风格,主要是以(D.Chen,L.Yuan,J.Liao,N.Yu,and G.Hua.Stylebank:An explicit representation for neuralimage style transfer.In CVPR,2017.)为代表,极大提高了网络的灵活性,但每种风格都需要一个卷积层表示,当风格过多时,网络的容量变大,不利于模型移植到客户端应用,满足不了实际应用需求。
第三个阶段是任意风格迁移模型,即一种模型可以迁移任意风格,这更符合实际应用需求。近来,涌现了大量任意风格迁移方法,其模型架构主要是基于编码--解码模式,大家的研究点集中在编码解码过程中的中间层操作。以(X.Huang andS.Belongie.Arbitrary style transfer in real-time with adaptive instancenormalization.In ICCV,2017.)为代表,在中间层用内容特征图的均值和方差匹配风格特征图的均值和方差,风格迁移速度极快,但是仅通过均值和方差并不能很好的表示出风格特性,导致合成图像的质量不高;以(Li Y,Fang C,Yang J,et al.Universal styletransfer via feature transforms[C]//Advances in neural information processingsystems.2017:386-396.)为代表,用协方差取代方差来定义风格特性,在特征空间中通过对特征矩阵分解和重构得到融合特征矩阵,合成的风格化图像的整体质量有所提高,但是该方法注重整体转换,风格纹理细节处理不得当,且特征维度过高时,计算量激增,达不到快速合成风格化图像的目标;以(Sheng L,Lin Z,Shao J,et al.Avatar-net:Multi-scalezero-shot style transfer by feature decoration.Proceedings of the IEEEConference on Computer Vision and Pattern Recognition.2018:8242-8250.)为代表,在内容特征图上映射风格纹理,并在解码的过程中进行AdaIN操作,特征图的两次融合操作显然提高了图像的质量,但是这种方法是基于patch匹配,对于复杂的风格图,风格化图像中的内容结构会被扰乱,导致内容图像的空间分布不连续,使得局部和全局结构不协调。以(Shen F,Yan S,Zeng G.Neural style transfer via meta networks.Proceedings ofthe IEEE Conference on Computer Vision and Pattern Recognition.2018:8061-8069.)为代表利用元网络进行风格迁移,直接用风格特征值初始化转换网络的权重,极大减少了优化合成图像时间,达到了快速风格化的目标,但是由于隐藏层对参数的分配是随机的,且被分配的参数参与到整个转换网络中,导致风格化图像的内容轮廓不够清晰,画面中的风格模式比较混杂,局部和全局的风格模式不协调,合成图像的质量受到影响。
发明内容
发明目的:针对现存的任意风格迁移方法不能实现高质量的快速风格化问题,本发明提供一种结合元学习机制与特征融合的图像风格迁移方法,充分表达风格特征,协调局部和全局风格模式的同时减少图像合成的时间。此外我们提供了插值控制,用户可以调节插值实现不同程度的风格化图像。元学习的目的是实现快速学习,元学习的实现方式不唯一,本方法中的元学习是通过训练一个基模型实现参数共享,大大节约了模型训练时间。Shen et al.将元网络引入风格迁移领域,利用预训练好的网络产生风格特征图,并将其随机映射为风格转换网络的权重。得益于元网络的启发,我们基于现有的编码器解码器网络,直接将其构造成一个微元学习***,编码器充当基模型,生成的风格特征图作为解码器权重的源数据,但是我们改进了解码器权重映射方法,如图2所示,把编码器中对应层的风格特征图做下采样处理,映射为尺寸是3*3的卷积核,作为解码器中对应层的最优权重。相比于元网络,我们的映射操作是对应层之间的精准映射,这保证了仅经过一次映射操作,解码器中每层最优权重都是近似最优的,减少了图像的迁移时间。而且解码操作是从高向低层次性执行的,这实现了风格的层次性表达,使得合成图像的纹理模式清晰,内容结构连续,同时元学习机制是实时动态的从风格特征图中映射得到解码器最优权重,这种强自适应性使得合成图像更加忠于原风格,得到图像的质量更高。在特征融合部分,我们分别对内容特征图和风格特征图进行了拉普拉斯滤波操作和特征选择操作,减少了冗余特征的处理,强化融合特征图中重要特征的表达。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种结合元学习机制与特征融合的图像风格迁移方法,本发明先是基于卷积计算进行特征融合,融合之前利用特征选择函数筛选出重要的特征,减少了以往特征融合中的冗余计算量,得到了带有重要风格特征的初步融合特征图,且对其和内容特征图做加权计算,插值可根据内容图和风格图的特性进行调节,达到了化程度多样化的控制;然后在解码器中嵌入元机制,直接将风格特征重构为解码器对应层的网络最优权重,这极大减少了模型训练的时间,且在解码合成特征图为合成图像的同时,再次强化学习风格特征,使合成图像中风格特征的表达更加充分,合成图像更加忠于原风格,提高了风格化图像的质量,减少损失迭代次数,实现了快速风格化。所以本发明不仅实现了高质量的快速风格迁移,还增加了风格化多样性的控制,具体包括以下步骤:
步骤1)用给定的预训练图像集训练编码器和解码器,得到预训练好的编码器和解码器:编码器取自VGG_16的前四层:1_1层、1_2层、2_1层、2_2层、3_1层、3_2层、3_3层和4_1层,解码器的结构与编码器对称,用最邻近上采样代替编码器中的池化操作。训练过程中,随机选取数据集中的10张图片为一个包,以包为单位进行训练,先随机将图像裁剪为224*224大小,转换为矩阵,输入编码器。训练中使用Adam优化器,用反向传播算法最小化目标函数,不断迭代编码器的权重,直至损失趋于稳定,此时得到的权重就为编码器的最优权重。解码器的最优权重通过元学习机制直接获得。我们直接使用训练好的编码器进行图像的特征提取和损失计算。
步骤2)获取内容图像和风格图像的特征图:内容图像Ic和风格图像Is先被裁剪成尺寸为224*224的图像,然后转换为矩阵形式,输入步骤1)得到的编码器中,提取到内容特征图fc和风格特征图fs
Figure BDA0002375404310000031
Figure BDA0002375404310000032
用来表示高维向量。
步骤3)拉普拉斯滤波操作:将提取到的内容特征图fc与拉普拉斯算子p做卷积操作,得到拉普拉斯特征图fc′,
Figure BDA0002375404310000033
经过拉普拉斯运算,强化表达了内容特征图中的的边缘信息,凸显内容框架。
本发明中涉及了拉普拉斯算子的应用和特征筛选操作。拉普拉斯算子是最简单的各向同性微分算子,具有旋转不变性。在图像处理的应用中,拉普拉斯算子常被表示成模板的形式,本发明中采用的是
Figure BDA0002375404310000041
因为图像中的边缘就是那些灰度发生跳变的区域,所以拉普拉斯锐化模板在边缘检测中发挥重要作用,我们利用此特性,对内容特征图中内容框架强化表达,减少合成图像中内容扭曲的现象。
获得拉普拉斯特征图fc′包括以下步骤:
步骤301)选则拉普拉斯模板:我们选定的拉普拉斯运算模板是pm
Figure BDA0002375404310000042
拉普拉斯模板是一种微分算子,它的应用可够突出图像细节,使图像变得更为清晰。
步骤302)
Figure BDA0002375404310000043
其中fc是内容特征图,
Figure BDA0002375404310000044
p是拉普拉斯滤波器,
Figure BDA0002375404310000045
fc中的每一维特征图都与p中的每一维滤波器做卷积计算,得到拉普拉斯特征图为fc′,
Figure BDA0002375404310000046
该操作强化表达了内容特征图中的的边缘信息,凸显内容框架,减轻风格化图像中内容图像扭曲的现象。
步骤4)获取筛选的特征图:特征选择函数S(·)作用于风格特征图fs,计算出风格特征图中重要的特征,得到筛选特征图fs′,fs′=S(fs),特征选择函数S(·)根据给定的差阈值ε筛选出重要的风格特征,大于或等于阈值的,特征保留,小于阈值的,特征置为0,只保留重要特征,减少了计算量,去除了图像中的噪声,最终得到保留重要风格特征的筛选特征图fs′,
Figure BDA0002375404310000047
步骤5)特征融合:本发明的特征融合是基于卷积计算,主要是将内容特征图和风格特征图通过卷积计算实现内容特征和风格特征的初步融合。然后对合成特征图和拉普拉斯特征图做插值计算,插值是λ,灵活控制风格化的多样性。拉普拉斯特征图fc′和筛选特征图fs′做卷积运算,得到初步融合特征图fcs,对初步融合特征图fcs和拉普拉斯特征图fc′再做插值计算,得到融合特征图Fcs,具体公式表达:
fs′=S(fs)
Figure BDA0002375404310000051
Fcs=λ·fcs+(1-λ)·fc
λ∈[0,1]
其中,fcs表示初步融合特征图,Fcs表示融合特征图,
Figure BDA0002375404310000052
定义了卷积操作,·定义了乘积操作,λ表示插值,参数λ取值范围[0,1]。
内容特征和风格特征的融合包括以下步骤:
步骤501)获取初步融合特征图:
Figure BDA0002375404310000053
本发明的特征融合是基于卷积计算的,用拉普拉斯特征图fc′和筛选的特征图fs′做卷积运算,得到初步融合特征图fcs
步骤502)获取融合特征图:Fcs=λ·fcs+(1-λ)·fc′,其中,λ∈[0,1]。对初步融合的特征图和内容特征图做插值计算,得到了目标融合特征图Fcs,这对风格特征和内容特征的表达形成了相互约束关系,调节λ,实现风格化程度的多样化。
步骤6)利用元学习机制进行解码的过程包括以下步骤:
步骤601)本发明中的元学习方法是基于模型的,编码器,映射操作,解码器,这实质上是一个小的元学习***。编码器是预训练好的,直接将风格图像Is编码为风格特征图fs,把编码器中每一层的风格特征图fs i(其中i的取值为1、2、3、4,分别对应编码器中的1_1层、2_1层、3_1层和4_1层)经过下采样操作,重构映射为ωi,作为解码器中对应层的权重ωi,ωi表示给定近似最优权重。本发明用随机池化操作实现下采样,采用的池化尺寸是3×3,步长为2。对不同层的风格特征图进行进行不同的池化次数,把不同尺寸的风格特征图都映射为对应层的尺寸为3*3的卷积核,作为解码器中对应层权重ωi。即将风格特征直接重构为解码器的最优权重,和现存的随机初始化解码器权重方法相比,减少了迭代训练的次数,且直接来源于风格特征的权重更能精确表达风格信息。
步骤602)解码器解码融合特征图为合成风格化图像,给定解码器的最优权重ωi,解码器的输入是融合特征图Fcs,得到的合成风格化图像Ics。由于权重直接来源于风格特征图,所以解码过程中二次学习了风格特征。由于我们的目标是合成风格化的图像,直接利用风格特征图作为解码网络最优权重,得到的合成图像中的风格信息表达更加充分,获得的合成图像更加忠于原风格,风格损失函数迭代的次数会大大减少,实现了快速风格化的目的。
步骤7)损失计算:仍用预训练好的编码器作为损失网络进行内容和风格损失计算。具体的表达为:
Figure BDA0002375404310000061
Figure BDA0002375404310000062
ltotal=αlc+βls
其中,i表示损失网络中的某层,{ic}表示内容损失层数的集合,{is}表示风格损失层数的集合,n表示总的风格损失的层数,α和β是超参数,通过多次训练才能确定。lc表示内容损失,ls表示风格损失,ltotal表示总损失,Fi表示第i层的特征图,Gi表示第i层的Gram矩阵,即特征图间的协方差矩阵。
损失计算的过程:将合成图像Ics、内容图像Ic、风格图像Is输入损失网络(用预训练好的编码器作为损失网络),在损失网络的3_1层上计算内容图像Ic、合成图像Ics的特征图,对其进行欧式距离计算,得到内容损失;在损失网络的1_1、2_1、3_1和4_1层上分别计算风格图像Is、合成图像Ics的Gram矩阵,Gram矩阵是指特征图的协方差矩阵,用来表示风格,对其进行欧式距离计算,得到风格损失。
步骤8),迭代编码器的权重;根据得到内容损失和风格损失采用Adam优化器(Adam优化器是主流的优化算法),通过反向传播算法(是训练神经网络最常用最有效的算法之一),最小化总损失ltotal,不断迭代编码器的权重,直至损失趋于平衡,停止迭代,此时得到的权重是编码器的最优权重,同时输出损失趋于平衡时的合成图像,输出的合成图像的是最忠于原风格的高质量的风格化图像。
本发明相比现有技术,具有以下有益效果:
1.利用特征选择函数得到带有重要特征的风格特征图,减少特征融合过程中的冗余计算。
2.对初步融合特征图和拉普拉斯特征图做插值计算,根据内容图像和风格图像特点调节权重,实现合成图像风格化的多样性。
3.利用元学习机制解码特征图为图像,直接将风格特征重构为解码器的最优权重,解码过程中再次学习了风格信息,减少了模型训练时间,提高了合成图像质量。
附图说明
图1是图像风格迁移模型。
图2是权重映射模型。
图3是实例的输入图像。
图4是本发明合成风格化图像的整体流程示意图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种结合元学习机制与特征融合的图像风格迁移方法,如图1所示,本发明实例提供的图像风格迁移的模型架构,如图4所示,具体过程包括:
步骤1)预训练编码器:本实例采用微软构建的MSCOCO数据集训练编码-解码网络。该数据集中包含80000张图像,我们以8张图片为一个包,一共10000个包,以包为单位输入编码器。每张图片先随机裁剪为224*224尺寸,再转换为矩阵形式,输入编码器。编码器取自VGG_16的前四层:1_1层、1_2层、2_1层、2_2层、3_1层、3_2层、3_3层和4_1层,解码器的结构与编码器对称,用最邻近上采样代替编码器中的池化操作。在训练过程中我们使用Adam优化器,最小化损失函数,不断迭代编码器网络权重,直至损失函数趋于稳定,此时得到的编码器的权重为最优权重,该编码器用于编码图像信息为特征信息,和用作损失网络,解码器用于解码特征信息为图像信息,但是我们不使用预训练好的解码器的权重,仅使用其结构。
步骤2)获取内容和风格的特征图:预训练好的VGG_16的前四层作为编码器,输入图3中的(a)、(b)分别作为输入的内容图像Ic和风格图像Is,经过编码处理,分别输出内容特征图fc和风格特征图fs
Figure BDA0002375404310000071
步骤3)拉普拉斯滤波操作:将内容特征图fc
Figure BDA0002375404310000072
与给定的拉普拉斯算子p,
Figure BDA0002375404310000073
做卷积运算,得到拉普拉斯特征图fc′,
Figure BDA0002375404310000074
经过拉普拉斯运算,强化表达了内容特征图中的的边缘信息,凸显内容框架。
步骤4)获取筛选特征图:fs′=S(fs),特征选择函数S(·)根据给定的差阈值ε(根据具体的特征图可计算得到)筛选出重要的风格特征,大于或等于阈值的,特征保留,小于阈值的,特征置为0,最终得到保留重要风格特征的筛选特征图fs′,
Figure BDA0002375404310000081
步骤5)特征融合:具体的公式表达为:
fs′=S(fs)
Figure BDA0002375404310000082
Fcs=0.95·fcs+0.05·fc
λ∈[0,1]
第一步,获取初步特征融合:
Figure BDA0002375404310000083
拉普拉斯特征图fc′和fs′进行卷积运算,得到初步融合特征图fcs
第二步,获取融合特征图:Fcs=0.95·fcs+0.05·fc′,对初步融合的特征图和内容特征图做插值计算,这里λ=0.95,即在融合的特征图中又加入内容特征图模式,增强内容结构表达,得到最终的融合特征图Fcs,不同的人对风格化的要求不同,若要求风格化程度浅一点的,可以给定更小的λ值。
步骤6)解码合成特征图为合成图像:
第一步,本发明中的元学习方法是基于模型的,编码器,映射操作,解码器,这实质上是一个小的元学习***。编码器是预训练好的,直接将风格图像Is编码为风格特征图fs。编码器中每一层的风格特征图fs i(其中i的取值为1、2、3、4,分别对应编码器中的1_1层、2_1层、3_1层和4_1层)用随机池化操作实现下采样,采用的池化尺寸是3×3,步长为2。对不同层的风格特征图进行进行不同的池化次数,把不同尺寸的风格特征图都映射为对应层的尺寸为3*3的卷积核,即将风格信息直接作为解码器最优权重,和现存的方法相比,这省去了随机初始化解码器权重,并迭代训练获取最优权重的过程,且直接来源于风格信息的权重更能精确表达风格信息。
第二步,利解码器解码合成特征图为合成图像,给定解码器的权重ωi,利用解码器将合成特征图Fcs解码为合成图像Ics,由于权重直接来源于风格特征图,所以解码过程中再次学习了风格信息。由于我们的目标是合成风格化的图像,直接利用风格信息作为解码网络最优权重,得到的合成图像中的风格信息表达更加充分,获得的合成图像更加忠于原风格,风格损失函数迭代的次数会大大减少,实现了快速风格化的目的。
步骤7)损失计算:具体表达为:
Figure BDA0002375404310000091
Figure BDA0002375404310000092
ltotal=lc+10ls
其中,i表示损失网络中的某层,{ic}∈{1_1,2_1,3_1,4_1},{is}∈{3_1},1_1、2_1、3_1和4_1分别表示解码器中对应层。n表示总的风格损失的层数,这里n=1,α和β是超参数,这里α=1,β=10。
损失计算的过程:将合成图像Ics、内容图像Ic、风格图像Is输入损失网络(用预训练好的编码器作为损失网络),在损失网络的1_1、2_1、3_1和4_1层上分别计算内容图像Ic、合成图像Ics的特征图,对其进行欧式距离计算,得到内容损失;在损失网络的31层上分别计算风格图像ls、合成图像Ics的Gram矩阵,对其进行欧式距离计算,得到风格损失。
步骤8),采用Adam优化器,通过反向传播算法,最小化总损失ltotal,迭代编码器的权重,直至损失趋于平衡,停止迭代,此时得到的权重是编码器的最优权重,输出的合成图像的是最忠于原风格的高质量的风格化图像。
本发明主要是将元机制和特征融合相结合用于图像风格迁移。在特征融合中,可以根据图像的特点调节特征的权重,灵活控制风格化程度;利用元机制的特性,直接将风格特征重构为解码器的最优权重,减少了模型训练时间,在解码特征图为图像的同时,再次强化风格特征的学习,保证了合成图像风格化的效果,也实现了快速风格化。本发明提高了风格化图像的质量,使得合成图像的风格更加忠实于原风格;基于内容图像和风格图像的特性,控制风格化的程度;利用元学习机制同时进行风格二次学习和解码特征图操作,缩短了风格迁移的时间,快速实现任意图像的风格化
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种结合元学习机制与特征融合的图像风格迁移方法,其特征在于,包括以下步骤:
步骤1),预训练编码器:采集预训练图像集,通过训练图像集预训练编码器和解码器,得到预训练好的编码器和解码器,其中,编码器的初始权重通过预训练获得,解码器的权重通过元学习机制直接获得,编码器用于编码图像为特征图并用作损失网络,解码器用于解码特征图为图像,编码器取自VGG_16的前四层,解码器的结构与编码器对称;
步骤2),获取特征图:选取内容图像Ic和风格图像Is,将内容图像Ic和风格图像Is输入步骤1)得到的编码器,提取到内容特征图fc和风格特征图fs,
Figure FDA0003683694150000011
Figure FDA0003683694150000012
表示高维向量;
步骤3),拉普拉斯滤波操作;对内容特征fc与拉普拉斯算子p做卷积操作,得到拉普拉斯特征图fc',
Figure FDA0003683694150000013
步骤4),特征选择操作;特征选择函数S(·)作用于风格特征图fs,计算出风格特征图中重要的特征,得到筛选特征图fs',
Figure FDA0003683694150000014
步骤5),特征融合;拉普拉斯特征图fc'和筛选特征图fs'做卷积运算,得到初步融合特征图fcs,对初步融合特征图fcs和拉普拉斯特征图fc'再做插值计算,得到融合特征图Fcs
fs'=S(fs)
Figure FDA0003683694150000015
Fcs=λ·fcs+(1-λ)·fc'
λ∈[0,1]
其中,fcs表示初步融合特征图,Fcs表示融合特征图,
Figure FDA0003683694150000016
表示卷积操作,·表示乘积操作,λ表示插值;
步骤6),利用元学习机制获取解码器权重;对编码器中1_1层、2_1层、3_1层和4_1层的风格特征图fs i进行下采样操作,映射为ωi,直接作为解码器中对应层的权重,其中,ωi表示给定近似最优权重,
Figure FDA0003683694150000017
3×3×Y表示解码器中不同层的权重的大小和维度,
Figure FDA0003683694150000018
X×X×Y表示编码器中不同层的特征图的大小和维度,i的取值为1、2、3、4,分别对应编码器中的1_1层、2_1层、3_1层和4_1层;
步骤7),解码融合特征图为图像;利用得到的权重ωi作为解码器的近似最优权重,将融合特征图Fcs输入VGG_16解码器,得到合成图像Ics
步骤8),损失计算;利用步骤1)得到的编码器作为损失网络进行内容损失和风格损失计算,具体的表达为:
Figure FDA0003683694150000021
Figure FDA0003683694150000022
ltotal=αlc+βls
其中,i的取值为1、2、3、4,分别对应编码器中的1_1层、2_1层、3_1层和4_1层,{ic}表示内容损失层数的集合,{is}表示风格损失层数的集合,n表示总的风格损失的层数,α和β是超参数,lc表示内容损失,ls表示风格损失,ltotal表示总损失,Fi表示第i层的特征图,Gi表示第i层的Gram矩阵,即特征图间的协方差矩阵;
步骤9),迭代编码器的权重;根据得到内容损失和风格损失采用Adam优化器,通过反向传播算法,最小化总损失ltotal,迭代编码器的权重,直至损失趋于平衡,停止迭代,此时得到的权重是编码器的最优权重;同时输出损失趋于平衡时的合成图像。
2.根据权利要求1所述结合元学习机制与特征融合的图像风格迁移方法,其特征在于:步骤3)中获得拉普拉斯特征图fc'包括以下步骤:
步骤301),选择拉普拉斯模板;选择拉普拉斯运算模板pm
Figure FDA0003683694150000023
步骤302),
Figure FDA0003683694150000024
其中,fc是内容特征图,
Figure FDA0003683694150000025
p是拉普拉斯滤波器,由拉普拉斯运算模板堆叠而成,
Figure FDA0003683694150000026
Figure FDA0003683694150000027
表示卷积操作,fc中的每一维特征图都与p中的每一维滤波器做卷积计算,得到拉普拉斯特征图为fc',
Figure FDA0003683694150000028
3.根据权利要求2所述结合元学习机制与特征融合的图像风格迁移方法,其特征在于:特征选择函数S(·)根据给定的阈值ε筛选出重要的风格特征,大于或等于阈值的,特征保留,小于阈值的,特征置为0,最终得到保留重要风格特征的筛选特征图fs'。
4.根据权利要求3所述结合元学习机制与特征融合的图像风格迁移方法,其特征在于:调节***λ值范围[0,1]。
5.根据权利要求4所述的结合元学习机制与特征融合的图像风格迁移方法,其特征在于:元学习机制保证了解码器中对应层的权重仅通过一次映射操作,就达到近似最优。
6.根据权利要求5所述的结合元学习机制与特征融合的图像风格迁移方法,其特征在于:下采样操作利用随机池化完成,将不同尺寸的风格特征图都映射为3×3尺寸,其目的是尽量拟合风格特征,减少风格信息损失;根据池化后特征图宽或高的计算公式:
Figure FDA0003683694150000031
结果向上取整计算解码器权重的尺寸,其中,
Figure FDA0003683694150000032
代表m层特征图经过第n次计算后得到的风格特征图的宽,m的取值为1、2、3、4,分别代表VGG_16网络中的1_1层,2_1层,3_1层和4_1层;n代表池化计算的次数,F代表池化尺寸,S代表步长,选用的池化尺寸F为3,步长S为2;对于1_1层的风格特征图fs 1∈R224×224×64,初始时,
Figure FDA0003683694150000033
终止条件是
Figure FDA0003683694150000034
经过第一次池化计算得到
Figure FDA0003683694150000035
经过第二次池化计算得到
Figure FDA0003683694150000036
不断的重复计算,最终得到
Figure FDA0003683694150000037
共需要6次池化操作得到ω1∈R3×3×64;同样的,2_1层的风格特征图fs 2∈R112×112×128,需要进行5次随机池化操作得到ω2∈R3×3×128;3_1层的风格特征图fs 3∈R56×56×256,需要进行4次随机池化操作得到ω3∈R3×3×256;4_1层的风格特征图fs 4∈R28×28×512,需要进行3次随机池化操作得到ω4∈R3 ×3×512
7.根据权利要求6所述的结合元学***滑。
CN202010071306.1A 2020-01-20 2020-01-20 一种结合元学习机制与特征融合的图像风格迁移方法 Active CN111325681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010071306.1A CN111325681B (zh) 2020-01-20 2020-01-20 一种结合元学习机制与特征融合的图像风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010071306.1A CN111325681B (zh) 2020-01-20 2020-01-20 一种结合元学习机制与特征融合的图像风格迁移方法

Publications (2)

Publication Number Publication Date
CN111325681A CN111325681A (zh) 2020-06-23
CN111325681B true CN111325681B (zh) 2022-10-11

Family

ID=71173249

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010071306.1A Active CN111325681B (zh) 2020-01-20 2020-01-20 一种结合元学习机制与特征融合的图像风格迁移方法

Country Status (1)

Country Link
CN (1) CN111325681B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986075B (zh) * 2020-08-12 2022-08-09 兰州交通大学 一种目标边缘清晰化的风格迁移方法
CN112633071B (zh) * 2020-11-30 2022-09-16 之江实验室 基于数据风格解耦内容迁移的行人重识别数据域适应方法
CN112434753A (zh) * 2020-12-11 2021-03-02 上海眼控科技股份有限公司 模型训练方法、目标检测方法、装置、设备及存储介质
CN112837212B (zh) * 2021-01-28 2023-09-26 南京大学 一种基于流形对齐的图像任意风格迁移方法
CN112884636B (zh) * 2021-01-28 2023-09-26 南京大学 一种自动生成风格化视频的风格迁移方法
CN113038130B (zh) * 2021-03-17 2024-06-04 百果园技术(新加坡)有限公司 一种视频编码方法、装置、电子设备及可读存储介质
CN113269734B (zh) * 2021-05-14 2023-04-07 成都市第三人民医院 一种基于元学习特征融合策略的肿瘤图像检测方法及装置
CN113191944B (zh) * 2021-05-31 2023-11-07 大连民族大学 一种多通道图像内容特征融合风格迁移方法及***
CN113327194A (zh) * 2021-06-30 2021-08-31 北京百度网讯科技有限公司 图像风格迁移方法、装置、设备和存储介质
CN113763234A (zh) * 2021-08-30 2021-12-07 北京理工大学 一种基于小样本场景下的数据扩增方法
CN113868651B (zh) * 2021-09-27 2024-04-26 中国石油大学(华东) 一种基于web日志的网站反爬虫方法
CN113989102B (zh) * 2021-10-19 2023-01-06 复旦大学 一种具有高保形性的快速风格迁移方法
CN113888400B (zh) * 2021-11-04 2024-04-26 大连理工大学 一种图像风格迁移方法及装置
CN114298895B (zh) * 2021-12-24 2023-09-26 成都索贝数码科技股份有限公司 图像真实感风格迁移方法、装置、设备及存储介质
CN114266943A (zh) * 2021-12-28 2022-04-01 中移(杭州)信息技术有限公司 图像风格迁移方法、装置、设备及存储介质
CN114331827B (zh) * 2022-03-07 2022-06-07 深圳市其域创新科技有限公司 风格迁移方法、装置、设备和存储介质
CN115170390B (zh) * 2022-08-31 2023-01-06 广州极尚网络技术有限公司 一种文件风格化方法、装置、设备及存储介质
CN117788629B (zh) * 2024-02-28 2024-05-10 南京邮电大学 一种具有风格个性化的图像生成方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN110490791A (zh) * 2019-07-10 2019-11-22 西安理工大学 基于深度学习风格迁移的服饰图像艺术化生成方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107705242A (zh) * 2017-07-20 2018-02-16 广东工业大学 一种结合深度学习与深度感知的图像风格化迁移方法
CN110490791A (zh) * 2019-07-10 2019-11-22 西安理工大学 基于深度学习风格迁移的服饰图像艺术化生成方法

Also Published As

Publication number Publication date
CN111325681A (zh) 2020-06-23

Similar Documents

Publication Publication Date Title
CN111325681B (zh) 一种结合元学习机制与特征融合的图像风格迁移方法
CN110490791B (zh) 基于深度学习风格迁移的服饰图像艺术化生成方法
CN108205813B (zh) 基于学习网络的图像风格化
CN109087273B (zh) 基于增强的神经网络的图像复原方法、存储介质及***
CN111986075B (zh) 一种目标边缘清晰化的风格迁移方法
CN111767979A (zh) 神经网络的训练方法、图像处理方法、图像处理装置
CN113658051A (zh) 一种基于循环生成对抗网络的图像去雾方法及***
CN110570377A (zh) 一种基于组归一化的快速图像风格迁移方法
CN111862294B (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法
CN112686817B (zh) 一种基于不确定性估计的图像补全方法
CN114240735B (zh) 任意风格迁移方法、***、存储介质、计算机设备及终端
CN113222875B (zh) 一种基于色彩恒常性的图像和谐化合成方法
CN109920021A (zh) 一种基于正则化宽度学习网络的人脸素描合成方法
CN117151990B (zh) 一种基于自注意力编码解码的图像去雾方法
CN114493991A (zh) 基于注意力循环对抗网络的风格迁移***、方法、装置
CN114612289A (zh) 风格化图像生成方法、装置及图像处理设备
CN115829876A (zh) 一种基于交叉注意力机制的真实退化图像盲修复方法
JP4638037B2 (ja) 3次元メッシュネットワークの圧縮およびコーディング
Mun et al. Texture preserving photo style transfer network
CN117974450A (zh) 基于梯度优化扩散模型的图像超分辨率方法、***及介质
CN112837212A (zh) 一种基于流形对齐的图像任意风格迁移方法
CN115761242B (zh) 一种基于卷积神经网络和模糊图像特征的去噪方法及终端机
CN111667006A (zh) 一种基于AttGan模型生成家族字体的方法
CN110675381A (zh) 一种基于串行结构网络的本征图像分解方法
CN113808275B (zh) 一种基于gcn与拓扑修改的单图像三维重建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 210000, 66 new model street, Gulou District, Jiangsu, Nanjing

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Address before: Yuen Road Qixia District of Nanjing City, Jiangsu Province, No. 9 210000

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant