CN108805803B - 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 - Google Patents

一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 Download PDF

Info

Publication number
CN108805803B
CN108805803B CN201810606345.XA CN201810606345A CN108805803B CN 108805803 B CN108805803 B CN 108805803B CN 201810606345 A CN201810606345 A CN 201810606345A CN 108805803 B CN108805803 B CN 108805803B
Authority
CN
China
Prior art keywords
image
portrait
style
content
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810606345.XA
Other languages
English (en)
Other versions
CN108805803A (zh
Inventor
赵辉煌
郑金华
孙雅琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hengyang Normal University
Original Assignee
Hengyang Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hengyang Normal University filed Critical Hengyang Normal University
Priority to CN201810606345.XA priority Critical patent/CN108805803B/zh
Publication of CN108805803A publication Critical patent/CN108805803A/zh
Application granted granted Critical
Publication of CN108805803B publication Critical patent/CN108805803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于语义分割与深度卷积神经网络的肖像风格迁移方法,首先选定需转换的肖像图和目标风格肖像图,然后对两幅图像进行语义分割,分割出肖像区域和背景区域,再从肖像区域分割出具体的五官,然后定义了肖像风格迁移损失函数,采用深度卷积神经网络VGG‑19作为图像高级风格特征提取基础模型,设定内容约束层和风格约束层后,在VGG‑19模型中定义内容约束层和风格约束层,建立新的模型结构。分别把将分割后的语义图像和原图像输入到新的VGG‑19模型中,提取图像高级风格特征和内容特征,利用肖像风格迁移损失函数,采用梯度下降法,经多次迭代最小化损失函数,最后生成风格迁移结果图像。

Description

一种基于语义分割与深度卷积神经网络的肖像风格迁移方法
技术领域
本发明涉及深度学习领域,具体涉及一种基于语义分割与深度卷积神经网络的肖像风格迁移方法。
背景技术
随着科技技术迅速发展,在深度学习研究领域,使用CNN将一张图片的语义内容与不同风格融合起来的过程被称为神经风格迁移(Neural Style Transfer),Gatys等人在CVPR的一篇口头报告文章“image Style Transfer Using Convolutional NeuralNetworks”证实了卷积神经网络(CNN)的在图像风格迁移中表现出惊人的能力:通过分离和重新组合图片内容与风格,CNN可以创作出具有艺术魅力的作品。从那以后,在学术研究和产业应用对神经风格迁移产生极大的兴趣,将具有艺术作品上的艺术风格转移到日常照片上,成为在学术界和工业界中非常受重视的计算机视觉任务。同时,在人肖像的风格迁移上,也带来了有很多让人惊叹的应用。Oxford大学的Torr Vision Group在ICCV 2015提出中模型(Conditional Random Fields as Recurrent Neural Networks),经过训练后,CRFas RNN模型可以把图像中的目标内容分割出来,本发明中采用CRF as RNN模型分割出肖像图像中的肖像区域。
现有的风格迁移方法存在的问题主要有:图像的风格迁移具有很大的随意性,导致很多情况下,效果很不理想。特别是对于肖像的风格迁移,有时候还会产生一些错误,比如说把风格图像中眼睛部分特征迁移到嘴巴上去了,或者图像背景特征迁移到肖像上,迁移效果非常不理想。
发明内容
本发明提出了一种基于语义分割与深度卷积神经网络的肖像风格迁移方法,目地是实现对肖像针对性的风格迁移,提高肖像风格迁移效果。
为了实现上述技术目的,本发明的技术方案是,
一种基于语义分割和深度卷积神经网络的肖像风格迁移方法,包括以下步骤:
步骤1,选取一张需要进行风格迁移的内容肖像图像和一张作为风格来源的风格肖像图像,并对内容图像和风格图像分别进行语义分割,分割出肖像区域和背景区域,即形成内容图像和风格图像的语义图像;
步骤2,采用深度卷积神经网络VGG-19作为图像高级特征提取原始模型,并以relu5_1为内容约束特征提取层,以relu3_1和relu4_1为风格约束特征提取层;
步骤3,分别为内容约束特征提取层和风格约束特征提取层建立新的特征图;
步骤4,随机生成高斯噪声图像为初始化新图像;
步骤5,根据内容肖像图像的尺寸大小来调整初始化新图像的尺寸;
步骤6,将风格肖像图像、内容图像语义图像和风格图像语义图像均输入到卷积神经网络VGG-19中,再利用马尔可夫随机场,计算内容肖像的语义图像和风格肖像语义图像在风格约束层relu3_1和relu4_1上的风格约束层损失函数;
步骤7,将初始化新图像输入到卷积神经网络VGG-19中,利用马尔可夫随机场模型,计算最终所生成的风格图像在内容约束层relu5_1的内容约束损失函数;
步骤8,综合步骤6和7的结果,得到总的损失函数,并对于不同层,分别采用基于梯度下降法的优化算法生成肖像风格迁移结果,即采用梯度下降法,通过迭代计算生成风格迁移肖像的梯度,并利用总的损失函数,沿负梯度方向逼近原内容肖像和风格肖像,以让每次迭代生成的风格迁移肖像尽可能地分别与原内容肖像和风格肖像相似;
步骤9,重复步骤6-8进行100次迭代,再重复步骤5-8进行3次迭代,输出最终的肖像风格迁移图像。
所述的方法,所述的步骤1中,首先对内容图像和风格图像进行语义分割,分割出肖像区域和背景区域的语义图像,然后再对肖像区域进一步进行语义分割,分割出人脸,鼻子,眼睛,嘴巴和身体共5个区域作为5个语义图像,最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。
所述的方法,所述的步骤3中,内容约束特征提取层的新特征图为
Figure BDA0001694432720000033
其中l表示所对应的VGG-19中所在的内容约束特征提取层,即relu5_1,
Figure BDA0001694432720000034
是内容肖像图像基于VGG19网络模型在内容约束层生成的特征图,βc为语义内容肖像权重调节参数,
Figure BDA0001694432720000035
表示内容肖像的语义图像,k=1,2,3,4,5,6,βc取值范围[0,200];风格约束特征提取层的新特征图为
Figure BDA0001694432720000036
其中l表示所对应的VGG-19中所在的风格约束特征提取层,即relu3_1和relu4_1,
Figure BDA0001694432720000037
是风格肖像图像基于VGG19网络模型在风格约束层生成的特征图,βs为语义风格肖像权重调节参数,
Figure BDA0001694432720000038
表示风格肖像的语义图像,k=1,2,3,4,5,6,βs取值范围[0,200]。
所述的方法,所述的步骤5中,将初始化新图像的大小设置为
Figure BDA0001694432720000032
其中
Figure BDA0001694432720000031
hc分别为内容肖像图像的长和宽,L为调整图像大小的参数,每次迭代L分别取3、2、1。
所述的方法,所述的步骤6中,风格约束层损失函数为:
Figure BDA0001694432720000041
其中,
Figure BDA0001694432720000042
Φ(x)为特征图,i表示第i个,j表示第j个,将Φ(x)和mc按r*r大小的局部块即local patch进行分割,每个local patch即Ψ(Φ(x)),Ψ(mc),将Φ(x)分割生成p1个local patch,将mc分割生成p2个local patch,,
Figure BDA0001694432720000043
表示风格肖像图像,R表示实数集,wc,hc分别为内容肖像图像的长和宽,
Figure BDA0001694432720000044
其中R表示实数集,ws,hs分别为内容肖像图像的长和宽,mc表示内容肖像的语义图像,ms表示风格肖像的语义图像;
Figure BDA0001694432720000045
表示Ψ*(Φ(x))中的第i个local patch,
Figure BDA0001694432720000046
表示
Figure BDA0001694432720000047
中的第i个local patch。而
Figure BDA0001694432720000048
Figure BDA0001694432720000049
分别表示Ψ*(Φ(xs))或
Figure BDA00016944327200000410
中与
Figure BDA00016944327200000411
Figure BDA00016944327200000412
最匹配的一个local patch,k表示语义图像的个数;
其中,local patch选取规则定义为
Figure BDA00016944327200000413
Figure BDA00016944327200000414
所述的方法,所述的步骤7中,内容约束损失函数为
Ec(Φ(x),Φ(xc))=||Φ(x)-Φ(xc)||2
所述的方法,所述的步骤8中,总的损失函数为
E(x)=α1Es(Φ(x),Φ(xs),mc,ms)+α2Ec(Φ(x),Φ(xc))
其中α1和α2分别为用于调节生成图像中包含的原内容图像和风格图像的强度的调节参数,取值范围为α1∈[0,1],α2∈[0,200]。
所述的方法,所述的步骤8中,所述的基于梯度下降法的优化算法包括以下步骤:
(1)初始化,迭代参数i=0,j=m,定义矩阵H并初始化为元素都为1的对角矩阵,允许误差ε=10-5,计算初始梯度
Figure BDA0001694432720000051
x0为步骤4中随机生成的高斯噪声图像;
(2)如果i<=itr或者如果
Figure BDA0001694432720000052
则输出第i次迭代结果xi+1,并结束优化算法;否则转步骤(3);其中itr为最高迭代次数;
(3)定义pi为第i次迭代的负梯度方向pi=-gi
(4)更新第i次迭代的结果,xi+1=xi+pi
(5)定义si为上一步的结果xi和本次迭代的结果误差,即si=xi+1-xi,定义yi为上一步的结果梯度的
Figure BDA0001694432720000053
和本次迭代结果的梯度
Figure BDA0001694432720000054
误差,即
Figure BDA0001694432720000055
定义
Figure BDA0001694432720000056
其中T表示矩阵转制;
(6)更新
Figure BDA0001694432720000057
(7)定义变量q为xi的梯度
Figure BDA0001694432720000058
(8)j=1迭代计算
Figure BDA0001694432720000059
更新q,q=q-aiyi-j,直到j=m,m为预设的迭代次数;
(9)更新gi,gi=Hiq;
(10)j=1迭代计算
取,
Figure BDA00016944327200000510
更新gi,gi=gi+si-j(aj-b),直到j=m
(11)更新迭代步骤,i=i+1,跳转到步骤(2)。
所述的方法,基于梯度下降法的优化算法中,在执行步骤(5)后,还包括保留最近m次的结果的步骤,如果i>m,则删除si-m、si-m-1...s1和yi-m、yi-m-1...y1
本发明基于卷积神经网络中的高级语义表示建立图像内容模型和图像风格模型,然后优化一张初始图像(例如随机噪声图像)使其在同一个卷积神经网络中具有与内容肖像图像相似的内容表示、与风格肖像图像相似的风格表示,从而生成融合内容肖像图像的内容和风格肖像图像的风格的图像,实现风格转移功能。
与其它风格转移算法相比,本发明的不同之处与优势有
(1)本发明是对原图肖像生成的特征图即feature map进行更细分块,通过提取他们的子块,建立损失函数,采用梯度下降法,最小化损失函数。从而使得生成的肖像具有更好的细节特征,效果更理想。与传统的方法具有本质上的区别。
(2)本发明通过对原风格肖像和内容肖像进行语义分割,得到多个语义图像,并把语义肖像转化为feature maps,增加到VGG网络模型中选定的层,为图像风格迁移方法提供更多的特征供选取。
(3)本发明定义一个新损失函数。增加了语义图像对输出结果的约束。避免了风格迁移中一些错误的产生(如风格肖像中眼睛部分特征迁移到嘴巴上去了,或者图像背景特征迁移到肖像上),提高了肖像风格迁移的效果。
综上所述,本发明对任何可进行语义分割的风格肖像图像实现风格转移的技术效果。
附图说明
图1是本发明的***流程图;
图2是本发明的模型架构图;
图3是本发明实施例采用的一个内容肖像图像;
图4是本发明实施例采用的一个风格肖像图像;
图5是本发明肖像风格迁移方法的风格迁移结果示。
图6是采用传统方法肖像风格迁移方法的风格迁移结果示。
具体实施方式
参见图1和图2,分别为本发明的***流程图和模型架构图,参见图4,本实施例选取一张艺术图像作为风格肖像
Figure BDA0001694432720000075
再选择一张图像作为内容肖像
Figure BDA0001694432720000076
如图3所示。其中wc,hc分别为内容肖像图像的长和宽,ws,hs分别为内容肖像图像的长和宽;然后采用基于语义的图像分割算法,把风格肖像和内容肖像进行语义分割:
步骤1、选取Oxford大学开发的CRF as RNN模型作为图像肖像区域语义分割的模型,分别对内容图像和风格图像进行语义分割,分割出肖像区域和背景区域,
步骤2、采用OpenFace人脸区域分割算法,再对肖像区域的人脸,鼻子,眼睛,嘴巴和身体区域进行标定,然后进一步进行语义分割,分割出人脸,鼻子,眼睛,嘴巴和身体共5个区域作为5个语义图像,最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。其中内容肖像的语义图像
Figure BDA0001694432720000071
和风格肖像语义图像
Figure BDA0001694432720000072
k=1,2,3,4,5,6。
图3为目标内容图像
Figure BDA0001694432720000073
图4为目标肖像风格图像
Figure BDA0001694432720000074
我们的目标是生成风格迁移图5。
步骤3、选取2014年在ImageNet图像分类比赛中获得优异成绩的深度卷积神经网络VGG-19作为图像高级风格特征提取模型。
步骤4,设置内容约束层,选取图3为目标内容图像xc、图4为目标风格图像xs,选定relu5_1为内容约束层,选定relu3_1和relu4_1为风格约束层,设置L=3,2,1.,即采用三层迭代,每层最高迭代次数itr=100;
步骤5,在VGG19网络内容约束层relu5_1读取内容肖像的语义图像
Figure BDA0001694432720000081
和内容肖像xc,更新VGG19网络内容约束层中的feature maps。
Figure BDA0001694432720000082
Figure BDA0001694432720000083
为新的VGG19网络在内容约束层的feature maps,fc是内容肖像xc在内容约束层生成的feature maps。
并取βc=20。
步骤6,在内容层relu5_1建立新的输入输出模型,重新计算网络模型在relu5_1层的梯度。更新网络模型在relu5_1层输出,得到relu5_l层新的输出。
步骤7,设置风格约束层,将目标风格图像xs输入到卷积神经网络VGG-19中,计算风格图像在风格约束层relu3_l,relu4_1。
步骤8,在VGG19网络风格约束层relu3_l,relu4_1读取风格肖像的语义图像
Figure BDA0001694432720000084
和风格肖像xs,更新VGG19网络风格约束层中的feature maps,
Figure BDA0001694432720000085
Figure BDA0001694432720000086
为新的VGG19网络在风格约束层的feature maps,fs是风格肖像xs在由风格约束层生成的feature maps。βs=20。
步骤9,在风格层relu3_l,relu4_1建立新的输入输出模型,重新计算网络模型在relu3_l,relu4_1层的梯度。更新网络模型在relu3_l,relu4_1层输出。并得到在relu3_l,relu4_1层新的输出。
步骤10、随机生成高斯噪声图像为初始化新图像
Figure BDA0001694432720000087
步骤11、利用上一次迭代的结果,重新设置图像大小
Figure BDA0001694432720000088
其中
Figure BDA0001694432720000089
步骤12、将目标内容肖像xc,和语义图像mc,输入到卷积神经网络VGG-19中,再利用马尔可夫随机场(MRF)模型,在内容约束层,输出网络模型中的feature maps记为Φ(xc),mc
步骤13、将目标风格图像xs,和语义图像ms输入到卷积神经网络VGG-19中,再利用马尔可夫随机场(MRF)模型,在内容约束层,输出网络模型中的feature maps记作Φ(xs),ms
步骤14、Φ(xs),ms进行步长为1分割,把Φ(xs),ms和mc分割成p个大小为3×3小块(local patch)。
步骤15、在风格约束层relu 3_l,relu 4_1上的损失函数,
Figure BDA0001694432720000091
Figure BDA0001694432720000092
βcs用来调节语义图像的权重,其中p1,p2表示将Φ(x)分割生成p1个local patch,将mc分割生成p2个local patch,,
步骤16、Ψi(Φ(x))表示的一个local patch,而
Figure BDA0001694432720000093
Figure BDA0001694432720000098
分别表示Φ(xs)或
Figure BDA0001694432720000094
中与Ψi(Φ(x))和
Figure BDA0001694432720000095
最匹配的一个patch,即k表示语义图像的个数。
步骤17、local patch选取规则定义为,
Figure BDA0001694432720000096
Figure BDA0001694432720000097
步骤18,在内容约束层relu5_1上计算损失函数,将新图像x输入到卷积神经网络VGG-19中,得到其在内容约束层在利用马尔可夫随机场(MRF)模型,计算生成肖像的X在内容约束层relu5_l,的损失函数,
Ec(Φ(x),Φ(xc))=||Φ(x)-Φ(xc)||2
步骤19,建立总的损失函数:
E(x)=α1Es(Φ(x),Φ(xs),mc,ms)+α2Ec(Φ(x),Φ(xc))
取α1=0.001,α2=20。
步骤20,然后通过梯度下降法求解最小化优化函数E(x)。生成输入图像X。其中基于梯度下降法的优化算法包括以下步骤:
(1)初始化,迭代参数i=0,j=m,定义矩阵H并初始化为元素都为1的对角矩阵,允许误差ε=10-5,计算初始梯度
Figure BDA0001694432720000101
x0为步骤4中随机生成的高斯噪声图像,预设的迭代次数m=6,itr=100;
(2)如果i<=itr或者如果
Figure BDA0001694432720000102
则输出第i次迭代结果xi+1,并结束优化算法;否则转步骤(3);其中itr为最高迭代次数;
(3)定义pi为第i次迭代的负梯度方向pi=-gi
(4)更新第i次迭代的结果,xi+1=xi+pi
(5)定义si为上一步的结果xi和本次迭代的结果误差,即si=xi+1-xi,定义yi为上一步的结果梯度的
Figure BDA0001694432720000103
和本次迭代结果的梯度
Figure BDA0001694432720000104
误差,即
Figure BDA0001694432720000105
定义
Figure BDA0001694432720000106
其中T表示矩阵转制;
(6)更新
Figure BDA0001694432720000107
(7)定义变量q为xi的梯度
Figure BDA0001694432720000108
(8)j=1迭代计算
Figure BDA0001694432720000109
更新q,q=q-aiyi-j,直到j=m,;
(9)更新gi,gi=Hiq;
(10)j=1迭代计算
取,
Figure BDA00016944327200001010
更新gi,gi=gi+si-j(aj-b),直到j=m
(11)更新迭代步骤,i=i+1,跳转到步骤(2)。
同时为了节省内存开销,在执行步骤(5)后,只保留最近m次的结果的步骤,如果i>m,则删除si-m、si-m-1...s1和yi-m、yi-m-1...y1,这样在运算时可达到节省内存的效果。
步骤21、重复步骤12-20,迭代100次后生成新生成图像。
步骤22、重复步骤11-21,迭代3次后,输出最终的风格迁移结果图像。
生成的风格转移效果图像如图4。
实验结果表面,本发明能够有效地实现图像的风格转移功能。

Claims (8)

1.一种基于语义分割和深度卷积神经网络的肖像风格迁移方法,其特征在于,包括以下步骤:
步骤1,选取一张需要进行风格迁移的内容肖像图像和一张作为风格来源的风格肖像图像,并对内容图像和风格图像分别进行语义分割,分割出肖像区域和背景区域,即形成内容图像和风格图像的语义图像;
步骤2,采用深度卷积神经网络VGG-19作为图像高级特征提取原始模型,并以relu5_1为内容约束特征提取层,以relu3_1和relu4_1为风格约束特征提取层;
步骤3,分别为内容约束特征提取层和风格约束特征提取层建立新的特征图;
步骤4,随机生成高斯噪声图像为初始化新图像;
步骤5,根据内容肖像图像的尺寸大小来调整初始化新图像的尺寸;
步骤6,将风格肖像图像、内容图像语义图像和风格图像语义图像均输入到卷积神经网络VGG-19中,再利用马尔可夫随机场,计算内容肖像的语义图像和风格肖像语义图像在风格约束层relu3_1和relu4_1上的风格约束层损失函数;
步骤7,将初始化新图像输入到卷积神经网络VGG-19中,利用马尔可夫随机场模型,计算最终所生成的风格图像在内容约束层relu5_1的内容约束损失函数;
步骤8,综合步骤6和7的结果,得到总的损失函数,并对于不同层,分别采用基于梯度下降法的优化算法生成肖像风格迁移结果,即采用梯度下降法,通过迭代计算生成风格迁移肖像的梯度,并利用总的损失函数,沿负梯度方向逼近原内容肖像和风格肖像,以让每次迭代生成的风格迁移肖像尽可能地分别与原内容肖像和风格肖像相似;
步骤9,重复步骤6-8进行100次迭代,再重复步骤5-8进行3次迭代,输出最终的肖像风格迁移图像;
所述的步骤6中,风格约束层损失函数为:
Figure FDA0002325194580000021
其中,
Figure FDA0002325194580000022
Φ(x)为特征图,i表示第i个,j表示第j个,将Φ(x)和mc按r*r大小的局部块即local patch进行分割,每个local patch即Ψ(Φ(x)),Ψ(mc),将Φ(x)分割生成p1个local patch,将mc分割生成p2个local patch,
Figure FDA0002325194580000023
表示风格肖像图像,R表示实数集,wc,hc分别为内容肖像图像的长和宽,
Figure FDA0002325194580000024
其中R表示实数集,ws,hs分别为内容肖像图像的长和宽,mc表示内容肖像的语义图像,ms表示风格肖像的语义图像,βc为语义内容肖像权重调节参数,βs为语义风格肖像权重调节参数;
Figure FDA0002325194580000025
表示Ψ*(Φ(x))中的第i个local patch,
Figure FDA0002325194580000026
表示
Figure FDA0002325194580000027
中的第i个localpatch,而
Figure FDA0002325194580000028
Figure FDA0002325194580000029
分别表示Ψ*(Φ(xs))或
Figure FDA00023251945800000210
中与
Figure FDA00023251945800000211
Figure FDA00023251945800000212
最匹配的一个local patch,k表示语义图像的个数;
其中,local patch选取规则定义为
Figure FDA00023251945800000213
Figure FDA00023251945800000214
2.根据权利要求1所述的方法,其特征在于,所述的步骤1中,首先对内容图像和风格图像进行语义分割,分割出肖像区域和背景区域的语义图像,然后再对肖像区域进一步进行语义分割,分割出人脸,鼻子,眼睛,嘴巴和身体共5个区域作为5个语义图像,最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。
3.根据权利要求2所述的方法,其特征在于,所述的步骤3中,内容约束特征提取层的新特征图为
Figure FDA0002325194580000031
其中l表示所对应的VGG-19中所在的内容约束特征提取层,即relu5_1,
Figure FDA0002325194580000032
是内容肖像图像基于VGG19网络模型在内容约束层生成的特征图,βc为语义内容肖像权重调节参数,
Figure FDA0002325194580000033
表示内容肖像的语义图像,k=1,2,3,4,5,6,βc取值范围[0,200];风格约束特征提取层的新特征图为
Figure FDA0002325194580000034
其中l表示所对应的VGG-19中所在的风格约束特征提取层,即relu3_1和relu4_1,
Figure FDA0002325194580000035
是风格肖像图像基于VGG19网络模型在风格约束层生成的特征图,βs为语义风格肖像权重调节参数,
Figure FDA0002325194580000036
表示风格肖像的语义图像,k=1,2,3,4,5,6,βs取值范围[0,200]。
4.根据权利要求1所述的方法,其特征在于,所述的步骤5中,将初始化新图像的大小设置为
Figure FDA0002325194580000037
其中
Figure FDA0002325194580000038
hc分别为内容肖像图像的长和宽,L为调整图像大小的参数,每次迭代L分别取3、2、1。
5.根据权利要求4所述的方法,其特征在于,所述的步骤7中,内容约束损失函数为
Ec(Φ(x),Φ(xc))=||Φ(x)-Φ(xc)||2
6.根据权利要求5所述的方法,其特征在于,所述的步骤8中,总的损失函数为
E(x)=α1Es(Φ(x),Φ(xs),mc,ms)+α2Ec(Φ(x),Φ(xc))
其中α1和α2分别为用于调节生成图像中包含的原内容图像和风格图像的强度的调节参数,取值范围为α1∈[0,1],α2∈[0,200]。
7.根据权利要求1所述的方法,其特征在于,所述的步骤8中,所述的基于梯度下降法的优化算法包括以下步骤:
(1)初始化,迭代参数i=0,j=m,定义矩阵H并初始化为元素都为1的对角矩阵,允许误差ε=10-5,计算初始梯度g1=▽f(x0),x0为步骤4中随机生成的高斯噪声图像;
(2)如果i<=itr或者如果||▽f(xi+1)||≤10-5,则输出第i次迭代结果xi+1,并结束优化算法;否则转步骤(3);其中itr为最高迭代次数;
(3)定义pi为第i次迭代的负梯度方向pi=-gi
(4)更新第i次迭代的结果,xi+1=xi+pi
(5)定义si为上一步的结果xi和本次迭代的结果误差,即si=xi+1-xi,定义yi为上一步的结果梯度的▽f(xi)和本次迭代结果的梯度▽f(xi+1)误差,即yi=▽f(xi+1)-▽f(xi),定义
Figure FDA0002325194580000041
其中T表示矩阵转制;
(6)更新
Figure FDA0002325194580000042
(7)定义变量q为xi的梯度q=▽f(xi);
(8)j=1迭代计算
Figure FDA0002325194580000043
更新q,q=q-aiyi-j,直到j=m,m为预设的迭代次数;
(9)更新gi,gi=Hiq;
(10)j=1迭代计算
取,
Figure FDA0002325194580000044
更新gi,gi=gi+si-j(aj-b),直到j=m
(11)更新迭代步骤,i=i+1,跳转到步骤(2)。
8.根据权利要求7所述的方法,其特征在于,基于梯度下降法的优化算法中,在执行步骤(5)后,还包括保留最近m次的结果的步骤,如果i>m,则删除si-m、si-m-1...s1和yi-m、yi-m-1...y1
CN201810606345.XA 2018-06-13 2018-06-13 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法 Active CN108805803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810606345.XA CN108805803B (zh) 2018-06-13 2018-06-13 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810606345.XA CN108805803B (zh) 2018-06-13 2018-06-13 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Publications (2)

Publication Number Publication Date
CN108805803A CN108805803A (zh) 2018-11-13
CN108805803B true CN108805803B (zh) 2020-03-13

Family

ID=64085760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810606345.XA Active CN108805803B (zh) 2018-06-13 2018-06-13 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Country Status (1)

Country Link
CN (1) CN108805803B (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829353B (zh) * 2018-11-21 2023-04-18 东南大学 一种基于空间约束的人脸图像风格化方法
CN109583362B (zh) * 2018-11-26 2021-11-30 厦门美图之家科技有限公司 图像卡通化方法及装置
CN109712068A (zh) * 2018-12-21 2019-05-03 云南大学 用于葫芦烙画的图像风格迁移与模拟方法
CN109961442B (zh) * 2019-03-25 2022-11-18 腾讯科技(深圳)有限公司 神经网络模型的训练方法、装置和电子设备
CN111815756A (zh) * 2019-04-12 2020-10-23 北京京东尚科信息技术有限公司 图像生成方法、装置、计算机可读介质及电子设备
CN110084741B (zh) * 2019-04-26 2024-06-14 衡阳师范学院 基于显著性检测和深度卷积神经网络的图像风络迁移方法
CN113841179A (zh) * 2019-04-29 2021-12-24 商汤集团有限公司 图像生成方法及装置、电子设备及存储介质
CN110378838B (zh) * 2019-06-25 2023-04-18 达闼机器人股份有限公司 变视角图像生成方法,装置,存储介质及电子设备
CN112561779B (zh) * 2019-09-26 2023-09-29 北京字节跳动网络技术有限公司 图像风格化处理方法、装置、设备及存储介质
CN111127309B (zh) * 2019-12-12 2023-08-11 杭州格像科技有限公司 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
WO2021134311A1 (zh) * 2019-12-30 2021-07-08 苏州臻迪智能科技有限公司 拍摄对象切换方法及装置、图像处理方法及装置
CN111223039A (zh) * 2020-01-08 2020-06-02 广东博智林机器人有限公司 图像风格转换方法、装置、电子设备及存储介质
CN111242841B (zh) * 2020-01-15 2023-04-18 杭州电子科技大学 一种基于语义分割和深度学习的图片背景风格迁移方法
CN111340720B (zh) * 2020-02-14 2023-05-19 云南大学 一种基于语义分割的套色木刻版画风格转换算法
CN111382782B (zh) * 2020-02-23 2024-04-26 华为技术有限公司 训练分类器的方法和装置
CN111325664B (zh) * 2020-02-27 2023-08-29 Oppo广东移动通信有限公司 风格迁移方法、装置、存储介质及电子设备
CN113496238B (zh) * 2020-03-20 2024-07-19 北京京东叁佰陆拾度电子商务有限公司 模型训练方法、点云数据风格化方法、装置、设备及介质
CN111402407B (zh) * 2020-03-23 2023-05-02 杭州相芯科技有限公司 基于单幅rgbd图像的高精度肖像模型快速生成方法
CN111340745B (zh) * 2020-03-27 2021-01-05 成都安易迅科技有限公司 一种图像生成方法、装置、存储介质及电子设备
CN111986302A (zh) * 2020-07-23 2020-11-24 北京石油化工学院 一种基于深度学习的图像风格迁移方法及装置
CN114078130A (zh) * 2020-08-10 2022-02-22 北京金山云网络技术有限公司 图像生成方法、装置、计算机设备和存储介质
CN111986075B (zh) * 2020-08-12 2022-08-09 兰州交通大学 一种目标边缘清晰化的风格迁移方法
CN111986076A (zh) * 2020-08-21 2020-11-24 深圳市慧鲤科技有限公司 图像处理方法及装置、互动式展示装置和电子设备
CN112288621B (zh) * 2020-09-21 2022-09-16 山东师范大学 基于神经网络的图像风格迁移方法及***
CN112541856B (zh) * 2020-12-07 2022-05-03 重庆邮电大学 一种结合马尔科夫场和格拉姆矩阵特征的医学类图像风格迁移方法
CN112529771B (zh) * 2020-12-07 2024-05-31 陕西师范大学 一种人像风格迁移方法
CN113160033B (zh) * 2020-12-28 2023-04-28 武汉纺织大学 服装风格迁移***与方法
CN112950454B (zh) * 2021-01-25 2023-01-24 西安电子科技大学 一种基于多尺度语义匹配的图像风格迁移方法
US20220237838A1 (en) * 2021-01-27 2022-07-28 Nvidia Corporation Image synthesis using one or more neural networks
CN114493994B (zh) * 2022-01-13 2024-04-16 南京市测绘勘察研究院股份有限公司 一种用于三维场景的古画风格迁移方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107767328A (zh) * 2017-10-13 2018-03-06 上海交通大学 基于少量样本生成的任意风格和内容的迁移方法和***

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106250931A (zh) * 2016-08-03 2016-12-21 武汉大学 一种基于随机卷积神经网络的高分辨率图像场景分类方法
EP3507773A1 (en) * 2016-09-02 2019-07-10 Artomatix Ltd. Systems and methods for providing convolutional neural network based image synthesis using stable and controllable parametric models, a multiscale synthesis framework and novel network architectures

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106847294A (zh) * 2017-01-17 2017-06-13 百度在线网络技术(北京)有限公司 基于人工智能的音频处理方法和装置
CN106952224A (zh) * 2017-03-30 2017-07-14 电子科技大学 一种基于卷积神经网络的图像风格转移方法
CN107767328A (zh) * 2017-10-13 2018-03-06 上海交通大学 基于少量样本生成的任意风格和内容的迁移方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Style Transfer Via Texture Synthesis;Michael Elad等;《 IEEE Transactions on Image Processing 》;20170308;第26卷(第5期);第2338-2351页 *
面向手机应用的图像色彩风格迁移***设计与实现;蔡兴泉等;《信息通信》;20160630(第6期);第139-140页 *

Also Published As

Publication number Publication date
CN108805803A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108805803B (zh) 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法
Yue et al. Dual adversarial network: Toward real-world noise removal and noise generation
Huh et al. Transforming and projecting images into class-conditional generative networks
CN110969250B (zh) 一种神经网络训练方法及装置
US9619749B2 (en) Neural network and method of neural network training
Zhmoginov et al. Inverting face embeddings with convolutional neural networks
CN109903236B (zh) 基于vae-gan与相似块搜索的人脸图像修复方法及装置
CN112183501B (zh) 深度伪造图像检测方法及装置
CN110084741B (zh) 基于显著性检测和深度卷积神经网络的图像风络迁移方法
CN108647723B (zh) 一种基于深度学习网络的图像分类方法
CN111986075B (zh) 一种目标边缘清晰化的风格迁移方法
Zhang et al. Bionic face sketch generator
CA3137297C (en) Adaptive convolutions in neural networks
TWI689894B (zh) 影像切割方法及裝置
WO2021042857A1 (zh) 图像分割模型的处理方法和处理装置
CN107392244B (zh) 基于深度神经网络与级联回归的图像美感增强方法
CN111127309B (zh) 肖像风格迁移模型训练方法、肖像风格迁移方法以及装置
CN109920021A (zh) 一种基于正则化宽度学习网络的人脸素描合成方法
CN112101364A (zh) 基于参数重要性增量学习的语义分割方法
CN114511576A (zh) 尺度自适应特征增强深度神经网络的图像分割方法与***
CN112884648A (zh) 多类模糊图像超分辨率重建的方法和***
CN116863194A (zh) 一种足溃疡图像分类方法、***、设备及介质
WO2016172889A1 (zh) 一种图像分割方法和装置
CN109726769B (zh) 一种基于卷积核权重参数的目标分类和角度估计方法
JP6935868B2 (ja) 画像認識装置、画像認識方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant