CN108805803B

CN108805803B - 一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

Info

Publication number: CN108805803B
Application number: CN201810606345.XA
Authority: CN
Inventors: 赵辉煌; 郑金华; 孙雅琪
Original assignee: Hengyang Normal University
Current assignee: Hengyang Normal University
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2020-03-13
Anticipated expiration: 2038-06-13
Also published as: CN108805803A

Abstract

本发明公开了一种基于语义分割与深度卷积神经网络的肖像风格迁移方法，首先选定需转换的肖像图和目标风格肖像图，然后对两幅图像进行语义分割，分割出肖像区域和背景区域，再从肖像区域分割出具体的五官，然后定义了肖像风格迁移损失函数，采用深度卷积神经网络VGG‑19作为图像高级风格特征提取基础模型，设定内容约束层和风格约束层后，在VGG‑19模型中定义内容约束层和风格约束层，建立新的模型结构。分别把将分割后的语义图像和原图像输入到新的VGG‑19模型中，提取图像高级风格特征和内容特征，利用肖像风格迁移损失函数，采用梯度下降法，经多次迭代最小化损失函数，最后生成风格迁移结果图像。

Description

一种基于语义分割与深度卷积神经网络的肖像风格迁移方法

技术领域

本发明涉及深度学习领域，具体涉及一种基于语义分割与深度卷积神经网络的肖像风格迁移方法。

背景技术

随着科技技术迅速发展，在深度学习研究领域，使用CNN将一张图片的语义内容与不同风格融合起来的过程被称为神经风格迁移(Neural Style Transfer)，Gatys等人在CVPR的一篇口头报告文章“image Style Transfer Using Convolutional NeuralNetworks”证实了卷积神经网络(CNN)的在图像风格迁移中表现出惊人的能力：通过分离和重新组合图片内容与风格，CNN可以创作出具有艺术魅力的作品。从那以后，在学术研究和产业应用对神经风格迁移产生极大的兴趣，将具有艺术作品上的艺术风格转移到日常照片上,成为在学术界和工业界中非常受重视的计算机视觉任务。同时，在人肖像的风格迁移上，也带来了有很多让人惊叹的应用。Oxford大学的Torr Vision Group在ICCV 2015提出中模型(Conditional Random Fields as Recurrent Neural Networks)，经过训练后，CRFas RNN模型可以把图像中的目标内容分割出来，本发明中采用CRF as RNN模型分割出肖像图像中的肖像区域。

现有的风格迁移方法存在的问题主要有：图像的风格迁移具有很大的随意性，导致很多情况下，效果很不理想。特别是对于肖像的风格迁移，有时候还会产生一些错误，比如说把风格图像中眼睛部分特征迁移到嘴巴上去了，或者图像背景特征迁移到肖像上，迁移效果非常不理想。

发明内容

本发明提出了一种基于语义分割与深度卷积神经网络的肖像风格迁移方法，目地是实现对肖像针对性的风格迁移，提高肖像风格迁移效果。

为了实现上述技术目的，本发明的技术方案是，

一种基于语义分割和深度卷积神经网络的肖像风格迁移方法，包括以下步骤：

步骤1，选取一张需要进行风格迁移的内容肖像图像和一张作为风格来源的风格肖像图像，并对内容图像和风格图像分别进行语义分割，分割出肖像区域和背景区域，即形成内容图像和风格图像的语义图像；

步骤2，采用深度卷积神经网络VGG-19作为图像高级特征提取原始模型，并以relu5_1为内容约束特征提取层，以relu3_1和relu4_1为风格约束特征提取层；

步骤3，分别为内容约束特征提取层和风格约束特征提取层建立新的特征图；

步骤4，随机生成高斯噪声图像为初始化新图像；

步骤5，根据内容肖像图像的尺寸大小来调整初始化新图像的尺寸；

步骤6，将风格肖像图像、内容图像语义图像和风格图像语义图像均输入到卷积神经网络VGG-19中，再利用马尔可夫随机场，计算内容肖像的语义图像和风格肖像语义图像在风格约束层relu3_1和relu4_1上的风格约束层损失函数；

步骤7，将初始化新图像输入到卷积神经网络VGG-19中，利用马尔可夫随机场模型，计算最终所生成的风格图像在内容约束层relu5_1的内容约束损失函数；

步骤8，综合步骤6和7的结果，得到总的损失函数，并对于不同层，分别采用基于梯度下降法的优化算法生成肖像风格迁移结果，即采用梯度下降法，通过迭代计算生成风格迁移肖像的梯度，并利用总的损失函数，沿负梯度方向逼近原内容肖像和风格肖像，以让每次迭代生成的风格迁移肖像尽可能地分别与原内容肖像和风格肖像相似；

步骤9，重复步骤6-8进行100次迭代，再重复步骤5-8进行3次迭代，输出最终的肖像风格迁移图像。

所述的方法，所述的步骤1中，首先对内容图像和风格图像进行语义分割，分割出肖像区域和背景区域的语义图像，然后再对肖像区域进一步进行语义分割，分割出人脸，鼻子，眼睛，嘴巴和身体共5个区域作为5个语义图像，最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。

所述的方法，所述的步骤3中，内容约束特征提取层的新特征图为

其中l表示所对应的VGG-19中所在的内容约束特征提取层，即relu5_1，

是内容肖像图像基于VGG19网络模型在内容约束层生成的特征图，β_c为语义内容肖像权重调节参数，

表示内容肖像的语义图像，k＝1,2,3,4,5,6，β_c取值范围[0,200]；风格约束特征提取层的新特征图为

其中l表示所对应的VGG-19中所在的风格约束特征提取层，即relu3_1和relu4_1，

是风格肖像图像基于VGG19网络模型在风格约束层生成的特征图，β_s为语义风格肖像权重调节参数，

表示风格肖像的语义图像，k＝1,2,3,4,5,6，β_s取值范围[0,200]。

所述的方法，所述的步骤5中，将初始化新图像的大小设置为

其中

h_c分别为内容肖像图像的长和宽，L为调整图像大小的参数，每次迭代L分别取3、2、1。

所述的方法，所述的步骤6中，风格约束层损失函数为：

其中，

Φ(x)为特征图，i表示第i个，j表示第j个,将Φ(x)和m_c按r*r大小的局部块即local patch进行分割，每个local patch即Ψ(Φ(x))，Ψ(m_c)，将Φ(x)分割生成p1个local patch，将m_c分割生成p2个local patch,，

表示风格肖像图像，R表示实数集，w_c，h_c分别为内容肖像图像的长和宽，

其中R表示实数集，w_s，h_s分别为内容肖像图像的长和宽，m_c表示内容肖像的语义图像，m_s表示风格肖像的语义图像；

表示Ψ*(Φ(x))中的第i个local patch，

表示

中的第i个local patch。而

和

分别表示Ψ^*(Φ(x_s))或

中与

或

最匹配的一个local patch，k表示语义图像的个数；

其中，local patch选取规则定义为

所述的方法，所述的步骤7中，内容约束损失函数为

E_c(Φ(x),Φ(x_c))＝||Φ(x)-Φ(x_c)||²。

所述的方法，所述的步骤8中，总的损失函数为

E(x)＝α₁E_s(Φ(x),Φ(x_s),m_c,m_s)+α₂E_c(Φ(x),Φ(x_c))

其中α₁和α₂分别为用于调节生成图像中包含的原内容图像和风格图像的强度的调节参数，取值范围为α₁∈[0,1]，α₂∈[0,200]。

所述的方法，所述的步骤8中，所述的基于梯度下降法的优化算法包括以下步骤：

(1)初始化，迭代参数i＝0，j＝m，定义矩阵H并初始化为元素都为1的对角矩阵，允许误差ε＝10^-5，计算初始梯度

x₀为步骤4中随机生成的高斯噪声图像；

(2)如果i<＝itr或者如果

则输出第i次迭代结果x_i+1，并结束优化算法；否则转步骤(3)；其中itr为最高迭代次数；

(3)定义p_i为第i次迭代的负梯度方向p_i＝-g_i；

(4)更新第i次迭代的结果，x_i+1＝x_i+p_i；

(5)定义s_i为上一步的结果x_i和本次迭代的结果误差，即s_i＝x_i+1-x_i，定义y_i为上一步的结果梯度的

和本次迭代结果的梯度

误差，即

定义

其中T表示矩阵转制；

(6)更新

(7)定义变量q为x_i的梯度

(8)j＝1迭代计算

取

更新q,q＝q-a_iy_i-j，直到j＝m，m为预设的迭代次数；

(9)更新g_i,g_i＝H_iq；

(10)j＝1迭代计算

取，

更新g_i，g_i＝g_i+s_i-j(a_j-b)，直到j＝m

(11)更新迭代步骤，i＝i+1,跳转到步骤(2)。

所述的方法，基于梯度下降法的优化算法中，在执行步骤(5)后，还包括保留最近m次的结果的步骤，如果i>m，则删除s_i-m、s_i-m-1...s₁和y_i-m、y_i-m-1...y₁。

本发明基于卷积神经网络中的高级语义表示建立图像内容模型和图像风格模型，然后优化一张初始图像(例如随机噪声图像)使其在同一个卷积神经网络中具有与内容肖像图像相似的内容表示、与风格肖像图像相似的风格表示，从而生成融合内容肖像图像的内容和风格肖像图像的风格的图像，实现风格转移功能。

与其它风格转移算法相比，本发明的不同之处与优势有

(1)本发明是对原图肖像生成的特征图即feature map进行更细分块，通过提取他们的子块，建立损失函数，采用梯度下降法，最小化损失函数。从而使得生成的肖像具有更好的细节特征，效果更理想。与传统的方法具有本质上的区别。

(2)本发明通过对原风格肖像和内容肖像进行语义分割，得到多个语义图像，并把语义肖像转化为feature maps,增加到VGG网络模型中选定的层，为图像风格迁移方法提供更多的特征供选取。

(3)本发明定义一个新损失函数。增加了语义图像对输出结果的约束。避免了风格迁移中一些错误的产生(如风格肖像中眼睛部分特征迁移到嘴巴上去了，或者图像背景特征迁移到肖像上)，提高了肖像风格迁移的效果。

综上所述，本发明对任何可进行语义分割的风格肖像图像实现风格转移的技术效果。

附图说明

图1是本发明的***流程图；

图2是本发明的模型架构图；

图3是本发明实施例采用的一个内容肖像图像；

图4是本发明实施例采用的一个风格肖像图像；

图5是本发明肖像风格迁移方法的风格迁移结果示。

图6是采用传统方法肖像风格迁移方法的风格迁移结果示。

具体实施方式

参见图1和图2，分别为本发明的***流程图和模型架构图，参见图4，本实施例选取一张艺术图像作为风格肖像

再选择一张图像作为内容肖像

如图3所示。其中w_c，h_c分别为内容肖像图像的长和宽，w_s，h_s分别为内容肖像图像的长和宽；然后采用基于语义的图像分割算法，把风格肖像和内容肖像进行语义分割：

步骤1、选取Oxford大学开发的CRF as RNN模型作为图像肖像区域语义分割的模型，分别对内容图像和风格图像进行语义分割，分割出肖像区域和背景区域，

步骤2、采用OpenFace人脸区域分割算法，再对肖像区域的人脸，鼻子，眼睛，嘴巴和身体区域进行标定，然后进一步进行语义分割，分割出人脸，鼻子，眼睛，嘴巴和身体共5个区域作为5个语义图像，最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。其中内容肖像的语义图像

和风格肖像语义图像

k＝1,2,3,4,5,6。

图3为目标内容图像

图4为目标肖像风格图像

我们的目标是生成风格迁移图5。

步骤3、选取2014年在ImageNet图像分类比赛中获得优异成绩的深度卷积神经网络VGG-19作为图像高级风格特征提取模型。

步骤4，设置内容约束层，选取图3为目标内容图像x_c、图4为目标风格图像x_s，选定relu5_1为内容约束层，选定relu3_1和relu4_1为风格约束层，设置L＝3,2,1.，即采用三层迭代，每层最高迭代次数itr＝100；

步骤5，在VGG19网络内容约束层relu5_1读取内容肖像的语义图像

和内容肖像x_c，更新VGG19网络内容约束层中的feature maps。

为新的VGG19网络在内容约束层的feature maps，f_c是内容肖像x_c在内容约束层生成的feature maps。

并取β_c＝20。

步骤6，在内容层relu5_1建立新的输入输出模型，重新计算网络模型在relu5_1层的梯度。更新网络模型在relu5_1层输出，得到relu5_l层新的输出。

步骤7，设置风格约束层，将目标风格图像x_s输入到卷积神经网络VGG-19中，计算风格图像在风格约束层relu3_l,relu4_1。

步骤8，在VGG19网络风格约束层relu3_l,relu4_1读取风格肖像的语义图像

和风格肖像x_s，更新VGG19网络风格约束层中的feature maps，

为新的VGG19网络在风格约束层的feature maps，f_s是风格肖像x_s在由风格约束层生成的feature maps。β_s＝20。

步骤9，在风格层relu3_l,relu4_1建立新的输入输出模型，重新计算网络模型在relu3_l,relu4_1层的梯度。更新网络模型在relu3_l,relu4_1层输出。并得到在relu3_l,relu4_1层新的输出。

步骤10、随机生成高斯噪声图像为初始化新图像

步骤11、利用上一次迭代的结果，重新设置图像大小

其中

步骤12、将目标内容肖像x_c，和语义图像m_c，输入到卷积神经网络VGG-19中，再利用马尔可夫随机场(MRF)模型，在内容约束层，输出网络模型中的feature maps记为Φ(x_c)，m_c。

步骤13、将目标风格图像x_s，和语义图像m_s输入到卷积神经网络VGG-19中，再利用马尔可夫随机场(MRF)模型，在内容约束层，输出网络模型中的feature maps记作Φ(x_s)，m_s。

步骤14、Φ(x_s)，m_s进行步长为1分割，把Φ(x_s)，m_s和m_c分割成p个大小为3×3小块(local patch)。

步骤15、在风格约束层relu 3_l,relu 4_1上的损失函数，

β_c,β_s用来调节语义图像的权重，其中p1,p2表示将Φ(x)分割生成p1个local patch，将m_c分割生成p2个local patch,,

步骤16、Ψ_i(Φ(x))表示的一个local patch，而

和

分别表示Φ(x_s)或

中与Ψ_i(Φ(x))和

最匹配的一个patch，即k表示语义图像的个数。

步骤17、local patch选取规则定义为，

步骤18,在内容约束层relu5_1上计算损失函数，将新图像x输入到卷积神经网络VGG-19中，得到其在内容约束层在利用马尔可夫随机场(MRF)模型，计算生成肖像的X在内容约束层relu5_l,的损失函数，

E_c(Φ(x),Φ(x_c))＝||Φ(x)-Φ(x_c)||²

步骤19,建立总的损失函数：

E(x)＝α₁E_s(Φ(x),Φ(x_s),m_c,m_s)+α₂E_c(Φ(x),Φ(x_c))

取α₁＝0.001，α₂＝20。

步骤20,然后通过梯度下降法求解最小化优化函数E(x)。生成输入图像X。其中基于梯度下降法的优化算法包括以下步骤：

x₀为步骤4中随机生成的高斯噪声图像，预设的迭代次数m＝6，itr＝100；

(2)如果i<＝itr或者如果

(3)定义p_i为第i次迭代的负梯度方向p_i＝-g_i；

(4)更新第i次迭代的结果，x_i+1＝x_i+p_i；

和本次迭代结果的梯度

误差，即

定义

其中T表示矩阵转制；

(6)更新

(7)定义变量q为x_i的梯度

(8)j＝1迭代计算

取

更新q,q＝q-a_iy_i-j，直到j＝m，；

(9)更新g_i,g_i＝H_iq；

(10)j＝1迭代计算

取，

更新g_i，g_i＝g_i+s_i-j(a_j-b)，直到j＝m

(11)更新迭代步骤，i＝i+1,跳转到步骤(2)。

同时为了节省内存开销，在执行步骤(5)后，只保留最近m次的结果的步骤，如果i>m，则删除s_i-m、s_i-m-1...s₁和y_i-m、y_i-m-1...y₁，这样在运算时可达到节省内存的效果。

步骤21、重复步骤12-20，迭代100次后生成新生成图像。

步骤22、重复步骤11-21，迭代3次后，输出最终的风格迁移结果图像。

生成的风格转移效果图像如图4。

实验结果表面，本发明能够有效地实现图像的风格转移功能。

Claims

1.一种基于语义分割和深度卷积神经网络的肖像风格迁移方法，其特征在于，包括以下步骤：

步骤4，随机生成高斯噪声图像为初始化新图像；

步骤9，重复步骤6-8进行100次迭代，再重复步骤5-8进行3次迭代，输出最终的肖像风格迁移图像；

所述的步骤6中，风格约束层损失函数为：

其中，

Φ(x)为特征图，i表示第i个，j表示第j个,将Φ(x)和m_c按r*r大小的局部块即local patch进行分割，每个local patch即Ψ(Φ(x))，Ψ(m_c)，将Φ(x)分割生成p1个local patch，将m_c分割生成p2个local patch，

其中R表示实数集，w_s，h_s分别为内容肖像图像的长和宽，m_c表示内容肖像的语义图像，m_s表示风格肖像的语义图像，β_c为语义内容肖像权重调节参数，β_s为语义风格肖像权重调节参数；

表示Ψ^*(Φ(x))中的第i个local patch，

表示

中的第i个localpatch，而

和

分别表示Ψ^*(Φ(x_s))或

中与

或

最匹配的一个local patch，k表示语义图像的个数；

其中，local patch选取规则定义为

2.根据权利要求1所述的方法，其特征在于，所述的步骤1中，首先对内容图像和风格图像进行语义分割，分割出肖像区域和背景区域的语义图像，然后再对肖像区域进一步进行语义分割，分割出人脸，鼻子，眼睛，嘴巴和身体共5个区域作为5个语义图像，最终得到背景、人脸、鼻子、眼睛、嘴巴和身体区域共6个语义图像。

3.根据权利要求2所述的方法，其特征在于，所述的步骤3中，内容约束特征提取层的新特征图为

4.根据权利要求1所述的方法，其特征在于，所述的步骤5中，将初始化新图像的大小设置为

其中

5.根据权利要求4所述的方法，其特征在于，所述的步骤7中，内容约束损失函数为

E_c(Φ(x),Φ(x_c))＝||Φ(x)-Φ(x_c)||²。

6.根据权利要求5所述的方法，其特征在于，所述的步骤8中，总的损失函数为

E(x)＝α₁E_s(Φ(x),Φ(x_s),m_c,m_s)+α₂E_c(Φ(x),Φ(x_c))

7.根据权利要求1所述的方法，其特征在于，所述的步骤8中，所述的基于梯度下降法的优化算法包括以下步骤：

(1)初始化，迭代参数i＝0，j＝m，定义矩阵H并初始化为元素都为1的对角矩阵，允许误差ε＝10-⁵，计算初始梯度g₁＝▽f(x₀)，x₀为步骤4中随机生成的高斯噪声图像；

(2)如果i<＝itr或者如果||▽f(x_i+1)||≤10^-5，则输出第i次迭代结果x_i+1，并结束优化算法；否则转步骤(3)；其中itr为最高迭代次数；

(3)定义p_i为第i次迭代的负梯度方向p_i＝-g_i；

(4)更新第i次迭代的结果，x_i+1＝x_i+p_i；

(5)定义s_i为上一步的结果x_i和本次迭代的结果误差，即s_i＝x_i+1-x_i，定义y_i为上一步的结果梯度的▽f(x_i)和本次迭代结果的梯度▽f(x_i+1)误差，即y_i＝▽f(x_i+1)-▽f(x_i)，定义

其中T表示矩阵转制；

(6)更新

(7)定义变量q为x_i的梯度q＝▽f(x_i)；

(8)j＝1迭代计算

取

更新q,q＝q-a_iy_i-j，直到j＝m，m为预设的迭代次数；

(9)更新g_i,g_i＝H_iq；

(10)j＝1迭代计算

取，

更新g_i，g_i＝g_i+s_i-j(a_j-b)，直到j＝m

(11)更新迭代步骤，i＝i+1,跳转到步骤(2)。

8.根据权利要求7所述的方法，其特征在于，基于梯度下降法的优化算法中，在执行步骤(5)后，还包括保留最近m次的结果的步骤，如果i>m，则删除s_i-m、s_i-m-1...s₁和y_i-m、y_i-m-1...y₁。