CN111429342B - 一种基于风格语料库约束的照片风格迁移方法 - Google Patents
一种基于风格语料库约束的照片风格迁移方法 Download PDFInfo
- Publication number
- CN111429342B CN111429342B CN202010239903.0A CN202010239903A CN111429342B CN 111429342 B CN111429342 B CN 111429342B CN 202010239903 A CN202010239903 A CN 202010239903A CN 111429342 B CN111429342 B CN 111429342B
- Authority
- CN
- China
- Prior art keywords
- style
- network
- photo
- student
- teacher
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013508 migration Methods 0.000 title claims abstract description 37
- 230000005012 migration Effects 0.000 title claims abstract description 37
- 238000000034 method Methods 0.000 title claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000004821 distillation Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 15
- 238000013461 design Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 238000004806 packaging method and process Methods 0.000 claims description 2
- 238000011176 pooling Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 3
- 238000007619 statistical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000013140 knowledge distillation Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明基于风格语料库约束的照片风格迁移方法,包括:获取用于训练学生网络所需的数据集、选择教师网络和学生网络并获得教师网络和学生网络的生成照片、构建风格语料库、设计基于风格语料库约束的多级别对抗蒸馏策略、训练优化学生网络进行照片风格迁移、获取风格化的照片。本发明提供的方法能有效缓解单张照片风格信息和内容信息相互干扰导致风格化后的图像扭曲和不真实等问题,并显著提升照片风格迁移效率。
Description
技术领域
本发明涉及图像处理中风格迁移领域,特别是照片风格迁移中单张图像风格信息的表示和迁移方法。
背景技术
风格迁移是计算机图形学中非真实感绘制的主要研究内容,通过算法建模不同艺术形式的绘制风格,从而增强图像中可视信息的表现形式。对图像艺术风格化的研究可以丰富计算机图形学、图像处理等的理论内容,也可以深化和拓广图像的应用领域。照片风格迁移和艺术风格迁移是风格迁移的两类主要任务,相比于艺术风格迁移,照片风格迁移不仅要将艺术照片的风格信息迁移到内容照片上,而且要求风格化后的图像和相机拍出的照片一样。
现有照片风格迁移方法主要采用格拉姆矩阵[1]和协方差矩阵[2][4]等统计方法来建模单张艺术照片的风格信息,并使用基于格拉姆矩阵的损失函数和复杂特征变换来进行风格渲染。由于风格信息和内容信息在单张图像中相互缠绕,无法清晰准确地用数学公式单独建模风格信息,使得风格迁移中内容信息和风格信息相互影响,导致风格化后的图像存在结构扭曲、相同语义空间风格不一致和图像模糊不清的问题,并不满足照片风格迁移的应用要求。为解决无法准确建模风格信息导致的图像质量下降问题,现有方法需要引入复杂的色彩空间约束[1]、额外的后处理[2][3]及复杂的特征变换操作[4],导致照片风格迁移速度缓慢,严重制约实际应用。因此,需要研究迁移效果较好且更加高效的照片风格迁移方法。
参考文献:
1.F.Lua,S.Paris,E.Shechtman,and K.Bala,“Deep photo styletransfer,”inProceedings of the IEEE Conference on Computer Visionand Pattern Recognition,2017,pp.4990–4998.
2.Y.Li,M.-Y.Liu,X.Li,M.-H.Yang,and J.Kautz,“A closed-formsolution tophotorealistic image stylization,”in Proceedings of theEuropean Conference onComputerVision(ECCV),2018,pp.453–468.
3.X.Li,S.Liu,J.Kautz,and M.-H.Yang,“Learning linear transformationsfor fast image and video style transfer,”in Proceedings of the IEEEConference on Computer Vision and Pattern Recognition,2019,pp.3809–3817.
4.J.Yoo,Y.Uh,S.Chun,B.Kang,and J.-W.Ha,“Photorealisticstyle transfervia wavelet transforms,”in International Conference onComputer Vision(ICCV),2019.
发明内容
本发明针对已有方法无法有效解决单一图像风格信息和内容信息相互缠绕的问题,提出一种基于风格语料库约束和对抗蒸馏学习策略的照片风格迁移方法,主要包括以下步骤:
步骤S1:获取用于训练学生网络所需的数据集;
步骤S2:选择教师网络和学生网络,获得教师网络和学生网络的生成照片;
步骤S3:构建风格语料库;
步骤S4:设计基于风格语料库约束的多级别对抗蒸馏策略;
步骤S5:训练优化学生网络进行照片风格迁移;
步骤S6:获取风格化的照片;
与当前使用统计方法来建模单张图像风格信息的方法相比较,本发明采用风格语料库来约束单张图像的风格信息,能有效克服单张图像风格信息和内容信息相互缠绕导致的难以准确建模的问题。基于同一风格包中照片风格相同、不同风格包中照片风格不同的特点,通过对抗学习对风格迁移效果进行一致性约束,缓解风格信息和内容信息相互干扰导致的图像扭曲和不真实等问题。最后,本发明借鉴知识蒸馏的策略,利用神经网络来直接学习照片风格迁移中复杂的特征转换操作,提高照片风格迁移效率。
附图说明
图1为本发明的流程示意图;
图2为本发明的框架示意图;
图3为本发明的效果图;
表1为本发明测试时间统计表。
具体实施方式
如图1和图2所示为本发明基于风格语料库约束的照片风格迁移方法的流程图和框架图,主要包括以下步骤:获取用于训练学生网络所需的数据集、选择教师网络和学生网络并获得教师网络和学生网络的生成照片、构建风格语料库、设计基于风格语料库约束的多级别对抗蒸馏策略、训练优化学生网络进行照片风格迁移、获取风格化的照片。各步骤的具体实施细节如下:
步骤S1:获取用于训练学生网络所需的数据集,具体方式如下:
步骤S11:下载COCO数据集作为内容数据集,数据集中图像的数量记为N。
步骤S12:下载WikiArt网站公开的艺术照片作为风格数据集,数据集中照片的数量记为M。
步骤S2:选择教师网络和学生网络,获得教师网络和学生网络的生成照片,具体方式如下:
步骤S21:选择基于小波变换纠正的端到端风格迁移网络WCT2作为教师网络,固定网络权重参数,记为T。
步骤S22:选择艺术风格迁移网络AdaIN作为学生网络,在编码器的池化层和解码器中对应的反卷积层之间引入跳跃连接,对网络进行随机初始化,记为S。
步骤S23:对内容数据集和风格数据集进行标准化、裁剪和封装处理;从内容数据集中任选一张图像,记为ci(i=1、2、…、N),从风格数据集中任选一张图像,记为rj(j=1、2、…、M),将ci和rj输入教师网络T获得生成照片ti,j,将ci和rj输入学生网络S获得生成照片si,j。
步骤S3:构建风格语料库,具体方式如下:
步骤S31:利用教师网络T将风格照片rj的风格渲染到内容数据集中所有图像,得到的生成照片集合记为风格包风格包Bj中所有照片内容不同但风格相同。
步骤S32:根据步骤S31获得风格数据集中所有照片对应的风格包,定义风格语料库为不同风格包中照片的风格信息不同,但内容图像相同。
步骤S4:设计基于风格语料库约束的多级别对抗蒸馏策略,具体方式如下:
步骤S41:设计损失函数Lpix=||si,j-ti,j||1,使得学生网络生成照片si,j和教师网络生成照片ti,j在像素空间尽可能接近。
步骤S42:设计损失函数使得学生网络生成照片si,j和教师网络生成照片ti,j在特征空间尽可能接近,其中/>表示图像在损失网络VGG19中对应的特征图,参数k表示VGG16网络的第3、8、
15、22层。λk表示不同层对应的权重系数,分别取值1,1,0.5,0.5。
步骤S43:设计损失函数使得学生网络生成照片si,j和教师网络生成照片ti,j在整体分布上尽可能接近,其中Dcd是完全由卷积层构成的鉴别器,参数C表示内容图像集合,R表示风格图像集合,Ωs表示学生网络输出结果集合,ΩT表示教师网络输出结果集合。符号E[·]表示对括号[]内的函数值求期望。
将内容图像ci、风格图像rj和学生网络生成照片si,j拼接起来作为False,将内容图像ci、风格图像rj和教师网络生成照片ti,j拼接起来作为True,通过对抗训练,使得学生网络生成照片si,j和教师网络生成照片ti,j尽量接近。
步骤S44:设计损失函数
使得学生网络生成照片si,j和教师网络生成照片ti,j在风格上尽可能接近,其中Dsd表示完全由卷积层构成的风格鉴别器,符号E[·]表示对括号[]内的函数值求期望,(ti+1,j,ti,j)表示由教师网络生成的内容不同、风格相同的两张照片,(si,j,ti,j)是学生网络和教师网络生成的内容相同、风格相同的两张照片,(ti,j,ti,j+1)表示由教师网络生成的内容相同、风格不同的两张照片。
步骤S5:训练优化学生网络进行照片风格迁移,具体方式如下:
步骤S51:将多个损失函数按不同权重结合得到整体优化函数
对整个网络进行训练,训练过程中教师网络T参数始终固定。
步骤S52:锁定风格鉴别器Dsd和学生网络S,更新条件鉴别器Dcd参数两次后锁定条件鉴别器Dcd。
步骤S53:解锁风格鉴别器Dsd,更新参数两次后锁定风格鉴别器Dsd。
步骤S54:解锁学生网络S,更新参数一次后锁定学生网络S。
步骤S55:重复步骤S52、S53和S54,至条件鉴别器Dcd和风格鉴别器Dsd损失函数在0.5附近收敛时停止训练,保存训练得到的学生网络S,条件鉴别器Dcd和风格鉴别器Dsd。
步骤S6:获取风格化的照片,具体方式为,选择任意一张内容图像和风格照片输入步骤S5获得的学生网络S,得到风格化的照片。
与当前使用统计方法来建模单张图像风格信息的方法相比较,本发明采用风格语料库来约束单张图像的风格信息,能有效克服单张图像风格信息和内容信息相互缠绕导致的难以准确建模的问题。基于同一风格包中照片风格相同、不同风格包中照片风格不同的特点,通过对抗学习对风格迁移效果进行一致性约束,缓解风格信息和内容信息相互干扰导致的图像扭曲和不真实等问题。最后,本发明借鉴知识蒸馏的策略,利用神经网络来直接学习照片风格迁移中复杂的特征转换操作,提高照片风格迁移效率。本发明基于风格语料库约束的照片风格迁移方法效果和效率如图3和表1所示,有效克服了之前照片风格迁移中图像扭曲和不真实问题,和方法[4]相比速度提高了13~50倍。
Claims (1)
1.一种基于风格语料库约束的照片风格迁移方法,其特征在于,该方法具体包括如下步骤:
步骤S1:获取用于训练学生网络所需的数据集,具体方式如下:
步骤S11:下载COCO数据集作为内容数据集,数据集中图像的数量记为N;
步骤S12:下载WikiArt网站公开的艺术照片作为风格数据集,数据集中照片的数量记为M;
步骤S2:选择教师网络和学生网络,获得教师网络和学生网络的生成照片,具体方式如下:
步骤S21:选择基于小波变换纠正的端到端风格迁移网络WCT2作为教师网络,固定网络权重参数,记为T;
步骤S22:选择艺术风格迁移网络AdaIN作为学生网络,在编码器的池化层和解码器中对应的反卷积层之间引入跳跃连接,对网络进行随机初始化,记为S;
步骤S23:对内容数据集和风格数据集进行标准化、裁剪和封装处理;从内容数据集中任选一张图像,记为ci(i=1、2、…、N),从风格数据集中任选一张图像,记为rj(j=1、2、…、M),将ci和rj输入教师网络T获得生成照片ti,j,将ci和rj输入学生网络S获得生成照片si,j;
步骤S3:构建风格语料库,具体方式如下:
步骤S31:利用教师网络T将风格照片rj的风格渲染到内容数据集中所有图像,得到的生成照片集合记为风格包风格包Bj中所有照片内容不同但风格相同;
步骤S32:根据步骤S31获得风格数据集中所有照片对应的风格包,定义风格语料库为不同风格包中照片的风格信息不同但内容图像相同;
步骤S4:设计基于风格语料库约束的多级别对抗蒸馏策略,具体方式如下:
步骤S41:设计损失函数Lpix=||si,j-ti,j||1,使得学生网络生成照片si,j和教师网络生成照片ti,j在像素空间尽可能接近;
步骤S42:设计损失函数使得学生网络生成照片si,j和教师网络生成照片ti,j在特征空间尽可能接近,其中/>表示图像在损失网络VGG-16中对应的特征图,参数k表示VGG16网络的第3、8、15、22层;λk表示不同层对应的权重系数,分别取值1,1,0.5,0.5;
步骤S43:设计损失函数使得学生网络生成照片si,j和教师网络生成照片ti,j在整体分布上尽可能接近,其中Dcd是完全由卷积层构成的鉴别器,参数C表示内容图像集合,R表示风格图像集合,Ωs表示学生网络输出结果集合,ΩT表示教师网络输出结果集合,符号E[·]表示对括号[]内的函数值求期望,将内容图像ci、风格图像rj和学生网络生成照片si,j拼接起来作为False,将内容图像ci、风格图像rj和教师网络生成照片ti,j拼接起来作为True,通过对抗训练,使得学生网络生成照片si,j和教师网络生成照片ti,j尽量接近;
步骤S44:设计损失函数 使得学生网络生成照片si,j和教师网络生成照片ti,j在风格上尽可能接近,其中Dsd表示完全由卷积层构成的风格鉴别器,E[·]表示对括号[]内的函数值求期望,(ti+1,j,ti,j)表示由教师网络生成的内容不同、风格相同的两张照片,(si,j,ti,j)是学生网络和教师网络生成的内容相同、风格相同的两张照片,(ti,j,ti,j+1)表示由教师网络生成的内容相同、风格不同的两张照片;
步骤S5:训练优化学生网络进行照片风格迁移,具体方式如下:
步骤S51:将多个损失函数按不同权重结合得到整体优化函数
对整个网络进行训练,训练过程中教师网络T参数始终固定;
步骤S52:锁定风格鉴别器Dsd和学生网络S,更新条件鉴别器Dcd参数两次后锁定条件鉴别器Dcd;
步骤S53:解锁风格鉴别器Dsd,更新参数两次后锁定风格鉴别器Dsd;
步骤S54:解锁学生网络S,更新参数一次后锁定学生网络S;
步骤S55:重复步骤S52、S53和S54,至条件鉴别器Dcd和风格鉴别器Dsd损失函数在0.5附近收敛时停止训练,保存训练得到的学生网络S,条件鉴别器Dcd和风格鉴别器Dsd;
步骤S6:获取风格化的照片,具体方式为,选择任意一张内容图像和风格照片输入步骤S5获得的学生网络S,得到风格化的照片。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239903.0A CN111429342B (zh) | 2020-03-31 | 2020-03-31 | 一种基于风格语料库约束的照片风格迁移方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010239903.0A CN111429342B (zh) | 2020-03-31 | 2020-03-31 | 一种基于风格语料库约束的照片风格迁移方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111429342A CN111429342A (zh) | 2020-07-17 |
CN111429342B true CN111429342B (zh) | 2024-01-05 |
Family
ID=71550668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010239903.0A Active CN111429342B (zh) | 2020-03-31 | 2020-03-31 | 一种基于风格语料库约束的照片风格迁移方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111429342B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113344771B (zh) * | 2021-05-20 | 2023-07-25 | 武汉大学 | 基于深度学习的多功能图像风格迁移方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523460A (zh) * | 2018-10-29 | 2019-03-26 | 北京达佳互联信息技术有限公司 | 图像风格的迁移方法、迁移装置和计算机可读存储介质 |
CN110175951A (zh) * | 2019-05-16 | 2019-08-27 | 西安电子科技大学 | 基于时域一致性约束的视频风格迁移方法 |
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10565757B2 (en) * | 2017-06-09 | 2020-02-18 | Adobe Inc. | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images |
US10872399B2 (en) * | 2018-02-02 | 2020-12-22 | Nvidia Corporation | Photorealistic image stylization using a neural network model |
-
2020
- 2020-03-31 CN CN202010239903.0A patent/CN111429342B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109523460A (zh) * | 2018-10-29 | 2019-03-26 | 北京达佳互联信息技术有限公司 | 图像风格的迁移方法、迁移装置和计算机可读存储介质 |
CN110175951A (zh) * | 2019-05-16 | 2019-08-27 | 西安电子科技大学 | 基于时域一致性约束的视频风格迁移方法 |
CN110458750A (zh) * | 2019-05-31 | 2019-11-15 | 北京理工大学 | 一种基于对偶学习的无监督图像风格迁移方法 |
Non-Patent Citations (1)
Title |
---|
基于VGG-19图像风格迁移算法的设计与分析;张月;刘彩云;熊杰;;信息技术与信息化(第01期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111429342A (zh) | 2020-07-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hao et al. | Low-light image enhancement with semi-decoupled decomposition | |
US11328523B2 (en) | Image composites using a generative neural network | |
US11200638B2 (en) | Image style transform methods and apparatuses, devices and storage media | |
CN105374007B (zh) | 融合骨架笔画和纹理特征的铅笔画生成方法和装置 | |
CN111223062B (zh) | 基于生成对抗网络的图像去模糊方法 | |
US20180357800A1 (en) | Multimodal style-transfer network for applying style features from multi-resolution style exemplars to input images | |
CN109544662B (zh) | 一种基于SRUnet的动漫风格线稿上色方法及*** | |
CN107977414A (zh) | 基于深度学习的图像风格迁移方法及其*** | |
CN111199531A (zh) | 基于泊松图像融合及图像风格化的交互式数据扩展方法 | |
US20220237834A1 (en) | View Synthesis Robust to Unconstrained Image Data | |
CN111986075B (zh) | 一种目标边缘清晰化的风格迁移方法 | |
CN109447897B (zh) | 一种真实场景图像合成方法及*** | |
US20150071545A1 (en) | Image Enhancement Using Self-Examples and External Examples | |
Liu et al. | Painting completion with generative translation models | |
CN111429342B (zh) | 一种基于风格语料库约束的照片风格迁移方法 | |
Zhong et al. | Deep attentional guided image filtering | |
CN116934936A (zh) | 一种三维场景风格迁移方法、装置、设备及存储介质 | |
Li et al. | Flexicurve: Flexible piecewise curves estimation for photo retouching | |
CN111986121B (zh) | 基于Framelet l0范数约束的模糊图像非盲复原方法 | |
CN117495662A (zh) | 一种基于Stable Diffusion的动漫图像风格迁移方法及*** | |
Zhang et al. | A fast solution for Chinese calligraphy relief modeling from 2D handwriting image | |
CN113869503B (zh) | 一种基于深度矩阵分解补全的数据处理方法及存储介质 | |
CN110866866A (zh) | 图像仿色处理方法、装置、电子设备及存储介质 | |
CN113487475B (zh) | 交互式图像编辑方法、***、可读存储介质及电子设备 | |
CN114917583A (zh) | 一种基于生成对抗网络的动漫风格游戏背景生成方法及平台 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |