CN113255813B - 一种基于特征融合的多风格图像生成方法 - Google Patents

一种基于特征融合的多风格图像生成方法 Download PDF

Info

Publication number
CN113255813B
CN113255813B CN202110635370.2A CN202110635370A CN113255813B CN 113255813 B CN113255813 B CN 113255813B CN 202110635370 A CN202110635370 A CN 202110635370A CN 113255813 B CN113255813 B CN 113255813B
Authority
CN
China
Prior art keywords
style
feature
network
content
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110635370.2A
Other languages
English (en)
Other versions
CN113255813A (zh
Inventor
余月
李本源
李能力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202110635370.2A priority Critical patent/CN113255813B/zh
Publication of CN113255813A publication Critical patent/CN113255813A/zh
Application granted granted Critical
Publication of CN113255813B publication Critical patent/CN113255813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开的一种基于特征融合的多风格图像生成方法,属于计算机视觉领域。本发明实现方法为:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量;将风格图输入风格特征提取网络,提取风格图中的风格特征向量;将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行特征融合,得到特征融合后的融合特征向量;构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上训练生成对抗网络;利用训练得到的损失函数最小化的生成器,生成具有语义图内容和风格图风格的多风格图像。本发明能够将生成的具有语义图内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题。

Description

一种基于特征融合的多风格图像生成方法
技术领域
本发明涉及一种从语义分割图生成多风格图像的图像生成方法,尤其涉及一种能够端到 端地实现从语义图到多风格图像的快速生成方法,属于计算机视觉领域。
背景技术
目前生成多风格图像的模型大多都是从真实图像进行风格图像生成的,为数不多的从语 义图进行风格图像生成的模型却只能使用同一个数据集中的图像作为输入的风格,不能实现 对任意风格的快速迁移。
从语义图端到端地生成任意风格的图像在艺术设计和虚拟现实教育资源生成方向有着重 要的意义,在艺术设计领域中艺术创作者或者设计师可以只要指定每个物体在语义图中的位 置和大体形状以及想要生成的风格,那么就可以快速的生成符合语义图和风格约束的风格图 像,极大的减少创作和设计所需的时间成本;而在多媒体教育资源生成方向,老师可以使用 简单的语义图信息生成多风格的教学场景图像,多风格的教学场景图像可以极大的丰富教学 资源,而风格多样的教学场景也可以更好的吸引学生的注意力提高学生的学习兴趣。同时, 快速的从语义图生成教学场景图像可以极大的减少生成新的图像资源所花费的时间。
发明内容
针对背景技术中从语义图生成多风格图像具有很大局限性的问题,本发明公开的一种基 于特征融合的多风格图像生成方法要解决的技术问题是:提供具有内容特征提取网络、风格 特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络框架, 通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内容风格 特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图风格的 多风格图像。本发明具有快速便捷、适用性广、生成效果好的优点。将生成具有语义图内容 和风格图风格的多风格图像应用于吸引注意力的场景,解决相关工程技术问题。
为达到以上目的,本发明采用以下技术方案。
本发明公开的一种基于特征融合的多风格图像生成方法,将语义分割图输入内容特征提 取网络,提取语义图中的内容特征向量。将风格图输入风格特征提取网络,提取风格图中的 风格特征向量。将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进 行特征融合,得到特征融合后的融合特征向量。构建由生成器和判别器组成的生成对抗网络, 并通过设计损失函数在数据集上训练生成对抗网络。利用训练得到的损失函数最小化的生成 器,生成具有语义图内容和风格图风格的多风格图像。本发明能够将生成的具有语义图内容 和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题。
本发明公开的一种基于特征融合的多风格图像生成方法,包括如下步骤:
步骤1:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量。
步骤1中的内容特征提取网络主要由全局空间路径GSP(Global Space Path)、分类空间 路径CSP(Category Space Path)和分类语义路径CCP(Category Context Path)三条分支路径 组成的多路特征提取网络。所述全局空间路径GSP用于提取全局空间特征,分类空间路径 CSP用于提取语义图的分类空间特征,分类语义路径CCP用于提取分类语义特征。
全局空间路径的输入是整张语义图,经过卷积网络处理得到包含全局空间信息的特征图。
分类空间路径的结构与全局空间路径的结构相同,唯一的不同点在于输入不同。语义空 间路径的输入不是整张语义图而是先把语义图按不同的类别进行分割,每一个通道只有一个 类别,然后拼接到一起成为多通道的分类语义图,分类语义图的每个类别将分别进行卷积运 算,计算每个类的空间特征。
分类语义路径采用轻量级的ResNet网络模型和全局平均池化扩大感受野,并且在ResNet 网络模型的末尾添加全局平均池化,能够最大限度的提供感受野和每个类别的全局上下文信 息。另外,在分类语义路径中还使用注意力提取模块AEM(AttentionExtraction Module)。所 述注意力提取模块使用注意力机制捕获特征图的全局语义信息,并且计算注意力向量对不同 的位置赋予不同的权重达到指导网络学习的目的。
在多路生成网络中的三条分支路径分别提取出全局空间信息、分类空间信息和分类语义 信息之后,将所述三条分支路径输出的特征,通过特征融合模块FFM(FeatureFusion Module) 进行融合。在特征融合之后,使用条件归一化模块CNB(ConditionalNormalization Block) 将处理得到的分类语义图当作额外的条件输入,对含有类别不同的语义图给出不同的归一化 参数,进而充分保留语义图中的信息并得到内容特征向量fc
为了兼顾网络参数大小和空间信息提取的效果,作为优选,步骤1中,所述卷积网络选 用三层卷积网络,每层网络包含卷积层、标准化层和激活函数层,经过三层卷积之后输出的 特征图大小是原图的1/8。
步骤2:将风格图输入风格特征提取网络,提取风格图中的风格特征向量。
步骤2中的风格特征提取网络使用预训练好的VGG16网络。通过VGG16网络将输入风 格图t在激活层之前的特征提取出来,并将所述提取出来的特征作为特征融合的原始特征。所 述特征属于不同等级的特征,所以使用特征融合模块FFM从深到浅地将不同等级的特征依次 进行特征融合。融合后的特征经过注意力提取模块AEM,用自注意力模型对不同的通道进行 注意力加权得到的风格特征向量fs
作为优选,将输入的风格图t在VGG16网络中的relu1_2、relu2_2、relu3_3和relu4_3这 些激活层之前的特征frelu1_2(t)、frelu2_2(t)、frelu3_3(t)、frelu4_3(t)提取出来,并将所述提取出 来的特征作为特征融合的原始特征。所述特征属于不同等级的特征,所以使用特征融合模块 FFM从深到浅地将不同等级的特征依次进行特征融合。融合后的特征经过注意力提取模块 AEM,用自注意力模型对不同的通道进行注意力加权得到的风格特征向量fs
步骤3:将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行 特征融合,得到特征融合后的融合特征向量fcs
步骤3中的内容风格特征融合网络使用WCT(Whiten-Color Transform)矩阵变换的方式 进行特征融合。WCT矩阵变换是对内容图像的特征fc和风格图的特征fs经过Whiten变换和 Color变换之后得到具有内容图内容特征和风格图风格特征的融合特征fcs的过程,WCT变换 分为两部分分别是Whiten变换和Color变换。
Whiten变换的方法是将内容图像在VGG16网络的特征空间中的特征fc求出协方差矩阵, 对协方差矩阵进行SVD分解,根据分解得到的矩阵对特征进行Whiten变换,把内容图像中 的颜色特征从图像中剥离出来,得到变换后的特征只剩下内容轮廓的特征fc,Whiten变换的 实现方式为:
Figure BDA0003097045710000031
其中fc是内容图像在VGG16中提取出来的特征;Dc是一个对角阵,元素是协方差矩阵
Figure BDA0003097045710000032
的 特征值;Ec是正交矩阵,满足
Figure BDA0003097045710000033
Dc和Ec都是对协方差矩阵进行SVD分解之后 得到。
Color变换的方法是将风格图像在VGG16网络中的特征空间中的特征fs先求出协方差矩 阵,对协方差矩阵进行SVD分解,再将fs与whiten变换得到的fc,进行反向的Whiten变 换,即Color变换,将Whiten变换之后的内容特征迁移到风格图的特征分布上,得到WCT变换之后的特征向量fcs,Color变换的实现方式为:
Figure BDA0003097045710000034
在WCT矩阵变换操作之后,又加入特征融合模块FFM,将内容特征向量与WCT变换之后的特征向量fcs进行特征融合,强化融合向量中语义图的内容约束力,并得到最终的风格 内容特征融合向量fcs
步骤4:构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上 训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络。
内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语 义图生成风格图像的网络框架,通过内容特征提取网络、风格特征提取网络分别提取内容特 征和风格特征,还通过内容风格特征融合网络将前两个网络提取的特征进行融合,用来生成 具有语义图内容和风格图风格的多风格图像。
步骤4中所述的生成器是内容特征提取网络、风格特征提取网络和内容风格特征融合网 络三部分网络组成的从语义图生成风格图像的网络。判别器是由全局判别器D1和局部判别器 D2组成的多级判别器,具有相同的网络结构,但是运行在不同的图像比例上。
步骤4中设计的损失函数为:
Figure BDA0003097045710000041
其中,λ12345为可设定参数,G是生成器,D1是局部判别器,D2是全局判别器,x是输 入的语义图,t是输入的风格图,y是生成的多风格图像。
Figure BDA0003097045710000042
为计算内容差异的感知损失,其表达式为:
Figure BDA0003097045710000043
F(i)表示VGG16网络的第i个激活前层特征提取器,而wi是第i层的自适应权重,特征 的层数越深,加权的参数就越大。
Figure BDA0003097045710000044
是对抗损失,其表达式为:
Figure BDA0003097045710000045
Figure BDA0003097045710000046
是特征匹配损失,其表达式为:
Figure BDA0003097045710000047
其中T表示判别器Dk的网络层数,Ni表示每层的元素个数。
Figure BDA0003097045710000048
为计算风格差异的上下文损失,其表达式为:
Figure BDA0003097045710000051
其中,CX(φl(x),φl(t))是语义图x和风格图t的第l层VGG16特征的余弦相似度。
Figure BDA0003097045710000052
为总变分损失,其表达式为:
Figure BDA0003097045710000053
其中,i和j是图像中像素的坐标值,N是图像的像素范围大小。
为了充分考虑不同深度特征对损失函数计算的影响,作为优选,步骤4中,提取VGG16 网络提取的五层特征,即N=5,wi的值依次是1/32、1/16、1/8、1/4、1,特征的层数越深, 加权的参数就越大。
步骤5:利用步骤4训练得到损失函数最小化的生成器,此时,步骤3得到的风格内容 特征融合向量fcs成为具有语义图内容和风格图风格的多风格图像t,即基于特征融合实现多 风格图像生成。
还包括步骤6:将步骤5生成的具有语义图内容和风格图风格的多风格图像,应用于吸 引注意力的场景,解决相关工程技术问题。
步骤6所述相关工程技术问题包括创意广告设计、游戏场景设计和教学场景图像设计等 实际问题。
有益效果:
1、本发明公开的一种基于特征融合的多风格图像生成方法,提供具有内容特征提取网络、 风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络 框架,通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内 容风格特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图 风格的多风格图像,因为生成的过程中融合不同等级的图像特征,因此生成的多风格图像具 有布局合理、细节清晰和分辨率高的优点。
2、现有的从语义图生成多风格图像的方法都要求风格图和语义图在一个数据集中,而 且要求风格图和和语义图中的物体类别要相同,本发明公开的一种基于特征融合的多风格图 像生成方法,对输入的图像没有限制,经过训练完成之后即能够实现使用任意的语义图和风 格图生成具有语义图内容和风格图风格的多风格图像,因此能够满足不同任务的生成需求, 具有适用性广的优点。
3、现有的任意多风格图像生成的网络框架并不能实现端到端的从语义图生成多风格图 像,需要先生成符合语义图的真实图像,然后再对真实图像进行风格迁移,本发明公开的一 种基于特征融合的多风格图像生成方法,所采用的网络框架只需要输入语义图和风格图,即 能够自动生成具有语义图内容和风格图风格的多风格图像,避免现有的其他传统方法两步走 的生成方式,能够快速便捷的实现从语义图到多风格图像的生成。
4、本发明公开的一种基于特征融合的多风格图像生成方法,将本发明生成的具有语义图 内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题,例如: 包括创意广告设计、游戏场景设计和教学场景图像设计等实际问题。
附图说明
图1是本发明的基于特征融合的多风格图像生成方法的实现流程图;
图2是本发明中内容特征提取网络的结构图,其中图2(a)为内容特征提取网络的整体 结构图,图2(b)为注意力提取模块AEM(Attention Extraction Module)的结构图,图2(c) 为特征融合模块FFM(Feature Fusion Module)的结构图,图2(d)为条件归一化模块CNB (Conditional Normalization Block);
图3是本发明中风格特征提取网络的结构图;
图4是本发明中内容风格特征融合网络的结构图;
图5是本发明中生成器的结构图;
图6是本发明中判别器的结构图;
图7是本发明在Cityscapes数据集上的生成效果图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本实施例公开的一种基于特征融合的多风格图像生成方法,能够在Cityscapes数据集上进行娱乐相关的应用,例如应用于电影、动画和游戏的创作中,对电影、 动画和游戏中的街景进行风格渲染,将同一张街景图变成不同风格,打造想要的电影、动画 和游戏风格。并且还能降低创作成本,节省制作时间,增加与观众或玩家的互动。本实施例 的训练及图像生成流程如图1所示。
步骤1:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量,内容特 征提取网络的结构图如图2(a)所示。
步骤1中输入的语义图的大小是[3,256,512],分类空间路径和全局空间路径得到的特征 图大小为[512,32,64],分类语义路径得到的特征图大小为[256,128,256]其中分类语义路径中使 用的注意力提取模块(AEM)的网络结构如图2(b)所示,得到这三个特征之后,将它们经 过特征融合模块(FFM)进行特征融合得到大小为[512,128,256],特征融合模块(FFM)的 结构如图2(c)所示。最后融合后的特征经过条件归一化模块CNB进行上采样,条件归一 化模块CNB的大小如图2(d)所示,最后得到最终的内容特征向量fc,fc的大小为[256,128,256]。
步骤2:将风格图输入风格特征提取网络,提取风格图中的风格特征向量,风格特征提 取网络的结构图如图3所示。
步骤2中的风格特征提取网络使用预训练好的VGG16网络。输入网络的风格图t的大小 为[3,256,512],在VGG16中的relu1_2、relu2_2、relu3_3和relu4_3这些激活层之前的特征 frelu1_2(t)、frelu2_2(t)、frelu3_3(t)、frelu4_3(t)提取出来,提取出特征的大小分别为[128,256,512], [256,128,256],[512,64,128],[512,64,128]。因为所述特征属于不同等级的特征,所以使用特 征融合模块FFM从深到浅地将他们依次进行特征融合,特征融合模块FFM的结构如图2(c) 所示。最后,融合后的特征经过注意力提取模块AEM,注意力用自注意力模型对不同的通道 进行注意力加权得到最终的风格特征向量fs,提取模块AEM的网络结构如图2(b)所示, 最终得到的风格特征向量fs的大小为[256,128,256]。
步骤3:将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行 特征融合,得到内容风格融合特征fcs,内容风格特征融合网络的结构如图4所示。
步骤3中输入内容风格特征融合网络的内容特征向量fc和风格特征向量fs大小分为 [256,128,256],经过WCT矩阵变换之后特征的大小并没有发生变化,但是经过变换的特征向 量已经具有内容图的内容信息和风格图的风格信息。在WCT的矩阵变换操作之后,又加入 特征融合模块FFM,将内容特征向量与WCT变换之后的特征向量进行特征融合,强化融合 向量中语义图的内容约束力,融合后的向量大小还是为[256,128,256],之后使用反卷积操作 进行上采样,最终得到在具有输入风格图的艺术风格的同时也更好的符合语义图的内容约束 的大小为[3,256,512]的风格内容融合特征fcs
步骤4:构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上 训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络。
步骤4中的生成器的网络结构如图5所示,判别器的网络结构如图6所示。生成器就是 步骤1到步骤3中的内容特征提取网络、风格特征提取网络和内容风格特征融合网络组成的 生成器网络,判别器是由全局判别器D1和局部判别器D2组成的多级判别器。在训练过程中 所使用的损失函数为:
Figure BDA0003097045710000081
其中,λ12345为可设定参数,G是生成器,D1是局部判别器,D2是全局判别器,x是输 入的语义图,t是输入的风格图,y是生成的多风格图像。
Figure BDA0003097045710000082
为计算内容差异的感知损失,其表达式为:
Figure BDA0003097045710000083
F(i)表示VGG16网络的第i个激活前层特征提取器,而wi是第i层的自适应权重,在实 验中提取VGG16网络中的五层特征,也就是N=5,wi的值依次是1/32、1/16、1/8、1/4、1,特征的层数越深,加权的参数就越大。
Figure BDA0003097045710000084
是对抗损失,其表达式为:
Figure BDA0003097045710000085
Figure BDA0003097045710000086
是特征匹配损失,其表达式为:
Figure BDA0003097045710000087
其中T表示判别器Dk的网络层数,Ni表示每层的元素个数。
Figure BDA0003097045710000088
为计算风格差异的上下文损失,其表达式为:
Figure BDA0003097045710000089
其中,CX(φl(x),φl(t))是语义图x和风格图t的VGG16特征的余弦相似度。
Figure BDA00030970457100000810
为总变分损失,其表达式为:
Figure BDA00030970457100000811
其中,i和j是图像中像素的坐标值,N是图像的像素范围大小。
在本发明的训练过程中,一共训练300代,在训练过程中λ1=10,λ2=1,λ3=1,λ5=0.00001, 在训练的前150代,控制风格差异的上下文损失的系数较λ4小仅为0.1,在后150代中λ4的 大小开始逐渐的增大,直到达到最大值20。
步骤5:利用步骤4训练得到损失函数最小化的生成器,此时,步骤3得到的风格内容 特征融合向量fcs会变成具有语义图内容和风格图风格的多风格图像y。
在步骤5中,本实施例在cityscapes这个公开数据集上取得很好的生成结果。Cityscapes 数据集是一个新的大规模数据集,该大型数据集包含来自50个不同城市的街道场景中记录的 多种立体视频序列,该数据集可以应用于电影、动画和游戏的创作中,对电影、动画和游戏 中的街景进行风格渲染,将同一张街景图变成不同风格,打造想要的电影、动画和游戏风格。 网络的生成结果如图6所示。
综上,本实施例通过将语义图和风格图输入到生成对抗网络中,训练生成对抗网络模型, 得到训练完善的生成器,此时成器可以生成符合语义图内容约束和风格图风格约束的图像。 本实施例能够解决传统方法中的生成的时间成本和人力成本大,效果得不到保证的问题。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了进一步详细说明,所 应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡 在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保 护范围之内。

Claims (9)

1.一种基于特征融合的多风格图像生成方法,其特征在于:包括如下步骤,
步骤1:将语义分割图输入内容特征提取网络,提取语义图中的内容特征向量;
步骤2:将风格图输入风格特征提取网络,提取风格图中的风格特征向量;
步骤3:将提取出的内容特征向量fc和风格特征向量fs输入内容风格特征融合网络进行特征融合,得到特征融合后的融合特征向量fcs
步骤4:构建由生成器和判别器组成的生成对抗网络,并通过设计损失函数在数据集上训练生成对抗网络,即训练得到损失函数最小化的生成对抗网络;
内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络框架,通过内容特征提取网络、风格特征提取网络分别提取内容特征和风格特征,还通过内容风格特征融合网络将前两个网络提取的特征进行融合,用来生成具有语义图内容和风格图风格的多风格图像;
步骤4中所述的生成器是内容特征提取网络、风格特征提取网络和内容风格特征融合网络三部分网络组成的从语义图生成风格图像的网络;判别器是由全局判别器D1和局部判别器D2组成的多级判别器,具有相同的网络结构,但是运行在不同的图像比例上;
步骤4中设计的损失函数为:
Figure FDA0003793819820000011
其中,λ12345为可设定参数,G是生成器,D1是局部判别器,D2是全局判别器,x是输入的语义图,t是输入的风格图,y是生成的多风格图像;
Figure FDA0003793819820000012
为计算内容差异的感知损失,其表达式为:
Figure FDA0003793819820000013
F(i)表示VGG16网络的第i个激活前层特征提取器,而wi是第i层的自适应权重,特征的层数越深,加权的参数就越大;
Figure FDA0003793819820000014
是对抗损失,其表达式为:
Figure FDA0003793819820000015
Figure FDA0003793819820000016
是特征匹配损失,其表达式为:
Figure FDA0003793819820000017
其中T表示判别器Dk的网络层数,Ni表示每层的元素个数;
Figure FDA0003793819820000021
为计算风格差异的上下文损失,其表达式为:
Figure FDA0003793819820000022
其中,CX(φl(x),φl(t))是语义图x和风格图t的第l层VGG16特征的余弦相似度;
Figure FDA0003793819820000023
为总变分损失,其表达式为:
Figure FDA0003793819820000024
其中,i和j是图像中像素的坐标值,N是图像的像素范围大小;
步骤5:利用步骤4训练得到损失函数最小化的生成器,此时,步骤3得到的风格内容特征融合向量fcs成为具有语义图内容和风格图风格的多风格图像t,即基于特征融合实现多风格图像生成。
2.如权利要求1所述的一种基于特征融合的多风格图像生成方法,其特征在于:还包括步骤6:将步骤5生成的具有语义图内容和风格图风格的多风格图像,应用于吸引注意力的场景,解决相关工程技术问题。
3.如权利要求2所述的一种基于特征融合的多风格图像生成方法,其特征在于:步骤6所述相关工程技术问题包括创意广告设计、游戏场景设计和教学场景图像设计等实际问题。
4.如权利要求1、2或3所述的一种基于特征融合的多风格图像生成方法,其特征在于:步骤1中的内容特征提取网络主要由全局空间路径GSP(Global Space Path)、分类空间路径CSP(Category Space Path)和分类语义路径CCP(Category Context Path)三条分支路径组成的多路特征提取网络;所述全局空间路径GSP用于提取全局空间特征,分类空间路径CSP用于提取语义图的分类空间特征,分类语义路径CCP用于提取分类语义特征;
全局空间路径的输入是整张语义图,经过卷积网络处理得到包含全局空间信息的特征图;
分类空间路径的结构与全局空间路径的结构相同,唯一的不同点在于输入不同;语义空间路径的输入不是一整张语义图而是先把语义图按不同的类别进行分割,每一个通道只有一个类别,然后拼接到一起成为多通道的分类语义图,分类语义图的每个类别将分别进行卷积运算,计算每个类的空间特征;
分类语义路径采用轻量级的ResNet网络模型和全局平均池化扩大感受野,并且在ResNet网络模型的末尾添加全局平均池化,能够最大限度的提供感受野和每个类别的全局上下文信息;另外,在分类语义路径中还使用注意力提取模块AEM(Attention ExtractionModule);所述注意力提取模块使用注意力机制捕获特征图的全局语义信息,并且计算注意力向量对不同的位置赋予不同的权重达到指导网络学习的目的;
在多路生成网络中的三条分支路径分别提取出全局空间信息、分类空间信息和分类语义信息之后,将所述三条分支路径输出的特征,通过特征融合模块FFM(Feature FusionModule)进行融合;在特征融合之后,使用条件归一化模块CNB(ConditionalNormalization Block)将处理得到的分类语义图当作额外的条件输入,对含有类别不同的语义图给出不同的归一化参数,进而充分保留语义图中的信息并得到内容特征向量fc
5.如权利要求4所述的一种基于特征融合的多风格图像生成方法,其特征在于:步骤2中的风格特征提取网络使用预训练好的VGG16网络;通过VGG16网络将输入风格图t在激活层之前的特征提取出来,并将所述提取出来的特征作为特征融合的原始特征;所述特征属于不同等级的特征,所以使用特征融合模块FFM从深到浅地将不同等级的特征依次进行特征融合;融合后的特征经过注意力提取模块AEM,用自注意力模型对不同的通道进行注意力加权得到的风格特征向量fs
6.如权利要求5所述的一种基于特征融合的多风格图像生成方法,其特征在于:步骤3中的内容风格特征融合网络使用WCT(Whiten-Color Transform)矩阵变换的方式进行特征融合;WCT矩阵变换是对内容图像的特征fc和风格图的特征fs经过Whiten变换和Color变换之后得到具有内容图内容特征和风格图风格特征的融合特征
Figure FDA0003793819820000031
的过程,WCT变换分为两部分分别是Whiten变换和Color变换;
Whiten变换的方法是将内容图像在VGG16网络的特征空间中的特征fc求出协方差矩阵,对协方差矩阵进行SVD分解,根据分解得到的矩阵对特征进行Whiten变换,把内容图像中的颜色特征从图像中剥离出来,得到变换后的特征只剩下内容轮廓的特征
Figure FDA0003793819820000032
Whiten变换的实现方式为:
Figure FDA0003793819820000033
其中fc是内容图像在VGG16中提取出来的特征;Dc是一个对角阵,元素是协方差矩阵
Figure FDA0003793819820000034
的特征值;Ec是正交矩阵,满足
Figure FDA0003793819820000035
Dc和Ec都是对协方差矩阵进行SVD分解之后得到;
Color变换的方法是将风格图像在VGG16网络中的特征空间中的特征fs先求出协方差矩阵,对协方差矩阵进行SVD分解,再将fs与whiten变换得到的
Figure FDA0003793819820000036
进行反向的Whiten变换,即Color变换,将Whiten变换之后的内容特征迁移到风格图的特征分布上,得到WCT变换之后的特征向量
Figure FDA0003793819820000037
Color变换的实现方式为:
Figure FDA0003793819820000041
在WCT矩阵变换操作之后,又加入特征融合模块FFM,将内容特征向量与WCT变换之后的特征向量
Figure FDA0003793819820000042
进行特征融合,强化融合向量中语义图的内容约束力,并得到最终的风格内容特征融合向量fcs
7.如权利要求1所述的一种基于特征融合的多风格图像生成方法,其特征在于:为了兼顾网络参数大小和空间信息提取的效果,步骤1中,所述网络选用三层卷积网络,每层网络包含卷积层、标准化层和激活函数层,经过三层卷积之后输出的特征图大小是原图的1/8。
8.如权利要求1所述的一种基于特征融合的多风格图像生成方法,其特征在于:将输入的风格图t在VGG16网络中的relu1_2、relu2_2、relu3_3和relu4_3这些激活层之前的特征frelu1_2(t)、frelu2_2(t)、frelu3_3(t)、frelu4_3(t)提取出来,并将所述提取出来的特征作为特征融合的原始特征;所述特征属于不同等级的特征,所以使用特征融合模块FFM从深到浅地将不同等级的特征依次进行特征融合;融合后的特征经过注意力提取模块AEM,用自注意力模型对不同的通道进行注意力加权得到的风格特征向量fs
9.如权利要求1所述的一种基于特征融合的多风格图像生成方法,其特征在于:为了充分考虑不同深度特征对损失函数计算的影响,步骤4中,提取VGG16网络提取的五层特征,即N=5,wi的值依次是1/32、1/16、1/8、1/4、1,特征的层数越深,加权的参数就越大。
CN202110635370.2A 2021-06-02 2021-06-02 一种基于特征融合的多风格图像生成方法 Active CN113255813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110635370.2A CN113255813B (zh) 2021-06-02 2021-06-02 一种基于特征融合的多风格图像生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110635370.2A CN113255813B (zh) 2021-06-02 2021-06-02 一种基于特征融合的多风格图像生成方法

Publications (2)

Publication Number Publication Date
CN113255813A CN113255813A (zh) 2021-08-13
CN113255813B true CN113255813B (zh) 2022-12-02

Family

ID=77186962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110635370.2A Active CN113255813B (zh) 2021-06-02 2021-06-02 一种基于特征融合的多风格图像生成方法

Country Status (1)

Country Link
CN (1) CN113255813B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113919998B (zh) * 2021-10-14 2024-05-14 天翼数字生活科技有限公司 一种基于语义和姿态图引导的图片匿名化方法
CN113642262B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能的牙膏包装外观辅助设计方法
CN113642566B (zh) * 2021-10-15 2021-12-21 南通宝田包装科技有限公司 基于人工智能和大数据的药品包装设计方法
CN114782590B (zh) * 2022-03-17 2024-05-10 山东大学 一种多物体内容联合图像生成方法及***
CN115272687B (zh) * 2022-07-11 2023-05-05 哈尔滨工业大学 单样本自适应域生成器迁移方法
CN117993480A (zh) * 2024-04-02 2024-05-07 湖南大学 面向设计师风格融合和隐私保护的aigc联邦学习方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523463A (zh) * 2018-11-20 2019-03-26 中山大学 一种基于条件生成对抗网络的人脸老化方法
CN109829353A (zh) * 2018-11-21 2019-05-31 东南大学 一种基于空间约束的人脸图像风格化方法
CN111325664A (zh) * 2020-02-27 2020-06-23 Oppo广东移动通信有限公司 风格迁移方法、装置、存储介质及电子设备
CN112017301A (zh) * 2020-07-24 2020-12-01 武汉纺织大学 用于服装图像特定相关区域的风格迁移模型及方法
CN112132167A (zh) * 2019-06-24 2020-12-25 商汤集团有限公司 图像生成和神经网络训练方法、装置、设备和介质
CN112766079A (zh) * 2020-12-31 2021-05-07 北京航空航天大学 一种基于内容风格分离的无监督图像到图像翻译方法
CN112861805A (zh) * 2021-03-17 2021-05-28 中山大学 一种基于内容特征和风格特征的人脸图像生成方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112419328B (zh) * 2019-08-22 2023-08-04 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109523463A (zh) * 2018-11-20 2019-03-26 中山大学 一种基于条件生成对抗网络的人脸老化方法
CN109829353A (zh) * 2018-11-21 2019-05-31 东南大学 一种基于空间约束的人脸图像风格化方法
CN112132167A (zh) * 2019-06-24 2020-12-25 商汤集团有限公司 图像生成和神经网络训练方法、装置、设备和介质
WO2020258902A1 (zh) * 2019-06-24 2020-12-30 商汤集团有限公司 图像生成和神经网络训练方法、装置、设备和介质
CN111325664A (zh) * 2020-02-27 2020-06-23 Oppo广东移动通信有限公司 风格迁移方法、装置、存储介质及电子设备
CN112017301A (zh) * 2020-07-24 2020-12-01 武汉纺织大学 用于服装图像特定相关区域的风格迁移模型及方法
CN112766079A (zh) * 2020-12-31 2021-05-07 北京航空航天大学 一种基于内容风格分离的无监督图像到图像翻译方法
CN112861805A (zh) * 2021-03-17 2021-05-28 中山大学 一种基于内容特征和风格特征的人脸图像生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
The Contextual Loss for Image Transformation with Non-Aligned Data;Roey Mechrez等;《arXiv》;20180718;第1-16页 *
Universal Style Transfer via Feature Transforms;Yijun Li等;《arXiv》;20171117;第1-11页 *
全局双边网络的语义分割算法;任天赐等;《计算机科学》;20200615;第171-175页 *
基于语义分割的图像风格迁移技术研究;李美丽等;《计算机工程与应用》;20200409;第207-213页 *

Also Published As

Publication number Publication date
CN113255813A (zh) 2021-08-13

Similar Documents

Publication Publication Date Title
CN113255813B (zh) 一种基于特征融合的多风格图像生成方法
Li et al. A closed-form solution to photorealistic image stylization
CN108830912B (zh) 一种深度特征对抗式学习的交互式灰度图像着色方法
CN110378985B (zh) 一种基于gan的动漫绘画辅助创作方法
CN108830913B (zh) 基于用户颜色引导的语义级别线稿上色方法
CN111862294B (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络装置及方法
CN110120049B (zh) 由单张图像联合估计场景深度与语义的方法
CN105374007A (zh) 融合骨架笔画和纹理特征的铅笔画生成方法和装置
CN110020681A (zh) 基于空间注意力机制的点云特征提取方法
Zhao et al. Computer-aided graphic design for virtual reality-oriented 3D animation scenes
CN110097615B (zh) 一种联合风格化和去风格化的艺术字编辑方法和***
Li et al. High-resolution network for photorealistic style transfer
CN117409140A (zh) 基于大语言模型的可控布局三维场景表征与生成方法
Ye et al. Multi-style transfer and fusion of image’s regions based on attention mechanism and instance segmentation
CN111489405A (zh) 基于条件增强生成对抗网络的人脸草图合成***
CN116485892A (zh) 一种弱纹理物体的六自由度位姿估计方法
Li et al. Freepih: Training-free painterly image harmonization with diffusion model
CN115512100A (zh) 基于多尺度特征提取与融合的点云分割方法、装置及介质
CN115018729A (zh) 一种面向内容的白盒图像增强方法
Togo et al. Text-guided style transfer-based image manipulation using multimodal generative models
Bagwari et al. An edge filter based approach of neural style transfer to the image stylization
Shen et al. Overview of Cartoon Face Generation
Liu et al. 3D Animation Graphic Enhancing Process Effect Simulation Analysis
Bagwari et al. A review: The study and analysis of neural style transfer in image
CN114881843B (zh) 一种基于深度学习的流体艺术控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant