CN113808008A - 基于Transformer构建生成对抗网络实现妆容迁移的方法 - Google Patents

基于Transformer构建生成对抗网络实现妆容迁移的方法 Download PDF

Info

Publication number
CN113808008A
CN113808008A CN202111116720.0A CN202111116720A CN113808008A CN 113808008 A CN113808008 A CN 113808008A CN 202111116720 A CN202111116720 A CN 202111116720A CN 113808008 A CN113808008 A CN 113808008A
Authority
CN
China
Prior art keywords
makeup
transformer
feature
network
pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111116720.0A
Other languages
English (en)
Inventor
陈琰
薛家骏
钟洋
郑路璐
蔡梦祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202111116720.0A priority Critical patent/CN113808008A/zh
Publication of CN113808008A publication Critical patent/CN113808008A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于Transformer构建生成对抗网络实现妆容迁移的方法,使用Swin‑Transformer block代替ResNet block来作为生成器的特征提取器,并采用与CNN网络相似分层特征表示,因而具有比传统基于ResNet的网络具有更强的风格特征提取能力。同时,为了解决在妆容迁移过程中的空间错位问题,本发明引入注意力机制,通过建立逐像素的对应关系,并通过面部解析蒙版和面部标志来实现对应面部区域特征的有效融合,进而实现有效的妆容迁移。

Description

基于Transformer构建生成对抗网络实现妆容迁移的方法
技术领域
本发明涉及计算机视觉与模式识别的技术领域,尤其涉及到基于Transformer构建生成对抗网络实现妆容迁移的方法。
背景技术
妆容迁移是指将目标图上的妆容风格直接迁移到原图上的技术。虚拟化妆软件在照片或者短视频上尝试将不同的妆容,如口红、眼影、腮红等;在人脸之间进行迁移,逐渐变得越来越受欢迎。将适合的参考图像的化妆风格自然地迁移到未化妆人脸图像上,可以广泛应用于摄影、视频、娱乐和时尚等领域。目前进行人脸妆容迁移的方法可以大致分类为传统的基于数字图像处理的方法和基于深度学习的方法。随着深度学习技术飞速发展,尤其是GANs的提出和不断创新,基于GANs的妆容迁移方法愈发具有传统数字图像处理方法所无法比拟的优势。
图像风格转换:图像风格转换是近几年来的热门话题,研究者尝试把源图像转换为各种风格的图像,例如梵高、艺术、卡通等风格,妆容迁移也是其中一种形式。传统的风格转换可以分为以下三类:(1)基于笔画的渲染;(2)基于区域的技术;(3)基于示例的渲染。随着深度学习的发展,出现了许多基于CNN的模型。然而,这些图像风格转换的方法通常是将图像风格从一个图像域转移到另一个图像域。因此,缺乏局部理解和可控性,因此不能应用于特定面部妆容的迁移。
妆容迁移:CycleGAN是其中一种广泛关注的图像迁移方法,它可以实现两张不成对图片之间的风格转换,但是它不能指定参考图片。PairedCycleGAN进一步引入了一个非对称函数来完成妆容迁移/去除的任务和循环一致性损失的变体,以支持指定妆容图片的妆容迁移。BeautyGlow使用Glow框架将隐特征解构为妆容特征和非妆容特征,然后这些特征重新组合并反转到图像域。BeautyGAN引入了双输入/双输出GAN来同时完成妆容迁移和去除,并通过化妆损失来细化局部细节。局部对抗结构网络(LADN)利用多个重叠的局部鉴别器和非对称损失函数来确保局部细节的一致性。以上方法虽然在某种意义上可以进行妆容迁移,但并没有专门处理源图像和参考图像之间的空间错位问题。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Transformer构建生成对抗网络实现妆容迁移的方法。
为实现上述目的,本发明所提供的技术方案为:
基于Transformer构建生成对抗网络实现妆容迁移的方法,包括以下步骤:
S1、在互联网上收集照片,形成图片数据集,
S2、把图片数据集中的图片分类为化妆图片和未化妆图片;
S3、对分类好的图片进行预处理;
S4、搭建基于Transformer的妆容迁移网络;
S5、预处理后的图片数据集中,未化妆的图片作为源图,化妆图片作为参考图,用于对步骤S4搭建的基于Transformer的妆容迁移网络进行训练;
S6、将训练好的基于Transformer的妆容迁移网络应用于妆容迁移。
进一步地,所述步骤S3对分类好的图片进行预处理的具体过程包括:
S3-1、裁剪出人脸区域;
S3-2、把裁剪好的人脸妆容图片进行放缩;
S3-3、使用dlib库获取人脸68个面部关键点作为面部标记;
S3-4、使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域。
进一步地,搭建的基于Transformer的妆容迁移网络包括有两个输入分支,该两个分支的结构和功能相同,但不共享权重;
每个分支均包括特征提取第一阶段和特征提取第二阶段,而每个阶段均使用两个连续的Swin-Transformer block作为特征提取器。
进一步地,所述两个连续的Swin-Transformer block,计算过程如下:
Figure BDA0003275597410000031
Figure BDA0003275597410000032
Figure BDA0003275597410000033
Figure BDA0003275597410000034
其中,WMSA为基于窗口的多头自注意力,SWMSA为滑动窗口多头自注意力机制,MLP为多层感知机,LN为层归一化层,
Figure BDA0003275597410000035
与Zl分别表示在第l块Swin-Transformer block中WMSA或SWMSA和MLP的特征输出,并且使用了残差结构。
进一步地,搭建的基于Transformer的妆容迁移网络中,损失函数设计如下:
1)对抗损失:
由于源图和参考图两个输入,因此需要使用两个判别器来判断图片是来自源图像域X还是参考图像域Y亦或是生成的图片,故对抗损失为:
Figure BDA0003275597410000036
其中DX和DY分别表示图像域X和图像域Y的判别器,G()为生成器,G(x,y)表示从X域的图像生成Y域的图像;
2)循环一致性损失:
由于训练数据是不成对的,因此使用无监督的训练方法,故而引入循环一致性损失来约束重构的图片:
Figure BDA0003275597410000037
3)感知损失:
使用VGG-16的预训练模型,在隐藏层Fl中计算源图与生成图的二范式损失,其中l表示VGG-16的第l层:
Figure BDA0003275597410000041
4)总损失:
Figure BDA0003275597410000042
其中,λadv,λcyc,λper为平衡各项损失的超参数。
进一步地,所述步骤S6将训练好的基于Transformer的妆容迁移网络应用于妆容迁移的具体过程如下:
在每个分支中,
对应的源图或参考图作为输入,而输入的图片首先分割成不重叠的小块,每一个小块视为一个token,其特征设置为原始像素RBG值的串联;
然后使用一个线性嵌入层把原始的特征值映射到任意维度C;
接着把数据传递到两个Swin-Transformer Block中进行自注意力计算;线性嵌入层与其后的两个Swin-Transformer Block构成特征提取的第一阶段;
紧跟着,为了实现特征的分层表示,在每一个patch中的小矩阵进行分组然后进行连接,再经过一个线性连接层把维度降低,此时特征空间大小减小一半,与基于卷积的下采样后的特征空间大小相同,下采样层与其后的两个Swin-Transformer Block构成特征提取的第二阶段;
再接着对特征空间进行转换,把一维的特征序列转换成二维的特征矩阵;
然后进行两个分支的特征融合;
最后经过两层反卷积上采样层,把特征融合后的特征映射反转输出为源图迁移了参考图妆容的图片。
进一步地,两个分支的特征融合的具体过程包括:
通过AMM模块计算一个空间注意力矩阵A∈RHW×HW来指定源图x的像素如何从参考图y的像素进行形变;Ai,j表示源图x的第i个像素与参考图y的第j个像素对应的注意力值;
使用68个面部标记点作为锚点来描述像素xi的位置相关特征Pi,其通过计算像素xi与68个面部标记点的坐标差得到:
Pi=[f(xi)-f(l1),f(xi)-f(l2),...,f(xi)-f(l68),
g(xi)-g(l1),g(xi)-g(l2),...,g(xi)-g(l68)]
其中,f()和g()分别表示像素点的横坐标和纵坐标,li表示第i个面部标记点,这些面部标记通过面部标记检测器获得;考虑到图片大小可能不同,把这些位置相关特征P归一化为
Figure BDA0003275597410000051
为了实现更好的妆容迁移效果,已使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域,用vi和vj分别表示原图和参考图对应像素点经过两阶特征提取并转换后项相对应的特征值,则空间注意力Ai,j表示为:
Figure BDA0003275597410000052
其中,ω为相关特征的权重,
Figure BDA0003275597410000053
Figure BDA0003275597410000054
分别表示xi和yi所在的区域,即眼睛、嘴唇和面部,分别用0,1,2表示,θ()为脉冲函数,当
Figure BDA0003275597410000055
时为1,否则为0;
用γ∈R1×H×W和β∈R1×H×W表示从参考图的特征映射Vy∈RC×H×W分别经过一个1×1卷积层获得的化妆矩阵,然后与A矩阵相乘则得到两个经过空间形变的化妆矩阵:
Figure BDA0003275597410000061
Figure BDA0003275597410000062
再把γ′和β′沿通道维度扩充,得到Γ′∈RC×H×W和B′∈RC×H×W,再应用到源图的特征映射Vx∈RC×H×W上,则得到特征融合后的特征映射V′x
V′x=Γ′Vx+B′。
与现有技术相比,本方案原理及优点如下:
本方案使用Swin-Transformer block代替ResNet block来作为生成器的特征提取器,并采用与CNN网络相似分层特征表示,因而具有比传统基于ResNet的网络具有更强的风格特征提取能力。同时,为了解决在妆容迁移过程中的空间错位问题,本方案引入注意力机制,通过建立逐像素的对应关系,并通过面部解析蒙版和面部标志来实现对应面部区域特征的有效融合,进而实现有效的妆容迁移。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的服务作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于Transformer的妆容迁移网络的结构示意图;
图2为为两个连续swin-Transformer block的网络结构示意图;
图3为AMM模块的结构示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明:
本实施例所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,包括以下步骤:
S1、在互联网上收集照片,形成图片数据集,
S2、把图片数据集中的图片分类为化妆图片和未化妆图片;
S3、对分类好的图片进行预处理,过程如下:
S3-1、裁剪出人脸区域;
S3-2、把裁剪好的人脸妆容图片进行放缩;
S3-3、使用dlib库获取人脸68个面部关键点作为面部标记;
S3-4、使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域。
S4、搭建基于Transformer的妆容迁移网络;
结构如图1所示,该基于Transformer的妆容迁移网络包括有两个输入分支,该两个分支的结构和功能相同,但不共享权重;
每个分支均包括特征提取第一阶段和特征提取第二阶段,而每个阶段均使用两个连续的Swin-Transformer block作为特征提取器,如图2所示。
两个连续的Swin-Transformer block,计算过程如下:
Figure BDA0003275597410000071
Figure BDA0003275597410000072
Figure BDA0003275597410000073
Figure BDA0003275597410000074
其中,WMSA为基于窗口的多头自注意力,SWMSA为滑动窗口多头自注意力机制,MLP为多层感知机,LN为层归一化层,
Figure BDA0003275597410000075
与Zl分别表示在第l块Swin-Transformer block中WMSA或SWMSA和MLP的特征输出,并且使用了残差结构。
而搭建的基于Transformer的妆容迁移网络中,损失函数设计如下:
1)对抗损失:
由于源图和参考图两个输入,因此需要使用两个判别器来判断图片是来自源图像域X还是参考图像域Y亦或是生成的图片,故对抗损失为:
Figure BDA0003275597410000081
其中DX和DY分别表示图像域X和图像域Y的判别器,G()为生成器,G(x,y)表示从X域的图像生成Y域的图像;
2)循环一致性损失:
由于训练数据是不成对的,因此使用无监督的训练方法,故而引入循环一致性损失来约束重构的图片:
Figure BDA0003275597410000082
3)感知损失:
使用VGG-16的预训练模型,在隐藏层Fl中计算源图与生成图的二范式损失,其中l表示VGG-16的第l层:
Figure BDA0003275597410000083
4)总损失:
Figure BDA0003275597410000084
其中,λadv,λcyc,λper为平衡各项损失的超参数。
S5、预处理后的图片数据集中,未化妆的图片作为源图,化妆图片作为参考图,用于对步骤S4搭建的基于Transformer的妆容迁移网络进行训练;
S6、将训练好的基于Transformer的妆容迁移网络应用于妆容迁移。
妆容迁移的具体过程如下:
在每个分支中,
因为Transformer源自自然语言处理领域,它的输入数据是一维的串行token,并且需要进行embedding操作,因而不能直接把二维的图片数据作为输入。为此,本实施例输入的图片首先分割成不重叠的小块,每一个小块视为一个token,其特征设置为原始像素RBG值的串联;在实现中,把小块的大小设置为4×4,因此每个patch的特征维度为4×4×3=48;
然后使用一个线性嵌入层把原始的特征值映射到任意维度C,本实施例把C设置为96;
接着把数据传递到两个Swin-Transformer Block中进行自注意力计算;线性嵌入层与其后的两个Swin-Transformer Block构成特征提取的第一阶段;此时特征空间为
Figure BDA0003275597410000091
为了实现特征的分层表示,即随着网络层数的加深token数量减少而维度增大,在每一个patch中2×2的小矩阵进行分组然后进行连接,则维度变成4C,token数量变为
Figure BDA0003275597410000092
再经过一个线性连接层把维度降为2C,此时特征空间大小减小一半,为
Figure BDA0003275597410000093
与基于卷积的下采样后的特征空间大小相同,下采样层与其后的两个Swin-Transformer Block构成特征提取的第二阶段;
再接着对特征空间进行转换,把一维的特征序列转换成二维的特征矩阵,然后进行两个分支的特征融合;
两个分支的特征融合的具体过程包括:
由于源图片和参考图片的姿势和表情可能会存在较大的差异,因此通过前面步骤获得的两个输入分支的特征会存在空间错位。
为此,本实施例通过如图3所示的AMM模块计算一个空间注意力矩阵A∈RHW×HW来指定源图x的像素如何从参考图y的像素进行形变;Ai,j表示源图x的第i个像素与参考图y的第j个像素对应的注意力值;
使用68个面部标记点作为锚点来描述像素xi的位置相关特征Pi,其通过计算像素xi与68个面部标记点的坐标差得到:
Pi=[f(xi)-f(l1),f(xi)-f(l2),...,f(xi)-f(l68),
g(xi)-g(l1),g(xi)-g(l2),...,g(xi)-g(l68)]
其中,f()和g()分别表示像素点的横坐标和纵坐标,li表示第i个面部标记点,这些面部标记通过面部标记检测器获得;考虑到图片大小可能不同,把这些位置相关特征P归一化为
Figure BDA0003275597410000107
为了实现更好的妆容迁移效果,已使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域,用vi和vj分别表示原图和参考图对应像素点经过两阶特征提取并转换后项相对应的特征值,则空间注意力Ai,j表示为:
Figure BDA0003275597410000101
其中,ω为相关特征的权重,
Figure BDA0003275597410000102
Figure BDA0003275597410000103
分别表示xi和yi所在的区域,即眼睛、嘴唇和面部,分别用0,1,2表示,θ()为脉冲函数,当
Figure BDA0003275597410000104
时为1,否则为0;
用γ∈R1×H×W和β∈R1×H×W表示从参考图的特征映射Vy∈RC×H×W分别经过一个1×1卷积层获得的化妆矩阵,然后与A矩阵相乘则得到两个经过空间形变的化妆矩阵:
Figure BDA0003275597410000105
Figure BDA0003275597410000106
再把γ′和β′沿通道维度扩充,得到Γ′∈RC×H×W和B′∈RC×H×W,再应用到源图的特征映射Vx∈RC×H×W上,则得到特征融合后的特征映射V′x
V′x=Γ′Vx+B′。
以上所述之实施例子只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (7)

1.基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,包括以下步骤:
S1、在互联网上收集照片,形成图片数据集,
S2、把图片数据集中的图片分类为化妆图片和未化妆图片;
S3、对分类好的图片进行预处理;
S4、搭建基于Transformer的妆容迁移网络;
S5、预处理后的图片数据集中,未化妆的图片作为源图,化妆图片作为参考图,用于对步骤S4搭建的基于Transformer的妆容迁移网络进行训练;
S6、将训练好的基于Transformer的妆容迁移网络应用于妆容迁移。
2.根据权利要求1所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,所述步骤S3对分类好的图片进行预处理的具体过程包括:
S3-1、裁剪出人脸区域;
S3-2、把裁剪好的人脸妆容图片进行放缩;
S3-3、使用dlib库获取人脸68个面部关键点作为面部标记;
S3-4、使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域。
3.根据权利要求2所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,搭建的基于Transformer的妆容迁移网络包括有两个输入分支,该两个分支的结构和功能相同,但不共享权重;
每个分支均包括特征提取第一阶段和特征提取第二阶段,而每个阶段均使用两个连续的Swin-Transformer block作为特征提取器。
4.根据权利要求3所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,所述两个连续的Swin-Transformer block,计算过程如下:
Figure FDA0003275597400000021
Figure FDA0003275597400000022
Figure FDA0003275597400000023
Figure FDA0003275597400000024
其中,WMSA为基于窗口的多头自注意力,SWMSA为滑动窗口多头自注意力机制,MLP为多层感知机,LN为层归一化层,
Figure FDA0003275597400000025
与Zl分别表示在第l块Swin-Transformer block中WMSA或SWMSA和MLP的特征输出,并且使用了残差结构。
5.根据权利要求4所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,搭建的基于Transformer的妆容迁移网络中,损失函数设计如下:
1)对抗损失:
由于源图和参考图两个输入,因此需要使用两个判别器来判断图片是来自源图像域X还是参考图像域Y亦或是生成的图片,故对抗损失为:
Figure FDA0003275597400000026
Figure FDA0003275597400000027
其中DX和DY分别表示图像域X和图像域Y的判别器,G()为生成器,G(x,y)表示从X域的图像生成Y域的图像;
2)循环一致性损失:
由于训练数据是不成对的,因此使用无监督的训练方法,故而引入循环一致性损失来约束重构的图片:
Figure FDA0003275597400000028
3)感知损失:
使用VGG-16的预训练模型,在隐藏层Fl中计算源图与生成图的二范式损失,其中l表示VGG-16的第l层:
Figure FDA0003275597400000031
4)总损失:
Figure FDA0003275597400000032
Figure FDA0003275597400000033
其中,λadv,λcyc,λper为平衡各项损失的超参数。
6.根据权利要求5所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,所述步骤S6将训练好的基于Transformer的妆容迁移网络应用于妆容迁移的具体过程如下:
在每个分支中,
对应的源图或参考图作为输入,而输入的图片首先分割成不重叠的小块,每一个小块视为一个token,其特征设置为原始像素RBG值的串联;
然后使用一个线性嵌入层把原始的特征值映射到任意维度C;
接着把数据传递到两个Swin-Transformer Block中进行自注意力计算;线性嵌入层与其后的两个Swin-Transformer Block构成特征提取的第一阶段;
紧跟着,为了实现特征的分层表示,在每一个patch中的小矩阵进行分组然后进行连接,再经过一个线性连接层把维度降低,此时特征空间大小减小一半,与基于卷积的下采样后的特征空间大小相同,下采样层与其后的两个Swin-Transformer Block构成特征提取的第二阶段;
再接着对特征空间进行转换,把一维的特征序列转换成二维的特征矩阵;
然后进行两个分支的特征融合;
最后经过两层反卷积上采样层,把特征融合后的特征映射反转输出为源图迁移了参考图妆容的图片。
7.根据权利要求6所述的基于Transformer构建生成对抗网络实现妆容迁移的方法,其特征在于,两个分支的特征融合的具体过程包括:
通过AMM模块计算一个空间注意力矩阵A∈RHW×HW来指定源图x的像素如何从参考图y的像素进行形变;Ai,j表示源图x的第i个像素与参考图y的第j个像素对应的注意力值;
使用68个面部标记点作为锚点来描述像素xi的位置相关特征Pi,其通过计算像素xi与68个面部标记点的坐标差得到:
Pi=[f(xi)-f(l1),f(xi)-f(l2),...,f(xi)-f(l68),g(xi)-g(l1),g(xi)-g(l2),...,g(xi)-g(l68)]
其中,f()和g()分别表示像素点的横坐标和纵坐标,li表示第i个面部标记点,这些面部标记通过面部标记检测器获得;考虑到图片大小可能不同,把这些位置相关特征P归一化为
Figure FDA0003275597400000041
为了实现更好的妆容迁移效果,已使用BiSeNet语义分割网络把人脸分割成眼睛、嘴唇和面部三个区域,用vi和vj分别表示原图和参考图对应像素点经过两阶特征提取并转换后项相对应的特征值,则空间注意力Ai,j表示为:
Figure FDA0003275597400000042
其中,ω为相关特征的权重,
Figure FDA0003275597400000043
Figure FDA0003275597400000044
分别表示xi和yj所在的区域,即眼睛、嘴唇和面部,分别用0,1,2表示,θ()为脉冲函数,当
Figure FDA0003275597400000045
时为1,否则为0;
用γ∈R1×H×W和β∈R1×H×W表示从参考图的特征映射Vy∈RC×H×W分别经过一个1×1卷积层获得的化妆矩阵,然后与A矩阵相乘则得到两个经过空间形变的化妆矩阵:
Figure FDA0003275597400000051
Figure FDA0003275597400000052
再把γ′和β′沿通道维度扩充,得到Γ′∈RC×H×W和B′∈RC×H×W,再应用到源图的特征映射Vx∈RC×H×W上,则得到特征融合后的特征映射V′x
V′x=Γ′Vx+B′。
CN202111116720.0A 2021-09-23 2021-09-23 基于Transformer构建生成对抗网络实现妆容迁移的方法 Pending CN113808008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111116720.0A CN113808008A (zh) 2021-09-23 2021-09-23 基于Transformer构建生成对抗网络实现妆容迁移的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111116720.0A CN113808008A (zh) 2021-09-23 2021-09-23 基于Transformer构建生成对抗网络实现妆容迁移的方法

Publications (1)

Publication Number Publication Date
CN113808008A true CN113808008A (zh) 2021-12-17

Family

ID=78896457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111116720.0A Pending CN113808008A (zh) 2021-09-23 2021-09-23 基于Transformer构建生成对抗网络实现妆容迁移的方法

Country Status (1)

Country Link
CN (1) CN113808008A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187293A (zh) * 2022-02-15 2022-03-15 四川大学 基于注意力机制和集成配准的口腔腭部软硬组织分割方法
CN114596608A (zh) * 2022-01-19 2022-06-07 中国科学院自动化研究所 一种基于多线索的双流视频人脸伪造检测方法及***
CN114820286A (zh) * 2022-02-08 2022-07-29 陕西师范大学 自适应特征融合恢复及混合妆容迁移重组方法
CN114998970A (zh) * 2022-06-28 2022-09-02 西北大学 一种基于多尺度密集特征融合的妆容迁移方法
CN115936979A (zh) * 2023-01-09 2023-04-07 珠海金智维信息科技有限公司 一种端到端的文本图像合成和识别的方法及***
CN117036157A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、***、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853119A (zh) * 2019-09-15 2020-02-28 北京航空航天大学 一种鲁棒的基于参考图片的妆容迁移方法
CN111640057A (zh) * 2020-05-25 2020-09-08 武汉理工大学 基于隐藏变量解耦的人脸图像局部特征迁移网络及方法
CN112508771A (zh) * 2020-09-15 2021-03-16 中国石油大学(华东) 一种基于深度生成网络的面部妆容迁移方法
CN112949605A (zh) * 2021-04-13 2021-06-11 杭州欣禾圣世科技有限公司 基于语义分割的人脸上妆方法和***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110853119A (zh) * 2019-09-15 2020-02-28 北京航空航天大学 一种鲁棒的基于参考图片的妆容迁移方法
CN111640057A (zh) * 2020-05-25 2020-09-08 武汉理工大学 基于隐藏变量解耦的人脸图像局部特征迁移网络及方法
CN112508771A (zh) * 2020-09-15 2021-03-16 中国石油大学(华东) 一种基于深度生成网络的面部妆容迁移方法
CN112949605A (zh) * 2021-04-13 2021-06-11 杭州欣禾圣世科技有限公司 基于语义分割的人脸上妆方法和***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZE LIU等: "Swin Transformer: Hierarchical Vision Transformer using ShiftedWindows", pages 1, Retrieved from the Internet <URL:https://arxiv.org/abs/2104.02894> *
ZHAOYI WAN等: "Facial Attribute Transformers for Precise and Robust Makeup Transfer", pages 1, Retrieved from the Internet <URL:https://arxiv.org/abs/2103.14030> *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114596608A (zh) * 2022-01-19 2022-06-07 中国科学院自动化研究所 一种基于多线索的双流视频人脸伪造检测方法及***
CN114820286A (zh) * 2022-02-08 2022-07-29 陕西师范大学 自适应特征融合恢复及混合妆容迁移重组方法
CN114820286B (zh) * 2022-02-08 2024-04-12 陕西师范大学 自适应特征融合恢复及混合妆容迁移重组方法
CN114187293A (zh) * 2022-02-15 2022-03-15 四川大学 基于注意力机制和集成配准的口腔腭部软硬组织分割方法
CN114187293B (zh) * 2022-02-15 2022-06-03 四川大学 基于注意力机制和集成配准的口腔腭部软硬组织分割方法
CN114998970A (zh) * 2022-06-28 2022-09-02 西北大学 一种基于多尺度密集特征融合的妆容迁移方法
CN114998970B (zh) * 2022-06-28 2024-03-12 西北大学 一种基于多尺度密集特征融合的妆容迁移方法
CN115936979A (zh) * 2023-01-09 2023-04-07 珠海金智维信息科技有限公司 一种端到端的文本图像合成和识别的方法及***
CN117036157A (zh) * 2023-10-09 2023-11-10 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、***、设备及介质
CN117036157B (zh) * 2023-10-09 2024-02-20 易方信息科技股份有限公司 可编辑的仿真数字人形象设计方法、***、设备及介质

Similar Documents

Publication Publication Date Title
CN113808008A (zh) 基于Transformer构建生成对抗网络实现妆容迁移的方法
Anwar et al. Image colorization: A survey and dataset
CN111275618B (zh) 一种基于双支感知的深度图超分辨率重建网络构建方法
CN111339903B (zh) 一种多人人体姿态估计方法
CN107122826B (zh) 用于卷积神经网络的处理方法和***、和存储介质
CN108363973B (zh) 一种无约束的3d表情迁移方法
CN109359527B (zh) 基于神经网络的头发区域提取方法及***
Li et al. Globally and locally semantic colorization via exemplar-based broad-GAN
CN112101262B (zh) 一种多特征融合手语识别方法及网络模型
CN111862294A (zh) 基于ArcGAN网络的手绘3D建筑自动上色网络结构及方法
CN111462149A (zh) 一种基于视觉显著性的实例人体解析方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN112200818B (zh) 基于图像的着装区域分割和着装替换方法、装置及设备
CN109977912A (zh) 视频人体关键点检测方法、装置、计算机设备和存储介质
CN111681177A (zh) 视频处理方法及装置、计算机可读存储介质、电子设备
CN113808005A (zh) 一种基于视频驱动的人脸姿态迁移方法及装置
Bai et al. Semantic-sparse colorization network for deep exemplar-based colorization
CN118037551A (zh) 基于双流自注意力聚合的矿井图像超分辨率重建方法
Ye et al. Hybrid scheme of image’s regional colorization using mask r-cnn and Poisson editing
CN116469172A (zh) 一种多时间尺度下的骨骼行为识别视频帧提取方法及***
CN113780305B (zh) 一种基于两种线索交互的显著性目标检测方法
CN115359088A (zh) 一种图像处理方法及装置
CN111489361B (zh) 基于孪生网络的深层特征聚合的实时视觉目标跟踪方法
Li et al. A review of image colourisation
CN114529450A (zh) 基于改进深度迭代协作网络的人脸图像超分辨方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination