CN112950661B - 一种基于注意力生成对抗网络人脸卡通画生成方法 - Google Patents
一种基于注意力生成对抗网络人脸卡通画生成方法 Download PDFInfo
- Publication number
- CN112950661B CN112950661B CN202110305575.4A CN202110305575A CN112950661B CN 112950661 B CN112950661 B CN 112950661B CN 202110305575 A CN202110305575 A CN 202110305575A CN 112950661 B CN112950661 B CN 112950661B
- Authority
- CN
- China
- Prior art keywords
- face
- image
- loss
- attention
- cartoon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2132—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/136—Segmentation; Edge detection involving thresholding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20092—Interactive image processing based on input by user
- G06T2207/20104—Interactive definition of region of interest [ROI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
- G06T2207/30201—Face
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Multimedia (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于注意力生成对抗网络人脸卡通画生成方法,属于生成对抗网络模型技术领域。这种人脸卡通画生成方法将人脸卡通漫画生成分为两个部分,一部分为关键点边缘检测并裁剪出人脸区域,第二部分为通过一种基于注意力生成对抗网络生成人脸卡通画。该方法通过加入新的hourglass注意力机制模块,建立基于U‑GAT‑IT方法的无监督注意力机制网络以及滤波处理使人脸轮廓特征区域的局部化限定及形状、纹理更清晰,解决了图像失真的问题,同时实现了良好的边缘轮廓过度融合。
Description
技术领域
本发明涉及生成对抗网络模型技术领域,更具体地说,本发明涉及一种基于注意力生成对抗网络人脸卡通画生成方法。
背景技术
卡通漫画是一种重要的艺术形式,它具有独特的绘画手法,卡通漫画的魅力在今天已经逐渐蔓延到世界各地,当今社会中接触卡通漫画的人们与日俱增。各个企业也逐渐开始使用卡通风格的人物或动物等作为形象代言或产品封面,也有人会为自己的社交账号专门设计个性化的卡通漫画头像。传统意义的卡通漫画头像一般采用手绘的方式,其需要花费大量的时间进行构图、描边、上色等步骤费时费力,因此价格也相对会昂贵一些,这种方式虽然可以获得最精细自然的卡通头像。如今科技迅速发展,许多个人定制软件也应运而生。人脸卡通漫画在我们日常生活中随处可见,在QQ、微信、微博、Facebook等社交媒体平台上被广泛作为头像使用。除此之外,还有许多人脸卡通漫画的表情包、贴纸在人们聊天的时候所使用。卡通漫画不仅广泛应用于人们的生活娱乐之中,还给人们带来了极大了乐趣。
传统的人脸卡通漫画生成方法中,一部分主要基于人脸五官轮廓信息生成简单的线条,但不具备特定的艺术风格;另一部分基于机器学习的方法,通过对样本进行简单的学习,建立人脸图像块与卡通漫画图像块之间的匹配关系,找到与原始图像块最为匹配的卡通图像块,再进行人脸卡通漫画的合成。这种方法虽然能够实现风格的转换,
但与真实人脸的相似程度较低,同时存在表情不自然、效果较单一的问题,并且处理步骤复杂,效率较低。而深度学习作为机器学习的一个新的分支,因为其强大的学习能力,基于深度学习的算法在性能上都有良好的改善,对图像处理领域的相关研究起到了关键性的作用,例如图像分类、图像分割、目标检测与跟踪等。除此之外,卷积神经网络通过对图像自动编码解码能够实现图像与图像的相互转换,从而能够端到端地实现图像风格的转换,这让自动生成人脸卡通漫画成为可能。但由于人脸图像的特殊性,个体与个体之间存在较大的差异性与独特性,尤其体现在人脸五官部分,因此对于人脸图像的风格转换还需要进一步的研究。另一方面,目前对于人脸卡通漫画自动生成的方法的研究不够充分,仍然停留在手动变形处理的阶段,无法实现自动化夸张处理。
基于注意力生成对抗网络人脸卡通画生成方法可以直接将真实人脸生成出卡通漫画人脸。传统的人脸风格化方法是利用图像处理的技术,通过提取人脸面部特征位置,根据所需表情从素材库中调取相应的五官贴图,进行匹配或替换生成卡通图像。在视频图像处理领域,利用非真实感渲染,通过学习特定风格的笔触特征,模拟表现人脸区域的艺术化特质。传统的人脸风格化方法是通过图像处理技术实现人脸关键特征的风格改变和迁移,从而达到美化人脸图像的目的。
发明内容
针对现有技术中出现的不足,本专利提出一种基于注意力生成对抗网络人脸卡通画生成方法。本发明的基于注意力生成对抗网络人脸
卡通画生成方法将人脸卡通漫画生成分为两个部分。第一部分为关键点边缘检测并裁剪出人脸区域。第二部分为通过一种基于注意力生成对抗网络生成人脸卡通画。实验结果证明了本发明的方法相比于现有技术在视觉和定性评估上均具有优越性。
为实现上述目的, 本发明采用的技术方案:一种基于注意力生成对抗网络人脸卡通画生成方法,包括以下步骤:
步骤1,构建人脸数据集,下载selfie2anime数据集,从Anime Planet 爬取人脸数据集,所有图像大小均调整为256×256。
步骤2,获得人脸关键特征的轮廓检测图像,输入步骤1中的人脸数据集图像,利用DLIB的HOG进行人脸关键点检测,得到人脸椭圆特征区域,通过68关键点检测方法,得到人脸特征关键点区域,采用YCrCb颜色空间Cr分量和Otsu算法阈值分割采集计算脸部区域肤色获得感兴趣区域ROI,将获得的三个区域进行并集计算得到人脸关键特征的轮廓检测图像。
步骤3,构建基于U-GAT-IT方法的无监督注意力机制网络,生成器和判别器的编码器之前、解码器之后分别增加1个hourglass模块,结合注意力模块和自适应归一化模块建立基于U-GAT-IT方法的无监督注意力机制网络,通过分类激活映射CAM模块获得注意力图以区分源域和目标域。
步骤4,以步骤2得到的人脸关键特征的轮廓检测图像作为训练数据集,使用Adam训练步骤3构建的基于U-GAT-IT方法的无监督注意力机制网络,设置参数β1=0.5,β2=0.999,采用0.0001的固定学习率、0.0001的权重衰减率训练模型,权重从零中心正态分布初始化,基本模型的标准偏差为0.02。
步骤5,输入新的图片,根据步骤2得到人脸关键特征的轮廓检测图像,输入到步骤4训练好的基于U-GAT-IT方法的无监督注意力机制网络中生成卡通生成图像。
步骤6,利用泊松融合的方法将步骤5获得的卡通生成图像与原始图片进行融合,得到目标图像。
步骤2获得人脸关键特征的轮廓检测图像包含如下步骤:
步骤21,利用DLIB的HOG特征检测器检测人脸区域,采用下式计算每个像素点的梯度,得到包围区域顶点坐标,根据面部特征去拟合额头区域,得到最小化人脸椭圆特征区域:
其中,Gx,Gy分别为原图水平方向和垂直方向的梯度,H为数字图像的像素灰度值,G(x,y)为像素点(x,y)的梯度大小,α(x,y)为像素点(x,y)的梯度方向。
步骤22,采用基于Ensemble of Regression Tress算法的人脸对齐检测人脸关键点,得到68个关键点的坐标,包含眼镜、眉毛、鼻子和嘴巴四个主要特征,取最外层27个点获得一个不规则形状,得到人脸关键点区域。
步骤23,根据肤色提取特征,采用YCrCb颜色空间将RGB图像转换到YCrCb颜色空间,提取Cr分量图像,采用Otsu算法对Cr分量图像做二值化阈值分割处理,计算脸部区域肤色获得感兴趣区域ROI;
步骤24,将步骤21、步骤22和步骤23得到的最小化人脸椭圆特征区域、人脸关键点区域和感兴趣区域ROI进行并集计算得到人脸关键特征的轮廓检测图像。
所述基于U-GAT-IT方法的无监督注意力机制网络包含生成器、判别器、四个损失函数和一个特征损失函数,
生成器包含编码器、解码器和辅助分类器,编码器之前和解码器之后分别增加一个堆叠的hourglass模块,图像进入编码器后依次经过一个下采样模块和一个残差块,得到编码后的特征图,编码后的特征图分为两路,一路通过辅助分类器,得到具有权重信息的特征图,另外一路编码后的特征图和具有权重信息的特征图相乘,得到注意力特征图,注意力特征图分为两路,一路经过一个1×1卷积和激活函数层,得到的a1,┄,an特征图通过全连接层置于解码器中;另一路注意力特征图作为解码器的输入,经过一个自适应的残差块和自适应归一化层上采样模块后得到的生成结果图输入解码器。
所述解码器的网络中引入了自适应的归一化AdaLIN函数:
其中,、/>分别为按通道的平均值和标准差,/>、/>分别为按层的平均值和标准差,/>为学习率,/>和/>分别为标准化和层标准化,γ 和 β 是由全连接层生成的参数,ρ初始化为1,/>为标准差;
所述判别器采用一个全局判别器和一个局部判别器,并将全局和局部判别结果进行连接,加入分类激活映射CAM模块对生成器得到的生成结果图进行判别。
所述四个损失函数包含对抗性损失、循环损失、身份丢失和CAM loss,并采用最小二乘GAN目标进行稳定训练。
所述对抗性损失使用Adversarial loss:
循环损失采用的是L1loss:
身份丢失采用:
CAM loss包含生成器CAM loss和鉴别器CAM loss:
生成器CAM loss采用BCE_loss:
鉴别器CAM loss采用MSE loss:
所述特征损失函数采用预先训练的Light CNN for Deep Face Recognition 网络提取人脸特征,采用256-dimension facial embeddings通过余弦距离计算相似度。
步骤6利用泊松融合法将步骤5获得的卡通生成图像与原始脸部图片进行融合,对于脸部区域不够明显的边缘部分进行滤波操作,通过调整网络卷积核大小进行脸部轮廓边缘的平滑操作保证图片平滑过度,达到扩宽过度边缘的效果,最终完成局部人脸轮廓提取区域风格化的操作。
本发明技术方案能够取得以下技术效果:这种基于注意力生成对抗网络人脸卡通画生成方法通过加入新的hourglass注意力机制模块,可以学习更通用的面部表情信息,并通过有引导的与训练可以处理更大规模的有噪声的数据,解决了上述人脸轮廓特征区域的局部化限定及形状、纹理模糊的问题。该方法通过建立基于U-GAT-IT方法的无监督注意力机制网络,通过更多的关注源图像各区域之间的不同来生成未失真的图像,解决了现有技术不同区域生成图像有失真的情况。另外,这种人脸卡通画生成方法通过滤波处理,可以实现良好的边缘轮廓过度融合,解决了人脸轮廓区域的边缘及邻近区域颜色转变的不是很好的问题。
附图说明
图1是一种基于注意力生成对抗网络人脸卡通画生成方法的流程图。
图2是一种基于注意力生成对抗网络人脸卡通画生成方法的网络模型结构。
图3是一种基于注意力生成对抗网络人脸卡通画生成方法的生成的效果图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述:以此为例对本申请做进一步的描述说明。显然,所描述的实施例仅仅是本发明中的一部分实施例,而不是全部实施例。
图1示出了一种基于注意力生成对抗网络人脸卡通画生成方法的流程图。这种基于注意力生成对抗网络人脸卡通画生成方法具体包括以下步骤:
步骤1,构建人脸数据集,数据来源均是从Anime Planet 爬取,并所有图像均调整为256×256后进行训练;
步骤2,利用DLIB的HOG进行人脸关键点检测,得到人脸区域顶点坐标,根据顶点坐标确定人脸矩形框。限定矩形区域内人脸关键点,通过68关键点检测方法,得到人脸特征关键点区域,并将人脸对齐,同时将关键点边界框按固定的比例扩张并裁剪出人脸区域;
步骤3,构建基于U-GAT-IT方法的无监督注意力机制网络,生成器和判别器的编码器之前、解码器之后分别增加1个hourglass模块,结合注意力模块和自适应归一化模块建立基于U-GAT-IT方法的无监督注意力机制网络,通过分类激活映射CAM模块获得注意力图以区分源域和目标域。
步骤4,所有模型均使用Adam进行训练,用0.0001的固定学习率训练所有模型,并使用0.0001的权重衰减率。权重从零中心正态分布初始化,基本模型的标准偏差为0.02;
步骤5,输入一张新的图片,同时采集计算脸部区域肤色获得感兴趣区(region ofinterest,ROI)。根据所得ROI区域,结合构建基于U-GAT-IT方法的无监督注意力机制网络来实现图像的转化与融合。通过与最终人脸学习 ROI 区域进行并集计算,获得局部区域内的卡通生成图像;
步骤6,最后利用泊松融合的方法将转换后的图像与原始图片进行融合。同时,对于脸部区域不够明显的区域,采用均值滤波,通过调整网络卷积核大小来进行脸部轮廓边缘的平滑操作,能够达到很好地扩宽过度边缘的效果。
进一步的,步骤1中构建人脸数据集,具体操作包括以下步骤:
步骤11,构建人脸数据集,下载selfie2anime数据集,此数据来源均是从AnimePlanet爬取,并所有图像均调整为256×256后进行训练;
进一步的,步骤2中对于人脸关键特征的轮廓检测,具体操作包括以下步骤:
步骤21,对输入的人脸数据集图像,利用DLIB的HOG特征检测器检测人脸区域,采用下式计算每个像素点的梯度:
其中,Gx,Gy分别为原图水平方向和垂直方向的梯度,H为数字图像的像素灰度值,G(x,y)为像素点(x,y)的梯度大小,α(x,y)为像素点(x,y)的梯度方向。最终得到包围区域顶点坐标,通过这2个点(包围区域顶点坐标)可以计算出中心坐标及半径。根据面部特征尽可能去拟合额头区域,得到最小化人脸椭圆特征区域。
步骤22,对输入的人脸数据集图像,基于Ensemble of Regression Tress算法进行人脸对齐,通过68关键点检测方法,得到68个关键点的坐标,包含眼镜、眉毛、鼻子、嘴巴等主要特征,取最外层27个点得到一个不规则形状,即人脸关键点区域。基于Ensemble ofRegression Tress算法通过建立一个级联的残差回归树(gradient boosting decistiontree,GBDT)使人脸的当前形状逐步回归到真实形状。每一个GBDT的每一个叶子节点上均存储着一个残差回归量,当输入落到一个节点时,就将残差加到该输入上,起到回归的目的,最终将所有残差叠加在一起,就完成了人脸对齐的目的。
其中,为第t级回归器的形状,是一个由坐标组成的向量,r t 表示当前级的回归器,I为回归器输入参数图像。更新策略采用GBDT梯度提升决策树,即每级回归器学习均是当前形状与样本形状的残差。
步骤23,对输入的人脸数据集图像,根据肤色提取特征,采用YCrCb颜色空间Cr分量和Otsu法阈值分割,将RGB图像转换到YCrCb颜色空间,提取Cr分量图像。
对YCrCb颜色空间Cr分量做自二值化阈值分割处理(Otsu算法) 计算脸部区域肤色获得感兴趣区域ROI。Otsu算法(最大类间方差法)采用的是聚类的思想,将图像的灰度数按灰度级分成2个部分,并使其灰度值差异最大,每个部分之间的灰度差异最小,通过方差的计算寻找一个合适的灰度级别进行划分。在二值化时采用Otsu算法自动选取阈值并进行二值化。Otsu算法被认为是图像分割中阈值选取的最佳算法,计算简单,不受图像亮度和对比度的影响。因此,使用类间方差最大的分割意味着错分概率最小。图像总平均灰度为:
其中,w0为分开后前景像素点数占图像的比例;u0为分开后前景像素点的平均灰度;W1为分开后背景像素点数占图像的比例;u1为分开后背景像素点的平均灰度。其中,方差的计算为:
此公式计算量较大,可简化为:
步骤24,最终将得到的3个mask(DLIB检测人脸区域得到的最小化人脸椭圆特征区域;人脸关键点区域和脸部区域肤色获得刚兴趣区ROI区域)合并,得到需要提取的图像,即:
进一步的,步骤3构建基于U-GAT-IT方法的无监督注意力机制网络,具体包含生成器、判别器和损失函数。
该构建基于U-GAT-IT方法的无监督注意力机制网络结合了注意力模块和自适应归一化模块,模型通过基于类激活器(class activation map,CAM)获得的注意力图以区分源域和目标域,引导图像在生成时,聚焦于重要区域的而忽略次要区域。生成器和判别器的编码器之前、解码器之后分别增加1个hourglass模块。加入的4个Hourglass 模块用于姿态估计,在特征提取的同时保持语义信息位置不变。该方法采用堆叠的Hourglass模块,渐进地将输入图像抽象成易于编码的形式。生成器和判别器中encoder和decoder前后的4个残差模块则用于编码特征并提取统计信息,用于后续的特征融合。
对于生成器,图像依次经过一个下采样模块和一个残差块后,得到了编码后的特征图。其分为2路,一路是通过一个辅助分类器,得到有每个特征图的权重信息,并与另外一路编码后的特征图相乘,得到有注意力的特征图。注意力特征图仍分为2路:①经过一个1×1卷积和激活函数层,得到a1,┄,an特征图。特征图则通过全连接层置于解码器中;②作为解码器的输入,经过一个自适应的残差块和自适应归一化层上采样模块后得到的生成结果输入解码器。
解码器(编码器)的网络中引入了自适应归一化AdaLIN函数,对于AdaLIN函数首先计算的是实例的标准化和层标准化
然后将和/>代入下式进行合并(γ和β通过外部传入)
为了防止超出[0,1]范围,对其进行了区间裁剪
其中,、/>和/>、/>分别为按通道、按层的平均值和标准差,为学习率,γ 和 β 是由全连接层生成的参数,/>初始化为1,/>为标准差。
判别器将全局和局部判别结果进行连接,同时,判别器中加入了分类激活映射(class activation mapping,CAM)模块。CAM对图片中的关键部分进行定位。图像通过下采样模块和残差块得到编码器特征图,经过平均池化(global average pooling)和最大池化(global max pooling)后得到依托通道数的特征向量。创建可学习参数权重,经过全连接层压缩。对于编码器特征图的每一个通道,可赋予一个权重,该权重决定了这一通道对应特征的重要性,从而实现了特征映射(feature map)的注意力机制。
本方法模型的完整目标包括4个损失函数。使用最小二乘GAN目标进行稳定训练,而不是使用Least Squares GAN。对抗性损失使用Adversarial loss匹配翻译图像与目标图像分布的差异
其中,为在区域已翻译的样本/>和真实样本y。
循环损失为了缓解模式崩溃问题,cycle-gan架构下的环一致性loss,A翻译到B,然后B翻译到A’,A和A’需要相同,loss采用的是L1loss。
身份丢失为了确保输入图像和输出图像的颜色分布相似,本文将身份一致性约束应用于生成器,即
生成器和鉴别器的CAM loss不同表现为:生成器CAM loss,采用的是BCE_loss
鉴别器CAM loss,采用的是MSE
用CAM的原因是利用辅助分类器和/>的信息,给定一个图像/>和/>了解当前状态下2个域之间的最大区别是什么。
其中,为x来自X s 的概率。令/>为编码器的第k个激活图,并且/>为(i,j)处的值。辅助分类器通过使用全局平均合并和全局最大合并,即/>进行训练,以学习第/>个特征图的权重/>。通过上述,可以计算一组域特定的注意特征图。最后,联合训练编码器、解码器、鉴别器和辅助分类器,以优化最终目标
其中,,因此,/>,其它损失函数也采用统一形式定义(/>)
在解码器后增加hourglass模块,渐进地提升特征抽象和重建能力。
增加一个特征损失函数feature loss,采用预先训练的Light CNN for DeepFace Recognition 网络提取人脸特征,256-dimension facial embeddings通过余弦距离来计算相似度。
进一步的,使用Adam进行训练,具体操作包括以下步骤:所有模型均使用Adam进行训练,β1=0.5,β2=0.999。对数据进行增强,图像大小调整为286×286,随机裁剪为256×256。我们用0.0001的固定学习率训练所有模型,并使用0.0001的权重衰减率。权重从零中心正态分布初始化,基本模型的标准偏差为0.02。
进一步的,步骤6泊松融合的方法将转换后的图像与原始图片进行融合,具体操作包括以下步骤:利用泊松融合法将转换后的图片与原始脸部图片进行融合,并对边缘部分进行滤波操作,保证图片平滑过度,最终完成局部人脸轮廓提取区域风格化的操作。
依次将人脸图像数据集输入到所构建的对抗生成网络的模型中,再训练网络,获得训练好的神经网络。由训练后的对抗生成网络的生成器输入相对应的人脸图像。
图2示出了一种基于注意力生成对抗网络人脸卡通画生成方法的网络模型结构。如图所示,该方法设计一个新颖的网络结构用于人脸卡通漫画生成,在U-GAT-IT的基础上,在生成器和判别器的编码器之前和解码器之后各增加了1个hourglass模块,渐进地提升模型特征抽象和重建能力。实验结果证明了本发明的方法相比于现有技术在视觉和定性评估上均具有优越性。
将一组人脸图像作为输入,通过步骤5和步骤6对不同的输入人脸图像进行处理,得到基于注意力生成对抗网络人脸卡通画而生成的卡通画图像。图3示出了该组图片的生成的效果图,从图3可以看出该方法不论从细节还是从形状上都得到了喜人的效果,证明了这种方法的可行性和有效性。
Claims (4)
1.一种基于注意力生成对抗网络人脸卡通画生成方法,其特征在于,包括以下步骤:
步骤1,构建人脸数据集,下载selfie2anime数据集,从Anime Planet 爬取人脸数据集,所有图像大小均调整为256×256;
步骤2,获得人脸关键特征的轮廓检测图像,输入步骤1中的人脸数据集图像,利用DLIB的HOG进行人脸关键点检测,得到人脸椭圆特征区域,通过68关键点检测方法,得到人脸特征关键点区域,采用YCrCb颜色空间Cr分量和Otsu算法阈值分割采集计算脸部区域肤色获得感兴趣区域ROI,将获得的三个区域进行并集计算得到人脸关键特征的轮廓检测图像;
步骤3,构建基于U-GAT-IT方法的无监督注意力机制网络,在生成器和判别器的编码器之前、解码器之后分别增加1个hourglass模块,结合注意力模块和自适应归一化模块建立基于U-GAT-IT方法的无监督注意力机制网络,通过分类激活映射CAM模块获得注意力图以区分源域和目标域;
步骤4,以步骤2得到的人脸关键特征的轮廓检测图像作为训练数据集,使用Adam训练步骤3构建的基于U-GAT-IT方法的无监督注意力机制网络,设置参数β1=0.5,β2=0.999,采用0.0001的固定学习率、0.0001的权重衰减率训练模型,权重从零中心正态分布初始化,基本模型的标准偏差为0.02;
步骤5,输入新的图片,根据步骤2得到人脸关键特征的轮廓检测图像,输入到步骤4训练好的基于U-GAT-IT方法的无监督注意力机制网络中生成卡通生成图像;
步骤6,利用泊松融合的方法将步骤5获得的卡通生成图像与原始图片进行融合,得到目标图像。
2.根据权利要求1所述的一种基于注意力生成对抗网络人脸卡通画生成方法,其特征在于,步骤2获得人脸关键特征的轮廓检测图像包含如下步骤:
步骤21,利用DLIB的HOG特征检测器检测人脸区域,采用下式计算每个像素点的梯度,得到包围区域顶点坐标,根据面部特征去拟合额头区域,得到最小化人脸椭圆特征区域:
其中,Gx,Gy分别为原图水平方向和垂直方向的梯度,H为数字图像的像素灰度值,G(x,y)为像素点(x,y)的梯度大小,α(x,y)为像素点(x,y)的梯度方向;
步骤22,采用基于Ensemble of Regression Tress算法的人脸对齐检测人脸关键点,得到68个关键点的坐标,包含眼镜、眉毛、鼻子和嘴巴四个主要特征,取最外层27个点获得一个不规则形状,得到人脸关键点区域;
步骤23,根据肤色提取特征,采用YCrCb颜色空间将RGB图像转换到YCrCb颜色空间,提取Cr分量图像,采用Otsu算法对Cr分量图像做二值化阈值分割处理,计算脸部区域肤色获得感兴趣区域ROI;
步骤24,将步骤21、步骤22和步骤23得到的最小化人脸椭圆特征区域、人脸关键点区域和感兴趣区域ROI进行并集计算得到人脸关键特征的轮廓检测图像。
3.根据权利要求1所述的一种基于注意力生成对抗网络人脸卡通画生成方法,其特征在于,所述基于U-GAT-IT方法的无监督注意力机制网络包含生成器、判别器、四个损失函数和一个特征损失函数,
所述生成器包含编码器、解码器和辅助分类器,编码器之前和解码器之后分别增加一个堆叠的hourglass模块,图像进入编码器后依次经过一个下采样模块和一个残差块,得到编码后的特征图,编码后的特征图分为两路,一路通过辅助分类器,得到具有权重信息的特征图,另外一路编码后的特征图和具有权重信息的特征图相乘,得到注意力特征图,注意力特征图分为两路,一路经过一个1×1卷积和激活函数层,得到的a1,┄,an特征图通过全连接层置于解码器中;另一路注意力特征图作为解码器的输入,经过一个自适应的残差块和自适应归一化层上采样模块后得到的生成结果图输入解码器;
所述解码器的网络中引入了自适应的归一化AdaLIN函数:
其中,/>、/>分别为按通道的平均值和标准差,/>、/>分别为按层的平均值和标准差,/>为学习率,/>和/>分别为标准化和层标准化,γ 和 β 是由全连接层生成的参数,/>初始化为1,/>为标准差;
所述判别器采用一个全局判别器和一个局部判别器,并将全局和局部判别结果进行连接,加入分类激活映射CAM模块对生成器得到的生成结果图进行判别;
所述四个损失函数包含对抗性损失、循环损失、身份丢失和CAM loss,并采用最小二乘GAN目标进行稳定训练,
所述对抗性损失采用Adversarial loss:
循环损失采用的是L1loss:
身份丢失采用:
CAM loss包含生成器CAM loss和鉴别器CAM loss:
生成器CAM loss采用BCE_loss:
鉴别器CAM loss采用MSE loss:
所述特征损失函数采用预先训练的Light CNN for Deep Face Recognition 网络提取人脸特征,采用256-dimension facial embeddings通过余弦距离计算相似度。
4.根据权利要求1所述的一种基于注意力生成对抗网络人脸卡通画生成方法,其特征在于,步骤6利用泊松融合法将步骤5获得的卡通生成图像与原始脸部图片进行融合,对于脸部区域不够明显的边缘部分进行滤波操作,通过调整网络卷积核大小进行脸部轮廓边缘的平滑操作保证图片平滑过度,达到扩宽过度边缘的效果,最终完成局部人脸轮廓提取区域风格化的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110305575.4A CN112950661B (zh) | 2021-03-23 | 2021-03-23 | 一种基于注意力生成对抗网络人脸卡通画生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110305575.4A CN112950661B (zh) | 2021-03-23 | 2021-03-23 | 一种基于注意力生成对抗网络人脸卡通画生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112950661A CN112950661A (zh) | 2021-06-11 |
CN112950661B true CN112950661B (zh) | 2023-07-25 |
Family
ID=76227856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110305575.4A Active CN112950661B (zh) | 2021-03-23 | 2021-03-23 | 一种基于注意力生成对抗网络人脸卡通画生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112950661B (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113706646A (zh) * | 2021-06-30 | 2021-11-26 | 酷栈(宁波)创意科技有限公司 | 用于生成山水画的数据处理方法 |
CN113345058B (zh) * | 2021-06-30 | 2022-06-10 | 杭州妙绘科技有限公司 | 漫画人脸生成方法及装置 |
CN113361495B (zh) * | 2021-07-27 | 2024-04-09 | 平安科技(深圳)有限公司 | 人脸图像相似度的计算方法、装置、设备及存储介质 |
CN113658291A (zh) * | 2021-08-17 | 2021-11-16 | 青岛鱼之乐教育科技有限公司 | 一种简笔画自动渲染方法 |
CN113838159B (zh) * | 2021-09-14 | 2023-08-04 | 上海任意门科技有限公司 | 用于生成卡通图像的方法、计算设备和存储介质 |
CN113822236A (zh) * | 2021-11-22 | 2021-12-21 | 杭州云栖智慧视通科技有限公司 | 一种基于人体语义部件的上衣颜色替换方法 |
CN114120412B (zh) * | 2021-11-29 | 2022-12-09 | 北京百度网讯科技有限公司 | 图像处理方法和装置 |
CN113870102B (zh) * | 2021-12-06 | 2022-03-08 | 深圳市大头兄弟科技有限公司 | 图像的动漫化方法、装置、设备及存储介质 |
CN115348709B (zh) * | 2022-10-18 | 2023-03-28 | 良业科技集团股份有限公司 | 适用于文旅的智慧云服务照明展示方法及*** |
CN115375601B (zh) * | 2022-10-25 | 2023-02-28 | 四川大学 | 一种基于注意力机制的解耦表达国画生成方法 |
CN116862759B (zh) * | 2023-06-19 | 2024-06-28 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于生成对抗网络的个性化肖像生成***及方法 |
CN117218302B (zh) * | 2023-11-09 | 2024-04-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于生成对抗网络的人偶模特生成算法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN111667400A (zh) * | 2020-05-30 | 2020-09-15 | 温州大学大数据与信息技术研究院 | 一种基于无监督学习的人脸轮廓特征风格化生成方法 |
CN112132922A (zh) * | 2020-09-24 | 2020-12-25 | 扬州大学 | 一种将在线课堂中的图像和视频卡通化的方法 |
-
2021
- 2021-03-23 CN CN202110305575.4A patent/CN112950661B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020168731A1 (zh) * | 2019-02-19 | 2020-08-27 | 华南理工大学 | 一种基于生成对抗机制与注意力机制的标准人脸生成方法 |
CN110929080A (zh) * | 2019-11-26 | 2020-03-27 | 西安电子科技大学 | 基于注意力和生成对抗网络的光学遥感图像检索方法 |
CN111667400A (zh) * | 2020-05-30 | 2020-09-15 | 温州大学大数据与信息技术研究院 | 一种基于无监督学习的人脸轮廓特征风格化生成方法 |
CN112132922A (zh) * | 2020-09-24 | 2020-12-25 | 扬州大学 | 一种将在线课堂中的图像和视频卡通化的方法 |
Non-Patent Citations (1)
Title |
---|
基于面部动作编码***的表情生成对抗网络;胡晓瑞;林璟怡;李东;章云;;计算机工程与应用(第18期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112950661A (zh) | 2021-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112950661B (zh) | 一种基于注意力生成对抗网络人脸卡通画生成方法 | |
CN109376582B (zh) | 一种基于生成对抗网络的交互式人脸卡通方法 | |
CN110543846B (zh) | 一种基于生成对抗网络的多姿态人脸图像正面化方法 | |
Li et al. | Anti-makeup: Learning a bi-level adversarial network for makeup-invariant face verification | |
CN111553837B (zh) | 一种基于神经风格迁移的艺术文本图像生成方法 | |
CN106504064A (zh) | 基于深度卷积神经网络的服装分类与搭配推荐方法及*** | |
CN111667400B (zh) | 一种基于无监督学习的人脸轮廓特征风格化生成方法 | |
CN111046763B (zh) | 一种人像卡通化的方法和装置 | |
CN104794693B (zh) | 一种人脸关键区域自动检测蒙版的人像优化方法 | |
CN103279936A (zh) | 基于画像的人脸伪照片自动合成及修正方法 | |
CN113807265B (zh) | 一种多样化的人脸图像合成方法及*** | |
Liu et al. | Normalized face image generation with perceptron generative adversarial networks | |
Baek et al. | Generative adversarial ensemble learning for face forensics | |
CN116310008B (zh) | 一种基于少样本学习的图像处理方法及相关设备 | |
CN106611156A (zh) | 一种自适应深度空间特征的行人识别方法和*** | |
CN116012835A (zh) | 一种基于文本分割的两阶段场景文本擦除方法 | |
Zeng et al. | Video‐driven state‐aware facial animation | |
CN111275778A (zh) | 人脸简笔画生成方法及装置 | |
CN111191549A (zh) | 一种两级人脸防伪检测方法 | |
Kakkar | Facial expression recognition with LDPP & LTP using deep belief network | |
CN115393176A (zh) | 一种人像卡通化方法、***及电子设备 | |
Satwashil et al. | English text localization and recognition from natural scene image | |
Nguyen et al. | LAWNet: A lightweight attention-based deep learning model for wrist vein verification in smartphones using RGB images | |
Li et al. | Multi-level Fisher vector aggregated completed local fractional order derivative feature vector for face recognition | |
Lin et al. | FAEC‐GAN: An unsupervised face‐to‐anime translation based on edge enhancement and coordinate attention |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |