CN111160138A - 一种基于卷积神经网络的快速人脸交换方法 - Google Patents
一种基于卷积神经网络的快速人脸交换方法 Download PDFInfo
- Publication number
- CN111160138A CN111160138A CN201911277784.1A CN201911277784A CN111160138A CN 111160138 A CN111160138 A CN 111160138A CN 201911277784 A CN201911277784 A CN 201911277784A CN 111160138 A CN111160138 A CN 111160138A
- Authority
- CN
- China
- Prior art keywords
- image
- network
- style
- face
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000013527 convolutional neural network Methods 0.000 title claims abstract description 18
- 238000005286 illumination Methods 0.000 claims abstract description 29
- 238000006243 chemical reaction Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000008569 process Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 30
- 230000014509 gene expression Effects 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000001815 facial effect Effects 0.000 claims description 10
- 238000013461 design Methods 0.000 claims description 7
- 230000036544 posture Effects 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 5
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000010367 cloning Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 230000001537 neural effect Effects 0.000 claims description 3
- 230000035945 sensitivity Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims 1
- 230000001502 supplementing effect Effects 0.000 claims 1
- 230000008921 facial expression Effects 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/02—Affine transformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种基于卷积神经网络的快速人脸交换方法。本发明提出了一种前馈神经网络,该网络可以在人脸替换图像中实现高质量的逼真感。关键的部分在于,本发明实现的方法不同于以往风格转换的方法,使用多图像风格损失,从而近似于一种风格的多种描述,而不是使用单一的参考点。此外,进一步对损失函数进行扩展,以明确地匹配图像之间的光照条件。本发明可以实现全自动的实时人脸交换效果,可以处理特定类型的人脸替换,保持图像的姿势、脸部表情和光照强度等不发生改变。
Description
技术领域
本发明属于计算机多媒体技术领域,具体涉及一种基于卷积神经网络的快速人脸交换方法。
背景技术
人脸交换在很多场景下都有着实际应用,其中包括隐私保护,肖像的外貌转换,视频合成以及其它具有创造性的应用程序。Bitouk等人基于相貌和姿势的相似程度,从一个大数据集中选取最接近的另一个人脸,从而实现自动代替输入图像中的人脸。该方法将脸部的眼睛、鼻子和嘴巴进行了替换,并进一步调整颜色和光照,以更好的将两张人脸进行混合。这个设计存在两个主要的缺陷:没有对输出特性加以控制和输入人脸的表情将被改变。Dale等人的工作重点是在视频中的人脸替换,视频中可以获得两个扮演类似角色受试者的镜头。与静态图像相比,序列数据将带来多方面的额外困难:时间对齐、跟踪面部表现和确保镜头的时间一致性。此外,该***非常复杂并且仍然需要大量的时间和人工指导。Suwajanakorn等人提出了一种值得注意的方法,试图使用另一张脸控制一张脸的表情。其核心思想是对从大量图像中选取的替换人脸和输入图像的人脸建立3D模型。也就是说,它在几百张图像可利用的情况下表现较好,但不能应用于单个图像。上述方法基于复合多阶段***,结合人脸重建、跟踪、对齐和图像合成等算法。这些***取得了令人信服的结果,有时与真实照片难以区分。然而,它们仍然存在一些未解决的问题。
本发明考虑这样一种情况:给定任意一个人物A的单个输入图像,使用另一个人物B替换A的特性,同时保持输入图像的姿势、面部表情、凝视方向、发型和照明的完好无损。本发明提出一种新颖的解决方案,受启发于艺术方面风格转换的最近进展,其目标是将一个图像的语义内容呈现为另一个图像的风格。Gatys等人的基础工作将内容和风格的概念定义为用于目标识别的卷积神经网络中特征空间的函数。风格化通过使用一个相当慢并消耗内存严重的优化进程进行实施。它逐渐地改变一个图像的像素值,直到其内容和风格的统计值与给定内容图像和给定风格图像的像素值分别匹配为止。
Ulyanov等人和Johnson等人针对上述优化方法存在的缺陷,提出了一种替代方案。他们训练前馈神经网络将任何图像转换成对应风格化的版本,从而将开销巨大的计算转移到网络的训练阶段。在测试时,风格化需要通过网络进行一次向前传递,这可以实时完成。这种改进的代价是必须为每种样式训练单独的网络。
虽然神经网络用于风格转换在许多艺术作品上取得了显著的效果,但是该方法却不是特别适合照片级的风格转换。出现这种情形的原因在于,被用作表示风格的Gram矩阵无法捕获有关图像空间布局的足够信息,这将导致不自然的畸变,这种畸变通常在艺术图像上不太引起注意,但在真实的图像方面却不尽相同。Li和Wand通过将基于相关性的风格损失替换为基于块的损失来更好地保留局部结构,从而缓解了这个问题。他们的结果首次表明,使用风格转换技术可以实现照片中的人脸修改,并达到逼真自然的效果。然而,这个方向就像Gatys的工作一样,没有进一步进行探索,两者都依赖于昂贵的优化。后来基于块的损失应用于前馈神经网络仅仅只是用于探索纹理合成和艺术方面的风格转换。
本发明在Li和Wand工作的基础上又向前迈进了一步:提出了一种前馈神经网络,该网络可以在人脸替换图像中实现高质量的逼真感。关键的部分在于,本发明实现的方法不同于以往风格转换的方法,使用多图像风格损失,从而近似于一种风格的多种描述,而不是使用单一的参考点。此外,进一步对损失函数进行扩展,以明确地匹配图像之间的光照条件。本发明涉及方法的主要需求来源于目标图像的数据集合,通常公众人物的图像在网络上随处可见,能够非常容易地获取对应的数据集合。
由于本发明的人脸交换方法比较独特,结果看起来不同于那些使用传统计算机视觉技术或图像编辑软件获得的结果。虽然很难与专门从事这项工作的艺术家相比较,但本发明的结果表明,快速和自动化的方法,实现人为水平的表现能力完全是可能的。
发明内容
针对现有技术中存在的问题,本发明提供一种基于卷积神经网络的快速人脸交换方法。
一种基于卷积神经网络的快速人脸交换方法,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点。
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作。
原图像即输入图像x,目标图像即风格图像y。
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本。转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作。每个分支采用全零填充的卷积网络,进行线性矫正。分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数。对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构。输出图像从具有最高分辨率的分支获取。训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点。通过该方法,能够实现更高分辨率,而不需要重新训练整个模型。
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合。
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像使得内容和风格的损失共同最小化。损失在19层VGG网络标准化版本的特征空间中有所定义。在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能。本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果。具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x)。在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W。
对于VGG网络的第l层,内容损失函数表达式如下:
总内容损失函数表示式如下:
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环中Hl×Wl可能位置生成的所有块的集合,记为在对应块中每个点周围抽取一个k×k的平方邻域,中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块的维数为Cl×k×k。对于来自的每一个块即块集合中的元素,需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离。所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN}。这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用。采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
式中,u,v泛指任意两个矩阵。
风格损失函数计算公式如下:
式中,NN(i)为每个块对应的风格图像。本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下。
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像。每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情。VGG多层风格损失计算公式如下:
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像中的问题。为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达。当特征空间呈现光照条件差异性时,这种方法将起到较好的效果。因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务。
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间。该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件。这对图像往往姿势上保持一致。本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像。
对空间平滑进行正则化,公式如下。
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示。
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像集Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
本发明有益效果如下:
1、使用深度神经网络可以实现全自动的实时人脸交换效果
2、本发明使用神经网络的风格转换可以生成真实的人脸图像
3、该方法可以处理特定类型的人脸替换,保持图像的姿势、脸部表情和光照强度等不发生改变。
4、使用前置反馈神经网络有很多优点:易于实现,易于添加新的特性,控制效果强度的能力或实现看上去结果更加自然的的潜力。
附图说明
图1为本发明方法的***流程图;
图2为本发明128×128分辨率训练网络。
具体实施方式
下面结合具体实施方式对本发明进行详细的说明。
一种基于卷积神经网络的快速人脸交换方法,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点。
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作。
原图像即输入图像x,目标图像即风格图像y。
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本。转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作。每个分支采用全零填充的卷积网络,进行线性矫正。分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数。对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构。输出图像从具有最高分辨率的分支获取。训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点。通过该方法,能够实现更高分辨率,而不需要重新训练整个模型。
图2为本发明128×128分辨率训练网络。
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合。
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像使得内容和风格的损失共同最小化。损失在19层VGG网络标准化版本的特征空间中有所定义。在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能。本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果。具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x)。在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W。
对于VGG网络的第l层,内容损失函数表达式如下:
总内容损失函数表示式如下:
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环中Hl×Wl可能位置生成的所有块的集合,记为在对应块中每个点周围抽取一个k×k的平方邻域,中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块的维数为Cl×k×k。对于来自的每一个块即块集合中的元素,需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离。所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN}。这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用。采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
式中,u,v泛指任意两个矩阵。
风格损失函数计算公式如下:
式中,NN(i)为每个块对应的风格图像。本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下。
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像。每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情。VGG多层风格损失计算公式如下:
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像中的问题。为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达。当特征空间呈现光照条件差异性时,这种方法将起到较好的效果。因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务。
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间。该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件。这对图像往往姿势上保持一致。本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像。
对空间平滑进行正则化,公式如下。
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示。
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
图1为本发明方法的***流程图。
实施例
本发明训练通过训练转换网络,用以表现与刘德华交换人脸的效果,在网络上收集了共计256张不同姿势和面部表情的照片。为了进一步增加风格图像的数量,每个图像经过水平翻转。使用CelebA数据集作为训练的内容图像来源,其中包含了200000张名人的照片。
网络的训练分两个阶段进行。首先,通过训练多尺寸结构网络,来处理128×128图像。最小化式(9)给出的目标函数,其中使用光照网络进行计算,光照网络同样在128×128输入图像上训练。在式(9)中,令β=10-22使得与内容和风格损失具有可比较性。对于总变化损失,选择γ=0.3。
使用Adam训练转换网络,进行一万次迭代,16为一个批次,在Tesla M40 GPU上花费的时间为2.5小时(由Theano和Lasagne实现得出的数据)。权重进行正交初始化。按照手动学习率计划进行训练的过程中,学习率从0.001降低至0.0001。
关于风格转换具体细节,本发明使用下列设置。风格损失和内容损失分别使用VGG的{relu3_1,relu4_1}层和{relu4_2}层进行计算。对于风格损失,设置批次大小k=1。在训练过程中,将每一个输入图像与Nbest风格图像的集合进行匹配,其中Nbest的大小等于16。风格权重α在总目标函数中是最关键的调优参数,将α=0逐步调整到α=25直至在后面的实验中产生最好的结果。
在训练完一个128×128输入和输出模型的基础上,本发明增加一个额外分支用以处理256×256图像。在保持网络其它部分不变的情况下,对额外分支进行了优化处理。该网络的训练准则与上述网络相同,除了风格权重增加到了α=100且使用256×256输入图像对光照网络进行训练。转换网络训练花费时间为11.5小时,参数个数为2M,其中有一半以上参数用于第二阶段的训练。
Claims (1)
1.一种基于卷积神经网络的快速人脸交换方法,其特征在于,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点;
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作;
原图像即输入图像x,目标图像即风格图像y;
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本;转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作;每个分支采用全零填充的卷积网络,进行线性矫正;分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数;对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构;输出图像从具有最高分辨率的分支获取;训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点;通过该方法,能够实现更高分辨率,而不需要重新训练整个模型;
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合;
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像使得内容和风格的损失共同最小化;损失在19层VGG网络标准化版本的特征空间中有所定义;在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能;本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果;具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x);在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W;
对于VGG网络的第l层,内容损失函数表达式如下:
总内容损失函数表示式如下:
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环中Hl×Wl可能位置生成的所有块的集合,记为在对应块中每个点周围抽取一个k×k的平方邻域,中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块的维数为Cl×k×k;对于来自的每一个块即块集合中的元素,需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离;所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN};这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用;采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
式中,u,v泛指任意两个矩阵;
风格损失函数计算公式如下:
式中,NN(i)为每个块对应的风格图像;本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下;
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像;每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情;VGG多层风格损失计算公式如下:
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像中的问题;为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达;当特征空间呈现光照条件差异性时,这种方法将起到较好的效果;因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务;
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间;该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件;这对图像往往姿势上保持一致;本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像;
对空间平滑进行正则化,公式如下;
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示;
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像集Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277784.1A CN111160138A (zh) | 2019-12-11 | 2019-12-11 | 一种基于卷积神经网络的快速人脸交换方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911277784.1A CN111160138A (zh) | 2019-12-11 | 2019-12-11 | 一种基于卷积神经网络的快速人脸交换方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111160138A true CN111160138A (zh) | 2020-05-15 |
Family
ID=70556988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911277784.1A Pending CN111160138A (zh) | 2019-12-11 | 2019-12-11 | 一种基于卷积神经网络的快速人脸交换方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111160138A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184542A (zh) * | 2020-07-17 | 2021-01-05 | 湖南大学 | 姿势导引的风格保持人体图像生成方法 |
CN112258388A (zh) * | 2020-11-02 | 2021-01-22 | 公安部第三研究所 | 一种公共安全视图脱敏测试数据生成方法、***以及存储介质 |
CN112288621A (zh) * | 2020-09-21 | 2021-01-29 | 山东师范大学 | 基于神经网络的图像风格迁移方法及*** |
CN112991484A (zh) * | 2021-04-28 | 2021-06-18 | 中国科学院计算技术研究所数字经济产业研究院 | 智能人脸编辑方法、装置、存储介质及设备 |
US11222466B1 (en) | 2020-09-30 | 2022-01-11 | Disney Enterprises, Inc. | Three-dimensional geometry-based models for changing facial identities in video frames and images |
WO2022083200A1 (zh) * | 2020-10-21 | 2022-04-28 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118024A (zh) * | 2015-09-14 | 2015-12-02 | 北京中科慧眼科技有限公司 | 人脸交换方法 |
CN108171649A (zh) * | 2017-12-08 | 2018-06-15 | 广东工业大学 | 一种保持焦点信息的图像风格化方法 |
CN109492540A (zh) * | 2018-10-18 | 2019-03-19 | 北京达佳互联信息技术有限公司 | 一种图像中的人脸交换方法、装置及电子设备 |
-
2019
- 2019-12-11 CN CN201911277784.1A patent/CN111160138A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105118024A (zh) * | 2015-09-14 | 2015-12-02 | 北京中科慧眼科技有限公司 | 人脸交换方法 |
CN108171649A (zh) * | 2017-12-08 | 2018-06-15 | 广东工业大学 | 一种保持焦点信息的图像风格化方法 |
CN109492540A (zh) * | 2018-10-18 | 2019-03-19 | 北京达佳互联信息技术有限公司 | 一种图像中的人脸交换方法、装置及电子设备 |
Non-Patent Citations (1)
Title |
---|
IRYNA KORSHUNOVA ET AL.: "Fast Face-swap Using Convolutional Neural Networks", 《ARXIV》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112184542A (zh) * | 2020-07-17 | 2021-01-05 | 湖南大学 | 姿势导引的风格保持人体图像生成方法 |
CN112288621A (zh) * | 2020-09-21 | 2021-01-29 | 山东师范大学 | 基于神经网络的图像风格迁移方法及*** |
US11222466B1 (en) | 2020-09-30 | 2022-01-11 | Disney Enterprises, Inc. | Three-dimensional geometry-based models for changing facial identities in video frames and images |
WO2022083200A1 (zh) * | 2020-10-21 | 2022-04-28 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、设备及存储介质 |
CN112258388A (zh) * | 2020-11-02 | 2021-01-22 | 公安部第三研究所 | 一种公共安全视图脱敏测试数据生成方法、***以及存储介质 |
CN112991484A (zh) * | 2021-04-28 | 2021-06-18 | 中国科学院计算技术研究所数字经济产业研究院 | 智能人脸编辑方法、装置、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111160138A (zh) | 一种基于卷积神经网络的快速人脸交换方法 | |
CN111080511B (zh) | 一种端到端的高分辨率多特征提取的人脸交换方法 | |
US11367239B2 (en) | Textured neural avatars | |
CN109584325B (zh) | 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法 | |
CN112348743B (zh) | 一种融合判别式网络和生成式网络的图像超分辨率方法 | |
CN108989731B (zh) | 一种提高视频空间分辨率的方法 | |
Zhang et al. | Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video | |
CN113222875B (zh) | 一种基于色彩恒常性的图像和谐化合成方法 | |
CN112132741A (zh) | 一种人脸照片图像和素描图像的转换方法及*** | |
CN113077545A (zh) | 一种基于图卷积的从图像中重建着装人体模型的方法 | |
Salmona et al. | Deoldify: A review and implementation of an automatic colorization method | |
CN113112441B (zh) | 基于密集网络和局部亮度遍历算子的多波段低分辨率图像同步融合方法 | |
Zhang et al. | Mutual dual-task generator with adaptive attention fusion for image inpainting | |
CN116934972A (zh) | 一种基于双流网络的三维人体重建方法 | |
CN116886959A (zh) | 一种高效实时光流法深度学习视频插帧方法 | |
CN116664435A (zh) | 一种基于多尺度人脸解析图融入的人脸复原方法 | |
Ren et al. | Structure-aware flow generation for human body reshaping | |
Liu et al. | Pose-guided high-resolution appearance transfer via progressive training | |
CN109087247A (zh) | 一种对立体图像进行超分的方法 | |
CN116152878A (zh) | 图像处理方法、装置、设备与存储介质 | |
CN114758021A (zh) | 基于生成对抗网络的地表图像生成方法及*** | |
CN114627404A (zh) | 智能化视频人物替换方法、*** | |
CN114677312A (zh) | 基于深度学习的脸部视频合成方法 | |
Wu et al. | Image colorization algorithm based on self-attention network | |
Yang et al. | Disentangled human action video generation via decoupled learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200515 |
|
RJ01 | Rejection of invention patent application after publication |