CN111160138A - 一种基于卷积神经网络的快速人脸交换方法 - Google Patents

一种基于卷积神经网络的快速人脸交换方法 Download PDF

Info

Publication number
CN111160138A
CN111160138A CN201911277784.1A CN201911277784A CN111160138A CN 111160138 A CN111160138 A CN 111160138A CN 201911277784 A CN201911277784 A CN 201911277784A CN 111160138 A CN111160138 A CN 111160138A
Authority
CN
China
Prior art keywords
image
network
style
face
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911277784.1A
Other languages
English (en)
Inventor
颜成钢
唐江平
孙垚棋
张继勇
张勇东
肖芒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201911277784.1A priority Critical patent/CN111160138A/zh
Publication of CN111160138A publication Critical patent/CN111160138A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/02Affine transformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration using two or more images, e.g. averaging or subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于卷积神经网络的快速人脸交换方法。本发明提出了一种前馈神经网络,该网络可以在人脸替换图像中实现高质量的逼真感。关键的部分在于,本发明实现的方法不同于以往风格转换的方法,使用多图像风格损失,从而近似于一种风格的多种描述,而不是使用单一的参考点。此外,进一步对损失函数进行扩展,以明确地匹配图像之间的光照条件。本发明可以实现全自动的实时人脸交换效果,可以处理特定类型的人脸替换,保持图像的姿势、脸部表情和光照强度等不发生改变。

Description

一种基于卷积神经网络的快速人脸交换方法
技术领域
本发明属于计算机多媒体技术领域,具体涉及一种基于卷积神经网络的快速人脸交换方法。
背景技术
人脸交换在很多场景下都有着实际应用,其中包括隐私保护,肖像的外貌转换,视频合成以及其它具有创造性的应用程序。Bitouk等人基于相貌和姿势的相似程度,从一个大数据集中选取最接近的另一个人脸,从而实现自动代替输入图像中的人脸。该方法将脸部的眼睛、鼻子和嘴巴进行了替换,并进一步调整颜色和光照,以更好的将两张人脸进行混合。这个设计存在两个主要的缺陷:没有对输出特性加以控制和输入人脸的表情将被改变。Dale等人的工作重点是在视频中的人脸替换,视频中可以获得两个扮演类似角色受试者的镜头。与静态图像相比,序列数据将带来多方面的额外困难:时间对齐、跟踪面部表现和确保镜头的时间一致性。此外,该***非常复杂并且仍然需要大量的时间和人工指导。Suwajanakorn等人提出了一种值得注意的方法,试图使用另一张脸控制一张脸的表情。其核心思想是对从大量图像中选取的替换人脸和输入图像的人脸建立3D模型。也就是说,它在几百张图像可利用的情况下表现较好,但不能应用于单个图像。上述方法基于复合多阶段***,结合人脸重建、跟踪、对齐和图像合成等算法。这些***取得了令人信服的结果,有时与真实照片难以区分。然而,它们仍然存在一些未解决的问题。
本发明考虑这样一种情况:给定任意一个人物A的单个输入图像,使用另一个人物B替换A的特性,同时保持输入图像的姿势、面部表情、凝视方向、发型和照明的完好无损。本发明提出一种新颖的解决方案,受启发于艺术方面风格转换的最近进展,其目标是将一个图像的语义内容呈现为另一个图像的风格。Gatys等人的基础工作将内容和风格的概念定义为用于目标识别的卷积神经网络中特征空间的函数。风格化通过使用一个相当慢并消耗内存严重的优化进程进行实施。它逐渐地改变一个图像的像素值,直到其内容和风格的统计值与给定内容图像和给定风格图像的像素值分别匹配为止。
Ulyanov等人和Johnson等人针对上述优化方法存在的缺陷,提出了一种替代方案。他们训练前馈神经网络将任何图像转换成对应风格化的版本,从而将开销巨大的计算转移到网络的训练阶段。在测试时,风格化需要通过网络进行一次向前传递,这可以实时完成。这种改进的代价是必须为每种样式训练单独的网络。
虽然神经网络用于风格转换在许多艺术作品上取得了显著的效果,但是该方法却不是特别适合照片级的风格转换。出现这种情形的原因在于,被用作表示风格的Gram矩阵无法捕获有关图像空间布局的足够信息,这将导致不自然的畸变,这种畸变通常在艺术图像上不太引起注意,但在真实的图像方面却不尽相同。Li和Wand通过将基于相关性的风格损失替换为基于块的损失来更好地保留局部结构,从而缓解了这个问题。他们的结果首次表明,使用风格转换技术可以实现照片中的人脸修改,并达到逼真自然的效果。然而,这个方向就像Gatys的工作一样,没有进一步进行探索,两者都依赖于昂贵的优化。后来基于块的损失应用于前馈神经网络仅仅只是用于探索纹理合成和艺术方面的风格转换。
本发明在Li和Wand工作的基础上又向前迈进了一步:提出了一种前馈神经网络,该网络可以在人脸替换图像中实现高质量的逼真感。关键的部分在于,本发明实现的方法不同于以往风格转换的方法,使用多图像风格损失,从而近似于一种风格的多种描述,而不是使用单一的参考点。此外,进一步对损失函数进行扩展,以明确地匹配图像之间的光照条件。本发明涉及方法的主要需求来源于目标图像的数据集合,通常公众人物的图像在网络上随处可见,能够非常容易地获取对应的数据集合。
由于本发明的人脸交换方法比较独特,结果看起来不同于那些使用传统计算机视觉技术或图像编辑软件获得的结果。虽然很难与专门从事这项工作的艺术家相比较,但本发明的结果表明,快速和自动化的方法,实现人为水平的表现能力完全是可能的。
发明内容
针对现有技术中存在的问题,本发明提供一种基于卷积神经网络的快速人脸交换方法。
一种基于卷积神经网络的快速人脸交换方法,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点。
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作。
原图像即输入图像x,目标图像即风格图像y。
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本。转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作。每个分支采用全零填充的卷积网络,进行线性矫正。分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数。对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构。输出图像
Figure BDA0002313702810000031
从具有最高分辨率的分支获取。训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点。通过该方法,能够实现更高分辨率,而不需要重新训练整个模型。
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合。
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像
Figure BDA00023137028100000412
使得内容和风格的损失共同最小化。损失在19层VGG网络标准化版本的特征空间中有所定义。在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能。本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果。具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x)。在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W。
对于VGG网络的第l层,内容损失函数表达式如下:
Figure BDA0002313702810000041
式中,|Φl(x)|=ClHlWll(x)的维度为Cl×Hl×Wl
Figure BDA0002313702810000042
对应为输出图像
Figure BDA0002313702810000043
在第l层的VGG表达式。
总内容损失函数表示式如下:
Figure BDA0002313702810000044
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环
Figure BDA0002313702810000045
中Hl×Wl可能位置生成的所有块的集合,记为
Figure BDA0002313702810000046
在对应块中每个点周围抽取一个k×k的平方邻域,
Figure BDA0002313702810000047
中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块
Figure BDA0002313702810000048
的维数为Cl×k×k。对于来自
Figure BDA0002313702810000049
的每一个块即
Figure BDA00023137028100000410
块集合中的元素,
Figure BDA00023137028100000411
需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离。所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN}。这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用。采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
Figure BDA0002313702810000051
式中,u,v泛指任意两个矩阵。
风格损失函数计算公式如下:
Figure BDA0002313702810000052
式中,NN(i)为每个块对应的风格图像。本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下。
Figure BDA0002313702810000053
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像。每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情。VGG多层风格损失计算公式如下:
Figure BDA0002313702810000054
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像
Figure BDA0002313702810000055
中的问题。为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达。当特征空间呈现光照条件差异性时,这种方法将起到较好的效果。因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务。
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间。该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件。这对图像往往姿势上保持一致。本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像。
在光照网络的最后一层,将x的特征表示记为Γ(x),并引入式(7)的损失函数,该函数试图防止输入图像x与生成图像
Figure BDA0002313702810000061
具有不同的光照条件。
Figure BDA0002313702810000062
和x都是单通道亮度图像。
Figure BDA0002313702810000063
对空间平滑进行正则化,公式如下。
Figure BDA0002313702810000064
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示。
Figure BDA0002313702810000065
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像集Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
本发明有益效果如下:
1、使用深度神经网络可以实现全自动的实时人脸交换效果
2、本发明使用神经网络的风格转换可以生成真实的人脸图像
3、该方法可以处理特定类型的人脸替换,保持图像的姿势、脸部表情和光照强度等不发生改变。
4、使用前置反馈神经网络有很多优点:易于实现,易于添加新的特性,控制效果强度的能力或实现看上去结果更加自然的的潜力。
附图说明
图1为本发明方法的***流程图;
图2为本发明128×128分辨率训练网络。
具体实施方式
下面结合具体实施方式对本发明进行详细的说明。
一种基于卷积神经网络的快速人脸交换方法,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点。
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作。
原图像即输入图像x,目标图像即风格图像y。
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本。转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作。每个分支采用全零填充的卷积网络,进行线性矫正。分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数。对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构。输出图像
Figure BDA0002313702810000072
从具有最高分辨率的分支获取。训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点。通过该方法,能够实现更高分辨率,而不需要重新训练整个模型。
图2为本发明128×128分辨率训练网络。
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合。
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像
Figure BDA0002313702810000071
使得内容和风格的损失共同最小化。损失在19层VGG网络标准化版本的特征空间中有所定义。在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能。本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果。具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x)。在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W。
对于VGG网络的第l层,内容损失函数表达式如下:
Figure BDA0002313702810000081
式中,|Φl(x)|=ClHlWll(x)的维度为Cl×Hl×Wl
Figure BDA0002313702810000082
对应为输出图像
Figure BDA0002313702810000083
在第l层的VGG表达式。
总内容损失函数表示式如下:
Figure BDA0002313702810000084
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环
Figure BDA0002313702810000085
中Hl×Wl可能位置生成的所有块的集合,记为
Figure BDA0002313702810000086
在对应块中每个点周围抽取一个k×k的平方邻域,
Figure BDA0002313702810000087
中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块
Figure BDA0002313702810000088
的维数为Cl×k×k。对于来自
Figure BDA0002313702810000089
的每一个块即
Figure BDA00023137028100000810
块集合中的元素,
Figure BDA00023137028100000811
需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离。所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN}。这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用。采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
Figure BDA0002313702810000091
式中,u,v泛指任意两个矩阵。
风格损失函数计算公式如下:
Figure BDA0002313702810000092
式中,NN(i)为每个块对应的风格图像。本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下。
Figure BDA0002313702810000093
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像。每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情。VGG多层风格损失计算公式如下:
Figure BDA0002313702810000094
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像
Figure BDA0002313702810000095
中的问题。为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达。当特征空间呈现光照条件差异性时,这种方法将起到较好的效果。因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务。
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间。该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件。这对图像往往姿势上保持一致。本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像。
在光照网络的最后一层,将x的特征表示记为Γ(x),并引入式(7)的损失函数,该函数试图防止输入图像x与生成图像
Figure BDA0002313702810000101
具有不同的光照条件。
Figure BDA0002313702810000102
和x都是单通道亮度图像。
Figure BDA0002313702810000103
对空间平滑进行正则化,公式如下。
Figure BDA0002313702810000104
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示。
Figure BDA0002313702810000105
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
图1为本发明方法的***流程图。
实施例
本发明训练通过训练转换网络,用以表现与刘德华交换人脸的效果,在网络上收集了共计256张不同姿势和面部表情的照片。为了进一步增加风格图像的数量,每个图像经过水平翻转。使用CelebA数据集作为训练的内容图像来源,其中包含了200000张名人的照片。
网络的训练分两个阶段进行。首先,通过训练多尺寸结构网络,来处理128×128图像。最小化式(9)给出的目标函数,其中
Figure BDA0002313702810000106
使用光照网络进行计算,光照网络同样在128×128输入图像上训练。在式(9)中,令β=10-22使得
Figure BDA0002313702810000107
与内容和风格损失具有可比较性。对于总变化损失,选择γ=0.3。
使用Adam训练转换网络,进行一万次迭代,16为一个批次,在Tesla M40 GPU上花费的时间为2.5小时(由Theano和Lasagne实现得出的数据)。权重进行正交初始化。按照手动学习率计划进行训练的过程中,学习率从0.001降低至0.0001。
关于风格转换具体细节,本发明使用下列设置。风格损失和内容损失分别使用VGG的{relu3_1,relu4_1}层和{relu4_2}层进行计算。对于风格损失,设置批次大小k=1。在训练过程中,将每一个输入图像与Nbest风格图像的集合进行匹配,其中Nbest的大小等于16。风格权重α在总目标函数中是最关键的调优参数,将α=0逐步调整到α=25直至在后面的实验中产生最好的结果。
在训练完一个128×128输入和输出模型的基础上,本发明增加一个额外分支用以处理256×256图像。在保持网络其它部分不变的情况下,对额外分支进行了优化处理。该网络的训练准则与上述网络相同,除了风格权重增加到了α=100且使用256×256输入图像对光照网络进行训练。转换网络训练花费时间为11.5小时,参数个数为2M,其中有一半以上参数用于第二阶段的训练。

Claims (1)

1.一种基于卷积神经网络的快速人脸交换方法,其特征在于,步骤如下:
步骤(1)、图像预处理
1、检测原图像和目标图像的脸部特征,使用dlib获取人脸的68个关键点;
2、通过仿射变换(旋转、缩放、平移)对目标图像的位置进行调整,使其与原图像相适应;
3、将原图像中的人脸与背景切分,方便后续仅对人脸区域进行操作;
原图像即输入图像x,目标图像即风格图像y;
步骤(2)、设计转换网络结构
转换网络本质上是前馈神经网络,用于将原人脸图像转换为目标人脸图像对应的风格化版本;转换网络是一个多尺寸结构,其多个分支对输入图像x的不同下采样版本分别进行操作;每个分支采用全零填充的卷积网络,进行线性矫正;分支通过最近邻向上采样的两倍和沿通道轴的连接组合而成的,转换网络的最后一个分支以1×1卷积和3个颜色通道结束,该转换网络适用于128×128输入图像,对应有1M参数;对于更大的输入图像,如256×256或512×512,可以通过增加额外分支的方式推断出对应的转换网络结构;输出图像
Figure FDA0002313702800000011
从具有最高分辨率的分支获取;训练128×128输入图像便于后续工作,可以将128×128分辨率训练网络作为用于更大输入图像网络的起始点;通过该方法,能够实现更高分辨率,而不需要重新训练整个模型;
本发明使用OpenCV中的无缝克隆技术将背景和生成的脸部交换图像进行融合;
步骤(3)、各个损失函数的设计
对于每一个输入图像x,本发明的目标是输出图像
Figure FDA0002313702800000012
使得内容和风格的损失共同最小化;损失在19层VGG网络标准化版本的特征空间中有所定义;在传统卷积神经网络模型基础上进行改进的VGGNet,在图像分类问题上有着更加出色的性能;本发明采用VGG19Net标准化版本特征空间中定义的损失函数,用以对输出图像质量进行评估,生成更加逼真的换脸结果;具体设计如下:
内容损失函数设计:
将输入图像x在第l层的VGG表达式定义为Φl(x);在该阶段输入图像x和风格图像y已完成图像预处理操作,图像维数均为3×H×W;
对于VGG网络的第l层,内容损失函数表达式如下:
Figure FDA0002313702800000021
式中,|Φl(x)|=ClHlWll(x)的维度为Cl×Hl×Wl
Figure FDA00023137028000000211
对应为输出图像
Figure FDA0002313702800000022
在第l层的VGG表达式;
总内容损失函数表示式如下:
Figure FDA0002313702800000023
风格损失函数设计:
为了更加有效地保留图像的局部结构,本发明采用基于块的风格损失,其过程如下:通过循环
Figure FDA0002313702800000024
中Hl×Wl可能位置生成的所有块的集合,记为
Figure FDA0002313702800000025
在对应块中每个点周围抽取一个k×k的平方邻域,
Figure FDA0002313702800000026
中包括M=(Hl-k+1)×(Wl-k+1)个神经块,其中第i个块
Figure FDA0002313702800000027
的维数为Cl×k×k;对于来自
Figure FDA00023137028000000212
的每一个块即
Figure FDA0002313702800000028
块集合中的元素,
Figure FDA0002313702800000029
需要从Y中抽取的块中找到最佳匹配的块,并最小化它们之间的距离;所述的Y为风格图像集,本发明假设给定的条件不是单个风格图像而是一个风格图像集,该集合被定义为Y={y1,…yN};这些风格图像描述了本发明中想要匹配的特性,这些特性仅在网络模型训练期间被使用;采用余弦距离dc作为误差度量,余弦距离dc计算公式如下:
Figure FDA0002313702800000031
式中,u,v泛指任意两个矩阵;
风格损失函数计算公式如下:
Figure FDA0002313702800000032
式中,NN(i)为每个块对应的风格图像;本发明只搜索同一位置的块i,贯穿于多个风格图像中,表达式如下;
Figure FDA0002313702800000033
将风格图像y的面部特征点和输入图像x的面部特征点按照欧几里得距离进行排序,采用最佳匹配Nbest<N的风格图像;每一个训练图像有一套自定义的风格图像,保持着相似的姿势和表情;VGG多层风格损失计算公式如下:
Figure FDA0002313702800000034
光照损失函数设计:
本发明通过光照变化惩罚解决输入图像x的光照条件无法保存在输出图像
Figure FDA0002313702800000035
中的问题;为了定义光照惩罚,本发明以同样的方式对风格和内容使用预训练网络的特征空间,如同使用VGG一样,对现成的VGG19Net进行扩展,补充了光照惩罚的特征空间表达;当特征空间呈现光照条件差异性时,这种方法将起到较好的效果;因为VGG被训练用于对象分类,其中光照信息不是特别相关,导致该网络不是很适合该任务;
为获得理想的光照灵敏度,构建小型的孪生卷积神经网络,在VGG19Net上扩展的一部分,增加了光照损失的特征空间;该网络本质上是一个二分器,用于区分一对图像具有相同或者不同的光照条件;这对图像往往姿势上保持一致;本发明使用Exteded Yale FaceDatabase B,该数据集包含9种姿势和64种光照条件的灰度人脸图像;
在光照网络的最后一层,将x的特征表示记为Γ(x),并引入式(7)的损失函数,该函数试图防止输入图像x与生成图像
Figure FDA0002313702800000041
具有不同的光照条件;
Figure FDA0002313702800000042
和x都是单通道亮度图像;
Figure FDA0002313702800000043
对空间平滑进行正则化,公式如下;
Figure FDA0002313702800000044
最终损失函数是之前描述各个损失函数的加权组合,如式(9)所示;
Figure FDA0002313702800000045
步骤(4)、训练网络模型
将预处理后的输入图像x和风格图像集Y输入构建好的网络模型中进行网络模型的训练,通过训练后的网络模型完成快速人脸交换。
CN201911277784.1A 2019-12-11 2019-12-11 一种基于卷积神经网络的快速人脸交换方法 Pending CN111160138A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911277784.1A CN111160138A (zh) 2019-12-11 2019-12-11 一种基于卷积神经网络的快速人脸交换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911277784.1A CN111160138A (zh) 2019-12-11 2019-12-11 一种基于卷积神经网络的快速人脸交换方法

Publications (1)

Publication Number Publication Date
CN111160138A true CN111160138A (zh) 2020-05-15

Family

ID=70556988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911277784.1A Pending CN111160138A (zh) 2019-12-11 2019-12-11 一种基于卷积神经网络的快速人脸交换方法

Country Status (1)

Country Link
CN (1) CN111160138A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184542A (zh) * 2020-07-17 2021-01-05 湖南大学 姿势导引的风格保持人体图像生成方法
CN112258388A (zh) * 2020-11-02 2021-01-22 公安部第三研究所 一种公共安全视图脱敏测试数据生成方法、***以及存储介质
CN112288621A (zh) * 2020-09-21 2021-01-29 山东师范大学 基于神经网络的图像风格迁移方法及***
CN112991484A (zh) * 2021-04-28 2021-06-18 中国科学院计算技术研究所数字经济产业研究院 智能人脸编辑方法、装置、存储介质及设备
US11222466B1 (en) 2020-09-30 2022-01-11 Disney Enterprises, Inc. Three-dimensional geometry-based models for changing facial identities in video frames and images
WO2022083200A1 (zh) * 2020-10-21 2022-04-28 北京市商汤科技开发有限公司 图像处理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118024A (zh) * 2015-09-14 2015-12-02 北京中科慧眼科技有限公司 人脸交换方法
CN108171649A (zh) * 2017-12-08 2018-06-15 广东工业大学 一种保持焦点信息的图像风格化方法
CN109492540A (zh) * 2018-10-18 2019-03-19 北京达佳互联信息技术有限公司 一种图像中的人脸交换方法、装置及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105118024A (zh) * 2015-09-14 2015-12-02 北京中科慧眼科技有限公司 人脸交换方法
CN108171649A (zh) * 2017-12-08 2018-06-15 广东工业大学 一种保持焦点信息的图像风格化方法
CN109492540A (zh) * 2018-10-18 2019-03-19 北京达佳互联信息技术有限公司 一种图像中的人脸交换方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
IRYNA KORSHUNOVA ET AL.: "Fast Face-swap Using Convolutional Neural Networks", 《ARXIV》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184542A (zh) * 2020-07-17 2021-01-05 湖南大学 姿势导引的风格保持人体图像生成方法
CN112288621A (zh) * 2020-09-21 2021-01-29 山东师范大学 基于神经网络的图像风格迁移方法及***
US11222466B1 (en) 2020-09-30 2022-01-11 Disney Enterprises, Inc. Three-dimensional geometry-based models for changing facial identities in video frames and images
WO2022083200A1 (zh) * 2020-10-21 2022-04-28 北京市商汤科技开发有限公司 图像处理方法、装置、设备及存储介质
CN112258388A (zh) * 2020-11-02 2021-01-22 公安部第三研究所 一种公共安全视图脱敏测试数据生成方法、***以及存储介质
CN112991484A (zh) * 2021-04-28 2021-06-18 中国科学院计算技术研究所数字经济产业研究院 智能人脸编辑方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN111160138A (zh) 一种基于卷积神经网络的快速人脸交换方法
CN111080511B (zh) 一种端到端的高分辨率多特征提取的人脸交换方法
US11367239B2 (en) Textured neural avatars
CN109584325B (zh) 一种基于u型周期一致对抗网络的动漫图像的双向色彩化方法
CN112348743B (zh) 一种融合判别式网络和生成式网络的图像超分辨率方法
CN108989731B (zh) 一种提高视频空间分辨率的方法
Zhang et al. Dinet: Deformation inpainting network for realistic face visually dubbing on high resolution video
CN113222875B (zh) 一种基于色彩恒常性的图像和谐化合成方法
CN112132741A (zh) 一种人脸照片图像和素描图像的转换方法及***
CN113077545A (zh) 一种基于图卷积的从图像中重建着装人体模型的方法
Salmona et al. Deoldify: A review and implementation of an automatic colorization method
CN113112441B (zh) 基于密集网络和局部亮度遍历算子的多波段低分辨率图像同步融合方法
Zhang et al. Mutual dual-task generator with adaptive attention fusion for image inpainting
CN116934972A (zh) 一种基于双流网络的三维人体重建方法
CN116886959A (zh) 一种高效实时光流法深度学习视频插帧方法
CN116664435A (zh) 一种基于多尺度人脸解析图融入的人脸复原方法
Ren et al. Structure-aware flow generation for human body reshaping
Liu et al. Pose-guided high-resolution appearance transfer via progressive training
CN109087247A (zh) 一种对立体图像进行超分的方法
CN116152878A (zh) 图像处理方法、装置、设备与存储介质
CN114758021A (zh) 基于生成对抗网络的地表图像生成方法及***
CN114627404A (zh) 智能化视频人物替换方法、***
CN114677312A (zh) 基于深度学习的脸部视频合成方法
Wu et al. Image colorization algorithm based on self-attention network
Yang et al. Disentangled human action video generation via decoupled learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication