CN108268845A

CN108268845A - 一种利用生成对抗网络合成人脸视频序列的动态转换***

Info

Publication number: CN108268845A
Application number: CN201810045782.9A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2018-01-17
Filing date: 2018-01-17
Publication date: 2018-07-10

Abstract

本发明中提出的一种利用生成对抗网络合成人脸视频序列的动态转换***，其主要内容包括：底层框架定义、***网络设置、***网络求解，其过程为，定义包含生成器与鉴别器在内的目标框架，使用预训练的递归网络生成外观压缩动态特征并通过动态通道编码器与静态特征合并输入到生成器；然后设计包含全部变量在内的最大化最小化函数，通过限定条件用三个步骤拆分求解得到***网络的最优解。本发明可以实现将一张目标图像替换到一段人脸视频序列中，并且具有原视频的动态变化性能，提供了生成对抗网络来追求最优平衡解，同时该发明在完成替换视频帧的同时更好地保持了人脸的细节信息与动态程度。

Description

一种利用生成对抗网络合成人脸视频序列的动态转换***

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种利用生成对抗网络合成人脸视频序列的动态转换***。

背景技术

在计算机视觉中，视频序列中替换人脸，尤其是替换后的人脸，能跟随原视频序列的变化而变化，成为非常具有挑战性的问题。随着智能手机的普及以及智能手机摄像头分辨率的提高，人们可以随时随地拿出手机拍照、自拍以及录制视频并且随时随地将照片或视频分享到互联网。这些高分辨率的图像与视频为人脸图像替换方面的应用提供了大量的素材。此外，人脸识别检测、遮挡定位检测、机器学习和模式识别等技术的不断完善，也为图像/视频自动人脸替换***的研究提供了充足的技术支持。而视频序列中的人脸替换、合成技术在娱乐、虚拟现实、隐私保护、视频聊天等方面具有重要的理论意义与应用价值。在娱乐经济方面，人脸替换技术相关的应用程序已经在各大手机应用市场上占据下载排行榜的前列位置，它们能给人们的娱乐生活带来乐趣，背后同时产生了巨大的经济效益，不同的产业、公司或个人为了抢占市场资源会不断地开放更贴近、更真实的相关技术；其次，人脸图像替换技术在虚拟现实技术方面具有重要地位。不同的场景中需要同样的面孔同时存在，或者模拟不同的人在同一场景中出现，例如国际视频会议、灾难逃生演练、全景技术、旅游前景点预览等场合，都会受益于人脸替换技术。此外，在人脸图像替换在备受关注的隐私保护方面有着重要的研究意义。例如采集大量公众信息时如何剔除或替换关键人物的面孔、在治安或刑事案件中涉及的无关人员的保护方面，此类隐私问题都会需要人脸替换技术来解决。然而，当前业界或学界对于此类技术尚有不足之处，例如在图像转换到视频过程中，没有保留丰富的面部表情或者细节信息，同时可能会引入噪声，造成图像的扭曲。

本发明提出了本发明中提出的一种利用生成对抗网络合成人脸视频序列的动态转换***，首先定义包含生成器与鉴别器在内的目标框架，使用预训练的递归网络生成外观压缩动态特征并通过动态通道编码器与静态特征合并输入到生成器；然后设计包含全部变量在内的最大化最小化函数，通过限定条件用三个步骤拆分求解得到***网络的最优解。本发明可以实现将一张目标图像替换到一段人脸视频序列中，并且具有原视频的动态变化性能，提供了生成对抗网络来追求最优平衡解，同时该发明在完成替换视频帧的同时更好地保持了人脸的细节信息与动态程度。

发明内容

针对解决视频序列中替换人脸的问题，本发明的目的在于提供一种利用生成对抗网络合成人脸视频序列的动态转换***，首先定义包含生成器与鉴别器在内的目标框架，使用预训练的递归网络生成外观压缩动态特征并通过动态通道编码器与静态特征合并输入到生成器；然后设计包含全部变量在内的最大化最小化函数，通过限定条件用三个步骤拆分求解得到***网络的最优解。本发明可以实现将一张目标图像替换到一段人脸视频序列中，并且具有原视频的动态变化性能，提供了生成对抗网络来追求最优平衡解，同时该发明在完成替换视频帧的同时更好地保持了人脸的细节信息与动态程度。

为解决上述问题，本发明提供一种利用生成对抗网络合成人脸视频序列的动态转换***，其主要内容包括：

(一)底层框架定义；

(二)***网络设置；

(三)***网络求解。

其中，所述的底层框架定义，定义适用性生成对抗网络模型，具体为：

1)给定数据集定义生成网络其作用在于在接受输入随机变量后，模仿数据集x，改变z的分布并生成模仿数据集

2)定义鉴别器其作用在于鉴别模仿的数据集是否与真实的给定数据集x具有一致的分布；

3)定义博弈规则：若G生成的数据成功骗过D，则G取胜；若D成功鉴别出G生成的模仿数据，则D获胜；

4)定义框架目标：同时训练网络G与D，并且同时使之获得最优表现，互相竞争达到平衡后，此时G生成的数据集具有最接近x的分布，具体的最大化最小化过程为：

其中，p_x和p_z分别是变量x和z的分布。

所述的***网络设置，将目标静态人脸图像替换原始视频序列中动态的人脸图像，包括外观压缩特征编码器A，动态通道编码器F，生成器G，鉴别器组D_s、D_d。

所述的外观压缩特征编码器，使用预训练的递归神经网络，将原始的视频中动态的人脸与同一视频中的第一帧静态人脸之间做差分运算，得到外观压缩动态特征，此特征即为***的输入特征，具体为：首先给定长度为T的原始视频动态序列Y＝[y₀,y₁,…,y_T]，截取其第一帧的人脸图y₀作为起点，将其复制T次，产生一个静态序列Y^(st)＝[y₀,y₀,…,y₀]；然后分别使用预训练的递归神经网络对动、静态序列产生相应的隐藏时空特性特征H和H^(st)；最后用H和H^(st)做差分运算，得到外观压缩动态特征：

其中，时间长度保持为T。

所述的动态通道编码器，将外观压缩动态特征和静态空域特征按时间帧t进行线性合并，然后将合并完毕的特征组合输入到生成器G，其中t∈T。

所述的生成器，使用一个对称性的、前后相连的卷积神经网络对图像进行特征的学习与提取，以在训练的过程中可以保持图像的本身特征。

所述的鉴别器组，对于当前输出的动态视频序列，设计静态鉴别器D_s和动态鉴别器D_d以鉴别生成的序列真伪，其中，静态鉴别器D_s用于检查当前生成帧内容的保真度，即与原始目标图像的偏差程度；动态鉴别器D_d用于检查当前序列是否为动态，即人脸的表情与外观是否处于变化状态，若处于真实动态，输出标记为Z^(d)，否则标记为

所述的***网络求解，包括目标函数和优化过程。

所述的目标函数，在训练过程中涉及变化的参量都需要动态训练，包括动态通道编码器F，生成器G，鉴别器D_s、D_d，具体地，训练目标为使得F和G生成的图像最接近原始视频，因此需要最小化其误差，同时需要最大化鉴别器D_s、D_d的误差，由此得目标函数的数学表达式为：

其中，T表示时间长度。

所述的优化过程，分三步求解数学表达式(3)中的最优解，具体为：

1)最大化鉴别器D_s、D_d的损失项和，其中

2)最小化对抗损失以训练生成器，其中，

同时，通过最小化基于L1范数的静态图像重构损失以提高每一帧静态图像重构的质量，其中，

3)为在时间长度较大的情况下保持动态连续性，对外观压缩动态特征的重构损失进行基于L1范数的限定，其中，

经过上述三个步骤，可以求得数学表达式(3)中的最优解。

附图说明

图1是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的框架图。

图2是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的***网络设置图。

图3是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的例子示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的框架图。主要包括底层框架定义；***网络设置，***网络求解。

底层框架定义，定义适用性生成对抗网络模型，具体为：

其中，p_x和p_z分别是变量x和z的分布。

图2是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的***网络设置图。主要包括外观压缩特征编码器A，动态通道编码器F，生成器G，鉴别器组D_s、D_d。

外观压缩特征编码器，使用预训练的递归神经网络，将原始的视频中动态的人脸与同一视频中的第一帧静态人脸之间做差分运算，得到外观压缩动态特征，此特征即为***的输入特征，具体为：首先给定长度为T的原始视频动态序列Y＝[y₀,y₁,…,y_T]，截取其第一帧的人脸图y₀作为起点，将其复制T次，产生一个静态序列Y^(st)＝[y₀,y₀,…,y₀]；然后分别使用预训练的递归神经网络对动、静态序列产生相应的隐藏时空特性特征H和H^(st)；最后用H和H^(st)做差分运算，得到外观压缩动态特征：

其中，时间长度保持为T。

动态通道编码器，将外观压缩动态特征和静态空域特征按时间帧t进行线性合并，然后将合并完毕的特征组合输入到生成器G，其中t∈T。

生成器，使用一个对称性的、前后相连的卷积神经网络对图像进行特征的学习与提取，以在训练的过程中可以保持图像的本身特征。

鉴别器组，对于当前输出的动态视频序列，设计静态鉴别器D_s和动态鉴别器D_d以鉴别生成的序列真伪，其中，静态鉴别器D_s用于检查当前生成帧内容的保真度，即与原始目标图像的偏差程度；动态鉴别器D_d用于检查当前序列是否为动态，即人脸的表情与外观是否处于变化状态，若处于真实动态，输出标记为Z^(d)，否则标记为

***网络求解，包括目标函数和优化过程。

目标函数，在训练过程中涉及变化的参量都需要动态训练，包括动态通道编码器F，生成器G，鉴别器D_s、D_d，具体地，训练目标为使得F和G生成的图像最接近原始视频，因此需要最小化其误差，同时需要最大化鉴别器D_s、D_d的误差，由此得目标函数的数学表达式为：

其中，T表示时间长度。

优化过程，分三步求解数学表达式(3)中的最优解，具体为：

1)最大化鉴别器D_s、D_d的损失项和，其中

2)最小化对抗损失以训练生成器，其中，

经过上述三个步骤，可以求得数学表达式(3)中的最优解。

图3是本发明一种利用生成对抗网络合成人脸视频序列的动态转换***的例子示意图。如图所示，在“微笑”和“惊讶”两个表情中，视频中替换后的人脸都能展现出原视频的表情，保留了丰富的细节信息，并没有引入足以引起视觉不适的扭曲内容。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种利用生成对抗网络合成人脸视频序列的动态转换***，其特征在于，主要包括底层框架定义(一)；***网络设置(二)，***网络求解(三)。

2.基于权利要求书1所述的底层框架定义(一)，其特征在于，定义适用性生成对抗网络模型，具体为：

1)给定数据集定义生成网络G:其作用在于在接受输入随机变量后，模仿数据集x，改变z的分布并生成模仿数据集

2)定义鉴别器D:其作用在于鉴别模仿的数据集是否与真实的给定数据集x具有一致的分布；

其中，p_x和p_z分别是变量x和z的分布。

3.基于权利要求书1所述的***网络设置(二)，其特征在于，将目标静态人脸图像替换原始视频序列中动态的人脸图像，包括外观压缩特征编码器A，动态通道编码器F，生成器G，鉴别器组D_s、D_d。

4.基于权利要求书3所述的外观压缩特征编码器，其特征在于，使用预训练的递归神经网络，将原始的视频中动态的人脸与同一视频中的第一帧静态人脸之间做差分运算，得到外观压缩动态特征，此特征即为***的输入特征，具体为：首先给定长度为T的原始视频动态序列Y＝[y₀,y₁,…,y_T]，截取其第一帧的人脸图y₀作为起点，将其复制T次，产生一个静态序列Y^(st)＝[y₀,y₀,…,y₀]；然后分别使用预训练的递归神经网络对动、静态序列产生相应的隐藏时空特性特征H和H^(st)；最后用H和H^(st)做差分运算，得到外观压缩动态特征：

其中，时间长度保持为T。

5.基于权利要求书3所述的动态通道编码器，其特征在于，将外观压缩动态特征和静态空域特征按时间帧t进行线性合并，然后将合并完毕的特征组合输入到生成器G，其中t∈T。

6.基于权利要求书3所述的生成器，其特征在于，使用一个对称性的、前后相连的卷积神经网络对图像进行特征的学习与提取，以在训练的过程中可以保持图像的本身特征。

7.基于权利要求书3所述的鉴别器组，其特征在于，对于当前输出的动态视频序列，设计静态鉴别器D_s和动态鉴别器D_d以鉴别生成的序列真伪，其中，静态鉴别器D_s用于检查当前生成帧内容的保真度，即与原始目标图像的偏差程度；动态鉴别器D_d用于检查当前序列是否为动态，即人脸的表情与外观是否处于变化状态，若处于真实动态，输出标记为Z^(d)，否则标记为

8.基于权利要求书1所述的***网络求解(三)，其特征在于，包括目标函数和优化过程。

9.基于权利要求书8所述的目标函数，其特征在于，在训练过程中涉及变化的参量都需要动态训练，包括动态通道编码器F，生成器G，鉴别器D_s、D_d，具体地，训练目标为使得F和G生成的图像最接近原始视频，因此需要最小化其误差，同时需要最大化鉴别器D_s、D_d的误差，由此得目标函数的数学表达式为：

其中，T表示时间长度。

10.基于权利要求书8所述的优化过程，其特征在于，分三步求解数学表达式(3)中的最优解，具体为：

1)最大化鉴别器D_s、D_d的损失项和其中

2)最小化对抗损失以训练生成器，其中，

经过上述三个步骤，可以求得数学表达式(3)中的最优解。