CN114445529A

CN114445529A - 一种基于动作及语音特征的人脸图像动画方法和***

Info

Publication number: CN114445529A
Application number: CN202210115682.5A
Authority: CN
Inventors: 杨磊
Original assignee: Beijing Zhongke Shenzhi Technology Co ltd
Current assignee: Beijing Zhongke Shenzhi Technology Co ltd
Priority date: 2022-02-08
Filing date: 2022-02-08
Publication date: 2022-05-06

Abstract

本发明公开了一种基于动作及语音特征的人脸图像动画方法和***，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。本发明能够实现视频与音频的两种驱动方式对目标人物进行驱动，驱动方式多样，可以满足多种需求。

Description

一种基于动作及语音特征的人脸图像动画方法和***

技术领域

本发明属于图像动画生成技术领域，更具体的说是涉及一种基于动作及语音特征的人脸图像动画方法和***。

背景技术

图像动画在影视制作，摄影，电商等领域都有着比较广泛的应用。具体来说，给定一个人物形象，我们可以通过某种驱动方式使这个人“动起来”。这个过程有很多种实现的方式，如果从图像数据中获取特征，我们需要将图像特征转化为人脸或者动作的特征，并将这些特征加在目标人脸上；如果从语音数据中获取特征，我们可以将这些语音特征转化为目标人脸的面部特征，从而通过这些特征生成目标人物的人脸。

图像领域的三维的方法，常规的做法是对目标物体进行三维的建模，然后输入一系列动作来驱动这个三维模型，通过在虚拟空间内设置相机来得到目标物体的动作视频。这种方法首先需要对物体进行三维建模，需要大量物体的先验信息来约束模型，通过计算机的图形技术来获取最后的结果，其中的建模，投影，渲染等流程需要耗费比较多的计算机资源。对于二维的方法，近些年随着人工智能技术的发展，涌现出一大批深度学习的模型来完成图像生成的任务，其中比较有代表性的有生成对抗网络(Generative AdversarialNetworks)，变分自编码器(Variational Auto-Encoders)等等。但是这些方法一般来说需要做大量的提前标注，同时无法将整个流程推广到相同类别的任意物体上。为了解决标注所需的人力资源，同时可以将流程应用到相同类别的任意物体上，Siarohin等人提出了第一个基于物体类别就可实现的图像动画方法Monkey-Net，通过检测目标物体和驱动视频关键点的运动轨迹来生成目标物体动画。这个方法仅仅使用了0阶的映射函数的信息，导致生成的图像效果不够好。随后提出的First-Order-Motion-Model使用了动作轨迹的一阶导数的信息，但是原项目为了降低训练的消耗和提高数据量，仅仅使用了比较低的分辨率的训练数据，导致生成的结果分辨率不够好。

因此，如何提供一种基于动作及语音特征的人脸图像动画方法和***成为了本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明能够实现视频与音频的两种驱动方式对目标人物进行驱动，驱动方式多样，可以满足多种需求。

为了实现上述目的，本发明采用如下技术方案：

一种基于动作及语音特征的人脸图像动画方法，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。

进一步的，图像驱动方式包括关键点检测，动作提取及图像生成三个步骤；

关键点检测，分别输入目标人物和驱动视频的一帧图像，经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息；

动作提取，输入上一个网络得到的关键点和一阶导数信息，得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片，经特征整合后，得到遮挡判定图与变形图；

图像生成，将遮挡判定图与变形图以及目标人物的特征图一起输入，经过解码后得到动态图像视频。

进一步的，语音驱动方式的具体方法为：首先对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；最后，将特征图进行图像生成，得到人脸图像动画。

一种基于动作及语音特征的人脸图像动画***，包括图像驱动模块及语音驱动模块；其中，

图像驱动模块，用于输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；

语音驱动模块，针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。

进一步的，图像驱动模块包括关键点检测单元，动作提取单元及图像生成单元；

关键点检测单元，用于分别输入目标人物和驱动视频的一帧图像，经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息；

动作提取单元，用于输入上一个网络得到的关键点和一阶导数信息，得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片，经特征整合后，得到遮挡判定图与变形图；

图像生成单元，将遮挡判定图与变形图以及目标人物的特征图一起输入，经过解码后得到动态图像视频。

进一步的，语音驱动模块包括：目标音频特征提取单元、特征整合单元以及图像生成单元；其中，

目标音频特征提取单元，用于对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；

特征整合单元，用于在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；

图像生成单元，用于将特征图进行图像生成，得到人脸图像动画。

进一步的，还包括云端服务器，允许用户个人上传人物形象，音频以及动作视频给云端服务器，云端服务器在得到请求后自动计算对应的结果返回给用户。

本发明的有益效果在于：

1、本发明提供了视频与音频的两种驱动方式对目标人物进行驱动，驱动方式多样，可以满足多种需求。网络的分辨率精度达到512×512，可以得到比较高清的人脸视频结果。

2、本发明通过云端服务方案，可以实现用户自己上传形象，音频和驱动视频，通过远程计算的方法得到目标视频，避免了没有显卡资源的问题。

附图说明

为了更清楚地说明本实用新式实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实用新式的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明关键点检测的方法流程图。

图2为本发明动作提取的方法流程图。

图3为本发明图像生成的方法流程图。

图4为本发明语音驱动的方法流程图。

图5为本发明人物形象在驱动视频下的生成结果图像。

具体实施方式

下面将结合本发明的实施例中，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

参考图1-4，本发明提供了一种基于动作及语音特征的人脸图像动画方法，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：当有其中一个人物的谈话的视频时，可以将这个动作完整转移到另一个人脸上，即输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。

注意，本发明图像驱动方式和时下流行的DeepFake的换脸技术有着本质的区别。换脸技术是将一张新的人脸“换进”已有的视频中，而本发明方法是根据已有的视频，将里面的动作抽象出来并将其转移到另一张人脸上，从而得到一个新的场景下有着相同动作的人物视频。

本发明使用了人脸视频进行训练，视频长度从十几秒到超过一分钟不等。由于很难获取两段动作完全一样的训练数据，我们采用自监督的方式进行训练，即把一个视频的第一帧作为人脸的输入图片，剩下的所有视频帧提取其中的动作作为驱动数据，最后将人脸和驱动动作数据输入到生成网络得到生成的视频。在原研究的基础上，本发明把原来的输入和输出均为像素数256的模型扩展了一倍，模型最后输出像素数512的视频。为了有足够的训练数据来训练，我们在原视频数据集的基础上，根据人脸的方框位置计算裁剪后的视频的尺寸是否超过了512，保留超过这一尺寸的视频，同时对未达到尺寸的视频进行插值处理，最后准备了约9000个视频用作训练和测试。分别提取目标人物和驱动人物的关键点，然后在第二个动作提取模块中，根据提取到的关键点得到关键点附近的一阶导数信息，进而得到轨迹方程和判断是否遮掩的单通道结果。最后，将以上信息结合输入的目标人物图像全部输入到生成模块中，经过编码器-解码器的结构后得到最终的结果。

图像驱动方式包括关键点检测，动作提取及图像生成三个步骤；

图1为关键点检测网络，这里分别输入目标人物和驱动视频的一帧图像，经过编码器后得到10个关键点和其对应的10个关键点附近的一阶导数信息。在图2的动作提取中，输入上一个网络得到的关键点和一阶导数的信息，得到目标人物到驱动视频的图像的变形场和一个经过下采样的，判断是否有遮挡情况出现的特征图。最后，在图3的图像生成中，将图2中得到的结果和目标人物的图像一起作为图像生成模块的输入，经过解码模块后得到最后的结果。

在训练时本发明采用了从同一个视频中获得人物形象和动作数据，而在预测阶段，可以使用和动作视频同类型但不一样的形象来作为输入。图5展示了人物形象在驱动视频下的生成结果。

图5中，第一行为已有的驱动视频中的视频帧，而第二，三行均为只有一张静态正面肖像的生成结果。可以发现，本发明的方案可以准确并且高清地生成和驱动视频具有相同表情，头部姿势的结果。经过测试，本发明在Nvidia 3090显卡上面的生成速度超过了25fps，意味着本发明人脸图像动画生成速度可以达到实时。

在图像驱动方式中，方法的核心是通过深度网络提取动作的特征，并将其应用在另一张人脸上，其本质是二维的图像仿射变换，完全没有应用三维的信息。这种方法的缺陷也很明显，当提取的动作不够准确时，生成的图像会有明显的人脸扭曲现象，会对使用效果有比较大的影响。同时，这种方法在针对侧脸的效果也不令人满意。为此，本发明引入人脸的三维模型，将人脸的形象转换为人脸关键点参数，通过语音的特征预测人脸参数的变化，再通过生成模块生成和音频相符的图像，以弥补只通过图像驱动的缺陷。

和图像驱动方式不同的是，由于每个人的声音具有不同的特征，无法通过一个人的声音比较好地恢复另一个人的人脸关键点参数，本发明需要针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，需要对特征进行一步转化，将其转化为被训练的人的声音特征。整个流程如图4所示。

语音驱动方式的具体方法为：首先对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；最后，将特征图进行图像生成，得到人脸图像动画。

由于人物在交谈时变化最频繁的就是唇形，而语音的音频特征与唇形密切相关。因此，本发明通过提取声音的特征来建立声音特征与唇部特征的映射关系，从而根据唇部的变化生成对应人物的谈话视频。而与语音部分关系较弱的头部和肩部的姿势等信息，可以通过预先设定，或者与声音特征建立弱关系来调节生成结果中人的头部和肩部的姿态。

实施例2

本实施例提供了一种基于动作及语音特征的人脸图像动画***，包括图像驱动模块及语音驱动模块；其中，

图像驱动模块包括关键点检测单元，动作提取单元及图像生成单元；关键点检测单元，用于分别输入目标人物和驱动视频的一帧图像，经过编码器后得到多个关键点和其对应的多个关键点附近的一阶导数信息；动作提取单元，用于输入上一个网络得到的关键点和一阶导数信息，得到目标人物到驱动视频的图像的变形场和一个经过下采样的降维源图片，经特征整合后，得到遮挡判定图与变形图；图像生成单元，将遮挡判定图与变形图以及目标人物的特征图一起输入，经过解码后得到动态图像视频。

语音驱动模块包括：目标音频特征提取单元、特征整合单元以及图像生成单元；其中，目标音频特征提取单元，用于对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；特征整合单元，用于在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；图像生成单元，用于将特征图进行图像生成，得到人脸图像动画。

由于本方案在训练，预测阶段都需要使用GPU来加快运行速度，而并不是每一个用户都具备比较高的显卡配置，因此，本发明还包括云端服务器，允许用户个人上传人物形象，音频以及动作视频给云端服务器，云端服务器在得到请求后自动计算对应的结果返回给用户，从而对不具备显卡资源的用户提供了远程的解决方案。

本发明提供了视频与音频的两种驱动方式对目标人物进行驱动，驱动方式多样，可以满足多种需求。网络的分辨率精度达到512×512，可以得到比较高清的人脸视频结果。

本发明通过云端服务方案，可以实现用户自己上传形象，音频和驱动视频，通过远程计算的方法得到目标视频，避免了没有显卡资源的问题。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于动作及语音特征的人脸图像动画方法，其特征在于，包括：图像驱动方式及语音驱动方式；其中图像驱动方式为：输入一个人脸的谈话视频和另一个人的人脸，得到另一个人原本是静态图片的动态图像视频；语音驱动方式为：针对某个特定人物进行训练，当使用另一个人的特征进行预测的时候，对特征进行一步转化，将其转化为被训练的人的声音特征，将声音特征进行人脸特征转化，获取人脸图像动画。

2.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法，其特征在于，图像驱动方式包括关键点检测，动作提取及图像生成三个步骤；

3.根据权利要求1所述的一种基于动作及语音特征的人脸图像动画方法，其特征在于，语音驱动方式的具体方法为：首先对源音频进行特征提取，在得到音频特征后，根据训练人的声音特征将该音频特征进行特征映射，从而找到该特征在训练人空间内的表达；在得到音频特征后，建立音频特征和嘴形特征的对应关系，得到嘴部特征后，将采样得到的眼睛眉毛以及头部姿势的参数进行整合，得到整个人脸的特征图；最后，将特征图进行图像生成，得到人脸图像动画。

4.一种基于动作及语音特征的人脸图像动画***，其特征在于，包括图像驱动模块及语音驱动模块；其中，

5.根据权利要求4所述的一种基于动作及语音特征的人脸图像动画***，其特征在于，图像驱动模块包括关键点检测单元，动作提取单元及图像生成单元；

6.根据权利要求4所述的一种基于动作及语音特征的人脸图像动画***，其特征在于，语音驱动模块包括：目标音频特征提取单元、特征整合单元以及图像生成单元；其中，

7.根据权利要求4所述的一种基于动作及语音特征的人脸图像动画***，其特征在于，还包括云端服务器，允许用户个人上传人物形象，音频以及动作视频给云端服务器，云端服务器在得到请求后自动计算对应的结果返回给用户。