CN116188649B

CN116188649B - 基于语音的三维人脸模型驱动方法及相关装置

Info

Publication number: CN116188649B
Application number: CN202310472056.6A
Authority: CN
Inventors: 杨硕; 何山; 殷兵; 刘聪; 周良; 胡金水
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2023-04-27
Filing date: 2023-04-27
Publication date: 2023-10-13
Anticipated expiration: 2043-04-27
Also published as: CN116188649A

Abstract

本申请提出一种基于语音的三维人脸模型驱动方法及相关装置，基于目标语音的语音特征和目标情绪特征，按照偏移预测参数，进行三维模型顶点偏移预测，按照预测得到的三维模型顶点偏移数据，驱动三维基础模型，得到目标语音对应的三维人脸动画。偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；4D合成数据是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。本方案将样本视频的每帧图像重建为三维人脸模型得到的4D合成数据作为确定偏移预测参数的样本数据，提高了样本数据的数据量和情绪多样性，从而提高了语音驱动三维人脸模型的准确度和情绪化效果。

Description

基于语音的三维人脸模型驱动方法及相关装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于语音的三维人脸模型驱动方法及相关装置。

背景技术

语音驱动人脸动画生成旨在利用语音信息驱动2D人脸图像或3D人脸模型做出相应的口型或表情。近年来，3D人脸动画生成在影视制作、游戏等行业收获了更高的关注，也有着更为广阔的应用前景。

现有的语音驱动三维人脸模型的方法是通过偏移预测参数预测语音对三维模型驱动时三维模型顶点的偏移数据，例如基于深度学习的三维偏移预测模型作为偏移预测参数，预测语音驱动三维模型时顶点的偏移数据。而确定偏移预测参数需要利用大量的样本三维人脸动画（即样本4D数据）进行语音驱动三维模型的偏移分析，例如，三维偏移预测模型通过学习4D数据直接获得语音到三维模型顶点偏移的映射，需要利用大量的4D数据支撑模型训练。但是，4D数据一般通过三维扫描设备逐帧获取，数据采集成本较高，以至于采集到的4D数据的数据量及多样性不足。并且4D数据多样性不足，难以对情绪等面部属性加以控制，导致偏移预测参数预测出的偏移数据驱动的人脸模型的情绪化效果较低，样本4D数据较少，导致偏移预测参数预测出的偏移数据准确度较低，从而影响语音驱动三维模型的情绪化效果和准确度较低。

发明内容

基于上述现有技术的缺陷和不足，本申请提出一种基于语音的三维人脸模型驱动方法及相关装置，能够提高语音驱动三维人脸模型的情绪化效果和准确度。

本申请提出的技术方案具体如下：

根据本申请实施例的第一方面，提供了一种基于语音的三维人脸模型驱动方法，包括：

基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据；

按照所述三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到所述目标语音对应的三维人脸动画；

所述偏移预测参数，是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；所述样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照所述样本视频的帧率合成的数据。

可选的，基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据，包括：

将目标语音中的语音帧对应的情绪融合特征和语音特征进行融合，得到语音帧对应的编码特征；其中，语音帧对应的情绪融合特征由目标情绪特征与语音帧的前一语音帧对应的三维模型顶点偏移数据融合得到；

对目标语音中的语音帧对应的编码特征进行解码，得到目标语音中的语音帧对应的三维模型顶点偏移数据。

将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型中，得到所述目标语音对应的三维模型顶点偏移数据；

所述三维偏移预测模型，是利用样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测训练得到的；所述样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照所述样本视频的帧率合成的数据。

可选的，所述目标情绪特征是从包含所述目标情绪的视频中进行情绪特征提取得到的。

可选的，所述三维偏移预测模型的训练过程，包括：

确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征；

将所述音频特征和所述情绪特征输入到所述三维偏移预测模型中，得到所述三维偏移预测模型输出的样本顶点偏移数据；

基于第一三维动画与所述4D合成数据之间的第一损失函数，对所述三维偏移预测模型进行模型参数调整；其中，所述第一三维动画是按照所述样本顶点偏移数据对三维基础人脸模型进行驱动后的三维人脸动画。

可选的，确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征之后，还包括：

根据所述样本视频的帧率、所述音频特征的帧率，以及预先设置的帧率对齐规则，对所述音频特征进行线性插值。

可选的，所述三维偏移预测模型的训练过程，还包括：

将所述第一三维动画渲染为2D图像序列；

以所述2D图像序列与所述样本视频的视频帧序列之间的误差作为第二损失函数，对所述三维偏移预测模型进行模型参数调整。

可选的，所述三维偏移预测模型的训练过程，还包括：

确定预先采集的样本三维人脸动画，以及所述样本三维人脸动画对应的动画音频特征和动画情绪特征；

将所述动画音频特征和所述动画情绪特征输入到训练后的三维偏移预测模型中，得到所述样本三维人脸动画对应的动画顶点偏移数据；

基于所述动画顶点偏移数据对应的三维人脸偏移动画与所述样本三维人脸动画之间的第三损失函数，对所述训练后的三维偏移预测模型进行模型参数调整；其中，所述三维人脸偏移动画是按照所述动画顶点偏移数据对三维基础人脸模型进行驱动后的三维人脸动画。

可选的，所述三维偏移预测模型的训练过程还包括：

获取所述样本视频对应的音频对所述样本视频中人脸的驱动特征；

计算所述驱动特征与所述样本视频对应的情绪特征之间的互信息；

以最小化所述互信息为目标，对所述三维偏移预测模型进行参数调整。

可选的，确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征，包括：

对预先采集的样本视频中的各个视频帧进行三维人脸重建，得到各个视频帧对应的三维形变参数，并确定各个视频帧对应的三维形变参数还原出的三维重建人脸模型；

按照所述样本视频对应的帧率，将各个视频帧对应的三维重建人脸模型进行合成，得到所述样本视频对应的4D合成数据；

对所述样本视频对应的音频进行语音特征提取，得到所述样本视频对应的音频特征，以及，对所述样本视频进行情绪特征提取，得到所述样本视频对应的情绪特征。

可选的，将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型中，得到所述目标语音对应的三维模型顶点偏移数据，以及，按照所述三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到所述目标语音对应的三维人脸动画，包括：

将目标语音的语音特征和目标情绪特征输入到预先训练的语音驱动模型中，所述语音驱动模型利用三维偏移预测模型预测所述目标语音对应的三维模型顶点偏移数据，并按照所述三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到所述目标语音对应的三维人脸动画。

根据本申请实施例的第二方面，提供了一种基于语音的三维人脸模型驱动装置，包括：

偏移预测模块，用于基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据；

驱动模块，用于按照所述三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到所述目标语音对应的三维人脸动画；

根据本申请实施例的第三方面，提供了一种电子设备，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现上述基于语音的三维人脸模型驱动方法。

根据本申请实施例的第四方面，提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现上述基于语音的三维人脸模型驱动方法。

本申请提出的基于语音的三维人脸模型驱动方法，包括：基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据；按照三维模型顶点偏移数据，对三维基础模型进行驱动，得到目标语音对应的三维人脸动画；偏移预测参数，是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。采用本申请的技术方案，可以将样本视频的每帧图像重建为三维人脸模型，从而得到4D合成数据作为确定偏移预测参数的样本数据，相比利用三维扫描设备采集4D数据，成本较低，提高了样本数据的数据量和多样性，能够提高偏移预测参数的预测效果，从而提高语音驱动三维人脸模型的准确度，并且通过情绪特征的输入，提高了语音驱动三维人脸模型的情绪化效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本申请实施例提供的一种基于语音的三维人脸模型驱动方法的流程示意图。

图2是本申请实施例提供的一种训练三维偏移预测模型的处理流程示意图。

图3是本申请实施例提供的另一种训练三维偏移预测模型的处理流程示意图。

图4是本申请实施例提供的又一种训练三维偏移预测模型的处理流程示意图。

图5是本申请实施例提供的一种基于语音的三维人脸模型驱动装置的结构示意图。

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

本申请实施例技术方案适用于三维人脸模型驱动的应用场景，采用本申请实施例技术方案，能够提高语音驱动三维人脸模型的准确度和情绪化效果。

语音驱动3D人脸模型是指利用语音来驱动3D人脸模型的口型变化和/或表情变化，从而得到3D人脸模型的说话动画。目前语音驱动3D人脸模型的方式，通常是预先确定偏移预测参数，利用偏移预测参数进行3D人脸模型的偏移预测，利用预测出的偏移数据驱动3D人脸模型顶点运动。而偏移预测参数是需要利用大量的样本数据进行语音驱动3D人脸模型的偏移分析而确定的，样本数据为3D人脸模型的动画数据，即4D数据。

目前，4D数据一般通过三维扫描设备逐帧获取，数据采集成本较高，以致于采集到的4D数据的数据量及多样性不足。如果4D数据多样性不足，在通过对4D数据进行语音驱动3D人脸模型的偏移分析来确定偏移预测参数时，难以对情绪等面部属性加以控制，则会导致确定的偏移预测参数预测出的偏移数据所驱动的3D人脸模型的情绪化效果较低，从而影响语音驱动三维人脸模型的情绪化效果。如果4D数据的数据量较少，则会导致确定的偏移预测参数的偏移预测能力较低，从而影响语音驱动三维人脸模型的准确度。

因此，如何提高语音驱动三维人脸模型的情绪化效果和准确度较低，是本领域技术人员亟需解决的技术问题。

基于此，本申请提出一种基于语音的三维人脸模型驱动方法，该技术方案能够将样本视频的每帧图像重建为三维人脸模型，从而得到4D合成数据作为样本数据来确定偏移预测参数，由于样本视频为2D视频，采集便捷，因此样本视频的数据量以及多样性更高，能够提高样本数据的数据量和多样性，从而提高偏移预测参数的预测效果以及驱动三维人脸模型的情绪化效果，解决现有技术中语音驱动三维人脸模型的准确度和情绪化效果较低的问题。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

示例性方法

本申请实施例提出一种基于语音的三维人脸模型驱动方法，该方法可以由电子设备执行，该电子设备可以是任意的具有数据及指令处理功能的设备，例如可以是计算机、智能终端、服务器等。参见图1所示，该方法包括：

S101、基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据。

本实施例中，在利用目标语音驱动三维人脸模型时，首先需要提取目标语音的语音特征，并将目标语音在驱动三维人脸模型时三维人脸模型中所需展示的情绪作为目标情绪，从而确定目标情绪对应的目标情绪特征。其中，提取目标语音的语音特征可以采用语音识别算法进行语音特征提取，还可以通过构建语音特征提取模型进行语音特征的提取，例如，wav2vec预训练模型或者wav2vec2.0预训练模型等，均可提取目标语音的音频表征，即语音特征。目标语音中包含若干帧语音帧，因此，提取到的目标语音的语音特征为各个语音帧对应的语音特征组成的序列。目标情绪特征也需要与目标语音的语音特征一一对应，即目标情绪特征也为各个语音帧对应的情绪特征组成的序列。

具体的，本实施例中，对于目标情绪特征的提取，可以预先采集包含目标情绪的视频，对该视频进行情绪特征提取，从而能够提取到目标情绪特征。并且，采集的包含目标情绪的视频的帧数需要与目标语音的帧数相同，从而能够实现目标情绪特征与目标语音的语音特征相对应。其中，对视频进行情绪特征提取可以采用现有的情绪特征提取网络，本实施例不再具体阐述。

确定了目标语音的语音特征和目标情绪特征后，按照预先确定的偏移预测参数，对目标语音的语音特征和目标情绪特征进行三维模型顶点偏移预测，从而得到目标语音对应的三维模型顶点偏移数据。其中，偏移预测参数是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的。样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。在确定偏移预测参数时，对样本视频中的视频帧对应的音频特征和情绪特征进行三维模型顶点偏移预测，根据预测出的偏移数据所驱动后的三维人脸模型与该视频帧三维人脸重建后的三维重建人脸模型之间的偏差对偏移预测参数进行调整，以保证按照偏移预测参数预测出的偏移数据驱动后的三维人脸模型与对应的三维重建人脸模型之间的差异最小化。

具体的，偏移预测参数中包含编码参数和解码参数等。按照预先确定的偏移预测参数，对目标语音的语音特征和目标情绪特征进行三维模型顶点偏移预测，需要按照该偏移预测参数，对目标语音中的每一帧语音帧的语音特征和目标情绪特征进行三维模型顶点偏移预测。当对目标语音中当前语音帧进行三维模型顶点偏移预测时，首先，将目标语音中的当前语音帧的前一语音帧对应的三维模型顶点偏移数据（即按照预先确定的偏移预测参数，对前一语音帧的语音特征和目标情绪特征进行三维模型顶点偏移预测，得到的三维模型顶点偏移数据）和目标情绪特征进行特征融合，从而得到当前语音帧对应的情绪融合特征。然后再利用偏移预测参数中的编码参数将当前语音帧对应的情绪融合特征和当前语音帧的语音特征基于注意力机制进行融合，得到当前语音帧对应的编码特征。最后，利用偏移预测参数中的解码参数对当前语音帧对应的编码特征进行解码，从而得到当前语音帧对应的三维模型顶点偏移数据。其中，对目标语音中的任意语音帧进行三维模型顶点偏移预测均可将语音帧作为当前语音帧按照此方式进行三维模型顶点偏移预测，能够得到目标语音中各个语音帧对应的三维模型顶点偏移数据，将所有语音帧对应的三维模型顶点偏移数据按照目标语音中各个语音帧的顺序组合在一起，便能够得到目标语音对应的三维模型顶点偏移数据。

进一步地，本实施例中预先确定的偏移预测参数可以为三维偏移预测模型的模型参数，基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，具体步骤如下所述：

将目标语音的语音特征和目标情绪特征均输入到预先训练的三维偏移预测模型中进行三维人脸模型的偏移预测，从而得到三维偏移预测模型输出的目标语音驱动三维人脸模型时的三维模型顶点偏移数据。其中，目标情绪特征作为三维偏移预测模型的嵌入层输入到三维偏移预测模型中，以保证三维偏移预测模型在对目标语音的语音特征进行三维模型顶点偏移预测时，能够结合目标情绪特征中目标情绪所表征的人脸特征，从而三维偏移预测模型输出的三维模型顶点偏移数据中不仅包含目标语音所驱动的偏移，还包含了表达目标情绪所驱动的偏移。

具体的，本实施例中，对三维偏移预测模型进行训练，需要预先采集训练数据，然后利用训练数据进行三维模型顶点偏移预测训练，从而得到三维偏移预测模型。训练数据包括：样本视频对应的4D合成数据、样本视频对应的音频特征，以及样本视频对应的情绪特征。其中，样本视频为预先采集的说话者在说话时的人脸二维视频，样本视频中的各个图像帧均为二维图像。为了获取模型训练所需的4D数据，需要将样本视频中的每帧图像均进行三维人脸重建，从而得到每帧图像对应的三维重建人脸模型，三维重建人脸模型为三维数据，之后再按照样本视频的帧率将每帧图像对应的三维重建人脸模型合成为模型序列，从而得到四维数据，即4D合成数据。相比于利用三维扫描设备逐帧获取三维人脸模型从而得到4D训练数据，利用二维的样本视频进行四维数据合成，得到4D合成数据作为训练数据，成本更低，并且二维视频易采集，样本视频的数据量和多样性更高，以使4D合成数据的数据量和多样性也更高，由于4D合成数据的数据量大，利用通过样本视频合成的4D合成数据，训练出的三维偏移预测模型的准确度更高，由于4D合成数据的多样性高，情绪更多样，那么训练出的三维偏移预测模型预测出的偏移数据所体现的情绪化效果更好。样本视频对应的音频特征是利用语音特征提取的方式将样本视频对应的音频进行语音特征提取得到的。样本视频对应的情绪特征是利用情绪提取网络对样本视频进行情绪特征提取得到的。

本实施例中，三维偏移预测模型优选采用audio2mesh网络，具体的，可以使用FaceFormer网络作为基线网络，FaceFormer网络使用Transformer架构将目标语音的语音特征作为输入，自回归式地输出目标语音中每一帧语音帧的语音特征对应的三维模型顶点偏移数据。

S102、按照三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到目标语音对应的三维人脸动画。

具体的，三维偏移预测模型预测出目标语音对应的三维模型顶点偏移数据后，按照该三维模型顶点偏移数据对三维基础人脸模型进行驱动（即，按照该三维模型顶点偏移数据，对三维基础人脸模型中的顶点进行偏移调整），得到目标语音驱动后的三维人脸动画。其中，三维基础人脸模型优选采用中性表情的三维人脸模型。其中，目标语音对应的三维模型顶点偏移数据是目标语音中每帧语音帧对应的偏移数据组成的序列，利用三维模型顶点偏移数据对三维基础人脸模型进行驱动，则会得到每帧语音帧驱动后的三维人脸模型，将每帧语音帧驱动后的三维人脸模型按照目标语音中各个语音帧的顺序组合成三维人脸模型序列，则得到三维人脸动画。

进一步地，为了实现端到端的三维人脸模型的语音驱动，本实施例预先构建了语音驱动模型，该语音驱动模型中包含三维偏移预测模型。将目标语音的语音特征和目标情绪特征输入到该语音驱动模型中，该语音驱动模型中的三维偏移预测模型可以根据目标语音的语音特征和目标情绪特征预测出目标语音对应的三维模型顶点偏移数据，然后该语音驱动模型按照三维模型顶点偏移数据对三维基础人脸模型进行驱动，从而得到目标语音对应的三维人脸动画。这样向语音驱动模型中输入了目标语音的语音特征和目标情绪特征后，便可以直接得到驱动后的三维人脸动画，实现了端到端的三维人脸模型驱动。

通过上述介绍可见，本申请实施例提出的基于语音的三维人脸模型驱动方法，基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据；按照三维模型顶点偏移数据，对三维基础模型进行驱动，得到目标语音对应的三维人脸动画；偏移预测参数，是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。采用本申请的技术方案，可以将样本视频的每帧图像重建为三维人脸模型，从而得到4D合成数据作为确定偏移预测参数的样本数据，相比利用三维扫描设备采集4D数据，成本较低，提高了样本数据的数据量和多样性，能够提高偏移预测参数的预测效果，从而提高语音驱动三维人脸模型的准确度，并且通过情绪特征的输入，提高了语音驱动三维人脸模型的情绪化效果。

作为一种可选的实现方式，参见图2所示，在本申请另一实施例中公开了，三维偏移预测模型的训练过程，具体可以包括如下步骤：

S201、确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征。

具体的，为了对三维偏移预测模型进行三维模型顶点偏移预测训练，首先需要采集二维的样本视频，该样本视频可以为采用单目相机拍摄的说话人说话时的人脸视频（如RGB视频）。然后，将样本视频中的每帧图像（如RGB视频中的各帧RGB图像）均进行三维人脸重建，从而得到每帧图像对应的三维重建人脸模型，按照样本视频的帧率将每帧图像对应的三维重建人脸模型合成为模型序列，从而4D合成数据。并且，在采集样本视频的过程中，还需要采集该样本视频对应的音频，即样本视频中说话人所说的音频。对样本视频对应的音频进行语音特征提取，得到样本视频对应的音频特征。对样本视频进行情绪特征提取，得到样本视频对应的情绪特征。具体步骤如下所述：

第一，对预先采集的样本视频中的各个视频帧进行三维人脸重建，得到各个视频帧对应的三维形变参数，并确定各个视频帧对应的三维形变参数还原出的三维重建人脸模型。

本实施例采用单目三维人脸重建模型对样本视频中的各个二维图像帧进行三维人脸重建，从而能够得到各个视频帧对应的三维形变参数。FLAME是一个参数化三维人脸模型，可用如下公式表示：

其中，是控制人脸形状变换的参数，/>是控制人脸表情的参数，是控制关节和整体旋转的参数。

将样本视频中的各个视频帧输入到单目三维人脸重建模型中，单目三维人脸重建模型可以拟合出控制FLAME人脸模型形变的三个参数作为各个视频帧对应的三维形变参数，利用视频帧对应的三维形变参数可以还原出对应的三维重建人脸模型，这样便能得到样本视频中各个视频帧对应的三维重建人脸模型。

第二，按照样本视频对应的帧率，将各个视频帧对应的三维重建人脸模型进行合成，得到样本视频对应的4D合成数据。

确定了样本视频中各个视频帧对应的三维重建人脸模型后，根据样本视频对应的帧率对所有三维重建人脸模型进行组合，得到样本视频对应的4D合成数据。

第三，对样本视频对应的音频进行语音特征提取，得到样本视频对应的音频特征，以及，对样本视频进行情绪特征提取，得到样本视频对应的情绪特征。

本实施例还需要利用语音特征提取网络（例如，wave2vec2.0网络等）对样本视频对应的音频进行语音特征提取，得到样本视频对应的音频特征。并且利用现有的情绪提取网络对样本视频进行情绪特征提取，从而得到样本视频对应的情绪特征。其中，情绪提取网络在从样本视频中提取情绪特征时，还可以通过全连接网络将情绪特征映射到高维空间增加其表达能力。

进一步地，本实施例中采集的样本视频的帧率与样本视频对应的音频的帧率可能不同，以至于样本视频对应的音频特征的帧率与样本视频的帧率不同，导致样本视频中的各个视频帧与样本视频对应的音频特征无法对齐。此时，可以根据样本视频的帧率和音频特征的帧率，按照预先设置的帧率对齐规则，对音频特征进行线性插值操作。其中，预先设置的帧率对齐规则可以为音频特征帧率为样本视频帧率的倍数，按照该倍数对音频特征进行线性插值。例如，样本视频对应的音频特征的帧率为49赫兹，而样本视频的帧率为30FPS，本实施例中优选将帧率对齐规则设置为音频特征帧率为样本视频帧率的两倍，从而对音频特征进行线性插值，以使音频特征的帧率调整为60赫兹，那么在样本视频与音频特征对齐时，可以一帧视频帧对应两帧音频特征。

S202、将音频特征和情绪特征输入到三维偏移预测模型中，得到三维偏移预测模型输出的样本顶点偏移数据。

确定了样本视频对应的4D合成数据、样本视频对应的音频特征和样本视频对应的情绪特征之后，将该4D合成数据作为样本视频对应的音频特征携带的标签，将样本视频对应的音频特征和样本视频对应的情绪特征输入到三维偏移预测模型中，三维偏移预测模型进行三维模型顶点偏移预测，自回归式地输出音频特征对应的样本顶点偏移数据（包括每一帧音频特征对应的样本顶点偏移数据）。其中，样本视频对应的情绪特征作为三维偏移预测模型的嵌入层输入到三维偏移预测模型中，以保证三维偏移预测模型在对样本视频对应的音频特征进行三维模型顶点偏移预测时，能够结合样本视频中说话人的情绪所表征的人脸特征，从而三维偏移预测模型输出的样本顶点偏移数据中不仅包含样本视频对应的音频所驱动的偏移，还包含了表达样本视频中说话人的情绪所驱动的偏移。

S203、基于第一三维动画与4D合成数据之间的第一损失函数，对三维偏移预测模型进行模型参数调整。

具体的，样本顶点偏移数据中包含样本视频对应的每一帧音频特征对应的样本顶点偏移数据，按照每一帧音频特征对应的样本顶点偏移数据对三维基础人脸模型进行三维模型顶点偏移调整，得到每一帧音频特征驱动后的三维人脸模型，将每一帧音频特征驱动后的三维人脸模型按照音频特征的顺序组合在一起，从而得到样本视频对应的音频特征驱动后的三维人脸动画，并将该三维人脸动画作为第一三维动画。其中，三维基础人脸模型优选采用样本视频中说话人的中性表情下的三维人脸模型。

由于样本视频对应的4D合成数据也是由样本视频的每帧图像对应的三维重建人脸模型组合成的数据，因此4D合成数据为样本视频对应的音频特征和样本视频对应的情绪特征驱动后的真实的三维人脸动画，而第一三维动画为根据样本视频对应的音频特征和样本视频对应的情绪特征预测出的三维人脸动画，在理想状态下，三维偏移预测模型预测出的样本顶点偏移数据驱动的第一三维动画应该与样本视频对应的音频特征所携带的4D合成数据相同，此时三维偏移预测模型的预测能力最为准确。因此，为了提高三维偏移预测模型的预测准确度，需要计算第一三维动画与4D合成数据之间的第一损失函数，根据该第一损失函数对三维偏移预测模型进行模型参数调整，以使三维偏移预测模型预测出的样本顶点偏移数据驱动的第一三维动画与4D合成数据逐渐接近。

作为一种可选的实现方式，参见图3所示，在本申请另一实施例中公开了，三维偏移预测模型的训练过程，具体还可以包括如下步骤：

S301、将第一三维动画渲染为2D图像序列。

具体的，三维偏移预测模型根据样本视频对应的音频特征和情绪特征预测出对应的样本顶点偏移数据，并按照样本顶点偏移数据驱动三维基础人脸模型得到第一三维动画后，利用可微分渲染技术将该第一三维动画中的各个三维人脸模型渲染为2D图像（如RGB图像），将该第一三维动画渲染得到的所有2D图像组合在一起，得到2D图像序列。

S302、以2D图像序列与样本视频的视频帧序列之间的误差作为第二损失函数，对三维偏移预测模型进行模型参数调整。

在理想状态下，三维偏移预测模型预测出的样本顶点偏移数据驱动的第一三维动画所渲染得到的2D图像序列应该与样本视频中各个视频帧组成的图像序列之间的像素数据极为接近，此时三维偏移预测模型的预测能力最为准确。因此，为了提高三维偏移预测模型的预测准确度，需要计算2D图像序列与样本视频的视频帧序列之间的误差（即像素级误差）作为第二损失函数，根据该第二损失函数对三维偏移预测模型进行模型参数调整，以使三维偏移预测模型预测出的样本顶点偏移数据驱动的第一三维动画所渲染得到的2D图像序列与样本视频中各个视频帧组成的图像序列逐渐接近。利用该第二损失函数来修正三维偏移预测模型对面部细节偏移的预测效果，可以使得利用预测出的样本顶点偏移数据驱动的三维人脸动画中的面部细节更准确。

作为一种可选的实现方式，参见图4所示，在本申请另一实施例中公开了，三维偏移预测模型的训练过程，具体还可以包括如下步骤：

S401、确定预先采集的样本三维人脸动画，以及样本三维人脸动画对应的动画音频特征和动画情绪特征。

本实施例中，由于采用的4D训练数据为根据二维的样本视频合成的数据，与三维扫描设备采集到的真实的4D训练数据在质量上还是存在一定差距，以至于影响了利用4D合成数据训练出的三维偏移预测模型的准确度，因此，本实施例可以在利用4D合成数据训练了三维偏移预测模型后，再利用少量的真实4D数据对训练后的三维偏移预测模型进行调优操作，从而提高三维偏移预测模型的预测准确度。

首先，本实施例需要利用三维扫描设备等进行真实4D数据的采集，即采集三维人脸动画作为样本三维人脸动画，该样本三维人脸动画为4D数据，并提取该样本三维人脸动画对应音频的动画音频特征，以及，利用三维人脸表情特征提取的方式，将该样本三维人脸动画对应的动画情绪特征提取出来。其中，进行三维人脸表情提取可以预先训练基于三维人脸的情绪提取网络，该基于三维人脸的情绪提取网络与基于二维图像的情绪提取网络相似，本实施例不再具体阐述。

S402、将动画音频特征和动画情绪特征输入到训练后的三维偏移预测模型中，得到样本三维人脸动画对应的动画顶点偏移数据。

本实施例中，将样本三维人脸动画作为真实的4D数据，将动画音频特征携带该样本三维人脸动画作为标签，以及样本三维人脸动画对应的动画情绪特征，输入到利用样本视频对应的4D合成数据、样本视频对应的音频特征和样本视频对应的情绪特征训练后的三维偏移预测模型中，三维偏移预测模型进行三维模型顶点偏移预测，自回归式地输出样本三维人脸动画对应的动画顶点偏移数据。其中，三维偏移预测模型利用样本三维人脸动画、动画音频特征和动画情绪特征进行三维模型顶点偏移预测的过程与利用样本视频对应的4D合成数据、样本视频对应的音频特征和样本视频对应的情绪特征进行三维模型顶点偏移预测的过程相同，本实施例不再具体阐述。

S403、基于动画顶点偏移数据对应的三维人脸偏移动画与样本三维人脸动画之间的第三损失函数，对训练后的三维偏移预测模型进行模型参数调整。

本实施例中，三维偏移预测模型预测出样本三维人脸动画对应的动画顶点偏移数据后，按照该动画顶点偏移数据对三维基础人脸模型进行三维模型顶点偏移调整，其中，样本三维人脸动画对应的动画顶点偏移数据包括每一帧动画音频特征所驱动的三维顶点偏移数据，因此，按照动画顶点偏移数据对三维基础人脸模型进行三维模型顶点偏移调整，是按照每一帧动画音频特征所驱动的三维顶点偏移数据调整，从而能够得到每一帧动画音频特征对三维基础人脸模型驱动后的三维人脸模型，将所有动画音频特征对三维基础人脸模型驱动后的三维人脸模型组合在一起得到了动画音频特征驱动的三维人脸偏移动画。其中，三维基础人脸模型优选采用样本三维人脸动画中说话人的中性表情下的三维人脸模型。

在理想状态下，利用三维偏移预测模型预测出的动画顶点偏移数据对三维基础人脸模型驱动后的三维人脸偏移动画应该与动画音频特征携带的样本三维人脸动画相同，此时三维偏移预测模型的预测能力最为准确。因此，为了提高三维偏移预测模型的预测准确度，需要计算三维人脸偏移动画与样本三维人脸动画之间的第三损失函数，根据该第三损失函数对三维偏移预测模型进行模型参数调整，以使三维偏移预测模型预测出的样本顶点偏移数据驱动的三维人脸偏移动画与样本三维人脸动画逐渐接近，从而实现对三维偏移预测模型的调优。

作为一种可选的实现方式，在本申请另一实施例中公开了，三维偏移预测模型的训练过程，具体还可以包括如下步骤：

第一，获取样本视频对应的音频对样本视频中人脸的驱动特征。

本实施例中，利用情绪提取网络提取样本视频中的情绪特征时，提取到的情绪特征可能会混合有音频驱动下人脸的运动特征，即样本视频中人脸在说出音频时脸部的动作，例如音频输出时人脸***部位的动作。当三维偏移预测模型根据音频特征和情绪特征进行三维模型顶点偏移预测时，为了保证可以使得音频驱动三维人脸模型可以***任何情绪，并且***的情绪不会影响音频对三维人脸模型的驱动，此时需要利用更为纯净的情绪特征（即与音频驱动的人脸偏移无关的特征）对三维偏移预测模型进行训练。因此，本实施例需要对提取出的样本视频对应的情绪特征与音频驱动的相关表征进行解耦。首先需要获取样本视频对应的音频对样本视频中人脸的驱动特征。例如，将每帧音频对应的视频帧中人脸特征相比于该人脸中性表情时的特征中，***部位的偏移特征作为该音频帧对人脸的驱动特征。

第二，计算驱动特征与样本视频对应的情绪特征之间的互信息。

由于利用情绪提取网络提取样本视频中的情绪特征时，提取到的情绪特征可能会混合有音频对人脸的驱动特征，也就是说样本视频对应的情绪特征与音频对人脸的驱动特征之间存在互信息，本实施例需要利用现有的互信息的计算方式计算出驱动特征与样本视频对应的情绪特征之间的互信息。

第三，以最小化互信息为目标，对三维偏移预测模型进行参数调整。

在利用样本视频对应的4D合成数据、样本视频对应的音频特征和样本视频对应的情绪特征对三维偏移预测模型进行训练过程中，还可以将计算出的驱动特征与样本视频对应的情绪特征之间的互信息加入到损失函数中，以最小化互信息为目标，对三维偏移预测模型进行参数调整，从而降低情绪特征对语音驱动三维人脸模型的影响，提高三维人脸模型驱动过程中的情绪化效果。

作为一种可选的实现方式，在本申请另一实施例中公开了，在利用目标语音进行三维人脸模型驱动过程中，将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型的同时，还可以输入想要驱动的说话人对应的说话人编码，该说话人编码中记录了该说话人在进行说话时的个人习惯特征等，以使三维偏移预测模型在进行三维模型顶点偏移预测时不仅能够结合情绪特征，还能结合说话人的个人习惯等，从而使得按照三维偏移预测模型预测出的三维模型顶点偏移数据驱动后的三维人脸动画的拟人度更高。对于可以结合说话人编码进行三维模型顶点偏移预测的三维偏移预测模型在进行模型训练时，输入到模型中的数据也需要包含说话人编码来对模型进行训练，具体方式与输入样本视频的情绪特征后进行模型训练的方式相同，也是将说话人编码作为模型的嵌入层进行训练的，本实施例不再具体阐述。

示例性装置

与上述基于语音的三维人脸模型驱动方法相对应的，本申请实施例还公开了一种基于语音的三维人脸模型驱动装置，参见图5所示，该装置包括：

偏移预测模块100，用于基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据；

驱动模块110，用于按照三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到目标语音对应的三维人脸动画；

偏移预测参数，是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。

本申请实施例提出的基于语音的三维人脸模型驱动装置，可以将样本视频的每帧图像重建为三维人脸模型，从而得到4D合成数据作为确定偏移预测参数的样本数据，相比利用三维扫描设备采集4D数据，成本较低，提高了样本数据的数据量和多样性，能够提高偏移预测参数的预测效果，从而提高语音驱动三维人脸模型的准确度，并且通过情绪特征的输入，提高了语音驱动三维人脸模型的情绪化效果。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的偏移预测模块100，具体用于：

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的偏移预测模块100，具体还用于：

将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型中，得到目标语音对应的三维模型顶点偏移数据；

三维偏移预测模型，是利用样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测训练得到的；样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照样本视频的帧率合成的数据。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的目标情绪特征是从包含目标情绪的视频中进行情绪特征提取得到的。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置，还包括：训练数据确定模块、数据输入模块和模型参数调整模块。

训练数据确定模块，用于确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征；

数据输入模块，用于将音频特征和情绪特征输入到三维偏移预测模型中，得到三维偏移预测模型输出的样本顶点偏移数据；

模型参数调整模块，用于基于第一三维动画与4D合成数据之间的第一损失函数，对三维偏移预测模型进行模型参数调整；其中，第一三维动画是按照样本顶点偏移数据对三维基础人脸模型进行驱动后的三维人脸动画。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置，还包括：插值模块。

插值模块，用于根据样本视频的帧率、音频特征的帧率，以及预先设置的帧率对齐规则，对音频特征进行线性插值。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置，还包括：渲染模块。

渲染模块，用于将第一三维动画渲染为2D图像序列；

模型参数调整模块，还用于以2D图像序列与样本视频的视频帧序列之间的误差作为第二损失函数，对三维偏移预测模型进行模型参数调整。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置中：

训练数据确定模块，还用于确定预先采集的样本三维人脸动画，以及样本三维人脸动画对应的动画音频特征和动画情绪特征；

数据输入模块，还用于将动画音频特征和动画情绪特征输入到训练后的三维偏移预测模型中，得到样本三维人脸动画对应的动画顶点偏移数据；

模型参数调整模块，还用于基于动画顶点偏移数据对应的三维人脸偏移动画与样本三维人脸动画之间的第三损失函数，对训练后的三维偏移预测模型进行模型参数调整；其中，三维人脸偏移动画是按照动画顶点偏移数据对三维基础人脸模型进行驱动后的三维人脸动画。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置，还包括：获取模块和计算模块。

获取模块，用于获取样本视频对应的音频对样本视频中人脸的驱动特征；

计算模块，用于计算驱动特征与样本视频对应的情绪特征之间的互信息；

模型参数调整模块，还用于以最小化互信息为目标，对三维偏移预测模型进行参数调整。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置中，训练数据确定模块具体用于：

按照样本视频对应的帧率，将各个视频帧对应的三维重建人脸模型进行合成，得到样本视频对应的4D合成数据；

对样本视频对应的音频进行语音特征提取，得到样本视频对应的音频特征，以及，对样本视频进行情绪特征提取，得到样本视频对应的情绪特征。

作为一种可选的实现方式，在本申请另一实施例中公开了，以上实施例的基于语音的三维人脸模型驱动装置中，偏移预测模块100将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型中，得到目标语音对应的三维模型顶点偏移数据，以及，驱动模块110按照三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到目标语音对应的三维人脸动画，包括：

将目标语音的语音特征和目标情绪特征输入到预先训练的语音驱动模型中，语音驱动模型利用三维偏移预测模型预测目标语音对应的三维模型顶点偏移数据，并按照三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到目标语音对应的三维人脸动画。

本实施例提供的基于语音的三维人脸模型驱动装置，与本申请上述实施例所提供的基于语音的三维人脸模型驱动方法属于同一申请构思，可执行本申请上述任意实施例所提供的基于语音的三维人脸模型驱动方法，具备执行基于语音的三维人脸模型驱动方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本申请上述实施例提供的基于语音的三维人脸模型驱动方法的具体处理内容，此处不再加以赘述。

示例性电子设备、存储介质和计算产品

与上述基于语音的三维人脸模型驱动方法相对应的，本申请实施例还公开了一种电子设备，参见图6所示，该电子设备包括：

存储器200和处理器210；

其中，存储器200与处理器210连接，用于存储程序；

处理器210，用于通过运行存储器200中存储的程序，实现上述任一实施例公开的基于语音的三维人脸模型驱动方法。

具体地，上述电子设备还可以包括：总线、通信接口220、输入设备230和输出设备240。

处理器210、存储器200、通信接口220、输入设备230和输出设备240通过总线相互连接。其中：

总线可包括一通路，在计算机***各个部件之间传送信息。

处理器210可以是通用处理器，例如通用中央处理器（CPU）、微处理器等，也可以是特定应用集成电路（application-specificintegrated circuit，ASIC），或一个或多个用于控制本申请方案程序执行的集成电路。还可以是数字信号处理器（DSP）、专用集成电路（ASIC）、现成可编程门阵列（FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

处理器210可包括主处理器，还可包括基带芯片、调制解调器等。

存储器200中保存有执行本申请技术方案的程序，还可以保存有操作***和其他关键业务。具体地，程序可以包括程序代码，程序代码包括计算机操作指令。更具体的，存储器200可以包括只读存储器（read-only memory，ROM）、可存储静态信息和指令的其他类型的静态存储设备、随机存取存储器（random access memory，RAM）、可存储信息和指令的其他类型的动态存储设备、磁盘存储器、flash等等。

输入设备230可包括接收用户输入的数据和信息的装置，例如键盘、鼠标、摄像头、扫描仪、光笔、语音输入装置、触摸屏、计步器或重力感应器等。

输出设备240可包括允许输出信息给用户的装置，例如显示屏、打印机、扬声器等。

通信接口220可包括使用任何收发器一类的装置，以便与其他设备或通信网络通信，如以太网，无线接入网（RAN），无线局域网（WLAN）等。

处理器210执行存储器200中所存放的程序，以及调用其他设备，可用于实现本申请上述实施例所提供的基于语音的三维人脸模型驱动方法的各个步骤。

本申请另一实施例还提供了一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器执行时，实现上述任一实施例提供的基于语音的三维人脸模型驱动方法的各个步骤。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必需的。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。

本申请各实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减，各实施例中记载的技术特征可以进行替换或者组合。

本申请各实施例中装置及终端中的模块和子模块可以根据实际需要进行合并、划分和删减。

本申请所提供的几个实施例中，应该理解到，所揭露的终端，装置和方法，可以通过其他的方式实现。例如，以上所描述的终端实施例仅仅是示意性的，例如，模块或子模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个子模块或模块可以结合或者可以集成到另一个模块，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其他的形式。

作为分离部件说明的模块或子模块可以是或者也可以不是物理上分开的，作为模块或子模块的部件可以是或者也可以不是物理模块或子模块，即可以位于一个地方，或者也可以分布到多个网络模块或子模块上。可以根据实际的需要选择其中的部分或者全部模块或子模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块或子模块可以集成在一个处理模块中，也可以是各个模块或子模块单独物理存在，也可以两个或两个以上模块或子模块集成在一个模块中。上述集成的模块或子模块既可以采用硬件的形式实现，也可以采用软件功能模块或子模块的形式实现。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件单元，或者二者的结合来实施。软件单元可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其他形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”“包含”或者其任何其他变体意在涵盖非排他性地包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其他实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于语音的三维人脸模型驱动方法，其特征在于，包括：

所述偏移预测参数，是通过样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测处理而确定的；所述样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照所述样本视频的帧率合成的数据；图像对应的三维重建人脸模型是对所述图像进行三维人脸重建得到的；

所述基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据，包括：

2.根据权利要求1所述的方法，其特征在于，基于目标语音的语音特征和目标情绪特征，按照预先确定的偏移预测参数，进行三维模型顶点偏移预测，得到目标语音对应的三维模型顶点偏移数据，包括：

所述三维偏移预测模型，是利用样本视频对应的4D合成数据、音频特征和情绪特征，进行三维模型顶点偏移预测训练得到的；所述样本视频对应的4D合成数据，是将样本视频的每帧图像对应的三维重建人脸模型，按照所述样本视频的帧率合成的数据；图像对应的三维重建人脸模型是对所述图像进行三维人脸重建得到的。

3.根据权利要求1所述的方法，其特征在于，所述目标情绪特征是从包含所述目标情绪的视频中进行情绪特征提取得到的。

4.根据权利要求2所述的方法，其特征在于，所述三维偏移预测模型的训练过程，包括：

5.根据权利要求4所述的方法，其特征在于，确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征之后，还包括：

6.根据权利要求4所述的方法，其特征在于，所述三维偏移预测模型的训练过程，还包括：

将所述第一三维动画渲染为2D图像序列；

7.根据权利要求4所述的方法，其特征在于，所述三维偏移预测模型的训练过程，还包括：

8.根据权利要求4所述的方法，其特征在于，所述三维偏移预测模型的训练过程还包括：

9.根据权利要求4所述的方法，其特征在于，确定预先采集的样本视频对应的4D合成数据、音频特征和情绪特征，包括：

10.根据权利要求2所述的方法，其特征在于，将目标语音的语音特征和目标情绪特征输入到预先训练的三维偏移预测模型中，得到所述目标语音对应的三维模型顶点偏移数据，以及，按照所述三维模型顶点偏移数据，对三维基础人脸模型进行驱动，得到所述目标语音对应的三维人脸动画，包括：

11.一种基于语音的三维人脸模型驱动装置，其特征在于，包括：

所述偏移预测模块，具体用于将目标语音中的语音帧对应的情绪融合特征和语音特征进行融合，得到语音帧对应的编码特征；其中，语音帧对应的情绪融合特征由目标情绪特征与语音帧的前一语音帧对应的三维模型顶点偏移数据融合得到；对目标语音中的语音帧对应的编码特征进行解码，得到目标语音中的语音帧对应的三维模型顶点偏移数据。

12.一种电子设备，其特征在于，包括：存储器和处理器；

其中，所述存储器与所述处理器连接，用于存储程序；

所述处理器，用于通过运行所述存储器中的程序，实现如权利要求1至10中任一项所述的基于语音的三维人脸模型驱动方法。

13.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1至10中任一项所述的基于语音的三维人脸模型驱动方法。