CN115423908A

CN115423908A - 虚拟人脸的生成方法、装置、设备以及可读存储介质

Info

Publication number: CN115423908A
Application number: CN202211001446.7A
Authority: CN
Inventors: 孙立发; 钟静华
Original assignee: Shenzhen Dadan Shusheng Technology Co ltd
Current assignee: Shenzhen Dadan Shusheng Technology Co ltd
Priority date: 2022-08-19
Filing date: 2022-08-19
Publication date: 2022-12-02

Abstract

本发明涉及人工智能技术领域，尤其涉及一种虚拟人脸的生成方法、装置、设备以及可读存储介质，其中，所述方法包括：获取语音输入；将语音输入通过预训练人脸模型，确定通用嘴型特征；根据通用嘴型特征，确定通用嘴型区域信息；将通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；根据嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。通过预先训练生成可供不同定制对象使用的预训练模型，基于此模型只需要提取嘴型区域即可完成虚拟形象定制，降低了AI虚拟形象定制对于训练数据和训练时间，解决了如何降低虚拟形象定制的训练数据量和训练时间的问题。

Description

虚拟人脸的生成方法、装置、设备以及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种虚拟人脸的生成方法、装置、设备以及可读存储介质。

背景技术

AI(Artificial Intelligence，人工智能)驱动型虚拟形象生成技术是一种基于人工智能驱动，利用音频生成特定人的相应动作、表情、语言等技术。虚拟形象可以用在虚拟助手、虚拟主播、虚拟老师等各个领域中。定制某个人专属的虚拟形象，需要采用大量的训练数据，对初始模型训练较长时间，从而使虚拟形象的面部表情和真人的表情相对应。

在一些常见的虚拟形象训练相关的算法中，例如Synthesizing Obama算法，其需要长达17小时的视频数据来进行虚拟形象的模型训练；例如Neural Voice Puppetry:Audio算法，其也至少需要3.3小时的视频数据。大量的训练数据和较长的训练时间增加了虚拟形象的定制成本和定制门槛，存在虚拟形象定制难度较大的问题。

上述内容仅用于辅助理解本发明的技术方案，并不代表承认上述内容是现有技术。

发明内容

本发明的主要目的在于提供一种虚拟人脸的生成方法，旨在解决如何降低虚拟形象定制的训练数据量和训练时长的问题。

为实现上述目的，本发明提供的一种虚拟人脸的生成方法，所述方法包括：

获取语音输入；

将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

根据所述通用嘴型特征，确定通用嘴型区域信息；

将所述通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；

根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。

所述将所述音频数据通过预训练人脸模型，确定通用嘴型特征的步骤之前，包括：

获取预训练数据，所述预训练数据包括音频数据和视频数据；

将所述音频数据输入语音后验特征提取模型，以及将所述视频数据输入人脸检测对齐模型；

根据输入所述音频数据后的所述语音后验特征提取模型，生成语音后验特征，以及根据输入所述视频数据后的所述人脸检测对齐模型，生成嘴型特征；

根据所述语音后验特征和所述嘴型特征，确定所述预训练人脸模型。

可选地，所述根据所述通用嘴型特征，确定通用嘴型区域信息的步骤包括：

获取通用模型对应的形象图片；

将所述通用模型的形象图片输入人脸3D形变统计模型，生成通用嘴型人脸3D形变统计参数；

根据所述通用嘴型人脸3D形变统计参数，确定所述通用嘴型区域信息。

可选地，所述根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸的步骤包括：

根据所述嘴型区域信息，确定所述目标人物的目标采集区域；

以及，根据所述非嘴型区域信息确定所述目标人物的非目标采集区域；

基于像素点对模型，根据所述目标采集区域和所述非目标采集区域，生成所述虚拟人脸。

可选地，所述基于像素点对模型，根据所述目标采集区域和所述非目标采集区域，生成所述虚拟人脸的步骤包括：

确定所述目标采集区域和所述非目标采集区域中的识别参数、位姿参数和表情参数；

根据所述识别参数、所述位姿参数和所述表情参数，生成所述目标人物的嘴部图像；

获取输入的训练视频数据中的每一帧形象图片；

根据所述每一帧形象图片，确定所述目标人物除所述嘴部图像外的其他部位图像；

基于对抗生成网络，根据所述每一帧形象图片的嘴部图像和所述其他部位图像，生成所述虚拟人脸。

可选地，所述根据所述每一图片帧的所述识别参数、所述位姿参数和所述表情参数，确定所述目标人物的嘴部信息的步骤之后，包括：

确定所述嘴部图像和所述目标人物的实际嘴部图像之间的相似度；

当所述相似度大于相似度阈值，执行所述获取输入的训练视频数据中的每一帧形象图片的步骤。

可选地，所述预训练人脸模型包括语音后验特征提取模型和语音后验特征驱动表情模型，所述将所述音频数据通过预训练人脸模型，确定通用嘴型特征的步骤包括：

基于所述语音后验特征提取模型，根据所述音频数据确定语音后验概率特征；

基于所述语音后验特征驱动表情模型，根据所述语音后验概率特征确定所述通用嘴型特征。

此外，为实现上述目的，本发明还提供一种虚拟人脸的生成装置，所述虚拟人脸的生成装置包括：

音频输入模块，用于获取语音输入；

语音驱动表情模块，用于将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

人脸3D形变统计模块，用于根据所述通用嘴型特征，确定通用嘴型区域信息；

表情迁移模块，用于将所述通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；

人脸生成模块，用于根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。

此外，为实现上述目的，本发明还提供一种虚拟人脸的生成设备，所述设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的虚拟人脸的生成程序，所述虚拟人脸的生成程序被所述处理器执行时实现如上所述的虚拟人脸的生成方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有虚拟人脸的生成程序，所述虚拟人脸的生成程序被处理器执行时实现如上所述的虚拟人脸的生成方法的步骤。

本发明实施例提供一种虚拟人脸的生成方法、装置、设备以及计算机可读存储介质，其中，所述方法包括：获取语音输入；将所述语音输入通过预训练人脸模型，确定通用嘴型特征；根据所述通用嘴型特征，确定通用嘴型区域信息；将所述通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。通过预先训练生成可供不同定制对象使用的预训练模型，基于此模型只需要提取嘴型区域即可完成虚拟形象定制，降低了AI虚拟形象定制对于训练数据和训练时间，解决了如何降低虚拟形象定制的训练数据量和训练时间的问题。

附图说明

图1为本发明实施例涉及的虚拟人脸的生成设备的硬件架构示意图；

图2为本发明实施例涉及的一具体实施方式中虚拟人脸的生成方法的整体流程示意图；

图3为本发明虚拟人脸的生成方法的第一实施例的流程示意图；

图4为本发明虚拟人脸的生成方法的第一实施例中涉及的PPG2Expression模型的训练流程示意图；

图5为本发明虚拟人脸的生成方法的第一实施例中涉及的传统训练法和元学习法的训练对象的对比示意图；

图6为本发明虚拟人脸的生成方法的第一实施例中涉及的中元学习法对比传统训练方法的效果示意图；

图7为本发明虚拟人脸的生成方法的第一实施例中涉及的嘴型区域替换效果示意图；

图8为本发明虚拟人脸的生成方法的第一实施例中涉及的生成对抗网络的生成判别流程示意图；

图9为本发明虚拟人脸的生成方法的第一实施例中涉及的基于训练出的PPG2Expression模型的人脸生成流程示意图；

图10为本发明虚拟人脸的生成装置的架构示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

本申请通过引Expression Transfer表情迁移模型和Pix2Pix像素点对模型，降低***对于训练数据的要求，仅需要10分钟左右的视频数据即可。在本***中各个模块可单独训练，Speech2Expression语音驱动表情模型可通过任意物的视频进行训练，并且训练完成之后即便更新目标形象，也无需重复训练。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

作为一种实现方案，虚拟人脸的生成设备可以如图1所示。

本发明实施例方案涉及的是虚拟人脸的生成设备，所述虚拟人脸的生成设备包括：处理器101，例如CPU，存储器102，通信总线103。其中，通信总线103用于实现这些组件之间的连接通信。

存储器102可以是高速RAM存储器，也可以是稳定的存储器(non-volatilememory)，例如磁盘存储器。如图1所示，作为一种计算机可读存储介质的存储器102中可以包括虚拟人脸的生成程序；而处理器101可以用于调用存储器102中存储的虚拟人脸的生成程序，并执行以下操作：

获取语音输入；

将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

根据所述通用嘴型特征，确定通用嘴型区域信息；

在一实施例中，处理器101可以用于调用存储器102中存储的虚拟人脸的生成程序，并执行以下操作：

获取通用模型对应的形象图片；

获取输入的训练视频数据中的每一帧形象图片；

基于上述基于人工智能技术的虚拟人脸的生成设备的硬件架构，提出本发明虚拟人脸的生成方法的实施例。

参照图2，图2为一具体实施方式中虚拟人脸的生成方法的整体流程示意图。目标人物输入音频数据Speech，将Speech输入Speech2PPG模型，提取出Speech2PPG模型中的PPG，将PPG输入至CNN网络结合LSTM模型或Transformer模型生成的通用模型中，再将结果输入至PPG2Expression模型中，得到3D模型脸的嘴部区域，通过Pix2Pix像素点对模型，将得到的嘴部区域和嘴部区域之外的图像，通过GAN网络将二者结合，输出虚拟人脸。

参照图3，在第一实施例中，所述虚拟人脸的生成方法包括以下步骤：

步骤S10，获取语音输入；

在本实施例中，首先获取语音输入，语音输入可以来自需要生成虚拟人脸的对象也可以来自需要对已生成的虚拟人脸用语音进行驱动的对象。

步骤S20，将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

在获取到语音输入之后，将所述语音输入通过预训练人脸模型，确定通用嘴型特征。

可选地，通用嘴型特征包括自然嘴型特征和动态嘴型特征，自然嘴型特征为目标人物嘴唇处于自然闭合状态下的特征参数，动态嘴型特征则为目标人物正常说话时嘴唇处于张开等非自然状态下的特征参数。自然嘴型特征可以从目标人物对应的训练数据(如一段视频)中获取到目标人物的嘴唇处于自然闭合状态下的图片帧中提取，动态嘴型特征可以从训练数据(如一段视频)中目标人物的嘴唇处于非自然状态下的图片帧中提取，该提取方式较为现有，不作为本实施例的描述重点。

在本实施例中，预训练模型为一通用模型，接收来自不同的采集对象的语音输入均可以代入到该预训练模型中进行训练，从而得到语音输入对象在预训练模型中的对应的通用嘴型特征。

需要说明的是，在虚拟形象的定制过程中，其主要的训练区域为嘴型区域，而其他区域的变化程度较低，因此，为了能够降低训练时间和训练数据量，在本实施例中只将通用嘴型特征和预训练模型进行训练，相较于整个面部的数据训练，这种方式能够在保证定制出的虚拟形象效果足够好的前提下，降低了整个定制过程的训练时间和训练数据量，并且由于预训练模型的存在，来自不同的语音输入对象录入的训练数据均可以代入到该预训练模型中进行训练，而不需要在每次定制的时候都要训练一个目标人物对应的训练模型。

可选地，通过获取音频数据和视频数据，将所述音频数据输入语音后验特征提取模型，并将视频数据输入人脸检测对齐模型；根据输入音频数据后的语音后验特征提取模型确定语音后验概率(Phonetic Posteriorgrams,PPG)特征，以及根据输入所述视频数据后的所述人脸检测对齐模型确定嘴型特征；根据语音后验特征和嘴型特征，生成预训练人脸模型。

在一些具体实施方式中，预训练人脸模型为Speech2Expression语音驱动表情模型(下称为Speech2Expression模型)。Speech2Expression模型可以分为Speech2PPG语音后验特征提取模型(下称为Speech2PPG模型)和PPG2Expression语音后验特征驱动表情模型(下称为PPG2Expression模型)。Speech2PPG的模型训练可以借鉴语音识别的通用数据库，可以选择LSTM(Long Short Term Memory，记忆长短期信息的能力的神经网络)模型，Transformer模型等通用模型进行建模，建模完成后得到的初始模型中，只保留后验概率部分，其复数形式表示为PPGs。PPGs特征P_t可以表示为：

P_t＝p(s|X_t)|s＝1,2,...,C)

其中，X_t是音频的第t帧MFCC(Mel Frequency Cepstral Coefficents，梅尔倒谱系数)特征，s＝1,2,...,C表示音素集合，p(s|X_t)表示在对于每个音素的后验概率。由于Speech2PPG模型是通过很多说话者的数据进行训练，可以认为提取得到PPGs特征不含有说话者信息。因此可以作为通用模型用于驱动PPG2Expression模型。

下面对PPG2Expression模型的训练做详细说明：

参照图4，首先，将训练数据分为音频部分和视频部分，两者对应，对于每帧，分别利用Speech2PPG模型提取PPG特征，利用脸检测和人脸对齐方法提取唇形特征。将PPG特征和唇形特征通过神经网络RNN建立映射关系。关于PPG2Expression模型训练，采用MetaLearning的方法，Meta Learning在语音识别等领域被证明了有效性。需要说明的是，传统的方法利用大量的数据进行预训练，然后在新的语音输入对象出现之后，再进行Fine tune微调。但是在预训练的数据库数据量不够大，数据多样性不够丰富的时候，会有较差的效果。如图5所示，传统方法的预训练目标是得到个在语音输入对象A，语音输入对象B，语音输入对象C的测试集上面最优的效果，但是在预训练完成后迁移到新的语音输入对象就会有大的误差。元学习Meta Learning的预训练目标是找到初始化效果最好的初始模型参数，使得模型在新的语音输入对象上面的表现达到最优。

在一些具体实施方式中，元学习Meta Learning的训练过程如下：

首先，设定Loss函数L(φ)：

其中，其中N代表共有N个任务，也就是N个不同的说话者，l表示对于任务n在训练之后的损失loss。

然后，采用梯度下降(Gradient Descent)法对φ进行训练，得到的参数φ，使整个L(φ)函数最小：

φ^*＝argmin_φL(φ)

φ^*即为训练后得到的初始化效果最好的初始模型参数。

示例性地，参照图6，图6为一具体实施方式中Meta Learning元学习法对比传统训练方法的效果图，其中，Transfer迁移学习代表传统方法，即利用大量数据进行预训练，然后有新样本之后进行fine tune微调。横轴代表训练的步数，纵轴代表错误率。可以看出Meta Learning会更快的下降，并且更加错误率更低，得到的结果更稳定。

示例性地，在一些具体实施方式中，不同学习方法得到的训练数据的错误率如下表所示：

步骤S30，根据所述通用嘴型特征，确定通用嘴型区域信息；

在确定出通用嘴型特征之后，根据通用嘴型特征确定通用嘴型区域信息。

可选地，确定方式可以为获取通用模型对应的形象图片，然后将通用模型的形象图片输入人脸3D形变统计模型(又称3DMM模型)，生成通用嘴型人脸3D形变统计参数，根据通用嘴型人脸3D形变统计参数，确定通用嘴型区域信息。通用嘴型区域信息包含通用嘴型特征对应的图像信息和在通用虚拟人脸模型中对应的位置信息。

步骤S40，将所述通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；

在确定出嘴型区域信息之后，将通用嘴型区域信息通过表情迁移模型，确定出目标人物对应的嘴型区域信息。在本实施例中。目标人物表征为虚拟人脸的生成对象。

可选地，获取通用模型对应的形象图片，将通用模型的形象图片输入人脸3D形变统计模型，生成通用嘴型人脸3D形变统计参数，人脸3D形变统计模型根据通用嘴型人脸3D形变统计参数，确定出通用嘴型区域信息。

示例性地，在一些具体实施方式中，Expression Transfer模型中输出的表达参数为Exp_Model，嘴型人脸3D形变统计参数为Exp_General_Neutral，目标嘴型人脸3D形变统计参数为Exp_Target_Neutral，嘴型区域信息的对应函数Exp_Output如下：

Exp_Output＝Exp_Model-Exp_General_Neutral+Exp_Target_Neutral

步骤S50，根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。

在确定出目标人物对应的嘴型区域信息之后，根据嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。非嘴型区域表征为虚拟人脸中除嘴型区域以外的面部区域，非嘴型区域信息包含目标人脸对应的图像信息和位置信息。将嘴型区域信息带入到预训练人脸模型中，替换训练人脸模型中原有的嘴型区域部分，在将替换后的人脸模型结合目标人物的非嘴型区域信息，从而生成虚拟人脸。

可选地，参照图7，将训练人脸模型中原有的嘴型区域作为目标采集区域，目标采集区域由预训练人脸模型和目标人物的面部信息确定，非目标采集区域表征为目标人物的除原有的嘴型区域之外，即人脸上半区域部分，而目标采集区域则对应人脸下半区域部分，将两者作为输入至Pix2Pix像素点对模型中，输出虚拟人脸。

可选地，可以通过人脸3D形变统计模型，即3DMM模型，提取单帧图像中的目标采集区域和非目标采集区域的识别参数identity、位姿参数pose和表情参数expression，初步生成目标人物的嘴部图像，再获取输入的训练视频数据中的每一帧形象图片，提取每一帧形象图片中除目标人物嘴部图像之外的其他部位图像，通过对抗生成网络(ConditionalGenerative Adversarial Networks，CGAN)对嘴部图像进行训练，最终生成虚拟人脸。

可选地，在确定目标人物的嘴部信息之后，为了验证生成的脸照片和真实的脸照片一致，通过如图8所示的判别器D对生成器G的虚拟人脸生成结果进行判别，确定嘴部图像和目标人物的实际嘴部图像之间的相似度，当相似度大于相似度阈值，判断结果为True，判断所述虚拟人脸生成成功，输出虚拟人脸；否则判断为Fake，判断所述虚拟人脸生成失败。

在本实施例提供的方案中，通过获取语音输入，将所述语音输入通过预训练人脸模型，确定通用嘴型特征，根据通用嘴型特征确定通用嘴型区域信息，将通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息，根据嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸的方式。通过预先训练生成可供不同的语音输入对象的预训练模型，省去了虚拟形象定制过程中针对每一定制者需要单独训练整个面部虚拟形象模型这一步骤，从而大大降低了AI虚拟形象定制对于训练数据的要求，并且基于此模型，只需要提取嘴型区域即可完成虚拟形象定制。

此外，参照图9，图9为基于神经网络RNN训练生成的PPG2Expression模型进行人脸生成的流程示意图。虚拟人脸的定制对象(即目标人物)通过音频数据(Wav格式)输入Speech2PPG模型，得到PPG特征(PPGs)，将PPGs输入PPG2Expression，得到唇型特征(即嘴型特征)，再将唇型特征输入人脸生成模型中，最后生成定制对象对应的虚拟人脸。

此外，参照图10，本发明还提供一种虚拟人脸的生成装置，所述虚拟人脸的生成装置包括：

音频输入模块100，用于获取语音输入；

语音驱动表情模块200，用于将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

人脸3D形变统计模块300，用于根据所述通用嘴型特征，确定通用嘴型区域信息；

表情迁移模块400，用于将所述通用嘴型区域信息通过表情迁移模型，确定目标人物对应的嘴型区域信息；

人脸生成模块500，用于根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸。

此外，本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序包括程序指令，计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该程序指令被虚拟人脸的生成设备中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有虚拟人脸的生成程序，所述虚拟人脸的生成程序被处理器执行时实现如上实施例所述的虚拟人脸的生成方法的各个步骤。

其中，所述计算机可读存储介质可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种虚拟人脸的生成方法，其特征在于，所述方法包括：

获取语音输入；

将所述语音输入通过预训练人脸模型，确定通用嘴型特征；

根据所述通用嘴型特征，确定通用嘴型区域信息；

2.如权利要求1所述的虚拟人脸的生成方法，其特征在于，所述将所述语音输入通过预训练人脸模型，确定通用嘴型特征的步骤之前，包括：

3.如权利要求1所述的虚拟人脸的生成方法，其特征在于，所述根据所述通用嘴型特征，确定通用嘴型区域信息的步骤包括：

获取通用模型对应的形象图片；

4.如权利要求1所述的虚拟人脸的生成方法，其特征在于，所述根据所述嘴型区域信息和目标人物的非嘴型区域信息，生成虚拟人脸的步骤包括：

5.如权利要求4所述的虚拟人脸的生成方法，其特征在于，所述基于像素点对模型，根据所述目标采集区域和所述非目标采集区域，生成所述虚拟人脸的步骤包括：

获取输入的训练视频数据中的每一帧形象图片；

6.如权利要求5所述的虚拟人脸的生成方法，其特征在于，所述根据所述每一图片帧的所述识别参数、所述位姿参数和所述表情参数，确定所述目标人物的嘴部信息的步骤之后，包括：

7.如权利要求1所述的虚拟人脸的生成方法，其特征在于，所述预训练人脸模型包括语音后验特征提取模型和语音后验特征驱动表情模型，所述将所述音频数据通过预训练人脸模型，确定通用嘴型特征的步骤包括：

8.一种虚拟人脸的生成装置，其特征在于，所述虚拟人脸的生成装置包括：

音频输入模块，用于获取音频数据；

语音驱动表情模块，用于将所述音频数据通过预训练人脸模型，确定通用嘴型特征；

9.一种虚拟人脸的生成设备，其特征在于，所述虚拟人脸的生成设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的虚拟人脸的生成程序，所述虚拟人脸的生成程序被所述处理器执行时实现如权利要求1至7中任一项所述的虚拟人脸的生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有虚拟人脸的生成程序，所述虚拟人脸的生成程序被处理器执行时实现如权利要求1至7中任一项所述的虚拟人脸的生成方法的步骤。