CN118279457A

CN118279457A - 一种基于大脑启发式的文本驱动三维人脸方法

Info

Publication number: CN118279457A
Application number: CN202410674527.6A
Authority: CN
Inventors: 邢晓芬; 刘莲莲; 蓝屹林; 徐向民
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2024-05-29
Filing date: 2024-05-29
Publication date: 2024-07-02

Abstract

本发明公开了一种基于大脑启发式的文本驱动三维人脸方法，涉及三维人脸动画驱动技术，针对现有技术中缺乏文本驱动的问题提出本方案。获取三维人脸网格序列样本等信息并划分为训练集和测试集；建立文本驱动三维人脸动画整体模型；训练模型以同时生成三维动态人脸以及合成语音；获取性能最好的文本驱动三维人脸动画整体模型与大规模预训练语言模型连接，建立基于大脑启发式的文本驱动三维人脸动画模型；将文本描述输入基于大脑启发式的文本驱动三维人脸动画模型，输出指定的三维人脸动画。优点在于，借助大规模预训练语言模型，利用文本‑语音共享特征，同时回归生成三维动态人脸以及合成语音，达到增加文本生成的三维虚拟数字人脸真实性的目的。

Description

一种基于大脑启发式的文本驱动三维人脸方法

技术领域

本发明涉及三维人脸动画驱动技术，尤其涉及一种基于大脑启发式的文本驱动三维人脸方法。

背景技术

三维数字人技术，作为人工智能和计算机图形学交汇的产物，引起了学术界的广泛关注。而三维数字人面部动画一直是一个活跃的研究课题，并且在虚拟现实、电影制作和游戏中有广泛应用。在这些应用中，需要通过输入文本或者语音等信号，生成逼真的三维数字人面部动画。随着大规模预训练语言模型如GPT的崭露头角，人们已经开始利用这些模型从庞大的数据集中提取文本形式的答案，以满足各种查询需求。考虑到元宇宙的不断崛起，可以将文本数据与数字人技术相结合，借助大规模预训练语言模型来生成更为逼真和生动的数字人，以响应用户各种查询的需求。这一融合将有助于将大规模预训练语言模型与元宇宙数字人概念相融合，以提升用户的交互体验。

现有的文本驱动三维动态人脸的方法在现有技术中并未特意去进行专门研究，而是利用现有的文本转语音技术先将文本转换成合成语音，再通过语音去驱动三维动态人脸。虽然这种方法能将文本驱动问题转换成现有大量先进研究的语音驱动问题，但是这种技术路线存在许多问题。首先，从人类大脑机制出发，语音并不是人脸面部运动的前提条件，人体大脑应该是同时控制面部肌肉运动以及生成语音的；其次如果采用现有技术路线，意味着是采用合成语音驱动人脸面部运动的，但目前语音驱动三维人脸中输入的都是在录音棚环境下无噪声的高品质无损音频，对于文本转语音技术生成的存在信息损失和噪声的合成语音作为输入再进行语音驱动则会进一步减弱最后获得的三维动态人脸的真实感。

因此，借助大规模预训练语言模型提升用户的交互体验，提高文本驱动三维人脸动画的真实性、连续性，是文本驱动三维人脸动画驱动技术目前亟待解决的问题。

发明内容

本发明目的在于提供一种基于大脑启发式的文本驱动三维人脸方法，以解决上述现有技术存在的问题。

本发明中所述一种基于大脑启发式的文本驱动三维人脸方法，包括以下步骤：

S1.获取三维人脸网格序列样本，音频文件，与音频文件对应的语料，划分为训练集和测试集；

S2.建立文本驱动三维人脸动画整体模型，所述文本驱动三维人脸动画整体模型包括文本编码器、文本合成语音模型、文本生成三维人脸动画模型、语音特征提取器；

训练文本驱动三维人脸动画整体模型以同时生成三维动态人脸以及合成语音；

S3.根据测试集样本衡量文本驱动三维人脸动画整体模型的性能，并获取性能最好的模型；

S4.将性能最好的文本驱动三维人脸动画整体模型与大规模预训练语言模型连接，建立基于大脑启发式的文本驱动三维人脸动画模型；

S5.将文本描述输入基于大脑启发式的文本驱动三维人脸动画模型，输出指定的三维人脸动画。

本发明中所述一种基于大脑启发式的文本驱动三维人脸方法，其优点在于，在文本转换语音的过程中找到一个文本-语音共享的特征空间，借助大规模预训练语言模型，利用文本-语音共享特征，同时回归生成三维动态人脸以及合成语音。在文本-语音共享特征空间下，文本-语音共享特征在保留了文本的基本音素的同时，还添加了指定说话人的专属语音特性。从而达到增加文本生成的三维虚拟数字人脸真实性的目的。借助大规模预训练语言模型将文本数据与数字人技术相结合，以提升用户的交互体验。

附图说明

图1是本发明中所述一种基于大脑启发式的文本驱动三维人脸方法的训练步骤示意图。

图2是本发明中所述文本驱动三维人脸动画整体模型的训练流程示意图。

图3是本发明中所述一种基于大脑启发式的文本驱动三维人脸方的工作流程示意图。

具体实施方式

如图1和图2所示，本发明中所述一种基于大脑启发式的文本驱动三维人脸方法利用大规模预训练语言模型生成所需文本，通过提取文本-语音共享特征，然后输入文本驱动三维人脸动画整体模型，将文本同时合成动态三维人脸和对应语音，提高文本驱动三维人脸动画的真实性、交互性。

具体包括以下步骤：

S1、获取三维人脸网格序列样本，音频文件，与音频文件对应的语料，划分为训练集和测试集；

获得的数据库包含文本模态，语音模态以及三维人脸动画视觉模态，语音模态以及三维人脸动画视觉模态具有时序性。

以单句话为例，每一组样本数据由以下部分组成：

(1) 音频是wav文件，读取后得到语音波形；与音频文件对应的语料是txt文件，由语音转文本得到。

(2)三维人脸动画序列是npy文件，读取后得到对应人脸网格中5023个顶点的三维空间坐标的时间序列Y＝{y 1 ,…,y T }，其中T为三维人脸动画序列的时间帧数，y i (i∈{1,…,T})∈R 5023×3 表示单帧人脸网格中5023个顶点的三维空间坐标。将y渲染之后可获得真实人脸。

在本实施例中，三维人脸动画数据采用VOCASET数据集。VOCASET数据集包含来自12个对象的480个音频-三维人脸动画网格对。对于每个对象，以60fps的速度捕获40个长度为3～5秒的人脸网格序列以及对应的采样率为22000Hz的语音。三维数字人头部网格由5023个顶点和9976个面表示。在本实施例中，需要将VOCASET数据集的语音采样率降低至16000Hz以及将三维头部网格降采样至30fps。在本实施例中，需要将VOCASET数据集的语音转换为文本，构建语料库。

数据集按照说话对象与语句内容划分为训练集与测试集，具体包括：划分为288个序列的训练集VOCASET-Train以及两个测试集VOCASET-Test-A和VOCASET-Test-B。288个序列共包括8个受试者×36个句子；其中VOCASET-Test-A包含32个序列，如8个受试者×4个句子；VOCASET-Test-B包含32个序列，如剩余4个未见的受试者×8个句子。

S2、建立文本驱动三维人脸动画整体模型，所述文本驱动三维人脸动画整体模型包括文本编码器，文本合成语音模型，文本生成三维人脸动画模型，语音特征提取器；文本编码器包括嵌入层，周期性位置编码模块和方差适配器；文本合成语音模型包括梅尔频谱图解码器和声码器；文本生成三维人脸动画模型包括基于Transformer的编码器和解码器，富含上下文的码本和运动解码器；

训练文本驱动三维人脸动画整体模型以同时生成三维动态人脸以及合成语音，具体包括以下步骤：

S21 将语料输入文本编码器，得到文本-语音共享特征；

S22 将文本-语音共享特征输入文本合成语音模型，得到合成语音波形。在合成语音与原始语音样本之间构建损失函数，通过梯度下降法不断训练优化模型，得到文本合成语音模型；

S23 将文本-语音共享特征输入文本生成三维人脸动画模型，进一步提纯文本-语音共享特征，自回归预测三维人脸网格序列。在预测的三维人脸网格序列与原始的三维人脸网格序列样本之间构建损失函数，通过梯度下降法不断训练优化模型，得到文本生成三维人脸动画模型；

S24 将原始语音输入预训练的语音特征提取器，得到语音特征；计算语音特征与文本生成三维人脸动画模型中进一步提纯的文本-语音共享特征的KL散度损失，通过梯度下降法不断训练优化模型；

在步骤21中，将语料输入文本编码器，语料输入首先被分词，将文本分解成更小的单元。文本经过分词后，被转换为音素序列。音素序列输入嵌入层，每个音素被转换为一个嵌入向量。通过周期性位置编码，嵌入向量被添加位置编码，提供单词在文本中的位置信息。通过方差适配器向文本中仅有的音素特征添加额外的语音变化信息，包括如音高、能量和时长，得到文本-语音共享特征。语音变化信息在训练时从目标语音波形中提取，并直接作为条件输入；在推理阶段，使用持续时间预测器，音调预测器和能量预测器来预测这些值。

在步骤22中，文本-语音共享特征输入梅尔频谱图解码器，转换为梅尔频谱图序列。再使用预训练的声码器Parallel WaveGAN将梅尔频谱图转换为语音波形。

在步骤23中，文本生成三维人脸动画模型的码本和运动解码器由预训练VQ-VAE模型得到，VQ-VAE模型包括编码器，码本和运动解码器，训练过程具体为：将T帧原始三维人脸网格输入编码器，得到特征，再将映射到码本空间中最相近的点；经过运动解码器解码得到预测面部序列。在原始三维人脸网格和预测面部序列之间构建最小化重建损失，即最小化输入面部运动序列和通过解码器重构的面部运动序列之间的差异。

最小化重建损失，具体为：

；

第一项是重建损失，后两项用于通过减少码本Z和嵌入特征之间的距离。

通过梯度下降法不断训练优化VQ-VAE模型，得到预训练的富含上下文的码本和运动解码器，并且码本和运动解码器在文本生成三维人脸动画模型训练过程中冻结。

文本生成三维人脸动画模型训练过程如下：

先将文本-语音共享特征输入Transformer编码器，进一步提纯文本-语音共享特征；对于第t帧，t大于等于2，将前t-1帧预测的三维人脸网格序列和进一步提纯的文本-语音共享特征输入Transformer解码器，得到运动特征；运动特征经过码本量化得到量化特征，经过运动解码器解码得到第t帧预测三维人脸网格；重复操作，直到自回归预测出最后一帧三维人脸网格；将预测的所有帧三维人脸网格拼接在一起，得到一个预测的三维人脸网格序列。

再在预测的三维人脸网格序列与原始的三维人脸网格序列样本之间构建损失函数，损失函数包括特征规律性损失和运动损失；特征规律性损失测量预测运动特征和来自码本的量化特征之间的偏差；运动损失测量预测运动和真实运动之间的差异；最终的损失函数为：；

S3、根据测试集样本衡量文本驱动三维人脸动画整体模型的性能，并获取性能最好的模型。

可选地，采取的定量衡量指标为唇部同步误差和整体同步误差。其中，唇部同步误差是计算出每帧所有唇部区域人脸网格顶点的最大L2误差后取所有帧的均值，整体同步误差是计算出整个三维人体网格所有顶点的L2误差均值。唇部同步误差是为了判断嘴唇运动与合成语音的同步性以及自身的真实性，整体同步误差是为了评估整体人脸的合成性能。最后将指标下性能最优的整个模型的参数和结构都保存下来。

S4、将性能最好的文本驱动三维人脸动画整体模型与大规模预训练语言模型连接，建立基于大脑启发式的文本驱动三维人脸动画模型。

在本实施例中，大规模预训练语言模型采用ChatGPT 4.0。ChatGPT 4.0是一个大型多模态模型，能够接受图像和文本输入，生成文本输出。在对话生成方面表现出色，能够流畅地进行即时对话，回答各种问题，包括历史问题、编写故事、商业计划书和行业分析等。将文本驱动三维人脸动画整体模型与ChatGPT 4.0连接，建立基于大脑启发式的文本驱动三维人脸动画模型。用户输入文本描述所需三维人脸动画，ChatGPT 4.0输出相对应的文本，内容是所需的三维人脸动画的语料，提升用户的交互体验。

S5、根据实际需要，将文本描述输入基于大脑启发式的文本驱动三维人脸动画模型，输出指定的三维人脸动画。

工作流程如图3所示，用户先撰写文本描述，将文本描述输入大规模预训练语言模型，大规模预训练语言模型处理文本描述，输出语料。将语料输入文本编码器，编码得到文本-语言共享特征。将文本-语言共享特征输入文本合成语音模型以及文本生成三维人脸动画模型，最终得到与文本描述对应的三维人脸动画。

对于本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，包括以下步骤：

2.根据权利要求1所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述步骤S2包括以下子步骤：

S21.将语料输入文本编码器，得到文本-语音共享特征；

S22.将文本-语音共享特征输入文本合成语音模型，得到合成语音波形；在合成语音与原始语音样本之间构建损失函数，通过梯度下降法不断训练优化模型，得到文本合成语音模型；

S23.将文本-语音共享特征输入文本生成三维人脸动画模型，进一步提纯文本-语音共享特征，自回归预测三维人脸网格序列；在预测的三维人脸网格序列与原始的三维人脸网格序列样本之间构建损失函数，通过梯度下降法不断训练优化模型，得到文本生成三维人脸动画模型；

S24.将原始语音输入预训练的语音特征提取器，得到语音特征；计算语音特征与文本生成三维人脸动画模型中进一步提纯的文本-语音共享特征的KL散度损失，通过梯度下降法不断训练优化模型。

3.根据权利要求2所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述三维人脸网格序列样本是npy文件，与音频相对应；读取后得到对应人脸5023个顶点的三维空间坐标的时间序列Y＝{y1 ,…,yT }，其中T为三维人脸动画序列的时间帧数，yi (i∈{1,…,T})∈R 5023×3表示单帧人脸网格中5023个顶点的三维空间坐标；

所述音频是wav文件，读取后得到语音波形；所述与音频文件对应的语料是txt文件，由语音转文本得到；

所述文本编码器包括嵌入层，周期性位置编码模块和方差适配器。

4.根据权利要求3所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述子步骤21具体为：

语料输入首先被分词，将文本分解成更小的单元；文本经过分词后，被转换为音素序列；音素序列输入嵌入层，每个音素被转换为一个嵌入向量；通过周期性位置编码，嵌入向量被添加位置编码，提供单词在文本中的位置信息；通过方差适配器向文本中仅有的音素特征添加额外的语音变化信息，包括如音高、能量和时长，得到文本-语音共享特征；

所述方差适配器包括持续时间预测器，音调预测器和能量预测器；

所述语音变化信息在训练时从目标语音波形中提取，并直接作为条件输入；在推理阶段，使用持续时间预测器，音调预测器和能量预测器来预测这些值；

所述文本合成语音模型包括梅尔频谱图解码器和声码器。

5.根据权利要求4所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，子步骤22中所述将文本-语音共享特征输入文本合成语音模型，得到合成语音波形，具体为：

文本-语音共享特征输入梅尔频谱图解码器，转换为梅尔频谱图序列；使用预训练的声码器Parallel WaveGAN将梅尔频谱图转换为语音波形；所述文本生成三维人脸动画模型包括基于Transformer的编码器和解码器、富含上下文的码本和运动解码器。

6.根据权利要求5所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述富含上下文的码本由预训练VQ-VAE模型得到，具体为：

VQ-VAE模型包括编码器，码本和运动解码器；将T帧原始三维人脸网格输入编码器，得到特征，再将映射到码本空间中最相近的点；经过运动解码器解码得到预测面部序列；在原始三维人脸网格和预测面部序列之间构建最小化重建损失，即最小化输入面部运动序列和通过解码器重构的面部运动序列之间的差异；通过梯度下降法不断训练优化VQ-VAE模型，得到预训练的富含上下文的码本和运动解码器；

最小化重建损失，具体为：

；

7.根据权利要求6所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述预训练的富含上下文的码本和运动解码器，在文本生成三维人脸动画模型训练过程中冻结。

8.根据权利要求7所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，子步骤23中所述将文本-语音共享特征输入文本生成三维人脸动画模型，进一步提纯文本-语音共享特征，自回归预测三维人脸网格序列，具体为：

将文本-语音共享特征输入Transformer编码器，进一步提纯文本-语音共享特征；

对于第t帧，t大于等于2，将前t-1帧预测的三维人脸网格序列和进一步提纯的文本-语音共享特征输入Transformer解码器，得到运动特征；运动特征经过码本量化得到量化特征，经过运动解码器解码得到第t帧预测三维人脸网格；重复操作，直到自回归预测出最后一帧三维人脸网格；将预测的所有帧三维人脸网格拼接在一起，得到一个预测的三维人脸网格序列。

9.根据权利要求8所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，子步骤23中所述在预测的三维人脸网格序列与原始的三维人脸网格序列样本之间构建损失函数，通过梯度下降法不断训练优化模型，得到文本生成三维人脸动画模型，具体为：

文本生成三维人脸动画模型损失函数包括特征规律性损失和运动损失；

特征规律性损失测量预测运动特征和来自码本的量化特征之间的偏差；运动损失测量预测运动和真实运动之间的差异；

最终的损失函数为：

。

10.根据权利要求2所述一种基于大脑启发式的文本驱动三维人脸方法，其特征在于，所述步骤5具体为：

将文本描述输入大规模预训练语言模型，输出语料；将语料输入文本驱动三维人脸动画整体模型，输出指定的三维人脸动画。