CN113314094B

CN113314094B - 唇形模型的训练方法和装置及语音动画合成方法和装置

Info

Publication number: CN113314094B
Application number: CN202110591866.4A
Authority: CN
Inventors: 王鹏睿
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2024-05-07
Anticipated expiration: 2041-05-28
Also published as: CN113314094A

Abstract

本公开关于一种唇形模型的训练方法和装置及语音动画合成方法和装置，唇形模型包括音素唇形预测网络和说话人线性映射网络，训练方法包括：获取多个说话人的音视频数据样本；从多个说话人的音视频数据样本获取音素序列和真实唇形系数；将音素序列输入音素唇形预测网络，得到预测的隐空间唇形系数；将预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到对应说话人的预测的唇形系数，其中，多个说话人中的每个说话人对应一个说话人线性映射网络；根据预测的唇形系数和真实唇形系数确定唇形模型的损失函数的值；通过根据损失函数的值调整音素唇形预测网络和对应说话人的说话人线性映射网络的参数，对唇形模型进行训练。

Description

唇形模型的训练方法和装置及语音动画合成方法和装置

技术领域

本公开涉及语音动画技术领域，尤其涉及一种唇形模型的训练方法和装置、语音动画合成方法和装置、电子设备和存储介质。

背景技术

语音合成技术在新闻、有声小说、设备提示等自动播报场景中有着广泛的应用。然而纯粹的声音而没有相应的播报角色会降低播报的真实感以及交互感，因此语音动画合成技术起到了重要的作用。

一般语音动画合成技术都涉及唇形系数生成模型，用于通过语音或文本特征获得唇部动作相关系数，例如获得三维人脸形变模型(3DMM，3D morphable model)的表情系数，以便基于此系数生成主播播报动画。对于唇形系数生成模型，相关技术中往往仅与单个特定主播相关联，导致其训练需依赖大量的特定主播的音视频同步数据，每增加一个新主播，都需重新训练模型，工作量庞大，不便于产生多种虚拟主播形象。

发明内容

本公开提供一种唇形模型的训练方法和装置、语音动画合成方法和装置、电子设备、计算机可读存储介质、计算机程序产品，以至少解决相关技术中的不便于产生多种虚拟主播形象的问题，也可不解决任何上述问题。

根据本公开的第一方面，提供了一种唇形模型的训练方法，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述训练方法包括：获取多个说话人的音视频数据样本；从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数；将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数；将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到所述对应说话人的预测的唇形系数，其中，所述多个说话人中的每个说话人对应一个说话人线性映射网络；根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值；通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数，对所述唇形模型进行训练。

可选地，对于所述多个说话人中的每个说话人，所述音素序列包括所述音视频数据中的多个音素帧，所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数，所述音视频数据中的音素帧数量大于或等于视频帧数量，每个视频帧均存在一个时间上相对应的音素帧。

可选地，所述将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数，包括：将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到当前视频帧的预测的隐空间唇形系数；或将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到每个参考视频帧的预估隐空间唇形系数和预测权重，根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值，作为当前视频帧的预测的隐空间唇形系数，其中，当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。

可选地，所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差；或所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差，其中，唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。

可选地，在所述音素唇形预测网络训练完成后，所述训练方法还包括：获取新说话人的音视频数据样本；从新说话人的音视频数据样本获取音素序列和真实唇形系数；将新说话人的音素序列输入训练后的所述音素唇形预测网络，得到新说话人的隐空间唇形系数；根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的所述说话人线性映射网络。

根据本公开的第二方面，提供了一种语音动画合成方法，所述语音动画合成方法是基于唇形模型实现的，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述语音动画合成方法包括：获取说话人信息、音素序列以及与所述音素序列相对应的音频数据；将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数；将所述预测的隐空间唇形系数输入与所述说话人信息相对应的所述说话人线性映射网络，得到预测的唇形系数；根据所述预测的唇形系数生成视频数据；将所述视频数据和所述音频数据合成语音动画。

可选地，所述音素序列和所述音频数据由语音合成***根据输入的文本数据生成，使所述音素序列与所述音频数据对齐。

可选地，所述唇形模型是使用根据本公开的训练方法训练得到的。

根据本公开的第三方面，提供了一种唇形模型的训练装置，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述训练装置包括：采样单元，被配置为：获取多个说话人的音视频数据样本；分析单元，被配置为：从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数；第一预测单元，被配置为：将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数；第二预测单元，被配置为：将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到所述对应说话人的预测的唇形系数，其中，所述多个说话人中的每个说话人对应一个说话人线性映射网络；计算单元，被配置为：根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值；调参单元，被配置为：通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数，对所述唇形模型进行训练。

可选地，所述第一预测单元被配置为：将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到当前视频帧的预测的隐空间唇形系数；或将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到每个参考视频帧的预估隐空间唇形系数和预测权重，根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值，作为当前视频帧的预测的隐空间唇形系数，其中，当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。

可选地，所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差；或所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差，

其中，唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。

可选地，在所述调参单元训练完所述音素唇形预测网络后，所述采样单元还被配置为：获取新说话人的音视频数据样本；所述分析单元还被配置为：从新说话人的音视频数据样本获取音素序列和真实唇形系数；所述第一预测单元还被配置为：将新说话人的音素序列输入训练后的所述音素唇形预测网络，得到新说话人的隐空间唇形系数；所述第二预测单元还被配置为：根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的所述说话人线性映射网络。

根据本公开的第四方面，提供了一种语音动画合成装置，所述语音动画合成装置是基于唇形模型实现的，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述语音动画合成装置包括：获取单元，被配置为：获取说话人信息、音素序列以及与所述音素序列相对应的音频数据；第三预测单元，被配置为：将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数；第四预测单元，被配置为：将所述预测的隐空间唇形系数输入与所述说话人信息相对应的说话人线性映射网络，得到预测的唇形系数；唇形驱动单元，被配置为：根据所述预测的唇形系数生成视频数据；合成单元，被配置为：将所述视频数据和所述音频数据合成语音动画。

根据本公开的第五方面，提供了一种电子设备，所述电子设备包括：至少一个处理器；至少一个存储计算机可执行指令的存储器，其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的唇形模型的训练方法或语音动画合成方法。

根据本公开的第六方面，提供了一种计算机可读存储介质，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行根据本公开的唇形模型的训练方法或语音动画合成方法。

根据本公开的第六方面，提供了一种计算机程序产品，包括计算机指令，所述计算机指令被至少一个处理器执行时实现根据本公开的唇形模型的训练方法或语音动画合成方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

根据本公开的实施例的唇形模型的训练方法和装置、语音动画合成方法和装置，唇形模型在生成最终的唇形系数之前，先通过音素唇形预测网络预测与说话人无关的隐空间唇形系数，再通过说话人线性映射网络获得目标说话人空间的唇形系数。相应地，训练唇形模型时可利用多个说话人的训练数据共同完成训练，这既能够利用多个说话人共同提供的大量训练数据获得音素到隐空间较为全面的映射关系，提升音素唇形预测网络的泛化性，还可同时训练出与多个说话人一一对应的说话人线性映射网络，从而大幅减少工作量和计算量，便于产生多种虚拟主播形象，并且单个说话人只需少量的训练样本，能够减少对单个说话人的音视频同步数据的依赖，方便产生多种虚拟主播形象。此外，由于人发音时唇形会配合做出相应动作，因而通过将音素序列作为输入的语音特征，可令预测的唇形系数更加稳定，效果更好。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是示出根据本公开的示例性实施例的唇形模型的训练方法的逻辑示意图。

图2是示出根据本公开的示例性实施例的唇形模型的训练方法的流程图。

图3是示出根据本公开的示例性实施例的新说话人的说话人线性映射网络的训练方法的流程图。

图4是示出根据本公开的示例性实施例的语音动画合成方法的流程图。

图5是示出根据本公开的示例性实施例的语音动画合成方法的逻辑示意图。

图6是示出根据本公开的示例性实施例的唇形模型的训练装置的框图。

图7是示出根据本公开的示例性实施例的语音动画合成装置的框图。

图8是示出根据本公开的示例性实施例的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

在自动播报场景中，语音动画合成技术因能够根据语音数据或文本数据合成出虚拟主播的播报视频，可提升播报的真实感以及交互感，并且相对于真人录制视频，可大幅缩短制作周期、降低制作成本，因而具有广泛的应用前景。

语音动画合成技术主要包括唇形系数生成模块和人脸合成模块两部分，前者主要是通过语音或文本特征获得唇部动作相关系数，如3DMM的表情系数(可选择与唇部运动有关的表情基)，后者主要是根据该系数生成对应唇部的人脸。由于人在说话时主要由唇部做出相应动作，而整个人脸的动作又与唇部存在关联，因此可先预测出唇部动作，再将唇部的动作扩展至整个人脸，从而得到完整的人脸动作，实现基于说话内容合成动画。此后再将合成的动画与语音相结合，即可得到语音动画。

可见，唇形系数生成模块是语音动画合成中的关键因素。唇形系数生成模块内嵌相应的唇形系数生成模型，相关技术中采用的模型往往仅与单个特定主播相关联，导致这类模型的训练需依赖大量的特定主播的音视频同步数据，每增加一个新主播，都需重新训练模型，工作量庞大，不便于产生多种虚拟主播形象。本公开的主要目的就在于改进生成唇形系数的模型。

接下来，参照图1至图8具体描述根据本公开的示例性实施例的唇形模型的训练方法和装置以及语音动画合成方法和装置。

参照图1，虚线框出的部分为唇形模型及其内部产生的中间数据。唇形模型的输入参数是作为语音特征的音素序列，包括多个按时间顺序排列的音素帧。唇形模型的输出参数是唇形系数。在训练唇形模型的过程中，借助损失函数来调整模型参数。

对于输入参数，由于人发音时唇形会配合做出相应动作，因而通过将音素序列作为输入的语音特征，可令预测的唇形系数更加稳定，效果更好。并且音素序列便于与语音合成***对齐，进而在合成语音动画时，若输入的是文本数据，则可利用语音合成***同时产生对齐的音频数据和预测唇形系数所需的音素序列。而相关技术中的唇形系数生成模型常以MFCC(Mel Frequency Cepstrum Coefficient，梅尔频谱倒谱系数)作为输入的语音特征，相应地，在合成语音动画时，若输入的是文本数据，则需要先生成音频数据，再从音频数据中获取MFCC，增加了处理步骤。

对于唇形模型，根据本公开的示例性实施例假设不同说话人的唇形系数空间是不一样的，但存在一个与之不同的通用唇形系数空间，二者可经一个线性映射网络线性变换而来。此时通用唇形系数空间不受说话人影响，该空间下的系数具有普遍的适用性，再经过一个与说话人相关联的线性映射网络做线性变换，即可得到与该说话人相对应的唇形系数空间下的唇形系数。如图1虚线框所示，唇形模型包括上一级的音素唇形预测网络和下一级的说话人线性映射网络，将音素序列输入音素唇形预测网络，可产生中间数据隐空间唇形系数，该中间数据即为通用唇形系数空间下的系数。每个说话人都有其对应的说话人线性映射网络，记为说话人a线性映射网络、说话人b线性映射网络等，以此类推。将中间的隐空间唇形系数输入对应说话人的说话人线性映射网络，即可输出对应说话人的唇形系数，作为唇形模型的预测结果。

根据本公开的示例性实施例通过将唇形系数配置为包括上述两个网络，在训练唇形模型时，可利用多个说话人的训练数据共同训练，得到相对复杂的音素唇形预测网络以及与多个说话人一一对应的相对简单的说话人线性映射网络。这既能够利用多个说话人共同提供的大量训练数据获得音素到隐空间较为全面的映射关系，提升音素唇形预测网络的泛化性，还可同时训练出与多个说话人一一对应的说话人线性映射网络，从而大幅减少工作量和计算量，便于产生多种虚拟主播形象，并且单个说话人只需少量的训练样本，能够减少对单个说话人的音视频同步数据的依赖，方便产生多种虚拟主播形象。具体地，音素唇形预测网络可为卷积网络，说话人线性映射网络可为全连接网络，无需使用循环神经网络，有利于基于批量并行计算，加快推断速度。

参照图1和图2，在步骤201，获取多个说话人的音视频数据样本。例如可获取约100人、每人2-3分钟的音视频数据样本，作为训练数据，此时总样本时长约达3-5小时，足以训练出具有通用性的音素唇形预测网络。

在步骤202，从多个说话人的音视频数据样本获取音素序列和真实唇形系数。从这些音视频数据样本中获取每个说话人的音素序列和真实唇形系数，即可将音素序列作为训练模型的输入参数，并可将真实唇形系数作为训练模型的输出参数的对照标准，进而调整所训练模型的参数。需说明的是，合成语音动画时涉及合成音频数据，此时会使用一个音素集，一般中文的音素集是固定的。若语音解码的音素中出现了特殊音素，造成与音素集不对应，但该音素的发音与常用音素相同或相似，则需要进行音素转换，可以直接用常用音素替换该特殊音素。

可选地，从多个说话人的音视频数据样本获取音素序列，包括：通过语音识别解码器识别多个说话人的音视频数据样本中的音频数据，获得音素序列。语音识别解码器基于ASR(Automatic Speech Recognition，自动语音识别)技术，本身具有降噪功能，因而能够识别出低噪声的音素序列，提升语音特征的准确性。而如前所述，相关技术中的唇形系数生成模型常以MFCC作为语音特征，MFCC往往存在噪声，会影响语音特征的准确性。

具体地，对于多个说话人中的每个说话人，音素序列包括音视频数据中的多个音素帧，真实唇形系数包括音视频数据中的多个视频帧对应的唇形系数，音视频数据中的音素帧数量大于或等于视频帧数量，每个视频帧均存在一个时间上相对应的音素帧。也就是说，音素帧率通常不低于视频帧率，使得音素帧数量大于或等于视频帧数量，并且在时间上，每个视频帧都会对应于一个音素帧，以保证音素序列与真实唇形系数对齐，提升了音视频数据样本的可靠性，以确保训练出有效的唇形模型。可以理解的是，这种对齐是一种广义的对齐，由于时间具有连续性，视频帧的时刻和音素帧的时刻通常无法绝对相等，因而可允许存在小量合理偏差，简单来说，可选择在时间上与视频帧最接近的一个音素帧，作为相对应的音素帧。应用唇形模型时，中间产生的是每个视频帧对应的隐空间唇形系数，最终输出的则是每个视频帧对应的唇形系数。

在步骤203，将音素序列输入音素唇形预测网络，得到预测的隐空间唇形系数。该步骤可产生通用的中间数据，适用于所有说话人。具体来说，音素唇形预测网络可遍历每个视频帧，针对当前视频帧，预测出当前视频帧的隐空间唇形系数。可以理解的是，此处省略了为音素唇形预测网络的参数赋初值的步骤描述，该步骤默认存在。

在一些实施例中，可选地，步骤203包括：将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入音素唇形预测网络，得到当前视频帧的预测的隐空间唇形系数。

如前所述，每个视频帧都有其对应的一个音素帧，该实施例是利用这个对应的音素帧以及其周围的至少一个音素帧作为输入参数，预测当前视频帧的隐空间唇形系数。由于还参考了周围的至少一个音素帧，这些音频帧与当前视频帧相对应的音频帧在发音时存在关联，因而可提升预测的隐空间唇形系数的准确性。同时，由于仅增加了周围至少一个音频帧，不会造成计算负荷的大幅提升，可平衡计算负荷和预测准确性。具体可选择对应音素帧及其前后一定数量的音素帧，假设t时刻唇形系数是exp_t，对应的音素帧是phn_t，那么需要选用的特征是phn_{t-n}-phn_{t+n}，共(2n+1)个音素帧。可以理解的是，这(2n+1)个音素帧不必是连续的。例如，假设视频帧率为25FPS(Frames Per Second，每秒传输帧数)，音素帧率为100FPS，那么t每次要跳过4个音素帧，但n每次的移动间隔可以在1-4之间选择。

在另一些实施例中，可选地，步骤203包括：将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入音素唇形预测网络，得到每个参考视频帧的预估隐空间唇形系数和预测权重，根据预测权重计算所有参考视频帧的预估隐空间唇形系数的加权平均值，作为当前视频帧的预测的隐空间唇形系数，其中，当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。

该实施例进一步引入了当前视频帧及其周围的至少一个视频帧作为参考视频帧，针对当前视频帧，先利用前述实施例的预测方式预测出各个参考视频帧的预估隐空间唇形系数，再预测各个参考视频帧的预测权重，最后对各个参考视频帧的预估隐空间唇形系数求取加权平均值，预测出当前视频帧的隐空间唇形系数。通过进一步参考当前视频帧周围的至少一个参考视频帧，可提升周围的参考视频帧对当前视频帧的隐空间唇形系数预测结果的影响，从而使得最终生成的人脸视频的唇形变化更加流畅自然，有助于提升视频效果。具体来说，实际中要用m个上述(2n+1)个特征来共同预测一个隐空间唇形系数。这m个特征可以理解为考虑了t时刻的视频帧及其周围的多个视频帧的唇形系数exp_{t-m/2}-exp_{t+m/2}，其对应的音素特征也与这些唇形系数对应。音素唇形预测网络具体先根据m个(2n+1)的特征预测出m个预估隐空间唇形系数，再预测出m个和为1的权重，对上述m个预估隐空间唇形系数求加权和得到最终的exp_t。需注意的是，此处虽然均使用了exp_n的符号来表示，但这m个预估隐空间唇形系数是音素唇形预测网络内部产生的中间值，并非之前预测出的该视频帧的隐空间唇形系数。

在步骤204，将预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到对应说话人的预测的唇形系数，其中，多个说话人中的每个说话人对应一个说话人线性映射网络。此步骤只需按照对应说话人的说话人线性映射网络对预测的隐空间唇形系数做线性变换即可。可以理解的是，类似于音素唇形预测网络，此处省略了为每个说话人分配说话人线性映射网络并为其参数赋初值的步骤描述，该步骤默认存在。

在步骤205，根据预测的唇形系数和真实唇形系数确定唇形模型的损失函数的值。损失函数用于衡量预测的唇形系数和真实唇形系数之间的误差，其计算值可作为调整唇形模型的参数的依据。

在一些实施例中，可选地，唇形模型的损失函数是预测的唇形系数与真实唇形系数的均方误差(MSE，Mean Square Error)。该损失函数有助于获得较为准确的唇形模型。

在另一些实施例中，可选地，唇形模型的损失函数是预测的唇形系数对应的三维空间顶点与真实唇形系数对应的三维空间顶点的加权均方误差，其中，唇部区域的三维空间顶点的均方误差的权重大于或等于其他区域的三维空间顶点的均方误差的权重。该实施例将唇形系数对应的三维空间顶点作为衡量预测误差的参数，使用几何均方误差(GMSE，Geometric MSE)，能够使用更为直观的三维空间顶点来体现人脸。通过将唇部区域的权重配置为等于其他区域的权重，可对各个区域的三维空间顶点同等对待，简化损失函数的结构。而由于人在说话时主要由唇部做出相应动作，通过将唇部区域的权重配置为大于其他区域的权重，则可强调唇部区域的准确性，使得唇形模型预测出的唇形系数能够更准确地反映唇部区域的动作，提升最终得到的语音动画的真实性。例如，当唇形系数为3DMM的表情系数时，可将唇形系数通过3DMM表情基转换到三维几何空间，得到对应的三维空间顶点。由于3DMM是已经成熟的技术，故在此不再赘述如何转换。

在步骤206，通过根据损失函数的值调整音素唇形预测网络和对应说话人的说话人线性映射网络的参数，对唇形模型进行训练。训练唇形模型的过程就是不断调整音素唇形预测网络和说话人线性映射网络的参数，直至损失函数的值达到最小化的过程，以使预测的唇形系数尽可能接近真实唇形系数。由于基于损失函数调整模型参数的具体方法是已经成熟的技术，在此不再赘述。

在音素唇形预测网络训练完成后，若还需为语音动画自动播报拓展新主播，则需要增加训练出相应的新说话人的唇形模型。由于根据本公开的示例性实施例的唇形模型中的音素唇形预测网络不受说话人影响，具有较高的泛化性，且已经由大量的训练数据训练得到，故无需再次训练，只需训练新说话人的说话人线性映射网络即可。

参照图3，在步骤301，获取新说话人的音视频数据样本。类似于唇形模型的训练，可获取新说话人2-3分钟的音视频数据样本，只需少量的样本数据即可训练出新说话人较为准确的说话人线性映射网络，便于拓展新的虚拟主播形象。

在步骤302，从新说话人的音视频数据样本获取音素序列和真实唇形系数。该步骤与图2所示的步骤202类似，在此不再赘述。

在步骤303，将新说话人的音素序列输入训练后的音素唇形预测网络，得到新说话人的隐空间唇形系数。该步骤直接使用新说话人的音素序列和已经训练好的音素唇形预测网络来预测通用的隐空间唇形系数，无需再次训练音素唇形预测网络，从而能够大幅降低训练工作量。可以理解的是，对于新说话人，虽然存在音素覆盖不全面不均衡的情况，但理论上预测时这些未知音素对应的隐空间唇形系数与发音口型相似的音素对应的隐空间唇形系数相近，因而不会对预测结果造成明显偏差，仍然可以适用。后续合成语音动画时，在通过训练好的说话人线性映射网络即可推断出较为准确的唇形系数。

在步骤304，根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的说话人线性映射网络。由于隐空间唇形系数和真实唇形系数存在线性映射关系，因而可结合隐空间唇形系数和真实唇形系数直接求解出新说话人的说话人线性映射网络，无需再根据损失函数进行迭代训练，既可大幅降低计算工作量，又可得到较为可靠的说话人线性映射网络，提高了拓展新虚拟主播形象的便利性和可靠性。

这里，根据本公开的示例性实施例的语音动画合成方法可基于根据本公开的唇形模型来实现。根据本公开的示例性实施例的唇形模型可包括音素唇形预测网络和说话人线性映射网络。举例来说，根据本公开的示例性实施例的唇形模型可通过使用根据本公开的示例性实施例的唇形模型的训练方法训练得到，因而具备该唇形模型的训练方法的全部技术效果，在此不再赘述。

参照图4，在步骤401，获取说话人信息、音素序列以及与音素序列相对应的音频数据。

说话人信息用于表示即将合成的语音动画中的主播的信息，可据此获取相对应的说话人线性映射网络，以便预测唇形系数。

音素序列与音频数据相对应，可便于后续将合成的视频数据与音频数据对应合成为语音动画。可选地，参照图5，当基于输入的文本数据合成语音动画时，音素序列和音频数据由语音合成***根据输入的文本数据生成，使音素序列与音频数据对齐，而音素序列用于预测唇形系数，故可在合成语音动画时利用语音合成***同时产生唇形系数和音频数据。换言之，使用语音合成***，既可以同时产生音频数据以及预测唇形系数所需的音素序列，又可以直接使用语音合成***的音素对齐信息，简化了语音动画合成***。例如，可采用端到端语音合成***Tacotron，并利用其中注意力机制对应的概率图进行音素对齐，获得与生成的音频数据对齐的音素序列。可以理解的是，输入的文本数据是期望通过语音动画播报的内容，包括但不限于新闻、小说、设备提示文本。可以理解的是，当基于输入的音频数据合成语音动画时，音素序列由语音识别解码器根据音频数据生成，即音频数据是现成的，无需再生成。

在步骤402，将音素序列输入音素唇形预测网络，得到预测的隐空间唇形系数。例如可利用基于卷积的音素唇形预测网络预测当前音素帧及其周围至少一个音素帧拼接成的特征对应的隐空间唇形系数。该系数并不直接对应于最终的唇形系数，而是在一个通用唇形系数空间下的系数，与说话人并不直接关联。

在步骤403，将预测的隐空间唇形系数输入与说话人信息相对应的说话人线性映射网络，得到预测的唇形系数。该步骤可利用前述预测的隐空间唇形系数以及特定的说话人线性映射网络，较为准确地预测该说话人真实的唇形系数。

在步骤404，根据预测的唇形系数生成视频数据。获得唇形系数后，就可以使用唇形驱动模块(即前文所述的语音动画合成技术中的人脸合成模块)生成相应说话人的人脸视频数据。可以想到的是，唇形驱动模块也可以在人脸的基础上合成出人身以及背景，这都是已经成熟的技术，在此不再赘述。

在步骤405，将视频数据和音频数据合成语音动画。最后，将唇形驱动模块生成的视频数据与语音合成***生成的音频数据合成为语音动画，即可得到特定主播的播报视频。由于语音合成***与唇形系数的预测并不耦合，因此只要唇形系数对应的口型可以与语音合成***中音素的口型对应，就可以替换不同的语音合成***，以达到替换音素的目的，有助于拓展根据本公开的示例性实施例的语音动画合成方法的适用范围。

综合来说，根据本公开的示例性实施例属于基于文本驱动的虚拟主播语音动画合成技术，主要解决其中的唇形系数生成模块，提出了使用语音合成***对应的音素序列预测唇形系数，在生成最终的唇形系数之前，先预测与说话人无关的隐空间唇形系数，再通过说话人线性映射网络获得目标说话人空间的唇形系数。该方案能够适配语音合成***，产生多种音色的虚拟主播播报合成视频。先在说话人无关的隐空间上预测隐空间唇形系数，能够减少对目标说话人的音视频同步数据的依赖，方便产生多种虚拟主播形象。

图6是示出根据本公开的示例性实施例的唇形模型的训练装置的框图。如前所述，唇形模型包括音素唇形预测网络和说话人线性映射网络。

参照图6，唇形模型的训练装置600包括采样单元601、分析单元602、第一预测单元603、第二预测单元604、计算单元605、调参单元606。

采样单元601可获取多个说话人的音视频数据样本。

分析单元602可从多个说话人的音视频数据样本获取音素序列和真实唇形系数。从这些音视频数据样本中获取每个说话人的音素序列和真实唇形系数，即可将音素序列作为训练模型的输入参数，并可将真实唇形系数作为训练模型的输出参数的对照标准，进而调整所训练模型的参数。需说明的是，合成语音动画时涉及合成音频数据，此时会使用一个音素集，一般中文的音素集是固定的。若语音解码的音素中出现了特殊音素，造成与音素集不对应，但该音素的发音与常用音素相同或相似，则需要进行音素转换，可以直接用常用音素替换该特殊音素。

可选地，分析单元602可通过语音识别解码器识别多个说话人的音视频数据样本中的音频数据，获得音素序列。语音识别解码器基于ASR(Automatic Speech Recognition，自动语音识别)技术，本身具有降噪功能，因而能够识别出低噪声的音素序列，提升语音特征的准确性。而如前所述，相关技术中的唇形系数生成模型常以MFCC作为语音特征，往往存在噪声，影响语音特征的准确性。

第一预测单元603可将音素序列输入音素唇形预测网络，得到预测的隐空间唇形系数。第一预测单元603可产生通用的中间数据，适用于所有说话人。具体来说，音素唇形预测网络可遍历每个视频帧，针对当前视频帧，预测出当前视频帧的隐空间唇形系数。可以理解的是，此处省略了为音素唇形预测网络的参数赋初值的动作描述，该动作默认存在。

在一些实施例中，可选地，第一预测单元603可将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入音素唇形预测网络，得到当前视频帧的预测的隐空间唇形系数。

如前所述，每个视频帧都有其对应的一个音素帧，该实施例是利用这个对应的音素帧以及其周围的至少一个音素帧作为输入参数，预测当前视频帧的隐空间唇形系数。由于还参考了周围的至少一个音素帧，这些音频帧与当前视频帧相对应的音频帧在发音时存在关联，因而可提升预测的隐空间唇形系数的准确性。同时，由于仅增加了周围至少一个音频帧，不会造成计算负荷的大幅提升，可平衡计算负荷和预测准确性。具体可选择对应音素帧及其前后一定数量的音素帧，假设t时刻唇形系数是exp_t，对应的音素帧是phn_t，那么需要选用的特征是phn_{t-n}-phn_{t+n}，共(2n+1)个音素帧。可以理解的是，这(2n+1)个音素帧不必是连续的。

在另一些实施例中，可选地，第一预测单元603可将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入音素唇形预测网络，得到每个参考视频帧的预估隐空间唇形系数和预测权重，根据预测权重计算所有参考视频帧的预估隐空间唇形系数的加权平均值，作为当前视频帧的预测的隐空间唇形系数，其中，当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。

第二预测单元604可将预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到对应说话人的预测的唇形系数，其中，多个说话人中的每个说话人对应一个说话人线性映射网络。第二预测单元604只需按照对应说话人的说话人线性映射网络对预测的隐空间唇形系数做线性变换即可。可以理解的是，类似于音素唇形预测网络，此处省略了为每个说话人分配说话人线性映射网络并为其参数赋初值的动作描述，该动作默认存在。

计算单元605可根据预测的唇形系数和真实唇形系数确定唇形模型的损失函数的值。损失函数用于衡量预测的唇形系数和真实唇形系数之间的误差，其计算值可作为调整唇形模型的参数的依据。

调参单元606可通过根据损失函数的值调整音素唇形预测网络和对应说话人的说话人线性映射网络的参数，对唇形模型进行训练。训练唇形模型的过程就是不断调整音素唇形预测网络和说话人线性映射网络的参数，直至损失函数的值达到最小化的过程，以使预测的唇形系数尽可能接近真实唇形系数。由于基于损失函数调整模型参数的具体方法是已经成熟的技术，在此不再赘述。

为训练新说话人的说话人线性映射网络，具体地，采样单元601还可获取新说话人的音视频数据样本。此时获取的新说话人的音视频数据样本的数量可参考训练完整的唇形模型时针对每个说话人获取的样本时长，故只需少量的样本数据即可训练出新说话人较为准确的说话人线性映射网络，便于拓展新的虚拟主播形象。

分析单元602还可从新说话人的音视频数据样本获取音素序列和真实唇形系数。分析单元602此时的动作与训练完整的唇形模型时的动作类似，在此不再赘述。

第一预测单元603还可将新说话人的音素序列输入训练后的音素唇形预测网络，得到新说话人的隐空间唇形系数。此时第一预测单元603直接使用新说话人的音素序列和已经训练好的音素唇形预测网络来预测通用的隐空间唇形系数，无需再次训练音素唇形预测网络，从而能够大幅降低训练工作量。可以理解的是，对于新说话人，虽然存在音素覆盖不全面不均衡的情况，但理论上预测时这些未知音素对应的隐空间唇形系数与发音口型相似的音素对应的隐空间唇形系数相近，因而不会对预测结果造成明显偏差，仍然可以适用。后续合成语音动画时，在通过训练好的说话人线性映射网络即可推断出较为准确的唇形系数。

第二预测单元604还可根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的说话人线性映射网络。由于隐空间唇形系数和真实唇形系数存在线性映射关系，因而可结合隐空间唇形系数和真实唇形系数直接求解出新说话人的说话人线性映射网络，无需再根据损失函数进行迭代训练，既可大幅降低计算工作量，又可得到较为可靠的说话人线性映射网络，提高了拓展新虚拟主播形象的便利性和可靠性。

图7是示出根据本公开的示例性实施例的语音动画合成装置的框图。这里，根据本公开的示例性实施例的语音动画合成装置可基于根据本公开的示例性实施例的唇形模型来实现。根据本公开的示例性实施例的唇形模型可包括音素唇形预测网络和说话人线性映射网络。举例来说，根据本公开的示例性实施例的唇形模型可通过使用根据本公开的示例性实施例的唇形模型的训练方法训练得到，因而具备该唇形模型的训练方法的全部技术效果，在此不再赘述。

参照图7，语音动画合成装置700包括获取单元701、第三预测单元702、第四预测单元703、唇形驱动单元704、合成单元705。

获取单元701可获取说话人信息、音素序列以及与音素序列相对应的音频数据。

音素序列与音频数据相对应，可便于后续将合成的视频数据与音频数据对应合成为语音动画。可选地，当基于输入的文本数据合成语音动画时，音素序列和音频数据由语音合成***根据输入的文本数据生成，使音素序列与音频数据对齐，而音素序列用于预测唇形系数，故可在合成语音动画时利用语音合成***同时产生唇形系数和音频数据。换言之，使用语音合成***，既可以同时产生音频数据以及预测唇形系数所需的音素序列，又可以直接使用语音合成***的音素对齐信息，简化了语音动画合成***。例如，可采用端到端语音合成***Tacotron，并利用其中注意力机制对应的概率图进行音素对齐，获得与生成的音频数据对齐的音素序列。可以理解的是，输入的文本数据是期望通过语音动画播报的内容，包括但不限于新闻、小说、设备提示文本。可以理解的是，当基于输入的音频数据合成语音动画时，音素序列由语音识别解码器根据音频数据生成，即音频数据是现成的，无需再生成。

第三预测单元702可将音素序列输入音素唇形预测网络，得到预测的隐空间唇形系数。例如可利用基于卷积的音素唇形预测网络预测当前音素帧及其周围至少一个音素帧拼接成的特征对应的隐空间唇形系数。该系数并不直接对应于最终的唇形系数，而是在一个通用唇形系数空间下的系数，与说话人并不直接关联。

第四预测单元703可将预测的隐空间唇形系数输入与说话人信息相对应的说话人线性映射网络，得到预测的唇形系数。第四预测单元703可利用前述预测的隐空间唇形系数以及特定的说话人线性映射网络，较为准确地预测该说话人真实的唇形系数。

唇形驱动单元704可根据预测的唇形系数生成视频数据。第四预测单元703获得唇形系数后，就可以使用唇形驱动单元704(作用相当于前文所述的语音动画合成技术中的人脸合成模块)生成相应说话人的人脸视频数据。可以想到的是，唇形驱动单元704也可以在人脸的基础上合成出人身以及背景，这都是已经成熟的技术，在此不再赘述。

合成单元705可将视频数据和音频数据合成语音动画。最后，合成单元705将唇形驱动单元704生成的视频数据与语音合成***生成的音频数据合成为语音动画，即可得到特定主播的播报视频。由于语音合成***与唇形系数的预测并不耦合，因此只要唇形系数对应的口型可以与语音合成***中音素的口型对应，就可以替换不同的语音合成***，以达到替换音素的目的，有助于拓展根据本公开的示例性实施例的语音动画合成装置700的适用范围。

图8是示出根据本公开的示例性实施例的电子设备的框图。

参照图8，电子设备800包括至少一个存储器801和至少一个处理器802，所述至少一个存储器801中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个处理器802执行时，执行根据本公开的示例性实施例的唇形模型的训练方法或语音动画合成方法。

作为示例，电子设备800可以是PC计算机、平板装置、个人数字助理、智能手机、或其他能够执行上述指令集合的装置。这里，电子设备800并非必须是单个的电子设备，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。电子设备800还可以是集成控制***或***管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子设备。

在电子设备800中，处理器802可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器***、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

处理器802可运行存储在存储器801中的指令或代码，其中，存储器801还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储器801可与处理器802集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储器801可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库***可使用的其他存储装置。存储器801和处理器802可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器802能够读取存储在存储器中的文件。

此外，电子设备800还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。电子设备800的所有组件可经由总线和/或网络而彼此连接。

根据本公开的示例性实施例，还可提供一种存储指令的计算机可读存储介质，其中，当指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的唇形模型的训练方法或语音动画合成方法。这里的计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储器、硬盘驱动器(HDD)、固态硬盘(SSD)、卡式存储器(诸如，多媒体卡、安全数字(SD)卡或极速数字(XD)卡)、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘以及任何其他装置，所述任何其他装置被配置为以非暂时性方式存储计算机程序以及任何相关联的数据、数据文件和数据结构并将所述计算机程序以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机能执行所述计算机程序。上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，此外，在一个示例中，计算机程序以及任何相关联的数据、数据文件和数据结构分布在联网的计算机***上，使得计算机程序以及任何相关联的数据、数据文件和数据结构通过一个或多个处理器或计算机以分布式方式存储、访问和执行。

根据本公开的示例性实施例，还可提供一种计算机程序产品，该计算机程序产品包括计算机指令，计算机指令被至少一个处理器运行时，促使至少一个处理器执行根据本公开的示例性实施例的唇形模型的训练方法或语音动画合成方法。

根据本公开的示例性实施例的唇形模型的训练方法和装置、语音动画合成方法和装置，唇形模型在生成最终的唇形系数之前，先通过音素唇形预测网络预测与说话人无关的隐空间唇形系数，再通过说话人线性映射网络获得目标说话人空间的唇形系数。相应地，训练唇形模型时可利用多个说话人的训练数据共同完成训练，这既能够利用多个说话人共同提供的大量训练数据获得音素到隐空间较为全面的映射关系，提升音素唇形预测网络的泛化性，还可同时训练出与多个说话人一一对应的说话人线性映射网络，从而大幅减少工作量和计算量，便于产生多种虚拟主播形象，并且单个说话人只需少量的训练样本，能够减少对单个说话人的音视频同步数据的依赖，方便产生多种虚拟主播形象。此外，由于人发音时唇形会配合做出相应动作，因而通过将音素序列作为输入的语音特征，可令预测的唇形系数更加稳定，效果更好。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种唇形模型的训练方法，其特征在于，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述训练方法包括：

获取多个说话人的音视频数据样本；

从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数；

将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数，其中，所述预测的隐空间唇形系数是不受说话人影响的通用唇形系数；

将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到所述对应说话人的预测的唇形系数，其中，所述多个说话人中的每个说话人对应一个说话人线性映射网络；

根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值；

通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数，对所述唇形模型进行训练。

2.如权利要求1所述的训练方法，其特征在于，对于所述多个说话人中的每个说话人，所述音素序列包括所述音视频数据中的多个音素帧，所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数，所述音视频数据中的音素帧数量大于或等于视频帧数量，每个视频帧均存在一个时间上相对应的音素帧。

3.如权利要求2所述的训练方法，其特征在于，所述将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数，包括：

将与当前视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到当前视频帧的预测的隐空间唇形系数；或

将与当前视频帧的每个参考视频帧相对应的音素帧及其周围至少一个音素帧输入所述音素唇形预测网络，得到每个参考视频帧的预估隐空间唇形系数和预测权重，根据所述预测权重计算所有参考视频帧的所述预估隐空间唇形系数的加权平均值，作为当前视频帧的预测的隐空间唇形系数，其中，当前视频帧的参考视频帧包括当前视频帧及其周围至少一个视频帧。

4.如权利要求1所述的训练方法，其特征在于，

所述唇形模型的损失函数是所述预测的唇形系数与所述真实唇形系数的均方误差；或

所述唇形模型的损失函数是所述预测的唇形系数对应的三维空间顶点与所述真实唇形系数对应的三维空间顶点的加权均方误差，

5.如权利要求1到4中的任一权利要求所述的训练方法，其特征在于，在所述音素唇形预测网络训练完成后，所述训练方法还包括：

获取新说话人的音视频数据样本；

从新说话人的音视频数据样本获取音素序列和真实唇形系数；

将新说话人的音素序列输入训练后的所述音素唇形预测网络，得到新说话人的隐空间唇形系数；

根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的所述说话人线性映射网络。

6.一种语音动画合成方法，其特征在于，所述语音动画合成方法是基于唇形模型实现的，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述语音动画合成方法包括：

获取说话人信息、音素序列以及与所述音素序列相对应的音频数据；

将所述预测的隐空间唇形系数输入与所述说话人信息相对应的所述说话人线性映射网络，得到预测的唇形系数；

根据所述预测的唇形系数生成视频数据；

将所述视频数据和所述音频数据合成语音动画。

7.如权利要求6所述的语音动画合成方法，其特征在于，

所述音素序列和所述音频数据由语音合成***根据输入的文本数据生成，使所述音素序列与所述音频数据对齐。

8.如权利要求6所述的语音动画合成方法，其特征在于，所述唇形模型是使用如权利要求1到5中的任一权利要求所述的训练方法训练得到的。

9.一种唇形模型的训练装置，其特征在于，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述训练装置包括：

采样单元，被配置为：获取多个说话人的音视频数据样本；

分析单元，被配置为：从所述多个说话人的音视频数据样本获取音素序列和真实唇形系数；

第一预测单元，被配置为：将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数，其中，所述预测的隐空间唇形系数是不受说话人影响的通用唇形系数；

第二预测单元，被配置为：将所述预测的隐空间唇形系数输入对应说话人的说话人线性映射网络，得到所述对应说话人的预测的唇形系数，其中，所述多个说话人中的每个说话人对应一个说话人线性映射网络；

计算单元，被配置为：根据所述预测的唇形系数和所述真实唇形系数确定所述唇形模型的损失函数的值；

调参单元，被配置为：通过根据所述损失函数的值调整所述音素唇形预测网络和所述对应说话人的说话人线性映射网络的参数，对所述唇形模型进行训练。

10.如权利要求9所述的训练装置，其特征在于，对于所述多个说话人中的每个说话人，所述音素序列包括所述音视频数据中的多个音素帧，所述真实唇形系数包括所述音视频数据中的多个视频帧对应的唇形系数，所述音视频数据中的音素帧数量大于或等于视频帧数量，每个视频帧均存在一个时间上相对应的音素帧。

11.如权利要求10所述的训练装置，其特征在于，所述第一预测单元被配置为：

12.如权利要求9所述的训练装置，其特征在于，

13.如权利要求9到12中的任一权利要求所述的训练装置，其特征在于，在所述调参单元训练完所述音素唇形预测网络后，

所述采样单元还被配置为：获取新说话人的音视频数据样本；

所述分析单元还被配置为：从新说话人的音视频数据样本获取音素序列和真实唇形系数；

所述第一预测单元还被配置为：将新说话人的音素序列输入训练后的所述音素唇形预测网络，得到新说话人的隐空间唇形系数；

所述第二预测单元还被配置为：根据新说话人的隐空间唇形系数和真实唇形系数，求解新说话人的所述说话人线性映射网络。

14.一种语音动画合成装置，其特征在于，所述语音动画合成装置是基于唇形模型实现的，所述唇形模型包括音素唇形预测网络和说话人线性映射网络，所述语音动画合成装置包括：

获取单元，被配置为：获取说话人信息、音素序列以及与所述音素序列相对应的音频数据；

第三预测单元，被配置为：将所述音素序列输入所述音素唇形预测网络，得到预测的隐空间唇形系数，其中，所述预测的隐空间唇形系数是不受说话人影响的通用唇形系数；

第四预测单元，被配置为：将所述预测的隐空间唇形系数输入与所述说话人信息相对应的说话人线性映射网络，得到预测的唇形系数；

唇形驱动单元，被配置为：根据所述预测的唇形系数生成视频数据；

合成单元，被配置为：将所述视频数据和所述音频数据合成语音动画。

15.如权利要求14所述的语音动画合成装置，其特征在于，

16.如权利要求14或15所述的语音动画合成装置，其特征在于，所述唇形模型是使用如权利要求1到5中的任一权利要求所述的训练方法训练得到的。

17.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；

至少一个存储计算机可执行指令的存储器，

其中，所述计算机可执行指令在被所述至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的唇形模型的训练方法或如权利要求6到8中的任一权利要求所述的语音动画合成方法。

18.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令被至少一个处理器运行时，促使所述至少一个处理器执行如权利要求1到5中的任一权利要求所述的唇形模型的训练方法或如权利要求6到8中的任一权利要求所述的语音动画合成方法。

19.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被至少一个处理器执行时实现如权利要求1到5中的任一权利要求所述的唇形模型的训练方法或如权利要求6到8中的任一权利要求所述的语音动画合成方法。