CN115906987A

CN115906987A - 深度学习模型的训练方法、虚拟形象驱动方法和装置

Info

Publication number: CN115906987A
Application number: CN202211660898.6A
Authority: CN
Inventors: 杜宗财; 范锡睿; 赵亚飞; 张世昌; 郭紫垣; 陈毅; 王志强
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2023-04-04

Abstract

本公开提供了一种深度学习模型的训练方法，涉及人工智能技术领域，尤其涉及虚拟人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。具体实现方案为：获取样本语音的第一音频特征，样本语音具有虚拟形象标签，虚拟形象标签包含拓扑结构信息；将第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数；根据拓扑结构信息，从多个第一驱动参数中确定第一目标驱动参数；以及根据拓扑结构信息与第一目标驱动参数之间的差异，调整深度学习模型，以得到经训练的深度学习模型。本公开还提供了一种虚拟形象驱动方法、装置、电子设备和存储介质。

Description

深度学习模型的训练方法、虚拟形象驱动方法和装置

技术领域

本公开涉及人工智能技术领域，尤其涉及虚拟人、增强现实、虚拟现实、混合现实、扩展现实、元宇宙等技术领域。更具体地，本公开提供了一种深度学习模型的训练方法、虚拟形象驱动方法、装置、电子设备和存储介质。

背景技术

随着互联网、三维(3-Dimensional)、增强现实(Augmented Reality)、虚拟现实(Virtual Reality)和元宇宙等技术的飞速发展，虚拟形象在直播、虚拟社交、文娱媒体等方面的应用越来越广泛。

发明内容

本公开提供了一种深度学习模型的训练方法、虚拟形象驱动方法、装置、设备以及存储介质。

根据第一方面，提供了一种深度学习模型的训练方法，该方法包括：获取样本语音的第一音频特征，样本语音具有虚拟形象标签，虚拟形象标签包含拓扑结构信息；将第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数；根据拓扑结构信息，从多个第一驱动参数中确定第一目标驱动参数；以及根据拓扑结构信息与第一目标驱动参数之间的差异，调整深度学习模型，以得到经训练的深度学习模型。

根据第二方面，提供了一种虚拟形象驱动方法，该方法包括：获取待处理语音的第二音频特征；将第二音频特征输入深度学习模型，得到第二驱动参数；以及根据第二驱动参数，生成虚拟形象；其中，深度学习模型是根据上述深度学习模型的训练方法训练得到的。

根据第三方面，提供了一种深度学习模型的训练装置，该装置包括：第一获取模块，用于获取样本语音的第一音频特征，样本语音具有虚拟形象标签，虚拟形象标签包含拓扑结构信息；第一处理模块，用于将第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数；确定模块，用于根据拓扑结构信息，从多个第一驱动参数中确定第一目标驱动参数；以及调整模块，用于根据拓扑结构信息与第一目标驱动参数之间的差异，调整深度学习模型，以得到经训练的深度学习模型。

根据第四方面，提供了一种虚拟形象驱动装置，该装置包括：第二获取模块，用于获取待处理语音的第二音频特征；第二处理模块，用于将第二音频特征输入深度学习模型，得到第二驱动参数；以及生成模块，用于根据第二驱动参数，生成虚拟形象；其中，深度学习模型是根据上述深度学习模型的训练装置训练得到的。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据第七方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1A是相关技术中基于语音驱动的人脸驱动模型的训练方法的示意图；

图1B是相关技术中基于语音驱动的三维人脸生成方法的示意图；

图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图；

图3是根据本公开的一个实施例的深度学习模型的训练方法的示意图；

图4是根据本公开的一个实施例的虚拟形象驱动方法的流程图；

图5是根据本公开的一个实施例的虚拟形象驱动方法的示意图；

图6是根据本公开的一个实施例的深度学习模型的训练装置的框图；

图7是根据本公开的一个实施例的虚拟形象驱动装置的框图；

图8是根据本公开的一个实施例的深度学习模型的训练方法和/或虚拟形象驱动方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序艮俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

虚拟形象例如包括三维虚拟数字人，三维虚拟数字人包括虚拟主播、虚拟客服、虚拟偶像等。随着三维虚拟数字人的发展，语音驱动三维人脸技术已经成为虚拟人交互的重要研究热点之一。

语音驱动三维虚拟形象(例如三维人脸)技术一般基于深度学习模型技术实现，是将语音作为驱动源，三维虚拟形象作为驱动目标，采用深度学习模型，产生三维虚拟形象。

图1A是相关技术中基于语音驱动的深度学习模型的训练方法的示意图。

如图1A所示，人脸驱动模型110是待训练的基于语音驱动的深度学习模型。在训练阶段首先将样本语音送入特征提取模型，用于提取音频特征。该特征提取模型可以是深度学习模型，也可以是传统的处理模块，如傅里叶处理模块等。音频特征可以是频率特征、频谱特征等。

然后，音频特征输入到人脸驱动模型110，人脸驱动模型110可以将音频特征转换为驱动参数，驱动参数例如是包含三维人脸的拓扑结构信息，拓扑结构信息包含关键点(顶点)的数量和位置的，拓扑结构信息可用于三维人脸的生成。驱动参数也可以是BlendShape(混合变形)权重、PCA(Principal Component Analysis，主成分分析系数)等，BlendShape权重和PCA系数可以转换为拓扑结构，再进行三维人脸的生成。

接下来，计算驱动参数和样本语音的真值(例如标注的拓扑结构)之间的差距，进行反向传播，调整人脸驱动模型110的参数。其中，样本语音的真值可以是针对该样本语音提前采集并标注特定人像数据。

图1B是相关技术中基于语音驱动的三维人脸生成方法的示意图。

如图1B所示，人脸驱动模型110可以是经如图1A所示的训练过程训练好的深度学***滑、渲染等后处理的处理模块。

由图1A～1B可得，相关技术中基于语音驱动的人脸驱动模型是针对具有特定拓扑结构真值的训练数据进行训练得到的，因此，训练出来的人脸驱动模型只能重建单个特定的、相同拓扑结构的三维人脸，适用范围窄。

换言之，想要得到不同拓扑结构的三维人脸，需要分别使用具有不同拓扑结构标签的训练数据训练对应的人脸驱动模型，因此，需要耗费大量的时间。此外，由于具有特定拓扑结构标签的训练数据一般数据量较小，这也会导致训练出来的人脸驱动模型的准确度不足。

图2是根据本公开的一个实施例的深度学习模型的训练方法的流程图。

如图2所示，该深度学习模型的训练方法200可以包括操作S210～操作S240。深度学习模型可以是基于语音驱动的人脸驱动模型。

在操作S210，获取样本语音的第一音频特征。

例如，样本语音可以是录制得到的或者由文本转换得到的。样本语音具有虚拟形象标签，虚拟形象标签包含拓扑结构信息。样本语音的虚拟形象标签可以是针对样本语音提前采集并标注好的三维人脸数据，该三维人脸数据具有特定拓扑结构信息。

例如，可以将样本语音输入特征提取模型，得到该样本语音的第一音频特征。该特征提取模型可以是深度学习模型，也可以是传统的处理模块，如傅里叶处理模块等。第一音频特征可以是频率特征、频谱特征等。

在操作S220，将第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数。

例如，将第一音频特征输入深度学习模型，深度学习模型可以针对第一音频特征进行多个分支的虚拟形象驱动处理，每个分支对应一种拓扑结构。虚拟形象驱动处理可以将第一音频特征转换为视觉特征(视觉参数)，即第一驱动参数。

例如，第一驱动参数可以是包含三维虚拟形象的拓扑结构信息，拓扑结构信息包括关键点(顶点)的数量和位置的。第一驱动参数还可以是Blend Shape权重、PCA系数等，Blend Shape权重以及PCA系数可以分别转换为对应的拓扑结构信息。

例如，深度学习模型对第一音频特征进行不同拓扑结构分支的处理可以得到对应不同拓扑结构的第一驱动参数。例如，多个拓扑结构包括拓扑结构A、拓扑结构B和拓扑结构C，可以得到与拓扑结构A对应的第一驱动参数、与拓扑结构B对应的第一驱动参数以及与拓扑结构C对应的第一驱动参数。

在操作S230，根据拓扑结构信息，从多个第一驱动参数中确定第一目标驱动参数。

例如，每个样本语音的虚拟形象标签具有特定的拓扑结构信息。针对深度学习模型输出的多个第一驱动参数，可以从中选取出与标签的拓扑结构信息对应的第一驱动参数作为第一目标驱动参数。计算标签的拓扑结构信息与第一目标驱动参数之间的差异，可以得到该语音样本的损失。

在操作S240，根据拓扑结构信息与第一目标驱动参数之间的差异，调整深度学习模型，以得到经训练的深度学习模型。

例如，样本语音的标签包含的拓扑结构信息为拓扑结构A的信息，那么可以从多个第一驱动参数中选取与拓扑结构A对应的第一驱动参数作为第一目标驱动参数。计算该样本语音的标签包含的拓扑结构信息与该第一目标驱动参数之间的均方差或平均绝对误差等差异，作为该样本语音的损失。

例如，利用该样本语音的损失可以调整深度学习模型的对应分支处理模块的参数，使得该对应处理分支模块具有驱动与该样本语音的标签对应的特定拓扑结构的虚拟形象。由此，深度学习模型的每个分支处理模块均可以具有驱动对应特定拓扑结构的虚拟形象的能力。

本实施例通过对输入的音频特征分别进行针对不同拓扑结构的虚拟形象驱动处理，得到多个第一驱动参数，从多个第一驱动参数中选取与样本语音对应的第一目标驱动参数，来与样本语音的标签包含的拓扑结构信息计算样本语音的损失，使用损失调整深度学习模型的参数，能够使得深度学习模型具有驱动多种虚拟形象的能力。

根据本公开的实施例，深度学习模型包括与多个拓扑结构各自对应的多个子模型；操作S220包括将第一音频特征输入多个子模型，得到多个子模型各自输出的第一驱动参数。操作S230包括根据拓扑结构信息，从多个子模型中确定目标子模型；将目标子模型输出的第一驱动参数确定为第一目标驱动参数。操作S240包括根据拓扑结构信息与第一目标驱动参数之间的差异，计算目标子模型的掩码损失；根据目标子模型的掩码损失，调整目标子模型的参数，以得到经训练的深度学习模型。

例如，深度学习模型的与多个拓扑结构各自对应的多个分支处理模块可以是多个子模型，多个第一驱动参数可以是多个子模型各自输出的。

例如，深度学习模型包括与多个拓扑结构各自对应的多个子模型，样本语音分别输入多个子模型，多个子模型对该样本语音分别进行虚拟形象驱动处理，分别输出多个第一驱动参数。

针对每个样本语音，根据该样本语音的标签包含的拓扑结构信息可以从多个子模型中确定与该样本语音对应的子模型作为目标子模型。例如，样本语音的标签包含的拓扑结构信息为拓扑结构A的信息，那么可以从多个子模型中选取与拓扑结构A对应的子模型作为目标子模型。相应的，该目标子模型输出的第一驱动参数为第一目标驱动参数。

每个样本语音的损失可以是该样本语音的标签包含的拓扑结构信息与对应的目标子模型输出的第一目标驱动参数之间的差异，由于其他第一驱动参数不参与该样本语音的计算，因此，该损失可以称为掩码损失。基于该样本的掩码损失可以调整该目标子模型的参数。

这样，对于每个样本来说，每个样本语音的掩码损失仅影响与自身对应的子模型的参数。由于样本语音是批量输入的，针对每个样本语音都计算掩码损失，因此，对于每个子模型来说，每次反向传播都有对应的样本语音的掩码损失对该子模型进行更新。由此，经过多次反向传播和子模型参数调整后，在训练完成之后，可以使得每个子模型具有驱动对应虚拟形象(三维人脸)的能力。

本公开的实施例通过使用多个子模型针对输入的音频特征分别进行针对不同拓扑结构的虚拟形象驱动处理，得到多个第一驱动参数，从多个第一驱动参数中选取与样本语音对应的第一目标驱动参数，来与样本语音的标签包含的拓扑结构信息计算样本语音的掩码损失，使用掩码损失调整对应子模型的参数，使得每个子模型都具有驱动对应虚拟形象的能力。

因此，相比于相关技术中基于语音驱动的深度学习模型仅能够驱动单个特定的、相同拓扑结构的虚拟形象，本公开实施例提供的深度学习模型能够驱动多种拓扑结构的三维虚拟形象，例如可以应用于驱动多个拓扑结构的三维人脸，得到多个人像的三维人脸。

此外，相比于相关技术中需要分别使用具有不同拓扑结构标签的样本语音训练对应的人脸驱动模型，本公开实施例能够利用具有不同拓扑结构标签的样本语音训练出能够驱动多种拓扑结构的虚拟形象，能够提高训练效率。

此外，相比于相关技术中仅适用于具有特定拓扑结构标签的训练数据训练针对单一拓扑结构的深度学习模型，由于样本量小导致的模型准确度不足的问题。本公开实施例的深度学习模型中每个子模型均能够获得具有多种拓扑结构标签的样本语音的特征，因此，能够提高每个子模型的泛化能力和子模型输出的准确度，进而提高深度学习模型的泛化能力和准确度。

图3是根据本公开的一个实施例的深度学习模型的训练方法的示意图。

如图3所示，本实施例的三维虚拟形象是三维人脸。深度学习模型320包括K个人脸驱动子模型(子模型1、子模型2、……、子模型K，K为大于2的整数)，每个子模型对应一种拓扑结构。

样本语音输入特征提取模型310，得到第一音频特征，第一音频特征分别输入深度学习模型320的K个子模型。子模型1输出驱动参数1，子模型2输出驱动参数2……，子模型K输出驱动参数K。

由于每个样本语音都具有特定拓扑结构的虚拟形象标签，因此在计算损失函数的时候对多个驱动参数进行掩码处理，使得每个样本语音的标签仅与对应拓扑结构的驱动参数计算损失，而其他驱动参数不参与该样本语音的损失的计算，因此该样本语音的损失可以称为掩码损失。

例如，语音样本是批量处理的，批量处理的语音样本的音频特征作为深度学习模型320的输入，可以记为X＝{x₁，x₂，...，x_N}，N为样本语音的数量，深度学习模型320的输出为

其中，

是第j个输入得到的第i个驱动参数。语音样本的真值(标签)为Y＝{y₁，y₂，...，y_N}，则深度学习模型的掩码损失可以根据以下公式(1)计算得到，每个子模型的掩码损失可以根据以下公式(2)得到。

其中，N为样本语音的数量，j表示第j个样本语音，j＝1，……N，y_j为第j个样本语音的虚拟形象标签中的拓扑结构信息。

K为子模型的数量，i表示第i个子模型，i＝1，……，K，

是第i个子模型输出的针对第j个样本语音输出的第一驱动参数，其中，在第i个子模型是目标子模型的情况下，

为第一目标驱动参数。

L1(·)表示平均绝对误差函数，

表示第i个子模型的掩码损失，ML(Masked Loss)表示深度学习模型的掩码损失。

例如，深度学习模型的掩码损失ML包含了每个子模型的掩码损失，对于每个子模型来说，每次反向传播都有对应的掩码损失对该子模型进行更新。由此，在训练完成之后，每个子模型都有驱动对应的三维虚拟形象的能力。

图4是根据本公开的一个实施例的虚拟形象驱动方法的流程图。

如图4所示，该虚拟形象驱动方法400可以包括操作S410～操作S430。

在操作S410，获取待处理语音的第二音频特征。

在操作S420，将第二音频特征输入深度学习模型，得到第二驱动参数。

在操作S430，根据第二驱动参数，驱动虚拟形象。

例如，待处理语音是通过录制或者通过文本转换得到的，本实施例用于使用训练好的基于语音驱动的深度学习模型，针对该待处理语音生成三维虚拟形象(例如三维人脸)。

例如，将待处理语音输入特征提取模型，得到第二音频特征。该特征提取模型可以是深度学习模型，也可以是传统的处理模块，如傅里叶处理模块等。第二音频特征可以是频率特征、频谱特征等。

例如，深度学习模型是根据上述深度学习模型的训练方法进行训练得到的。将第二音频特征输入深度学习模型，可以得到第二驱动参数。第二驱动参数可以是包含三维虚拟形象的拓扑结构信息，拓扑结构信息包括关键点(顶点)的数量和位置。第二驱动参数还可以是Blend Shape权重、PCA系数等，Blend Shape权重以及PCA系数可以分别转换为对应的拓扑结构信息。

例如，在将第二驱动参数转换为拓扑结构信息之后，通过平滑处理、渲染处理等后处理操作，可以生成虚拟形象。

本实施例的深度学习模型可以包括与多个拓扑结构对各自对应的子模型，将第二音频特征输入深度学习模型可以得到与多个拓扑结构各自对应的第二驱动参数，对每个驱动参数进行后处理，可以得到具有多种拓扑结构的三维虚拟形象。

在一个示例中，待处理语音可以具有索引信息，该索引信息用于指示与该待处理语音对应的拓扑结构，例如，想要针对该语音得到的三维虚拟形象的拓扑结构，即哪种风格的三维虚拟形象。因此，根据该索引信息可以确定深度学习模型中与该待处理语音对应的子模型。

在该示例下，将第二音频特征输入深度学习模型，深度学习模型中与该待处理语音对应的子模型可以对该第二音频特征进行处理，得到第二驱动参数，该第二驱动参数可以用于生成具有对应拓扑结构的三维虚拟形象。

在第二音频特征输入深度学习模型后，由于基于索引信息指定了对应的子模型，而其他子模型可以不对第二音频特征进行处理。因此，在生成具有对应拓扑结构的三维虚拟形象的同时，能够保证深度学习模型的处理效率，也即生成三维虚拟形象的生成效率。

在另一个示例中，待处理语音没有索引信息，即没有指定针对该待处理语音想要生成的三维虚拟形象的拓扑结构。在该实例下，将第二音频特征输入深度学习模型，深度学习模型中的多个子模型可以针对第二音频特征分别进行处理，得到与多个拓扑结构各自对应的多个第二驱动参数。基于多个驱动参数可以生成具有对应拓扑结构的多种三维虚拟形象。

因此，本实施例针对待处理语音能够生成多种三维虚拟形象，使得三维虚拟形象的风格更加丰富。

图5是根据本公开的一个实施例的虚拟形象驱动方法的示意图。

如图5所示，本实施例的三维虚拟形象是三维人脸。深度学习模型520包括K个人脸驱动子模型(子模型1、子模型2、……、子模型K，K为大于2的整数)，每个子模型对应一种拓扑结构。

待处理语音输入特征提取模型510，得到第二音频特征，第二音频特征和待处理语音的索引信息输入深度学习模型520，索引信息如果指示第K个子模型进行处理，那么子模型1至那么子模型(K-1)可以不参与第二音频特征的处理，仅子模型K对第二音频特征进行处理，输出驱动参数K。

将驱动参数K输入三维人脸生成模型530进行平滑、渲染等后处理操作，可以生成三维人脸。

图6是根据本公开的一个实施例的深度学习模型的训练装置的框图。

如图6所示，该深度学习模型的训练装置600包括第一获取模块601、第一处理模块602、确定模块603和调整模块604。

第一获取模块601用于获取样本语音的第一音频特征，样本语音具有虚拟形象标签，虚拟形象标签包含拓扑结构信息。

第一处理模块602用于将第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数。

确定模块603用于根据拓扑结构信息，从多个第一驱动参数中确定第一目标驱动参数。

调整模块604用于根据拓扑结构信息与第一目标驱动参数之间的差异，调整深度学习模型，以得到经训练的深度学习模型。

根据本公开的实施例，深度学习模型包括与多个拓扑结构各自对应的多个子模型。

第一处理模块602用于将第一音频特征输入多个子模型，得到多个子模型各自输出的第一驱动参数。

确定模块603包括第一确定单元和第二确定单元。

第一确定单元用于根据拓扑结构信息，从多个子模型中确定目标子模型。

第二确定单元用于将目标子模型输出的第一驱动参数确定为第一目标驱动参数。

调整模块604包括计算单元和调整单元。

计算单元用于根据拓扑结构信息与第一目标驱动参数之间的差异，计算目标子模型的掩码损失。

调整单元用于根据目标子模型的掩码损失，调整目标子模型的参数，以得到经训练的深度学习模型。

计算单元用于根据以下公式计算目标子模型的掩码损失：

其中，j表示第j个样本语音，j＝1，……N，N为样本语音的数量，yj为第j个样本语音的虚拟形象标签中的拓扑结构信息；

i表示第i个子模型，i＝1，……，K，K为子模型的数量，

是第i个子模型针对第j个样本语音输出的第一驱动参数，其中，在第i个子模型是目标子模型的情况下，

为第一目标驱动参数；

L1(·)表示平均绝对误差函数，

表示第i个子模型的掩码损失，在第i个子模型是目标子模型的情况，

表示目标子模型的掩码损失。

根据本公开的实施例，拓扑结构信息包括组成虚拟形象标签中的拓扑结构的关键点的数量和位置，第一驱动参数包括与该第一驱动参数对应的拓扑结构的关键点的数量和位置。

图7是根据本公开的一个实施例的虚拟形象驱动装置的框图。

如图7所示，该虚拟形象驱动装置700可以包括第二获取模块701、第二处理模块702和生成模块703。

第二获取模块701用于获取待处理语音的第二音频特征。

第二处理模块702用于将第二音频特征输入深度学习模型，得到第二驱动参数。

生成模块703用于根据第二驱动参数，驱动虚拟形象。

其中，深度学习模型是根据上述深度学习模型的训练装置训练得到的。

根据本公开的实施例，深度学习模型包括与多个拓扑结构各自对应的多个子模型，待处理语音包括索引信息，索引信息用于指示与待处理语音对应的子模型。

第二处理模块702用于将第二音频特征输入与待处理语音对应的子模型，得到第二驱动参数。

第二处理模块702用于将第二音频特征输入多个子模型，得到多个子模型各自输出的第二驱动参数；生成模块703用于根据多个子模型各自输出的第二驱动参数，驱动多个虚拟形象。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如深度学习模型的训练方法和/或虚拟形象驱动方法。例如，在一些实施例中，深度学习模型的训练方法和/或虚拟形象驱动方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM803并由计算单元801执行时，可以执行上文描述的深度学习模型的训练方法和/或虚拟形象驱动方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行深度学习模型的训练方法和/或虚拟形象驱动方法。

本文中以上描述的***和技术的各种实施方式可以在数字电子电路***、集成电路***、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上***的***(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程***上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储***、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储***、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行***、装置或设备使用或与指令执行***、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体***、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的***和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的***和技术实施在包括后台部件的计算***(例如，作为数据服务器)、或者包括中间件部件的计算***(例如，应用服务器)、或者包括前端部件的计算***(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的***和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算***中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将***的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机***可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习模型的训练方法，包括：

获取样本语音的第一音频特征，所述样本语音具有虚拟形象标签，所述虚拟形象标签包含拓扑结构信息；

将所述第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数；

根据所述拓扑结构信息，从所述多个第一驱动参数中确定第一目标驱动参数；以及

根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，调整所述深度学习模型，以得到经训练的深度学习模型。

2.根据权利要求1所述的方法，其中，所述深度学习模型包括与所述多个拓扑结构各自对应的多个子模型；所述将所述第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数包括：

将所述第一音频特征输入所述多个子模型，得到所述多个子模型各自输出的第一驱动参数。

3.根据权利要求2所述的方法，其中，

所述根据所述拓扑结构信息，从所述多个第一驱动参数中确定第一目标驱动参数包括：

根据所述拓扑结构信息，从所述多个子模型中确定目标子模型；

将所述目标子模型输出的第一驱动参数确定为所述第一目标驱动参数；

所述根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，调整所述深度学习模型，以得到经训练的深度学习模型包括：

根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，计算所述目标子模型的掩码损失；

根据所述目标子模型的掩码损失，调整所述目标子模型的参数，以得到经训练的深度学习模型。

4.根据权利要求3所述的方法，其中，所述根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，计算所述目标子模型的掩码损失包括：

根据以下公式计算所述目标子模型的掩码损失：

其中，j表示第j个样本语音，j＝1，……N，N为样本语音的数量，y_j为第j个样本语音的虚拟形象标签中的拓扑结构信息；

i表示第i个子模型，i＝1，……，K，K为子模型的数量，

为所述第一目标驱动参数；

L1(·)表示平均绝对误差函数，

表示第i个子模型的掩码损失，在所述第i个子模型是目标子模型的情况，

表示目标子模型的掩码损失。

5.根据权利要求1至4中任一项所述的方法，其中，所述拓扑结构信息包括组成所述虚拟形象标签中的拓扑结构的关键点的数量和位置，所述第一驱动参数包括与该第一驱动参数对应的拓扑结构的关键点的数量和位置。

6.一种虚拟形象驱动方法，包括：

获取待处理语音的第二音频特征；

将所述第二音频特征输入深度学习模型，得到第二驱动参数；以及

根据所述第二驱动参数，驱动虚拟形象；

其中，所述深度学习模型是根据权利要求1至5中任一项所述的方法进行训练得到的。

7.根据权利要求6所述的方法，其中，所述深度学习模型包括与多个拓扑结构各自对应的多个子模型，所述待处理语音包括索引信息，所述索引信息用于指示与所述待处理语音对应的子模型；所述将所述第二音频特征输入深度学习模型，得到第二驱动参数包括：

将所述第二音频特征输入与所述待处理语音对应的子模型，得到所述第二驱动参数。

8.根据权利要求6所述的方法，其中，所述深度学习模型包括与多个拓扑结构各自对应的多个子模型；

所述将所述第二音频特征输入深度学习模型，得到第二驱动参数包括：

将所述第二音频特征输入所述多个子模型，得到所述多个子模型各自输出的第二驱动参数；

所述根据所述第二驱动参数，驱动虚拟形象包括：

根据所述多个子模型各自输出的第二驱动参数，驱动多个虚拟形象。

9.一种深度学习模型的训练装置，包括：

第一获取模块，用于获取样本语音的第一音频特征，所述样本语音具有虚拟形象标签，所述虚拟形象标签包含拓扑结构信息；

第一处理模块，用于将所述第一音频特征输入深度学习模型，得到与多个拓扑结构各自对应的多个第一驱动参数；

确定模块，用于根据所述拓扑结构信息，从所述多个第一驱动参数中确定第一目标驱动参数；以及

调整模块，用于根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，调整所述深度学习模型，以得到经训练的深度学习模型。

10.根据权利要求9所述的装置，其中，所述深度学习模型包括与所述多个拓扑结构各自对应的多个子模型；所述第一处理模块用于将所述第一音频特征输入所述多个子模型，得到所述多个子模型各自输出的第一驱动参数。

11.根据权利要求10所述的装置，其中，所述确定模块，包括：

第一确定单元，用于根据所述拓扑结构信息，从所述多个子模型中确定目标子模型；

第二确定单元，用于将所述目标子模型输出的第一驱动参数确定为所述第一目标驱动参数；

所述调整模块，包括：

计算单元，用于根据所述拓扑结构信息与所述第一目标驱动参数之间的差异，计算所述目标子模型的掩码损失；

调整单元，用于根据所述目标子模型的掩码损失，调整所述目标子模型的参数，以得到经训练的深度学习模型。

12.根据权利要求11所述的装置，其中，所述计算单元，用于根据以下公式计算所述目标子模型的掩码损失：

i表示第i个子模型，i＝1，……，K，K为子模型的数量，

为所述第一目标驱动参数；

L1(·)表示平均绝对误差函数，

表示目标子模型的掩码损失。

13.根据权利要求9至12所述的装置，其中，所述拓扑结构信息包括组成所述虚拟形象标签中的拓扑结构的关键点的数量和位置，所述第一驱动参数包括与该第一驱动参数对应的拓扑结构的关键点的数量和位置。

14.一种虚拟形象驱动装置，包括：

第二获取模块，用于获取待处理语音的第二音频特征；

第二处理模块，用于将所述第二音频特征输入深度学习模型，得到第二驱动参数；以及

生成模块，用于根据所述第二驱动参数，驱动虚拟形象；

其中，所述深度学习模型是根据权利要求9至13中任一项所述的装置进行训练得到的。

15.根据权利要求14所述的装置，其中，所述深度学习模型包括与多个拓扑结构各自对应的多个子模型，所述待处理语音包括索引信息，所述索引信息用于指示与所述待处理语音对应的子模型；所述第二处理模块，用于将所述第二音频特征输入与所述待处理语音对应的子模型，得到所述第二驱动参数。

16.根据权利要求14所述的装置，其中，所述深度学习模型包括与多个拓扑结构各自对应的多个子模型；

所述第二处理模块，用于将所述第二音频特征输入所述多个子模型，得到所述多个子模型各自输出的第二驱动参数；

所述生成模块，用于根据所述多个子模型各自输出的第二驱动参数，驱动多个虚拟形象。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序存储于可读存储介质和电子设备其中至少之一上，所述计算机程序在被处理器执行时实现根据权利要求1至8中任一项所述的方法。