CN114330631A

CN114330631A - 数字人生成方法、装置、设备及存储介质

Info

Publication number: CN114330631A
Application number: CN202111599988.4A
Authority: CN
Inventors: 徐速; 杨子伟; 吴文岩; 钱晨
Original assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Current assignee: Shanghai Sensetime Intelligent Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-12
Also published as: WO2023116208A1

Abstract

本说明书实施例提供一种数字人生成方法、装置及设备。可以获取目标音频和目标数字人形象；根据所述目标音频和预先训练的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频；其中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到；将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。通过上述方法，可以快速定制一个新形象在目标音频驱动下的视频。

Description

数字人生成方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种数字人生成方法、装置、设备及存储介质。

背景技术

数字人广泛应用于直播、新闻播报、语音提示等领域。通常需要基于想要播报的音频驱动数字人形象做出和该音频同步的动作、表情等，得到该音频驱动的视频。相关技术中，一般需要针对每个数字人形象预先训练得到该数字人形象的语音驱动模型，在得到该数字人形象的语音驱动模型后，可以将不同的音频输入到该语音驱动模型中，即可以输出不同音频驱动下的该数字人形象的视频。但是这种方式只能得到一个固定的数字人形象在不同音频驱动下的视频，如果要换成一个新数字人形象，则需重新获取大量新数字人形象的音视频，利用新数字人形象的音视频重新训练新数字人形象的语音驱动模型，整个训练过程需要的数据量大，耗时较长，导致无法快速生成新数字人形象在某个音频驱动下的视频。

发明内容

本公开提供一种数字人生成方法、装置、设备及存储介质。

根据本公开实施例的第一方面，提供一种数字人生成方法，所述方法包括：

获取目标音频和目标数字人形象；

根据所述目标音频和预先训练的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频；其中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到；

将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

在一些实施例中，根据目标音频和预先训练的参考数字人形象的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频，包括：

从所述目标音频中提取音素，得到音素时间戳；

将所述音素时间戳输入到所述语音驱动模型中，得到所述第一驱动视频。

在一些实施例中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到，包括：

获取所述参考数字人形象的音频，以及所述参考数字人形象的音频同步的参考数字人形象的视频；

从所述参考数字人形象的音频中提取音素，得到所述参考数字人形象的音素时间戳；

以所述参考数字人形象的音素时间戳作为训练样本，以所述参考数字人形象的视频作为样本标签，训练得到所述语音驱动模型。

在一些实施例中，将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到目标数字人形象上，包括：

从所述目标数字人形象的图像中提取得到与所述目标数字人形象的纹理相关的纹理特征；

针对所述第一驱动视频的各视频帧，从所述视频帧中提取与所述参考数字人形象的姿态相关的姿态特征；

根据所述纹理特征和所述姿态特征重新构建目标数字人形象，其中，所述重新构建的目标数字人形象的姿态与所述视频帧中的参考数字人形象的姿态一致；

根据所述重新构建的目标数字人形象得到与所述视频帧对应的重构帧，所述第二驱动视频由所述重构帧组成。

在一些实施例中，从所述视频帧中提取与所述参考数字人形象的姿态相关的姿态特征，包括：

基于所述参考数字人形象的图像训练得到所述参考数字人形象的自编码器；

利用所述参考数字人形象的自编码器中的编码器提取所述视频帧中的所述姿态特征。

在一些实施例中，从所述目标数字人形象的图像中提取得到与所述目标数字人形象的纹理相关的纹理特征，包括：

基于所述目标数字人形象的图像训练得到所述目标数字人形象的自编码器；

利用所述目标数字人形象的自编码器中的解码器提取所述目标数字人形象的图像中的所述纹理特征。

在一些实施例中，根据所述姿态特征和所述纹理特征重新构建目标数字人形象，包括：

利用所述目标数字人形象的自编码器中的解码器根据所述姿态特征和所述纹理特征重新构建目标数字人形象。

在一些实施例中，在根据所述姿态特征和所述纹理特征重新构建目标数字人形象之前，还包括：

在检测到从当前帧提取的所述姿态特征与从所述当前帧的前一帧提取的所述姿态特征一致的情况下，将所述前一帧对应的重构帧作为所述当前帧对应的重构帧。

在一些实施例中，根据所述重新构建的目标数字人形象得到与所述视频帧对应的重构帧，包括：

根据所述重新构建的目标数字人形象和预先设置的背景素材生成所述重构帧。

在一些实施例中，所述参考数字人形象的姿态包括以下一种或多种：所述参考数字人形象的脸部动作、所述参考数字人形象的脸部表情、所述参考数字人形象的肢体动作。

根据本公开实施例的第二方面，提供一种数字人生成方法，所述方法包括：

获取参考数字人形象在目标音频驱动下的第一驱动视频；

提取所述参考数字人形象在所述第一驱动视频中的姿态特征；

将所述第一驱动视频中的参考数字人形象替换为目标数字人形象，并将所述姿态特征加载到所述目标数字人形象，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

根据本公开实施例的第三方面，提供一种数字人生成装置，所述装置包括：

获取模块；用于获取目标音频和目标数字人形象；

预测模块，用于根据所述目标音频和预先训练的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频；其中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到；

姿态迁移模块，用于将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

在一些实施例中，所述预测模块用于根据目标音频和预先训练的参考数字人形象的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频时，具体用于：

从所述目标音频中提取音素，得到音素时间戳；

在一些实施例中，所述姿态迁移模块用于将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到目标数字人形象上时，具体用于：

在一些实施例中，所述姿态迁移模块用于从所述视频帧中提取与所述参考数字人形象的姿态相关的姿态特征时，具体用于：

在一些实施例中，所述姿态迁移模块用于从所述目标数字人形象的图像中提取得到与所述目标数字人形象的纹理相关的纹理特征时，具体用于：

在一些实施例中，所述姿态迁移模块用于根据所述姿态特征和所述纹理特征重新构建目标数字人形象时，具体用于：

在一些实施例中，在根据所述姿态特征和所述纹理特征重新构建目标数字人形象之前，所述数字人生成装置还用于：

在一些实施例中，所述姿态迁移模块用于根据所述重新构建的目标数字人形象得到与所述视频帧对应的重构帧时，具体用于：

根据本公开实施例的第四方面，提供一种数字人生成装置，所述装置包括：

获取模块；用于获取目标音频和目标数字人形象；

姿态迁移模块，用于将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。根据本公开实施例的第五方面，提供一种电子设备，所述电子设备包括处理器、存储器、存储在所述存储器可供所述处理器执行的计算机指令，所述处理器执行所述计算机指令时，可实现上述第一方面提及的方法。

根据本公开实施例的第六方面，提供一种计算机可读存储介质，所述存储介质上存储有计算机指令，所述计算机指令被执行时实现上述第一方面提及的方法。

本公开实施例中，当想要生成一段目标音频驱动目标数字人形象的驱动视频时，可以先获取参考数字人形象在该目标音频驱动下的驱动视频，针对该驱动视频种的各视频帧，可以将各视频帧中的参考数字人形象替换成目标数字人形象，并将参考数字人形象的姿态迁移到目标数字人形象上，从而得到目标数字人形象在该目标音频驱动下的驱动视频。通过这种方法，无需再专门训练目标数字人形象的语音驱动模型，并且姿态迁移仅需少量目标数字人形象的图像即可实现，可以适用于无法获取大量目标形象音视频数据的场景，并且耗费时间较短，可以实现快速定制一个新形象在目标音频驱动下的视频。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，而非限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开的技术方案。

图1是本公开实施例的一种训练语音驱动模型的示意图。

图2(a)是本公开实施例的一种数字人生成方法的流程图。

图2(b)是本公开实施例的一种数字人生成方法的示意图。

图2(c)是本公开实施例的一种数字人生成方法流程图。

图3是本公开实施例的一种利用自编码器生成主播A在目标音频驱动下的第二驱动视频的示意图。

图4是本公开实施例的一种数字人生成装置的逻辑结构示意图。

图5是本公开实施例的一种数字人生成装置的逻辑结构示意图。

图6是本公开实施例的一种设备的逻辑结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

为了使本技术领域的人员更好的理解本公开实施例中的技术方案，并使本公开实施例的上述目的、特征和优点能够更加明显易懂，下面结合附图对本公开实施例中的技术方案作进一步详细的说明。

数字人广泛应用于直播、新闻播报、语音提示等领域。通常需要基于想要播报的音频驱动数字人形象做出和该音频匹配的动作、表情等，得到该音频驱动的视频。相关技术中，一般需要针对每个数字人形象预先训练得到该数字人形象的语音驱动模型，比如，如图1所示，针对某个数字人形象A，可以获取大量该数字人形象A的音频，以及与该音频匹配的数字人形象A的视频(即视频中的动作表情与该音频是同步的)，然后利用该音频作为训练样本，该视频作为样本标签，对神经网络模型进行训练，得到该数字人形象A的语音驱动模型。在得到该数字人形象A的语音驱动模型后，可以将不同的音频输入到该语音驱动模型中，即可以输出不同音频驱动下的该数字人形象A的视频。

但是这种方式只能得到一个固定的数字人形象在不同音频驱动下的视频，如果要换成一个新数字人形象，则需重新获取大量新数字人形象的音视频，利用新数字人形象的音视频重新训练新数字人形象的语音驱动模型，整个训练过程需要的数据量大，耗时较长，导致无法快速生成新数字人形象在某个音频驱动下的视频。比如，针对直播场景，如果用户希望快速为某个模特形象定制一个目标语音驱动下的视频，则需要获取该模特形象的大量音视频数据，重新训练一个该模特形象的语音驱动模型，对于无法获取该模特形象大量音视频数据的场景，则无法生成该模特形象的语音驱动模型，并且整个过程耗时较长，无法实现新形象的快速定制。

基于此，本公开实施例提供一种数字人生成方法，当想要生成一段目标音频驱动目标数字人形象的驱动视频时，可以获取参考数字人形象在该目标音频驱动下的驱动视频，针对该驱动视频中的各视频帧，可以将各视频帧中的参考数字人形象替换成目标数字人形象，并将参考数字人形象的姿态迁移到目标数字人形象上，得到目标数字人形象在该目标音频驱动下的驱动视频。通过这种方法，无需再专门训练目标数字人形象的语音驱动模型，并且姿态迁移仅需少量目标数字人形象的图像即可实现，可以适用于无法获取大量目标形象音视频数据的场景，并且耗费时间较短，可以实现快速定制一个新形象在目标音频驱动下的视频。

本公开实施例提供的数字人生成方法可以通过各种电子设备执行，比如，可以是手机、笔记本电脑、平板、云端服务器或者服务器集群等等，本公开实施例不作限制。

本公开实施例中的参考数字人形象可以是人物形象，比如，可以是人脸，或者是也可以是包含整个人体的人物，当然参考数字人形象也可以是一些动物形象，或者虚拟形象，比如，可以是各类设计的卡通形象等等，本公开实施例不做限制，只要可以获取该参考数字人形象的大量音视频数据，用于训练该参考数字人形象的语音驱动模型即可。

同样的，本公开实施例中的目标数字人形象也可以是人物、动物、虚拟形象等。但是，为保证参考数字人形象的姿态可以准确的迁移到目标数字人形象中，目标数字人形象和参考数字人形象最好可以是同一类型的形象，比如，都是人脸，或者都是整个人体，或者都是某个动物形象。

为了便于区分，以下将参考数字人形象在目标音频驱动下的视频称为第一驱动视频，目标参考数字人形象在目标音频驱动下的视频称为第二驱动视频。

在一些实施例中，如图2(a)所示，本公开实施例提供的数字人生成方法可以包括以下步骤：

S202、获取参考数字人形象在目标音频驱动下的第一驱动视频；

S204、提取所述参考数字人形象在所述第一驱动视频中的姿态特征；

S206、将所述第一驱动视频中的参考数字人形象替换为目标数字人形象，并将所述姿态特征加载到所述目标数字人形象，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

由于已经有参考数字人形象在目标音频驱动下的第一驱动视频，因而可以借助第一驱动视频得到目标数字人形象在目标音频驱动下的第二驱动视频。其中，目标音频可以是用户想要播报或者直播的一段语音数据，目标数字人形象为用户希望用于播报该目标语音的一个数字人形象。比如，用户希望通过主播A形象来播报某段内容，该内容对应的音频数据即为目标音频，该主播A形象即为目标数字人形象。

具体的，在步骤S202中，可以获取参考数字人形象在目标音频驱动下的第一驱动视频，第一驱动视频可以是预先基于各种方式获得的参考数字人形象在目标音频驱动下的视频。

在步骤S204中，在获取到第一驱动视频后可以针对第一驱动视频中的各视频帧，提取该视频帧中的参考数字人形象的姿态特征，其中，姿态特征可以是参考数字人形象的脸部动作、脸部表情或者肢体动作等特征。

在步骤S206中，针对第一驱动视频中的各视频帧，可以将各视频帧中的参考数字人形象替换为目标数字人形象，并将该视频帧中提取到的姿态特征加载到目标数字人形象上，从而得到目标数字人形象在目标音频驱动下的第二驱动视频。

通过将第一驱动视频中各视频帧的参考数字人形象替换成目标数字人形象，然后将提取到的参考数字人的姿态特征加载到目标数字人上，可以无需专门训练目标数字人形象的语音驱动模型，也可以获得目标数字人形象在目标音频下的语音驱动模型。在一些实施例中，参考数字人形象在目标音频驱动下的第一驱动视频可以基于预先训练的语音驱动模型得到，该语音驱动模型可以基于参考数字人形象的音视频数据训练得到。比如，如图2(b)所示，为本公开实施例的一种数字人生成方法的示意图，如图2(c)所示，本公开实施例的一种数字人生成方法的流程图，该方法可以包括以下步骤：

S302、获取目标音频和目标数字人形象；

首先，可以获取目标音频和目标数字人形象。其中，获取的目标数字人形象可以是包含该形象一帧或多帧图像，也可以是表征该目标数字人形象的一些特征数据(比如，外形特征)，基于这些特征数据即可以得到该目标数字人形象，本公开实施例不做限制。

S304、根据所述目标音频和预先训练的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频；其中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到；

在获取目标音频和目标数字人形象后，可以将目标音频输入至预先训练的语音驱动模型中，利用该语音驱动模型确定该参考数字人形象在目标音频驱动下的第一驱动视频，第一驱动视频的各视频帧中的参考数字人形象的姿态与该目标音频同步，即参考数字人的面部表情、神态、或者动作和目标音频中的声音内容是匹配的，比如，当声音内容呈现比较欢快的语调，参考数字人的表情也是微笑的表情等。其中，该语音驱动模型可以利用参考数字人形象的音视频数据训练得到，比如，可以将参考数字人形象的音频作为训练样本，输入到神经网络模型中，与该音频同步的视频作为样本标签，训练得到该参考数字人形象的语音驱动模型。

S306、将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

在得到参考数字人形象在目标音频驱动下的第一驱动视频后，可以将第一驱动视频的各视频帧中的参考数字人形象的姿态迁移到目标数字人形象上，从而可以得到目标数字人形象在目标音频驱动下的第二驱动视频。比如，针对第一驱动视频中的视频帧A，即可以将该帧中参考数字人形象的姿态迁移到目标数字人形象上，从而可以得到一帧第二驱动视频中的视频帧A’，该视频帧A’中目标数字人形象的姿态和视频帧A中参考数字人形象的姿态一致。

其中，将第一驱动视频的各视频帧中参考数字人形象的姿态迁移到目标数字人形象上的方式有很多，比如，可以将包含目标数字人的形象的图像和第一驱动视频的视频帧输入至预先训练的神经网络模型中，神经网络模型可以自动输出姿态迁移后的形象。或者，也可以通过模型提取第一驱动视频的视频帧中参考数字人形象的姿态相关信息，再将这些姿态相关的信息作用到目标数字人形象上，得到该姿态下的目标数字人形象。

举个例子，参考数字人形象为人脸A，目标数字人形象为人脸B，可以提取人脸A中的特征点，确定各特征点之间的距离，然后提取人脸B中的特征点，基于人脸A中特征点的距离以及人脸A和人脸B的大小比例适应性调整人脸B中相应特征点的距离，以便人脸B和人脸A姿态保持一致。

本公开实施例通过训练一个参考数字人形象的语音驱动模型，然后将该语音驱动模型复用给其他的新形象，从而可以实现快速定制新形象在目标音频驱动下的视频。

在一些实施例中，参考数字人形象的姿态可以包括参考数字人形象的脸部动作，比如，张口、闭眼等，也可以包括参考数字人形象的脸部表情，比如，开心、愤怒、惊讶等，或者也可以包括参考数字人形象的一些肢体动作，比如，头部动作(仰头、低头等)、手动动作(各类手势等)、身体动作(转身、弯腰等)。

相关技术中，在训练某个数字人形象的语音驱动模型时，通常是直接将该数字人形象的音频作为训练样本输入到模型中，然后将与该音频同步的视频作为标签，基于模型预测的视频中该数字人形象的姿态和实际的视频中该数字人的姿态的差异不断调整模型参数，得到训练后的语音驱动模型。但是，由于同一句话，如果由不同的人录制，其音色会存在差别，如果直接将音频作为训练样本，音色可能会对最终的识别结果造成干扰，导致同一句话，如果是由不同的人录制，造成输出的这句话对应的姿态会有差别。

所以，在一些实施例中，为了消除音色对模型识别结果的干扰，在根据参考数字人形象的音视频训练语音驱动模型时，可以获取所述参考数字人形象的音频，以及和该音频同步的参考数字人形象的视频，然后可以从参考数字人形象的音频中提取音素，得到与该段音频对应的参考数字人的音素时间戳，然后以该参考数字人形象的音素时间戳作为训练样本，以该参考数字人形象的视频作为样本标签，训练得到语音驱动模型。

在一些实施例中，在根据目标音频和预先训练的参考数字人形象的语音驱动模型，得到参考数字人形象在目标音频驱动下的第一驱动视频时，也可以先从目标音频中提取音素，得到与该目标音频对应的音素时间戳，然后将该音素时间戳输入到语音驱动模型中，利用语音驱动模型预测得到第一驱动视频，从而可以消除音色的影响，提高模型预测结果的准确度。

在一些实施例中，在将第一驱动视频的各视频帧中的参考数字人形象的姿态迁移到目标数字人形象上时，可以先获取若干帧目标数字人形象的图像，从目标数字人形象的图像中提取得到与该目标数字人形象的纹理相关的纹理特征，其中，纹理特征主要是与目标数字人形象的外形、表面相关的一些特征，基于这些特征则可以得到目标数字人形象的外表的大体情况。然后可以针对第一驱动视频的每一帧视频帧，从该视频帧中提取与参考数字人形象的姿态相关的姿态特征，姿态特征则是与参考数字人的动作、神态、表情有关的特征，基于姿态特征即可以确定参考数字人形象当前所处的姿态。然后可以根据目标数字人形象的纹理特征以及参考数字人形象的姿态特征重新构建目标数字人形象，其中，新构建的目标数字人形象的姿态与视频帧中的参考数字人形象的姿态一致。并且可以根据重新构建的目标数字人形象得到与该视频帧对应的重构帧。针对第一驱动视频的每一视频帧，均可以采用上述方法，得到每一帧视频帧对应的重构帧，进而可以得到目标数字人形象在目标音频驱动下的第二驱动视频。

其中，参考数字人形象的姿态特征或目标数字人形象的纹理特征的提取可以采用多种方式，比如，可以通过预先训练模型提取，或者也可以采用其他方式，本公开实施例不做限制。

由于提取目标数字人形象的纹理特征，仅需少量的目标数字人形象的图像即可以实现，相比于要训练一个目标数字人形象的语音驱动模型，其需要的图像数据大大减小，可以实现在无法获取大量目标数字人形象音视频的场景下，为目标数字人形象定制目标音频下的驱动视频。

当然，对于第一驱动视频，由于大多数情况下，可能连续多帧视频帧参考数字人形象的姿态都保持不变，因而，如果针对每一视频帧，都执行重新构建目标数字人形象的步骤，可能会既浪费处理资源，又由降低处理效率。为了提高处理效率，在一些实施例中，在根据第一驱动视频帧中的参考数字人形象的姿态特征和目标数字人形象的纹理特征重新构建目标数字人形象之前，可以先检测从当前帧提取的姿态特征与从当前帧的前一帧提取的姿态特征是否一致，如果一致，则将直接将前一帧对应的重构帧作为该当前帧对应的重构帧，无需再进行重构目标数字人形象的过程，以提高处理效率。

在一些实施例中，在根据重新构建的目标数字人形象得到与第一驱动视频的视频帧对应的重构帧时，可以直接将第一驱动视频的视频帧的背景素材作为目标数字人形象的背景素材，得到重构帧。当然，也可以根据实际需求预先设置好背景素材，然后根据重新构建的目标数字人形象和预先设置的背景素材生成重构帧。其中，不同的重构帧中的背景素材可以相同，也可以不同，比如，可以基于重构帧中目标数字人形象的姿态去动态变化背景素材，或者也可以基于与该重构帧同步的目标音频的声音内容选取适配的背景素材。

在一些实施例中，在从所述视频帧中提取与参考数字人形象的姿态相关的姿态特征时，可以先利用参考数字人形象的多帧图像训练得到参考数字人形象的自编码器。其中，自编码器包括编码器和解码器两部分，编码器能将输入压缩成潜在空间表征，而解码器可以基于该潜在的空间表征重构输入。所以，可以利用参考数字人形象的多帧图像作为输入，对自编解码器进行训练，使得其输出和输入尽可能一致，从而训练得到参考数字人形象的自编码器。然后可以利用参考数字人形象的自编码器中的编码器提取第一驱动视频的各视频帧中的参考数字人形象的姿态特征。通过参考数字人形象的自编解码器中的编码器提取参考数字人形象的姿态特征，使得提取到的姿态特征可以结合任一解码器提取的数字人形象的纹理特征重构数字人形象。

在一些实施例中，在从目标数字人形象的图像中提取得到与目标数字人形象的纹理相关的纹理特征时，可以获取目标数字人形象的多帧图像，基于该目标数字人形象的多帧图像训练得到目标数字人形象的自编码器，然后利用该目标数字人形象的自编码器中的解码器提取目标数字人形象的图像中的纹理特征。其中，目标数字人形象的自编码器也包括编码器和解码器两部分，编码器可以提取输入图像潜在的空间表征，解码器基于该空间表征重建目标数字人形象。在训练过程中，解码器可以学习目标数字人形象的纹理相关的信息，得到目标数字人形象的纹理特征。通过目标数字人形象的自编解码器中的解码器提取目标数字人形象的纹理特征，使得提取到的纹理特征可以结合编码器提取到的数字人形象的姿态特征重构数字人形象。

在一些实施例中，在根据姿态特征和纹理特征重新构建目标数字人形象时，可以利用目标数字人形象的自编码器中的解码器根据姿态特征和纹理特征重新构建目标数字人形象。由于目标数字人形象的解码器在训练过程中，已经学习到了目标数字人形象的纹理相关的信息，因而，可以将参考数字人的姿态特征输入到该解码器中，解码器即可以利用它学习到的目标数字人形象的纹理特征和该姿态特征重建构建得到姿态与参考数字人形象的姿态一致的目标形象。

为了进一步解释本公开实施例提供的数字人生成方法，以下结合一个具体的实施例加以解释。

当用户无法获取主播A的大量音视频数据，但又希望可以利用主播A形象快速定制主播A形象在目标音频驱动下的视频时，可以采用以下方式实现：

(1)预先训练主播B形象的语音驱动模型

由于可以获取到大量主播B的音频以及和该音频同步的视频，因而，可以预先训练主播B形象的语音驱动模型。然后从主播B的音频中提取音素，得到与该音频对应的音素时间戳。将该音素时间戳作为训练样本，将与该音频同步的视频作为样本标签，对预先设置的神经网络进行训练，得到该语音驱动模型。(2)预先训练主播A形象和主播B形象的自编码器

如图3所示，可以获取多帧主播B的图像，利用主播B的多帧图像训练得到主播B的自编码器；同时可以获取多帧主播A形象的图像，利用主播A形象的图像训练得到主播A形象的自编码器。其中，自编码器包括编码器和解码器，将图像输入到自编码器后，在编码器可以提取图像中的主播形象的特征，解码器能够基于提取的特征重构该主播形象。因而，可以利用各主播形象的图像作为输入，使得自编码器输出的图像和输入的图像尽可能一致，对自编码器进行训练。训练得到的主播B的编码器可以用于提取主播B形象的人脸动作、神态、表情等姿态相关的特征，主播A形象的解码器可以根据该姿态相关的特征生成对应动作、表情、神态的主播A形象。

(3)将目标音频输入到主播B形象的语音驱动模型中，利用语音驱动模型输出主播B形象在目标音频驱动下的第一驱动视频。

(4)如图3所示，针对第一驱动视频中的各视频帧，可以先将该视频帧输入到主播B形象的编码器中，利用主播B形象的编码器提取视频帧中的动作、表情、神态等姿态相关特征，然后再将该特征输入到主播A形象的解码器中，主播A形象的解码器则可以基于预先学习到的主播A形象的纹理特征，以及输入的姿态相关特征重新构建主播A形象，重新构建主播A形象的姿态和该视频帧中主播B形象的姿态一致，并且可以结合预先设置的背景素材，得到与该视频帧对应的重构帧。针对第一驱动视频中的每一视频帧，都可以执行上述步骤，从而可以得到主播A形象在目标音频驱动下的第二驱动视频。

通常音频的自由度较高，往往要大量样本才能覆盖语音中的各种音素组合，因而，如果要训练一个新形象的语音驱动模型，往往需要大量的训练样本，即需要新形象的大量音视频数据，这种方式对于无法获取新形象的大量音视频的场景不适用。而通常人脸的自由度比较低，通过少量的图像就能基本覆盖所有人脸的所有动作，因而，训练一个新形象的自编码器往往仅需少量的图像，比如几帧或几十帧，相比训练一个语音驱动模型，不仅需要耗费的训练样本大大减少，也可以大大提高生成新形象的数字人视频的效率。

相应的，本公开实施例还提供了一种数字人生成装置，如图4所示，所述装置包括：

获取模块41；用于获取目标音频和目标数字人形象；

预测模块42，用于根据所述目标音频和预先训练的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频；其中，所述语音驱动模型基于所述参考数字人形象的音视频训练得到；

姿态迁移模块43，用于将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到所述目标数字人形象上，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

从所述目标音频中提取音素，得到音素时间戳；

此外，本公开实施例还提供了另一种数字人生成装置，如图5所示，所述装置50包括：

获取模块51，用于获取参考数字人形象在目标音频驱动下的第一驱动视频；

提取模块52，用于提取所述参考数字人形象在所述第一驱动视频中的姿态特征；

加载模块53，用于将所述第一驱动视频中的参考数字人形象替换为目标数字人形象，并将所述姿态特征加载到所述目标数字人形象，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

其中，所述数字人生成装置在生成目标音频驱动的下的目标数字人形象的具体实现步骤可以参考上述各方法实施例中描述，在此不再赘述。

进一步的，本公开实施例还提供一种设备，如图6所示，所述设备包括处理器61、存储器62、存储于所述存储器62可供所述处理器61执行的计算机指令，所述处理器61执行所述计算机指令时实现上述实施例中任一项所述的方法。

本公开实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述任一实施例所述的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种数字人生成方法，其特征在于，所述方法包括：

获取目标音频和目标数字人形象；

2.根据权利要求1所述的方法，其特征在于，根据目标音频和预先训练的参考数字人形象的语音驱动模型，得到参考数字人形象在所述目标音频驱动下的第一驱动视频，包括：

从所述目标音频中提取音素，得到音素时间戳；

3.根据权利要求1或2所述的方法，其特征在于，所述语音驱动模型基于所述参考数字人形象的音视频训练得到，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，将所述第一驱动视频的各视频帧中的所述参考数字人形象的姿态迁移到目标数字人形象上，包括：

5.根据权利要求4所述的方法，其特征在于，从所述视频帧中提取与所述参考数字人形象的姿态相关的姿态特征，包括：

6.根据权利要求5所述的方法，其特征在于，从所述目标数字人形象的图像中提取得到与所述目标数字人形象的纹理相关的纹理特征，包括：

7.根据权利要求6所述的方法，其特征在于，根据所述姿态特征和所述纹理特征重新构建目标数字人形象，包括：

8.根据权利要求4-7任一项所述的方法，其特征在于，在根据所述姿态特征和所述纹理特征重新构建目标数字人形象之前，还包括：

9.根据权利要求4-8任一项所述的方法，其特征在于，根据所述重新构建的目标数字人形象得到与所述视频帧对应的重构帧，包括：

10.根据权利要求1-9任一项所述的方法，其特征在于，所述参考数字人形象的姿态包括以下一种或多种：所述参考数字人形象的脸部动作、所述参考数字人形象的脸部表情、所述参考数字人形象的肢体动作。

11.一种数字人生成方法，其特征在于，所述方法包括：

获取参考数字人形象在目标音频驱动下的第一驱动视频；

12.一种数字人生成装置，其特征在于，所述装置包括：

获取模块；用于获取目标音频和目标数字人形象；

13.一种数字人生成装置，其特征在于，所述装置包括：

获取模块，用于获取参考数字人形象在目标音频驱动下的第一驱动视频；

提取模块，用于提取所述参考数字人形象在所述第一驱动视频中的姿态特征；

加载模块，用于将所述第一驱动视频中的参考数字人形象替换为目标数字人形象，并将所述姿态特征加载到所述目标数字人形象，得到所述目标数字人形象在所述目标音频驱动下的第二驱动视频。

14.一种设备，其特征在于，所述设备包括处理器、存储器、存储于所述存储器可供所述处理器执行的计算机指令，所述处理器执行所述计算机指令时实现如权利要求1-11任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被执行时实现如权利要求1-11任一项所述的方法。