CN113886643A

CN113886643A - 数字人视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN113886643A
Application number: CN202111173208.XA
Authority: CN
Inventors: 王鑫宇; 杨国基; 刘致远; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-04

Abstract

本公开实施例公开了一种数字人视频生成方法、装置、电子设备和存储介质。上述方法包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；基于所生成的目标图像，生成数字人视频。本公开实施例可以提高数字人生成效果。

Description

数字人视频生成方法、装置、电子设备和存储介质

技术领域

本公开涉及数字人视频生成技术领域，尤其是一种数字人视频生成方法、装置、电子设备和存储介质。

背景技术

数字人的生成技术日趋成熟。现有方案有基于pix2pix、pix2pixHD、video2videosynthesis的数字人生成方法。具体而言，目前出现了大量的数字人生成技术，例如基于pix2pix、pix2pixHD、Vid2Vid、few shot video2video、NERF、StyleGAN等数字人生成方法。

然而，现有这些方案中，若生成的人脸关键点不准确、生成素描图的效果比较差，则会导致最终生成的数字人图片的效果比较差。

发明内容

鉴于此，为解决如上部分或全部技术问题，本公开实施例提供一种数字人视频生成方法、装置、电子设备和存储介质。

第一方面，本公开实施例提供一种数字人视频生成方法，该方法包括：

获取目标音频和目标人脸图像；

针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；

针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；

基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的方法中，上述将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，包括：

将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像进行通道合并，生成与该音频帧相对应的合成图像；

将与该音频帧相对应的合成图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像。

可选地，在本公开任一实施例的方法中，上述嘴部区域图像生成模型通过如下方式训练得到：

获取视频数据；

从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

采用机器学习算法，将样本音频作为第一生成式对抗网络中的第一生成器的输入数据，得到与样本音频相对应的、上述第一生成器生成的嘴部区域图像，如果上述第一生成式对抗网络中的第一判别器确定上述第一生成上述满足第一预设训练结束条件，则将当前的第一生成器作为嘴部区域图像生成模型。

可选地，在本公开任一实施例的方法中，通过如下方式从与样本音频相对应的样本人脸图像中提取嘴部区域图像：

从与样本音频相对应的样本人脸图像中提取人脸关键点和嘴部轮廓线；

从上述人脸关键点中提取嘴部关键点；

基于上述嘴部轮廓线和上述嘴部关键点，生成嘴部区域图像。

获取视频数据；

从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将上述视频数据中包含所提取的音频帧的预设数量帧连续音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

可选地，在本公开任一实施例的方法中，训练得到上述嘴部区域图像生成模型的步骤还包括：

执行如下训练步骤：

将样本音频输入至初始模型，得到与该样本音频相对应的预测嘴部关键点，其中，初始模型包括第一子模型、第二子模型和第三子模型，上述第一子模型的输入数据为样本音频，上述第二子模型的输入数据和上述第三子模型的输入数据均为上述第一子模型的输出数据，上述第二子模型的输出数据为嘴部关键点，上述第三子模型的输出数据为嘴部区域图像；

基于与该样本音频相对应的预测嘴部关键点和从与该样本音频相对应的样本人脸图像中提取的嘴部关键点，计算预设损失函数的函数值；

如果所计算的函数值小于或等于预设阈值，则将当前的初始模型包括的第一子模型和第三子模型确定为训练完成的嘴部区域图像生成模型。

如果上述函数值大于上述预设阈值，则对当前的初始模型的参数进行更新，以及基于参数更新后的的初始模型继续执行上述训练步骤。

可选地，在本公开任一实施例的方法中，在训练完成上述嘴部区域图像生成模型之后，通过如下方式训练得到上述目标图像生成模型：

采用机器学习算法，将上述嘴部区域图像生成模型输出的嘴部区域图像，以及对应的目标区域图像作为第二生成式对抗网络中的第二生成器的输入数据，得到与样本音频相对应的、上述第二生成器生成的目标图像，如果上述第二生成式对抗网络中的第二判别器确定上述第二生成器生成的目标图像满足第二预设训练结束条件，则将当前的第二生成器作为目标图像生成模型。

可选地，在本公开任一实施例的方法中，上述方法还包括：

如果上述第二判别器确定上述第二生成器生成的目标图像不满足上述第二预设训练结束条件，则更新当前的第二生成器的模型参数，以及基于模型参数更新后的第二生成式对抗网络，继续训练。

可选地，在本公开任一实施例的方法中，上述将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，包括：

提取该音频帧的音频特征；

将所提取的音频特征输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像。

可选地，在本公开任一实施例的方法中，上述提取该音频帧的音频特征，包括：

提取该音频帧的频率倒谱系数特征，作为该音频帧的音频特征；或者

将该音频帧输入至预先训练的特征提取模型，得到该音频帧的音频特征，其中，上述特征提取模型表征音频帧和音频帧的音频特征之间的对应关系。

第二方面，本公开实施例提供一种数字人视频生成装置，上述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

第一输入单元，被配置成针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；

第二输入单元，被配置成针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；

生成单元，被配置成基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的装置中，上述第二输入单元，进一步被配置成：

可选地，在本公开任一实施例的装置中，上述嘴部区域图像生成模型通过如下方式训练得到：

获取视频数据；

可选地，在本公开任一实施例的装置中，通过如下方式从与样本音频相对应的样本人脸图像中提取嘴部区域图像：

从上述人脸关键点中提取嘴部关键点；

获取视频数据；

可选地，在本公开任一实施例的装置中，训练得到上述嘴部区域图像生成模型的步骤还包括：

执行如下训练步骤：

可选地，在本公开任一实施例的装置中，在训练完成上述嘴部区域图像生成模型之后，通过如下方式训练得到上述目标图像生成模型：

可选地，在本公开任一实施例的装置中，上述装置还包括：

可选地，在本公开任一实施例的装置中，上述将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，包括：

提取该音频帧的音频特征；

可选地，在本公开任一实施例的装置中，上述提取该音频帧的音频特征，包括：

第三方面，本公开实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行上述存储器中存储的计算机程序，且上述计算机程序被执行时，实现本公开上述第一方面的数字人视频生成方法中任一实施例的方法。

第四方面，本公开实施例提供一种计算机可读介质，该计算机程序被处理器执行时，实现如上述第一方面的数字人视频生成方法中任一实施例的方法。

第五方面，本公开实施例提供一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在设备上运行时，使得该设备中的处理器执行用于实现如上述第一方面的数字人视频生成方法中任一实施例的方法中各步骤的指令。

基于本公开上述实施例提供的数字人视频生成方法，通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系，然后，针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，最后，基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的嘴部区域图像和人脸图像中的目标区域图像，来生成目标图像，进而生成数字人视频，可以提高数字人视频的生成效果。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性***架构图；

图2是本公开实施例提供的一种数字人视频生成方法的流程图；

图3是针对图2的实施例的一个应用场景的示意图；

图4A是本公开实施例提供的另一种数字人视频生成方法的流程图；

图4B是本公开实施例提供的又一种数字人视频生成方法的流程图；

图4C是本公开实施例提供的一种数字人视频生成方法中的嘴部区域图像生成模型的结构示意图；

图5是本公开实施例提供的一种数字人视频生成装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象，既不代表任何特定技术含义，也不表示它们之间的逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，上述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性***架构图。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如目标音频和目标人脸图像)等。终端设备101、102、103上可以安装有各种客户端应用，例如音视频处理软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103发送的数据进行处理的后台服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

还需要说明的是，本公开的实施例所提供的数字人视频生成方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，数字人视频生成装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当数字人视频生成方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该***架构可以仅包括数字人视频生成方法运行于其上的电子设备(例如服务器或终端设备)。

图2示出了本公开实施例提供的一种数字人视频生成方法的流程200。该数字人视频生成方法，包括以下步骤：

步骤201，获取目标音频和目标人脸图像。

在本实施例中，数字人视频生成方法的执行主体(例如图1所示的服务器或终端设备)可以从其他电子设备或者本地，获取目标音频和目标人脸图像。

其中，目标音频，可以是各种音频。目标音频可以用于后续步骤中生成的数字人视频发出该目标音频指示的声音。例如，目标音频是语音音频，也可以是对文字进行转化而经由机器生成的音频。

目标人脸图像，可以是任何人脸图像。作为示例，目标人脸图像，可以是拍摄得到的包含人脸的图像，也可以是从视频中提取的一帧人脸图像。

在一些情况下，目标音频和目标人脸图像之间可以不存在关联关系。例如，目标音频可以是第一人员发出的音频，目标人脸图像可以是第二人员的人脸图像，其中，第二人员可以是不同于第一人员的人员；或者，目标音频可以是第一人员在第一时刻发出的音频，目标人脸图像可以是该第一人员在第二时刻的人脸图像，其中，第二时刻可以是不同于第一时刻的任一时刻。

步骤202，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像。其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系。

在本实施例的一些可选的实现的方式中，上述执行主体或者与上述执行主体通信连接的电子设备可以采用如下方式，来训练嘴部区域图像生成模型：

步骤一，获取视频数据。

其中，该视频数据可以是任意包含语音和人脸图像的视频数据。在视频数据中，每一个视频帧包含音频帧和人脸图像，即每一个音频帧具有对应的一个人脸图像。如，在一秒内的视频数据内，若该一秒内的视频包含了5个帧，即包含了5个音频帧和5个人脸图像，音频帧与人脸图像一一对应。

步骤二，从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像。

步骤三，采用机器学习算法，将样本音频作为第一生成式对抗网络中的第一生成器的输入数据，得到与样本音频相对应的、上述第一生成器生成的嘴部区域图像，如果上述第一生成式对抗网络中的第一判别器确定上述第一生成上述满足第一预设训练结束条件，则将当前的第一生成器作为嘴部区域图像生成模型。

其中，上述第一预设训练结束条件可以包括以下至少一项：计算得到的损失函数值小于或等于预设阈值，上述第一生成器生成的嘴部区域图像为与样本音频相对应的样本人脸图像的嘴部区域图像的概率为50％。

可以理解，上述可选的实现方式中，基于生成式对抗网络来获得嘴部区域图像生成模型，这样可以通过提高第一生成器生成的嘴部区域图像生成模型的准确度，来提高数字人视频的生成效果。

在上述可选的实现方式中的一些应用场景中，可以通过如下方式从与样本音频相对应的样本人脸图像中提取嘴部区域图像：

首先，从与样本音频相对应的样本人脸图像中提取人脸关键点和嘴部轮廓线。

之后，从上述人脸关键点(例如68个人脸关键点)中提取嘴部关键点(例如包括嘴和下巴共26个关键点)。

最后，基于上述嘴部轮廓线和上述嘴部关键点，生成嘴部区域图像。

作为示例，上述执行主体可以采用有监督或无监督的方式训练得到的图像生成模型，来基于上述嘴部轮廓线和上述嘴部关键点，生成嘴部区域图像。

可以理解，上述可选的实现方式中，可以首先基于单帧音频帧得到数量较多个人脸关键点，然后基于所得到的较多人脸关键点，获得目标人脸图像的数量较少的嘴部关键点，由此，可以提高所得到的与该音频帧相对应的嘴部关键点的准确度，进而可以通过后续步骤提高数字人视频的生成效果和速度。

在本实施例的一些可选的实现的方式中，上述执行主体或者与上述执行主体通信连接的电子设备，也可以采用如下方式，来训练嘴部区域图像生成模型：

步骤一，获取视频数据。

步骤二，从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将上述视频数据中包含所提取的音频帧的预设数量(例如4)帧连续音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像。

可以理解，上述可选的实现方式中，基于生成式对抗网络来获得嘴部区域图像生成模型，这样可以通过提高第一生成器生成的嘴部区域图像的准确度，来提高数字人视频的生成效果。

在一些情况下，上述训练嘴部区域图像生成模型的步骤，还包括：

执行如下训练步骤(包括第一步骤、第二步骤和第三步骤)：

第一步骤，将样本音频输入至初始模型，得到与该样本音频相对应的预测嘴部关键点。其中，初始模型包括第一子模型、第二子模型和第三子模型，上述第一子模型的输入数据为样本音频，上述第二子模型的输入数据和上述第三子模型的输入数据均为上述第一子模型的输出数据，上述第二子模型的输出数据为嘴部关键点，上述第三子模型的输出数据为嘴部区域图像。

第二步骤，基于与该样本音频相对应的预测嘴部关键点和从与该样本音频相对应的样本人脸图像中提取的嘴部关键点，计算预设损失函数的函数值。

第三步骤，如果所计算的函数值小于或等于预设阈值，则将当前的初始模型包括的第一子模型和第三子模型确定为训练完成的嘴部区域图像生成模型。

可选的，上述训练嘴部区域图像生成模型的步骤，还包括：

可以理解，上述可选的实现方式中，在使用嘴部区域图像生成模型的阶段，无需采用第二子模型获得嘴部关键点，这样可以提高数字人视频的生成效率。

在本实施例的一些可选的实现的方式中，上述执行主体可以采用如下方式，来执行上述步骤202，以便将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像：

首先，提取该音频帧的音频特征。其中，该音频帧的音频特征可以包括但不限于：频率倒谱系数特征、音色特征、声调特征等等。

在上述可选的实现方式中的一些应用场景下，上述执行主体可以采用如下方式，提取该音频帧的音频特征：提取该音频帧的频率倒谱系数特征，作为该音频帧的音频特征。

在上述可选的实现方式中的一些应用场景下，上述执行主体也可以采用如下方式，提取该音频帧的音频特征：将该音频帧输入至预先训练的特征提取模型，得到该音频帧的音频特征。其中，上述特征提取模型表征音频帧和音频帧的音频特征之间的对应关系。

然后，将所提取的音频特征输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像。其中，嘴部区域图像生成模型，可以包括表征音频特征和音频帧相对应的嘴部区域图像的对应关系的子模型。

可以理解，上述可选的实现方式中，可以通过提取音频帧的音频特征，来得到与音频帧相对应的嘴部区域图像，由此，可以通过后续步骤进一步提高数字人视频的生成效果。

步骤203，针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像。其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像。

在本实施例的一些可选的实现的方式中，上述执行主体可以采用如下方式执行上述步骤203，以便将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像：

首先，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像进行通道合并，生成与该音频帧相对应的合成图像。

之后，将与该音频帧相对应的合成图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像。其中，目标图像生成模型可以包含用于表征合成图像和目标图像的对应关系的子模型。

可以理解，上述可选的实现方式中，通过对音频帧相对应的嘴部区域图像和目标人脸图像中的目标区域图像进行通道合并，进一步提高了数字人视频的生成效果。

在本实施例的一些可选的实现的方式中，在训练完成上述嘴部区域图像生成模型之后，上述执行主体或者与上述执行主体通信连接的电子设备，可以通过如下方式训练得到上述目标图像生成模型：

可选的，如果上述第二判别器确定上述第二生成器生成的目标图像不满足第二预设训练结束条件，则更新当前的第二生成器的模型参数，以及基于模型参数更新后的第二生成式对抗网络，继续训练。

其中，上述第二预设训练结束条件可以包括以下至少一项：计算得到的损失函数值小于或等于预设阈值，上述第一生成器生成的嘴部区域图像为与样本音频相对应的样本人脸图像的嘴部区域图像的概率为50％。

可以理解，上述可选的实现方式中，基于生成式对抗网络来获得目标图像生成模型，这样可以通过提高第二生成器生成的目标图像的准确度，来提高数字人视频的生成效果。

步骤204，基于所生成的目标图像，生成数字人视频。

在本实施例中，上述执行主体可以基于所生成的各个目标图像，生成数字人视频。

继续参见图3，图3是根据本实施例的数字人视频生成方法的应用场景的一个示意图。在图3中，服务器310(也即上述执行主体)首先获取目标音频301和目标人脸图像305。之后，服务器310针对上述目标音频301中的音频帧302，将该音频帧302输入至预先训练的嘴部区域图像生成模型303，得到与该音频帧302相对应的嘴部区域图像304，其中，上述嘴部区域图像生成模型303用于表征音频帧与嘴部区域图像之间的对应关系，然后，服务器310针对上述目标音频301中的音频帧302，将与该音频帧302相对应的嘴部区域图像304和上述目标人脸图像305中的目标区域图像306输入至预先训练的目标图像生成模型307，生成与该音频帧302相对应的目标图像308，其中，与该音频帧302相对应的目标图像308用于指示上述目标人脸图像305指示的人员发出该音频帧302指示的音频，上述目标区域图像306为上述目标人脸图像305中除嘴部区域图像之外的区域图像。最后，服务器310基于所生成的目标图像308，生成数字人视频309。

本公开的上述实施例提供的方法，通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系，然后，针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，最后，基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的嘴部区域图像和人脸图像中的目标区域图像，来生成目标图像，进而生成数字人视频，可以提高数字人视频的生成效果。

进一步参考图4A，其示出了数字人视频生成方法的又一个实施例的流程400。该数字人视频生成方法的流程，包括以下步骤：

步骤401，获取目标音频和目标人脸图像。

步骤402，针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像。其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系。

步骤403，针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像进行通道合并，生成与该音频帧相对应的合成图像。其中，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像。

步骤404，针对上述目标音频中的音频帧，将与该音频帧相对应的合成图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像。其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。

步骤405，基于所生成的目标图像，生成数字人视频。

作为示例，本实施例中数字人视频生成方法可以按照如下方式执行：

首先，介绍一下数据的格式：

本实施例中数字人视频生成方法中的人脸素描图的大小为512*512*1；目标人脸图像大小为512*512*3；人脸素描图和目标人脸图像合并一下大小为512*512*4。

下面请参照图4B介绍具体方案的实现过程：

在获取用户音频(也即上述目标音频)后，从用户音频中提取音频特征；并基于该用户音频对应的视频图片帧(也即与目标人脸图像)提取68个关键点，从中截取人嘴区域的关键点(如嘴巴20个关键点和下巴6个关键点)连成线，作为LMGAN模型(也即嘴部区域图像生成模型)的输入，随后利用LMGAN模型，输出为嘴巴轮廓线的图片(也即嘴部区域图像)，然后将嘴巴轮廓线图片和真实图片(目标人脸图像中的目标区域图像)合成输入GAN(也即目标图像生成模型)中，得到GAN最终输出的数字人假图(也即目标图像)，从而可以基于GAN生成模型输出的多帧数字人假图输出对应的数字人视频(一个视频包含多帧图片)。

其中，声音推理模型，可以用于提取音频的音频特征，其输入的声音的格式可以为wav格式，帧率可以为100、50或者25。其中，wav是一种无损的音频文件格式。对于声音特征，可以为MFCC，或者为Deepspeech/ASR/wav2Vector等模型提取的特征。声音推理模型可以为LSMT、BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码表征模型)、Transfromer(转换器模型)、CNN(Convolutional NeuralNetworks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)等。

在训练阶段，可以通过如下步骤来执行：

首先，准备视频数据，视频数据包括音频(也即样本音频)和图片(也即样本音频对应的样本人脸图像)。

之后，按照帧率每秒钟25帧处理数据，音频提取特征，图片提取人脸关键点和对应的canny线；即针对每一个视频帧，从视频音频(样本音频)中提取音频特征，从视频图片(也即样本音频对应的样本人脸图像)中提取人脸关键点68个，其中，音频提取特征的方法可以使用傅里叶变换提取MFCC/用deepspeech model提取音频特征/用其他算法(ASR model--声音识别)提取的音频特征。

然后，截取人嘴区域的关键点(嘴和下巴共26个关键点)，作为LMGAN模型的输入进行训练；具体的，在提取人脸关键点(68个)后，提取嘴20个关键点和下巴6个关键点，共26个嘴部关键点，然后连线，形成嘴轮廓线图，然后可采用嘴轮廓线图和音频(或者提取到的音频特征)，对LMGAN进行训练，从而可以训练得到LMGAN模型。需要说明的是，LMGAN模型作为声音到嘴区域图片(也即嘴部区域图像)的生成器，输入是声音或者声音特征，输出为嘴巴轮廓线的图片(也即嘴部区域图像)。

LMGAN的训练方式可以是：利用一帧音频数据或多帧音频数据训练出一帧图片的嘴巴图片(也即嘴部区域图像)。具体的，在采用N帧音频数据训练一帧嘴巴图片时，如在训练第t帧图片的嘴部区域图像时，可以采用练第t帧、t-1，t-2……t-(N-1)帧对应的的音频数据，训练出第t帧图片的嘴部区域图像，进而提高嘴部区域图像的生成效果，使得数字人图片的生成效果更好。N可以大于1，N越大，嘴巴的生成效果就越好。此外，可以采用音频当前帧和前4帧音频，生成当前帧的嘴部区域图像，从而可以兼顾生成效果和生成效率。

此外，可以增加LMGAN额外的模型(图4C中的第二子模型412)的损失函数的计算。如图4C所示，LMGAN可以包括第一子模型411、第二子模型412和第三子模型413。其中，第一子模型411可以为编码器，第三子模型413可以为解码器。编码器输出的声音编码向量经过lstm层和全连接层后，可以产生对应的26个嘴部关键点，即得到推理的26个关键点。基于推理的26个关键点和真实的关键点，计算损失函数的函数值，为GAN的人嘴生成器的损失函数的函数值；进而可以利用该损失函数的函数值来判断LMGAN模型是否收敛，完成LMGAN模型的训练。

当人脸关键点模型训练结束后，训练GAN(也即目标图像生成模型)。GAN的输入为嘴的轮廓线图和(没有嘴周围区域的)人脸图片，GAN的输出为生成最终的图片(也即目标图像)。

在推理阶段：

可以获取音频(也即目标音频)，得到音频特征，输入LMGAN模型,得到人脸的轮廓线图片(也即嘴部区域图像)，轮廓线图片和真实图片(也即目标区域图像)输入GAN中，得到最终的图片(也即目标图像)。

在本实施例中，上述步骤401-步骤405的具体执行方式，可以参考上述图2对应的实施例的相关描述，在此不再赘述。此外，除上面所记载的内容外，本公开的实施例还可以包括与图2对应的实施例相同或类似的特征、效果，在此不再赘述。

本实施例中数字人视频生成方法在应用阶段，可以实现从声音到canny图片(也即嘴部区域图像)的生成，不需要生成人脸关键点，效率更高；利用N(N大于1)帧音频生成当前帧的嘴的轮廓线图，然后与当前帧的人脸图片(没有嘴周围区域的图片)按照通道合并方式进行合并，输入到GAN，得到最终的图片，可以使生成效果更自然。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种数字人视频生成装置的一个实施例，该装置实施例与以上所描述的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与以上所描述的方法实施例相同或相应的特征，以及产生与以上所描述的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的数字人视频生成装置500。上述装置500包括：获取单元501、第一输入单元502、第二输入单元503和生成单元504。其中，获取单元501，被配置成获取目标音频和目标人脸图像；第一输入单元502，被配置成针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；第二输入单元503，被配置成针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；生成单元504，被配置成基于所生成的目标图像，生成数字人视频。

在本实施例中，数字人视频生成装置500的获取单元501可以获取目标音频和目标人脸图像。

在本实施例中，第一输入单元502可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系。

在本实施例中，第二输入单元503可以针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像。

在本实施例中，生成单元504可以基于所生成的目标图像，生成数字人视频。

在本实施例的一些可选的实现方式中，上述第二输入单元503，进一步被配置成：

在本实施例的一些可选的实现方式中，上述嘴部区域图像生成模型通过如下方式训练得到：

获取视频数据；

在本实施例的一些可选的实现方式中，通过如下方式从与样本音频相对应的样本人脸图像中提取嘴部区域图像：

从上述人脸关键点中提取嘴部关键点；

获取视频数据；

在本实施例的一些可选的实现方式中，训练得到上述嘴部区域图像生成模型的步骤还包括：

执行如下训练步骤：

在本实施例的一些可选的实现方式中，在训练完成上述嘴部区域图像生成模型之后，通过如下方式训练得到上述目标图像生成模型：

在本实施例的一些可选的实现方式中，上述装置500还包括：

如果上述第二判别器确定上述第二生成器生成的目标图像不满足第二预设训练结束条件，则更新当前的第二生成器的模型参数，以及基于模型参数更新后的第二生成式对抗网络，继续训练。

在本实施例的一些可选的实现方式中，上述将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，包括：

提取该音频帧的音频特征；

在本实施例的一些可选的实现方式中，上述提取该音频帧的音频特征，包括：

本公开的上述实施例提供的装置500中，获取单元501可以获取目标音频和目标人脸图像，之后，第一输入单元502可以针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系，然后，第二输入单元503可以针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，最后，生成单元504可以基于所生成的目标图像，生成数字人视频。由此，通过音频帧获得的嘴部区域图像和人脸图像中的目标区域图像，来生成目标图像，进而生成数字人视频，可以提高数字人视频的生成效果。

图6为本公开实施例提供的一种电子设备的结构示意图，图6所示的电子设备600包括：至少一个处理器601、存储器602和至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线***605耦合在一起。可理解，总线***605用于实现这些组件之间的连接通信。总线***605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线***605。

其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本公开实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***6021和应用程序6022。

其中，操作***6021，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序6022中。

在本公开实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的方法步骤，例如包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；基于所生成的目标图像，生成数字人视频。

上述本公开实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请上述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图2中数字人视频生成方法的所有步骤，进而实现图2所示数字人视频生成方法的技术效果，具体请参照图2相关描述，为简洁描述，在此不作赘述。

本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的数字人视频生成方法。

上述处理器用于执行存储器中存储的通信程序，以实现以下在电子设备侧执行的数字人视频生成方法的步骤：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，上述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；针对上述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和上述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像；基于所生成的目标图像，生成数字人视频。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上上述的具体实施方式，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上上述仅为本公开的具体实施方式而已，并不用于限定本公开的保护范围，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数字人视频生成方法，其特征在于，所述方法包括：

获取目标音频和目标人脸图像；

针对所述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，所述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；

针对所述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和所述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频，所述目标区域图像为所述目标人脸图像中除嘴部区域图像之外的区域图像；

基于所生成的目标图像，生成数字人视频。

2.根据权利要求1所述的方法，其特征在于，所述将与该音频帧相对应的嘴部区域图像和所述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，包括：

将与该音频帧相对应的嘴部区域图像和所述目标人脸图像中的目标区域图像进行通道合并，生成与该音频帧相对应的合成图像；

3.根据权利要求1所述的方法，其特征在于，所述嘴部区域图像生成模型通过如下方式训练得到：

获取视频数据；

从所述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

采用机器学习算法，将样本音频作为第一生成式对抗网络中的第一生成器的输入数据，得到与样本音频相对应的、所述第一生成器生成的嘴部区域图像，如果所述第一生成式对抗网络中的第一判别器确定所述第一生成器生成的嘴部区域图像满足第一预设训练结束条件，则将当前的第一生成器作为嘴部区域图像生成模型。

4.根据权利要求3所述的方法，其特征在于，通过如下方式从与样本音频相对应的样本人脸图像中提取嘴部区域图像：

从所述人脸关键点中提取嘴部关键点；

基于所述嘴部轮廓线和所述嘴部关键点，生成嘴部区域图像。

5.根据权利要求1所述的方法，其特征在于，所述嘴部区域图像生成模型通过如下方式训练得到：

获取视频数据；

从所述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所述视频数据中包含所提取的音频帧的预设数量帧连续音频帧作为样本音频，将所提取的人脸图像作为样本人脸图像；

6.根据权利要求3-5之一所述的方法，其特征在于，训练得到所述嘴部区域图像生成模型的步骤还包括：

执行如下训练步骤：

将样本音频输入至初始模型，得到与该样本音频相对应的预测嘴部关键点，其中，初始模型包括第一子模型、第二子模型和第三子模型，所述第一子模型的输入数据为样本音频，所述第二子模型的输入数据和所述第三子模型的输入数据均为所述第一子模型的输出数据，所述第二子模型的输出数据为嘴部关键点，所述第三子模型的输出数据为嘴部区域图像；

7.根据权利要求6所述的方法，其特征在于，训练得到所述嘴部区域图像生成模型的步骤还包括：

如果所述函数值大于所述预设阈值，则对当前的初始模型的参数进行更新，以及基于参数更新后的的初始模型继续执行所述训练步骤。

8.根据权利要求3-5之一所述的方法，其特征在于，在训练完成所述嘴部区域图像生成模型之后，通过如下方式训练得到所述目标图像生成模型：

采用机器学习算法，将所述嘴部区域图像生成模型输出的嘴部区域图像，以及对应的目标区域图像作为第二生成式对抗网络中的第二生成器的输入数据，得到与样本音频相对应的、所述第二生成器生成的目标图像，如果所述第二生成式对抗网络中的第二判别器确定所述第二生成器生成的目标图像满足第二预设训练结束条件，则将当前的第二生成器作为目标图像生成模型。

9.一种数字人视频生成装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

第一输入单元，被配置成针对所述目标音频中的音频帧，将该音频帧输入至预先训练的嘴部区域图像生成模型，得到与该音频帧相对应的嘴部区域图像，其中，所述嘴部区域图像生成模型用于表征音频帧与嘴部区域图像之间的对应关系；

第二输入单元，被配置成针对所述目标音频中的音频帧，将与该音频帧相对应的嘴部区域图像和所述目标人脸图像中的目标区域图像输入至预先训练的目标图像生成模型，生成与该音频帧相对应的目标图像，其中，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频，所述目标区域图像为所述目标人脸图像中除嘴部区域图像之外的区域图像；

10.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-8任一所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-8任一所述的方法。