CN113987269A

CN113987269A - 数字人视频生成方法、装置、电子设备和存储介质

Info

Publication number: CN113987269A
Application number: CN202111169280.5A
Authority: CN
Inventors: 王鑫宇; 刘炫鹏; 常向月; 刘云峰
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-28

Abstract

本公开实施例公开了一种数字人视频生成方法、装置、电子设备和存储介质。上述方法包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；基于所生成的目标图像，生成数字人视频。本公开实施例可以提高数字人生成的效率。

Description

数字人视频生成方法、装置、电子设备和存储介质

技术领域

本公开涉及数字人视频生成技术领域，尤其是一种数字人视频生成方法、装置、电子设备和存储介质。

背景技术

数字人的生成技术日趋成熟。现有方案有基于pix2pix、pix2pixHD、video2videosynthesis的数字人生成方法。具体而言，目前出现了大量的数字人生成技术，例如基于pix2pix、pix2pixHD、Vid2Vid、few shot video2video、NERF、StyleGAN等数字人生成方法。

然而，现有这些方案中，若生成的人脸关键点不准确、生成素描图的效果比较差，则会导致最终生成的数字人图片的效果比较差。

发明内容

鉴于此，为解决如上部分或全部技术问题，本公开实施例提供一种数字人视频生成方法、装置、电子设备和存储介质。

第一方面，本公开实施例提供一种数字人视频生成方法，该方法包括：

获取目标音频和目标人脸图像；

针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；

基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的方法中，上述端到端模型包括第一子模型、第二子模型和第三子模型，上述第一子模型的输入数据为音频帧对应的音频帧序列，上述第一子模型的输出数据为第一隐藏向量，上述第二子模型的输入数据为上述目标人脸图像中的目标区域图像，上述第二子模型的输出数据为第二隐藏向量，上述第三子模型的输入数据包括上述第一隐藏向量和上述第二隐藏向量，上述第三子模型的输出数据包括目标图像；以及

上述将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，包括：

将该音频帧对应的音频帧序列输入至上述第一子模型，得到第一隐藏向量；

将上述目标人脸图像中的目标区域图像输入至上述第二子模型，得到第二隐藏向量；

将上述第一隐藏向量和上述第二隐藏向量进行合并处理，得到合并后向量；

将上述合并后向量输入至上述第三子模型，得到与该音频帧相对应的目标图像。

可选地，在本公开任一实施例的方法中，上述端到端模型通过如下方式训练得到：

获取视频数据；

从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧对应的音频帧序列作为样本音频，将所提取的人脸图像作为样本人脸图像；

采用机器学习算法，将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型。

可选地，在本公开任一实施例的方法中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，包括：

获取初始生成式对抗网络，其中，初始生成式对抗网络包括第一子模型、第二子模型、第三子模型和第四子模型，第四子模型的输入数据为第一隐藏向量，第四子模型的输出数据为嘴部关键点；

执行如下第一训练步骤：

将样本音频输入至初始生成式对抗网络包括的第一子模型，得到该样本音频对应的第一隐藏向量；

将该样本音频对应的第一隐藏向量输入至第四子模型，得到该样本音频对应的预测嘴部关键点；

基于与该样本音频相对应的预测嘴部关键点和从与该样本音频相对应的样本人脸图像中提取的嘴部关键点，计算第一预设损失函数的第一函数值；

如果所计算的第一函数值小于或等于第一预设阈值，则将当前的初始生成式对抗网络包括的第一子模型的模型参数确定为训练完成的端到端模型包括的第一子模型的模型参数。

可选地，在本公开任一实施例的方法中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

如果所计算的第一函数值大于上述第一预设阈值，则对当前的初始生成式对抗网络包括的第一子模型的模型参数和第四子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行上述第一训练步骤。

执行如下第二训练步骤：

将与该样本音频相对应的样本人脸图像中的目标区域图像输入至初始生成式对抗网络包括的第二子模型，得到该样本音频对应的第二隐藏向量；

将该样本音频对应的第一隐藏向量和该样本音频对应的第二隐藏向量进行合并处理，得到该样本音频对应的合并后向量；

将该样本音频对应的合并后向量输入至初始生成式对抗网络包括的第三子模型，得到与该样本音频相对应的预测目标图像；

基于与该样本音频相对应的预测目标图像和从与该样本音频相对应的样本人脸图像中提取的目标图像，计算第二预设损失函数的第二函数值；

如果所计算的第二函数值小于或等于预设阈值，则将当前的初始生成式对抗网络包括的第二子模型的模型参数确定为训练完成的端到端模型包括的第二子模型的模型参数，以及将当前的初始生成式对抗网络包括的第三子模型的模型参数确定为训练完成的端到端模型包括的第三子模型的模型参数。

如果所计算的第二函数值大于上述第二预设阈值，则对当前的初始生成式对抗网络包括的第二子模型的模型参数和第三子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行上述第二训练步骤。

可选地，在本公开任一实施例的方法中，上述预设训练结束条件包括以下至少一项：

基于音频帧对应的音频帧序列计算得到的预设损失函数的函数值小于或等于第一预设数值；

基于非音频帧对应的音频帧序列计算得到的预设损失函数的函数值大于或等于第二预设数值。

可选地，在本公开任一实施例的方法中，上述第二子模型为编码器，上述第三子模型为上述编码器对应的解码器。

可选地，在本公开任一实施例的方法中，该音频帧对应的音频帧序列包括该音频帧，以及上述目标音频中该音频帧的前预设数量帧连续的音频帧。

第二方面，本公开实施例提供一种数字人视频生成装置，上述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

输入单元，被配置成针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；

生成单元，被配置成基于所生成的目标图像，生成数字人视频。

可选地，在本公开任一实施例的装置中，上述端到端模型包括第一子模型、第二子模型和第三子模型，上述第一子模型的输入数据为音频帧对应的音频帧序列，上述第一子模型的输出数据为第一隐藏向量，上述第二子模型的输入数据为上述目标人脸图像中的目标区域图像，上述第二子模型的输出数据为第二隐藏向量，上述第三子模型的输入数据包括上述第一隐藏向量和上述第二隐藏向量，上述第三子模型的输出数据包括目标图像；以及

上述生成单元，进一步被配置成：

可选地，在本公开任一实施例的装置中，上述端到端模型通过如下方式训练得到：

获取视频数据；

可选地，在本公开任一实施例的装置中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，包括：

执行如下第一训练步骤：

可选地，在本公开任一实施例的装置中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

执行如下第二训练步骤：

可选地，在本公开任一实施例的装置中，上述预设训练结束条件包括以下至少一项：

可选地，在本公开任一实施例的装置中，上述第二子模型为编码器，上述第三子模型为上述编码器对应的解码器。

可选地，在本公开任一实施例的装置中，该音频帧对应的音频帧序列包括该音频帧，以及上述目标音频中该音频帧的前预设数量帧连续的音频帧。

第三方面，本公开实施例提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行上述存储器中存储的计算机程序，且上述计算机程序被执行时，实现本公开上述第一方面的数字人视频生成方法中任一实施例的方法。

第四方面，本公开实施例提供一种计算机可读介质，该计算机程序被处理器执行时，实现如上述第一方面的数字人视频生成方法中任一实施例的方法。

第五方面，本公开实施例提供一种计算机程序，该计算机程序包括计算机可读代码，当该计算机可读代码在设备上运行时，使得该设备中的处理器执行用于实现如上述第一方面的数字人视频生成方法中任一实施例的方法中各步骤的指令。

基于本公开上述实施例提供的数字人视频生成方法，通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，基于所生成的目标图像，生成数字人视频。由此，采用端到端模型，直接获得用于生成数字人视频的目标图像，从而通过提高生成目标图像的速度，提高了生成数字人视频的效率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本公开的其它特征、目的和优点将会变得更明显：

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性***架构图；

图2是本公开实施例提供的一种数字人视频生成方法的流程图；

图3是针对图2的实施例的一个应用场景的示意图；

图4A是本公开实施例提供的另一种数字人视频生成方法的流程图；

图4B是本公开实施例提供的一种数字人视频生成方法中的嘴部区域图像生成模型的结构示意图；

图5是本公开实施例提供的一种数字人视频生成装置的结构示意图；

图6是本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值并不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等对象，既不代表任何特定技术含义，也不表示它们之间的逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，上述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

图1是本公开实施例提供的一种数字人视频生成方法或一种数字人视频生成装置的示例性***架构图。

如图1所示，***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送数据(例如目标音频和目标人脸图像)等。终端设备101、102、103上可以安装有各种客户端应用，例如音视频处理软件等。

终端设备101、102、103可以是硬件，也可以是软件。当终端设备101、102、103为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103发送的数据进行处理的后台服务器。作为示例，服务器105可以是云端服务器。

需要说明的是，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。在此不作具体限定。

还需要说明的是，本公开的实施例所提供的数字人视频生成方法可以由服务器执行，也可以由终端设备执行，还可以由服务器和终端设备彼此配合执行。相应地，数字人视频生成装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器中，也可以全部设置于终端设备中，还可以分别设置于服务器和终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。当数字人视频生成方法运行于其上的电子设备不需要与其他电子设备进行数据传输时，该***架构可以仅包括数字人视频生成方法运行于其上的电子设备(例如服务器或终端设备)。

图2示出了本公开实施例提供的一种数字人视频生成方法的流程200。该数字人视频生成方法，包括以下步骤：

步骤201，获取目标音频和目标人脸图像。

在本实施例中，数字人视频生成方法的执行主体(例如图1所示的服务器或终端设备)可以从其他电子设备或者本地，获取目标音频和目标人脸图像。

其中，目标音频，可以是各种音频。目标音频可以用于后续步骤中生成的数字人视频发出该目标音频指示的声音。例如，目标音频是语音音频，也可以是对文字进行转化而经由机器生成的音频。

目标人脸图像，可以是任何人脸图像。作为示例，目标人脸图像，可以是拍摄得到的包含人脸的图像，也可以是从视频中提取的一帧人脸图像。

在一些情况下，目标音频和目标人脸图像之间可以不存在关联关系。例如，目标音频可以是第一人员发出的音频，目标人脸图像可以是第二人员的人脸图像，其中，第二人员可以是不同于第一人员的人员；或者，目标音频可以是第一人员在第一时刻发出的音频，目标人脸图像可以是该第一人员在第二时刻的人脸图像，其中，第二时刻可以是不同于第一时刻的任一时刻。

步骤202，针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像。

在本实施例中，上述执行主体可以针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像。

其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列。上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像。与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。上述端到端模型可以表征音频帧对应的音频帧序列、目标人脸图像中的目标区域图像，以及与音频帧相对应的目标图像，三者之间的对应关系。

这里，音频帧对应的音频帧序列可以是目标音频中包含该音频帧的预设数量帧音频帧组成的序列。例如，音频帧序列可以包含该音频帧和该音频帧的前4帧音频帧，或者，音频帧序列可以包含该音频帧和、该音频帧的前2帧音频帧和该音频帧的后2帧音频帧。

可选的，该音频帧对应的音频帧序列包括该音频帧，以及上述目标音频中该音频帧的前预设数量帧连续的音频帧。

在本实施例的一些可选的实现的方式中，上述端到端模型包括第一子模型、第二子模型和第三子模型。上述第一子模型的输入数据为音频帧对应的音频帧序列。上述第一子模型的输出数据为第一隐藏向量。上述第二子模型的输入数据为上述目标人脸图像中的目标区域图像。上述第二子模型的输出数据为第二隐藏向量。上述第三子模型的输入数据包括上述第一隐藏向量和上述第二隐藏向量。上述第三子模型的输出数据包括目标图像。

在此基础上，上述执行主体可以采用如下方式，来执行上述步骤202，以便将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像：

第一步，将该音频帧对应的音频帧序列输入至上述第一子模型，得到第一隐藏向量。

其中，第一子模型可以包括CNN(Convolutional Neural Networks，卷积神经网络)、LSTM(Long Short-Term Memory networks，长短期记忆网络)等模型结构。作为示例，第一子模型可以包括2个CNN层和2个LSTM层。第一隐藏向量，可以是声音编码向量，也即中间层输出的向量。

第二步，将上述目标人脸图像中的目标区域图像输入至上述第二子模型，得到第二隐藏向量。

其中，第二子模型可以包括CNN、LSTM等模型结构。作为示例，第二子模型可以包括4个CNN层。第二隐藏向量，可以是目标区域图像(例如目标人脸图像中的目标区域图像，或者，样本人脸图像中的目标区域图像)的向量(例如，sketch encoder编码的隐空间输出的向量)。

第三步，将上述第一隐藏向量和上述第二隐藏向量进行合并处理，得到合并后向量。

第四步，将上述合并后向量输入至上述第三子模型，得到与该音频帧相对应的目标图像。

其中，第二子模型可以包括CNN、LSTM等模型结构。作为示例，第三子模型可以包括4个CNN层。上述第三子模型，可以表征合并后向量和目标图像之间的对应关系。

可以理解，上述可选的实现方式中，通过端到端模型包括的第一子模型、第二子模型和第三子模型，来生成与音频帧相对应的目标图像，这样可以通过提高生成的目标图像的准确度，来提高数字人视频的生成效果。并且，在一些情况下，上述可选的实现方式中，在端到端模型的使用过程中，由于不需要进行关键点提取、反归一化处理等操作，因而可以提高数字人视频生成的准确度。

在上述可选的实现方式中的一些情况下，上述端到端模型通过如下方式训练得到：

步骤一，获取视频数据。

其中，该视频数据可以是任意包含语音和人脸图像的视频数据。在视频数据中，每一个视频帧包含音频帧和人脸图像，即每一个音频帧具有对应的一个人脸图像。如，在一秒内的视频数据内，若该一秒内的视频包含了5个帧，即包含了5个音频帧和5个人脸图像，音频帧与人脸图像一一对应。

步骤二，从上述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧对应的音频帧序列作为样本音频，将所提取的人脸图像作为样本人脸图像。

步骤三，采用机器学习算法，将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型。

其中，上述预设训练结束条件可以包括以下至少一项：计算得到的损失函数值小于或等于预设阈值，上述生成器生成的嘴部区域图像为与样本音频相对应的样本人脸图像的嘴部区域图像的概率为50％。

可以理解，上述情况中，基于生成式对抗网络来获得端到端模型，这样可以通过提高生成器生成的目标图像的准确度，来提高数字人视频的生成效果。

在一些情况下，上述预设训练结束条件，也包括以下至少一项：

第一项，基于音频帧对应的音频帧序列计算得到的预设损失函数的函数值小于或等于第一预设数值。

其中，音频帧对应的音频帧序列，可以是目标音频中包含该音频帧的预设数量帧音频帧组成的序列。例如，音频帧序列可以包含该音频帧和该音频帧的前4帧音频帧。

第二项，基于非音频帧对应的音频帧序列计算得到的预设损失函数的函数值大于或等于第二预设数值。

其中，非音频帧(以下称目标帧)对应的音频帧序列，可以是除音频帧对应的音频帧序列之外的其他音频帧组成的序列。例如，音频帧对应的音频帧序列，可以是视频数据或者目标视频中，随机选取的预设数量帧音频帧组成的序列。该非音频帧对应的音频帧序列中，可以包含该目标帧，也可以不包含该目标帧。

在一些情况下，非音频帧对应的音频帧序列，与音频帧对应的音频帧序列中包含的音频帧的数量可以相等。

可以理解，上述情况下，音频帧对应的音频帧序列(例如当前帧和前4帧)，以及样本人脸图像中的目标图像，输入判别器中，loss越小越好，具体的，采用当前帧和前4帧音频推理生成的26个关键点与当前帧真实人脸嘴巴的26个关键点，输入到判别器中求预设损失函数的函数值，该函数值越小越好，从而表示对抗生成的嘴越真实，即数字人视频的效果好。非音频帧对应的音频帧序列输入判别器中，预设损失函数的函数值越大越好，具体的，采用不是当前帧对应的5帧音频(例如，其他5帧音频推理生成的26个关键点与当前帧真实人脸嘴巴的26个关键点，输入到判别器中求预设损失函数的函数值，该函数值越大越好，从而表示对抗生成器的对抗生成的嘴越真实，即数字人视频的生成效果好。

可选的，上述第二子模型为编码器，上述第三子模型为上述编码器对应的解码器。

在上述情况中的一些应用场景中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，包括：

首先，获取初始生成式对抗网络。其中，初始生成式对抗网络包括第一子模型、第二子模型、第三子模型和第四子模型，第四子模型的输入数据为第一隐藏向量，第四子模型的输出数据为嘴部关键点。

之后，执行如下第一训练步骤(包括步骤一至步骤四)：

步骤一，将样本音频输入至初始生成式对抗网络包括的第一子模型，得到该样本音频对应的第一隐藏向量。

步骤二，将该样本音频对应的第一隐藏向量输入至第四子模型，得到该样本音频对应的预测嘴部关键点。

步骤三，基于与该样本音频相对应的预测嘴部关键点和从与该样本音频相对应的样本人脸图像中提取的嘴部关键点，计算第一预设损失函数的第一函数值。

步骤四，如果所计算的第一函数值小于或等于第一预设阈值，则将当前的初始生成式对抗网络包括的第一子模型的模型参数确定为训练完成的端到端模型包括的第一子模型的模型参数。

可选的，如果所计算的第一函数值大于上述第一预设阈值，则对当前的初始生成式对抗网络包括的第一子模型的模型参数和第四子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行上述第一训练步骤。

可以理解，上述可选的实现方式中，通过第一函数值的大小来判断生成式对抗网络中的第一子模型的模型参数和第四子模型的模型参数能否用于进行推理，并采用训练完成的生成式对抗网络中的生成器，来生成数字人视频，提高了数字人视频的生成效果，在使用生成器的阶段，无需采用第二子模型获得关键点，这样可以提高数字人视频的生成效率。

可选的，上述训练得到端到端模型的步骤还可以包括执行如下第二训练步骤(包括第一步骤至第六步骤)。

第一步骤，将样本音频输入至初始生成式对抗网络包括的第一子模型，得到该样本音频对应的第一隐藏向量。

第二步骤，将与该样本音频相对应的样本人脸图像中的目标区域图像输入至初始生成式对抗网络包括的第二子模型，得到该样本音频对应的第二隐藏向量。

第三步骤，将该样本音频对应的第一隐藏向量和该样本音频对应的第二隐藏向量进行合并处理，得到该样本音频对应的合并后向量。

第四步骤，将该样本音频对应的合并后向量输入至初始生成式对抗网络包括的第三子模型，得到与该样本音频相对应的预测目标图像。

第五步骤，基于与该样本音频相对应的预测目标图像和从与该样本音频相对应的样本人脸图像中提取的目标图像，计算第二预设损失函数的第二函数值。

第六步骤，如果所计算的第二函数值小于或等于预设阈值，则将当前的初始生成式对抗网络包括的第二子模型的模型参数确定为训练完成的端到端模型包括的第二子模型的模型参数，以及将当前的初始生成式对抗网络包括的第三子模型的模型参数确定为训练完成的端到端模型包括的第三子模型的模型参数。

可选的，如果所计算的第二函数值大于上述第二预设阈值，则对当前的初始生成式对抗网络包括的第二子模型的模型参数和第三子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行上述第二训练步骤。

可以理解，这里在固定第一子模型的模型参数，和第四子模型的模型参数之后，再通过第二函数值的大小来判断第三子模型的模型参数能否用于进行推理，并采用训练完成的生成式对抗网络中的生成器，来生成数字人视频，提高了数字人视频的生成效果，在使用生成器的阶段，无需采用第二子模型获得关键点，这样可以进一步提高数字人视频的生成效率。

步骤203，基于所生成的目标图像，生成数字人视频。

在本实施例中，上述执行主体可以基于所生成的各个目标图像，生成数字人视频。

继续参见图3，图3是根据本实施例的数字人视频生成方法的应用场景的一个示意图。在图3中，服务器310(也即上述执行主体)首先获取目标音频301和目标人脸图像304。服务器310针对上述目标音频301中的音频帧302，将该音频帧302对应的音频帧序列303和上述目标人脸图像304中的目标区域图像305输入至预先训练的端到端模型306中，生成与该音频帧302相对应的目标图像307，其中，该音频帧302对应的音频帧序列303为上述目标音频301中包含该音频帧302的连续的音频帧的序列，上述目标区域图像305为上述目标人脸图像304中除嘴部区域图像之外的区域图像，与该音频帧302相对应的目标图像307用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。服务器310基于所生成的目标图像307，生成数字人视频308。

本公开的上述实施例提供的方法，通过通过获取目标音频和目标人脸图像，之后，针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，基于所生成的目标图像，生成数字人视频。由此，采用端到端模型，直接获得用于生成数字人视频的目标图像，从而通过提高生成目标图像的速度，提高了生成数字人视频的效率。

进一步参考图4A，其示出了数字人视频生成方法的又一个实施例的流程400。该数字人视频生成方法的流程，包括以下步骤：

步骤401，获取目标音频和目标人脸图像。

步骤402，针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列输入至上述第一子模型，得到第一隐藏向量，将上述目标人脸图像中的目标区域图像输入至上述第二子模型，得到第二隐藏向量，将上述第一隐藏向量和上述第二隐藏向量进行合并处理，得到合并后向量，将上述合并后向量输入至上述第三子模型，得到与该音频帧相对应的目标图像。

其中，上述第一子模型的输入数据为音频帧对应的音频帧序列，上述第一子模型的输出数据为第一隐藏向量，上述第二子模型的输入数据为上述目标人脸图像中的目标区域图像，上述第二子模型的输出数据为第二隐藏向量，上述第三子模型的输入数据包括上述第一隐藏向量和上述第二隐藏向量，上述第三子模型的输出数据包括目标图像。

步骤403，基于所生成的目标图像，生成数字人视频。

作为示例，本实施例中数字人视频生成方法可以按照如下方式执行：

首先，介绍一下数据的格式：

本实施例中数字人视频生成方法中的人脸素描图的大小为512*512*1；目标人脸图像大小为512*512*3；人脸素描图和目标人脸图像合并一下大小为512*512*4。

下面请参照图4B介绍具体方案的实现过程：

在获取用户音频(也即上述目标音频)后，利用编码器(也即上述第一子模型)对用户音频处理，产生声音编码向量LM1(即cnn或者lstm的中间层(隐空间)，上述第一隐藏向量)，然后按照通道合成方式，将声音编码向量LM与原始图片(也即目标区域图像，即合并后向量)向量LM2(即sketch encoder编码的隐空间)合成，得到通道合成向量LM3(包含有moth(嘴)和face image(人脸图片)的特征)，然后利用解码器(也即第三子模型)对通道合成向量LM3进行处理(即输入到GAN生成模型中进行解码)，得到数字人假图(也即目标图像)，然后输出数字人视频(一个视频包含多帧图片)。

在训练阶段，可以通过如下步骤来执行：

训练分两阶段：

第一阶段，声音(也即上述样本音频)经过CNN和LSTM，统称模型LMEncoder(也即上述第一子模型)，经过全连接(也即上述第三子模型)，得到推理的26个关键点(也即上述嘴部关键点，例如可以包括嘴巴的20个关键点和下巴的6个关键点)，推理的26个关键点和真实的关键点(也即与该样本音频相对应的样本人脸图像中提取的嘴部关键点)求第一预设损失函数的第一函数值，训练LMEncoder。

第二阶段，当26个关键点的第一预设损失函数的第一函数值稳定之后(例如所计算的第一函数值小于或等于第一预设阈值)，固定LMEncoder的模型参数，开始训练编码器和解码器LipGAN，具体流程如下：

首先，准备视频数据，视频数据包括音频(也即样本音频)和图片(也即样本音频对应的样本人脸图像)。

之后，按照帧率每秒钟25帧处理数据，音频提取特征，图片提取人脸关键点和对应的canny线；即针对每一个视频帧，从视频音频(样本音频)中提取音频特征，从视频图片(也即样本音频对应的样本人脸图像)中提取人脸关键点68个，其中，音频提取特征的方法可以使用傅里叶变换提取MFCC/用deepspeech model提取音频特征/用其他算法(ASR model--声音识别)提取的音频特征。

然后，如图4B所示，声音经过CNN和LSTM后，产生声音编码向量LM1，然后通过全连接层，产生26个嘴巴关键点(即推理产生26个关键点)，然后采用推理的26个关键点与真实人脸嘴巴的26个关键点求loss(也即第一函数值)，训练出LMEncoder。

随后，当loss(第一函数值)稳定之后，固定LMEncoder参数(也即第一子模型)，即在训练好出LMEncoder模型后，开始训练编码器和解码器LipGAN(也即第二子模型和第三子模型)。具体的，在隐藏层中，人脸图片(去除人脸嘴巴的部分)的隐藏向量(即原始图片向量LM2)和真人声音的隐藏向量(即声音编码向量LM1)合并,变为1024*1*1(即通道合成向量LM3，包含有moth(嘴)和人脸图片的特征)，然后在经过解码器输出生成图片(也即目标图像)。

需要说明的是，第一阶段和第二阶段，可以利用一帧音频数据或多帧音频数据训练出一帧图片的嘴巴图片。具体的，在采用N帧音频数据训练一帧嘴巴图片(即26个人脸关键点)时，如在训练第t帧图片的人脸嘴巴关键点时，可以采用练第t帧、t-1，t-2……t-(N-1)帧对应的的音频数据，训练出第t帧图片的26个人脸嘴巴关键点，进而提高人脸嘴巴图片的生成效果，使得数字人图片的生成效果更好。N可以大于1，N越大，嘴巴的生成效果就越好。例如，可以采用当前音频帧和当前音频的前4帧，和当前帧的除去嘴部分的图片(也即目标区域图像)，输出最终的目标图像。

此外，LipGAN中可以添加新的判别器(也即第四子模型)的损失函数，以保证图像生成的稳定性；

其中，当前帧和前4帧(也即音频帧对应的音频帧序列)，以及当前真图片(也即目标区域图像)，输入判别器中，loss越小越好，具体的，采用当前帧和前4帧音频推理生成的26个关键点与当前帧真实人脸嘴巴的26个关键点，输入到判别器中求loss，loss越小越好，从而表示对抗生成的嘴越真实，即生效效果好。

其他五帧(也即非音频帧对应的音频帧序列)和当前帧图片(也即目标区域图像)，输入判别器中，loss越大越好，具体的，采用不是当前帧对应的5帧音频(即其他5帧音频推理生成的26个关键点与当前帧真实人脸嘴巴的26个关键点，输入到判别器中求loss，loss越大越好，从而表示对抗生成器的对抗生成的嘴越真实，即生效效果好

在推理(应用)阶段：

首先，输入当前帧和前4帧音频(也即音频帧对应的音频帧序列)/或者提取音频特征，输入模型LMEncoder(也即第一子模型),得到隐藏向量LM1(也即第一隐藏向量)。

然后，获得当前图片出去嘴区域(也即目标区域图像)，经过编码器得到隐藏向量IM2(也即第二隐藏向量)。

最后，隐藏向量LM1和IM2合并，得到隐藏向量(即通道合成向量LM3(也即合并后向量)，包含有moth(嘴)和face image(人脸图片)的特征)输入解码器(也即第三子模型)中，输出最终的图片(也即目标图像)。然后输出数字人视频。

其中，声音推理模型，可以用于提取音频的音频特征，其输入的声音的格式可以为wav格式，帧率可以为100、50或者25。其中，wav是一种无损的音频文件格式。对于声音特征，可以为MFCC，或者为Deepspeech/ASR/wav2Vector等模型提取的特征。声音推理模型可以为LSMT、BERT(Bidirectional Encoder Representations from Transformers，基于转换器的双向编码表征模型)、Transfromer(转换器模型)、CNN(Convolutional NeuralNetworks，卷积神经网络)、RNN(Recurrent Neural Network，循环神经网络)等。3DMM是人脸3D形变统计模型；是一种较为基础的三维统计模型，最早提出是用于解决从二维人脸图形恢复三位形状的问题；作者采集200个三维人脸头部信息，用这组数据作为PCA(主成分分析)的基础，获取能代表人脸形状和纹理的主成分信息。

在本实施例中，上述步骤401-步骤403的具体执行方式，可以参考上述图2对应的实施例的相关描述，在此不再赘述。此外，除上面所记载的内容外，本公开的实施例还可以包括与图2对应的实施例相同或类似的特征、效果，在此不再赘述。

本实施例中数字人视频生成方法采用端到端的方式进行数字人视频的生成，输入音频，结合sketch encoder编码的隐空间，直接生成用于生成数字人视频的目标图像，即不需要获取关键点和反归一化处理，效率高；进一步的，可以不提取音频特征，进一步提高效率；而提取音频特征时，效果更好。此外，采用新的判别器(也即第四子模型)的损失函数，可以保持目标图像生成的稳定性。

进一步参考图5，作为对上述各图所示方法的实现，本公开提供了一种数字人视频生成装置的一个实施例，该装置实施例与以上所描述的方法实施例相对应，除下面所记载的特征外，该装置实施例还可以包括与以上所描述的方法实施例相同或相应的特征，以及产生与以上所描述的方法实施例相同或相应的效果。该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的数字人视频生成装置500。上述装置500包括：获取单元501、输入单元502和生成单元503。其中，获取单元501，被配置成获取目标音频和目标人脸图像；输入单元502，被配置成针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；生成单元503，被配置成基于所生成的目标图像，生成数字人视频。

在本实施例中，数字人视频生成装置500的获取单元501可以获取目标音频和目标人脸图像。

在本实施例中，输入单元502可以针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频。

在本实施例中，生成单元503可以基于所生成的目标图像，生成数字人视频。

在本实施例的一些可选的实现方式中，上述端到端模型包括第一子模型、第二子模型和第三子模型，上述第一子模型的输入数据为音频帧对应的音频帧序列，上述第一子模型的输出数据为第一隐藏向量，上述第二子模型的输入数据为上述目标人脸图像中的目标区域图像，上述第二子模型的输出数据为第二隐藏向量，上述第三子模型的输入数据包括上述第一隐藏向量和上述第二隐藏向量，上述第三子模型的输出数据包括目标图像；以及

上述生成单元，进一步被配置成：

在本实施例的一些可选的实现方式中，上述端到端模型通过如下方式训练得到：

获取视频数据；

在本实施例的一些可选的实现方式中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，包括：

执行如下第一训练步骤：

在本实施例的一些可选的实现方式中，上述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、上述生成器生成的目标图像，如果上述生成式对抗网络中的判别器确定上述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

执行如下第二训练步骤：

在本实施例的一些可选的实现方式中，上述预设训练结束条件包括以下至少一项：

在本实施例的一些可选的实现方式中，上述第二子模型为编码器，上述第三子模型为上述编码器对应的解码器。

在本实施例的一些可选的实现方式中，该音频帧对应的音频帧序列包括该音频帧，以及上述目标音频中该音频帧的前预设数量帧连续的音频帧。

本公开的上述实施例提供的装置500中，获取单元501可以获取目标音频和目标人脸图像，之后，输入单元502可以针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频，最后，生成单元503可以基于所生成的目标图像，生成数字人视频。由此，采用端到端模型，直接获得用于生成数字人视频的目标图像，从而通过提高生成目标图像的速度，提高了生成数字人视频的效率。

图6为本公开实施例提供的一种电子设备的结构示意图，图6所示的电子设备600包括：至少一个处理器601、存储器602和至少一个网络接口604和其他用户接口603。电子设备600中的各个组件通过总线***605耦合在一起。可理解，总线***605用于实现这些组件之间的连接通信。总线***605除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线***605。

其中，用户接口603可以包括显示器、键盘或者点击设备(例如，鼠标，轨迹球(trackball)、触感板或者触摸屏等。

可以理解，本公开实施例中的存储器602可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM，DRRAM)。本文描述的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中，存储器602存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作***6021和应用程序6022。

其中，操作***6021，包含各种***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序6022，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序6022中。

在本公开实施例中，通过调用存储器602存储的程序或指令，具体的，可以是应用程序6022中存储的程序或指令，处理器601用于执行各方法实施例所提供的方法步骤，例如包括：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；基于所生成的目标图像，生成数字人视频。

上述本公开实施例揭示的方法可以应用于处理器601中，或者由处理器601实现。处理器601可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器601中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器601可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本公开实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本公开实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602，处理器601读取存储器602中的信息，结合其硬件完成上述方法的步骤。

可以理解的是，本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现，处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits，ASIC)、数字信号处理器(Digital Signal Processing，DSP)、数字信号处理设备(DSPDevice，DSPD)、可编程逻辑设备(Programmable LogicDevice，PLD)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请上述功能的其它电子单元或其组合中。

对于软件实现，可通过执行本文上述功能的单元来实现本文上述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

本实施例提供的电子设备可以是如图6中所示的电子设备，可执行如图2中数字人视频生成方法的所有步骤，进而实现图2所示数字人视频生成方法的技术效果，具体请参照图2相关描述，为简洁描述，在此不作赘述。

本公开实施例还提供了一种存储介质(计算机可读存储介质)。这里的存储介质存储有一个或者多个程序。其中，存储介质可以包括易失性存储器，例如随机存取存储器；存储器也可以包括非易失性存储器，例如只读存储器、快闪存储器、硬盘或固态硬盘；存储器还可以包括上述种类的存储器的组合。

当存储介质中一个或者多个程序可被一个或者多个处理器执行，以实现上述在电子设备侧执行的数字人视频生成方法。

上述处理器用于执行存储器中存储的通信程序，以实现以下在电子设备侧执行的数字人视频生成方法的步骤：获取目标音频和目标人脸图像；针对上述目标音频中的音频帧，将该音频帧对应的音频帧序列和上述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为上述目标音频中包含该音频帧的连续的音频帧的序列，上述目标区域图像为上述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示上述目标人脸图像指示的人员发出该音频帧指示的音频；基于所生成的目标图像，生成数字人视频。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上上述的具体实施方式，对本公开的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上上述仅为本公开的具体实施方式而已，并不用于限定本公开的保护范围，凡在本公开的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种数字人视频生成方法，其特征在于，所述方法包括：

获取目标音频和目标人脸图像；

针对所述目标音频中的音频帧，将该音频帧对应的音频帧序列和所述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为所述目标音频中包含该音频帧的连续的音频帧的序列，所述目标区域图像为所述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频；

基于所生成的目标图像，生成数字人视频。

2.根据权利要求1所述的方法，其特征在于，所述端到端模型包括第一子模型、第二子模型和第三子模型，所述第一子模型的输入数据为音频帧对应的音频帧序列，所述第一子模型的输出数据为第一隐藏向量，所述第二子模型的输入数据为所述目标人脸图像中的目标区域图像，所述第二子模型的输出数据为第二隐藏向量，所述第三子模型的输入数据包括所述第一隐藏向量和所述第二隐藏向量，所述第三子模型的输出数据包括目标图像；以及

所述将该音频帧对应的音频帧序列和所述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，包括：

将该音频帧对应的音频帧序列输入至所述第一子模型，得到第一隐藏向量；

将所述目标人脸图像中的目标区域图像输入至所述第二子模型，得到第二隐藏向量；

将所述第一隐藏向量和所述第二隐藏向量进行合并处理，得到合并后向量；

将所述合并后向量输入至所述第三子模型，得到与该音频帧相对应的目标图像。

3.根据权利要求2所述的方法，其特征在于，所述端到端模型通过如下方式训练得到：

获取视频数据；

从所述视频数据中提取音频帧和与音频帧相对应的人脸图像，将所提取的音频帧对应的音频帧序列作为样本音频，将所提取的人脸图像作为样本人脸图像；

采用机器学习算法，将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述生成式对抗网络中的判别器确定所述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型。

4.根据权利要求3所述的方法，其特征在于，所述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述生成式对抗网络中的判别器确定所述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，包括：

执行如下第一训练步骤：

5.根据权利要求4所述的方法，其特征在于，所述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述生成式对抗网络中的判别器确定所述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

如果所计算的第一函数值大于所述第一预设阈值，则对当前的初始生成式对抗网络包括的第一子模型的模型参数和第四子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行所述第一训练步骤。

6.根据权利要求4所述的方法，其特征在于，所述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述生成式对抗网络中的判别器确定所述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

执行如下第二训练步骤：

7.根据权利要求6所述的方法，其特征在于，所述将样本音频作为生成式对抗网络中的生成器的输入数据，得到与样本音频相对应的、所述生成器生成的目标图像，如果所述生成式对抗网络中的判别器确定所述生成器生成的目标图像满足预设训练结束条件，则将当前的生成器作为端到端模型，还包括：

如果所计算的第二函数值大于所述第二预设阈值，则对当前的初始生成式对抗网络包括的第二子模型的模型参数和第三子模型的模型参数进行更新，以及基于模型参数更新后的初始生成式对抗网络继续执行所述第二训练步骤。

8.根据权利要求3-7之一所述的方法，其特征在于，所述预设训练结束条件包括以下至少一项：

9.根据权利要求2-7之一所述的方法，其特征在于，所述第二子模型为编码器，所述第三子模型为所述编码器对应的解码器。

10.根据权利要求1-7之一所述的方法，其特征在于，该音频帧对应的音频帧序列包括该音频帧，以及所述目标音频中该音频帧的前预设数量帧连续的音频帧。

11.一种数字人视频生成装置，其特征在于，所述装置包括：

获取单元，被配置成获取目标音频和目标人脸图像；

输入单元，被配置成针对所述目标音频中的音频帧，将该音频帧对应的音频帧序列和所述目标人脸图像中的目标区域图像输入至预先训练的端到端模型中，生成与该音频帧相对应的目标图像，其中，该音频帧对应的音频帧序列为所述目标音频中包含该音频帧的连续的音频帧的序列，所述目标区域图像为所述目标人脸图像中除嘴部区域图像之外的区域图像，与该音频帧相对应的目标图像用于指示所述目标人脸图像指示的人员发出该音频帧指示的音频；

12.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述存储器中存储的计算机程序，且所述计算机程序被执行时，实现上述权利要求1-10任一所述的方法。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时，实现上述权利要求1-10任一所述的方法。