CN115713579A

CN115713579A - Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质

Info

Publication number: CN115713579A
Application number: CN202211326787.1A
Authority: CN
Inventors: 文成; 谭兴军; 邹伟
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-02-24

Abstract

本发明实施方式公开了一种Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质。方法包括：确定训练样本，训练样本包括原始图像帧、真实图像帧和音频文件，原始图像帧包含说话者的人脸，真实图像帧包含说话者表述音频文件的真实唇形；基于训练样本执行Wav2Lip模型的训练过程，训练过程包括：Wav2Lip模型基于原始图像帧和音频文件输出生成图像帧；将生成图像帧和真实图像帧输入多尺度的图像质量判别器，以由图像质量判别器在多个尺度上判别生成图像帧和真实图像帧是否为真实图像；基于判别结果，确定Wav2Lip模型的损失函数值；配置Wav2Lip模型的模型参数，以使损失函数值低于预设阈值。本发明实施方式可以提高图像质量和训练稳定性。

Description

Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质

技术领域

本发明实施方式涉及人工智能技术领域，更具体的说，涉及一种Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质。

背景技术

基于给定音频和给定说话人形象生成说话人的说话图像帧(比如视频)，而且说话图像帧中的说话人唇形与音频内容对应，称为说话人视频生成，它可以应用在数字虚拟人、游戏、动漫角色配音及音唇同步语音翻译等场景。

Wav2Lip模型是基于对抗神经网络(GAN)的唇形动作迁移算法，实现视频人物口型与语音同步。Wav2Lip模型不仅可以基于静态图像输出与目标语音匹配的唇形同步视频，还可以直接对动态视频进行唇形转换，输出与输入语音匹配的视频。Wav2lip模型在训练阶段引入预训练的唇形对齐专家模型，可以在任意语音上实现准确度很高的唇形同步效果。

在实践过程中，申请人发现Wav2lip模型至少存在下列两个问题：

(1)、该模型无法满足高质量的说话人视频生成。当输入图像的分辨率较小时模型表现尚可，但当面临生成更高分辨率的图像时，整体图像较为模糊，尤其是人脸的下半部分。

(2)、该模型训练阶段不够稳定，模型性能因数据集的变化差别较大。因为模型包含多个损失函数，既要保证图像的生成的质量，又要使音频和唇形同步，各个部分的权重设计比较关键。在实际应用阶段，模型表现很不稳定。

发明内容

本发明实施方式提出一种Wav2Lip模型训练方法、图像帧生成方法、电子设备及存储介质。

本发明实施方式的技术方案如下：

一种Wav2Lip模型的训练方法，所述方法包括：

确定训练样本，所述训练样本包括原始图像帧、真实图像帧和音频文件，所述原始图像帧包含说话者的人脸，所述真实图像帧包含所述说话者表述所述音频文件的真实唇形；

基于所述训练样本，执行所述Wav2Lip模型的训练过程，所述训练过程包括：将所述原始图像帧和所述音频文件输入所述Wav2Lip模型，以由所述Wav2Lip模型基于所述原始图像帧和所述音频文件输出生成图像帧；将所述生成图像帧和所述真实图像帧输入多尺度的图像质量判别器，以由所述多尺度的图像质量判别器在多个尺度上判别所述生成图像帧和所述真实图像帧是否为真实图像；

基于所述多尺度的图像质量判别器的判别结果，确定所述Wav2Lip模型的损失函数值；

配置所述Wav2Lip模型的模型参数，以使所述损失函数值低于预设阈值。

在示范性实施方式中，所述在多个尺度上判别所述生成图像帧和所述真实图像帧是否为真实图像包括：

对所述生成图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的生成图像帧，n为至少为2的正整数；

对所述真实图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的真实图像帧；

其中所述多尺度的图像质量判别器包括n个子判别器，所述n个子判别器中的第一个子判别器的输入图像为：所述真实图像帧和所述生成图像帧；所述n个子判别器中的剩余(n-1)个子判别器的输入图像分别为：按照平均池化操作顺序所得到的、所述(n-1)个平均池化操作后的生成图像帧以及按照平均池化操作顺序所得到的、所述(n-1)个平均池化操作后的真实图像帧。

在示范性实施方式中，k为大于等于1且小于等于n的正整数；

第k个子判别器包括：

第一卷积层，用于提取第k个子判别器的输入图像的特征；

降采样层，用于对所述特征执行降采样；

第二卷积层，用于基于所述降采样后的特征输出判别结果。

在示范性实施方式中，还包括：

确定所述多尺度的图像质量判别器的损失函数值L_dis；

基于所述L_dis更新所述多尺度的图像质量判别器的模型参数；其中：

D_k(g)为输入到第k个子判别器的真实图像帧的判别结果；

为输入到第k个子判别器的生成图像帧的判别结果。

在示范性实施方式中，所述基于所述多尺度的图像质量判别器的判别结果，确定所述Wav2Lip模型的损失函数值包括：

确定所述Wav2Lip模型的损失函数值L_G；其中：

L_G＝λ₁L₁+λ₂L_sync+λ₃L_adv+λ₄L_FM；

其中λ₁、λ₂、λ₃和λ₄分别为预设系数；L₁为重建损失函数；L_sync为唇形对齐损失函数；L_adv为对抗损失函数；L_FM为特征匹配损失函数。

在示范性实施方式中，还包括：

确定L_FM，其中：

其中每个子判别器的总层数为T；i为层编号；

为第k个子判别器的第i层针对输入到第k个子判别器的真实图像帧的判别结果；

为第k个子判别器的第i层针对输入到第k个子判别器的生成图像帧的判别结果。

一种图像帧生成方法，包括：

确定音频测试文件和包含说话者人脸的第一图像帧；

将所述音频测试文件和所述第一图像帧输入Wav2Lip模型，以由所述Wav2Lip模型基于所述音频测试文件和第一图像帧，生成具有与所述音频测试文件的同步唇形的第二图像帧，其中所述Wav2Lip模型根据权利要求1-6任一项所述的Wav2Lip模型的训练方法被训练；

从所述Wav2Lip模型接收所述第二图像帧。

一种Wav2Lip模型的训练装置，包括：

第一确定模块，用于确定训练样本，所述训练样本包括原始图像帧、真实图像帧和音频文件，所述原始图像帧包含说话者的人脸，所述真实图像帧包含所述说话者表述所述音频文件的真实唇形；

训练模块，用于基于所述训练样本，执行所述Wav2Lip模型的训练过程，所述训练过程包括：将所述原始图像帧和所述音频文件输入所述Wav2Lip模型，以由所述Wav2Lip模型基于所述原始图像帧和所述音频文件输出生成图像帧；将所述生成图像帧和所述真实图像帧输入多尺度的图像质量判别器，以由所述多尺度的图像质量判别器在多个尺度上判别所述生成图像帧和所述真实图像帧是否为真实图像；

第二确定模块，用于基于所述多尺度的图像质量判别器的判别结果，确定所述Wav2Lip模型的损失函数值；

配置模块，用于配置所述Wav2Lip模型的模型参数，以使所述损失函数值低于预设阈值。

在示范性实施方式中，所述在多个尺度上判别所述生成图像帧和所述真实图像帧是否为真实图像包括：对所述生成图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的生成图像帧，n为至少为2的正整数；对所述真实图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的真实图像帧；其中所述多尺度的图像质量判别器包括n个子判别器，所述n个子判别器中的第一个子判别器的输入图像为：所述真实图像帧和所述生成图像帧；所述n个子判别器中的剩余(n-1)个子判别器的输入图像分别为：按照平均池化操作顺序所得到的、所述(n-1)个平均池化操作后的生成图像帧以及按照平均池化操作顺序所得到的、所述(n-1)个平均池化操作后的真实图像帧。

在示范性实施方式中，k为大于等于1且小于等于n的正整数；第k个子判别器包括：第一卷积层，用于提取第k个子判别器的输入图像的特征；降采样层，用于对所述特征执行降采样；第二卷积层，用于基于所述降采样后的特征输出判别结果。

在示范性实施方式中，第二确定模块，还用于确定所述多尺度的图像质量判别器的损失函数值L_dis；基于所述L_dis更新所述多尺度的图像质量判别器的模型参数；其中：

D_k(g)为输入到第k个子判别器的真实图像帧的判别结果；

为输入到第k个子判别器的生成图像帧的判别结果。

在示范性实施方式中，第二确定模块，用于确定所述Wav2Lip模型的损失函数值L_G；其中：L_G＝λ₁L₁+λ₂L_sync+λ₃L_adv+λ₄L_FM；其中λ₁、λ₂、λ₃和λ₄分别为预设系数；L₁为重建损失函数；L_sync为唇形对齐损失函数；L_adv为对抗损失函数；L_FM为特征匹配损失函数。

在示范性实施方式中，第二确定模块，用于确定L_FM，其中：

其中每个子判别器的总层数为T；i为层编号；

一种图像帧生成装置，包括：

确定模块，用于确定音频测试文件和包含说话者人脸的第一图像帧；

输入模块，用于将所述音频测试文件和所述第一图像帧输入Wav2Lip模型，以由所述Wav2Lip模型基于所述音频测试文件和第一图像帧，生成具有与所述音频测试文件的同步唇形的第二图像帧，其中所述Wav2Lip模型根据如上一项所述的Wav2Lip模型的训练方法被训练；

接收模块，用于从所述Wav2Lip模型接收所述第二图像帧。

一种电子设备，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现如上任一项所述的Wav2Lip模型的训练方法或图像帧生成方法。

一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时可实现如上任一项所述的Wav2Lip模型的训练方法或图像帧生成方法。

一种计算机程序产品，包括计算机指令，所述计算机指令在被处理器执行时实施如上任一项所述的Wav2Lip模型的训练方法或图像帧生成方法。

从上述技术方案可以看出，在本发明实施方式中，确定训练样本，训练样本包括原始图像帧、真实图像帧和音频文件，原始图像帧包含说话者的人脸，真实图像帧包含说话者表述音频文件的真实唇形；基于训练样本执行Wav2Lip模型的训练过程，训练过程包括：Wav2Lip模型基于原始图像帧和音频文件输出生成图像帧；将生成图像帧和真实图像帧输入多尺度的图像质量判别器，以由图像质量判别器在多个尺度上判别生成图像帧和真实图像帧是否为真实图像；基于判别结果，确定Wav2Lip模型的损失函数值；配置Wav2Lip模型的模型参数，以使损失函数值低于预设阈值。可见，本发明实施方式利用多尺度的图像质量判别器在不同尺度对图像进行判别，判别器的能力获得提升，对生成高质量的图像有更强的监督作用，提高了图像质量。

而且，考虑到多尺度判别器所引入的特征匹配损失，本发明实施方式进一步设置特征匹配损失，提高了训练稳定性。

附图说明

为了更清楚地说明本发明实施方式中的技术方案，下面将对实施方式描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是Wav2Lip模型的示范性结构图。

图2是本发明实施方式的Wav2Lip模型训练方法的示范性流程图。

图3是本发明实施方式的多尺度的图像质量判别器的示范性结构图。

图4是本发明实施方式的子判别器的示范性结构图。

图5是本发明实施方式的图像帧生成方法的示范性流程图。

图6是本发明实施方式的Wav2Lip模型训练装置的示范性结构图。

图7是本发明实施方式的图像帧生成装置的示范性结构图。

图8是本发明实施方式的电子设备的示范性结构图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据……”是指“至少根据……，但不限于仅根据……”。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。本发明实施方式的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施方式例如能够以除在这里图示或描述的那些以外的顺序实施。

图1是Wav2Lip模型的示范性结构图。Wav2Lip模型包含生成器和两个判别器，这两个判别器分别为唇形同步判别器和图像质量判别器(Visual Quality Discriminator)。

为根据音频生成与音频精准同步的唇形图像，模型输入包含两部分：(1)原始图像帧(一般包括说话人的脸部)，比如为视频帧序列：(2)音频文件，一般是梅尔频谱分段(Melspectrogram segment)。这两部分数据按照特定的组织格式输入生成器。生成器包括图像编码器、音频编码器、融合器和图像解码器。生成器中的图像编码器接收原始图像帧，提取出原始图像帧的中间特征。生成器中的音频编码器接收音频信号，提取出音频中间特征。融合器对原始图像帧的中间特征与音频中间特征进行特征融合(concat)处理，融合后的特征送入图像解码器进行解码。图像解码器输出唇形与音频同步的图像帧(Generatedframes)，称为生成图像帧。

在Wav2Lip模型的训练阶段，生成器基于训练数据中的原始图像帧及训练数据中的音频文件生成训练阶段的、唇形同步的生成图像帧，并发送该生成图像帧到两个判别器。这两个判别器包含：

(1)已经预训练好的唇形同步判别器，它以音频文件及生成图像帧作为输入，来判别生成图像帧与音频文件是否同步，唇形同步判别器需要提前预训练好，目的是增强唇形与音频同步判别的能力；

(2)图像质量判别器，它接收生成器输出的生成图像帧以及与训练数据中的音频文件同步的、说话人的真实唇形图像(称为真实图像帧)，来判别其真假，驱动更好生成唇形。

在训练阶段，生成器的输入包含两部分(训练数据中的原始图像帧及训练数据中的音频文件)，分别通过图像编码器和声音编码器得到各自的特征信息，并在融合器中进行融合；再通过图像解码器获得唇形与音频同步的图像帧(即训练阶段的生成图像帧)。真实图像帧(通常包含在训练数据中)和训练阶段的生成图像帧分别输入到图像质量判别器。图像质量判别器执行二分类的判别处理，判别结果表示判别图像(真实图像帧和生成图像帧)是真实图像还是生成图片，进而提高图像质量。而且，将训练阶段的生成图像帧和训练数据中的音频文件输入到预先训练好的唇形同步判别器中，以判断唇形是否精准。在训练过程中，唇形同步判别器内的模型参数会被冻结，不参与训练和更新。

在推理阶段，提供一段音频和视频(比如，图像或动画)，生成器即可输出唇形同步的生成图像帧(比如视频)。

现有技术的生成器的损失函数主要包括三部分：L1重建损失、唇形同步损失(Lsync)和对抗损失(Ladv)。L1重建损失源于基于原始图像帧重建出生成图像帧的损失；唇形同步损失源于唇形同步判别器的损失；对抗损失源于与图像质量判别器进行对抗，使得生成器生成的图像尽可能骗过图像质量判别器。可见，图像质量判别器对图像质量有很关键的监督作用。目前，现有技术中的图像质量判别器通常包括多个一堆卷积块(NonNormConv2d)，每个块包括卷积层和LeakyReLU激活层，用来提高视觉质量和同步精度。

然而，现有技术的图像质量判别器的输入是单一尺度的图像，能力较为单一，无法在不同尺度对图像进行判别，导致Wav2lip模型无法满足高质量的说话人视频生成。尤其是：当输入图像的分辨率较小时，Wav2lip模型表现尚可，但当面临生成更高分辨率的图像时，整体图像较为模糊，特别是人脸的下半部分非常模糊。

如图2所示，该方法包括：

步骤201：确定训练样本，训练样本包括原始图像帧、真实图像帧和音频文件，原始图像帧包含说话者的人脸，真实图像帧包含说话者表述音频文件的真实唇形。

下面举例描述Wav2Lip模型的训练样本的数据实现过程。在数据准备中，获取唇语识别句(Lip Reading Sentences 2，RS2)数据集，其中每个句子的长度不超过100个字符。然后，获取一段连续的真实视频人脸序列，可以只保留上半部分人脸(下半部分被遮挡)，另外选取一段随机参考帧(通过随机移动视频产生)，然后将两段图片序列在通道的维度上融合起来以作为原始图像帧。另外，获取包含说话者表述(比如，语音说出或歌唱出)音频文件的真实唇形的真实图像帧。将音频文件与原始图像帧一起输入到生成器。生成器生成与音频文件同步的唇形图像帧，即生成被遮挡的人脸下半部分，其中唇形已经与音频同步。

步骤202：基于训练样本，执行Wav2Lip模型的训练过程，训练过程包括：将原始图像帧和音频文件输入Wav2Lip模型，以由Wav2Lip模型基于原始图像帧和音频文件输出生成图像帧；将生成图像帧和真实图像帧输入多尺度的图像质量判别器，以由多尺度的图像质量判别器在多个尺度上判别生成图像帧和真实图像帧是否为真实图像。

在本发明实施方式中，在Wav2lip模型引入多尺度的图像质量判别器，以提升生成图像帧的质量。图像尺寸一般通过沿图像的宽度和高度的总像素数进行表征。考虑到在某种尺度中不容易看清或提取的特性在另外的尺度下可能容易发现或者提取，因此优选对图像采用多尺度的表达，并且在不同尺度下分别进行处理。比如，单个尺度具体可以包括：256(像素)*256(像素)、128(像素)*128(像素)或64(像素)*64(像素)，等等。

在一个实施方式中，在多个尺度上判别生成图像帧和真实图像帧是否为真实图像包括：对生成图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的生成图像帧，n为至少为2的正整数；对真实图像帧执行(n-1)次的平均池化操作，以得到(n-1)个平均池化操作后的真实图像帧；其中多尺度的图像质量判别器包括n个子判别器，n个子判别器中的第一个子判别器的输入图像为：真实图像帧和生成图像帧；n个子判别器中的剩余(n-1)个子判别器的输入图像分别为：按照平均池化操作顺序所得到的、(n-1)个平均池化操作后的生成图像帧以及按照平均池化操作顺序所得到的、(n-1)个平均池化操作后的真实图像帧。

可见，本发明实施方式不再利用单尺度的图像质量判别器，而是在Wav2lip模型引入多尺度的图像质量判别器，以在不同尺度对图像进行判别，判别器的能力获得提升，对生成高质量图像有更强的监督作用，因此提高了图像质量。

图3是本发明实施方式的多尺度的图像质量判别器的示范性结构图。在图3中，以多尺度的图像质量判别器包含3个子判别器为例进行描述。

如图3所示，多尺度的图像质量判别器包括第一子判别器、第二子判别器和第三子判别器，每个子判别器对应于各自的图像尺度。每个子判别器分别对输入图像进行判决以确定输入图像为真实图像(比如，输出布尔值真)还是生成图像(比如，输出布尔值假)。其中：尺度为256(像素)*256(像素)的图像，为第一子判别器的输入图像。对256(像素)*256(像素)的图像执行第一平均池化处理以降低图像尺度，比如得到128(像素)*12(像素)8的图像，该128(像素)*128(像素)的图像为第二子判别器的输入图像。对128(像素)*128(像素)的图像执行第二平均池化处理以再次降低图像尺度，比如得到64(像素)*64(像素)的图像，该64(像素)*64(像素)的图像为第三子判别器的输入图像。在训练过程中，输入图像帧包括真实图像帧和训练过程的生成图像帧。在推理阶段中，输入图像帧包括推理阶段的生成图像帧。

在图3中，以图像质量判别器包括三个子判别器为例进行说明，本领域技术人员可以意识到，图像质量判别器中的子判别器的数目可以为2个或大于3个，本发明实施方式对此并无限定。

图4是本发明实施方式的子判别器的示范性结构图。该子判别器适用于第k个子判别器，其中k为大于等于1且小于等于n的正整数；，n为大于或等于2的正整数。

如图4所示，第k个子判别器包括：第一卷积层，用于提取第k个子判别器的输入图像的特征；降采样层，用于对特征执行降采样；第二卷积层，用于基于降采样后的特征输出判别结果。

图4中以第k个子判别器包括3层为例进行说明。实际上，第k个子判别器的层数可以更多。比如，将3个如图4所示的子判别器结构相串联，可以形成9层的子判别器；将4个如图4所示的子判别器结构相串联，可以形成12层的子判别器，等等。

可见，本发明实施方式还提出了子判别器的优化结构，便于实施多尺度的图像质量判别器。而且，本发明实施方式的子判别器的层数便于扩展。

步骤203：基于多尺度的图像质量判别器的判别结果，确定Wav2Lip模型的损失函数值。

步骤204：配置Wav2Lip模型的模型参数，以使损失函数值低于预设阈值。

在一个实施方式中，还包括：确定多尺度的图像质量判别器的损失函数值L_dis；基于L_dis更新多尺度的图像质量判别器的模型参数；其中：

D_k(g)为输入到第k个子判别器的真实图像帧的判别结果；

为输入到第k个子判别器的生成图像帧的判别结果。

因此，通过为多尺度的图像质量判别器设置损失函数，可以在Wav2Lip模型的训练过程中更新其模型参数，从而提高图像质量。

在一个实施方式中，基于多尺度的图像质量判别器的判别结果，确定Wav2Lip模型的损失函数值包括：确定Wav2Lip模型的损失函数值L_G；其中：L_G＝λ₁L₁+λ₂L_sync+λ₃L_adv+λ₄L_FM；其中λ₁、λ₂、λ₃和λ₄分别为预设系数；L₁为重建损失函数；L_sync为唇形对齐损失函数；L_adv为对抗损失函数；L_FM为特征匹配损失函数。L₁、L_sync和L_adv的计算方式参照本领域的常见处理，此处不再赘述。

可见，考虑到多尺度的的图像质量判别器所引入的特征匹配损失，进一步设置特征匹配损失，从而提高了训练稳定性。

在一个实施方式中，还包括：确定L_FM，其中：

其中每个子判别器的总层数为T；i为层编号；

举例：当多尺度的图像质量判别器具有如图3所示结构，且第1个子判别器(即k＝1)具有如图4所示结构时：

在训练过程中，第1个子判别器的输入图像包括：输入到第1个子判别器的真实图像帧(尺度为256*256)以及生成图像帧(尺度为256*256)。

对于第1个子判别器的第1层(即第一卷积层)，

为：从256*256的生成图像帧中提取的图像特征，

为从256*256的真实图像帧中提取的图像特征。

对于第1个子判别器的第2层(即降采样层)，

为：从256*256的生成图像帧中所提取特征的降采样结果，

为：从256*256的真实图像帧中所提取特征的降采样结果。

对于第1个子判别器的第3层(即第二卷积层)，

为：基于256*256的生成图像帧的降采样结果，对256*256的生成图像帧的判别结果；

为：基于256*256的真实图像帧的降采样结果，对256*256的真实图像帧的判别结果。

在训练过程中，第2个子判别器的输入图像包括：输入到第2个子判别器的真实图像帧(尺度为128*128)以及生成图像帧(尺度为128*128)。

对于第2个子判别器的第1层(即第一卷积层)，

为：从128*128的生成图像帧中提取的图像特征，

为从128*128的真实图像帧中提取的图像特征。

对于第2个子判别器的第2层(即降采样层)，

为：从128*128的生成图像帧中所提取特征的降采样结果，

为：从128*128的真实图像帧中所提取特征的降采样结果；

对于第2个子判别器的第3层(即第二卷积层)，

为：基于128*128的生成图像帧的降采样结果，对128*128的生成图像帧的判别结果；

为：基于128*128的真实图像帧的降采样结果，对128*128的真实图像帧的判别结果。

类似地，在训练过程中，第3个子判别器的输入图像包括：输入到第3个子判别器的真实图像帧(尺度为64*64)以及生成图像帧(尺度为64*64)。第3个子判别器的每一层，可以类似可以确定出各自的输出结果。类似地，对于其它子判别器，可以确定出其中每一层的输出结果，此处不再赘述。

因此，本发明实施方式还实现了针对特征匹配损失的快捷计算方式。

基于上述训练方法的得到的Wav2Lip模型，本发明实施方式还提出了图像帧生成方法。

图5是是本发明实施方式的图像帧生成方法的示范性流程图。如图5所示，该方法包括：

步骤501：确定音频测试文件和包含说话者人脸的第一图像帧。

步骤502：将音频测试文件和第一图像帧输入Wav2Lip模型，以由Wav2Lip模型基于音频测试文件和第一图像帧，生成具有与音频测试文件的同步唇形的第二图像帧，其中Wav2Lip模型根据如图2所示的Wav2Lip模型的训练方法被训练。

在这里，如图2所示的训练方法所得到的Wav2Lip模型的输入包含两部分：(1)第一图像帧，比如为视频帧序列：(2)音频测试文件，一般是梅尔频谱分段。这两部分数据按照特定的组织格式输入生成器。生成器包括图像编码器、音频编码器、融合器和图像解码器。生成器中的图像编码器接收第一图像帧，提取出第一图像帧的中间特征。生成器中的音频编码器接收音频测试文件，提取出音频中间特征。融合器对原始图像帧的中间特征与音频中间特征进行特征融合处理，融合后的特征送入图像解码器进行解码。图像解码器输出唇形与音频同步的图像帧，称为第二图像帧。

步骤503：从Wav2Lip模型接收第二图像帧。

本发明实施方式还提出Wav2Lip模型训练装置。图6是本发明实施方式的Wav2Lip模型训练装置的示范性结构图。如图6所示，Wav2Lip模型训练装置600包括：

第一确定模块601，用于确定训练样本，训练样本包括原始图像帧、真实图像帧和音频文件，原始图像帧包含说话者的人脸，真实图像帧包含说话者表述音频文件的真实唇形；训练模块602，用于基于训练样本，执行Wav2Lip模型的训练过程，训练过程包括：将原始图像帧和音频文件输入Wav2Lip模型，以由Wav2Lip模型基于原始图像帧和音频文件输出生成图像帧；将生成图像帧和真实图像帧输入多尺度的图像质量判别器，以由多尺度的图像质量判别器在多个尺度上判别生成图像帧和真实图像帧是否为真实图像；第二确定模块603，用于基于多尺度的图像质量判别器的判别结果，确定Wav2Lip模型的损失函数值；配置模块604，用于配置Wav2Lip模型的模型参数，以使损失函数值低于预设阈值。

在一个实施方式中，k为大于等于1且小于等于n的正整数；第k个子判别器包括：第一卷积层，用于提取第k个子判别器的输入图像的特征；降采样层，用于对特征执行降采样；第二卷积层，用于基于降采样后的特征输出判别结果。

在一个实施方式中，第二确定模块603，还用于确定多尺度的图像质量判别器的损失函数值L_dis；基于L_dis更新多尺度的图像质量判别器的模型参数；其中：

D_k(g)为输入到第k个子判别器的真实图像帧的判别结果；

为输入到第k个子判别器的生成图像帧的判别结果。

在一个实施方式中，第二确定模块603，用于确定Wav2Lip模型的损失函数值L_G；其中：L_G＝λ₁L₁+λ₂L_sync+λ₃L_adv+λ₄L_FM；其中λ₁、λ₂、λ₃和λ₄分别为预设系数；L₁为重建损失函数；L_sync为唇形对齐损失函数；L_adv为对抗损失函数；L_FM为特征匹配损失函数。

在一个实施方式中，第二确定模块603，用于确定L_FM，其中：

其中每个子判别器的总层数为T；i为层编号；

图7是本发明实施方式的图像帧生成装置的示范性结构图。如图7所示，图像帧生成装置700包括：确定模块701，用于确定音频测试文件和包含说话者人脸的第一图像帧；输入模块702，用于将音频测试文件和第一图像帧输入Wav2Lip模型，以由Wav2Lip模型基于音频测试文件和第一图像帧，生成具有与音频测试文件的同步唇形的第二图像帧，其中Wav2Lip模型根据如上的Wav2Lip模型的训练方法被训练；接收模块703，用于从Wav2Lip模型接收第二图像帧。

本发明实施方式还提供一种计算机可读介质，计算机可读存储介质存储指令，指令在由处理器执行时可执行如上的Wav2Lip模型的训练方法或图像帧生成方法中的步骤。实际应用中的计算机可读介质可以是上述实施方式中描述的设备/装置/***中所包含的，也可以是单独存在而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或多个程序被执行时，可以实现上述各实施方式描述的Wav2Lip模型的训练方法或图像帧生成方法。根据本发明公开的实施方式，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本发明保护的范围。在本发明公开的实施方式中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

如图8所示，本发明实施方式还提供一种电子设备，其中可以集成本发明实施方式的Wav2Lip模型的训练装置或图像帧生成装置。如图8所示，其示出了本发明实施方式所涉及的电子设备的示范性结构图。具体地：该电子设备可以包括一个或一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802以及存储在存储器上并可在处理器上运行的计算机程序。在执行存储器802的程序时，可以实现上述Wav2Lip模型的训练方法或图像帧生成方法。

在实际应用中，该电子设备还可以包括电源803、输入单元804、以及输出单元805等部件。本领域技术人员可以理解，图8中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：处理器801是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器802内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。存储器802可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器801通过运行存储在存储器802的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器802可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器802还可以包括存储器控制器，以提供处理器801对存储器802的访问。

该电子设备还包括给各个部件供电的电源803，可以通过电源管理***与处理器801逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电***、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。该电子设备还可包括输入单元804，该输入单元804可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该电子设备还可以包括输出单元805，该输出单元805可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本发明实施方式还提供一种计算机程序产品，该计算机程序产品包括计算机指令，该计算机指令在被处理器执行时实施如上述任一实施方式所述的Wav2Lip模型的训练方法或图像帧生成方法。本发明附图中的流程图和框图，示出了按照本发明公开的各种实施方式的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本文中应用了具体实施方式对本发明的原理及实施方式进行了阐述，以上实施方式的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本发明。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种Wav2Lip模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，

所述在多个尺度上判别所述生成图像帧和所述真实图像帧是否为真实图像包括：

3.根据权利要求2所述的方法，其特征在于，k为大于等于1且小于等于n的正整数；

第k个子判别器包括：

第一卷积层，用于提取第k个子判别器的输入图像的特征；

降采样层，用于对所述特征执行降采样；

第二卷积层，用于基于所述降采样后的特征输出判别结果。

4.根据权利要求2或3所述的方法，其特征在于，还包括：

确定所述多尺度的图像质量判别器的损失函数值L_dis；

D_k(g)为输入到第k个子判别器的真实图像帧的判别结果；

为输入到第k个子判别器的生成图像帧的判别结果。

5.根据权利要求2或3所述的方法，其特征在于，

所述基于所述多尺度的图像质量判别器的判别结果，确定所述Wav2Lip模型的损失函数值包括：

确定所述Wav2Lip模型的损失函数值L_G；其中：

L_G＝λ₁L₁+λ₂L_sync+λ₃L_adv+λ₄L_FM；

6.根据权利要求5所述的方法，其特征在于，还包括：

确定L_FM，其中：

其中每个子判别器的总层数为T；i为层编号；

7.一种图像帧生成方法，其特征在于，包括：

确定音频测试文件和包含说话者人脸的第一图像帧；

从所述Wav2Lip模型接收所述第二图像帧。

8.一种电子设备，其特征在于，该电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现权利要求1-6任一项所述的Wav2Lip模型的训练方法或如权利要求7所述的图像帧生成方法。

9.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述计算机指令被处理器执行时可实现权利要求1-6任一项所述的Wav2Lip模型的训练方法或如权利要求7所述的图像帧生成方法。

10.一种计算机程序产品，其特征在于，包括计算机指令，所述计算机指令在被处理器执行时实施权利要求1-6任一项所述的Wav2Lip模型的训练方法或如权利要求7所述的图像帧生成方法。