CN114093384A

CN114093384A - 说话视频生成方法、装置、设备以及存储介质

Info

Publication number: CN114093384A
Application number: CN202111386695.8A
Authority: CN
Inventors: 王宇欣; 吴文岩
Original assignee: Shanghai Sensetime Technology Development Co Ltd
Current assignee: Shanghai Sensetime Technology Development Co Ltd
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-25
Also published as: WO2023088080A1

Abstract

公开了一种说话视频生成方法、装置、设备以及存储介质，所述方法包括：获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

Description

说话视频生成方法、装置、设备以及存储介质

技术领域

本公开涉及计算机视觉技术领域，具体涉及一种说话视频生成方法、装置、设备以及存储介质。

背景技术

说话视频生成技术是语音驱动人物形象以及跨模态视频生成任务中重要的一类，也是虚拟数字人商业化中的关键技术。目前通常采用根据语音帧确定对应的口型图像，从而获取输出说音对应的一系列口型图像来生成说话视频，然而该方法所生成的视频中说话人的口型准确度较低且口型变化生硬。

发明内容

本公开实施例提供一种说话视频生成方案。

根据本公开的第一方面，提供一种说话视频生成方法，所述方法包括：获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

结合本公开提供的任一实施方式，所述获取声音驱动数据的音素特征以及声学特征，包括：获取所述声音驱动数据对应的音频所包含的音素以及各个音素对应的时间戳，得到所述声音驱动数据的音素特征；对所述声音驱动数据对应的音频进行特征提取，得到所述声音驱动数据的声学特征。

结合本公开提供的任一实施方式，所述根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息，包括：获取所述音素特征所包含的多个子音素特征以及所述多个子音素特征对应的子声学特征；将所述子音素特征和对应的子声学特征输入至人脸关键点提取网络，得到与所述子音素特征和所述子声学特征对应的人脸关键点信息。

结合本公开提供的任一实施方式，所述人脸关键点信息包括3D人脸关键点信息，在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，所述方法还包括：将所述3D人脸关键点信息投影到2D平面上，得到所述3D人脸关键点信息对应的2D人脸关键点信息；利用所述2D人脸关键点信息更新所述人脸关键点信息。

结合本公开提供的任一实施方式，在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，所述方法还包括：对多组人脸关键点信息进行滤波处理，使每个图像帧的人脸关键点信息与相邻帧的人脸关键点信息之间的变化量满足设定条件。

结合本公开提供的任一实施方式，所述根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，包括：将每组人脸关键点信息与所述第二图像输入至人脸补全网络，得到与所述人脸关键点信息对应的目标人脸图像，其中，所述人脸补全网络用于根据人脸关键点信息对所述第二图像中被遮挡的设定区域进行补全。

结合本公开提供的任一实施方式，所述根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频，包括：将所述至少一个目标人脸图像与设定背景图像进行融合，得到第一图像序列；根据所述第一图像序列与所述声音驱动数据对应的音频，得到所述目标对象的说话视频。

结合本公开提供的任一实施方式，所述人脸关键点提取网络利用音素特征样本和对应的声学特征样本训练得到，其中，所述音素特征样本和所述声学特征样本包括标注的所述目标对象的人脸关键点信息。

结合本公开提供的任一实施方式，所述人脸关键点提取网络通过以下方式训练得到：根据所述音素特征样本和对应的声学特征样本，对初始人脸关键点提取网络进行训练，在网络损失的变化满足收敛条件时完成训练得到所述人脸关键点提取网络，其中，所述网络损失包括所述初始神经网络预测得到的人脸关键点信息与标注的人脸关键点信息之间的差异。

结合本公开提供的任一实施方式，所述音素特征样本和所述声学特征样本通过对一对象的音频的音素特征和声学特征进行所述对象的人脸关键点信息标注得到。

结合本公开提供的任一实施方式，所述音素特征样本和所述声学特征样本通过以下方式得到：获取所述对象的说话视频；根据所述说话视频获取多个人脸图像，以及与所述人脸图像对应的多个音频帧；获取所述人脸图像对应的至少一个音频帧的音素特征以及声学特征；根据所述人脸图像获取人脸关键点信息，并根据所述人脸关键点信息对所述音素特征和所述声学特征进行标注，得到所述音素特征样本和所述声学特征样本。

结合本公开提供的任一实施方式，所述人脸补全网络利用生成对抗网络训练得到，所述生成对抗网络包括所述人脸补全网络和第一鉴别网络，所述训练的网络损失包括：第一损失，用于指示所述人脸补全网络输出的人脸补全图像与完整人脸图像之间的差异，其中，所述完整人脸图像是所述人脸关键点信息对应的人脸图像；第二损失，用于指示所述第一鉴别网络对于输入图像输出的分类结果与所述输入图象的标注信息之间的差异，其中，所述标注信息指示所述输入图像为所述人脸补全网络输出的人脸补全图像或者为真实人脸图像。

结合本公开提供的任一实施方式，所述生成对抗网络还包括第二鉴别网络，所述训练的网络损失还包括：第三损失，用于指示所述第二鉴别网络对于所述人脸补全图像与音素特征对应的判别结果与真实对应结果之间的差异。

根据本公开的第二方面，提供一种说话视频生成装置，所述装置包括：第一获取单元，用于获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；第二获取单元，用于根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；第一得到单元，用于根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；第二得到单元，用于根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

结合本公开提供的任一实施方式，所述第一获取单元具体用于：获取所述声音驱动数据对应的音频所包含的音素以及各个音素对应的时间戳，得到所述声音驱动数据的音素特征；对所述声音驱动数据对应的音频进行特征提取，得到所述声音驱动数据的声学特征。

结合本公开提供的任一实施方式，所述第二获取单元具体用于：获取所述音素特征所包含的多个子音素特征以及所述多个子音素特征对应的子声学特征；将所述子音素特征和对应的子声学特征输入至人脸关键点提取网络，得到与所述子音素特征和所述子声学特征对应的人脸关键点信息。

结合本公开提供的任一实施方式，所述人脸关键点信息包括3D人脸关键点信息，所述装置还包括投影单元，用于在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，将所述3D人脸关键点信息投影到2D平面上，得到所述3D人脸关键点信息对应的2D人脸关键点信息；利用所述2D人脸关键点信息更新所述人脸关键点信息。

结合本公开提供的任一实施方式，所述装置还包括滤除单元，用于在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，对多组人脸关键点信息进行滤波处理，使每个图像帧的人脸关键点信息与相邻帧的人脸关键点信息之间的变化量满足设定条件。

结合本公开提供的任一实施方式，所述第一得到单元具体用于：将每组人脸关键点信息与所述第二图像输入至人脸补全网络，得到与所述人脸关键点信息对应的目标人脸图像，其中，所述人脸补全网络用于根据人脸关键点信息对所述第二图像中被遮挡的设定区域进行补全。

结合本公开提供的任一实施方式，所述第二得到单元具体用于：将所述至少一个目标人脸图像与设定背景图像进行融合，得到第一图像序列；根据所述第一图像序列与所述声音驱动数据对应的音频，得到所述目标对象的说话视频。

根据本公开的第三方面，提供一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现本公开提供的任一实施方式所述的说话视频生成方法。

根据本公开的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开提供的任一实施方式所述的说话视频生成方法。

本公开一个或多个实施例的说话视频生成方法、装置、设备及计算机可读存储介质，根据声音驱动数据的音素特征以及声学特征，获取第一图像中目标对象的至少一组人脸关键点信息；并根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；最后根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。本公开实施例根据与声音驱动数据对应的目标对象的人脸关键信息以及所述目标对象的遮挡了嘴部的图像来生成目标人脸图像，所得到的所述目标对象的说话视频中所述目标对象的口型与所述声音驱动数据的匹配度高，且口型变化连贯，所述目标对象说话状态真实、自然。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开至少一个实施例提出的一种说话视频生成方法的流程图；

图2是本公开至少一个实施例提出的人脸关键点提取网络训练方法流程图；

图3是本公开至少一个实施例提出的样本获取方法流程图；

图4是本公开至少一个实施例提出的另一种说话视频生成方法的流程图；

图5是图4所示的说话视频生成方法的示意图；

图6是本公开至少一个实施例提出的说话视频生成方法中获取人脸关键点信息的示意图；

图7是本公开至少一个实施例提出的说话视频生成装置的结构示意图；

图8是本公开至少一个实施例提出的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合，例如，包括A、B、C中的至少一种，可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

本公开至少一个实施例提供了一种说话视频生成方法，该方法可以由终端设备或服务器等电子设备执行，所述终端设备可以是固定终端或移动终端，例如手机、平板电脑、游戏机、台式机、广告机、一体机、车载终端等等，所述服务器包括本地服务器或云端服务器等，所述方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。

图1示出根据本公开至少一个实施例的说话视频生成方法的流程图，如图1所示，所述方法包括步骤101～步骤104。

在步骤101中，获取声音驱动数据的音素特征以及声学特征。

音素是构成音节的最小语音单位，音素特征可以包括表示声音驱动数据对应的音频中所包含的各个音素的发音起止时间的特征。以所述声音驱动数据对应的音频是“你好”语音段为例，所述声音驱动数据的音素特征例如可以包括：n[0,0.2]，i 3[0.2,0.4]，h[0.5,0.7]，ao3[0.7,1.2]，其中，[]内指示每个音素的发音起止时间，单位例如为秒。在本公开实施例中，可以通过获取所述声音驱动数据对应的音频所包含的音素以及各个音素对应的时间戳，得到所述声音驱动数据的音素特征。

声学特征主要用于描述音频的发音特点，所述声学特征包括但不限于线性预测参数、梅尔频率倒谱系数、感知线性高效能系数等中的至少一种。在本公开实施例中，所述声学特征例如为梅尔频率倒谱系数。在本公开实施例中，所述声音驱动数据的声学特征可以通过对所述声音驱动数据对应的音频进行特征提取得到。

在本公开实施例，所述声音驱动数据可以音频、文本中的至少一项。

在所述声音驱动数据只包括音频的情况下，可以通过对所述音频进行语音识别，确定所述音频对应的文本(文字信息)，从而可以得到所述声音驱动数据对应的音频和文本；

在所述声音驱动数据只包括文本的情况下，可以通过对所述文本进行语音合成，将文本所对应的文字信息转化为音频(语音段)，从而可以得到所述声音驱动数据对应的音频和文本；

在所述声音驱动数据包括音频和文本的情况下，该音频和文本对应于相同的发音。例如，在该文本是“你好”的情况下，所述声音驱动数据中的语音则是发出“你好”声音的语音段。

在一些实施例中，通过对所述声音驱动数据对应的音频和文本进行对齐操作，可以得到所述声音驱动数据的音素特征。其中，对齐操作是指将音频中各个语音段与该语音段的发音所对应的文本中的音素进行对齐，也即确定在所述音频中从何时开始发出文本对应的读音。通过对音频和文本进行对齐操作，一方面确定了所述音频所包含的音素，同时根据读音的持续时间可以得到各个音素对应的时间戳，从而可以得到所述声音驱动数据的音素特征。

仍以你好为例，在对语音和文本进行对齐操作后，则可以确定在0～0.2秒发出音素“n”的声音，在0.2～0.4秒发出“i 3”的声音，等等，从而可以得到所述声音驱动数据的音素特征。本领域技术人员应当理解，也可以通过其他方式获取所述声音驱动数据的读音，本公开实施例对此不进行限制。

在步骤102中，根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息。

人在发出不同的语音时，口型会发生相应的变化，相应地，嘴部区域或者包含嘴部区域的设定区域内的人脸关键点位置会发生相应的变化。由此可知，对于目标对象而言，一个语音帧的音素特征和声学特征是与一组人脸关键点信息相对应的。目标对象在发出某一音素的发音时，其面部对应的人脸关键点信息是可以确定的。其中，所述人脸关键点信息包括五官和人脸轮廓对应的关键点在第一图像中的位置信息。在本公开中，可以将各个人脸关键点在同一时刻的信息称为一组人脸关键点信息。

以生成第一图像中目标对象的说话视频为例，在本步骤中，根据所述声音驱动数据的音素特征和所述声学特征，获取第一图像中目标对象的至少一组人脸关键点信息。在所述声音驱动数据对应的音频包括多个音素的情况下，可以得到这些音素和相应的声学特征所对应的人脸关键点信息序列。其中，所述人脸关键点序列包括按照时间顺序排列的多组人脸关键点信息。

本公开实施例在所述声音驱动数据的音素特征的基础上还增加了声学特征，使得所获取的人脸关键点信息与该声音驱动数据对应的音频的发音特征更加匹配，使得后续生成的说话视频更加真实。

在步骤103中，根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像。

其中，所述第二图像是包含所述目标对象的脸部的图像，所述第二图像是与所述第一图像可以是同一张图像，也可以是不同的图像。例如，第一图像是目标对象A正在微笑的脸部图像，第二图像可以同样是目标对象A的这张正在微笑的脸部图像，也可以是目标对象A的其他脸部图像。

所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡，所述设定区域包括目标对象在说话时会人脸关键点的位置会发生变化的区域，例如，可以是所述目标对象的脸部的下半部分，也可以是额头以下的脸部区域，还可以是嘴部区域，本公开实施例对于遮挡的具体区域不进行限制。

在一些实施例中，可以通过对所述设定区域进行噪声填充，生成所述设定区域被遮挡的第二图像。其中，对所述设定区域进行噪声填充是指利用随机生成的像素值对所述设定区域内的各个像素进行设置。本领域技术人员应当理解，也可以通过其他方式进行所述设定区域的遮挡，本公开对此不进行限制。

根据在步骤102中所得到的至少一组人脸关键点信息，可以对所述第二图像中被遮挡的部分进行补全，从而使得第二图像中目标对象中被遮挡的区域的人脸关键点的分布，与声音驱动数据的音素特征和声学特征一致。这样，根据所述至少一个人脸关键点信息以及所述第二图像生成的至少一个目标人脸图像中，被遮挡的设定区域的人脸关键信息与所述声音驱动数据是匹配的。

在步骤104中，根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

本公开实施例中，得到的所述目标对象的说话视频中，所输出的声音为所述声音驱动数据对应的音频，而所述说话视频的各个人脸图像中，人脸关键点信息是与输出的语音的音素特征和声学特征对应的，由此生成的所述目标对象的口型和说话表情是与发音一致的，使观众产生所述目标对象正在说话的感觉。

本公开实施例根据与声音驱动数据对应的目标对象的人脸关键信息以及所述目标对象的遮挡了嘴部的图像来生成目标人脸图像，所得到的所述目标对象的说话视频中所述目标对象的口型与所述声音驱动数据的匹配度高，且口型变化连贯，所述目标对象说话状态真实、自然。

在一些实施例中，可以将所述至少一个目标人脸图像与设定背景图像进行融合，得到第一视频，并根据所述第一视频与所述声音驱动数据对应的音频，得到所述目标对象的说话视频。在一个示例中，可以将所述目标人脸图像中人脸区域的像素作为前景像素，与所述设定背景图像进行叠加，以实现所述目标人脸图像与设定背景图像的融合。本领域技术人员应当理解，可以采用多种方式对目标人脸图像与设定背景图像进行融合，本公开对此不进行限制

通过上述方法，可以生成目标对象在任意背景下的说话视频，丰富了说话视频生成方法的应用场景。

在一些实施例中，可以利用人脸关键点提取网络，得到所述音素特征和所述声学特征对应的第一图像中目标对象的至少一组人脸关键点信息。

首先，获取所述音素特征所包含的多个子音素特征以及所述多个子音素特征对应的子声学特征。

在一个示例中，可以通过在所述声音驱动数据的音素特征和声学特征上进行滑窗的方式，获得所述音素特征所包含的多个子音素特征和子声学特征，比如，音素特征和声学特征可以按照时间窗口的长度来划分出多个子音素特征和子声学特征。具体地，在对所述声音驱动数据的音素特征和声学特征进行滑窗的过程中，可以将每次滑窗操作后获得在该次时间窗口内的音素特征和声学特征，作为子音素特征和子声学特征，并且，在相同时间窗口内的子音素特征和子声学特征是对应于同一语音段的。

接下来，将所述子音素特征和对应的子声学特征输入至经训练的人脸关键点提取网络，得到与所述子音素特征和所述子声学特征对应的人脸关键点信息。具体的，可以将多个子音素特征和对应的多个子声学特征，以多个子音素特征-子声学特征对的形式，按时间顺序输入至人脸关键点提取网络。所述人脸关键点提取网络用于根据每个子音素特征-子声学特征对，确定对应的一组人脸关键点信息。在将所有的子音素特征-子声学特征对输入至人脸关键点提取网络后，即可以得到所述声音驱动数据对应的多组人脸关键点信息。

在本公开实施例中，通过经训练的人脸关键点提取网络，得到与各个子音素特征-子声学特征对对应的人脸关键点信息，可以实现所述目标对象的发音与口型和说话表情的良好匹配。

在本公开实施例中，所述人脸关键点生成网络可以是3D人脸关键点生成网络，也即所输出的人脸关键点信息是3D人脸关键点信息，除了包含所述人脸关键点的位置信息外，还包括所述人脸关键点的深度信息；所述人脸关键点生成网络也可以是2D人脸关键点生成网络，也即所输出的人脸关键点信息是2D人脸关键点信息。

在所述人脸关键点信息为3D人脸关键点信息的情况下，在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像之前，所述方法还包括：将所述3D人脸关键点信息投影到2D平面上，得到所述3D人脸关键点信息对应的2D人脸关键点信息；利用所述2D人脸关键点信息更新所述人脸关键点信息。之后，根据至少一组2D人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像；最后，根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

在一些实施例中，可以对多组人脸关键点信息进行滤波处理，使每个图像帧的人脸关键点信息与相邻帧(包括前一帧和/或后一帧)的人脸关键点信息之间的变化量满足设定条件，该设定条件例如可以包括各个人脸关键点的位置与相邻帧中对应人脸关键点的位置之间的变化量均小于设定阈值。通过上述方法可以滤除人脸关键点信息变化幅度较大的抖动帧，避免所生成的说话视频中出现口型突然变化的情况。

在一个示例中，可以通过对多组人脸关键点信息在时间窗口上进行高斯滤波，来实现对所述多个人脸关键点信息中连续帧的移动平均处理。其中，移动平均处理指对每一帧的人脸关键点的值和相邻帧的人脸关键点的值进行加权平均，利用加权平均的结果更新该帧的人脸关键点的值。

在一些实施例中，可以通过以下方式得到与所述声音驱动数据对应的至少一个目标人脸图像：将每组人脸关键点信息与包含所述第二图像输入至人脸补全网络，得到与所述人脸关键点信息对应的目标人脸图像，其中，所述人脸补全网络用于根据人脸关键点信息对所述第二图像中被遮挡的设定区域进行补全。

在本公开实施例中，通过人脸补全网络，根据人脸关键点信息对所述第二图像中被遮挡的设定区域进行补全，可以得到所述设定区域的人脸关键点信息与输入的人脸关键点信息一致，从而使得所述目标对象的口型以及说话表情与发出的语音匹配，并且利用人脸补全网络对所述第二图像中被遮挡的设定区域进行补全，可以生成清晰程度高的目标人脸图像。

在一些实施例中，所述人脸关键点提取网络可以利用音素特征样本和声学特征样本进行训练得到。该训练方法可以由服务器执行，并且执行该训练方法的服务器与执行上述说话视频生成方法的设备可以是不同的。

图2是本公开至少一个实施例提出的人脸关键点提取网络训练方法，如图2所示，该训练方法包括步骤201～202。

在步骤201中，获取音素特征样本和对应的声学特征样本，所述音素特征样本和所述声学特征样本包括标注的所述目标对象的人脸关键点信息。其中，所述音素特征样本和对应的声学特征样本，是基于同一语音段得到的，并且所述音素特征样本和对应的声学特征样本中所标注的人脸关键点信息是相同的。

在步骤202中，根据所述音素特征样本和对应的声学特征样本，对初始人脸关键点提取网络进行训练，在网络损失的变化满足收敛条件时完成训练得到所述人脸关键点提取网络，其中，所述网络损失包括所述初始神经网络预测得到的人脸关键点信息与标注的人脸关键点信息之间的差异。

在一些实施例中，所述音素特征样本和所述声学特征样本通过对一对象的音频的音素特征和声学特征进行所述对象的人脸关键点信息标注得到。矸一个示例中，可以通过图3所示的方法获取所述音素特征样本和对应的声学特征样本。

在步骤301中，获取所述对象的说话视频。其中，该对象可以是所生成的说话视频所针对的目标对象，也可以是与该目标对象不同的对象。

在一示例中，在想要生成某一目标对象的说话视频的情况下，则获取该目标对象的已有说话视频，用于获取音素特征样本和声学特征样本。

在步骤302中，根据所述说话视频获取多个人脸图像，以及与所述人脸图像对应的多个音频帧。

通过对所述说话视频进行拆分，得到所述说话视频对应的语音段以及所述说话视频所包含的多个人脸图像。其中，所述语音段中的多个音频帧与所述多个人脸图像具有对应关系。

在步骤303中，获取所述人脸图像对应的至少一个音频帧的音素特征以及声学特征。

根据所述多个人脸图像与所述语音段中的多个音频帧的对应关系，获取其中任意人脸图像对应的至少一个音频帧的音素特征以及声学特征。

在步骤304中，根据所述人脸图像获取人脸关键点信息，并根据所述人脸关键点信息对所述音素特征和所述声学特征进行标注，得到所述音素特征样本和所述声学特征样本。

在本公开实施例中，通过根据待生成说话视频所针对的目标对象的已有说话视频，生成音素特征样本和声学特征样本，可以准确地建立起所述目标对象说话的语音的音素特征和声学特征与人脸关键点信息之间的关联，可以更好地实现对人脸关键点生成网络的训练。

在一些实施例中，所述人脸补全网络可以利用生成对抗网络对进行训练。该训练方法可以由服务器执行，并且执行该训练方法的服务器与执行上述说话视频生成方法的设备可以是不同的。

其中，所述生成对抗网络包括所述人脸补全网络和第一鉴别网络，所述人脸补全网络用于根据人脸关键点信息对输入的遮挡人脸图像进行补全，生成人脸补全图像，其中，所述遮挡人脸图像是通过对完整人脸图像中包括嘴部的设定区域进行遮挡得到的，所述完整人脸图像可以是所述人脸关键点信息对应的人脸图像；所生成的人脸补全图像与真实人脸图像随机输入至所述第一鉴别网络，所述第一鉴别网络输出对于输入图像的鉴别结果，也即判断所述输入图像是人脸补全图像或真实人脸图像。

利用所述生成对抗网络对所述人脸补全网络进行训练的损失包括：

第一损失，用于指示所述人脸补全网络输出的人脸补全图像与完整人脸图像之间的差异，其中，所述完整人脸图像是所述人脸关键点信息对应的人脸图像；

第二损失，用于指示所述第一鉴别网络对于输入图像输出的分类结果与所述输入图象的标注信息之间的差异，其中，所述标注信息指示所述输入图像为所述人脸补全网络输出的人脸补全图像或者为真实人脸图像。

在所述训练的损失的变化满足收敛条件时完成训练，得到所述人脸补全网络。

在本公开实施例中，利用生成对抗网络对所述人脸补全网络进行训练，可以提高所述人脸补全网络输出的人脸补全图像的准确度，有利于提高所生成的所述目标对象的说话视频的图像质量。

在一些实施例中，还可以增加用于判断人脸补全图像是否与音素特征对齐的第二鉴别网络，以辅助所述人脸补全网络的训练。在该训练方法中，所述人脸补全网络输出的人脸补全图像输入至所述第二鉴别网络。

该训练的损失在上述第一损失和第二损失之外，还包括第三损失，所述第三损失用于指示所述第二鉴别网络对于所述人脸补全图像与音素特征对应的判别结果与真实对应结果之间的差异。

通过增加第二鉴别网络对所述人脸补全网络进行训练，进一步提高了音素特征与人脸关键点的对齐效果，有利用提高说话视频的质量。

以下结合图4所示的说话视频生成方法流程图、图5所示的说话视频生成方法示意图和图6所示的获取人脸关键点信息的示意图，对本公开实施例提出的一种说话视频生成方法进行描述。

在步骤401中，对声音驱动数据对应的音频和文本进行对齐操作，得到所述声音驱动数据的音素特征。

所述声音驱动数据对应的音频例如图6所示，为“你好”语音段，所述声音驱动数据对应的文本则为“你好”文本。通过对所述音频和文本进行对齐操作，得到所述声音驱动数据的音素特征。

如图5所示，在所述声音驱动数据只包括音频的情况下，可以通过对所述音频进行语音识别，确定所述音频对应的文本；在所述声音驱动数据只包括文本的情况下，可以通过对所述文本进行语音合成，将文本所对应的文字信息转化为音频。

在步骤402中，对所述声音驱动数据对应的音频进行特征提取，得到所述声音驱动数据的梅尔倒谱特征，也即梅尔频率倒谱系数。

在步骤403中，通过在所述声音驱动数据的音素特征和声学特征上进行滑窗的方式，获得所述音素特征所包含的多个子音素特征和子声学特征。时间窗口如图6中的虚线框所示，箭头示出时间窗口的滑动方向。在活动过程中，每次获得的时间窗口内的音素特征和声学特征为子音素特征和子声学特征，并且，在相同时间窗口内的子音素特征和子声学特征是对应于同一语音段的。

在步骤404中，将所述子音素特征和对应的子声学特征输入至经训练的人脸关键点提取网络，得到与所述子音素特征和所述子声学特征对应的人脸关键点信息。如图6所示，对于每次获得的时间窗口内的子音素特征和子声学特征，所述人脸关键点提取网络输出该时间窗口对应的人脸关键点信息。

示例性的，所述人脸关键点提取网络为3D人脸关键点提取网络，相应地，所得到的人脸关键点信息为3D人脸关键点信息。

在步骤405中，获取所述3D人脸关键点信息对应的2D人脸关键点信息。

在步骤406中，对多组2D人脸关键点信息进行滤波处理，使每个图像帧的2D人脸关键点信息与相邻帧的人脸关键点信息之间的变化量满足设定条件。

在步骤407中，将经滤波处理后的每组2D人脸关键点信息与所述第二图像输入至人脸补全网络，得到与所述2D人脸关键点信息对应的目标人脸图像，其中，所述第二图像为遮挡人脸，第二图像中的下半脸被噪声填充以进行遮挡。

在步骤408中，将步骤207中得到的多帧目标人脸图像(说话人脸图像)与背景图像进行融合，得到第一图像序列。

在步骤409中，根据所述第一图像序列与所述声音驱动数据对应的音频，得到所述目标对象的说话视频。

图7是本公开至少一个实施例提出的说话视频生成装置的结构示意图；如图7所示，所述装置包括：第一获取单元701，用于获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；第二获取单元702，用于根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；第一得到单元703，用于根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；第二得到单元704，用于根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

本公开至少一个实施例还提供了一种电子设备，如图8所示，所述设备包括存储器、处理器，存储器用于存储可在处理器上运行的计算机指令，处理器用于在执行所述计算机指令时实现本公开任一实施例所述的说话视频生成方法。

本公开至少一个实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的说话视频生成方法。

本领域技术人员应明白，本说明书一个或多个实施例可提供为方法、***或计算机程序产品。因此，本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位***(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种***模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和***通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种说话视频生成方法，其特征在于，所述方法包括：

获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；

根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；

根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；

根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

2.根据权利要求1所述的方法，其特征在于，所述获取声音驱动数据的音素特征以及声学特征，包括：

获取所述声音驱动数据对应的音频所包含的音素以及各个音素对应的时间戳，得到所述声音驱动数据的音素特征；

对所述声音驱动数据对应的音频进行特征提取，得到所述声音驱动数据的声学特征。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息，包括：

获取所述音素特征所包含的多个子音素特征以及所述多个子音素特征对应的子声学特征；

将所述子音素特征和对应的子声学特征输入至人脸关键点提取网络，得到与所述子音素特征和所述子声学特征对应的人脸关键点信息。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述人脸关键点信息包括3D人脸关键点信息，在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，所述方法还包括：

将所述3D人脸关键点信息投影到2D平面上，得到所述3D人脸关键点信息对应的2D人脸关键点信息；

利用所述2D人脸关键点信息更新所述人脸关键点信息。

5.根据权利要求1至4任一项所述的方法，其特征在于，在根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像之前，所述方法还包括：

对多组人脸关键点信息进行滤波处理，使每个图像帧的人脸关键点信息与相邻帧的人脸关键点信息之间的变化量满足设定条件。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，包括：

将每组人脸关键点信息与所述第二图像输入至人脸补全网络，得到与所述人脸关键点信息对应的目标人脸图像，其中，所述人脸补全网络用于根据人脸关键点信息对所述第二图像中被遮挡的设定区域进行补全。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频，包括：

将所述至少一个目标人脸图像与设定背景图像进行融合，得到第一图像序列；

根据所述第一图像序列与所述声音驱动数据对应的音频，得到所述目标对象的说话视频。

8.根据权利要求3至7任一项所述的方法，其特征在于，所述人脸关键点提取网络利用音素特征样本和对应的声学特征样本训练得到，其中，所述音素特征样本和所述声学特征样本包括标注的所述目标对象的人脸关键点信息。

9.根据权利要求8所述的方法，其特征在于，所述人脸关键点提取网络通过以下方式训练得到：

根据所述音素特征样本和对应的声学特征样本，对初始人脸关键点提取网络进行训练，在网络损失的变化满足收敛条件时完成训练得到所述人脸关键点提取网络，其中，所述网络损失包括所述初始神经网络预测得到的人脸关键点信息与标注的人脸关键点信息之间的差异。

10.根据权利要求8或9所述的方法，其特征在于，所述音素特征样本和所述声学特征样本通过对一对象的音频的音素特征和声学特征进行所述对象的人脸关键点信息标注得到。

11.根据权利要求10所述的方法，其特征在于，所述音素特征样本和所述声学特征样本通过以下方式得到：

获取所述对象的说话视频；

根据所述说话视频获取多个人脸图像，以及与所述人脸图像对应的多个音频帧；

获取所述人脸图像对应的至少一个音频帧的音素特征以及声学特征；

根据所述人脸图像获取人脸关键点信息，并根据所述人脸关键点信息对所述音素特征和所述声学特征进行标注，得到所述音素特征样本和所述声学特征样本。

12.根据权利要求6至11任一项所述的方法，其特征在于，所述人脸补全网络利用生成对抗网络训练得到，所述生成对抗网络包括所述人脸补全网络和第一鉴别网络，所述训练的网络损失包括：

13.根据权利要求12所述的方法，其特征在于，所述生成对抗网络还包括第二鉴别网络，所述训练的网络损失还包括：

第三损失，用于指示所述第二鉴别网络对于所述人脸补全图像与音素特征对应的判别结果与真实对应结果之间的差异。

14.一种说话视频生成装置，其特征在于，所述装置包括：

第一获取单元，用于获取声音驱动数据的音素特征以及声学特征，所述声音驱动数据包括音频、文本中的至少一项；

第二获取单元，用于根据所述音素特征和所述声学特征获取第一图像中目标对象的至少一组人脸关键点信息；

第一得到单元，用于根据所述至少一组人脸关键点信息以及包含所述目标对象的脸部的第二图像，得到与所述声音驱动数据对应的至少一个目标人脸图像，其中，所述第二图像中包括所述目标对象的嘴部的设定区域被遮挡；

第二得到单元，用于根据所述声音驱动数据和所述至少一个目标人脸图像，得到所述目标对象的说话视频。

15.一种电子设备，其特征在于，所述设备包括存储器、处理器，所述存储器用于存储可在处理器上运行的计算机指令，所述处理器用于在执行所述计算机指令时实现权利要求1至13任一项所述的方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至13任一所述的方法。