CN114155321B

CN114155321B - 一种基于自监督和混合密度网络的人脸动画生成方法

Info

Publication number: CN114155321B
Application number: CN202111424899.6A
Authority: CN
Inventors: 王建荣; 范洪凯; 喻梅; 李雪威; 刘李; 李森
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2021-11-26
Filing date: 2021-11-26
Publication date: 2024-06-07
Anticipated expiration: 2041-11-26
Also published as: CN114155321A

Abstract

本发明涉及一种基于自监督和混合密度网络的人脸动画生成方法，从语音fbank特征中分离语音内容特征向量和身份特征向量，为提取高质量语音特征，引入记忆模块，在记忆模块中保存多个不同假设，将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块，从而使特征提取器专注于特征提取。为了解决语音映射到头部动作时产生的不确定性问题，将混合密度网络引入到人脸关键点回归任务中，提出基于混合密度网络的人脸关键点回归网络。最后将人脸关键点和参考人脸图像输入到图片到图片转换网络中得到最终的人脸图像。

Description

一种基于自监督和混合密度网络的人脸动画生成方法

技术领域

本发明属于图像特征提取技术领域，涉及一种基于自监督和混合密度网络的人脸动画生成方法。

背景技术

一般而言，人脸动画生成旨在通过一段源语音序列驱动一张参考人脸图像，进而生成与源语音序列对应的说话人人脸动画。人脸动画生成，在电影制作、数字游戏、视频会议，虚拟主播等行业有广阔的发展前景，对于提高听力障碍人士对于语言的理解具有不可或缺的意义。

声觉和视觉是信息交流的重要媒介。人们之间相互交流时，面部器官运动传递了重要信息，唇部动作传递了语音内容信息，面部表情反应了说话者的喜怒哀乐，甚至是头部动作也可以提高人们对语言的理解度。语音中不仅包含内容信息还包含身份信息，不同人说话音色音调是不同的，我们有时可以通过声音来判断不同的人。人脸图像中也包含着身份特征，因此声音特征和人脸图像特征中包含着重叠信息同时也存在互补信息。因此，声觉和视觉两种模态相结合为人机交互提供了重要方式。

在生成的人脸动画中，唇部动作和语音内容同步是至关重要的，语音内容和唇部动作不同步会使人感到不适甚至会怀疑自己所听到的内容。因此，在人脸动画生成任务中生成和语音内容同步的人脸动画是首先要考虑的一个问题。然而，仅仅生成与语音同步的唇部动作是远远不够的，只有唇动而脸部其他器官如头部动作静止的人脸动画，其效果会让人看起来十分僵硬，脸部器官运动有助于提高人们对生成效果的真实性感知。因此，人脸动画中包含自然的头部动作是十分重要的。

人脸动画生成一般分为语音驱动和文本驱动两种。语音驱动的人脸动画是指给予原始语音输入，从原始语音中提取梅尔频率倒谱系数(Mel Frequency CepstralCoefficient,MFCC)或者滤波器组参数(Filter Bank，Fbank)，利用神经网络或机器学***滑连续的嘴型。文本驱动和语音驱动的方法在本质上是相同的，利用语音识别(speech recognition)方法可以把语音转化为文本，利用语音合成(Text-to-Speech，TTS)方法可以把文本转化为语音。

人脸动画生成，在多个行业都具有广泛应用前景。对于带宽受限的网络会议，我们可以只传输语音和一张人脸图像，在接收端进行人脸动画合成。对于听力受限人士，通过语音合成出人脸动画，通过唇部动作提高对语言的理解能力。对于电影配音、游戏动画等行业也有极大的帮助，可以有效改善用户体验。人脸动画生成作为一个多学科交叉的研究领域，该技术的发展将为我们的生活提供极大的便利推动社会的发展。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于自监督和混合密度网络的人脸动画生成方法。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于自监督和混合密度网络的人脸动画生成方法，其特征在于：所述方法的步骤为：

1)输入一组人脸图像和一段语音片段，进行自监督对比学习，训练语音特征提取模块；

2)将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中，在下游任务中并对其微调；

3)将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像。

而且，所述步骤1)的具体操作为：

1)给定了一组输入人脸图像和一段语音片段，将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取；

(2)输入人脸图像首先使用2D-CNN提取图像特征，然后使用3D-CNN提取相邻图像帧之间的时序信息，最后通过图像内容编码器提取图像内容特征，图像身份编码器提取图像身份特征；

(3)输入语音片段首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示，然后使用双向GRU进一步学习语音时序信息；

(4)把经过GRU提取到的语音特征输入到记忆模块，使用记忆模块保存多个不同假设，将语音映射到唇部动作以及头部动作的不确定性分担给记忆模块，使语音特征提取模块专注于语音特征提取。

(5)将提取的语音内容特征和人脸图像内容特征做对比损失，将提取到的语音身份特征和人脸图像身份特征做对比损失。

而且，所述步骤2)的具体操作为：

1)将语音片段输入到语音特征提取器得到语音内容特征向量和语音内容特征向量；

2)将参考人脸关键点输入到多层感知机得到人脸关键点特征向量，把语音内容特征向量和语音内容特征向量以及人脸关键点特征向量输入到混合密度网络得到目标人脸关键点。

本发明的优点和有益效果为：

1、本发明的基于自监督和混合密度网络的人脸动画生成方法，使用语音片段和参考人脸图像关键点生成目标人脸关键点作为人脸动画生成的中间表示，然后从目标人脸关键点和参考人脸图像生成最终的目标人脸图像。使用人脸关键点作为语音和人脸图像的中间表示有几个优势；首先，生成人脸关键点可以回避掉低级别像素外观特征更容易捕获头部动作；同时，相比于数百万像素点，使用68个人脸关键点，这可以使模型更加紧凑参数量更加少，从而可以使用小数据集训练本文模型；其次，关键点易于驱动不同类型动画内容，包含人脸图像和卡通动画。相比之下，基于像素的人脸动画生成方法仅限于人脸，不能轻易推广到卡通动画生成中。

2、本发明的基于自监督和混合密度网络的人脸动画生成方法，利用自监督不需要数据标签特性，在大量无标签数据上充分训练特征提取网络，将语音特征分离为内容相关特征向量和身份相关特征向量，使语音内容特征向量专注于唇部动作，语音身份特征向量专注于头部动作。

3、本发明的基于自监督和混合密度网络的人脸动画生成方法，在自监督对比学习中引入记忆模块保存多个不同假设，将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块，从而使特征提取器专注于特征提取。

4、本发明的基于自监督和混合密度网络的人脸动画生成方法，使用混合密度网络为说话者生成多个不同假设进一步提高生成头部动作的自然度。

附图说明

图1本发明的自监督对比学习网路结构的示意图；

图2本发明基于混合密度网络人脸动画回归结构示意图；

图3本发明图像到图像转换网络结构示意图；

图4本发明实验结果示意图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明涉及一种基于自监督和混合密度网络的人脸动画生成网络结构，以一种基于记忆增强自监督对比学习的语音特征提取网络以获得高质量语音特征。利用自监督不需要数据标签特性，在大量无标签数据上充分训练特征提取网络，将语音特征分离为内容相关特征向量和身份相关特征向量。并引入记忆模块保存多个不同假设，将语音映射到唇部动作和头部动作时产生的不确定性分配给记忆模块，从而使特征提取器专注于特征提取；使用混合密度网络为说话者生成多个不同假设进一步提高生成头部动作的自然度。相比于大多数现存工作通过最小化单高斯负对数似然来生成单个人脸关键点，论文通过最小化混合高斯负对数似然来估计多个2D人脸关键点假设。

如图1所示，提出了一种基于记忆增强自监督对比学习特征提取模型，主要包括三个模块：

(1)基于AudioEncoder和双向GRU的语音特征提取模块，首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示，然后使用双向GRU进一步学习语音时序信息，表示为h_t；

(2)基于Resnet-18的图像特征提取模块，首先使用2D-CNN提取图片特征，然后使用3D-CNN提取相邻图像帧之间的时序信息，最后通过图像内容编码器U_c(·)提取图像内容特征，表示为图像身份编码器U_s(·)提取图像身份特征，表示为/>

(3)记忆模块。语音和唇部动作以及头部动作之间不是一对一的映射关系，相同一段语音片段对应多个不同唇部动作和头部动作。使用记忆模块保存多个不同假设，将映射之间的不确定性分担给记忆模块，使特征提取模块专注于特征提取。

语音内容特征向量可表示为：

语音身份特征向量可表示为：

其中p(i,t)是第i个记忆槽对时间步t的特征所做的贡献，M为记忆模块，权重分配函数把上下文表示h_t映射到p(i,t)，h_t为t时刻GRU提取的语音特征。/>是一个可学习的多层感知机并在维度k上应用softmax操作。

(4)对比损失函数。对于任意一段音频片段，和此音频片段对应的图像序列为正样本，其余的图像序列均为负样本。对比损失函数使用余弦相似度计算任意两个特征表示之间的相似度，由于cos距离和softmax损失函数的组合使得输出结果的取值范围为[-1,1]，这导致了较小的交叉熵，使得cos距离和softmax的组合不能高效学习。为此，本文使用可学习的参数w和b一起参与到网络的训练中来。

内容对比损失函数可表示为：

身份对比损失函数可表示为：

对于基于混合密度网络的人脸关键点回归网络，如图3所示，具体步骤如下：

输入第i帧目标人脸关键点p_i所对应的的前两帧和后两帧以及当前帧语音片段A_i(包含5帧音频)和参考人脸关键点p_r，目标是学习一个函数F:{p_i,A_i}→Θ，其把输入{p_i,A_i}映射为混合密度网络输出参数Θ＝{μ,σ,α}。μ，σ，α分别是混合密度网络的均值、方差和混合系数。M是高斯核数量。每一个高斯核的均值代表一个对齐后2D人脸关键点、旋转、偏移集合，高斯核数量M决定模型生成的假设数量。

输入第i帧语音内容特征向量和语音身份特征向量/>以及参考人脸关键点特征向量p_r，目标值的概率密度可以表示为高斯核函数的线性组合如下所示：

其中，M是高斯核数量，即构成混合模型的组件数量。α_m(c_i)为混合系数表示输入语音内容特征向量、语音身份特征向量以及参考人脸关键点特征向量生成w_i时第m个组件对应的概率权重，w_i为生成的对齐后2D人脸关键点、旋转、偏移集合，ψ_m是组件m的概率密度函数，用于计算在输入c_i条件下得到的w_i密度。本发明采用高斯核作为概率密度函数。

本发明训练图片到图片转换模块，输入目标人脸关键点和参考人脸图像生成最终的目标人脸图像。图片到图片转换模块为一个encoder/decoder结构，将目标人脸关键点绘制为一张RGB图片O_trg大小为256×256×3并和源人脸图像H_src在通道维度上进行拼接得到大小为256×256×6的输入。输入经过encoder得到中间特征表示，中间特征表示输入到decoder用于重构目标人脸图像H_trg。Decoder是一个CNN架构使用反置卷积从中间特征表示得到目标人脸图像。Encoder和Decoder使用带有跳连的U-Net结构来更好得保存目标说话者的身份信息，模型结构如图3所示。

具体的，本实施例中使用Voxceleb2数据集进行训练和测试。将图片分成数据集和测试集以后，首先使用人脸关键点提取器提取人脸图像中的关键点，然后将人脸关键点和语音片段输入人脸关键点回归网络得到目标人脸关键点，然后将目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终人脸图像。

在实际应用中，这些数据样本可以替换成自己的数据样本，只要保持框架结构相同即可。而且本实施例只需要通过使用pytorch(Python机器学习框架)即可，更加方便实际应用。

为了验证技术方案的可行性，本实施例在数据集上做了实验，并最终得到了表1的结果和图4结果。

在研究中，为了评估本实施例所提出模型的性能，定义了两个个评估指标，分别是唇部关键点距离(Landmark Distance，LMD)和旋转距离(Rotation Distance，RD)。根据表1中的结果，本发明提出的方法获得了比上述方法出色的性能。

表1

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种基于自监督和混合密度网络的人脸动画生成方法，其特征在于：所述方法的步骤为：

1）输入一组人脸图像和一段语音片段，进行自监督对比学习，训练语音特征提取模块；

2）将自监督对比学习中学到的语音特征提取模块应用到人脸关键点回归下游任务中，在下游任务中并对其微调；

3）将人脸关键点回归网络输出的目标人脸关键点和参考人脸图像输入到图像到图像转换网络得到最终目标人脸图像；

所述步骤1）的具体操作为：

（1）给定了一组输入人脸图像和一段语音片段，将输入人脸图像和语音片段分别输入到图片特征提取器和语音特征提取器分别进行特征提取；

（2）输入人脸图像首先使用2D-CNN 提取图像特征，然后使用3D-CNN提取相邻图像帧之间的时序信息，最后通过图像内容编码器提取图像内容特征，图像身份编码器提取图像身份特征；

（3）输入语音片段首先使用卷积神经网络对语音特征进行初步提取获得高层次特征表示，然后使用双向GRU进一步学习语音时序信息；

（4）把经过GRU提取到的语音特征输入到记忆模块，使用记忆模块保存多个不同假设，将语音映射到唇部动作以及头部动作的不确定性分担给记忆模块，使语音特征提取模块专注于语音特征提取；

（5）将提取的语音内容特征和人脸图像内容特征做对比损失，将提取到的语音身份特征和人脸图像身份特征做对比损失。

2.根据权利要求1所述的基于自监督和混合密度网络的人脸动画生成方法，其特征在于：所述步骤2）的具体操作为：

1）将语音片段输入到语音特征提取器得到语音内容特征向量和语音内容特征向量；

2）将参考人脸关键点输入到多层感知机得到人脸关键点特征向量，把语音内容特征向量和语音内容特征向量以及人脸关键点特征向量输入到混合密度网络得到目标人脸关键点。