CN116741198B

CN116741198B - 一种基于多尺度字典的唇形同步方法

Info

Publication number: CN116741198B
Application number: CN202311021061.1A
Authority: CN
Inventors: 刘学亮; 步超飞; 赵烨; 汪萌; 洪日昌
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-10-20
Anticipated expiration: 2043-08-15
Also published as: CN116741198A

Abstract

本发明涉及计算机视觉技术领域，公开了一种基于多尺度字典的唇形同步方法，包括：音频图像对的数据集建立；多尺度唇形字典的构建：利用预训练的VggFace模型提取FFHQ人脸图像数据集中人脸图像的多个尺度的人脸特征图，使用dlib人脸关键点检测器检测出每张人脸特征图上嘴唇的位置，得到嘴唇特征图；使用RoIAlign双线性插值方法将不同人脸图像相同尺度的嘴唇特征图，重新采样为相同尺寸；唇形同步模型的构建；唇形同步视频的生成。本发明中的唇形同步方法增加了多尺度唇形字典的引用，为嘴唇的生成提供完整的先验字典信息，能够实现更加真实的唇形驱动效果。

Description

一种基于多尺度字典的唇形同步方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于多尺度字典的唇形同步方法。

背景技术

随着互联网的普及应用，视频已全面融入我们的日常生活，人们对快速视频内容创作方法的需求越来越大。例如，如何将经典视频翻译成不同的语言，以供更多的人能快速地理解视频内容。随着语言翻译和文本生成音频技术趋于成熟，翻译这类视频的主要问题在于依据输入翻译后的音频纠正口型，使之达到预期的效果。目前的技术一般直接提取输入音频特征，并以其为参考驱动输入视频或图像的人物口型。但是这类技术所驱动生成的人物口型存在牙齿缺失、唇形不自然等问题。

发明内容

为解决上述技术问题，本发明提供一种基于多尺度字典的唇形同步方法，在提取输入音频特征的基础之上，同时参考从大量图片中提取到的唇形字典，以实现更加真实的唇形驱动效果。

为解决上述技术问题，本发明采用如下技术方案：

一种基于多尺度字典的唇形同步方法，包括以下步骤：

步骤一、音频图像对的数据集建立：

收集包含人脸的视频，提取视频/>中的人脸图像序列/>，并从视频/>中分离相应的音频序列/>；对于人脸图像序列/>中每一帧人脸图像，利用掩码遮掩人脸的下半部分，得到已遮掩的人脸图像序列/>；对于/>中的每一帧人脸图像，在提取的人脸图像序列/>中随机匹配另一张未遮掩的人脸图像，构成人脸图像序列/>，将人脸图像序列/>、人脸图像序列/>以及音频序列/>组成的音频图像对作为训练样本，训练样本的标签为人脸图像序列；人脸图像序列/>作为人脸图像序列/>已知的先验信息；

步骤二、多尺度唇形字典的构建：

利用预训练的VggFace模型提取FFHQ人脸图像数据集中人脸图像的多个尺度的人脸特征图，使用dlib人脸关键点检测器检测出每张人脸特征图上嘴唇的位置，得到嘴唇特征图；使用RoIAlign双线性插值方法将不同人脸图像相同尺度的嘴唇特征图，重新采样为相同尺寸；

使用K-means算法对不同人脸图像相同尺度的嘴唇特征图进行聚类，为每个尺度的嘴唇特征图生成K个聚类，得到多尺度的唇形字典；

步骤三、唇形同步模型的构建：

唇形同步模型采用编码器-解码器结构，包括音频编码器、图像编码器、解码器和多尺度唇形字典引用模块；

音频编码器用于对输入到唇形同步模型的音频进行特征提取，得到音频特征图；图像编码器用于对人脸图像序列中的人脸图像进行特征提取，得到多个尺度的人脸特征图，音频编码器和图像编码器的结构与VggFace模型的结构相同；将人脸特征图和音频特征图在通道维度进行合并连接，得到最终的特征图，输入到解码器；

多尺度唇形字典引用模块将唇形字典作为引用知识输入到唇形同步模型中；

利用包含多个训练样本的训练数据集，以及多尺度的唇形字典，采用AdamW优化器对唇形同步模型进行训练；

步骤四、唇形同步视频的生成：

提取输入视频中的人脸图像序列/>，并从视频/>中分离相应的音频序列/>；对于人脸图像序列/>中每一帧人脸图像，利用掩码遮掩人脸的下半部分，得到已遮掩的人脸图像序列/>；对于/>中的每一帧人脸图像，在提取的人脸图像序列/>中随机匹配另一张未遮掩的人脸图像，构成人脸图像序列/>；将人脸图像序列/>、人脸图像序列/>以及音频/>组成的音频图像对输入到唇形同步模型中，输出已更改唇形的人脸图像序列/>，将人脸图像序列/>放回输入视频/>中人脸图像序列/>的位置处，得到唇形驱动后的视频/>；最后将音频/>与视频/>合并，输出唇形同步的视频/>。

进一步地，步骤二中，VggFace模型是一个由卷积层和池化层构成的网络模型，依次包括两个模块一、两个模块二和四层卷积层；每个模块一中包含两层卷积层和一层池化层；每个模块二中包含四层卷积层和一层池化层；VggFace模型第二个、第三个、第四个池化层之前的卷积层输出的人脸特征图与最后卷积层输出的人脸特征图组成多个尺度的人脸特征图。

进一步地，步骤三中，解码器包括四层卷积层、两个模块三和两个模块四；每个模块三包含一层上采样层和四层卷积层，每个模块四包含一层上采样层和两层卷积层；每层上采样层将特征图的宽和高扩大一倍。

进一步地，步骤三中对唇形同步模型进行训练时，采用的损失函数为：

；

其中N表示训练时的训练样本批量大小，为训练数据集中的第i个真实人脸图像；/>分别表示人脸图像序列/>和/>中的第i帧人脸图像，/>表示音频序列/>中的第i个音频，/>表示输入人脸图像序列/>和/>中的第i帧人脸图像，以及音频序列/>中的第i个音频后，唇形同步模型得到的人脸图像；/>是预训练的VGG-19模型，/>与/>分别表示L1损失和感知损失的权重超参数，/>表示L1范数。

进一步地，步骤三中，多尺度唇形字典引用模块将唇形字典作为引用知识输入到唇形同步模型中时，使用dlib人脸关键点检测器，对图像编码器提取到的多个尺度的人脸特征图上嘴唇的位置进行检测，将提取到的嘴唇特征图与对应尺度唇形字典的K个聚类相乘，得到嘴唇特征图与K个聚类的相似度，将相似度作为权重对K个聚类进行加权和，得到一个新的嘴唇特征图，将原始的嘴唇特征图与新的嘴唇特征图进行残差连接，得到参考了唇形字典的嘴唇特征图；对参考了唇形字典的嘴唇特征图进行Reverse RoIAlign操作后将嘴唇特征图贴回原人脸特征图，并将得到的新的人脸特征图残差连接到解码器的对应位置；Reverse RoIAlign操作是RoIAlign的逆操作。

与现有技术相比，本发明的有益技术效果是：

目前常用的唇形驱动方法，通常直接提取输入音频特征，并以其为参考驱动输入视频或图片的人物口型。这种方法虽然简单易行，但由于模型需要同时兼顾视频的时间序列信息与人物的口型信息，导致这类技术所驱动生成的人物口型存在牙齿缺失、唇形不自然等问题。本发明中的唇形同步方法增加了多尺度唇形字典的引用，为嘴唇的生成提供完整的先验字典信息，能够实现更加真实的唇形驱动效果。

附图说明

图1为本发明实施例中唇形同步模型的示意图；

图2为本发明唇形同步方法的流程图；

图3为本发明音频图像对的示意图；

图4为本发明VggFace模型的示意图；

图5为本发明通过不同尺度的人脸特征图得到多尺度唇形字典的示意图。

具体实施方式

下面结合附图对本发明的一种优选实施方式作详细的说明。

本实施例中的一种基于多尺度字典的唇形同步方法，包括以下步骤：

S1、音频图像对的数据集建立：

S11：从公开的视频数据中收集不同语言、不同国家、不同类型的人物演讲的视频。

S12：对步骤S11中收集到的视频，利用人脸检测技术，提取视频中的人脸图像序列/>，并用工具分离视频中的音频/>。

S13：对步骤S12提取的人脸图像序列中每一帧人脸图像，利用掩码遮掩人脸的下半部分，得到已遮掩的人脸图像序列/>；对于/>中的每一帧人脸图像，在步骤S12提取的人脸图像序列/>中随机匹配另一张未遮掩的人脸图像，构成人脸图像序列/>，将人脸图像序列/>作为已知的先验信息。

S14：将人脸图像序列、人脸图像序列/>以及音频序列/>组成的音频图像对作为训练样本，输入到唇形同步模型中，训练样本的标签为人脸图像序列/>；音频图像对的呈现形式如图3所示。本实施例中，音频图像对可以是多张人脸图像与对应的音频片段的组合，也可以是单张人脸图像与对应的音频片段的组合。

S2、多尺度唇形字典的构建：

S21：多尺度唇形字典基于公开的FFHQ数据集构建而成，FFHQ（Flickr-Faces-HQ）是一个高质量的人脸数据集，为了得到更加均衡的多尺度唇形字典，本实施例从FFHQ数据集的七万张高质量人脸图像当中挑选出一万张人脸图像，用于多尺度唇形字典的构建。

S22：利用预训练的VggFace模型提取步骤S21中所挑选的人脸图像的人脸特征图。预训练VggFace模型是一个由卷积层和池化层构成的二十层的网络模型。其中，VggFace模型依次包括两个模块一、两个模块二和四层卷积层；每个模块一中包含两层卷积层和一层池化层，第一个模块一中两层卷积层的卷积核个数均为64，第二个模块一中两层卷积层的卷积核个数均为128。每个模块二中包含四层卷积层和一层池化层，第一个模块二中四层卷积层的卷积核个数均为256，第二个模块二中四层卷积层的卷积核个数均为512。最后的四层卷积层，卷积核个数均为512。VggFace模型中所有卷积核的大小均为。VggFace模型第二个、第三个、第四个池化层之前的卷积层输出的人脸特征图与最后卷积层输出的人脸特征图组成不同尺度的人脸特征图，如图4所示。本实施例中，VggFace模型得到四种尺度的人脸特征图，四种尺度的人脸特征图依次记为Scale-1人脸特征图、Scale-2人脸特征图、Scale-3人脸特征图、Scale-4人脸特征图，即Scale-s人脸特征图表示第s个尺度的人脸特征图，本实施例中1≤s≤4。

S23：针对步骤S22中得到的每一个尺度的人脸特征图，使用dlib人脸关键点检测器检测出人脸特征图上嘴唇的位置，得到嘴唇特征图。由于不同人脸图像的嘴唇大小不同，针对不同人脸图像相同尺度的嘴唇特征图，使用RoIAlign双线性插值方法将嘴唇特征图重新采样为相同的尺寸，重新采样的尺寸大小和尺度大小相关，本实施例中，Scale-1人脸特征图、Scale-2人脸特征图、Scale-3人脸特征图、Scale-4人脸特征图对应的嘴唇特征图重新采样后的尺寸分别为55、23、12、6。

S24：使用K-means算法对不同人脸图像相同尺度的嘴唇特征图进行聚类，为Scale-1人脸特征图、Scale-2人脸特征图、Scale-3人脸特征图、Scale-4人脸特征图对应的嘴唇特征图分别生成K个聚类，即可得到多尺度的唇形字典，如图5所示。

S3、唇形同步模型的构建：

如图1所示，唇形同步模型采用编码器-解码器结构，包括音频编码器、图像编码器、一个解码器和多尺度唇形字典引用模块。

音频编码器用于对输入到唇形同步模型的音频进行特征提取，得到音频特征图；图像编码器用于对人脸图像序列中的人脸图像进行特征提取，得到人脸特征图。音频编码器和图像编码器的结构与VggFace模型的结构相同，以此保证针对人脸图像序列/>中的每张人脸图像都可以得到四种尺度的人脸特征图。音频特征图和人脸特征图的尺寸均为，将音频特征图和人脸特征图在通道维度进行合并连接，得到尺寸为的特征图，并输入到解码器。

解码器将音频编码器和图像编码器的输出作为输入，通过一系列的卷积、池化操作得到最终的输出。解码器的结构与反转的VggFace模型相似。解码器包括四层卷积层，两个模块三和两个模块四；每个模块三包含一层上采样层和四层卷积层，每个模块四包含一层上采样层和两层卷积层。解码器结构和反转的VggFace模型唯一的区别在于上采样层和池化层的不同：VggFace模型采用池化层降低输入的维度，解码器采用上采样层还原输入的维度。解码器中所有的卷积层与反转的VggFace模型中对应的卷积层的参数一致，每层上采样层将特征图的宽和高扩大一倍。最终得到与输入的人脸图像尺寸相同的特征图。

多尺度唇形字典引用模块将多尺度的唇形字典作为引用知识输入到唇形同步模型中，实现更加真实的口型生成。在图像编码器中，得到四种尺度的人脸特征图，并利用与步骤S23中相同的技术方案，提取人脸特征图中嘴唇特征图。将提取到的嘴唇特征图与对应尺度的唇形字典的K个聚类相乘，得到嘴唇特征图与K个聚类的相似度，将相似度作为权重对K个聚类进行加权和，得到一个新的嘴唇特征图，将原始的嘴唇特征图与新的嘴唇特征图进行残差连接，得到最终参考了唇形字典的嘴唇特征图。对参考了唇形字典的嘴唇特征图进行Reverse RoIAlign操作后将嘴唇特征图贴回原人脸特征图得到新的人脸特征图，并将新的人脸特征图的残差连接到解码器的对应位置。Reverse RoIAlign操作是RoIAlign的逆操作。

引用的唇形字典记为，/>表示第/>个尺度。记图像编码器的输出（Scale-4人脸特征图）为/>，中间的人脸特征图（Scale-1人脸特征图、Scale-2人脸特征图、Scale-3人脸特征图）记为/>，多尺度唇形字典引用模块的输出记为/>。

唇形同步模型的损失函数如下：

；

其中N表示训练过程中训练样本的批量大小（Batchsize），为训练数据集中的第i个真实人脸图像，即人脸图像序列/>中的第i帧人脸图像，/>表示输入人脸图像序列/>和/>中的第i帧人脸图像，以及音频序列/>中的第i个音频后，唇形同步模型得到的人脸图像；/>是预训练的VGG-19模型，使用前五个卷积层输出的人脸特征图参与感知损失函数的计算，/>与/>表示L1损失和感知损失的权重超参数，分别设置为0.8和0.2，/>表示L1范数。

利用步骤S1中得到的多个音频图像对，以及步骤S2中得到的多尺度唇形字典，采用AdamW优化器以及混合的损失函数，对唇形同步模型进行优化训练。每批训练样本采样图像音频对128个，学习率设置为0.0001。AdamW是一种常用的优化器，在Adam优化器的基础上改进而成，其最大优点为对学习率的变动不敏感，AdamW优化器可以在大范围的学习率波动下取得很好的训练结果。上述超参数的设置与优化器的选择能有效提升模型的训练效率与准确性。

S4：唇形同步的视频生成

S41：如果输入的是视频，则采用与步骤S1中的操作相同的处理方式，即利用人脸检测技术，提取输入视频中人脸图像序列，对提取到的人脸图像序列中的人脸图像，利用掩码遮掩人脸的下半部分，并针对每一张已遮掩的人脸图像，在提取到的人脸图像中随机匹配另一张未遮掩的人脸图像，将其作为已知的先验信息连接起来。如果输入的是图像，则提取图像中的人脸图像，同样地使用掩码遮掩人脸的下半部分，将输入的图像作为先验信息与遮掩人脸图像连接起来。

S42：将输入的音频分离成音频片段，若音频片段的长度小于输入视频的长度，则移除输入视频超出音频片段部分的内容。若音频片段的长度大于输入视频的长度，则通过首尾连接视频的手段在输入视频的末尾增加人脸图像。最后将音频片段与步骤S41中处理好的人脸图像一一对应起来。若输入的是图像，则将所有的音频片段与步骤S41中处理好的唯一人脸图像对应起来。

S43：将步骤S42中的音频图像对输入到步骤S3中训练好的唇形同步模型中，输出已更改口型的人脸图像，将输出的人脸图像重新放回原始视频的对应裁剪位置当中，得到唇形驱动后的视频。最后将输入音频与输出的视频利用工具合并，输出唇形同步的视频。

本发明中的唇形同步方法的整体流程如图2所示。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立技术方案，说明书的这种叙述方式仅仅是为了清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于多尺度字典的唇形同步方法，包括以下步骤：

步骤一、音频图像对的数据集建立：

收集包含人脸的视频，提取视频/>中的人脸图像序列/>，并从视频/>中分离相应的音频序列/>；对于人脸图像序列/>中每一帧人脸图像，利用掩码遮掩人脸的下半部分，得到已遮掩的人脸图像序列/>；对于/>中的每一帧人脸图像，在提取的人脸图像序列/>中随机匹配另一张未遮掩的人脸图像，构成人脸图像序列/>，将人脸图像序列/>、人脸图像序列以及音频序列/>组成的音频图像对作为训练样本，训练样本的标签为人脸图像序列/>；人脸图像序列/>作为人脸图像序列/>已知的先验信息；

步骤二、多尺度唇形字典的构建：

步骤三、唇形同步模型的构建：

步骤四、唇形同步视频的生成：

提取输入视频中的人脸图像序列/>，并从视频/>中分离相应的音频序列/>；对于人脸图像序列/>中每一帧人脸图像，利用掩码遮掩人脸的下半部分，得到已遮掩的人脸图像序列/>；对于/>中的每一帧人脸图像，在提取的人脸图像序列/>中随机匹配另一张未遮掩的人脸图像，构成人脸图像序列/>；将人脸图像序列/>、人脸图像序列/>以及音频/>组成的音频图像对输入到唇形同步模型中，输出已更改唇形的人脸图像序列/>，将人脸图像序列放回输入视频/>中人脸图像序列/>的位置处，得到唇形驱动后的视频/>；最后将音频/>与视频/>合并，输出唇形同步的视频/>。

2.根据权利要求1所述的基于多尺度字典的唇形同步方法，其特征在于，步骤二中，VggFace模型是一个由卷积层和池化层构成的网络模型，依次包括两个模块一、两个模块二和四层卷积层；每个模块一中包含两层卷积层和一层池化层；每个模块二中包含四层卷积层和一层池化层；VggFace模型第二个、第三个、第四个池化层之前的卷积层输出的人脸特征图与最后卷积层输出的人脸特征图组成多个尺度的人脸特征图。

3.根据权利要求1所述的基于多尺度字典的唇形同步方法，其特征在于：步骤三中，解码器包括四层卷积层、两个模块三和两个模块四；每个模块三包含一层上采样层和四层卷积层，每个模块四包含一层上采样层和两层卷积层；每层上采样层将特征图的宽和高扩大一倍。

4.根据权利要求1所述的基于多尺度字典的唇形同步方法，其特征在于：步骤三中对唇形同步模型进行训练时，采用的损失函数为：

；

其中N表示训练时的训练样本批量大小，为训练数据集中的第i个真实人脸图像；分别表示人脸图像序列/>和/>中的第i帧人脸图像，/>表示音频序列/>中的第i个音频，/>表示输入人脸图像序列/>和/>中的第i帧人脸图像，以及音频序列/>中的第i个音频后，唇形同步模型得到的人脸图像；/>是预训练的VGG-19模型，/>与/>分别表示L1损失和感知损失的权重超参数，/>表示L1范数。

5.根据权利要求1所述的基于多尺度字典的唇形同步方法，其特征在于，步骤三中，多尺度唇形字典引用模块将唇形字典作为引用知识输入到唇形同步模型中时，使用dlib人脸关键点检测器，对图像编码器提取到的多个尺度的人脸特征图上嘴唇的位置进行检测，将提取到的嘴唇特征图与对应尺度唇形字典的K个聚类相乘，得到嘴唇特征图与K个聚类的相似度，将相似度作为权重对K个聚类进行加权和，得到一个新的嘴唇特征图，将原始的嘴唇特征图与新的嘴唇特征图进行残差连接，得到参考了唇形字典的嘴唇特征图；对参考了唇形字典的嘴唇特征图进行Reverse RoIAlign操作后将嘴唇特征图贴回原人脸特征图，并将得到的新的人脸特征图残差连接到解码器的对应位置；Reverse RoIAlign操作是RoIAlign的逆操作。