CN116434303A

CN116434303A - 基于多尺度特征融合的人脸表情捕捉方法、装置及介质

Info

Publication number: CN116434303A
Application number: CN202310331030.XA
Authority: CN
Inventors: 谭明奎; 李振梁; 刘艳霞
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-03-30
Filing date: 2023-03-30
Publication date: 2023-07-14

Abstract

本发明公开了一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质，其中方法包括：获取人脸图像；将获得的人脸图像输入训练后的表情捕捉模型中，输出人脸系数；所述表情捕捉模型包括系数预测网络，所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块；所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征，并通过融合后特征预测身份系数、表情系数和纹理系数。本发明通过多尺度特征融合模块，在骨干网络基础上，不断融合骨干网络不同阶段的图像特征，利用融合特征进行人脸身份、表情、纹理的预测，能够获得更为精细的预测结果。本发明可广泛应用于人脸图像数据处理领域。

Description

基于多尺度特征融合的人脸表情捕捉方法、装置及介质

技术领域

本发明涉及人脸图像数据处理领域，尤其涉及一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质。

背景技术

近年来，虚拟数字人领域得到了越来越多的关注，而人脸表情捕捉是实现虚拟数字人驱动的一大重要技术。该任务通常的输入为包含人脸的图像或视频，利用深度神经网络学习图像特征并预测人脸的各项系数，通过三维可形变模型重构三维人脸，最终获取人脸的表情系数作为表情捕捉的预测结果。然而，现有方法存在部分缺陷：一是没有同时考虑输入图像的全局与局部信息，难以捕获人脸细微表情；二是没有考虑不同输入图像的置信度差异，人脸的身份与表情难以解耦。

发明内容

为至少一定程度上解决现有技术中存在的技术问题之一，本发明的目的在于提供一种基于多尺度特征融合的人脸表情捕捉方法、装置及介质。

本发明所采用的技术方案是：

一种基于多尺度特征融合的人脸表情捕捉方法，包括以下步骤：

获取人脸图像；

将获得的人脸图像输入训练后的表情捕捉模型中，输出人脸系数；

所述表情捕捉模型包括系数预测网络，所述系数预测网络包括骨干网络、全连接层以及多尺度特征融合模块；所述多尺度特征融合模块用于融合骨干网络不同阶段的图像特征，并通过融合后特征预测身份系数、表情系数和纹理系数。

进一步地，所述表情捕捉模型通过以下方式训练获得：

获取人脸数据，对人脸数据进行预处理，获得训练集；

构建表情捕捉模型，所述表情捕捉模型由系数预测网络、置信度预测网络和重建与渲染模块构成；

根据训练集和损失函数对构建的表情捕捉模型进行训练，在表情捕捉模型训练后，去除置信度预测网络和重建与渲染模块，获得训练后的表情捕捉模型；

其中，所述系数预测网络用于学习图像特征并预测人脸系数，将T张相同身份但不同表情的人脸图像I输入到系数预测网络，输出人脸的身份系数α、表情系数β、纹理系数δ、姿态系数p以及光照系数γ；

所述置信度预测网络用于为训练时输入的多张人脸图像预测各自的置信度，以优化身份一致性损失；所述重建与渲染模块用于利用预测的人脸系数，结合三维可形变模型(3DMM)重构三维人脸并渲染成二维图像。

进一步地，所述系数预测网络的工作方式如下：

所述全连接层接收骨干网络的输出，并输出姿态系数p和光照系数γ；

定义X_l-1与X_l为骨干网络的上一阶段与当前阶段的输出特征，所述多尺度特征融合模块通过以下方式融合特征：

使用3x3的卷积(步幅＝2)对上一阶段特征X_l-1进行降采样得到特征

目的是为了使上一阶段特征图与当前阶段特征图的空间尺寸保持一致；

对上一步得到的降采样后特征

与当前阶段特征X_l执行拼接操作，再利用3x3卷积层进行特征的融合，获得多尺度融合后的特征X_f。

进一步地，所述重建与渲染模块的工作方式如下：

根据三维可形变模型，以及系数预测网络预测获得的身份系数α、表情系数β、纹理系数δ构建三维人脸模型；

根据构建获得的三维人脸模型，结合姿态系数p与光照系数γ，将三位人脸模型渲染至二维图像；

其中获得的二维图像用于损失函数的计算。

进一步地，所述三维人脸模型表示为形状S与纹理T两大部分：

其中，

和/>

为三维人脸模型的均值人脸形状和均值纹理，B_id,B_exp与B_tex分别代表三维人脸模型中经过PCA降维的人脸身份、表情以及纹理的基底。

进一步地，所述损失函数包括结合置信度权重的身份一致性损失函数；

通过在骨干网络的基础上增加信度预测网络，以预测T张输入图像的身份系数置信度c_1…T，其中置信度c的维度与身份系数α的维度相同；

所述身份一致性损失函数的计算方式如下：

对于T张相同身份的输入图像，系数预测网络得到T个人脸的身份系数预测结果α^t(t＝1,…,T)，结合置信度预测网络输出的身份系数置信度，构建T个身份系数的伪标签

即：

约束T个身份系数与伪标签接近，得到函数：

其中，c^t为第t张输入图像的置信度；α^t为第t张输入图像的身份系数。

进一步地，所述损失函数还包括人脸区域光照损失函数和人脸关键点损失函数；

所述人脸区域光照损失函数的表达式为：

式中，A人脸区域mask；

所述人脸关键点损失函数的表达式为：

式中，P和

分别为输入图像以及渲染后图像的2D关键点坐标，n为人脸关键点数量。

进一步地，所述对人脸数据进行预处理，获得训练集，包括：

将人脸数据中图像裁剪成预设尺寸大小的图像；

将裁剪后的人脸数据切分为训练集、验证集、测试集三个部分；

对训练集中的图像进行人脸分割，得到图像的人脸区域分割结果；采用预设的人脸关键点检测方法，得到人脸的二维关键点坐标。

本发明所采用的另一技术方案是：

一种基于多尺度特征融合的人脸表情捕捉装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现上所述方法。

本发明所采用的另一技术方案是：

一种计算机可读存储介质，其中存储有处理器可执行的程序，所述处理器可执行的程序在由处理器执行时用于执行如上所述方法。

本发明的有益效果是：本发明通过多尺度特征融合模块，在骨干网络基础上，不断融合骨干网络不同阶段的图像特征，利用融合特征进行人脸身份、表情、纹理的预测，能够获得更为精细的预测结果。

附图说明

为了更清楚地说明本发明实施例或者现有技术中的技术方案，下面对本发明实施例或者现有技术中的相关技术方案附图作以下介绍，应当理解的是，下面介绍中的附图仅仅为了方便清晰表述本发明的技术方案中的部分实施例，对于本领域的技术人员而言，在无需付出创造性劳动的前提下，还可以根据这些附图获取到其他附图。

图1是本发明实施例中表情捕捉模型的训练流程图；

图2是本发明实施例中基于多尺度特征融合的表情捕捉模型结构图；

图3是本发明实施例中多尺度特征融合模块的结构图；

图4是本发明实施例中身份伪标签的构建示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

现有基于三维人脸重建的表情捕捉方法存在以下问题：(1)没有考虑到人脸的身份、表情、纹理信息应同时结合图像的全局与局部信息进行预测，导致无法捕捉人脸细微表情。(2)现有方法在使用身份一致性损失时，没有考虑多张图像的置信度差异性，导致人脸身份与表情的解耦效果不足。针对问题(1)，本发明提出多尺度特征融合模块，在现有的骨干网络基础上，不断融合骨干网络不同阶段的图像特征，利用融合特征进行人脸身份、表情、纹理的预测，获得更为精细的预测结果。针对问题(2)，本发明提出结合置信度权重的身份一致性损失函数，利用额外的置信度预测网络，为多张输入图像输出身份系数置信度，并以此计算身份伪标签，进而计算身份一致性损失函数，实现更好的人脸身份与表情解耦。

本实施例提供一种基于多尺度特征融合的人脸表情捕捉方法，包括以下步骤：

S101、获取人脸图像；

S102、将获得的人脸图像输入训练后的表情捕捉模型中，输出人脸系数；

作为一种可选的实施方式，上述的表情捕捉模型的训练方式为：第一步需要构建用于训练网络模型的人脸图像数据集，并做一定的数据预处理。第二步构建用于预测人脸系数的深度神经网络模型，针对难以捕获人脸细微表情的问题，提出多尺度特征融合模块，同时结合图像的全局与局部信息，得到更精确的表情预测结果；针对不同输入图像差异大的问题，增加置信度预测分支网络，使用结合置信度权重的身份一致性损失函数，实现更优的身份与表情解耦，进一步提升表情预测的准确性。最后将构建完成的系数预测模型在数据集上训练直至收敛。进一步作为可选的实施方式，采用自监督的方式对模型进行训练。

参见图1，上述的训练步骤具体包括步骤A1-A3：

A1、获取人脸数据，对人脸数据进行预处理，获得训练集；

A2、构建表情捕捉模型，所述表情捕捉模型由系数预测网络、置信度预测网络和重建与渲染模块构成；

A3、根据训练集和损失函数对构建的表情捕捉模型进行训练，在表情捕捉模型训练后，去除置信度预测网络和重建与渲染模块，获得训练后的表情捕捉模型；

所述置信度预测网络用于为训练时输入的多张人脸图像预测各自的置信度，以优化身份一致性损失；所述重建与渲染模块用于利用预测的人脸系数，结合三维可形变模型重构三维人脸并渲染成二维图像。

以下结合附图及具体实施例对上述方法进行详细解释说明。

S1：收集并处理人脸数据集

S1-1：收集带有不同人脸以及表情的图像数据，并将图像数据裁剪成特定尺寸大小(如：224*224像素)。

S1-2：将数据集切分为训练集、验证集、测试集三个部分。

S1-3：对训练集中的图像，使用现有的人脸分割方法，得到图像的人脸区域分割结果。同时使用现有的人脸关键点检测方法，得到人脸的2D关键点坐标。

S2：构建网络模型

本发明解决的任务是为输入的2D人脸图像进行表情捕捉，即预测该图像中人脸对应于特定三维可形变模型(3D Morphable Model,3DMM)的表情系数。模型的整体结构，如图2所示，主要分为三个部分：(1)系数预测网络：利用骨干神经网络学习图像特征并预测人脸系数；(2)结合置信度权重的身份一致性损失：置信度预测网络为训练时输入的多张人脸图像预测各自的置信度，并以此优化身份一致性损失；(3)重建与渲染模块：利用预测的人脸系数，结合3DMM重构三维人脸并渲染成2D图像。

本实施例中，训练时需要置信度预测网络，以及重建与渲染模块生成的信息参与损失函数的计算，而测试与应用时仅需要系数预测网络，由该模块生成所需的表情系数即可。

S2-1:构建系数预测网络：将T张相同身份但不同表情的人脸图像I输入到系数预测网络，获取人脸的身份、表情、纹理、姿态以及光照系数(α,β,δ,p,γ)。系数预测网络由骨干网络、全连接层以及多尺度特征融合模块构成。

S2-1-1：骨干网络：在ImageNet上预训练的ResNet50模型，全连接层接收骨干网络的输出，并输出上述各项系数。现有方法采用骨干网络输出的最后一层特征作为全连接层的输入，预测所有系数。本发明中我们认为人脸的身份、表情以及纹理应考虑不同尺度的图像特征，即同时考虑图像的全局与局部信息，因此使用如图3所示的多尺度特征融合模块，并用融合后特征预测上述的3项系数，而对于姿态与光照系数，仍利用骨干网络的最后一层特征预测。

S2-1-2:多尺度特征融合模块：

定义X_l-1与X_l为骨干网络上一阶段与当前阶段的输出特征。该模块分为两个步骤：(1)使用3x3的卷积(步幅＝2)对上一阶段特征X_l-1进行降采样得到

目的是为了使上一阶段特征图与当前阶段特征图的空间尺寸保持一致。(2)对上一步得到的降采样后特征

如图2所示，对于骨干网络ResNet50模型的4个阶段，本实施例采用3个特征融合模块，不断融合本阶段的骨干网络特征以及上一阶段的融合特征，实现图像的多尺度特征融合，最后利用该融合特征预测人脸的身份、表情以及纹理系数。

S2-2：置信度预测网络：

为实现人脸身份与表情的更好解耦，本发明提出结合置信度权重的身份一致性损失函数(具体在步骤S3-3)，为实现该损失函数，需要对输入的T张相同身份图像，预测其身份系数置信度。具体实现为在骨干网络的基础上增加一个分支网络，预测T张输入图像的身份系数置信度c_1…T，其中置信度c与身份系数α具有相同维度。

作为一种可选的实施方式，本实施例中采用轻量级的MobileNetV3模型作为分支网络，以减少训练时间。将MobileNetV3的最后一层网络修改为全连接层，输出维度设置为与身份系数α相同的维度，即可输出T张图像的身份置信度。

S2-3:重建与渲染模块：

S2-3-1：通过系数预测网络得到人脸的身份、表情、纹理、姿态以及光照系数后(分别为图2中的α,β,δ,p,γ)，首先需要结合三维可形变模型即3DMM进行三维人脸重建。在3DMM中，任意的三维人脸可表示为形状S与纹理T两大部分，即：

其中

和/>

为3DMM模型的均值人脸形状和均值纹理，B_id,B_exp与B_tex分别代表3DMM中经过PCA降维的人脸身份、表情以及纹理的基底。由上述的公式，结合步骤S2-1预测的身份、表情、纹理系数α,β,δ可得到对应于输入图像的三维人脸模型。

S2-3-2：对于上一步得到的三维人脸模型。利用可微分渲染器中包含的针孔相机模型以及球谐光照模型，结合姿态系数p与光照系数γ，可将三位人脸模型渲染至二维图像。该二维图像用于后续损失函数的计算。

S3：计算损失函数

利用步骤S2预测的人脸身份系数，以及最后得到的二维渲染图像，构建本发明用于训练的损失函数。

S3-1：人脸区域光照损失函数。在T张输入图像中，对于第t张图像I，计算渲染后图像

与其的脸部像素值差异，得到损失函数L_p，即：

其中A是步骤S1-3获取的人脸区域mask。

S3-2：人脸关键点损失函数。计算输入图像与渲染后图像的人脸2D关键点差异，即：

其中P和

S3-3：结合置信度权重的身份一致性损失函数。

为处理多张输入图像由于姿态、模糊程度、遮挡等引起的人脸置信度不同的情况，本发明提出该损失函数。对于T张相同身份的输入图像，系数预测网络得到T个人脸的身份系数预测结果α^t(t＝1,…,T)，首先结合步骤S2中置信度预测网络输出的身份系数置信度，构建T个身份系数的伪标签

(如图4)，即：

其中c为步T张输入图像的置信度。之后约束T个身份系数与伪标签接近，得到损失函数，即：

利用置信度与身份系数计算得到的身份系数伪标签，与现有方法直接计算身份系数平均值的方式对比，能够减少不同输入图像之间的差异带来的影响，更好地实现人脸身份与表情之间的解耦。

S4：使用在步骤S2构建的系数预测网络模型，在预处理完成并划分好的数据集上进行深度学习模型训练。通过步骤S3设计的损失函数，采用随机梯度下降方法更新模型的权重直至损失函数值收敛，并保存模型的网络权重。最后在数据集的验证集和测试集上进行测试与评估。

综上所述，本实施例方案提出基于多尺度特征融合的人脸表情捕捉方法，一方面通过多尺度特征融合解决人脸细微表情难以捕获的问题，另一方面由提出的结合置信度权重的身份一致性损失函数，实现人脸与表情的更好解耦。表1展示了本发明方法与现有表情捕捉方法在FEAFA人脸数据集上的实验对比结果，本实施例方法在表情系数的预测指标上超越了现有的最优方法。

表1

注：表1为本发明方法与现有其他方法在FEAFA数据集的不同人脸表情上的对比结果，数值代表表情系数预测值与真实值的平均绝对误差(MAE)

本实施例还提供一种基于多尺度特征融合的人脸表情捕捉装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

本实施例的一种基于多尺度特征融合的人脸表情捕捉装置，可执行本发明方法实施例所提供的一种基于多尺度特征融合的人脸表情捕捉方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图1所示的方法。

本实施例还提供了一种存储介质，存储有可执行本发明方法实施例所提供的一种基于多尺度特征融合的人脸表情捕捉方法的指令或程序，当运行该指令或程序时，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用，或结合这些指令执行***、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的上述描述中，参考术语“一个实施方式/实施例”、“另一实施方式/实施例”或“某些实施方式/实施例”等的描述意指结合实施方式或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施方式或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施方式或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施方式，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施方式进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于上述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。