CN116012550A

CN116012550A - 人脸变形目标修正方法及其装置、设备、介质、产品

Info

Publication number: CN116012550A
Application number: CN202310089427.2A
Authority: CN
Inventors: 高杰
Original assignee: Bigo Technology Pte Ltd
Current assignee: Bigo Technology Pte Ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-04-25

Abstract

本申请涉及一种人脸变形目标修正方法及其装置、设备、介质、产品，所述方法包括：获取基底人脸系数集，所述基底人脸系数集包含预采集的多个人脸基底的中性人脸系数及平均人脸系数，所述人脸系数包含人脸形状系数；根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数；根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数；根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标。本申请在维持较低运算量的情况下，使所述人脸变形目标的各个具体人脸区域都能够获得精细化的优化效果。

Description

人脸变形目标修正方法及其装置、设备、介质、产品

技术领域

本申请涉及数字人技术领域，尤其涉及一种人脸变形目标修正方法及其装置、设备、介质、产品。

背景技术

人脸表情追踪技术在数字人领域具有广泛的应用，是一个在学术界和工业界广泛研究的问题，主要分为传统方法和深度学习方法两大类。

传统方法利用自建3D人脸基底，通过严谨的数学推导来定义能量项，以最小化能量项来优化identity系数和表情系数，从而拟合人脸形状及表情。其中，identity系数α用于拟合人脸的形状，表情系数β用于拟合人脸的表情。而深度学习方法利用采集的训练图像及其对应的表情标签，对已有数据进行端对端的训练，模型学习到identity系数和表情系数来拟合人脸及表情。

对于现有传统方法，通常从自建3D人脸基底中提取中性人脸来优化identity系数。然后，将整张人脸进行优化，很容易忽略掉人脸细节，而且难以使优化函数收敛。

对于深度学习方法，一方面需要精心设计合理的网络模型，同时需要大量的资源来训练模型使其收敛。另一方面，深度学习模型作为端到端的黑盒，很难精细优化每一个表情的具体系数，从而可能出现表情异常的情况。

可见，各种现有技术在处理数字人的人脸图像时，对人脸图像的优化较为粗糙，难以获得优质的人脸图像。

发明内容

本申请的目的在于解决上述问题而提供一种人脸变形目标修正方法及其相应的装置、设备、非易失性可读存储介质，以及计算机程序产品。

根据本申请的一个方面，提供一种人脸变形目标修正方法，包括如下步骤：

获取基底人脸系数集，所述基底人脸系数集包含预采集的多个人脸基底的中性人脸系数及平均人脸系数，所述人脸系数包含人脸形状系数；

根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数；

根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数；

根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标。

根据本申请的另一方面，提供一种人脸变形目标修正装置，包括：

基底系数获取模块，设置为获取基底人脸系数集，所述基底人脸系数集包含预采集的多个人脸基底的中性人脸系数及平均人脸系数，所述人脸系数包含人脸形状系数；

人脸区域分割模块，设置为根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数；

顶点分区优化模块，设置为根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数；

变形目标修正模块，设置为根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标。

根据本申请的另一方面，提供一种人脸变形目标修正设备，包括中央处理器和存储器，所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行本申请所述的人脸变形目标修正方法的步骤。

根据本申请的另一方面，提供一种非易失性可读存储介质，其以计算机可读指令的形式存储有依据所述的人脸变形目标修正方法所实现的计算机程序，所述计算机程序被计算机调用运行时，执行该方法所包括的步骤。

根据本申请的另一方面，提供一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

相对于现有技术，本申请根据预设的多个人脸区域，将由预采集的多个人脸基底的中性人脸系数及平均人脸系数构成的基底人脸系数集分割为各个人脸区域相对应的区域人脸系数，然后，对应每个人脸区域，根据其相应的区域人脸系数，对三维人脸模型的人脸网格中相应区域的顶点进行优化，从而重建出所述人脸网格，相应确定出其人脸形状系数，也即身份系数，再根据所述人脸形状系数修正所述三维人脸模型的人脸变形目标，在维持较低运算量的情况下，使所述人脸变形目标的各个具体人脸区域都能够获得精细化的优化效果，使得根据所述人脸变形目标所生成的人脸图像更为自然细腻，成像效果佳且更稳定，利用所述人脸变形目标生成的数字人形象能够获得优异的质感。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请示例性的网络直播场景的网络架构示意图；

图2为本申请的人脸变形目标修正方法的一种实施例的流程示意图；

图3为本申请对人脸网格进行分区所得的各个人脸区域的分区关系示意图；

图4为本申请的实施例中获取各个人脸区域的区域人脸系数的流程示意图；

图5为本申请的实施例中对不同人脸区域实施不同优化操作的流程示意图；

图6为本申请的实施例中区分是否关键帧进行人脸变形目标修正的流程示意图；

图7为本申请的实施例中基于人脸变形目标的投影距离判定关键帧的流程示意图；

图8为本申请的实施例中应用人脸变形目标实现数字人直播的流程示意图；

图9为本申请的人脸变形目标修正装置的原理框图；

图10为本申请所采用的一种人脸变形目标修正设备的结构示意图。

具体实施方式

请参阅图1，本申请示例性的网络直播应用场景所采用的网络架构，其可用于部署基于数字人的直播服务，通过数字人进行网络直播，实现娱乐、电商销售、讲解等等诸多目的。同理，本申请的网络架构也可以用于部署基于数字人的社交通信、游戏、娱乐等服务。

图1所示的应用服务器81可用于支持所述直播服务的运行，而媒体服务器82可用于存储或转发用户的视频流，其中的计算机83、移动电话84之类的终端设备，作为客户端，一般提供给终端用户使用，可用于上传或下载播放视频流。

本申请的方法或装置，可以编程实现为计算机程序产品，运行于所述的应用服务器81、媒体服务器82、终端设备83、84中，在其中对根据给定的人脸图像所生成的数字人的三维人脸模型的人脸变形目标进行优化，以便将该人脸变形目标应用于所述数字人的三维人脸模型并渲染出相应的数字人的人脸图像，由于所述人脸图像可以是网络直播所使用的视频流，因而，对应视频流各个包含有人脸图像的图像帧均可生成相应的数字人图像帧，从而可以生成以数字人形象替换原人形象的动画视频流，替换原视频流推送到直播间中。

另一示例性的应用场景，本申请的技术方案可以是在不依赖于公用网络的终端设备中实施，通过运行所述计算机程序产品，为用户输入的真实人的人脸图像产生相应的数字人的人脸图像，从而创作出相应的漫画形象。

以上应用场景均是示例性的，实际上，本申请所实现的技术方案是一项基础技术，只要需求相匹配，便可予以应用，因而，其通用于各种需求相匹配的应用场景中。

本申请所称的人脸变形目标，可以是任意方式产生的人脸变形目标，即Blendshape，是用来控制数字人的三维人脸模型的人脸网格中的各个关键点产生动作状态的一组参数特征向量。将一个人脸变形目标应用到数字人的三维人脸模型之后，使该三维人脸模型切换到所述人脸变形目标所描述的表情姿态，再对该三维人脸模型进行渲染并投影到二维空间中，便可产生该人脸变形目标相对应的所述数字人的人脸图像。不同的三维人脸模型，可以有不同的参数特征向量表示形式。例如，一种实施例中，所述顶点的参数特征向量可以表示为V＝(R_i，t_i，s_i，δ_i)，分别表示旋转系数R_i，平移系数t_i，缩放系数s_i以及表情系数δ_i。在其他实施例中，所述参数特征向量也可以表示为各个顶点的在三维空间中三个数轴相对应的坐标及其相应的表情系数等，具体视三维人脸模型的控制方式而定。

所述人脸变形目标，既可以是采用基于统计的3DMM(3D Morphable models，3D可变形人脸模型)获得的，也可以是基于深度学习模型自动生成的。

请参阅图2，根据本申请提供的一种人脸变形目标修正方法，在其一个实施例中，包括如下步骤：

步骤S1200、获取基底人脸系数集，所述基底人脸系数集包含预采集的多个人脸基底的中性人脸系数及平均人脸系数，所述人脸系数包含人脸形状系数；

不同人脸生成模型生成所述人脸变形目标过程有所不同，以3DMM作为人脸生成模型生成人脸变形目标的实施例中，主要流程可以分为以下几步：a)加载自建3D人脸基底；b)检测视频帧中人脸关键点(2D landmarks)；c)根据人脸关键点和自建3D人脸基底，建立关于表情系数的能量项，以最小化该能量项来优化表情系数δ；d)根据人脸关键点，自建3D人脸基底和表情系数，建立关于身份系数的能量项，以最小化该能量项来优化身份系数α；e)根据优化得到的身份系数α和表情系数δ拟合出人脸图像。

以深度学习模型作为人脸生成模型生成所述人脸变形目标的实施例中，先构造图像-标签对，构造学度学习模型来学习表情系数，从而拟合人脸表情以生成人脸图像。主要流程可以分为以下几步：a)构造图像-标签对组成，标签即真实表情系数；b)构建深度学习模型的网络结构，通过随机初始化参数输出预测表情系数；c)计算损失函数并反向传播优化网络参数；d)迭代优化网络参数，从而训练模型能够学习到表情系数；e)在推理阶段，只需要将图像帧送入到深度学习模型，即可得到当前图像帧的表情系数，从而拟合人脸表情以生成人脸图像。

以上各种模型所生成的人脸变形目标，均是基于数字人的三维人脸模型中的人脸网格来生成人脸变形目标的，由此，可以通过对所述的人脸网格进行优化，来得到更为优质的人脸变形目标。特别是在生成所述人脸变形目标的图像帧是视频流中的关键帧时，由于图像帧中的面部表情动作产生了较大的变化，通过重建人脸网格，可以确保所产生的人脸变形目标更为精准。

作为构建人脸网格的基础，通常会预备多个预采集的3D的人脸基底，这些人脸基底是对应多个三维人脸模型而预先采集的，将这些三维人脸模型的无表情状态相对应的人脸网格的参数描述采集作为中性人脸系数，其中的人脸系数通过描述各个顶点的控制信息来对应相应的表情状态，所述控制信息中既包含了描述人脸形状相对应的人脸形状系数，也包含了描述人脸表情相对应的人脸表情系数。可以基于这些中性人脸系数来构造基底人脸系数集，以便重构生成所述人脸变形目标所需的人脸网格。

一种实施例中，为了确保重构的人脸网格的稳定性，在获得各个所述的中性人脸系数之后，可以进一步基于全部中性人脸系数求均值，来获得一个平均人脸系数，将该平均人脸系数与全部中性人脸系数合并在一起，构造成所述基底人脸系数集。所述基底人脸系数集中由于存在平均人脸系数，统一了全部中性人脸系数的求解空间，可使后续重构的人脸网格更具稳定性。

为了维持与模型所生成的人脸变形目标的一致性，在生成所述各个中性人脸系数时，可以根据所述人脸变形目标的表情系数δ，来生成所述的平均人脸系数和中性人脸系数，一个实施例中，可以应用如下公式，得到平均人脸系数m_id和中性人脸系数构成的特征矩阵B_id：

m_id＝b₀＝U₀×δ′

B_id＝{b₁，b₂，...，b_n}，b_i＝U_i×δ′

其中，人脸基底Model∈R^a×(b+1)×(c+1)，a为每张人脸网格的顶点数量，b为自建的人脸基底中人脸身份类型的数量，c为预定义表情类型的数量；U_i∈R^a×(c+1)表示第i张人脸，U₀表示平均人脸；δ′＝(δ₀，δ)∈R^(c+1)×1表示模型所获得的所述人脸变形目标的表情系数，在这里起到权重约束的作用，

表示平均人脸的中性表情；

同理，一种实施例中，根据实际需要，还可以根据当前人脸变形目标的人脸形状系数α，从自建的人脸基底中构建平均人脸表情m_exp及表情矩阵B_exp：

m_exp＝b₀＝E₀×α′

B_exp＝{b′₁，b′₂，...，b′_n}，b′_i＝E_i×α′

可以看出，按需从模型获得的所述人脸变形目标中确定出人脸形状系数和人脸表情系数，可以对应获得影响人脸网格的重构所需的中性人脸系数和平均人脸系数，根据这些人脸系数构成的基底人脸系数集，可以实施对用于生成人脸变形目标的模型所需的人脸网格进行优化。

步骤S1300、根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数；

如前所述，各种人脸生成模型均是基于一个数字人的三维人脸模型的人脸网格来生成对应该人脸网格的人脸变形目标的，并且需要将输入该人脸生成模型的人脸图像中的人脸关键点信息映射到所述人脸网格中，使得所述人脸网格能够同步于所述人脸图像中的人脸的形状和表情，因而，在重构所述的人脸网格时，需要对齐作为输入的人脸图像中的人脸关键点与所述人脸网格中的顶点，以便根据这种对应关系，来实现人脸表情从真实人的人脸图像向数字人的人脸图像的迁移。其中，作为人脸生成模型的人脸图像的人脸关键点信息，可以借助任意可行的人脸关键点检测模型进行提取获得。

本申请中，在建立作为输入的人脸图像的人脸关键点与数字人的人脸网格的顶点的对应关系时，将人脸划分为若干个人脸区域，按照不同人脸区域来建立人脸关键点与顶点之间的映射关系数据，实现分区映射处理。

一种实施例中，如图3所示，所述人脸区域包括眼睛区域即左眼区域和右眼区域、眉额区域、鼻部区域、嘴部区域以及脸部轮廓区域共五个人脸区域，各个人脸区域均具有对称结构。在其他实施例中，也可仅将眼睛区域与眉额区域合并为顶半部相对应的同一个人脸区域，将其他区域合并为同一个人脸区域。或者，还可以按照其他方式进行划分不同的人脸区域，以便对应不同人脸区域对所述人脸网格的顶点实施对应的优化处理。

所述的基底人脸系数集是重构所述数字人的人脸网格的基础数据，所以，也需要根据人脸关键点与顶点之间的对应关系，对应所述各个人脸区域，将所述基底人脸系数集分割为各个人脸区域相对应的区域人脸系数，使得每个区域人脸系数只包含其相应人脸区域相对应的中性人脸系数和平均人脸系数。

一种实施例中，可按如下过程确定各个人脸区域相对应的区域人脸系数：

首先，将人脸关键点所属人脸区域与所述数字人的人脸网格所属人脸区域进行对齐，得到各人脸区域的顶点集合：

V＝{L_brow，L_eye，L_nose，L_mouth，L_outerface}

其中，L为所述人脸网格对应各个人脸区域的顶点集合的索引，下标brow、eye、nose、mouth、outer_face分别示例性地对应眉额区域、眼睛区域、鼻部区域、嘴部区域、脸部轮廓区域。

然后，根据关键点集合V，从所述基底人脸系数集中，提取出各个区域的基底，对应所述平均人脸系数m_id和中性人脸系数B_id进行区域分割的公式表示如下：

m′_id＝{m_brow，m_eye，m_nose，m_mouth，m_{outer_face}}

其中：

而B_id＝{B_brow，B_eye，B_nose，B_mouth，B_outerface}

其中，

步骤S1400、根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数；

确定出各个人脸区域相对应的区域人脸系数即m′_id和B′_id后，实际上是从所述基底人脸系数集中得到各个人脸区域相对应的基底人脸系数子集，可以将m′_id合并于B′_id中表示，然后，根据各个区域人脸系数，对人脸生成模型所需的人脸网格中相应人脸区域的顶点进行优化，其主要任务在于优化各区域所对应的人脸形状系数α′＝{α_brow，α_eye，α_nose，α_mouse，α_{outer_face}}，具体可采用如下公式进行优化：

其中，i，j分别表示基底人脸系数子集中的第i帧人脸系数、第j个关键点；

表示拟合当前人脸网格的人脸形状系数，

表示拟合当前人脸网格的人脸表情系数，

为被优化的顶点相对应的人脸关键点，P是三维空间到二维空间的投影矩阵，其定义为：

其中，R为旋转矩阵，T为平移向量，f为焦距，c_x，c_y为投影平面的中心位置，z_cam表示坐标点距离相机投影平面的垂直距离，x，y，z为3D坐标，u，v为2D像素平面的坐标。

根据以上公式可知，既可修改以上公式，单独采用

来优化所述人脸网格的人脸形状系数，也可沿用该公式采用

同时优化所述人脸网格的人脸形状系数和人脸表情系数。通过根据各个人脸区域相对应的基底人脸系数子集来最小化人脸网格的人脸形状系数的误差，便可实现对人脸网格中的顶点的优化，通过对所述人脸网格中各个人脸区域中的各个顶点进行上述的优化，可实现对人脸网格的重构。

为了平衡优化的复杂度及性能，在以上优化公式的基础上，可以引入两个正则项，如下所示：

其中，λ₁||α^k-α^k-1||为人脸变形目标相对应的正则项，λ₂||α^k||为人脸形状系数相对应的正则项。

一些实施例中，主要考虑非线性最小二乘法(Non-linear least squares)和/或线性最小二乘法(LSQLlN，Linear least-squares)对各个人脸区域进行优化。

根据以上过程可以看出，在对所述人脸网格进行顶点优化时，是基于各个人脸区域相对应的基底人脸系数子集来实施的，不同人脸区域之间的优化实现相互解耦，每个人脸区域的优化过程更具针对性，因而可以获得更为细腻和精准的优化效果，使得经过优化的人脸网格，获得优异的重构效果，其人脸形状更为精准，其人脸表情更为自然。经过优化之后的人脸网格，也就确定了其相应的人脸形状参数。

步骤S1500、根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标。

当经过以上过程完成对所述的人脸网格的重构之后，所述人脸网格的人脸形状参数也便得以固化，进一步可以按照传统方式，根据所述人脸形状系数修正所述人脸生成模型对应数字人的三维人脸模型所生成的人脸变形目标，使该人脸变形目标基于重构的人脸网格进行优化，更贴合重构后的人脸网格，最终所获得的人脸变形目标在表达人脸形状和人脸表情时，更为精准，当将其应用到所述数字人的三维人脸模型并渲染投影到二维空间获得相应的人脸图像时，所述人脸图像中的人脸表情更为准确、自然和细腻。

当所述人脸生成模型是为视频流中的各个图像帧逐一生成相应的人脸变形目标时，在对应一个初始的图像帧产生出人脸变形目标后，按照以上过程完成了所述数字人的人脸网格的重建之后，重建获得的人脸网格便可服务于具有相同人脸内容的后续图像帧，为其生成相应的人脸变形目标。当然，在后续图像帧中如果其中的人脸图像产生较大幅度的变化，也仍可按照以上过程重建新的人脸网格。

可以看出，在以上执行对人脸网格的优化的过程中，无需借助复杂的深度学习模型，其运算量相对较低，对计算友好。

根据以上实施例可知，本申请根据预设的多个人脸区域，将由预采集的多个人脸基底的中性人脸系数及平均人脸系数构成的基底人脸系数集分割为各个人脸区域相对应的区域人脸系数，然后，对应每个人脸区域，根据其相应的区域人脸系数，对三维人脸模型的人脸网格中相应区域的顶点进行优化，从而重建出所述人脸网格，相应确定出其人脸形状系数，也即身份系数，再根据所述人脸形状系数修正所述三维人脸模型的人脸变形目标，在维持较低运算量的情况下，使所述人脸变形目标的各个具体人脸区域都能够获得精细化的优化效果，使得根据所述人脸变形目标所生成的人脸图像更为自然细腻，成像效果佳且更稳定，利用所述人脸变形目标生成的数字人形象能够获得优异的质感。

在本申请任意实施例的基础上，请参阅图4，根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数，包括：

步骤S1310、针对用于生成所述人脸变形目标的人脸图像进行人脸关键点检测，获得所述人脸图像中人脸区域图像的人脸关键点信息；

采用预训练至收敛状态的人脸检测模型对需要对应生成所述人脸变形目标的图片或图像帧进行人脸检测，获得该图片或图像帧中的人脸矩形框信息。所述人脸矩形框可对所述人脸图像中人脸部分的位置和尺寸进行标定，其标定的结果可由一个带有四个坐标元素的集合表示，如S_roi：

S_roi＝{x₁，y₁，x₂，y₂}

其中x₁和y₁表示检测出的人脸部分左上角的像素坐标，x₂和y₂表示人脸部分的右下角像素坐标。

其后，根据所述集合从所述图片或图像帧中框选出对应的区域图像，即获得人脸图像。所述人脸图像完整包含人脸部分相对应的图像内容，去除了人脸图像中其他非人脸区域的冗余部分，可以输入所述人脸生成模型用于对应生成所述人脸变形目标。

采用预训练至收敛状态的人脸关键点检测模型对上述获得的人脸图像进行检测，获取人脸关键点信息。所述人脸关键点能够表征人脸面部的关键区域位置，如眉额、眼睛、鼻子、嘴巴、脸部轮廓等。所述人脸关键点的所有结果可表示为一个点的集合Lⁿ。其中，n表示人脸关键点的个数，其个数的确定可由相关技术人员根据实际需求而设定，可为5、30、68、106、240等，在本申请的一个实施例中其数目的确定不受限。

Lⁿ＝{(x₁，y₁)，(x₂，y₂)，…，(x_n，y_n)}

所述人脸检测模型和人脸关键点检测模型为优选神经网络模型实现，在实际应用中，可用相关技术中较为优秀的人脸检测模型和人脸关键点检测模型。

步骤S1320、对齐所述人脸关键点信息中各个人脸关键点与所述三维人脸模型的人脸网格中的标准人脸顶点，确定各人脸区域下人脸关键点与顶点之间的映射关系；

所述人脸图像中的人脸轮廓由于实际场景的多样性，其角度和尺寸不一，容易对后续三维人脸参数标定工作造成干扰。因此需要对所述人脸图像进行标准对齐。

所述数字人的三维人脸模型的人脸网格以顶点来描述脸部结构，为使所述人脸图像的人脸关键点信息与所述人脸网格的顶点信息建立对应关系，需要实施两者之间的对齐操作。所述人脸网格的顶点信息，可通过将所述数字人的三维人脸模型的人脸网格投影到二维空间获得，从而获得各个标准人脸顶点，构成顶点信息。

本实施例中，按照预设的多个人脸区域中，人脸关键点与顶点之间的映射关系，建立各个人脸区域下，人脸关键点与顶点之间的点间映射关系数据。结合图3的示例，人脸网格的分区是根据人脸各部位语义按对称关系划分为五个部分，即眉额、眼睛、鼻子、嘴巴和脸部轮廓相对应的部分，将一个示例性预设了顶点总数的数字人的人脸网格中的顶点按人脸区域统计，得到的各人脸区域点位数量如下表所示：

而所述人脸图像中的人脸关键点信息一般采用106点或204点来表示，由于人脸网格重建过程中只需要各人脸区域的人脸关键点对应的基底参与优化过程，所以需要将人脸关键点的索引与人脸网格的各区域顶点的索引对齐，从而建立起点间映射关系数据，由于每个顶点、人脸关键点本身已经具有与人脸区间之间的映射关系，因而，实际上人脸关键点、顶点、人脸区域之间，整体上都建立起了映射关系。

步骤S1330、根据所述映射关系，从所述基底人脸系数集中分割出所述人脸网格中各个预设人脸区域相对应的区域人脸系数，每个区域人脸系数均包括相应区域的中性人脸系数及平均人脸系数。

确定了各人脸区域下人脸图像中人脸关键点与人脸网格中顶点之间的映射关系之后，便可根据这种映射关系，根据所述人脸图像提供的各个人脸区域的人脸关键点信息，确定出各个人脸区域相对应的顶点信息，然后从所述基底人脸系数集中，按照各个人脸区域相对应的顶点集合，对所述基底人脸系数集进行数据分割，对应获得各个人脸区域相对应的基底人脸系数子集，每个基底人脸系数子集，便是相应人脸区域的区域人脸系数，同理，每个区域人脸系数也包括相应区域的中性人脸系数及平均人脸系数。具体的计算过程可参照前文实施例所述，恕不赘述。

根据以上实施例可以看出，通过对需要生成人脸检测模型的图片或图像帧中的人脸图像进行人脸关键点检测获得相应的人脸关键点信息，再通过对齐操作建立人脸图像中的人脸关键点信息、数字人的人脸网格中的顶点信息与预设的各个人脸区域之间的映射关系，可以较为精准地对基底人脸系数集进行数据分割，从而获得各个区域人脸系数，可用于实施人脸网格的分区域优化操作，通过分区确定区域人脸系数，各人脸区域重构人脸网格所需的数据更为精准，可以排除杂散干扰，可以排除位置偏移和尺度偏差所带来的干扰、以及非人脸区域部分的冗余信息的后续干扰等等，使人脸网格的优化效果更为精准。

在本申请任意实施例的基础上，请参阅图5，根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数，包括：

步骤S1410、基于非线性优化算法，对属于人脸顶半部之外的其他人脸区域相对应的顶点实施第一优化操作；

考虑到人脸顶半部分及其余部分在进行表情表达时，由于人体结构使然，在形状方面的变化特性有所差别，因而，针对属于人脸顶半部的各个人脸区域，以及人脸顶半部之外的其他人脸区域进行分别的优化操作。本实施例中，前文示例中的眉额区域和眼睛区域构成人脸顶半部区域，鼻部区域、嘴部区域以及脸部轮廓区域构成其他人脸区域。

对于所述其他人脸区域，考虑到人脸下半部分在表达情感是的动作变化较大，可以采用非线性优化算法对这些人脸区域实施第一优化操作，以便提升优化效率。

请重温前文示例，将三维空间到二维空间的投影矩阵P的变换定义为：

为实现非线性优化，建立2D像素平面坐标的重投影误差为：

E＝(u-u₀)²+(v-v₀)²

其中，(u₀，v₀)为已知的投影坐标(人脸关键点坐标)。此时，2D坐标(u，v)是关于3D坐标(x，y，z)的非线性函数，即可采用高斯-牛顿法，对重投影误差进行非线性最小二乘优化。

在对所述鼻部区域、嘴部区域以及脸部轮廓区域α_{outer_face}相应的人脸形状系数α_nose、α_mouth、α_outerface实施优化时，应用以上重投影误差公式实施第一优化操作即可。

步骤S1420、基于线性优化算法，对属于人脸顶半部的各个人脸区域相对应的顶点实施第二优化操作；

人脸顶半部区域，即前文示例中的眉额区域与眼睛区域，由于其在表达情感时动作变化相对具有线性特征，因而，可进一步引入线性优化算法对其相应的人脸形状系数α_brow和α_eye实施第二优化操作。为使用线性优化算法，可以将已知的投影坐标(u₀，v₀)引入透视投影变换中，构建新的重投影误差：

将其代入到相机投影矩阵，得到：

对于每个顶点，令：

则重投影误差可以表示为以下线性人脸模型：

将3D坐标(x，y，z)代入以上的线性人脸模型，则可以计算每个顶点的重投影误差

最后，将所有顶点的重投影误差进行融合，如：

此时，重投影误差函数中，仅除变量α外的所有参数均为常量。故可以采用二次规划，对重投影误差进行线性最小二乘优化。

根据以上实施例，采用线性最小二乘法优化α_brow和α_eye，采用非线性方法优化剩余区域α_nose、α_mouse和α_{outer_face}，也即是说，针对人脸区域的人脸形状系数进行优化的过程中，根据不同人脸区域的表情动作的特点，采用不同的的优化算法对其进行区别优化，起到平衡拟合效果和提升计算效果的作用，既节省了运算量，也提升了人脸网格的优化效果，确保根据优化后的人脸网格所生成的人脸变形目标更具有自然细腻的人脸表情表现力。

在本申请任意实施例的基础上，请参阅图6，获取基底人脸系数集之前，包括：

步骤S1100、根据所述三维人脸模型的人脸变形目标判断用于生成所述人脸变形目标的人脸图像是否属于其所在的视频流中的关键帧，当属于关键帧时，执行后续步骤，否则忽略后续步骤。

在本申请示例性的数字人网络直播场景中，需要对真实人主播用户的人脸图像进行表情追踪，以便尽可能实时地将主播用户的真实表情高还原度地迁移到数字人的人脸表情中，为此，对主播用户的视频流中的每个图像帧进行人脸检测确定其中的人脸图像，再通过人脸生成模型生成所述人脸图像相对应的人脸变形目标，这些人脸变形目标是基于数字人的所述人脸网格生成的，通常，连续的多个人脸图像，可以基于同一人脸网格来生成相应的人脸变形目标。但是，当人脸变形目标相对于之前较大幅度的表情变化时，基于原有的人脸网格所生成的人脸变形目标会产生偏差，这种偏差如果长期累积，会导致所生成的人脸表情不够准确。因而，需要通过技术手段来加以纠正。

一种实施例中，可以通过比较所述视频流中的当前图像帧与其在先图像帧之间的帧间图像差异信息是否超过预设范围来判断当前图像帧是否属于视频流中的关键帧，即人脸产生较大表情切换的初始时刻相对应的图像帧，当属于这样的关键帧时，可以按照本申请各实施例的过程，执行所述数字人的人脸网格的重建，再根据人脸网格修正当前图像帧相对应的人脸变形目标，以实现纠偏。判断相邻两个图像帧中人脸图像之间的图像差异信息是否超过预设范围的方式，可以对两个图像帧中的人脸图像分别提取图像特征向量，并采用余弦相似度、欧氏距离、向量内积等任意一种可行的数据距离算法计算向量之间的相似度，根据相似度是否超过预设阈值来判定。

另一实施例中，可以基于当前图像帧的人脸变形目标与由其在先的人脸变形目标累积构造的特征空间计算投影距离，根据投影距离是否超过预设距离阈值来确定当前图像帧是否属于关键帧。

根据以上实施例可以看出，通过直接或间接识别视频流中的当前图像帧的人脸图像是否对应关键帧，感知真实人的人脸表情的变化幅度，而控制是否对数字人的人脸网格进行重建，当需要重建时，则执行本申请的其他后续步骤，否则沿用上一次确定的人脸网格用于生成人脸变形目标，避免频繁重构人脸模型，可进一步节省运算量，且能通过及时重建人脸网格来确保所生成的人脸变形目标所承载的人脸表情的准确性和逼真程度。

在本申请任意实施例的基础上，请参阅图7，根据所述三维人脸模型的人脸变形目标判断用于生成所述人脸变形目标的人脸图像是否属于其所在的视频流中的关键帧，包括：

步骤S1110、获取属于视频流中的当前图像帧的所述人脸变形目标；

如前所述，视频流中的各个图像帧，依次检测出其中的人脸图像之后，输入人脸生成模型中，生成相应的人脸变形目标。当所述视频流中的当前图像帧中的人脸图像进入所述人脸生成模型，由所述人脸生成模型对应生成其人脸变形目标后，获取这个人脸变形目标用来决策其是否属于关键帧。

步骤S1120、对所述人脸变形目标的向量表示进行统计分析，计算出所述人脸变形目标的投影距离；

为确定出当前图像帧的人脸变形目标的投影距离，对当前图像帧的人脸变形目标的各个顶点相对应的向量表示V＝(R_i，t_i，s_i，δ_i)执行主成分分析算法(PrincipalComponent Analysis，PCA)实现降维，得到均值向量M和特征向量矩阵B。PCA算法会丢弃最后一部分例如5％的特征向量，将剩余的特征向量组成特征空间，然后，基于特征空间计算当前图像帧的人脸变形目标的投影距离，公式示例如下：

d(V，B)＝||M+BB^T(V-M)-V||

步骤S1130、判断所述投影距离是否超过预设的距离阈值，当超过所述距离阈值时，确定当前图像帧为关键帧，否则为非关键帧。

当所述人脸变形目标的投影距离大于设定的距离阈值时，便可将其对应的当前图像帧判定为关键帧，并更新所述特征空间；当未超过距离阈值时，则当前图像帧属于非关键帧。

其他实施例中，也可以采用其他同等算法来替换所述的主成分分析算法来计算投影距离，例如：主成分分析(PCA)、主坐标分析(PCoA)、非度量多维尺度分析(NMDS)，还是冗余分析(RDA)、典范对应分析(CCA)都属于降维排序分析方法等。

根据以上实施例可以看出，基于人脸变形目标的向量表示进行统计分析而判定相应的当前图像帧是否属于关键帧，从而控制是否需要重建人脸网格，其运算量小，***开销低，可提升运算效率，更便于在各种终端设备中实施。

在本申请任意实施例的基础上，请参阅图8，根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标之后，包括：

步骤S1600、将修正后的人脸变形目标应用于所述三维人脸模型，渲染出该人脸变形目标相对应的数字人的人脸图像；

以上各种实施例完成对三维人脸模型人脸网格的重建，并利用所述人脸网格修正了视频流中的图像帧相对应的人脸变形目标之后，可以直接将所述人脸变形目标替换到数字人的三维人脸模型中，使数字人的三维人脸模型中的人脸动作受制于的所述人脸变形目标所包含人脸形状系数和人脸表情系数而产生相应的动作切换，得到一个对应的人脸表情姿态，便可获得表情迁移后的数字人的三维人脸模型。

进一步，根据实际需要，结合数字人所需的光照系数、纹理系数等，对所述数字人的三维人脸模型进行三维渲染并投影到二维图像空间中，获得数字人的人脸图像，亦即完成视频流图像帧中的人脸图像到数字人的人脸图像的表情迁移。

步骤S1700、将所述数字人的人脸图像替换用于生成所述人脸变形目标的视频流的图像帧中的人脸图像，将该视频流推送至直播间显示。

为了实现表情追踪，将数字人的人脸图像替换视频流中对应的当前图像帧的人脸图像，实现将视频流中的真实人的人脸图像替换为数字人的人脸图像，便可实现视频流中的人脸表情追踪。一个实施例中，在直播平台的视频流中，获取其每个图像帧中的人脸图像，将其替换为数字人的人脸图像，实现将主播用户的视频流中的人脸图像都替换成数字人的人脸图像，即可进行基于数字人的同步直播。

根据以上实施例可知，从三维人脸模型人脸网格的重建到数字人的表情迁移，能够给直播、影视、数字化形象等行业带来巨大的应用价值，且其表情迁移应用不影响其他人脸信息的改变，由于生成数字人的人脸图像的人脸变形目标是基于人脸网格修正的，且相应的人脸网格是根据真实人的人脸图像按照不同人脸区域进行优化重建的，其脸部细节的刻画更为准确和细腻，最终生成的数字人视频流在播放时可以获得更为自然逼真的画质。

请参阅图9，根据本申请的一个方面提供的一种人脸变形目标修正装置，一个实施例中，包括基底系数获取模块1200、人脸区域分割模块1300、顶点分区优化模块1400，以及变形目标修正模块1500，其中，所述基底系数获取模块1200，设置为获取基底人脸系数集，所述基底人脸系数集包含预采集的多个人脸基底的中性人脸系数及平均人脸系数，所述人脸系数包含人脸形状系数；所述人脸区域分割模块1300，设置为根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数；所述顶点分区优化模块1400，设置为根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数；所述变形目标修正模块1500，设置为根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标。

在本申请任意实施例的基础上，所述人脸区域分割模块1300，包括：关键点检测单元，设置为针对用于生成所述人脸变形目标的人脸图像进行人脸关键点检测，获得所述人脸图像中人脸区域图像的人脸关键点信息；顶点对齐单元，设置为对齐所述人脸关键点信息中各个人脸关键点与所述三维人脸模型的人脸网格中的标准人脸顶点，确定各人脸区域下人脸关键点与顶点之间的映射关系；基底分割单元，设置为根据所述映射关系，从所述基底人脸系数集中分割出所述人脸网格中各个预设人脸区域相对应的区域人脸系数，每个区域人脸系数均包括相应区域的中性人脸系数及平均人脸系数。

在本申请任意实施例的基础上，所述人脸区域包括眼睛区域、眉额区域、鼻部区域、嘴部区域以及脸部轮廓区域，各个人脸区域均具有对称结构。

在本申请任意实施例的基础上，所述顶点分区优化模块1400，包括：第一优化单元，设置为基于非线性优化算法，对属于人脸顶半部之外的其他人脸区域相对应的顶点实施第一优化操作；第二优化单元，设置为基于线性优化算法，对属于人脸顶半部的各个人脸区域相对应的顶点实施第二优化操作。

在本申请任意实施例的基础上，本申请的人脸变形目标修正装置，包括：关键帧识别模块，设置为根据所述三维人脸模型的人脸变形目标判断用于生成所述人脸变形目标的人脸图像是否属于其所在的视频流中的关键帧，当属于关键帧时，允许所述装置的其他模块运行，否则禁止其他模块运行。

在本申请任意实施例的基础上，所述关键帧识别模块，包括：目标获取单元，设置为获取属于视频流中的当前图像帧的所述人脸变形目标；距离计算单元，设置为对所述人脸变形目标的向量表示进行统计分析，计算出所述人脸变形目标的投影距离；运行决策单元，设置为判断所述投影距离是否超过预设的距离阈值，当超过所述距离阈值时，允许所述装置的其他模块运行，否则禁止其他模块运行。

在本申请任意实施例的基础上，本申请的人脸变形目标修正装置，包括：渲染处理模块，设置为将修正后的人脸变形目标应用于所述三维人脸模型，渲染出该人脸变形目标相对应的数字人的人脸图像；直播推流模块，设置为将所述数字人的人脸图像替换用于生成所述人脸变形目标的视频流的图像帧中的人脸图像，将该视频流推送至直播间显示。

本申请的另一实施例还提供一种人脸变形目标修正设备。如图10所示，人脸变形目标修正设备的内部结构示意图。该人脸变形目标修正设备包括通过***总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该人脸变形目标修正设备的计算机可读的非易失性可读存储介质，存储有操作***、数据库和计算机可读指令，数据库中可存储有信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种人脸变形目标修正方法。

所述人脸变形目标修正设备的处理器用于提供计算和控制能力，支撑整个人脸变形目标修正设备的运行。该人脸变形目标修正设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的人脸变形目标修正方法。该人脸变形目标修正设备的网络接口用于与终端连接通信。

本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的人脸变形目标修正设备的限定，具体的人脸变形目标修正设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图9中的各个模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于实现用户终端或服务器之间的数据传输。本实施方式中的非易失性可读存储介质中存储有本申请的人脸变形目标修正装置中执行所有模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有模块的功能。

本申请还提供一种存储有计算机可读指令的非易失性可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的人脸变形目标修正方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解，实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性可读存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请在维持较低运算量的情况下，通过在重建人脸网格时，按照多个预设人脸区域对其顶点进行分区修正，再应用于人脸变形目标，使所述人脸变形目标的各个具体人脸区域都能够获得精细化的优化效果，使得根据所述人脸变形目标所生成的人脸图像更为自然细腻，成像效果佳且更稳定，利用所述人脸变形目标生成的数字人形象能够获得优异的质感。

Claims

1.一种人脸变形目标修正方法，其特征在于，包括：

2.根据权利要求1所述的人脸变形目标修正方法，其特征在于，根据三维人脸模型的人脸网格中各个预设人脸区域相对应的人脸关键点信息，将所述基底人脸系数集对应分割成各个人脸区域的区域人脸系数，包括：

针对用于生成所述人脸变形目标的人脸图像进行人脸关键点检测，获得所述人脸图像中人脸区域图像的人脸关键点信息；

对齐所述人脸关键点信息中各个人脸关键点与所述三维人脸模型的人脸网格中的标准人脸顶点，确定各人脸区域下人脸关键点与顶点之间的映射关系；

根据所述映射关系，从所述基底人脸系数集中分割出所述人脸网格中各个预设人脸区域相对应的区域人脸系数，每个区域人脸系数均包括相应区域的中性人脸系数及平均人脸系数。

3.根据权利要求1所述的人脸变形目标修正方法，其特征在于，所述人脸区域包括眼睛区域、眉额区域、鼻部区域、嘴部区域以及脸部轮廓区域，各个人脸区域均具有对称结构。

4.根据权利要求1所述的人脸变形目标修正方法，其特征在于，根据每个人脸区域相对应的区域人脸系数对所述人脸网格中相应区域的顶点进行优化，以确定出所述人脸网格的人脸形状系数，包括：

基于非线性优化算法，对属于人脸顶半部之外的其他人脸区域相对应的顶点实施第一优化操作；

基于线性优化算法，对属于人脸顶半部的各个人脸区域相对应的顶点实施第二优化操作。

5.根据权利要求1所述的人脸变形目标修正方法，其特征在于，获取基底人脸系数集之前，包括：

根据所述三维人脸模型的人脸变形目标判断用于生成所述人脸变形目标的人脸图像是否属于其所在的视频流中的关键帧，当属于关键帧时，执行后续步骤，否则忽略后续步骤。

6.根据权利要求1所述的人脸变形目标修正方法，其特征在于，根据所述三维人脸模型的人脸变形目标判断用于生成所述人脸变形目标的人脸图像是否属于其所在的视频流中的关键帧，包括：

获取属于视频流中的当前图像帧的所述人脸变形目标；

对所述人脸变形目标的向量表示进行统计分析，计算出所述人脸变形目标的投影距离；

判断所述投影距离是否超过预设的距离阈值，当超过所述距离阈值时，确定当前图像帧为关键帧，否则为非关键帧。

7.根据权利要求1至6中任意一项所述的人脸变形目标修正方法，其特征在于，根据优化后的人脸形状系数修正所述三维人脸模型的人脸变形目标之后，包括：

将修正后的人脸变形目标应用于所述三维人脸模型，渲染出该人脸变形目标相对应的数字人的人脸图像；

将所述数字人的人脸图像替换用于生成所述人脸变形目标的视频流的图像帧中的人脸图像，将该视频流推送至直播间显示。

8.一种人脸变形目标修正装置，其特征在于，包括：

9.一种人脸变形目标修正设备，包括中央处理器和存储器，其特征在于，所述中央处理器设置为调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种非易失性可读存储介质，其特征在于，其以计算机可读指令的形式存储计算机程序，所述计算机程序被计算机调用运行时，执行如权利要求1至7中任意一项所述的方法的步骤。

11.一种计算机程序产品，其特征在于，包括计算机程序/指令，所述计算机程序/指令被处理器调用时，以执行如权利要求1至7中任意一项所述的方法的步骤。