CN116681986A

CN116681986A - 人脸预测模型的训练及多任务预测方法、装置和直播***

Info

Publication number: CN116681986A
Application number: CN202310666069.7A
Authority: CN
Inventors: 宫凯程
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-01

Abstract

本申请涉及一种人脸预测模型的训练方法和装置、人脸多任务预测方法和装置、直播***、计算机设备以及计算机可读存储介质；该训练方法包括：根据预测任务对人脸图像集进行分组，并分别对人脸图像分组进行数据标注；构建特征图金字塔网络以及各个预测任务对应的预测任务层，将预测任务层分别连接到特征图金字塔网络输出的特征图上得到人脸多任务预测模型；分别配置人脸多任务预测模型的各个预测任务层在预测训练中的损失函数；利用标注的人脸图像并根据损失函数对人脸多任务预测模型进行训练。该技术方案，能够训练得到同时执行多种预测任务的预测模型，提升人脸多任务预测的效率，特别适用于直播场景下预测需求，满足不同实时直播场景的使用需求。

Description

人脸预测模型的训练及多任务预测方法、装置和直播***

技术领域

本申请涉及网络直播技术领域，特别是涉及一种人脸预测模型的训练方法和装置、人脸多任务预测方法和装置、直播***、计算机设备以及计算机可读存储介质。

背景技术

随着网络直播技术的发展，各种美颜、美妆和整形等特效被广泛应用于网络直播当中，从而可以提高网络直播中分享的优质内容的传播效果。在直播过程中，为了精准定位到人脸位置并进行特效添加，需要对人脸关键点检测、分割等，因此人脸关键点检测、分割相关算法是美颜、美妆、整形等直播、短视频特效技术的基础。

目前，在对人脸图像执行2D关键点、3D关键点和图像分割任务时，通常是训练人脸预测模型来进行检测，每个预测模型可以完成一个相应的预测任务，例如，预测2D关键点可以使用2D关键点模型、预测3D关键点可以使用3D关键点模型、预测图像分割可以使用分割模型等，然而，在直播场景下，当需要完成多种预测任务时，同时使用这些预测模型无法满足直播实时性的高要求，由此会影响直播场景下美颜、美妆算法的运算效率，难以满足直播业务中的多任务使用需求，容易影响直播效果。

发明内容

基于此，有必要针对上述技术问题，提供一种人脸预测模型的训练方法和装置、人脸多任务预测方法和装置、直播***、计算机设备以及计算机可读存储介质，实现单模型的多任务预测功能，提升了直播实时性。

第一方面，本申请提供一种人脸预测模型的训练方法，包括：

根据预测任务对人脸图像集进行分组，并根据各个预测任务分别对所述人脸图像分组进行数据标注；

构建特征图金字塔网络以及各个预测任务对应的预测任务层，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型；

分别配置所述人脸多任务预测模型的各个预测任务层在预测训练中的损失函数；

利用所述标注的人脸图像并根据所述损失函数对所述人脸多任务预测模型进行训练。

在一个实施例中，构建特征图金字塔网络以及各个预测任务对应的预测任务层，包括：

构建一个提取图像特征的特征图金字塔网络；其中，所述特征图金字塔网络以人脸图像为输入，输出分辨率逐渐增大的多个特征图；

根据需要执行的各个预测任务，在所述特征图金字塔网络之后分别搭建对应的预测任务层。

在一个实施例中，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型，包括：

针对于各个预测任务层，分别从所述特征图金字塔网络输出的特征图中选择至少一个特征图作为输入图像；

根据各个预测任务对应选择的输入图像将所述预测任务层连接到所述特征图上，得到人脸多任务预测模型。

在一个实施例中，利用所述标注的人脸图像并根据所述损失函数对所述人脸多任务预测模型进行训练，包括：

读取各组已标注的人脸图像，并分别输入到人脸多任务预测模型；

计算在各个所述损失函数共同影响下人脸多任务预测模型输出的各个预测任务的预测结果；

根据所述预测结果对人脸多任务预测模型的参数进行调整，直至人脸多任务预测模型输出的预测结果达到设定指标要求。

在一个实施例中，预测任务包括：预测人脸图像的2D关键点和预测人脸图像的3D关键点；

所述根据各个预测任务分别对所述人脸图像分组进行数据标注，包括：

在2D关键点人脸图像分组的每张人脸图像上人脸部位标注若干个2D关键点；

利用人脸3D基模型渲染一张正面人脸图像，确定3D基模型顶点与各个2D关键点的对应关系；根据所述对应关系在3D关键点人脸图像分组的每张人脸图上人脸部位标注若干个2D关键点。

在一个实施例中，利用人脸3D基模型渲染一张正面人脸图像，确定3D基模型顶点与各个2D关键点的对应关系，包括：

将人脸3D基模型的表情基和形状基进行降维；

利用人脸3D基模型的平均脸渲染一张正面人脸图像，并在所述正面人脸图像上标注若干个2D关键点；

计算所述正面人脸图像上3D顶点的2D投影点，并分别确定与各个2D关键点之间距离最小的投影点，获得正脸时3D基模型顶点与2D关键点的对应关系；

对所述正面人脸图像脸颊轮廓的2D关键点进行调整处理，获得侧脸时3D基模型顶点与2D关键点的对应关系。

在一个实施例中，所述预测任务还包括：预测人脸图像中人脸可见区域像素分类和预测3D人脸关键点所形成3D网格；

所述根据各个预测任务分别对所述人脸图像分组进行数据标注，还包括：

将人脸区域分割人脸图像分组的每张人脸图像上的人脸区域与背景区域进行分割，将所述人脸区域标注为前景像素，将背景区域标注为背景像素；

根据所述3D基模型顶点连接关系确定3D关键点人脸图像分组的人脸图像的3D关键点连接关系。

在一个实施例中，所述预测任务层包括：预测人脸图像的2D关键点的第一预测任务层，预测人脸图像中人脸可见区域像素分类的第二预测任务层，预测人脸图像的3D关键点的第三预测任务层和预测3D人脸关键点所形成3D网格的第四预测任务层；

所述图像特征的特征图金字塔网络输出分辨率逐渐增大的特征图F1、特征图F2、特征图F3和特征图F4；

其中，所述第一预测任务层和第二预测任务层为卷积神经网络层，以特征图F4作为输入图像；所述第三预测任务层和第四预测任务层为线性层，以特征图F1作为输入图像。

在一个实施例中，所述分别配置所述人脸多任务预测模型的各个预测任务层在预测训练中的损失函数，包括：

配置第一预测任务层的损失函数为其中，/>表示人脸多任务预测模型预测的第i个关键点坐标，/>表示标注的第i个2D关键点坐标；

配置第二预测任务层的损失函数为L_seg＝-(gt_seg*logpred_seg)+(1-gt_seg)*log(1-pred_seg))，其中，gt_seg为前景像素或者背景像素的标注信息，pred_seg为人脸多任务预测模型的预测结果；

配置第三预测任务层和第四预测任务层的损失函数为其中，/>为人脸多任务预测模型预测的3D人脸关键点在人脸图像上的2D投影点，/>表示标注的第i个2D关键点坐标。

第二方面，本申请提供一种人脸预测模型的训练装置，包括：

数据标注模块，用于根据预测任务对人脸图像集进行分组，并根据各个预测任务分别对所述人脸图像分组进行数据标注；

模型搭建模块，用于构建特征图金字塔网络以及各个预测任务对应的预测任务层，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型；

函数配置模块，用于分别配置所述人脸多任务预测模型的各个预测任务层在预测训练中的损失函数；

模型训练模块，用于利用所述标注的人脸图像并根据所述损失函数对所述人脸多任务预测模型进行训练。

第三方面，本申请提供一种人脸多任务预测方法，包括：

获取主播的目标人脸图像；

将所述目标人脸图像输入所述人脸多任务预测模型；其中，所述人脸多任务预测模型采用所述的人脸预测模型的训练方法得到；

根据预测任务需求从所述人脸多任务预测模型输出的预测结果中选择相应的目标任务预测结果。

第四方面，本申请提供一种人脸多任务预测装置，包括：

图像获取模块，用于获取主播的目标人脸图像；

模型预测模块，用于将所述目标人脸图像输入所述人脸多任务预测模型；其中，所述人脸多任务预测模型采用所述的人脸预测模型的训练方法得到；

结果选择模块，用于根据预测任务需求从所述人脸多任务预测模型输出的预测结果中选择相应的目标任务预测结果。

第五方面，本申请提供一种直播***，包括：主播端、观众端以及直播服务器；其中，所述主播端和观众端分别通过通信网络连接至所述直播服务器；

所述主播端，用于接入直播间的主播以及采集主播直播视频流上传至直播服务器；

所述直播服务器，用于进行主播端与观众端之间的直播转发和向观众端下发直播视频；从主播直播视频流中获取主播的目标人脸图像，利用所述的人脸多任务预测方法获取所述目标人脸图像的目标任务预测结果并添加特效；

所述观众端，用于接入直播间的观众用户以及接收所述直播视频进行播放。

第六方面，本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现所述的人脸预测模型的训练方法的步骤或者所述的人脸多任务预测方法的步骤。

第七方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的人脸预测模型的训练方法的步骤或者所述的人脸多任务预测方法的步骤。

上述各实施例提供的技术方案，在人脸预测模型的训练中，根据预测任务对人脸图像集进行分组并进行数据标注，通过构建特征图金字塔网络以及各个预测任务对应的预测任务层，连接特征图与预测任务层得到人脸多任务预测模型；然后配置各个预测任务层的损失函数，最后利用标注的人脸图像和损失函数对人脸多任务预测模型进行训练；该技术方案，能够训练得到同时执行多种预测任务的预测模型，提升人脸多任务预测的效率，特别适用于直播场景下预测需求，满足不同实时直播场景的使用需求。

进一步的，在人脸多任务预测中，首先获取主播的目标人脸图像，然后输入到人脸多任务预测模型；再根据预测任务需求从人脸多任务预测模型输出的预测结果中选择相应的目标任务预测结果；该技术方案，利用输入的目标人脸图像可以同时预测并输出多种任务的预测结果，从而实现单模型预测多任务功能，可以根据需求来选择多种预测结果来添加直播特效，更好地满足直播业务对算法实时性的高要求。

附图说明

图1是一个示例的直播业务应用场景示意图；

图2是一个实施例的人脸预测模型的训练方法流程图；

图3是一个示例的人脸图像3D关键点标注结果示意图；

图4是一个示例的3D关键点与2D关键点的转换示意图；

图5是一个示例的人脸多任务预测模型结构示意图；

图6是一个实施例的人脸预测模型的训练装置结构示意图；

图7是一个实施例的人脸多任务预测方法流程图；

图8是一个实施例的人脸多任务预测装置结构示意图；

图9是一个示例的直播***结构示意图；

图10是一个实施例的计算机设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的技术方案，可以应用于如图1所示的本申请相关方法的应用场景中，图1是一个示例的直播业务应用场景示意图，该直播***可以包括直播服务器、主播端和观众端，主播端和观众端通过通信网络与直播服务器进行数据通信，从而使得主播端的主播和观众端的观众用户能够进行实时网络直播。其中，对于主播端和观众端，其终端设备可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，直播服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

以下对本申请的人脸预测模型的训练方法的实施例进行说明，本申请可以是应用于人脸信息预测的场景中，能够通过单模型来同时实现多任务预测的功能；参考图2所示，图2是一个实施例的人脸预测模型的训练方法流程图，可以包括以下步骤：

S11，根据预测任务对人脸图像集进行分组，并根据各个预测任务分别对所述人脸图像分组进行数据标注。

此步骤中，可以从互联网网络等途径收集包含人脸的人脸图像，然后根据预测任务将这些人脸图像分组，得到不同预测任务对应的人脸图像分组，再根据不同预测任务来对这些人脸图像分组进行数据标注。

例如，如果预测任务包括预测人脸图像的2D关键点和预测人脸图像的3D关键点，对应的，可以预先获取2D关键点人脸图像分组和3D关键点人脸图像分组，在对人脸图像分组进行数据标注时，可以包括如下：

(1)在2D关键点人脸图像分组的每张人脸图像上人脸部位标注若干个2D关键点。

对于2D关键点，其是指人脸图像中人脸可见区域的关键点，一般情况下，在人脸处于侧脸情况下，脸颊轮廓点并非现实3D世界中人脸的脸颊位置，而是在2D图像可见区域中最接近3D真实人脸脸颊的位置上。

示例性的，可以在2D关键点人脸图像分组的每张人脸图像上标注人脸图像的2D关键点，如每张人脸图像标注300个2D关键点。

(2)利用人脸3D基模型渲染一张正面人脸图像，确定3D基模型顶点与各个2D关键点的对应关系；根据所述对应关系在3D关键点人脸图像分组的每张人脸图上人脸部位标注若干个2D关键点。

对于3D关键点，其是指对应人脸图像中的3D真实人脸的关键点，一般情况下，在人脸侧脸情况下，虽然该区域被遮挡，在人脸图像上不可见，但是脸颊轮廓点处于3D真实人脸的脸颊区域。

示例性的，可以利用人脸3D基模型渲染一张正面人脸图像，然后确定3D基模型顶点与各个2D关键点的对应关系，在标注3D关键点时，可以将3D关键点的数据标注转换为2D关键点来进行标注，3D关键点与2D关键点可以通过3D基模型所确定的对应关系来实现3D-2D关键点之间的转换。

作为实施例，可以通过BFM(Bfm facial model，人脸模型)人脸3D基模型来确定3D基模型的顶点与各个2D关键点的对应关系，从而确定3D-2D之间的转换关系，具体包括如下：

a、将人脸3D基模型的表情基和形状基进行降维。

例如，可以使用BFM2019人脸3D基模型(参数化模型)，利用PCA(PrincipalComponent Analysis，主成分分析)降维技术把BFM2019人脸3D基模型的表情基和形状基先降维到80维。

b、利用人脸3D基模型的平均脸渲染一张正面人脸图像，并在所述正面人脸图像上标注若干个2D关键点。

例如，利用BFM2019人脸3D基模型的平均脸meanshape来渲染一张正面人脸图像，参照2D关键点的标注方法，在正面人脸图像上标注300个2D关键点。

c、计算正面人脸图像上3D顶点的2D投影点，并分别确定与各个2D关键点之间距离最小的投影点，获得正脸时3D基模型顶点与2D关键点的对应关系。

例如，计算平均脸meanshape上每一个人脸图像的3D顶点的2D投影，对于所标注的300个2D关键点，分别找到与其距离最小的投影点，则在正脸情况下，得到该投影点的3D顶点与2D关键点之间的对应关系。

参考图3所示，图3是一个示例的人脸图像3D关键点标注结果示意图，其中“·”点是标注的2D关键点，“×”点是与之对应的3D关键点在人脸图像上投影点，可见二者几乎是重合的，从而得到正面时3D-2D关键点之间的转换关系。

d、对正面人脸图像脸颊轮廓的2D关键点进行调整处理，获得侧脸时3D基模型顶点与2D关键点的对应关系。

示例性的，由于人脸图像发生旋转时，人脸区域的脸颊位置的3D关键点与2D关键点差异较大，据此对人脸区域的脸颊轮廓的关键点进行调整，使得侧脸时也能获得3D基模型顶点与2D关键点的对应关系，从而得到侧面时3D-2D关键点之间的转换关系。

例如，参考图4所示，图4是一个示例的3D关键点与2D关键点的转换示意图；如图示，假设人脸图像正脸时，第1999号3D顶点v₁₉₉₉＝(x,y,z)对应第1号人脸图像的脸颊2D关键点pt₁＝(w,h)，根据v₁₉₉₉的Y轴坐标可以定义一条水平线，长度为人脸宽度的一半，将该水平线上的所有3D顶点编号加入2D关键点pt₁的3D顶点集合ω₁＝{1999,…}；对于人脸图像的左边侧脸情况，则取出集合ω₁中所有编号的3D顶点，x坐标最大的3D顶点对应此时的2D关键点pt₁，以此类推，可以得到人脸图像上的各个3D关键点对应的2D关键点。

如上述实施例中，由于将3D关键点转换为2D关键点进行标注，因此3D关键点人脸图像分组可以与2D关键点人脸图像分组共用一组人脸图像。

在一个实施例中，预测任务还可以包括预测人脸图像中人脸可见区域像素分类和预测3D人脸关键点所形成3D网格；据此，可以先获取人脸区域分割人脸图像分组，在对人脸图像分组进行数据标注时，可以包括如下：

(3)将人脸区域分割人脸图像分组的每张人脸图像上的人脸区域与背景区域进行分割，将所述人脸区域标注为前景像素，将背景区域标注为背景像素。

对于人脸区域分割，其是指人脸图像中人脸可见区域的逐像素分类，分割后的图像内容一般只包括人脸可见区域，不包括头发、服饰等其他背景区域。

示例性的，首先将人脸区域分割人脸图像分组的每张人脸图像上的人脸区域与头发、服饰等背景区域分割开来，然后人脸区域标注为前景像素(像素值为1)，将背景区域标注为背景像素(通常像素值取值为0)，从而将人脸区域与背景区域的分割。

(4)根据所述3D基模型顶点连接关系确定3D关键点人脸图像分组的人脸图像的3D关键点连接关系。

对于3D网格，即3Dmesh，其是对应人脸图像中的3D真实人脸的3D网格，由3D关键点以及3D关键点之间的连接关系组成。由于3D基模型顶点连接关系是固定的，因此在对3D网格进行数据标注时，利用该3D基模型顶点连接关系及前面标注的3D关键点(由2D关键点及对应关系可确定)即可得到各个3D关键点之间的连接关系。

上述实施例的方案，设计了预测人脸图像的2D关键点、人脸区域分割和预测人脸图像的3D关键点及其3D网格的预测任务；并且通过将3D关键点转换为2D关键点进行数据标注的方案，从而便于在单个模型中进行多任务的模型训练。

S12，构建特征图金字塔网络以及各个预测任务对应的预测任务层，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型。

此步骤中，为搭建人脸多任务预测模型的过程，利用特征图金字塔网络(FeaturePyramid Networks，FPN)来提取输入的人脸图像的特征图，并且根据各个预测任务搭建对应的预测任务层，再根据不同预测任务中对于不同特征图的需求将预测任务层分别连接到特征图金字塔网络输出的相应特征图上，从而搭建出人脸多任务预测模型。

在一个实施例中，对于步骤S12中的构建特征图金字塔网络以及各个预测任务对应的预测任务层的过程，可以包括如下：

S201，构建一个提取图像特征的特征图金字塔网络；其中，所述特征图金字塔网络以人脸图像为输入，输出分辨率逐渐增大的多个特征图。

例如，构建图像特征的特征图金字塔网络输出分辨率逐渐增大的特征图F1、特征图F2、特征图F3和特征图F4；其中，特征图F1至F4的分辨率逐渐增大。

S202，根据需要执行的各个预测任务，在所述特征图金字塔网络之后分别搭建对应的预测任务层。

例如，如前面实施例，可以设置预测人脸图像的2D关键点、预测人脸图像的3D关键点、预测人脸图像中人脸可见区域像素分类和预测3D人脸关键点所形成3D网格四个预测任务。

对应的，搭建预测任务层包括：预测人脸图像的2D关键点的第一预测任务层，预测人脸图像中人脸可见区域像素分类的第二预测任务层，预测人脸图像的3D关键点的第三预测任务层和预测3D人脸关键点所形成3D网格的第四预测任务层。

优选的，第一预测任务层和第二预测任务层可以为卷积神经网络层，第三预测任务层和第四预测任务层可以为线性层。

在上述实施例中，对于步骤S12中的将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型的过程，可以包括如下：

S203，针对于各个预测任务层，分别从所述特征图金字塔网络输出的特征图中选择至少一个特征图作为输入图像。

示例性的，针对于上述四个预测任务层，可以特征图金字塔网络输出的特征图中选择不同的特征图作为该预测任务层的输入图像；优选的，可以选择分辨率最大的特征图F4作为第一预测任务层和第二预测任务层的输入图像，选择分辨率最小的特征图F1作为第三预测任务层和第四预测任务层的输入图像；当然也可以通过其他形式的选择方案，比如选择特征图F1和F2作为第三预测任务层和第四预测任务层的输入图像；选择特征图F3和F4作为第一预测任务层和第二预测任务层的输入图像等；具体可以不同情况下的训练需求进行设定。

S204，根据各个预测任务对应选择的输入图像将所述预测任务层连接到所述特征图上，得到人脸多任务预测模型。

如图5所示，图5是一个示例的人脸多任务预测模型结构示意图，图中第一预测任务层和第二预测任务层以特征图F4作为输入图像，第三预测任务层和第四预测任务层以特征图F1作为输入图像，其中：

第一预测任务层以特征图F4作为输入图像，采用卷积神经网络的操作函数conv2d函数来得到热图heatmap，然后利用热图heatmap并使用soft-argmax算法计算得到2D关键点坐标。

第二预测任务层为以特征图F4作为输入图像且为卷积神经网络层，采用卷积神经网络的操作函数conv2d函数来预测人脸图像的分割图像。

第三预测任务层利用线性函数linear函数来预测BFM基模型的系数和相机参数，其中系数包括形状系数为W_id∈R^80x1、表情系数为W_exp∈R^80x1；相机参数包括平移参数T∈R^3x1和旋转参数R∈R^3x1等，预测的3D人脸关键点集合V＝meanshape+W_id*B_id+W_exp*B_exp。

第四预测任务层是利用第三预测任务层3D人脸关键点的预测结果及3D关键点连接关系得到，即利用3D人脸关键点集合V加上预定义的3D顶点三角形的连接关系即得到3Dmesh。

上述实施例，提供了搭建人脸多任务预测模型的技术方案，该人脸多任务预测模型包含了当前直播场景中常用的几种预测任务，特别是覆盖了美颜、美妆、整形等直播、短视频特效技术常用的人脸关键点检测与分割算法，极大地提高了直播场景下的算法效率。

S13，分别配置所述人脸多任务预测模型的各个预测任务层在预测训练中的损失函数。

此步骤中，基于所搭建的人脸多任务预测模型，设计各个预测任务层在预测训练中的损失函数，由于人脸多任务预测模型是单模型多任务预测结构，在训练时各个预测任务层的损失函数相互影响，最终输出是多个预测任务同时输出预测结果。

在一个实施例中，以预测人脸图像的2D关键点、预测人脸图像的3D关键点、预测人脸图像中人脸可见区域像素分类和预测3D人脸关键点所形成3D网格四个预测任务为例，对应的，配置各个预测任务层在预测训练中的损失函数，可以包括如下：

配置第一预测任务层的损失函数为其中，/>表示人脸多任务预测模型预测的第i个关键点坐标，/>表示标注的第i个2D关键点坐标。

配置第二预测任务层的损失函数为L_seg＝-(gt_seg*logpred_seg)+(1-gt_seg)*log(1-pred_seg))，其中，gt_seg为前景像素或者背景像素的标注信息，即像素属于前景像素(1)还是背景像素(0)，pred_seg为人脸多任务预测模型的预测结果(0～1)。

配置第三预测任务层和第四预测任务层的损失函数为其中，/>为人脸多任务预测模型预测的3D人脸关键点在人脸图像上的2D投影点，/>表示标注的第i个2D关键点坐标；其中，3D关键点与2D关键点的对应关系为3D基模型顶点与2D关键点的对应关系。

上述实施例的方案，根据预测任务分别设计了各个预测任务层在预测训练中对应的损失函数，各个损失函数在模型训练过程中相互影响，从而可以形成多个预测任务同时输出预测结果的功能。

S14，利用所述标注的人脸图像并根据所述损失函数对所述人脸多任务预测模型进行训练。

此步骤中，是利用各个人脸图像分组，在设定的损失函数下对人脸多任务预测模型进行训练，从而得到可以在实际场景中预测使用的人脸多任务预测模型。

在一个实施例中，对于训练的过程，可以包括如下：

S401，读取各组已标注的人脸图像，并分别输入到人脸多任务预测模型；具体的，将标注好的人脸图像分别输入到人脸多任务预测模型中。

S402，计算在各个所述损失函数共同影响下人脸多任务预测模型输出的各个预测任务的预测结果；在训练过程中，各个预测任务层均进行训练并同时输出预测结果。

S402，根据所述预测结果对人脸多任务预测模型(包括特征图金字塔网络和各个预测任务层)的参数进行调整，直至人脸多任务预测模型输出的预测结果达到设定指标要求。

上述实施例的方案，利用单个模型的多个预测任务层的损失函数下同时进行模型训练，从而可以使得人脸多任务预测模型可以对单个人脸图像进行多个任务同时预测，从而提升了模型预测算法效率。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请还提供了一种用于实现上述所涉及的相关方法的装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个相关装置实施例中的具体限定可以参见上文中对于相关方法的限定，在此不再赘述。

参考图6所示，图6是一个实施例的人脸预测模型的训练装置结构示意图，该装置包括：

数据标注模块11，用于根据预测任务对人脸图像集进行分组，并根据各个预测任务分别对所述人脸图像分组进行数据标注；

模型搭建模块12，用于构建特征图金字塔网络以及各个预测任务对应的预测任务层，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型；

函数配置模块13，用于分别配置所述人脸多任务预测模型的各个预测任务层在预测训练中的损失函数；

模型训练模块14，用于利用所述标注的人脸图像并根据所述损失函数对所述人脸多任务预测模型进行训练。

上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本实施例的人脸预测模型的训练装置可执行本申请的实施例所提供的一种人脸预测模型的训练方法，其实现原理相类似，本申请各实施例中的人脸预测模型的训练装置中的各模块所执行的动作是与本申请各实施例中的人脸预测模型的训练方法中的步骤相对应的，对于人脸预测模型的训练装置的各模块的详细功能描述具体可以参见前文中所示的对应的人脸预测模型的训练方法中的描述，此处不再赘述。

基于前述实施例提供的人脸预测模型的训练方案，本申请还提供一种人脸多任务预测方法，在该方法中，利用了前述任意实施例的人脸预测模型的训练方法得到的人脸多任务预测模型。

参考图7所示，图7是一个实施例的人脸多任务预测方法流程图，包括：

S21，获取主播的目标人脸图像。

具体的，在直播场景中，直播服务器可以获取主播端上传的主播图像，根据主播图像进行人脸识别得到主播的目标人脸图像。

S22，将所述目标人脸图像输入所述人脸多任务预测模型。

具体的，将需要添加特征等处理的目标人脸图像输入到的预先训练的人脸多任务预测模型进行多任务预测得到相应的预测结果。

例如，可以输入一张目标人脸图像，人脸多任务预测模型即可输出人脸图像的2D关键点、人脸图像分割图、人脸图像的3D关键点及其3Dmesh的预测结果。

S23，根据预测任务需求从所述人脸多任务预测模型输出的预测结果中选择相应的目标任务预测结果。

具体的，直播服务器根据使用需求，可以从人脸多任务预测模型输出的多个预测结果中选择所需的目标任务预测结果；例如，如果当前需要获取人脸图像的2D关键点和人脸图像分割图，则可以选择这两个输出预测结果进行使用。

如本申请提供的技术方案，可以用一个预测模型同时输出人脸的2D关键点、人脸分割图、3D关键点及其3Dmesh等预测结果，可以显著提高使用人脸关键点检测算法、人脸分割算法、人脸3D关键点与3Dmesh算法场景中的算法计算效率，更好地满足直播业务对算法的高实时性要求。

参考图8所示，图8是一个实施例的人脸多任务预测装置结构示意图，该装置包括：

图像获取模块21，用于获取主播的目标人脸图像；

模型预测模块22，用于将所述目标人脸图像输入所述人脸多任务预测模型；其中，所述人脸多任务预测模型采用上述任意实施例的人脸预测模型的训练方法得到；

结果选择模块23，用于根据预测任务需求从所述人脸多任务预测模型输出的预测结果中选择相应的目标任务预测结果。

本实施例的人脸多任务预测装置可执行本申请的实施例所提供的一种人脸多任务预测方法，其实现原理相类似，本申请各实施例中的人脸多任务预测装置中的各模块所执行的动作是与本申请各实施例中的人脸多任务预测方法中的步骤相对应的，对于人脸多任务预测装置的各模块的详细功能描述具体可以参见前文中所示的对应的人脸多任务预测方法中的描述，此处不再赘述。

下面阐述直播***的实施例。

本实施例提供的直播***，参考图9所示，图9是一个示例的直播***结构示意图，该直播***包括：主播端、观众端以及直播服务器；其中主播端和观众端分别通过通信网络连接至直播服务器。

对于主播端，其是用于接入直播间的主播用户以及采集主播直播视频流上传至直播服务器；对于直播服务器，其是用于进行主播端与观众端之间的直播转发和向观众端下发直播视频；从主播直播视频流中获取主播的目标人脸图像，利用上述任意实施例的人脸多任务预测方法获取所述目标人脸图像的目标任务预测结果并添加特效；对于所述观众端，其是用于接入直播间的观众用户以及接收所述直播视频进行播放。

如图9所示，假设观众用户A、B、C……通过App客户端访问直播间观看主播的直播画面，当主播用户需要使用美颜、美妆等特效时，需要调用人脸多任务预测模型来对其人脸相关信息进行多任务预测，如人脸的2D关键点、人脸分割图、3D关键点及其3Dmesh等，此时，主播用户可以通过其客户端将视频流上传到直播服务器之后，由直播服务器调用人脸多任务预测模型来获取相关预测结果，并添加相应的特效效果；然后直播服务器可以将添加了特效效果之后的视频画面生成直播视频流下发到各个观众用户A、B、C……的客户端上进行播放。由于上述直播***采用了本申请的人脸多任务预测模型，在进行人脸相关信息的多任务预测时，能够同时输出多个任务的预测结果，提高了模型算法效率，能够更好的服务于网络直播业务中的美颜、美妆等特效技术。

下面阐述本申请的计算机设备及计算机可读存储介质的实施例。

参考图10所示，图10是一个示例的计算机设备结构示意图，该计算机设备可以是直播服务器应用的设备，也可以是观众端和主播端应用的设备，该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储人脸图像数据集等数据。该计算机设备的网络接口用于与外部的设备通过通信网络连接。该计算机程序被处理器执行时以实现本申请实施例所提供的相关方法。

本领域技术人员可以理解，上述实施例提供的计算机设备结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各实施例的方法中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive RandomAccess Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种人脸预测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的人脸预测模型的训练方法，其特征在于，构建特征图金字塔网络以及各个预测任务对应的预测任务层，包括：

3.根据权利要求2所述的人脸预测模型的训练方法，其特征在于，将所述预测任务层分别连接到所述特征图金字塔网络输出的特征图上得到人脸多任务预测模型，包括：

4.根据权利要求1所述的人脸预测模型的训练方法，其特征在于，预测任务包括：预测人脸图像的2D关键点和预测人脸图像的3D关键点；

5.根据权利要求4所述的人脸预测模型的训练方法，其特征在于，利用人脸3D基模型渲染一张正面人脸图像，确定3D基模型顶点与各个2D关键点的对应关系，包括：

将人脸3D基模型的表情基和形状基进行降维；

6.根据权利要求4所述的人脸预测模型的训练方法，其特征在于，所述预测任务还包括：预测人脸图像中人脸可见区域像素分类和预测3D人脸关键点所形成3D网格；

7.一种人脸预测模型的训练装置，其特征在于，包括：

8.一种人脸多任务预测方法，其特征在于，包括：

获取主播的目标人脸图像；

将所述目标人脸图像输入所述人脸多任务预测模型；其中，所述人脸多任务预测模型采用权利要求1-6任一项所述的人脸预测模型的训练方法得到；

9.一种人脸多任务预测装置，其特征在于，包括：

图像获取模块，用于获取主播的目标人脸图像；

模型预测模块，用于将所述目标人脸图像输入所述人脸多任务预测模型；其中，所述人脸多任务预测模型采用权利要求1-6任一项所述的人脸预测模型的训练方法得到；

10.一种直播***，其特征在于，包括：主播端、观众端以及直播服务器；其中，所述主播端和观众端分别通过通信网络连接至所述直播服务器；

所述直播服务器，用于进行主播端与观众端之间的直播转发和向观众端下发直播视频；从主播直播视频流中获取主播的目标人脸图像，利用权利要求8所述的人脸多任务预测方法获取所述目标人脸图像的目标任务预测结果并添加特效；

11.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-6中任一项所述的人脸预测模型的训练方法的步骤或者权利要求8的人脸多任务预测方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的人脸预测模型的训练方法的步骤或者权利要求8的人脸多任务预测方法的步骤。