CN110889325B

CN110889325B - 多任务面部动作识别模型训练和多任务面部动作识别方法

Info

Publication number: CN110889325B
Application number: CN201910969054.1A
Authority: CN
Inventors: 罗琳耀; 徐国强; 邱寒
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2023-05-23
Anticipated expiration: 2039-10-12
Also published as: WO2021068323A1; CN110889325A

Abstract

本申请涉及一种基于神经网络的多任务面部动作识别模型训练方法、多任务面部动作识别方法、计算机设备和存储介质。所述方法包括：采集面部动作识别数据集；对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像；根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像；将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务的面部动作识别模型。采用本方法能够提高面部动作识别的多样性。

Description

多任务面部动作识别模型训练和多任务面部动作识别方法

技术领域

本申请涉及计算机技术领域，特别是涉及一种多任务面部动作识别模型训练方法、多任务面部动作识别方法、计算机设备和存储介质。

背景技术

人脸识别又称为面部识别，面部动作识别则是指能够识别人脸面部具体动作表情，面部动作识别与人脸五官的形状、位置和几何关系等均有关系。

传统开源的识别方法是使用面部动作识别模型进行分类优化目标。然而，传统的面部动作识别模型并未考虑其可能还存在其他相关目标任务，只能进行单一的检测，缺乏多样性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现多任务检测的多任务面部动作识别模型训练方法、多任务面部动作识别方法、计算机设备和存储介质。

一种多任务面部动作识别模型训练方法，所述方法包括：

采集面部动作识别数据集；

对所述面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像；

根据预设标准图像检测所述关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像；

将所述多任务标签图像输入预设的残差神经网络，以对所述残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务面部动作识别模型。

在其中一个实施例中，所述对所述面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像，包括：

将所述面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；

利用多任务卷积神经网络对所述图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像；

基于所述面部特征关键点坐标和预设的模板点坐标，将对应的所述面部动作图像进行人脸对齐处理，得到关键点标签图像。

在其中一个实施例中，所述利用多任务卷积神经网络对所述图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像，包括：

利用多任务卷积神经网络对所述图像金字塔进行特征提取和边框标定，得到第一特征图；

过滤所述第一特征图中标定的边框，获得第二特征图；

根据所述第二特征图得到包含面部特征关键点坐标的面部动作图像。

在其中一个实施例中，所述基于所述面部特征关键点坐标和预设的模板点坐标，将对应的所述面部动作图像进行人脸对齐处理，得到关键点标签图像，包括：

获取预设的模板点坐标；

计算所述面部特征关键点坐标和所述模板点坐标的相似变换矩阵；

将所述相似变换矩阵与对应的所述面部动作图像的矩阵进行相乘，得到的图像为关键点标签图像。

在其中一个实施例中，所述根据预设标准图像检测所述关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像，包括：

获取预设标准图像的人脸关键点坐标；

利用dlib库中的人脸检测模型对所述关键点标签图像进行人脸检测，得到所述关键点标签图像的人脸关键点坐标；

根据预设标准图像的人脸关键点坐标和所述关键点标签图像的人脸关键点坐标进行角度计算，得到关键点标签图像中人脸的旋转角度；

根据所述旋转角度确定角度标签，得到包括所述角度标签的多任务标签图像。

在其中一个实施例中，所述将所述多任务标签图像输入预设的残差神经网络，以对所述残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务面部动作识别模型，包括：

初始化所述残差神经网络的网络参数；

将所述多任务标签图像按批量输入至所述残差神经网络做前向传播，得到网络输出值；

基于预设损失函数和加权系数，以及所述网络输出值计算加权损失值；

根据所述加权损失值进行反向传播，得到所述残差神经网络的网络参数的梯度值；

根据所述梯度值更新所述残差神经网络的网络参数；

返回将所述多任务标签图像按批量输入至所述残差神经网络做前向传播的步骤，直到所述加权损失值不再下降为止，将训练好的残差神经网络作为多任务面部动作识别模型。

在其中一个实施例中，所述采集面部动作识别数据集，包括：

获取采集的统一资源定位符；

根据所述统一资源定位符爬取得到面部动作识别数据集。

一种多任务面部动作识别方法，所述方法包括：

获取待识别面部动作图像；

利用上述任一项所述的多任务面部动作识别模型训练方法所训练的多任务面部动作识别模型，对所述待识别面部动作图像进行识别，得到识别结果；所述识别结果包括动作标签、关键点标签和角度标签。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述的多任务面部动作识别模型训练方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的多任务面部动作识别模型训练方法的步骤。

上述多任务面部动作识别模型训练方法、多任务面部动作识别方法、计算机设备和存储介质，采集面部动作识别数据集后，通过对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像，从而确保图像中包括关键点标签。然后，根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像，确保在已包括关键点标签的图像上增加角度标签，从而得到多任务标签图像。根据多任务标签图像，多任务联合训练预设的残差神经网络，将训练好的残差神经网络作为多任务的面部动作识别模型，从而实现面部动作识别模型能够同时进行多任务的面部动作识别，提高多样性。

附图说明

图1为一个实施例中多任务面部动作识别模型训练方法的应用场景图；

图2为一个实施例中多任务面部动作识别模型训练方法的流程示意图；

图3为一个实施例中检测人脸的角度步骤的流程示意图；

图4为一个实施例中采集面部动作识别数据集步骤的流程示意图；

图5为一个实施例中多任务面部动作识别模型训练装置的结构框图；

图6为一个实施例中计算机设备的内部结构图。

实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的多任务面部动作识别模型训练方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。服务器104 接收终端102发送的模型训练指令，服务器104响应模型训练指令采集面部动作识别数据集；服务器104对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像；服务器104根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像；服务器104将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务的面部动作识别模型。其中，终端102通过网络与服务器104进行通信。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种多任务面部动作识别模型训练方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，采集面部动作识别数据集。

其中，面部动作识别数据集为包括多张面部动作图像的集合。面部动作识别数据集中的面部动作图像可以为人工预先采集存储在数据库中，也可以利用爬虫从开源数据库上采集获取。可以理解为，面部动作识别数据集中的面部动作图像包括面部动作标签，而面部动作标签即对面部动作图像已标注面部动作的图像。

具体地，当用户有训练多任务面部动作识别模型需求时，通过操作终端向服务器下发模型训练指令。当服务器接收到模型训练指令之后，响应模型训练指令从数据库中获取预先存储的面部动作识别数据集。或者，利用模型训练指令中携带的URL（UniformResource Locator，统一资源定位符）链接从开源上爬虫获取面部动作识别数据集。

步骤S204，对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像。

其中，关键点标签图像是指包括面部特征关键点坐标的面部动作图像，可以理解为，面部动作图像中的面部特征关键点都已进行坐标的标注。其中，面部特征关键点可以理解为眼睛、鼻子、嘴巴等。也就是说，包括面部特征关键点的面部动作图像，即关键点标签图像是指将面部特征部位都进行坐标标注的面部动作图像。而基于不同的人脸检测算法进行检测，所得得到的关键点数量不一样。

具体地，当获取到面部动作识别数据集后，利用人脸检测算法对面部动作数据集中的面部动作图像进行人脸检测得到面部特征关键点。然后，对包括面部特征关键点的面部动作图像进行人脸对齐，使得关键点与对应部位对齐，得到的图像即为关键点标签图像。其中，人脸检测算法包括但不限于DLIB库中的人脸检测算法、MTCNN网络（Multi-taskconvolutional neural network，多任务卷积神经网络）等。可以理解为，不同的然连检测算法得到的关键点数量不一样，DLIB中的人脸检测算法输出68个关键点，MTCNN则输出5个特征关键点。

步骤S206，根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像。

其中，由于面部动作数据集中的面部动作图像本身包括面部动作标签，所以多任务标签图像是指包括面部动作标签、关键点标签和角度标签的面部动作图像。角度标签可以理解为，经过人脸角度检测得到人脸角度的面部动作图像，也就是已被标注人脸角度的面部动作图像。

具体地，当通过人脸检测算法得到包含面部特征关键点的面部动作图像，即关键点标签图像之后，进一步通过人脸角度检测算法对关键点标签图像进行人脸角度检测，从而得到角度标签。其中，人脸角度可以理解为面部动作图像中的面部所转动的角度。由于是将已经包含面部动作标签和关键点标签的关键点标签图像进行检测得到角度标签，因此最终得到的图像为包括面部动作标签、关键点标签和角度标签的多任务标签图像。

步骤S208，将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务的面部动作识别模型。

其中，残差神经网络（Residual Network，ResNet）是一种深度卷积神经网络，具有容易优化，并且能够通过增加相当的深度来提高准确率。其内部的残差模块使用了跳跃连接，同时缓解了深度神经网络中增减深度带来的梯度消失问题。而本实施例中的残差神经网络是一种优化的ResNet50模型，与传统ResNet50模型的区别在于将最后一层全连接层更换成输出通道为12的全连接层。因为本实施例中训练得到的多任务面部动作识别模型包括12个面部动作识别模型，因此选用输出通道为12的全连接层能够更好的进行分类。

具体地，将多任务标签图像作为模型的训练样本，按批量输入至优化后的预设的残差神经网络，使得神经网络基于多任务标签图像中的面部动作标签、关键点标签和角度标签进行学习，从而完成训练。将完成训练的残差神经网络作为多任务面部动作识别模型。

上述多任务面部动作识别模型训练方法，采集面部动作识别数据集后，通过对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像，从而确保图像中包括关键点标签。然后，根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像，确保在已包括关键点标签的图像上增加角度标签，从而得到多任务标签图像。根据多任务标签图像，多任务联合训练预设的残差神经网络，将训练好的残差神经网络作为多任务的面部动作识别模型，从而实现面部动作识别模型能够同时进行多任务的面部动作识别，提高多样性。

在一个实施例中，步骤S204，对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像具体包括：将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔。利用多任务卷积神经网络对图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像。基于面部特征关键点坐标和预设的模板点坐标，将对应的面部动作图像进行人脸对齐处理，得到关键点标签图像。

其中，图像金字塔是指通过不同尺寸的图像构建成的金字塔，可以理解为，最底层的图像的尺寸最大，最上层的图像的尺寸最小，即每一张图像的尺寸大于上一层的图像的尺寸，小于下一层的图像的尺寸，从而构造出图像金字塔。多任务卷积神经网络（Multi-task convolutional neural network，Mtcnn）是用于人脸检测的神经网络。Mtcnn可分为三大部分，分别为P-Net（Proposal Network，提案网络）、R-Net（Refine Network，优化网络）和O-Net（Output Network，输出网络）三层网络结构。P-Net基本的构造是一个全连接神经网络，R-Net基本的构造是一个卷积神经网络，R-Net相比于P-Net来说，增加了一个全连接层，因此R-Net对于输入数据的筛选会更加严格。R-Net而O-Net是一个较为复杂的卷积神经网络，相对于R-Net来说多了一个卷积层。O-Net的效果与R-Net的区别在于这一层结构会通过更多的监督来识别面部的区域，而且会对人的面部特征关键点进行回归，最终输出包括面部特征关键点的面部动作图像。可以理解为，Mtcnn输出的面部动作图像上已经包括标注的坐标框，坐标框内的区域即为被标注的面部特征关键点。

具体地，对面部动作图像进行缩放处理，即缩小或者放大处理，得到尺寸不一致的面部动作图像。将尺寸不一致的面部特征图像按照尺寸从大到小叠加排序得到对应的图像金字塔。然后，利用多任务卷积神经网络对图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像。可以理解为，面部动作图像即是没有进行人脸对齐的关键点标签图像。进一步的，获取预设的模板点坐标，根据预设的模板点坐标将面部动作图像中的面部特征关键点坐标进行对齐处理，得到人脸对齐后的关键点标签图像。在本实施例中，通过神经网络多面部动作图像进行检测，从而获取关键点标签图像，无需手动对关键点进行标注，节约人力资源。

在一个实施例中，利用多任务卷积神经网络对图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像具体包括：利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤第一特征图中标定的边框，获得第二特征图；根据第二特征图得到包含面部特征关键点坐标的面部动作图像。

具体地，将利用多任务卷积神经网络中的P-Net对图像金字塔进行初步特征提取与边框标定，得到包括多个标定边框的特征图。通过对该特征图进行Bounding-BoxRegression（边框回归向量）调整边框和使用NMS（非极大值抑制）进行大部分边框的过滤，也就是合并重叠的边框，从而得到第一特征图。其中，Bounding-Box Regression的作用是网络预测得到边框进行微调，使其接近真实值。而NMS就是抑制不是极大值的元素，使用该方法可以快速去掉重合度很高且标定相对不准确的边框。进一步的，由于面部动作图像经过P-Net之后，输出的第一特征图还是留下了许多预测窗口。因此，将第一特征图输入至R-Net，通过R-Net对第一特征图进行大部分的边框进行过滤，确定候选边框。同样的，进一步对候选边框进行Bounding-Box Regression（边框回归）调整边框和使用NMS（非极大值抑制），从而得到只包括一个边框的第二特征图。也就是说，利用R-Net进一步优化预测结果。最后，将R-Net输出的第二特征图输入至O-Net中，利用O-Net对只包括一个边框的第二特征图进行更进一步的特征提取，最终输出包括五个面部特征关键点坐标的面部动作图像。其中，五个面部特征关键点坐标区域内分别为左眼、有眼、鼻子、左嘴角和右嘴角。在本实施例中，通过多任务卷积神经网络进行检测得到包括特征点的面部特征图像，无需人工手动进行特征点的标注。

在一个实施例中，基于面部特征关键点坐标和预设的模板点坐标，将对应的面部动作图像进行人脸对齐处理，得到关键点标签图像具体包括：获取预设的模板点坐标；计算面部特征关键点坐标和模板点坐标的相似变换矩阵；将相似变换矩阵与对应的面部动作图像的矩阵进行相乘，得到的图像为关键点标签图像。

其中，预设的模板坐标点是指已经预先定义关键点坐标的面部动作图像。相似变换矩阵是指存在相似关系的矩阵。

具体地，通过获取预先已定义关键点坐标的面部动作图像，从该面部动作图像中获取已标记的关键点坐标，即为模板坐标点。利用最小二乘法，计算面部特征关键点坐标和模板点坐标的相似变换矩阵，将相似变换矩阵与对应的面部动作图像的矩阵进行相乘，得到的矩阵对应的图像即为关键点标签图像。可以理解为，获取包括该面部特征关键点坐标对应的面部动作图像对应的图像矩阵，将相似变换矩阵与该图像矩阵进行相乘，即进行矩阵相乘计算。相乘得到新的图像矩阵，将该新的图像矩阵转换为图像，即为关键点标签图像。

在一个实施例中，如图3所示，根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签多任务标签图像，包括以下步骤：

步骤S302，获取预设标准图像的人脸关键点坐标。

步骤S304，利用dlib库中的人脸检测模型对关键点标签图像进行人脸角度检测，得到关键点标签图像的人脸关键点坐标。

步骤S306，根据预设标准图像的人脸关键点坐标和关键点标签图像的人脸关键点坐标进行角度计算，得到关键点标签图像中人脸的旋转角度。

步骤S308，根据旋转角度确定角度标签，得到包括角度标签的多任务标签图像。

具体地，预设标准图像即为预先定义的包含68个人脸关键点的人脸图像。获取预先定义的包含68个人脸关键点坐标的人脸图像，从中获取68个人脸关键点坐标。并且，同时利用dlib 库中的人脸检测模型对得到的关键点标签图像进行人脸检测，得到关键点标签图像中的人脸关键点坐标，即得到一共68个人脸关键点坐标。利用OpenCV工具中的solvePeP函数对预设标准图像的人脸关键点坐标和关键点标签图像的人脸关键点坐标进行角度计算，得到关键点标签图像中人脸的旋转角度。将得到的旋转角度进行转换，转换得到对应的欧拉角，即得到人脸角度的角度标签，将得到角度标签标注到对应的关键点标签图像上，得到包括角度标签的多任务标签图像。其中，预先定义的包含68个人脸关键点坐标的人脸模型可以理解为没有任何角度旋转，标准的人脸模型的68个人脸关键点坐标。68个关键点则包括左眼角、右眼角、鼻尖、左嘴角、右嘴角、下颌等等共68个点。在本实施例中，利用标准的人脸模型的人脸关键点坐标检测图像人脸的角度，相比人测量标记更加快速高效率。

在一个实施例中，将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务面部动作识别模型，具体包括：初始化残差神经网络的网络参数；将多任务标签图像按批量输入至残差神经网络做前向传播，得到网络输出值；基于预设损失函数和加权系数，以及网络输出值计算加权损失值；根据加权损失值进行反向传播，得到残差神经网络的网络参数的梯度值；根据梯度值更新残差神经网络的网络参数；返回将多任务标签图像按批量输入至残差神经网络做前向传播的步骤，直到所述加权损失值不再下降为止，将训练好的残差神经网络作为多任务面部动作识别模型。

其中，多任务训练是指多个相关任务一起训练学习，保证得到的模型能够同时识别多个任务。在本实施例中，多任务面部动作模型即为能够同时进行面部动作识别、关键点回归以及人脸角度预测三个任务的检测识别。

具体地，利用Xavier方法初始化预设残差神经网络中每一层的网络参数，其中，Xavier是一种很有效的神经网络初始化的方法。确定好残差神经网络的初始网络参数后，将训练图像集按批量（batch）输入至残差神经网络。即将多任务标签图像按batch分批输入至神经网络，在本实施例中，batch优选为128。可以理解为，将多任务标签图像以128张为一批方式输入至网络参数初始化后的残差神经网络中，残差神经网络中的特征层和分类层基于预设的学习率对输入的多任务标签图像进行前向传播，得到对应的网络输出值。其中，学习率为预先设置好的，学习率包括但不限于0.001、0.0001等，可根据实际情况设置。可以理解为，残差神经网络中的特征层和分类层均使用预设的学习率进行学习。残差神经网络根据预设的损失函数和加权系数，以及对应的网络输出值计算本次训练的加权损失值，基于加权损失值在进行反向传播，从而得到每个网络参数的梯度值，根据得到梯度值对网络参数进行更新。然后，将下一批多任务标签图像输入至网络参数更新后的残差神经网络，残差神经网络同样基于预设的学习率重新进行学习训练。即输入第二批多任务标签图像，残差神经网络基于学习率，再次对输入的多任务标签图像进行前向传播，同样得到对应的网络输出值并计算加权损失值之后进行反向传播再次更新网络参数。重复上述步骤进行迭代训练，直到加权损失值不再下降为止，即得到加权损失值不再减小为止。可以理解为，若加权损失值一直变动，则表示神经网络的各个网络参数并未达到最优值，即还需要进行训练，而加权损失值不在变动，则表示神经网络到了最优，可以将该残差神经网络作为多任务面部动作识别模型投入使用。也就是说，当第二批面部特征图像训练完成后，若加权损失值相比第一次的加权损失值变动减小了，即可在第二次更新网络参数后再次输入第三批多任务标签图像，一直到加权损失值不再下降为止。可以理解为计算的加权损失值趋向于0，趋向于0则表示神经网络的预测值和期望值越接近，表示神经网络训练完成。

其中，网络输出值包括预测值和真实标签，得到预测值和真实标签之后，即可利用损失函数进行计算，从而得到对应的损失值。然而，由于本实施例为多任务学习，相比一般的模型训练，多任务学习的差别在于损失函数的定义，每个子任务都有对应损失函数，因此最终模型的损失函数应当为多个子任务对应的损失值的加权和。则，假设本实施例中的面部动作识别任务、人脸角度预测任务和关键点回归三个任务的损失函数分别为

、/>

和

，它们的加权系数分别为/>

、/>

和/>

，即最终模型的损失函数为：

在本实施例中，由于面部动作识别任务作为主任务，人脸角度预测任务和关键点回归为次任务，因此优选

取1，/>

和/>

分别取0.5。通过多任务联合训练，两个次任务和主任务具有一定的相关性，通过设置加权系数可以一起作为优化目标。并且，由于次任务中包括位置、角度等几何信息，使得模型能够学习相关信息从而提升泛化能力，从而提升主任务目标识别精度。

在一个实施例中，如图4所示，采集面部动作识别数据集，包括以下步骤：

步骤S402，获取采集的统一资源定位符。

步骤S404，根据统一资源定位符爬取得到面部动作识别数据集。

其中，统一资源定位符（Uniform Resource Locator，URL）是对可以从互联网上得到的资源你的位置和访问方法的一种简洁的标识，是互联网上标准资源的地址，互联网上的每个文件都有一个唯一的URL。

具体地，当需要获取面部动作识别数据集时，通过统一资源定位符即可爬虫获取到对应的面部动作识别数据集。统一资源定位符可以获取预先配置好的，也可以通过接收终端发送的统一资源定位符。

在一个实施例中，当经过训练得到多任务面部动作识别模型之后，即可利用该多任务面部动作识别模型进行面部动作识别。具体地，获取待识别面部动作图像，将待识别面部动作图像输入至该多任务面部动作识别模型。该多任务面部动作识别模型通过对待识别面部动作图像进行特征提取，以及对特征进行分类后确定待识别面部动作图像中面部动作标签、关键点标签以及角度标签。可以理解为识别得到面部动作表情，例如张嘴、闭眼等动作，以及待识别图像中人脸的关键点和旋转的角度等。

应该理解的是，虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图5所示，提供了一种多任务面部动作识别模型训练装置，包括：采集模块502、关键点检测模块504、角度检测506和训练模块508，其中：

采集模块502，用于采集面部动作识别数据集。

关键点检测模块504，用于对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像。

角度检测506，用于根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像。

训练模块508，用于将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务的面部动作识别模型。

在一个实施例中，关键点检测模块504还用于将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；利用多任务卷积神经网络对图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像；基于面部特征关键点坐标和预设的模板点坐标，将对应的面部动作图像进行人脸对齐处理，得到关键点标签图像。

在一个实施例中，关键点检测模块504还用于利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤第一特征图中标定的边框，获得第二特征图；根据第二特征图得到包含面部特征关键点坐标的面部动作图像。

在一个实施例中，关键点检测模块504还用于获取预设的模板点坐标；计算面部特征关键点坐标和模板点坐标的相似变换矩阵；将相似变换矩阵与对应的面部动作图像的矩阵进行相乘，得到的图像为关键点标签图像。

在一个实施例中，角度检测506还用于获取预设标准图像的人脸关键点坐标；利用dlib库中的人脸检测模型对关键点标签图像进行人脸检测，得到关键点标签图像的人脸关键点坐标；根据预设标准图像的人脸关键点坐标和关键点标签图像的人脸关键点坐标进行角度计算，得到关键点标签图像中人脸的旋转角度；根据旋转角度确定角度标签，得到包括角度标签的多任务标签图像。

在一个实施例中，训练模块508还用于初始化残差神经网络的网络参数；将多任务标签图像按批量输入至残差神经网络做前向传播，得到网络输出值；基于预设损失函数和加权系数，以及网络输出值计算加权损失值；根据加权损失值进行反向传播，得到残差神经网络的网络参数的梯度值；根据梯度值更新残差神经网络的网络参数；返回将多任务标签图像按批量输入至残差神经网络做前向传播的步骤，直到加权损失值不再下降为止，将训练好的残差神经网络作为多任务面部动作识别模型。

在一个实施例中，采集模块502还用于获取采集的统一资源定位符；根据统一资源定位符爬取得到面部动作识别数据集。

关于多任务面部动作识别模型训练装置的具体限定可以参见上文中对于多任务面部动作识别模型训练方法的限定，在此不再赘述。上述多任务面部动作识别模型训练装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多任务面部动作识别模型训练方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

采集面部动作识别数据集；

对面部动作识别数据集中的面部动作图像进行人脸检测和人脸对齐，得到关键点标签图像；

根据预设标准图像检测关键点标签图像中人脸的角度，得到包括角度标签的多任务标签图像；

将多任务标签图像输入预设的残差神经网络，以对残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务的面部动作识别模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

将面部动作识别数据集中的面部动作图像进行缩放处理，并构建得到图像金字塔；利用多任务卷积神经网络对图像金字塔进行人脸检测，得到包含面部特征关键点坐标的面部动作图像；基于面部特征关键点坐标和预设的模板点坐标，将对应的面部动作图像进行人脸对齐处理，得到关键点标签图像。

利用多任务卷积神经网络对图像金字塔进行特征提取和边框标定，得到第一特征图；过滤第一特征图中标定的边框，获得第二特征图；根据第二特征图得到包含面部特征关键点坐标的面部动作图像。

获取预设的模板点坐标；计算面部特征关键点坐标和模板点坐标的相似变换矩阵；将相似变换矩阵与对应的面部动作图像的矩阵进行相乘，得到的图像为关键点标签图像。

获取预设标准图像的人脸关键点坐标；利用dlib库中的人脸检测模型对关键点标签图像进行人脸检测，得到关键点标签图像的人脸关键点坐标；根据预设标准图像的人脸关键点坐标和关键点标签图像的人脸关键点坐标进行角度计算，得到关键点标签图像中人脸的旋转角度；根据旋转角度确定角度标签，得到包括角度标签的多任务标签图像。

初始化残差神经网络的网络参数；将多任务标签图像按批量输入至残差神经网络做前向传播，得到网络输出值；基于预设损失函数和加权系数，以及网络输出值计算加权损失值；根据加权损失值进行反向传播，得到残差神经网络的网络参数的梯度值；根据梯度值更新残差神经网络的网络参数；返回将多任务标签图像按批量输入至残差神经网络做前向传播的步骤，直到加权损失值不再下降为止，将训练好的残差神经网络作为多任务面部动作识别模型。

获取采集的统一资源定位符；根据统一资源定位符爬取得到面部动作识别数据集。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

采集面部动作识别数据集；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多任务面部动作识别模型训练方法，所述方法包括：

采集面部动作识别数据集；

过滤所述第一特征图中标定的边框，获得第二特征图；

根据所述第二特征图得到包含面部特征关键点坐标的面部动作图像；

基于所述面部特征关键点坐标和预设的模板点坐标，将对应的所述面部动作图像进行人脸对齐处理，得到关键点标签图像；获取预设标准图像的人脸关键点坐标；

根据所述旋转角度确定角度标签，得到包括所述角度标签的多任务标签图像；将所述多任务标签图像输入预设的残差神经网络，以对所述残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务面部动作识别模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述面部特征关键点坐标和预设的模板点坐标，将对应的所述面部动作图像进行人脸对齐处理，得到关键点标签图像，包括：

获取预设的模板点坐标；

3.根据权利要求1所述的方法，其特征在于，所述将所述多任务标签图像输入预设的残差神经网络，以对所述残差神经网络进行多任务训练，将训练好的残差神经网络作为多任务面部动作识别模型，包括：

初始化所述残差神经网络的网络参数；

根据所述梯度值更新所述残差神经网络的网络参数；

4.根据权利要求1所述的方法，其特征在于，所述采集面部动作识别数据集，包括：

获取采集的统一资源定位符；

根据所述统一资源定位符爬取得到面部动作识别数据集。

5.一种多任务面部动作识别方法，所述方法包括：

获取待识别面部动作图像；

利用权利要求1-4任一项所述的多任务面部动作识别模型训练方法所训练的多任务面部动作识别模型，对所述待识别面部动作图像进行识别，得到识别结果；所述识别结果包括动作标签、关键点标签和角度标签。

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。