CN115331284A

CN115331284A - 一种基于自愈机制的真实场景下的人脸表情识别方法及***

Info

Publication number: CN115331284A
Application number: CN202210897253.8A
Authority: CN
Inventors: 卢官明; 宋培星; 卢峻禾
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2022-11-11

Abstract

本发明公开了一种基于自愈机制的真实场景下的人脸表情识别方法及***。该方法包括以下步骤：建立含有不确定表情类别标签的人脸样本集；构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型；在对人脸表情识别模型进行训练的过程中，通过引入对具有不确定类别标签的样本进行重新标注的自愈机制，实现对不确定类别标签的自我修正；将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。该方法可以有效消除具有错误标签的训练样本导致模型过拟合的不利影响，可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征，从而提升真实场景下人脸表情识别的准确率和鲁棒性。

Description

一种基于自愈机制的真实场景下的人脸表情识别方法及***

技术领域

本发明属于机器学习与表情识别领域，具体涉及一种基于自愈机制的真实场景下的人脸表情识别方法及***。

背景技术

人脸面部表情是人类心理状态的直观反映，蕴含着丰富的情感信息，在人际交往中发挥着非常重要的作用。人脸表情识别作为人机交互技术的一个分支，在服务机器人、驾驶员疲劳检测等领域具有潜在的应用价值，近年来受到越来越多的关注。基于深度卷积神经网络的表情识别算法在受控环境(实验室环境)下采集的表情数据集上取得了较好的性能，但在非受控环境(真实场景)下采集的表情数据集上的识别性能并不尽如人意。

相比于受控环境，由于非受控环境更接近真实场景，所采集的表情数据集更能反映实际数据的特性，使用真实场景下采集的样本训练得到的表情识别模型具有实际应用价值。然而，对于真实场景非受控环境下采集的人脸图像，由于姿态多变或被遮挡，人们很难准确地标注其表情类别，创建的大规模表情数据集含有一定比例的类别标签不准确或错误的样本。使用掺杂这些不准确或错误类别标签的人脸样本来训练基于数据驱动的深度学习表情识别模型，会导致如下问题：第一，模型可能会对被错误标注的不确定样本过拟合；第二，被错误标注的不确定样本可能会误导模型去学习不利于表情分类的特征；第三，高比例的标签错误的样本会让模型在训练初期不收敛。上述问题会影响表情识别模型的准确率和鲁棒性。然而目前的研究较少关注这些挑战问题。解决好真实场景非受控环境下的人脸表情识别问题，将有助于推动人机交互技术的发展，对促进人工智能的发展具有积极的作用。

发明内容

发明目的：针对真实场景非受控环境下人脸表情识别存在准确率低、鲁棒性差的问题，本发明的目的是提供一种基于自愈机制的真实场景下的人脸表情识别方法及***，通过在对基于主流深度神经网络的人脸表情识别模型进行不断迭代训练过程中引入自愈机制，对具有不确定类别标签的样本进行重新标注，实现对不确定类别标签的自我修正，以有效消除具有错误标签的训练样本导致模型过拟合的不利影响，可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征，从而提升真实场景下人脸表情识别的准确率和鲁棒性。

技术方案：本发明为实现上述发明目的采用以下技术方案：一种基于自愈机制的真实场景下的人脸表情识别方法，该方法包括以下步骤：

S1.建立含有不确定表情类别标签的人脸样本集；

S2.构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型；所述的特征提取模块由深度卷积神经网络的主干网络构成，用于提取人脸表情特征；所述的全连接层将特征提取模块输出的人脸表情特征全连接到V个神经元，经过非线性激励函数ReLU，映射得到一个V维的特征向量；所述的分类层采用softmax回归分类器，将全连接层输出的V维特征向量全连接到C个输出节点，每个节点对应一种表情类别，经过softmax回归后得到一个C维向量，向量中每一个维度的数值代表输入的人脸样本属于对应表情类别的预测概率，其中，C为表情类别数；

S3.在对人脸表情识别模型进行训练的过程中，通过引入对具有不确定类别标签的样本进行重新标注的自愈机制，实现对不确定类别标签的自我修正，并通过误差反向传播算法调整表情识别模型的参数至最优；

S4.将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。

优选的，所述的不确定表情类别标签是指对真实场景非受控环境下采集的姿态多变或被遮挡的人脸图像进行表情类别标注得到的不准确的类别标签。

优选的，所述步骤S3的训练过程包括以下子步骤：

S3.1利用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重，其中，第n个训练样本的重要性权重为α_n＝σ(W^Tv_n)，n＝1,2,…,N，N为整数，N的值在8、16、32、64、128、256中选取，W为可学习的全连接层参数，W^T为W的转置，σ(·)代表Sigmoid激活函数，

为第n个训练样本的特征向量；

S3.2利用样本排序正则化对一个批量的N个训练样本按照重要性权重从大到小进行排序，并通过样本排序正则损失函数

选择前M个权重较大的样本构成高重要性样本组，后N-M个权重较小的样本构成低重要性样本组，满足高重要性样本组的权重均值

与低重要性样本组的权重均值

之差大于一个预设的阈值δ₁，确保注意力机制学习到有利于模型训练的样本重要性权重分布，其中，M为整数，M的取值受样本排序正则损失函数约束，

α_i为按照重要性权重从大到小进行排序后第i个训练样本的重要性权重，i＝1,2,…,N，δ₁为实数；

S3.3利用样本标签自我修正机制对低重要性样本组中样本的不确定表情类别标签进行重新标注，具体方法是：对于低重要性样本组中的每个训练样本，设分类层输出的对应于C种表情类别的预测概率分别为p₁、p₂、……、p_C，对应于样本当前类别标签l_t的预测概率为p_t，p_t∈{p₁,p₂,...,p_C}，最大类别预测概率为p_max＝max{p₁,p₂,...,p_C}，如果p_max与p_t之差大于一个预设的阈值δ₂，则将该训练样本的当前类别标签修正为最大类别预测概率p_max所对应的类别标签l_max，否则当前类别标签保持不变，即：

优选的，δ₁取值范围为0.1～0.3。

优选的，δ₂取值范围为0.2～0.5。

优选的，所述步骤S3中对人脸表情识别模型进行训练所用的损失函数定义为：

L₁＝βL_RR+(1-β)L_CE

其中，β是权重参数，用于调节L_RR和L_CE之间的平衡；L_RR为样本排序正则损失函数，定义为

L_CE为分类损失函数，采用logit加权的交叉熵损失，定义为：

其中，C是表情类别数，

为第n个训练样本的特征向量，W_c、

为可学习的全连接层参数，

为

的转置，l_n为第n个训练样本的当前类别标签所对应的索引，exp(·)为自然常数e为底的指数函数。

优选的，β取值范围为0.3～0.7。

本发明还提出一种基于自愈机制的真实场景下的人脸表情识别***，包括至少一台计算设备，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述计算机程序被加载至处理器时实现上述一种基于自愈机制的真实场景下的人脸表情识别方法。

本发明还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的一种基于自愈机制的真实场景下的人脸表情识别方法。

有益效果：与现有技术相比，本发明的技术方案具有以下技术效果：

(1)本发明使用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重α_n，将那些被错误标注的不确定样本赋予较低的权重，将那些可靠标注的确定样本赋予较高的权重，并将这些重要性权重用于分类损失函数的加权，以强化可靠标注的确定样本对模型训练的正面影响，消除那些被错误标注的不确定样本对模型训练的负面影响，让表情识别模型学习到更加鲁棒的表情特征。

(2)本发明精心设计了一个样本排序正则化机制，对一个批量的N个训练样本按照重要性权重从大到小进行排序，并通过样本排序正则损失函数选择前M个权重较大的样本构成高重要性样本组，后N-M个权重较小的样本构成低重要性样本组，强制要求高重要性样本组的权重均值

与低重要性样本组的权重均值

之差大于一个预设的阈值δ₁，去监督注意力机制学习到有利于模型训练的样本重要性权重分布，也为后面的样本标签自我修正机制选定需要重新标注的不确定样本。

(3)本发明精心设计了样本标签自我修正机制，对于低重要性样本组中的每个训练样本，通过比较分类层输出的对应于该样本当前类别标签l_t的预测概率p_t与最大类别预测概率p_max之差，谨慎地尝试对不确定表情类别标签进行重新标注，只有当p_max与p_t之差大于一个预设的阈值δ₂时，才会将该训练样本的当前类别标签修正为最大类别预测概率p_max所对应的类别标签l_max，否则当前类别标签l_t保持不变。

(3)本发明提供了一种包括注意力机制、样本排序正则化、样本标签自我修正机制的自愈机制，通过在对基于主流深度神经网络的人脸表情识别模型进行不断迭代训练过程中引入自愈机制，对具有不确定类别标签的样本进行重新标注，实现对不确定类别标签的自我修正，以有效消除具有错误标签的训练样本导致模型过拟合的不利影响，可以在掺杂不准确或错误类别标签的人脸表情数据集中学习到鲁棒的表情特征，从而提升真实场景下人脸表情识别的准确率和鲁棒性。

附图说明

图1是本发明实施例方法的基本流程示意图；

图2是本发明实施例选用RAF-DB人脸表情数据集里的一些人脸图像样例。

具体实施方式

下面结合说明书附图对本发明的具体实施方式做进一步详细的说明。

如图1所示，本发明实施例提供的一种基于自愈机制的真实场景下的人脸表情识别方法，主要包括如下步骤：

步骤1：建立含有不确定表情类别标签的人脸样本集，所述的不确定表情类别标签是指对真实场景非受控环境下采集的姿态多变或被遮挡的人脸图像进行表情类别标注得到的不准确的类别标签。

本实施例选用RAF-DB人脸表情数据集，该数据集包含29672幅真实场景下的人脸图像，不同的头部姿态、不同的年龄段、现实中的遮挡、分辨率和光照变化都在该数据集上得到充分的体现，每幅人脸图像都标注了7种表情类别中的一种：愤怒、厌恶、恐惧、悲伤、高兴、惊讶、中性。图2给出了RAF-DB人脸表情数据集里的一些人脸图像样例。由于受遮挡、头部姿态的影响，人们很难准确地标注其表情类别，在图2中，表情类别标签的不确定性从左到右是增加的，RAF-DB人脸表情数据集里不可避免地含有一定比例的类别标签不准确或错误的样本。使用掺杂这些不准确或错误类别标签的人脸样本来训练基于数据驱动的深度学习表情识别模型，会导致模型对被错误标注的不确定样本过拟合，影响表情识别模型的准确率和鲁棒性。

步骤2：构建一个包含特征提取模块、全连接层和分类层的人脸表情识别模型。

在本实施例中，我们先采用MTCNN(Multi-task Cascaded ConvolutionalNetworks)算法对输入的图像进行人脸检测和对齐处理，并最终缩放到224*224像素的分辨率，然后选用在MS-Celeb-1M人脸识别数据集上预训练好的ResNet-18主干网络作为特征提取模块，ResNet-18的最后一个池化层输出人脸表情特征。全连接层将人脸表情特征全连接到V个神经元，经过非线性激励函数ReLU，映射得到一个V维的特征向量；分类层采用softmax回归分类器，将全连接层输出的V维特征向量全到C个输出节点，每个节点对应一种表情类别，经过softmax回归后得到一个C维向量，向量中每一个维度的数值代表输入的人脸样本属于对应表情类别的预测概率，其中C为表情类别数。在本实施例中，V＝128，C＝7。

步骤3：在对人脸表情识别模型进行训练的过程中，通过引入对具有不确定类别标签的样本进行重新标注的自愈机制，实现对不确定类别标签的自我修正，具体过程如下：

(3.1)使用注意力机制学习一个批量的N个训练样本中每个训练样本的重要性权重，其中，第n个训练样本的重要性权重为α_n＝σ(W^Tv_n)，n＝1,2,…,N，N为整数，N的值在8、16、32、64、128、256中选取，W为可学习的全连接层参数，全连接层将人脸表情特征全连接到V个神经元，利用深度学习的torch框架可以学习到这些参数，W^T为W的转置，σ(·)代表Sigmoid激活函数，

为第n个训练样本的特征向量。在本实施例中，N＝64，V＝128。

(3.2)使用样本排序正则化对一个批量的N个训练样本按照重要性权重从大到小进行排序，并通过样本排序正则损失函数

选择前M个权重较大的样本构成高重要性样本组，后N-M个权重较小的样本构成低重要性样本组，强制要求高重要性样本组的权重均值

与低重要性样本组的权重均值

α_i为按照重要性权重从大到小进行排序后第i个训练样本的重要性权重，i＝1,2,…,N，δ₁为实数，可以被设定为可学习的参数，也可以被设定为一个固定的阈值，取值范围为0.1～0.3。在本实施例中，δ₁＝0.15。

(3.3)使用样本标签自我修正机制对低重要性样本组中样本的不确定表情类别标签进行重新标注。具体方法是：对于低重要性样本组中的每个训练样本，设分类层输出的对应于C种表情类别的预测概率分别为p₁、p₂、……、p_C，对应于样本当前类别标签l_t的预测概率为p_t，p_t∈{p₁,p₂,...,p_C}，最大类别预测概率为p_max＝max{p₁,p₂,...,p_C}，如果p_max与p_t之差大于一个预设的阈值δ₂，则将该训练样本的当前类别标签修正为最大类别预测概率p_max所对应的类别标签l_max，否则当前类别标签保持不变，即

其中，δ₂为实数，取值范围为0.2～0.5。在本实施例中，C＝7，δ₂＝0.3。

在对人脸表情识别模型进行训练过程中，本实施例中所使用的损失函数表达式为：L₁＝βL_RR+(1-β)L_CE

其中，β是权重参数，用于调节L_RR和L_CE之间的平衡，在本实施例中，β＝0.5；L_RR为样本排序正则损失函数，其表达式为

，在本实施例中，δ₁＝0.15；L_CE为分类损失函数，采用logit加权的交叉熵损失，其表达式为：

其中，C是表情类别数，

为第n个训练样本的特征向量，W为可学习的全连接层参数，W^T为W的转置，l_n为第n个训练样本的当前类别标签所对应的索引，exp(·)为自然常数e为底的指数函数，在本实施例中，V＝128，C＝7。

步骤4：将待测的人脸图像输入到训练好的人脸表情识别模型进行表情识别。

为了验证本实施例方法的有效性，我们使用公开的人脸表情数据集RAF-DB来评估所提出的方法的性能，并与其他现有方法进行对比。RAF-DB数据集包含29672幅真实场景下的人脸图像，在本实施例中，选取了其中的20736个样本用作训练集、5888个样本用作验证集、3048个样本用作测试集。

在采用基于ResNet-18主干网络的人脸表情识别模型时，若在模型训练过程中不引入自愈机制，直接用RAF-DB数据集里的样本来训练模型，则训练好的模型在测试集上的识别准确率为75.30％；若在模型训练过程中通过引入自愈机制，在对RAF-DB数据集里具有错误标签的样本进行标签自我修正后再训练模型，则训练好的模型在测试集上的识别准确率为80.23％，比不引入自愈机制提升了4.93％。另外，我们同时对比了处理含噪声标签样本的两种神经网络训练方法：CleanNet和MentorNet。使用文献1(Kuang-Huei Lee,Xiaodong He,Lei Zhang,Linjun Yang.CleanNet:Transfer Learning for ScalableImage Classifier Training with Label Noise[C]//Proceedings of the IEEEComputer Society Conference on Computer Vision and Pattern Recognition,p.5447-5456,December 14,2018)公开的CleanNet的训练方法的识别准确率为76.33％，使用文献2(Lu Jiang,Zhengyuan Zhou,Thomas Leung,Li-Jia Li,Li Fei-Fei.MentorNet:Learning data-driven curriculum for very deep neural networks on corruptedlabels[J/OL].https://arxiv.org/pdf/1712.05055v2.pdf)公开的Mentornet的训练方法的识别准确率为77.08％。

综上所述，本实施例在对基于ResNet-18主干网络的人脸表情识别模型进行不断迭代训练过程中，通过引入包括注意力机制、样本排序正则化、样本标签自我修正机制的自愈机制，对具有不确定类别标签的样本进行重新标注，实现对不确定类别标签的自我修正，可以有效消除具有错误标签的训练样本导致模型过拟合的不利影响，能够在掺杂不准确或错误类别标签的RAF-DB人脸表情数据集中学习到鲁棒的表情特征，从而提升真实场景下人脸表情识别的准确率和鲁棒性。

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、***、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。因此，本发明的保护范围应该以权利要求书的保护范围为准。