CN113920575A

CN113920575A - 一种人脸表情识别方法、装置及存储介质

Info

Publication number: CN113920575A
Application number: CN202111528667.5A
Authority: CN
Inventors: 邓建响; 刘国清; 徐子健
Original assignee: Shenzhen Minieye Innovation Technology Co Ltd
Current assignee: Shenzhen Minieye Innovation Technology Co Ltd
Priority date: 2021-12-15
Filing date: 2021-12-15
Publication date: 2022-01-11

Abstract

本发明公开了一种人脸表情识别方法、装置及存储介质，其中方法包括：获取人脸图像，将人脸图像进行对齐处理得到对齐人脸图像；基于重要关键点在对齐人脸图像中划分四个图像区域；标注对齐人脸图像中的人脸表情以及每个图像区域对应的状态，得到训练集数据；将训练集数据输入至预先设计好的神经网络结构中，进行模型训练得到人脸表情识别模型；将待识别人脸图像输入至人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，根据每一个图像区域对应的状态对人脸识别结果进行修正，得到最终的人脸识别结果。本发明实施例根据图像区域对应的状态对人脸表情识别结果进行修正，能够有效提高人脸表情识别的准确性。

Description

一种人脸表情识别方法、装置及存储介质

技术领域

本发明涉及图像识别技术领域，尤其是涉及一种人脸表情识别方法、装置及存储介质。

背景技术

在智能座舱***中，人脸图像的表情识别能够提供舱内人员的情绪信息。人类面部表情识别深受人们的文化、性别、种族、年龄等影响，难以给出精度较高的预测。随着人们对智能座舱的体验要求不断提高，提高人脸图像表情识别精度来判断舱内人员感受成为重要的研究方向之一。现有的人脸表情识别方法通常为基于2D人脸图像直接识别人脸表情，但是现有的人脸表情识别方法直接识别人脸表情，在复杂的实际环境下表情识别的准确率较低。

发明内容

本发明提供了一种人脸表情识别方法、装置及存储介质，以解决现有的人脸表情识别方法直接识别人脸表情，在复杂的实际环境下表情识别的准确率较低得技术问题。

本发明的一个实施例一种人脸表情识别方法，包括：

获取人脸图像，将所述人脸图像进行对齐处理得到对齐人脸图像；

根据人脸表情与面部器官的强关联性获取所述对齐人脸图像中的重要关键点，基于所述重要关键点在所述对齐人脸图像中划分四个图像区域，所述四个图像区域包括左眼区域、右眼区域、嘴部区域和额头及鼻部区域；

标注所述对齐人脸图像中的人脸表情以及每个图像区域对应的状态，得到训练集数据；

将所述训练集数据输入至预先设计好的神经网络结构中，以人脸表情以及每个图像区域对应的状态作为输出结果，进行模型训练得到人脸表情识别模型；

将待识别人脸图像输入至所述人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸识别结果进行修正，得到最终的人脸识别结果。

进一步的，获取人脸图像，将所述人脸图像进行对齐处理得到对齐人脸图像，包括：

采用人脸68点关键点检测算法获取所述人脸图像中的68个人脸关键点，并通过坐标点表示每一个人脸关键点的位置；

根据所述人脸图像中鼻部区域关键点、嘴部区域关键点、左眼部周边关键点和右眼部周边关键点进行仿射变换得到对齐人脸图像。

进一步的，根据人脸表情与面部器官的强关联性获取所述对齐人脸图像中的重要关键点，基于所述重要关键点在所述对齐人脸图像中划分四个图像区域，包括：

根据人脸表情与面部器官的强关联性，获取左眼部对应的重要关键点、右眼部对应的重要关键点、嘴部对应的重要关键点，以及额头及鼻部对应的重要关键点，根据所有所述重要关键点的坐标均值在所述对齐人脸图像中划分四个图像区域。

进一步的，所述人脸表情包括平静、愤怒、高兴、悲伤、惊讶、厌恶和惊讶；

所述左眼部和右眼部的状态包括眼睛眯起、眼部放松和眼部圆瞪；

所述额头及鼻部区域的状态分为放松、皱眉和皱鼻；

所述嘴部区域的状态包括闭口放松、闭口紧闭、张口放松和张口收紧。

进一步的，进行模型训练得到人脸表情识别模型，包括：

将人脸表情的预测作为classes=7的分类问题，将额头及鼻部区域、左眼区域、右眼区域和嘴部区域的预测分别作为classes=3、3、3、4的分类问题，并采用交叉熵函数进行训练，得到人脸表情识别模型。

进一步的，所述交叉熵函数为：

其中，y_i为预测的样本i的标签，c为样本i的真实标签，p(y_i)为样本i标签为y_i的概率，1{}为指示函数，当判断条件为真时，指示函数的值为1，当判断条件为假时，指示函数的值为0。

进一步的，所述在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸识别结果进行修正，得到最终的人脸识别结果，包括：

在所述人脸表情识别结果的概率在预设阈值范围时，检查与所述人脸表情识别结果强相关的图像区域对应的状态，若所述状态不支持所述人脸表情识别结果，则根据所述图像区域对应的状态修正所述人脸识别结果。

进一步的，在将所述训练集数据输入至预先设计好的神经网络结构中之前，采用数据增强方法对所述训练集数据进行预处理，所述数据增强方法包括水平翻转、对比度增强、加高斯噪声和随机单应性变换的至少一种。

本发明的一个实施例提供了一种人脸表情识别装置，包括：

人脸图像对齐模块，用于获取人脸图像，将所述人脸图像进行对齐处理得到对齐人脸图像；

图像区域划分模块，用于根据人脸表情与面部器官的强关联性获取所述对齐人脸图像中的重要关键点，基于所述重要关键点在所述对齐人脸图像中划分四个图像区域；

图像标注模块，用于标注所述对齐人脸图像中的人脸表情以及每个图像区域对应的状态，得到训练集数据；

模型训练模块，用于将所述训练集数据输入至预先设计好的神经网络结构中，以人脸表情以及每个图像区域对应的状态作为输出结果，进行模型训练得到人脸表情识别模型；

表情识别模块，用于将待识别人脸图像输入至所述人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸识别结果进行修正，得到最终的人脸识别结果。

本发明的一个实施例提供了一种计算机存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述的人脸表情识别的步骤。

本发明实施例根据人脸表情与面部器官的强相关性在人脸图像中划分四个图像区域，通过人脸表情识别模型得到人脸表情识别结果以及每个图像区域对应的状态，根据图像区域对应的状态对人脸表情识别结果进行修正，能够有效提高人脸表情识别的准确性，适用于复杂场景下的人脸表情识别。

附图说明

图1是本发明实施例提供的人脸表情识别方法的流程示意图；

图2是本发明实施例提供的人脸关键点分布以及区域划分示意图；

图3是本发明实施例提供的人脸表情示意图；

图4是本发明实施例提供的额头及鼻部区域状态示意图；

图5是本发明实施例提供的眼部区域状态示意图；

图6是本发明实施例提供的嘴部区域状态示意图；

图7是本发明实施例提供的多任务的神经网络模型的流程示意图；

图8是本发明实施例提供的人脸表情识别装置的结构式示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请的描述中，需要理解的是，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。

请参阅图1，本发明的一个实施例一种人脸表情识别方法，包括：

S1、获取人脸图像，将人脸图像进行对齐处理得到对齐人脸图像；

在本发明实施例中，可通过视频截图或实时拍摄的方式获取人脸图像，也可以通过调用数据库得到人脸图像。本发明实施例可以采用人脸68个关键点检测算法得到人脸的68个关键点，根据每个关键点的坐标点实现人脸图像的对齐处理。

S2、根据人脸表情与面部器官的强关联性获取对齐人脸图像中的重要关键点，基于重要关键点在对齐人脸图像中划分四个图像区域，四个图像区域包括左眼区域、右眼区域、嘴部区域和额头及鼻部区域；

需要说明的是，与人脸表情强关联性的面部器官包括：眼部、眉部以及嘴部，本发明实施例根据眼部、眉部以及嘴部区域在对其人脸图像中划分为四个对应的图像区域，根据这四个图像区域所表现的状态来修正人脸表情识别结果。

S3、标注对齐人脸图像中的人脸表情以及每个图像区域对应的状态，得到训练集数据；

请参阅图3，人脸表情包括平静、愤怒、高兴、悲伤、惊讶、厌恶和惊讶；请参阅图5，左眼部和右眼部的状态包括眼睛眯起、眼部放松和眼部圆瞪；请参阅图4，额头及鼻部区域的状态分为放松、皱眉和皱鼻；请参阅图6，嘴部区域的状态包括闭口放松、闭口紧闭、张口放松和张口收紧。

为消除表情数据标注的不确定性，本发明实施例采用是欧东标注的方式根据粉恋面部呈现的表情状态进行人脸表情以及每个图像区域的标注。

S4、将训练集数据输入至预先设计好的神经网络结构中，以人脸表情以及每个图像区域对应的状态作为输出结果，进行模型训练得到人脸表情识别模型；

在模型训练过程中，人脸表情识别以及每个图像区域对应的状态共为5个任务，其中人脸表情识别任务之间将整个特征图进行卷积处理，每个图像区域对应的任务根据每个图像区域对应的M层特征图进行卷积操作，且在训练过程中需要调整除最后全连接层的输入通过个数。需要说明的是，本发明实施例的5个任务的训练过程均为分类任务，其整体结构相同，训练的参数可根据实际需要进行调整。

S5、将待识别人脸图像输入至人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在人脸表情识别结果的概率在预设阈值范围时，根据每一个图像区域对应的状态对人脸识别结果进行修正，得到最终的人脸识别结果。

在本发明实施例中，根据人脸表情与面部器官的强相关性在人脸图像中划分四个图像区域，通过人脸表情识别模型得到人脸表情识别结果以及每个图像区域对应的状态，根据图像区域对应的状态对人脸表情识别结果进行修正，能够有效提高人脸表情识别的准确性，适用于复杂场景下的人脸表情识别。

在一个实施例中，获取人脸图像，将人脸图像进行对齐处理得到对齐人脸图像，包括：

采用人脸68点关键点检测算法获取人脸图像中的68个人脸关键点，并通过坐标点表示每一个人脸关键点的位置；

请参阅图2，68个关键点的位置及顺序如图2所示，每个关键点在同一坐标系后采用（x, y)坐标表示。

根据人脸图像中鼻部区域关键点、嘴部区域关键点、左眼部周边关键点和右眼部周边关键点进行仿射变换得到对齐人脸图像。

请继续参阅图2，本发明实施例根据68个点中的第30、48、54个点及左右眼部周边点坐标均值，通过仿射变换获取仿射变换矩阵，得到变换后的68个关键点坐标信息，在根据变换举证获取对齐后的人脸图像，在一种具体的实施方式中，对齐后的人连图像大小为（128，128）。

在一个实施例中，根据人脸表情与面部器官的强关联性获取对齐人脸图像中的重要关键点，基于重要关键点在对齐人脸图像中划分四个图像区域，包括：

根据人脸表情与面部器官的强关联性，获取左眼部对应的重要关键点、右眼部对应的重要关键点、嘴部对应的重要关键点，以及额头及鼻部对应的重要关键点，根据所有重要关键点的坐标均值在对齐人脸图像中划分四个图像区域。

本发明实施例根据对多种面部表情的面部表现，分析嘴部、鼻子、眉头、眼睛及眉毛特点，发现7类别表情与眼部、眉部、鼻子及嘴部存在强相关性。请继续参阅图2，左眼部对应17、19、27、28关键点构成的矩形区域，右眼部对应24、26、27、28关键点构成的矩形区域，嘴部对应关键点33水平线以下区域，眉部及鼻部对应关键点33以上、及关键点20、23之间组成的区域。即本发明实施例中重要关键点为17、19、20、23、24、26、27、28、33，通过统计上述关键点的坐标均值，准确划分四个图像区域。

在一个实施例中，进行模型训练得到人脸表情识别模型，包括：

请参阅图7，为本发明实施例提供的一种多任务神经网络模型的流程示意图。本发明实施根据面部区域的位置，将面部区域对应神经网络的最后一个特征图（即图7中的M层）的区域，对该区域进行后续卷积和全连接处理，从而实现每个对应的面部区域的状态单独学习以及预测。

在一个实施例中，交叉熵函数为：

在一个实施例中，在人脸表情识别结果的概率在预设阈值范围时，根据每一个图像区域对应的状态对人脸识别结果进行修正，得到最终的人脸识别结果，包括：

在人脸表情识别结果的概率在预设阈值范围时，检查与人脸表情识别结果强相关的图像区域对应的状态，若状态不支持人脸表情识别结果，则根据图像区域对应的状态修正人脸识别结果。

在一个具体的实施方式中，本发明实施例的人脸表情识别结果为7个，包括平静、愤怒、高兴、悲伤、惊讶、厌恶和惊讶，模型输出的人脸表情识别结果中有7个对应的概率值，概率最大的表情其概率值必定大于1/7，若该最大值概率值较小，如设置预设阈值范围为1/7至1/6，该概率值为1/13时，根据得到的人脸表情识别结果关联的面部区域的状态进行调整，例如，当人脸表情结果识别为惊讶时，若该识别结果的概率在预设范围，根据惊讶表情强相关的图像区域，例如左眼部和右眼部对应的状态进行调整，若此时眼部对应的状态均为圆瞪，则人脸识别结果可靠，最终的人脸识别结果为惊讶，若此时眼部对应的状态为放松或眯起，则该人脸图像的表情为非惊讶表情。

在一个实施例中，在将训练集数据输入至预先设计好的神经网络结构中之前，采用数据增强方法对训练集数据进行预处理，数据增强方法包括水平翻转、对比度增强、加高斯噪声和随机单应性变换的至少一种。

在本发明实施例中，在将训练集数据输入至预先设计好的神经网络结构中之前，还将训练接数据的人脸图像做归一化处理，具体为：（Ｉ- 128.0）/255.0，其中，I为人脸图像，128.0为均值，255.0为方差。

实施本发明实施例，具有以下有益效果：

进一步的，本发明实施例将人脸表情与面部区域特征进行关联，在进行模型训练时候，仅需对人脸表情以及各个面部区域对应的状态进行标注即可，能够有效降低数据标注的难度，且以标注后的数据作为训练集，能够显著降低表情识别的训练数，从而能够有效降低训练的不确定性，以及提高模型训练的可靠性以及准确性。

请参阅图8，基于与上述实施例相同的技术构思，本发明的一个实施例提供了一种人脸表情识别装置，包括：

人脸图像对齐模块10，用于获取人脸图像，将人脸图像进行对齐处理得到对齐人脸图像；

图像区域划分模块20，用于根据人脸表情与面部器官的强关联性获取对齐人脸图像中的重要关键点，基于重要关键点在对齐人脸图像中划分四个图像区域；

图像标注模块30，用于标注对齐人脸图像中的人脸表情以及每个图像区域对应的状态，得到训练集数据；

模型训练模块40，用于将训练集数据输入至预先设计好的神经网络结构中，以人脸表情以及每个图像区域对应的状态作为输出结果，进行模型训练得到人脸表情识别模型；

表情识别模块50，用于将待识别人脸图像输入至人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在人脸表情识别结果的概率在预设阈值范围时，根据每一个图像区域对应的状态对人脸识别结果进行修正，得到最终的人脸识别结果。

在一个实施例中，人脸图像对齐模块10具体用于：

在一个实施例中，图像区域划分模块20具体用于：

在一个实施例中，人脸表情包括平静、愤怒、高兴、悲伤、惊讶、厌恶和惊讶；

左眼部和右眼部的状态包括眼睛眯起、眼部放松和眼部圆瞪；

额头及鼻部区域的状态分为放松、皱眉和皱鼻；

嘴部区域的状态包括闭口放松、闭口紧闭、张口放松和张口收紧。

在一个实施例中，模型训练模块40具体用于：

在一个实施例中，交叉熵函数为：

在一个实施例中，表情识别模块50具体用于：

在一个实施例中，还包括数据预处理模块，用于在将训练集数据输入至预先设计好的神经网络结构中之前，采用数据增强方法对训练集数据进行预处理，数据增强方法包括水平翻转、对比度增强、加高斯噪声和随机单应性变换的至少一种。

本发明的一个实施例提供了一种计算机存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述的人脸表情识别的步骤。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种人脸表情识别方法，其特征在于，包括：

将待识别人脸图像输入至所述人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸表情识别结果进行修正，得到最终的人脸识别结果。

2.如权利要求1所述的人脸表情识别方法，其特征在于，获取人脸图像，将所述人脸图像进行对齐处理得到对齐人脸图像，包括：

3.如权利要求1所述的人脸表情识别方法，其特征在于，根据人脸表情与面部器官的强关联性获取所述对齐人脸图像中的重要关键点，基于所述重要关键点在所述对齐人脸图像中划分四个图像区域，包括：

4.如权利要求1所述的人脸表情识别方法，其特征在于，

所述人脸表情包括平静、愤怒、高兴、悲伤、惊讶、厌恶和惊讶；

所述左眼区域和右眼区域的状态包括眼睛眯起、眼部放松和眼部圆瞪；

所述额头及鼻部区域的状态分为放松、皱眉和皱鼻；

5.如权利要求1所述的人脸表情识别方法，其特征在于，进行模型训练得到人脸表情识别模型，包括：

6.如权利要求5所述的人脸表情识别方法，其特征在于，所述交叉熵函数为：

7.如权利要求1所述的人脸表情识别方法，其特征在于，所述在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸识别结果进行修正，得到最终的人脸识别结果，包括：

8.如权利要求1所述的人脸表情识别方法，其特征在于，在将所述训练集数据输入至预先设计好的神经网络结构中之前，采用数据增强方法对所述训练集数据进行预处理，所述数据增强方法包括水平翻转、对比度增强、加高斯噪声和随机单应性变换的至少一种。

9.一种人脸表情识别装置，其特征在于，包括：

表情识别模块，用于将待识别人脸图像输入至所述人脸表情识别模型中得到人脸表情识别结果以及每个图像区域对应的状态，在所述人脸表情识别结果的概率在预设阈值范围时，根据所述每一个图像区域对应的状态对所述人脸表情识别结果进行修正，得到最终的人脸识别结果。

10.一种计算机存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的人脸表情识别的步骤。