CN110647865B

CN110647865B - 人脸姿态的识别方法、装置、设备及存储介质

Info

Publication number: CN110647865B
Application number: CN201910945716.1A
Authority: CN
Inventors: 曹赟; 曹煊; 赵艳丹; 甘振业; 汪铖杰; 李季檩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2023-08-08
Anticipated expiration: 2039-09-30
Also published as: CN110647865A

Abstract

本申请公开了一种人脸姿态的识别方法、装置、设备及存储介质，属于人脸识别技术领域。所述方法包括：获取含有人脸区域的区域图像；调用姿态角度识别模型对所述区域图像中的人脸姿态进行识别，所述姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型；所述姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，所述样本人脸姿态角度是在周角范围内选取得到的任意角度；获取所述姿态角度识别模型输出的所述人脸姿态角度，所述人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角。所述人脸姿态角度是在所述周角范围内的任意角度。

Description

人脸姿态的识别方法、装置、设备及存储介质

技术领域

本申请涉及人脸识别技术领域，特别涉及一种人脸姿态的识别方法、装置、设备及存储介质。

背景技术

人脸识别技术是基于用户的面部特征，对输入的人脸图像或视频流进行识别，该技术首先判别输入的图像和视频流是否存在人脸，若存在人脸则进一步获取每一张脸的位置、大小对应的信息和各面部器官的位置信息，根据上述信息可提取出人脸中蕴含的身份特征，将识别出的面部信息与已知的人脸信息进行比对，可以获知人脸对应的用户身份。

人脸识别可根据用户的面部表情或动作、用户头部的动作来识别人脸处于的状态，如抬头、低头、扭头等，还可通过捕捉用户的面部关键特征建立三维模型，三维模型可通过用户的表情动作来控制，需要对用户面部变化进行准确识别。相关技术中，采用神经网络模型对人脸姿态是否处于侧脸状态、抬头状态、低头状态进行识别。

基于上述情况，神经网络模型只能识别人脸在动作层面上的姿态，无法应对人脸姿态角度的准确度需求较高的应用场景。

发明内容

本申请实施例提供了一种人脸姿态的识别方法、装置、设备及存储介质，可以解决相关技术中神经网络模型无法识别较为准确的人脸姿态角度的问题。所述技术方案如下：

根据本申请的一个方面，提供了一种人脸姿态的识别方法，所述方法包括：

获取含有人脸区域的区域图像；

调用姿态角度识别模型对所述区域图像中的人脸姿态进行识别，所述姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型，所述姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，所述样本人脸姿态角度是在周角范围内选取得到的任意角度；

获取所述姿态角度识别模型输出的所述人脸姿态角度，所述人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，所述人脸姿态角度是在所述周角范围内的任意角度。

根据本申请的另一方面，提供了一种人脸姿态的识别装置，所述装置包括：

获取模块，用于获取含有人脸区域的区域图像；

姿态角度识别模型，用于对所述区域图像中的人脸姿态进行识别，所述姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型，所述姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，所述样本人脸姿态角度是在周角范围内选取得到的任意角度；

所述获取模块，用于获取所述姿态角度识别模型输出的所述人脸姿态角度，所述人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，所述人脸姿态角度是在所述周角范围内的任意角度。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如上方面所述的人脸姿态的识别方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上方面所述的人脸姿态的识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过选取周角范围内的任意角度作为样本人脸图像中的样本人脸姿态角度来训练姿态角度识别模型，使得姿态角度识别模型可识别周角范围内的任意人脸姿态角度。只需要将含有人脸的图像输入至该姿态角度识别模型中，即可获得人脸图像中的人脸姿态角度，且该人脸姿态角度包括人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，提高姿态角度识别模型对人脸姿态角度识别的精度，满足对人脸姿态角度的准确度需求较高的应用场景。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的人脸姿态角度的示意图；

图2是本申请一个示例性实施例提供的人脸姿态角度的应用场景的示意图；

图3是本申请一个示例性实施例提供的姿态角度识别模型的结构示意图；

图4是本申请一个示例性实施例提供的人脸姿态识别的方法的流程图；

图5是本申请一个示例性实施例提供的姿态角度识别模型的训练方法的流程图；

图6是本申请一个示例性实施例提供的陀螺仪传感器采集样本人脸姿态角度的示意图；

图7是本申请一个示例性实施例提供的采集样本人脸姿态角度的设备的连接示意图；

图8是本申请一个示例性实施例提供的头戴式激光发射器采集样本人脸姿态角度的示意图；

图9是本申请一个示例性实施例提供的摄像头阵列***采集样本人脸姿态角度的示意图；

图10是本申请一个示例性实施例提供的姿态识别模型的结构示意图；

图11是本申请另一个示例性实施例提供的人脸姿态识别的方法的流程图；

图12是本申请一个示例性实施例提供的通过姿态识别模型识别人脸姿态的方法的流程图；

图13是本申请一个示例性实施例提供的姿态识别模型的训练方法的流程图；

图14是本申请一个示例性实施例提供的五官关键点的位置的示意图；

图15是本申请一个示例性实施例提供的姿态角度识别模型预测人脸姿态角度的结果的示意图；

图16是本申请一个示例性实施例提供的人脸姿态的识别装置的框图；

图17是本申请一个示例性实施例提供的计算机设备的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例中涉及的名词进行介绍：

人脸五官关键点：用于表示五官在人脸上的位置，每个五官的位置是一个关键点。本申请实施例涉及的五官关键点包括人脸的左眼瞳孔、右眼瞳孔、鼻尖、左嘴角和右嘴角五个位置对应的点。

欧拉角(Eulerian angles)：是指由欧拉提出的，用来确定定点转动刚***置的3个一组独立角参量，本申请的实施例是基于人脸建立直角坐标系，如图1所示，本申请实施例以人脸姿态角度是欧拉角为例进行说明，欧拉角在三维直角坐标系中，该三维直角坐标系是以人的头部的中心或重心为原点，由人脸的一侧耳朵指向另一侧耳朵的方向为X轴方向，由人的头部顶端指向脖子的方向为Y轴，由人的脸部指向后脑的方向为Z轴，欧拉角包含下述三个角度：

俯仰角θ(pitch)：围绕X轴旋转的角度；

偏航角ψ(yaw)：围绕Y轴旋转的角度；

翻滚角Φ(roll)：围绕Z轴旋转的角度。

置信度：是指神经网络模型对图像中的脸部进行识别，输出该图片中的脸部属于人脸的概率。神经网络模型设置有置信度，示意性的，将一张含有人脸照片输入至神经网络模型中，神经网络模型将输出置信度，当神经网络模型输出的置信度大于置信度阈值时，可以判定神经网络模型识别的照片中的脸部是人的脸部。

人脸识别技术是基于用户的脸部特征，对输入神经网络模型的图像或视频流中含有的人脸进行识别。示意性的，若一张图片含有多个人脸(如集体合照)，神经网络先确定人脸的数量和位置，再根据每个人脸的位置对每个人脸进行特征提取，神经网络模型提取到的人脸特征中包含人的身份特征，因此，人脸识别技术应用于获取身份、验证身份等领域。

本申请实施例提供的人脸姿态的识别方法可应用于如下三个场景：

第一，辅助视线估计，如图2的(a)所示，用户在使用终端时，终端可实时获取人脸姿态角度，该人脸姿态角度是人脸相对于终端的欧拉角，终端可根据人脸姿态角度调整显示屏的亮度、分辨率或显示内容的尺寸等，使得终端更符合用户的使用习惯。

第二，动作表情分析和识别，基于具有识别功能的摄像头可对人脸的动作表情进行分析和识别，该摄像头可以是人工智能(Artificial Intelligence，AI)摄像头，该摄像头可根据每一帧的人脸姿态角度获取用户的面部运动轨迹，基于用户的面部运动轨迹建立三维模型，如基于增强现实(AR，Augmented Reality)的三维动图、三维面部模型(3DAvatar)驱动等。如图2的(b)所示，根据用户的面部建立兔子面部的三维模型，用户在进行抬头、低头、侧脸以及做各种表情时，兔子的脸部也会做出相应的动作。此外，具有识别功能的摄像头还可对取景框中的人脸进行分析，并根据人脸特征推荐不同的拍摄模式，比如，取景框中的人脸处于低头状态，则根据人脸姿态角度推荐对应的拍摄模式，使得用户可拍摄到清晰的照片。

第三，设置有AI摄像头等终端设备的实时监控分析，该AI摄像头是指采集监控视频的摄像头，可用于对异常行为进行检测，比如，教室中安装该AI摄像头可对学生的异常行为进行检测，若存在学生上课不专注或***等情况，该AI摄像头对监控视频中的学生产生的行为进行检测，判定该学生是否存在异常行为。该AI摄像头还可以用于对人脸姿态进行实时过滤，保证向上层应用(如支持人脸识别功能的应用程序、支持采集监控视频的应用程序等)提供清晰的人脸图像，如监控视频中的人脸处于侧脸状态，则根据该侧脸状态对应的人脸姿态角度可获取完整的人脸图像(如获取人脸图像中的人脸是正脸的图像)，从而提高视频监控的识别率。

可选地，支持人脸姿态识别的神经网络模型可以采用卷积神经网络、循环神经网络、深度神经网络中的任意一种神经网络进行构建，本申请实施例提供了一种基于卷积神经网络构建的姿态角度识别模型。

图3示出了本申请一个示例性实施例提供的姿态角度识别模型的结构示意图。

可选地，在姿态角度识别模型102中包括特征提取层(图中未示出)，该特征提取层可以采用卷积层的形式来提取图像特征。

可选地，将图像从输入层103输入，该图像是含有人脸的图像，或该图像是不含有人脸的图像。示意性的，该图像是含有人脸的图像，该图像是人脸区域的区域图像，或该图像是非人脸区域对应的图像。可选地，特征提取层可从图像中提取特征，得到图像特征向量，将图像特征向量输入至姿态角度识别模型102中的其它层。

可选地，姿态角度识别模型102还包括卷积层、批量标准化层、激活函数层和池化层中的至少一种神经网络层。

卷积层(Convolutional layer，Conv)是指卷积神经网络层中由若干卷积单元组成的层状结构，卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络，卷积神经网络中包括至少两个神经网络层，其中，每一个神经网络层包含若干个神经元，各个神经元分层排列，同一层的神经元之间没有互相连接，层间信息的传送只沿一个方向进行。

批量标准化层(Batch Normalization layer,BN)是指能够实现将分散的数据统一的一种层状结构，使得输入神经网络模型中的数据具有统一规格，神经网络模型更易于从数据中寻找规律，并且可以优化神经网络模型。

激活函数层(Activation Function layer，AF)是指由在神经网络模型的神经元上运行的函数的层状结构，能够将神经元的输入映射到输出端。通过在神经网络模型中引入非线性函数，使得神经网络模型的输出值可以任意逼近非线性函数。可选地，激活函数层中使用的函数是线性整流函数(Rectified Linear Unit,ReLU)。

池化层(Pooling layer)：又被命名为取样层，在卷积层之后，是指能够从输入值中二次提取特征的层状结构，池化层可保证上一层数值的主要特征，还可减少下一层的参数和计算量。池化层由多个特征面组成，卷积层的一个特征面与池化层中的一个特征面对应，不会改变特征面的个数，通过降低特征面的分辨率来获得具有空间不变性的特征。

可选地，姿态角度识别模型102中包括两层神经网络层(只包括输入层和输出层)，或多层神经网络层。可选地，姿态角度识别模型102还包括至少一个全连接层。全连接层(Fully Connected layer，FC)是指该层状结构中的每一个结点均与上一层的所有结点相连，可用于将上一层的神经网络层提取的特征进行综合处理，在神经网络模型中起到“分类器”的作用。

可选地，上述神经网络层以任意顺序构建成姿态角度识别模型102，本申请实施例提供的姿态角度识别模型102中的神经网络层的顺序是卷积层、批量标准化层、激活函数层、全连接层。

本申请实施例提供的方法是从姿态角度识别模型102中获得人脸姿态角度，该人脸姿态角度是欧拉角，其中，共用特征提取模型是可选的神经网络模型，可选地，共用特征提取模型由上述神经网络层中的至少一种构成。

本申请基于上述神经网络模型结构提供了一种人脸姿态的识别方法，基于姿态角度识别模型来获取人脸姿态角度。

图4示出了本申请一个示例性实施例提供的人脸姿态的识别方法的流程图，该方法应用于如图3所示的姿态识别模型中，该方法包括以下步骤：

步骤401，获取含有人脸区域的区域图像。

人脸区域的区域图像是指含有人脸的图像中人脸对应的区域，也是人脸检测框(或人脸定位框)中对应的图像，人脸检测框是指可提取图像中人脸的线框，通过在图像上的线框可获取每个人脸在图像中的位置及人脸的数量，比如，一张照片上有多个人脸，照片上的每个人脸都标记有人脸检测框，通过人脸检测框来确定人脸的位置和数量。

可选地，图像包括静态图片和视频流中的至少一种，示意性的，静态图片中含有一个或多个人脸，每个人脸都由人脸检测框提取，在人脸检测框中对应的图像即人脸区域的区域图像；示意性的，视频流中含有一个或多个人脸，每个人脸都由人脸检测框提取，人脸检测框可提取到该视频流中每帧视频的每个人脸，也可在该视频流的所有视频帧中针对某一个人脸进行提取，也即提取某个人脸在该视频流的每帧视频帧中的图像。

可选地，获取人脸区域的区域图像可通过人工方式获取(如通过人工标定人脸区域的区域图像)，或使用神经网络模型获取(如人脸检测模型)，或使用支持提取功能的摄像头(如摄像头模组阵列***)。

步骤402，调用姿态角度识别模型对区域图像中的人脸姿态进行识别，姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型，姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，样本人脸姿态角度是在周角范围内选取的任意角度。

姿态角度识别模型102是指可识别人脸姿态角度的模型，在姿态角度识别模型102中包括共用特征提取模型(图中未示出)，如图3所示。可选地，在输入层103中输入人脸区域的区域图像，该区域图像通过共用特征提取模型从区域图像中的人脸提取特征，比如，从区域图像中提取共用特征作为识别人脸姿态角度的特征点，可选地，该特征点包括：眼睛、鼻子、嘴巴、耳朵、眉毛、额头、下巴中的至少一种，姿态角度识别模型102可通过共用特征提取模型提取的特征点来获取人脸姿态角度。

可选地，姿态角度识别模型102中包括至少一种神经网络层，神经网络层可以是卷积层、批量标准化层、激活函数层和全连接层中的至少一种。可选地，姿态角度识别模型102还包括隐藏层和输出层，隐藏层是指一种用于输入或者分析数据的神经网络层结构，输出层是指一种用于输出结果的神经网络层结构。示意性的，共用特征提取模型从区域图像中提取的共用特征从姿态角度识别模型102的隐藏层输入，姿态角度识别模型102的输出层可输出人脸姿态角度。

周角是指角度值在0°至360°范围内的角，因此样本人脸图像中的样本人脸姿态角度的角度值可以是连续的角度值。可选地，样本人脸姿态角度可通过人工标注或从传感器中直接读取的方法获得。示意性的，传感器是陀螺仪传感器。

步骤403，获取姿态角度识别模型输出的人脸姿态角度，人脸姿态角度包括：人脸相对于拍摄位置的俯仰角，偏航角和翻滚角，人脸姿态角度是在周角范围内的任意角度。

人脸姿态角度是指人脸在不同姿态下相对于拍摄位置的欧拉角，欧拉角包括：俯仰角、偏航角和翻滚角，如图1所示。以人的头部的中心或重心为原点，建立直角坐标系，X轴的方向是从人脸的一侧耳朵指向另一侧耳朵，Y轴的方向是从人脸的顶部指向底部，Z轴的方向是从人脸的前部指向后部，俯仰角是指人脸沿X轴旋转的角度，偏航角是指人脸沿Y轴旋转的角度，翻滚角是指人脸沿Z轴旋转的角度。本申请实施例以人脸面向正前方为初始状态，即在该初始状态下，人脸的俯仰角、偏航角和翻滚角均为0。

由于姿态角度识别模型102是由连续的样本人脸姿态角度训练得到的，因此，姿态角度识别模型102可输出的连续的人脸姿态角度，是周角范围内的任意角度。

综上所述，通过选取周角范围内的任意角度作为样本人脸图像中的样本人脸姿态角度来训练姿态角度识别模型，使得姿态角度识别模型可识别周角范围内的任意人脸姿态角度。只需要将含有人脸的图像输入至该姿态角识别模型中，即可获得人脸图像中的人脸姿态角度，且该人脸姿态角度包括人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，提高姿态角度识别模型对人脸姿态角度识别的精度。

下面对姿态角度识别模型的训练方法进行说明。图5示出了本申请一个示例性实施例提供的姿态角度识别模型的训练方法，该方法应用于如图3所示的姿态角度识别模型中，该方法包括以下步骤：

步骤501，获取训练样本集合，训练样本集合包括样本人脸图像和样本人脸姿态角度。

姿态角度识别模型102是通过训练样本集合训练得到的，样本训练结合包括样本人脸图像和样本人脸姿态角度，样本人脸姿态角度包括：样本人脸相对于拍摄位置的俯仰角、偏航角和翻滚角。可选地，样本训练集合包括至少一组样本人脸图像和样本人脸姿态角度。可选地，样本人脸图像由摄像头采集获得，样本人脸图像包括图片和视频中的至少一种，样本人脸图像中的人脸是带有表情的，或不带有表情的。

可选地，样本人脸姿态角度可由传感器获得，或由人工标定获得。如从传感器直接读取摄像头拍摄的样本人脸图像中的人脸姿态角度，或，针对采集到的样本人脸图像中的人脸建立三维直角坐标系，使用人工标定的方式计算样本人脸图像中的人脸姿态角度。

可选地，样本人脸姿态角度是由陀螺仪传感器在拍摄样本人脸图像的同时采集得到的，陀螺仪传感器是绑定在被拍人脸头部陀螺仪传感器。

示意性的，如图6所示，被拍人脸111的头部绑定有陀螺仪传感器112。采集者平视摄像头，被拍人脸111和陀螺仪传感器112的位置关系如图6的(a)所示，此时将陀螺仪传感器112的输出角度置为零度。被拍人脸111转动至各个角度，摄像头以一定的频率采集被拍人脸111的人脸姿态，将陀螺仪传感器112采集人脸姿态角度的频率设置为与摄像头采集的频率一致，使得视频流中的每一帧视频帧都能采集到对应的人脸姿态角度。如图6的(b)所示，当被拍人脸111呈现如图6的(b)所示的人脸姿态时，从陀螺仪传感器112中读取对应的人脸姿态角度。

本申请实施例以通过终端上的摄像头采集人脸姿态角度为例进行说明。图7示出了本申请一个示例性实施例提供的采集人脸姿态角度的设备的连接示意图。可选地，该终端113可以是笔记本电脑、平板电脑、智能手机等，终端113通过短距离无线通信技术与陀螺仪传感器112相连，示意性的，短距离无线通信技术可以是蓝牙Bluetooth技术、隔空投递Airdrop技术、紫峰ZigBee技术等。

下面以表一说明陀螺仪传感器采集样本人脸姿态角度的结果。

表一

采集者	俯仰角	偏航角	翻滚角	人脸表情	人脸动作
						人脸1	θ₁	ψ₁	Φ₁	微笑	抬头
人脸1	θ₂	ψ₂	Φ₂	无表情	低头
						人脸1	θ₃	ψ₃	Φ₃	皱眉	侧脸
人脸2	θ₁₁	ψ₁₁	Φ₁₁	眨眼	摇头
						人脸2	θ₂₂	ψ₂₂	Φ₂₂	无表情	低头
人脸2	θ₃₃	ψ₃₃	Φ₃₃	大笑	抬头

人脸1和人脸2代表不同的采集者的面部，采集者有多个，可选地，每位采集者至少采集三个样本人脸图像。

综上所述，样本人脸姿态角度可通过陀螺仪传感器直接读取，该方法成本较低，但数据采集存在一定延时且陀螺仪传感器存在磁场误差。

可选地，样本人脸姿态角度是根据头戴式激光发射器113在拍摄样本人脸图像时发出的激光采集得到的，头戴式激光发射器113是绑定在被拍人脸头部的激光发射器。

示意性的，采集者平视摄像头，以此时摄像头采集到的被拍人脸111的图像为基准，以采集者的头部的中心或重心为原点，建立三维直角坐标系(该坐标系与图1所示的三维直角坐标系相同)，此时样本人脸姿态角度在三维方向上的值均为零，也即被拍人脸111的初始状态，如图8的(a)所示。在被拍人脸111转动至各个角度时，由摄像头录制下激光射线指向的位置。如图8的(b)所示，头戴式激光发射器113发射的激光光束指向的位置与样本人脸图像的交点116，根据已建立的三维直角坐标系可确定该交点116的坐标，则可计算出被拍人脸111在该姿态下的样本人脸姿态角度。

可选地，采集被拍人脸111的摄像头可以是相机、智能手机的摄像头、笔记本电脑的摄像头、平板电脑的摄像头。

综上所述，样本人脸姿态角度可通过样本人脸图像间接计算得到的，相比于使用陀螺仪传感器采集样本人脸姿态角度，该方法较为需要计算才能获得样本人脸姿态角度，且采集者初始佩戴的位置不同，采集到的样本人脸姿态角度也有所不同。

可选地，样本人脸姿态角度是通过摄像头模组阵列***采集的得到的，使用大量精度较高的摄像头模组对样本人脸从多个角度进行拍摄，可获得样本人脸的各个状态的样本人脸姿态角度。

示意性的，在采集者前方搭建一个摄像头模组阵列115，该摄像头模组阵列115中包括九个摄像头，九个摄像头呈3×3阵列，对样本人脸的正前方、上侧、下侧、左侧、右侧、左上角、右上角、左下角、右下角进行样本人脸图像采集，如图9的(a)所示。在采集者转动脸部的过程中，如图9的(b)所示，摄像头模组阵列115中每个摄像头以相同的频率对采集者进行拍摄，将同一时刻采集到的九张样本人脸图像输入至三维模型中，通过三维模型得到该时刻的样本人脸姿态角度。

综上所述，通过摄像头模组阵列可采集到精确度较高的样本人脸姿态角度，但该采集过程需要较多的精密摄像头，因此该方法的成本较高。

步骤502，调用姿态角度识别模型对训练样本集合进行识别，得到样本人脸的预测姿态角度。

样本人脸的预测姿态角度包括样本人脸相对于拍摄位置的俯仰角预测值、偏航角预测值和翻滚角预测值。

步骤503，将样本人脸的预测姿态角度和样本人脸姿态角度进行比较，计算损失函数，得到误差损失。

可选地，该误差损失是通过计算平滑的一范数损失函数(SmoothL1Loss)得到的，该损失函数还可以是欧式损失函数，或归一化损失指数函数，或其它损失函数。

在一个示例中，以训练样本包括的样本人脸图像是含有人脸的照片为例进行说明，调用姿态角度识别模型102对照片进行识别，得到人脸的预测姿态角度中俯仰角预测值是θ’，偏航角预测值是ψ’，翻滚角预测值是Φ’，样本人脸姿态角度中俯仰角的标定值是θ，偏航角的标定值是ψ，翻滚角的标定值是Φ，通过计算平滑的一范数损失函数，得到误差损失。

步骤504，通过误差反向传播算法根据误差损失对姿态角度识别模型进行训练，得到训练后的姿态角度识别模型。

根据步骤503得到的误差损失，通过误差反向传播算法对姿态角度识别模型102进行训练，得到训练后的姿态角度识别模型102。

综上所述，通过采用多种方法采集训练样本集合中的样本人脸姿态角度，使得训练样本集合采集到的样本人脸姿态角度的数据更精确，采用反向传播算法根据误差损失对姿态角度识别模型进行训练，提高训练后的姿态角度识别模型对人脸姿态角度识别的精度和准确率。

图10示出了本申请一个示例性实施例提供的姿态识别模型的结构示意图。

可选地，姿态角度识别模型102属于姿态识别模型100，姿态识别模型100还包括：共用特征提取模型101和光照条件识别模型107，共用特征提取模型101是姿态角度识别模型102和光照条件识别模型107共用的特征提取模型。

在本实现方式下，图3中的姿态角度识别模型102的特征提取层可以去掉，替换实现成为共用特征提取模型101。

可选地，姿态识别模型100还包括五官关键点提取模型105、人脸识别模型104和人脸框定位模型106。

人脸识别模型104用于识别图像中的脸部属于人脸的概率，输出人脸置信度，也即识别人脸图像中出现的脸部是否是人的脸部，示意性的，当人脸的置信度大于置信度阈值时，人脸识别模型104将人脸图像中的脸部识别为人的脸部。五官关键点提取模型105用于输出人脸图像中能够代表人脸的五官特征对应的关键点的位置坐标，示意性的，关键点包括人脸上的双眼、鼻子、嘴巴、耳朵、面颊、额头和下巴中的至少一种。本申请实施例以五官关键点是人脸的左眼瞳孔、右眼瞳孔、鼻尖、左嘴角和右嘴角作为代表人脸五官的关键点。人脸框定位模型106用于标定图像中人脸所在的位置，人脸框定位模型106输出人脸定位框的左上角坐标、人脸定位框的高度和宽度。光照条件识别模型107用于识别各种不同光照场景下的人脸图像，该模型将输出的光照条件向量和共用特征提取模型101得到的图像特征向量分别输入至姿态角度识别模型102、人脸识别模型104、五官关键点提取模型105、人脸框定位模型106中，得到人脸姿态角度、人脸置信度、五官关键点的位置坐标和人脸定位框。

可选地，上述神经网络模型包括至少一种神经网络，每个神经网络模型使用相同类型的神经网络，或不同类型的神经网络，或相同类型神经网络中的不同神经网络。可选地，上述神经网络模型中包括至少一层神经网络层，上述神经网络的误差损失计算方法是相同的或不同的。

图11示出了本申请另一个示例性实施例提供的人脸姿态的识别方法的流程图，该方法可应用于如图6所示的姿态识别模型中，该方法包括以下步骤：

步骤1101，获取人脸图像。

可选地，人脸图像包括静态图像和视频流中的至少一种，本申请实施例以静态图像是图片为例进行说明，动态图像是视频流为例进行说明。可选地，人脸图像可通过摄像头拍摄。

步骤1102，根据人脸图像确定人脸检测框。

可选地，调用人脸检测模型对人脸图像进行检测，得到人脸图像上的人脸检测框，或人工标注人脸图像上人脸检测框的位置坐标，或向姿态识别模型中输入只含有一个人脸的人脸图像。可选地，人脸检测模型是独立于姿态识别模型100的模型，或人脸检测模型是姿态识别模型100的一部分。本申请实施例以人脸检测模型是独立于姿态识别模型100的模型。

当人脸图像是静态图像时，调用人脸检测模型对人脸静态图像进行检测，得到第一人脸检测框，该第一人脸检测框中的人脸图像即为截取到的人脸区域的区域图像。

当人脸图像是视频流中的第i-1帧视频帧时，调用人脸框定位模型106对第i-1帧进行识别得到第i-1帧视频帧的人脸定位框，通过第i-1帧视频帧的人脸定位框可得到第i帧视频帧的人脸定位框。此时的人脸定位框即为人脸检测框。

视频流中的每帧视频帧可以看作静态图像，第i-1帧视频帧是视频流中的非首帧视频帧。可选地，该视频流的首帧视频帧是通过人脸检测模型获得的，人脸检测模型不属于姿态识别模型100，通过首帧视频帧中的人脸姿态可获得首帧视频帧之后的每帧视频帧中的人脸定位框。

步骤1103，将人脸检测框中的图像截取为人脸区域的区域图像。

步骤1104，调用姿态识别模型对区域图像中的人脸姿态进行识别。

姿态识别模型100包括共用特征提取模型101、姿态角度识别模型102、人脸识别模型104、五官关键点提取模型105、人脸框定位模型106，光照条件识别模型107是可选模型。下面以姿态识别模型100包括光照条件识别模型107为例进行说明。

可选地，共用特征提取模型101是姿态角度识别模型102和光照条件识别模型107共用的模型，共用特征提取模型101是姿态角度识别模型102和五官关键点提取模型105共用的模型，共用特征提取模型101是姿态角度识别模型102和人脸框定位模型106共用的模型，共用特征提取模型101是姿态角度识别模型102和人脸识别模型104共用的模型，共用特征模型101是上述神经网络模型共用的模型。

结合图12进行说明，图12示出了本申请一个示例性实施例提供的姿态识别模型识别人脸姿态的方法的流程图，该方法可应用于如图6所示的姿态识别模型中，该方法包括以下步骤：

步骤1201，调用共用特征提取模型对区域图像中的人脸姿态进行特征提取，得到图像特征向量。

图像特征向量是指人脸图像中的特征对应的向量。

步骤1202，调用光照条件识别模型对图像特征向量进行识别，得到光照条件向量。

光照条件向量是指多种光照场景下的人脸图像对应的向量，如室内图像、室外图像、强光图像、弱光图像、逆光图像、侧光图像以及红外图像中的至少两种。

步骤1203a，调用姿态角度识别模型根据光照条件向量对图像特征向量进行识别。

步骤1203b，调用五官关键点提取模型根据光照条件向量对图像特征向量进行识别。

步骤1203c，调用人脸定位模型根据光照条件向量对图像特征向量进行识别。

步骤1203d，调用人脸识别模型根据光照条件向量对图像特征向量进行识别。

可以理解的是，若姿态识别模型100中不包括光照条件识别模型107时，上述步骤1203a、步骤1203b、步骤1203c和步骤1203d中的模型直接对图像特征向量进行识别，比如，五官关键点提取模型105对图像特征向量进行识别。

在一个示例中，人脸图像是静态图像，该人脸图像标定有人脸检测框(该人脸检测框是通过人脸检测模型得到的)，将人脸检测框中的图像截取为区域图像，从输入层103中输入区域图像，通过共用特征提取模型101对区域图像进行特征提取，得到图像特征向量，将图像特征向量输入至光照条件识别模型107中，得到光照条件向量，将图像特征向量和光照条件向量同时输入至姿态角度识别模型102、人脸识别模型104、五官关键点提取模型105和人脸框定位模型107中进行识别。

在一个示例中，人脸图像是第i帧视频帧，第i帧视频帧标定有人脸定位框，该人脸定位框是由人脸框定位模型106对第i-1帧视频帧进行识别后得到的，将人脸定位框中的图像截取为区域图像，从输入层103中输入第i帧视频帧的区域图像，通过共用特征提取模型101对区域图像进行特征提取，得到图像特征向量，将图像特征向量输入至光照条件识别模型107中，得到光照条件向量，将图像特征向量和光照条件向量同时输入至姿态角度识别模型102、人脸识别模型104、五官关键点提取模型105和人脸框定位模型107中进行识别。

步骤1105，获取姿态识别模型输出的人脸姿态。

可选地，人脸姿态包括：人脸姿态角度(俯仰角、偏航角和翻滚角)、五官关键点的位置坐标、人脸置信度和人脸定位框。

当人脸图像是静态图像时，姿态识别模型100输出的五官关键点的位置坐标可表示人脸处于的状态(如，侧脸、抬头等状态)，姿态识别模型100输出的人脸定位框可为上层应用提供准确的人脸位置。

可以理解的是，姿态识别模型100可根据上一帧视频帧(非首帧视频帧)中的人脸定位框获得下一帧视频帧中的人脸姿态角度、人脸置信度、五官关键点的位置坐标和人脸定位框，直到视频流中的某一帧视频帧的人脸的置信度小于置信度阈值时，姿态识别模型100判定该视频帧中的不含有人脸(该视频帧中的人脸可能因为移动过快，超出了识别范围，或该视频帧中的人脸被遮挡)，则停止姿态识别模型100继续对视频流中人脸姿态进行识别。

综上所述，姿态识别模型可识别静态图像(也即单帧视频帧)中的人脸姿态角度、五官关键点的位置坐标、人脸置信度、人脸定位框中的至少一种参数，也可识别视频流中某帧视频帧中的人脸姿态角度、五官关键点的位置坐标、人脸置信度、人脸定位框，并且可根据当前帧的人脸定位框识别出下一帧视频帧中至少一种上述参数，因此通过姿态识别模型可获得连续的人脸的运动轨迹。

图13示出了本申请一个示例性实施例提供的姿态识别模型的训练方法的流程图。该方法可应用于如图6所示的姿态识别模型100中，该方法包括以下步骤：

步骤1301，获取训练样本集合，训练样本集合包括样本人脸图像、样本人脸姿态角度和样本人脸的其它样本参数。

其它样本参数是能够从其它神经网络模型中对应获取的参数，本申请实施例以其它样本参数包括样本人脸的五官关键点、样本人脸图像中的人脸和样本人脸图像中的人脸定位框(或人脸检测框)。可选地，训练样本集合的获取方法可以与图5中的步骤501所涉及的训练样本集合的获取方法相同或不同。

可选地，其它样本参数包括样本人脸的五官关键点，如图14所示，本申请实施例以五官关键点包括左眼瞳孔121、右眼瞳孔122、鼻尖123、左侧嘴角124和右侧嘴角125，人脸检测框126中含有人脸图像。示意性的，该人脸检测框126是第二人脸检测框，人脸检测框126中含有的人脸图像是第i帧视频帧对应的人脸图像。需要说明的是，图14中的左侧和右侧是以摄像头的角度为准，也即摄像头的左侧和右侧。

可选地，姿态识别模型由多种光照场景下的样本人脸图像训练得到。多种光照场景下的样本人脸图像中任意两种光照场景下的样本人脸图像的光学参数不同，每种光照场景下的样本人脸图像的光学参数包括：每种光照场景下的样本人脸图像的平均灰度值范围，以及每种光照场景下的样本人脸图像对应的波长范围中的至少一种，其中，任一图像为其对应的波长范围的光学图像。

在本申请实施例中，多种光照场景下的样本人脸图像可以包括：室内样本人脸图像、室外样本人脸图像、强光样本人脸图像、弱光样本人脸图像、逆光样本人脸图像、侧光样本人脸图像以及红外样本人脸图像中的至少两种。

该室内样本人脸图像可以是指在室内拍摄得到的样本人脸图像，该室外样本人脸图像可以是指在室外拍摄得到的样本人脸图像。通常情况下，在室内拍摄得到的样本人脸图像的平均灰度值可以随室内灯光亮度的变化而变化，在室外拍摄得到的样本人脸图像的平均灰度值可以随室外阳光亮度的变化而变化。

该强光样本人脸图像的平均灰度值可以大于灰度值阈值，弱光样本人脸图像的平均灰度值可以小于或等于灰度值阈值。

侧光样本人脸图像可以划分为第一区域和第二区域，该第一区域的平均灰度值与第二区域的平均灰度值的差值大于差值阈值。其中，该侧光样本人脸图像的第一区域和第二区域可以分别为该侧光样本人脸图像的上部区域和下部区域，或者，该第一区域和第二区域可以分别为该侧光样本人脸图像的左部区域和右部区域。并且，该第一区域的像素的数量和第二区域的像素的数量可以相同，也可以不同，本申请实施例对此不做限定。其中，该第一区域的像素的数量和第二区域的像素的数量可以均大于该侧光图像所有像素的数量的10％。也即是，该第一区域的像素的数量和第二区域的像素的数量均可以较大。

可选的，该差值阈值可以大于或等于50。例如，该差值阈值可以为100、150、200等。

逆光样本人脸图像可以是指被射人脸位于摄像头和光源之间时，摄像头拍摄到的样本人脸图像。该逆光样本人脸图像中被射人脸的平均灰度值小于该逆光图像中除被射人脸之外的其他区域的平均灰度值。该光源可以是指室内灯光，也可以是指室外阳光。该摄像头可以是普通摄像头，也可以是红外摄像头。

红外样本人脸图像可以是采用红外摄像头拍摄得到的图像。该红外样本人脸图像对应的波长范围可以为红外线的波长范围，比如可以为760nm(纳米)至1mm(毫米)。而室内样本人脸图像、室外样本人脸图像、强光样本人脸图像、弱光样本人脸图像、逆光样本人脸图像以及侧光样本人脸图像对应的波长范围可以为可见光线的波长范围，比如可以为400nm至700nm。

在本申请实施例中，采集训练样本的摄像头中可以预先存储有灰度值阈值，或者，该灰度值阈值可以是根据实际情况配置的，本申请实施例对此不做限定。

示例的，该灰度值阈值可以为127.5。也即是，该强光样本人脸图像的平均灰度值可以大于127.5，弱光样本人脸图像的平均灰度值可以小于或等于127.5，侧光样本人脸图像的第一区域的平均灰度值大于127.5，第二区域的平均灰度值小于或等于127.5。

以上对多种光照场景图像进行了示例性讲解。可选的，也可以是：该强光样本人脸图像中的大部分像素(例如70％至100％的像素)的灰度值大于灰度值阈值，弱光样本人脸图像中的大部分像素(例如70％至100％的像素)的灰度值小于或等于灰度值阈值，侧光样本人脸图像中位于第一区域的像素中的大部分像素(例如70％至100％的像素)的灰度值大于灰度值阈值，位于第二区域的像素中的大部分像素(例如70％至100％的像素)的灰度值小于或等于灰度值阈值。

以陀螺仪传感器获取样本人脸的人脸姿态为例，下面以表二说明样本人脸图像的采集结果。

表二

人脸1和人脸2代表不同的采集者的面部，采集者有多个，可选地，每位采集者至少采集三个样本人脸图像。其中，(x_a，y_b)表示人脸定位框的左上角的坐标，h₁表示人脸定位框的高度，w₁表示人脸定位框的宽度。

步骤1302，调用姿态识别模型对训练样本集合进行识别，得到样本人脸的预测姿态角度和其它预测参数。

可选地，其它预测参数与其它样本参数对应，其它预测参数是其它神经网络模型对训练样本集合进行识别后得到的预测参数。本申请实施例以其它预测参数包括五官关键点的预测位置坐标、样本人脸的置信度和样本人脸的预测定位框为例进行说明。

步骤1303，对样本人脸的预测姿态角度和样本人脸姿态角度进行误差计算，得到误差损失。

可选地，该误差计算可以与图5中的步骤503所使用的误差损失函数相同或不同。

步骤1304，对样本人脸的其它预测参数和样本人脸的其它样本参数进行误差计算，得到其它误差损失。

可选地，其它误差损失包括如下形式的误差损失：

第一，当其它神经网络模型包括五官关键点提取模型时，对样本人脸的五官关键点的预测位置坐标和样本人脸的五官关键点的位置坐标进行比较，计算欧式损失函数(EuclideanLoss)，得到所述第一误差损失。该第一误差损失即为其它误差损失。

第二，当其它神经网络模型包括人脸识别模型时，对样本人脸置信度和样本人脸图像中的人脸进行比较，计算归一化损失指数函数(Softmaxloss)，得到第二误差损失。该第二误差损失即为其它误差损失。

示意性的，样本人脸的置信度是图像中的脸部属于人脸的概率，人脸识别模型104设置的置信度阈值是0.5。人脸识别模型104对该训练样本进行识别得到的置信度是0.9，则人脸识别模型104可判定该训练样本中的脸部属于人脸；若人脸识别模型104对该训练样本进行识别得到的置信度是0.3，则人脸识别模型104可判定该训练样本中的脸部不属于人的脸部。

第三，当其它神经网络模型包括人脸框定位模型时，对预测的人脸定位框与样本人脸图像标定的人脸定位框进行比较，计算损失函数(该损失函数可以是任意损失函数)，得到第三误差损失。该第三误差损失即为其它误差损失。

第四，当其它神经网络包括五官关键点提取模型、人脸识别模型和人脸框定位模型中的至少两种模型时，将模型对应的误差进行叠加，得到其它神经网络对应的其它误差损失。

步骤1305，通过误差反向传播算法根据误差损失和其它误差损失对姿态识别模型进行训练，得到训练后的姿态识别模型。

可选地，姿态识别模型100对应的误差损失包括两部分：姿态角度识别模型102对应的误差损失和其它神经网络模型对应的其它误差损失。

图15示出了本申请一个示例性实施例提供的姿态角度识别模型预测人脸姿态角度的结果的示意图。图15中的表格表明，只有多表情测试集的偏航角的平均误差是4.76度，其余测试角度的平均误差均小于4度，该结果证明本申请实施例提供的姿态角度识别模型102可满足对人脸姿态角度进行精准测量的需求。

综上所述，通过在姿态识别模型中设置姿态角度识别模型、人脸识别模型、五官关键点提取模型、人脸框定位模型来获取多种人脸姿态参数(包括人脸姿态角度、人脸的置信度、五官关键点的位置坐标和人脸定位框)，提高姿态识别模型识别人脸图像中的人脸姿态的精度。

下述为本申请的装置实施例，可以用于执行本申请方法实施例。对于本申请的装置实施例中未披露的细节，请参照本申请的方法实施例。

图16示出了本申请一个示例性实施例提供的人脸姿态的识别装置框图，该装置包括：

获取模块1610，用于获取含有人脸区域的区域图像；

姿态角度识别模型1620，用于对区域图像中的人脸姿态进行识别，姿态角度识别模型1620是具有人脸姿态角度识别能力的机器学习模型，姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，样本人脸姿态角度是在周角范围内选取得到的任意角度；

所述获取模块1610，用于获取姿态角度识别模型输出的人脸姿态角度，人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，人脸姿态角度是在周角范围内的任意角度。

在一个可选的实施例中，样本人脸姿态角度是由陀螺仪传感器在拍摄样本人脸图像的同时采集得到的，陀螺仪传感器是绑定在被拍人脸头部的陀螺仪传感器；或，样本人脸姿态角度是根据头戴式激光发射器在拍摄样本人脸图像时发出的激光所采集得到的，头戴式激光发射器是绑定在被拍人脸头部的激光发射器。

在一个可选的实施例中，该装置还包括计算模块1630和训练模块1640；

所述获取模块1610，用于获取训练样本集合，训练样本集合包括样本人脸图像和样本人脸姿态角度；

所述姿态角度识别模型1620，用于对训练样本集合进行识别，得到样本人脸的预测姿态角度；

所述计算模块1630，用于将样本人脸的预测姿态角度和样本人脸姿态角度进行比较，计算平滑的一范数损失函数，得到误差损失；

所述训练模块1640，用于通过误差反向传播算法根据误差损失对姿态角度识别模型进行训练，得到训练后的姿态角度识别模型。

在一个可选的实施例中，所述获取模块1610，用于获取人脸图像；用于根据人脸图像确定人脸检测框；用于将人脸检测框中的图像截取为人脸区域的区域图像。

在一个可选的实施例中，人脸图像是静态图像，调用人脸检测模型对人脸静态图像进行检测，得到第一人脸检测框。

在一个可选的实施例中，姿态角度识别模型1620属于姿态识别模型1650，姿态识别模型1650还包括：共用特征提取模型1660；

所述共用特征提取模型1660，用于对区域图像中的人脸姿态进行特征提取，得到图像特征向量；

所述姿态角度识别模型1620，用于对图像特征向量进行识别。

在一个可选的实施例中，姿态识别模型1650还包括：光照条件识别模型1670，共用特征提取模型1660是姿态角度识别模型1620和光照条件识别模型1670共用的模型；

所述光照条件识别模型1670，用于对图像特征向量进行识别，得到光照条件向量；

所述姿态角度识别模型1620，用于根据光照条件向量对图像特征向量进行识别。

在一个可选的实施例中，姿态识别模型1650还包括：五官关键点提取模型1680；共用特征提取模型1650是姿态角度识别模型1620和五官关键点提取模型1680共用的模型；

所述五官关键点提取模型1680，用于对图像特征向量进行识别，得到区域图像中的人脸的五官关键点的位置坐标。

所述光照条件识别模型1670，用于对图像特征进行识别，得到光照条件向量；

所述五官关键点提取模型1680，用于根据光照条件向量对图像特征进行识别。

在一个可选的实施例中，姿态识别模型1650还包括：人脸框定位模型1690，共用特征提取模型1660是姿态角度识别模型1620和人脸框定位模型1690共用的模型；

所述人脸框定位模型1690，用于对图像特征向量进行识别，得到人脸定位框。

所述人脸框定位模型1690，用于根据光照条件向量对图像特征进行识别。

在一个可选的实施例中，姿态识别模型1650还包括：人脸识别模型1700；共用特征提取模型1660是姿态角度识别模型1620和人脸识别模型1700共用的模型；

所述人脸识别模型1700，用于对图像特征向量进行识别，得到区域图像中的人脸置信度。

在一个可选的实施例中，姿态识别模,1650还包括：光照条件识别模型1670，共用特征提取模型1660是姿态角度识别模型1620和光照条件识别模型1670共用的模型；

所述人脸识别模型1700，用于根据光照条件向量对图像特征进行识别。

在一个可选的实施例中，姿态识别模型1650由多种光照场景下的样本人脸图像训练得到，多种光照场景下的样本人脸图像中任意两种光照场景下的样本人脸图像的光学参数不同，每种光照场景下的样本人脸图像的光学参数包括：每种光照场景下的样本人脸图像的平均灰度值范围，以及每种光照场景下的样本人脸图像对应的波长范围中的至少一种，其中，任一图像为其对应的波长范围的光学图像。

在一个可选的实施例中，多种光照场景下的样本人脸图像包括：室内样本人脸图像、室外样本人脸图像、强光样本人脸图像、弱光样本人脸图像、逆光样本人脸图像、侧光样本人脸图像以及红外样本人脸图像中的至少两种；

强光样本人脸图像的平均灰度值大于灰度值阈值，弱光样本人脸图像的平均灰度值小于或等于灰度值阈值；

侧光样本人脸图像划分为第一区域和第二区域，第一区域的平均灰度值与第二区域的平均灰度值的差值大于差值阈值。

下面是对本申请应用的计算机设备进行说明，请参考图17，其示出了本申请一个示例性实施例提供的计算机设备1700的结构框图。该计算机设备1700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group AudioLayer IV，动态影像专家压缩标准音频层面4)播放器。计算机设备1700还可能被称为用户设备、便携式终端等其他名称。

通常，计算机设备1700包括有：处理器1701和存储器1702。

处理器1701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器1701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器1701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器1701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器1702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是有形的和非暂态的。存储器1702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器1702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器1701所执行以实现本申请中提供的人脸姿态的识别方法。

在一些实施例中，计算机设备1700还可选包括有：***设备接口1703和至少一个***设备。具体地，***设备包括：射频电路1704、触摸显示屏1705、摄像头1706、音频电路1707和电源1708中的至少一种。

***设备接口1703可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器1701和存储器1702。在一些实施例中，处理器1701、存储器1702和***设备接口1703被集成在同一芯片或电路板上；在一些其他实施例中，处理器1701、存储器1702和***设备接口1703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路1704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路1704包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路1704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G，或3G，或4G，或5G，或它们的组合)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路1704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

触摸显示屏1705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。触摸显示屏1705还具有采集在触摸显示屏1705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1701进行处理。触摸显示屏1705用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，触摸显示屏1705可以为一个，设置计算机设备1700的前面板；在另一些实施例中，触摸显示屏1705可以为至少两个，分别设置在计算机设备1700的不同表面或呈折叠设计；在一些实施例中，触摸显示屏1705可以是柔性显示屏，设置在计算机设备1700的弯曲表面上或折叠面上。甚至，触摸显示屏1705还可以设置成非矩形的不规则图形，也即异形屏。触摸显示屏1705可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(OrganicLight-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件1706用于采集图像或视频。可选地，摄像头组件1706包括前置摄像头和后置摄像头。通常，前置摄像头用于实现视频通话或自拍，后置摄像头用于实现照片或视频的拍摄。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能，主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能。在一些实施例中，摄像头组件1706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路1707用于提供用户和计算机设备1700之间的音频接口。音频电路1707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器1701进行处理，或者输入至射频电路1704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备1700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1701或射频电路1704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路1707还可以包括耳机插孔。

电源1708用于为计算机设备1700中的各个组件进行供电。电源1708可以是交流电、直流电、一次性电池或可充电电池。当电源1708包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，计算机设备1700还包括有一个或多个传感器1710。该一个或多个传感器1710包括但不限于：加速度传感器1711、陀螺仪传感器1712、压力传感器1713、光学传感器1714以及接近传感器1715。

加速度传感器1711可以检测以计算机设备1700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器1711可以用于检测重力加速度在三个坐标轴上的分量。处理器1701可以根据加速度传感器1711采集的重力加速度信号，控制触摸显示屏1705以横向视图或纵向视图进行用户界面的显示。加速度传感器1711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器1712可以检测计算机设备1700的机体方向及转动角度，陀螺仪传感器1712可以与加速度传感器1711协同采集用户对计算机设备1700的3D动作。处理器1701根据陀螺仪传感器1712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器1713可以设置在计算机设备1700的侧边框和/或触摸显示屏1705的下层。当压力传感器1713设置在计算机设备1700的侧边框时，可以检测用户对计算机设备1700的握持信号，根据该握持信号进行左右手识别或快捷操作。当压力传感器1713设置在触摸显示屏1705的下层时，可以根据用户对触摸显示屏1705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

光学传感器1714用于采集环境光强度。在一个实施例中，处理器1701可以根据光学传感器1714采集的环境光强度，控制触摸显示屏1705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏1705的显示亮度；当环境光强度较低时，调低触摸显示屏1705的显示亮度。在另一个实施例中，处理器1701还可以根据光学传感器1714采集的环境光强度，动态调整摄像头组件1706的拍摄参数。

接近传感器1715，也称距离传感器，通常设置在计算机设备1700的正面。接近传感器1715用于采集用户与计算机设备1700的正面之间的距离。在一个实施例中，当接近传感器1715检测到用户与计算机设备1700的正面之间的距离逐渐变小时，由处理器1701控制触摸显示屏1705从亮屏状态切换为息屏状态；当接近传感器1715检测到用户与计算机设备1700的正面之间的距离逐渐变大时，由处理器1701控制触摸显示屏1705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图17中示出的结构并不构成对计算机设备1700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本申请的实施例还提供了一种计算机设备，该计算手机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的人脸姿态的识别方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例提供的人脸姿态的识别方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种人脸姿态的识别方法，其特征在于，所述方法包括：

获取含有人脸区域的区域图像；

调用共用特征提取模型对所述区域图像中的人脸姿态进行特征提取，得到图像特征向量，所述共用特征提取模型属于姿态识别模型，所述姿态识别模型还包括姿态角度识别模型和五官关键点提取模型，所述共用特征提取模型是所述姿态角度识别模型和所述五官关键点提取模型共用的模型；

调用所述姿态角度识别模型对所述图像特征向量进行识别，所述姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型，所述姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，所述样本人脸姿态角度是在周角范围内选取得到的任意角度；

获取所述姿态角度识别模型输出的所述人脸姿态角度，所述人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，所述人脸姿态角度是在所述周角范围内的任意角度；

调用所述五官关键点提取模型对所述图像特征向量进行识别，得到所述区域图像中的人脸的五官关键点的位置坐标，所述五官关键点的位置坐标用于指示人脸处于的状态；

其中，所述样本人脸姿态角度是由陀螺仪传感器在拍摄所述样本人脸图像的同时采集得到的，所述陀螺仪传感器是绑定在被拍人脸头部的陀螺仪传感器；或，所述样本人脸姿态角度是根据头戴式激光发射器在拍摄所述样本人脸图像时发出的激光所采集得到的，所述头戴式激光发射器是绑定在被拍人脸头部的激光发射器。

2.根据权利要求1所述的方法，其特征在于，所述姿态角度识别模型是通过如下方式训练得到的：

获取训练样本集合，所述训练样本集合包括样本人脸图像和样本人脸姿态角度；

调用所述姿态角度识别模型对所述训练样本集合进行识别，得到样本人脸的预测姿态角度；

将所述样本人脸的预测姿态角度和所述样本人脸姿态角度进行比较，计算平滑的一范数损失函数，得到误差损失；

通过误差反向传播算法根据所述误差损失对所述姿态角度识别模型进行训练，得到训练后的姿态角度识别模型。

3.根据权利要求1或2所述的方法，其特征在于，所述获取人脸区域的区域图像，包括：

获取人脸图像；

根据所述人脸图像确定人脸检测框；

将所述人脸检测框中的图像截取为所述人脸区域的区域图像。

4.根据权利要求3所述的方法，其特征在于，所述人脸图像是静态图像，所述将所述人脸检测框中的图像截取为所述人脸区域的区域图像，包括：

调用人脸检测模型对所述人脸静态图像进行检测，得到第一人脸检测框。

5.根据权利要求1或2所述的方法，其特征在于，所述姿态识别模型还包括：光照条件识别模型，所述共用特征提取模型是所述姿态角度识别模型和所述光照条件识别模型共用的模型；

所述方法还包括：

调用所述光照条件识别模型对所述图像特征向量进行识别，得到光照条件向量；

所述调用所述姿态角度识别模型对所述图像特征向量进行识别，包括：

调用所述姿态角度识别模型根据所述光照条件向量对所述图像特征向量进行识别。

6.根据权利要求1或2所述的方法，其特征在于，所述姿态识别模型还包括：光照条件识别模型，所述共用特征提取模型是所述姿态角度识别模型和所述光照条件识别模型共用的模型；

所述方法还包括：

调用所述光照条件识别模型对所述图像特征进行识别，得到光照条件向量；

所述调用所述五官关键点提取模型对所述图像特征向量进行识别，包括：

调用所述五官关键点提取模型根据所述光照条件向量对所述图像特征进行识别。

7.根据权利要求1或2所述的方法，其特征在于，所述姿态识别模型还包括：人脸框定位模型，共用特征提取模型是所述姿态角度识别模型和所述人脸框定位模型共用的模型；

所述方法还包括：

调用所述人脸框定位模型对所述图像特征向量进行识别，得到所述人脸定位框。

8.根据权利要求7所述的方法，其特征在于，所述姿态识别模型还包括：光照条件识别模型，所述共用特征提取模型是所述姿态角度识别模型和所述光照条件识别模型共用的模型；

所述方法还包括：

所述调用所述人脸框定位模型对所述图像特征向量进行识别，得到所述人脸定位框，包括：

调用所述人脸框定位模型根据所述光照条件向量对所述图像特征进行识别。

9.根据权利要求1或2所述的方法，其特征在于，所述姿态识别模型还包括：人脸识别模型；所述共用特征提取模型是所述姿态角度识别模型和所述人脸识别模型共用的模型；

所述方法还包括：

调用所述人脸识别模型对所述图像特征向量进行识别，得到所述区域图像中的人脸置信度。

10.根据权利要求9所述的方法，其特征在于，所述姿态识别模型还包括：光照条件识别模型，所述共用特征提取模型是所述姿态角度识别模型和所述光照条件识别模型共用的模型；

所述方法还包括：

所述调用所述人脸识别模型对所述图像特征向量进行识别，包括：

调用所述人脸识别模型根据所述光照条件向量对所述图像特征进行识别。

11.根据权利要求1或2所述的方法，其特征在于，所述姿态识别模型由多种光照场景下的样本人脸图像训练得到，所述多种光照场景下的样本人脸图像中任意两种光照场景下的样本人脸图像的光学参数不同，每种光照场景下的样本人脸图像的所述光学参数包括：所述每种光照场景下的样本人脸图像的平均灰度值范围，以及所述每种光照场景下的样本人脸图像对应的波长范围中的至少一种，其中，任一图像为其对应的波长范围的光学图像。

12.根据权利要求11所述的方法，其特征在于，所述多种光照场景下的样本人脸图像包括：室内样本人脸图像、室外样本人脸图像、强光样本人脸图像、弱光样本人脸图像、逆光样本人脸图像、侧光样本人脸图像以及红外样本人脸图像中的至少两种；

所述强光样本人脸图像的平均灰度值大于灰度值阈值，所述弱光样本人脸图像的平均灰度值小于或等于所述灰度值阈值；

所述侧光样本人脸图像划分为第一区域和第二区域，所述第一区域的平均灰度值与所述第二区域的平均灰度值的差值大于差值阈值。

13.一种人脸姿态的识别装置，其特征在于，所述装置包括：

获取模块，用于获取含有人脸区域的区域图像；

共用特征提取模型，用于对所述区域图像中的人脸姿态进行特征提取，得到图像特征向量，所述共用特征提取模型属于姿态识别模型，所述姿态识别模型还包括姿态角度识别模型和五官关键点提取模型，所述共用特征提取模型是所述姿态角度识别模型和所述五官关键点提取模型共用的模型；

所述姿态角度识别模型，用于对所述图像特征向量进行识别，所述姿态角度识别模型是具有人脸姿态角度识别能力的机器学习模型；所述姿态角度识别模型是由标注有样本人脸姿态角度的样本人脸图像训练得到的，所述样本人脸姿态角度是在周角范围内选取得到的任意角度；

所述获取模块，用于获取所述姿态角度识别模型输出的所述人脸姿态角度，所述人脸姿态角度包括：人脸相对于拍摄位置的俯仰角、偏航角和翻滚角，所述人脸姿态角度是在所述周角范围内的任意角度；

所述五官关键点提取模型，用于对所述图像特征向量进行识别，得到所述区域图像中的人脸的五官关键点的位置坐标，所述五官关键点的位置坐标用于指示人脸处于的状态；

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一端程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至12任一项所述的人脸姿态的识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的人脸姿态的识别方法。