CN111680546A

CN111680546A - 注意力检测方法、装置、电子设备及存储介质

Info

Publication number: CN111680546A
Application number: CN202010338455.XA
Authority: CN
Inventors: 甄成; 闫鹏飞
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-04-26
Filing date: 2020-04-26
Publication date: 2020-09-18

Abstract

本申请公开了注意力检测方法、装置、电子设备及存储介质，本申请通过获取用于检测的人脸图像；根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域。本申请的有益效果在于：采用二分类的学习模型进行注意力检测，极大程度上简化了学习模型，提高了运算效率，并显著提高了人脸检测准确度；且本申请直接学习脸部区域和眼睛区域特征，脱离了关键点检测过程，有效防止在关键点检测过程中，由于抖动问题导致的角度预测误差，显著提高了大姿态人脸角度检测的准确性，同时实现端到端的学习和预测，极大的扩展了人脸检测的应用场景。

Description

注意力检测方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，具体涉及注意力检测方法、装置、电子设备及存储介质。

背景技术

随着电子商务的迅猛发展，人脸检测技术在很多领域得到的广泛的应用，如免密支付业务，可以通过刷脸验证的方式，使得用户只要在手机或者商家的客服端刷脸即可完成付款，免去了输入密码的麻烦，但是这同时也对用户的账户安全带来了一定的隐患，如可能出现用户遭受外界因素强迫刷脸的情况或者用户的刷脸验证行为为非主动行为，这种情况下，可以通过判断用户的注意力是否在移动设备终端的目标区域上，来确定用户的行为是否为自愿主动行为。现有技术中通常通过计算用户的视线在三维空间的方向，得到视线在空间坐标系中和三个坐标轴的夹角，从而确定用户的视线方向，但是这种方法存在着很多不足之处，如现有技术为多分类或回归模型，不仅学习模型尺寸大、运行速度慢，精度低；且算法往往依赖关键点检测结果，在人脸姿态较大时，关键点检测精度和准确度显著降低，直接会导致视线估计不准确。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的注意力检测方法、装置、电子设备及存储介质。

依据本申请的一方面，提供了一种注意力检测方法，该方法包括：

获取用于检测的人脸图像；

根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；

根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域。

可选的，在上述方法中，根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征包括：

利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征；

利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征。

可选的，在上述方法中，根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域包括：

利用注意力检测模型的融合层将头部姿态特征与眼部姿态特征进行特征融合，得到注意力融合特征；

根据注意力融合特征确定被分析对象注视目标区域的概率；

若概率小于预设阈值，则判定被分析对象的注意力未在目标区域；否则，判定被分析对象的注意力在目标区域。

可选的，在上述方法中，根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征还包括：

从人脸图像中识别出头部区域和眼部区域；

利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征包括：利用第一分支网络对头部区域的图像进行识别，得到被分析对象的头部姿态特征；

利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征包括：利用第二分支网络对眼部区域的图像进行识别，得到被分析对象的眼部姿态特征。

可选的，在上述方法中，注意力检测模型是通过如下方式训练得到的：

将训练图像输入注意力检测模型，得到训练图像的注意力检测结果；

根据训练图像的标签和注意力检测结果计算交叉熵损失值；

根据交叉熵损失值对第一分支网络和第二分支网络进行参数更新。

可选的，在上述方法中，交叉熵损失函数为角度交叉熵损失函数。

可选的，在上述方法中，头部姿态特征为表征头部旋转角度的特征，眼部姿态特征为表征视线角度的特征。

依据本申请的另一方面，提供了一种注意力检测装置，该装置包括：

获取单元，用于获取用于检测的人脸图像；

分析单元，用于根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；

判断单元，用于根据头部姿态特征和眼部姿态特征判断被分析对象是否注视了目标区域。

可选的，在上述装置中，分析单元，用于利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征；利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征。

可选的，在上述装置中，判断单元，用于利用注意力检测模型的融合层将头部姿态特征与眼部姿态特征进行特征融合，得到注意力融合特征；以及用于根据注意力融合特征确定被分析对象注视目标区域的概率；若概率小于预设阈值，则判定被分析对象的注意力未在目标区域；否则，判定被分析对象的注意力在目标区域。

可选的，在上述装置中，获取单元，还用于从人脸图像中识别出头部区域和眼部区域；分析单元，还用于利用第一分支网络对头部区域的图像进行识别，得到被分析对象的头部姿态特征；以及用于利用第二分支网络对眼部区域的图像进行识别，得到被分析对象的眼部姿态特征。

可选的，在上述装置中，注意力检测模型是通过如下方式训练得到的：将训练图像输入注意力检测模型，得到训练图像的注意力检测结果；根据训练图像的标签和注意力检测结果计算交叉熵损失值；根据交叉熵损失值对第一分支网络和第二分支网络进行参数更新。

可选的，在上述装置中，交叉熵损失函数为角度交叉熵损失函数。

可选的，在上述装置中，头部姿态特征为表征头部旋转角度的特征，眼部姿态特征为表征视线角度的特征。

依据本申请的又一方面，提供了一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，可执行指令在被执行时使处理器执行如上任一的方法。

依据本申请的再一方面，提供了一种计算机可读存储介质，其中，计算机可读存储介质存储一个或多个程序，一个或多个程序当被处理器执行时，实现如上任一的方法。

由上述可知，本申请的技术方案，通过获取用于检测的人脸图像；根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域。本申请的有益效果在于：采用二分类的学习模型进行注意力检测，极大程度上简化了学习模型，提高了运算效率，并显著提高了人脸检测准确度；且本申请直接学习脸部区域和眼睛区域特征，脱离了关键点检测过程，有效防止在关键点检测过程中，由于抖动问题导致的角度预测误差，显著提高了大姿态人脸角度检测的准确性，同时实现端到端的学习和预测，极大的扩展了人脸检测的应用场景。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本申请一个实施例的注意力检测方法的流程示意图；

图2示出了根据本申请另一个实施例的注意力检测方法的流程示意图；

图3示出了根据本申请一个实施例的注意力检测装置的结构示意图；

图4示出了根据本申请一个实施例的电子设备的结构示意图；

图5示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

图1示出了根据本申请一个实施例的注意力检测方法的流程示意图，该方法包括：

步骤S110，获取用于检测的人脸图像。

随着科学技术的迅猛发展，人们在办理很多业务的时候需要刷脸进行验证是否为客户本人，如银行各种业务场景、刷脸免密支付等，这给用户带来方便的同时，也会对用户的账户安全带来一定的隐患，如在用户不知情的情况下，旁人用手机的对着用户脸部扫描，从而完成免密支付业务，这会对用户造成一定的经济损失。为了避免上述情况，通常可采用注意力检测手段，判断用户的注意力是否在指定的目标区域，来进一步确定用户的行为是否为自愿主动行为。

首先，获取用于检测的人脸图像，此过程可通过移动终端的图像采集设备完成，如手机的摄像头、安置在柜员机上的摄像头等。用于检测的人脸图像可以为含有人脸部区域以及背景的整体图像，也可是从整体图像中剪裁出的仅含有人脸部区域的局部图像，其中剪裁方法可以采用现有技术中的任意一种，如根据人脸的纹理特征，采用一个矩形框或椭圆形框，在整体图像中裁剪出仅含有人脸部区域的局部图像。

步骤S120，根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征。

根据得到的人脸图像，通过现有技术中的任意一种或几种的组合，从人脸图像中获取被分析对象的头部姿态特征和眼部姿态特征。其中，头部姿态特征包括但不限于：抬头、低头、头部的朝向以及头部的位置等。

眼部姿态特征可以包括但不限于眼廓的大小、瞳孔的大小、瞳孔所处眼球的位置、以及瞳孔的角度特征等。

本申请在获取被分析对象的头部姿态特征和眼部姿态特征时，没有进行关键点的检测，直接对头部姿态特征和眼部姿态特征进行学习，这样最终检测结果就不依赖于关键点的检测结果，避免了由于关键点检测结果不准确性给最终结果带来的误差甚至是误检。

头部姿态特征和眼部姿态特征的获取可采用现有技术中的任意一种或几种的组合。如采用卷积神经网络分别计算二者的纹理特征，进一步提取二者的特征信息。

步骤S130，根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域。

在得到头部姿态特征和眼部姿态特征后，现有技术通常是将二者融合在一起，经计算得到被分析对象的视线具体落在某个点或某个区域，即现有技术是求解视线角度的回归问题，这使得学习规模大、计算速度缓慢、且准确度不高。

与现有技术不同的是，本申请在得到头部姿态特征和眼部姿态特征后，根据二者的结合确定被分析对象的注意力是否在目标区域，即本申请的技术是确定被分析对象的注意力是在目标区域与否的二分类问题。

本申请在判断被分析对象的注意力是否在目标区域时可采用包括但不限于下述方法：首先确定头部的朝向特征与瞳孔的角度特征的一致性，在头部的朝向与瞳孔的角度相一致的情况下，判断瞳孔的大小是否大于预设瞳孔大小值，若大于，则判断被分析对象的注意力在目标区域，否则判断被分析对象的注意力不在目标区域。

本申请也可以采用如下方法判断被分析对象的注意力是否在目标区域，将头部姿态特征与眼部姿态特征结合在一起，如将二者进行矢量拼接，得到被分析对象在该视线方向上的视觉区域，根据被分析对象的瞳孔角度特征在视觉区域中确定其最可能关注的显著性区域，根据显著性区域与目标区域的相对关系，判断被分析对象的注意力是否在目标区域，由此可见，与现有技术不同的是，本申请将回归问题转化成了二分类问题，极大程度上简化了模型，提高了检测准确度。

由图1所述的方法可以看出，采用二分类的学习模型进行注意力检测，极大程度上简化了学习模型，提高了运算效率，并显著提高了人脸检测准确度；且本申请直接学习脸部区域和眼睛区域特征，脱离了关键点检测过程，有效防止在关键点检测过程中，由于抖动问题导致的角度预测误差，显著提高了大姿态人脸角度检测的准确性，同时实现端到端的学习和预测，极大的扩展了人脸检测的应用场景，如检测长途车司机是否长时间未注意前方道路、学生注意力检测等场景。

在本申请的一个实施例中，在上述方法中，根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征包括：利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征；利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征。

本实施例中注意力检测模型为双通道模型，包括第一分支网络和第二分支网络，即每个分支网络作为一个通道，本实施例推荐第一分支网络和第二分支网络分别是基于卷积神经网络(Convolutional Neural Networks，CNN)实现的。

卷积神经网络是局部连接网络，相对于全连接网络其最大的特点就是：局部连接性和权值共享性。对一幅图像中的某个像素p来说，一般离像素p越近的像素对其影响也就越大，即局部连接性；另外，根据自然图像的统计特性，某个区域的权值也可以用于另一个区域，即权值共享性。这里的权值共享通俗的讲就是卷积核共享，对于一个卷积核将其与给定的图像做卷积就可以提取一种图像的特征，不同的卷积核可以提取不同的图像特征。

举例来讲，我们可以采用索贝尔Sobel卷积核来进行特征提取，可以采用一张图像，首先用Sobel—Gx卷积核来对图像做卷积，然后将所得的矩阵的每个元素都加上偏置值b，再将加上偏置值的矩阵的每个元素都输入到激活函数中，经过计算即得到最终结果。同理，也可以利用Sobel—Gy卷积核来进行特征提取，当然两个卷积核提取出了不同的图像特征，实际中，一般会使用十几个或者几十个卷积核来提取图像特征。由于卷积神经网络在特征学习方面的优势，本实施例推荐卷积神经网络作为一种优选方案。

在本申请的其他实施例中，第一分支网络与第二分支网络可基于现有算法的任意一种实现，如ASM(Active Shape Model，业内暂无中文名)、AAM(Active AppearanceModel，业内暂无中文名)、基于级联形状回归CPR(Cascaded pose regression)等。本实施例中第一分支网络用于识别被分析对象的头部姿态特征，第二分支网络用于识别被分析对象的眼部姿态特征。采用双通道的学习模型能够使得每个通道学习规模小、运算速度快、特征识别精度高，进一步从整体上提高运算效率和识别精度。

在本申请的一个实施例中，在上述方法中，根据头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域包括：利用注意力检测模型的融合层将头部姿态特征与眼部姿态特征进行特征融合，得到注意力融合特征；根据注意力融合特征确定被分析对象注视目标区域的概率；若概率小于预设阈值，则判定被分析对象的注意力未在目标区域；否则，判定被分析对象的注意力在目标区域。

判断被分析对象的注意力是否在目标区域还可采用本实施例推荐的方法，首先将头部姿态特征与眼部姿态特征进行特征融合，得到注意力融合特征，特征融合的方法可采用现有技术中的任意一种或几种的组合，如融合层可以包括全连接层，即在上述双通道网络后连接一个全连接层进行特征融合，得到注意力融合特征，注意力融合特征可以包括但不限于：被分析对象的视觉区域、被分析对象的视线方向。

根据注意力融合特征确定被分析对象注视目标区域的概率，概率的确定方法本申请不作限定，可采用现有方法中的任意一种，也可采用以下方法：以目标区域的中心线为基准，当被分析对象的视线方向与中心线完成一致，则确定被分析对象注视目标区域的概率为1，当被分析对象的视线方向与中心线呈一个夹角，根据夹角的大小，确定被分析对象注视目标区域的概率。

根据得到的概率，判断被分析对象是否注视了目标区域，可预设某一预设阈值，如0.8，若概率小于该预设阈值，则判定被分析对象未注视目标区域，进一步确定注意力未在目标区域；否则，则判定被分析对象注视了目标区域，即被分析对象的注意力在目标区域。

本实施采用人脸特征融合技术，能够降低了运动模糊、逆光等对提取人脸图像特征的影响，可有效提升识别准确率。

在本申请的一个实施例中，在上述方法中，根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征还包括：从人脸图像中识别出头部区域和眼部区域；利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征包括：利用第一分支网络对头部区域的图像进行识别，得到被分析对象的头部姿态特征；利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征包括：利用第二分支网络对眼部区域的图像进行识别，得到被分析对象的眼部姿态特征。

在根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征时，可先从人脸图像中剪裁出相应部分，即被分析对象的头部区域和眼部区域，剪裁手段可采用现有技术中的任意一种，包括但不限于人脸特征点检测技术(facial landmark detection)或者YOLO(you only look once，业内暂无中文名)目标检测等方法。

然后利用第一分支网络对头部区域的图像进行识别，进一步得到被分析对象的头部姿态特征；利用第二分支网络对眼部区域的图像进行识别，进一步得到被分析对象的头部姿态特征。

本实施例通过先获取局部图像，再进行特征提取，进一步提高了识别的准确度。

在本申请的一个实施例中，在上述方法中，注意力检测模型是通过如下方式训练得到的：将训练图像输入注意力检测模型，得到训练图像的注意力检测结果；根据训练图像的标签和注意力检测结果计算交叉熵损失值；根据交叉熵损失值对第一分支网络和第二分支网络进行参数更新。

注意力检测模型的模型训练主要由以下几个步骤：将训练图像输入注意力检测模型，得到训练图像的注意力检测结果，由于本申请中的注意力检测模型是一个二分类模型，因此，注意力检测结果即训练图像的标签只要两种情况，一是注意力在目标区域，二是注意力不在目标区域。

根据训练图像的标签和注意力检测结果计算交叉熵损失值，交叉熵损失值越小表示检测结果越准确，当真实类别与通过注意力检测模型给出的类别相同时，交叉熵损失值会比较小。

根据交叉熵损失值对第一分支网络和第二分支网络进行参数更新，注意力检测模型得以实现是经过传播计算损失函数，并根据损失函数的计算结果进行反向推到，并进行相关参数的调整，本实施例是根据计算得到的交叉熵损失值对第一分支网络和第二分支网络进行参数更新。

在本申请的一个实施例中，在上述方法中，交叉熵损失函数为角度交叉熵损失函数。

角度交叉熵损失函数(angular softmax cross-entropy loss)在现有技术中通常用于人脸识别模型的训练。但发明人发现，角度交叉熵损失函数的主要优点在于能使模型进一步增大类间差距，减小类内差距，适用于不同类数据可区分性不强的场景。

本申请中的注意力检测需要对头部和眼部区域均进行有效分类，且类间相似性较高，因此使用角度交叉熵损失函数，能够增大头部、眼部区域的类间差距并减小类内差距，并通过实验得到了验证。本申请创造性地将角度交叉熵损失函数引入注意力检测模型的训练，实现了更高的分类精度，能够得到更精确的注意力检测模型。

在本申请的一个实施例中，在上述方法中，头部姿态特征为表征头部旋转角度的特征，眼部姿态特征为表征视线角度的特征。

在本实施例中头部姿态特征表征头部旋转角度的特征，有多种表示方法，如可采用欧拉角表示，本实施例中采用欧拉角进行举例说明，欧拉角是用来唯一地确定定点转动物***置的三个一组独立角参量，是表达旋转的最简单的方式之一，形式上它是一个三维向量，其值分别代表物体绕坐标系三个轴(x、y、z轴)的旋转角度，绕x轴旋转称为俯仰，绕y轴旋转称为偏航，绕z轴旋转称为横滚，对应的，形成的夹角分别称为俯仰角、偏航角和横滚角。

眼部姿态特征为表征视线角度的特征，如将人脸图像投影到以头部重心为原点的三维空间坐标系中，视线角度的特征可表示为视线与三个互相垂直的坐标轴的夹角。

上述实施例可以分别单独实施，也可以结合实施，具体地，图2示出了根据本申请另一个实施例的注意力检测方法的流程示意图。

首先，获取用于检测的人脸图像，从人脸图像中剪裁出头部区域和眼部区域。

利用第一分支网络对头部区域进行识别，得到头部姿态特征，利用第二分支网络对眼部区域进行识别，得到眼部姿态特征。

通过注意力检测模型的融合层将头部姿态特征和眼部姿态特征进行融合，得到注意力融合特征。

根据注意力融合特征，确定被分析对象注视目标区域的概率，判断得到的概率是否大于预设概率，若大于，则确定被分析对象注意力在目标区域，否则确定被分析对象注意力不在目标区域。

图3示出了根据本申请一个实施例的注意力检测装置的结构示意图，该注意力检测装置300包括：

获取单元310，用于获取用于检测的人脸图像。

分析单元320，用于根据人脸图像获取被分析对象的头部姿态特征和眼部姿态特征。

本申请在获取被分析对象的头部姿态特征和眼部姿态特征时，没有进行关键点的检测，直接对头部姿态特征和眼部姿态特征进行学习，这样其检测结果就不依赖于关键点的检测结果，避免了由于关键点检测结果不准确性给最终结果带来的误差甚至是误检。

判断单元330，用于根据头部姿态特征和眼部姿态特征判断被分析对象是否注视了目标区域。

在本申请的一个实施例中，在上述装置中，分析单元320，用于利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征；利用注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征。

在本申请的一个实施例中，在上述装置中，判断单元330，用于利用注意力检测模型的融合层将头部姿态特征与眼部姿态特征进行特征融合，得到注意力融合特征；以及用于根据注意力融合特征确定被分析对象注视目标区域的概率；若概率小于预设阈值，则判定被分析对象的注意力未在目标区域；否则，判定被分析对象的注意力在目标区域。

在本申请的一个实施例中，在上述装置中，获取单元310，还用于从人脸图像中识别出头部区域和眼部区域；分析单元320，还用于利用第一分支网络对头部区域的图像进行识别，得到被分析对象的头部姿态特征；以及用于利用第二分支网络对眼部区域的图像进行识别，得到被分析对象的眼部姿态特征。

在本申请的一个实施例中，在上述装置中，注意力检测模型是通过如下方式训练得到的：将训练图像输入注意力检测模型，得到训练图像的注意力检测结果；根据训练图像的标签和注意力检测结果计算交叉熵损失值；根据交叉熵损失值对第一分支网络和第二分支网络进行参数更新。

在本申请的一个实施例中，在上述装置中，交叉熵损失函数为角度交叉熵损失函数。

在本申请的一个实施例中，在上述装置中，头部姿态特征为表征头部旋转角度的特征，眼部姿态特征为表征视线角度的特征。

需要说明的是，上述实施例中的注意力检测装置可分别用于执行前述实施例中的注意力检测方法，因此不再一一进行具体的说明。

需要说明的是：

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本申请并帮助理解各个申请方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，申请方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的注意力检测装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图4示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备400包括处理器410和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器420。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码431的存储空间430。例如，用于存储计算机可读程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码431。计算机可读程序代码431可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图5所述的计算机可读存储介质。图5示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质500存储有用于执行根据本申请的方法步骤的计算机可读程序代码431，可以被电子设备400的处理器410读取，当计算机可读程序代码431由电子设备400运行时，导致该电子设备400执行上面所描述的方法中的各个步骤，具体来说，该计算机可读存储介质存储的计算机可读程序代码431可以执行上述任一实施例中示出的方法。计算机可读程序代码431可以以适当形式进行压缩。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种注意力检测方法，其特征在于，包括：

获取用于检测的人脸图像；

根据所述人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；

根据所述头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域。

2.根据权利要求1所述的方法，其特征在于，所述根据所述人脸图像获取被分析对象的头部姿态特征和眼部姿态特征包括：

利用所述注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述头部姿态特征和眼部姿态特征判断被分析对象的注意力是否在目标区域包括：

利用注意力检测模型的融合层将所述头部姿态特征与所述眼部姿态特征进行特征融合，得到注意力融合特征；

根据注意力融合特征确定被分析对象注视目标区域的概率；

若所述概率小于预设阈值，则判定被分析对象的注意力未在目标区域；否则，判定被分析对象的注意力在目标区域。

4.根据权利要求2所述的方法，其特征在于，所述根据所述人脸图像获取被分析对象的头部姿态特征和眼部姿态特征还包括：

从所述人脸图像中识别出头部区域和眼部区域；

所述利用注意力检测模型的第一分支网络识别出被分析对象的头部姿态特征包括：利用所述第一分支网络对头部区域的图像进行识别，得到被分析对象的头部姿态特征；

所述利用所述注意力检测模型的第二分支网络识别出被分析对象的眼部姿态特征包括：利用所述第二分支网络对眼部区域的图像进行识别，得到被分析对象的眼部姿态特征。

5.根据权利要求2所述的方法，其特征在于，所述注意力检测模型是通过如下方式训练得到的：

将训练图像输入注意力检测模型，得到所述训练图像的注意力检测结果；

根据训练图像的标签和所述注意力检测结果计算交叉熵损失值；

根据所述交叉熵损失值对所述第一分支网络和第二分支网络进行参数更新。

6.根据权利要求5所述的方法，其特征在于，所述交叉熵损失函数为角度交叉熵损失函数。

7.根据权利要求1-6中任一项所述的方法，其特征在于，所述头部姿态特征为表征头部旋转角度的特征，所述眼部姿态特征为表征视线角度的特征。

8.一种注意力检测装置，其特征在于，该装置包括：

获取单元，用于获取用于检测的人脸图像；

分析单元，用于根据所述人脸图像获取被分析对象的头部姿态特征和眼部姿态特征；

判断单元，用于根据所述头部姿态特征和眼部姿态特征判断被分析对象是否注视了目标区域。

9.一种电子设备，其中，该电子设备包括：处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被处理器执行时，实现如权利要求1-7中任一项所述的方法。