CN110059666B

CN110059666B - 一种注意力检测方法及装置

Info

Publication number: CN110059666B
Application number: CN201910353333.5A
Authority: CN
Inventors: 王飞; 黄诗尧; 钱晨
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2022-04-01
Anticipated expiration: 2039-04-29
Also published as: CN110059666A

Abstract

本申请公开了一种注意力检测方法及装置。该方法包括：获取用户注视时的人脸图像和/或人脸在所述人脸图像中的相对位置信息；获取所述人脸图像的整脸和/或局部特征信息；以及根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率。还公开了相应的装置。采用本申请的方案，采用端到端的方式，输入注视时的人脸图像和/或人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

Description

一种注意力检测方法及装置

技术领域

本申请涉及图像处理技术领域，尤其涉及一种注意力检测方法及装置。

背景技术

对注意力检测的研究具有十分重要的意义。注意力检测技术可以应用在各行各业，例如，公共交通监控***，广告机监控***等。以广告机监控***为例，广告机注视监控***通过摄像头检测行人，采集行人的脸部图像，并且实时分析统计该行人是否在注视广告机，对改进广告机的广告投放策略有重要意义。然而，注意力的检测存在许多技术难点，目前还没有一个可行的注意力检测方案。

发明内容

本申请提供一种注意力检测方法及装置，以实现准确、可靠的注意力的检测。

第一方面，提供了一种注意力检测方法，所述方法包括：

获取用户注视时的人脸图像和/或人脸在所述人脸图像中的相对位置信息；

获取所述人脸图像的整脸和/或局部特征信息；

根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率。

在一个实现中，所述获取所述人脸图像的整脸和/或局部特征信息，包括：

获取所述人脸图像的整脸特征图；

根据所述人脸图像的整脸特征图，获取所述整脸特征图的整脸特征向量。

在另一个实现中，根据所述人脸图像的整脸特征信息，获取注视区域的概率，包括：

根据所述整脸特征向量，获取所述注视区域的概率。

在又一个实现中，所述获取所述人脸图像的整脸和/或局部特征信息，包括：

检测眼睛在所述人脸图像中的位置；

根据眼睛在所述人脸图像中的位置，确定眼睛在所述整脸特征图中的位置。

根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图；

根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量。

在又一个实现中，所述根据眼睛在所述人脸图像中的位置，确定所述眼睛在所述整脸特征图中的位置，包括：

将眼睛在所述整脸特征图中的位置与眼睛在所述人脸图像中的位置对齐，得到眼睛在所述整脸特征图中的位置。

在又一个实现中，所述根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图，包括：

基于卷积神经网络，获取所述人脸图像的整脸特征图；

根据眼睛在所述整脸特征图中的位置，获取所述整脸特征图中的眼睛局部特征图。

在又一个实现中，根据所述人脸图像的局部特征信息，获取注视区域的概率，包括：

根据所述眼睛局部特征向量，获取注视区域的概率。

在又一个实现中，所述方法还包括：

将所述整脸特征向量和所述眼睛局部特征向量进行融合，得到融合后的特征向量。

在又一个实现中，根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率，包括：

根据所述融合后的特征向量和/或所述人脸在人脸图像中的相对位置信息，获取所述注视区域的概率。

在又一个实现中，所述获取用户注视时的人脸图像之后，所述方法还包括：

对所述人脸图像进行预处理。

在又一个实现中，所述对所述人脸图像进行预处理，包括以下至少一种操作：

对所述人脸图像进行非线性拉伸，重新分配图像像素值，使变换后的人脸图像的灰度的概率密度呈均匀分布；

对所述人脸图像进行畸变矫正。

在又一个实现中，所述人脸在人脸图像中的相对位置信息包括所述用户站立区域相对于被注视区域的位置信息和/或所述用户的头部姿态信息。

在又一个实现中，所述方法还包括：

在用户站立区域设置均匀分布的多个点位；

有序地依次采集所述用户在所述多个点位的所述人脸图像；

获取所述用户在所述多个点位相对于所述被注视区域的位置信息，作为所述用户站立区域相对于所述被注视区域的位置信息。

在又一个实现中，所述方法还包括：

在用户站立区域设置均匀分布的多个点位；

在所述多个点位中随机选取设定数量的点位；

依次采集所述用户在所述选取的多个点位的所述人脸图像；

获取所述用户在所述选取的多个点位相对于所述被注视区域的位置信息，作为所述用户站立区域相对于所述被注视区域的位置信息。

在又一个实现中，当所述被注视区域位于所述用户站立区域前方时，所述用户的头部姿态信息包括以下任一种：向上、向下、向前、向左、向右；

当所述被注视区域位于所述用户站立区域左侧时，所述用户的头部姿态信息包括以下任一种：向上、向下、向前、向左；

当所述被注视区域位于所述用户站立区域右侧时，所述用户的头部姿态信息包括以下任一种：向上、向下、向前、向右。

第二方面，提供了一种注意力检测装置，所述装置包括：

第一获取单元，用于获取用户注视时的人脸图像和/或人脸在所述人脸图像中的相对位置信息；

第二获取单元，用于获取所述人脸图像的整脸和/或局部特征信息；

第三获取单元，用于根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率。

在一个实现中，所述第二获取单元用于：

获取所述人脸图像的整脸特征图；

在另一个实现中，所述第三获取单元用于：

根据所述整脸特征向量，获取所述注视区域的概率。

在又一个实现中，所述第二获取单元包括：

检测单元，用于检测眼睛在所述人脸图像中的位置；

确定单元，用于根据眼睛在所述人脸图像中的位置，确定眼睛在所述整脸特征图中的位置。

在又一个实现中，所述第二获取单元包括：

第四获取单元，用于根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图；

第五获取单元，用于根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量。

在又一个实现中，所述确定单元用于：

在又一个实现中，所述第四获取单元用于：

基于卷积神经网络，获取所述人脸图像的整脸特征图；

在又一个实现中，所述第三获取单元用于：

根据所述眼睛局部特征向量，获取注视区域的概率。

在又一个实现中，所述装置还包括：

融合单元，用于将所述整脸特征向量和所述眼睛局部特征向量进行融合，得到融合后的特征向量。

在又一个实现中，所述第三获取单元用于：

在又一个实现中，所述装置还包括：

预处理单元，用于对所述人脸图像进行预处理。

在又一个实现中，所述预处理单元用于执行以下至少一种操作：

对所述人脸图像进行畸变矫正。

在又一个实现中，所述装置还包括：

第一设置单元，用于在用户站立区域设置均匀分布的多个点位；

第一采集单元，用于有序地依次采集所述用户在所述多个点位的所述人脸图像；

第六获取单元，用于获取所述用户在所述多个点位相对于所述被注视区域的位置信息，作为所述用户站立区域相对于所述被注视区域的位置信息。

在又一个实现中，所述装置还包括：

第二设置单元，用于在用户站立区域设置均匀分布的多个点位；

选取单元，用于在所述多个点位中随机选取设定数量的点位；

第二采集单元，用于依次采集所述用户在所述选取的多个点位的所述人脸图像；

第七获取单元，用于获取所述用户在所述选取的多个点位相对于所述被注视区域的位置信息，作为所述用户站立区域相对于所述被注视区域的位置信息。

第三方面，提供了一种注意力检测装置，其特征在于，所述装置包括：输入装置、输出装置、存储器和处理器；其中，所述存储器中存储一组程序代码，且所述处理器用于调用所述存储器中存储的程序代码，执行上述第一方面或其各种可能的实现所述的方法。

第四方面，提供了一种注意力检测装置，包括：处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为执行所述存储器的可执行指令时，执行上述第一方面或其各种可能的实现所述的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面或其各种可能的实现所述的方法。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面或其各种可能的实现所述的方法。

采用本申请的方案，具有如下有益效果：

采用端到端的方式，输入注视时的人脸图像和/或人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

附图说明

为了更清楚地说明本申请实施例或背景技术中的技术方案，下面将对本申请实施例或背景技术中所需要使用的附图进行说明。

图1为本申请实施例提供的一种注意力检测方法的流程示意图；

图2为图像采集场景示意图；

图3为注视区域的区域划分示意图；

图4为本申请实施例提供的另一种注意力检测方法的流程示意图；

图5为示例的图像非线性拉伸前后的对比示意图；

图6为示例的图像畸变矫正前后的对比示意图；

图7为示例的一种基于卷积神经网络的注意力检测的神经网络详细结构图；

图8为本申请实施例提供的又一种注意力检测方法的流程示意图；

图9为示例的另一种基于卷积神经网络的注意力检测的神经网络详细结构图；

图10为本申请实施例提供的又一种注意力检测方法的流程示意图；

图11为示例的又一种基于卷积神经网络的注意力检测的神经网络详细结构图；

图12为本申请实施例提供的又一种注意力检测方法的流程示意图；

图13为示例的又一种基于卷积神经网络的注意力检测的神经网络详细结构图；

图14为本申请实施例提供的一种注意力检测装置的结构示意图；

图15为本申请实施例提供的另一种注意力检测装置的结构示意图。

具体实施方式

下面结合本申请实施例中的附图对本申请实施例进行描述。

基于深度卷积神经网络的注意力检测技术，就是利用深度卷积神经网络来实现行人视线的估计，再利用注视判断策略来判断行人在注视哪个区域。基于深度卷积神经网络的行人注意力检测***，存在许多技术难点，比如数据的采集，模型的训练，以及注视判断策略的选择等。

根据本申请实施例提供的一种注意力检测方法及装置，采用端到端的方式，输入注视时的人脸图像和/或人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

如图1所示，为本申请实施例提供的一种注意力检测方法的流程示意图，示例性的，该方法包括以下步骤：

S101、获取用户注视时的人脸图像和/或人脸在所述人脸图像中的相对位置信息。

首先，进行人脸图像、人脸在人脸图像中的相对位置信息的采集。其中，人脸在人脸图像中的相对位置信息包括所述用户站立区域相对于被注视区域的位置信息和/或所述用户的头部姿态信息。如图2所示的图像采集场景示意图，人站立在注视区域的前面。需要说明的是，这里人站立在注视区域的前面，不一定是正前面，只要是注视区域的前方即可。

如图2所示，可以给人站立的位置划定一个区域，即站立区域，站立区域指用户在注视区域前站立的位置。人可以位于该站立区域中的任意一个位置。为了使得采集的数据更全面，用户的站立位置的选择被细分为两种策略：固定点位策略和随机点位策略。固定点位策略，指在用户站立的位置区域设定均匀分布的若干个点位，有序地依次采集用户在上述若干个点位的人脸图像，获取用户在上述若干个点位相对于被注视区域的位置信息，作为用户站立区域相对于被注视区域的位置信息。随机点位策略，指将用户站立的位置区域细分为若干个更小的区域，在上述若干个点位中随机选取设定数量的点位，依次采集用户在选取的若干个点位的人脸图像，获取用户在选取的若干个点位相对于被注视区域的位置信息，作为用户站立区域相对于被注视区域的位置信息。

如图3所示，为注视区域的区域划分示意图。注视区域指用户视线指向的区域，分为若干个区域。考虑到数据的全面性，在每个注视区域内设定了均匀分布的若干个点位。并且，在相邻注视区域间设立缓冲区域。具体到不同的应用场景，只需修改注视区域的设置即可。以广告机注视监控***为例，如图3所示，可以将注视区域分为注视和非注视区域，其间设立缓冲区，其他的应用场景可以依次类推。

除了注视区域、站立区域会影响人脸图像的采集和检测结果，用户的头部姿态也会影响人脸图像的采集和检测结果。头部姿态指用户在注视观测点位时的头部的朝向，根据用户的站立位置与观测位置的关系，观测点位在站立点位前方时，用户要采集的头部姿态有向上，向下，向前，向左，向右；观测点位在站立点位左侧时，用户要采集的头部姿态有向上，向下，向前，向左；观测点位在站立点位右侧时，用户要采集的头部姿态有向上，向下，向前，向右。

可以在注视区域的一个或多个位置安装摄像头，采集用户注视注视区域时的人脸图像。采集人脸图像时，人脸框的位置可以考虑上述用户站立区域相对于被注视区域的位置信息、以及用户的头部姿态等。

S102、获取所述人脸图像的整脸和/或局部特征信息。

获取的用户注视时的整个人脸图像具有一些特征信息，通过提取这些特征信息，可以知道该用户正在注视某个区域。另外，人脸图像中又包括一些重要的局部特征信息，如眼睛局部特征信息，因为眼睛是注视的最重要的器官，根据眼睛局部特征信息，可以更准确地知道该用户是否在注视某个区域。

S103、根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率。

获得上述人脸图像的整脸特征信息、人脸图像的局部特征信息、人脸在人脸图像中的相对位置信息中的一个或多个后，可以将上述多个信息中的一个或多个信息输入分类器，可以获得注视区域和非注视区域的概率，将概率最高的区域的编号作为输出。具体到广告机的监控***，注视区域只有广告屏幕内和广告屏幕外，即注视和非注视。直接将概率最高的区域作为输出，则可理解为有一个阈值0.5，当注视的概率大于0.5时，则判断为注视，否则判断为非注视。需要说明的是，对于不同的应用场景，可以设定不同的阈值，阈值的设定可以通过经验估计，也可以通过采集一部分测试数据来准确获得。

进一步地，如图2所示，注视区域又可以分为多个小的区域，对于训练好的卷积神经网络，也可以输出一个人脸图像对应的所有区域编号的概率，概率最高的区域作为最终输出。

可见，输入一个人脸图像、人脸在人脸在人脸图像中的相对位置信息，即可获得注视区域的概率，从而实现端到端的注意力检测。

根据本申请实施例提供的一种注意力检测方法，采用端到端的方式，输入注视时的人脸图像和/或人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

如图4所示，为本申请实施例提供的另一种注意力检测方法的流程示意图，示例性的，该方法包括以下步骤；

S201、获取用户注视时的人脸图像。

该步骤的具体实现可参考图1所示实施例的步骤S101。

S202、对所述人脸图像进行预处理。

采集的人脸图像会存在最重要的部分较暗，或者图像边缘的畸变严重等问题，因此，可以对人脸图像进行预处理。

第一种情形为，一般用于行人监控的摄像头都是广角摄像头，导致人脸占整个图像的比例较低，也就是分辨率低，再细化到眼睛局部的图像的话则会非常模糊；另外一般由于光照条件变化较大，有时会在人脸上形成阴影，导致最重要的眼睛部分较暗，影响最终结果的准确性。则在一个实现中，该步骤具体为：对所述人脸图像进行非线性拉伸，重新分配图像像素值，使变换后的人脸图像的灰度的概率密度呈均匀分布。如图5所示，为示例的图像非线性拉伸前后的对比示意图，可以使用直方图均衡化的方法，对图像进行非线性拉伸，重新分配图像象元值，使变换后的图像灰度的概率密度呈均匀分布。这就意味着图像灰度的动态范围得到了增加，提高了图像的对比度。

第二种情形为广角摄像头带来的另一个问题则是图像边缘的畸变严重，导致人脸以及眼睛图像有较大的变化，图像的变形和失真，也会给注视区域的判断造成严重的干扰。则在另一个实现中，该步骤具体为：对所述人脸图像进行畸变矫正。如图6所示，为示例的图像畸变矫正前后的对比示意图，通过对采集的人脸图像进行畸变矫正，克服上述图像变形和失真的问题。

S203、获取所述人脸图像的整脸特征图。

获取的用户注视时的整个人脸图像具有一些特征信息，通过提取这些特征信息，可以知道该用户正在注视某个区域。

在一个实现中，可以基于卷积神经网络，获取人脸图像的整脸特征图。卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络仿造生物的视知觉机制构建，其隐含层内的卷积核参数共享和层间连接的稀疏性，使得卷积神经网络能够以较小的计算量对格点化特征，例如像素和音频进行学习，有稳定的效果。

可以输入一个或多个人脸图像，对进行注意力检测的卷积神经网络进行训练，从而使得可以基于训练过的该卷积神经网络，提取人脸图像的特征向量。获得的人脸图像的特征向量包括多个特征尺度的特征向量，该特征向量包括人脸图像的多个特征，例如头部与注视区域的角度特征以及其他人脸特征等。

如图7所示的一种基于卷积神经网络的注意力检测的神经网络详细结构图，将采集的人脸图像输入深度卷积神经网络，可以得到若干张整脸特征图，该若干张特征图包括多个特征数据。

S204、根据所述人脸图像的整脸特征图，获取所述整脸特征图的整脸特征向量。

仍参考图7，对该若干张特征图进行卷积操作，可以得到人脸的整脸特征向量。

S205、根据所述整脸特征向量，获取注视区域的概率。

获得上述人脸图像的整脸特征向量后，可以将整脸特征向量输入分类器，可以获得注视区域和非注视区域的概率，将概率最高的区域的编号作为输出。具体到广告机的监控***，注视区域只有广告屏幕内和广告屏幕外，即注视和非注视。直接将概率最高的区域作为输出，则可理解为有一个阈值0.5，当注视的概率大于0.5时，则判断为注视，否则判断为非注视。需要说明的是，对于不同的应用场景，可以设定不同的阈值，阈值的设定可以通过经验估计，也可以通过采集一部分测试数据来准确获得。

根据本申请实施例提供的一种注意力检测方法，采用端到端的方式，输入注视时的人脸图像，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

如图8所示，为本申请实施例提供的又一种注意力检测方法的流程示意图，其中：

S301、获取用户注视时的人脸图像。

该步骤的具体实现可参考图1所示实施例的步骤S101或图4所示实施例的步骤S201。

S302、对所述人脸图像进行预处理。

该步骤的具体实现可参考图4所示实施例的步骤S202。

S303、检测眼睛在所述人脸图像中的位置。

如图9所示的另一种基于卷积神经网络的注意力检测的神经网络详细结构图，由于眼睛是进行注意力检测的最关键部分，可以对人脸图像中眼睛的位置进行标记。

S304、根据眼睛在所述人脸图像中的位置，确定眼睛在所述整脸特征图中的位置。

基于卷积神经网络，获取所述人脸图像的整脸特征图。并根据上述检测得到的眼睛在人脸图像中的位置，确定眼睛在整脸特征图中的位置。具体地，如图9所示，将眼睛在所述整脸特征图中的位置与眼睛在所述人脸图像中的位置对齐，得到眼睛在所述整脸特征图中的位置。在进行卷积操作时，该标记的位置在整脸特征图中不会变，因此，可以得到每张整脸特征图中眼睛的位置。

S305、根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图。

具体地，根据眼睛在整脸特征图中的位置，获取整脸特征图中的眼睛局部特征图。S306、根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量。

对该若干张眼睛局部特征图进行卷积操作，可以得到眼睛局部的特征向量。

S307、根据所述眼睛局部特征向量，获取注视区域的概率。

如前所述，眼睛是进行注意力检测的关键部分，因此，根据眼睛局部特征向量，也可以较准确地获得注视区域的概率。根据眼睛局部特征向量获取注视区域的概率的具体实现可以参考图1所示的步骤S103或图4所示实施例的步骤S205。

根据本申请实施例提供的一种注意力检测方法，基于卷积神经网络对用户注视时的人脸图像中的眼睛局部特征进行分析，采用端到端的方式，输入注视时的人脸图像，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

如图10所示，为本申请实施例提供的又一种注意力检测方法的流程示意图，其中：

S401、获取用户注视时的人脸图像和人脸在所述人脸图像中的相对位置信息。

该步骤的具体实现可参考图1所示的步骤S101。

S402、对所述人脸图像进行预处理。

该步骤的具体实现可参考图4所示的步骤S202。

S403、基于卷积神经网络，获取所述人脸图像的整脸特征图，并根据所述人脸图像的整脸特征图，获取所述整脸特征图的整脸特征向量。

该步骤的具体实现可参考图4所示的步骤S203和S204。

S404、检测眼睛在所述人脸图像中的位置。

该步骤的具体实现可参考图8所示实施例的步骤S303。

S405、根据眼睛在所述人脸图像中的位置，确定眼睛在整脸特征图中的位置。

该步骤的具体实现可参考图8所示的步骤S304。

S406、根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图。

该步骤的具体实现可参考图8所示的步骤S305。

S407、根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量。

该步骤的具体实现可参考图8所示的步骤S306。

S408、将所述整脸特征向量和所述眼睛局部特征向量进行融合，得到融合后的特征向量。

如图11所示的又一种基于卷积神经网络的注意力检测的神经网络详细结构图，可以对整脸特征向量和眼睛局部特征向量进行融合，得到融合后的特征向量。该融合后的特征向量不仅包括了眼睛局部的特征信息，还包括了整张脸的特征信息。整张脸的特征信息对注意力的检测有一定的辅助作用，可以使得检测结果更加准确。

S409、根据所述融合后的特征向量息，获取注视区域的概率。

根据融合后的特征向量，可以准确地获得注视区域的概率。关于注视区域的概率的获取可参考图1所示实施例的步骤S103、图4所示实施例的步骤S205、或图8所示实施例的步骤S307。

如图12所示，为本申请实施例提供的又一种注意力检测方法的流程示意图，其中：

S501、获取用户注视时的人脸图像和人脸在所述人脸图像中的相对位置信息。

该步骤的具体实现可参考图1所示的步骤S101。

S502、对所述人脸图像进行预处理。

该步骤的具体实现可参考图4所示的步骤S202。

S503、获取所述人脸图像的整脸特征图，并根据所述人脸图像的整脸特征图，获取所述整脸特征图的整脸特征向量。

该步骤的具体实现可参考图4所示的步骤S203和S204。

S504、检测眼睛在所述人脸图像中的位置。

该步骤的具体实现可参考图8所示实施例的步骤S303。

S505、根据眼睛在所述人脸图像中的位置，确定眼睛在整脸特征图中的位置。

该步骤的具体实现可参考图8所示的步骤S304。

S506、根据眼睛在所述整脸特征图中的位置，获取眼睛局部特征图。

该步骤的具体实现可参考图8所示的步骤S305。

S507、根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量。

该步骤的具体实现可参考图8所示的步骤S306。

S508、将所述整脸特征向量和所述眼睛局部特征向量进行融合，得到融合后的特征向量。

如图13所示的又一种基于卷积神经网络的注意力检测的神经网络详细结构图，可以对整脸特征向量和眼睛局部特征向量进行融合，得到融合后的特征向量。该融合后的特征向量不仅包括了眼睛局部的特征信息，还包括了整张脸的特征信息。整张脸的特征信息对注意力的检测有一定的辅助作用，可以使得检测结果更加准确。

另外，除了可以基于卷积神经网络，获取人脸图像的特征向量，还可以单独采集人脸在人脸图像中的相对位置信息。

S509、根据所述融合后的特征向量和所述人脸在人脸图像中的相对位置信息，获取注视区域的概率。

根据融合后的特征向量和所述人脸在人脸图像中的相对位置信息，可以准确地获得注视区域的概率。关于注视区域的概率的获取可参考图1所示实施例的步骤S103、图4所示实施例的步骤S205、或图8所示实施例的步骤S307、或图10所示实施例的步骤S409。

根据本申请实施例提供的一种注意力检测方法，采用端到端的方式，输入注视时的人脸图像和人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

基于上述实施例中的注意力检测方法的同一构思，如图13所述，本申请实施例还提供一种注意力检测装置1100，该装置1100可应用于上述图1、图4、图8、图10、图12所示的方法中。该装置1100包括：第一获取单元111、第二获取单元112、第三获取单元113，还可以包括融合单元114、预处理单元115、第一设置单元116、第一采集单元117、第六获取单元118。示例性地：

第一获取单元111，用于获取用户注视时的人脸图像和/或人脸在所述人脸图像中的相对位置信息；

第二获取单元112，用于获取所述人脸图像的整脸和/或局部特征信息；

第三获取单元113，用于根据以下信息中的一个或多个：所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息、人脸在所述人脸图像中的相对位置信息，获取注视区域的概率。

在一个实现中，所述第二获取单元112用于：

获取所述人脸图像的整脸特征图；

在另一个实现中，所述第三获取单元113用于：

根据所述整脸特征向量，获取所述注视区域的概率。

在又一个实现中，所述第二获取单元112包括(图中未示出)：

检测单元，用于检测眼睛在所述人脸图像中的位置；

在又一个实现中，所述第二获取单元112包括：

在又一个实现中，所述确定单元1122用于：

在又一个实现中，所述第四获取单元1123用于：

获取所述人脸图像的整脸特征图；

在又一个实现中，所述第三获取单元113用于：

根据所述眼睛局部特征向量，获取注视区域的概率。

在又一个实现中，所述装置还包括：

融合单元114，用于将所述整脸特征向量和所述眼睛局部特征向量进行融合，得到融合后的特征向量。

在又一个实现中，所述第三获取单元113用于：

在又一个实现中，所述装置还包括：

预处理单元115，用于对所述人脸图像进行预处理。

在又一个实现中，所述预处理单元115用于执行以下至少一种操作：

对所述人脸图像进行畸变矫正。

在又一个实现中，所述装置还包括：

第一设置单元116，用于在用户站立区域设置均匀分布的多个点位；

第一采集单元117，用于有序地依次采集所述用户在所述多个点位的所述人脸图像；

第六获取单元118，用于获取所述用户在所述多个点位相对于所述被注视区域的位置信息，作为所述用户站立区域相对于所述被注视区域的位置信息。

在又一个实现中，所述装置还包括(图中未示出)：

有关上述单元更详细的描述可以参考图1、图4、图8、图10、图12所示的方法实施例中的相关描述得到，这里不加赘述。

根据本申请实施例提供的一种注意力检测装置，采用端到端的方式，输入注视时的人脸图像和/或人脸在人脸图像中的相对位置信息，可以得到注视区域的概率，从而可以实现准确、可靠的注意力检测。

本申请实施例还提供一种注意力检测装置，该装置用于执行上述注意力检测方法。上述方法中的部分或全部可以通过硬件来实现，也可以通过软件或固件来实现。

可选的，装置在具体实现时可以是芯片或者集成电路。

可选的，当上述实施例的注意力检测方法中的部分或全部通过软件或固件来实现时，可以通过图13提供的一种注意力检测装置1200来实现。如图13所示，该装置1200可包括：

输入装置121、输出装置122、存储器123和处理器124(装置中的处理器124可以是一个或多个，图13中以一个处理器为例)。在本实施例中，输入装置121、输出装置122、存储器123和处理器124可通过总线或其它方式连接，其中，图12中以通过总线连接为例。

其中，处理器124用于执行图1、图4、图8、图10、图12中装置所执行的方法步骤。

可选的，上述注意力检测方法的程序可以存储在存储器123中。该存储器123可以是物理上独立的单元，也可以与处理器124集成在一起。该存储器123也可以用于存储数据。

可选的，当上述实施例的注意力检测方法中的部分或全部通过软件实现时，该装置也可以只包括处理器。用于存储程序的存储器位于装置之外，处理器通过电路或电线与存储器连接，用于读取并执行存储器中存储的程序。

处理器可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，或WLAN设备。

处理器还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmablelogic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complexprogrammable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gatearray，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

存储器可以包括易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器也可以包括非易失性存储器(non-volatilememory)，例如快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器还可以包括上述种类的存储器的组合。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。所显示或讨论的相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者通过该计算机可读存储介质进行传输。该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是只读存储器(read-onlymemory，ROM)，或随机存储存储器(random access memory，RAM)，或磁性介质，例如，软盘、硬盘、磁带、磁碟、或光介质，例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质，例如，固态硬盘(solid state disk，SSD)等。

Claims

1.一种注意力检测方法，其特征在于，所述方法包括：

获取用户注视时的人脸图像和人脸在所述人脸图像中的相对位置信息；

获取所述人脸图像的整脸和/或局部特征信息；

根据所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息中的至少一个和人脸在所述人脸图像中的相对位置信息，获取注视区域的概率，所述注视区域的概率大于设定阈值，且所述注视区域为分类器输出的概率中最大的概率值对应的区域；

所述获取所述人脸图像的局部特征信息，包括：

检测眼睛在所述人脸图像中的位置；

根据眼睛在所述人脸图像中的位置，确定眼睛在整脸特征图中的位置；

根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量；

所述人脸在人脸图像中的相对位置信息包括用户站立区域相对于被注视区域的位置信息；

所述方法还包括：

在用户站立区域设置均匀分布的多个点位；

在所述多个点位中随机选取设定数量的点位；

依次采集所述用户在所述选取的多个点位的所述人脸图像；

2.根据权利要求1所述的方法，其特征在于，所述获取所述人脸图像的整脸和/或局部特征信息，包括：

获取所述人脸图像的整脸特征图；

3.根据权利要求1所述的方法，其特征在于，所述根据眼睛在所述人脸图像中的位置，确定所述眼睛在所述整脸特征图中的位置，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，根据所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息中的至少一个和人脸在所述人脸图像中的相对位置信息，获取注视区域的概率，包括：

根据所述融合后的特征向量和所述人脸在人脸图像中的相对位置信息，获取所述注视区域的概率。

6.根据权利要求1～5中任一项所述的方法，其特征在于，所述获取用户注视时的人脸图像之后，所述方法还包括：

对所述人脸图像进行预处理。

7.根据权利要求6所述的方法，其特征在于，所述对所述人脸图像进行预处理，包括以下至少一种操作：

对所述人脸图像进行畸变矫正。

8.根据权利要求1～5、7任一项所述的方法，其特征在于，所述人脸在人脸图像中的相对位置信息还包括所述用户的头部姿态信息。

9.根据权利要求1～5、7中任一项所述的方法，其特征在于，当所述被注视区域位于所述用户站立区域前方时，所述用户的头部姿态信息包括以下任一种：向上、向下、向前、向左、向右；

10.一种注意力检测装置，其特征在于，所述装置包括：

第一获取单元，用于获取用户注视时的人脸图像和人脸在所述人脸图像中的相对位置信息；

第三获取单元，用于根据所述人脸图像的整脸特征信息、所述人脸图像的局部特征信息中的至少一个和人脸在所述人脸图像中的相对位置信息，获取注视区域的概率，所述注视区域的概率大于设定阈值，且所述注视区域为分类器输出的概率中最大的概率值对应的区域；

所述第二获取单元包括：

检测单元，用于检测眼睛在所述人脸图像中的位置；

确定单元，用于根据眼睛在所述人脸图像中的位置，确定眼睛在整脸特征图中的位置；

第五获取单元，用于根据所述眼睛局部特征图，获取所述眼睛局部特征图的眼睛局部特征向量；

所述装置还包括：

11.根据权利要求10所述的装置，其特征在于，所述第二获取单元用于：

获取所述人脸图像的整脸特征图；

12.根据权利要求10所述的装置，其特征在于，所述确定单元用于：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

14.根据权利要求13所述的装置，其特征在于，所述第三获取单元用于：

15.根据权利要求10～14中任一项所述的装置，其特征在于，所述装置还包括：

预处理单元，用于对所述人脸图像进行预处理。

16.根据权利要求15所述的装置，其特征在于，所述预处理单元用于执行以下至少一种操作：

对所述人脸图像进行畸变矫正。

17.根据权利要求10～14、16中任一项所述的装置，其特征在于，所述人脸在人脸图像中的相对位置信息还包括所述用户的头部姿态信息。

18.根据权利要求10～14、16中任一项所述的装置，其特征在于，当所述被注视区域位于所述用户站立区域前方时，所述用户的头部姿态信息包括以下任一种：向上、向下、向前、向左、向右；

19.一种注意力检测装置，其特征在于，所述装置包括：输入装置、输出装置、存储器和处理器；其中，所述存储器中存储一组程序代码，且所述处理器用于调用所述存储器中存储的程序代码，执行如权利要求1～9中任一项所述的方法。

20.一种非易失性计算机可读存储介质，其上存储有计算机程序指令，其特征在于，所述计算机程序指令被处理器执行时实现权利要求1～9中任意一项所述的方法。