CN112115601B

CN112115601B - 一种可靠的用户注意力监测估计表示模型

Info

Publication number: CN112115601B
Application number: CN202010957672.7A
Authority: CN
Inventors: 王海鹏; 张淑鹏
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2022-05-17
Anticipated expiration: 2040-09-10
Also published as: CN112115601A

Abstract

本发明提供了一种可靠的用户注意力监测估计表示模型，包括单模态注意力计算层、多模态融合层和用户注意力表示层。通过对采集到的用户注意力变化的原始数据进行综合计算，得到表示用户当前注意力的注意力数值。本发明利用多个注意力检测模态，通过减少这些模态之间的依赖关系和优化多个模态注意力值的融合计算，能够获得更加可靠的用户注意力值，解决模态缺失或单模态检测效果不佳的用户注意力可靠检测问题。

Description

一种可靠的用户注意力监测估计表示模型

技术领域

本发明属人机交互处理技术领域，具体涉及一种可靠的用户注意力监测估计表示模型。

背景技术

注意力检测技术随着现在网络的急速发展，可应用的范围也越来越广，同时在检测驾驶员注意力、在线教育情况下远程检测学生注意力方面已经有广泛的研究，已经有很多的研究人员提出了诸如脸部检测注意力、头部姿态检测注意力、眼睛闭合状态检测注意力的这类检测方法。但是目前的注意力检测研究和产品都大大小小的存在一些可靠性问题，这些研究和产品在进行注意力的检测的时候，缺乏考虑到模态出现误差的场景，这会导致最后的检测结果太过于依赖于某一个模态的稳定性。例如使用检测人体脸部这个模态来做注意力检测的话，在光线效果不佳的情况下，那么脸部检测模态是很容易出现误差的。因此如果能在某个模态出现误差情况下，甚至某个模态的效果特别差或者不能正常使用的情况下，还能正常的得到一个可靠的注意力的数据指标，将更加有利于提高注意力检测产品的结果可靠性和稳定性。

发明内容

为了克服现有技术的不足，本发明提供一种可靠的用户注意力监测估计表示模型。可以在注意力检测情况下即使某些模态在出现误差，甚至效果特别差或者不能正常使用的情况下，仍然能计算出一个可靠的注意力数据值。

一种可靠的用户注意力监测估计表示模型，其特征在于：包括单模态注意力计算层、多模态融合层和用户注意力表示层，其中，单模态注意力计算层对每个单模态获取的用户注意力变化原始数据进行处理，得到各个单模态对应的注意力数值，和各个单模态的融合权值一起输出到多模态融合层；多模态融合层周期性地对在上一融合时间至当前融合时间的时间间隔内每个单模态的若干个注意力数值进行处理，对每个单模态得到一个融合前的注意力代表数值，并对所有单模态的融合前注意力代表数值进行融合计算，得到多模态融合注意力数值输出到用户注意力表示层；用户注意力表示层周期性地对该层内部存储的固定个数的多模态融合注意力数值进行融合计算，得到用户当前的注意力计算数值。

其中，单模态注意力计算层对每个单模态进行独立化处理，每个单模态进行数据采集和独立计算，得到单模态注意力数值；所述的单模态具有其独立的融合权值和计算周期，并依赖于该模态的原始配置情况；所述的融合权值为单模态的模型检测精度或准确度；所述的单模态注意力数值为0或1，分别对应表示用户当前注意力为不集中状态或注意力集中状态。

所述的多模态融合层周期性地按以下过程进行处理：

首先，对所接收的从上一融合时间至当前融合时间间隔内每个单模态的注意力数值进行处理，如果融合时间间隔内单模态只有一个注意力数值，则直接以该注意力数值作为其融合前的注意力代表数值，否则，以出现概率最大的注意力数值作为该单模态的融合前的注意力代表数值；所述的当前融合时间为多模态融合层进行计算的当前时间，所述的融合时间间隔大于等于每个单模态的计算周期；

然后，根据每个单模态的融合权值对各个单模态融合前的注意力代表数值进行归一化加权，计算公式为：

其中，y为多模态融合注意力数值，取值为[0，1]，z_i为融合时间间隔内第i个单模态的融合前的注意力代表数值，x′_i为第i个单模态的归一化融合权值，按照下式计算：

其中，x_i表示第i个单模态的融合权值，n表示单模态注意力计算层中包含的单模态个数，n≥2。

所述的用户注意力表示层中设置一个队列数据结构，用于存储固定个数的多模态融合层输出的多模态融合注意力数值，在队列中数据达到预设数量之后，每接收一个新的多模态融合注意力数值即将其***到队尾并且从队头删除一个多模态融合注意力数值在队列中数据达到预设数量m之后，每接收一个新的多模态融合注意力数值即将其***到队尾并且从队头删除一个多模态融合注意力数值，用户注意力表示层周期性对队列中存储的多模态融合注意力数值进行融合计算，公式如下：

其中，

为该次计算得到的用户当前的注意力计算数值，取值为[0，1]，y_i为队列中存储的第i个多模态融合注意力数值，m为队列中存储的多模态融合注意力数值个数；

为队列中存储的第i个多模态融合注意力数值的归一化权值，按照下式计算得到：

其中，v_i为队列中存储的第i个多模态融合注意力数值的初始权值，按照下式计算得到：

其中，i为队列中存储的多模态融合注意力数值的序号，i＝1，2，…，m，Gaussian为半正态分布函数，z_i≥0为函数变量，函数计算公式如下：

其中，参数σ取值为队列长度的一半大小，即σ＝m/2。

本发明的有益效果是：

1)本发明在进行多模态数据融合之前，首先对融合时间间隔内各个单模态的多个注意力数值进行代表性数值计算，可以在一定程度上消除因各种因素导致的单模态注意力数值计算过程中出现的偶然误差，获得比较准确的单模态注意力数值，从而提高多模态融合注意力值的准确性和最终用户注意力值的准确性；

2)本发明在进行多个模态的注意力数值融合计算过程中，采用单模态融合权值归一化动态处理，可以避免采用静态权值策略存在的因某时间间隔内部分模态缺失剩余模态融合权值之和不为1的问题，也可以避免融合结果过于依赖某种或部分单模态注意力值的问题，获得更加可靠的融合注意力值；

3)考虑到注意力的变化不是瞬时的，而是一个连续过程，某一时刻的注意力和其前后时间范围内的数据存在较大关联性，本发明采用动态地、周期性地对固定时间间隔内的值进行融合计算，综合了该时间段内其他时间点的注意力数据，且对融合结果数据再次采用动态地、周期性地融合处理策略进行处理，可以避免注意力值计算过于依赖单一时刻注意力值或单一时间间隔内融合注意力值计算结果，最大限度避免偶然计算误差对最终计算结果的影响，大大减小计算误差，使得最终的注意力表示数值计算过程和结果更加可靠。

附图说明

图1是本发明的用户注意力监测估计表示模型示意图。

图2是本发明采用的高斯函数示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明，本发明包括但不仅限于下述实施例。

本发明针对现有注意力检测研究和产品存在的一些问题，提出一种可靠的用户注意力监测估计表示模型，通过设计一种多层注意力计算结构，可以很方便地整合现有的比较成熟的注意力计算方法，并且和其他的注意力检测研究和产品相比，该发明计算出的注意力数值具有更高的可靠性。

如图1所示，本发明的用户注意力监测估计表示模型包括单模态注意力计算层、多模态融合层和用户注意力表示层，其具体计算过程为：

首先，采集到每个模态需要的注意力原始数据，然后每个模态按照各自独立的计算周期对注意力原始数据进行处理，每个模态都能分别得到一个注意力数值。在单模态注意力计算层当中可以存在若干个注意力计算模态，这些模态可以是其他任意的注意力计算模态或者其他注意力计算方法，例如当前比较成熟的脸部注意力检测、头部姿态注意力检测、眼睛闭合注意力检测等等，都可以作为单模态注意力计算层当中的一个注意力计算模态。

举例来说，如果应用本实施例检测网络课程下学生的注意力是否集中，可以使用脸部检测、头部姿态检测等等方法作为进行注意力计算的单模态，脸部模态需要的数据为摄像头采集的脸部图像，头部姿态模态需要的数据为摄像头采集的头部图像。由于这些注意力计算模态的实现和检测处理过程均为成熟现有技术，因此本发明在此不再赘述。每个单模态都能采集相应数据并进行注意力水平判断，得到一个注意力数值。

通过封装这些模态，使得单模态符合一定的规定和约束，下面是单模态需要符合的规定：

1.约定单模态注意力数值为0或者1，分别代表单模态初步估计用户当前的注意力不集中状态和注意力集中状态。

2.单模态应该有一个融合权值，该权值越大则一定程度上反应该模态的计算结果对最终注意力数值的影响越大，反之越小。在设置模态的权值的时候，可以考虑使用模态的模型精确度作为该模态的融合权值。比如模态A的模型精度或者检测准确度为 0.9，模态B的模型精度或者检测准确度为0.8，则模态A设定融合权值为0.9，模态B 设定融合权值为0.8。本发明中，融合权值并不代表融合时直接使用该权值做加权平均，而是会进行权值的动态归一化，这是为了保证在缺失模态时能然能够计算出一个可靠的注意力计算数值。

举例来说，如果使用脸部模态作为单模态层进行注意力计算的其中一个模态，那么脸部模态可以通过检测摄像头采集的图片是否存在人脸作为判断依据，如果存在人脸则单模态注意力数值为1，如果没有检测到人脸则单模态注意力数值为0，同时假设脸部模型的检测精度或者准确度为0.8，则可以设定该脸部模态的融合权值为0.8。

为了避免注意力计算结果对单个模态有太强的依赖，因此有必要对多个模态的注意力数值结果进行融合计算；注意力计算结果对某个模态如果具有强依赖的话，那么在该单模态出现误差甚至不能正常使用的时候，将会无法计算出可靠的注意力水平。

在单模态注意力融合层当中，每个模态都是独立计算出单模态注意力数值，并且将注意力数值传递给多模态融合层，然后多模态融合层接收从上一融合时间至当前融合时间间隔内每个单模态的若干个单模态注意力数值。所述上一融合时间为上一次进行多模态融合注意力值计算的时间点，所述当前融合时间为当前进行多模态融合注意力值计算的时间点，融合时间间隔范围大于等于每个单模态的计算周期；例如模态A 的计算时间周期为200ms，模态B的融合时间周期为150ms，假设只有这两个模态，那么多模态融合层进行融合计算的时间间隔应该大于或者等于所有模态计算周期之中最大的，也就是需要大于等于模态A的计算周期200ms，这样可以保证在每一个融合周期内每个模态都至少能计算出一个注意力数值结果。

每过一个融合时间间隔，多模态融合层对该时间间隔内接收到的每个单模态的多个单模态注意力数值进行处理，若在融合时间间隔内该单模态只有一个单模态注意力数值，则取该单模态注意力数值作为该段时间间隔内的融合前单模态注意力代表数值；若在该融合时间间隔内该单模态有多个单模态注意力数值，则需要对该单模态的多个单模态注意力数值进行处理得到该段时间间隔内的融合前单模态注意力代表数值，处理方法为：若该单模态有n个单模态注意力数值，其中有i个单模态注意力数值为0，n-i 个单模态注意力数值为1，则若i≥n-i，则该段时间间隔内的融合前单模态注意力代表数值为0，否则为1，即取该段时间间隔内单模态注意力数值(0和1)出现的概率较大者作为该段时间间隔内的融合前单模态注意力代表数值。

举例来说，如果模态A计算周期较短，因此在在该融合时间间隔内计算出了5个单模态注意力数值，其中4个为1，一个为0，即1的数量大于0的数量或者说是1 出现的概率大于0出现的概率，因此在该段时间间隔内，使用1作为模态A的融合前单模态注意力代表数值。因为单模态难以避免因误差而产生的注意力计算数据，而该误差数据的数据量和正常数据相比，数量要小很多，为了消除偶尔出现的误差数据的影响，因此采用此种方式可以一定程度上获得比较准确的单模态注意力数值。

因为可能存在某些模态不能使用的情况，例如设备的摄像头损坏或者获取不到摄像头权限，又或者是其他故障导致某个单模态无法正常使用，在融合时需要针对每个模态的实际融合权值进行归一化操作，保证每个模态的实际融合权值之和为1，从而保证在因为一些不可抗拒原因导致某些模态不能使用的情况下，仍然能够正常的融合其他模态的单模态注意力数值结果。根据每个所述单模态各自的权值进行归一化获得各个单模态的归一化权值：

其中，x′_i为第i个单模态的归一化权值，x_i表示第i个单模态的权值，n表示单模态注意力计算层中包含的单模态个数，n≥2。

多模态融合注意力数值的计算公式为：

其中，y为多模态融合注意力数值，其数值范围为[0，1]，z_i为融合时间间隔内第i个单模态的融合前的注意力代表数值。

每个模态在计算注意力的实际的应用过程当中不可避免地会产生一定量的误差数据，因此在进行最后的注意力计算数值结果的时候，必须最大程度的减少这些误差数据对最终注意力数值结果的影响。单个模态产生的误差数据一定程度上会对多模态融合注意力数值结果产生影响，因此如果仅仅参考一次的多模态融合注意力数值结果作为最终的用户注意力表示数值是不太精确的，应该进行进一步的数据处理。

考虑到注意力的变化不是瞬时的，而是一个连续过程，因此计算某一时刻的注意力水平可以参考距离这一时刻较近时间段内的其他注意力数据，例如参考近2秒内的其他时刻的注意力数值数据。通过使用这种综合考虑该时间段内其他时间点的注意力数据，可以有效的避免最终的注意力数值结果仅仅依赖一次的融合注意力数值，因此即使在当前时刻该次的融合注意力数值受到单个模型的注意力结果影响仍然出现较大误差，也可以通过综合融合该时间段内其他时间点的数据结果，使得计算出的当前时刻的用户注意力数值的误差相对较小，因此，本发明利用用户注意力表示层对多模态融合注意力数值结果进行进一步地处理，进一步地减少误差数据的影响。

用户注意力表示层当中设置一个队列数据结构，用于存储固定个数的多模态融合层输出的注意力数值，在队列中数据达到预设数量m之后，每接收一个新的多模态融合注意力数值即将其***到队尾并且从队头删除一个多模态融合注意力数值；用户注意力表示层周期性对队列中读取的固定个数的多模态融合注意力数值进行加权计算。用户注意力表示层的周期即滑动步长设置如下：所述多模态融合层的融合时间间隔为 F，融合时间间隔F大于等于每个单模态的计算周期，用户设定的注意力计算时间间隔为T，T＞＝100ms，则用户注意力表示层的周期即步长为S，S＜＝T，用户注意力表示层的队列数据结构所存储的队头与队尾的数据采集时间之间的间隔为G， G＞＝max(S，3F)。该队列中多模态融合注意力数值的相应计算权值从队头至队尾逐渐增高，并且服从半正态分布即一半的高斯分布曲线，所述半正态分布的函数如下：

其中，z为函数的变量，满足z≥0，参数σ取值为队列长度的一半大小，若队列大小为m，则σ＝m/2，m＝G/F。队列中数据标号i从队头至队尾分别为1至m，则标号为i 的数据的高斯权重计算公式：

其中，v_i为队列中存储的第i个(标号为i的)数据(多模态融合注意力数值)的初始权值，对其按下式进行归一化：

其中，

为标号为i的数据的归一化权值，即队列中所存储的第i个多模态融合注意力数值的归一化权值，再按照下式进行最终的注意力数值计算：

其中，

为该次计算得到的用户当前的注意力计算数值，用户当前的注意力计算数值取值范围为0到1，包括0和1。y_i为队列中存储的第i个多模态融合注意力数值。

在本发明中，只使用了半正态分布即一半的高斯分布曲线，距离当前时间节点越近的数据则融合权值相应的会越大，越远的数据则融合权值越小，也就是队尾的权值是最高的，因为数据的采集时间距离当前最近，而队头的权值是最低的，因为采集时间距离当前时间点最远。使用高斯函数作为数据的融合权值生成方法的一部分，可以在融合的时候根据距离当前时间的距离远近来分配权值，这样计算出来的注意力结果更加合理。

通过所述多层结构对注意力进行计算，最终得到的注意力计算数值可一定程度上代表用户当前的注意力水平，并且数值越大，代表用户注意力越集中。

Claims

1.一种可靠的用户注意力监测估计表示模型，其特征在于：包括单模态注意力计算层、多模态融合层和用户注意力表示层，其中，单模态注意力计算层对每个单模态获取的用户注意力变化原始数据进行处理，得到各个单模态对应的注意力数值，和各个单模态的融合权值一起输出到多模态融合层；多模态融合层周期性地对在上一融合时间至当前融合时间的时间间隔内每个单模态的若干个注意力数值进行处理，对每个单模态得到一个融合前的注意力代表数值，并对所有单模态的融合前注意力代表数值进行融合计算，得到多模态融合注意力数值输出到用户注意力表示层；用户注意力表示层周期性地对该层内部存储的固定个数的多模态融合注意力数值进行融合计算，得到用户当前的注意力计算数值；

其中，单模态注意力计算层对每个单模态进行独立化处理，每个单模态进行数据采集和独立计算，得到单模态注意力数值；所述的单模态具有其独立的融合权值和计算周期，并依赖于该模态的原始配置情况；所述的融合权值为单模态的模型检测精度或准确度；所述的单模态注意力数值为0或1，分别对应表示用户当前注意力为不集中状态或注意力集中状态；

所述的多模态融合层周期性地按以下过程进行处理：

其中，y为多模态融合注意力数值，取值为[0,1]，z_i为融合时间间隔内第i个单模态的融合前的注意力代表数值，x′_i为第i个单模态的归一化融合权值，按照下式计算：

其中，x_i表示第i个单模态的融合权值，n表示单模态注意力计算层中包含的单模态个数，n≥2；

所述的用户注意力表示层中设置一个队列数据结构，用于存储固定个数的多模态融合层输出的多模态融合注意力数值，在队列中数据达到预设数量m之后，每接收一个新的多模态融合注意力数值即将其***到队尾并且从队头删除一个多模态融合注意力数值，用户注意力表示层周期性对队列中存储的多模态融合注意力数值进行融合计算，公式如下：

其中，

为该次计算得到的用户当前的注意力计算数值，取值为[0,1]，y_i为队列中存储的第i个多模态融合注意力数值，m为队列中存储的多模态融合注意力数值个数；

其中，i为队列中存储的多模态融合注意力数值的序号，i＝1,2,…,m，Gaussian为半正态分布函数，z_i≥0为函数变量，函数计算公式如下：

其中，参数σ取值为队列长度的一半大小，即σ＝m/2。