CN113326739A

CN113326739A - 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质

Info

Publication number: CN113326739A
Application number: CN202110497274.6A
Authority: CN
Inventors: 姜新波; 秦学英
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-08-31
Anticipated expiration: 2041-05-07
Also published as: CN113326739B

Abstract

本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质，该评估方法包括：对视频片段依次进行预处理、特征提取和变换；通过空间注意力模块的输出M_t；将M_t输入到两层Bi‑LSTM模型，得到隐藏状态

利用时间注意力模块，得到隐藏状态

的权重β_t；根据权值β_t调整输入的隐藏状态

输出隐藏状态

最后经过激活函数得到学习参与度评估结果Y_T。该方法既考虑该特征的空间信息的显著性，同时考虑该特征在时间序列上的显著性，并且能够融合多类输入特征，提高评估的准确性。

Description

基于时空注意力网络的在线学习参与度评估方法及评估系统、设备、存储介质

技术领域

本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质，属于人工智能技术领域。

背景技术

随着数字媒体与网络技术的发展，在线教育正逐步发展成为一种新型的教育模式。与传统教育模式相比，在线教育能够突破时间、空间的限制，拓宽学生获取信息的渠道。但由于学生在学习过程中缺乏与教师的直接沟通和反馈，导致极低的完成率。因此及时获取学生的学习状态并做出相应调整，是提高网络教育质量的关键。

学习参与度是体现学生学习状况的重要指标，在学习过程中起着至关重要的作用。随着慕课、公开课等一类网络课程的大量出现，学习过程中学生参与度的自动评估问题受到研究人员的广泛关注。实时获取学生的学习参与度，并且及时反馈给教师，教师根据参与度的情况做出相应调整，进而影响学生的学习过程，能够一定程度解决在线教育过程中存在的问题。

早期学习参与度的研究主要是基于简单学习行为的统计方法，例如分析在线时长、阅读数量、点击次数等学习行为。这是由于早期时候数据采集能力以及计算能力的限制，研究只能在规模较小的数据上进行，并且只能处理一些简单的特征。尽管受试者在学习过程的视频数据蕴含着更丰富的行为与情感信息，但是早期基于特征点的方法很难提取此类信息，研究工作进展有限。随着深度学习技术的出现与发展，能够从大量视频中直接提取受试者复杂的学习行为以及面部表情信息，进而评估其行为参与度与情感参与度，最终得到学习参与度。该方法是目前主流的参与度研究方法，称之为视觉方法。两类方法相比，统计方法有很强的主观性，评估性能的好坏依赖于衡量指标。视觉方法直接从分析受试者入手，不受学习内容的约束，因此具有更强的普适性。如中国专利文献CN111832669A公开了学习参与度识别网络模型的建立方法及装置，对获取的多个视频样本进行预处理，得到融合特征；根据所述视频样本的融合特征，构建学习参与度识别网络模型训练用的最小批；依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则，构造有序度量损失函数，其中，所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到；根据所述有序度量损失函数，优化所述学习参与度识别网络模型中的参数。但是，目前的视觉方法只是将多类特征进行简单的拼接，没有充分挖掘特征内以及特征之间的显著性信息。

同时，传统的双向长短期记忆网络(Bi-LSTM)模型只有一个输入信息，结果好坏很大程度取决于输入的情况，Bi-LSTM模型缺乏外部调控的问题。

发明内容

针对现有技术的不足，本发明提供了基于时空注意力网络的在线学习参与度评估方法及评估***，该方法提出了空间注意力模块与时间注意力模块，对于每一帧特征，既考虑该特征的空间信息的显著性，同时考虑该特征在时间序列上的显著性，并且能够融合多类输入特征，提高评估的准确性。本发明提出的基于时间注意力的双向自适应长短期记忆网络,能够根据帧特征的时间上的显著性，调节双向长短期记忆网络的输入，从而进一步提高准确性。

本发明还提供了一种计算机设备和存储介质。

术语解释：

1.Bi-aLSTM：双向自适应长短期记忆网络，是在Bi-LSTM模型的基础上，构建了一个自适应模块，能够基于获取的权重信息，自动调整Bi-LSTM模型的输入。

2.Bi-LSTM：是Bi-directional Long Short-Term Memory的缩写，双向长短期记忆网络，是由前向LSTM与后向LSTM组合而成。

3.hyperface网络：hyperface网络能够自动提取图像中人的头部姿态特征块。Ranjan R,Patel V M,Chellappa R.HyperFace:A Deep Multi-task Learning Frameworkfor Face Detection,Landmark Localization,Pose Estimation,and GenderRecognition.IEEE Transactions on Pattern Analysis&Machine Intelligence,2018:1-1。

4.openface网络：以卷积网络为基础，能够自动提取图像中人的头部姿态特征块。Amos B,Ludwiczuk B,Mahadev Satyanarayanan.OpenFace:A general-purpose facerecognition library with mobile applications。

5.KMEANS聚类算法：KMEANS算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

6.DS-ATT:Dual-Modal Spatial Attention Module，双模态空间注意力模块，能够融合两种模态的特征，并对特征中不同位置基于注意力机制进行加权。

7.T-ATT:Temporal Attention Module，时间注意力模块，能够对特征序列中不同时刻的特征基于注意力机制进行加权。

本发明的技术方案为：

一种基于时空注意力网络的在线学习参与度评估方法，该方法包括步骤：

(1)对待评估的在线学习的视频片段进行预处理；

(2)特征提取：提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；

(3)特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

表示在第t个头部姿态特征块i位置上从通道1到通道D₁上的值构成的特征，

K₁表示头部姿态特征块中每个通道的边长，t∈{1,…,T}，T表示视频片段的个数；D₁表示头部姿态特征块中通道的个数；该头部姿态特征的维度与头部姿态特征块的通道数相同，均为D₁；

同理，将面部表情特征块E_t分解成面部表情特征集合

表示在第t个面部表情特征块j位置上从通道1到通道D₂上的值构成的特征，

K₂表示面部表情特征块中每个通道的边长，t∈{1,…,T}；D₂表示面部表情特征块中通道的个数；该面部表情特征的维度与面部表情特征块的通道数相同，均为D₂；

(4)将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，最后双模态空间注意力模块的输出M_t；初始的隐藏状态H₀每一维初始化为0；

(5)将M_t输入到两层Bi-LSTM模型，得到隐藏状态

(6)将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；

(7)将步骤(6)时间注意力模块得到的隐藏状态

的权重β_t和步骤(5)得到的隐藏状态

输入到训练好的Bi-aLSTM模型中，然后Bi-aLSTM模型根据当前时刻的权值β_t调整输入的隐藏状态

Bi-aLSTM模型输出隐藏状态

隐藏状态

经过激活函数tanh得到学习参与度评估结果Y_T，Y_T是整数，Y_T取值范围0到3，从0至3参与度依次增加，0表示完全不参与，1表示低程度的参与，2表示一般程度的参与，3表示高程度的参与。

Bi-aLSTM模型是在Bi-LSTM模型的基础上，构建了一个自适应模块，自适应模块根据当前时刻的权值β_t调整输入的隐藏状态

Bi-aLSTM模型输出隐藏状态

根据本发明优选的，Bi-aLSTM模型的训练过程为：

a、构建数据集，具体包括：

a-1、获取训练视频；

a-2、确定视频的标注指标，标注指标包括头部姿态、眼球注视点和面部表情；

a-3、对视频进行标注；

b、将数据集中的视频片段进行预处理；

c、特征提取：提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；

d、特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

将面部表情特征块E_t分解成面部表情特征集合

e、将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，最后双模态空间注意力模块的输出M_t；

f、将M_t输入到两层Bi-LSTM模型，得到隐藏状态

g、将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；

h、将步骤g时间注意力模块得到的隐藏状态

的权重β_t和步骤f得到的隐藏状态

输入到Bi-aLSTM模型中；

i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度，以及输入特征序列的最大长度T。

根据本发明优选的，步骤(1)中，对待评估的在线学习的视频片段进行预处理；具体过程为：

1-1：降采样：从采集的在线学习的视频中，每10帧图像随机采样1帧图像，用于后续的计算；通过观察，发现连续多帧图像中受试者的头部姿态与面部表情变化很小，因此为了减少训练时间以及减小存储压力；

1-2：视频分段：基于滑动窗口的方式将降采样的视频进行分块处理；滑动窗口的长度为len，每次窗口滑动的步长定为len，因此每一个视频片段的长度为len。能够进一步减少训练时间。

由于LSTM在处理时序数据的时候，随着序列长度的增加，训练时间会大大延长，因此采用降采样和视频分段两种方式来降低训练时间。

根据本发明优选的，步骤(2)中，提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；具体过程为：

2-1、将预处理后的视频片段t的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块，将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块；

2-2、将视频片段t中所有帧图像的头部姿态特征块的特征均值作为视频片段t的头部姿态特征块G_t，将该视频片段t中所有帧图像的面部表情特征块的特征均值作为视频片段t的面部表情特征块E_t；具体为：

式(I)中，len为视频片段的长度，G_r,t表示第t个视频片段中第r帧图像提取的头部姿态特征块；r∈{1,…,len}，t∈{1,…,T},T表示视频片段的个数；G_t表示视频片段t均值化后的头部姿态特征块；

式(II)中，E_r,t表示第t个视频片段中第r帧图像提取的面部表情特征块，r∈{1,…,len}，t∈{1,…,T}，T表示视频片段的个数；E_t表示视频片段t均值化后的面部表情特征块。

经过以上操作，能够进一步加速，同时能尽可能的获取一个视频片段中每一帧图像的信息；基于特征提取，将时长为L的视频，压缩成时长为T的特征序列。

根据本发明优选的，步骤(4)中，将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，最后双模态空间注意力模块的输出M_t；具体过程为：

4-1，在双模态空间注意力模块中，得到面部表情特征

的注意力值α_E,t,j和头部姿态特征

的注意力值α_G,t,i；具体过程为：

头部姿态特征

的注意力值α_G,t,i的计算公式为：

式(III)中，特征块i位置，

W_i ^G表示对头部姿态特征

进行全连接操作，

表示对任一个头部姿态特征

进行全连接操作，

面部表情特征

的注意力值α_E,t,j的计算公式为：

式(IV)中，特征块j位置，

表示对面部表情特征

进行全连接操作，

表示对任一个面部表情特征

进行全连接操作，

4-2，基于对面部表情特征

及其注意力值α_E,t,j，以及头部姿态特征

及其注意力值α_G,t,i分别进行加权处理，再进行链接及全连接操作，得到双模态空间注意力模块的输出M_t；具体过程为：

a、对面部表情特征

及其注意力值α_E,t,j进行加权处理，得到加权面部表情注意力特征

具体为：

对头部姿态特征

及其注意力值α_G,t,i进行加权处理，得到加权头部姿态注意力特征

具体为：

b、将加权头部姿态注意力特征

和加权面部表情注意力特征

进行链接，再进行全连接操作，得到M_t，

W[·]表示全连接操作。

根据本发明优选的，步骤(6)中，将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；具体过程为：

步骤6-1，在时间注意力模块中，进行聚类操作：采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态

进行聚类；为了消除特征不同维度的方差差异，使用马氏距离来度量特征之间的距离，然后进行聚类；

经过聚类得到K个聚类中心C_k，

每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同；每个隐藏状态

对每个聚类中心的隶属度为D_t，

且

表示第t个隐藏状态

属于第k个聚类中心的概率值,k为1,2,3…K；

步骤6-2，进行挤压操作：对每个聚类中心的每一维数值累加求和，将每个聚类中心变成一个实数，这个实数某种程度上具有全局的感受野，经过挤压操作，最终输出的维度与输入的聚类中心的个数相等，如式(VII)所示：

式(VII)中，z_k表示经过求和操作后，第k个聚类中心的值；C_k表示第k个聚类中心，F_sq(·)表示进行挤压操作，

表示第k个聚类中心第i维的值；h表示聚类中心的维度；

步骤6-3，进行活化操作：进行两个全连接以及σ(·)函数的非线性运算，计算每个聚类中心的权重

这两个全连接层的作用就是融合各个聚类中心的信息，具体如下：

式(VIII)中，z表示z₁到z_k构成的向量；δ表示RELU函数，F_ex(·,W)表示进行活化操作，σ(·)表示sigmoid激活函数；W₁表示第一次全连接操作，W₂表示第二次全连接操作；

步骤6-4，基于每个聚类中心的权重

中的每一个分量的值表示每个聚类中心的权重，分配给每个隐藏状态

的权重β_t，如式(IX)所示：

式(IX)中，D_t表示每个隐藏状态

对每个聚类中心的隶属度，

为

的第k个分量，k＝1、2、3……K。

根据本发明优选的，步骤(7)中，Bi-aLSTM模型根据当前时刻的权值β_t调整输入的隐藏状态

具体过程如下：

式(X)中，S_t表示隐藏状态

调整后的输入，W3、W4分别表示两次全连接操作，σ(·)表示sigmoid激活函数；δ表示RELU函数。

一种基于时空注意力网络的在线学习参与度评估***，用于实现上述基于时空注意力网络的在线学习参与度评估方法，该***包括：

预处理模块，用于对待评估的在线学习的视频片段进行预处理；

特征提取模块，用于提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；

特征变换模块，用于将头部姿态特征块G_t分解成头部姿态特征集合

以及将面部表情特征块E_t分解成面部表情特征集合

双模态空间注意力模块，用于将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，输出M_t；

两层Bi-LSTM模块，基于双模态空间注意力模块的输出M_t得到隐藏状态

时间注意力模块，用于得到隐藏状态

的权重β_t；

Bi-aLSTM模块，用于根据当前时刻的权值β_t调整输入的隐藏状态

输出隐藏状态

隐藏状态

经过激活函数tanh得到学习参与度评估结果Y_T。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。

本发明的有益效果为：

1.该发明提出了双模态空间注意力模块与时间注意力模块，对于每一帧特征，既考虑该特征的空间信息的显著性，同时考虑该特征在时间序列上的显著性，并且能够融合多类输入特征，提高评估的准确性。提出的基于时间注意力的自适应的双向LSTM,能够根据帧特征的时间上的显著性，调节双向LSTM的输入，从而进一步提高准确性。

2.本发明提出的双模态空间注意力模块，用于解决视频中每一帧图像不同区域缺乏显著性的问题；图像不同区域提取的特征对评估结果产生不同的影响度，通过双模态空间注意力模块，提取不同区域特征的显著度，根据显著度区别使用每个区域的特征，能够提高评估的准确度。

3.本发明提出的时间注意力模块，用于解决视频中不同时刻图像的缺乏区分性的问题；提取不同时刻图像的显著度，综合考虑每一帧图像的学习者的参与度情况，提高评估的准确度。

4.本发明提出的双向自适应LSTM模块(Bi-aLSTM),基于输入信息与时间显著度的自适应Bi-LSTM模块，根据显著度调整Bi-LSTM的输入，提高最终评估的准确度。

附图说明

图1是从每个视频片段中提取头部姿态特征以及面部表情特征的过程示意图；

图2是从头部姿态特征块G_t中提取头部姿态特征集合

的过程示意图；

图3是从面部表情特征块E_t中提取面部表情特征集合

的过程示意图；

图4是本发明实施例提供的一种基于时空注意力网络的在线学习参与度评估方法的结构示意图；

图5是本发明实施例提供的多类特征融合的双模态空间注意力模块的结构示意图；

图6是本发明实施例提供的时间注意力模块的结构示意图。

具体实施方式

下面结合实施例和说明书附图对本发明做进一步说明，但不限于此。

实施例1

一种基于时空注意力网络的在线学习参与度评估方法，如图4所示，该方法包括步骤：

(1)对待评估的在线学习的视频片段进行预处理；

具体过程为：

(2)特征提取：提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；具体过程为：

2-1、如图1所示，将预处理后的视频片段t的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块，将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块；

式(II)中，E_r,t表示第t个视频片段中第r帧图像提取的面部表情特征块，r∈{1,…,len}，t∈{1,…,T},T表示视频片段的个数；E_t表示视频片段t均值化后的面部表情特征块。

(3)特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

K₁表示头部姿态特征块中每个通道的边长，t∈{1,…,T}，T表示视频片段的个数；D₁表示头部姿态特征块中通道的个数；该头部姿态特征的维度与头部姿态特征块的通道数相同，均为D₁；如图2所示，将头部姿态特征块的底面划分为

个网格，i位置在

个网格中的任一个网格中变换；头部姿态特征块的维度相同与通道数相同，通道数可看做头部姿态特征块的高；将头部姿态特征块G_t分解成头部姿态特征集合

同理，将面部表情特征块E_t分解成面部表情特征集合

K₂表示面部表情特征块中每个通道的边长，t∈{1,…,T}；D₂表示面部表情特征块中通道的个数；该面部表情特征的维度与面部表情特征块的通道数相同，均为D₂；如图3所示，将面部表情特征块的底面划分为

个网格，i位置在

个网格中任一个网格中变换；面部表情特征块的维度相同与通道数相同，通道数可看做面部表情特征块的高；将面部表情特征块E_t分解成面部表情特征集合

(4)如图5所示，将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，最后双模态空间注意力模块的输出M_t；初始的隐藏状态H₀每一维初始化为0；具体过程为：

4-1，在双模态空间注意力模块中，得到面部表情特征

的注意力值α_E,t,j和头部姿态特征

的注意力值α_G,t,i；具体过程为：

头部姿态特征

的注意力值α_G,t,i的计算公式为：

式(III)中，特征块i位置，

W_i ^G表示对头部姿态特征

进行全连接操作，

表示对任一个头部姿态特征

进行全连接操作，

面部表情特征

的注意力值α_E,t,j的计算公式为：

式(IV)中，特征块j位置，

表示对面部表情特征

进行全连接操作，

表示对任一个面部表情特征

进行全连接操作，

4-2，基于对面部表情特征

及其注意力值α_E,t,j以及头部姿态特征

a、对面部表情特征

具体为：

对头部姿态特征

具体为：

b、将加权头部姿态注意力特征

和加权面部表情注意力特征

进行链接，再进行全连接操作，得到M_t，

W[·]表示全连接操作。

(5)将M_t输入到两层Bi-LSTM模型，得到隐藏状态

(6)如图6所示，将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；具体过程为：

经过聚类得到K个聚类中心C_k，

对每个聚类中心的隶属度为D_t，

且

表示第t个隐藏状态

属于第k个聚类中心的概率值,k为1,2,3…K；

表示第k个聚类中心第i维的值；h表示聚类中心的维度；

步骤6-4，基于每个聚类中心的权重

的权重β_t，如式(IX)所示：

式(IX)中，D_t表示每个隐藏状态

对每个聚类中心的隶属度，

为

的第k个分量，k＝1、2、3……K。

(7)将步骤(6)时间注意力模块得到的隐藏状态

的权重β_t和步骤(5)得到的隐藏状态

Bi-aLSTM模型输出隐藏状态

隐藏状态

Bi-aLSTM模型输出隐藏状态

步骤(7)中，Bi-aLSTM模型根据当前时刻的权值β_t调整输入的隐藏状态

具体过程如下：

式(X)中，S_t表示隐藏状态

Bi-aLSTM模型的训练过程为：

a、构建数据集，具体包括：

a-1、获取训练视频；

a-3、对视频进行标注：首先，进行图像标注，将每个视频数据等间距抽取100帧图像，根据标注指标，将每帧图像进行标注，较高参与度的图像标注1分，较低参与度的图像标注0分；例如：当图像中，学习者的头部垂直，无偏头、眼球直视屏幕，面部表情认真严肃时，判定为较高参与度，图像标注1分；其他情况判定为较低参与度，图像标注0分；

然后，进行视频标注，统计100帧图像的标注总得分，当得分位于0到24之间，视频标签为0；当得分位于25到49之间，视频标签为1；当得分位于50到74之间，视频标签为2；当得分位于75到100之间，视频标签为3；0表示完全不参与，1表示低程度的参与，2表示一般程度的参与，3表示高程度的参与；

b、将数据集中的视频片段进行预处理；

d、特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

将面部表情特征块E_t分解成面部表情特征集合

e、将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

f、将M_t输入到两层Bi-LSTM模型，得到隐藏状态

g、将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；

h、将步骤g时间注意力模块得到的隐藏状态

的权重β_t和步骤f得到的隐藏状态

输入到Bi-aLSTM模型中；

对本发明提供的评估方法的性能进行评估，表1为不同评估方法的平均绝对误差：

表1

方法	平均绝对误差
		RMI-SVM[3]	1.50
VGPMIL[4]	1.44
		GAP[5]	1.30
实施例1提供的评估方法	1.12

由表1可知，实施例1提供的评估方法的平均绝对误差为1.12，想比较与现有的常规用的在线参与度评估方法MI-SVM方法、VGPMIL方法以及GAP方法，本发明提供的评估方法的平均绝对误差均小于其他方法，本发明提供的评估方法的的性能都优与现有的评估方法。RMI-SVM方法记载在Xing gang Wang,Zhuotun Zhu,Cong Yao,and Xiang Bai.Relaxedmultiple-instance svm with application to object discovery.InProceedings ofthe IEEE International Conference on Computer Vision,pages1224–1232,2015.VGPMI方法记载在Manuel Hauβmann,Fred A Ham-precht,and MelihKandemir.Variational bayesian multipleinstance learning with gaussianprocesses.InProceedingsof the IEEE Conference on Computer Vision andPatternRecognition,pages 6570–6579,2017.GAP方法记载在Xuesong Niu,Hu Han,Jiabei Zeng,XuranSun,Shiguang Shan,Yan Huang,Songfan Yang,andXilinChen.Automatic engagement prediction with gap feature.InProceedings ofthe 2018on International Conferenceon Multimodal Interaction,pages 599–603.ACM,2018。

实施例2

一种基于时空注意力网络的在线学习参与度评估***，用于实现实施例1提供的一种基于时空注意力网络的在线学习参与度评估方法，该***包括：

以及将面部表情特征块E_t分解成面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，输出M_t；

时间注意力模块，用于得到隐藏状态

的权重β_t；

输出隐藏状态

隐藏状态

经过激活函数tanh得到学习参与度评估结果Y_T。

实施例3

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。

实施例4

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。

Claims

1.一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，该方法包括步骤：

(1)对待评估的在线学习的视频片段进行预处理；

(3)特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

同理，将面部表情特征块E_t分解成面部表情特征集合

(4)将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

(5)将M_t输入到两层Bi-LSTM模型，得到隐藏状态

(6)将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；

(7)将步骤(6)时间注意力模块得到的隐藏状态

的权重β_t和步骤(5)得到的隐藏状态

Bi-aLSTM模型输出隐藏状态

隐藏状态

2.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，Bi-aLSTM模型的训练过程为：

a、构建数据集，具体包括：

a-1、获取训练视频；

a-3、对视频进行标注；

b、将数据集中的视频片段进行预处理；

d、特征变换：将头部姿态特征块G_t分解成头部姿态特征集合

将面部表情特征块E_t分解成面部表情特征集合

e、将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

f、将M_t输入到两层Bi-LSTM模型，得到隐藏状态

g、将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；

h、将步骤g时间注意力模块得到的隐藏状态

的权重β_t和步骤f得到的隐藏状态

输入到Bi-aLSTM模型中；

3.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，步骤(1)中，对待评估的在线学习的视频片段进行预处理；具体过程为：

1-1：降采样：从采集的在线学习的视频中，每10帧图像随机采样1帧图像；

1-2：视频分段：基于滑动窗口的方式将降采样的视频进行分块处理；滑动窗口的长度为len，每次窗口滑动的步长定为len，因此每一个视频片段的长度为len。

4.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，步骤(2)中，提取经过预处理后视频片段t的头部姿态特征块G_t和面部表情特征块E_t；具体过程为：

5.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，步骤(4)中，将t时刻提取得到的面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

4-1，在双模态空间注意力模块中，得到面部表情特征

的注意力值α_E,t,j和头部姿态特征

的注意力值α_G,t,i；具体过程为：

头部姿态特征

的注意力值α_G,t,i的计算公式为：

式(III)中，特征块i位置，

W_i ^G表示对头部姿态特征

进行全连接操作，W_q ^G表示对任一个头部姿态特征

进行全连接操作，

面部表情特征

的注意力值α_E,t,j的计算公式为：

式(IV)中，特征块j位置，

W_j ^G表示对面部表情特征

进行全连接操作，

表示对任一个面部表情特征

进行全连接操作，

4-2，基于对面部表情特征

及其注意力值α_E,t,j，以及头部姿态特征

a、对面部表情特征

具体为：

对头部姿态特征

具体为：

b、将加权头部姿态注意力特征

和加权面部表情注意力特征

进行链接，再进行全连接操作，得到M_t，

W[·]表示全连接操作。

6.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，步骤(6)中，将隐藏状态

输入到时间注意力模块，得到隐藏状态

的权重β_t；具体过程为：

进行聚类；

经过聚类得到K个聚类中心C_k，

对每个聚类中心的隶属度为D_t，

且

表示第t个隐藏状态

属于第k个聚类中心的概率值,k为1,2,3…K；

步骤6-2，进行挤压操作：对每个聚类中心的每一维数值累加求和，将每个聚类中心变成一个实数，经过挤压操作，最终输出的维度与输入的聚类中心的个数相等，如式(VII)所示：

表示第k个聚类中心第i维的值；h表示聚类中心的维度；

具体如下：

步骤6-4，基于每个聚类中心的权重

的权重β_t，如式(IX)所示：

式(IX)中，D_t表示每个隐藏状态

对每个聚类中心的隶属度，

为

的第k个分量，k＝1、2、3……K。

7.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法，其特征在于，步骤(7)中，Bi-aLSTM模型根据当前时刻的权值β_t调整输入的隐藏状态

具体过程如下：

S_t＝σ(W₄δ(W₃β_tH_t ²)) (X)

式(X)中，S_t表示隐藏状态

8.一种基于时空注意力网络的在线学习参与度评估***，其特征在于，用于实现权利要求1-7任一项所述的一种基于时空注意力网络的在线学习参与度评估方法，该***包括：

以及将面部表情特征块E_t分解成面部表情特征集合

头部姿态特征集合

及t-1时刻的隐藏状态

输入到双模态空间注意力模块中，输出M_t；

时间注意力模块，用于得到隐藏状态

的权重β_t；

输出隐藏状态

隐藏状态

经过激活函数tanh得到学习参与度评估结果Y_T。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。