CN113326739A - 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质 - Google Patents

基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质 Download PDF

Info

Publication number
CN113326739A
CN113326739A CN202110497274.6A CN202110497274A CN113326739A CN 113326739 A CN113326739 A CN 113326739A CN 202110497274 A CN202110497274 A CN 202110497274A CN 113326739 A CN113326739 A CN 113326739A
Authority
CN
China
Prior art keywords
facial expression
hidden state
attention
features
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110497274.6A
Other languages
English (en)
Other versions
CN113326739B (zh
Inventor
姜新波
秦学英
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202110497274.6A priority Critical patent/CN113326739B/zh
Publication of CN113326739A publication Critical patent/CN113326739A/zh
Application granted granted Critical
Publication of CN113326739B publication Critical patent/CN113326739B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质,该评估方法包括:对视频片段依次进行预处理、特征提取和变换;通过空间注意力模块的输出Mt;将Mt输入到两层Bi‑LSTM模型,得到隐藏状态
Figure DDA0003054913070000011
利用时间注意力模块,得到隐藏状态
Figure DDA0003054913070000012
的权重βt;根据权值βt调整输入的隐藏状态
Figure DDA0003054913070000013
输出隐藏状态
Figure DDA0003054913070000014
最后经过激活函数得到学习参与度评估结果YT。该方法既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。

Description

基于时空注意力网络的在线学习参与度评估方法及评估系 统、设备、存储介质
技术领域
本发明涉及基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质,属于人工智能技术领域。
背景技术
随着数字媒体与网络技术的发展,在线教育正逐步发展成为一种新型的教育模式。与传统教育模式相比,在线教育能够突破时间、空间的限制,拓宽学生获取信息的渠道。但由于学生在学习过程中缺乏与教师的直接沟通和反馈,导致极低的完成率。因此及时获取学生的学习状态并做出相应调整,是提高网络教育质量的关键。
学习参与度是体现学生学习状况的重要指标,在学习过程中起着至关重要的作用。随着慕课、公开课等一类网络课程的大量出现,学习过程中学生参与度的自动评估问题受到研究人员的广泛关注。实时获取学生的学习参与度,并且及时反馈给教师,教师根据参与度的情况做出相应调整,进而影响学生的学习过程,能够一定程度解决在线教育过程中存在的问题。
早期学习参与度的研究主要是基于简单学习行为的统计方法,例如分析在线时长、阅读数量、点击次数等学习行为。这是由于早期时候数据采集能力以及计算能力的限制,研究只能在规模较小的数据上进行,并且只能处理一些简单的特征。尽管受试者在学习过程的视频数据蕴含着更丰富的行为与情感信息,但是早期基于特征点的方法很难提取此类信息,研究工作进展有限。随着深度学习技术的出现与发展,能够从大量视频中直接提取受试者复杂的学习行为以及面部表情信息,进而评估其行为参与度与情感参与度,最终得到学习参与度。该方法是目前主流的参与度研究方法,称之为视觉方法。两类方法相比,统计方法有很强的主观性,评估性能的好坏依赖于衡量指标。视觉方法直接从分析受试者入手,不受学习内容的约束,因此具有更强的普适性。如中国专利文献CN111832669A公开了学习参与度识别网络模型的建立方法及装置,对获取的多个视频样本进行预处理,得到融合特征;根据所述视频样本的融合特征,构建学习参与度识别网络模型训练用的最小批;依据所述最小批中视频样本对的嵌入向量距离与所述最小批中视频样本对的参与度标签距离一致性有序的原则,构造有序度量损失函数,其中,所述嵌入向量由所述学习参与度识别网络模型根据视频样本的融合特征计算得到;根据所述有序度量损失函数,优化所述学习参与度识别网络模型中的参数。但是,目前的视觉方法只是将多类特征进行简单的拼接,没有充分挖掘特征内以及特征之间的显著性信息。
同时,传统的双向长短期记忆网络(Bi-LSTM)模型只有一个输入信息,结果好坏很大程度取决于输入的情况,Bi-LSTM模型缺乏外部调控的问题。
发明内容
针对现有技术的不足,本发明提供了基于时空注意力网络的在线学习参与度评估方法及评估***,该方法提出了空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。本发明提出的基于时间注意力的双向自适应长短期记忆网络,能够根据帧特征的时间上的显著性,调节双向长短期记忆网络的输入,从而进一步提高准确性。
本发明还提供了一种计算机设备和存储介质。
术语解释:
1.Bi-aLSTM:双向自适应长短期记忆网络,是在Bi-LSTM模型的基础上,构建了一个自适应模块,能够基于获取的权重信息,自动调整Bi-LSTM模型的输入。
2.Bi-LSTM:是Bi-directional Long Short-Term Memory的缩写,双向长短期记忆网络,是由前向LSTM与后向LSTM组合而成。
3.hyperface网络:hyperface网络能够自动提取图像中人的头部姿态特征块。Ranjan R,Patel V M,Chellappa R.HyperFace:A Deep Multi-task Learning Frameworkfor Face Detection,Landmark Localization,Pose Estimation,and GenderRecognition.IEEE Transactions on Pattern Analysis&Machine Intelligence,2018:1-1。
4.openface网络:以卷积网络为基础,能够自动提取图像中人的头部姿态特征块。Amos B,Ludwiczuk B,Mahadev Satyanarayanan.OpenFace:A general-purpose facerecognition library with mobile applications。
5.KMEANS聚类算法:KMEANS算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
6.DS-ATT:Dual-Modal Spatial Attention Module,双模态空间注意力模块,能够融合两种模态的特征,并对特征中不同位置基于注意力机制进行加权。
7.T-ATT:Temporal Attention Module,时间注意力模块,能够对特征序列中不同时刻的特征基于注意力机制进行加权。
本发明的技术方案为:
一种基于时空注意力网络的在线学习参与度评估方法,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000031
Figure BDA0003054913050000032
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure BDA0003054913050000033
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1
同理,将面部表情特征块Et分解成面部表情特征集合
Figure BDA0003054913050000034
Figure BDA0003054913050000035
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure BDA0003054913050000036
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2
(4)将t时刻提取得到的面部表情特征集合
Figure BDA0003054913050000038
头部姿态特征集合
Figure BDA0003054913050000039
及t-1时刻的隐藏状态
Figure BDA0003054913050000041
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;初始的隐藏状态H0每一维初始化为0;
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure BDA0003054913050000042
(6)将隐藏状态
Figure BDA0003054913050000043
输入到时间注意力模块,得到隐藏状态
Figure BDA0003054913050000044
的权重βt
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure BDA0003054913050000045
的权重βt和步骤(5)得到的隐藏状态
Figure BDA0003054913050000046
输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000047
Bi-aLSTM模型输出隐藏状态
Figure BDA0003054913050000048
隐藏状态
Figure BDA0003054913050000049
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
Bi-aLSTM模型是在Bi-LSTM模型的基础上,构建了一个自适应模块,自适应模块根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA00030549130500000410
Bi-aLSTM模型输出隐藏状态
Figure BDA00030549130500000411
根据本发明优选的,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA00030549130500000412
将面部表情特征块Et分解成面部表情特征集合
Figure BDA00030549130500000413
e、将t时刻提取得到的面部表情特征集合
Figure BDA00030549130500000414
头部姿态特征集合
Figure BDA00030549130500000415
及t-1时刻的隐藏状态
Figure BDA00030549130500000416
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure BDA0003054913050000051
g、将隐藏状态
Figure BDA0003054913050000052
输入到时间注意力模块,得到隐藏状态
Figure BDA0003054913050000053
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure BDA0003054913050000054
的权重βt和步骤f得到的隐藏状态
Figure BDA0003054913050000055
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
根据本发明优选的,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
根据本发明优选的,步骤(2)中,提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t中所有帧图像的头部姿态特征块的特征均值作为视频片段t的头部姿态特征块Gt,将该视频片段t中所有帧图像的面部表情特征块的特征均值作为视频片段t的面部表情特征块Et;具体为:
Figure BDA0003054913050000056
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t均值化后的头部姿态特征块;
Figure BDA0003054913050000061
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
根据本发明优选的,步骤(4)中,将t时刻提取得到的面部表情特征集合
Figure BDA0003054913050000062
头部姿态特征集合
Figure BDA0003054913050000063
及t-1时刻的隐藏状态
Figure BDA0003054913050000064
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure BDA0003054913050000065
的注意力值αE,t,j和头部姿态特征
Figure BDA0003054913050000066
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure BDA0003054913050000067
的注意力值αG,t,i的计算公式为:
Figure BDA0003054913050000068
式(III)中,特征块i位置,
Figure BDA0003054913050000069
Wi G表示对头部姿态特征
Figure BDA00030549130500000610
进行全连接操作,
Figure BDA00030549130500000611
表示对任一个头部姿态特征
Figure BDA00030549130500000612
进行全连接操作,
Figure BDA00030549130500000613
面部表情特征
Figure BDA00030549130500000614
的注意力值αE,t,j的计算公式为:
Figure BDA0003054913050000071
式(IV)中,特征块j位置,
Figure BDA0003054913050000072
Figure BDA0003054913050000073
表示对面部表情特征
Figure BDA0003054913050000074
进行全连接操作,
Figure BDA0003054913050000075
表示对任一个面部表情特征
Figure BDA00030549130500000724
进行全连接操作,
Figure BDA0003054913050000076
4-2,基于对面部表情特征
Figure BDA0003054913050000077
及其注意力值αE,t,j,以及头部姿态特征
Figure BDA00030549130500000725
及其注意力值αG,t,i分别进行加权处理,再进行链接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure BDA0003054913050000079
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure BDA00030549130500000710
具体为:
Figure BDA00030549130500000711
对头部姿态特征
Figure BDA00030549130500000712
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure BDA00030549130500000713
具体为:
Figure BDA00030549130500000714
b、将加权头部姿态注意力特征
Figure BDA00030549130500000715
和加权面部表情注意力特征
Figure BDA00030549130500000716
进行链接,再进行全连接操作,得到Mt
Figure BDA00030549130500000717
W[·]表示全连接操作。
根据本发明优选的,步骤(6)中,将隐藏状态
Figure BDA00030549130500000718
输入到时间注意力模块,得到隐藏状态
Figure BDA00030549130500000719
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure BDA00030549130500000720
进行聚类;为了消除特征不同维度的方差差异,使用马氏距离来度量特征之间的距离,然后进行聚类;
经过聚类得到K个聚类中心Ck
Figure BDA00030549130500000721
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure BDA00030549130500000722
对每个聚类中心的隶属度为Dt
Figure BDA00030549130500000723
Figure BDA0003054913050000081
Figure BDA0003054913050000082
表示第t个隐藏状态
Figure BDA0003054913050000083
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure BDA0003054913050000084
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure BDA0003054913050000085
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure BDA0003054913050000086
这两个全连接层的作用就是融合各个聚类中心的信息,具体如下:
Figure BDA0003054913050000087
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure BDA0003054913050000088
Figure BDA0003054913050000089
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure BDA00030549130500000810
的权重βt,如式(IX)所示:
Figure BDA00030549130500000811
式(IX)中,Dt表示每个隐藏状态
Figure BDA00030549130500000812
对每个聚类中心的隶属度,
Figure BDA00030549130500000813
Figure BDA00030549130500000814
的第k个分量,k=1、2、3……K。
根据本发明优选的,步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA00030549130500000815
具体过程如下:
Figure BDA00030549130500000816
式(X)中,St表示隐藏状态
Figure BDA00030549130500000817
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
一种基于时空注意力网络的在线学习参与度评估***,用于实现上述基于时空注意力网络的在线学习参与度评估方法,该***包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000091
以及将面部表情特征块Et分解成面部表情特征集合
Figure BDA0003054913050000092
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure BDA0003054913050000093
头部姿态特征集合
Figure BDA0003054913050000094
及t-1时刻的隐藏状态
Figure BDA0003054913050000095
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure BDA0003054913050000096
时间注意力模块,用于得到隐藏状态
Figure BDA0003054913050000097
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000098
输出隐藏状态
Figure BDA0003054913050000099
隐藏状态
Figure BDA00030549130500000910
经过激活函数tanh得到学习参与度评估结果YT
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述基于时空注意力网络的在线学习参与度评估方法的步骤。
本发明的有益效果为:
1.该发明提出了双模态空间注意力模块与时间注意力模块,对于每一帧特征,既考虑该特征的空间信息的显著性,同时考虑该特征在时间序列上的显著性,并且能够融合多类输入特征,提高评估的准确性。提出的基于时间注意力的自适应的双向LSTM,能够根据帧特征的时间上的显著性,调节双向LSTM的输入,从而进一步提高准确性。
2.本发明提出的双模态空间注意力模块,用于解决视频中每一帧图像不同区域缺乏显著性的问题;图像不同区域提取的特征对评估结果产生不同的影响度,通过双模态空间注意力模块,提取不同区域特征的显著度,根据显著度区别使用每个区域的特征,能够提高评估的准确度。
3.本发明提出的时间注意力模块,用于解决视频中不同时刻图像的缺乏区分性的问题;提取不同时刻图像的显著度,综合考虑每一帧图像的学习者的参与度情况,提高评估的准确度。
4.本发明提出的双向自适应LSTM模块(Bi-aLSTM),基于输入信息与时间显著度的自适应Bi-LSTM模块,根据显著度调整Bi-LSTM的输入,提高最终评估的准确度。
附图说明
图1是从每个视频片段中提取头部姿态特征以及面部表情特征的过程示意图;
图2是从头部姿态特征块Gt中提取头部姿态特征集合
Figure BDA0003054913050000101
的过程示意图;
图3是从面部表情特征块Et中提取面部表情特征集合
Figure BDA0003054913050000102
的过程示意图;
图4是本发明实施例提供的一种基于时空注意力网络的在线学习参与度评估方法的结构示意图;
图5是本发明实施例提供的多类特征融合的双模态空间注意力模块的结构示意图;
图6是本发明实施例提供的时间注意力模块的结构示意图。
具体实施方式
下面结合实施例和说明书附图对本发明做进一步说明,但不限于此。
实施例1
一种基于时空注意力网络的在线学习参与度评估方法,如图4所示,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像,用于后续的计算;通过观察,发现连续多帧图像中受试者的头部姿态与面部表情变化很小,因此为了减少训练时间以及减小存储压力;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。能够进一步减少训练时间。
由于LSTM在处理时序数据的时候,随着序列长度的增加,训练时间会大大延长,因此采用降采样和视频分段两种方式来降低训练时间。
(2)特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、如图1所示,将预处理后的视频片段t的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t中所有帧图像的头部姿态特征块的特征均值作为视频片段t的头部姿态特征块Gt,将该视频片段t中所有帧图像的面部表情特征块的特征均值作为视频片段t的面部表情特征块Et;具体为:
Figure BDA0003054913050000111
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t均值化后的头部姿态特征块;
Figure BDA0003054913050000112
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t均值化后的面部表情特征块。
经过以上操作,能够进一步加速,同时能尽可能的获取一个视频片段中每一帧图像的信息;基于特征提取,将时长为L的视频,压缩成时长为T的特征序列。
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000113
Figure BDA0003054913050000114
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure BDA0003054913050000121
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1;如图2所示,将头部姿态特征块的底面划分为
Figure BDA0003054913050000122
个网格,i位置在
Figure BDA0003054913050000123
个网格中的任一个网格中变换;头部姿态特征块的维度相同与通道数相同,通道数可看做头部姿态特征块的高;将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000124
同理,将面部表情特征块Et分解成面部表情特征集合
Figure BDA0003054913050000125
Figure BDA0003054913050000126
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure BDA0003054913050000127
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2;如图3所示,将面部表情特征块的底面划分为
Figure BDA0003054913050000128
个网格,i位置在
Figure BDA0003054913050000129
个网格中任一个网格中变换;面部表情特征块的维度相同与通道数相同,通道数可看做面部表情特征块的高;将面部表情特征块Et分解成面部表情特征集合
Figure BDA00030549130500001210
(4)如图5所示,将t时刻提取得到的面部表情特征集合
Figure BDA00030549130500001211
头部姿态特征集合
Figure BDA00030549130500001212
及t-1时刻的隐藏状态
Figure BDA00030549130500001213
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;初始的隐藏状态H0每一维初始化为0;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure BDA00030549130500001214
的注意力值αE,t,j和头部姿态特征
Figure BDA00030549130500001215
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure BDA00030549130500001216
的注意力值αG,t,i的计算公式为:
Figure BDA00030549130500001217
式(III)中,特征块i位置,
Figure BDA0003054913050000131
Wi G表示对头部姿态特征
Figure BDA0003054913050000132
进行全连接操作,
Figure BDA0003054913050000133
表示对任一个头部姿态特征
Figure BDA0003054913050000134
进行全连接操作,
Figure BDA0003054913050000135
面部表情特征
Figure BDA0003054913050000136
的注意力值αE,t,j的计算公式为:
Figure BDA0003054913050000137
式(IV)中,特征块j位置,
Figure BDA0003054913050000138
Figure BDA0003054913050000139
表示对面部表情特征
Figure BDA00030549130500001310
进行全连接操作,
Figure BDA00030549130500001311
表示对任一个面部表情特征
Figure BDA00030549130500001312
进行全连接操作,
Figure BDA00030549130500001313
4-2,基于对面部表情特征
Figure BDA00030549130500001314
及其注意力值αE,t,j以及头部姿态特征
Figure BDA00030549130500001315
及其注意力值αG,t,i分别进行加权处理,再进行链接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure BDA00030549130500001316
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure BDA00030549130500001317
具体为:
Figure BDA00030549130500001318
对头部姿态特征
Figure BDA00030549130500001319
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure BDA00030549130500001320
具体为:
Figure BDA00030549130500001321
b、将加权头部姿态注意力特征
Figure BDA00030549130500001322
和加权面部表情注意力特征
Figure BDA00030549130500001323
进行链接,再进行全连接操作,得到Mt
Figure BDA00030549130500001324
W[·]表示全连接操作。
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure BDA00030549130500001325
(6)如图6所示,将隐藏状态
Figure BDA00030549130500001326
输入到时间注意力模块,得到隐藏状态
Figure BDA00030549130500001327
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure BDA0003054913050000141
进行聚类;为了消除特征不同维度的方差差异,使用马氏距离来度量特征之间的距离,然后进行聚类;
经过聚类得到K个聚类中心Ck
Figure BDA0003054913050000142
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure BDA0003054913050000143
对每个聚类中心的隶属度为Dt
Figure BDA0003054913050000144
Figure BDA0003054913050000145
Figure BDA0003054913050000146
表示第t个隐藏状态
Figure BDA0003054913050000147
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,这个实数某种程度上具有全局的感受野,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure BDA0003054913050000148
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure BDA0003054913050000149
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure BDA00030549130500001410
这两个全连接层的作用就是融合各个聚类中心的信息,具体如下:
Figure BDA00030549130500001411
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure BDA00030549130500001412
Figure BDA00030549130500001413
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure BDA00030549130500001414
的权重βt,如式(IX)所示:
Figure BDA00030549130500001415
式(IX)中,Dt表示每个隐藏状态
Figure BDA00030549130500001416
对每个聚类中心的隶属度,
Figure BDA00030549130500001417
Figure BDA00030549130500001418
的第k个分量,k=1、2、3……K。
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure BDA0003054913050000151
的权重βt和步骤(5)得到的隐藏状态
Figure BDA0003054913050000152
输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000153
Bi-aLSTM模型输出隐藏状态
Figure BDA0003054913050000154
隐藏状态
Figure BDA0003054913050000155
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
Bi-aLSTM模型是在Bi-LSTM模型的基础上,构建了一个自适应模块,自适应模块根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000156
Bi-aLSTM模型输出隐藏状态
Figure BDA0003054913050000157
步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000158
具体过程如下:
Figure BDA0003054913050000159
式(X)中,St表示隐藏状态
Figure BDA00030549130500001510
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注:首先,进行图像标注,将每个视频数据等间距抽取100帧图像,根据标注指标,将每帧图像进行标注,较高参与度的图像标注1分,较低参与度的图像标注0分;例如:当图像中,学习者的头部垂直,无偏头、眼球直视屏幕,面部表情认真严肃时,判定为较高参与度,图像标注1分;其他情况判定为较低参与度,图像标注0分;
然后,进行视频标注,统计100帧图像的标注总得分,当得分位于0到24之间,视频标签为0;当得分位于25到49之间,视频标签为1;当得分位于50到74之间,视频标签为2;当得分位于75到100之间,视频标签为3;0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000161
将面部表情特征块Et分解成面部表情特征集合
Figure BDA0003054913050000162
e、将t时刻提取得到的面部表情特征集合
Figure BDA0003054913050000163
头部姿态特征集合
Figure BDA0003054913050000164
及t-1时刻的隐藏状态
Figure BDA0003054913050000165
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure BDA0003054913050000166
g、将隐藏状态
Figure BDA0003054913050000167
输入到时间注意力模块,得到隐藏状态
Figure BDA0003054913050000168
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure BDA0003054913050000169
的权重βt和步骤f得到的隐藏状态
Figure BDA00030549130500001610
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
对本发明提供的评估方法的性能进行评估,表1为不同评估方法的平均绝对误差:
表1
方法 平均绝对误差
RMI-SVM[3] 1.50
VGPMIL[4] 1.44
GAP[5] 1.30
实施例1提供的评估方法 1.12
由表1可知,实施例1提供的评估方法的平均绝对误差为1.12,想比较与现有的常规用的在线参与度评估方法MI-SVM方法、VGPMIL方法以及GAP方法,本发明提供的评估方法的平均绝对误差均小于其他方法,本发明提供的评估方法的的性能都优与现有的评估方法。RMI-SVM方法记载在Xing gang Wang,Zhuotun Zhu,Cong Yao,and Xiang Bai.Relaxedmultiple-instance svm with application to object discovery.InProceedings ofthe IEEE International Conference on Computer Vision,pages1224–1232,2015.VGPMI方法记载在Manuel Hauβmann,Fred A Ham-precht,and MelihKandemir.Variational bayesian multipleinstance learning with gaussianprocesses.InProceedingsof the IEEE Conference on Computer Vision andPatternRecognition,pages 6570–6579,2017.GAP方法记载在Xuesong Niu,Hu Han,Jiabei Zeng,XuranSun,Shiguang Shan,Yan Huang,Songfan Yang,andXilinChen.Automatic engagement prediction with gap feature.InProceedings ofthe 2018on International Conferenceon Multimodal Interaction,pages 599–603.ACM,2018。
实施例2
一种基于时空注意力网络的在线学习参与度评估***,用于实现实施例1提供的一种基于时空注意力网络的在线学习参与度评估方法,该***包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure BDA0003054913050000171
以及将面部表情特征块Et分解成面部表情特征集合
Figure BDA0003054913050000172
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure BDA0003054913050000173
头部姿态特征集合
Figure BDA0003054913050000174
及t-1时刻的隐藏状态
Figure BDA0003054913050000175
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure BDA0003054913050000176
时间注意力模块,用于得到隐藏状态
Figure BDA0003054913050000177
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure BDA0003054913050000178
输出隐藏状态
Figure BDA0003054913050000179
隐藏状态
Figure BDA00030549130500001710
经过激活函数tanh得到学习参与度评估结果YT
实施例3
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。
实施例4
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现实施例1提供的基于时空注意力网络的在线学习参与度评估方法的步骤。

Claims (10)

1.一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,该方法包括步骤:
(1)对待评估的在线学习的视频片段进行预处理;
(2)特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
(3)特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003054913040000011
Figure FDA0003054913040000012
表示在第t个头部姿态特征块i位置上从通道1到通道D1上的值构成的特征,
Figure FDA00030549130400000117
K1表示头部姿态特征块中每个通道的边长,t∈{1,…,T},T表示视频片段的个数;D1表示头部姿态特征块中通道的个数;该头部姿态特征的维度与头部姿态特征块的通道数相同,均为D1
同理,将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003054913040000013
Figure FDA0003054913040000014
表示在第t个面部表情特征块j位置上从通道1到通道D2上的值构成的特征,
Figure FDA0003054913040000015
K2表示面部表情特征块中每个通道的边长,t∈{1,…,T};D2表示面部表情特征块中通道的个数;该面部表情特征的维度与面部表情特征块的通道数相同,均为D2
(4)将t时刻提取得到的面部表情特征集合
Figure FDA0003054913040000016
头部姿态特征集合
Figure FDA0003054913040000017
及t-1时刻的隐藏状态
Figure FDA0003054913040000018
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
(5)将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure FDA0003054913040000019
(6)将隐藏状态
Figure FDA00030549130400000110
输入到时间注意力模块,得到隐藏状态
Figure FDA00030549130400000111
的权重βt
(7)将步骤(6)时间注意力模块得到的隐藏状态
Figure FDA00030549130400000112
的权重βt和步骤(5)得到的隐藏状态
Figure FDA00030549130400000113
输入到训练好的Bi-aLSTM模型中,然后Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA00030549130400000114
Bi-aLSTM模型输出隐藏状态
Figure FDA00030549130400000115
隐藏状态
Figure FDA00030549130400000116
经过激活函数tanh得到学习参与度评估结果YT,YT是整数,YT取值范围0到3,从0至3参与度依次增加,0表示完全不参与,1表示低程度的参与,2表示一般程度的参与,3表示高程度的参与。
2.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,Bi-aLSTM模型的训练过程为:
a、构建数据集,具体包括:
a-1、获取训练视频;
a-2、确定视频的标注指标,标注指标包括头部姿态、眼球注视点和面部表情;
a-3、对视频进行标注;
b、将数据集中的视频片段进行预处理;
c、特征提取:提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
d、特征变换:将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003054913040000021
将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003054913040000022
e、将t时刻提取得到的面部表情特征集合
Figure FDA0003054913040000023
头部姿态特征集合
Figure FDA0003054913040000024
及t-1时刻的隐藏状态
Figure FDA0003054913040000025
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt
f、将Mt输入到两层Bi-LSTM模型,得到隐藏状态
Figure FDA0003054913040000026
g、将隐藏状态
Figure FDA0003054913040000027
输入到时间注意力模块,得到隐藏状态
Figure FDA0003054913040000028
的权重βt
h、将步骤g时间注意力模块得到的隐藏状态
Figure FDA0003054913040000029
的权重βt和步骤f得到的隐藏状态
Figure FDA00030549130400000210
输入到Bi-aLSTM模型中;
i、通过训练确定Bi-aLSTM模型中细胞状态C以及隐藏状态H的维度,以及输入特征序列的最大长度T。
3.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(1)中,对待评估的在线学习的视频片段进行预处理;具体过程为:
1-1:降采样:从采集的在线学习的视频中,每10帧图像随机采样1帧图像;
1-2:视频分段:基于滑动窗口的方式将降采样的视频进行分块处理;滑动窗口的长度为len,每次窗口滑动的步长定为len,因此每一个视频片段的长度为len。
4.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(2)中,提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et;具体过程为:
2-1、将预处理后的视频片段t的每一帧图像经过hyperface网络得到该帧图像的头部姿态特征块,将预处理后的视频片段的每一帧图像经过openface网络得到该帧图像的面部表情特征块;
2-2、将视频片段t中所有帧图像的头部姿态特征块的特征均值作为视频片段t的头部姿态特征块Gt,将该视频片段t中所有帧图像的面部表情特征块的特征均值作为视频片段t的面部表情特征块Et;具体为:
Figure FDA0003054913040000031
式(I)中,len为视频片段的长度,Gr,t表示第t个视频片段中第r帧图像提取的头部姿态特征块;r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Gt表示视频片段t均值化后的头部姿态特征块;
Figure FDA0003054913040000032
式(II)中,Er,t表示第t个视频片段中第r帧图像提取的面部表情特征块,r∈{1,…,len},t∈{1,…,T},T表示视频片段的个数;Et表示视频片段t均值化后的面部表情特征块。
5.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(4)中,将t时刻提取得到的面部表情特征集合
Figure FDA0003054913040000033
头部姿态特征集合
Figure FDA0003054913040000034
及t-1时刻的隐藏状态
Figure FDA0003054913040000035
输入到双模态空间注意力模块中,最后双模态空间注意力模块的输出Mt;具体过程为:
4-1,在双模态空间注意力模块中,得到面部表情特征
Figure FDA0003054913040000036
的注意力值αE,t,j和头部姿态特征
Figure FDA0003054913040000037
的注意力值αG,t,i;具体过程为:
头部姿态特征
Figure FDA0003054913040000038
的注意力值αG,t,i的计算公式为:
Figure FDA0003054913040000041
式(III)中,特征块i位置,
Figure FDA0003054913040000042
Wi G表示对头部姿态特征
Figure FDA0003054913040000043
进行全连接操作,Wq G表示对任一个头部姿态特征
Figure FDA0003054913040000044
进行全连接操作,
Figure FDA0003054913040000045
面部表情特征
Figure FDA00030549130400000423
的注意力值αE,t,j的计算公式为:
Figure FDA0003054913040000046
式(IV)中,特征块j位置,
Figure FDA0003054913040000047
Wj G表示对面部表情特征
Figure FDA0003054913040000048
进行全连接操作,
Figure FDA0003054913040000049
表示对任一个面部表情特征
Figure FDA00030549130400000410
进行全连接操作,
Figure FDA00030549130400000411
4-2,基于对面部表情特征
Figure FDA00030549130400000412
及其注意力值αE,t,j,以及头部姿态特征
Figure FDA00030549130400000413
及其注意力值αG,t,i分别进行加权处理,再进行链接及全连接操作,得到双模态空间注意力模块的输出Mt;具体过程为:
a、对面部表情特征
Figure FDA00030549130400000414
及其注意力值αE,t,j进行加权处理,得到加权面部表情注意力特征
Figure FDA00030549130400000415
具体为:
Figure FDA00030549130400000416
对头部姿态特征
Figure FDA00030549130400000417
及其注意力值αG,t,i进行加权处理,得到加权头部姿态注意力特征
Figure FDA00030549130400000418
具体为:
Figure FDA00030549130400000419
b、将加权头部姿态注意力特征
Figure FDA00030549130400000420
和加权面部表情注意力特征
Figure FDA00030549130400000421
进行链接,再进行全连接操作,得到Mt
Figure FDA00030549130400000422
W[·]表示全连接操作。
6.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(6)中,将隐藏状态
Figure FDA0003054913040000051
输入到时间注意力模块,得到隐藏状态
Figure FDA0003054913040000052
的权重βt;具体过程为:
步骤6-1,在时间注意力模块中,进行聚类操作:采用KMEANS聚类算法对第二层双向LSTM输出的隐藏状态
Figure FDA0003054913040000053
进行聚类;
经过聚类得到K个聚类中心Ck
Figure FDA0003054913040000054
每个聚类中心的维度h和Bi-LSTM输出的隐藏状态的维度相同;每个隐藏状态
Figure FDA0003054913040000055
对每个聚类中心的隶属度为Dt
Figure FDA0003054913040000056
Figure FDA0003054913040000057
Figure FDA0003054913040000058
表示第t个隐藏状态
Figure FDA0003054913040000059
属于第k个聚类中心的概率值,k为1,2,3…K;
步骤6-2,进行挤压操作:对每个聚类中心的每一维数值累加求和,将每个聚类中心变成一个实数,经过挤压操作,最终输出的维度与输入的聚类中心的个数相等,如式(VII)所示:
Figure FDA00030549130400000510
式(VII)中,zk表示经过求和操作后,第k个聚类中心的值;Ck表示第k个聚类中心,Fsq(·)表示进行挤压操作,
Figure FDA00030549130400000511
表示第k个聚类中心第i维的值;h表示聚类中心的维度;
步骤6-3,进行活化操作:进行两个全连接以及σ(·)函数的非线性运算,计算每个聚类中心的权重
Figure FDA00030549130400000512
具体如下:
Figure FDA00030549130400000513
式(VIII)中,z表示z1到zk构成的向量;δ表示RELU函数,Fex(·,W)表示进行活化操作,σ(·)表示sigmoid激活函数;W1表示第一次全连接操作,W2表示第二次全连接操作;
步骤6-4,基于每个聚类中心的权重
Figure FDA00030549130400000514
Figure FDA00030549130400000515
中的每一个分量的值表示每个聚类中心的权重,分配给每个隐藏状态
Figure FDA00030549130400000516
的权重βt,如式(IX)所示:
Figure FDA00030549130400000517
式(IX)中,Dt表示每个隐藏状态
Figure FDA00030549130400000518
对每个聚类中心的隶属度,
Figure FDA00030549130400000519
Figure FDA00030549130400000520
的第k个分量,k=1、2、3……K。
7.根据权利要求1所述的一种基于时空注意力网络的在线学习参与度评估方法,其特征在于,步骤(7)中,Bi-aLSTM模型根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA0003054913040000061
具体过程如下:
St=σ(W4δ(W3βtHt 2)) (X)
式(X)中,St表示隐藏状态
Figure FDA0003054913040000062
调整后的输入,W3、W4分别表示两次全连接操作,σ(·)表示sigmoid激活函数;δ表示RELU函数。
8.一种基于时空注意力网络的在线学习参与度评估***,其特征在于,用于实现权利要求1-7任一项所述的一种基于时空注意力网络的在线学习参与度评估方法,该***包括:
预处理模块,用于对待评估的在线学习的视频片段进行预处理;
特征提取模块,用于提取经过预处理后视频片段t的头部姿态特征块Gt和面部表情特征块Et
特征变换模块,用于将头部姿态特征块Gt分解成头部姿态特征集合
Figure FDA0003054913040000063
以及将面部表情特征块Et分解成面部表情特征集合
Figure FDA0003054913040000064
双模态空间注意力模块,用于将t时刻提取得到的面部表情特征集合
Figure FDA0003054913040000065
头部姿态特征集合
Figure FDA0003054913040000066
及t-1时刻的隐藏状态
Figure FDA0003054913040000067
输入到双模态空间注意力模块中,输出Mt
两层Bi-LSTM模块,基于双模态空间注意力模块的输出Mt得到隐藏状态
Figure FDA0003054913040000068
时间注意力模块,用于得到隐藏状态
Figure FDA0003054913040000069
的权重βt
Bi-aLSTM模块,用于根据当前时刻的权值βt调整输入的隐藏状态
Figure FDA00030549130400000610
输出隐藏状态
Figure FDA00030549130400000611
隐藏状态
Figure FDA00030549130400000612
经过激活函数tanh得到学习参与度评估结果YT
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的基于时空注意力网络的在线学习参与度评估方法的步骤。
CN202110497274.6A 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质 Active CN113326739B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110497274.6A CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110497274.6A CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质

Publications (2)

Publication Number Publication Date
CN113326739A true CN113326739A (zh) 2021-08-31
CN113326739B CN113326739B (zh) 2022-08-09

Family

ID=77414229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110497274.6A Active CN113326739B (zh) 2021-05-07 2021-05-07 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质

Country Status (1)

Country Link
CN (1) CN113326739B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN111832669A (zh) * 2020-09-21 2020-10-27 首都师范大学 学习参与度识别网络模型的建立方法及装置
CN112183056A (zh) * 2020-08-19 2021-01-05 合肥工业大学 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和***
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质
CN112580777A (zh) * 2020-11-11 2021-03-30 暨南大学 一种基于注意力机制的深度神经网络插件及图像识别方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388900A (zh) * 2018-02-05 2018-08-10 华南理工大学 基于多特征融合和时空注意力机制相结合的视频描述方法
CN110475129A (zh) * 2018-03-05 2019-11-19 腾讯科技(深圳)有限公司 视频处理方法、介质及服务器
CN109389091A (zh) * 2018-10-22 2019-02-26 重庆邮电大学 基于神经网络和注意力机制结合的文字识别***及方法
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111259142A (zh) * 2020-01-14 2020-06-09 华南师范大学 基于注意力编码和图卷积网络的特定目标情感分类方法
CN112183056A (zh) * 2020-08-19 2021-01-05 合肥工业大学 基于CNN-BiLSTM框架的上下文依赖的多分类情感分析方法和***
CN111832669A (zh) * 2020-09-21 2020-10-27 首都师范大学 学习参与度识别网络模型的建立方法及装置
CN112580777A (zh) * 2020-11-11 2021-03-30 暨南大学 一种基于注意力机制的深度神经网络插件及图像识别方法
CN112541529A (zh) * 2020-12-04 2021-03-23 北京科技大学 表情与姿态融合的双模态教学评价方法、设备及存储介质

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JICHAO ZHANG ET AL: "Sparsely Grouped Multi-task Generative Adversarial Networks for Facial Attribute Manipulation", 《ARXIV:1805.07509V7》 *
RUI ZHONG ET AL: "Graph Attention Networks Adjusted Bi-LSTM for Video Summarization", 《IEEE SIGNAL PROCESSING LETTERS》 *
刘大运等: "基于BiLSTM-Attention唇语识别的研究", 《计算技术与自动化》 *
梁华刚等: "基于Res-Bi-LSTM的人脸表情识别", 《计算机工程与应用》 *
贾鹂宇等: "基于人工智能视频处理的课堂学生状态分析", 《现代教育技术》 *
黄奇景等: "基于Attention-BiLSTM的情感分类模型", 《电子技术与软件工程》 *

Also Published As

Publication number Publication date
CN113326739B (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
Liao et al. Deep facial spatiotemporal network for engagement prediction in online learning
WO2020010785A1 (zh) 一种课堂教学认知负荷测量***
Zeng et al. Spontaneous emotional facial expression detection.
CN110575663B (zh) 一种基于人工智能的体育辅助训练方法
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及***
CN113191215A (zh) 融合注意力机制与孪生网络结构的滚动轴承故障诊断方法
CN109255289B (zh) 一种基于统一式生成模型的跨衰老人脸识别方法
CN111027377B (zh) 一种双流神经网络时序动作定位方法
CN113158861B (zh) 一种基于原型对比学习的运动分析方法
CN110503000B (zh) 一种基于人脸识别技术的教学抬头率测量方法
CN112819065A (zh) 基于多重聚类信息的无监督行人难样本挖掘方法和***
CN115100709B (zh) 一种特征分离的图像人脸识别与年龄估计方法
CN116645721B (zh) 基于深度学习的坐姿识别方法及***
CN115346149A (zh) 基于时空图卷积网络的跳绳计数方法和***
CN113205002A (zh) 非受限视频监控的低清人脸识别方法、装置、设备及介质
Hoque et al. Bdsl36: A dataset for bangladeshi sign letters recognition
CN111626197B (zh) 一种基于人体行为识别网络模型的识别方法
CN112257600B (zh) 一种人脸识别方法及***
Fujii et al. Hierarchical group-level emotion recognition in the wild
CN112560668A (zh) 一种基于场景先验知识的人体行为识别方法
CN113326739B (zh) 基于时空注意力网络的在线学习参与度评估方法及评估***、设备、存储介质
CN114663910A (zh) 基于多模态学习状态分析***
Dembani et al. UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM.
CN113688789A (zh) 一种基于深度学习的在线学习投入度识别方法及***
CN113486706B (zh) 一种基于人体姿态估计和历史信息的在线动作识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant