CN115937946A - 一种基于多模态数据融合的在线学习状态检测方法 - Google Patents

一种基于多模态数据融合的在线学习状态检测方法 Download PDF

Info

Publication number
CN115937946A
CN115937946A CN202211596371.1A CN202211596371A CN115937946A CN 115937946 A CN115937946 A CN 115937946A CN 202211596371 A CN202211596371 A CN 202211596371A CN 115937946 A CN115937946 A CN 115937946A
Authority
CN
China
Prior art keywords
electroencephalogram
network model
state
sight
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211596371.1A
Other languages
English (en)
Inventor
刘海
林丹月
刘婷婷
张昭理
王镜淇
张�诚
朱晓倩
宋林森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central China Normal University
Original Assignee
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central China Normal University filed Critical Central China Normal University
Priority to CN202211596371.1A priority Critical patent/CN115937946A/zh
Publication of CN115937946A publication Critical patent/CN115937946A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开了一种基于多模态数据融合的在线学习状态检测方法,该方法包括:获取待检测对象的面部图像及脑电信号;将面部图像信息及脑电信号输入训练好的多模态融合模型中,提取待检测对象当前的视线方向及脑电情绪状态;所述多模态融合模型包括第一网络模型和第二网络模型,第一网络模型为利用具有视线方向标签的多幅面部图像样本训练得到,第二网络模型为利用具有脑电情绪标签的多个脑电波样本训练得到;基于视线方向和脑电情绪状态生成待检测对象当前的学习状态数据。本发明实现视线信息与脑电信号的互补,实时检测学习者的在线学习状态,为下一步的学习指导提供客观支撑数据,有助于合理规划学习内容,提升学习效率,实现良性循环。

Description

一种基于多模态数据融合的在线学习状态检测方法
技术领域
本申请涉及模式识别与信号处理技术领域,更具体地,涉及一种基于多模态数据融合的在线学习状态检测方法。
背景技术
随着教育信息化的高速发展,人工智能技术已经被越来越多地应用于教育教学过程中。近年来,新型冠状病毒肺炎的爆发打破了传统的线下教学模式,许多学生采用在线学习的方式来进行学习。然而,脱离了线下教学的有监管场景,导致学生对自己实时的状态难以把控,不能合理规划学习内容,学习效率低下成为亟待解决的问题。因此,采用一种学习状态检测方法辅助学习者进行在线学习,根据检测结果使学生针对性地进行下一步学习规划,从而提高学习者在线学习的学习效率具有十分重要的意义。
影响学习效率的特殊精神与心理状态--脑力疲劳,是一种以主观倦怠感、认知功能下降、睡眠倾向性为主要表现的人体状态。脑力疲劳是一种特殊的疲劳性精神状态,主要表现为倦怠、警觉性降低、动机缺乏、认知活动能力下降和学习工作效率降低。
脑电信号(EEG)是一种自发的神经活动,是大脑在活动时大量神经元同步发生的突触后电位经总和计算后形成的,产生于中枢神经***。脑电波也称为脑电波图,记录着大脑活动时的电波变化,是脑神经细胞的电生理活动在大脑皮层或头皮表面的总体反映,是一种由大脑产生并经过皮层传导的电信号,包含丰富的生理与心理信息。研究表明,如果人体的生理或心理状态发生改变,脑电信号也会随之波动。因此使用脑电信号数据进行状态检测从理论上讲是基本可行的;且脑电具有内隐性,不具表象欺骗性。
视线跟踪技术有助于确定人在数字屏幕上的注视位置,反馈眨眼频率以及瞳孔对不同刺激的反应。因此,它有助于确定一个人的视线方向,是否困倦,判断他的焦点等。传统的学习状态检测主要依托该视线跟踪技术,但是其依托模态少,不够客观,同时视线外显行为具有欺骗性,仅依靠视线信息不足以准确得出其学习状态,导致目前的学习状态监测的结果准确度不高。
发明内容
针对现有技术的改进需求,本发明提供了一种基于多模态数据融合的在线学习状态检测方法,将面部图像和脑电信号同时用于学习状态检测中,可以实现不同模态的信息互补,其目的在于提高所获取的学习者的学习状态的准确性,从而为下一步的学习规划提供支撑依据,提高学习效率。
为实现上述目的,按照本发明的一个方面,提供了一种基于多模态数据融合的在线学习状态检测方法,其包括:
S1获取待检测对象的面部图像及脑电信号;
S2将所述面部图像及脑电信号输入训练好的多模态融合模型中,提取所述待检测对象当前的视线方向及脑电情绪状态;
其中,所述多模态融合模型包括第一网络模型和第二网络模型;所述第一网络模型为利用具有视线方向标签的多幅面部图像样本训练得到,所述第二网络模型为利用具有脑电情绪标签的多个脑电波样本训练得到;
多模态融合模型将第一网络模型输出的视线特征及第二网络模型输出的脑电情绪特征进行融合分类,得到待检测对象当前的视线方向和脑电情绪状态;
S3基于所述视线方向和脑电情绪状态生成待检测对象当前的学习状态数据。
进一步地,上述在线学习状态检测方法中,使用RGB-D相机获取待检测对象的面部图像,使用蓝牙脑电设备获取待检测对象的脑电信号。
进一步地,上述在线学习状态检测方法中,将所述面部图像信息及脑电信号输入训练好的多模态融合模型中之前还包括:
采用分帧和裁剪操作对面部图像进行预处理;
采用EEGLAB工具箱对脑电信号进行降采样和带通滤波处理。
进一步地,上述在线学习状态检测方法中,所述第一网络模型包括权重共享的第一特征提取层和第二特征提取层,以及特征重建模块和编码感知模块;
所述第一特征提取层、第二特征提取层用于从面部图像中提取局部特征,生成一个特征矩阵;
所述特征重建模块用于根据所述特征矩阵恢复图像,从特征空间重建出原始图像;该特征重建模块与第二特征提取层结合为对抗重建网络;
所述编码感知模块用于根据所述特征矩阵生成视线特征,其包括Transformer模型和双层MLP感知器。
进一步地,上述在线学习状态检测方法中,所述第一网络模型的训练过程包括:
获取具有视线方向标签的面部图像样本;
将所述面部图像样本输入到待训练的第一网络模型中,通过模型输出预测的视线特征;
根据所述视线特征及视线方向标签计算第一损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一损失函数最小化,得到训练好的第一网络模型。
进一步地,上述在线学习状态检测方法中,所述第一损失函数定义为第二特征提取层、特征重建模块和编码感知模块各自的损失函数之和;
特征重建模块的损失函数记作Lre,其定义为:
其中,p为输入的面部图像,为重建后的面部图像;
第二个特征提取层与特征重建模块进行对抗,其对抗损失记作Lag,其定义为:
编码感知模块使用L1损失作为视线估计损失函数,记作Le,其定义为:
其中,e∈R3为真实视线方向,为估计视线方向;
所述第一损失函数结合视线估计损失函数与对抗损失函数,其定义为:
其中,T为指示函数,M为注意力映射,*表示按元素相乘,E表示数学期望,β1和β2为超参数;k为自定义的阈值。
进一步地,上述在线学习状态检测方法中,所述第二网络模型的训练过程包括:
获取具有状态标签的脑电样本,所述状态标签分为专注状态标签、走神状态标签和疲劳状态标签;
将带有状态标签的脑电样本输入到第二网络模型中,通过模型输出预测的脑电情绪状态;
根据所述脑电情绪状态及状态标签计算第二损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述第二损失函数最小化,得到训练好的第二网络模型。
进一步地,上述在线学习状态检测方法中,所述第二损失函数表示为LCAP,其定义为:
其中,ti为真实值,为通过SCPNet网络模型得到的预测值。
进一步地,上述在线学习状态检测方法中,所述多模态融合模型中还包括聚合网络和分类网络;
所述聚合网络用于将第一网络模型输出的视线特征及第二网络模型输出的脑电情绪特征进行聚合,得到聚合特征;
所述分类网络根据所述聚合特征生成待检测对象当前的视线方向和脑电情绪状态。
进一步地,上述在线学习状态检测方法中,基于视线方向和脑电情绪状态生成待检测对象当前学习状态数据,包括:
将所述视线方向和脑电情绪数据输入到学习状态评价器中,根据所述视线方向以及预设的学习空间区域得到待检测对象当前的外显学习状态;
联合所述外显学习状态和脑电情绪状态,得到待检测对象当前的学习状态数据。
按照本发明的第二个方面,还提供了一种计算机设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述在线学习状态检测方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的一种基于多模态数据融合的在线学习状态检测方法,将面部图像和脑电信号同时用于学习状态检测中,采用新颖的多模态融合模型准确提取视线特征和脑电特征,将视线特征和脑电特征进行融合,克服了传统检测方法中检测维度单一的局限性,提高检测的正确率,对学习效率的提高和辅助教学具有重要意义。
(2)本发明根据获取到的数据对当前学习者提供及时的反馈,可以使学习者及时了解自己目前状态,并为之做出调整;有助于合理规划学习内容,劳逸结合以提升学习效率,实现学习与休息的良性循环。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例提供的一种基于多模态数据融合的在线学习状态检测方法的流程示意图;
图2为本实施例提供的在线学习环境下数据获取示意图;
图3为本实施例所提供的多模态融合网络的结构示意图;
图4为本申请实施例提供的学习状态判断机制示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1为本实施例提供的一种基于多模态数据融合的在线学习状态检测方法的流程示意图,请参阅图1,该方法主要包括以下步骤:
步骤一、获取待检测对象(H)的面部图像(Hpic_0)及脑电信号(HEEG_0);
本实施例中,待检测对象(H)为正在利用学习设备进行在线学习的对象,图2为本实施例提供的在线学习环境下的数据获取示意图。如图2所示,在一个具体示例中,利用RGB-D摄像头记录待检测对象的面部图像(Hpic_0),利用蓝牙脑电设备提取待检测对象的脑电信号,提取出在时间上与面部图像对应的脑电信号(HEEG_0)。该RGB-D摄像头可以集成在学习设备中,也可以使用独立设备并将其架设在学习设备上,或者将其放置在其它可以采集到待检测对象面部图像及脑电数据的区域,本示例中,按照将其集成在学习设备中来介绍。
在一个可选的实施方式中,根据需求对待检测对象的面部图像(Hpic_0)及脑电信号(HEEG_0)进行预处理,具体来说:
(1)选择对应视频,按照设定的频率(例如,每20帧)采样一幅图像,按照相同的大小裁剪每一帧检测对象面部图像(Hpic_0),得到经过预处理的面部图像(Hpic)。
(2)对脑电信号(HEEG_0)进行降采样、带通滤波等,从而提高信号的信噪比,尽可能去除伪迹、干扰、噪声,保留纯净的脑电信号;针对脑电数据,主要需要去除的是眼动干扰、眼肌干扰,得到经过预处理的脑电信号(HEEG)。
在一个具体的示例中,采用EEGLAB工具箱对脑电信号(HEEG_0)进行预处理。由于工频干扰高于50hz,一些无用的生理噪声低于1hz,所以将采样率降低到100hz,并对脑电图信号进行1-50hz的带通滤波,以去除伪影。在将数据进行处理之后对于明显的有眼电或肌电信号干扰的通道(即坏导)进行剔除处理的方法为:即使用该坏导周围的四个电极信号的平均值进行处理。去除过渡期,得到3个10分钟左右的信号,分别标记为专注、走神和疲劳。
步骤二、将面部图像信息(Hpic)及脑电信号(HEEG)输入训练好的多模态融合模型(FSNet)中,提取待检测对象(H)当前的视线方向(Ce)及脑电情绪状态(CEEG);
图3是本实施例提供的多模态融合模型的网络结构示意图,如图3所示,该多模态融合模型(FSNet)包括第一网络模型(FE2GNet)和第二网络模型(SCPNet);所述第一网络模型为利用具有视线方向标签的多幅面部图像样本训练得到,所述第二网络模型为利用具有脑电情绪标签的多个脑电样本训练得到;
多模态融合模型将第一网络模型(FE2GNet)输出的视线特征及第二网络模型(SCPNet)输出的脑电情绪特征进行融合分类,得到待检测对象当前的视线方向和脑电情绪状态;
本实施例中,第一网络模型为卷积变换优化网络(FE2GNet),用于提取RGB图像数据的视线特征;
该第一网络模型为利用具有视线标签的多幅面部图像样本训练得到,其主要包括三个网络模块,分别为两个相同的共享权重的卷积模块、特征重建模块和编码感知模块;下面分别具体介绍以下模块:
(1)权重共享的第一卷积模块和第二卷积模块:主要任务是提取图像特征。给定一幅面部图像Hpic∈Rh×w×c,使用CNN来处理面部图像,并获得特征映射fpic∈Rh×w×c。使用CNN从图像中提取局部特征,经过卷积,每个特征包含一个局部区域的信息。
更具体地,给定一个224×224×3的面部图像Hpic,使用ResNet-18的卷积层来处理面部图像,并获得特征映射fpic。卷积层从人脸图像中生成7×7×512个特征映射。
(2)特征重建模块(RE-Moudle):主要任务是从特征空间重建出原始图片,用于恢复图像;此外,特征重建模块的终极任务是与其中一个卷积模块(例如第二卷积模块)结合为对抗重建网络,与其他模块损失函数结合,以最小化TOT损失函数为目的优化网络。
如图3所示,特征重建模块RE-Moudle包含一个上采样块和一个1×1的卷积层来对齐信道。使用五层的RE模块,每个块的特征图数量分别为256、128、64、32、16(从下到上),最后1×1卷积层的特征图数量分别为3。更具体地,把对抗损失(Lag)分配给第二卷积模块CNN和特征重建模块。特征重建模块能够重建图像,并利用MSE损失(Lre)来进行优化。第二卷积模块CNN网络组织重建,其中Lag=1-Lre。第二卷积模块CNN和特征重建模块RE-Module在重建时是对抗性的,即第二卷积模块CNN网最终会从提取的特征中去除一般的图像信息。利用此种方式,为下一步的视线估计做好准备。
(3)编码感知模块:主要任务是从特征空间得出视线特征,主要由transformer和双层MLP感知器组成。首先使用1×1卷积层对信道进行缩放,得到7×7×32特征图。将特征图输入一个六层transformer和MLP来回归视线。
更具体地,将特征映射重构为一个2D的patchfp∈Rl×c,其中l=h×w,由此得到一个长度为l的特征矩阵,每个特征都是c维的。将此图像特征矩阵输入到Transformer编码器中,得到Transformer编码器的输出,将其输入到MLP感知器中得到脑电情绪特征的结果。本实施例中,双层MLP的隐藏维度设为512,并执行8头自注意机制,Dropout设为0.1。
此外,在图像特征矩阵中添加一个额外的标记ftoken,token是可学习的嵌入,与特征向量具有相同的维度,即ftoken∈R1×c。在训练过程中,token通过自注意机制聚合其它patch的特征,最后在transformer的输出处输出注视特征。采用位置嵌入的方法对每个patch的位置信息进行编码。创建一个可学习的嵌入fpose∈R(l+1)×c,并添加到图像特征矩阵中。总的来说,最终的特征矩阵定义为:
其中,[]表示拼接操作,f∈R(l+1)×c
将得到的特征矩阵输入transformer,Transformer对特征矩阵进行处理,输出一个新的特征矩阵fout∈R(l+1)×c。选择第一个特征向量(对应于ftoken的位置)作为视线表示,并使用MLP从视线表示中回归视线。整个过程可以表述为:
其中,[0,:]表示我们选择特征矩阵的第一行,g表示估计的视线。
在一个可选的实施方式中,根据带有视线方向标签的多副样本图像来训练第一网络模型,其训练过程包括:
获取具有视线方向标签的面部图像样本;
将所述面部图像样本输入到待训练的第一网络模型中,通过模型输出预测的视线特征;
根据所述视线特征及视线方向标签计算第一损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一损失函数最小化,得到训练好的第一网络模型。
在训练过程中,第一网络模型的总损失函数定义为第二特征提取层、特征重建模块和编码感知模块各自的损失函数之和。具体的:
特征重建模块用于重建图像,并利用MSE损失,记作Lre,其定义为:
其中,p为输入的面部图像,为重建后的面部图像。
第二卷积模块与特征重建模块进行对抗,其对抗损失记作Lag,其定义为:
编码感知模块用于从特征空间恢复视线,使用L1损失作为视线估计损失函数,记作Le,其定义为:
其中,e∈R3为实际视线方向,为估计视线方向;
总损失函数结合视线估计损失函数与对抗损失函数,其定义为:
其中,T为指示函数,M为注意力映射,*表示按元素相乘,表示数学期望,β1和β2为超参数。k为阈值,根据经验,设定β1和β2为1,k为0.70。使用adam进行优化,且通过最小化TOT函数来优化网络参数。
本实施例中,第二网络模型为路由转换网络(SCPNet),用于提取脑电信号(HEEG)的情绪特征。其主要步骤如下:
首先,使用主胶囊层(Primary Capsules)提取脑电信号(HEEG)的初级特征。
本实施例中,主胶囊层是一个32个通道的卷积胶囊层,每个胶囊都是8D的向量,每一个Primary Capsule均包含有8个卷积单元,每个卷积单元都使用的是9*9的卷积核,且步长为2。
然后,将主胶囊层的输出转换为张量作为路由模块的输入,路由算法的具体实现如下:
(uti,ufi)表示l-1层胶囊的第i个输出。
将低层胶囊的特征属性封装成一个预测时频矢量,记作其定义为:
上式可整理为:
其中,N表示输入胶囊数,T和F分别表示输入时间和频率维数,K表示核函数;N=32×h×w。使用2D卷积函数来代替相乘的权值s,卷积中填充相同,输出大小与输入大小相同。
以不同的权重对预测胶囊进行加权求和得到(stj,sfj),得到高层输入,其公式为:
citj与cifj为公式10和公式11耦合系数,其定义为:
N个胶囊的输出,记作SN,其定义为:
其中,SN可以看为N个矩阵向量,每一个元素sn的大小为T×F,矩阵向量包含两个维度的信息,在每个矩阵向量中获得的信息代表不同的“特征”;
将S的第n个胶囊的权重,记作wn,其定义为:
为每个胶囊矩阵向量生成合适的权重,胶囊权重可以看作是一个时频描述符的集合,其统计有助于表达整个胶囊层,整理如下式:
然后对接收到的胶囊进行非线性激活,将其压缩,其有时间、频率两个维度,记作(vtj,vfj),表示每个元素表征某个特定属性的概率,其公式为:
其中,为第j个胶囊的总输入,(vtj,vfj)为第j个高层胶囊经过非线性激活压缩后的总输出。
在SCPNet网络模型中,(citj,cifj),和(vtj,vfj)根据公式16迭代更新,提取全局时频信息。
(citj,cifj)←(citj,cifj)+(citj,cifj)(vtj,vfj)   (16)
更具体地,图3中,Ti×Fi×Ni为主胶囊层的输入尺寸,T0×F0×N0为输出尺寸。池化层为全局平均池化,f表示Softmax函数,通过softmax函数输出分类脑电特征。
在一个可选的实施方式中,第二网络模型为利用具有脑电情绪标签的多个脑电样本训练得到,其训练过程包括(以一个脑电样本为例):
获取具有专注状态标签的脑电样本作为专注样本,具有走神状态标签的脑电样本作为走神样本,以及具有疲劳状态标签的脑电样本作为疲劳样本;
将带有状态标签的所有脑电样本输入到第二网络模型中,以交叉熵作为损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述损失函数最小化,得到训练好的第二网络模型,其损失函数表示为LCAP,如下式所示:
其中,ti为真实值,为通过SCPNet网络模型得到的预测值。
本实施例中,多模态融合模型中还包括聚合网络和分类网络;
其中,聚合网络分别连接第一网络模型和第二网络模型的输出侧,用于将第一网络模型输出的视线特征(Fe)及第二网络模型输出的脑电情绪特征(FEEG)进行聚合,得到聚合特征;
在一个具体的示例中,分类网络可采用softmax分类器,其根据所述聚合特征生成待检测对象当前的视线方向(Ce)和脑电情绪状态(CEEG)。
步骤三、基于视线方向(Ce)和脑电情绪状态(CEEG)生成待检测对象当前的学习状态数据;
在通过多模态融合模型获得待检测对象的视线方向(Ce)和脑电情绪状态(CEEG)之后,可以基于该视线方向和脑电情绪状态,采取不同的方式对待检测对象的学习状态数据进行判定。
在一个具体的示例中,将视线方向(Ce)和脑电情绪状态(CEEG)输入到学习状态评价器中,该学习状态评价器为预先训练好的模型,根据所述视线方向以及预设的学习空间区域计算待检测对象当前的视线落点;并能够依据预设的标准,结合所述视线落点位置和脑电情绪状态,得到待检测对象当前的学习状态数据。
待检测对象的眼睛与学***距离l(l可由深度图得出)、屏幕左边距离xl、屏幕右边距离xr共同决定了学习区间范围(θ1,θ2)即:
检测到视线方向位于预先设置的学习空间之内,则视线落点在学习区,否则视线落点不在学习区;通过视线落点和脑电情绪状态结合作为学习者当前的学习状态。
请参阅图4,根据视线落点和脑电情绪状态估计数据判断学习者的学习状态,具体包括:初始化学习状态得分为0,设置充沛状态、被动状态和劳累状态的划分阈值分别为1、0和-1,将视线落点在学习区的打分为1,将视线落点不在学习区的打分为0;将脑电情绪状态为专注的确定为1,将脑电情绪状态为走神的确定为0,将脑电情绪状态为疲劳的确定为-1;计算视线估计得分和脑电状态得分之和作为融合得分;若融合的分为2,则确定当前状态为充沛状态,判断融合得分,若融合的分为0/1,则确定当前状态为被动状态,若融合的分为-1,则确定当前状态为劳累状态。
获取待检测对象的学习状态结果之后,可以在状态为被动状态或劳累状态时提供相应的干预措施,比如当状态为被动状态时,发出语音预警,提醒学习者可更换学习内容或适当活动放松大脑,当状态为劳累状态时,提醒学习者适时休息。
应当注意,尽管在上述的实施例中,以特定顺序描述了本说明书实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,或将一个步骤分解为多个步骤执行。
本实施例还提供了一种计算机设备,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述在线学习状态监测方法的步骤,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑***等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该计算机设备交互的终端通信,和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述在线学习状态监测方法的步骤。其中,计算机可读存储介质可以包括但不限于任何类型的盘,包括软盘、光盘、DVD、CD-ROM、微型驱动器以及磁光盘、ROM、RAM、EPROM、EEPROM、DRAM、VRAM、闪速存储器设备、磁卡或光卡、纳米***(包括分子存储器IC),或适合于存储指令和/或数据的任何类型的媒介或设备。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通进程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储器中,存储器可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random AccessMemory,RAM)、磁盘或光盘等。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践这里的公开后,将容易想到本公开的其实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于多模态数据融合的在线学习状态检测方法,其特征在于,包括:
S1获取待检测对象的面部图像及脑电信号;
S2将所述面部图像及脑电信号输入训练好的多模态融合模型中,提取所述待检测对象当前的视线方向及脑电情绪状态;
其中,所述多模态融合模型包括第一网络模型和第二网络模型;所述第一网络模型为利用具有视线方向标签的多幅面部图像样本训练得到,所述第二网络模型为利用具有脑电情绪标签的多个脑电波样本训练得到;
多模态融合模型将第一网络模型输出的视线特征及第二网络模型输出的脑电情绪特征进行融合分类,得到待检测对象当前的视线方向和脑电情绪状态;
S3基于所述视线方向和脑电情绪状态生成待检测对象当前的学习状态数据。
2.如权利要求1所述的在线学习状态检测方法,其特征在于,将所述面部图像信息及脑电信号输入训练好的多模态融合模型中之前还包括:
采用分帧和裁剪操作对面部图像进行预处理;
对脑电信号进行降采样和带通滤波处理。
3.如权利要求1或2所述的在线学习状态检测方法,其特征在于,所述第一网络模型包括权重共享的第一特征提取层和第二特征提取层,还包括特征重建模块和编码感知模块;
所述第一特征提取层、第二特征提取层用于从面部图像中提取局部特征,生成一个特征矩阵;
所述特征重建模块用于根据所述特征矩阵恢复图像,从特征空间重建出原始图像;该特征重建模块与第二特征提取层结合为对抗重建网络;
所述编码感知模块用于根据所述特征矩阵生成视线特征,其包括Transformer模型和双层MLP感知器。
4.如权利要求3所述的在线学习状态检测方法,其特征在于,所述第一网络模型的训练过程包括:
获取具有视线方向标签的面部图像样本;
将所述面部图像样本输入到待训练的第一网络模型中,通过模型输出预测的视线特征;
根据所述视线特征及视线方向标签计算第一损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一损失函数最小化,得到训练好的第一网络模型。
5.如权利要求4所述的在线学习状态检测方法,其特征在于,所述第一损失函数定义为第二特征提取层、特征重建模块和编码感知模块各自的损失函数之和;
特征重建模块的损失函数记作Lre,其定义为:
Figure FDA0003992976640000021
其中,p为输入的面部图像,
Figure FDA0003992976640000022
为重建后的面部图像;
第二个特征提取层与特征重建模块进行对抗,其对抗损失记作lag,其定义为:
Figure FDA0003992976640000023
编码感知模块使用L1损失作为视线估计损失函数,记作Le,其定义为:
Figure FDA0003992976640000024
其中,e∈R3为真实视线方向,
Figure FDA0003992976640000025
为估计视线方向;
所述第一损失函数结合视线估计损失函数与对抗损失函数,其定义为:
Figure FDA0003992976640000026
其中,T为指示函数,M为注意力映射,*表示按元素相乘,E表示数学期望,β1和β2为超参数;k为自定义的阈值。
6.如权利要求1-5任一项所述的在线学习状态检测方法,其特征在于,所述第二网络模型的训练过程包括:
获取具有状态标签的脑电样本,所述状态标签分为专注状态标签、走神状态标签和疲劳状态标签;
将带有状态标签的脑电样本输入到第二网络模型中,通过模型输出预测的脑电情绪状态;
根据所述脑电情绪状态及状态标签计算第二损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述第二损失函数最小化,得到训练好的第二网络模型。
7.如权利要求6所述的在线学习状态检测方法,其特征在于,所述第二损失函数表示为LCAP,其定义为:
Figure FDA0003992976640000031
其中,ti为真实值,
Figure FDA0003992976640000032
为通过SCPNet网络模型得到的预测值。
8.如权利要求1-7任一项所述的在线学习状态检测方法,其特征在于,所述多模态融合模型中还包括聚合网络和分类网络;
所述聚合网络用于将第一网络模型输出的视线特征及第二网络模型输出的脑电情绪特征进行聚合,得到聚合特征;
所述分类网络根据所述聚合特征生成待检测对象当前的视线方向和脑电情绪状态。
9.如权利要求1-8任一项所述的在线学习状态检测方法,其特征在于,其特征在于,所述基于视线方向和脑电情绪状态生成待检测对象当前学习状态数据,包括:
将所述视线方向和脑电情绪数据输入到学习状态评价器中,根据所述视线方向以及预设的学习空间区域得到待检测对象当前的外显学习状态;
联合所述外显学习状态和脑电情绪状态,得到待检测对象当前的学习状态数据。
10.一种计算机设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~9任一项所述在线学习状态检测方法的步骤。
CN202211596371.1A 2022-12-12 2022-12-12 一种基于多模态数据融合的在线学习状态检测方法 Pending CN115937946A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211596371.1A CN115937946A (zh) 2022-12-12 2022-12-12 一种基于多模态数据融合的在线学习状态检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211596371.1A CN115937946A (zh) 2022-12-12 2022-12-12 一种基于多模态数据融合的在线学习状态检测方法

Publications (1)

Publication Number Publication Date
CN115937946A true CN115937946A (zh) 2023-04-07

Family

ID=86655507

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211596371.1A Pending CN115937946A (zh) 2022-12-12 2022-12-12 一种基于多模态数据融合的在线学习状态检测方法

Country Status (1)

Country Link
CN (1) CN115937946A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304642A (zh) * 2023-05-18 2023-06-23 中国第一汽车股份有限公司 情绪识别预警及模型训练方法、装置、设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304642A (zh) * 2023-05-18 2023-06-23 中国第一汽车股份有限公司 情绪识别预警及模型训练方法、装置、设备和存储介质
CN116304642B (zh) * 2023-05-18 2023-08-18 中国第一汽车股份有限公司 情绪识别预警及模型训练方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
US20230154207A1 (en) Driver fatigue detection method and system based on combining a pseudo-3d convolutional neural network and an attention mechanism
Du et al. Vision-based fatigue driving recognition method integrating heart rate and facial features
Dewan et al. A deep learning approach to detecting engagement of online learners
Kundu et al. Advancements and recent trends in emotion recognition using facial image analysis and machine learning models
Peng et al. 3D-STCNN: Spatiotemporal Convolutional Neural Network based on EEG 3D features for detecting driving fatigue
US20220067519A1 (en) Neural network synthesis architecture using encoder-decoder models
Kim et al. A deep motion sickness predictor induced by visual stimuli in virtual reality
Liu et al. A review of driver fatigue detection and its advances on the use of RGB-D camera and deep learning
CN111714118A (zh) 一种基于集成学习的脑认知模型融合方法
CN113158815A (zh) 一种无监督行人重识别方法、***及计算机可读介质
Lopez-Martinez et al. Detection of real-world driving-induced affective state using physiological signals and multi-view multi-task machine learning
KR20200073109A (ko) 신경 불일치 모델을 고려한 가상현실 멀미 평가 방법 및 그 장치
Gu et al. A domain generative graph network for EEG-based emotion recognition
Mou et al. Driver emotion recognition with a hybrid attentional multimodal fusion framework
Koochaki et al. A data-driven framework for intention prediction via eye movement with applications to assistive systems
Wu et al. Faster single model vigilance detection based on deep learning
CN111772629B (zh) 一种脑认知技能移植的方法
CN115937946A (zh) 一种基于多模态数据融合的在线学习状态检测方法
Daza et al. Matt: Multimodal attention level estimation for e-learning platforms
Hwang et al. Brain lateralisation feature extraction and ant colony optimisation‐bidirectional LSTM network model for emotion recognition
Pandey et al. A survey on visual and non-visual features in Driver’s drowsiness detection
Pandey et al. Dumodds: Dual modeling approach for drowsiness detection based on spatial and spatio-temporal features
Gruel et al. Bio-inspired visual attention for silicon retinas based on spiking neural networks applied to pattern classification
Isaza et al. Dynamic set point model for driver alert state using digital image processing
Zhou Eye-Blink Detection under Low-Light Conditions Based on Zero-DCE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination