CN116030519A - 一种直播教学平台的学习注意力检测与评估方法 - Google Patents

一种直播教学平台的学习注意力检测与评估方法 Download PDF

Info

Publication number
CN116030519A
CN116030519A CN202211743625.8A CN202211743625A CN116030519A CN 116030519 A CN116030519 A CN 116030519A CN 202211743625 A CN202211743625 A CN 202211743625A CN 116030519 A CN116030519 A CN 116030519A
Authority
CN
China
Prior art keywords
sight
line
live
learner
teaching platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211743625.8A
Other languages
English (en)
Inventor
刘雄华
黄凯伦
何顶新
邓伟明
李曼娜
吴悦
刘婷婷
刘海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Technology and Business University
Original Assignee
Wuhan Technology and Business University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Technology and Business University filed Critical Wuhan Technology and Business University
Priority to CN202211743625.8A priority Critical patent/CN116030519A/zh
Publication of CN116030519A publication Critical patent/CN116030519A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本发明针对学***台的学***台中获取的RGB多帧图像及TOF多帧图像同时用于学习者视线估计任务中,使用采集的WTBU‑Gaze数据集匹配合格的人脸,采用新颖的TransHGE深度神经网络模型来估计学习者的视线方向,极大的提升了在学习者存在佩戴眼镜或眼球大小不同等个体差异的情况下的视线估计结果准确性。

Description

一种直播教学平台的学习注意力检测与评估方法
技术领域
本发明涉及计算机视觉技术和线上教育领域,尤其是涉及一种直播教学平台的学习注意力检测与评估方法。
背景技术
随着直播课教学的逐步推行,学***台学***台学***台学***台是有推出在课后检测学习者在学习期间的全程录像,但这种全程录像的检测方式需要后期花费大量的时间去判断学习者的注意力情况,在检测的实时性和准确性上难以获得理想的效果。
视线是学***台学***台屏幕内,融合这些关键元素来判断学***台中估计学***台中的人脸数据集,并引入了学***台学***台的学***台学习时注意力程度的问题值得深入研究。
发明内容
针对现有技术的以上缺陷或改进需求中的一种或者多种,本发明提供了一种直播教学平台的学习注意力检测与评估方法,包括步骤:
步骤S1:分别实时获取所述直播课教学平台中RGB摄像头以及TOF深度成像摄像头下学习者视频资源,并将视频资源按时间顺序分为多帧RGB图像和多帧TOF图像;
步骤S2:对所述多帧RGB图像及所述多帧TOF图像使用卷积神经网络CNN进行提取人脸特征图谱,每个特征图谱包含一个人脸局部区域的信息;
步骤S3:将预处理后的人脸特征图谱输入到视觉自注意力编码器中获取学***台中不同时刻的视线方向;
步骤S4:根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时提取视线注视点坐标;
步骤S5:根据提取的视线注视点坐标在直播课教学平台屏幕坐标范围外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况。
优选地,在所述步骤S1中,分别实时获取直播课教学平台中RGB摄像头以及TOF深度成像摄像头下学习者视频资源,并将视频资源按时间顺序分为多帧RGB图像和多帧TOF图像,具体步骤为:
步骤S1.1:设定所述RGB摄像头和所述TOF深度成像摄像头的分辨率及拍摄角度,确保实时接收的视频资源中包含学习者完整的人脸区域;
步骤S1.2:设定好的RGB摄像头和TOF深度成像摄像头的视频资源其中L、H、W、C分别表示视频长度、高度和宽度和通道数;
步骤S1.3:将步骤S1.2中实时获取的视频资源V按时间顺序分为多帧人脸图像序列其中t0为视频的帧数、与视频资源对应的H、W、C分别表示图像高度和宽度和通道数。。
优选地,所述步骤S2中,对所述多帧RGB图像及所述多帧TOF图像使用卷积神经网络CNN进行提取人脸特征图谱,其具体步骤为:
步骤S2.1:使用WTBU-Gaze数据集中标准化的人脸识别模型,对接收的图像中每个符合条件的人脸进行人脸属性计算,数据保存为=F(Ii),其中A是从人脸图像Ii中提取的眼部参数属性和头部姿态属性A={aeye,ahead pose};
步骤S2.2:对于接收图像中的每个合格的人脸fd,采用基于CNN模型的人脸特征点检测算法,通过带有两层卷积核的CNN定位出步骤S2.1中合格人脸fd的特征图谱和头部姿态旋转矩阵R,其中h、w、c分别表示特征图谱的长度、宽度和通道数。
步骤S2.3:针对WTBU-Gaze数据集中被选中的人脸称为fc,我们计算fd和fc中人脸图像的眼睛参数和头部姿势的差异,通过评分函数为fc中的每个人脸图像计算匹配分数:S(fc,fd)=∑m∈{eye,heed pose}σm|am,d-am,c|,其中参数σm是由比较匹配结果的经验决定的。
优选地,所述步骤S2.1中使用的WTBU-Gaze数据集的获取步骤为:
步骤S2.1.1:招募2N位志愿者,其中包含男生和女生各N人,采集这2N位志愿者在直播课教学平台学习时的人脸信息,包含视线标签信息、距离标签信息和边界框信息的标准化单人脸;
步骤S2.1.2:所述标准化单人脸用于提出的TransHGE深度神经网络模型预训练,从而获取匹配视线估计任务的WTBU-Gaze数据集。
优选地,所述步骤S3中,将预处理后的人脸特征图谱输入到视觉自注意力编码器中获取学***台中不同时刻的视线方向,其具体步骤为:
步骤S3.1:将步骤S2.2中获取的人脸特征图谱fmap重塑2D补丁其中l=h×w;
步骤S3.2:在步骤S3.1的所述2D补丁基础上,添加一个额外的标志矩阵和一个位置嵌入获得最终的特征矩阵为:fp=[fto;fmap]+fpo
步骤S3.3:将步骤S3.2中获得的特征矩阵fp输入到视觉自注意力编码器中获取学***台中的视线方向为:
gf=MLP(Trans(f)[0,:])。
优选地,所述步骤S3.3中获取学***台中的视线方向,具体步骤如下:
步骤S3.3.1:使用6层的标准的视觉自注意力编码器处理特征矩阵fp=[fto;fmap]+fpo并输出一个新的特征矩阵其中P2是特征向量的长度,D是每个特征向量的维数;
步骤S3.3.2:选择第一个特征向量作为视线标志,并使用2层的多层感知机从视线标志中回归视线gf=(α,β),其中,α表示视线的俯仰角,β表示偏航角;
步骤S3.3.3:将输出的回归视线gf通过下式转化为标准化空间中的3D视线向量进而得到当前帧图像对应学习设备屏幕的3D视线向量
步骤S3.3.4:针对所述的3D视线估计任务的损耗问题,分别从头部姿态损耗Lhead和视线估计损耗Lgaze两个部分进行计算,通过两部分损耗,将3D视线估计任务损耗最小化:Loss=min{δ1 Lhead2Lgaze},其中参数δ1,δ2∈[0,1]用于调整损耗。
优选地,所述步骤S3.3.1中标准的单层视觉自注意力编码器模型的训练步骤如下:
步骤S3.3.1.1:单层视觉自注意力编码器是一个自注意力模块,由多头自注意力机制MSA,多层感知机制MLP和层规范化机制LN三个部分组成,将步骤S3.2中获取的特征矩阵fp作为输入映射到查询q,健k和值v,自注意模块的输出被计算为:
其中d0为每个特征的维度。
步骤S3.3.1.2:所述的步骤S3.3.1.1中多头自注意力机制MSA可以通过下式表示,其中fp作为当前模块的输入,为多头自注意力机制MSA的输出与fp的和为
步骤S3.3.1.3:所述的步骤S3.3.1.1中多层感知机制MLP可以通过下式表示,其中为当前自注意力编码器的输出
优选地,所述步骤S4根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时获取视线注视点坐标,具体步骤为:
步骤S4.1:使用现有的TOF深度成像相机通过向目标物体打光,测量光在镜头和物体之间的传输时间来测距的技术,可以标定学习者头部坐标系H和注视的屏幕坐标系G的相对位置关系
步骤S4.2:将由所述步骤S4.1获取的三维视线向量gF进行单位化,得到单位视线向量为:
步骤S4.3:定义双眼内眼角连线的中点为视线出发点,在学习者头部坐标系H中表示为p0,基于所述的步骤S4.1中标定的相对位置关系将所述的单位视线向量和视线出发点p0(x0,y0,z0)统一转换至屏幕坐标系下;
步骤S4.4:在屏幕坐标系下,已知视线方向向量和视线出发点,求解视线所在直线方程,进而由三维空间中面与线相交的空间几何关系,计算出视线注视点坐标P(x,y)。
优选地,所述的步骤S5中根据提取的视线注视点坐标在直播课教学平台屏幕坐标范围外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况,具体步骤为:
步骤S5.1:实时动态的记录视线注视点坐标P(x,y)在屏幕坐标范围外的次数n,每记录一次注视点,循环进行步骤S1至步骤S4;
步骤S5.2:若步骤S5.1中屏幕外注视点次数n大于设定的检测次数f,***判定学习者注意力失焦,***进行弹窗提醒,弹窗提醒后更新注视点次数,重新开始检测;若步骤S5.1中屏幕外注视点次数n一直小于设定的检测次数f,***正常运行直至课程结束。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有的有益效果包括:
(1)本发明公开的一种面向直播教学平台的学***台中获取的RGB多帧图像及TOF多帧图像同时用于学习者视线估计任务中,使用采集的WTBU-Gaze数据集匹配合格的人脸,采用新颖的TransHGE深度神经网络模型来估计学习者的视线方向,极大的提升了在学习者存在佩戴眼镜或眼球大小不同等个体差异的情况下的视线估计结果准确性。
(2)相比较与2D图像去估计视线方向存在很大误差的情况,本发明提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可以实时的获取学习者与学习设备屏幕之间的距离,通过视线估计结果的转换,可以实时的提取视线注视点坐标。
附图说明
图1是本发明的一种面向直播教学平台的学习注意力检测与评估方法的流程图;
图2是直播课教学平台下学习者面部数据获取示意图;
图3是本发明的学习者视线估计模型的网络框架图;
图4是本发明的学习者视线估计结果转换示意图;
图5是本发明的学习者与学习设备屏幕之间的距离场景示意图;
图6是本发明的学习者视线注视点映射的空间几何原理图。
在所有附图中,同样的附图标记表示相同的技术特征,具体为:
1、学习者,2、学习设备屏幕,3、RGB摄像头,4、TOF摄像头。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
实施例:
如图1所示,本发明实施例的是一种面向直播教学平台的学习注意力检测与评估方法,包括步骤:
步骤S1:分别实时获取直播课教学平台中RGB摄像头以及TOF深度成像摄像头下学习者视频资源,并将视频资源按时间顺序分为多帧图像;
步骤S2:对直播课教学平台中所述的RGB多帧图像及TOF多帧图像使用CNN进行提取人脸特征图谱,每个特征图谱包含一个人脸局部区域的信息;
步骤S3:将预处理后的人脸特征图谱输入到视觉自注意力编码器中获取学***台中不同时刻的视线方向;
步骤S4:根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时提取视线注视点坐标;
步骤S5:根据提取的视线注视点坐标在直播课教学平台屏幕坐标范围外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况。
如图2所示,学***台进行在线学***台中RGB摄像头以及TOF深度成像摄像头实时获取学习者的面部视频资源,并将视频资源按时间顺序分为多帧图像,该场景下采集到的RGB多帧图像及TOF多帧图像为步骤S3提供了重要的数据来源。
如图3所示,本实施例中对直播课教学平台中所述的RGB多帧图像及TOF多帧图像使用CNN进行提取人脸特征图谱,其具体步骤为:
步骤S2.1:使用WTBU-Gaze数据集中标准化的人脸识别模型,对接收的图像中每个符合条件的人脸进行人脸属性计算,数据保存为A=F(Ii),其中A是从人脸图像Ii中提取的眼部参数属性和头部姿态属性A={aeye,ahead pose}。
步骤S2.2:对于接收图像中的每个合格的人脸fd,采用基于CNN模型的人脸特征点检测算法,通过带有两层卷积核的CNN定位出步骤S2.1中合格人脸fd的特征图谱和头部姿态旋转矩阵R,其中h、w、c分别表示特征图谱的长度、宽度和通道数。
步骤S2.3:针对WTBU-Gaze数据集中被选中的人脸称为fc,我们计算fd和fc中人脸图像的眼睛参数和头部姿势的差异,通过评分函数为fc中的每个人脸图像计算匹配分数:S(fc,fd)=∑m∈{eye,head pose}σm|am,d-am,c|,其中参数σm是由比较匹配结果的经验决定的。
按上述方案,所述步骤S2.1中使用的WTBU-Gaze数据集的获取步骤为:
步骤S2.1.1:招募50位志愿者,其中包含男生和女生各25人,采集这50位志愿者在直播课教学平台学习时的人脸信息,包含视线标签、距离标签和边界框等深度信息的标准化单人脸。
步骤S2.1.2:标准化单人脸用于提出的TransHGE深度神经网络模型(TransHGE深度神经网络由步骤S1和步骤S2组成)预训练,从而获取匹配视线估计任务的WTBU-Gaze数据集。
按上述方案,所述步骤S3中将预处理后的人脸特征图谱输入到视觉自注意力编码器中获取学***台中不同时刻的视线方向,其具体步骤为:
步骤S3.1:将步骤S2.2中获取的人脸特征图谱fmap重塑2D补丁其中l=h×w。
步骤S3.2:在步骤S3.1的所述2D补丁基础上,添加一个额外的标志矩阵和一个位置嵌入获得最终的特征矩阵为:
步骤S3.3:将步骤S3.2中获得的特征矩阵fp输入到视觉自注意力编码器中获取学***台中的视线方向为:
gf=MLP(Trans(f)[0,:])   (13)
如图4所示,本实施例中,获取学***台中的视线方向,具体步骤如下:
步骤S3.3.1:使用6层的标准的视觉自注意力编码器处理特征矩阵fp=[fto;fmap]+fpo并输出一个新的特征矩阵其中P2是特征向量的长度,D是每个特征向量的维数。
步骤S3.3.2:选择第一个特征向量(对应于标志矩阵的位置)作为视线标志,并使用2层的多层感知机从视线标志中回归视线gf=(α,β),其中,α表示视线的俯仰角,β表示偏航角。
步骤S3.3.3:将输出的回归视线gf通过下式转化为标准化空间中的3D视线向量进而得到当前帧图像对应学习设备屏幕的3D视线向量
步骤S3.3.4:针对所述的3D视线估计任务的损耗问题,分别从头部姿态损耗Lhead和视线估计损耗Lgaze两个部分进行计算。头部姿态损耗Lhead为:
其中参数γ1,γ2∈[0,1]用于调整损耗;zp,zb,zl分别表示人脸图像预测存在的概率、边界框、地标的位置;分别对应zp,zb,zl的地面真值。视线估计损耗Lgaze为:
其中s∈{F,T,S},参数λ1,λ2∈[0,1]用于调整损耗,ps为可训练权重。通过两部分损耗,将3D视线估计任务损耗最小化:
Loss=min{δ1Lhead2Lgaze},   (17)
其中参数δ1,δ2∈[0,1]用于调整损耗。
按上述方案,所述步骤S3.3.1中标准的单层视觉自注意力编码器模型的训练步骤如下:
步骤S3.3.1.1:单层视觉自注意力编码器是一个自注意力模块,主要由多头自注意力机制MSA,多层感知机制MLP和层规范化机制LN三个部分组成,将步骤S3.2中获取的特征矩阵fp作为输入映射到查询q,健k和值v,自注意模块的输出被计算为:
其中d0为每个特征的维度。
步骤S3.3.1.2:所述的步骤S3.3.1.1中多头自注意力机制MSA可以通过下式表示,其中fp作为当前模块的输入,为多头自注意力机制MSA的输出与fp的和。
步骤S3.3.1.3:所述的步骤S3.3.1.1中多层感知机制MLP可以通过下式表示,其中为当前自注意力编码器的输出。
如图5和图6所示,本实施例中,步骤S4根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时提取视线注视点坐标,具体步骤为:
步骤S4.1:使用现有的TOF深度成像相机通过向目标物体打光,测量光在镜头和物体之间的传输时间来测距的技术,可以标定学习者头部坐标系H和注视的屏幕坐标系G的相对位置关系
步骤S4.2:将由所述步骤S4.1获取的三维视线向量gF进行单位化,得到单位视线向量为:
步骤S4.3:定义双眼内眼角连线的中点为视线出发点,在学习者头部坐标系H中表示为p0,基于所述的步骤S4.1中标定的相对位置关系将所述的单位视线向量和视线出发点p0(x0,y0,z0)统一转换至屏幕坐标系下;
步骤S4.4:在屏幕坐标系下,已知视线方向向量和视线出发点,求解视线所在直线方程,进而由三维空间中面与线相交的空间几何关系,计算出视线注视点坐标P(x,y)。
按上述方案,所述的步骤S5中根据提取的视线注视点坐标在直播课教学平台屏幕坐标范围(直播课教学平台屏幕为24寸屏,宽53.15厘米×高29.90厘米)外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况,具体步骤为:
步骤S5.1:实时动态的记录视线注视点坐标P(x,y)在屏幕坐标范围外的次数n,每记录一次注视点,循环进行步骤S1至步骤S4;
步骤S5.2:学***台中的学习注意力检测与评估规则如下表所示:
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种直播教学平台的学习注意力检测与评估方法,包括步骤:
步骤S1:分别实时获取所述直播课教学平台中RGB摄像头以及TOF深度成像摄像头下学习者视频资源,并将视频资源按时间顺序分为多帧RGB图像和多帧TOF图像;
步骤S2:对所述多帧RGB图像及所述多帧TOF图像使用卷积神经网络CNN进行提取人脸特征图谱,每个特征图谱包含一个人脸局部区域的信息;
步骤S3:将预处理后的人脸特征图谱输入到视觉自注意力编码器中获取学***台中不同时刻的视线方向;
步骤S4:根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时提取视线注视点坐标;
步骤S5:根据提取的视线注视点坐标在直播课教学平台屏幕坐标范围外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况。
2.如权利要求1所述的一种直播教学平台的学***台中RGB摄像头以及TOF深度成像摄像头下学习者视频资源,并将视频资源按时间顺序分为多帧RGB图像和多帧TOF图像,具体步骤为:
步骤S1.1:设定所述RGB摄像头和所述TOF深度成像摄像头的分辨率及拍摄角度,确保实时接收的视频资源中包含学习者完整的人脸区域;
步骤S1.2:设定好的RGB摄像头和TOF深度成像摄像头的视频资源
Figure FDA0004031512310000011
其中L、H、W、C分别表示视频长度、高度和宽度和通道数;
步骤S1.3:将步骤S1.2中实时获取的视频资源V按时间顺序分为多帧人脸图像序列
Figure FDA0004031512310000021
i∈{1,2,…,t0},其中t0为视频的帧数、与视频资源对应的H、W、C分别表示图像高度和宽度和通道数。。
3.如权利要求1所述的一种直播教学平台的学习注意力检测与评估方法,其特征在于,所述步骤S2中,对所述多帧RGB图像及所述多帧TOF图像使用卷积神经网络CNN进行提取人脸特征图谱,其具体步骤为:
步骤S2.1:使用WTBU-Gaze数据集中标准化的人脸识别模型,对接收的图像中每个符合条件的人脸进行人脸属性计算,数据保存为=F(Ii),其中A是从人脸图像Ii中提取的眼部参数属性和头部姿态属性A={aeye,aheadpose};
步骤S2.2:对于接收图像中的每个合格的人脸fd,采用基于CNN模型的人脸特征点检测算法,通过带有两层卷积核的CNN定位出步骤S2.1中合格人脸fd的特征图谱
Figure FDA0004031512310000022
和头部姿态旋转矩阵R,其中h、w、c分别表示特征图谱的长度、宽度和通道数。
步骤S2.3:针对WTBU-Gaze数据集中被选中的人脸称为fc,我们计算fd和fc中人脸图像的眼睛参数和头部姿势的差异,通过评分函数为fc中的每个人脸图像计算匹配分数:S(fc,fd)=∑m∈{eye,headpose}σm|am,d-am,c|,其中参数σm是由比较匹配结果的经验决定的。
4.如权利要求3所述的一种直播教学平台的学习注意力检测与评估方法,其特征在于,所述步骤S2.1中使用的WTBU-Gaze数据集的获取步骤为:
步骤S2.1.1:招募2N位志愿者,其中包含男生和女生各N人,采集这2N位志愿者在直播课教学平台学习时的人脸信息,包含视线标签信息、距离标签信息和边界框信息的标准化单人脸;
步骤S2.1.2:所述标准化单人脸用于提出的TransHGE深度神经网络模型预训练,从而获取匹配视线估计任务的WTBU-Gaze数据集。
5.如权利要求1所述的一种直播教学平台的学***台中不同时刻的视线方向,其具体步骤为:
步骤S3.1:将步骤S2.2中获取的人脸特征图谱fmap重塑2D补丁
Figure FDA0004031512310000031
其中l=h×w;
步骤S3.2:在步骤S3.1的所述2D补丁
Figure FDA0004031512310000032
基础上,添加一个额外的标志矩阵
Figure FDA0004031512310000033
和一个位置嵌入
Figure FDA0004031512310000034
获得最终的特征矩阵为:fp=[fto;fmap]+fpo
步骤S3.3:将步骤S3.2中获得的特征矩阵fp输入到视觉自注意力编码器中获取学***台中的视线方向为:
gf=MLP(Trans(f)[0,:])。
6.如权利要求5所述的一种直播教学平台的学***台中的视线方向,具体步骤如下:
步骤S3.3.1:使用6层的标准的视觉自注意力编码器处理特征矩阵fp=[fto;fmap]+fpo并输出一个新的特征矩阵
Figure FDA0004031512310000035
其中P2是特征向量的长度,D是每个特征向量的维数;
步骤S3.3.2:选择第一个特征向量作为视线标志,并使用2层的多层感知机从视线标志中回归视线gf=(α,β),其中,α表示视线的俯仰角,β表示偏航角;
步骤S3.3.3:将输出的回归视线gf通过下式转化为标准化空间中的3D视线向量
Figure FDA0004031512310000036
进而得到当前帧图像对应学习设备屏幕的3D视线向量
Figure FDA0004031512310000041
Figure FDA0004031512310000042
步骤S3.3.4:针对所述的3D视线估计任务的损耗问题,分别从头部姿态损耗Lhead和视线估计损耗Lgaze两个部分进行计算,通过两部分损耗,将3D视线估计任务损耗最小化:Loss=min{δ1Lhead2Lgaze},其中参数δ12∈[0,1]用于调整损耗。
7.如权利要求6所述的一种面向直播教学平台的学习注意力检测与评估方法,其特征在于,所述步骤S3.3.1中标准的单层视觉自注意力编码器模型的训练步骤如下:
步骤S3.3.1.1:单层视觉自注意力编码器是一个自注意力模块,由多头自注意力机制MSA,多层感知机制MLP和层规范化机制LN三个部分组成,将步骤S3.2中获取的特征矩阵fp作为输入映射到查询q,健k和值v,自注意模块的输出被计算为:
Figure FDA0004031512310000043
其中d0为每个特征的维度。
步骤S3.3.1.2:所述的步骤S3.3.1.1中多头自注意力机制MSA可以通过下式表示,其中fp作为当前模块的输入,
Figure FDA0004031512310000044
为多头自注意力机制MSA的输出与fp的和为
Figure FDA0004031512310000045
步骤S3.3.1.3:所述的步骤S3.3.1.1中多层感知机制MLP可以通过下式表示,其中
Figure FDA0004031512310000046
为当前自注意力编码器的输出
Figure FDA0004031512310000047
Figure FDA0004031512310000048
8.如权利要求1所述的一种直播教学平台的学习注意力检测与评估方法,其特征在于,所述步骤S4根据获取学习者不同时刻的视线方向结果,提出了一种基于TOF深度成像摄像头的视线注视点解算方法,可实时获取视线注视点坐标,具体步骤为:
步骤S4.1:使用现有的TOF深度成像相机通过向目标物体打光,测量光在镜头和物体之间的传输时间来测距的技术,可以标定学习者头部坐标系H和注视的屏幕坐标系G的相对位置关系
Figure FDA0004031512310000051
步骤S4.2:将由所述步骤S4.1获取的三维视线向量gF进行单位化,得到单位视线向量为:
Figure FDA0004031512310000052
步骤S4.3:定义双眼内眼角连线的中点为视线出发点,在学习者头部坐标系H中表示为p0,基于所述的步骤S4.1中标定的相对位置关系
Figure FDA0004031512310000053
将所述的单位视线向量
Figure FDA0004031512310000054
和视线出发点p0(x0,y0,z0)统一转换至屏幕坐标系下;
步骤S4.4:在屏幕坐标系下,已知视线方向向量和视线出发点,求解视线所在直线方程,进而由三维空间中面与线相交的空间几何关系,计算出视线注视点坐标P(x,y)。
9.如权利要求1所述的一种面向直播教学平台的学***台屏幕坐标范围外的次数与设定的检测次数f作比较来评估学习者在线上学习时的注意力情况,具体步骤为:
步骤S5.1:实时动态的记录视线注视点坐标P(x,y)在屏幕坐标范围外的次数n,每记录一次注视点,循环进行步骤S1至步骤S4;
步骤S5.2:若步骤S5.1中屏幕外注视点次数n大于设定的检测次数f,***判定学习者注意力失焦,***进行弹窗提醒,弹窗提醒后更新注视点次数,重新开始检测;若步骤S5.1中屏幕外注视点次数n一直小于设定的检测次数f,***正常运行直至课程结束。
CN202211743625.8A 2022-12-30 2022-12-30 一种直播教学平台的学习注意力检测与评估方法 Pending CN116030519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211743625.8A CN116030519A (zh) 2022-12-30 2022-12-30 一种直播教学平台的学习注意力检测与评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211743625.8A CN116030519A (zh) 2022-12-30 2022-12-30 一种直播教学平台的学习注意力检测与评估方法

Publications (1)

Publication Number Publication Date
CN116030519A true CN116030519A (zh) 2023-04-28

Family

ID=86078888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211743625.8A Pending CN116030519A (zh) 2022-12-30 2022-12-30 一种直播教学平台的学习注意力检测与评估方法

Country Status (1)

Country Link
CN (1) CN116030519A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453384A (zh) * 2023-06-19 2023-07-18 江西德瑞光电技术有限责任公司 基于tof技术的沉浸式智能学习***及控制方法
CN117636341A (zh) * 2024-01-26 2024-03-01 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453384A (zh) * 2023-06-19 2023-07-18 江西德瑞光电技术有限责任公司 基于tof技术的沉浸式智能学习***及控制方法
CN117636341A (zh) * 2024-01-26 2024-03-01 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法
CN117636341B (zh) * 2024-01-26 2024-04-26 中国海洋大学 一种多帧海藻显微图像增强识别方法及其模型搭建方法

Similar Documents

Publication Publication Date Title
CN111709409B (zh) 人脸活体检测方法、装置、设备及介质
CN107423730B (zh) 一种基于语义折叠的人体步态行为主动检测识别***和方法
CN105913487B (zh) 一种基于人眼图像中虹膜轮廓分析匹配的视线方向计算方法
US9545217B2 (en) Movement correction in MRI using a camera
CN116030519A (zh) 一种直播教学平台的学习注意力检测与评估方法
CN109584290A (zh) 一种基于卷积神经网络的立体图像匹配方法
CN109782902A (zh) 一种操作提示方法及眼镜
CN106650619A (zh) 一种人体动作识别方法
CN113850865A (zh) 一种基于双目视觉的人体姿态定位方法、***和存储介质
CN112016497A (zh) 基于人工智能的单视角太极拳动作分析及考核***
CN111401113A (zh) 一种基于人体姿态估计的行人重识别方法
CN111524183A (zh) 一种基于透视投影变换的目标行列定位方法
JP2021060868A (ja) 情報処理装置、情報処理方法、およびプログラム
CN110796699B (zh) 多目相机***的最优视角选择方法和三维人体骨骼检测方法
CN104063689B (zh) 一种基于双目立体视觉的人脸图像识别方法
CN109886780B (zh) 基于眼球跟踪的商品目标检测方法及装置
CN113111743A (zh) 人员距离探测方法及装置
CN110738123B (zh) 识别密集陈列商品的方法及其装置
CN113012201B (zh) 一种基于深度学***台人员跟踪方法
CN112099330B (zh) 基于外部相机和穿戴式显控设备的全息人体重建方法
Shi et al. Design of optical sensors based on computer vision in basketball visual simulation system
CN114972335A (zh) 一种用于工业检测的图像分类方法、装置及计算机设备
CN112446355A (zh) 一种公共场所行人识别方法及人流统计***
Velesaca et al. Deep learning-based human height estimation from a stereo vision system
CN114863237B (zh) 一种用于游泳姿态识别的方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination