CN116071575A - 一种基于多模态数据融合的学生课堂异常行为检测方法及检测*** - Google Patents

一种基于多模态数据融合的学生课堂异常行为检测方法及检测*** Download PDF

Info

Publication number
CN116071575A
CN116071575A CN202211131074.XA CN202211131074A CN116071575A CN 116071575 A CN116071575 A CN 116071575A CN 202211131074 A CN202211131074 A CN 202211131074A CN 116071575 A CN116071575 A CN 116071575A
Authority
CN
China
Prior art keywords
classroom
expression
abnormal
limb
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211131074.XA
Other languages
English (en)
Inventor
郭胜男
吴永和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xiyu Information Technology Co ltd
East China Normal University
Original Assignee
Shanghai Xiyu Information Technology Co ltd
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xiyu Information Technology Co ltd, East China Normal University filed Critical Shanghai Xiyu Information Technology Co ltd
Priority to CN202211131074.XA priority Critical patent/CN116071575A/zh
Publication of CN116071575A publication Critical patent/CN116071575A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多模态数据融合的学生课堂异常行为检测方法,该方法包括对课堂视频中的学生表情数据和肢体数据进行预处理和兴趣区域选择,使用LBP直方图作为课堂学生表情特征描述,采用单类支持向量机(One‑Class SVM)作为分类器,进行表情异常检测;使用光流直方图方法(HOFO)计算课堂视频流中的肢体特征向量,使用单支持向量机(One‑Class SVM)作为分类器进行肢体动作异常识别,最后进行逻辑决策融合,得到课堂异常行为最终检测结果。本发明采用了一种新的多模态数据融合的方法,可综合多个模态的数据信息,使得学生课堂行为检测结果更加准确。本发明还公开了一种实现上述方法的检测***。

Description

一种基于多模态数据融合的学生课堂异常行为检测方法及检测***
技术领域
本发明属于教育信息化技术领域,尤其涉及一种基于多模态数据融合的学生课堂异常行为检测方法及检测***。
背景技术
作为众灵之长,人类可以利用视觉***、听觉***、嗅觉***和触觉***等感官***来接受来自外界环境的信息,通过多模态信息合成,在大脑内形成现实世界的“镜像”。生物信息处理***可以抑制环境噪声,从每个感觉***中提取关键信息,解决信息冲突进行决策。智能机器亦可以通过多种信息通道从外部环境中接收多模态信息,例如,视频信息、音频信息等,但人工智能与人类在多模态数据处理能力上还有很大差距,多模态数据融合中仍存在诸多问题亟需解决,例如,抑制不同模态数据中的不同噪声,多模态数据之间的信息冲突问题以及如何融合多模态数据以提高最终识别或者决策的精度。可见,融合多模态数据有助于解决歧义,进而提高智能决策的精度。
在教育领域,多模态学习分析(Multimodal Learning Analytics,MMLA)侧重于收集和分析从学习过程的不同方面获得各种痕迹,以更好的理解和改进教学过程。多模态数据融合的方法根据信息融合的层次大致可以分为三类,包括像素级融合、特征级融合、决策级融合以及各种方法的结合方法。多模态数据的每种模态都或多或少的包含有助于最终分类或识别任务的信息,为了更有效地融合多模态数据,需要洞察信息融合层次,针对不同情况应用不同的信息融合策略。
教育领域中,课堂是教育实践的主要场所,科学有效的课堂观察可以帮助学生提高学生学习效率,助力教师改进教学方法与策略。学生课堂行为是衡量课堂参与的重要指标,而肢体动作和面部表情能够传达总体学习情感信息的70%,是衡量学生课堂参与的不可缺少的非语言行为。纵观现阶段教育领域中视频识别技术支持的学生课堂行为检测研究,发现多数研究聚焦于单模态数据,例如,何秀玲等人[1]提出基于人体骨架和深度学习的学生课堂行为识别方法,即通过图像提取学生的人体骨架单模态信息,并结合CNN-10来识别学生的课堂行为。类似的,徐家臻等人[2]以监控设备拍摄的实际课堂教学视频为数据源,提出学生单模态人体骨架信息,采用Boosting算法和卷积神经网络进行自动化识别。Vermum等人[3]将肢体动作识别技术应用于远程教学***,有助于反馈远程学习者的学习状态。贾鹂宇等人[4]基于课堂视频数据,对课堂学生数量、学生位置、学生人脸关键点进行学生状态分析,通过统计计算课堂活跃度。总之,课堂场景中的学生状态检测仍然面临如下挑战:其一,尚缺乏对学生课堂状态异常事件的检测;其二,基于视频数据的学生课堂状态检测多聚焦于单一模态数据,未充分融合多模态信息;其三,方法上,特征描述符多依赖于手工制作的特征或以无监督的方式操作堆叠去噪自动编码器的方法。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供了一种基于多模态数据融合的学生课堂异常状态检测方法及检测***。该方法针对课堂视频流中包含的两种不同模态的数据,分别采用局部二值模式(LBP)和光流直方图(HOFO)方法形成表情特征向量和肢体特征向量,对特征向量降维后,分别输入单类支持向量机(One-class SVM),得到不同模态的异常检测结果,最后经过决策融合方法得到最后的融合异常检测结果,从而达到融合多模态信息提升检测正确率的效果。所述异常状态包括表情异常和肢体异常;其中,表情异常包括哭泣、厌恶、目光呆滞、鬼表情等;肢体异常包括吃东西、玩手机、用手推、拳头打人、站立、挥手、打哈欠等。
本发明提供了一种基于多模态数据融合的学生课堂异常行为检测方法,所述方法包括以下步骤:
步骤一,通过课堂摄像机捕获学生课堂学习的视频流数据;
步骤二,对步骤一中所述的课堂学习视频流数据进行预处理;
所述预处理包括在原视频图像分辨率调整至256*1169,保证图像清晰,并进行图像归一化,将不同的视频图像调整为像素值一样的大小,在上述操作基础上进行图像灰度化和噪声滤波;
其中,摄像头捕获的彩色图像矩阵所需存储空间大,不适合用于图像处理,灰度化处理是指用一个数值取代彩色图像R、G、B三个分量值,以表示图像像素点颜色深度,范围取值为[0,255],本发明采用加权平均法;即将彩色图像中像素的R分量、G分量和B分量3个数值的加权平均值作为灰度图的灰度值,像素在R、G、B分量上各自的权重值根据实际情况进行选取。
在捕获的视频流的图像数据中时不时会存在噪声,所述噪声是指图像数据中的不必要的或者多余的信息,是干扰图像质量的重要因素,采用高斯滤波方法去噪。
步骤三,将步骤二预处理后的图像进行二值化,图像二值化是将图像转化为非黑即白两种颜色的表示模式,像素点的颜色深度为0或者255,采用最大类间差法(Ostu法)选择视频中的兴趣区域,方便集中提取学生表情和肢体动作特征,具体步骤如下:
将课堂视频图像中的像素划分为背景像素和前景像素,背景像素是稳定的图像背景模型中包含的像素,前景像素相对于背景像素来说,大致包含了前景运动目标。具体地,首先通过ViBe算法建立背景模型,然后根据当前帧与背景模型差异得到差分图像,并为二值化设置特定阈值T,阈值T以图像像素均值为初始值,根据具体训练过程进行调整,数学表达式如下,如果环境发生变化,则需不断更新背景模型以适应背景环境的变化,形态学处理二值化图像,提取边缘以获得前景运动目标。
Figure BDA0003850292090000031
其中,fk(x,y)表示第K帧图像,Bk(x,y)是当前建好的背景模型,T为用于图像分割的阈值。
步骤四,将上述处理完成的课堂视频流数据分别采用LBP特征直方图和光流直方图法(HOFO)分别提取学生课堂中的表情特征向量和肢体特征向量。
局部二值模式(LBP)具有强大的辨别力和较小时间计算复杂度,适用于外观特征提取,通过将图像中心像素P的灰度值与相邻像素的灰度值进行比较来计算像素值,见图2,公式表达如下:
L≈l(s(n0-nc),...,s(n7-nc))
其中,L表示通过计算得到的数值,l(x)表示单个s(x)计算结果,n0表示窗口中除中心像素之外的像素值,nc表示中心像素值,
Figure BDA0003850292090000032
图2展示了LBP运算符计算过程,依次读取8位二进制数作为像素的特征值,根据如下公式将二进制数转换为十进制数。
Figure BDA0003850292090000033
其中,(xc,yc)中心像素的位置,ni表示窗口中除中心像素之外的像素值,从窗口左上角开始依次取值为0,1,2…7。
LBP特征向量的计算步骤如下:首先检测学生面部表情窗口,将窗口划分为大小为20×15的小胞体cell,计算每一个cell中每个像素的LBP值,然后统计每个cell的直方图并做归一化处理,最后,统计所有cell的直方图连接成LBP特征向量。
步骤五,学生的肢体动作伴随着位置和方向的变化,而光流是由图像的亮度变化组成的,可用于表达目标点的运动信息,本发明使用光流直方图(HOFO)统计像素的运动信息,为了降低计算量,在此之前,使用ViBe算法提取前景像素,并确定前景兴趣区域,所述前景兴趣区域涵盖学生的活动区域。
光流直方图(HOFO)中描述符的计算是以块(block)为单位的,包括bw×bh个胞体(cell),每个胞体中包含cw×ch个像素,w和h分别表示长和宽(包括块的长和宽,胞体的长和宽),在每个cell中计算所有像素的一维直方图。本发明采用8个箱子(bin)来统计水平和垂直的光流方向信息,就是将光流方向360°分成8个方向块。把胞体内的每个像素用光流方向映射到固定的角度范围,使用统计直方图进行统计,这样就可以得到这个胞体的光流直方图。例如,如果一个像素的光流方向的映射角度是0°~45°,直方图的第一个bin就加1。然后把几个胞体组合成块,一个块内的所有胞体的特征描述符串联起来便得到该块的HOFO特征描述符,如图3。
例如,如图4,第i帧的特征向量描述符Fi的计算过程。根据投射到相应区间的箱子(bin)计算光流向量和水平轴之间的角度。根据光流方向将胞体中的每个像素映射到固定的角度范围,从而可以产生胞体的梯度直方图,并且将直方图用于统计分析。例如,如果像素的光流方向的映射角度属于(0°-45°)),则直方图的第一个bin(图5右侧)加1,然后,胞体连成一个块,并且连接每一个块中所有胞体的特征描述符以获得整个块的HOFO特征描述符。
在执行步骤六之前,要使用学生课堂正常行为数据训练分类器,单分类支持向量机(One-Class SVM)是SVM的一种特殊变体,只需要使用一类样本(例如正常行为样本数据集)进行训练。
单分类支持向量机(One-Class SVM)工作原理如下:OCSVM旨在建立一个决策边界,该边界在正常数据集和原点之间具有最大距离。通过正常样本数据集训练出最佳学***面,实现训练数据与原点之间距离的最大化。假设训练数据集
Figure BDA0003850292090000041
表示正常数据集,为了获得边界,优化模型如下所示:
Figure BDA0003850292090000042
其中,w和ρ是用于确定决策边界的参数,他们能够在优化过程中定位变量。xi表示训练样本集,N是训练数据总数,ν为权衡参数,ξi={ξ1,ξ2,...,ξn}是xi的松弛变量,计算样本集合与坐标原点的距离。Φ:
Figure BDA0003850292090000057
表示从数据输入空间χ到特征空间
Figure BDA0003850292090000056
的非线性映射,其可以由一些简单核函数变换实现,OCSVM模型的学习在特征空间进行。式(2)是核函数的一般形式:
K(x,z)=(Φ(x)·Φ(z))   (2)
其中,K(x,z)和Φ(x)分别表示核函数和映射函数。Φ(x)·Φ(z)是Φ(x)和Φ(z)内积。x,z∈χ,表示数据输入空间的样本。
比如,高斯核函数如下式:
Figure BDA0003850292090000051
其中,z表示核函数中心,||x-z||2表示向量x和向量z的欧氏距离,随着两个向量的距离增大,高斯核函数值单调递减,σ控制高斯核函数的作用范围。
公式(1)的解可通过拉格朗日乘子法Lagrange Multiplier求解得出,如式(4)所示
Figure BDA0003850292090000052
其中,αi是拉格朗日算子,令α=[α12,...,αN]T。w(比如,光流正向量)由
Figure BDA0003850292090000053
定义。
Figure BDA0003850292090000054
表示可以由任意xj计算的边界参数,然后通过支持向量扩展确定最佳边界,决策函数如下式所示:
Figure BDA0003850292090000055
其中,αi表示拉格朗日算子,f(x)表示决策函数,Σ表示求和函数,xi表示非零的训练样本,sign()表示符号函数。
步骤六,基于步骤四的LBP特征向量和步骤五的光流直方图(HOFO),分别用于训练表情异常分类器和肢体动作异常分类器,然后输入预处理后的课堂学习测试数据集,分别得到表情和肢体动作是否异常的分类结果。本发明中,哭泣、厌恶、目光呆滞、鬼表情等均属于异常表情;吃东西、玩手机、用手推、拳头打人、站立、挥手、打哈欠等动作均属于异常课堂异常行为。
步骤七,将表情和肢体的两模态分类结果进行逻辑融合,得到最终课堂异常行为检测结果。在这一步骤之前,需获得学生表情和肢体动作的检测结果,Re和Rl分别表示这两者的检测结果,R表示最终检测结果。
Figure BDA0003850292090000061
Figure BDA0003850292090000062
R=Re∩Rl
其中R代表整体检测结果。当R=1时,学生行为是正常的,即Re=1,Rl=1。当表情检测和肢体动作检测中的任何一个出现异常时,总体结果是异常的,即R=0。
本发明还提供了一种实现上述方法的检测***,所述***包括:课堂学习行为数据库模块、表情异常检测模块、肢体动作异常检测模块、决策融合模块;
所述课堂学习行为数据库模块用于收集学生课堂视频数据,确定学生课堂学习表情数据集和肢体动作数据集;针对训练数据集进行预处理,借用OpenCV库中方法选定视频图像中的感兴趣区域,并将处理好的数据集保存在课堂学习视频数据库中,并打上正常或者异常标签;
所述表情异常检测模块通过将待检测的表情输入到训练好的模型中获得表情是否异常的结果;
所述肢体动作异常检测模块通过将待检测的肢体动作输入到训练好的模型中获得肢体动作是否异常的结果;
所述决策融合模块采用决策级融合策略将表情异常检测结果和肢体动作异常检测结果进行逻辑融合,判断最终行为异常检测结果。
本发明的有益效果包括:本发明设计了一个基于半监督方法的学生课堂异常行为检测方法,能***性的融合表情和肢体动作两种模态信息,能够突出各模态的独特特征,信息更加充分,具有很高的容错性,提高检测结果的准确性。此外,本发明提出采用半监督学习方法One-Class SVM作为分类器,此方法对样本数量要求少,具有较高的时效性。
附图说明
图1为本发明基于多模态数据融合的学生课堂异常行为检测方法图。
图2为本发明提供的LBP算子计算图。
图3为本发明提供的光流直方图(HOFO)计算步骤。
图4为本发明提供的第i帧HOFO计算过程。
图5为本发明HOFO提取可视化过程。
图6为本发明实施参考的真实课堂的学生异常行为实时检测方法的流程图。
图7为本发明实施的功能模块图。
具体实施方式
结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明公开了一种基于多模态数据融合的学生课堂异常行为检测方法,该方法包括对课堂视频中的学生表情数据和肢体数据进行预处理和兴趣区域选择(Regionofinterest),使用LBP直方图作为课堂学生表情特征描述,采用单类支持向量机(One-Class SVM)作为分类器,进行表情异常检测;使用光流直方图方法(HOFO)计算课堂视频流中的肢体特征向量,使用单支持向量机(One-Class SVM)作为分类器进行肢体动作异常识别,最后进行逻辑决策融合,得到课堂异常行为最终检测结果。本发明采用了一种新的多模态数据融合的方法,可综合多个模态的数据信息,使得学生课堂行为检测结果更加准确。本发明还公开了一种实现上述方法的检测***。
具体地,
本发明提出了一种基于多模态数据融合的学生课堂异常行为检测方法,其步骤为:
步骤1:利用摄像机收集学生课堂学习数据,该数据集分为训练数据集和测试数据集,其中训练数据集包括表情训练数据集和肢体动作训练数据集,以建立检测数据库;
步骤2:将表情训练数据集和肢体动作数据集分别进行预处理,包括图像分辨率调整、图像降噪、图像大小归一化、图像灰度化等;
步骤3:确定包含待检测目标的兴趣区域,然后分别进行表情和肢体动作的特征提取和分类器训练;
步骤4:将测试集分别输入两个训练好的分类器,分别得到表情异常检测结果和肢体动作异常检测结果;
步骤5:将检测结果进行逻辑融合,得到最终课堂行为异常检测。
实施例:
本实施例提供了一种用于真实课堂的学生异常行为实时检测方法,流程图见图6,功能模块图见图7。
(1)建立学生课堂学习视频数据库,图7中建立学生课堂学习视频数据库的具体内容如下:
建立学生课堂学习视频数据库在课堂行为数据库模块中进行,收集学生课堂视频数据,确定学生课堂学习表情数据集和肢体动作数据集,分别为训练表情OCSVM和肢体动作OCSVM做准备;针对训练数据集进行预处理,包括视频清晰度、分辨率、视频大小归一化和视频降噪等;借用OpenCV库中方法选定视频图像中的感兴趣区域,通过计算感兴趣区域的相对位置和标记像素,输入待选择矩形框的宽度和长度,通过输入矩形函数提取兴趣区域,兴趣区域外的所有像素值均标记为0。经过以上步骤,将处理好的数据集保存在课堂学习视频数据库中,并打上正常或者异常标签。
(2)表情异常检测,图7中表情异常检测的具体内容如下:
表情异常检测通过表情异常检测模块进行,分成两个阶段,表情分类器线下训练阶段和在线测试阶段,其中学生课堂表情数据集包括正常表情训练集和测试集。训练阶段,选择学生课堂正常表情数据集,并对其进行视频清晰度、分辨率、视频大小归一化和降噪的预处理以保障训练数据集的视频质量;采用LBP直方图提取表情特征形成特征向量,以此作为输入值进行OCSVM分类器训练。测试阶段,测试数据集是由学生课堂学习的视频组成,经过预处理后提取表情特征,输入训练好的OCSVM分类器中进行分类,异常表情被OCSVM作为异常点检测出来。
(3)肢体动作异常检测,图7中肢体动作异常检测的具体内容如下:
肢体动作异常检测通过肢体动作异常检测模块进行,分成两个阶段,肢体动作分类器线下训练阶段和在线测试阶段,其中学生课堂肢体动作数据集包括正常肢体动作训练集和测试集。训练阶段,选择学生课堂正常肢体动作数据集,并对其进行视频清晰度、分辨率、视频大小归一化和降噪的预处理以保障训练数据集的视频质量;采用光流直方图提取肢体动作特征形成特征向量,以此作为输入值进行OCSVM分类器训练。测试阶段,测试数据集是由学生课堂学习的视频组成,经过预处理后提取肢体动作特征,输入训练好的OCSVM分类器中进行分类,异常肢体动作被OCSVM作为异常点检测出来。
(4)决策融合,图7中决策融合的具体内容如下:
决策融合通过决策融合模块进行,采用决策级融合策略将表情异常检测结果和肢体动作异常检测结果进行逻辑融合,只有逻辑融合的结果为1时,学生的行为才是正常的;如果逻辑融合的结果为0,则学生的表情和肢体动作至少有一种出现异常。最后实时输出学生课堂异常检测结果,并给予教师提示。
参考文献
[1]何秀玲,杨凡,陈增照,方静,李洋洋.基于人体骨架和深度学习的学生课堂行为识别[J].现代教育技术,2020,30(11):105-112.
[2]徐家臻,邓伟,魏艳涛.基于人体骨架信息提取的学生课堂行为自动识别[J].现代教育技术,2020,30(05):108-113.
[3]Vermun K,Senapaty M,SankhlaA,et al.Gesture-based affective andcognitive states recognition using kinect for effective feedback duringelearning[A].2013IEEE Fifth International Conference on Technology forEducation(t4e 2013)[C].Piscataway:IEEE,2013:107-110.
[4]贾鹂宇,张朝晖,赵小燕,闫晓炜.基于人工智能视频处理的课堂学生状态分析[J].现代教育技术,2019,29(12):82-88.
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (10)

1.一种基于多模态数据融合的学生课堂异常行为检测方法,其特征在于,所述方法包括:
步骤一、通过课堂摄像机获取学生在课堂学习过程中的视频数据;
步骤二、对步骤一中获得的课堂视频数据进行预处理;
步骤三、将步骤二预处理后的图像进行二值化,选择视频流的每一帧图像中的兴趣区域,集中提取学生行为特征;
步骤四、将上述处理完成的课堂视频流数据分别采用局部二值法LBP和光流直方图法HOFO分别提取学生课堂中的表情特征向量和肢体特征向量;
步骤五、将获得的学生课堂表情特征向量和肢体特征向量分别输入单分类支持向量机OCSVM分类器中进行分类,得到课堂学生行为是否异常的分类结果;
步骤六、将表情和肢体的两模态分类结果进行逻辑融合,得到最终课堂异常行为检测结果。
2.根据权利要求1所述的方法,其特征在于,步骤二中,所述预处理包括图像灰度化、视频图像分辨率调整、视频图像大小归一化、视频噪音去除;
所述图像灰度化是指用一个数值取代彩色图像R、G、B三个分量值,以表示图像像素点颜色深度,范围取值为[0,255];
所述视频图像分辨率调整至256*1169,保证图像清晰;
所述视频图像大小归一化是指将不同的视频图像调整为像素值一样的大小;
所述视频图像噪音去除是指去除图像数据中的不必要的或者多余的信息。
3.根据权利要求1所述的方法,其特征在于,步骤三中,所述二值化是指将图像转化为非黑即白两种颜色的表示模式,像素点的颜色深度为0或者255;视频中的感兴趣区域采用最大类间差法选择。
4.根据权利要求1所述的方法,其特征在于,步骤四中,所述局部二值法LBP通过将图像中心像素P的灰度值与相邻像素的灰度值进行比较来计算像素值,公式表达如下:
L≈l(s(n0-nc),...,s(n7-nc)),
其中,L表示通过计算得到的数值,l(x)表示单个s(x)计算结果,n0表示窗口中除中心像素之外的像素值,nc表示中心像素值,
Figure FDA0003850292080000011
5.根据权利要求1所述的方法,其特征在于,步骤四中,光流直方图法HOFO中描述符的计算是以块block为单位的,包括bw×bh个胞体cell,每个cell中包含cw×ch个像素,把胞体内的每个像素用光流方向映射到固定的角度范围,使用统计直方图进行统计,获得整个胞体的光流直方图;然后把几个胞体组合成块,一个块内的所有胞体的特征描述符串联起来便得到该块的HOFO特征描述符。
6.根据权利要求1所述的方法,其特征在于,步骤五中,所述单分类支持向量机是通用支持向量机的一种特殊变体,只需要使用正常或者异常中的一类样本进行训练;分别设置并训练对应于表情特征向量和肢体特征向量的表情异常检测器和肢体异常检测器,即表情异常分类支持向量机和肢体异常分类支持向量机;表情异常包括哭泣、厌恶、目光呆滞、鬼表情;肢体异常包括吃东西、玩手机、用手推、拳头打人、站立、挥手、打哈欠。
7.根据权利要求6所述的方法,其特征在于,单分类支持向量机OCSVM旨在建立一个决策边界,该边界在正常数据集和原点之间具有最大距离;通过正常样本数据集训练出最佳学***面,实现训练数据与原点之间距离的最大化。
8.根据权利要求7所述的方法,其特征在于,假设训练数据集
Figure FDA0003850292080000021
表示正常数据集,为了获得边界,优化模型如下所示:
Figure FDA0003850292080000022
其中,w和ρ是用于确定决策边界的参数,能够在优化过程中定位变量;xi表示训练样本集,N是训练数据总数,ν为权衡参数,ξi={ξ1,ξ2,...,ξn}是xi的松弛变量,计算样本集合与坐标原点的距离;
Figure FDA0003850292080000023
表示从数据输入空间χ到特征空间
Figure FDA0003850292080000024
的非线性映射,由核函数变换实现,OCSVM模型的学习在特征空间进行;所述核函数的形式如下:
K(x,z)=(Φ(x)·Φ(z)),
其中,K(x,z)和Φ(x)分别表示核函数和映射函数。Φ(x)·Φ(z)是Φ(x)和Φ(z)内积;x,z∈χ,表示数据输入空间的样本;
优化模型的解通过拉格朗日乘子法Lagrange Multiplier求解得出,
Figure FDA0003850292080000025
其中,αi是拉格朗日算子,令α=[α12,...,αN]T;w由
Figure FDA0003850292080000026
定义;
Figure FDA0003850292080000027
表示能够由任意xj计算的边界参数,然后通过支持向量扩展确定最佳边界,决策函数如下式:
Figure FDA0003850292080000031
其中,αi表示拉格朗日算子,xi表示非零的训练样本,f(x)表示决策函数。
9.根据权利要求1所述的方法,其特征在于,步骤六中,将表情异常行为检测结果和肢体异常行为检测结果融合,输出最终课堂异常行为检测结果;Re和Rl分别表示表情异常行为检测结果和肢体异常检测结果,R表示最终检测结果,
Figure FDA0003850292080000032
Figure FDA0003850292080000033
R=Re∩Rl
其中,R代表整体检测结果;当R=1时,学生行为是正常的,即Re=1,Rl=1;当表情检测和肢体动作检测中的任何一个出现异常时,总体结果是异常的,即R=0。
10.一种实现如权利要求1-9之任一项所述方法的检测***,其特征在于,所述***包括:课堂学习行为数据库模块、表情异常检测模块、肢体动作异常检测模块、决策融合模块;
所述课堂学习行为数据库模块用于收集学生课堂视频数据,确定学生课堂学习表情数据集和肢体动作数据集;针对训练数据集进行预处理,借用OpenCV库中方法选定视频图像中的感兴趣区域,并将处理好的数据集保存在课堂学习视频数据库中,并打上正常或者异常标签;
所述表情异常检测模块通过将待检测的表情输入到训练好的模型中获得表情是否异常的结果;
所述肢体动作异常检测模块通过将待检测的肢体动作输入到训练好的模型中获得肢体动作是否异常的结果;
所述决策融合模块采用决策级融合策略将表情异常检测结果和肢体动作异常检测结果进行逻辑融合,判断最终行为异常检测结果。
CN202211131074.XA 2022-09-16 2022-09-16 一种基于多模态数据融合的学生课堂异常行为检测方法及检测*** Pending CN116071575A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131074.XA CN116071575A (zh) 2022-09-16 2022-09-16 一种基于多模态数据融合的学生课堂异常行为检测方法及检测***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131074.XA CN116071575A (zh) 2022-09-16 2022-09-16 一种基于多模态数据融合的学生课堂异常行为检测方法及检测***

Publications (1)

Publication Number Publication Date
CN116071575A true CN116071575A (zh) 2023-05-05

Family

ID=86172198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131074.XA Pending CN116071575A (zh) 2022-09-16 2022-09-16 一种基于多模态数据融合的学生课堂异常行为检测方法及检测***

Country Status (1)

Country Link
CN (1) CN116071575A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437208A (zh) * 2023-11-10 2024-01-23 北京交通大学 使用多传感器融合的轨道异常检测方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117437208A (zh) * 2023-11-10 2024-01-23 北京交通大学 使用多传感器融合的轨道异常检测方法及***

Similar Documents

Publication Publication Date Title
CN106960202B (zh) 一种基于可见光与红外图像融合的笑脸识别方法
CN110889672B (zh) 一种基于深度学习的学生打卡及上课状态的检测***
CN109389074B (zh) 一种基于人脸特征点提取的表情识别方法
Bascón et al. An optimization on pictogram identification for the road-sign recognition task using SVMs
CN111563452B (zh) 一种基于实例分割的多人体姿态检测及状态判别方法
CN107767405A (zh) 一种融合卷积神经网络的核相关滤波目标跟踪方法
CN113793336B (zh) 一种检测血细胞的方法、装置、设备及可读存储介质
CN101482923A (zh) 视频监控中人体目标的检测与性别识别方法
Reshna et al. Spotting and recognition of hand gesture for Indian sign language recognition system with skin segmentation and SVM
CN111158491A (zh) 一种应用于车载hud的手势识别人机交互方法
CN111158457A (zh) 一种基于手势识别的车载hud人机交互***
CN112528777A (zh) 一种用于课堂环境下的学生面部表情识别方法及***
Roa’a et al. Automated cheating detection based on video surveillance in the examination classes
Elhassan et al. DFT-MF: Enhanced deepfake detection using mouth movement and transfer learning
Berrú-Novoa et al. Peruvian sign language recognition using low resolution cameras
Sharma et al. Deep learning based student emotion recognition from facial expressions in classrooms
CN116543261A (zh) 用于图像识别的模型训练方法、图像识别方法设备及介质
CN116071575A (zh) 一种基于多模态数据融合的学生课堂异常行为检测方法及检测***
Rohini et al. Attendance monitoring system design based on face segmentation and recognition
Cowie et al. An intelligent system for facial emotion recognition
CN117437691A (zh) 一种基于轻量化网络的实时多人异常行为识别方法及***
CN111898454A (zh) 权重二值化神经网络与迁移学习人眼状态检测方法及设备
Silva et al. POEM-based facial expression recognition, a new approach
Shanthi et al. Gender and age detection using deep convolutional neural networks
Bansal et al. Detection and Recognition of Hand Gestures for Indian Sign Language Recognition System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination