CN111738210B - 基于音视频的学生心理状态分析方法、装置、终端及介质 - Google Patents

基于音视频的学生心理状态分析方法、装置、终端及介质 Download PDF

Info

Publication number
CN111738210B
CN111738210B CN202010695698.9A CN202010695698A CN111738210B CN 111738210 B CN111738210 B CN 111738210B CN 202010695698 A CN202010695698 A CN 202010695698A CN 111738210 B CN111738210 B CN 111738210B
Authority
CN
China
Prior art keywords
student
video
emotional expression
audio
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010695698.9A
Other languages
English (en)
Other versions
CN111738210A (zh
Inventor
曾起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An International Smart City Technology Co Ltd
Original Assignee
Ping An International Smart City Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An International Smart City Technology Co Ltd filed Critical Ping An International Smart City Technology Co Ltd
Priority to CN202010695698.9A priority Critical patent/CN111738210B/zh
Publication of CN111738210A publication Critical patent/CN111738210A/zh
Application granted granted Critical
Publication of CN111738210B publication Critical patent/CN111738210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Psychiatry (AREA)
  • Human Computer Interaction (AREA)
  • Social Psychology (AREA)
  • Molecular Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Developmental Disabilities (AREA)
  • Educational Technology (AREA)
  • Psychology (AREA)
  • Pathology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明涉及人工智能技术领域,提供一种基于音视频的学生心理状态分析方法、装置、终端及介质,包括:基于开源情感表情数据集和私有情感表情数据集进行迁移学习训练学生情感表情识别模型;对学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频;通过学生情感表情识别模型识别学生目标视频得到激活度和愉悦度;计算学生目标视频得到活跃度;根据学生的音频计算负面情绪;根据激活度、愉悦度、活跃度及负面情绪分析学生的心理状态。本发明可应用于智慧教育中,能够多模态全面分析学生的心理状态,准确率高。此外,本发明还涉及区块链技术领域,所述心理状态可存储于区块链中。

Description

基于音视频的学生心理状态分析方法、装置、终端及介质
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于音视频的学生心理状态分析方法、装置、终端及介质。
背景技术
随着社会的信息化程度不断提高,学校也越来越重视学生的心理健康问题。在不同的成长环境,学生可能因为精神上的或者生理上的变化产生心理过敏反应,并由此诱发心理疾病。如果不及时发现与治疗,将会导致更严重的后果。
现有技术中,虽有通过采集每一位学生的视频来分析学生的表情变化,并基于表情变化来识别学生的心理状态,然而该技术存在以下缺点:对每位学生采集视频,费时费力;不同学生的性格不同,有些学生即使已经有心理疾病,但很难从表情上表示出来,导致分析出来的心理状态的准确率较差,不能真实的代表学生的心理状态,或者根本无法进行表情分析。
因此,有必要提出一种多模态的学生心理状态分析方法。
发明内容
鉴于以上内容,有必要提出一种基于音视频的学生心理状态分析方法、装置、终端及介质,能够多模态全面分析学生的心理状态,准确率高。
本发明的第一方面提供一种基于音视频的学生心理状态分析方法,所述基于音视频的学生心理状态分析方法包括:
获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型;
接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频;
输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度;
根据所述每位学生的学生目标视频计算每位学生的活跃度;
接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪;
根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
根据本发明的一个可选的实施例,所述基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型包括:
利用迁移主成分分析算法对所述开源情感表情数据集进行降维处理得到目标开源情感表情数据集及对所述私有情感表情数据集进行降维处理得到目标私有情感表情数据集;
基于所述目标开源情感表情数据集训练CNN神经网络得到基础情感表情识别模型;
根据Arousal-Valence连续情感纬度模型对所述目标私有情感表情数据集进行标注,并基于标注后的目标私有情感表情数据集迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
根据本发明的一个可选的实施例,所述对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频包括:
采用视频动态畸变校正算法对所述学生全景视频进行畸变校正得到标准学生全景视频;
对所述标准学生全景视频进行分帧处理得到多张学生全景图像;
根据学生座位位置ID背景图像对每张学生全景图像进行网络映射得到学生ID全景图像;
分割出每张学生ID全景图像中的每一个ID对应的目标学生图像;
按照时间顺序将同一个ID对应的所有目标学生图像拼接为学生目标视频。
根据本发明的一个可选的实施例,所述根据所述每位学生的学生目标视频计算每位学生的活跃度包括:
获取所述每位学生的学生目标视频中的拍摄时间;
根据上下课时间表确定所述拍摄时间中的下课时间;
从所述学生目标视频中提取出所述下课时间对应的学生视频段;
检测所述学生视频段中学生出现的时长并计算总时长,作为第一活跃度;
调用动作类型识别模型识别所述每位学生的学生目标视频中的多个动作类型,并根据预设动作类型与活跃度之间的映射关系确定每个动作类型对应的活跃度;
计算所有动作类型对应的活跃度的平均活跃度,作为第二活跃度;
根据所述第一活跃度及所述第二活跃度计算每位学生的活跃度。
根据本发明的一个可选的实施例,所述根据所述每位学生的音频计算每位学生的负面情绪包括:
调用语音识别算法将所述音频转换为文本并对所述文本进行分词得到多个词语;
对所述多个词语与预设关键词库进行匹配;
将从所述预设关键词库中匹配出的与所述多个词语中的任意一个词语相同的关键词作为目标关键词,并基于匹配出的目标构建词构建目标关键词向量;
提取所述音频中的多个声学特征,并将所述每个声学特征与对应的声学特征阈值进行比较;
将大于所述声学特征阈值的声纹特征作为目标声学特征,并基于所述目标声学特征构建声学特征向量;
将所述目标关键词向量和所述声学特征向量作为学生的负面情绪向量。
根据本发明的一个可选的实施例,所述根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态包括:
选取低于预设活跃度阈值的活跃度对应的第一学生名单,并分析所述第一学生名单中的学生的心理状态;
将所述第一学生名单中的学生对应的激活度和愉悦度映射到所述Arousal-Valence连续情感纬度模型中,确定位于预设纬度空间对应的第二学生名单,并分析所述第二学生名单中的学生的心理状态。
根据本发明的一个可选的实施例,所述基于音视频的学生心理状态分析方法还包括:
判断所述第二学生名单中的学生是否对应有负面情绪向量;
确定出对应有负面情绪向量的学生的第三学生名单,并分析所述第三学生名单中的学生的心理状态。
本发明的第二方面提供一种基于音视频的学生心理状态分析装置,所述基于音视频的学生心理状态分析装置包括:
模型训练模块,用于获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型;
视频处理模块,用于接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频;
视频识别模块,用于输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度;
第一计算模块,用于根据所述每位学生的学生目标视频计算每位学生的活跃度;
第二计算模块,用于接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪;
心理分析模块,用于根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
本发明的第三方面提供一种终端,所述终端包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现所述基于音视频的学生心理状态分析方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于音视频的学生心理状态分析方法。
综上所述,本发明所述的基于音视频的学生心理状态分析方法、装置、终端及介质,通过视频采集设备采集教室内的学生全景视频,避免对每位学生单独的采集视频,隐蔽性强,主观性配合度高,因而采集的视频真实度高,基于采集的视频分析得到的学生的心理状态准确度高;通过对学生全景视频进行畸变处理和网格映射能够有效的分离出每一位学生的学生目标视频,并利用迁移学习出的学生情感表情识别模型识别出学生的激活度、愉悦度和活跃度;通过音频采集设备采集教室内每一位学生的音频,并基于音频计算出学生的负面情绪;最后综合激活度、愉悦度、活跃度及负面情绪等多种模态来分析学生的心理状态,分析全面且进一步提高了准确度。
附图说明
图1是本发明实施例一提供的基于音视频的学生心理状态分析方法的流程图。
图2是Arousal-Valence连续情感纬度模型的示意图。
图3是本发明实施例二提供的基于音视频的学生心理状态分析装置的结构图。
图4是本发明实施例三提供的终端的结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
参阅图1所示,为本发明实施例一提供的基于音视频的学生心理状态分析方法的流程图。
所述基于音视频的学生心理状态分析方法可应用于智慧教育中,促进教育的智能化发展,从而推动智慧城市的建设。所述基于音视频的学生心理状态分析方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些可以省略。
S11,获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型。
所述开源情感表情数据集可以包括:Semaine数据集、Recola数据集、NVIE公开数据集等,这些公开的情感表情数据集中均包含相应的Arousal纬度标签和Valence纬度标签,Arousal纬度标签和Valence纬度标签均是由心理学家标注的,具有心理学含义。Arousal-Valence连续情感纬度模型具体可以参阅图2所示,其中,Arousal代表情感的激烈程度,Valence代表情感的正负面程度,Arousal和Valence的取值范围均为[-1,1]。Arousal在0和1之间时,表明情感较主动(active),Arousal在0和-1之间时,表明情感较被动(passive)。Valence在0和1之间时,表明情感较为愉悦(pleasant),Arousal在0和-1之间时,表明情感较为不愉快(unpleasant)。
所述私有情感表情数据集可以为采集的多个年龄、多个地区的男女数量均衡的教室内的学生群体的视频构成的数据集。
将所述开源情感表情数据集作为训练数据集,将所述私有情感表情数据集作为测试数据集,由于训练数据集和测试数据集来自于不同的数据源,数据间的差异性较大,因而需要通过迁移学习的思想训练专用于识别学生情感表情的学生情感表情识别模型。
在一个可选的实施例中,所述基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型包括:
利用迁移主成分分析算法对所述开源情感表情数据集进行降维处理得到目标开源情感表情数据集及对所述私有情感表情数据集进行降维处理得到目标私有情感表情数据集;
基于所述目标开源情感表情数据集训练CNN神经网络得到基础情感表情识别模型;
根据Arousal-Valence连续情感纬度模型对所述目标私有情感表情数据集进行标注,并基于标注后的目标私有情感表情数据集迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
Arousal-Valence连续情感纬度模型可以表示多种情感,且不同情感坐落于空间中的不同位置。
该可选的实施例中,通过迁移主成分分析算法学习一个映射矩阵,将开源情感表情数据集和私有情感表情数据集映射到低维的共同子空间中,能够解决跨数据集的表情识别问题,缩小不同来源的数据集之间的差异性;再通过迁移学习,使得知识在不同场景间有效迁移,不仅能够快速的训练出学生情感表情识别模型,且训练出的学生情感表情识别模型能够集中的学习学生的情感表情,识别准确率更高。迁移主成分分析算法为现有技术,本发明不再详细阐述。
在一个可选的实施例中,在得到所述目标开源情感表情数据集之后,还可以利用表情特征提取算法提取所述目标开源情感表情数据集的第一表情特征,使用第一表情特征训练CNN神经网络得到基础情感表情识别模型。同理,在得到所述私有情感表情数据集之后,利用所述表情特征提取算法提取所述目标私有情感表情数据集的第二表情特征,基于标注后的第二表情特征迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
其中,所述表情特征提取算法可以包括Gabor小波变换、局部二值模式和局部相位量化。通过利用表情特征提取算法提取第一表情特征和第二表情特征,能够去除情感表情数据集中与表情无关的特征,提高训练基础情感表情识别模型和迁移学习学生情感表情识别模型的效率。
S12,接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频。
预先在教室的一个或者多个角落处安装一个广角摄像头,通过所述广角摄像头采集多个学生在教室内的全景视频,并将采集的学生全景视频传输给终端。学生全景视频是相对学生目标视频而言的,学生全景视频是指该视频中包括多个学生在内,而学生目标视频是指该视频中仅有一位学生在内。
由于广角摄像头在拍摄学生全景视频时,不可避免的会存在畸变,为了使得后续能够准确的识别每一位学生的情感表情,终端在接收到学生全景视频时,先进行畸变处理,再进行网格映射,最后得到每位学生的学生目标视频。
在一个可选的实施例中,所述对所述学生全景视频进行畸变校正及网格映射得到每位学生目标视频包括:
采用视频动态畸变校正算法对所述学生全景视频进行畸变校正得到标准学生全景视频;
对所述标准学生全景视频进行分帧处理得到多张学生全景图像;
根据学生座位位置ID背景图像对每张学生全景图像进行网络映射得到学生ID全景图像;
分割出每张学生ID全景图像中的每一个ID对应的目标学生图像;
按照时间顺序将同一个ID对应的所有目标学生图像拼接为学生目标视频。
教室内每一位学生的座位对应设置有一个唯一的ID,根据学生座位位置ID将教室地面划分为网格区域,每一个网格区域对应一个座位位置ID。采集一张教室地面的背景图像,并对所述背景图像按照划分的网格区域进行划分,得到学生座位位置ID背景图像。后续将分帧处理得到的每张学生图像按照学生座位位置ID背景图像进行映射,即可得到学生ID全景图像。即,一张学生ID全景图像中被划分为多个网格,一个网格对应一个学生及该学生的座位位置ID。
其中,所述视频动态畸变校正算法为现有技术,本发明不再详细阐述。
示例性的,假设分割出3张学生ID全景图像,每张学生ID全景图像中有4个ID,那么从第1张学生ID全景图像分割出4个目标学生图像(ID11,ID12,ID13,ID14),从第2张学生ID全景图像分割出4个目标学生图像(ID21,ID22,ID23,ID24),从第3张学生ID全景图像分割出4个目标学生图像(ID31,ID32,ID33,ID34),则按照时间顺序,将ID11、ID21和ID31进行拼接得到座位位置ID1对应的学生目标视频,将ID12、ID22和ID32进行拼接得到座位位置ID2对应的学生目标视频,将ID13、ID23和ID33进行拼接得到座位位置ID3对应的学生目标视频,将ID14、ID24和ID34进行拼接得到座位位置ID4对应的学生目标视频。
该可选的实施例中,通过对所述学生全景视频进行畸变校正及网格映射,可以从原始的学生全景视频中分割出每一位学生的学生目标视频,便于对每一位学生进行情感表情分析,实现每位学生的心理状态的定向监控与追踪。
S13,输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度。
终端调用所述学生情感表情识别模型对每一位学生目标视频进行情感表情识别,从而输出每位学生的激活度Arousal和愉悦度Valence。激活度Arousal和愉悦度Valence越接近1,表示学生的心理状态越健康,激活度Arousal和愉悦度Valence越接近-1,表示学生的心理状态越不健康,需要心理医生进行疏解与治疗。
S14,根据所述每位学生的学生目标视频计算每位学生的活跃度。
结合每位学生的学生目标视频及上下课时间段,判断学生在下课期间是在其座位上还是离开了座位,并计算学生在下课期间不在座位上的总时长,作为活跃度。学生在下课期间不在座位上的总时长越长,表明学生越活跃,计算的活跃度越高;学生在下课期间不在座位上的总时长越短,表明学生越消沉,计算的活跃度越低。
在一个可选的实施例中,所述根据所述每位学生的学生目标视频计算每位学生的活跃度包括:
获取所述每位学生的学生目标视频中的拍摄时间;
根据上下课时间表确定所述拍摄时间中的下课时间;
从所述学生目标视频中提取出所述下课时间对应的学生视频段;
检测所述学生视频段中学生出现的时长并计算总时长,作为第一活跃度;
调用动作类型识别模型识别所述每位学生的学生目标视频中的多个动作类型,并根据预设动作类型与活跃度之间的映射关系确定每个动作类型对应的活跃度;
计算所有动作类型对应的活跃度的平均活跃度,作为第二活跃度;
根据所述第一活跃度及所述第二活跃度计算每位学生的活跃度。
该可选的实施例中,所述视频采集设备在采集学生全景视频时还记录有拍摄时间,同步传输所述学生全景视频和拍摄时间至所述终端。所述终端中记录有教室的上下课时间表,将上下课时间表中的所有下课时间均提取出来,并与拍摄时间进行一一匹配,从而提取出每一段下课时间的学生视频片段。所述终端可以将每段下课时间对应的学生视频片段进行分帧处理,再采用目标检测算法检测每帧图像中是否有学生。当检测到某帧图像中有学生,表明该时刻学生在其座位上;当检测到某帧图像中没有学生,表明该时刻学生不在其座位上。所述终端计算学生不在其座位上的所有时刻得到总时长,并确定所述总时长为学生的第一活跃度。
所述终端中可以预先通过深度学***均可得到平均活跃度,作为学生的第二活跃度。
通过结合学生下课时间在教室的时长和学生的动作类型对应的活跃度来共同确定学生的总活跃度,能够有效的反映出学生的真实活跃情况,避免当学生下课期间去室外活动而无法采用动作类型识别模型识别到动作,还能够避免学生下课期间虽未外出活动但仍然很活跃,仅通过计算下课时间出现的时长而得出错误的结论。
S15,接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪。
在教室内每位学生的课桌上配套内嵌一个音频采集设备,不分课上课下时间收集学生的视频信息,并转化为音频信号无线传回所述终端。
所述终端对每位学生的音频进行去噪处理,后基于去燥处理的音频计算出学生的负面情绪。
在一个可选的实施例中,所述根据所述每位学生的音频计算每位学生的负面情绪包括:
调用语音识别算法将所述音频转换为文本并对所述文本进行分词得到多个词语;
对所述多个词语与预设关键词库进行匹配;
将从所述预设关键词库中匹配出的与所述多个词语中的任意一个词语相同的关键词作为目标关键词,并基于匹配出的目标构建词构建目标关键词向量;
提取所述音频中的多个声学特征,并将所述每个声学特征与对应的声学特征阈值进行比较;
将大于所述声学特征阈值的声纹特征作为目标声学特征,并基于所述目标声学特征构建声学特征向量;
将所述目标关键词向量和所述声学特征向量作为学生的负面情绪向量。
该可选的实施例中,所述终端中预先存储有关键词库,所述关键词库中记录了由心理专家根据心理学知识设定的代表负面情绪的多个关键词,每一个关键词用以表征不同的负面情绪。当从关键词库中匹配出与所述多个词语中的任意一个词语相同的关键词,表明学生的音频中透露出了负面情绪。匹配出的关键词越多,表明学生的负面情绪越严重。
所述终端可以使用开源的SoundNet卷积神经网络模型识别出每一段视频中的多个声学特征。其中,所述多个声学特征可以包括:音量、音调、语速、停顿等。
所述终端中预先为每一个声学特征设置有一个阈值,是表示学生是否存在负面情绪的临界值。当某个声学特征大于对应的声学特征阈值,表明音频中存在负面情绪。
该可选的实施例中,通过音频采集设备采集学生的音频,并基于音频提取出表征学生会出现负面情绪的关键词和声学特征,能够弥补视频采集设备采集学生的视频中无法识别情感表情的问题,或者辅助基于学生的视频识别情感表情不明显的问题。
S16,根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
综合学生的激活度、愉悦度、活跃度、负面情绪来分析学生的心理是否正常,从而进一步对其心理进行指导纠正。
本实施例中,通过视频采集设备采集教室内的学生全景视频,避免对每位学生单独的采集视频,隐蔽性强,主观性配合度高,因而采集的视频真实度高,基于采集的视频分析得到的学生的心理状态准确度高;通过对学生全景视频进行畸变处理和网格映射能够有效的分离出每一位学生的学生目标视频,并利用迁移学习出的学生情感表情识别模型识别出学生的激活度、愉悦度和活跃度;通过音频采集设备采集教室内每一位学生的音频,并基于音频计算出学生的负面情绪;最后综合激活度、愉悦度、活跃度及负面情绪等多种模态来分析学生的心理状态,分析全面且进一步提高了准确度。
在一个可选的实施例中,所述根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态包括:
选取低于预设活跃度阈值的活跃度对应的第一学生名单,并分析所述第一学生名单中的学生的心理状态;
将所述第一学生名单中的学生对应的激活度和愉悦度映射到所述Arousal-Valence连续情感纬度模型中,确定位于预设纬度空间对应的第二学生名单,并分析所述第二学生名单中的学生的心理状态;
判断所述第二学生名单中的学生是否对应有负面情绪向量;
确定出对应有负面情绪向量的学生的第三学生名单,并分析所述第三学生名单中的学生的心理状态。
该可选的实施例中,以学生座位位置ID对应的学生身份信息、激活度、愉悦度、活跃度及负面情绪等多个维度的信息进行综合分析,并予以记录保存。所述预设纬度空间为Arousal-Valence连续情感纬度模型中的左下纬度空间。
首先,通过选取低于预设活跃度阈值的活跃度对应的学生名单得到第一学生名单,所述第一学生名单中的学生的心理状态为可能有心理障碍;再通过学生的激活度和愉悦度进行Arousal-Valence连续情感纬度模型映射,并选取学生的激活度和愉悦度位于预设纬度空间对应的学生名单得到第二学生名单,所述第二学生名单中的学生的心理状态为被动且不愉快,需列入观察名单;最后通过从第二学生名单中选取出对应有负面情绪向量的学生名单得到第三学生名单,所述第三学生名单中的学生的心理状态为有负面情绪。观察名单中的学生若多次出现负面情绪向量,则发出预警信号至心理咨询师,以通知心理咨询师做进一步确认。
需要强调的是,为进一步保证学生的隐私,上述心理状态还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
参阅图3所示,为本发明实施例二提供的基于音视频的学生心理状态分析装置的结构图。
在一些实施例中,所述基于音视频的学生心理状态分析装置30可以包括多个由计算机程序段所组成的功能模块。所述基于音视频的学生心理状态分析装置30中的各个程序段的计算机程序可以存储于终端的存储器中,并由至少一个处理器所执行,以执行(详见图1描述)基于音视频的学生心理状态分析的功能。
本实施例中,所述基于音视频的学生心理状态分析装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:模型训练模块301、视频处理模块302、视频识别模块303、第一计算模块304、第二计算模块305及心理分析模块306。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
所述模型训练模块301,用于获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型。
所述开源情感表情数据集可以包括:Semaine数据集、Recola数据集、NVIE公开数据集等,这些公开的情感表情数据集中均包含相应的Arousal纬度标签和Valence纬度标签,Arousal纬度标签和Valence纬度标签均是由心理学家标注的,具有心理学含义。Arousal-Valence连续情感纬度模型具体可以参阅图2所示,其中,Arousal代表情感的激烈程度,Valence代表情感的正负面程度,Arousal和Valence的取值范围均为[-1,1]。Arousal在0和1之间时,表明情感较主动(active),Arousal在0和-1之间时,表明情感较被动(passive)。Valence在0和1之间时,表明情感较为愉悦(pleasant),Arousal在0和-1之间时,表明情感较为不愉快(unpleasant)。
所述私有情感表情数据集可以为采集的多个年龄、多个地区的男女数量均衡的教室内的学生群体的视频构成的数据集。
将所述开源情感表情数据集作为训练数据集,将所述私有情感表情数据集作为测试数据集,由于训练数据集和测试数据集来自于不同的数据源,数据间的差异性较大,因而需要通过迁移学习的思想训练专用于识别学生情感表情的学生情感表情识别模型。
在一个可选的实施例中,所述模型训练模块301基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型包括:
利用迁移主成分分析算法对所述开源情感表情数据集进行降维处理得到目标开源情感表情数据集及对所述私有情感表情数据集进行降维处理得到目标私有情感表情数据集;
基于所述目标开源情感表情数据集训练CNN神经网络得到基础情感表情识别模型;
根据Arousal-Valence连续情感纬度模型对所述目标私有情感表情数据集进行标注,并基于标注后的目标私有情感表情数据集迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
Arousal-Valence连续情感纬度模型可以表示多种情感,且不同情感坐落于空间中的不同位置。
该可选的实施例中,通过迁移主成分分析算法学习一个映射矩阵,将开源情感表情数据集和私有情感表情数据集映射到低维的共同子空间中,能够解决跨数据集的表情识别问题,缩小不同来源的数据集之间的差异性;再通过迁移学习,使得知识在不同场景间有效迁移,不仅能够快速的训练出学生情感表情识别模型,且训练出的学生情感表情识别模型能够集中的学习学生的情感表情,识别准确率更高。迁移主成分分析算法为现有技术,本发明不再详细阐述。
在一个可选的实施例中,在得到所述目标开源情感表情数据集之后,还可以利用表情特征提取算法提取所述目标开源情感表情数据集的第一表情特征,使用第一表情特征训练CNN神经网络得到基础情感表情识别模型。同理,在得到所述私有情感表情数据集之后,利用所述表情特征提取算法提取所述目标私有情感表情数据集的第二表情特征,基于标注后的第二表情特征迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
其中,所述表情特征提取算法可以包括Gabor小波变换、局部二值模式和局部相位量化。通过利用表情特征提取算法提取第一表情特征和第二表情特征,能够去除情感表情数据集中与表情无关的特征,提高训练基础情感表情识别模型和迁移学习学生情感表情识别模型的效率。
所述视频处理模块302,用于接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频。
预先在教室的一个或者多个角落处安装一个广角摄像头,通过所述广角摄像头采集多个学生在教室内的全景视频,并将采集的学生全景视频传输给终端。学生全景视频是相对学生目标视频而言的,学生全景视频是指该视频中包括多个学生在内,而学生目标视频是指该视频中仅有一位学生在内。
由于广角摄像头在拍摄学生全景视频时,不可避免的会存在畸变,为了使得后续能够准确的识别每一位学生的情感表情,终端在接收到学生全景视频时,先进行畸变处理,再进行网格映射,最后得到每位学生的学生目标视频。
在一个可选的实施例中,所述视频处理模块302对所述学生全景视频进行畸变校正及网格映射得到每位学生目标视频包括:
采用视频动态畸变校正算法对所述学生全景视频进行畸变校正得到标准学生全景视频;
对所述标准学生全景视频进行分帧处理得到多张学生全景图像;
根据学生座位位置ID背景图像对每张学生全景图像进行网络映射得到学生ID全景图像;
分割出每张学生ID全景图像中的每一个ID对应的目标学生图像;
按照时间顺序将同一个ID对应的所有目标学生图像拼接为学生目标视频。
教室内每一位学生的座位对应设置有一个唯一的ID,根据学生座位位置ID将教室地面划分为网格区域,每一个网格区域对应一个座位位置ID。采集一张教室地面的背景图像,并对所述背景图像按照划分的网格区域进行划分,得到学生座位位置ID背景图像。后续将分帧处理得到的每张学生图像按照学生座位位置ID背景图像进行映射,即可得到学生ID全景图像。即,一张学生ID全景图像中被划分为多个网格,一个网格对应一个学生及该学生的座位位置ID。
其中,所述视频动态畸变校正算法为现有技术,本发明不再详细阐述。
示例性的,假设分割出3张学生ID全景图像,每张学生ID全景图像中有4个ID。那么从第1张学生ID全景图像分割出4个目标学生图像(ID11,ID12,ID13,ID14),从第2张学生ID全景图像分割出4个目标学生图像(ID21,ID22,ID23,ID24),从第3张学生ID全景图像分割出4个目标学生图像(ID31,ID32,ID33,ID34),则按照时间顺序,将ID11、ID21和ID31进行拼接得到座位位置ID1对应的学生目标视频,将ID12、ID22和ID32进行拼接得到座位位置ID2对应的学生目标视频,将ID13、ID23和ID33进行拼接得到座位位置ID3对应的学生目标视频,将ID14、ID24和ID34进行拼接得到座位位置ID4对应的学生目标视频。
该可选的实施例中,通过对所述学生全景视频进行畸变校正及网格映射,可以从原始的学生全景视频中分割出每一位学生的学生目标视频,便于对每一位学生进行情感表情分析,实现每位学生的心理状态的定向监控与追踪。
所述视频识别模块303,用于输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度。
终端调用所述学生情感表情识别模型对每一位学生目标视频进行情感表情识别,从而输出每位学生的激活度Arousal和愉悦度Valence。激活度Arousal和愉悦度Valence越接近1,表示学生的心理状态越健康,激活度Arousal和愉悦度Valence越接近-1,表示学生的心理状态越不健康,需要心理医生进行疏解与治疗。
所述第一计算模块304,用于根据所述每位学生的学生目标视频计算每位学生的活跃度。
结合每位学生的学生目标视频及上下课时间段,判断学生在下课期间是在其座位上还是离开了座位,并计算学生在下课期间不在座位上的总时长,作为活跃度。学生在下课期间不在座位上的总时长越长,表明学生越活跃,计算的活跃度越高;学生在下课期间不在座位上的总时长越短,表明学生越消沉,计算的活跃度越低。
在一个可选的实施例中,所述第一计算模块304根据所述每位学生的学生目标视频计算每位学生的活跃度包括:
获取所述每位学生的学生目标视频中的拍摄时间;
根据上下课时间表确定所述拍摄时间中的下课时间;
从所述学生目标视频中提取出所述下课时间对应的学生视频段;
检测所述学生视频段中学生出现的时长并计算总时长,作为第一活跃度;
调用动作类型识别模型识别所述每位学生的学生目标视频中的多个动作类型,并根据预设动作类型与活跃度之间的映射关系确定每个动作类型对应的活跃度;
计算所有动作类型对应的活跃度的平均活跃度,作为第二活跃度;
根据所述第一活跃度及所述第二活跃度计算每位学生的活跃度。
该可选的实施例中,所述视频采集设备在采集学生全景视频时还记录有拍摄时间,同步传输所述学生全景视频和拍摄时间至所述终端。所述终端中记录有教室的上下课时间表,将上下课时间表中的所有下课时间均提取出来,并与拍摄时间进行一一匹配,从而提取出每一段下课时间的学生视频片段。所述终端可以将每段下课时间对应的学生视频片段进行分帧处理,再采用目标检测算法检测每帧图像中是否有学生。当检测到某帧图像中有学生,表明该时刻学生在其座位上;当检测到某帧图像中没有学生,表明该时刻学生不在其座位上。所述终端计算学生不在其座位上的所有时刻得到总时长,并确定所述总时长为学生的第一活跃度。
所述终端中可以预先通过深度学***均可得到平均活跃度,作为学生的第二活跃度。
通过结合学生下课时间在教室的时长和学生的动作类型对应的活跃度来共同确定学生的总活跃度,能够有效的反映出学生的真实活跃情况,避免当学生下课期间去室外活动而无法采用动作类型识别模型识别到动作,还能够避免学生下课期间虽未外出活动但仍然很活跃,仅通过计算下课时间出现的时长而得出错误的结论。
所述第二计算模块305,用于接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪。
在教室内每位学生的课桌上配套内嵌一个音频采集设备,不分课上课下时间收集学生的视频信息,并转化为音频信号无线传回所述终端。
所述终端对每位学生的音频进行去噪处理,后基于去燥处理的音频计算出学生的负面情绪。
在一个可选的实施例中,所述第二计算模块305根据所述每位学生的音频计算每位学生的负面情绪包括:
调用语音识别算法将所述音频转换为文本并对所述文本进行分词得到多个词语;
对所述多个词语与预设关键词库进行匹配;
将从所述预设关键词库中匹配出的与所述多个词语中的任意一个词语相同的关键词作为目标关键词,并基于匹配出的目标构建词构建目标关键词向量;
提取所述音频中的多个声学特征,并将所述每个声学特征与对应的声学特征阈值进行比较;
将大于所述声学特征阈值的声纹特征作为目标声学特征,并基于所述目标声学特征构建声学特征向量;
将所述目标关键词向量和所述声学特征向量作为学生的负面情绪向量。
该可选的实施例中,所述终端中预先存储有关键词库,所述关键词库中记录了由心理专家根据心理学知识设定的代表负面情绪的多个关键词,每一个关键词用以表征不同的负面情绪。当从关键词库中匹配出与所述多个词语中的任意一个词语相同的关键词,表明学生的音频中透露出了负面情绪。匹配出的关键词越多,表明学生的负面情绪越严重。
所述终端可以使用开源的SoundNet卷积神经网络模型识别出每一段视频中的多个声学特征。其中,所述多个声学特征可以包括:音量、音调、语速、停顿等。
所述终端中预先为每一个声学特征设置有一个阈值,是表示学生是否存在负面情绪的临界值。当某个声学特征大于对应的声学特征阈值,表明音频中存在负面情绪。
该可选的实施例中,通过音频采集设备采集学生的音频,并基于音频提取出表征学生会出现负面情绪的关键词和声学特征,能够弥补视频采集设备采集学生的视频中无法识别情感表情的问题,或者辅助基于学生的视频识别情感表情不明显的问题。
所述心理分析模块306,用于根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
综合学生的激活度、愉悦度、活跃度、负面情绪来分析学生的心理是否正常,从而进一步对其心理进行指导纠正。
本实施例中,通过视频采集设备采集教室内的学生全景视频,避免对每位学生单独的采集视频,隐蔽性强,主观性配合度高,因而采集的视频真实度高,基于采集的视频分析得到的学生的心理状态准确度高;通过对学生全景视频进行畸变处理和网格映射能够有效的分离出每一位学生的学生目标视频,并利用迁移学习出的学生情感表情识别模型识别出学生的激活度、愉悦度和活跃度;通过音频采集设备采集教室内每一位学生的音频,并基于音频计算出学生的负面情绪;最后综合激活度、愉悦度、活跃度及负面情绪等多种模态来分析学生的心理状态,分析全面且进一步提高了准确度。
在一个可选的实施例中,所述心理分析模块306根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态包括:
选取低于预设活跃度阈值的活跃度对应的第一学生名单,并分析所述第一学生名单中的学生的心理状态;
将所述第一学生名单中的学生对应的激活度和愉悦度映射到所述Arousal-Valence连续情感纬度模型中,确定位于预设纬度空间对应的第二学生名单,并分析所述第二学生名单中的学生的心理状态;
判断所述第二学生名单中的学生是否对应有负面情绪向量;
确定出对应有负面情绪向量的学生的第三学生名单,并分析所述第三学生名单中的学生的心理状态。
该可选的实施例中,以学生座位位置ID对应的学生身份信息、激活度、愉悦度、活跃度及负面情绪等多个维度的信息进行综合分析,并予以记录保存。所述预设纬度空间为Arousal-Valence连续情感纬度模型中的左下纬度空间。
首先,通过选取低于预设活跃度阈值的活跃度对应的学生名单得到第一学生名单,所述第一学生名单中的学生的心理状态为可能有心理障碍;再通过学生的激活度和愉悦度进行Arousal-Valence连续情感纬度模型映射,并选取学生的激活度和愉悦度位于预设纬度空间对应的学生名单得到第二学生名单,所述第二学生名单中的学生的心理状态为被动且不愉快,需列入观察名单;最后通过从第二学生名单中选取出对应有负面情绪向量的学生名单得到第三学生名单,所述第三学生名单中的学生的心理状态为有负面情绪。观察名单中的学生若多次出现负面情绪向量,则发出预警信号至心理咨询师,以通知心理咨询师做进一步确认。
需要强调的是,为进一步保证学生的隐私,上述心理状态还可以存储于一区块链的节点中。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
参阅图4所示,为本发明实施例三提供的终端的结构示意图。在本发明较佳实施例中,所述终端4包括存储器41、至少一个存储器42、至少一条通信总线43及收发器44。
本领域技术人员应该了解,图4示出的终端的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述终端4还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述终端4是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述终端4还可包括客户设备,所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、数码相机等。
需要说明的是,所述终端4仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器41中存储有计算机程序,且所述至少一个存储器42可调用所述存储器41中存储的计算机程序以执行相关的功能。例如,上述实施例中所述的各个模块是存储在所述存储器41中的计算机程序,并由所述至少一个存储器42所执行,从而实现所述各个模块的功能。所述存储器41包括只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
在一些实施例中,所述至少一个存储器42是所述终端4的控制核心(ControlUnit),利用各种接口和线路连接整个终端4的各个部件,通过运行或执行存储在所述存储器41内的程序或者模块,以及调用存储在所述存储器41内的数据,以执行终端4的各种功能和处理数据。例如,所述至少一个存储器42执行所述存储器中存储的计算机程序时实现本发明实施例中所述的基于音视频的学生心理状态分析方法的全部或者部分步骤。所述至少一个存储器42可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(CentralProcessing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。
在一些实施例中,所述至少一条通信总线43被设置为实现所述存储器41以及所述至少一个存储器42等之间的连接通信。
尽管未示出,所述终端4还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个存储器42逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述终端4还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台终端(例如,个人计算机或者网络设备等)或处理器执行本发明各个实施例所述基于音视频的学生心理状态分析方法的部分。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。

Claims (10)

1.一种基于音视频的学生心理状态分析方法,其特征在于,所述基于音视频的学生心理状态分析方法包括:
获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型;
接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频;
输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度;
根据所述每位学生的学生目标视频计算每位学生的活跃度;
接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪;
根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
2.如权利要求1所述的基于音视频的学生心理状态分析方法,其特征在于,所述基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型包括:
利用迁移主成分分析算法对所述开源情感表情数据集进行降维处理得到目标开源情感表情数据集及对所述私有情感表情数据集进行降维处理得到目标私有情感表情数据集;
基于所述目标开源情感表情数据集训练CNN神经网络得到基础情感表情识别模型;
根据Arousal-Valence连续情感纬度模型对所述目标私有情感表情数据集进行标注,并基于标注后的目标私有情感表情数据集迁移学习所述基础情感表情识别模型得到学生情感表情识别模型。
3.如权利要求2所述的基于音视频的学生心理状态分析方法,其特征在于,所述对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频包括:
采用视频动态畸变校正算法对所述学生全景视频进行畸变校正得到标准学生全景视频;
对所述标准学生全景视频进行分帧处理得到多张学生全景图像;
根据学生座位位置ID背景图像对每张学生全景图像进行网络映射得到学生ID全景图像;
分割出每张学生ID全景图像中的每一个学生ID对应的目标学生图像;
按照时间顺序将同一个学生ID对应的所有目标学生图像拼接为学生目标视频。
4.如权利要求2所述的基于音视频的学生心理状态分析方法,其特征在于,所述根据所述每位学生的学生目标视频计算每位学生的活跃度包括:
获取所述每位学生的学生目标视频中的拍摄时间;
根据上下课时间表确定所述拍摄时间中的下课时间;
从所述学生目标视频中提取出所述下课时间对应的学生视频段;
检测所述学生视频段中学生出现的时长并计算总时长,作为第一活跃度;
调用动作类型识别模型识别所述每位学生的学生目标视频中的多个动作类型,并根据预设动作类型与活跃度之间的映射关系确定每个动作类型对应的活跃度;
计算所有动作类型对应的活跃度的平均活跃度,作为第二活跃度;
根据所述第一活跃度及所述第二活跃度计算每位学生的活跃度。
5.如权利要求2至4中任意一项所述的基于音视频的学生心理状态分析方法,其特征在于,所述根据所述每位学生的音频计算每位学生的负面情绪包括:
调用语音识别算法将所述音频转换为文本并对所述文本进行分词得到多个词语;
对所述多个词语与预设关键词库进行匹配;
将从所述预设关键词库中匹配出的与所述多个词语中的任意一个词语相同的关键词作为目标关键词,并基于匹配出的目标构建词构建目标关键词向量;
提取所述音频中的多个声学特征,并将所述每个声学特征与对应的声学特征阈值进行比较;
将大于所述声学特征阈值的声纹特征作为目标声学特征,并基于所述目标声学特征构建声学特征向量;
将所述目标关键词向量和所述声学特征向量作为学生的负面情绪向量。
6.如权利要求5所述的基于音视频的学生心理状态分析方法,其特征在于,所述根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态包括:
选取低于预设活跃度阈值的活跃度对应的第一学生名单,并分析所述第一学生名单中的学生的心理状态;
将所述第一学生名单中的学生对应的激活度和愉悦度映射到所述Arousal-Valence连续情感纬度模型中,确定位于预设纬度空间对应的第二学生名单,并分析所述第二学生名单中的学生的心理状态。
7.如权利要求6所述的基于音视频的学生心理状态分析方法,其特征在于,所述基于音视频的学生心理状态分析方法还包括:
判断所述第二学生名单中的学生是否对应有负面情绪向量;
确定出对应有负面情绪向量的学生的第三学生名单,并分析所述第三学生名单中的学生的心理状态。
8.一种基于音视频的学生心理状态分析装置,其特征在于,所述基于音视频的学生心理状态分析装置包括:
模型训练模块,用于获取开源情感表情数据集和私有情感表情数据集并基于所述开源情感表情数据集和所述私有情感表情数据集进行迁移学习训练学生情感表情识别模型;
视频处理模块,用于接收预设视频采集设备采集的学生全景视频并对所述学生全景视频进行畸变校正及网格映射得到每位学生的学生目标视频;
视频识别模块,用于输入所述每位学生的学生目标视频至所述学生情感表情识别模型中进行识别得到每位学生的激活度和愉悦度;
第一计算模块,用于根据所述每位学生的学生目标视频计算每位学生的活跃度;
第二计算模块,用于接收预设音频采集设备采集的每位学生的音频并根据所述每位学生的音频计算每位学生的负面情绪;
心理分析模块,用于根据所述激活度、愉悦度、活跃度及负面情绪分析每位学生的心理状态。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述基于音视频的学生心理状态分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述基于音视频的学生心理状态分析方法。
CN202010695698.9A 2020-07-20 2020-07-20 基于音视频的学生心理状态分析方法、装置、终端及介质 Active CN111738210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010695698.9A CN111738210B (zh) 2020-07-20 2020-07-20 基于音视频的学生心理状态分析方法、装置、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010695698.9A CN111738210B (zh) 2020-07-20 2020-07-20 基于音视频的学生心理状态分析方法、装置、终端及介质

Publications (2)

Publication Number Publication Date
CN111738210A CN111738210A (zh) 2020-10-02
CN111738210B true CN111738210B (zh) 2020-12-08

Family

ID=72654931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010695698.9A Active CN111738210B (zh) 2020-07-20 2020-07-20 基于音视频的学生心理状态分析方法、装置、终端及介质

Country Status (1)

Country Link
CN (1) CN111738210B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052427A (zh) * 2020-12-14 2021-06-29 北京易华录信息技术股份有限公司 一种基于视频数据的学生状态分析***
CN112668467B (zh) * 2020-12-25 2023-11-07 华中师范大学 行为分析方法、装置、电子设备及存储介质
CN113076835B (zh) * 2021-03-25 2022-11-29 济南升界软件有限公司 基于回归分析的教学评价方法及***
CN113221689B (zh) * 2021-04-27 2022-07-29 苏州工业职业技术学院 视频多目标情感度预测方法
CN113409822B (zh) * 2021-05-31 2023-06-20 青岛海尔科技有限公司 对象状态的确定方法、装置、存储介质及电子装置
CN113255635B (zh) * 2021-07-19 2021-10-15 中国科学院自动化研究所 多模态融合的心理压力分析方法
CN113591703B (zh) * 2021-07-30 2023-11-28 山东建筑大学 一种教室内人员定位方法及教室综合管理***
CN113764099A (zh) * 2021-09-08 2021-12-07 平安国际智慧城市科技股份有限公司 基于人工智能的心理状态分析方法、装置、设备及介质
CN115205725B (zh) * 2022-02-22 2023-10-27 广州云智达创科技有限公司 一种视频情景分析方法、装置、存储介质
CN114927143A (zh) * 2022-04-21 2022-08-19 厦门大学 一种基于深度学习的舞美效果自动生成方法及***
CN117237155A (zh) * 2023-10-28 2023-12-15 南京达尔晟信息科技有限公司 一种基于人工智能的智慧校园学生行为分析***

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110024014A (zh) * 2016-08-03 2019-07-16 阿克利互动实验室公司 包括计算机化唤起元素的认知平台

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108388890A (zh) * 2018-03-26 2018-08-10 南京邮电大学 一种基于面部表情识别的新生儿疼痛程度评估方法及***
EP3644616A1 (en) * 2018-10-22 2020-04-29 Samsung Electronics Co., Ltd. Display apparatus and operating method of the same
CN109886190A (zh) * 2019-02-20 2019-06-14 哈尔滨工程大学 一种基于深度学习的人脸表情和姿态双模态融合表情识别方法
CN109992677B (zh) * 2019-03-14 2021-07-20 浙江大学 基于Valence-Arousal情感空间的图像-音乐匹配***
CN110188615B (zh) * 2019-04-30 2021-08-06 中国科学院计算技术研究所 一种人脸表情识别方法、装置、介质及***
CN110464366A (zh) * 2019-07-01 2019-11-19 华南师范大学 一种情绪识别方法、***及存储介质
CN110370275A (zh) * 2019-07-01 2019-10-25 夏博洋 基于表情识别的情绪聊天机器人
CN110688911B (zh) * 2019-09-05 2021-04-02 深圳追一科技有限公司 视频处理方法、装置、***、终端设备及存储介质
CN111414506B (zh) * 2020-03-13 2023-09-19 腾讯科技(深圳)有限公司 基于人工智能情绪处理方法、装置、电子设备及存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110024014A (zh) * 2016-08-03 2019-07-16 阿克利互动实验室公司 包括计算机化唤起元素的认知平台

Also Published As

Publication number Publication date
CN111738210A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
CN111738210B (zh) 基于音视频的学生心理状态分析方法、装置、终端及介质
Hassan et al. Automatic detection of pain from facial expressions: a survey
Ahuja et al. EduSense: Practical classroom sensing at Scale
Kim et al. Emergency situation monitoring service using context motion tracking of chronic disease patients
Yan et al. Scalability, sustainability, and ethicality of multimodal learning analytics
US20200258616A1 (en) Automated identification and grading of intraoperative quality
CN106126914A (zh) 临床信息管理***
CN102592061A (zh) 基于云计算的中医数据采集诊断中间***及其实现方法
CN109934182A (zh) 对象行为分析方法、装置、电子设备及计算机存储介质
Atrey et al. Effective multimedia surveillance using a human-centric approach
CN112634889A (zh) 基于人工智能的电子病例录入方法、装置、终端及介质
CN202815842U (zh) 基于云计算的中医数据采集诊断中间***
Kumar et al. Automated Attendance System Based on Face Recognition Using Opencv
CN112686232B (zh) 基于微表情识别的教学评价方法、装置、电子设备及介质
Heimerl et al. We’ve never been eye to eye: A Pupillometry Pipeline for the Detection of Stress and Negative Affect in Remote Working Scenarios
CN113705687A (zh) 基于人工智能的图像实例标注方法及相关设备
CN116913446A (zh) 康复锻炼集中管理和学习***
Martinez et al. A predictive model for automatic detection of social isolation in older adults
Bitkina et al. User stress in artificial intelligence: modeling in case of system failure
Gutstein et al. Optical flow, positioning, and eye coordination: automating the annotation of physician-patient interactions
Zhang et al. Quantification of advanced dementia patients’ engagement in therapeutic sessions: An automatic video based approach using computer vision and machine learning
Prakash et al. Video‐based real‐time assessment and diagnosis of autism spectrum disorder using deep neural networks
Liu et al. Multimodal behavioral dataset of depressive symptoms in chinese college students–preliminary study
US20210142047A1 (en) Salient feature extraction using neural networks with temporal modeling for real time incorporation (sentri) autism aide
Sonntag Interactive cognitive assessment tools: a case study on digital pens for the clinical assessment of dementia

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant