CN114120456A - 一种学习专注力检测方法、计算机设备及可读介质 - Google Patents

一种学习专注力检测方法、计算机设备及可读介质 Download PDF

Info

Publication number
CN114120456A
CN114120456A CN202111361398.8A CN202111361398A CN114120456A CN 114120456 A CN114120456 A CN 114120456A CN 202111361398 A CN202111361398 A CN 202111361398A CN 114120456 A CN114120456 A CN 114120456A
Authority
CN
China
Prior art keywords
sample
network model
voiceprint
emotion
anchor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111361398.8A
Other languages
English (en)
Inventor
刘婷婷
杨兵
刘海
张昭理
安庆
黄正华
陈胜勇
李友福
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubei University
Central China Normal University
Original Assignee
Hubei University
Central China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubei University, Central China Normal University filed Critical Hubei University
Priority to CN202111361398.8A priority Critical patent/CN114120456A/zh
Publication of CN114120456A publication Critical patent/CN114120456A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种学习专注力检测方法、计算机设备及可读介质,该方法包括:获取待检测对象的声纹信号及头部姿态图像;将声纹信号及头部姿态图像输入训练好的多模态融合模型中,提取待检测对象当前的声纹情绪特征以及头部姿态特征;多模态融合模型包括第一网络模型和第二网络模型;多模态融合模型将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行融合分类,得到待检测对象当前的声纹情绪状态和头部姿态角度;基于声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果;本发明实现声纹信号与头部姿态图像信息的互补,提高多人音频混叠背景下的学习专注力检测的准确性,为提高学生在线学习专注力提供客观支撑数据。

Description

一种学习专注力检测方法、计算机设备及可读介质
技术领域
本申请涉及智能人机交互技术领域,更具体地,涉及一种融合声纹和头部姿态线索的学习专注力检测方法、计算机设备及可读介质。
背景技术
随着教育信息化的高速发展,人工智能技术已经被越来越多地应用于教育教学过程中。近年来,新型冠状病毒肺炎的爆发打破了传统的线下教学模式,在线远程教学的方法一时间被广泛采用。然而,在没有教师近距离监督的情况下,如何实现远程监督或自监督的方式保证学习者独立学习的学习状态和学习效率,成为亟待解决的问题。因此,采用一种实时在线学习专注力检测方法辅助学习者进行在线学习,从而提高学习者在线学习的学习效率具有十分重要的意义。
学习专注力可以从学习者的头部姿态、声纹情绪以及肢体动作等方面反映出来,专注力集中时应当是头部朝向学习设备,声音情绪中性或积极,肢体动作较少。然而,在学习者在线学习的过程中,会有安静听讲以及低头念书等情况,仅依靠单方面的信息捕捉很难准确判断当前学习者的学习专注力状态,导致检测结果的准确率降低。
发明内容
针对现有技术的至少一个缺陷或改进需求,本发明提供了一种融合声纹和头部姿态线索的学习专注力检测方法、计算机设备及可读介质,可以实现不同模态的信息互补,其目的在于提高复杂背景下的声纹情绪和头部姿态识别精准度,从而提高学习专注力判断精准度。
为实现上述目的,按照本发明的一个方面,提供了一种学习专注力检测方法,该方法包括:
获取待检测对象的声纹信号及头部姿态图像;
将所述声纹信号及头部姿态图像输入训练好的多模态融合模型中,提取待检测对象当前的声纹情绪特征以及头部姿态特征;
其中,所述多模态融合模型中包括第一网络模型和第二网络模型;所述第一网络模型为利用具有情绪标签的至少一个音频样本训练得到,所述第二网络模型为利用具有头部姿态标签的至少一个头部姿态图像样本训练得到;
多模态融合模型将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行融合并分类,得到待检测对象当前的声纹情绪状态和头部姿态角度;
基于所述声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果。
优选的,上述学习专注力检测方法中,所述基于所述声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果,包括:
将所述声纹情绪状态和头部姿态角度输入到学习专注力检测模型中,根据所述头部姿态角度以及预设的学习空间计算待检测对象当前的专注力状态;
联合所述声纹情绪状态和专注力状态,得到待检测对象当前的专注力检测结果。
优选的,上述学习专注力检测方法中,所述第一网络模型的训练过程包括:
获取具有第一情绪标签的第一音频样本作为锚定样本,具有所述第一情绪标签的第二音频样本作为积极样本,以及具有第二情绪标签的第一音频样本作为消极样本;其中,所述第二情绪标签不同于第一情绪标签,第二音频样本与第一音频样本属于不同的对象;
将所述锚定样本、积极样本和消极样本输入第一网络模型中,通过待训练的第一网络模型分别生成锚定样本、积极样本和消极样本对应的情绪特征向量;
根据锚定样本、积极样本和消极样本对应的情绪特征向量计算第一三重损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一三重损失函数最小化,得到训练好的第一网络模型。
优选的,上述学习专注力检测方法中,所述根据锚定样本、积极样本和消极样本对应的情绪特征向量计算第一三重损失函数,具体为:
计算锚定样本与积极样本的情绪特征向量之间的第一相似度,以及锚定样本与消极样本的情绪特征向量之间的第二相似度;
根据所述第一相似度与第二相似度之间的差值计算第一三重损失函数,所述第一三重损失函数表示如下:
Figure BDA0003359126210000031
其中,
Figure BDA0003359126210000032
表示第一网络模型提取的锚定样本的情绪特征向量,
Figure BDA0003359126210000033
表示积极样本的情绪特征向量,
Figure BDA0003359126210000034
表示消极样本的情绪特征向量;
Figure BDA0003359126210000035
表示第一相似度,
Figure BDA0003359126210000036
表示第二相似度,α是网络优化过程中设置的第一距离阈值;i表示训练次数。
优选的,上述学习专注力检测方法中,所述第二网络模型的训练过程包括:
获取具有第一头部姿态标签的第一头部姿态图像样本作为锚定样本,具有所述第一头部姿态标签的第二头部姿态图像样本作为积极样本,以及具有第二头部姿态标签的第一头部姿态图像样本作为消极样本;其中,所述第二头部姿态图像标签不同于第一头部姿态标签,所述第二头部姿态图像样本与第一头部姿态图像样本属于不同的对象;
将所述锚定样本、积极样本和消极样本输入第二网络模型中,通过待训练的第二网络模型分别生成锚定样本、积极样本和消极样本对应的头部姿态特征向量;
根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算第二三重损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述第二三重损失函数最小化,得到训练好的第二网络模型。
优选的,上述学习专注力检测方法中,所述根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算第二三重损失函数,具体为:
计算锚定样本与积极样本的头部姿态特征向量之间的第三相似度,以及锚定样本与消极样本的头部姿态特征向量之间的第四相似度;
根据所述第三相似度与第四相似度之间的差值计算第二三重损失函数,所述第二三重损失函数表示如下:
Ltriplet(xn,xa,xp)=max(0,D(xa,xn)-D(xa,xp)+γ)
Figure BDA0003359126210000041
Figure BDA0003359126210000042
其中,(xn,xa,xp)代表三个头部姿态样本对,分别对应消极样本、锚定样本和积极样本;
f(xa)表示第二网络模型提取的锚定样本的头部姿态特征向量,f(xn)表示消极样本的头部姿态特征向量,f(xp)表示积极样本的头部姿态特征向量;
D(xa,xp)表示第三相似度,D(xa,xn)表示第四相似度;
γ表示设置的第二距离阈值。
优选的,上述学习专注力检测方法中,所述多模态融合模型中还包括聚合网络和分类网络;
所述聚合网络用于将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行聚合,得到聚合特征;
所述分类网络根据所述聚合特征生成待检测对象当前的声纹情绪状态和头部姿态角度。
优选的,上述学习专注力检测方法中,将所述声纹信号及头部姿态图像输入训练好的多模态融合模型中之前还包括:
采用预加重、分帧和加窗操作对声纹信号进行预处理,和/或,
采用双立方插值算法对头部姿态图像进行图像缩放处理。
按照本发明的第二个方面,还提供了一种计算机设备,其包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行上述任一项所述学习专注力检测方法的步骤。
按照本发明的第三个方面,还提供了一种计算机可读介质,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述任一项所述学习专注力检测方法的步骤。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的学习专注力检测方法,将声纹信息和头部姿态图像同时用于学习专注力检测中,采用新颖的多模态融合模型准确提取声纹情绪特征和头部姿态特征,将声音情绪特征和头部姿态特征进行融合,克服了传统检测方法中检测维度单一的局限性,减少漏检、误检的问题,对学习质量的提高和辅助教学具有重要意义。
(2)本发明在采用三重损失函数对多模态融合模型进行训练,三重损失函数能够保证网络模型在训练的过程中最大化类内相似性,最小化类间相似性,从而使训练得到的网络更加具有鲁棒性。
(3)本发明在多模态网络模型中添加时序注意力机制模块,关注更有效的信息,抑制背景噪音对模型精度的影响,提高网络模型的鲁棒性,从而有效提高模型的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例中所需使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本实施例提供的一种学习专注力检测方法的流程示意图;
图2为在线学习环境下数据获取示意图;
图3为本实施例提供的多模态融合模型的网络结构示意图;
图4为本申请实施例提供的学习专注力判断机制示意图;
图5是本实施例提供的计算机设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1是本实施例提供的一种学习专注力检测方法的流程示意图,参见图1所示,该方法主要包括以下步骤:
S1获取待检测对象的声纹信号及头部姿态图像;
本实施例中,待检测对象为正在利用学习设备进行在线学习的对象,图2为本实施例提供的在线学习环境下数据获取示意图,如图2所示,在一个具体示例中,利用可见光摄像头记录待检测对象的音视频,可见光摄像头可自动选取音视频中感兴趣的头部姿态RGB图像,并提取出在时间上与头部姿态RGB图像对应的声纹信号。该可见光摄像头可以集成在学习设备中,也可以使用独立设备并将其架设在学习设备上,或者将其放置在其它可以采集到待检测对象有效声纹信号及头部姿态图像的区域。
在一个可选的实施方式中,根据需求对待检测对象的声纹信号及头部姿态图像进行预处理,具体来说:
(1)采用预加重、分帧和加窗操作对输入声纹数据进行预处理,在一个具体示例中,采用25毫秒的帧长度以及10毫秒的帧间隔对声纹数据进行分帧,加窗操作的窗函数采用汉明窗,对于长度为N的离散信号x[n],0≤n≤N-1,汉明窗函数对应的权重ω[n]可以表示为:
Figure BDA0003359126210000071
(2)对头部姿态图像进行灰度化、几何变换以及图像增强,从而增强所述头部姿态RGB图像中相关的信息,消除无用信息;
在一个具体的示例中,采用双立方插值算法对头部姿态RGB图像数据进行图像缩放处理,其中,双立方插值算法进行图像缩放涉及到16个像素点,(i′,j′)表示待计算像素点在源图像中的包含小数部分的像素坐标,dx表示X方向的小数坐标,dy表示Y方向的小数坐标。双立方插值本质上是图像16个像素点权重卷积之和作为新的像素值,也即:
Figure BDA0003359126210000072
其中,m和n为浮点坐标范围在[-1,2)区间内的小数部分,R(x)表示基于Bell分布采样的插值表达式:
Figure BDA0003359126210000073
S2将所述声纹信号及头部姿态图像输入训练好的多模态融合模型中,提取待检测对象当前的声纹情绪特征以及头部姿态特征;
图3是本实施例提供的多模态融合模型的网络结构示意图,如图3所示,该多模态融合模型中包括第一网络模型和第二网络模型;所述第一网络模型为利用具有情绪标签的至少一个音频样本训练得到,所述第二网络模型为利用具有头部姿态标签的至少一个头部姿态图像样本训练得到;
多模态融合模型将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行融合并分类,得到待检测对象当前的声纹情绪状态和头部姿态角度。
本实施例中,第一网络模型为残差卷积-激励压缩网络(RCSENet),用于提取声纹信号的情绪特征;其包括第一特征提取层、第二特征提取层和第三特征提取层;
在一个具体示例中,第一特征提取层中包括一维卷积层、批标准化处理层以及ReLu层;首先采用卷积核数量为H、大小为L、步长为L/2的一维卷积层对声纹信号的原始波形x=R^(1×T)进行编码后得到声纹特征,表示为X=R^(H×K);其中T表示输入音频的长度,K=2(T-L)/L+1。声纹特征输入批标准化处理层,通过批标准化处理层以及ReLu层来保证声纹特征表示的稳定性。将经过编码的声纹特征X先输入到有P个卷积核、大小为1×1的卷积层,为后面的网络结构调整合适的通道大小。
第二特征提取层包括多个堆叠的特征提取器,对第一特征提取层输出的声纹特征表示作进一步的特征提取;参阅图3,本实施例中的第二特征提取层中具有三个级联的特征提取器,记为CSE模块;多个级联的CSE模块能够增大特征提取器的感受野,从而能够捕获到输入音频长时间的上下文信息,后一个特征提取器输出的声纹特征对前一个特征提取器输出的特征进行时序上的补充。
第三特征提取层基于ResNet34网络实现,其主要作用是基于第二特征提取层输出的声纹特征,提取到包含待检测对象声纹情绪的embedding特征表示。
在一个优选的实施例中,第一特征提取层与第二特征提取层之间还设置有注意力机制模块,增加该注意力机制模块的目的是为了关注更有效的声纹信息,抑制背景噪音对模型的影响,从而提高网络模型的鲁棒性。
作为一个具体的示例,注意力机制模块包括平均池化层、最大池化层和多层感知机;第一特征提取层输出的声纹特征分别输入所述平均池化层、最大池化层,得到平均池化特征和最大池化特征;多层感知机对平均池化特征和最大池化特征进行聚合,得到时序注意力特征。其中时序注意力机制可表示为公式:
MC(X)=σ(MLP(AvgPool(X))+MLP(MaxPool(X)))
其中,MC(X)表示经过时序注意力机制后的声纹特征,MLP(*)表示多层感知机,σ表示Sigmoid激活函数,AvgPool(*)表示平均池化操作,MaxPool(*)表示最大池化操作,可以被简化为:
Figure BDA0003359126210000091
其中,c表示通道数量,ω1和ω0分别是平均池化层和最大池化层的共享参数。
第一网络模型为利用具有情绪标签的至少一个音频样本训练得到,其训练过程包括:
获取具有第一情绪标签的第一音频样本作为锚定样本,具有所述第一情绪标签的第二音频样本作为积极样本,以及具有第二情绪标签的第一音频样本作为消极样本;其中,所述第二情绪标签不同于第一情绪标签,第二音频样本与第一音频样本属于不同的对象;在一个具体的示例中,情绪标签包括消极、积极和中性三种;
将所述锚定样本、积极样本和消极样本输入第一网络模型中,通过待训练的第一网络模型分别生成锚定样本、积极样本和消极样本对应的情绪特征向量;
根据锚定样本、积极样本和消极样本对应的情绪特征向量计算第一三重损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一三重损失函数最小化,得到训练好的第一网络模型。
本实施例中,采用三重损失函数作为第一网络模型的损失函数,进行模型训练;随机选择一个具有情绪标签的第一音频样本作为锚定样本
Figure BDA0003359126210000092
选择与锚定样本
Figure BDA0003359126210000093
带有相同情绪标签的第二音频样本作为积极样本
Figure BDA0003359126210000094
该第二音频样本与第一音频样本应属于不同的对象;选择与锚定样本
Figure BDA0003359126210000095
带有不同情绪标签的第一音频样本作为消极样本
Figure BDA0003359126210000096
即消极样本
Figure BDA0003359126210000097
与锚定样本
Figure BDA0003359126210000098
属于同一个对象,但是带有不同的情绪标签;将锚定样本、积极样本和消极样本组成三个音频样本对
Figure BDA0003359126210000099
投入第一网络模型中对其进行训练。针对每个样本,第一网络模型预测输出对应的情绪特征向量,并根据锚定样本、积极样本和消极样本对应的情绪特征向量来计算三重损失函数,对第一网络模型的模型参数进行优化,直至三重损失函数最小化,表明第一网络模型训练完成。
在一个优选的实施例中,根据锚定样本、积极样本和消极样本对应的情绪特征向量计算三重损失函数具体为:
计算锚定样本与积极样本的情绪特征向量之间的第一相似度,以及锚定样本与消极样本的情绪特征向量之间的第二相似度;根据所述第一相似度与第二相似度之间的差值计算三重损失函数。
三重损失函数能够保证网络模型在训练的过程中最大化类内相似性,最小化类间相似性,从而使训练得到的网络更加具有鲁棒性,第一网络模型优化的过程可以表示为:
Figure BDA0003359126210000101
其中,
Figure BDA0003359126210000102
表示第一网络模型提取的锚定样本的情绪特征向量,
Figure BDA0003359126210000103
表示积极样本的情绪特征向量,
Figure BDA0003359126210000104
表示消极样本的情绪特征向量;
Figure BDA0003359126210000105
Figure BDA0003359126210000106
表示第一相似度,fxnca-fxncn22表示第二相似度,α是网络优化过程中设置的第一距离阈值;
Figure BDA0003359126210000107
表示一个三输入样本对,T表示三重损失中的批次。
网络优化的过程就是增加锚定样本和积极样本的相似度,并降低锚定样本和消极样本的相似度的过程。三重损失函数的计算可以表示为:
Figure BDA0003359126210000108
通过上述三重损失函数不断地相对于消极样本拉近积极样本与锚定样本之间的距离。
本实施例中,第二网络模型为高效费舍尔矩阵分布网络(E-FMDNet),用于提取头部姿态RGB图像数据的头部姿态图像特征;其包括第四特征提取层、全连接层和非约束矩阵层;将预处理后的头部姿态RGB图像数据经过第四特征提取层进行特征提取,提取出的头部姿态特征输入到一个全连接层后经过非约束矩阵得到该头部姿态图像的费舍尔矩阵分布。
第二网络模型为利用具有头部姿态标签的至少一个头部姿态图像样本训练得到,其训练过程包括:
获取具有第一头部姿态标签的第一头部姿态图像样本作为锚定样本,具有所述第一头部姿态标签的第二头部姿态图像样本作为积极样本,以及具有第二头部姿态标签的第一头部姿态图像样本作为消极样本;其中,所述第二头部姿态图像标签不同于第一头部姿态标签,所述第二头部姿态图像样本与第一头部姿态图像样本属于不同的对象;
将所述锚定样本、积极样本和消极样本输入第二网络模型中,通过待训练的第二网络模型分别生成锚定样本、积极样本和消极样本对应的头部姿态特征向量;
根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算第二三重损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述第二三重损失函数最小化,得到训练好的第二网络模型。
本实施例中,同样采用三重损失函数作为第二网络模型的损失函数,进行模型训练;随机选择一个具有头部姿态标签的第一头部姿态图像样本作为锚定样本xa,选择与锚定样本xa带有相同头部姿态标签的第二头部姿态图像样本作为积极样本xp,该第二头部姿态图像样本与第一头部姿态图像样本应属于不同的对象;选择与锚定样本xa带有不同头部姿态标签的第一头部姿态图像样本作为消极样本xn,即消极样本xn与锚定样本xa属于同一个对象,但是带有不同的头部姿态标签;将锚定样本、积极样本和消极样本组成三个头部姿态图像样本对(xa,xp,xn)投入第二网络模型中对其进行训练。针对每个样本,第二网络模型预测输出对应的头部姿态特征向量,并根据锚定样本、积极样本和消极样本对应的头部姿态特征向量来计算三重损失函数,对第二网络模型的模型参数进行优化,直至三重损失函数最小化,表明第二网络模型训练完成。
在一个优选的实施例中,根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算三重损失函数,具体为:
计算锚定样本与积极样本的头部姿态特征向量之间的第三相似度,以及锚定样本与消极样本的头部姿态特征向量之间的第四相似度;
根据所述第三相似度与第四相似度之间的差值计算三重损失函数,该三重损失函数表示如下:
Ltriplet(xn,xa,xp)=max(0,D(xa,xn)-D(xa,xp)+γ)
Figure BDA0003359126210000121
Figure BDA0003359126210000122
其中,(xn,xa,xp)代表输入的三个头部姿态样本对,f(xa)表示第二网络模型提取的锚定样本的头部姿态特征向量,f(xn)表示消极样本的头部姿态特征向量,f(xp)表示积极样本的头部姿态特征向量;
D(xa,xp)表示第三相似度,D(xa,xn)表示第四相似度;γ表示设置的第二距离阈值。
通过不断提高锚定样本xa和积极样本xp的相似度以及锚定样本xa和消极样本xn之间的差异性来优化第二网络模型,使得模型更具有鲁棒性。
多模态融合模型中还包括聚合网络和分类网络;
其中,聚合网络分别连接第一网络模型、第二网络模型的输出侧,用于将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行聚合,得到聚合特征;
在一个具体的示例中,分类网络可采用softmax分类器,其根据所述聚合特征生成待检测对象当前的声纹情绪状态和头部姿态角度。
S3基于所述声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果;
在通过多模态融合模型获得待检测对象的声纹情绪状态和头部姿态角度之后,可以基于该声纹情绪状态和头部姿态角度,采取不同的方式对待检测对象的学习专注力进行判定。
在一个具体的示例中,将声纹情绪状态和头部姿态角度输入到学习专注力检测模型中,该学习专注力检测模型为预先训练好的模型,其根据头部姿态角度以及预设的学习空间计算待检测对象当前的专注力状态;并能够依据预设的标准,结合所述声纹情绪状态和专注力状态得到待检测对象当前的专注力检测结果。
例如:学习专注力检测模型检测到声纹情绪为非消极状态时,判断为专注力集中,否则为不集中;
待检测对象的头部与学***距离y、屏幕左边距离hl、屏幕右边距离hr共同决定了学习区间范围(θ1,θ2)即:
Figure BDA0003359126210000131
检测到头部姿态角度位于预先设置的学习空间之内,则为专注力集中,否则为不集中;通过声纹情绪状态和头部姿态状态融合状态作为学习者当前的专注力状态。
请参阅图4,根据声纹情绪状态和头部姿态估计数据判断学习者的学习专注力,具体包括:初始化专注力得分,设置积极状态和消极状态的划分阈值分别为1和0,将位于学习空间的头部姿态确定为积极状态即1,将位于学习空间之外的头部姿态确定为消极状态即0,将声纹情绪为消极的确定为消极状态0,否则确定为积极状态1;计算头部姿态估计得分和声纹情绪得分之和作为融合得分;判断融合得分是否大于等于1,是则确定当前专注力为积极状态即专注力集中,否则确定为消极状态即专注力不集中。
获取待检测对象的专注力结果之后,可以在专注力不集中时提供相应的干预措施,比如发出语音预警,进一步聚焦学习者的专注力,提高在线学习的自主能力。
应当注意,尽管在上述的实施例中,以特定顺序描述了本说明书实施例的方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。相反,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本实施例还提供了一种计算机设备,如图5所示,其包括至少一个处理器、以及至少一个存储器,其中,存储器中存储有计算机程序,当计算机程序被处理器执行时,使得处理器执行上述学习专注力检测方法的步骤,具体步骤参见前文实施例,此处不再赘述;本实施例中,处理器和存储器的类型不作具体限制,例如:处理器可以是微处理器、数字信息处理器、片上可编程逻辑***等;存储器可以是易失性存储器、非易失性存储器或者它们的组合等。
此外,该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等)通信,还可与一个或者多个使得用户能与该计算机设备交互的终端通信,和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。
需要说明的是,该计算机设备可以是独立于学习设备的外部监测设备,也可以指代学习设备,此时则需要在学习设备中嵌入可执行上述学习专注力检测方法的计算机程序。该计算机设备中优选具有语音播报的功能,能够在检测到学习者专注力不集中时进行语音提示。
本实施例还提供了一种计算机可读介质,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行上述学习专注力检测方法的步骤。计算机可读介质的类型包括但不限于SD卡、U盘、固定硬盘、移动硬盘等存储介质。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种学习专注力检测方法,其特征在于,包括:
获取待检测对象的声纹信号及头部姿态图像;
将所述声纹信号及头部姿态图像输入训练好的多模态融合模型中,提取待检测对象当前的声纹情绪特征以及头部姿态特征;
其中,所述多模态融合模型中包括第一网络模型和第二网络模型;所述第一网络模型为利用具有情绪标签的至少一个音频样本训练得到,所述第二网络模型为利用具有头部姿态标签的至少一个头部姿态图像样本训练得到;
多模态融合模型将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行融合并分类,得到待检测对象当前的声纹情绪状态和头部姿态角度;
基于所述声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果。
2.如权利要求1所述的学习专注力检测方法,其特征在于,所述基于所述声纹情绪状态和头部姿态角度生成待检测对象当前的专注力检测结果,包括:
将所述声纹情绪状态和头部姿态角度输入到学习专注力检测模型中,根据所述头部姿态角度以及预设的学习空间计算待检测对象当前的专注力状态;
联合所述声纹情绪状态和专注力状态,得到待检测对象当前的专注力检测结果。
3.如权利要求1或2所述的学习专注力检测方法,其特征在于,所述第一网络模型的训练过程包括:
获取具有第一情绪标签的第一音频样本作为锚定样本,具有所述第一情绪标签的第二音频样本作为积极样本,以及具有第二情绪标签的第一音频样本作为消极样本;其中,所述第二情绪标签不同于第一情绪标签,第二音频样本与第一音频样本属于不同的对象;
将所述锚定样本、积极样本和消极样本输入第一网络模型中,通过待训练的第一网络模型分别生成锚定样本、积极样本和消极样本对应的情绪特征向量;
根据锚定样本、积极样本和消极样本对应的情绪特征向量计算第一三重损失函数,反向调整所述待训练的第一网络模型的模型参数,直至所述第一三重损失函数最小化,得到训练好的第一网络模型。
4.如权利要求3所述的学习专注力检测方法,其特征在于,所述根据锚定样本、积极样本和消极样本对应的情绪特征向量计算第一三重损失函数,具体为:
计算锚定样本与积极样本的情绪特征向量之间的第一相似度,以及锚定样本与消极样本的情绪特征向量之间的第二相似度;
根据所述第一相似度与第二相似度之间的差值计算第一三重损失函数,所述第一三重损失函数表示如下:
Figure FDA0003359126200000021
其中,
Figure FDA0003359126200000022
表示第一网络模型提取的锚定样本的情绪特征向量,
Figure FDA0003359126200000023
表示积极样本的情绪特征向量,
Figure FDA0003359126200000024
表示消极样本的情绪特征向量;
Figure FDA0003359126200000025
表示第一相似度,
Figure FDA0003359126200000026
表示第二相似度,α是网络优化过程中设置的第一距离阈值;i表示训练次数。
5.如权利要求1或2所述的学习专注力检测方法,其特征在于,所述第二网络模型的训练过程包括:
获取具有第一头部姿态标签的第一头部姿态图像样本作为锚定样本,具有所述第一头部姿态标签的第二头部姿态图像样本作为积极样本,以及具有第二头部姿态标签的第一头部姿态图像样本作为消极样本;其中,所述第二头部姿态图像标签不同于第一头部姿态标签,所述第二头部姿态图像样本与第一头部姿态图像样本属于不同的对象;
将所述锚定样本、积极样本和消极样本输入第二网络模型中,通过待训练的第二网络模型分别生成锚定样本、积极样本和消极样本对应的头部姿态特征向量;
根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算第二三重损失函数,反向调整所述待训练的第二网络模型的模型参数,直至所述第二三重损失函数最小化,得到训练好的第二网络模型。
6.如权利要求5所述的学习专注力检测方法,其特征在于,所述根据锚定样本、积极样本和消极样本对应的头部姿态特征向量计算第二三重损失函数,具体为:
计算锚定样本与积极样本的头部姿态特征向量之间的第三相似度,以及锚定样本与消极样本的头部姿态特征向量之间的第四相似度;
根据所述第三相似度与第四相似度之间的差值计算第二三重损失函数,所述第二三重损失函数表示如下:
Ltriplet(xn,xa,xp)=max(0,D(xa,xn)-D(xa,xp)+γ)
Figure FDA0003359126200000031
Figure FDA0003359126200000032
其中,(xn,xa,xp)代表三个头部姿态样本对,分别对应消极样本、锚定样本和积极样本;
f(xa)表示第二网络模型提取的锚定样本的头部姿态特征向量,f(xn)表示消极样本的头部姿态特征向量,f(xp)表示积极样本的头部姿态特征向量;
D(xa,xp)表示第三相似度,D(xa,xn)表示第四相似度;
γ表示设置的第二距离阈值。
7.如权利要求1或2所述的学习专注力检测方法,其特征在于,所述多模态融合模型中还包括聚合网络和分类网络;
所述聚合网络用于将第一网络模型输出的声纹情绪特征及第二网络模型输出的头部姿态特征进行聚合,得到聚合特征;
所述分类网络根据所述聚合特征生成待检测对象当前的声纹情绪状态和头部姿态角度。
8.如权利要求1或2所述的学习专注力检测方法,其特征在于,将所述声纹信号及头部姿态图像输入训练好的多模态融合模型中之前还包括:
采用预加重、分帧和加窗操作对声纹信号进行预处理,和/或,
采用双立方插值算法对头部姿态图像进行图像缩放处理。
9.一种计算机设备,其特征在于,包括至少一个处理单元、以及至少一个存储单元,其中,所述存储单元存储有计算机程序,当所述计算机程序被所述处理单元执行时,使得所述处理单元执行权利要求1~8任一项所述方法的步骤。
10.一种计算机可读介质,其特征在于,其存储有可由计算机设备执行的计算机程序,当所述计算机程序在计算机设备上运行时,使得所述计算机设备执行权利要求1~8任一项所述方法的步骤。
CN202111361398.8A 2021-11-17 2021-11-17 一种学习专注力检测方法、计算机设备及可读介质 Pending CN114120456A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111361398.8A CN114120456A (zh) 2021-11-17 2021-11-17 一种学习专注力检测方法、计算机设备及可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111361398.8A CN114120456A (zh) 2021-11-17 2021-11-17 一种学习专注力检测方法、计算机设备及可读介质

Publications (1)

Publication Number Publication Date
CN114120456A true CN114120456A (zh) 2022-03-01

Family

ID=80396062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111361398.8A Pending CN114120456A (zh) 2021-11-17 2021-11-17 一种学习专注力检测方法、计算机设备及可读介质

Country Status (1)

Country Link
CN (1) CN114120456A (zh)

Similar Documents

Publication Publication Date Title
CN109558832B (zh) 一种人体姿态检测方法、装置、设备及存储介质
Deng et al. Joint multi-view face alignment in the wild
CN112860888B (zh) 一种基于注意力机制的双模态情感分析方法
US11093734B2 (en) Method and apparatus with emotion recognition
US20180114071A1 (en) Method for analysing media content
CN111091109B (zh) 基于人脸图像进行年龄和性别预测的方法、***和设备
US8805018B2 (en) Method of detecting facial attributes
CN107273458B (zh) 深度模型训练方法及装置、图像检索方法及装置
CN112183238B (zh) 一种远程教育注意力检测方法及***
JP2022133378A (ja) 顔生体検出方法、装置、電子機器、及び記憶媒体
CN113490947A (zh) 检测模型训练方法、装置、检测模型使用方法及存储介质
CN112712068B (zh) 一种关键点检测方法、装置、电子设备及存储介质
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
CN115237255B (zh) 一种基于眼动和语音的自然图像共指目标定位***及方法
CN113298018A (zh) 基于光流场和脸部肌肉运动的假脸视频检测方法及装置
CN109214616B (zh) 一种信息处理装置、***和方法
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质
CN113689527B (zh) 一种人脸转换模型的训练方法、人脸图像转换方法
WO2023208134A1 (zh) 图像处理方法及模型生成方法、装置、车辆、存储介质及计算机程序产品
CN111950452A (zh) 一种人脸识别方法
CN112580395A (zh) 基于深度信息的3d人脸活体识别方法、***、设备及介质
CN116312512A (zh) 面向多人场景的视听融合唤醒词识别方法及装置
CN114120456A (zh) 一种学习专注力检测方法、计算机设备及可读介质
TWI776429B (zh) 動作識別方法及裝置、電腦可讀存儲介質
CN115457620A (zh) 用户表情识别方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination