CN117591870A - 一种基于深度强化学习的情感感知智能教学方法及*** - Google Patents

一种基于深度强化学习的情感感知智能教学方法及*** Download PDF

Info

Publication number
CN117591870A
CN117591870A CN202311327454.5A CN202311327454A CN117591870A CN 117591870 A CN117591870 A CN 117591870A CN 202311327454 A CN202311327454 A CN 202311327454A CN 117591870 A CN117591870 A CN 117591870A
Authority
CN
China
Prior art keywords
data
emotion
learning
teaching
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311327454.5A
Other languages
English (en)
Inventor
李志勇
谭昕
李亮
李珩
许蕤
刘明国
余灿灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Vocational And Technical University
Original Assignee
Shenzhen Vocational And Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Vocational And Technical University filed Critical Shenzhen Vocational And Technical University
Priority to CN202311327454.5A priority Critical patent/CN117591870A/zh
Publication of CN117591870A publication Critical patent/CN117591870A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于深度强化学习的情感感知智能教学方法及***,该方法首先收集学生的多模态数据,包括文本、音频和视频数据,并使用深度学习模型进行预处理,得到包括学习行为特征和与情感相关的特征的预处理后数据。然后,将预处理后数据输入到深度情感网络中,以获得学生的情感状态。最后,根据学生的学习行为特征和情感状态,使用深度强化学习算法动态调整教学内容和方式,以实现对学生个性化、情感感知的教学。深度强化学习的更新过程中会考虑学生的学习行为特征、情感状态以及教学反馈,以达到持续优化教学效果的目的。本发明的方法及***可广泛应用于在线教育、远程教学、个性化教育等领域。

Description

一种基于深度强化学习的情感感知智能教学方法及***
技术领域
本发明涉及智能化教育技术领域,尤其涉及一种基于深度强化学习的情感感知智能教学方法及***。
背景技术
随着现代教育技术的发展,个性化和智能化教学方法已经成为了研究和应用的热点。在这些方法中,以深度学习和强化学习为基础的算法被广泛应用于学生的学习过程中,实现了对学生的学习行为和学习效果的深度理解和有效干预。然而,传统的这些方法主要集中在利用学生的行为数据和学习成果数据进行学习和教学决策,忽视了学生的情感状态对其学习效果的重要影响。
学生的情感状态,如愉快、厌烦、紧张等,对他们的学习效果具有重要的影响。学生的情感状态可以影响他们的注意力,对知识的吸收和理解,以及他们对学习任务的积极性。因此,对学生的情感状态进行准确的识别和理解,以及在教学决策中考虑学生的情感状态,对提高教学效果具有重要的意义。
因此,有必要提出一种新的情感感知智能教学方法及***,其能够有效地利用深度学习和强化学习技术,对学生的情感状态进行准确的识别和理解,以及在教学决策中考虑学生的情感状态,以提高教学效果。
发明内容
本申请提供一种基于深度强化学习的情感感知智能教学方法及***,以提高教学效果。
本申请提供的基于深度强化学习的情感感知智能教学方法,包括:
收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据;
使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括学习行为特征以及与情感有关的特征;
将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态;
根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程可以由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。
更进一步地,所述的方法,还包括:
根据学生的学习成果和反馈信息,调整并优化所述深度强化学习的参数,以改进未来的教学效果。
更进一步地,所述使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,包括:
利用预训练的Transformer模型,将所述文本数据转化为反映其语义信息的数值表示,获得文本特征;
采用卷积神经网络或循环神经网络处理所述音频数据,将其转化为频谱图,并从频谱图中提取音频特征;
使用3D卷积神经网络或者时间卷积网络处理所述视频数据,获得视频特征,包括学生的面部表情和肢体语言的信息;
利用特定的特征融合策略,整合文本特征、音频特征、视频特征成一个统一的多模态表示,并将整合后的多模态表示作为预处理后数据,所述预处理后数据包括学习行为特征以及与情感有关的特征。
更进一步地,所述将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,包括:
对预处理后数据进行特定模态的卷积和池化操作,获得文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息;
对于所述的文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息进行特征融合,获得融合后特征,所述特征融合的操作可以通过简单的串联,或者使用加权平均或者注意力机制对不同模态的特征赋予不同的权重;
对所述融合后特征进行全连接操作,获得全连接操作后数据,其中,所述全连接操作包括通过权重和偏置进行线性变换,以及通过非线性激活函数进行非线性变换,从而进行进一步的特征提取和组合;
将所述全连接操作后数据进行长短期记忆神经网络处理,获得长短期记忆神经网络处理后数据;
将所述长短期记忆神经网络处理后数据进行输出处理,包括通过一个线性变换和一个激活函数操作来输出学生的情感状态。
更进一步地,所述对预处理后数据进行特定模态的卷积和池化操作,获得文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息,包括:
对于文本数据,通过嵌入操作将其转换为固定长度的向量,然后通过一维卷积和池化操作提取文本数据中的关键信息;
对于音频数据,通过二维卷积和池化操作提取音频数据中的关键信息;
对于视频数据,通过三维卷积和池化操作提取视频数据中的关键信息。
更进一步地,所述根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式还包括:
根据学生的学习历史数据,设定个性化的情感阈值;
当学生的情感状态超过设定的个性化的情感阈值时,使用深度强化学习算法动态调整教学内容和方式。
更进一步地,所述根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,还包括:
当学生的情感状态超过设定的个性化的情感阈值时,根据特定情感状态选择对应的教学策略;
其中,所述教学策略包括重复或以不同方式解释概念,或者引入类比、故事、游戏等教学元素,以更生动、有趣的方式重新解释难以理解的内容。
更进一步地,所述根据学生的学习成果和反馈信息,调整并优化所述深度强化学习的参数,以改进未来的教学效果,包括:
确定基于学生的学习成果和反馈信息的奖励函数;
利用所述奖励函数以及深度强化学习算法更新所述深度强化学习的参数。
更进一步地,所述奖励函数为:
R=α*L+β*F+γ*E+δ*P+ε*I,
其中,R为奖励函数的输出值,代表了***在当前状态下采取某一动作的总体奖励;L代表学习成果;F代表反馈满意度;E代表学生的情感状态;P学习进步;I代表情感状态的改善;α、β、γ、δ、ε是调整权重的系数。
本申请还提供一种基于深度强化学习的情感感知智能教学***,包括:
收集单元,用于收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据;
数据获得单元,用于使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括学习行为特征以及与情感有关的特征;
情感获得单元,用于将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态;
调整单元,用于根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程可以由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。
本申请提供的技术方案不同于现有技术中的其他方案,该方法采用了深度学习和强化学习的技术,能够处理学生的多模态数据,包括文本数据、音频数据和视频数据。通过深度情感网络,能够根据预处理后数据获得学生的情感状态,使得教学过程能够考虑到学生的情绪变化,提高教学效果。该方法利用深度强化学习算法,根据学生的学习行为特征和情感状态动态调整教学内容和方式。
本申请提供的技术方案具有如下有益效果:
(1)通过利用深度学习技术处理学生的多模态数据,使得教学过程可以更全面地理解学生的学习行为和情感状态,从而提高教学效果。
(2)利用深度情感网络获取学生的情感状态,使得教学过程可以考虑到学生的情绪变化,从而提高教学质量和学生的学习体验。
(3)通过深度强化学习算法动态调整教学内容和方式,提供了一种高度自适应和个性化的教学方法,有助于提高教学效率和学生的学习效果。
附图说明
图1是本申请第一实施例提供的一种基于深度强化学习的情感感知智能教学方法的流程图。
图2是本申请第一实施例涉及的多模态特征融合模型的示意图。
图3是深度情感网络的结构框图。
图4是本申请的***结构框图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
本申请第一实施例提供一种基于深度强化学习的情感感知智能教学方法。请参看图1,该图为本申请第一实施例的示意图。以下结合图1对本申请第一实施例提供一种基于深度强化学习的情感感知智能教学方法进行详细说明。
所述方法包括如下步骤:
步骤S101:收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据。
本步骤的目的是获取尽可能全面的学生信息,以用于后续的情感状态的分析。文本数据可以是来源于学生在在线教学平台上的聊天记录、课堂内容实时测试等,这些文本信息可以反映出学生对于学习内容的理解程度以及情感反应。音频数据主要来源于学生的语音回应,例如在课堂讨论或者语音答疑中的发言,音频数据可以反映学生的语气和情绪。视频数据主要来源于学生的面部表情和肢体语言,例如在视频教学中的实时录像,这些数据可以帮助分析学生的情感状态,如快乐、沮丧、困惑等。
步骤S102:使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括学习行为特征以及与情感有关的特征。
首先对于本步骤涉及的学习行为特征以及与情感有关的特征进行一下简要说明。
学习行为特征是指与学生直接的学习活动相关的行为,例如他们在何时学习,学习多久,完成了多少课程或任务,以及他们的学习效果如何等。具体而言,学习行为特征可能包括:
(1)学习时间:包括总学习时间,每次学习的持续时间,学习的频率等。
(2)学习进度:包括完成的任务数量,通过的考试数量,学习的课程数量等。
(3)学习方法:包括是否采取笔记,复习的频率,学习的方式(如阅读,听课程等)等。
(4)学习结果:包括考试成绩,任务完成情况,课程完成情况等。
本实施例中的与情感有关的特征可能包括:
(1)表情特征:通过视频数据分析学生的表情,例如微笑,皱眉,惊讶,困惑等,这些表情可能与学生的情绪状态有关。
(2)语音特征:通过音频数据分析学生的语调,音量,语速等,这些可能与学生的情绪状态有关。
(3)文本特征:通过文本数据(如在线聊天记录,学习反馈等)分析学生的情绪,例如使用的词汇,语气,以及表达的情感。
(4)行为特征:通过分析学生的行为(如在学***台上的行为,如他们浏览了哪些课程,点击了哪些资源,以及他们花费多少时间在某个特定的任务上等。
本步骤的主要任务是数据的预处理和特征提取。尽管在许多场景中,可能会使用独立的深度学习模型来处理不同类型的数据,但在本实施例中,为了达到最佳的个性化教学效果,选择将这三种数据整合到一个统一的多模态深度学习模型中。这个多模态深度学习模型,可以称之为“多模态特征融合模型”,它能够接受文本、音频和视频三种类型的数据,然后在内部进行特征提取和特征融合。
下面结合图2对于多模态特征融合模型进行详细说明。
如图2所示,在这个多模态特征融合模型中,主要包含以下四个关键模块:文本特征提取模块201,音频特征提取模块202,视频特征提取模块203,以及特征融合模块204。
文本特征提取模块201,该模块的主要工作是将学生的文本数据转化为一种能够反映其语义信息的数值表示。在这里,可以使用预训练的Transformer模型(例如BERT或者GPT)作为核心组件。这些模型在大规模文本数据上进行预训练,已经学***均,或者使用attention机制)将这些单词或短语的表示整合成一个文本级别的表示,可以将合成的文本级别的表示作为文本特征。
音频特征提取模块202,该模块的目标是从学生的语音数据中提取出有用的特征。可以使用卷积神经网络(CNN)或循环神经网络(RNN)来处理音频数据。首先,将音频信号转化为频谱图,然后将频谱图作为输入提供给CNN或RNN。这样,网络能够从频谱图中学习到音频的特征,例如音调、音强和语速等。网络的输出将是一个音频级别的表示。
视频特征提取模块203,用于提取学生的面部表情和肢体语言的信息。可以采用3D卷积神经网络(3D-CNN)或者时间卷积网络(TCN)来处理视频数据。首先,将视频帧序列输入到3D-CNN或者TCN中,然后让网络学习视频中的动态信息。网络的输出将是一个视频级别的表示。
特征融合模块204,该模块的作用是将以上三个模块的输出整合成一个统一的表示。具体来说,可以采用一些特征融合的策略,例如拼接(concatenation),加权平均,或者更复杂的融合策略如注意力机制(attention mechanism)。此外,为了保证特征融合的效果,还需要引入一个全连接层或者其他的映射函数,来进行最后的特征映射。该模块的输出将是一个融合了文本、音频、视频三种信息的多模态表示。可以将所述多模态表示作为预处理后数据,所述预处理后数据包括但不限于学习行为特征以及与情感有关的特征。
以上就是多模态特征融合模型的详细描述。这个模型的创新之处在于,通过将文本、音频和视频三种不同类型的数据整合到一个统一的模型中,让这个模型能够学习到这三种数据的共享特征以及特征之间的相互关系,这样就可以更全面、更精准地理解学生的状态,更有效地调整教学策略。
上面的说明中直接使用训练后多模态特征融合模型获得预处理后数据。下面说明一下这个多模态特征融合模型的训练过程:
首先,需要采集大量的多模态数据作为训练数据,包括学生的文本数据(例如在线聊天记录,学习反馈等),音频数据(例如学生的语音记录),视频数据(例如学生的视频录像),以及与之对应的标签数据(例如学生的学习成绩,学习行为,情感状态等)。
然后,按照以下步骤进行模型的训练:
步骤S2001:数据预处理。将收集到的多模态数据进行必要的预处理,例如对文本数据进行分词,对音频数据进行声谱分析,对视频数据进行帧提取等。
步骤S2002:特征提取。将预处理后的数据分别输入到文本特征提取模块201,音频特征提取模块202,和视频特征提取模块203中,得到文本特征,音频特征和视频特征。
步骤S2003:特征融合。将以上三个模块得到的特征输入到特征融合模块204中,得到融合后的多模态特征。
步骤S2004:模型训练。将得到的多模态特征和对应的标签数据输入到一个监督学习模型(例如SVM,决策树,神经网络等)中进行训练。训练的目标是使模型能够根据输入的多模态特征预测出对应的标签。训练过程中需要使用一种适合的优化算法(例如梯度下降,随机梯度下降,Adam等)来不断调整模型的参数,以使模型的预测结果尽可能地接近真实的标签数据。
步骤S2005:模型评估。在训练过程中,需要定期使用一部分没有用于训练的数据(称为验证数据)来评估模型的性能。评估的指标可以包括准确率,精确率,召回率,F1分数等。如果模型在验证数据上的性能不佳,可能需要调整模型的参数,或者改变模型的结构,然后重新进行训练。
步骤S2006:模型优化。根据模型在验证数据上的性能,可以进行必要的模型优化。例如,如果模型的性能在连续几次迭代中都没有明显的提高,可能需要减小学习率,增加正则化项,或者调整模型的结构等。
步骤S2007:模型测试。在模型训练和优化完成后,需要使用另一部分没有用于训练和验证的数据(称为测试数据)来测试模型的性能。如果模型在测试数据上的性能也很好,说明模型的泛化能力强,可以用于实际的多模态数据处理任务。
以上就是多模态特征融合模型的训练过程。这个过程需要根据具体的任务需求和数据特性来进行适当的调整。例如,在某些任务中,可能需要使用更复杂的特征提取和特征融合方法,或者使用更复杂的模型训练方法。
步骤S103:将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态。
本步骤中,预处理后数据会被送入深度情感网络,得到学生的情感状态。例如,深度情感网络可能判断学生正在感到困惑,因为他们的作业回答不准确,他们的语音回应声音犹豫,他们的面部表情看起来困惑。
以下结合图3对于深度情感网络进行详细的说明。如图3所示,所述深度情感网络包括:
输入层301,这个层的作用是接收输入数据,即步骤S102中获得的所述预处理后数据。
特定模态的卷积层和池化层:对于输入层获得的每种模态的数据(文本、音频、视频)都通过一系列的卷积层和池化层进行处理。
文本模态的卷积层和池化层302:
对于文本数据,首先通过一个嵌入层将文本转换成固定长度的向量,然后通过一维卷积层和池化层提取文本中的关键信息。该卷积层和池化层的参数(如卷积核大小、步长、池化类型等)需要根据实际情况进行设置。
音频模态的卷积层和池化层303:
对于音频数据,通过二维卷积层和池化层提取音频中的关键信息。卷积层可以捕获音频信号中的本地模式和频率特性,而池化层可以帮助减小特征的维度,防止过拟合。
视频模态的卷积层和池化层304:
对于视频数据,通过三维卷积层和池化层提取视频中的关键信息。三维卷积层可以同时考虑空间(帧内)和时间(帧间)的信息,从而捕捉视频中的运动信息。
特征融合层305,这个层接收来自所有模态特定层的输出,并将这些特征进行融合。这个融合可以通过简单的串联,也可以通过更复杂的操作进行。比如,可以使用加权平均或者注意力机制来对不同模态的特征赋予不同的权重。
全连接层306,这个层接受特征融合层的输出,通过一系列的权重和偏置进行线性变换,然后通过非线性激活函数(如ReLU、tanh等)进行非线性变换,从而进行进一步的特征提取和组合。
LSTM层307,这个层接受全连接层304的输出,通过一系列的门(遗忘门、输入门、输出门)和状态(单元(cell)状态和隐藏状态)来捕捉特征在时间序列上的动态变化。可以通过堆叠多个LSTM层来形成一个深度的LSTM网络。这里LSTM是长短期记忆神经网络(LongShort-Term Memory)。
输出层308,这个层接受LSTM层305的输出,通过一个线性变换(权重和偏置),然后通过一个激活函数(如sigmoid或softmax)来输出最终的情感状态。这个情感状态可以是二分类(正面情绪和负面情绪),也可以是多分类(快乐、悲伤、愤怒、惊讶等)。
所述深度情感网络的网络参数(Φ)需要在开始训练前进行初始化。这些参数包括卷积核的权重,全连接层的权重和偏置,以及LSTM层的各种权重和偏置。这些参数的初始化可以根据各种方法进行,例如使用高斯分布随机数,或者使用预训练的模型参数。
而后使用训练样本,对于所述深度情感网络进行训练,获得网络参数(Φ)。
预处理后数据(X)输入到训练之后的深度情感网络中,从而获得学生的情感状态。
步骤S104:根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程可以由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。这个公式的含义是:当前时间步t的策略网络参数θ_t会被更新为下一个时间步t+1的参数θ_{t+1},更新的方式是将当前参数θ_t加上一项更新,这个更新项由学习率α、TD错误δ_t以及动作概率的梯度/>相乘得到。
在本步骤中,根据学生的学习行为特征以及情感状态,使用深度强化学习算法动态调整教学内容和方式。例如,如果***检测到学生在某个知识点上表现出困惑,那么就可能会选择重复一些重要的概念,或者以不同的方式解释这些概念,这些都是由算法自动决定的。
以下针对步骤S104的实施步骤进行详细的说明:
(1)状态(S)和动作(A)的定义
首先,需要定义状态和动作。在这个场景中,状态可以包括学生的学习行为特征和情感状态,这两者都是由之前的深度学习模型得出的。
动作则可以被定义为教学内容和方式的选择。例如,一些可能的动作包括:
(1a)提高或降低教学难度:如果学生的学习行为表明他们已经很好地理解了当前的教学内容,教学***可能会提高教学难度,引入更复杂的概念或者问题。反之,如果学生显示出挣扎或者困惑的情感状态,教学***可能会降低教学难度,更详细地解释当前的概念或者提供更多的练习。
(1b)改变教学方式:教学方式可能包括讲解、示例、讨论、小组活动、实践活动等等。如果学生的学习行为和情感状态表明他们对当前的教学方式不感兴趣或者无法有效地学习,教学***可能会改变教学方式,例如,从讲解切换到实践活动,或者从个人学习切换到小组讨论。
(1c)个性化的反馈和帮助:教学***可能会根据学生的学习行为和情感状态提供个性化的反馈和帮助。例如,如果学生在某个问题上犹豫不决,教学***可能会提供相关的提示或者解释;如果学生感到困惑或者沮丧,教学***可能会提供鼓励和支持。
通过深度强化学习,教学***可以根据学生的反馈(例如,学习行为特征和情感状态)动态地调整教学内容和方式,从而更好地满足学生的个性化学习需求。这个过程就像玩一个游戏,教学***(即强化学习的agent)通过尝试不同的动作(即调整教学内容和方式),观察环境的反馈(即学生的学习行为和情感状态),然后根据这个反馈来优化它的策略(即教学方法),使得长期的累计回报(例如,学生的学习效果或满意度)最大化。
更进一步地,在定义状态时,可以为每个学生设置一个独特的情感阈值,以量化他们的情绪反应。例如,一些学生可能在感到轻微的困惑时就需要帮助,而其他学生可能需要在深度困惑时才寻求帮助。这样的个性化情感阈值可以根据学生的历史学习数据进行学习和调整。这一设定能够帮助教学***更精细地判断和适应每个学生的需求。
下面对于如何确定每个学生的独特的情感阈值进行说明:
(a)初始设定:在学生开始使用***时,可以设定一个初始的情感阈值,这个值可以基于教育心理学的理论或以往的研究数据。
(b)收集数据:***需要持续收集学生的学习数据和情绪反应。学习数据包括他们在进行各种学习活动时的行为表现,例如完成任务的速度、正确率等。情绪反应可以通过多种方式收集,如自我报告问卷、面部表情分析、语音情感分析等。
(c)数据分析:通过对收集到的数据进行深度学习或机器学习分析,可以得到学生在不同情境下的情绪反应模式。这包括他们在面对不同难度的学习任务时的情绪反应,以及他们在遇到困难时的情绪变化。
(d)调整阈值:基于上述分析结果,可以调整学生的情感阈值。例如,如果分析结果显示一个学生在遇到轻微困难时就会感到明显困惑,那么可以降低他的情感阈值。反之,如果一个学生在遇到深度困难时才会感到困惑,那么可以提高他的情感阈值。
(e)迭代优化:以上过程需要反复进行,***需要持续收集和分析数据,然后根据新的分析结果调整情感阈值,以使阈值能够更准确地反映学生的实际情感需求。
个性化情感阈值的设定是一个持续学习和调整的过程,需要基于大量的学生学习数据和情绪反应数据。这种设定方式可以帮助智能教学***更准确地理解和适应每个学生的情感需求,从而提供更个性化和有效的教学支持。
更进一步地,当学生的情绪状态超过设定的情感阈值时,***就会动态调整教学内容和方式。这里的动态调整不仅仅是更换教学内容,或者改变教学方式,更重要的是,要选择针对特定情感状态的教学策略。
例如,如果一个学生感到困惑,教学***不仅可以选择重复或以不同方式解释概念,还可以考虑引入类比、故事、游戏等元素。这种方法可以以更加引人入胜、生动的方式重新讲解难以理解的内容。比如,当教学物理概念时,可以引入相关的日常生活实例,或者通过游戏来帮助学生理解和掌握。这种方式可以帮助学生从不同的角度理解复杂的概念,同时也可以缓解他们的困惑和焦虑。
(2)策略(π)
策略是一个函数,它决定在给定的状态下选择哪个动作。在深度强化学习中,策略通常是由一个神经网络来表示的,这个神经网络的参数就是θ。这个神经网络,通常被称为策略网络,其任务是基于当前的状态,为每一个可能的动作输出一个概率。网络的输入是状态(在这个案例中为学生的学习行为特征和情感状态),输出是每一个可能动作的概率。也就是说,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,这个概率是由策略网络给出的。策略网络可以是多层感知器(MLP),这种网络结构可以很好地处理有结构的数据,本实施例中,学生的学习行为特征和情感状态可以被编码为一种数值向量。
下面对于深度强化学习的参数与策略网络的参数之间的关系进行简要说明:
深度强化学习是强化学习的一种方法,它结合了深度学习和强化学习的特点。在深度强化学习中,一个关键的组件是策略网络,这个网络用于决定智能体(例如我们的情感感知智能教学***)在给定的状态下应采取的行动。
策略网络的参数就是深度强化学习的参数。这些参数决定了策略网络的结构和行为,也就是说,它们决定了智能体在给定的环境状态下应采取的行动的概率分布。在训练过程中,这些参数会被不断调整,以便找到能最大化累积奖励的策略。
因此,深度强化学习的参数和策略网络的参数实际上是同一组参数,只是从不同的角度描述了这组参数的作用:从深度强化学习的角度看,这些参数用于决定如何从环境状态和奖励中学习最优的行动策略;从策略网络的角度看,这些参数决定了网络的行为,也就是智能体的行动策略。
(3)TD错误(δ)
TD错误(Temporal Difference Error)是一个重要的概念,它衡量的是预期回报和实际回报之间的差距。在强化学习中,回报通常被定义为从当前状态开始,未来所有可能的奖励的总和。在本实施例的应用场景中,奖励可以被定义为学生的学习进步。如果预期的学习进步高于实际的学习进步,那么TD错误就是负的;反之,如果预期的学习进步低于实际的学习进步,那么TD错误就是正的。
(4)更新神经网络的参数(θ)
给定TD错误和学习率(α),可以用以下的公式来更新神经网络的参数:
这个公式的含义是,根据TD错误的大小和符号,以及当前状态下选择的动作的概率,来决定如何调整神经网络的参数。如果TD错误是正的,那么就增大选择该动作的概率;反之,如果TD错误是负的,那么就减小选择该动作的概率。
(5)动态调整教学内容和方式
通过不断地进行以上的过程,神经网络的参数将不断更新,策略也会随之改变。这意味着,***将根据学生的学习行为和情感状态,动态地调整教学内容和方式。例如,如果学生对一部分内容掌握得非常好,***就可能选择跳过这部分内容,进入下一部分;反之,如果学生在某一部分内容上遇到了困难,***就可能选择以不同的方式来重新讲解这部分内容。这样的动态调整,使得每一个学生都能得到针对自己的、个性化的教学。
下面给出一个针对本步骤的具体的例子。
例如,假设一个学生在学习编程语言Python时遇到困难,他/她的学习行为特征可能包括在某一知识点花费过多时间,或者频繁查看相关参考资料,而情感状态可能是疑惑和挫败。
在这种情况下,本实施例提供的深度强化学习***可能会做出如下操作:
(1)定义状态(S):状态由学生的学习行为特征(例如在某一知识点花费过多时间,频繁查看相关参考资料)和情感状态(例如疑惑和挫败)组成。
(2)定义动作(A):动作可以是选择教授Python的不同资源,或者调整教学方式,如使用更多的图形解释,或者给出更多的实践例子。
(3)策略(π):策略网络会为每个可能的动作(例如选择不同的教材或改变教学方式)给出一个概率。在这个例子中,策略网络可能会推荐使用更直观的教材或更具互动性的教学方式。
(4)TD错误(δ):假设***预测学生在使用新的教材或教学方式后可以更好地理解Python,但实际上学生的理解程度没有提高,那么预期回报(学生理解程度的提高)就高于实际回报,TD错误就是负的。
(5)更新神经网络的参数(θ):因为TD错误是负的,需要减小选择该动作(选择这个教材或教学方式)的概率,所以根据公式 来调整神经网络的参数。
(6)动态调整教学内容和方式:随着神经网络的参数不断更新,策略也会随之改变。在这个例子中,***可能会推荐换用另一个教材,或者采取一种完全不同的教学方式。
以上就是一个具体的例子,描述了如何根据学生的学习行为特征和情感状态,使用深度强化学习算法动态调整教学内容和方式的过程。
本实施例中,所述情感感知智能教学的方法还包括根据学生的学习成果和反馈信息,调整并优化所述深度强化学习的参数,以改进未来的教学效果。
调整并优化深度强化学习的参数是一个迭代的过程,目的是让教学效果在未来得到改进。以下是具体的实施步骤:
(1)学习成果和反馈信息的收集:首先,需要有机制来收集学生的学习成果和反馈信息。学习成果可以是学生在练习,作业或者测试中的表现。例如,可以计算学生的准确率,完成作业的速度,或者在测试中的得分等。反馈信息可以来自于学生对于教学内容和方式的直接评价。例如,学生可能被要求在每次学习活动后填写一个调查问卷,表达他们对于教学内容和方式的满意度。
(2)奖励函数的定义:需要定义一个奖励函数来衡量每个动作的好坏。这个奖励函数可以基于学生的学习成果和反馈信息。例如,如果学生的准确率提高了,或者他们对于教学内容和方式的评价更高了,可以给予更大的奖励。相反,如果学生的准确率下降了,或者他们的评价更低了,可以给予更小的奖励或者惩罚。
本实施例提供一个奖励函数:
R=α*L+β*F+γ*E+δ*P+ε*I
其中:
R:奖励函数的输出值,代表了***在当前状态下采取某一动作的总体奖励;
L:代表学习成果,例如学生的准确率,完成作业的速度,测试得分等。可以采取合适的规范化策略将这些指标转换到一个统一的度量上;
F:代表反馈满意度,这可以通过学生在教学活动后填写的调查问卷获取,同样也可以采用合适的规范化策略将这些指标转换到一个统一的度量上;
E:代表学生的情感状态,可以通过深度情感网络来预测并量化学生的情感状态,例如将情绪状态转换为一个在[0,1]范围内的值;
P:代表学习进步,例如学生的准确率的提高,完成作业速度的加快,测试得分的增加等。可以采取合适的规范化策略将这些指标转换到一个统一的度量上。
I:代表情感状态的改善,可以通过深度情感网络的预测结果来量化。例如,可以计算学生在一段时间内情感状态的平均改善。
α、β、γ、δ、ε:是调整权重的系数,可以根据实际需要来进行调整,以反映出对于学习成果、反馈满意度和情感状态的重视程度。
这个奖励函数的设计充分考虑了学生的学习效果、满意度和情感状态以及学生的改进,它有助于本实施例提供的智能教学方法进行更好的决策,为学生提供更加个性化和高效的教学体验。同时,这个奖励函数是可调的,可以根据实际的教学目标和学生的反馈进行动态调整。
(3)深度强化学习参数的调整:在每一步,都可以根据奖励函数和深度强化学习算法(例如Q-learning或者Actor-Critic等)来更新本实施例中的策略网络的参数。例如,可以使用梯度上升方法来更新策略网络的参数,使得在当前状态下,预期奖励最大化的动作的概率更高。
深度强化学习参数的调整是一个核心环节,它是智能教学***中策略优化的关键。在深度强化学习中,通过策略网络来表示和执行策略,而策略网络的参数就决定了它的行为。
下面,本实施例详细说明这个过程:
(a)奖励函数和状态:假设智能教学***正在和一个学生进行互动教学,每一步的教学动作可以是解释一个新概念、提供一个实例、提供一些额外的学习资源,或者进行一次小测验等。在每一步,***都可以观察到当前的状态,这包括学生的学习进度,理解程度,情绪状态,以及他们对之前的教学内容和方式的反馈等。此外,***还会收到上一步行动的奖励,这是通过前面定义的奖励函数计算出来的。
(b)决策和执行:基于当前的状态和奖励函数,策略网络会产生一个动作,这个动作是从所有可能的动作中选择出来的。这个选择过程通常是基于概率的,也就是说,每一个可能的动作都有一个概率被选择,这个概率是由策略网络的参数决定的。
(c)参数更新:执行动作后,***会得到新的状态和奖励。然后,就可以根据这个新的信息来更新策略网络的参数了。具体来说,本实施例希望策略网络能够更偏向于选择能带来更高奖励的动作。为了实现这个目标,可以使用梯度上升法来调整策略网络的参数。这个过程可以看作是在策略空间中向上爬山,希望找到一个策略,使得在所有可能的状态下,预期的总奖励最大。
为了进行参数更新,首先要计算梯度。在深度强化学习中,梯度通常是通过回溯(backpropagation)计算得出的。根据奖励和新的状态来计算值函数或者优势函数的估计,然后计算这个估计和策略网络输出的差的梯度。这个梯度就反映了需要如何改变策略网络的参数,以便增加预期的总奖励。
然后,就可以使用这个梯度来更新策略网络的参数了。具体来说,将参数向梯度的方向移动一小步,这样可以使得预期的总奖励增加。这个步长通常由一个叫做学习率的超参数决定。
以上就是深度强化学习参数的调整过程。需要注意的是,这个过程需要大量的数据和计算资源。因此,为了提高效率,通常会在一批数据上进行更新,而不是在每一步都进行。这种方法被称为批量更新或者小批量更新,它可以大大提高计算效率,同时还可以提高学习的稳定性。
(4)策略的执行和评估:然后,可以用更新后的策略来决定新的教学内容和方式。执行这个新的策略,并收集新的学习成果和反馈信息。然后,可以用这些新的数据来评估本实施例中的策略,观察是否有改进。
(5)迭代优化:这个过程是迭代的,可以反复执行上述步骤,持续收集新的数据,调整奖励函数,更新策略网络的参数,执行新的策略,评估效果,直到满意为止。
这个过程中可能需要根据具体情况进行一些调整。例如,可能需要在实践中不断调整奖励函数,以确保它能有效地反映本实施例的目标。
在上述的实施例中,提供了一种基于深度强化学习的情感感知智能教学方法,与之相对应的,本申请还提供一种基于深度强化学习的情感感知智能教学***。请参看图4,其为本申请的一种基于深度强化学习的情感感知智能教学***实施例的示意图。由于本实施例,即第二实施例,基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的***实施例仅仅是示意性的。
本申请第二实施例提供一种基于深度强化学习的情感感知智能教学***,包括:
收集单元401,用于收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据;
数据获得单元402,用于使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括但不限于学习行为特征以及与情感有关的特征;
情感获得单元403,用于将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态;
调整单元404,用于根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程可以由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。
本申请第三实施例提供一种电子设备,所述电子设备包括:
处理器;
存储器,用于存储程序,所述程序在被所述处理器读取执行时,执行本申请第一实施例中提供的情感感知智能教学方法。
本申请第四实施例提供一种计算机可读取存储介质,其上存储有计算机程序,该程序被处理器执行时,执行本申请第一实施例中提供的情感感知智能教学方法。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims (10)

1.一种基于深度强化学习的情感感知智能教学方法,包括:
收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据;
使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括学习行为特征以及与情感有关的特征;
将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表所述预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态;
根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据学生的学习成果和反馈信息,调整并优化所述深度强化学习的参数,以改进未来的教学效果。
3.根据权利要求1所述的方法,其特征在于,所述使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,包括:
利用预训练的Transformer模型,将所述文本数据转化为反映其语义信息的数值表示,获得文本特征;
采用卷积神经网络或循环神经网络处理所述音频数据,将其转化为频谱图,并从频谱图中提取音频特征;
使用3D卷积神经网络或者时间卷积网络处理所述视频数据,获得视频特征,包括学生的面部表情和肢体语言的信息;
利用特定的特征融合策略,整合文本特征、音频特征、视频特征成一个统一的多模态表示,并将整合后的多模态表示作为预处理后数据,所述预处理后数据包括学习行为特征以及与情感有关的特征。
4.根据权利要求1所述的方法,其特征在于,所述将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,包括:
对预处理后数据进行特定模态的卷积和池化操作,获得文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息;
对于所述的文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息进行特征融合,获得融合后特征,所述特征融合的操作可以通过简单的串联,或者使用加权平均或者注意力机制对不同模态的特征赋予不同的权重;
对所述融合后特征进行全连接操作,获得全连接操作后数据,其中,所述全连接操作包括通过权重和偏置进行线性变换,以及通过非线性激活函数进行非线性变换,从而进行进一步的特征提取和组合;
将所述全连接操作后数据进行长短期记忆神经网络处理,获得长短期记忆神经网络处理后数据;
将所述长短期记忆神经网络处理后数据进行输出处理,包括通过一个线性变换和一个激活函数操作来输出学生的情感状态。
5.根据权利要求4所述的方法,其特征在于,所述对预处理后数据进行特定模态的卷积和池化操作,获得文本数据中的关键信息、音频数据中的关键信息以及视频数据中的关键信息,包括:
对于文本数据,通过嵌入操作将其转换为固定长度的向量,然后通过一维卷积和池化操作提取文本数据中的关键信息;
对于音频数据,通过二维卷积和池化操作提取音频数据中的关键信息;
对于视频数据,通过三维卷积和池化操作提取视频数据中的关键信息。
6.根据权利要求1所述的方法,其特征在于,所述根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式还包括:
根据学生的学习历史数据,设定个性化的情感阈值;
当学生的情感状态超过设定的个性化的情感阈值时,使用深度强化学习算法动态调整教学内容和方式。
7.根据权利要求6所述的方法,其特征在于,所述根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,还包括:
当学生的情感状态超过设定的个性化的情感阈值时,根据特定情感状态选择对应的教学策略;
其中,所述教学策略包括重复或以不同方式解释概念,或者引入类比、故事、游戏等教学元素,以更生动、有趣的方式重新解释难以理解的内容。
8.根据权利要求2所述的方法,其特征在于,所述根据学生的学习成果和反馈信息,调整并优化所述深度强化学习的参数,以改进未来的教学效果,包括:
确定基于学生的学习成果和反馈信息的奖励函数;
利用所述奖励函数以及深度强化学习算法更新所述深度强化学习的参数。
9.根据权利要求8所述的方法,其特征在于,所述奖励函数为:
R=α*L+β*F+γ*E+δ*P+ε*I,
其中,R为奖励函数的输出值,代表了***在当前状态下采取某一动作的总体奖励;L代表学习成果;F代表反馈满意度;E代表学生的情感状态;P学习进步;I代表情感状态的改善;α、β、γ、δ、ε是调整权重的系数。
10.一种基于深度强化学习的情感感知智能教学***,其特征在于,包括:
收集单元,用于收集学生的多模态数据,包括教学过程中产生的文本数据,音频数据,以及视频数据;
数据获得单元,用于使用深度学习模型对所述多模态数据进行预处理,获得预处理后数据,其中所述预处理后数据包括学习行为特征以及与情感有关的特征;
情感获得单元,用于将所述预处理后数据作为输入,使用深度情感网络获得学生的情感状态,其中所述深度情感网络的表达式为:E=f(X;Φ),其中E代表学生的情感状态,X代表预处理后数据,Φ代表深度情感网络的参数,f代表深度情感网络的运算过程,输出为学生的情感状态;
调整单元,用于根据所述学习行为特征以及学生的情感状态,使用深度强化学习算法动态调整教学内容和方式,其中深度强化学习的更新过程可以由以下公式描述:
其中θ_t是在时刻t的策略网络参数,α是学习率,δ_t是TD错误,A_t是在状态S_t下采取的动作,π(A_t|S_t,θ_t)是在状态S_t下采取动作A_t的概率,输出为动态调整后的教学内容和方式。
CN202311327454.5A 2023-10-13 2023-10-13 一种基于深度强化学习的情感感知智能教学方法及*** Pending CN117591870A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311327454.5A CN117591870A (zh) 2023-10-13 2023-10-13 一种基于深度强化学习的情感感知智能教学方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311327454.5A CN117591870A (zh) 2023-10-13 2023-10-13 一种基于深度强化学习的情感感知智能教学方法及***

Publications (1)

Publication Number Publication Date
CN117591870A true CN117591870A (zh) 2024-02-23

Family

ID=89908803

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311327454.5A Pending CN117591870A (zh) 2023-10-13 2023-10-13 一种基于深度强化学习的情感感知智能教学方法及***

Country Status (1)

Country Link
CN (1) CN117591870A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875407A (zh) * 2024-03-11 2024-04-12 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN118097761A (zh) * 2024-04-28 2024-05-28 江西旅游商贸职业学院 一种注意力分析的课堂教学难点分析方法与***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875407A (zh) * 2024-03-11 2024-04-12 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN117875407B (zh) * 2024-03-11 2024-06-04 中国兵器装备集团自动化研究所有限公司 一种多模态持续学习方法、装置、设备及存储介质
CN118097761A (zh) * 2024-04-28 2024-05-28 江西旅游商贸职业学院 一种注意力分析的课堂教学难点分析方法与***

Similar Documents

Publication Publication Date Title
CN117591870A (zh) 一种基于深度强化学习的情感感知智能教学方法及***
Chrysafiadi et al. Advances in personalized web-based education
CN112257966B (zh) 模型处理方法、装置、电子设备及存储介质
CN111126552B (zh) 一种智能学习内容推送方法及***
Mehrotra Basics of artificial intelligence & machine learning
CN110377707B (zh) 基于深度项目反应理论的认知诊断方法
CN113591988B (zh) 知识认知结构分析方法、***、计算机设备、介质、终端
Cabada et al. Mining of educational opinions with deep learning
CN114254127A (zh) 学生能力画像方法、学习资源推荐方法及装置
CN116738959B (zh) 一种基于人工智能的简历改写方法及***
CN116186250A (zh) 小样本条件下的多模态学***挖掘方法、***及介质
CN113360618A (zh) 一种基于离线强化学习的智能机器人对话方法及***
Casalino et al. Deep learning for knowledge tracing in learning analytics: an overview.
Hussain et al. Robotics and automation with artificial intelligence: improving efficiency and quality
CN116882450B (zh) 问答模型的编辑方法、装置、电子设备和存储介质
CN117438047A (zh) 心理咨询模型训练和心理咨询处理方法、装置及电子设备
CN117112742A (zh) 一种对话模型优化方法、装置、计算机设备和存储介质
CN116936037A (zh) 一种基于人工智能的线上心理咨询方法和***
Karacı et al. Determining students’ level of page viewing in intelligent tutorial systems with artificial neural network
CN114358988B (zh) 基于ai技术的教学方式推送方法及装置
Su et al. Dialog State Tracking and action selection using deep learning mechanism for interview coaching
Jawahar Personalized ECA Tutoring with Self-Adjusted POMDP Policies and User Clustering
Weng Machines develop consciousness through autonomous programming for general purposes (APFGP)
Lai Deep Learning Network-Based Evaluation method of Online teaching quality of International Chinese Education
Fernández et al. Exploring approaches to educational data mining and learning analytics, to measure the level of acquisition of student's learning outcome

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination