CN115730244A - 联合文本分类和序列标注的课堂行为分类方法及装置 - Google Patents
联合文本分类和序列标注的课堂行为分类方法及装置 Download PDFInfo
- Publication number
- CN115730244A CN115730244A CN202211427705.2A CN202211427705A CN115730244A CN 115730244 A CN115730244 A CN 115730244A CN 202211427705 A CN202211427705 A CN 202211427705A CN 115730244 A CN115730244 A CN 115730244A
- Authority
- CN
- China
- Prior art keywords
- classification
- teaching
- classroom
- training
- loss function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种联合文本分类和序列标注的课堂行为分类方法及装置;所述方法包括:获取教学视频数据并对其进行语音转写,形成初始语料;对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类;本申请实施例实现对计算资源和数据量进行快速精确地分析和分类,课堂教学行为分类效果高效准确。
Description
技术领域
本申请实施例涉及课堂行为分类技术领域,尤其涉及一种联合文本分类和序列标注的课堂行为分类方法及装置。
背景技术
我国课堂教学改革正在进入促进学生深度学习的阶段,不仅需要对教学的外在形式如自主合作探究的实效性进行评价,而且需要对课堂教学占据最多时间的教学语言的效果进行分析,评价教学语言在促进学生自主参与、高级思维能力发展的实效。美国学者弗兰德斯指出,课堂教学活动中教师和学生主要依靠语言来进行交流,语言行为占到总体课堂教学行为的80%。然而,传统的教学语言分析已经无法满足如今在线课堂背景下教育领域的需求。在传统的教学语言分析当中,教学语言需要人工进行记录,并在之后进行手动的编码和标注。而如今,我们可以利用人工智能当中的语音识别和自然语言处理技术代替这个过程,在更为高效和精确的信息化技术的赋能下,对在线课堂以至于其它课堂录像之中的课堂语言信息进行切分、识别、归类、编码和统计,并以此为基础对新老教师的课堂提供客观、翔实、全局性的教学评价。但是现有的课堂教学分析技术无法对计算资源和数据量进行快速精确地分析和分类,分类预测效果不好。
发明内容
本申请实施例提供一种联合文本分类和序列标注的课堂行为分类方法及装置,实现对计算资源和数据量进行快速精确地分析和分类,课堂教学行为分类效果高效准确。
在第一方面,本申请实施例提供一种联合文本分类和序列标注的课堂行为分类方法,所述方法包括以下步骤:
获取教学视频数据并对其进行语音转写,形成初始语料;
对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;
构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;
对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
进一步的,所述将所述篇章数据输入到无监督预训练模型进行增量预训练之前,还包括:
构建句子级的对比学习样本,通过softmax分类器对该对比学习样本进行三类损失函数预测并相加,得到NSP任务的总体损失函数:
LcNSP=αLNSP+βLPSP+σLRSP;
其中,LcNSP为经过对比学习方法改进之后的NSP任务的总体损失函数;LNSP、LPSP和LRSP为cNSP任务下的三个子任务的损失函数;α、β和σ为三个子任务在总损失函数中对应的权重系数;h为在不同子任务下神经网络隐层最后一层的输出;softmax()代表使用softmax函数进行归一化处理,并计算结果的交叉熵损失;
构建词语级对比学习样本,词语级任务的损失函数为:
其中,LcMLM表示经过对比学习之后MLM任务的总体损失函数,θ表示模型的参数集,k表示每个被打乱的子序列的长度,pos代表Bert模型输入当中规定词语位置的positionembedding。
进一步的,所述将所述篇章数据输入到无监督预训练模型进行增量预训练,包括:
无监督训练阶段的损失函数为:
L=η1LcNSP+η2LcMLM;
其中,η1和η2为子任务对应的权重系数;
将所述篇章数据输入到无监督训练阶段的损失函数中,以完成增量训练。
进一步的,所述构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,包括:
序列标注任务当中,使用Bi-LSTM+CRF的模型结构来完成此任务,因此该阶段的损失函数由CRF产生,序列标注任务的损失函数为:
yst=CRF(Hst);
其中,Hst为经过Bert编码之后得到的[CLS]序列,CRF()代表对Hst后接一个条件随机场进行处理,由此得到yst;
文本分类任务的损失函数:
其中,Wlc是分类任务当中的权重矩阵,Hlc是用于文本分类任务的句子文本表示,blc为偏置量,由此得到ylc
训练的联合损失函数由序列标注和文本分类两个任务的联合损失函数得到:
yall=αylc+βyst;
将所述篇章数据输入到所述联合损失函数进行训练。
进一步的,所述利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵,包括:
训练完成,利用有监督预训练模型对所述篇章数据进行预测,得到一组标签数据;
将所述篇章数据按照教学行为分类标签矩阵的模板进行排列,以得到教学行为分类标签矩阵Wteach;
所述教学行为分类标签矩阵为一个m×n的矩阵,对于不同长度的课堂而言,方阵的大小(即m和n的大小)不同,将m称为句子批量,n称为句子批次,整个矩阵描绘的即是在n个相同批量(m)的批次下,教学行为标签的排列顺序。
进一步的,所述对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类,包括:
统计师生语言占课堂语言总量的百分比;
统计师生互动时长;
统计具体教学行为占总体教学行为的百分比;
根据师生语言占课堂语言总量的百分比、师生互动时长和具体教学行为占总体教学行为的百分比,分析课堂教学模式。
进一步的,所述对所述初始语料进行预处理,包括:
对所述初始语料进行第一切分操作,得到第一切分数据;
对所述第一语料进行第二切分操作,得到篇章数据。
在第二方面,一种联合文本分类和序列标注的课堂行为分类装置,包括:
数据获取模块,用于获取教学视频数据并对其进行语音转写,形成初始语料;
第一处理模块,用于对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;
第二处理模块,用于构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;
行为分类模块,用于对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
在第三方面,本申请实施例还提供一种计算机设备,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的一种联合文本分类和序列标注的课堂行为分类方法。
在第四方面,本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如上述的一种联合文本分类和序列标注的课堂行为分类方法。
本申请实施例通过获取教学视频数据并对其进行语音转写,形成初始语料;对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类;实现对计算资源和数据量进行快速精确地分析和分类,课堂教学行为分类效果高效准确。
附图说明
图1是本申请实施例提供的一种联合文本分类和序列标注的课堂行为分类方法的流程图;
图2为本申请实施例提供的算法模型框架图;
图3为本申请实施例提供的利用教学行为分类标签矩阵进行教学评价效果图;
图4是本申请实施例提供的一种联合文本分类和序列标注的课堂行为分类装置的结构示意图;
图5是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
本申请实施例建立一套联合文本分类和序列标注的课堂行为分类方法,实现对计算资源和数据量进行快速精确地分析和分类,课堂教学行为分类效果高效准确。
实施例中提供的联合文本分类和序列标注的课堂行为分类方法可以由联合文本分类和序列标注的课堂行为分类装置执行,该联合文本分类和序列标注的课堂行为分类装置可以通过软件和/或硬件的方式实现,并集成在联合文本分类和序列标注的课堂行为分类设备中。其中,联合文本分类和序列标注的课堂行为分类设备可以是计算机等设备。
图1为本申请实施例提供的一种联合文本分类和序列标注的课堂行为分类方法的流程图。参考图1,所述方法包括以下步骤:
步骤110、获取教学视频数据并对其进行语音转写,形成初始语料。
示例性的,由于本申请实施例教学评价的主体对象是课程,因此在对初始语料进行数据预处理时,首先需要将整个语料切分为一个个篇章级的课堂语言文本。在此基础上,再将一个个篇章级的课堂语言文本切分为句,这里的句子其长度一般不超过64个字,对于超过64个字的句子,本申请实施例对其采用切分的方式。由于简单的切分有可能会破坏句子的语义连贯性,本申请实施例通过人工标注的方式完成了这项工作。
步骤120、对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练。
具体的,所述对所述初始语料进行预处理,包括:对所述初始语料进行第一切分操作,得到第一切分数据;
对所述第一语料进行第二切分操作,得到篇章数据。
具体的,所述将所述篇章数据输入到无监督预训练模型进行增量预训练之前,还包括:
建立无监督预训练模型,具体为:
构建句子级的对比学习样本,通过softmax分类器对该对比学习样本进行三类损失函数预测并相加,得到NSP任务的总体损失函数:
LcNSP=αLNSP+βLPSP+σLRSP;
其中,LcNSP为经过对比学习方法改进之后的NSP任务的总体损失函数;LNSP、LPSP和LRSP为cNSP任务下的三个子任务的损失函数;α、β和σ为三个子任务在总损失函数中对应的权重系数;h为在不同子任务下神经网络隐层最后一层的输出;softmax()代表使用softmax函数进行归一化处理,并计算结果的交叉熵损失;
构建词语级对比学习样本,词语级任务的损失函数为:
其中,LcMLM表示经过对比学习之后MLM任务的总体损失函数,θ表示模型的参数集,k表示每个被打乱的子序列的长度,pos代表Bert模型输入当中规定词语位置的positionembedding。
进一步的,所述将所述篇章数据输入到无监督预训练模型进行增量预训练,包括:
无监督训练阶段的损失函数为:
L=η1LcNSP+η2LcMLM;
其中,η1和η2为子任务对应的权重系数;
将所述篇章数据输入到无监督训练阶段的损失函数中,以完成增量训练。
步骤130、构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵。
由于课堂语言文本数据既是可以单句拆分,逐句分类的篇章级文本数据,又是自带逻辑性、顺序性的句元型序列数据,因此可以同时进行文本分类和序列标注两项自然语言处理预测任务。
具体的,请参照图2,所述构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,包括:
序列标注任务当中,使用Bi-LSTM+CRF的模型结构来完成此任务,因此该阶段的损失函数由CRF产生,序列标注任务的损失函数为:
yst=CRF(Hst);
其中,Hst为经过Bert编码之后得到的[CLS]序列,CRF()代表对Hst后接一个条件随机场进行处理,由此得到yst;
文本分类任务的损失函数:
其中,Wlc是分类任务当中的权重矩阵,Hlc是用于文本分类任务的句子文本表示,blc为偏置量,由此得到ylc
训练的联合损失函数由序列标注和文本分类两个任务的联合损失函数得到:
yall=αylc+βyst;
将所述篇章数据输入到所述联合损失函数进行训练。
进一步的,所述利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵,包括:
训练完成,利用有监督预训练模型对所述篇章数据进行预测,得到一组标签数据;
将所述篇章数据按照教学行为分类标签矩阵的模板进行排列,以得到教学行为分类标签矩阵Wteach;
所述教学行为分类标签矩阵为一个m×n的矩阵,对于不同长度的课堂而言,方阵的大小(即m和n的大小)不同,将m称为句子批量,n称为句子批次,整个矩阵描绘的即是在n个相同批量(m)的批次下,教学行为标签的排列顺序。
示例性的,模型的输入是人工预先标注好的顺序型篇章级课堂教学语言数据,在无监督训练阶段,无需对数据进行标注,只需将语言文本按照顺序输入模型,使其进行两个预训练任务。对于每一个MLM任务,对比学习中正负样本的构建规则是:三分之一的词语维持正常顺序并被[mask]标记遮掩、三分之一的词语调换目前的顺序并被[mask]标记遮掩,三分之一的词语被随机的词语所替代并被[mask]标记遮掩。对于每一个NSP任务,对比学习中正负样本的构建规则是:三分之一的句子保持原来的任务,预测下一个句子(NSP),三分之一的句子改为预测前一个句子(PSP),三分之一的句子改为预测一个被随机替代的前一个或后一个句子(RSP),显著提升模型的鲁棒性。
可以理解的是,由于教学语言文本是具备连续性的、有逻辑的、不可随意调换顺序的,因此在进行单纯的对于教学行为文本分类任务的基础上,又可以把一篇连续的课堂语言文本的分类看作是一个序列标注任务。本申请实施例创造性的提出同时进行两个任务的模型架构,通过结合双任务损失函数来提高模型对教学行为分类的任务效果和性能。
可以理解的是,由于本申请实施例选择的是预训练bert模型,因此在无监督预训练阶段,本申请实施例可以使用大量无标记的教育领域语料对bert模型进行增量预训练,这样做可以有效提高模型在之后下游任务上的表现。在预训练的过程中,本申请实施例使用对比学习构建正负样本的方式对模型的鲁棒性和泛化能力进行了增强,由于下游任务是文本分类与序列标注双任务框架,因此MLM和NSP两个预训练任务正好从词的角度和句子的角度对模型的向量表示进行了加强,打破了以往仅注重MLM的预训练方式,挖掘出了NSP任务的潜在价值。
步骤140、对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
具体的,统计师生语言占课堂语言总量的百分比;统计师生互动时长;统计具体教学行为占总体教学行为的百分比。
根据师生语言占课堂语言总量的百分比、师生互动时长和具体教学行为占总体教学行为的百分比,分析课堂教学模式。
示例性的,课堂语言首先被分为教师与学生两大类。教师的语言分为:提问、讲授、指示、接纳学生观点、回应学生提问、回答自己的问题共6个模块。而其中教师提问又细分为:聚焦教学内容的提问、激发元认知的提问、激发学生参与的提问、聚焦评价的提问以及其它共5个模块。其中聚焦教学内容的提问又细分为:需要学生回答是或否的提问、需要学生简单命名或陈述的提问、需要学生描述或解释的提问3个模块。学生的语言分为:回答、提问、讲授、指示、接纳共5个模块。通过以上两个例子可以看出,按照一定的标准对课堂语言行为进行归类、编码,有助于利用文本分类技术对其进行自动化划分,一旦拥有了科学、合理的课堂语言行为编码指标,我们就可以对课堂语言进行精准、科学、多维度的归类整理,并从中统计出有意义的教育信息。
图3显示了模型输出的教学行为分类标签矩阵以及利用该矩阵进行教学评价的方法,通过矩阵,可以统计出在一节课堂当中各类教学行为出现的次序、时点、规律和频数,再根据这些信息去推断出教师的课堂风格和对应的教学效果。标签矩阵是按照课堂演进顺序排列的,不仅可以从中分析教师、学生各类行为的占比,还可以通过时间片段的截取分析教师在不同时段当中做出的重点行为及其对学生的影响,进而对整体课堂的教学模式进行判断。
示例性的,统计师生语言占课堂语言总量的百分比:假设一堂课的言语总量由5000个句子构成,则当中就包含这5000个句子的标签,通过统计来自教师的行为标签和来自学生的行为标签的个数,可以得到师生各自在课堂当中的行为占比,以此判断该课堂更加倾向于以教师为主导的课堂亦或是以学生为主导的课堂。
示例性的,统计师生互动时长:在师生进行互动时,教师与学生的行为标签将在矩阵当中以一个序列交替变化,统计该变化序列的长度可以得出教师和学生在一堂课当中的互动时长。
示例性的,统计某种教学行为占总体教学行为的百分比:可以在矩阵当中提取出某种关键教学行为,例如教师的技术操作,进而分析教师在整堂课当中有多少时间向学生展示了技术操作,为分析教师的某种行为对课堂实效产生的价值做铺垫。
示例性的,总体分析课堂教学模式:通过对不同标签类型的组合,可以得知讲授型、自主探究型、提问互动型的教师在课堂之中各类教学行为的占比不同,通过统计不同行为标签类型组合的占比,可以综合分析出一名教师在一堂课当中的课堂教学模式,进而为教师改进课堂,新老教师之间进行经验学习提供帮助。
上述,本申请实施例提出的模型使用上游无监督学习+下游有监督学习的预训练模型框架,在无监督学习部分采用对比学习的方法构建正负样本,利用教育领域的无标签数据对模型进行增量预训练,显著提高了模型在分类预测性能上的效果。
本申请实施例考虑到课堂语言文本的特殊性,创造性地将序列标注和文本分类两种任务结合在一起解决课堂行为分类问题,充分利用了此前相关学界较少关注的在无监督学习阶段的NSP预训练任务的价值。
本申请实施例构建教学行为标签矩阵,将人工智能模型和算法与课堂行为分析相结合,拓宽了教学行为分析的工具和途径。利用人工智能进行的自动化教学评价相比人工的教学评价会更高效且客观,有助于一次性分析大量的课程并且从中筛选出需要的教学评价信息。由于该算法是基于教学语言进行分析而得出的教学评价结果,因此对于过程性教学评价也具有一定的参考价值和参考意义。
在上述实施例的基础上,图,4为本申请实施例提供的一种联合文本分类和序列标注的课堂行为分类装置的结构示意图。参考图4,本实施例提供的联合文本分类和序列标注的课堂行为分类装置具体包括:数据获取模块101、第一处理模块102、第二处理模块103和行为分类模块104。
其中,所述数据获取模块用于获取教学视频数据并对其进行语音转写,形成初始语料;所述第一处理模块用于对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;所述第二处理模块用于构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;所述行为分类模块用于对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
上述,通过获取教学视频数据并对其进行语音转写,形成初始语料;对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类;实现对计算资源和数据量进行快速精确地分析和分类,课堂教学行为分类效果高效准确。
本申请实施例提供的联合文本分类和序列标注的课堂行为分类装置可以用于执行上述实施例提供的联合文本分类和序列标注的课堂行为分类方法,具备相应的功能和有益效果。
本申请实施例还提供了一种计算机设备,该计算机设备可集成本申请实施例提供的联合文本分类和序列标注的课堂行为分类装置。图5是本申请实施例提供的一种计算机设备的结构示意图。参考图5,该计算机设备包括:输入装置43、输出装置44、存储器42以及一个或多个处理器41;所述存储器42,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器41执行,使得所述一个或多个处理器41实现如上述实施例提供的联合文本分类和序列标注的课堂行为分类方法。其中输入装置43、输出装置44、存储器42和处理器41可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器41通过运行存储在存储器42中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的联合文本分类和序列标注的课堂行为分类方法。
上述提供的计算机设备可用于执行上述实施例提供的联合文本分类和序列标注的课堂行为分类方法,具备相应的功能和有益效果。
本申请实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种联合文本分类和序列标注的课堂行为分类方法,该联合文本分类和序列标注的课堂行为分类方法包括:获取教学视频数据并对其进行语音转写,形成初始语料;对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机装置存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDORAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外,存储介质可以位于程序在其中被执行的第一计算机装置中,或者可以位于不同的第二计算机装置中,第二计算机装置通过网络(诸如因特网)连接到第一计算机装置。第二计算机装置可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机装置中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的联合文本分类和序列标注的课堂行为分类方法,还可以执行本申请任意实施例所提供的联合文本分类和序列标注的课堂行为分类方法中的相关操作。
上述实施例中提供的联合文本分类和序列标注的课堂行为分类装置、存储介质及计算机设备可执行本申请任意实施例所提供的联合文本分类和序列标注的课堂行为分类方法,未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的联合文本分类和序列标注的课堂行为分类方法。
上述仅为本申请的较佳实施例及所运用的技术原理。本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行的各种明显变化、重新调整及替代均不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由权利要求的范围决定。
Claims (10)
1.一种联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述方法包括以下步骤:
获取教学视频数据并对其进行语音转写,形成初始语料;
对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;
构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;
对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
2.根据权利要求1所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述将所述篇章数据输入到无监督预训练模型进行增量预训练之前,还包括:
构建句子级的对比学习样本,通过softmax分类器对该对比学习样本进行三类损失函数预测并相加,得到NSP任务的总体损失函数:
LcNSP=αLNSP+βLPSP+σLRSP;
其中,LcNSP为经过对比学习方法改进之后的NSP任务的总体损失函数;LNSP、LPSP和LRSP为cNSP任务下的三个子任务的损失函数;α、β和σ为三个子任务在总损失函数中对应的权重系数;h为在不同子任务下神经网络隐层最后一层的输出;softmax()代表使用softmax函数进行归一化处理,并计算结果的交叉熵损失;
构建词语级对比学习样本,词语级任务的损失函数为:
其中,LcMLM表示经过对比学习之后MLM任务的总体损失函数,θ表示模型的参数集,k表示每个被打乱的子序列的长度,pos代表Bert模型输入当中规定词语位置的positionembedding。
3.根据权利要求2所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述将所述篇章数据输入到无监督预训练模型进行增量预训练,包括:
无监督训练阶段的损失函数为:
L=η1LcNSP+η2LcMLM;
其中,η1和η2为子任务对应的权重系数;
将所述篇章数据输入到无监督训练阶段的损失函数中,以完成增量训练。
4.根据权利要求1所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,包括:
序列标注任务当中,使用Bi-LSTM+CRF的模型结构来完成此任务,因此该阶段的损失函数由CRF产生,序列标注任务的损失函数为:
yst=CRF(Hst);
其中,Hst为经过Bert编码之后得到的[CLS]序列,CRF()代表对Hst后接一个条件随机场进行处理,由此得到yst;
文本分类任务的损失函数:
其中,Wlc是分类任务当中的权重矩阵,Hlc是用于文本分类任务的句子文本表示,blc为偏置量,由此得到ylc
训练的联合损失函数由序列标注和文本分类两个任务的联合损失函数得到:
yall=αylc+βyst;
将所述篇章数据输入到所述联合损失函数进行训练。
5.根据权利要求4所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵,包括:
训练完成,利用有监督预训练模型对所述篇章数据进行预测,得到一组标签数据;
将所述篇章数据按照教学行为分类标签矩阵的模板进行排列,以得到教学行为分类标签矩阵Wteach;
所述教学行为分类标签矩阵为一个m×n的矩阵,对于不同长度的课堂而言,方阵的大小(即m和n的大小)不同,将m称为句子批量,n称为句子批次,整个矩阵描绘的即是在n个相同批量(m)的批次下,教学行为标签的排列顺序。
6.根据权利要求1所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类,包括:
统计师生语言占课堂语言总量的百分比;
统计师生互动时长;
统计具体教学行为占总体教学行为的百分比;
根据师生语言占课堂语言总量的百分比、师生互动时长和具体教学行为占总体教学行为的百分比,分析课堂教学模式。
7.根据权利要求1所述的联合文本分类和序列标注的课堂行为分类方法,其特征在于,所述对所述初始语料进行预处理,包括:
对所述初始语料进行第一切分操作,得到第一切分数据;
对所述第一语料进行第二切分操作,得到篇章数据。
8.一种联合文本分类和序列标注的课堂行为分类装置,其特征在于,包括:
数据获取模块,用于获取教学视频数据并对其进行语音转写,形成初始语料;
第一处理模块,用于对所述初始语料进行预处理后获得篇章数据,将所述篇章数据输入到无监督预训练模型进行增量预训练;
第二处理模块,用于构建文本分类和序列标注的联合损失函数对所述篇章数据进行训练,利用有监督预训练模型对所述篇章数据进行预测,得出教学行为分类标签矩阵;
行为分类模块,用于对所述教学行为分类标签矩阵进行分析,得到联合文本分类和序列标注的课堂行为分类。
9.一种计算机设备,其特征在于,包括:存储器以及一个或多个处理器;
所述存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一所述的一种联合文本分类和序列标注的课堂行为分类方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的一种联合文本分类和序列标注的课堂行为分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211427705.2A CN115730244A (zh) | 2022-11-15 | 2022-11-15 | 联合文本分类和序列标注的课堂行为分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211427705.2A CN115730244A (zh) | 2022-11-15 | 2022-11-15 | 联合文本分类和序列标注的课堂行为分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115730244A true CN115730244A (zh) | 2023-03-03 |
Family
ID=85295807
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211427705.2A Pending CN115730244A (zh) | 2022-11-15 | 2022-11-15 | 联合文本分类和序列标注的课堂行为分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730244A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021580A (zh) * | 2021-10-14 | 2022-02-08 | 华南师范大学 | 基于序列模式挖掘的课堂对话处理方法、***和存储介质 |
CN118116609A (zh) * | 2024-04-23 | 2024-05-31 | 上海森亿医疗科技有限公司 | 医疗数据项资产敏感性识别方法、***、终端及介质 |
-
2022
- 2022-11-15 CN CN202211427705.2A patent/CN115730244A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114021580A (zh) * | 2021-10-14 | 2022-02-08 | 华南师范大学 | 基于序列模式挖掘的课堂对话处理方法、***和存储介质 |
CN118116609A (zh) * | 2024-04-23 | 2024-05-31 | 上海森亿医疗科技有限公司 | 医疗数据项资产敏感性识别方法、***、终端及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115730244A (zh) | 联合文本分类和序列标注的课堂行为分类方法及装置 | |
Wulff et al. | Computer-based classification of preservice physics teachers’ written reflections | |
Longo | Empowering qualitative research methods in education with artificial intelligence | |
Alikovich Eshbayev et al. | An overview of a state of the art on developing soft computing-based language education and research systems: a survey of engineering English students in Uzbekistan | |
Jiang et al. | Examining computational thinking processes in modeling unstructured data | |
Holmberg et al. | A feature space focus in machine teaching | |
CN112883723A (zh) | 基于布鲁姆认知分类理论的深度神经网络认知水平评价模型 | |
Li et al. | Automated essay scoring incorporating multi-level semantic features | |
Tharmaseelan et al. | Revisit of automated marking techniques for programming assignments | |
Bai et al. | Gated character-aware convolutional neural network for effective automated essay scoring | |
Tan et al. | Does informativeness matter? Active learning for educational dialogue act classification | |
Makhlouf et al. | Mining Students' Comments to Build an Automated Feedback System. | |
Yang | Natural Language Enhancement for English Teaching Using Character-Level Recurrent Neural Network with Back Propagation Neural Network based Classification by Deep Learning Architectures. | |
Luo | Automatic short answer grading using deep learning | |
Alrajhi et al. | Plug & Play with Deep Neural Networks: Classifying Posts that Need Urgent Intervention in MOOCs | |
Wang et al. | Teacher talk moves in k12 mathematics lessons: Automatic identification, prediction explanation, and characteristic exploration | |
Cummaudo et al. | Emotions in computer vision service Q&A | |
LO et al. | Do my students understand? Automated identification of doubts from informal reflections | |
Das et al. | FACToGRADE: Automated essay scoring system | |
Pallegama et al. | Evaluating teaching content and assessments based on learning outcomes | |
Yang | Analysis of english cultural teaching model based on machine learning | |
Xue | Design of language assisted learning model and online learning system under the background of artificial intelligence | |
Gupta et al. | Fostering Interdisciplinary Learning for Elementary Students Through Developing Interactive Digital Stories | |
CN116776154B (zh) | 一种ai人机协同数据标注方法和*** | |
Gamieldien et al. | Utilizing Natural Language Processing to Examine Self-Reflections in Self-Regulated Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |