CN114385801A

CN114385801A - 一种基于分层细化lstm网络的知识追踪方法及***

Info

Publication number: CN114385801A
Application number: CN202111617839.6A
Authority: CN
Inventors: 董永峰; 黄港; 齐巧玲; 李林昊; 李英双
Original assignee: Hebei University of Technology
Current assignee: Hebei University of Technology
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-22

Abstract

本发明针对现有深度学习方法模型的不足，提出了一种基于分层细化LSTM网络的知识追踪方法及***，属于知识追踪技术领域，该方法包括：构件深度追踪知识模型：通过初步学习层、双层注意力层、深入学习层的层次化过程，在学生学习的过程中得到学生的知识掌握情况；学生知识掌握情况融合自注意力机制作为LSTM网络的输入，计算得到学生的最终知识掌握情况；基于学生的最终知识掌握情况预测学生回答问题是否正确。本发明提高了知识追踪的性能，同时在一定程度上提供了可解释性，可以更好的帮助学习者的制定个性化计划。

Description

一种基于分层细化LSTM网络的知识追踪方法及***

技术领域

本发明属于知识追踪技术领域，具体涉及一种基于分层细化LSTM网络的知识追踪方法及***。

背景技术

近年来，随着互联网在线教育地迅猛发展，例如MOOC、Udemy、Lynda等智能教学***和大规模在线开放课程平台日益普及，这为学生自主学***随时间的变化过程，以便能够准确地预测学生在未来的学习中的表现，从而提供相应的学习辅导。

具体来说，在线平台的学***台会有相对应的***台已回答过的习题序列放入模型中训练，模型能捕获序列中该学习者对知识的掌握程度的变化，当新的习题来到时，模型根据学习者对该习题相关知识的掌握程度来预测学习者是否能够回答正确。

目前知识追踪任务较为流行的模型可以分为两大类。一类是基于传统机器学习的模型，其中较为流行的有项目反应理论(IRT)、贝叶斯追踪(BKT)等方法，但是他们的缺点也较为明显，由于这些方法是基于统计学的数据分析，而数据表现出来的部分不够明显，因此它们知识追踪的性能比较差。而另一类则是基于深度学习的模型。ChrisPiech等人将深度学习引入了知识跟踪领域，极大地促进了知识跟踪的发展。随后学者在此基础上研究深度学习方法应用于知识追踪并且在性能上相对于传统的机器学习有很大的提升。但现存的深度学习方法模型仍然有以下不足：

(1)虽然将深度学习与知识追踪结合之后知识追踪任务的性能有了很大的提升，但知识追踪任务的准确率仍有较大的提升空间，同时说明了模型并不能对学生的知识状态完全掌握。

(2)现存的所有模型的输入数据形式较为单一，不利于模型的挖掘与分析。

(3)由于神经网络的“黑盒性质”，基于深度学习的知识追踪方法缺乏可解释性。

发明内容

本发明针对现有深度学习方法模型的不足，提出了一种基于分层细化LSTM网络的知识追踪方法及***，提高知识追踪的性能，可以更好的帮助学习者的制定个性化计划。

为实现上述目的，本发明的第一方面，提供了一种基于分层细化LSTM网络的知识追踪方法，包括：

S1构建深度追踪知识模型：通过初步学习层、双层注意力层、深入学习层的层次化过程，在学生学习的过程中得到学生的知识掌握情况；

S2学生知识掌握情况融合自注意力机制作为LSTM网络的输入，计算得到学生的最终知识掌握情况；

S3基于学生的最终知识掌握情况预测学生回答问题是否正确。

作为优选，所述初步学习层的知识状态捕捉包括如下步骤：

第一步，对原始数据集中每个学生的答题数据进行预处理，统计数据集中所有问题和知识点的数量，并对每个问题和知识点进行编号；

第二步：问题定义，给定一个学生在某一特定学习任务上的表现的观测序列X＝{x₁,x₂,x₃,...,x_t}，x_t＝{q_t,r_t}，其中q_t代表回答的问题成分，r_t代表该学生回答该问题的对错，r_t＝{0,1}；

第三步：输入层，从原始数据集中提取相关要素，并构建模型的输入：

q_t的数量为N，x_t的向量为2N；

第四步：数据细化层，通过学生的历史答题记录计算得到问题难度值和学生对知识点掌握程度的知识状态值，对q_t进行数据细化分类并挖掘问题中更深层次的信息：

d_t＝W_d·q_t+b_d

e_t＝W_e·q_t+b_e

d_t表示问题的难度，e_t表示问题中包含的知识点以及其关系，W_d、b_d表示的是问题难度的权重矩阵和偏置矩阵，W_e、b_e表示知识点的权重矩阵与偏置矩阵，

其中

第五步：初步提取层，利用LSTM对学生掌握的知识状态h_t进行初步提取。

作为优选，所述原始数据集包括每个学生的编号信息、学生的历史答题信息。

作为优选，所述双层注意力层包括问题层面和学生知识状态层面，所述问题层面包括问题难度和该问题所包含的知识点，所述学生知识状态层面包括学生的知识状态h_t，问题层面和学生知识状态层面分别使用自注意力机制快速提取出权重更大的问题难度矩阵

与知识点矩阵

作为优选，t时刻之前的问题层面和学生知识状态层面作为历史信息储存在记忆存储器中，记忆存储器包括记忆存储器

记忆存储器

记忆存储器

存储t时刻之前问题难度的历史信息，

存储t时刻之前问题所包含的知识点的历史信息，

存储t时刻之前学生知识状态的历史信息。

作为优选，根据问题难度矩阵

与知识点矩阵

结合学生的知识状态h_t作为深入学习层的输入来计算问题层面与学生知识状态层面的契合程度并且追踪学生对该问题各方面的最终掌握情况

作为优选，基于深入学习层得到的掌握情况

来预测该学生回答该问题正确的概率并评判学生是否能够回答正确。在t时刻其公式为：

其中

是可训练的参数。

作为优选，利用交叉熵损失函数来检验预测值与实际值的接近程度，并利用该函数进一步训练预测值模型的输入输出，使该预测模型的参数达到最优。

按照本发明的第二方面，提供了一种基于分层细化LSTM网络的知识追踪***，包括：

数据获取模块，用于获取每个学生的编号信息、学生的历史答题序列记录；

数据处理模块：对学生掌握的知识状态进行初步提取，并在问题层面和知识状态层面提取出权重更大的问题难度矩阵与知识点矩阵；

数据输出模块：输出学生回答问题正确的概率并评判学生是否能够回答正确。

按照本发明的第二方面，提供了一种计算机可读存取介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

与现有技术相比，本发明具有以下有益效果：本发明建立了一种新的分层深度网络架构。在分层细化LSTM架构中，首先在预提取层完成对学生t时刻的知识状态的初步捕获，然后将问题不同知识点特征的嵌入和初步知识状态输入到另一个LSTM网络中进行深层次的训练，并基于最终的学生知识状态做出预测；

本发明还设计了基于数据表示的细化：除了预提取层LSTM之外，我们还安排了对问题的嵌入矩阵来记录知识点的历史表达，并为状态提取LSTM产生更有效的特征信息。

附图说明

图1为基于分层细化LSTM网络的知识追踪方法的流程图；

图2为分层细化LSTM网络的知识追踪模型结构示意图；

图3为LSTM长短期记忆神经网络的结构示意图。

具体实施方式

下面结合附图所表示的实施例对本发明作进一步描述：

如图1到图3所示，一种基于分层细化LSTM网络的知识追踪方法，本发明提出的分层细化LSTM网络的知识追踪模型显著的提高了知识追踪任务的性能，除此之外，还对知识追踪的模型输入进行细化表示。具体步骤如下：

第一步，将每个学生的编号信息、学生的历史答题信息收集作为原始数据集。将原始数据集中的问题按照学生进行预处理，然后统计数据集中所有问题与知识点的数量，并对每个问题与概念进行编号，这样做方便模型进行训练。

第二步，对于每个学生，统计学生的答题序列，每个答题序列包含三行数据，第一行表示该学生答题的数量，第二行表示该学生答题的问题编号，第三行则表示学生是否正确回答该问题，正确回答则为1，否则为0。给定一个学生在某一特定学习任务上的表现的观测序列X＝{x₁,x₂,x₃,...,x_t}，x_t＝{q_t,r_t}，其中q_t代表回答的问题成分，是one-hot编码格式。r_t代表该学生回答该问题的对错，r_t＝{0,1}。

第三步，从原始数据中提取相关要素，并构建模型的输入。第一步已经统计到每个学生的答题序列，但是单个编号表达的信息有限。因此，我们使用one-hot编码格式对每个问题以及答题情况进行处理。在t时刻，模型的输入x_t由两部分组成。第一部分为维度为N的q_t，是由N个不同的习题组成。它是一个one-hot编码，只有对应题号的位置为1，其余位置则为0。第二部分是r_t，它是一个二进制的值，0或1组成，代表对应问题q_t是否回答正确，正确为1，否则为0。如果该问题学生回答正确，在q_t后面再拼接r_t,1，如果回答错误，则拼接r_t,0。

其中r_t,1,r_t,0都是维度为N的向量。r_t,1表示在对应题号位置为1，其余置0。而r_t,0则为

则x_t是一个维度为2N的向量。

第四步，由于模型的输入x_t是一个较为单一、信息量较少且稀疏的数据，那么可供模型学习的信息就比较少。一般地，解决这类问题通常采用嵌入的方法，将数据映射到高维空间从而深度挖掘数据中的信息。因此，本发明对q_t进行数据细化分类并挖掘问题中更深层次的信息。本层定义两个表示矩阵来表示上述的两个因素，d_t表示问题的难度，e_t表示问题中包含的知识点以及其关系。具体过程如下：

d_t＝W_d·q_t+b_d

e_t＝W_e·q_t+b_e

其中W_d、b_d表示的是问题难度的权重矩阵和偏置矩阵，W_e、b_e表示知识点的权重矩阵与偏置矩阵，

第五步，对学生的知识状态进行初步提取，本层采用LSTM(长短期记忆网络)来获取学生的知识状态随时间的变化，它在深度知识追踪任务中展现了出色的性能。LSTM通过三个门来获取学生的知识状态h_t，分别是遗忘门f_t，输入门i_t，输出门o_t，除此之外还有细胞状态C_t它将信息传递到每个单元，解决了RNN不能捕获长期依赖的问题。

遗忘门：在学生做题序列随着时间的变化，学生知识状态的掌握会慢慢降低，当经过足够长时间之后，学生就会逐渐遗忘某些知识。而遗忘门正是模拟该过程，使用sigmoid激活函数输出一个0到1之间的数，在t时刻其公式为：

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

其中σ(·)是sigmoid激活函数，

是可训练的参数。h_t-1表示学生在t-1时间的知识状态。x_t表示在t时刻下的输入。

输入门：接收当前时间新的输入并更新当前的细胞状态。每当学生在做题时对相关概念的知识状态就会加深或者新增对这个新概念的知识状态，这样我们就需要去更新在这时刻学生的知识状态的变化。在时间为t时其公式为：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)，

其中tanh表示双曲正切激活函数，

是可训练的参数。C_t-1表示t-1时刻的细胞状态，

代表向量对应元素相乘。

输出门：输出门模拟学生的知识状态根据当前学习的知识与历史知识遗忘的变化过程，输出当前学生的知识状态h_t。在t时刻其公式为：

o_t＝σ(W_o·[h_t-1,x_t]+b_o)，

其中

是可训练的参数。h_t-1表示学生在t-1时刻学生的知识状态，σ(·)是sigmoid激活函数，

代表向量对应元素相乘。

第六步，学生在做一道题时，这道题与前段时间做的题具有较高的相似度，那么学生能否正确回答这道题在很大程度上会依赖于是否正确回答类似的题。而且在真实的数据集中，学生与题目的交互往往都是稀疏的，而使用合适的注意力机制从历史序列中找出与当前知识概念相关的概念进行交互，能够很好地解决数据稀疏的问题。通过第四步与第五步得到了问题层面的问题难度与问题所包含知识点的表示矩阵和当前的学生的知识状态矩阵，本层对这两个层面分别使用自注意力机制结合历史信息得到新的问题难度矩阵

与知识点矩阵

由于问题层面与知识状态层面采用相同的自注意力机制方式，根据自注意力基本公式:Att(Q,K,V)＝ω(QK^T)V,本层定义了一个关于本模型注意力机制的通式。首先，定义了变量K、V的表示，如下式所示：

K＝V＝T

在上式中，T在问题层面表示的是问题的难度d_t或该问题的相关概念e_t，而在学生知识状态层面则表示当前学生的知识状态h_t。然后，定义了Q的表示，如下所示：

Q＝tanh(W_t·T+b_t)

其中

是可训练的参数，这样做使得T的表示矩阵映射到不同的高维空间中，用来表示题目中不同的概念信息。

受DKVMN模型的启发，本层分别定义了三个记忆存储器

用来分别存储t时刻之前的所有问题层面与知识状态层面的历史信息。

存储t时刻之前问题难度的历史信息，

存储t时刻之前问题所包含的知识点的历史信息，

存储t时刻之前学生知识状态的历史信息。DKVMN中记忆存储器的存储的是每个问题的嵌入表示，是固定大小的存储器；而本层的存储器记录了问题和学生知识状态的历史信息，是随着学生做题数量的增加而增加的存储器。因此，虽然付出了外部存储器的存储消耗，但能够记录更加全面详细的历史信息，可以使得模型能够更好的学习。

当前的信息与以前的信息的相关性取决于注意力权重，本层采用点积的方式来计算注意力权重。然后通过值与相关权重的对应相乘得到最终的注意力值V_attention，如下式所示：

V_attention＝MatMul(softmax(K·Q),V)，

其中·表示点积，MatMul函数表示对应相乘相加。在本模型中，t时刻的V_attention仅与t时刻之前的V_i相关，其中i＜t，即对于一个查询Q_i，K_m不应该被考虑，其中i＜m。一般地，解决这个问题的常用方法是遮住超前状态的权重，而本层使用外部存储器将t时刻之前的状态都保存下来，因此不会出现超前状态的情况。

第七步，本发明认为学生能否正确回答问题取决于两个层面的契合度，即问题层面和学生的知识状态层面，只有当这两个层面的契合较高时，学生才能正确回答该问题。其中问题层面包括问题的难度和问题中包含的概知识点。例如，一个学生经过一段时间的学习可以对十以内的数字进行加减乘除运算，现有一道题是计算5+6*(3-1)，分析可知，这道题的难度这个学生可以解决，而这道题包含的知识点主要有十以内的数字、加法、减法、乘法等，因此可以判断该学生能正确回答该问题。而当一道题为x²+4x+4＝625求x的值时，该学生并未掌握一元二次函数且存在大于十的数字，因此可以判断该学生无法正确回答该问题。

在第五步骤操作下，我们可以初步得到学生的知识掌握情况，当前许多深度知识追踪模型就是基于此来进行预测当前时间学生能否答对该问题。而我们认为此时的知识状态并不足以精确地预测该任务。因此，本发明结合得到的新的问题难度矩阵

知识点矩阵

以及学生的初步知识状态h_t作为深入学习层的输入来计算问题层面与学生知识状态层面的契合程度并且追踪学生对该问题各方面的最终掌握情况

由于过程与初步学习层类似，总结其公式如下式所示：

本层设置的隐藏层的维度为200，这也是将所有数据集中对问题和概念进行分类得出的结果。

第八步，本发明基于深入学习层得到的掌握情况

其中

是可训练的参数。p_t是一个在[0,1]范围内的标量，代表学生正确回答t时刻问题的概率。本文定义当p_t∈[0,0.5]时，判定学生回答错误，反之，回答正确。

本发明制作了大量的实验设计寻找合适的超参数，具体如下，将每个数据集划分80％用来做训练集，20％用来做测试集，其中测试集用来评价模型的性能与提前停止模型训练。在所有数据集上都使用5-折交叉验证的方法，并且所有模型对每个数据集都采用5次实验取平均值的方式进行性能评估。本文使用tensorflow框架、Adam优化器来训练模型，设置最大训练次数为500，裁剪时最大梯度范数设置为5.0，学***均值为0，标准差为0.01的正态分布。训练的批次一般设置为64，但是具体的设置会按照数据集的大小，例如a2012数据集数量较大，训练的批次设置为32。为防止过拟合的情况，使用了dropout，在训练的时候设置参数为0.5。

为了验证本发明在解决知识追踪任务上的优势，本实施例在8个公开数据集上进行了实验，即ASS09-up，ASSIST2012，ASSIST2015，ASSIST_challenge，statics2011，synthetic，AICFE-math，AICFE-phy。我们还对比了5个最新的知识追踪模型，分别为深度知识追踪模型(DKT)，改进的深度知识追踪模型(DKT+)，动态键值记忆网络模型(DKVMN)，自注意力知识追踪模型(SAKT)，卷积知识追踪模型(CKT)。我们使用AUC(Area Under Curve)指标来度量模型的结果，它是ROC曲线下与坐标轴围成的面积，AUC的值越接近1，代表模型的效果越好，越接近真实。表1展示的是本方法在8个公开数据集上对比5个最新模型的对比结果，从结果中我们可以看出，本发明所提出的分层细化LSTM知识追踪模型明显优于现有技术方案。

表1 六个方法在八个数据集上的性能对比结果

对应本发明中的一种基于分层细化LSTM网络的知识追踪方法，本发明还提供了一种基于分层细化LSTM网络的知识追踪***，包括：

本发明实施例还公开了一种计算机可读存取介质，该计算机可读存储介质内存储有计算机指令集，计算机指令集被被处理器执行时实现如上文任一实施例所提供的基于分层细化LSTM网络的知识追踪方法。

文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。