CN112949935B

CN112949935B - 融合学生知识点题目交互信息的知识追踪方法与***

Info

Publication number: CN112949935B
Application number: CN202110326338.6A
Authority: CN
Inventors: 孙建文; 刘三女牙; 邹睿; 张凯; 蒋路路
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2021-03-26
Filing date: 2021-03-26
Publication date: 2022-06-17
Anticipated expiration: 2041-03-26
Also published as: CN112949935A

Abstract

本发明公开了一种融合学生、知识点、题目三者间交互信息的知识追踪方法与***。该方法包括步骤：获取学生历史答题记录集合；对学生历史答题记录集合中的数据进行编码，获取当前答题记录编码和下一题目信息编码，将当前答题记录编码与下一题目信息编码进行拼接得到输出向量；从输出向量中解码出学生与题目间的交互参数、学生与知识点间的交互参数，从下一题目信息编码中解码出知识点与题目的交互参数；将所有交互参数输入到贝叶斯概率模型，输出答题预测结果。本发明融合了深度学习模型和贝叶斯概率模型，建模了学生和知识点的交互、学生和题目的交互、知识点和题目间的交互，为解释学习过程提供了良好的可解释性，提高了知识追踪准确性。

Description

融合学生知识点题目交互信息的知识追踪方法与***

技术领域

本发明属于知识追踪技术领域，更具体地，涉及一种融合学生、知识点、题目三者间交互信息的知识追踪方法与***。

背景技术

知识追踪根据学生的历史学***变化，进而准确地预测学生在未来的学习中的表现。本质上来说，知识追踪是在建模学生(Student)，知识点(Concept)，题目(Question)三者之间的交互。由此可见，全面的建模这三类交互是提升知识追踪模型表现的关键。

但是大多数现存的知识追踪模型无法同时描述这些交互。

知识追踪领域有两类经典的模型，第一类经典模型是深度知识追踪模型(DeepKnowledge Tracing models，简称DKTs)，借助深度学习强大的模型能力，DKTs能较好预测结果，但是从解释性上看，绝大多数DKTs没有建模学生与题目的交互、以及知识点与题目的交互。第二类经典模型是贝叶斯知识追踪模型及其变体(Bayesian Knowledge Tracingmodels，简称BKTs)。BKTs使用了一组参数来解释学习过程，但是BKTs忽略了知识点与题目的交互，此外，BKTs用同一组参数静态地描述所有学生在同一知识点上的表现，既没有个性化学生，也没考虑参数随时间的变化，这是BKTs的预测表现不如DKTs的主要原因之一。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种融合学生知识点题目三者间交互信息的知识追踪方法与***，融合了深度学习模型和贝叶斯概率模型，建模了学生和知识点的交互、学生和题目的交互、知识点和题目间的交互，为解释学习过程提供了良好的可解释性，提高了知识追踪准确性。

为实现上述目的，按照本发明的第一方面，提供了一种融合学生、知识点、题目三者间交互信息的知识追踪方法，包括：

获取学生历史答题记录集合；

对学生历史答题记录集合中的数据进行编码，获取当前答题记录编码和下一题目信息编码，将当前答题记录编码与下一题目信息编码进行拼接得到输出向量；

从输出向量中解码出学生与题目间的交互参数、学生与知识点间的交互参数，从下一题目信息编码中解码出知识点与题目的交互参数；

将所有交互参数输入到贝叶斯概率模型，输出答题预测结果。

优选地，所述贝叶斯概率模型输出答题预测结果的方法包括步骤：

根据学生与知识点间的交互参数、知识点与题目的交互参数获得学生解决题目的概率；

根据学生解决题目的概率、学生与题目间的交互参数以及下一题目关联知识点的独热编码，输出答题预测结果。

优选地，还包括步骤：

分别建立学生与题目间的交互参数的分级惩罚损失函数、学生与知识点间的交互参数的分级惩罚损失函数、知识点与题目的交互参数的分级惩罚损失函数。

优选地，所述对学生历史答题记录集合中的数据进行编码包括步骤：

将学生历史答题记录集合中当前时间步的答题记录记为x^<t>，x^<t>＝(c^<t>，q^<t>，a^<t>)，其中c^<t>是当前题目关联知识点编号，a^<t>是当前学生回答情况，q^<t>是当前题目编号，将学生历史答题记录集合中下一时间步的题目信息记为(c^<t+1>，q^<t+1>)，其中c^<t+1>是下一题目关联知识点编号，q^<t+1>是下一题目编号；

对(c^<t>，a^<t>)进行编码，编码后的内容记为

将(q^<t>，a^<t>)进行编码，编码后的内容记为

将两部分编码结果组合，组合后的内容记为

其中+是广播运算符，将组合后的内容输入到输入LSTM网络，输出当前答题记录编码；

对c^<t+1>进行编码，编码后的内容记为

对q^<t+1>进行编码，编码后的内容记为

将两部分编码结果组合，组合后的内容

即为下一题目信息编码，其中+是广播运算符。

优选地，所述学生与题目间的交互参数包括学生在题目上的失误概率和学生在题目上的猜对概率，所述学生与知识点间的交互参数包括学生掌握知识点概率，所述知识点与题目的交互参数包括题目与知识点相关复杂度。

优选地，所述学生与题目间的交互参数包括学生在题目上的失误概率和学生在题目上的猜对概率，将学生在题目上的失误概率记为S，将学生在题目上的猜对概率记为G，所述学生与知识点间的交互参数包括学生掌握知识点概率，将学生掌握知识点概率记为L，所述知识点与题目的交互参数包括题目与知识点相关复杂度，将记为R，所述将所有交互参数输入到贝叶斯概率模型的计算公式为：

L_q＝L*(1-R)，

其中，L_q为学生解决题目的概率；

其中，

为学生答对下一题目的概率，

为下一题目关联知识点的独热编码。

优选地，所述学生与题目间的交互参数的分级惩罚损失函数为：

所述学生与知识点间的交互参数的分级惩罚损失函数记为loss_L，j，计算公式为：

其中，ΔL_j表示学生在两个时间步之间对第j个知识点掌握概率的变化值，Γ_lower，Γ_upper分为ΔL_j正常变化范围的下限和上限；

所述学生与题目间的交互参数的分级惩罚损失函数记为loss_S，j，计算公式为：

其中

是在第τ个时间步的题目的关联知识点的失误概率，λ_S∈[0，1]是预设的在每个题目上失误的平均概率，len_j是第j个知识点上出现过的题目数量；

所述学生与知识点间的交互参数的分级惩罚损失函数记为loss_G，j，计算公式为：

其中

是在第τ个时间步的题目的关联知识点的猜对概率，λ_G∈[0，1]是预设的在每个题目上猜对的平均概率，len_j是第j个知识点上出现过的题目数量。

优选地，若所述学生历史答题记录集合中的每条答题记录只包括知识点编号和学生回答情况，则在后续所有处理中用知识点编号替代题目编号。

按照本发明的第二方面，提供了一种融合学生、知识点、题目三者间交互信息的知识追踪***，包括：

数据获取模块，用于获取学生历史答题记录集合；

编码模块，用于对学生历史答题记录集合中的数据进行编码，获取当前答题记录编码和下一题目信息编码，将当前答题记录编码与下一题目信息编码进行拼接得到输出向量；

解码模块，用于从输出向量中解码出学生与题目间的交互参数、学生与知识点间的交互参数，从下一题目信息编码中解码出知识点与题目的交互参数；

预测模块，用于将所有交互参数输入到贝叶斯概率模型，输出答题预测结果。

按照本发明的第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法。

总体而言，本发明与现有技术相比，具有优点：

(1)本发明使用学生对知识点的掌握程度(用参数Learning表示，简称L)建模S-C；通过学生答题过程中猜测(参数Guessing，简称G)和失误(参数Slipping，简称S)行为建模了S-Q。除此之外，还引入题目与其相关联知识点之间的相关复杂度(用参数Correlationcomplexity表示，简称R)来建模C-Q，例如，题目q涉及知识点c_1，c_2，通过采用本发明的方法，可以得到q在c_1，c_2上的相关复杂度r_1，r_2，该值越大表示越复杂。总之，本发明可以同时建模三种交互。

(2)本发明用深度学***。

(3)在四个公开知识追踪数据集上进行了实验，得出如下结论：(1)本发明的预测结果超过现有大多数KT模型，达到了先进预测水平。(2)本发明有优秀的解释性，可以较详细的归因分析学生学习过程。

附图说明

图1是本发明实施例的知识追踪方法的原理示意图；

图2是本发明实施例的可视化学习过程。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明实施例的一种融合学生、知识点、题目三者间交互信息的知识追踪方法采用深度贝叶斯概率模型(DeepBayesianKnowledge Tracing，简称DBKT)。DBKT采用了“编码器-解码器”架构。编码器编码学生历史学习记录作为为中间表示，然后使用三个解码器(S-C，C-Q和S-Q解码器)解码出建模三个交互的参数。最后，将这些参数输入贝叶斯条件概率公式便可得到对学生未来表现的预测。

本发明实施例的一种融合学生、知识点、题目三者间交互信息的知识追踪方法包括步骤：

S1，获取学生历史答题记录集合。

获取学生历史学习记录作为DBKT输入。学生的历史学习记录记为X＝[x^<1>，...，x^<t>，...，x^<T>]，其中x^<t>是第t个时间步的学习记录，总共有T条记录。为了表示简洁，下文中将x^<t>统一称为“当前”记录，将x^<t+1>统一称为“下一”记录。

x^<t>＝(c^<t>，q^<t>，a^<t>)，其中c^<t>是当前题目关联知识点编号，a^<t>是当前学生回答情况，q^<t>是当前题目编号。

在学生回答下一题目前，x^<t+1>中只有(c^<t+1>，q^<t+1>)，其中c^<t+1>是下一题目关联知识点编号，q^<t+1>是下一题目编号；

根据是否使用题目信息知识追踪任务又可以分为两种类型：知识点级任务和题目级任务。这两类任务的主要区别在于，前者使用了知识点数据但没有使用题目数据；后者既使用知识点数据又使用了题目数据。知识点级任务的输入为x^<t>＝(c^<t>，a^<t>)，其中c^<t>∈N⁺是当前知识点的ID，a^<t>∈{0，1}是当前学生回答情况(1表示学生答对，0表示答错)。题目级任务的输入为x^<t>＝(c^<t>，q^<t>，a^<t>)，其中q^<t>∈N⁺是当前题目的ID。DBKT主要适用于题目级任务，但它也可以用于处理知识点级任务。以下步骤中，以处理题目级任务作为示例，若处理知识点级任务，即答题记录中没有题目编号，则所有处理步骤不变，只是在后续所有处理步骤中涉及到题目编号的处理时，用知识点编号替代题目编号。

S2，对学生历史答题记录集合中的数据进行编码，获取当前答题记录编码和下一题目信息编码，将当前答题记录编码与下一题目信息编码进行拼接得到输出向量。

编码器编码学生的历史学习记录。编码器分别编码当前记录和下一个记录，然后连接这两部分编码结果。

对于当前记录，将(c^<t>，a^<t>)编码成

将(q^<t>，a^<t>)编码成

其中N是神经网络的隐藏层大小。然后，将两部分编码结果组合为

其中这里的“+”是广播的加法，为了方便起见，下文中出现的广播运算符将不再特别强调。然后将组合结果输入LSTM，输出o_current。

对于下一记录，类似的，将c^<t+1>编码成

中，然后将q^<t+1>编码成

随后将两部分编码结果组合为

最后将o_current和o_next进行拼接操作，得到编码器最终输出向量o。

S3，从输出向量中解码出学生与题目间的交互参数、学生与知识点间的交互参数，从下一题目信息编码中解码出知识点与题目的交互参数。

S31，S-Q解码器从编码器输出o中解码出参数S，G，它们建模了学生与题目(S-Q)间的交互。具体来说，它通过一系列线性层和激活函数解码o，得到

其中S_j∈[0，1是学生在第j个题目上失误的概率，N_C是知识点总数；还得到

其中G_j∈[0，1是第j个知识点关联题目的猜对概率。

S32，S-C解码器对学生与题目(S-C)的交互进行建模。它从编码器的输出o中解码出参数向量

其中L_j∈[0，1是学生掌握第j个知识点的概率。

S33，C-Q解码器对知识点和题目(C-Q)的交互进行建模。它通过线性层和激活函数将下一个题目q^<t+1>解码为相关复杂度

其中R_j∈[0，1是当前题目在该题目在其第j个关联知识点上的相关复杂度。

S4，将所有交互参数输入到贝叶斯概率模型，输出答题预测结果。

在解码出四个参数后，将这些参数输入贝叶斯条件概率公式来建模学生学习过程，最终预测学生未来表现。

优选地，贝叶斯概率模型输出答题预测结果的方法包括步骤：

S41，根据学生与知识点间的交互参数、知识点与题目的交互参数获得学生解决题目的概率。

将学生掌握知识点的概率(L)转化为学生解决题目的概率(L_q)：

L_q＝L*(1-R)

其中，解决题目的概率

其中L_q，j∈[0，1是把学生对题目的解决能力具体到学生对该题目的第j个关联知识点的解决能力。该式含义是：学生解决题目的必要条件是学生要掌握和题目相关的知识点(L)，且相关的复杂度(R)对于该学生来说不能太难。

S42，根据学生解决题目的概率、学生与题目间的交互参数以及下一题目关联知识点的独热编码，输出答题预测结果。

到学生解决题目的概率后，通过下面的概率公式来计算预测结果，即学生答对下一题目的概率

其中“·”是点积。点积左侧是贝叶斯条件概率公式。点积右侧的

是下一时间步知识点的独热编码。概率公式的含义是学生答对题目应该包括两种情形，一是学生能解决题目，且没有出现失误；二是学生不能解决题目，但是猜对了。

本发明实施例的一种融合学生、知识点、题目三者间交互信息的知识追踪方法，还包括步骤：分别建立学生与题目间的交互参数的分级惩罚损失函数、学生与知识点间的交互参数的分级惩罚损失函数、知识点与题目的交互参数的分级惩罚损失函数。

大多数的深度知识追踪模型的训练目标是预测准确性。不同于它们，DBKT除了追求预测准确性外，还要求更合理地建模学习过程中的三种交互。为此在DBKT中引入了分级惩罚损失函数，这些函数用于约束上述参数表现，使它们更符合学生的真实学习过程。分级惩罚损失函数的设计思路是当这些参数的变化范围在合理范围内时，不需要惩罚，当变化超出合理范围是，对超出部分进行惩罚。具体来说，分别为参数L，G，S设计损失函数。以L为例，设计了如下分级惩罚函数：

其中

是学生在两个时间步之间对第j个知识点掌握概率的变化值。[Γ_lower，Γ_upper]表示正常范围，其中Γ_lower∈[-1，0]，Γ_upper∈[0，1]。ΔL_j∈(-∞，Γ_lower)表示学生对知识点的掌握程度退步了，且退步超出合理范围，此时的损失值是

乘以2代表退步时的惩罚系数是进步时的两倍。ΔL_j∈[Γ_lower，Γ_upper]表示掌握程度变化合理，不应给予惩罚。L_j∈(Γ_upper，+∞)表示学生对知识点的掌握程度进步了，且进步超出了合理范围。实验中，设置超参数Γ_upper＝0.8，Γ_lower＝0.2。在计算各个知识点上的损失函数loss_L，j后，将它们累加得到总的损失函数：

计算总的损失函数。类似于L，对参数G和S也计算了分级惩罚函数loss_G，loss_S，它们的计算方法和loss_L类似

对于S的损失函数：

其中第j个知识点的失误损失函数记为

其中

是在第τ个时间步的题目的关联知识点(即第j个知识点)的失误概率。λ_S∈[0,1]是预设的在每个题目上失误的平均概率。len_j∈N⁺是第j个知识点上出现过的题目数量。因此，ΔS_j是模型生成的失误概率和最大允许的失误参考值之差。当差值大于0时,认为时不合理的失误,记为loss_S，j。

同样的,我们有

其中

是在第τ个时间步的题目的关联知识点(即第j个知识点)的猜对概率。λ_G∈[0,1]是预设的在每个题目上猜对的平均概率。len_j∈N⁺是第j个知识点上出现过的题目数量。因此，ΔG_j是模型生成的猜对概率和最大允许的猜对参考值之差。当差值大于0时，认为时不合理的失误。

然后将预测损失和这些参数的损失合并为总损失：

loss＝loss_L+loss_S+loss_G+loss_Pred，

其中loss_Pred为预测损失，它由预测值和目标值计算得到。

最后，对总损失loss使用反向传播算法即可完成对DBKT的训练。

采用上述方法进行了实验(1)。

表1为DBKT和现有的先进知识追踪模型对学习者答题情况的预测结果。如表1所示，在四个数据集上进行了实验，即Assistments2009，Assistments2015，Assistments2017，Statics2011进行相应的预测，其中，BKT表示贝叶斯知识追踪方法，DKT，DKT+，DKVMN，SAKT，AKT表示现有的深度知识追踪方法，DBKT表示本发明的知识跟踪方法，实验结果的度量指标是Area Under Curve(AUC)，它被定义为ROC曲线下与坐标轴围成的面积。从表中可以看到，DBKT的预测结果优于对比模型的预测结果。

特别说明的是，因为Assist15和Static11两个数据集没有题目数据，所以这两个数据集只有知识点级任务。粗体表示表现最好的模型，DBKT几乎在所有数据集上都取得了最好结果，在知识点级任务上，DBKT在Assist17上取得了较大进步。

采用上述方法进行了实验(2)。

DBKT可视化学习过程。如图2所示，列举了四个学习过程的例子用来说明DBKT的解释能力。

图1为使用DBKT分析四个随机挑选的学生学习过程。L是学生掌握一个知识点的概率，G是学生猜对的概率，S是学生失误的概率，R是题目的相关复杂度。(a)对应学生没掌握知识点的情况，学生对于知识点“CircleGraph”依次练习了题目ID为332，310，237，351，347，261，21共7道题目，回答情况依次为0，0，0，1，0，0，0，仅第四题答对了。在(b)中，学生在知识点“Conversion of Fraction Decimals Percents”进行练习。(c)中的学生对知识点“Least Common Multiplt”进行练习。在(d)中，学生对知识点“Probability of a SingleEvent”进行了练习。为了更清晰的显示各个参数，将柱状图部分除以2，即

以(a)为例，一方面，根据横轴〞回答情况〞显示，该学生总共回答了七个题目，除了第四道题目外都答错了，可以判断该学生对相关知识点的掌握程度很低。另一方面，在本发明实施例的模型中，参数L的范围为[0，0.3]，即模型认为该学生对知识点的掌握程度同样很低，这和实际情况一致。可以推断DBKT可以较好还原真实的学习过程。

特别地，对于第四个题目，学生在没有掌握知识点的情况下依然答对了题目，，这是不合理的。结合图分析，发现学生答对的关键因素是较大的参数G，即模型认为学生较大概率是猜对的，这和认知经验一致。这表明DBKT可以解释一些特殊的学习情况。

本发明实施例的一种融合学生、知识点、题目三者间交互信息的知识追踪***，包括：

数据获取模块，用于获取学生历史答题记录集合；

编码模块，用于对学生历史答题记录集合中的数据，获取当前答题记录编码和下一题目信息编码，将当前答题记录编码与下一题目信息编码进行拼接得到输出向量；

知识追踪***的实现原理、技术效果与上述知识追踪方法相同，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一知识追踪方法实施例的技术方案。其实现原理、技术效果与上述方法相同，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合学生、知识点、题目三者间交互信息的知识追踪方法，其特征在于，包括：

获取学生历史答题记录集合；

将所有交互参数输入到贝叶斯概率模型，输出答题预测结果；

所述贝叶斯概率模型输出答题预测结果的方法包括步骤：

根据学生解决题目的概率、学生与题目间的交互参数以及下一题目关联知识点的独热编码，输出答题预测结果；

所述学生与题目间的交互参数包括学生在题目上的失误概率和学生在题目上的猜对概率，将学生在题目上的失误概率记为S，将学生在题目上的猜对概率记为G，所述学生与知识点间的交互参数包括学生掌握知识点概率，将学生掌握知识点概率记为L，所述知识点与题目的交互参数包括题目与知识点相关复杂度，记为R，所述将所有交互参数输入到贝叶斯概率模型的计算公式为：

L_q＝L*(1-R)，

其中，L_q为学生解决题目的概率；

其中，

为学生答对下一题目的概率，

为下一题目关联知识点的独热编码。

2.如权利要求1所述的一种融合学生、知识点、题目三者间交互信息的知识追踪方法，其特征在于，还包括步骤：

3.如权利要求1所述的一种融合学生、知识点、题目三者间交互信息的知识追踪方法，其特征在于，所述对学生历史答题记录集合中的数据进行编码包括步骤：

将学生历史答题记录集合中当前时间步的答题记录记为x^<t>，x^<t>＝(c^<t>，q^<t>，a^<t>)，其中c^<t>是当前题目关联的知识点编号，a^<t>是当前学生回答情况，q^<t>是当前题目编号，将学生历史答题记录集合中下一时间步的题目信息记为(c^<t+t>，q^<t+1>)，其中c^<t+1>是下一题目关联知识点编号，q^<t+1>是下一题目编号；

对(c^<t>，a^<t>)进行编码，编码后的内容记为