CN114997461B

CN114997461B - 一种联合学习与遗忘的时间敏感的答题正确性预测方法

Info

Publication number: CN114997461B
Application number: CN202210374206.5A
Authority: CN
Inventors: 马海平; 王菁源; 张海峰; 张兴义
Original assignee: Anhui University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Current assignee: Anhui University; Institute of Artificial Intelligence of Hefei Comprehensive National Science Center
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2024-05-28
Anticipated expiration: 2042-04-11
Also published as: CN114997461A

Abstract

本发明公开了一种联合学习与遗忘的时间敏感的答题正确性预测方法，其步骤包括：1获取学生历史答题记录并进行序列化预处理；2使用连续时间上的长短期记忆网络对学生知识状态拟合并预测学生作答题目正确性；3对神经网络参数进行训练，得到训练后的答题正确预测模型，用于实现学生答题正确性的预测。本发明能够实现端到端的学生答题正确性的预测，同时能够建模学生在任意时刻的知识状态，从而为智能辅导***和教师提供有效辅助。

Description

一种联合学习与遗忘的时间敏感的答题正确性预测方法

技术领域

本发明涉及认知建模领域，具体地说是一种联合学习与遗忘的时间敏感的答题正确性预测方法。

背景技术

近年来，快速发展智能教学***积累了大量的学生练***或学习能力，它的结果可以惠及广泛的智能教育应用，例如预测学生表现和个性化课程推荐等。

考虑到学***的变化。现有方法可分为两类：(1)以贝叶斯知识追踪(BKT)和因子分解模型为代表的传统模型；(2)基于深度神经网络的序列模型，如深度知识追踪(DKT)、动态键-值存储网络(DKVMN)等。其中深度知识追踪模型是第一个使用递归神经网络来拟合学生知识状态并根据其历史学习记录推断当前习题作答成绩的方法。

认知建模领域一个长期存在的研究挑战是如何将遗忘机制自然地整合到知识的学***衡学习和遗忘过程，使遗忘在连续时间下发生，学生的答题表现随着时间流逝同样发生变化。我们发现神经霍克斯过程的建模方式与认知心理学中对于记忆规律的描述有相似之处，并探索性地使用神经霍克斯中的连续长短时记忆网络来拟合连续时间上互相依赖的学习与遗忘过程，在提高预测学生答题正确性能力的同时，也可以为智能辅导***和教师提供有关学生记忆能力的参照。

发明内容

本发明是为了解决上述现有技术所存在的问题，提出了一种联合学习与遗忘的时间敏感的答题正确性预测方法，以期能够充分、真实地建模学生知识状态在学习与遗忘相互影响下的变化过程，从而获得学生在任意时刻对知识的掌握程度，实现端到端的学生答题正确性的预测，并提高学生作答结果预测的精度，为智能辅导***和教师提供有效辅助。

本发明为解决技术问题采用如下技术方案：

本发明一种联合学习与遗忘的时间敏感的答题正确性预测方法的特点按如下步骤进行：

步骤1、获取学生历史答题记录并进行序列化预处理：

设学生集合为题目集合为/>知识概念集合为/>其中，学生集合/>中有L名学生，题目集合/>中有M道问题，知识概念集合/>中有N个知识点；使用s表示学生集合/>中的任意一名学生，q表示题目集合/>中的任意一道问题，k表示知识概念集合/>中的任意一个知识点，并将题目集合/>中问题编号为1,…,M，知识概念集合/>中知识点编号为1,…,N；

将任意学生s的历史作答记录表示为作答序列

其中，为学生s的第i次作答的时刻，且/> 为学生s的第i次作答的问题编号，/>为学生s的第i次作答问题/>所考察的知识概念编号，/>表示学生s在第i次作答问题/>上的作答情况，若/>表示答对，若/>表示答错，i＝1,2,…,n_s，n_s为学生s的答题次数；

步骤2、构建知识状态拟合-答题正确性预测的神经网络，包括：连续长短期记忆网络所表示的学习部分、连续长短期记忆网络所表示的遗忘部分和答题预测模块；

其中，连续长短期记忆网络所表示的学习部分包括：独热编码嵌入层、四个单层全连接前馈神经网络、两种激活函数以及细胞信息计算层；

连续长短期记忆网络所表示的遗忘部分包括：三个单层全连接前馈神经网络、两种激活函数、记忆衰减层和知识状态获取层；

答题预测模块包括两个独热编码嵌入层、多层感知机层和一种激活函数；

步骤2.1、连续时间上的长短期记忆网络所表示的学习部分：

步骤2.1.1、所述独热编码嵌入层利用式(1)计算学生s在时刻答题时的交互嵌入/>

式(1)中，A是一个待训练的嵌入矩阵，且m为嵌入维度，/>表示学生s在/>时刻作答表现/>的独热编码，且/>若表示s在t_i时刻在编号为j％N的知识点上没有作答或答题错误，若/>则表示学生s在/>时刻在编号为j％N的知识点上作答正确，其中％符号表示取余数，并由式(2)得到：

步骤2.1.2、在时刻，设学生s在第i次作答题目/>时的知识状态为/>将和/>拼接成第i个输入向量/>后，分别输入三个单层全连接前馈神经网络并相应通过sigmoid函数，从而对应输出第i次更新时的第一个遗忘门/>第一个输入门/>以及输出门/>当i＝1时，令学生s的初始知识状态/>为所设定的值；

步骤2.1.3、将第i个输入向量输入第四个单层全连接前馈神经网络，并通过tanh激活函数，输出/>时刻的候选记忆表示/>从而利用式(3)计算在/>时刻细胞信息计算层中的记忆表示/>

式(3)中，表示/>时刻记忆衰减层中的衰减后记忆表示，当i＝1时，令/>为所设定的值；

步骤2.2、在连续时间上的长短期记忆网络所表示的遗忘部分：

步骤2.2.1、将第i个输入向量输入第五个单层全连接前馈神经网络中，并通过softplus激活函数，从而得到学生s在/>时间段内的遗忘系数/>

步骤2.2.2、将第i个输入向量分别输入剩余两个单层全连接前馈神经网络中并相应通过sigmoid激活函数，从而对应得到第i次更新时第二个遗忘门/>第二个输入门/>

步骤2.2.3、所述记忆衰减层利用式(4)计算在时间段内的记忆衰减下限

式(4)中，为上一时间段/>内记忆衰减下限，当i＝1时，令/>为所设定的值；

步骤2.2.4、所述记忆衰减层利用式(5)计算在时刻经过遗忘后的记忆表示c^s(t)：

步骤2.3、隐藏知识状态获取：

令式(6)中的得到/>时刻的遗忘后的记忆表示/>并记为衰减后记忆表示/>所述知识状态获取层利用式(6)计算学生s在/>时刻作答题目时的隐藏知识状态/>

式(6)中，σ(·)为sigmoid激活函数；

步骤2.4、答题预测模块：

步骤2.4.1、令为问题/>的独热编码表示，两个独热编码嵌入层分别利用式(7)和式(8)获取题目/>的难度/>和区分度/>

式(7)和式(8)中，σ(·)为sigmoid函数，是两个需要训练的嵌入矩阵；

步骤2.4.2、多层感知机层令学生s在时刻的能力水平表示/>从而利用式(9)得到学生s在第i+1次作答时在问题/>上的答题正确概率的预测/>

式(9)中，F(·)为多层感知机；

步骤2.5、将i+1赋值给i后，返回步骤2.1顺序执行，直到完成对学生s的历史答题序列中的最后一次作答的答题正确概率的预测/>

步骤3、利用式(10)构建交叉熵损失并对知识状态拟合-答题正确性预测神经网络进行训练，从而得到训练后的答题正确预测模型，用于实现对学生答题正确性的预测：

式(10)中，为学生s在t_i时刻的答题正确概率的预测值，/>为学生s在t_i时刻的答题正确性的真实值，其中，/>表示答错，/>表示答对。

本发明所述的联合学习与遗忘的时间敏感的答题正确性预测方法的特点是，设置所述步骤2.4中的答题预测模块是按如下过程预测作答正确性：

步骤2.4.1、令为问题/>的独热编码表示，分别使用式(11)和式(12)获取题目/>的难度/>和区分度/>

式(11)和式(12)中，σ(·)为sigmoid函数，是两个待训练的嵌入矩阵；

步骤2.4.2、多层感知机层利用式(13)得到学生s在时刻的能力水平表示/>

式(13)中，是一个待训练的矩阵；

步骤2.4.3、多层感知机层从而利用式(9)得到学生s在第i+1次作答时，在问题上的答题正确概率的预测/>

进一步地，设置所述步骤2.4中的答题预测模块是按如下过程预测作答正确性：

步骤2.4.1、令为问题/>的独热编码表示，分别使用式(15)和式(16)获取题目/>的难度/>和区分度/>

式(15)和式(16)中，σ(·)为sigmoid函数，是两个需要训练的嵌入矩阵；

步骤2.4.2、多层感知机层利用式(17)得到学生s在时刻的能力水平表示/>

式(17)中，是一个待训练的矩阵；

步骤2.4.3、设题目-知识点矩阵为Q_q＝{Q_mn}_M×N，且1≤m≤M，1≤n≤N，若编号为m的习题考察编号为n的知识点，则记Q_mn＝1，否则，记Q_mn＝0；

多层感知机层利用式(18)得到学生s在第i+1次作答时，在问题上的答题正确概率的预测/>

式(18)中，f'(·)表示多层感知机，符号表示矩阵对应位置相乘。

与已有技术相比，本发明有益结果体现在：

1、本发明通过探索性地使用神经霍克斯过程中的连续长短期记忆网络联合建模学习与遗忘，从而获得的学生在连续时间上的知识状态；其遗忘的影响因素不仅与学生当前的知识掌握度、学习内容相关，也与时间长短有关，对时间因素敏感，更真实充分地对学生进行认知建模，从而能够衡量学生在不同时间的遗忘能力，并且高准确率地预测学生答题的正确性，进而为智能辅导***、教师等了解学习者学习状态提供有价值的参考，并指导学生进行针对性教学训练，可以作为自适应出题等应用的上游应用。

2、本发明通过可耦合的知识掌握度-题目交互函数进行学生答题表现预测，这种方式不仅能有效联系学生知识掌握度和题目信息，由于其可耦合性，也可以获得标量的学生综合知识掌握度，或者学生在各个知识点上掌握程度，增强了模型的可解释性，可用于知识状态的可视化，帮助智能辅导***、学***和在特定知识点上的能力水平，并作出针对性训练。

3、本发明通过连续长短期记忆网络建模学生知识状态的动态变化，该建模方式可以联合学习和遗忘过程，使得知识状态的变化和真实的变化过程接近，进而在学生未来表现预测上提高了预测精度。

4、实验表明，相比其它先进的算法，本发明在不同序列长度(即每个学生的作答题目数)上的答题预测性能稳定，表现出良好的鲁棒性。

附图说明

图1为本发明方法对应的模型框架图。

具体实施方式

本实施例中，参见图1，一种联合学习与遗忘的时间敏感的答题正确性预测方法是按如下步骤进行的：

步骤1、获取学生历史答题记录并进行序列化预处理：

设学生集合为题目集合为/>知识概念集合为/>其中，学生集合/>中有L名学生，题目集合/>中有M道问题，知识概念集合/>中有N个知识点；使用s表示学生集合/>中的任意一名学生，q表示题目集合/>中的一道问题，k表示知识概念集合/>中的一个知识点，并将题目集合/>中问题编号为1,…,M，知识概念集合/>中知识点编号为1,…,N；

将任意学生s的历史作答记录表示为作答序列

其中，为学生s的第i次作答的时刻，且/> 为学生s的第i次作答的问题编号，/>为学生s的第i次作答问题/>所考察的知识概念编号，/>表示学生s在第i次作答问题/>上的作答情况，若/>表示答对，若/>表示答错，i＝1,2,…,n_s，n_s为学生s的答题次数；由于/>中学生的作答长度不同，设定最大长度为ML，作答记录超出ML的被截断成新序列，不足的用0补齐。本实施例中使用的是三个真实数据集ASSISTment12，ASSISTment17和Slepemapy.cz，且设定ML＝100。实施例采用5折交叉训练，实验结果取5次训练的平均值，数据集的20％被用作测试集，10％被用作验证集，70％被用作训练集。

步骤2.1、连续时间上的长短期记忆网络所表示的学习部分：

步骤2.1.1、独热编码嵌入层利用式(1)计算学生s在时刻答题时的交互嵌入

式(1)中，A是一个需要训练的嵌入矩阵，且m为嵌入维度，本实例中，设定m＝64，/>表示学生s在/>时刻作答表现/>的独热编码，且/> 若/>表示s在t_i时刻在编号为j％N的知识点上没有作答或答题错误，若则表示学生s在/>时刻在编号为j％N的知识点上作答正确，其中％符号表示取余数，利用式(2)得到：

步骤2.1.2、在时刻，设学生s在第i次作答题目/>时的知识状态为/>将和/>拼接成第i个输入向量/>后，分别输入三个单层全连接前馈神经网络并相应通过sigmoid函数，从而对应输出第i次更新时的第一个遗忘门/>第一个输入门/>以及输出门/>当i＝1时，令学生s的初始知识状态/>为所设定的值。本实例中，设定d＝64；i＝1时，/>

式(3)中，表示/>时刻记忆衰减层中的衰减后记忆表示，当i＝1时，令/>为所设定的值。本实施例中，设定i＝1时，/>

步骤2.2.3、记忆衰减层利用式(4)计算在时间段内的记忆衰减下限/>

式(4)中，为上一时间段/>内记忆衰减下限，当i＝1时，令/>为所设定的值。本实施例中，设定i＝1时，/>

步骤2.2.4、记忆衰减层利用式(5)计算在时刻经过遗忘后的记忆表示c^s(t)：

步骤2.3、隐藏知识状态获取：

令式(6)中的得到/>时刻的遗忘后的记忆表示/>并记为衰减后记忆表示/>知识状态获取层利用式(6)计算学生s在/>时刻作答题目时的隐藏知识状态/>

式(6)中，σ(·)为sigmoid激活函数。

步骤2.4、答题预测模块：

步骤2.4.2、多层感知机层令学生s在时刻的能力水平表示/>从而利用式(9)得到学生s在第i+1次作答时，在问题/>上的答题正确概率的预测/>

式(9)中，F(·)为多层感知机，本实施例中，F(·)为三层全连接神经网络；

步骤3、利用式(10)构建交叉熵损失并对知识状态拟合-答题正确性预测神经网络进行训练，从而得到训练后的答题正确预测模型，用于实现学生答题正确性的预测。本实例实施中，使用Adam优化器：

式(10)中，为学生s在t_i时刻的答题正确概率的预测值，/>为学生s在t_i时刻的答题正确性的真实值，其中0表示答错，1表示答对。

具体实施中，步骤2.4中的答题预测模块还可以按如下过程预测作答正确性：

式(11)和式(12)中，σ(·)为sigmoid函数，是两个需要训练的嵌入矩阵；

式(13)中，是一个需要训练的矩阵。

式(17)中，是一个需要训练的矩阵；

步骤2.4.3、设题目-知识点矩阵为Q_q＝{Q_mn}_M×N，且1≤m≤M，1≤n≤N，若编号为m的习题考察编号为n的知识点，则记Q_mn＝1，否则，记Q_mn＝0；多层感知机层利用式(18)得到学生s在第i+1次作答时，在问题上的答题正确概率的预测/>

式(18)中，f'(·)表示多层感知机，符号表示矩阵对应位置相乘。本实施例中，f'(·)为三层全连接神经网络。

实施例

为了验证本发明方法的有效性，本发明选用了教育领域广泛使用的三个公开数据集ASSISTment12，ASSISTment17和Slepemapy.cz。对于这三个数据集而言，设定它们的最大序列长度为100，超出该长度的学生序列被截断成若干条，不足的被补0；同时，为了保证每条序列都有足量的数据用于训练，低于5次交互的序列被移除。

本实施例采用精度(ACC)和ROC曲线下面积(AUC)作为评价标准。

本实施例中选用五种方法和本发明方法进行效果比较，所选方法分别是DKT、DKT_V、DKT+Forgetting、AKT和HawkesKT，CT-NCM为本发明方法，CT-NCM_IRT和CT-NCM_NCD是指的步骤2.4的两个拓展方法，实验结果如表1所示。

表1本发明方法和其它对比算法在三种数据集上进行学生答题预测的实验结果

从表1中可得CT-NCM及其两个变体在三个公开的大型数据集上都取得优秀的结果，并且CT-NCM在三个数据集上都取得了最优的结果，实验证明了本发明在预测学生答题正确性上的高准确率和可信度。

Claims

1.一种联合学习与遗忘的时间敏感的答题正确性预测方法，其特征在于，是按如下步骤进行：

步骤1、获取学生历史答题记录并进行序列化预处理：

将任意学生s的历史作答记录表示为作答序列

其中，/>为学生s的第i次作答的时刻，且/> 为学生s的第i次作答的问题编号，/>为学生s的第i次作答问题/>所考察的知识概念编号，/>表示学生s在第i次作答问题/>上的作答情况，若/>表示答对，若/>表示答错，i＝1,2,…,n_s，n_s为学生s的答题次数；

步骤2.1、连续时间上的长短期记忆网络所表示的学习部分：

步骤2.1.1、所述独热编码嵌入层利用式(1)计算学生s在时刻答题时的交互嵌入

式(1)中，A是一个待训练的嵌入矩阵，且m为嵌入维度，/>表示学生s在/>时刻作答表现/>的独热编码，且/>若/>表示s在t_i时刻在编号为j％N的知识点上没有作答或答题错误，若/>则表示学生s在/>时刻在编号为j％N的知识点上作答正确，其中％符号表示取余数，并由式(2)得到：

步骤2.1.2、在时刻，设学生s在第i次作答题目/>时的知识状态为/>将/>和拼接成第i个输入向量/>后，分别输入三个单层全连接前馈神经网络并相应通过sigmoid函数，从而对应输出第i次更新时的第一个遗忘门/>第一个输入门/>以及输出门/>当i＝1时，令学生s的初始知识状态/>为所设定的值；

步骤2.2.3、所述记忆衰减层利用式(4)计算在时间段内的记忆衰减下限/>

步骤2.3、隐藏知识状态获取：

式(6)中，σ(·)为sigmoid激活函数；

步骤2.4、答题预测模块：

式(9)中，F(·)为多层感知机；

2.根据权利要求1所述的联合学习与遗忘的时间敏感的答题正确性预测方法，其特征在于，设置所述步骤2.4中的答题预测模块是按如下过程预测作答正确性：

式(13)中，是一个待训练的矩阵；

3.根据权利要求1所述的联合学习与遗忘的时间敏感的答题正确性预测方法，其特征在于，设置所述步骤2.4中的答题预测模块是按如下过程预测作答正确性：

式(17)中，是一个待训练的矩阵；

式(18)中，f′(·)表示多层感知机，符号表示矩阵对应位置相乘。