CN112116137A

CN112116137A - 一种基于混合深度神经网络的学生辍课预测方法

Info

Publication number: CN112116137A
Application number: CN202010925380.5A
Authority: CN
Inventors: 刘铁园; 张艳; 常亮; 古天龙; 李龙
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-09-06
Filing date: 2020-09-06
Publication date: 2020-12-22

Abstract

本发明涉及机器学习、深度学习及数据挖掘等技术领域，具体是涉及一种基于混合深度神经网络的学生辍课预测方法。本发明考虑到时间序列数据，进行了细粒度划分，并使用One‑hot编码规则和特征工程相结合，构建行为特征矩阵，有助于提高预测的准确性，并且使用一种新建的卷积神经网络(CNN)，进行局部关系特征提取。考虑到行为之间的序列关系，以及模型本身的影响，最后通过门控循环单元(GRU)网络进行时间序列关系特征提取，通过softmax层进行最后的预测任务，以此提高辍课预测的精确度。本发明使用三层的GRU提取行为矩阵之间存在的潜在具有时序关系的行为特征。

Description

一种基于混合深度神经网络的学生辍课预测方法

(一)技术领域

本发明涉及机器学习、深度学习及数据挖掘等技术领域，具体是涉及一种基于混合深度神经网络的学生辍课预测方法。

(二)背景技术

近年来，随着互联网技术和教育资源的蓬勃发展，教育模式和学***台，自2012年来开始出现以来，汇集了来自世界各地的优质的课程资源，推动着全球的教育事业的发展，在媒体，学术期刊和公众心目中占据重要位置。这些学***台的极高的灵活性，持续的高辍课率问题一直是MOOCs平台面临的一个挑战，这也成为影响MOOC发展的主要问题之一。先前的研究表明，91％至93％的学生中途辍课或者无法完成课程。这意味着大多数学生在课程结束前就已经辍课，严重浪费了教育资源，也影响MOOC平台的发展。因此如何降低辍课率，提高学生课程的完成度，保障教育的资源的合理利用，对于教育平台的发展是至关重要的。

传统的关于MOOC辍课预测的相关研究，基本上集中在两方面。第一，特征提取方面：这些研究使用特征工程完成特征提取，很难从低级的点击流数据中提取出有意义的学生行为特征。并且使用特征工程提取数据不仅需要具备相应领域专业知识的人员，而且提取的特征也具有主观性，他们可能会把太多的注意力放在不重要的特征上忽略了某些重要的模式，引入了潜在的噪音数据。第二，在模型构建方面：早些年，研究者大都偏向使用机器学习算法进行辍课预测，但是对于所研究的,由于缺乏对在线学习复杂现象所需的模型稳定性和可靠性的考虑，机器学习算法，特别是决策树(DT)和神经网络(NN)对于数据的干扰非常敏感。由于MOOCs课程学习的比较灵活，这种便利导致学生行为数据的存在明显差异，这样的数据对于不稳定的机器学习算法，预测结果不可靠，预测精度低。

目前已公布的发明专利“一种CNN-LSTM-SVM网络模型的构建及MOOC辍学预测方法”，公开号为CN10059716A，通过获取学生在线学习行为记录的日志数据进行预处理，得到多个时间片矩阵，对时间片矩阵进行网络训练，实现辍学预测。该发明(1)只考虑到了使用LSTM时间序列模型进行行为之间序列关系的刻画，但是忽略了模型本身又带来另外一个问题，为了记忆增加的三个“门”，参数比较多，容易产生过拟合而且训练时间长；(2)只是通过CNN-LSTM网络模型训练并提取特征，虽然能达到好的特征提取效果，但是对于提取出来的每一个特征却没有孰轻孰重的考虑，对于预测效果会产生一定的影响。本发明描述的“一种基于混合深度神经网络的学生辍课预测方法”通过对学生的点击流日志信息进行预处理，生成学生每天的行为表示矩阵，为了刻画学生不同访问时间对辍课行为的影响，本发明通过SE-Net对每一天的行为矩阵进行加权表示，生成每天的行为表示矩阵，然后使用一种新的CNN对行为特征进行局部关系提取，最后通过门控循环单元(GRU)网络进行时间序列关系特征提取，通过softmax层进行最后的预测任务，以此提高辍课预测的精确度。

(三)发明内容

针对上述现有技术中的不足，本发明要解决的是目前对于学生行为特征构建过程中行为特征信息之间的关系考虑的不够全面、不够精确，没有考虑到行为之间的时序关系以及不同行为特征对于辍学预测的影响程度，生成的预测模型不能很好地进行预测等问题，提供了一种基于混合深度神经网络的学生辍课预测方法。

本发明的目的是这样实现的：

步骤一、对已下载的好的KDD2015数据集的原始在线学习相关行为数据进行筛选和预处理；

步骤二、对学生的每天的行为记录进行one-hot编码，生成多个行为特征矩阵；

步骤三、为了刻画学生不同访问时间对辍课行为的影响程度，将步骤二得到的学生行为特征矩阵输入到SE-Net，计算学生历史不同时刻的学习行为特征对于最终预测的影响权重，并得到每一天的行为表示矩阵；

步骤四、使用一种新CNN，通过卷积层对每一天的行为矩阵进行局部关系提取，然后重构，生成每一天的行为表示向量；

步骤五、使用GRU网络，提取每一天的行为表示向量之间的时间序列关系；

步骤六、最后通过全连接层softmax函数进行训练并预测，预测问题实际上是一个二值分类问题，我们将“不辍课”标记为1，“辍课”标记为0，softmax函数的输出是一个0-1之间的表示分类为“1”的概率值。

与现有的技术相比，本发明具有如下优势：

(1)在生成输入数据方面，本发明考虑到时间序列数据的进行了细粒度划分，并使用One-hot编码规则和特征工程相结合，构建行为特征矩阵，有助于提高预测的准确性。

(2)考虑到不同时间段的学习行为对于最终的辍课预测的影响程度不一样，引入SE-Net网络，通过给每一天的行为矩阵分配权重来决定哪个时间段的行为特征对于辍课预测有决定性作用，从而提高模型的性能。

(3)特征提取方面，本发明通过使用一种新建的卷积神经网络(CNN)，进行局部关系特征提取。

(4)考虑到行为之间的序列关系，以及模型本身的影响，本发明使用三层的GRU提取行为矩阵之间存在的潜在具有时序关系的行为特征。从模型本身参数设置上，GRU模型比LSTM模型少了一个“门”，既可以减少了模型训练时间而且也不容易产生过拟合问题，最重要的是也能解决行为之间的彼此的关联关系问题。

(四)附图说明

图1为本发明的模型的框架图。

图2为基于混合深度神经网络的学生辍课预测的整体流程图。

图3为模型输入数据生成的流程图。

图4为原始学习行为记录图。

图5为不同潜在因素对辍课率的影响图。

图6为学生每天的行为特征表示矩阵图。

图7为原始记录转化one-hot编码图。

图8为SE-Net的网络结构图。

图9为CNN-Net的模块结构图。

图10为GRU的逻辑单元结构图。

图11为GRU网络结构图。

(五)具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合具体实例，并参照附图，对本发明进一步详细阐述。

本发明以基于混合深度神经网络的学生辍课预测为实例描述本发明方法的具体实施过程。本发明的模型框架如图1所示，基于混合深度神经网络的学生辍课预测的整体流程如图2所示。结合示意图说明具体步骤：

步骤1、在KDD官网下载的KDD CUP2015比赛的数据集，对数据进行筛选，以及预处理

步骤2、因为步骤1只是对数据进行初步选择，为了符合本模型的输入要求，需要继续对数据进行再次处理，因此对步骤1预处理后的学习行为记录，以天为单位进行One-hot编码处理，并且通过统计分析加入了与辍学行为发生相关的三个属性，得到多个行为表示矩阵；

步骤3、虑到每一天的学习行为模式对最终辍课预测的影响程度不同，引入SE-Net对不同时刻的特征矩阵赋予不同的权值，生成加权表示矩阵；

步骤4、采用新构建的卷积神经网络(CNN),对得到的多个时间片矩阵进行处理，通过卷积得到每一天的具有局部关联关系的特征表示矩阵，然后通过重构，生成每一天的行为表示向量；

步骤5、使用三层GRU网络对多个时间片行为表示向量进行时序关系特征提取，得到多个具有时间序列关系的行为特征向量；

步骤6、将步骤5得到的最终表示向量通过softmax函数进行预测。

图3显示的是本实例输入数据生成的流程图，具体的步骤包括：

步骤1、在KDD官网下载的KDD CUP2015比赛的数据集，此数据集已经划分好训练集和测试集，但测试集没有标签，因此本研究只选用有标签的训练集用于整个模型实验，并对其按7:3的比例进行划分，训练集样本总数为84379个，测试集样本总数36163个。该数据集包括学堂在线39门课程信息，课程信息包括每个课程不同的开课时间以及所包括章节和子模块；包括79186个学生产生120542的注册信息，注册信息包括学生注册号，姓名，以及选择学习的课程；包括8157277条学习的行为记录，行为记录包括学生什么时候学习，学习什么；包括学生学习的行为记录，如图4所示，这些数据是结构化的，每一条记录是按照学习行为发生的时间，顺序排列，每条行为记录包含不同的属性。例如，记录中的enrollment_id表示学生注册号，time表示学生相应学习行为事件发生的时间，source表示学生发生学习行为的事件源，包含2种(server,browser),event表示学生的具体行为事件，包含7种(access，navigate，problem，page_close，video，discussion，wiki),object表示学生通过access或者navigate行为访问或者导航到的对象(具体指一个课程的某个章节模块)；以及包括学生在30天学习结束后10天是否辍课的行为标签，如果某一个学生在30天学习课程后的未来10天没有行为记录则被标记为“1”，表示“辍课”。在学习课程后的未来10天至少有一个行为记录则标记为“0”，表示“没有辍课”。本研究中“辍课”为正样例，“不辍课”为负样例。在120542个实例中有95581个学生在未来辍课，24961个学生没有辍课。

步骤2、经过步骤1处理后的原始数据是文本格式，不能直接用作模型的输入，为了符合模型输入要求，需要将文本格式的数据转换为能由深度神经网络处理的格式。在本发明中，首先我们将每一条行为记录使用One-hot编码规则进行编码，考虑到所用数据对于辍课预测的有效性，本文选择了与行为记录相关的两个属性：source,event组成一个有效地学习行为特征，然后将其进行One-hot编码。考虑到生成特征矩阵的数据稀疏性问题，我们以小时为单位，对于一小时内的每条行为记录的One-hot编码对应位置相加，生成一小时的行为表示向量。通过对学习者学习行为记录的统计分析发现，仅仅通过将每一小时内的所有的行为记录的One-hot编码叠加可能会忽略某些重要信息，如学生每天的有效学习时间，如图5(a)，我们可以看到，随着学生有效学习时间的增加，辍课率是呈减少的趋势；学生的选课数量，如图5(b)我们可以观察到，随着选课数量的增加，辍课率是呈减少的趋势；以及学生所选的课程，如图5(c)我们可以观察到不同课程的辍课率是不同的，因为不同的课程，难易程度不同也会影响学生辍课行为的发生，因此将这三个与学生学习行为相关的属性考虑进来，形成学生每小时的行为表示向量，大小为1*12。其次，对于一个实例并不是每一个小时都有行为记录，因此对于没有行为记录的某一小时，我们使用零向量进行填充。最后将每小时的行为特征向量按时间顺序拼接形成的一个大小为24*12的行为特征矩阵，如图6。此外，我们通过(0-1)标准化，对数据按列进行处理，将其作为模型的输入。

上述One-hot编码的具体规则，如图7，其中具体步骤包括：

步骤1、对于上述已经处理的一条文本格式的记录，将一些属性转换为one-hot向量，将一个One-hot向量看作一对二元组Enc(r_i,q)∈{0,1}^L，L表示一个行为向量的长度，r_i表示第i条记录，q表示某个行为事件，将其定义为：

将这些属性向量连接成一个长向量来表示该记录。

步骤2、记录期间并不是每个时间点都有学习行为，因此对于没有行为记录的时间段，我们将其行为向量置为0向量即可。

步骤3、考虑到数据稀疏性的问题，将每一天的一个小时内的行为向量按照对应位置相加，形成一个小时的一个行为记录，再将三个与学生学习行为相关的统计属性考虑进来，形成一个小时行为记录的完整表示，用一个1*12的行为向量表示。

步骤4、此数据集中39门课程的持续时间均为30天，因此将30天的行为记录，按照天数划分为不重叠的30个时间窗口，每一个时间窗口包括一天的行为记录，每一条行为记录用One-hot编码形成一个行为向量。将每个小时的行为向量按时间顺序拼接形成的一个大小为24*12的行为表示矩阵。这样一天的行为记录也就是一个时间窗口的行为记录，通过Ont-hot编码生成一个24*48的行为表示矩阵。对于实例有30个24*12的行为向量矩阵表示不同时间段的记录，用{U₁,U₂,......,U_n}表示，将其作为特征提取模块的输入。

图8是SE-Net的网络结构图。对于输入的30个大小为24*12的行为矩阵，利用图像处理的思想，我们将其作为一个具有30个通道的24*12的特征图U,特征图中每个通道的权值由SE-Net进行分配，帮助我们的模型学习到重要的特征信息。首先，SE-Net沿空间维度压缩特征图U，并将每个二维通道转换成具有全局感受的实数值表示。然后，由压缩操作获得的参数通过激励操作生成特征图每个通道的权重。这些权重表示每个特征通道的重要性。最后，逐通通道加权到先前的特征上，完成通道维度对原始特征的重调。具体操作步骤包括：

步骤1、SE-Net的Squeeze操作：对输入的30*24*12的行为矩阵先做一个全局池化(Global Average Pooling)，将空间上所有点的信息都平均成了一个值。如图8中的Fsq(.)，将其称为Squeeze过程,将输入大小为H*W*C的输入特征压缩为1*1*C的特征描述(description)，对于第C个通道，Squeeze操作的计算公式如下：

步骤2、SE-Net的Excitation操作：经过上述的Squeeze操作后，网络仅仅得到了一个全局描述，这个描述并不能作为该通道的权重。然后再经过两个全连接层获得每一个通道的权重。图中8的Fex(.,W)，为Excitation过程，该操作主要的目的是比较全面的获取到通道级别的依赖。第一个全连接把C个通道压缩成了

个通道来降低计算量，r是指压缩的比例。第二个全连接再恢复回C个通道，全连接层能够很好的融合全部的输入特征信息。Excitation操作的计算公式如下：

s＝F_ex(z,W)＝σ(g(z,W))＝σ(W₂δ(W₁z))

其中z为Squeeze操作获得的全局描述，σ表示Sigmoid函数，δ表示Relu函数，保证输出为正数，W₁,W₂为两个全连接层的权重，其中

其中r为缩放参数，主要用于减轻网络计算的复杂度和参数量。

步骤3、SE-Net的Fusion操作：经过上述Excitation之后，获得了输入特征图U的各个通道的权重，接下来将权重和原始的特征通过乘法操作完成通道维度对原始特征的重调,将其作为下一级的输入数据，Fusion操作的计算公式如下：

通过SE-Net网络，将重要的特征增强，不重要的特征减弱，从而让提取的特征指向性更强。

图9是CNN-Net的模块结构图。该模块主要包括两层，卷积层1和卷积层2。对于从SE-Net输出的30个大小为24*12的行为矩阵，通过卷积层1和卷积层2进行特征提取，为了不改变输入矩阵的大小，在进行卷积操作的时候，我们这两个个卷积层均使用零填充，将padding设置为‘SAME’，将stride设置为1，卷积核大小为L*L。假设对于每一个实例(m-1)层的输出大小为U^(m-1)×L^(m-1)，经过这样的m层卷积操作,输出大小为U^m×L^m，计算公式如下：

卷积层使用RELU激活函数计算输出计算公式如下：

X^m＝RELU(W^mX^(m-1)+b^m)

其中X^m表示第m个卷积层的输出，X^(m-1)表示第m个卷积层的输入矩阵,W^m是第m个卷积层的过滤器，实质上是一个权重矩阵。b^m表示偏置。

图10是GRU的逻辑单元结构图，图中z_t和r_t分别表示更新门和重置门，它们一起控制信息的更新。z_t决定前一时刻的状态信息传输到当前状态的多少，z_t的值越大表明前一时刻的状态信息传入到当前状态越多。r_t决定前一状态有多少信息被写入到当前的候选集h′_t上，r_t值越小，前一状态的信息被写入的越少。该模型处理信息流是通过内置在结构单元中的门结构来完成的，GRU结构中t时刻的激活状态用h_t来表示，h_t与前一个时刻的激活状态h_t-1呈线性相关，计算公式如下所示：

h_t＝(1-z_t)*h_t-1+z_t*h′_t

逻辑单元中的更新门状态z_t，候选激活状态h^、 _t和重置门状态r_t的状态更新过程公式如下：

其中，[]表示两个向量相连，*表示矩阵的乘积，h_t-1表示上一个神经元的输出，x_t表示当前节点的输入，σ表示sigmoid函数，tanh()表示双曲正切函数，W_Z,W_r,W_h分别表示相应的链接权重矩阵。

GRU网络通过上述的多个单元完成特征提取，在隐层获得高级特征表示。GRU网络如图11所示，图中，v₀,v₁,v₂,v₃,...v_n为经过CNN之后向量化表示的n+1个输入，分别对应于t₀,t₁,t₂,t₃,...t_n时刻作为GRU-Net的输入，t₀,t₁,t₂,t₃,...t_n分别对应于在t₀,t₁,t₂,t₃,...t_n时刻的隐层状态。GRU单元中的计算公式如下：

h_n＝tanh(W₁v_n+W₂h_n-1)

其中v_n为t_n时刻的输入，h_n-1为t_n-1时刻的隐藏层状态，然后通过计算得到h_n,W₁,W₂是权重矩阵。

辍课预测问题是一个二分类问题，我们用“1”表示辍课，“0”表示没有辍课，输出层通过softmax函数，对其是否辍课进行预测，计算公式如下：

h'_n＝Wh_n

其中，T为类别标签的数量，W为模型输出层的权重矩阵，h'_n(i)为表示向量h'_n中的第i个分量值，向量的维度和待分类类别数量相等。根据softmax函数的计算公式我们能够得到一个概率分布，输出结果的值为[0-1]区间的值，表示是“1”的可能性。

本模型的损失函数使用交叉熵损失函数，在二分类的情况下。模型最后需要预测的结果只有两种情况，对于每一个类别我们预测的概率为p和1-p,损失函数表达式如下：

其中，N表示训练实例的个数(也就是注册课程的学生数量)，p_i表示第i个实例的辍课概率，且p_i∈[0,1]；y_i表示样本i的label,正例为1，负例为0,L表示损失值，且L∈R。

根据得到的损失值，采用梯度下降的方法优化模型，进行参数调整，得到经过优化的深度网络，经过多次操作，得到多个损失值，当损失值趋收敛时结束操作，将此模型作为最终的预测模型。

当然，以上所述实例仅是本发明的较优实施例，本发明并非局限于上述实施例和实施例方法。相关技术领域的从业者可在本发明的技术思路许可的范围内进行不同的细节调整和实施，故凡依本发明专利申请范围所述的构造、特征及原理所做的等效变化或修饰，均包括于本发明专利申请。

Claims

1.一种基于混合深度神经网络的学生辍课预测方法。其特征是：本发明通过对学生的点击流日志信息进行预处理，生成学生每天的行为表示矩阵，为了刻画学生不同访问时间对辍课行为的影响，通过SE-Net对每一天的行为矩阵进行加权表示，生成每天的行为表示矩阵，然后使用一种新的CNN对行为特征进行局部关系提取，最后通过门控循环单元(GRU)网络进行时间序列关系特征提取，通过softmax层进行最后的预测任务，以此提高辍课预测的精确度。

其特征在于：

2.根据权利要求1所述的一种基于混合深度神经网络的学生辍课预测方法。其特征是：在生成输入数据方面，本发明考虑到时间序列数据的进行了细粒度划分，并使用One-hot编码规则和特征工程相结合，构建行为特征矩阵，有助于提高预测的准确性。

3.根据权利要求1所述的一种基于混合深度神经网络的学生辍课预测方法。其特征是：考虑到不同时间段的学习行为对于最终的辍课预测的影响程度不一样，引入SE-Net网络，通过给每一天的行为矩阵分配权重来决定哪个时间段的行为特征对于辍课预测有决定性作用，从而提高模型的性能。

4.根据权利要求1所述的一种基于混合深度神经网络的学生辍课预测方法。其特征是：特征提取方面，本发明通过使用一种新建的卷积神经网络(CNN)，进行局部关系特征提取。

5.根据权利要求1所述的一种基于混合深度神经网络的学生辍课预测方法。其特征是：考虑到行为之间的序列关系，以及模型本身的影响，本发明使用三层的GRU提取行为矩阵之间存在的潜在具有时序关系的行为特征。从模型本身参数设置上，GRU模型比LSTM模型少了一个“门”，既可以减少了模型训练时间而且也不容易产生过拟合问题，最重要的是也能解决行为之间的彼此的关联关系问题。