CN112801362B

CN112801362B - 一种基于人工神经网络与lstm网络的学业预警方法

Info

Publication number: CN112801362B
Application number: CN202110101091.8A
Authority: CN
Inventors: 欧阳宁; 成浩; 谷盛民; 石将煌; 梁达林
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2021-01-26
Filing date: 2021-01-26
Publication date: 2022-03-22
Anticipated expiration: 2041-01-26
Also published as: CN112801362A

Abstract

本发明公开了一种基于人工神经网络与LSTM网络的学业预警方法，其特征在于，包括如下步骤：1）基于RBF核的缺失数据处理；2）基于多维正态分布的自适应特征提取；3）基于细化网络的人工神经网络训练；4）自适应激励函数LSTM网络训练；5）与软件平台结合。这种方法普适性好、误检率低、预测准确度高。

Description

一种基于人工神经网络与LSTM网络的学业预警方法

技术领域

本发明涉及大数据处理、机器学习领域，具体是一种基于人工神经网络与LSTM网络的学业预警方法。

背景技术

学业预警具有能预测学生未来成绩趋势与是否可以毕业的功能，学业预警在高校内具有非常好的应用价值。目前已经有部分高校使用了学业预警***来辅助学校提升学生的毕业率以及降低不及格率。随着高校招生规模提高，学生人数过多，人工跟踪学生学业完成度已经不太现实，所以利用现代先进的深度学习算法对海量数据进行训练，形成预测精准的学业预警***，提前为学生学业做出预警，让高校学生提前意识到可能无法正常完成学业的危险，能够有效减少学生学业不及格情况的发生。

在传统基于机器学习的学业预警方法中，如支持向量机(SVM)，随机森林(Randomforest)等算法在学业预警***中应用的缺陷是无法使用高校学生的成绩、图书馆阅读时长等的时间特征，不能将前后的时间线有效的联系起来，如前置课程对后置课程的影响，也不能很好处理有缺失的数据，而理想的学业预警算法是通过成绩、图书馆阅读时间等特征来预测高校学生的学业完成情况或是否可以正常毕业，因为这些特征的关系在时间线上是具有相关性，可以相互影响的，所以除了考虑空间上的影响，还需要考虑时间上的影响，否则无法充分提取特征，发挥学业预警效果。近年来，上海水产大学提出“学业预警”机制，引入“学业预警”概念，通过学业预警机制对学业完成度低的学生进行不同程度的预警。

Seep Hochreiter等人提出了长短期记忆网络(LSTM)算法，解决了循环神经网络(RNN)的无法“遗忘”信息和无法长时间“记忆”信息等问题；Tao等人提出了基于KFCM改进SVM的算法，并将改进SVM的算法应用于学业预警领域，改进了传统的机器学习的算法，得到较好预测效果；Ren等人提出了基于FT_BP神经网络的算法，使用了深度学习并对传统的BP网络进行了改进，将其应用于学业预警领域。

虽然近年来这些研究能一定程度上解决学业预警中的某些问题，但是仍有诸多不足之处。首先，学业预警具有条件复杂、数据不统一的情况，现有方法的应用场景狭窄、要求有统一标准的数据作为支撑，而如上述方法的重点都是在算法上，没有考虑到数据集本身的重要性和不同特征之间的时间和空间上的关联；其次，KFCM-SVM算法是机器学习算法在应对较少数量的数据集时，有很好的效果，但对于大数据和数据复杂的场景就显得力不从心，而且机器学习由于算法本身特性限制具有误检率高、准确率有待进一步提高的问题。

发明内容

本发明的目的是针对现有技术的不足，而提供一种基于人工神经网络与LSTM网络的学业预警方法。这种方法普适性好、误检率低、预测准确度高。

实现本发明目的的技术方案是：

一种基于人工神经网络与LSTM网络的学业预警方法，包括如下步骤：

1)基于RBF核的缺失数据处理：首先对学生数据进行清洗：对于数据完整的学生信息进行x'＝(x-μ)/(Max-Min)的归一化处理；然后，对于数据缺失的学生信息采用RBF核函数对学生信息原数据通过K(v1,v2)＝exp(-γ||v1-v2||)²的方式映射将学生信息原从低维空间映射到高维空间，这样做的好处是完整保留了原始数据的全部信息、不用考虑缺失值、不用考虑线性不可分之类的问题，映射过程如公式(1)所示：

其中，x′，y′为学生信息数据数组，y′为对应数组标签,α为RBF核参数gamma值，α值越小影响越大，值越大影响越小，由此得到高维空间的每一个元素为：

进而得到数据K(v1,v2,v3...)向量，再对数据K(v1,v2,v3...)向量采用x＝(y-μ)/(Max-Min)的归一化处理，其中，y为要归一化的学生信息数据数组,x为归一化后的学生信息数组；

2)基于多维正态分布的自适应特征提取：提取步骤1)经过数据清洗处理、归一化后的学生数据中的成绩信息向量G(x1,x2,x3...)进行多元正态分布筛选，定义成绩信息向量G(x1,x2,x3...)中的n维成绩信息若x1,x2,x3...,xn的任意线性组合Y＝a₁x₁+a₂x₂+...+a_nx_n服从正态分布，存在随机向量Z＝[Z₁,...,Z_M]^T，其中，每个元素服从正态分布以及随机向量μ＝[μ₁,...,μ_N]^T和N*M的矩阵A满足X＝AZ+μ；若n维成绩信息向量G(x1,x2,x3...)满足上述三个条件则称其满足多元正态分布，即成绩信息向量G(x1,x2,x3...)服从f_x，对于成绩满足多元正态分布的学生信息规划为标准类、不满足的学生信息规划为奇异类，如公式(2)所示：

这里，x为归一化后的学生信息数组，μ为平均值，k为常数指数；

3)基于细化网络的人工神经网络训练：采用人工神经网络对步骤2)得到的学生成绩信息相关数据进行训练，训练采用弹性反向传播即Rprop算法，在一般的反向传播算法中，学习过程中权重的改变量是由误差函数对该权重的偏导即梯度所决定，而在Rprop算法中，权重的变化量Δw_i,j直接等于学习率η_i,j(t)，因此误差函数的梯度并不影响权重的变化值，在Rprop算法中梯度仅仅影响权重变化值的符号，即影响权重变化的方向，训练过程中权重的改变量直接等于每个权重对应的学习率，而权重的改变量的符号则取决于误差函数的梯度的符号，误差函数得梯度只决定权值更新的方向，不决定权值更新的强度，如果误差函数的梯度为正，则就需要降低相应的权重，可以使w_i,j减去η_i,j(t)，如果梯度为负数，则就应该增大相应的权重来使误差函数逼近最小值，如公式(3)所示：：

至此已经明确权重如何更新，接下来说明一下学习率η_i,j(t)如何更新，此时首先应当考虑一下任何t和(t-1)两个时间点的梯度的符号会如何变化，总共有两种情况：如果(t-1)和t两个时间点误差函数的梯度符号不同，表明在t时已经越过了最小值，表明上一次权值的更新步跨太大，则η_i,j(t)就应当比η_i,j(t-1)更小来使得对于最低值的搜索更加精确，在数学层面上，使上一步的学习率和一个大于0小于1的值η^up相乘来得到当前的学习率，然而，当两次的符号相同，表明还未到达误差函数的最低点，可以使相应的学习率增加一些来加快学习的步伐，因此可以使上一步的学习率乘以一个大于1的η^down来得到当前的学习率,如公式(4)所示：

4)自适应激励函数LSTM网络训练：采用LSTM网络对学生的每日一卡通消费相关信息进行训练，并将训练结果与人工神经网络级联输出最终的毕业概率结果，现有技术中LSTM网络结构为：LSTM模块设有三个输入分别为：c^t-1、h^t-1和x^t，经过LSTM模块输出分别是c^t、h^t和y^t，其中x^t表示本轮的输入，h^t-1表示上一轮的状态量输出，c^t-1表示上一轮全局一个信息的载体，y^t表示本轮的输出，h^t表示本轮的状态量输出，c^t表示本轮全局的一个信息载体，将x^t和h^t-1合并成一个向量再乘以向量W，外面再包一层tanh函数，得到向量z；采用激活函数sigmoid将现有技术中LSTM网络结构中的x^t和h^t-1合并成一个向量，再分别乘以矩阵W^f、Wⁱ和W^o得到z^f、zⁱ和z^o，W^f，Wⁱ，W^o分别为遗忘门、输入门、输出门权重矩阵，用于乘以各门输入的变量，z^f，zⁱ，z^o为乘以权重W加上偏置后的各门输出，然后用这些向量由公式(5)得c^t：

c^t＝z^fc^t-1+zⁱz (5)，

由公式(6)得到h^t：h^t＝z^otanh(c^t) (6)，

由公式(7)得到本轮的输出y^t：y^t＝σ(Wh^t) (7)，

将原本的tanh激励函数变为自适应激励函数Relu+tanh的加权平均函数，对于LSTM的每一个门传入的数据x采用

u+v＝1的形式进行激励，有效地避免了tanh梯度消失的问题，且能够保持tanh的非线性化特点，从而利用LSTM对学生一卡通消费相关信息进行训练，对每个学生进行预警分类，为每个学生针对性的生成个人分析报告，如果为高危预警会收到相应的预警信息并将预警信息与步骤3)中的人工神经网络进行级联从而预测该学生毕业概率；

5)与软件平台结合：利用现有的预警算法软件创建适用上述步骤的软件平台，用户端口分为教师端与学生端，学生有权查看自己个人学习成绩与个人相关信息、自己所在班级相关成绩信息、班级年级上的对应学科排名，如果为高危预警学生端会收到相应的预警信息；教师端有权查看该教师所带课程的所有学生的信息、查看班级各类信息、年级各类信息，若学生收到预警，则教师也会收到学生预警的提示，方便教师进行对学生成绩的关注，同时生成学生个人、班级、课程的图表，方便教师实时跟踪每个学生的学习情况与状况。

本技术方案采用神经网络与LSTM网络算法相结合，对数据进行数据清洗、基于RBF核的缺失数据映射、数据归一化处理以及基于多维正态分布的自适应特征提取、采用细化后的主次人工神经网络训练、基于自适应激励函数的LSTM网络训练，采用人工神经网络与LSTM网络级联的方式预测，同时与软件平台结合具有良好的可视化界面，能够为学生与教师提供直观的预警数据信息图及预测图和报表，能够自动对学生划分预警等级，提供相应的预警建议功能。

这种方法通过对学生各类数据进行清洗，缺失数据映射处理，归一化处理，基于多维正态分布的自适应特征提取，再利用人工神经网络与LSTM网络分布训练，级联预测的方式有效地提高预警的准确度，能在特征数据少的情况下做到高的准确度。

这种方法普适性好、误检率低、预测准确度高。

附图说明

图1为实施例方法流程示意图；

图2为实施例方法预测精度与其他方法预测精度对比示意图；

图3为现有技术中LSTM模块结构示意图；

图4为实施例中LSTM模块结构示意图。

具体实施方式

下面结合附图和实施例对本发明的内容作进一步的阐述，但不是对本发明的限定。

实施例：

参照图1，一种基于人工神经网络与LSTM网络的学业预警方法，包括如下步骤：

其中，x′，y′为学生信息数据数组，y′为对应数组标签，α为RBF核参数gamma值，α值越小影响越大，值越大影响越小，由此得到高维空间的每一个元素为：

这里，x为归一化后的学生信息数组，μ为平均值；

4)自适应激励函数LSTM网络训练：采用LSTM网络对学生的每日一卡通消费相关信息进行训练，并将训练结果与人工神经网络级联输出最终的毕业概率结果，如图3所示，现有技术中LSTM网络结构为：LSTM模块设有三个输入分别为：c^t-1、h^t-1和x^t，经过LSTM模块输出分别是c^t、h^t和y^t，其中x^t表示本轮的输入，h^t-1表示上一轮的状态量输出，c^t-1表示上一轮全局一个信息的载体，y^t表示本轮的输出，h^t表示本轮的状态量输出，c^t表示本轮全局的一个信息载体，将x^t和h^t-1合并成一个向量再乘以向量W，外面再包一层tanh函数，得到向量z；采用激活函数sigmoid将现有技术中LSTM网络结构中的x^t和h^t-1合并成一个向量，再分别乘以矩阵W^f、Wⁱ和W^o得到z^f、zⁱ和z^o，W^f，Wⁱ，W^o分别为遗忘门、输入门、输出门权重矩阵，用于乘以各门输入的变量，z^f，zⁱ，z^o为乘以权重W加上偏置后的各门输出，然后用这些向量由公式(5)得c^t：

c^t＝z^fc^t-1+zⁱz (5)，

由公式(6)得到h^t：h^t＝z^otanh(c^t) (6)，

由公式(7)得到本轮的输出y^t：y^t＝σ(Wh^t) (7)，

如图4所示，本例中的LSTM网络结构对图3基础的网络结构改动之处在于将原本的tanh激励函数变为自适应激励函数Relu+tanh的加权平均函数，对于LSTM的每一个门传入的数据x采用

经过多次考量与测试，本例方法的准确度稳定可达94.21％，最高可达98.17％，且平均误检率稳定在1.97％，如图2所示，相比与现有的机器学习算法SVM,RF准确度具有明显的提升。

Claims

1.一种基于人工神经网络与LSTM网络的学业预警方法，其特征在于，包括如下步骤：

1)基于RBF核的缺失数据处理：首先对学生数据进行清洗：对于数据完整的学生信息进行x'＝(x-μ)/(Max-Min)的归一化处理；然后，对于数据缺失的学生信息采用RBF核函数对学生信息原数据通过K(v1,v2)＝exp(-γ||v1-v2||)²的方式映射将学生信息原从低维空间映射到高维空间，映射过程如公式(1)所示：

其中，x′，y′为学生信息数据数组，y′为对应数组标签，α为RBF核参数gamma值，由此得到高维空间的每一个元素为：

进而得到数据K(v1,v2,v3...)向量，再对数据K(v1,v2,v3...)向量采用x＝(y-μ)/(Max-Min)的归一化处理，其中，y为要归一化的学生信息数据数组,x为归一化后的学生信息数组，μ为平均值，Max，Min为所有x元素中的最大与最小值；

其中，x为归一化后的学生信息数组，μ为平均值，k为常数指数；

3)基于细化网络的人工神经网络训练：采用人工神经网络对步骤2)得到的学生成绩信息相关数据进行训练，训练采用弹性反向传播即Rprop算法，在Rprop算法中，权重的变化量Δw_i,j直接等于学习率η_i,j(t)，误差函数的梯度不影响权重的变化值，在Rprop算法中误差函数的梯度仅仅影响权重变化值的符号，即影响权重变化的方向，训练过程中权重的改变量直接等于每个权重对应的学习率，而权重的改变量的符号则取决于误差函数的梯度的符号，误差函数得梯度只决定权值更新的方向，不决定权值更新的强度，如果误差函数的梯度为正，则就降低相应的权重，使w_i,j减去η_i,j(t)，如果梯度为负数，则就增大相应的权重来使误差函数逼近最小值，如公式(3)所示：

至此明确权重如何更新，接下来学习率η_i,j(t)更新，任何t和(t-1)两个时间点的梯度的符号会变化，变化总共有两种情况：如果(t-1)和t两个时间点误差函数的梯度符号不同，表明在t时已经越过了最小值，表明上一次权值的更新步跨太大，则η_i,j(t)比η_i,j(t-1)更小使上一步的学习率和一个大于0小于1的值η^up相乘得到当前的学习率，当两次的符号相同，表明还未到达误差函数的最低点，使上一步的学习率乘以一个大于1的η^down得到当前的学习率,如公式(4)所示：

4)自适应激励函数LSTM网络训练：采用LSTM网络对学生的每日一卡通消费相关信息进行训练，并将训练结果与人工神经网络级联输出最终的毕业概率结果，现有技术中LSTM网络结构为：LSTM模块设有三个输入分别为：c^t-1、h^t-1和x^t，LSTM模块输出分别是c^t、h^t和y^t，其中x^t表示本轮的输入，h^t-1表示上一轮的状态量输出，c^t-1表示上一轮全局一个信息的载体，y^t表示本轮的输出，h^t表示本轮的状态量输出，c^t表示本轮全局的一个信息载体，将x^t和h^t-1合并成一个向量再乘以向量W，外面再包一层tanh函数，得到向量z，采用激活函数sigmoid将现有技术中LSTM网络结构中的x^t和h^t-1合并成一个向量，再分别乘以矩阵W^f、Wⁱ和W^o得到z^f、zⁱ和z^o，W^f，Wⁱ，W^o分别为遗忘门、输入门、输出门权重矩阵，用于乘以各门输入的变量，z^f，zⁱ，z^o为乘以权重W加上偏置后的各门输出，由公式(5)得c^t：

c^t＝z^fc^t-1+zⁱz (5)，

由公式(6)得到h^t：h^t＝z^otanh(c^t) (6)，

由公式(7)得到本轮的输出y^t：y^t＝σ(Wh^t) (7)，

u+v＝1的形式进行激励，从而通过LSTM对学生一卡通消费相关信息进行训练，对每个学生进行预警分类，为每个学生针对性的生成个人分析报告，如果为高危预警会收到相应的预警信息并将预警信息与步骤3)中的人工神经网络进行级联从而预测该学生毕业概率；