CN111415099A

CN111415099A - 一种基于多分类BP-Adaboost的贫困生认定方法

Info

Publication number: CN111415099A
Application number: CN202010236492.XA
Authority: CN
Inventors: 杨建锋; 魏瀚哲; 王朝阳
Original assignee: Northwestern University
Current assignee: Northwestern University
Priority date: 2020-03-30
Filing date: 2020-03-30
Publication date: 2020-07-14

Abstract

一种基于多分类BP‑Adaboost的贫困生认定方法，包括以下步骤：（1）获取往年贫困生的多维历史数据，（2）对采集到的往年贫困生历史数据进行预处理，构造学生特征矩阵S；（3）将往年贫困生的多维历史数据按照贫困程度分为三个类别，标注学生贫困类别标签，构造训练数据集；（4）设计BP‑Adaboost分类模型，使用提取的往年各贫困程度的贫困生特征矩阵构造的数据集训练BP‑Adaboost分类模型；（5）训练模型用于贫困生辅助认定。本发明利用在校学生产生的学生行为数据，设计了一个基于BP‑Adaboost的多分类模型，本模型可以快速、准确的将学生分为三种贫困类别，以此判断学生的贫困情况辅助高校贫困生管理工作人员进行决策。

Description

一种基于多分类BP-Adaboost的贫困生认定方法

技术领域

本发明属于特征提取和分类算法技术领域，具体涉及一种基于多分类BP-Adaboost的贫困生认定方法。

背景技术

学生资助是脱贫攻坚、促进教育公平进而实现社会公平的重要内容和重要举措。高校贫困生认定是国家学生资助政策有效落实的基础工作，是推进学生资助精准化的重要内容。目前，大部分高校贫困生评定都是有学生所在地乡镇出示相关证明后由班级公开评选和院系辅导员审核。这种认定模式存在贫困认定偏差、各环节评选容易掺杂个人主观感情、贫困生因自尊心放弃评审等问题，导致影响贫困生资助的公平、效率和准确。

大数据时代的来临和深度学习方法日益成熟，为贫困生资助工作带来了新的理念和技术支持，也为高校利用大数据与深度学习方法推进快速、便捷、高效精准资助工作带来了新的机遇。目前高校信息化建设已经取得了长足发展，学生在校园的一切行为都会产生数据，记录着学生各项特征，这类数据反映着学生的真实情况，合理的运用这类数据可以在一定程度上辅助贫困生认定过程，使认定结果更加真实客观，给予真正贫困的学生更多帮助。

目前，对于使用大数据手段、机器学习方法辅助认定在校贫困生认定工作仍处于探索阶段，国内暂无统一的认定评估方法。虽有一部分技术提出了一些观点与思路，但均无法满足实际应用或难以实现，例如：申请号201810972342.8、专利名称为一种基于机器学习的学生贫困程度预测方法的专利申请文件，其虽是针对学生在校产生行为数据进行学生贫困程度预测，但其所需数据种类繁多，需要使用几十类数据，容易造成数据维数灾难，同时加大了实现难度。

因此，利用大数据手段与机器学习方法有效的、精准的实现贫困生认定已经成为研究辅助贫困生精准资助的关键。

发明内容

为了克服上述现有技术处理高维度贫困生数据困难以及实现精准资助贫困生困难的问题，本发明提出了一种基于多分类BP-Adaboost的贫困生认定方法。

为了实现上述目的，本发明采用的技术方案是：

一种基于多分类BP-Adaboost的贫困生认定方法，其特征在于，包括以下步骤：

步骤1、学生历史行为数据的获取，获取往年贫困生的多维历史数据，往年贫困生多维历史数据包括学生家庭情况与经济情况、校园消费情况、学生成绩情况、贫困生基本信息；

其获取往年贫困生多维历史数据建立贫困生特征矩阵的具体步骤如下：

1)提取学生家庭情况与经济情况，包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭；提取校园消费情况，包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值；提取学生成绩情况，包括绩点、学期平均成绩、挂科数量；提取贫困生基本情况，包括是否绿色通道入学、是否办理生源地贷款；

2)设学生家庭情况与经济情况数据集E＝{e₁，e₂，…，e_n}，其中n表示学生编号，e_n是一个由是否独生子女、是否为孤儿、是否建档立卡贫困户、是否烈士或优抚子女、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭组成的矩阵；

3)设校园消费情况数据集C＝{c₁，c₂，…，c_n}，其中n表示学生编号，c_n是一个由消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值组成的矩阵；

4)设学生成绩情况数据集G＝{g₁，g₂，…，g_n}，其中n表示学生编号，g_n是一个由绩点、学期平均成绩、挂科数量组成的矩阵；

5)设贫困生基本情况数据集B＝{b₁，b₂，…，b_n}，其中n表示学生编号，b_n是一个由是否绿色通道入学、是否办理生源地贷款组成的矩阵；

步骤2、对步骤1采集到的往年贫困生多维历史数据进行预处理；具体步骤为：

1)处理数据集中的缺失值，缺失值使数据丢失了部分信息，对于缺失的空字段使用平均值进行填充；

2)去除重复数据，将往年贫困生数据按照学生编号进行排序，通过比较临近记录是否相似来检测记录是否重复，如有重复则删除重复记录；

3)对学生家庭情况与经济情况数据集E和贫困生基本情况数据集B进行特征编码，采用one-hot编码方式；

4)归一化，对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化；

5)将学生家庭情况与经济情况数据集E、校园消费情况数据集

学生成绩情况数据集

贫困生基本情况数据集B合并成为学生特征矩阵S；

步骤3、将往年贫困生多维历史数据按照贫困程度分为三个类别，标注学生贫困类别标签，构造训练数据集，具体步骤为：

按照往年贫困级别将学生分为三个级别，分别是不贫困、一般贫困、特别贫困，并用one-hot编码，作为学生贫困类别标签，构造训练数据集T，T＝{(x₁，y₁)，…，(x_i，y_i)，…，(x_n，y_n)}，其中输入数据x_i随机抽取于学生特征矩阵S，标签y_i∈{001，010，011}，这里001，010，011分别对应了不贫困、一般贫困、特别贫困，n为数据数量，T中数据数量为学生特征矩阵中的70％；

步骤4、设计BP-Adaboost分类模型，使用步骤一中提取的往年各贫困程度的贫困生特征矩阵构造的数据集训练BP-Adaboost分类模型，具体步骤如下：

1)输入训练数据集T，初始化训练数据的权重D＝(W₁₁，…，W_1i，…，w_1n)，其中w_1i＝1/n，i＝1，2，…N，N表示学生特征矩阵S中的数据量；同时，令迭代次数m＝1，设定总迭代次数为M，M＝10；

2)开始迭代，采用三层神经网络，神经网络采用BP神经网络，其包含了输入层、一层隐含层、输出层，输入层具有17个节点、隐含层具有18个节点、输出层具有3个节点；

3)对有权值分布的训练数据集进行训练，得到弱分类器：G_m(x)：X→{001，010，011}，这里001，010，011分别对应了不贫困、一般贫困、特别贫困；

4)计算训练数据在当前分类器G_m(x)下的误差率：

5)计算G_m(x)的系数α_m：

其中，K表示贫困生的种类，α_m表示G_m(x)在最终分类器中的重要性，α_m随着err_m减小而增大，即分类误差率越小的若分类器在最终分类器中的作用越大；

6)更新训练数据集权值分布：

D_m+1＝(W_m+1，1，…，W_m+1，i，…，W_m+1，N)，

W_m+1，i可以转化为下式：

由此可知，被基本分类器G_m(x)误分类样本的权值得以扩大，而被正确分类样本的权值却因此变小，因此使得BP-Adaboost分类模型更加关注误分类样本，在下一轮学习中误分类样本起更大的作用，以此来提升分类模型的分类能力；

Z_m是规范化因子：

它使D_m+1成为一个概率分布；

7)判断是否终止迭代，当m＜M时，则跳转步骤3的第3步)，迭代次数m＝m+1，继续进行迭代；否则终止迭代，完成BP-Adaboost分类器的训练，得到最终分类器

步骤4、训练模型用于贫困生辅助认定，具体步骤如下：

1)提取待认定学生家庭情况与经济情况，包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、学生本人残疾级别或患病程度、父母是否有残疾或患病、父母残疾级别或患病程度，是否城乡特困供养人员、是否城乡最低生活保障家庭；提取校园消费情况，包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值；提取学生成绩情况，包括绩点、学期平均成绩、挂科数量；提取贫困生基本情况，包括是否绿色通道入学、是否办理生源地贷款；

2)对获取到的学生数据进行预处理，并构建学生特征矩阵S；

3)将待分类的学生特征矩阵S输入已经训练好的BP-Adaboost分类模型，得到认定结果，若输出结果为1则表明该生为不贫困、输出结果为2则表明该生为一般贫困、输出结果为3则表明该生为特别贫困。

所述的对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化；具体步骤如下：

1)对校园消费数据情况数据集C中的每项数据使用Sigmoid进行归一化，设

为归一化后的学生校园消费数据，

归一化处理后的校园消费数据情况数据集记为

2)对学生成绩情况数据集G中的每项数据使用Sigmoid进行归一化，设

为归一化后的学生成绩情况数据，

归一化处理后的校园消费数据情况数据集记为

本发明与现有技术相比，具有如下优点和有益效果：

本发明提出了一种基于多分类BP-Adaboost的贫困生认定方法，本方法改变了传统贫困生认定模式，在认定过程中采用机器学习的方法克服了人为主观性；本方法与现有利用机器学习进行贫困生认定方法相比，本方法选取了贫困生认定中关键因素，降低了学生数据维度，避免了机器学习中的维数灾难；本方法将BP-Adaboost作为分类器，具有较高的分类精度，有效的提高了贫困生认定的准确性。

附图说明

图1为本发明的总体流程图；

图2为BP-Adaboost分类模型训练流程图。

具体实施方式

以下结合实施例及附图对本方进一步叙述，但本发明不局限于以下实施例。

一种基于多分类BP-Adaboost的贫困生认定方法包括以下步骤：

步骤(1)：采集往年贫困生历史数据；往年贫困生多维历史数据包括学生家庭情况与经济情况、校园消费情况、学生成绩情况、贫困生基本信息，建立往年贫困生特征矩阵；本发明中的分类模型的建立是基于贫困生数据特征而构造，因此基础数据的精准选取为后期贫困生精准分类打下了基础，具体步骤如步骤(1.1)到步骤(1.6)：

(1.1)提取学生家庭情况与经济情况，包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭；提取校园消费情况，包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值；提取学生成绩情况，包括绩点、学期平均成绩、挂科数量；提取贫困生基本情况，包括是否绿色通道入学、是否办理生源地贷款；

(1.2)设学生家庭情况与经济情况数据集E＝{e₁，e₂，…，e_n}，其中n表示学生编号，e_n是一个由是否独生子女、是否为孤儿、是否建档立卡贫困户、是否烈士或优抚子女、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭组成的矩阵，建立学生家庭情况与经济情况数据集E；

(1.3)设校园消费情况数据集C＝{c₁，c₂，…，c_n}，其中n表示学生编号，c_n是一个由消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值组成的矩阵，建立校园消费情况数据集C；

(1.4)设学生成绩情况数据集G＝{g₁，g₂，…，g_n}，其中n表示学生编号，g_n是一个由绩点、学期平均成绩、挂科数量组成的矩阵，建立学生成绩情况数据集G；

(1.5)设贫困生基本情况数据集B＝{b₁，b₂，…，b_n}，其中n表示学生编号，b_n是一个由是否绿色通道入学、是否办理生源地贷款组成的矩阵，建立贫困生基本情况数据集B；

步骤(2)：在具体实践中得到的数据往往存在缺失值、重复值，如学校食堂刷卡器故障导致学生消费信息缺失，所以在使用数据之前需要进行数据预处理，预处理没有标准流程，这里只针对本发明涉及流程设计了数据预处理过程，具体过程如步骤(2.1)到步骤(2.5)所述：

(2.1)处理数据集中的缺失值，缺失值使数据丢失了部分信息，一些鲁棒性不佳的模型会因为缺失值而导致无法计算数据，本发明涉及到的校园消费情况数据和学生成绩情况数据可能由于采集设备或其他原因导致数据缺失，对于缺失的空字段使用平均值进行填充；

(2.2)去除重复数据，将往年贫困生数据按照学生编号进行排序，通过比较临近记录是否相似来检测记录是否重复，如有重复则删除重复记录；

(2.3)对学生家庭情况与经济情况数据集E和贫困生基本情况数据集B进行特征编码，采用one-hot编码方式；

(2.4)数据归一化是调整属性取值的一些特征，将数据按照比例缩放使之落入一个小的特定区间，在具体实施中需要对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化，具体步骤如步骤(2.4.1)和步骤(2.4.2)所描述：

(2.4.1)对校园消费数据情况数据集C中的每项数据使用Sigmoid进行归一化，设

为归一化后的学生校园消费数据，

归一化处理后的校园消费数据情况数据集记为

(2.4.2)对学生成绩情况数据集G中的每项数据使用Sigmoid进行归一化，设

为归一化后的学生成绩情况数据，

归一化处理后的校园消费数据情况数据集记为

(2.5)将学生家庭情况与经济情况数据集E、校园消费情况数据集

学生成绩情况数据集

贫困生基本情况数据集B合并成为学生特征矩阵S；

步骤(3)：按照国家贫困生资助标准将学生特征矩阵S中的贫困生数据分为三类，分别是不贫困、一般贫困、特别贫困，并用one-hot编码，作为学生贫困类别标签，构造训练数据集T，T＝{(x₁，y₁)，…，(x_i，y_i)，…，(x_n，y_n)}，其中输入数据x_i随机抽取于学生特征矩阵S，标签y_i∈{001，010，011}，这里001，010，011分别对应了不贫困、一般贫困、特别贫困，n为数据数量，T中数据数量为学生特征矩阵中的70％；

步骤(4)：如图二所示，设计了一个BP-Adaboost贫困生分类模型，并使用带有权重的数据训练该分类模型，其具体步骤如下所述：

(3.1)输入训练数据集T，初始化训练数据的权重D＝(W₁₁，…，W_1i，…，w_1n)，其中w_1i＝1/n，i＝1，2，…N，N表示学生特征矩阵S中的数据量；同时，令迭代次数m＝1，设定总迭代次数为M，M＝10；

(3.2)开始迭代，采用三层神经网络，神经网络采用BP神经网络，其包含了输入层、一层隐含层、输出层，输入层具有17个节点、隐含层具有18个节点、输出层具有3个节点；

(3.3)对有权值分布的训练数据集进行训练，得到弱分类器：：G_m(x)：X→{001，010，011}，这里001，010，011分别对应了不贫困、一般贫困、特别贫困；

(3.4)计算训练数据在当前分类器G_m(x)下的误差率：

(3.5)计算G_m(x)的系数α_m：

K表示贫困生的种类，1、2、3分别表示了不贫困、一般贫困和特别贫困，α_m表示G_m(x)在最终分类器中的重要性，α_m随着err_m减小而增大，即分类误差率越小的若分类器在最终分类器中的作用越大；(3.6)更新训练数据集权值分布：

D_m+1＝(w_m+1，1，…，W_m+1，i，…，W_m+1，N)，

W_m+1，i可以转化为下式：

Z_m是规范化因子：

它使D_m+1成为一个概率分布；

(3.7)判断是否终止迭代，当m＜M时，则跳转步骤(3.3)，迭代次数m＝m+1，继续进行迭代；否则终止迭代，完成BP-Adaboost分类器的训练，得到最终分类器

步骤(4)：获取待认定学生的数据，将该生数据进行预处理后输入分类模型，分类结果用于贫困生的辅助认定，具体步骤如下所述：

(4.1)提取待认定学生家庭情况与经济情况，包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、学生本人残疾级别或患病程度、父母是否有残疾或患病、父母残疾级别或患病程度，是否城乡特困供养人员、是否城乡最低生活保障家庭；提取校园消费情况，包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值；提取学生成绩情况，包括绩点、学期平均成绩、挂科数量；提取贫困生基本情况，包括是否绿色通道入学、是否办理生源地贷款；

(4.2)对获取到的学生数据进行预处理，预处理步骤包括了缺失值处理、去重、特征编码、归一化，并构建学生特征矩阵S；

(4.3)将待分类的学生特征矩阵S输入已经训练好的BP-Adaboost分类模型，得到认定结果，若输出结果为1则表明该生为不贫困、输出结果为2则表明该生为一般贫困、输出结果为3则表明该生为特别贫困；

(4.4)实际考核分类模型认定结果，并将发现的疑似“隐形贫困”和“虚假认定”的学生名单交由高校管理人员处理，根据反馈核实情况后继续调整该模型；

以上显示和描述了本发明的基本原理、主要特征和本发明优点，但本发明的实施方式并不受上述实例的限制，上述实施例和说明书中的描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。

Claims

1.一种基于多分类BP-Adaboost的贫困生认定方法，其特征在于，包括以下步骤：

4)归一化，对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化，归一化后的校园消费情况数据集记为

学生成绩情况数据集记为

5)将学生家庭情况与经济情况数据集E、校园消费情况数据集

学生成绩情况数据集

贫困生基本情况数据集B合并成为学生特征矩阵S；

步骤3、将往年贫困生多维历史数据按照贫困程度分为三个类别，标注学生贫困类别标签,构造训练数据集，具体步骤为：

按照往年贫困级别将学生分为三个级别，分别是不贫困、一般贫困、特别贫困，并用one-hot编码，作为学生贫困类别标签，构造训练数据集T，T＝{(x₁，y₁)，…，(x_i，y_i)，…，(x_n，y_n)}，其中输入数据x_i随机抽取于学生特征矩阵S，标签y_i∈{001，010，011}，这里001,010,011分别对应了不贫困、一般贫困、特别贫困，n为数据数量。

1)输入训练数据集T，初始化训练数据的权重D＝(w₁₁，…，w_1i，…，w_1n)，其中w_1i＝1/n，i＝1,2,…N，N表示学生特征矩阵S中的数据量；同时，令迭代次数m＝1，设定总迭代次数为M，M＝10；

3)对有权值分布的训练数据集进行训练，得到弱分类器：G_m(x)：X→{001，010，011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困；

4)计算训练数据在当前分类器G_m(x)下的误差率：