CN111415099A - 一种基于多分类BP-Adaboost的贫困生认定方法 - Google Patents

一种基于多分类BP-Adaboost的贫困生认定方法 Download PDF

Info

Publication number
CN111415099A
CN111415099A CN202010236492.XA CN202010236492A CN111415099A CN 111415099 A CN111415099 A CN 111415099A CN 202010236492 A CN202010236492 A CN 202010236492A CN 111415099 A CN111415099 A CN 111415099A
Authority
CN
China
Prior art keywords
poverty
student
data set
data
students
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010236492.XA
Other languages
English (en)
Inventor
杨建锋
魏瀚哲
王朝阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern University
Original Assignee
Northwestern University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern University filed Critical Northwestern University
Priority to CN202010236492.XA priority Critical patent/CN111415099A/zh
Publication of CN111415099A publication Critical patent/CN111415099A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Educational Administration (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Technology (AREA)
  • Game Theory and Decision Science (AREA)
  • Primary Health Care (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种基于多分类BP‑Adaboost的贫困生认定方法,包括以下步骤:(1)获取往年贫困生的多维历史数据,(2)对采集到的往年贫困生历史数据进行预处理,构造学生特征矩阵S;(3)将往年贫困生的多维历史数据按照贫困程度分为三个类别,标注学生贫困类别标签,构造训练数据集;(4)设计BP‑Adaboost分类模型,使用提取的往年各贫困程度的贫困生特征矩阵构造的数据集训练BP‑Adaboost分类模型;(5)训练模型用于贫困生辅助认定。本发明利用在校学生产生的学生行为数据,设计了一个基于BP‑Adaboost的多分类模型,本模型可以快速、准确的将学生分为三种贫困类别,以此判断学生的贫困情况辅助高校贫困生管理工作人员进行决策。

Description

一种基于多分类BP-Adaboost的贫困生认定方法
技术领域
本发明属于特征提取和分类算法技术领域,具体涉及一种基于多分类BP-Adaboost的贫困生认定方法。
背景技术
学生资助是脱贫攻坚、促进教育公平进而实现社会公平的重要内容和重要举措。高校贫困生认定是国家学生资助政策有效落实的基础工作,是推进学生资助精准化的重要内容。目前,大部分高校贫困生评定都是有学生所在地乡镇出示相关证明后由班级公开评选和院系辅导员审核。这种认定模式存在贫困认定偏差、各环节评选容易掺杂个人主观感情、贫困生因自尊心放弃评审等问题,导致影响贫困生资助的公平、效率和准确。
大数据时代的来临和深度学习方法日益成熟,为贫困生资助工作带来了新的理念和技术支持,也为高校利用大数据与深度学习方法推进快速、便捷、高效精准资助工作带来了新的机遇。目前高校信息化建设已经取得了长足发展,学生在校园的一切行为都会产生数据,记录着学生各项特征,这类数据反映着学生的真实情况,合理的运用这类数据可以在一定程度上辅助贫困生认定过程,使认定结果更加真实客观,给予真正贫困的学生更多帮助。
目前,对于使用大数据手段、机器学习方法辅助认定在校贫困生认定工作仍处于探索阶段,国内暂无统一的认定评估方法。虽有一部分技术提出了一些观点与思路,但均无法满足实际应用或难以实现,例如:申请号201810972342.8、专利名称为一种基于机器学习的学生贫困程度预测方法的专利申请文件,其虽是针对学生在校产生行为数据进行学生贫困程度预测,但其所需数据种类繁多,需要使用几十类数据,容易造成数据维数灾难,同时加大了实现难度。
因此,利用大数据手段与机器学习方法有效的、精准的实现贫困生认定已经成为研究辅助贫困生精准资助的关键。
发明内容
为了克服上述现有技术处理高维度贫困生数据困难以及实现精准资助贫困生困难的问题,本发明提出了一种基于多分类BP-Adaboost的贫困生认定方法。
为了实现上述目的,本发明采用的技术方案是:
一种基于多分类BP-Adaboost的贫困生认定方法,其特征在于,包括以下步骤:
步骤1、学生历史行为数据的获取,获取往年贫困生的多维历史数据,往年贫困生多维历史数据包括学生家庭情况与经济情况、校园消费情况、学生成绩情况、贫困生基本信息;
其获取往年贫困生多维历史数据建立贫困生特征矩阵的具体步骤如下:
1)提取学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
2)设学生家庭情况与经济情况数据集E={e1,e2,…,en},其中n表示学生编号,en是一个由是否独生子女、是否为孤儿、是否建档立卡贫困户、是否烈士或优抚子女、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭组成的矩阵;
3)设校园消费情况数据集C={c1,c2,…,cn},其中n表示学生编号,cn是一个由消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值组成的矩阵;
4)设学生成绩情况数据集G={g1,g2,…,gn},其中n表示学生编号,gn是一个由绩点、学期平均成绩、挂科数量组成的矩阵;
5)设贫困生基本情况数据集B={b1,b2,…,bn},其中n表示学生编号,bn是一个由是否绿色通道入学、是否办理生源地贷款组成的矩阵;
步骤2、对步骤1采集到的往年贫困生多维历史数据进行预处理;具体步骤为:
1)处理数据集中的缺失值,缺失值使数据丢失了部分信息,对于缺失的空字段使用平均值进行填充;
2)去除重复数据,将往年贫困生数据按照学生编号进行排序,通过比较临近记录是否相似来检测记录是否重复,如有重复则删除重复记录;
3)对学生家庭情况与经济情况数据集E和贫困生基本情况数据集B进行特征编码,采用one-hot编码方式;
4)归一化,对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化;
5)将学生家庭情况与经济情况数据集E、校园消费情况数据集
Figure BDA0002431162660000041
学生成绩情况数据集
Figure BDA0002431162660000042
贫困生基本情况数据集B合并成为学生特征矩阵S;
步骤3、将往年贫困生多维历史数据按照贫困程度分为三个类别,标注学生贫困类别标签,构造训练数据集,具体步骤为:
按照往年贫困级别将学生分为三个级别,分别是不贫困、一般贫困、特别贫困,并用one-hot编码,作为学生贫困类别标签,构造训练数据集T,T={(x1,y1),…,(xi,yi),…,(xn,yn)},其中输入数据xi随机抽取于学生特征矩阵S,标签yi∈{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困,n为数据数量,T中数据数量为学生特征矩阵中的70%;
步骤4、设计BP-Adaboost分类模型,使用步骤一中提取的往年各贫困程度的贫困生特征矩阵构造的数据集训练BP-Adaboost分类模型,具体步骤如下:
1)输入训练数据集T,初始化训练数据的权重D=(W11,…,W1i,…,w1n),其中w1i=1/n,i=1,2,…N,N表示学生特征矩阵S中的数据量;同时,令迭代次数m=1,设定总迭代次数为M,M=10;
2)开始迭代,采用三层神经网络,神经网络采用BP神经网络,其包含了输入层、一层隐含层、输出层,输入层具有17个节点、隐含层具有18个节点、输出层具有3个节点;
3)对有权值分布的训练数据集进行训练,得到弱分类器:Gm(x):X→{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困;
4)计算训练数据在当前分类器Gm(x)下的误差率:
Figure BDA0002431162660000051
5)计算Gm(x)的系数αm
Figure BDA0002431162660000052
其中,K表示贫困生的种类,αm表示Gm(x)在最终分类器中的重要性,αm随着errm减小而增大,即分类误差率越小的若分类器在最终分类器中的作用越大;
6)更新训练数据集权值分布:
Dm+1=(Wm+1,1,…,Wm+1,i,…,Wm+1,N),
Figure BDA0002431162660000053
Wm+1,i可以转化为下式:
Figure BDA0002431162660000061
由此可知,被基本分类器Gm(x)误分类样本的权值得以扩大,而被正确分类样本的权值却因此变小,因此使得BP-Adaboost分类模型更加关注误分类样本,在下一轮学习中误分类样本起更大的作用,以此来提升分类模型的分类能力;
Zm是规范化因子:
Figure BDA0002431162660000062
它使Dm+1成为一个概率分布;
7)判断是否终止迭代,当m<M时,则跳转步骤3的第3步),迭代次数m=m+1,继续进行迭代;否则终止迭代,完成BP-Adaboost分类器的训练,得到最终分类器
Figure BDA0002431162660000063
步骤4、训练模型用于贫困生辅助认定,具体步骤如下:
1)提取待认定学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、学生本人残疾级别或患病程度、父母是否有残疾或患病、父母残疾级别或患病程度,是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
2)对获取到的学生数据进行预处理,并构建学生特征矩阵S;
3)将待分类的学生特征矩阵S输入已经训练好的BP-Adaboost分类模型,得到认定结果,若输出结果为1则表明该生为不贫困、输出结果为2则表明该生为一般贫困、输出结果为3则表明该生为特别贫困。
所述的对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化;具体步骤如下:
1)对校园消费数据情况数据集C中的每项数据使用Sigmoid进行归一化,设
Figure BDA0002431162660000071
为归一化后的学生校园消费数据,
Figure BDA0002431162660000072
归一化处理后的校园消费数据情况数据集记为
Figure BDA0002431162660000073
2)对学生成绩情况数据集G中的每项数据使用Sigmoid进行归一化,设
Figure BDA0002431162660000074
为归一化后的学生成绩情况数据,
Figure BDA0002431162660000075
归一化处理后的校园消费数据情况数据集记为
Figure BDA0002431162660000076
本发明与现有技术相比,具有如下优点和有益效果:
本发明提出了一种基于多分类BP-Adaboost的贫困生认定方法,本方法改变了传统贫困生认定模式,在认定过程中采用机器学习的方法克服了人为主观性;本方法与现有利用机器学习进行贫困生认定方法相比,本方法选取了贫困生认定中关键因素,降低了学生数据维度,避免了机器学习中的维数灾难;本方法将BP-Adaboost作为分类器,具有较高的分类精度,有效的提高了贫困生认定的准确性。
附图说明
图1为本发明的总体流程图;
图2为BP-Adaboost分类模型训练流程图。
具体实施方式
以下结合实施例及附图对本方进一步叙述,但本发明不局限于以下实施例。
一种基于多分类BP-Adaboost的贫困生认定方法包括以下步骤:
步骤(1):采集往年贫困生历史数据;往年贫困生多维历史数据包括学生家庭情况与经济情况、校园消费情况、学生成绩情况、贫困生基本信息,建立往年贫困生特征矩阵;本发明中的分类模型的建立是基于贫困生数据特征而构造,因此基础数据的精准选取为后期贫困生精准分类打下了基础,具体步骤如步骤(1.1)到步骤(1.6):
(1.1)提取学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
(1.2)设学生家庭情况与经济情况数据集E={e1,e2,…,en},其中n表示学生编号,en是一个由是否独生子女、是否为孤儿、是否建档立卡贫困户、是否烈士或优抚子女、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭组成的矩阵,建立学生家庭情况与经济情况数据集E;
(1.3)设校园消费情况数据集C={c1,c2,…,cn},其中n表示学生编号,cn是一个由消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值组成的矩阵,建立校园消费情况数据集C;
(1.4)设学生成绩情况数据集G={g1,g2,…,gn},其中n表示学生编号,gn是一个由绩点、学期平均成绩、挂科数量组成的矩阵,建立学生成绩情况数据集G;
(1.5)设贫困生基本情况数据集B={b1,b2,…,bn},其中n表示学生编号,bn是一个由是否绿色通道入学、是否办理生源地贷款组成的矩阵,建立贫困生基本情况数据集B;
步骤(2):在具体实践中得到的数据往往存在缺失值、重复值,如学校食堂刷卡器故障导致学生消费信息缺失,所以在使用数据之前需要进行数据预处理,预处理没有标准流程,这里只针对本发明涉及流程设计了数据预处理过程,具体过程如步骤(2.1)到步骤(2.5)所述:
(2.1)处理数据集中的缺失值,缺失值使数据丢失了部分信息,一些鲁棒性不佳的模型会因为缺失值而导致无法计算数据,本发明涉及到的校园消费情况数据和学生成绩情况数据可能由于采集设备或其他原因导致数据缺失,对于缺失的空字段使用平均值进行填充;
(2.2)去除重复数据,将往年贫困生数据按照学生编号进行排序,通过比较临近记录是否相似来检测记录是否重复,如有重复则删除重复记录;
(2.3)对学生家庭情况与经济情况数据集E和贫困生基本情况数据集B进行特征编码,采用one-hot编码方式;
(2.4)数据归一化是调整属性取值的一些特征,将数据按照比例缩放使之落入一个小的特定区间,在具体实施中需要对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化,具体步骤如步骤(2.4.1)和步骤(2.4.2)所描述:
(2.4.1)对校园消费数据情况数据集C中的每项数据使用Sigmoid进行归一化,设
Figure BDA00024311626600001010
为归一化后的学生校园消费数据,
Figure BDA0002431162660000102
Figure BDA0002431162660000103
归一化处理后的校园消费数据情况数据集记为
Figure BDA0002431162660000104
(2.4.2)对学生成绩情况数据集G中的每项数据使用Sigmoid进行归一化,设
Figure BDA0002431162660000105
为归一化后的学生成绩情况数据,
Figure BDA0002431162660000106
归一化处理后的校园消费数据情况数据集记为
Figure BDA0002431162660000107
(2.5)将学生家庭情况与经济情况数据集E、校园消费情况数据集
Figure BDA0002431162660000108
学生成绩情况数据集
Figure BDA0002431162660000109
贫困生基本情况数据集B合并成为学生特征矩阵S;
步骤(3):按照国家贫困生资助标准将学生特征矩阵S中的贫困生数据分为三类,分别是不贫困、一般贫困、特别贫困,并用one-hot编码,作为学生贫困类别标签,构造训练数据集T,T={(x1,y1),…,(xi,yi),…,(xn,yn)},其中输入数据xi随机抽取于学生特征矩阵S,标签yi∈{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困,n为数据数量,T中数据数量为学生特征矩阵中的70%;
步骤(4):如图二所示,设计了一个BP-Adaboost贫困生分类模型,并使用带有权重的数据训练该分类模型,其具体步骤如下所述:
(3.1)输入训练数据集T,初始化训练数据的权重D=(W11,…,W1i,…,w1n),其中w1i=1/n,i=1,2,…N,N表示学生特征矩阵S中的数据量;同时,令迭代次数m=1,设定总迭代次数为M,M=10;
(3.2)开始迭代,采用三层神经网络,神经网络采用BP神经网络,其包含了输入层、一层隐含层、输出层,输入层具有17个节点、隐含层具有18个节点、输出层具有3个节点;
(3.3)对有权值分布的训练数据集进行训练,得到弱分类器::Gm(x):X→{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困;
(3.4)计算训练数据在当前分类器Gm(x)下的误差率:
Figure BDA0002431162660000111
(3.5)计算Gm(x)的系数αm
Figure BDA0002431162660000112
K表示贫困生的种类,1、2、3分别表示了不贫困、一般贫困和特别贫困,αm表示Gm(x)在最终分类器中的重要性,αm随着errm减小而增大,即分类误差率越小的若分类器在最终分类器中的作用越大;(3.6)更新训练数据集权值分布:
Dm+1=(wm+1,1,…,Wm+1,i,…,Wm+1,N),
Figure BDA0002431162660000121
Wm+1,i可以转化为下式:
Figure BDA0002431162660000122
由此可知,被基本分类器Gm(x)误分类样本的权值得以扩大,而被正确分类样本的权值却因此变小,因此使得BP-Adaboost分类模型更加关注误分类样本,在下一轮学习中误分类样本起更大的作用,以此来提升分类模型的分类能力;
Zm是规范化因子:
Figure BDA0002431162660000123
它使Dm+1成为一个概率分布;
(3.7)判断是否终止迭代,当m<M时,则跳转步骤(3.3),迭代次数m=m+1,继续进行迭代;否则终止迭代,完成BP-Adaboost分类器的训练,得到最终分类器
Figure BDA0002431162660000124
步骤(4):获取待认定学生的数据,将该生数据进行预处理后输入分类模型,分类结果用于贫困生的辅助认定,具体步骤如下所述:
(4.1)提取待认定学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、学生本人残疾级别或患病程度、父母是否有残疾或患病、父母残疾级别或患病程度,是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
(4.2)对获取到的学生数据进行预处理,预处理步骤包括了缺失值处理、去重、特征编码、归一化,并构建学生特征矩阵S;
(4.3)将待分类的学生特征矩阵S输入已经训练好的BP-Adaboost分类模型,得到认定结果,若输出结果为1则表明该生为不贫困、输出结果为2则表明该生为一般贫困、输出结果为3则表明该生为特别贫困;
(4.4)实际考核分类模型认定结果,并将发现的疑似“隐形贫困”和“虚假认定”的学生名单交由高校管理人员处理,根据反馈核实情况后继续调整该模型;
以上显示和描述了本发明的基本原理、主要特征和本发明优点,但本发明的实施方式并不受上述实例的限制,上述实施例和说明书中的描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。

Claims (2)

1.一种基于多分类BP-Adaboost的贫困生认定方法,其特征在于,包括以下步骤:
步骤1、学生历史行为数据的获取,获取往年贫困生的多维历史数据,往年贫困生多维历史数据包括学生家庭情况与经济情况、校园消费情况、学生成绩情况、贫困生基本信息;
其获取往年贫困生多维历史数据建立贫困生特征矩阵的具体步骤如下:
1)提取学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
2)设学生家庭情况与经济情况数据集E={e1,e2,…,en},其中n表示学生编号,en是一个由是否独生子女、是否为孤儿、是否建档立卡贫困户、是否烈士或优抚子女、学生本人是否有残疾或患病、父母是否有残疾或患病、是否城乡特困供养人员、是否城乡最低生活保障家庭组成的矩阵;
3)设校园消费情况数据集C={c1,c2,…,cn},其中n表示学生编号,cn是一个由消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值组成的矩阵;
4)设学生成绩情况数据集G={g1,g2,…,gn},其中n表示学生编号,gn是一个由绩点、学期平均成绩、挂科数量组成的矩阵;
5)设贫困生基本情况数据集B={b1,b2,…,bn},其中n表示学生编号,bn是一个由是否绿色通道入学、是否办理生源地贷款组成的矩阵;
步骤2、对步骤1采集到的往年贫困生多维历史数据进行预处理;具体步骤为:
1)处理数据集中的缺失值,缺失值使数据丢失了部分信息,对于缺失的空字段使用平均值进行填充;
2)去除重复数据,将往年贫困生数据按照学生编号进行排序,通过比较临近记录是否相似来检测记录是否重复,如有重复则删除重复记录;
3)对学生家庭情况与经济情况数据集E和贫困生基本情况数据集B进行特征编码,采用one-hot编码方式;
4)归一化,对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化,归一化后的校园消费情况数据集记为
Figure FDA0002431162650000021
学生成绩情况数据集记为
Figure FDA0002431162650000022
5)将学生家庭情况与经济情况数据集E、校园消费情况数据集
Figure FDA0002431162650000023
学生成绩情况数据集
Figure FDA0002431162650000024
贫困生基本情况数据集B合并成为学生特征矩阵S;
步骤3、将往年贫困生多维历史数据按照贫困程度分为三个类别,标注学生贫困类别标签,构造训练数据集,具体步骤为:
按照往年贫困级别将学生分为三个级别,分别是不贫困、一般贫困、特别贫困,并用one-hot编码,作为学生贫困类别标签,构造训练数据集T,T={(x1,y1),…,(xi,yi),…,(xn,yn)},其中输入数据xi随机抽取于学生特征矩阵S,标签yi∈{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困,n为数据数量。
步骤4、设计BP-Adaboost分类模型,使用步骤一中提取的往年各贫困程度的贫困生特征矩阵构造的数据集训练BP-Adaboost分类模型,具体步骤如下:
1)输入训练数据集T,初始化训练数据的权重D=(w11,…,w1i,…,w1n),其中w1i=1/n,i=1,2,…N,N表示学生特征矩阵S中的数据量;同时,令迭代次数m=1,设定总迭代次数为M,M=10;
2)开始迭代,采用三层神经网络,神经网络采用BP神经网络,其包含了输入层、一层隐含层、输出层,输入层具有17个节点、隐含层具有18个节点、输出层具有3个节点;
3)对有权值分布的训练数据集进行训练,得到弱分类器:Gm(x):X→{001,010,011},这里001,010,011分别对应了不贫困、一般贫困、特别贫困;
4)计算训练数据在当前分类器Gm(x)下的误差率:
Figure FDA0002431162650000041
其中yi∈001,010,011,这里001,010,011分别对应了不贫困、一般贫困、特别贫困,n为数据数量;
5)计算Gm(x)的系数αm:
Figure FDA0002431162650000042
K表示贫困生的种类,αm表示Gm(x)在最终分类器中的重要性,αm随着errm减小而增大,即分类误差率越小的若分类器在最终分类器中的作用越大;
6)更新训练数据集权值分布:
Dm+1=(wm+1,1,…,wm+1,i,…,wm+1,N),
Figure FDA0002431162650000043
wm+1,i可以转化为下式:
Figure FDA0002431162650000044
由此可知,被基本分类器Gm(x)误分类样本的权值得以扩大,而被正确分类样本的权值却因此变小,因此使得BP-Adaboost分类模型更加关注误分类样本,在下一轮学习中误分类样本起更大的作用,以此来提升分类模型的分类能力;
Zm是规范化因子:
Figure FDA0002431162650000045
它使Dm+1成为一个概率分布;
7)判断是否终止迭代,当m<M时,则跳转步骤3的第3步),迭代次数m=m+1,继续进行迭代;否则终止迭代,完成BP-Adaboost分类器的训练,得到最终分类器
Figure FDA0002431162650000051
步骤4、训练模型用于贫困生辅助认定,具体步骤如下:
1)提取待认定学生家庭情况与经济情况,包括是否独生子女、是否为孤儿、是否建档立卡贫困户、学生本人是否有残疾或患病、学生本人残疾级别或患病程度、父母是否有残疾或患病、父母残疾级别或患病程度,是否城乡特困供养人员、是否城乡最低生活保障家庭;提取校园消费情况,包括消费总金额、日消费额最大值、日消费额均值、月消费额最大值、日消费次数均值;提取学生成绩情况,包括绩点、学期平均成绩、挂科数量;提取贫困生基本情况,包括是否绿色通道入学、是否办理生源地贷款;
2)对获取到的学生数据进行预处理,并构建学生特征矩阵S;
3)将待分类的学生特征矩阵S输入已经训练好的BP-Adaboost分类模型,得到认定结果,若输出结果为1则表明该生为不贫困、输出结果为2则表明该生为一般贫困、输出结果为3则表明该生为特别贫困。
2.根据权利要求1所述的一种基于多分类BP-Adaboost的贫困生认定方法,其特征在于,所述的对校园消费情况数据集C和学生成绩情况数据集G进行使用Sigmoid函数进行归一化;具体步骤如下:
1)对校园消费数据情况数据集C中的每项数据使用Sigmoid进行归一化,设
Figure FDA0002431162650000061
为归一化后的学生校园消费数据,
Figure FDA0002431162650000062
归一化处理后的校园消费数据情况数据集记为
Figure FDA0002431162650000063
2)对学生成绩情况数据集G中的每项数据使用Sigmoid进行归一化,设
Figure FDA0002431162650000064
为归一化后的学生成绩情况数据,
Figure FDA0002431162650000065
归一化处理后的校园消费数据情况数据集记为
Figure FDA0002431162650000066
CN202010236492.XA 2020-03-30 2020-03-30 一种基于多分类BP-Adaboost的贫困生认定方法 Pending CN111415099A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236492.XA CN111415099A (zh) 2020-03-30 2020-03-30 一种基于多分类BP-Adaboost的贫困生认定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236492.XA CN111415099A (zh) 2020-03-30 2020-03-30 一种基于多分类BP-Adaboost的贫困生认定方法

Publications (1)

Publication Number Publication Date
CN111415099A true CN111415099A (zh) 2020-07-14

Family

ID=71494673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236492.XA Pending CN111415099A (zh) 2020-03-30 2020-03-30 一种基于多分类BP-Adaboost的贫困生认定方法

Country Status (1)

Country Link
CN (1) CN111415099A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231621A (zh) * 2020-10-13 2021-01-15 电子科技大学 基于BP-adaboost降低元素检出限的方法
CN112416914A (zh) * 2020-10-15 2021-02-26 三峡大学 一种基于大数据分析的困难学生认定及预警方法及***
CN112541579A (zh) * 2020-12-23 2021-03-23 北京北明数科信息技术有限公司 模型训练方法、贫困程度信息识别方法、装置和存储介质
CN113407516A (zh) * 2021-06-02 2021-09-17 浪潮软件股份有限公司 一种基于学籍数据的扶助对象管理方法
CN116664014A (zh) * 2023-07-25 2023-08-29 临沂大学 一种高校学生管理用综合测评***及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的***用户违约的预测方法及***
CN108960273A (zh) * 2018-05-03 2018-12-07 淮阴工学院 一种基于深度学习的贫困生认定方法
CN109145113A (zh) * 2018-08-24 2019-01-04 北京桃花岛信息技术有限公司 一种基于机器学习的学生贫困程度预测方法
CN109992592A (zh) * 2019-04-10 2019-07-09 哈尔滨工业大学 基于校园消费卡流水数据的高校贫困生识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018090657A1 (zh) * 2016-11-18 2018-05-24 同济大学 基于BP_Adaboost模型的***用户违约的预测方法及***
CN108960273A (zh) * 2018-05-03 2018-12-07 淮阴工学院 一种基于深度学习的贫困生认定方法
CN109145113A (zh) * 2018-08-24 2019-01-04 北京桃花岛信息技术有限公司 一种基于机器学习的学生贫困程度预测方法
CN109992592A (zh) * 2019-04-10 2019-07-09 哈尔滨工业大学 基于校园消费卡流水数据的高校贫困生识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏巍: ""面向高校数据分析和贫困生认定的一卡通分析***"", CNKI优秀硕士学位论文全文库, vol. 2019, no. 12, pages 228 - 232 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231621A (zh) * 2020-10-13 2021-01-15 电子科技大学 基于BP-adaboost降低元素检出限的方法
CN112231621B (zh) * 2020-10-13 2021-09-24 电子科技大学 基于BP-adaboost降低元素检出限的方法
CN112416914A (zh) * 2020-10-15 2021-02-26 三峡大学 一种基于大数据分析的困难学生认定及预警方法及***
CN112541579A (zh) * 2020-12-23 2021-03-23 北京北明数科信息技术有限公司 模型训练方法、贫困程度信息识别方法、装置和存储介质
CN112541579B (zh) * 2020-12-23 2023-08-08 北京北明数科信息技术有限公司 模型训练方法、贫困程度信息识别方法、装置和存储介质
CN113407516A (zh) * 2021-06-02 2021-09-17 浪潮软件股份有限公司 一种基于学籍数据的扶助对象管理方法
CN116664014A (zh) * 2023-07-25 2023-08-29 临沂大学 一种高校学生管理用综合测评***及方法

Similar Documents

Publication Publication Date Title
CN111415099A (zh) 一种基于多分类BP-Adaboost的贫困生认定方法
CN111382272B (zh) 一种基于知识图谱的电子病历icd自动编码方法
CN112115963B (zh) 一种基于迁移学习生成无偏见深度学习模型的方法
CN111950708B (zh) 一种发现大学生日常生活习惯的神经网络结构与方法
CN109464122B (zh) 基于多模态数据的个体核心特质预测***及方法
CN108764621A (zh) 一种数据驱动的居家养老协同看护调度方法
CN109145113A (zh) 一种基于机器学习的学生贫困程度预测方法
CN110197332A (zh) 一种社会治安综合治理评价方法
CN110689523A (zh) 基于元学习个性化图像信息评价方法、信息数据处理终端
CN116304035B (zh) 一种复杂案件中的多被告多罪名关系抽取方法及装置
CN112927782A (zh) 一种基于文本情感分析的心身健康状态预警***
CN109086794A (zh) 一种基于t-lda主题模型的驾驶行为模式识方法
KR20110098286A (ko) 퍼지 추론기법을 이용한 한방 자가 진단방법
CN114511759A (zh) 一种皮肤状态图像的类别识别和特征确定方法及***
CN110188958A (zh) 一种高考志愿智能填报预测推荐的方法
CN113707317A (zh) 一种基于混合模型的疾病危险因素重要性分析方法
CN112417286A (zh) 区域性文化产业集聚的影响因素分析方法和***
CN107909090A (zh) 基于测度学习半监督的钢琴乐谱难度识别方法
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
CN109992592B (zh) 基于校园消费卡流水数据的高校贫困生识别方法
CN117219127A (zh) 认知状态识别方法以及相关设备
CN115115483B (zh) 一种融合隐私保护的学生综合能力评测方法
CN110298331A (zh) 一种人证比对方法
TWI761090B (zh) 對話資料處理系統、其方法及電腦可讀媒介
CN115292456A (zh) 一种基于知识驱动的非合作式人格预测方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination