CN115204537A - 基于Bagging的学生成绩预测方法 - Google Patents

基于Bagging的学生成绩预测方法 Download PDF

Info

Publication number
CN115204537A
CN115204537A CN202211132291.0A CN202211132291A CN115204537A CN 115204537 A CN115204537 A CN 115204537A CN 202211132291 A CN202211132291 A CN 202211132291A CN 115204537 A CN115204537 A CN 115204537A
Authority
CN
China
Prior art keywords
voting
bagging
prediction
classification
subsets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202211132291.0A
Other languages
English (en)
Inventor
于复兴
刘欣然
宁学斌
吴亚峰
索依娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China University of Science and Technology
Original Assignee
North China University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China University of Science and Technology filed Critical North China University of Science and Technology
Priority to CN202211132291.0A priority Critical patent/CN115204537A/zh
Publication of CN115204537A publication Critical patent/CN115204537A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于Bagging的学生成绩预测方法,步骤一:利用自助采样法生成m个不同的训练子集;步骤二:将步骤一中的每一个训练子集,分别利用决策树、随机森林、XGBoost、LightGBM模型作为基模型组,从训练子集中的K个数据特征维度随机抽取S个特征子集进行训练各自的成绩预测分类模型,得到对应组的成绩预测输出结果,并采用软投票的方式形成m个中间结果投票分类;步骤三:对于中间结果投票分类1~投票分类m,再采用软投票的方式输出对应等级概率,并生成Bagging融合模型最终输出成绩预测结果。此集成学习成绩预测方法提高了单一模型预测的准确率。

Description

基于Bagging的学生成绩预测方法
技术领域
本发明涉及数据预测***技术领域,具体涉及一种基于Bagging的学生成绩预测方法。
背景技术
通过数据挖掘的方法,利用在线学习平台学生的学习行为数据预测出学生的课程成绩,对提高教育教学质量起到关键性作用,因此引起了国内外研究者的广泛关注。Puarungro j 等人利用决策树(C4.5)算法构建了学生英语毕业考试成绩预测的分类模型;高慧构建XGBoost、随机森林和线性回归模型对学生的考试成绩进行预测;Zhang等人利用基于规则的遗传规划算法对在线学习行为进行分析,对学生成绩进行预测;黎龙珍基于贵州财经大学在线学习学生的行为数据,构建LightGBM模型对《财务管理》课程的学习成绩进行预测。但采用单一的算法来构建模型,会导致模型的预测精度提升有限。大量的研究成果表明,模型融合提升技术可以增强整体模型的效果,综合各个模型的优势来降低预测误差,与单一模型相比拥有更好的预测性能。综上所述,现有学生成绩预测方法有待提高。
发明内容
本发明的目的是为了克服以上现有单一预测技术存在的不足,提供了一种基于Bagging的学生成绩预测方法。
本发明的目的通过以下技术方案实现:
一种基于Bagging的学生成绩预测方法,其中,包括以下步骤:
步骤一:利用自助采样法生成m个不同的训练子集;
步骤二:将生成的m个训练子集分别利用决策树、随机森林、XGBoost、LightGBM模型作为基模型组,从训练子集中的K个数据特征维度随机抽取S个特征子集进行训练各自的成绩预测分类模型,得到对应组的成绩预测输出结果,并采用软投票的方式形成m个中间结果投票分类;
步骤三:对于中间结果投票分类1~投票分类m,再采用软投票的方式输出对应等级概率,并生成Bagging融合模型最终输出成绩预测结果。
进一步的,所述自助采样的比例设置为总数据集的0.8,自助采样的次数设置为5次,生成的不同训练子集的个数m为5,训练子集中数据特征维度K的值为5,抽取特征子集S的值为5。
本发明相对于现有技术具有如下优点:Bagging融合方法的预测准确率为83%,相对于单一模型预测有较大的精度提高。
附图说明
图1:Bagging融合模型混淆矩阵示意图。
具体实施方式
下面结合实施例对本发明作进一步说明。
实施例1:
本案选用Kalboard360学生成绩数据集作为训练集,由480个学生基本信息及在线学习行为数据的相关记录组成,与在线学习行为相关的数据特征属性具体有:每个学生的缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数以及学生参加讨论组的次数,本案选取这些数据特征维度进行在线学习行为的成绩预测研究即K=5。
构建融合模型前,利用上述Kalboard360学生成绩数据集分别对决策树、随机森林、XGBoost和LightGBM分类模型进行了建构,并分别对四个分类模型进行训练和测试,将数据集按照8:2的比例进行划分,8份作为训练集,2份作为测试集,模型以学生缺勤天数、学生课堂举手次数、学生访问在线课程次数、学生查看新公告的次数和学生参加讨论组的次数这五个特征属性作为输入,即数据特征维度K的值为5。以学生成绩等级作为目标输出。具体参数及准确率如表1所示。
表1 单模型参数设置及预测准确率
Figure 508312DEST_PATH_IMAGE001
下一步,进行基于Bagging的学生成绩预测方法构建:
步骤一:利用自助采样法生成m个不同的训练子集,自助采样的比例设置为总数据集的0.8。Bagging方法利用自助采样法(Bootstrap sample)随机有放回采样,以数据量为N的原始数据集为例,每次从原始数据集中采样N1(N1<N)个数据形成训练集,同样的方法进行m次,最终形成m个训练子集,训练子集之间的数据存在差异这样就可以得到多个不同的弱学习器,将这些弱学习器的预测结果综合起来加强模型的效果。自助采样的次数设置为5次,生成的不同训练子集的个数为5。
步骤二:将生成的m个训练子集的每一个,分别利用决策树、随机森林、XGBoost、LightGBM模型作为基模型组,对每个训练子集中的K个数据特征维度随机抽取S个特征子集分别训练各自的成绩预测分类模型,得到对应组的成绩预测输出结果;数据特征维度K的值为5,训练子集中取出全特征,S的值也为5;并采用软投票的方式形成中间结果投票分类1~投票分类5;
步骤三:对于中间结果投票分类1~投票分类5,再采用软投票的方式输出对应等级概率,并生成Bagging融合模型最终输出成绩预测结果。
如图1所示,通过对Bagging融合模型输出的混淆矩阵分析可知:低等级(0-69分)被正确预测的数据有27条,低等级被错误预测的数据有1条, 其他等级被错误预测为低等级的数据有2条;中等级被正确预测的数据有30条,中等级(70-89分)被错误预测的数据有2+3=5条, 其他等级被错误预测为中等级的数据有1+10=11条;高等级(90-100分)被正确预测的数据有23条,高等级被错误预测的数据有10条,其他等级被错误预测为高等级的数据有3条,四种单一模型Bagging融合模型的准确率为(27+30+23)/96*100%=83%。
上述具体实施方式为本发明的优选实施例,并不能对本发明进行限定,其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式,都包含在本发明的保护范围之内。

Claims (2)

1.一种基于Bagging的学生成绩预测方法,其特征在于,包括以下步骤:
步骤一:利用自助采样法生成m个不同的训练子集;
步骤二:将步骤一中的每一个训练子集,分别利用决策树、随机森林、XGBoost、LightGBM模型作为基模型组,从训练子集中的K个数据特征维度随机抽取S个特征子集进行训练各自的成绩预测分类模型,得到对应组的成绩预测输出结果,并采用软投票的方式形成m个中间结果投票分类;
步骤三:对于中间结果投票分类1~投票分类m,再采用软投票的方式输出对应等级概率,并生成Bagging融合模型最终输出成绩预测结果。
2.根据权利要求1所述的一种基于Bagging的学生成绩预测方法,其特征在于,所述自助采样的比例设置为总数据集的0.8,自助采样的次数设置为5次,生成的不同训练子集的个数m为5,训练子集中数据特征维度K的值为5,抽取特征子集S的值为5。
CN202211132291.0A 2022-09-17 2022-09-17 基于Bagging的学生成绩预测方法 Withdrawn CN115204537A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211132291.0A CN115204537A (zh) 2022-09-17 2022-09-17 基于Bagging的学生成绩预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211132291.0A CN115204537A (zh) 2022-09-17 2022-09-17 基于Bagging的学生成绩预测方法

Publications (1)

Publication Number Publication Date
CN115204537A true CN115204537A (zh) 2022-10-18

Family

ID=83573512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211132291.0A Withdrawn CN115204537A (zh) 2022-09-17 2022-09-17 基于Bagging的学生成绩预测方法

Country Status (1)

Country Link
CN (1) CN115204537A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934368A (zh) * 2017-03-13 2017-07-07 长安大学 一种基于眼动指标数据的驾驶疲劳检测***及识别方法
CN109002492A (zh) * 2018-06-27 2018-12-14 淮阴工学院 一种基于LightGBM的绩点预测方法
CN110751289A (zh) * 2019-09-29 2020-02-04 江苏大学 基于Bagging_BP算法的在线学习行为分析方法
CN113064976A (zh) * 2021-04-19 2021-07-02 深圳市明睿数据科技有限公司 基于深度学习算法的事故车判定方法
CN113366499A (zh) * 2019-01-28 2021-09-07 皇家飞利浦有限公司 将群体描述符与经训练模型相关联
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106934368A (zh) * 2017-03-13 2017-07-07 长安大学 一种基于眼动指标数据的驾驶疲劳检测***及识别方法
CN109002492A (zh) * 2018-06-27 2018-12-14 淮阴工学院 一种基于LightGBM的绩点预测方法
CN113366499A (zh) * 2019-01-28 2021-09-07 皇家飞利浦有限公司 将群体描述符与经训练模型相关联
CN110751289A (zh) * 2019-09-29 2020-02-04 江苏大学 基于Bagging_BP算法的在线学习行为分析方法
CN113064976A (zh) * 2021-04-19 2021-07-02 深圳市明睿数据科技有限公司 基于深度学习算法的事故车判定方法
CN113469730A (zh) * 2021-06-08 2021-10-01 北京化工大学 一种非合同场景下的基于RF-LightGBM融合模型的客户复购预测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈鹏展: "《个体行为的机器识别与决策协同》", 31 July 2018 *

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习***和方法
CN109903617B (zh) 个性化练习方法和***
KR101816665B1 (ko) 객관식 문항 학습 데이터를 분석하는 방법
CN106570109B (zh) 一种通过文本分析自动生成题库知识点的方法
Kabakchieva et al. Analyzing university data for determining student profiles and predicting performance
CN107657559A (zh) 一种中文阅读能力测评方法及***
Pechenizkiy et al. Mining the student assessment data: Lessons drawn from a small scale case study
CN105070130A (zh) 水平测评方法和***
CN111143750B (zh) 基于碎片化学***台
Mgala et al. Data-driven intervention-level prediction modeling for academic performance
CN111597305B (zh) 实体标记方法、装置、计算机设备和存储介质
CN112507792B (zh) 在线视频关键帧定位方法、定位***、设备及存储介质
CN111104455B (zh) 多源多维的学校教学横向信息差异比对分析方法
Obonyo et al. Is teacher education level and experience impetus for student achievement? Evidence from public secondary schools in Kenya
CN115204537A (zh) 基于Bagging的学生成绩预测方法
Boulanger et al. Explainable AI and AWE: Balancing Tensions between Transparency and Predictive Accuracy
Nudin et al. Impact of soft skills competencies to predict graduates getting jobs using random forest algorithm
CN115271271A (zh) 基于Stacking的学生成绩预测方法
Irfiani et al. Predicting grade promotion using decision tree and Naïve Bayes classification algorithms
Arafiyah et al. Monitoring online learners’ performance based on learning progress prediction
Tan et al. Predicting dropout from online education based on neural networks
Jun et al. Misconceptions in probability
CN113223356B (zh) 一种用于plc控制技术的技能培训和考核的***
Permanasari et al. A Multi Criteria Decision Making to Support Major Selection of Senior High School
Sudana et al. The Effect of Using Videoscribe as a Teaching Media on Writing Descriptive Text of the Tenth Grade Students of SMK YPSEI Palangka Raya

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20221018

WW01 Invention patent application withdrawn after publication