CN112465277A - 一种在校学生挂科学分预测方法、***、装置及存储介质 - Google Patents

一种在校学生挂科学分预测方法、***、装置及存储介质 Download PDF

Info

Publication number
CN112465277A
CN112465277A CN202110134526.9A CN202110134526A CN112465277A CN 112465277 A CN112465277 A CN 112465277A CN 202110134526 A CN202110134526 A CN 202110134526A CN 112465277 A CN112465277 A CN 112465277A
Authority
CN
China
Prior art keywords
data
students
hanging
student
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110134526.9A
Other languages
English (en)
Inventor
吴品章
孙含元
余锦
胡希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Red Bird Edu Technology Co ltd
Original Assignee
Wuhan Red Bird Edu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Red Bird Edu Technology Co ltd filed Critical Wuhan Red Bird Edu Technology Co ltd
Priority to CN202110134526.9A priority Critical patent/CN112465277A/zh
Publication of CN112465277A publication Critical patent/CN112465277A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Educational Technology (AREA)
  • Marketing (AREA)
  • Educational Administration (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种在校学生挂科学分预测方法、***、装置及存储介质,所述方法包括以下步骤:获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。本发明提供的在校学生挂科学分预测方法,提高了挂科学分预测的准确度。

Description

一种在校学生挂科学分预测方法、***、装置及存储介质
技术领域
本发明涉及校园学习技术领域,尤其涉及一种在校学生挂科学分预测方法、***、装置及计算机可读存储介质。
背景技术
每年有大量大学生因无法完成学业而被退学,对学生本人和学生家庭都是巨大的打击,对高校则是巨大的资源浪费,如何提前发现学业有困难的学生进行干预,避免悲剧的发生,是一个值得深入研究的课题。现有的方案所用的预测模型通常针对单一数据源,每个数据源不同,模型需要针对数据源进行调整,通用性不强,并且预测准确度不高。
发明内容
有鉴于此,有必要提供一种在校学生挂科学分预测方法、***、装置及计算机可读存储介质,用以解决挂科学分预测准确度不高的问题。
本发明提供一种在校学生挂科学分预测方法,包括以下步骤:
获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;
重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
进一步地,将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据,具体包括:根据所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据获取原始特征因子,并处理所述原始特征因子中数据异常的特征因子,生成特征因子数据。
进一步地,处理所述原始特征因子中数据异常的特征因子,生成特征因子数据,具体包括:丢弃原始特征因子中数据异常的特征因子,对原始特征因子中的字段取值进行数字化,去掉重复特征因子,对连续的特征因子进行离散化,生成特征因子数据。
进一步地,选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型,具体包括:
获取所述特征因子数据与挂科学分的相关性,根据所述相关性对特征因子数据进行第一次筛选,得到第一次筛选后的特征因子数据;获取第一次筛选后的特征因子数据间的线性相关性,根据所述线性相关性进行第二筛选,得到第二次筛选后的特征因子数据;获取二次筛选后的特征因子数据的重要程度,根据所述重要程度进行第三次筛选,得到第三次筛选后的特征因子数据;选取回归任务模型,利用该回归任务模型和第三次筛选后的特征因子数据,训练得到挂科学分预测模型。
进一步地,获取所述特征因子数据与挂科学分的相关性,具体包括,利用散点图获取所述特征因子数据与挂科学分的相关性;获取第一次筛选后的特征因子数据间的线性相关性,具体包括,利用皮尔森相关系数获取第一次筛选后的特征因子数据间的线性相关性;获取二次筛选后的特征因子数据的重要程度,具体包括,利用随机森林算法获取二次筛选后的特征因子数据的重要程度。
进一步地,选取回归任务模型,具体包括:
利用所述第三次筛选后的特征因子数据及对应的挂科学分数据作为数据集,以该数据集分别对若干不同回归任务模型进行训练,得到对应训练后模型,获取对应训练后的模型的准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,根据所述准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,在若干不同回归任务模型中选取一种模型作为回归任务模型。
进一步地,所述若干不同回归任务模型,具体包括:决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型。
本发明还提供了一种在校学生挂科学分预测***,包括数据获取模块、特征因子生成模块、模型获取模块及挂科学分预测模块;
所述数据获取模块,用于获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
所述特征因子生成模块,用于将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
所述模型获取模块,用于选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;
所述挂科学分预测模块,用于重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
本发明还提供了一种在校学生挂科学分预测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如上述任一技术方案所述的在校学生挂科学分预测方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机该程序被处理器执行时,实现如上述任一技术方案所述的在校学生挂科学分预测方法。
与现有技术相比,本发明的有益效果包括:通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分;提高了挂科学分预测的准确度。
附图说明
图1为本发明提供的在校学生挂科学分预测方法的流程示意图;
图2为本发明提供的上学期加权平均分与挂科学分的散点图;
图3为本发明提供的在校学生挂科学分预测***的结构框图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
实施例1
本发明实施例提供了一种在校学生挂科学分预测方法,其流程示意图,如图1所示,所述方法包括以下步骤:
S1、获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
S2、将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
S3、选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;
S4、重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
上述技术方案,通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分,可以提高挂科学分预测的准确度。
优选的,将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据,具体包括:根据所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据获取原始特征因子,并处理所述原始特征因子中数据异常的特征因子,生成特征因子数据。
一个具体实施例中,学生基本信息数据来源于学生管理***,学生成绩数据来源于教务管理***,一卡通数据来源于一卡通***,图书馆入馆和借书数据来源于图书管理***,上网数据来源于网络认证计费***和上网行为审计***,从过去成绩、当前行为方面选取的学生挂科相关的原始特征因子,原始特征因子,如表1所示。
表1
Figure 239052DEST_PATH_IMAGE001
优选的,处理所述原始特征因子中数据异常的特征因子,生成特征因子数据,具体包括:丢弃原始特征因子中数据异常的特征因子,对原始特征因子中的字段取值进行数字化,去掉重复特征因子,对连续的特征因子进行离散化,生成特征因子数据。
一个具体实施例中,由于数据输入错误、数据处理错误等各种原因,原始数据(原始特征因子)中可能存在异常值,异常值可能会导致不可靠的输出,影响模型建立;异常值的处理方法常用有丢弃含有异常值的记录、视为缺失值进行处理、用平均值来修正和不处理等方式;具体实施时,可丢弃含有异常值的记录,例如丢弃课程成绩大于100或小于0的记录。
将原始数据中的字段取值进行数字化,例如课程成绩“优”、“良”、“中等”、“合格”、“不及格”、“违纪”分别转换为“90”、“85”、“75”、“60”、“55”、“0”。
上网时长数据来源于认证计费表,认证计费表记录了学生登录和退出网络***的行为记录;认证计费表中可能存在一个账号在同一时刻有线、无线同时在线的可能,这会给时长统计带来极大误差。
在计算上网时长时,需要对认证计费表进行预处理,将有线上网和无线上网重复的时间段进行去重处理。即根据登录时间将数据升序排列,然后对比相邻的时间段,并将有重叠的时间段合并;表2为原始认证计费表数据,表3为去重后的认证计费表数据。
表2
Figure 710484DEST_PATH_IMAGE002
表3
Figure 43989DEST_PATH_IMAGE003
在对数据进行去重时,首先根据每条记录的上线时间对数据进行升序排列。设
Figure 270571DEST_PATH_IMAGE004
代表排序后第i条记录上线时间,
Figure 590825DEST_PATH_IMAGE005
代表排序后第i条记录下线时间,n代表排序后的记录条数;排序后数据满足以下规律:
Figure 600369DEST_PATH_IMAGE006
具体的去重方法如下:
n= 2时,存在
Figure 837316DEST_PATH_IMAGE007
情况1,当
Figure 438061DEST_PATH_IMAGE008
Figure 635825DEST_PATH_IMAGE009
时,时段取
Figure 58847DEST_PATH_IMAGE010
,记为
Figure 760086DEST_PATH_IMAGE011
,其中
Figure 859630DEST_PATH_IMAGE012
情况2,当
Figure 544689DEST_PATH_IMAGE008
Figure 692773DEST_PATH_IMAGE013
时,时段取
Figure 123886DEST_PATH_IMAGE010
,记为
Figure 332013DEST_PATH_IMAGE011
,其中
Figure 973210DEST_PATH_IMAGE012
情况3,当
Figure 987303DEST_PATH_IMAGE014
时,两条记录不合并,分别记为
Figure 725451DEST_PATH_IMAGE011
Figure 776584DEST_PATH_IMAGE015
,其中
Figure 967394DEST_PATH_IMAGE016
所以当n=2时,时间段有以下两种情况;
情况1,
Figure 267401DEST_PATH_IMAGE011
Figure 63318DEST_PATH_IMAGE012
情况2,
Figure 613248DEST_PATH_IMAGE012
Figure 353671DEST_PATH_IMAGE015
Figure 381670DEST_PATH_IMAGE016
假设当n=k时,
假设k条记录已合并为
Figure 766515DEST_PATH_IMAGE017
条记录,分别为
Figure 487347DEST_PATH_IMAGE018
其中,
Figure 465798DEST_PATH_IMAGE019
Figure 297488DEST_PATH_IMAGE020
n=k+1时,
情况1,当
Figure 536839DEST_PATH_IMAGE021
Figure 756468DEST_PATH_IMAGE022
时,时段取
Figure 409166DEST_PATH_IMAGE023
情况2,当
Figure 716651DEST_PATH_IMAGE024
Figure 138405DEST_PATH_IMAGE025
时,时段取
Figure 14088DEST_PATH_IMAGE026
,记为
Figure 888503DEST_PATH_IMAGE023
情况3,当
Figure 265258DEST_PATH_IMAGE021
,两条记录不合并,分别记为
Figure 869415DEST_PATH_IMAGE023
Figure 102950DEST_PATH_IMAGE027
所以当n=k+1时,时间段有以下两种情况:
情况1,
Figure 402344DEST_PATH_IMAGE028
Figure 113948DEST_PATH_IMAGE029
情况2,
Figure 323344DEST_PATH_IMAGE030
Figure 727780DEST_PATH_IMAGE031
上学期加权平均分为该学期必修课、院系和专业选修的加权平均分,公式为
Figure 514471DEST_PATH_IMAGE032
,其中,
Figure 29766DEST_PATH_IMAGE033
为第j个学期第i门课程的成绩,
Figure 342935DEST_PATH_IMAGE034
为第j个学期第i门课程的学分,n为课程数;此处课程成绩取该门课程的最新成绩,即如果有多次考试成绩,以最后一次考试成绩为准。
上学期成绩趋势为上学期加权平均分与上上学期加权平均分的比值;专业基础课成绩为该学期专业基础课的加权平均分,专业基础课为包含以下关键字的课程:英语、语文、数学、物理、微积分、代数、概率、程序、***、计算、函数。
月均消费额为该学期多个月份的平均消费金额,公式为
Figure 918273DEST_PATH_IMAGE035
,其中
Figure 192260DEST_PATH_IMAGE036
为第i个月的消费金额,
Figure 511245DEST_PATH_IMAGE037
为第i个月的天数,n为该学期包含的月数。
餐均消费额为该学期早中晚三餐总消费金额与总消费次数的比值,早餐时间段为[6:00~10:00),中餐时间段为[10:00~15:00),晚餐时间段为[16:00~22:00),其它时间段不算早中晚餐,公式为
Figure 715741DEST_PATH_IMAGE038
,其中
Figure 399663DEST_PATH_IMAGE039
分别为第i个月的早餐、午餐、晚餐消费金额,
Figure 957684DEST_PATH_IMAGE040
分别为第i个月的早餐、午餐、晚餐就餐次数,n为该学期包含的月数。
日均早餐次数为该学期内每日早餐次数的和与该学期天数的比值,每日早餐次数使用就餐时间进行加权,公式为
Figure 142677DEST_PATH_IMAGE041
,其中
Figure 102543DEST_PATH_IMAGE042
为第i天早餐时间段内第一条一卡通刷卡记录的小时数,n为该学期包含的天数。
月均借书本数为该学期多个月份的平均图书借阅本数,月均图书馆入馆次数为该学期多个月份的平均图书馆入馆次数,公式与月均消费额相同。
日均上网时长为该学期每日上网时长的和与该学期天数的比值,公式为
Figure 957367DEST_PATH_IMAGE043
其中,n为学期包含月数,
Figure 268262DEST_PATH_IMAGE044
为第i月的天数,
Figure 742100DEST_PATH_IMAGE044
为第i月上网时长;
Figure 556472DEST_PATH_IMAGE045
,其中i为月度包含天数,
Figure 113356DEST_PATH_IMAGE046
为第i日上网时长;
Figure 708285DEST_PATH_IMAGE047
,其中,
Figure 907185DEST_PATH_IMAGE048
为去重后第i条上网记录的下线时间,
Figure 779326DEST_PATH_IMAGE049
为去重后第i条上网记录的上线时间,n为去重后的上网记录条数。
早餐规律性使用标准差公式为
Figure 303848DEST_PATH_IMAGE050
,其中
Figure 871227DEST_PATH_IMAGE051
n为该学期早餐次数,
Figure 139397DEST_PATH_IMAGE052
为第i次早餐一卡通刷卡记录的24进制小时数;午餐规律性、晚餐规律性公式与早餐规律性相同。
连续的特征因子进行离散化,降低了模型过拟合的风险,使模型更稳定,采用变换函数:y= round(x / s) * s,其中s为离散间隔;
例如,对上学期加权平均分、专业基础课成绩离散化,离散间隔s为2,例如73.25分离散化为72分;
缺失值会造成分析结果的不准确,使用统计学的数据描述方法可以得出每个特征因子数据的缺失率、平均值、众数、中位数;特征因子数据的缺失率,如表4所示。
表4
Figure 866045DEST_PATH_IMAGE053
丢弃缺失率超过30%的特征因子晚餐规律性,剩余的11个特征因子为:上学期加权平均分、上学期成绩趋势、专业基础课成绩、月均消费额、餐均消费额、日均早餐次数、月均借书本数、月均图书馆入馆次数、日均上网时长、早餐规律性、中餐规律性;
优选的,选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型,具体包括:
获取所述特征因子数据与挂科学分的相关性,根据所述相关性对特征因子数据进行第一次筛选,得到第一次筛选后的特征因子数据;获取第一次筛选后的特征因子数据间的线性相关性,根据所述线性相关性进行第二筛选,得到第二次筛选后的特征因子数据;获取二次筛选后的特征因子数据的重要程度,根据所述重要程度进行第三次筛选,得到第三次筛选后的特征因子数据;选取回归任务模型,利用该回归任务模型和第三次筛选后的特征因子数据,训练得到挂科学分预测模型。
优选的,获取所述特征因子数据与挂科学分的相关性,具体包括,利用散点图获取所述特征因子数据与挂科学分的相关性;获取第一次筛选后的特征因子数据间的线性相关性,具体包括,利用皮尔森相关系数获取第一次筛选后的特征因子数据间的线性相关性;获取二次筛选后的特征因子数据的重要程度,具体包括,利用随机森林算法获取二次筛选后的特征因子数据的重要程度。
一个具体实施例中,上学期加权平均分、专业基础课成绩、上学期成绩趋势呈现较明显的反向相关性;上学期加权平均分与挂科学分的散点图,如图2所示,图2横坐标为上学期加权平均分,图2纵坐标为挂科学分;日均早餐次数、月均借书本数和月均图书馆入馆次数虽然大体上呈反向关系,但回归线太平缓,整体上只在较右边的三角形尖部呈现一定的反向关系;月均消费额、餐均消费额与挂科学分没有关联关系。
丢弃与建模目标关联度小的特征因子月均消费额和餐均消费额,剩余的9个特征因子为:上学期加权平均分、上学期成绩趋势、专业基础课成绩、日均早餐次数、月均借书本数、月均图书馆入馆次数、日均上网时长、早餐规律性、中餐规律性。
日均上网时长、早餐规律性、中餐规律性大体上呈正向关系,但回归线太平缓,整体上只在较右边的三角形尖部呈现一定的正向关系。
使用皮尔森相关系数分析特征因子间的线性相关性,得到皮尔森相关系数矩阵,如表5所示;
表5
Figure 623785DEST_PATH_IMAGE054
可知上学期加权平均分和专业基础课成绩强相关,月均早餐次数和早餐规律性强相关,月均借书本数和月均图书馆入馆次数中等程度相关;
中等程度相关以上的两个特征因子,选取其一,剩余的6个特征因子为上学期加权平均分、上学期成绩趋势、日均早餐次数、月均图书馆入馆次数、日均上网时长、中餐规律性;
使用随机森林算法分析特征因子的重要性,上学期加权平均分、日均早餐次数较重要,其它特征因子重要性较低;
表6
Figure 130990DEST_PATH_IMAGE055
最后选取的5个特征因子为上学期加权平均分、日均早餐次数、上学期成绩趋势、月均图书馆入馆次数、日均上网时长;
选取最近一个学期的特征因子和挂科学分数据作为测试数据,前4个学期~前2个学期的特征因子和挂科学分数据作为训练数据;模型评估指标为确定系数R2,R2的计算公式为
Figure 874955DEST_PATH_IMAGE056
其中,
Figure 518426DEST_PATH_IMAGE057
表示实际值,
Figure 197800DEST_PATH_IMAGE058
表示预测值,
Figure 926722DEST_PATH_IMAGE059
表示实际平均值。
优选的,选取回归任务模型,具体包括:
利用所述第三次筛选后的特征因子数据及对应的挂科学分数据作为数据集,以该数据集分别对若干不同回归任务模型进行训练,得到对应训练后模型,获取对应训练后的模型的准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,根据所述准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,在若干不同回归任务模型中选取一种模型作为回归任务模型。
优选的,所述若干不同回归任务模型,具体包括:决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型。
一个具体实施例中,使用回归任务的主流算法模块,包括决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型等进行反复训练,从准确率、可解释性、缺失值敏感性、非线性关系处理能力、运行效率等方面对比,选取随机森林算法;利用回归任务的主流算法训练的模型,其性能对比表,如表7所示;
表7
Figure 474378DEST_PATH_IMAGE060
具体实施时,对于不在校的学生,与本学期相关的特征因子数据缺失,不进行预测;对于大一上学期的学生,与上学期相关的特征因子数据缺失,不进行预测;截至本学期结束的累计挂科学分为截至上学期结束的累计挂科学分与预测的本学期挂科学分之和,截至上学期结束的累计挂科学分不包括补卡或重修通过课程的挂科学分和选修课的挂科学分;对于学业预警学生,可以在***查看历史预警记录、挂科详情记录,查看各学期的加权平均分、各学期的挂科学分等学习趋势分析,查看最近的上网时长、早餐次数、图书馆入馆次数等行为趋势分析,对学生进行处理,录入处理结果。对于不需要预警的学生,可以加入不再预警名单;在学期的开始,可以获取到上学期的挂科学分结果,***定时任务使用上学期的特征因子和挂科学分数据对模型进行重新训练,提高模型预测的准确率;在学期的中间时间,使用更新后的挂科学分预测模型预测学生本学期的挂科学分。
实施例2
本发明提供了一种在校学生挂科学分预测***,其结构框图,如图3所示,包括数据获取模块、特征因子生成模块、模型获取模块及挂科学分预测模块;
所述数据获取模块,用于获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
所述特征因子生成模块,用于将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
所述模型获取模块,用于选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;
所述挂科学分预测模块,用于重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
实施例3
本发明实施例提供了一种在校学生挂科学分预测装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如实施例1所述的在校学生挂科学分预测方法。
实施例4
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如实施例1所述的在校学生挂科学分预测方法。
本发明公开了一种在校学生挂科学分预测方法、***、装置及计算机可读存储介质,通过获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分;提高了挂科学分预测的准确度。
本发明技术方案选取本学期的挂科学分为建模目标,相比学生是否学业预警的建模目标,对学生学业的量化更精细、区分度更好,可以对学业预警的学生按照预警严重程度从高到低分为红、橙、黄、蓝四个级别;与学校业务更吻合,学校可以很方便地对预测结果进行核对。
对于学业预警学生,可以在***查看历史预警记录、挂科详情记录,查看各学期的加权平均分、各学期的挂科学分等学习趋势分析,查看最近的上网时长、早餐次数、图书馆入馆次数等行为趋势分析,对学生采取有针对性的措施,减轻管理工作量,提升干预效果。
进行预测的学期结束后,可以获取到实际挂科学分数据,该学期的特征因子数据和挂科学分数据可以作为新的训练数据,自动对模型进行重新训练,提高模型预测的准确率。数据处理时,对认证计费数据进行了去重处理,解决了PC端和移动同时在线时上网时长统计不准确的问题。
数据处理时,对连续的特征因子进行离散化,降低了模型过拟合的风险,使模型更稳定。使用散点图分析特征因子与建模目标间的关联关系,使用皮尔森相关系数分析特征因子间的线性相关性,使用随机森林算法分析特征因子的重要性,特征因子的选择过程解释性好。通过本发明技术方案可以及时地、有效地对挂科学分多的学生进行了预警和干预,以挽救学生学业,降低退学率。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (9)

1.一种在校学生挂科学分预测方法,其特征在于,包括以下步骤:
获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
获取所述特征因子数据与挂科学分的相关性,根据所述相关性对特征因子数据进行第一次筛选,得到第一次筛选后的特征因子数据;获取第一次筛选后的特征因子数据间的线性相关性,根据所述线性相关性进行第二筛选,得到第二次筛选后的特征因子数据;获取二次筛选后的特征因子数据的重要程度,根据所述重要程度进行第三次筛选,得到第三次筛选后的特征因子数据;选取回归任务模型,利用该回归任务模型和第三次筛选后的特征因子数据,训练得到挂科学分预测模型;
重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
2.根据权利要求1所述的在校学生挂科学分预测方法,其特征在于,将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据,具体包括:根据所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据获取原始特征因子,并处理所述原始特征因子中数据异常的特征因子,生成特征因子数据。
3.根据权利要求2所述的在校学生挂科学分预测方法,其特征在于,处理所述原始特征因子中数据异常的特征因子,生成特征因子数据,具体包括:丢弃原始特征因子中数据异常的特征因子,对原始特征因子中的字段取值进行数字化,去掉重复特征因子,对连续的特征因子进行离散化,生成特征因子数据。
4.根据权利要求1所述的在校学生挂科学分预测方法,其特征在于,获取所述特征因子数据与挂科学分的相关性,具体包括,利用散点图获取所述特征因子数据与挂科学分的相关性;获取第一次筛选后的特征因子数据间的线性相关性,具体包括,利用皮尔森相关系数获取第一次筛选后的特征因子数据间的线性相关性;获取二次筛选后的特征因子数据的重要程度,具体包括,利用随机森林算法获取二次筛选后的特征因子数据的重要程度。
5.根据权利要求1所述的在校学生挂科学分预测方法,其特征在于,选取回归任务模型,具体包括:
利用所述第三次筛选后的特征因子数据及对应的挂科学分数据作为数据集,以该数据集分别对若干不同回归任务模型进行训练,得到对应训练后模型,获取对应训练后的模型的准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,根据所述准确率、可解释性、缺失值敏感性、非线性关系处理能力和运行效率,在若干不同回归任务模型中选取一种模型作为回归任务模型。
6.根据权利要求5所述的在校学生挂科学分预测方法,其特征在于,所述若干不同回归任务模型,具体包括:决策树模型、随机森林模型、AdaBoost模型、支持向量机模型、线性回归训练模型。
7.一种在校学生挂科学分预测***,其特征在于,包括数据获取模块、特征因子生成模块、模型获取模块及挂科学分预测模块;
所述数据获取模块,用于获取学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据;
所述特征因子生成模块,用于将所述学生基本信息、学生成绩、学生一卡通数据、图书馆入馆数据及借阅数据及上网数据生成特征因子数据;
所述模型获取模块,用于选取回归任务模型,利用该回归任务模型和特征因子数据,训练得到挂科学分预测模型;
所述挂科学分预测模块,用于重新采集学生的特征因子数据,利用该特征因子数据及所述挂科学分预测模型获取学生的挂科学分。
8.一种在校学生挂科学分预测装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-6任一所述的在校学生挂科学分预测方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机该程序被处理器执行时,实现如权利要求1-6任一所述的在校学生挂科学分预测方法。
CN202110134526.9A 2021-02-01 2021-02-01 一种在校学生挂科学分预测方法、***、装置及存储介质 Pending CN112465277A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110134526.9A CN112465277A (zh) 2021-02-01 2021-02-01 一种在校学生挂科学分预测方法、***、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110134526.9A CN112465277A (zh) 2021-02-01 2021-02-01 一种在校学生挂科学分预测方法、***、装置及存储介质

Publications (1)

Publication Number Publication Date
CN112465277A true CN112465277A (zh) 2021-03-09

Family

ID=74802398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110134526.9A Pending CN112465277A (zh) 2021-02-01 2021-02-01 一种在校学生挂科学分预测方法、***、装置及存储介质

Country Status (1)

Country Link
CN (1) CN112465277A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113127469A (zh) * 2021-04-27 2021-07-16 国网内蒙古东部电力有限公司信息通信分公司 一种三相不平衡数据的缺失值的填补方法及***

Similar Documents

Publication Publication Date Title
Pan et al. The memory of science: Inflation, myopia, and the knowledge network
Diaby et al. How to use multi-criteria decision analysis methods for reimbursement decision-making in healthcare: a step-by-step guide
Borgman et al. Rethinking online monitoring methods for information retrieval systems: From search product to search process
Kurtz et al. Statistical methods in education and psychology
CN109002492B (zh) 一种基于LightGBM的绩点预测方法
JP6105825B1 (ja) データ分析装置、データ分析方法およびデータ分析プログラム
CN109036561A (zh) 一种基于行为信息的大学生心理状态评估方法
Jacso The pros and cons of computing the h‐index using Web of Science
Johnson et al. The status of econometrics in the economics major: A survey
Robinson-García et al. What do university rankings by fields rank? Exploring discrepancies between the organizational structure of universities and bibliometric classifications
Qinghua Data mining and management system design and application for college student mental health
Rastogi Fundamentals Of Biostatistics 2Nd Ed
CN112465277A (zh) 一种在校学生挂科学分预测方法、***、装置及存储介质
CN111815487A (zh) 基于深度学习的健康教育评估方法、装置及介质
Beikzadeh et al. A new analysis model for data mining processes in higher educational systems
Walker et al. Report of the Collection Development Executive Committee Task Force on Print Collection Usage, Cornell University Library
Zweibel et al. Probing the Effects of Policy Changes by Evaluating Circulation Activity Data at Columbia University Libraries: edited by Rick J. Block
Wang Analysis and prediction of CET4 scores based on data mining algorithm
Zhang et al. Research on student Big Data portrait method based on improved K-means algorithm
Dong et al. Research on academic early warning model based on improved SVM algorithm
CN114662920A (zh) 课程推送方法、装置、计算机设备、存储介质和程序产品
Ashley et al. Exploration of educational data mining in improving teaching quality
Yakir Introduction to statistical thinking (with r, without calculus)
Yu et al. Scholarly journal evaluation based on panel data analysis
Vitanov Commonly used indexes for assessment of research production

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination