CN115409257A

CN115409257A - 一种基于条件密度估计模型的成绩分布预测方法及***

Info

Publication number: CN115409257A
Application number: CN202211026487.1A
Authority: CN
Inventors: 张娜; 刘明
Original assignee: University of Jinan
Current assignee: University of Jinan
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-29

Abstract

本发明提出了一种基于条件密度估计模型的成绩分布预测方法及***，涉及数据挖掘领域，用于解决现有成绩预测方案局限性大、准确率低的问题，该方法包括：根据预测目标，采集学生数据，存储到第一服务器的数据库中；对数据库中存储的学生数据进行预处理，剔除缺失严重或特征值分布异常的特征，并用条件掩码机制进行特征融合，得到数据集；构建条件密度估计模型，并利用数据集进行训练；将待预测的学生数据输入到训练好的条件密度估计模型中，得到预测目标的成绩概率密度分布；本发明利用条件密度估计模型，构建统一技术框架，以任意数据为输入条件，预测出未来课程/考试成绩的完整概率密度分布，实现任意教育场景下成绩的准确预测。

Description

一种基于条件密度估计模型的成绩分布预测方法及***

技术领域

本发明属于数据挖掘领域，尤其涉及一种基于条件密度估计模型的成绩分布预测方法及***。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

目前，学生成绩预测是进行学习分析的重要目标；在信息建设推动下，各大高校已经着手建设数字化校园或智慧校园，并取得良好效果；然而，智慧校园建设更多地聚焦在高校，仅有部分学校开始推动数字化教育；目前，在现有预测方案，存在如下问题：(1)现有的成绩预测只针对一类群体，例如只针对大学生课程的成绩预测，尚未形成小学、初中、高中、大学各教育阶段都适用的统一框架；(2)考虑到的影响学生成绩的因素较少，忽略了学生自身特征、课余活动以及教师等因素对成绩的影响；(3)无法将收集到的信息完整的融合，例如现有发明无法将专业不同导致修课不同的学生样本进行完整融合；(4)只能预测学生成绩或判断学生是否顺利通过考试，无法预测学生整体的成绩分布导致预测信息并不完备。因此，现有成绩预测方案存在局限性大、准确率低的问题，需要进一步的研究。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于条件密度估计模型的成绩分布预测方法及***，利用条件密度估计模型，构建统一技术框架，以任意数据为输入条件，预测出未来课程/考试成绩的完整概率密度分布，实现任意教育场景下成绩的准确预测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

本发明第一方面提供了一种基于条件密度估计模型的成绩分布预测方法；

一种基于条件密度估计模型的成绩分布预测方法，包括：

根据预测目标，采集学生数据，存储到第一服务器的数据库中，对数据库中存储的学生数据进行筛选，得到属性特征；

对数据库中存储的学生数据进行预处理，剔除缺失严重或特征值分布异常的特征，并用条件掩码机制进行特征融合，得到数据集；

构建条件密度估计模型，并利用数据集进行训练；

将待预测的学生数据输入到训练好的条件密度估计模型中，得到预测目标的成绩概率密度分布。

进一步的，所述预测目标，包括单门课程成绩、中考成绩、高考成绩、考研成绩、培训机构毕业成绩；

学生数据，包括学生基本信息、学生课程相关数据、教师课程相关数据及学生行为数据，其中，其他信息，包括图书馆进出记录、图书借阅次数、获奖情况；

进一步的，从学校的教务***、数字化校园、智慧校园中通过数据接口或者爬虫抓取的方式采集数据，并存储在第一服务器的数据库中。

进一步的，所述特征融合采用条件掩码机制，尤其针对特征不同导致无法统一建模的弊端，引入掩码mask机制，通过将mask与特征关联，标识出元素的缺失。

进一步的，所述条件密度估计模型，通过参数化或非参数化方法根据输入条件拟合预测目标的分布，分布拟合过程中，采用似然估计来优化分布误差。

进一步的，根据年级，将数据集划分为训练集、验证集和测试集，分别用于条件密度估计模型的学习、检验和测试；

进一步的，所述条件密度估计模型，采用反卷积密度网络DDN、条件流模型CNFs、核混合网络KMN、混合密度网络MDN、分位数回归随机森林QRFCDF中的一种。

本发明第二方面提供了一种基于条件密度估计模型的成绩分布预测***。

一种基于条件密度估计模型的成绩分布预测***，包括数据采集模块、特征处理模块、模型训练模块和成绩预测模块；

数据采集模块，被配置为：根据预测目标，采集学生数据，存储到第一服务器的数据库中，对数据库中存储的学生数据进行筛选，得到属性特征；

数据处理模块，被配置为：对数据库中存储的学生数据进行预处理，剔除缺失严重或特征值分布异常的特征，并用条件掩码机制进行特征融合，得到数据集；

模型训练模块，被配置为：构建条件密度估计模型，并利用数据集进行训练；

成绩预测模块，被配置为：将待预测的学生数据输入到训练好的条件密度估计模型中，得到预测目标的成绩概率密度分布。

本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。

本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。

以上一个或多个技术方案存在以下有益效果：

本发明提出一种基于条件密度估计模型的成绩分布预测方法及***，利用条件密度估计模型，构建统一技术框架，以任意数据为输入条件，预测出未来课程/考试成绩的完整概率密度分布，实现任意教育场景下成绩的准确预测，考虑了预测过程本身的不确定性，更加贴近成绩预测的本质，并且信息更加完备，提高了预测精度。

本发明针对属性特征不同导致无法统一建模的弊端，引入掩码mask机制，通过将mask与特征关联，标识出元素的缺失，解决了学生信息不一致问题，能够充分利用收集到的所有学生信息。

通过预测学生所有可能取得的成绩分布，相比于传统预测预警方法，能够根据不同的方案解决不同的应用问题，实现差异化办学、适当调整教学难度，降低对部分学生的学业要求，培养各类人才。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为第一个实施例的方法流程图。

图2为第一个实施例中使用掩码机制后的课程历史信息及其衍生特征图。

图3为第一个实施例中学生籍贯所在省份编码处理图。

图4为第一个实施例中条件概率密度估计模型使用步骤图。

图5为第二个实施例的***结构图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

本实施例公开了一种基于条件密度估计模型的成绩分布预测方法；

如图1所示，一种基于条件密度估计模型的成绩分布预测方法，包括：

步骤S1、根据预测目标，采集学生数据，存储到第一服务器的数据库中；

所述预测目标，包括单门课程成绩、中考成绩、高考成绩、考研成绩、培训机构毕业成绩。

所述学生数据，来源于学校的教务***、数字化校园、智慧校园，通过数据接口或者爬虫抓取的方式采集数据，并存储在第一服务器的数据库中。

数据的采集数据维度以及预测目标可根据教育阶段做出相应变化；首先，为了预测任意年级的课程成绩，需分析的数据将随着年级的变化而改变，例如当预测大学某课程成绩时，相比于中小学所能够收集到的相关数据，大学阶段还需收集到学生大学阶段的历史课程成绩、高考成绩、图书馆借阅信息等新增数据，以提高课程预测的准确性；其次，在预测学生各个阶段的升学考试时的成绩，包括中考成绩、高考成绩和考研成绩，需最大化收集到影响该阶段最终表现的相关数据，包括整个阶段的课程历史成绩、学生基本信息、获奖信息以及模拟考试的成绩等。

具体采集的学生数据，包括：学生基本信息、学生课程相关数据、教师课程相关数据及学生行为数据，用于记录学生学习情况、教师历史打分情况、督教评分情况、学生评教情况等。

学生课程相关数据包括：

学号、历史课程的编号、名称、学年度、学期码、成绩、绩点、是否重修、课程授课教师工号。可根据学生所在教育阶段增添有效数据，例如预测高中课程成绩增加学生中考成绩信息，预测大学成绩增加学生高考成绩信息等。

教师课程相关数据包括：

教师工号、教师姓名、授课课程号、授课学年度、授课学期码

学生、教师衍生数据包括：

学生历史学期课程挂科率、历史平均绩点GPA、教师某课程历史打分平均分和标准差。

学生基本信息包括：

学号、姓名、学生所在年级、所属学院、所属专业、出生日期、年龄、籍贯。

学生行为数据包括：

学生图书馆进出次数、图书借阅次数。可根据学校信息化水平进行行为数据的填充，例如学生日常消费数据、学生行为轨迹等。

除了采集当前阶段的学生数据，还需根据学生目前所在教育阶段丰富前一阶段的信息，例如预测大学成绩时引入学生高考成绩等蕴含学生中学表现的特征。

步骤S2、对数据库中存储的学生数据进行预处理，剔除缺失严重或特征值分布异常的特征，并用条件掩码机制进行特征融合，得到数据集；

使用Pandas模块进行数据清洗、去重等数据预处理操作，提高数据质量并将数据进行关联，具体为：

1)数据清洗，清洗掉信息异常的数据，例如课程成绩值异常、数据重复等脏数据。

2)缺失处理，根据数据缺失情况进行去除或填补操作，填补采用该特征的均值进行填充，保证填充后的数据与原数据不存在较大差异。

3)信息关联，通过学号、课程号、教师工号字段将学生、教师等一系列数据关联起来形成样本集合。

针对特征不同导致无法统一建模的弊端，引入条件掩码机制，通过将mask与特征关联，标识出元素的缺失，具体过程为：

1)确定所需的所有属性特征集合feature，feature＝{c₁,c₂,…,c_k}，其中，k为属性特征的数量。

2)随机生成一个k维掩码序列rm，rm＝[m₁,m₂,…,m_k]，其中m_i∈{0,1}，i∈{1,2,…,k}。同时，rm序列满足两个规则：(1)当属性特征c_i缺失时(学生未修相关课程或数据缺失)，设置m_i为0，反之设置为1；(2)当模型进行训练时，随机掩盖掉一部分未缺失数据进行负重训练，提高模型在遇到未知情况下的泛化能力。最后，将特征集合与rm序列进行乘法运算后与rm序列一起构成了最终的数据集，如图2所示。

步骤S3、构建条件密度估计模型，并利用数据集进行训练；

所述条件密度估计模型CDE，包含多种模型，例如反卷积密度网络DDN、条件流模型CNFs、核混合网络KMN、混合密度网络MDN、分位数回归随机森林QRFCDF等，该类模型的特点在于通过参数化或非参数化方法根据输入条件拟合预测目标的概率密度分布，分布拟合过程中，采用似然估计来优化分布误差，其过程如下：

从模型的输入向量中进行采样后得到m个样本x1,x2,…,xm；

计算样本的似然函数

计算得到能够使得L最大的参数θ；

当采样的样本在P_G(xⁱ；θ)分布模型中出现的概率越高，也就是L越大，P_G(xⁱ；θ)分布与样本分布越接近。

其中，P_G((xⁱ；θ)为定义的一个分布模型，该分布由θ决定，目标是求得参数θ使得分布P_G((xⁱ；θ)尽可能地接近从真实样本中采样出的分布。

在神经网络的损失函数方法中采用负对数似然方法，旨在最小化预测分布与真实分布的误差，公式如下：

在同一个场景下收集到的各年级学生数据的时候，各年级学生的成绩分布不存在较大的偏差，基本符合独立同分布，因此使用训练集学习到的分布，与验证集和测试集不存在较大偏差。因此，本发明模拟了真实场景下的教育过程以及实际需求，将最新一级的所有学生成绩的预测作为测试集进行成绩分布的预测，数据集划分后分别保存到数据库中以便后续使用，具体为：

根据年级，将数据集划分为训练集、验证集和测试集，分别用于条件密度估计模型的学习、检验和测试，例如模拟真实场景，2015-2018级所有学生样本作为训练集，2019级学生样本作为验证集，2020级学生当作测试集。

用训练集对条件密度估计模型进行训练，将验证集输入到训练后的条件密度估计模型中，检验输出分布是否和真实分布存在较大的偏差，从而重新优化模型实现模型的校准。使用验证集检验模型学习的性能能够帮助模型正确的学习，避免模型的过拟合或欠拟合现象。

所述校准可通过回归校准方法对所预测分布进行校准，通过减小所测分布与总体真实情况的差距是否接近给定的值的概率来实现校准，即校准观测置信度与期望置信度之间的误差。

基于回归校准评价指标，使用验证集对模型进行校准的步骤为：

(1)在预测每个学生的成绩概率密度分布的基础上额外计算每个学生成绩的分布中低于真实成绩的累积概率值cdf，并将值保留到预先定义的累积概率数组CDF_LIST中。

(2)自定义二维坐标轴，横坐标可自定义为十组0-1之间的置信度区间，即[0～0.1,0.1～0.2,…,0.9～1.0]，代表模型期望得到的置信度。之后将数组CDF_LIST中的累积概率值划分到对应的置信区间中，计算每个区间样本出现的频数，频数＝区间中样本数量/总样本数量，纵坐标代表模型预测出的观测置信度，范围为0-1。借助画图工具，可以可视化出到验证集样本的校准曲线。

(3)在模型完美校准的情况下，期望置信度等于观测置信度，即上一过程画出的校准曲线应与完美校准曲线(对角线)完美重合，例如对于模型输出累积概率值为0.1的所有样本中正样例占比应为0.1。在非完美校准的情况下，会出现过度校准和欠校准两种状态。过度校准状态下校准曲线将会在对角线的上方，从概率的角度来讲具体表现为模型实际输出分布的累积概率高于真实情况下的累积概率；欠校准状态相反，是观测的置信度曲线在完美校准曲线的下方。此外，可通过观察校准曲线与完美校准曲线的差异或通过均方误差MSE来计算期望置信度与观测置信度之间的误差，以此调整参数校准曲线到完美状态实现模型校准过程。

(4)保存完美校准后的模型及参数。

步骤S4、将待预测的学生数据输入到训练好的条件密度估计模型中，得到预测目标的成绩概率密度分布。

将待预测的学生数据输入校准后的模型预测学生成绩分布，得到完整分布后，教育工作者可针对其进行更加全面、可靠的决策，并将学生信息与预测结果存入数据库中，为后续学生成绩预警平台提供数据接口。

经过步骤S3，模型已经充分校准输出可靠的成绩概率密度分布，根据完整分布，教育工作者将会得到比现有成绩预测模型更加完备的信息，可实现在任意场景下的应用。

例如，成绩预警，在得到学生成绩完整分布的基础上进一步计算分布处于0-60分(百分制成绩)区间的概率作为学生最终的成绩不合格风险值，这相比传统学生成绩预警模型采用了更多的分布信息进行决策，并进一步根据风险进行排名，重点关注风险超过70％的学生，辅助他们顺利通过考试，模型归纳与推理步骤与S1、S2步骤一致，但在S3步骤中回归校准的基础上可进一步转化为预警是否正确的分类问题(例如不合格风险值为85％的学生真实成绩是否及格的二分类任务)，采用分类校准评价指标评价模型能力，实现校准，使用验证集校准模型步骤如下：

(1)根据每一个预测出的成绩概率密度分布计算每个学生成绩分布在0-60分的累积概率密度(百分制课程60分以下为不及格)作为课程风险概率值，保存到数组CDF_RISK中。

(2)自定义置信区间，横坐标将0-1的置信度分为十组，根据数组CDF_RISK中风险概率值划分到对应的置信度区间中，与回归校准不同的是，分类任务的纵坐标变为区间中样本分类正确的准确率；当置信度与准确率相等时，达到完美校准的状态，例如10名学生的风险概率预测值处于0.9～1.0之间，真实情况下应有9～10名学生真的不及格。如置信度与准确率不相等，则可通过调整参数优化模型；同样，可通过观察校准图或计算每个区间样本的平均置信度与准确率的差值期望(ECE)来衡量误差，公式如下所示：

其中，b表示第b各风险区间，N为样本集总数，n_b为第b个区间中样本的数量，acc(b)和conf(b)分别表示为在对应区间的准确率和平均置信度(平均风险概率)。

(3)校准后保存模型用于测试，反馈结果为每个学生的风险概率值，同时风险概率值不仅体现在学生不及格(成绩小于60分)的风险概率，还表现为位于同一风险区间段的学生样本中实际不及格学生的占比(即准确率)应与风险区间段的值对应，例如：10名学生的风险概率值为0.9，则应有9～10名学生实际不及格，该区间分类准确率为0.9，与风险区间0.9-1.0对应。

教育工作者可根据学生完整的条件概率密度分布分析学生课程中的表现特征，在确保课程成绩分布范围低的学生顺利通过测试的同时，培养有潜力、有天赋的学生，鼓励或指导他们积极参加学术比赛、科研活动从而进一步提高自身水平，从而实现全面提高学生质量的目的。

实施例二

本实施例公开了一种基于条件密度估计模型的成绩分布预测***；

如图5所示，一种基于条件密度估计模型的成绩分布预测***，包括数据采集模块、特征处理模块、模型训练模块和成绩预测模块；

实施例三

本实施例的目的是提供计算机可读存储介质。

计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开实施例1所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。

实施例四

本实施例的目的是提供电子设备。

电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本公开实施例1所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于条件密度估计模型的成绩分布预测方法，其特征在于，包括：

根据预测目标，采集学生数据，存储到第一服务器的数据库中；

构建条件密度估计模型，并利用数据集进行训练；

2.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，所述预测目标，包括单门课程成绩、中考成绩、高考成绩、考研成绩、培训机构毕业成绩；

学生数据，包括学生基本信息、学生课程相关数据、教师课程相关数据及学生行为数据，其中，其他信息，包括图书馆进出记录、图书借阅次数、获奖情况。

3.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，从学校的教务***、数字化校园、智慧校园中通过数据接口或者爬虫抓取的方式采集数据，并存储在第一服务器的数据库中。

4.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，所述特征融合采用条件掩码机制，尤其针对特征不同导致无法统一建模的弊端，引入掩码mask机制，通过将mask与特征关联，标识出元素的缺失。

5.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，所述条件密度估计模型，通过参数化或非参数化方法根据输入条件拟合预测目标的分布，分布拟合过程中，采用似然估计来优化分布误差。

6.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，根据年级，将数据集划分为训练集、验证集和测试集，分别用于条件密度估计模型的学习、检验和测试。

7.如权利要求1所述的一种基于条件密度估计模型的成绩分布预测方法，其特征在于，所述条件密度估计模型，采用反卷积密度网络DDN、条件流模型CNFs、核混合网络KMN、混合密度网络MDN、分位数回归随机森林QRFCDF中的一种。

8.一种基于条件密度估计模型的成绩分布预测***，其特征在于，包括数据采集模块、特征处理模块、模型训练模块和成绩预测模块；

数据采集模块，被配置为：根据预测目标，采集学生数据，存储到第一服务器的数据库中；

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于条件密度估计模型的成绩分布预测方法中的步骤。