CN109002532A

CN109002532A - 基于学生数据的行为趋势挖掘分析方法和***

Info

Publication number: CN109002532A
Application number: CN201810786269.5A
Authority: CN
Inventors: 钱伟中; 李晓瑜; 何鑫; 郑德生
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-14

Abstract

本发明公开了基于学生数据的行为趋势挖掘分析方法和***，方法包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤；所述的基于滑动平均模型的趋势分析步骤用于轮询时间，在一定周期内在指定的时间节点训练数据，训练结果当做求平均的结果；所述的趋势图绘制步骤用于根据训练结果，绘制趋势图。本发明既能够有效的挖掘某个时间段的行为规则，又能够分析行为的趋势变化；另外，本发明提出了一种随机森林权重自拟合算法，在对非均衡数据的分类上能够提高少数类的准确率，同时能够适应随着时间推移数据分布以及行为表现上的变化；同时本发明对行为进行数值型关联规则，能够较为精确的挖掘不同特征树之间细微的关系。

Description

基于学生数据的行为趋势挖掘分析方法和***

技术领域

本发明涉及计算机应用技术领域，尤其基于学生数据的行为趋势挖掘分析方法和***。

背景技术

为了便于描述，首先对以下名词作解释：

行为：这里特指校园数据中一段时间内学生产生的各类数据总和。

趋势挖掘：挖掘行为对于时间或相关数值的变化趋势。

随机森林权重自拟合：通过算法自动将随机森林各类型的权重，调整至近似最佳权重值。

随着一卡通的推行，学生在校园里的各种消费活动与学号进行了绑定，数据库中存在着海量学生数据。如何通过这些数据，分析学生行为找到潜在的影响学生的因素与规律，探求行为上的共性，挖掘行为的变化趋势以及对不好的行为进行预防和干预，在提高学生素质，探究行为影响因素等方面存在很好的指导和应用价值。

现有的行为分析主要包括以下三个方面。第一，基于聚类算法在数据上将具有类似表现的学生分为一类，一般基于质心、密度、均值和标准差等来聚类；第二，基于分类算法来预测用户行为，使用支持向量机、贝叶斯、随机森林以及梯度提升决策树等来预测未标签的行为；第三，基于关联规则算法来挖掘行为中不同特征的潜在关系。

然而，在实际的行为数据中，由于行为的不确定性，存在大量噪音数据，同时各类数据的分布比例并不均衡。这些问题极大的增加了聚类和分类的难度，最后的挖掘结果，由于准确率较差，很难适用于实际应用。另一方面，目前对行为的分析，普遍默认行为是稳定不变的，忽略了时间的影响。例如，一年前训练好的模型，并不一定适用于当前的数据集。因此，在一个长期维持的***中其准确率会逐渐降低。此外，在关联规则方面，大多使用标称数据，很少使用数值型数据，导致最终挖掘的规则较为模糊，难以精确到具体数值。

发明内容

本发明的目的在于克服现有技术的不足，提供基于学生数据的行为趋势挖掘分析方法和 ***，解决现有忽视行为的趋势变化同时挖掘的规则不精确等问题。

本发明的目的是通过以下技术方案来实现的：基于学生数据的行为趋势挖掘分析方法，包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤；

所述的基于滑动平均模型的趋势分析步骤用于轮询时间，在一定周期内在指定的时间节点训练数据，训练结果当做求平均的结果，包括以下子步骤：

S11：进行时间判断，当离上次训练开始时间间隔为所述一定周期时，进行本次训练；

S12：通过随机森林训练数据，获得各特征重要性；其中，每个特征重要性都存在一个趋势分析，每次训练结果对应的是滑动平均模型的平均值；

S13：通过FP-Growth获得特征、特征值以及标签间的支持度、置信度和提升度；其中，每个置信度和提升度都存在一个趋势分析，每次训练结果对应的是滑动平均模型的平均值；

所述的趋势图绘制步骤用于根据训练结果，绘制趋势图，包括以下子步骤：

S2：绘制各特征重要性趋势图、标签与某种特征构成的频繁二项集随特征值变化的置信度趋势图以及某特征对于标签的最高置信度对应的特征值随时间变化趋势图。

进一步地，所述的步骤S12包括以下子步骤：

S121：提取最近一段时间的数据作为本次训练样本；

S122：对随机森林各类型权重进行初始化对于数据集D；其中，各类数据集D_c的初始权重W_c0计算方法如下：

S123：通过随机森林迭代训练，更新各类型权重值；

S124：输出分类预测结果以及各特征重要性值。

进一步地，步骤S123包括以下子步骤：

S1231：使用随机森林训练测试集，获得预测结果；

S1232：判断各类型预测数量是否都大于零，如果是则进行步骤S1233，反之数量为零的权重乘以M并返回步骤S1231；

S1234：权重调整终止条件，阈值判断，达到阈值则停止随机森林迭代并进入步骤S124，否则进入步骤S1235；其中，如果所有类型的P_sk与O_sk比值在0.85～1.15之间，则终止调整，其表达式如下：

S1235：根据权重计算公式，计算每次调整之后的权重，计算完成后返回步骤S1231；其中，第k次调整的系数分别为a_k和b_k，随机森林各类数据预测前后数据占总数量的比例分别为O_sk和P_sk，上次权重向量为W_k，则可得权重方程式如下：

式中，w_sk的含义是按照权重大小从小到大排序后的第k个权重，S的含义是权重之和，s 是排序的意思，m的含义是权重的总数；

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,...,b₁b₂...b_k-1w_sk)。

进一步地，步骤S13包括以下子步骤：

S131：提取最近一段时间的数据作为本次训练样本；其中，只保留重要性在前N的特征；并且以‘特征1_特征值1’的格式来构成关联规则中的项；另外，对连续特征值通过凑整来划分区间来提高项的支持度；

S132：基于Map Reduce进行关联规则，获取特征与特征值间的置信度与提升度。

进一步地，所述的步骤S132包括以下子步骤：

S1321：通过Map Reduce将数据分片，统计支持度，删除非频繁一项集；

S1322：通过Map Reduce将FP树分成多颗子树分别建树；其中，以排序好的项集头两项为键，后续项为值，构成键值对，通过Map传输给Reduce，Reduce接收相同键的数据来建树；

S1323：通过Map Reduce合并各子树相同的频繁项集，求得置信度和提升度。

本发明还提供一种基于学生数据的行为趋势挖掘分析***，包括基于滑动平均模型的趋势分析模块和趋势图绘制模块；

所述的基于滑动平均模型的趋势分析模块用于轮询时间，在一定周期内在指定的时间节点训练数据，训练结果当做求平均的结果，包括：

轮训判断子模块：用于进行时间判断，当离上次训练开始时间间隔为所述一定周期时，进行本次训练；

随机森林训练子模块：用于通过随机森林训练数据，获得各特征重要性；其中，每个特征重要性都存在一个趋势分析，每次训练结果对应的是滑动平均模型的平均值；

FP-Growth训练子模块：用于通过FP-Growth获得特征、特征值以及标签间的支持度、置信度和提升度；其中，每个置信度和提升度都存在一个趋势分析，每次训练结果对应的是滑动平均模型的平均值；

所述的趋势图绘制模块用于根据训练结果，绘制趋势图，具体包括绘制各特征重要性趋势图、标签与某种特征构成的频繁二项集随特征值变化的置信度趋势图以及某特征对于标签的最高置信度对应的特征值随时间变化趋势图。

进一步地，所述的随机森林训练子模块包括：

数据提取单元：用于提取最近一段时间的数据作为本次训练样本；

初始权重计算单元：用于对随机森林各类型权重进行初始化对于数据集D；其中，各类数据集D_c的初始权重W_c0计算方法如下：

权重值更新单元：用于通过随机森林迭代训练，更新各类型权重值；

结果输出单元：用于输出分类预测结果以及各特征重要性值。

进一步地，权重值更新单元包括：

预测结果获取子单元：使用随机森林训练测试集，获得预测结果；

预测数量判断与权重预更新子单元：判断各类型预测数量是否都大于零，如果是则进行权重调整子单元，反之数量为零的权重乘以M并返回预测结果获取子单元；

权重调整子单元：按照从多数类到少数类的顺序，依次对权重进行调整；其中，调整好的权重不参与调整，一次只调整一个权重，其他未调整的权重作为一个整体，同时调整前后权重之和不变；

权重调整终止单元：用于根据权重调整终止条件，阈值判断，达到阈值则停止随机森林迭代即完成权重值更新单元，否则进入权重计算子单元；其中，如果所有类型的P_sk与O_sk比值在0.85～1.15之间，则终止调整，其表达式如下：

权重计算子单元：根据权重计算公式，计算每次调整之后的权重，完成后返回预测结果获取子单元；其中，第k次调整的系数分别为a_k和b_k，随机森林各类数据预测前后数据占总数量的比例分别为O_sk和P_sk，上次权重向量为W_k，则可得权重方程式如下：

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,...,b₁b₂...b_k-1w_sk)。

进一步地，FP-Growth训练子模块包括：

训练样本提取单元：提取最近一段时间的数据作为本次训练样本；其中，只保留重要性在前N的特征；并且以‘特征1_特征值1’的格式来构成关联规则中的项；另外，对连续特征值通过凑整来划分区间来提高项的支持度；

置信度与提升度计算单元：基于Map Reduce进行关联规则，获取特征与特征值间的置信度与提升度。

进一步地，所述的置信度与提升度计算单元包括：

分别与支持度统计子单元：通过MapReduce将数据分片，统计支持度，删除非频繁一项集；

建树子单元：通过Map Reduce将FP树分成多颗子树分别建树；其中，以排序好的项集头两项为键，后续项为值，构成键值对，通过Map传输给Reduce，Reduce接收相同键的数据来建树；

置信度与提升度计算子单元：通过Map Reduce合并各子树相同的频繁项集，求得置信度和提升度。

本发明的有益效果是：本发明既能够有效的挖掘某个时间段的行为规则，又能够分析行为的趋势变化；另外，本发明提出了一种随机森林权重自拟合算法，在对非均衡数据的分类上能够提高少数类的准确率，同时能够适应随着时间推移数据分布以及行为表现上的变化；同时本发明对行为进行数值型关联规则，能够较为精确的挖掘不同特征树之间细微的关系。

附图说明

图1为本发明方法流程图；

图2为步骤S12的详细流程图；

图3为步骤S13的详细流程图。

具体实施方式

下面结合附图对本发明的技术方案进行清除、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

实施例1

本实施例提供基于学生数据的行为趋势挖掘分析方法。该方法采用的学校数据中心提供的真实数据，包括学生基本信息、消费信息、借阅信息、门禁、奖学金、助学金以及成绩等信息；应用于分析学生行为找到潜在的影响学生的因素与规律，探求行为上的共性，挖掘行为的变化趋势以及对不好的行为进行预防和干预。

具体地，如图1所示，基于学生数据的行为趋势挖掘分析方法包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤；

S11：进行时间判断，当离上次训练开始时间间隔为周为周期，进行本次训练。

具体地，需要对步骤S12中的随机森林训练与步骤S13中的FP-Growth算法各确定一个更新时间，其中随机森林在前。由于随机森林步骤所得的结果，也就是特征的重要性。会做为下一步FP-Growth算法的数据集的获取依据。所以必须在前。每周达到指定时间则开启训练，最终的训练结果作为该时间段的平均值。

另外，在步骤S13的FP-Growth开启前需判断随机森林是否已完成训练，否则等待一小时。

S12：通过随机森林训练数据，不断调整权重直到分类性能拟近最佳效果，获得当前各特征重要性。

其中，每个特征重要性都存在一个趋势分析，每次训练结果对应的是滑动平均模型的平均值。

更优地，在本实施例中，如图2所示，所述的步骤S12包括以下子步骤：

S121：提取20周的数据作为本次训练样本，包括以下子步骤：

S1211：对最新一周的数据进行清洗，每位同学单周的数据作为一条样本；在本步骤中，如果数据中有效数据过少，则当作异常数据剔除；

S1212：将最新一周的数据加入训练集，并剔除训练集中最早一周的数据；在本步骤中，通过不断添加和剔除数据，保证训练集的数量基本不变。

S123：通过随机森林迭代训练，更新各类型权重值，包括以下子步骤：

S1231：使用随机森林训练测试集，获得预测结果；

S1232：判断各类型预测数量是否都大于零，如果是则进行步骤S1233，反之数量为零的权重乘以100并返回步骤S1231；

S1233：按照从多数类到少数类的顺序，依次对权重进行调整；其中，调整好的权重不参与调整，一次只调整一个权重，其他未调整的权重作为一个整体，同时调整前后权重之和不变；

式中，w_sk的含义是按照权重大小从小到大排序后的第k个权重，大写S的含义是权重之和，小写s是排序的意思，m的含义是权重的总数；

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,...,b₁b₂...b_k-1w_sk)。

S124：输出分类预测结果以及各特征重要性值。

其中，如图3所示，步骤S13包括以下子步骤：

S131：提取以周为周期的数据作为本次训练样本；其中，只保留重要性在前20的特征；并且以‘特征1_特征值1’的格式来构成关联规则中的项；另外，对连续特征值通过凑整来划分区间来提高项的支持度；

并且S131步骤的数据预处理步骤，与步骤S1211和步骤S1212相同。

进一步地，所述的步骤S132包括以下子步骤：

实施例2

本实施例提供一种基于学生数据的行为趋势挖掘分析***，与实施例1类似的，该*** 采用的学校数据中心提供的真实数据，包括学生基本信息、消费信息、借阅信息、门禁、奖学金、助学金以及成绩等信息；应用于分析学生行为找到潜在的影响学生的因素与规律，探求行为上的共性，挖掘行为的变化趋势以及对不好的行为进行预防和干预。

具体地，基于学生数据的行为趋势挖掘分析装置包括基于滑动平均模型的趋势分析模块和趋势图绘制模块；

更优地，在本实施例中，所述的随机森林训练子模块包括：

更优地，在本实施例中，权重值更新单元包括：

预测数量判断与权重预更新子单元：判断各类型预测数量是否都大于零，如果是则进行权重调整子单元，反之数量为零的权重乘以100并返回预测结果获取子单元；

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,...,b₁b₂...b_k-1w_sk)。

更优地，在本实施例中，FP-Growth训练子模块包括：

更优地，在本实施例中，所述的置信度与提升度计算单元包括：

本实施例所提供的基于学生数据的行为趋势挖掘分析***可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-OnlyMemory，ROM)、随机存取存储器 (RandomAccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.基于学生数据的行为趋势挖掘分析方法，其特征在于：包括基于滑动平均模型的趋势分析步骤和趋势图绘制步骤；

2.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法，其特征在于：所述的步骤S12包括以下子步骤：

S121：提取最近一段时间的数据作为本次训练样本；

S123：通过随机森林迭代训练，更新各类型权重值；

S124：输出分类预测结果以及各特征重要性值。

3.根据权利要求2所述的基于学生数据的行为趋势挖掘分析方法，其特征在于：步骤S123包括以下子步骤：

S1231：使用随机森林训练测试集，获得预测结果；

式中，w_sk的含义是按照权重大小从小到大排序后的第k个权重，S的含义是权重之和，s是排序的意思，m的含义是权重的总数；

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,.·.,b₁b₂...b_k-1w_sk)。

4.根据权利要求1所述的基于学生数据的行为趋势挖掘分析方法，其特征在于：步骤S13包括以下子步骤：

5.根据权利要求4所述的基于学生数据的行为趋势挖掘分析方法，其特征在于：所述的步骤S132包括以下子步骤：

6.基于学生数据的行为趋势挖掘分析***，其特征在于：包括基于滑动平均模型的趋势分析模块和趋势图绘制模块；

7.根据权利要求6所述的基于学生数据的行为趋势挖掘分析***，其特征在于：所述的随机森林训练子模块包括：

8.根据权利要求7所述的基于学生数据的行为趋势挖掘分析***，其特征在于：权重值更新单元包括：

最终a_k和b_k的表达式如下：

则第k次，权重向量W_k可以表示为：

W_k＝(a₁w_s1,b₁a₂w_s2,b₁b₂a₃w_s3,...,b₁b₂...b_k-1w_sk)。

9.根据权利要求6所述的基于学生数据的行为趋势挖掘分析***，其特征在于：FP-Growth训练子模块包括：

10.根据权利要求9所述的基于学生数据的行为趋势挖掘分析***，其特征在于：所述的置信度与提升度计算单元包括：

分别与支持度统计子单元：通过Map Reduce将数据分片，统计支持度，删除非频繁一项集；