CN104239533A

CN104239533A - 基于相关性的教务数据矩阵加权正负模式挖掘方法及***

Info

Publication number: CN104239533A
Application number: CN201410484486.0A
Authority: CN
Inventors: 黄名选; 韦吉锋
Original assignee: GUANGXI COLLEGE OF EDUCATION
Current assignee: GUANGXI COLLEGE OF EDUCATION
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2014-12-24

Abstract

一种基于相关性的教务数据矩阵加权正负模式挖掘方法及***，利用教务数据预处理模块进行教务数据预处理；利用科目候选项集生成模块产生科目候选项集；利用科目频繁项集和负项集产生模块根据项集支持期望得到科目负项集，计算候选项集支持度，与最小支持度阈值比较，得到矩阵加权科目频繁项集和负项集；利用科目正负关联规则产生模块生成科目频繁项集和负项集的全部真子集，计算项集相关性和置信度，与最小置信度阈值比较得到矩阵加权科目正负关联规则模式；利用科目正负关联模式显示模块将科目正负关联规则模式显示给用户。本发明运用于教务信息管理***，能挖掘出与实际更接近的科目关联规则模式，为教学改革和教务管理、决策提供科学依据。

Description

基于相关性的教务数据矩阵加权正负模式挖掘方法及***

技术领域

本发明属于教育数据挖掘领域，具体是一种基于相关性的教务数据矩阵加权正负模式挖掘方法及其挖掘***，适用于教务数据科目正负关联模式发现，在教育信息化数据分析以及教育数据模式挖掘有重要的应用价值和广阔的应用前景，其模式可为教学改革和教育管理、决策提供科学的依据。

背景技术

现有关联规则模式挖掘研究及其在教育信息化领域中的应用研究主要集中在以下几个方面。

(1)正负关联模式挖掘方法研究：这是传统的关联模式挖掘方法，其典型方法有Apriori方法(R.Agrawal,T.Imielinski,A.Swami. Mining association rules between sets of items in large database[C]//Proceeding of 1993 ACM SIGMOD International Conference on Management of Data, Washington D.C.,1993, (5): 207-216.)、以及Wu等提出的基于PR模型的正负关联规则挖掘方法（Xindong Wu, Chengqi Zhang, and Shichao Zhang. Efficient Mining of Both Positive and Negative Association Rules[J].ACM Transactions on Information Systems, 2004,22(3): 381–405.）。近年来，传统关联模式挖掘技术在教育信息化领域中的应用得到很多关注和研究。Borkar采用传统的关联模式挖掘技术对学生信息数据、教师教学数据等进行挖掘或分类，挖掘出有趣的课程关联规则模式。通过模式分析，预测学生后续学业成绩和毕业情况，分析优秀教师的教学素养，给出提高教师教学素养能力的建议（S.Borkar, K.Rajeswari. Predicting Students Academic Performance Using Education Data Mining[J]. International Journal of Computer Science and Mobile Computing(IJCSMC), July 2013, 2(7):273 – 279）。传统关联模式挖掘方法的缺陷是：没有考虑项目之间存在着不同的重要性（即项目之间具有不同的权值）。

(2)加权正负关联模式挖掘方法:针对传统关联模式挖掘存在的缺陷，加权正负关联模式挖掘方法引入了项目权值，以体现项目之间具有不同的重要性。其典型方法有MINWAL算法（C. H. Cai, A.Da, W. C. Fu,et al. Mining Association Rules with Weighted Items [C]//Proceedings of IEEE International database Engineering and Application Symposiums, 1998: 68-77.）和Jiang等提出的加权正负关联规则挖掘算法（He Jiang,Yuanyuan Zhao. Mining Positive and Negative Association Rules with Weighted Items[C]//Proceedings of DCABES2008,China,2008: 450-454.）。2012年以来，加权关联模式挖掘在教育信息化领域中的应用开始得到关注和研究（陈世保，徐峰，吴国凤.基于难度系数的加权关联规则在试卷评估中的应用[J]. 井冈山大学学报(自然科学版),2013,34(1):70-74.；刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J]. 福建教育学院学报,2012(3):123-125.）。加权关联模式挖掘的缺陷是：只考虑项目之间存在不同的权值，没有考虑项目在各个事务记录中也具有不同权值的情况。

(3)矩阵加权关联模式挖掘方法：矩阵加权数据指的是其项目权值随着事务记录不同而变化的一类数据，也称完全加权数据。现有加权关联模式挖掘技术不能用于矩阵加权关联模式的挖掘。2003年以来，矩阵加权关联模式挖掘方法被提出（谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211；黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009,20(7):1854-1865.），但是这些挖掘算法不能解决矩阵加权负关联模式的挖掘问题。针对该问题，本发明提出一种基于相关性的教务数据矩阵加权正负模式挖掘方法及其挖掘***。该发明方法考虑了项目之间具有的不同重要性以及项目在事务数据库中的权值，从教育信息化数据中挖掘科目频繁项集和负项集，在支持度-置信度-相关性架构下从这些科目项集中挖掘教育数据矩阵加权科目正负关联模式。其科目正负关联规则模式可为教学改革和教育管理、决策提供科学的依据，在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。

发明内容

本发明的目的在于，针对教务数据科目正负关联模式挖掘进行深入探索，提出一种基于相关性的教务数据矩阵加权正负模式挖掘方法及其挖掘***，应用于教育数据挖掘领域，为教务数据科目正负关联模式挖掘与分析提供新的发现方法，通过科目正负关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势，提高教师教学质量和学生的学习效果。

本发明所采取的技术方案是：一种基于相关性的教务数据矩阵加权正负模式挖掘方法，包括如下步骤：

（1）教务数据预处理：对于待处理的教务数据，提取学生课程信息及其成绩，将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，构建学生记录数据库和科目项目库。

（2）挖掘教务数据矩阵加权科目频繁1-项集和负1-项集：从科目项目库中提取科目候选1-项集C ₁，累加C ₁的项集权值w(C ₁)，计算其支持度mwepsup(C ₁)，与最小支持度阈值ms比较，从C ₁中挖掘矩阵加权科目频繁1-项集L ₁和负1-项集N ₁，L ₁加入科目频繁项集集合ciPIS，N ₁加入科目负项集集合ciNIS。候选1-项集C ₁支持度mwepsup(C ₁)公式如下：

其中，n为学生记录数据库的记录总数。

(3)挖掘有趣的矩阵加权科目频繁i-项集L_i 和负i-项集N_i (所述的i≥2)，包括以下(3.1) 步至(3.6) 步：

(3.1) 通过科目i-项集支持期望得到教务数据矩阵加权科目负i-项集N_i 。具体方法如下：

矩阵加权科目(i-1)-项集的i-项集支持期望IISE(C_i _-1, i)与其科目(i-1)-项集C_i _-1的项集权值w(C_i _-1)比较，可得到科目负i-项集，并加入科目负项集集合ciNIS中，即若科目(i-1)-项集的项集权值w(C_i _-1)小于其i-项集支持期望项集支持期望IISE(C_i _-1, i)，即w(C_i _-1)<IISE(C_i _-1, i)，则该科目(i-1)-项集的后续i-项集C_i 为矩阵加权科目负项集。科目(i-1)-项集的i-项集支持期望IISE(C_i _-1, i)的计算公式为：

IISE(C_i _-1, i)=n×i×ms-sc(C_i _-1)×w_r (C_i _-1)

其中，sc(C_i _-1)为科目候选项集C_i _-1在学生记录数据库中的项集频度，w_r (C_i _-1)为在不属于C_i _-1项目集合的其他项目中权值最大的项目权值。

(3.2)由其项集权值w(C_i _-1)不小于其i-项集支持期望IISE(C_i _-1, i)的科目候选(i-1)_项集C_i _-1进行Apriori连接生成科目候选i-项集C_i 。科目(i-1)-项集的i-项集支持期望IISE(C_i _-1, i)的计算公式同(3.1)的。

(3.3) 若科目候选i_项集C_i 不为空集，则转入如下(3.3)步，否则，退出（3）步，转入（4）步。

(3.4)计算科目候选i_项集C_i 的项集权值w(C_i )及其矩阵加权支持度mwepsup(C_i )。mwepsup(C_i )计算公式如下：

(3.5)项集支持度mwepsup(C_i )与最小支持度阈值ms比较，若mwepsup(C_i )≥ms，得到矩阵加权科目频繁i-项集，加入科目频繁项集集合ciPIS，若mwepsup(C_i )<ms，得到矩阵加权科目负i-项集，加入科目负项集集合ciNIS。

(3.6) 计算候选i-项集的(i+1)-项集支持期望IISE(C_i , i+1)。IISE(C_i , i+1)的计算公式为：

IISE(C_i , i+1)=n×(i+1)×ms-sc(C_i )×w_r (C_i )

其中，sc(C_i )为科目候选项集C_i 在学生记录数据库中的项集频度，w_r (C_i )为在不属于C_i 项目集合的其他项目中权值最大的项目权值。

(3.7) 变量i加1后，继续循环(3.1)步至(3.7)步，直到C_i 为空集即退出（3）步，转入（4）步。

(4)从科目频繁项集集合ciPIS中挖掘矩阵加权科目强正负关联规则模式，包括以下(4.1) 步至(4.6) 步：

(4.1)对于科目频繁项集集合ciPIS中的矩阵加权科目频繁项集L_i ，将L_i 的所有真子集找出。

(4.2)对于L_i 的真子集集合中的取出两个真子集I₁ 和I₂ ，若I₁ 和I₂ 的支持度不小于最小支持度阈值ms时，即mwepsup(I₁ )≥ms，mwepsup(I₂ )≥ms，并且I₁ I₂= ， I₁ I₂=L_i ，则计算矩阵加权科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )。mwepsup(I₁ )、mwepsup(I₂ )和矩阵加权科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )的计算公式如下：

，，其中，i₁ 和i₂ 为I₁ 和I₂ 的项目个数，即项集维数。

(4.3) 若科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )>1，并且I₁ →I₂ 和﹁I₁ →﹁I₂ 的置信度不小于最小置信度阈值mc，即mwepconf(I₁ →I₂ )≥mc，mwepconf(﹁I₁ →﹁I₂ )≥mc，则挖掘出矩阵加权科目强关联规则I₁ →I₂ 和强负关联规则﹁I₁ →﹁I₂ 。I₁ →I₂ 和﹁I₁ →﹁I₂ 的置信度mwepconf(I₁ →I₂ )和mwepconf(﹁I₁ →﹁I₂ )的计算公式如下：

，

。

(4.4) 若科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )<1，并且I₁ →﹁I₂ 和﹁I₁ →I₂ 的置信度不小于最小置信度阈值mc，即mwepconf(I₁ →I₂ )≥mc，mwepconf(﹁I₁ →﹁I₂ )≥mc，则挖掘出矩阵加权科目强负关联规则I₁ →﹁I₂ 和﹁I₁ →I₂ 。mwepconf(I₁ →I₂ )和mwepconf(﹁I₁ →﹁I₂ )的计算公式如下：

，

。

(4.5) 继续(4.2)步骤，当科目频繁项集L_i 的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(4.6)步；

(4.6) 继续(4.1)步骤，当科目频繁项集集合中每个频繁项集L_i 都被取出一次，而且仅能取出一次，则（4）步运行结束，转入（5）步；

（ 5 ）从矩阵加权科目负项集集合ciNIS中挖掘有效的矩阵加权科目负关联规则模式，包括以下(5.1) 步至(5.6) 步：

(5.1)对于科目负项集集合ciNIS中的科目负项集N_i ，求出N_i 的所有真子集。

(5.2)对于N_i 的真子集集合中任意两个真子集I₁ 和I₂ ，若I₁ 和I₂ 的支持度大于或等于最小支持度阈值ms时，即mwepsup(I₁ )≥ms，mwepsup(I₂ )≥ms，并且I₁ I₂= ， I₁ I₂=N_i ，则计算矩阵加权科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )。mwepsup(I₁ )、mwepsup(I₂ )和完全加权课程频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )的计算公式同(4.2)的。

(5.3) 若科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )>1，并且﹁I₁ →﹁I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强负关联规则﹁I₁ →﹁I₂ 。mwepconf(﹁I₁ →﹁I₂ )的计算公式同(4.3)的。

(5.4) 若科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )<1，并且I₁ →﹁I₂ 和﹁I₁ →I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强负关联规则I₁ →﹁I₂ 和﹁I₁ →I₂ 。mwepconf(I₁ →﹁I₂ )和mwepconf(﹁I₁ →I₂ )的计算公式同(4.4)的。

(5.5) 继续(5.2)步骤，当科目负项集N_i 的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(5.6)步；

(5.6) 继续(5.1)步骤，当科目频繁项集集合中每个负项集N_i 都被取出一次，而且仅能取出一次，则（5）步运行结束；

至此，基于相关性的教务数据矩阵加权科目正负模式挖掘结束。所述的ms为最小支持度阈值，mc为最小置信度阈值。

一种适用于上述基于相关性的教务数据矩阵加权正负模式挖掘方法的挖掘***，其特征在于，包括以下5个模块：

教务数据预处理模块：该模块对教务数据进行预处理，提取学生科目信息及其成绩，将学生的科目成绩权值规范化为0至1之间后构建学生记录数据库和科目项目库。

科目候选项集生成模块：该模块从学生记录数据库和科目项目库挖掘矩阵加权科目候选1-项集，从i-项集(i≥2)起，科目候选(i-1)-项集通过Apriori连接生成矩阵加权科目候选i-项集。

科目频繁项集和负项集产生模块：该模块首先通过科目i-项集支持期望得到教务数据矩阵加权科目负i-项集，然后累加科目候选i_项集C_i 的项集权值，计算其支持度，若其支持度不小于最小支持度阈值，则得到矩阵加权科目频繁i_项集，加入科目频繁项集集合，否则，得到矩阵加权科目负i-项集，加入科目负项集集合。

科目正负关联规则产生模块：该模块生成科目频繁项集和负项集的真子集，计算科目关联规则前件和后件的相关性和置信度，根据其相关性的值以及最小置信度阈值，从矩阵加权科目频繁项集和负项集中挖掘矩阵加权科目强正负关联规则模式。

科目正负关联模式显示模块：该模块将矩阵加权科目正负关联规则模式显示给用户，供教务人员分析和使用。

所述的科目频繁项集和负项集产生模块包括以下2个模块：

矩阵加权科目频繁项集产生模块：该模块累加科目候选i_项集C_i 的项集权值，计算其支持度，将其支持度不小于最小支持度阈值的矩阵加权科目频繁i_项集加入科目频繁项集集合。

矩阵加权科目负项集生成模块：该模块首先通过科目i-项集支持期望得到教务数据矩阵加权科目负i-项集，同时计算候选i-项集的(i+1)-项集支持期望，然后将其支持度小于最小支持度阈值的矩阵加权科目负项集加入科目负项集集合。

所述的科目正负关联规则产生模块包括以下3个模块：

科目频繁项集和负项集的真子集生成集模：该模块主要生成科目频繁项集和负项集的真子集，为挖掘关联规则做准备。

矩阵加权科目强正关联规则模式生成模块：该模块计算来自科目频繁项集中的关联规则前项和后项的相关性和置信度，根据其相关性的值以及最小置信度阈值，从矩阵加权科目频繁项集中挖掘矩阵加权科目强正关联规则模式。

矩阵加权科目强负关联规则模式生成模块：该模块计算自科目负项集中的关联规则前项和后项的相关性和置信度，根据其相关性的值以及最小置信度阈值，从矩阵加权科目负项集中挖掘矩阵加权科目强负关联规则模式。

所述的挖掘***中的支持度阈值，置信度阈值，由用户输入。

与现有技术相比，本发明具有以下有益效果：

（1）本发明提出一种新的基于相关性的教务数据矩阵加权正负模式挖掘方法及其挖掘***。该发明方法的掘出的矩阵加权科目频繁项集和科目正负关联规则数量都比对比算法的少，说明其无效的科目频繁项集和关联规则减少了，同时，该发明方法比对比方法能挖掘出更多的负项集。

（2）本发明方法从科目频繁项集和科目负项集中挖掘科目正负关联规则效率得到了很好的提升，其挖掘时间比对比方法的低得多。

（3）以真实的高校课程考试成绩作为本发明实验数据测试集，将本发明与现有的无加权模式挖掘方法进行实验比较和分析，实验结果表明，与基于项集频度挖掘的对比方法不同，本发明方法是基于学生成绩权值的挖掘，能挖掘出客观反映教学效果的矩阵加权课程关联模式，通过模式分析后得到的教育、教学模式应该更客观、更合理，更接近现实情况。该发明运用于高校教务管理***，可以扩展教务管理功能，其科目关联模式可以有助于教师改善和调整教学方法，提高教学质量，同时，可以帮助学生提高学习效果。

附图说明

图1是本发明所述的基于相关性的教务数据矩阵加权正负模式挖掘方法的框图。

图2是本发明所述的基于相关性的教务数据矩阵加权正负模式挖掘方法的整体流程图。

图3是本发明所述的基于相关性的教务数据矩阵加权正负模式挖掘***的结构框图。

图4是本发明所述的科目频繁项集和负项集产生模块的结构框图。

图5是本发明所述的科目正负关联规则产生模块的结构框图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的教育数据模型和相关的概念介绍如下：

一、基本概念

以教育信息化中课程考试成绩数据为例，把每个科目当作项目，将每个科目的考试成绩当作项目权值，每个学生记录看作事务记录。设SD={s₁,s₂, … , s_n }是教育信息化学生数据库(SD: StudentDatabase)， s_i (1≦i≦n)表示SD中的第i个学生(student)记录，subject={c₁,c₂, … ,c_m }表示SD中学生所选修的科目 (subject)项集, c_j (1≦j≦m)表示SD中第j个科目项目，r[s_i ][c_j ] (1≦i≦n, 1≦j≦m))表示SD中第j门科目c_j 在学生记录s_i 中的考试成绩(result)权值，如果科目c_j 没有被学生选修，即c_j Ïs_i ，则c_j 在该学生记录s_i 的成绩权值r[s_i ][c_j ] =0。

对于学生数据库SD，设I₁ ={ c ₁ ,c₂, … ,c_m ₁ }(m₁<m)，I₂ ={ c ₁ ,c₂, … ,c_m ₂ }(m₂<m)，I₁subject，I₂ subject，I₁ I₂₌ ，参照传统的支持度和置信度概念，给出如下基本定义。

定义1 (教育信息化数据矩阵加权模式支持度 : matrix weighted education patterns support, mwepsup) 参照文献(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)的完全加权支持度定义，给出教育信息化数据矩阵加权项集I支持度mwepsup(I)的计算公式如式(1)所示。

(1)

其中，是项集I在学生数据库SD中的权值总和。k为项集I的项目个数，n是SD的事务记录总数。

教育信息化矩阵加权数据负关联模式的支持度计算如公式(2)至(5)所示：

(2)

(3)

(4)

(5)

定义2 (教育信息化数据矩阵加权模式置信度： matrix weighted education patterns confidence, mwepconf )：教育信息化数据矩阵加权模式置信度的计算如公式(6)到公式(9)：

(6)

(7)

(8)

(9)

定义3 (教育信息化数据矩阵加权强正负关联模式)：有趣的教育信息化数据矩阵加权强正负关联模式(I₁ →I₂ ，I₁ →﹁I₂ ，﹁I₁ →I₂ ，﹁I₁ →﹁I₂ )是指I₁ 和 I₂ 的支持度不小于最小支持度阈值ms ，I₁ →I₂ ，I₁ →﹁I₂ ，﹁I₁ →I₂ ，﹁I₁ →﹁I₂ 的支持度和置信度分别都不小于ms和最小置信度阈值mc。

定义 4 i-项集支持期望（IISE(C_i _-1, i)）矩阵加权科目(i-1)-项集的i-项集支持期望IISE(C_i _-1, i)是指包含科目项集C_i _-1的i项集频繁的权值估计值。根据IISE(C_i _-1, i)，可以预测包含C_i _-1的后续i _项集的频繁性。

IISE(C_i _-1, i)的计算公式为：

IISE(C_i _-1, i)=n×i×ms-sc(C_i _-1)×w_r (C_i _-1)

其中，sc(C_i _-1)为科目候选项集C_i _-1在学生数据库中的项集频度，w_r (C_i _-1)为在不属于C_i _-1项目集合的其他项目中权值最大的项目权值。

定义5 教育数据矩阵加权项集相关性（ ciCorr(I₁ ,I₂ )): 教育数据矩阵加权项集(I₁ ,I₂ )相关性（ciCorr(I₁ ,I₂ )）是用来衡量两个矩阵加权项集I₁ 和I₂ 的相关联情况，如正相关、负相关以及无相关等，其计算如式(10)所示。

(10)

下面通过具体实施例对本发明的技术方案做进一步的说明。

具体实施例中本发明采取的挖掘方法和***如图1-图5所示。

实例：表1是一个科目项目库实例，表2是学生选修科目的学生信息库实例，即有5个科目项目和5个学生信息记录以及各个科目项目的成绩权值，其中成绩权值已经进行规范化处理，使之在0到1之间，没有选修的课程成绩为0，满分的课程成绩为1。

采用本发明挖掘方法对该科目信息数据实例挖掘矩阵加权科目正负关联模式，其挖掘过程如下(ms=0. 50，mc=0.55)：

1. 挖掘矩阵加权科目频繁1_项集L ₁和负1-项集N ₁，如表1所示，其中n=5。

表3：

C ₁	w(C ₁)	mwepsup(C ₁)	sc(C ₁)	w_r (C ₁)	IISE(C ₁, 2)
						(i₁ )	2.83	0.566	4	0.95	=5×2×0.5-4×0.95=1.2
(i₂ )	3.35	0.67	4	0.95	=5×2×0.5-4×0.95=1.2
						(i₃ )	3.13	0.626	4	0.95	=5×2×0.5-4×0.95=1.2
(i₄ )	2.3	0.46	4	0.95	=5×2×0.5-4×0.95=1.2
						(i₅ )	3.48	0.695	4	0.95	=5×2×0.5-4×0.95=1.2

由表3可知，L₁ ={(i₁ ), (i₂ ), (i₃ ), (i₅ )}，N₁ ={(i₄ ) }

科目频繁项集集合ciPIS={(i₁ ), (i₂ ), (i₃ ), (i₅ )}。科目负项集集合ciNIS={(i₄ ) }

2. 挖掘矩阵加权课程频繁k_项集L_k 和负k-项集N_k ，所述的k≥2。

k=2:

(1) 由其项集权值w(C ₁)不小于其2-项集支持期望IISE(C ₁, 2)的科目候选1_项集C ₁进行Apriori连接，生成课程候选2_项集C ₂，如表4所示。

表4：

C ₂	w(C₂ )	mwepsup(C₂ )	sc(C ₂)	w_r (C ₂)	IISE(C ₂, 3)
						(i₁ , i₂ )	4.93	0.493	3	0.95	=5×3×0.5-3×0.95=4.65
(i₁ , i₃ )	4.29	0.429	3	0.95	=5×3×0.5-3×0.95=4.65
						(i₁ , i₄ )	3.61	0.361	3	0.95	=5×3×0.5-3×0.95=4.65
(i₁ , i₅ )	4.64	0.464	3	0.95	=5×3×0.5-3×0.95=4.65
						(i₂ , i₃ )	5.27	0.527	3	0.86	=5×3×0.5-3×0.86=4.92
(i₂ , i₄ )	4.39	0.439	3	0.95	=5×3×0.5-3×0.95=4.65
						(i₂ , i₅ )	5.0	0.5	3	0.95	=5×3×0.5-3×0.95=4.65
(i₃ , i₄ )	4.09	0.409	3	0.95	=5×3×0.5-3×0.95=4.65
						(i₃ , i₅ )	4.84	0.484	3	0.95	=5×3×0.5-3×0.95=4.65
(i₄ , i₅ )	4.21	0.421	3	0.95	=5×3×0.5-3×0.95=4.65

由表4可得：

﹡矩阵加权科目频繁2-项集L₂ 有：(i₂ , i₃ )，(i₂ , i₅ )，即L₂ ={ (i₂ , i₃ ) , (i₂ , i₅ ) }， ciPIS={(i₁ ), (i₂ ), (i₃ ), (i₅ ), (i₂ , i₃ ) , (i₂ , i₅ )}

﹡矩阵加权课程负2-项集N₂ 有：(i₁ , i₂ )，(i₁ , i₃ )，(i₁ , i₄ )，(i₁ , i₅ )，(i₂ , i₄ )，(i₃ , i₄ )，(i₃ , i₅ )，(i₄ , i₅ )，即N₂ ={(i₁ , i₂ )，(i₁ , i₃ )，(i₁ , i₄ )，(i₁ , i₅ )，(i₂ , i₄ )，(i₃ , i₄ )，(i₃ , i₅ )，(i₄ , i₅ )}，ciNIS={(i₄ ) , (i₁ , i₂ )，(i₁ , i₃ )，(i₁ , i₄ )，(i₁ , i₅ )，(i₂ , i₄ )，(i₃ , i₄ )，(i₃ , i₅ )，(i₄ , i₅ )}。

k=3:

﹡通过科目3-项集支持期望IISE(C ₂, 3)得到教务数据矩阵加权科目负3-项集N₃ 。从表4可得，其w(C₂ )< IISE(C ₂, 3)的矩阵加权科目候选2-项集有：(i₁ , i₃ ), (i₁ , i₄ ), (i₁ , i₅ ), (i₂ , i₄ ), (i₃ , i₄ ), (i₄ , i₅ )，这些项集的后续3-项集都是负项集，N₃ ={(i₁ , i₃ , i₄ ), (i₁ , i₃ , i₅ ), (i₂ , i₄ , i₅ ), (i₃ , i₄ , i₅ ) }，ciNIS={(i₄ ) , (i₁ , i₂ ) , (i₁ , i₃ ) , (i₁ , i₄ ) , (i₁ , i₅ ) , (i₂ , i₄ ) , (i₃ , i₄ ) , (i₃ , i₅ ) , (i₄ , i₅ ), (i₁ , i₃ , i₄ ), (i₁ , i₃ , i₅ ), (i₂ , i₄ , i₅ ), (i₃ , i₄ , i₅ )}

﹡由其项集权值w(C ₂)不小于其3-项集支持期望IISE(C ₂, 3)的课程候选2-项集进行Apriori连接生成课程候选3_项集C₃ ，由表4可得，C₃ ={ (i₂ , i₃ , i₅ ) }，如表5所示，

表5：

C ₃	w(C₃ )	mwepsup(C₃ )	sc(C ₃)	w_r (C ₃)	IISE(C ₃, 4)
						(i₂ , i₃ , i₅ )	5.15	0.343	2	0.81	=5×4×0.5-2×0.81=8.38

由表5可得：

﹡矩阵加权科目频繁3-项集L₃ 为空集。

﹡矩阵加权科目负3-项集N₃ 有： (i₂ , i₃ , i₅ )，即，N₃ ={ (i₂ , i₃ , i₅ )}，ciNIS={(i₄ ) , (i₁ , i₂ ) , (i₁ , i₃ ) , (i₁ , i₄ ) , (i₁ , i₅ ) , (i₂ , i₄ ) , (i₃ , i₄ ) , (i₃ , i₅ ) , (i₄ , i₅ ), (i₁ , i₃ , i₄ ), (i₁ , i₃ , i₅ ), (i₂ , i₄ , i₅ ), (i₃ , i₄ , i₅ ), (i₂ , i₃ , i₅ )}

k=4:

﹡由表5可得，其w(C₃ )<IISE(C ₃, 4)的矩阵加权科目候选3-项集有：(i₂ , i₃ , i₅ )，这些项集没有后续4-项集，N₄ 为空集。

﹡C₄ 为空集，挖掘矩阵加权科目频繁k_项集L_k 和负k-项集N_k 结束，转入如下3步骤。

﹡最终挖掘项集结果为：ciPIS={(i₁ ), (i₂ ), (i₃ ), (i₅ ), (i₂ , i₃ ) , (i₂ , i₅ )}，ciNIS={(i₄ ) , (i₁ , i₂ ) , (i₁ , i₃ ) , (i₁ , i₄ ) , (i₁ , i₅ ) , (i₂ , i₄ ) , (i₃ , i₄ ) , (i₃ , i₅ ) , (i₄ , i₅ ), (i₁ , i₃ , i₄ ), (i₁ , i₃ , i₅ ), (i₂ , i₄ , i₅ ), (i₃ , i₄ , i₅ ), (i₂ , i₃ , i₅ )}。

3. 从科目频繁项集集合ciPIS中挖掘矩阵加权科目正负关联规则模式。

以ciPIS中科目频繁项集(i₂ , i₅ )为例，给出矩阵加权科目正负关联规则模式挖掘过程如下：

科目频繁项集(i₂ , i₅ )的真子集集合为{( i₂ ), (i₅ ) }，设I₁ =( i₂ )，I₂ =(i₅ )。

mwepsup(I₁ )= 0.67≥ms，mwepsup(I₂ )= 0.695≥ms，mwepsup(I₁ ,I₂ )= 0.5

由于ciCorr(I₁ ,I₂ )>1，所以，

，

mwepsup(﹁I ₁,﹁I ₂)=1–0.67 –0.695＋0.5=0.135

故能挖掘出矩阵加权科目强关联规则I₁ →I₂ ，即( i₂ )→(i₅ )，或者，

综上所述，对于科目频繁项集(i₂ , i₅ )，可以挖掘出矩阵加权科目正关联规则模式 ( i₂ )→(i₅ )(ms=0. 50，mc=0.55)。

4. 从科目负项集集合ciNIS中挖掘矩阵加权科目负关联规则模式。

以ciNIS中科目负项集(i₁ , i₃ , i₄ )和(i₂ , i₃ , i₅ )为例，给出矩阵加权课程强负关联规则模式挖掘过程如下：

﹡负项集(i₁ , i₃ , i₄ )的真子集集合为{( i₁ ), ( i₃ ), (i₄ ), (i₁ ,i₃ ), (i₁ ,i₄ ), ( i₃ , i₄ ) }。

（1）设I₁ =( i₁ )，I₂ = (i₃ , i₄ )，

mwepsup(I₁ )= 0.566>ms，mwepsup(I₂ )= 0.409<ms，所以挖掘不出课程关联规则。

（2）设I₁ =( i₃ )，I₂ = (i₁ ,i₄ )，

mwepsup(I₁ )= 0.626>ms，mwepsup(I₂ )= 0.361<ms，所以挖掘不出课程关联规则。

（3）设I₁ =( i₄ )，I₂ = (i₁ ,i₃ )，

mwepsup(I₁ )= 0.46<ms，mwepsup(I₂ )= 0.429<ms，所以挖掘不出课程关联规则。

﹡负项集(i₂ , i₃ , i₅ )的真子集集合为{( i₂ ), ( i₃ ), (i₅ ), (i₂ ,i₃ ), (i₂ ,i₅ ), ( i₃ , i₅ ) }。

（1）设I₁ =( i₂ )，I₂ = (i₃ , i₅ )，

mwepsup(I₁ )= 0.67>ms，mwepsup(I₂ )= 0.484<ms，所以挖掘不出课程关联规则。

（2）设I₁ =( i₃ )，I₂ = (i₂ ,i₅ )，

mwepsup(I₁ )= 0.626>ms，mwepsup(I₂ )= 0.5=ms，mwepsup(I₁ ,I₂ )= 0.343，所以，

由于ciCorr(I₁ ,I₂ )>1，所以，

，

mwepsup(﹁I ₁,﹁I ₂)=1–0.626 –0.5＋0.343=0.217

故能挖掘出矩阵加权科目强关联规则﹁I₁ →﹁I₂ ，即﹁(i₃ )→﹁(i₂ ,i₅ )。

（3）设I₁ =( i₅ )，I₂ = (i₂ ,i₃ )，

mwepsup(I₁ )= 0.695>ms，mwepsup(I₂ )= 0.527>ms，mwepsup(I₁ ,I₂ )= 0.343，所以，

由于ciCorr(I₁ ,I₂ )<1，所以，

故能挖掘出矩阵加权科目强关联规则﹁I₁ →I₂ ，即﹁(i₅ )→(i₂ ,i₃ )。

综上所述，对于课程负项集(i₂ , i₃ , i₅ )，可以挖掘出矩阵加权科目强负关联规则﹁(i₅ )→(i₂ ,i₃ ) (ms=0. 50，mc=0.55)。

下面通过实验对本发明的有益效果做进一步说明。

为了验证本发明方法的有效性，将高校教务真实的课程考试成绩数据为实验数据测试集。选择历届毕业生在校学习的课程考试成绩数据作为本文实验数据测试集，共1500位学生数据，121门科目。实验数据作如下的预处理：①为了使科目项目权值在0到1之间，将科目成绩都除以100；②对科目项目名称统一编号，如英语语法用I1表示，英语语音用I2表示，等等。

选择经典无加权正负关联规则挖掘方法(WU Xin-dong, ZHANG Cheng-qi and ZHANG Shi-chao. Efficient mining of both positive and negative association rules[J]. ACM Transactions on Information Systems, 2004,22(3): 381–405.)(记为PNAR_Mining方法)为实验对比方法，编写实验源程序，分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。

实验 1 ：频繁项集和负项集模式的数量比较

支持度阈值变化的情况下两种方法挖掘出的教育信息化数据科目频繁项集和负项集模式数量比较如表6所示。

表6在不同支持度阈值下频繁项集和负项集数量比较

(mc=0.6，项目总数=50)

实验 2 ：正负关联规则模式数量比较

（1）支持度阈值变化情况下两种方法挖掘出的教育信息化数据科目正负关联规则模式(I₁ →I₂ 和﹁I₁ →﹁I₂ )数量比较如表7所示。

表7在不同支持度阈值下其正负关联规则数量比较

(mc =0.6，项目总数=50)

（2）置信度阈值变化情况下两种方法挖掘出的教育信息化数据科目正负关联规则模式(I₁ →I₂ 和﹁I₁ →﹁I₂ )数量比较如表8所示。

表8 在不同置信度阈值下正负关联规则数量比较

(ms=0.2，项目总数=50)

实验 3 ：挖掘时间效率比较

（1）支持度阈值变化情况下科目项集（即频繁项集和负项集）模式挖掘时间比较。在测试集中，项目总数为10，不同支持度阈值下2种方法挖掘科目项集的时间比较如表9所示。

表9 在不同支持度阈值下项集挖掘时间(秒)比较

(mc =0.6，项目总数=10)

ms	PNAR_Mining	本发明
			0.1	1465.928	1411.204
0.2	1464.239	1394.125
			0.3	90.630	1389.953
0.4	89.615	1398.876
			0.5	90.474	1390.922
合计	3200.886	6985.08

（2）置信度阈值变化情况下正负关联规则模式挖掘时间比较。在测试集中，支持度为0.2，项目总数为50，不同置信度阈值下2种方法的正负关联规则挖掘时间比较如表10所示。

表10 在不同置信度阈值下正负关联规则挖掘时间(秒)比较

(ms =0.2，项目总数=50)

mc	PNAR_Mining	本发明
			0.2	6120.49	572.489
0.3	1809.196	569.923
			0.4	6030.356	559.564
0.5	6055.202	543.316
			0.6	1792.426	521.232
0.7	1919.359	497.841
			0.8	3048.415	475.683
0.9	2968.621	470.324
			合计	29744.065	4210.372

综上所述，本发明方法是有效的，与现有无加权正负关联模式挖掘方法比较，具有以下特点：

（1）本发明方法挖掘出的矩阵加权科目频繁项集和正负关联规则数量都比对比方法的少，说明其无效的科目频繁项集和科目关联规则减少了，同时，本发明方法比对比方法能挖掘出更多的负项集；

（2）本发明方法的挖掘时间比对比方法的低得多。

（3）对比方法会挖掘出较多无效的、不合理的关联模式，特别是能挖掘出形如I₁ →﹁I₂ 和﹁I₁ →I₂ 的负关联模式，这类负模式在科目关联模式分析中应该是不合理的无效模式，因为这类科目关联负模式(I₁ →﹁I₂ 和﹁I₁ →I₂ )在实际科目关联分析中没有意义。在整个实验中，没有发现本发明方法能挖掘出这类负模式。

Claims

1.一种基于相关性的教务数据矩阵加权正负模式挖掘方法，其特征在于，包括如下步骤：

（1）教务数据预处理：对于待处理的教务数据，提取学生课程信息及其成绩，将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，构建学生记录数据库和科目项目库；

（2）挖掘教务数据矩阵加权科目频繁1-项集和负1-项集：从科目项目库中提取科目候选1-项集C ₁，累加C ₁的项集权值，计算其支持度mwepsup(C ₁)，与最小支持度阈值ms比较，从C ₁中挖掘矩阵加权科目频繁1-项集L ₁和负1-项集N ₁，L ₁加入科目频繁项集集合ciPIS，N ₁加入科目负项集集合ciNIS;

（3）挖掘有趣的矩阵加权科目频繁i-项集L_i 和负i-项集N_i (所述的i≥2)，包括以下(3.1) 步至(3.6) 步：

(3.1) 通过科目i-项集支持期望得到教务数据矩阵加权科目负i-项集N_i ；

(3.2)由其项集权值w(C_i _-1)不小于其i-项集支持期望IISE(C_i _-1, i)的科目候选(i-1)_项集C_i _-1进行Apriori连接生成科目候选i-项集C_i ;

(3.3) 若科目候选i_项集C_i 不为空集，则转入如下(3.3)步，否则，退出（3）步，转入（4）步；

(3.4) 计算科目候选i_项集C_i 的项集权值及其矩阵加权支持度；

(3.5) 项集支持度与最小支持度阈值比较，得到矩阵加权科目频繁i-项集和负i-项集，频繁i-项集加入科目频繁项集集合，负i-项集加入科目负项集集合；

(3.6) 计算候选i-项集的(i+1)-项集支持期望；

(3.7) 变量i加1后，继续循环(3.1)步至(3.7)步，直到C_i 为空集即退出（3）步，转入（4）步；

（4）从科目频繁项集集合中挖掘矩阵加权科目强正负关联规则模式，包括以下(4.1) 步至(4.6) 步：

(4.1) 对于科目频繁项集集合中的矩阵加权科目频繁项集L_i ，将L_i 的所有真子集找出；

(4.2) 对于L_i 的真子集集合中的取出两个真子集I₁ 和I₂ ，若I₁ 和I₂ 的支持度不小于最小支持度阈值ms时，即mwepsup(I₁ )≥ms，mwepsup(I₂ )≥ms，并且I₁ I₂= ， I₁ I₂=L_i ，则计算矩阵加权科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )；

(4.3) 若科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )>1，并且I₁ →I₂ 和﹁I₁ →﹁I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强关联规则I₁ →I₂ 和强负关联规则﹁I₁ →﹁I₂ ；

(4.4) 若科目频繁项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )<1，并且I₁ →﹁I₂ 和﹁I₁ →I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强负关联规则I₁ →﹁I₂ 和﹁I₁ →I₂ ；

（5 ）从矩阵加权科目负项集集合中挖掘有效的矩阵加权科目负关联规则模式，包括以下(5.1) 步至(5.6) 步：

(5.1) 对于科目负项集集合中的科目负项集N_i ，求出N_i 的所有真子集；

(5.2) 对于N_i 的真子集集合中任意两个真子集I₁ 和I₂ ，若I₁ 和I₂ 的支持度大于或等于最小支持度阈值ms时，即mwepsup(I₁ )≥ms，mwepsup(I₂ )≥ms，并且I₁ I₂= ， I₁ I₂=N_i ，则计算矩阵加权科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )；

(5.3) 若科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )>1，并且﹁I₁ →﹁I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强负关联规则﹁I₁ →﹁I₂ ；

(5.4) 若科目负项集(I₁ ,I₂ )的相关性ciCorr(I₁ ,I₂ )<1，并且I₁ →﹁I₂ 和﹁I₁ →I₂ 的置信度不小于最小置信度阈值mc，则挖掘出矩阵加权科目强负关联规则I₁ →﹁I₂ 和﹁I₁ →I₂ ；

至此，基于相关性的教务数据矩阵加权科目正负模式挖掘结束；

所述的ms为最小支持度阈值，mc为最小置信度阈值。

2.一种适用于权利要求1所述的基于相关性的教务数据矩阵加权正负模式挖掘***，其特征在于，包括以下5个模块：

教务数据预处理模块：该模块对教务数据进行预处理，提取学生科目信息及其成绩，将学生的科目成绩权值规范化为0至1之间后构建学生记录数据库和科目项目库；

科目候选项集生成模块：该模块从学生记录数据库和科目项目库挖掘矩阵加权科目候选1-项集，从i-项集(i≥2)起，科目候选(i-1)-项集通过Apriori连接生成矩阵加权科目候选i-项集；

科目频繁项集和负项集产生模块：该模块首先通过科目i-项集支持期望得到教务数据矩阵加权科目负i-项集，然后累加科目候选i_项集C_i 的项集权值，计算其支持度，若其支持度不小于最小支持度阈值，则得到矩阵加权科目频繁i_项集，加入科目频繁项集集合，否则，得到矩阵加权科目负i-项集，加入科目负项集集合；

科目正负关联规则产生模块：该模块生成科目频繁项集和负项集的真子集，计算科目关联规则前件和后件的相关性和置信度，根据其相关性的值以及最小置信度阈值，从矩阵加权科目频繁项集和负项集中挖掘矩阵加权科目强正负关联规则模式；

3.根据权利要求2所述的挖掘***，其特征在于，所述的科目频繁项集和负项集产生模块包括以下2个模块：

矩阵加权科目频繁项集产生模块：该模块累加科目候选i_项集C_i 的项集权值，计算其支持度，将其支持度不小于最小支持度阈值的矩阵加权科目频繁i_项集加入科目频繁项集集合；

4.根据权利要求2所述的挖掘***，其特征在于，所述的科目正负关联规则产生模块包括以下3个模块：

科目频繁项集和负项集的真子集生成集模：该模块主要生成科目频繁项集和负项集的真子集，为挖掘关联规则做准备；

矩阵加权科目强正关联规则模式生成模块：该模块计算来自科目频繁项集中的关联规则前项和后项的相关性和置信度，根据其相关性的值以及最小置信度阈值，从矩阵加权科目频繁项集中挖掘矩阵加权科目强正关联规则模式；

5.根据权利要求2-4中任一项所述的挖掘***，其特征在于，所述的挖掘***中的支持度阈值，置信度阈值，由用户输入。