CN104239536A

CN104239536A - 基于互信息的完全加权课程正负关联模式挖掘方法及***

Info

Publication number: CN104239536A
Application number: CN201410486031.2A
Authority: CN
Inventors: 黄名选; 兰慧红
Original assignee: GUANGXI COLLEGE OF EDUCATION
Current assignee: Guangxi University of Finance and Economics
Priority date: 2014-09-22
Filing date: 2014-09-22
Publication date: 2014-12-24

Abstract

一种基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***，利用教育数据预处理模块进行预处理，构建学生信息库和课程项目库；利用完全加权课程项集生成模块产生课程完全加权候选k-项集(k≥1)，根据候选项集的k-权值阈值或支持度产生课程完全加权频繁项集和负项集；利用完全加权课程正负关联规则生成模块根据其项集互信息和置信度从频繁项集和负项集中挖掘课程完全加权课程强正负关联规则模式；完全加权课程关联规则模式显示模块将挖掘出的课程正负关联模式显示给用户。本发明方法挖掘时间效率比对比方法的高，其挖掘时间明显减少，能挖掘出更合理的课程正负关联模式，其模式可为教学改革和教务管理、教育决策提供科学依据。

Description

基于互信息的完全加权课程正负关联模式挖掘方法及***

技术领域

本发明属于教育数据挖掘领域，具体是一种基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***，适用于教育数据课程正负关联模式发现，运用于高校教务管理***，可以扩展教务管理功能，其关联模式可以有助于教师改善和调整教学方法，提高教学质量，同时，可以帮助学生提高学习效果。

背景技术

当前，常见的教育数据课程关联规则挖掘方法有无加权关联模式挖掘方法、加权关联规则挖掘方法和完全加权关联规则挖掘方法。教育数据无加权关联规则挖掘方法是传统的关联规则挖掘方法在教育信息化领域的具体应用。该方法的特点是各个项目按平等一致的方式处理，只考虑项目频度，其缺陷是：在挖掘时只考虑课程的选修关联，没有考虑课程之间具有不同的重要性，更没有考虑学生选修课程后的教学效果（即课程考试成绩）。典型的教育数据无加权关联规则挖掘方法是Apriori方法(R.Agrawal,T.Imielinski,A.Swami. Mining association rules between sets of items in large database[C]. In Proceeding of 1993 ACM SIGMOD International Conference on Management of Data, Washington D.C.,1993, (5): 207-216.)及其改进方法(李忠哗, 王凤利, 何丕廉.关联规则挖掘在课程相关分析中的应用[J]. 河北农业大学学报,2010,33(3):116-119.董辉. 基于兴趣度的高职课程关联规则挖掘[J].吉首大学学报(自然科学版),2012,33(3):41-46.)。针对传统关联规则挖掘的缺陷，教育数据加权关联规则挖掘方法不仅考虑课程的选修关联，还给每门课程赋予一定的权值，以体现课程之间具有不同的重要性。典型的教育数据加权关联规则挖掘方法有Cai等提出的加权关联规则挖掘方法( C. H. Cai, A. da, W. C. Fu,et al. Mining Association Rules with Weighted Items [C]//Proceedings of IEEE International database Engineering and Application Symposiums, 1998: 68-77.)及其改进方法(刘建炜,张颖.基于加权关联规则算法的学生成绩数据挖掘研究[J]. 福建教育学院学报,2012(3):123-125.)。教育数据加权关联规则挖掘方法的缺陷是：只考虑课程之间的重要性，没有考虑课程考试成绩的影响。针对上述缺陷，教育数据完全加权关联规则挖掘方法引入项目权值，考虑了考虑学生所选修课程的教学效果，即考虑课程考试成绩，其典型的完全加权关联规则挖掘方法是谭义红等提出的向量空间模型中完全加权关联规则的挖掘方法(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)以及面向查询扩展的矩阵加权关联规则挖掘方法MWARM(黄名选,严小卫,张师超.基于矩阵加权关联规则挖掘的伪相关反馈查询扩展[J].软件学报,2009, 20(7):1854-1865.)。当前，完全加权关联规则挖掘方法在教育数据分析中的典型应用是余如等(余如, 黄丽霞, 黄名选. 教育信息化中课程考试成绩数据关联模式的发现.计算机与现代化,2014(2):10-14. )提出的课程成绩数据关联模式发现方法，获得了显著的效果。现有的教育数据完全加权关联规则挖掘方法的缺陷是：现有的方法只能挖掘完全加权正关联规则模式，没有解决完全加权负关联模式挖掘问题，另外，现有方法其所挖掘的关联模式数量仍然很庞大，增加用户选择所需模式的难度，无趣的、虚假的和无效的关联模式还很多，很难将其技术上升到应用层面。

针对上述问题，本发明提一种新的一种基于互信息的完全加权课程正负关联模式挖掘方法及***。该发明方法克服了现有完全加权模式挖掘方法的不足，不仅能挖掘完全加权课程正负关联规则模式，还能够有效地减少无趣的和无效的课程关联模式出现，其课程候选项集和挖掘时间明显减少，提高了挖掘效率，其课程关联规则模式更接近实际，可为教学改革和教育管理、决策提供科学的依据，在教育信息化教务数据分析与挖掘领域具有重要的应用价值和广阔的应用前景。

发明内容

本发明的目的在于，针对教育数据课程正负关联模式挖掘进行深入探索，提出一种基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***，应用于教育数据挖掘领域，为教育数据课程正负关联模式挖掘与分析提供新的挖掘方法，通过课程正负关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势，提高任课教师提高教学质量和学生的学习效果。

本发明所采取的技术方案是：一种基于互信息的完全加权课程正负关联模式挖掘方法，包括如下步骤：

（1）教育数据预处理：对于待处理的教育数据，提取学生课程信息及其成绩，将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，构建学生信息库和课程项目库。

（2）挖掘课程完全加权频繁1-项集L₁和负1-项集：从课程项目库中提取课程候选1-项集C₁，累加C₁的项集权值，计算其支持度cisup(C₁)，与最小支持度阈值ms比较，从C₁中挖掘课程完全加权频繁1-项集L₁和负1-项集N₁，L₁加入课程频繁项集集合ciPIS，N₁加入课程负项集集合ciNIS。候选1-项集C₁支持度cisup(C₁)公式如下：

其中，n为学生信息库的记录总数。

（3）挖掘有趣的完全加权课程频繁i-项集L_i和负i-项集N_i(所述的i≥2)，包括以下(3.1) 步至(3.6) 步：

(3.1)计算完全加权课程(i-1)-项集的i-权值阈值KIWT(C_i-1, i)，并与其课程(i-1)-项集C_i-1的项集权值w(C_i-1)比较，可得到课程负i-项集，并加入课程负项集集合ciNIS中，即若课程(i-1)-项集的项集权值小于其i-权值阈值，即w(C_i-1)<KIWT(C_i-1, i)，则该课程(i-1)-项集的后续i-项集C_i为完全加权课程负项集。课程(i-1)-项集的i-权值阈值KIWT(C_i-1, i)的计算公式为：

KIWT(C_i-1, i)=n×i×ms-sc(C_i-1)×w_r(C_i-1)

其中，sc(C_i-1)为课程候选项集C_i-1在学生信息库中的项集频度，w_r(C_i-1)为在不属于C_i-1项目集合的其他项目中权值最大的项目权值。

(3.2)将上述(3.1)步中其w(C_i-1)≥KIWT(C_i-1, i)的课程候选(i-1)-项集C_i-1进行Apriori连接生成课程候选i_项集C_i。

(3.3)若课程候选i_项集C_i不为空集，则转入如下(3.4)步，否则，退出（3）步，转入（4）步。

(3.4)累加课程候选i_项集C_i的项集权值w(C_i)。

(3.5)对于课程候选i_项集C_i中，计算除了（3.1）步获得的负项集以外的项集支持度cisup(C_i)，若其支持度大于或等于最小支持度阈值ms，即cisup(C_i)≥ms，则得到完全加权课程频繁i_项集L_i，并加入课程频繁项集集合ciPIS中，否则，得到完全加权课程负i-项集N_i，并加入课程负项集集合ciNIS中。cisup(C_i)计算公式如下：

(3.6) 变量i加1后，继续循环(3.1)步至(3.6)步，直到C_i为空集即退出（3）步，转入（4）步。

（4）从完全加权课程频繁项集集合ciPIS中挖掘有效的完全加权课程正负关联规则模式，包括以下(4.1) 步至(4.6) 步：

(4.1)从课程频繁项集集合ciPIS中取出完全加权课程频繁项集L_i，求出L_i的所有真子集.

(4.2)从L_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的支持度大于或等于最小支持度阈值ms时，即cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁ I₂=， I₁ I₂=L_i，计算完全加权课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)。cisup(I₁)、cisup(I₂)和完全加权课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)的计算公式如下：

，，其中，i₁和i₂为I₁和I₂的项目个数，即项集维数。

(4.3) 若课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)>0，并且I₁→I₂和﹁I₁→﹁I₂的置信度大于或者等于最小置信度阈值mc，即，ciconf(I₁→I₂)≥mc，ciconf(﹁I₁→﹁I₂)≥mc，则挖掘出完全加权课程强关联规则I₁→I₂和强负关联规则﹁I₁→﹁I₂。I₁→I₂和﹁I₁→﹁I₂的置信度ciconf(I₁→I₂)和ciconf(﹁I₁→﹁I₂)的计算公式如下：

(4.4) 若课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)<0，并且I₁→﹁I₂和﹁I₁→I₂的置信度大于或者等于最小置信度阈值mc，即，ciconf(I₁→﹁I₂)≥mc，ciconf(﹁I₁→I₂)≥mc，则挖掘出完全加权课程强负关联规则I₁→﹁I₂和﹁I₁→I₂。I₁→﹁I₂和﹁I₁→I₂的置信度ciconf(I₁→﹁I₂)和ciconf(﹁I₁→I₂)的计算公式如下：

(4.5) 继续(4.2)步骤，当课程频繁项集L_i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(4.6)步；

(4.6) 继续(4.1)步骤，当课程频繁项集集合中每个频繁项集L_i都被取出一次，而且仅能取出一次，则（4）步运行结束，转入（5）步；

（5）从完全加权课程负项集集合ciNIS中挖掘有效的完全加权课程负关联规则模式，包括以下(5.1) 步至(5.6) 步：

(5.1)从课程负项集集合中取出课程负项集N_i，找出N_i的所有真子集。

(5.2)从N_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的支持度大于或等于最小支持度阈值ms时，即cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁ I₂=， I₁ I₂=N_i，计算完全加权课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)。cisup(I₁)、cisup(I₂)和完全加权课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)的计算公式同(4.2)的。

(5.3) 若课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)>0，并且﹁I₁→﹁I₂的置信度大于或者等于最小置信度阈值mc，即，ciconf(﹁I₁→﹁I₂)≥mc，则挖掘出完全加权课程强负关联规则﹁I₁→﹁I₂。ciconf(﹁I₁→﹁I₂)的计算公式同(4.3)的。

(5.4) 若课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)<0，并且I₁→﹁I₂和﹁I₁→I₂的置信度大于或者等于最小置信度阈值mc，即，ciconf(I₁→﹁I₂)≥mc，ciconf(﹁I₁→I₂)≥mc，则挖掘出完全加权课程强负关联规则I₁→﹁I₂和﹁I₁→I₂。ciconf(I₁→﹁I₂)和ciconf(﹁I₁→I₂)的计算公式同(4.4)的。

(5.5) 继续(5.2)步骤，当课程负项集N_i的真子集集合中每个真子集都被取出一次，而且仅能取出一次，则转入步骤(5.6)步；

(5.6) 继续(5.1)步骤，当课程频繁项集集合中每个负项集N_i都被取出一次，而且仅能取出一次，则（5）步运行结束；

至此，基于互信息的完全加权课程正负关联模式挖掘结束。所述的ms为最小支持度阈值，mc为最小置信度阈值。

一种适用于上述基于互信息的完全加权课程正负关联模式挖掘方法的挖掘***，其特征在于，包括以下4个模块：

教育数据预处理模块：该模块提取学生课程信息及其成绩，将课程成绩权值规范化为0至1之间，将待处理的教育数据进行预处理后构建学生信息库和课程项目库。

完全加权课程项集生成模块：该模块从学生信息库和课程信息库挖掘完全加权课程候选1-项集，从i-项集(i≥2)起，计算完全加权课程(i-1)-项集的i-权值阈值，并与其课程(i-1)-项集的项集权值比较，可得到课程负i-项集，然后，课程候选(i-1)-项集通过Apriori连接生成完全加权课程候选i-项集，累加课程候选i_项集C_i的项集权值，计算其支持度，若其支持度大于或等于最小支持度阈值，则得到完全加权课程频繁i_项集，否则，得到完全加权课程负i-项集，直到课程候选i_项集C_i不为空集即结束项集挖掘。

完全加权课程正负关联规则生成模块：该模块生成课程频繁项集和负项集的真子集，计算课程关联规则前件和后件的互信息和置信度，根据其互信息的值以及最小置信度阈值，从完全加权课程频繁项集和负项集中挖掘完全加权课程强正负关联规则模式。

完全加权课程关联规则模式显示模块：该模块将完全加权课程正负关联规则模式显示给用户，供教育工作者或者教务人员分析和使用。

所述的完全加权课程项集生成模块包括以下3个模块：

完全加权课程候选项集生成模块：该模块从课程项目库和学生信息库挖掘完全加权课程候选1-项集，从i-项集(i≥2)起，课程候选(i-1)-项集通过Apriori连接生成课程候选i-项集。

完全加权课程频繁项集生成模块：该模块计算候选i-项集支持度，若其支持度大于或者等于支持度阈值，则就得到完全加权课程频繁项集。

完全加权课程负项集生成模块：该模块计算完全加权课程(i-1)-项集的i-权值阈值，与其课程(i-1)-项集的项集权值比较，可得到完全加权课程负i-项集，对余下的课程候选i-项集，计算其支持度，若其支持度小于最小支持度阈值，则就得到完全加权课程负项集。

所述的完全加权课程正负关联规则生成模块包括以下2个模块：

来自课程频繁项集的完全加权课程正负关联规则生成模块：该模块生成课程频繁项集的真子集，计算课程关联规则前项和后项的互信息和置信度，根据其互信息的值以及最小置信度阈值，从完全加权课程频繁项集中挖掘完全加权课程强正负关联规则模式。

来自课程负项集的完全加权课程负关联规则生成模块：该模块生成课程负项集的真子集，计算课程关联规则前项和后项的互信息和置信度，根据其互信息的值以及最小置信度阈值，从完全加权课程负项集中挖掘完全加权课程强正负关联规则模式。

所述的挖掘***中的支持度阈值，置信度阈值，由用户输入。

与现有技术相比，本发明具有以下有益效果：

（1）本发明提出一种新的基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***。该发明方法的正负关联规则模式挖掘时间效率比对比算法的高，所挖掘出的完全加权课程频繁项集和课程正关联规则模式I₁→I₂数量比对比方法挖掘的无加权模式数量少，而挖掘出的完全加权课程负项集和课程负关联模式﹁I₁→﹁I₂数量比对比方法挖掘的无加权模式数量多。

（2）以真实的高校课程考试成绩作为本发明实验数据测试集，将本发明与现有的无加权模式挖掘方法进行实验比较和分析，实验结果表明，与基于项集频度挖掘的对比方法不同，本发明方法是基于学生成绩权值的挖掘，能挖掘出客观反映教学效果的矩阵加权课程关联模式，通过模式分析后得到的教育、教学模式应该更客观、更合理，更接近现实情况。

（3）该发明在教育信息化教育数据分析与挖掘领域有较高的应用价值和广阔的应用前景，运用于高校教务管理***，可以扩展教务管理功能，其关联模式可以有助于教师改善和调整方法，提高教学质量，可为教学改革和教育管理、决策提供科学的依据。同时，可以帮助学生提高学习效果。

附图说明

图1是本发明所述的基于互信息的完全加权课程正负关联模式挖掘方法的整体流程图。

图2是本发明所述的基于互信息的完全加权课程正负关联模式挖掘***的结构框图。

图3是本发明所述的完全加权课程项集生成模块的结构框图。

图4是本发明所述的完全加权课程正负关联规则生成模块的结构框图。

具体实施方式

为了更好地说明本发明的技术方案，下面将本发明涉及的教育数据模型和相关的概念介绍如下：

一、基本概念

设教育数据学生信息数据库SD={r₁,r₂,…, r_n}，其中学生信息记录数为n，I={i₁,i₂,…,i_m}表示SD中所有课程项目集合，课程项目数为m，i_j(1≦j≦m)表示SD中第j个课程项目，在学生信息记录r_i中的课程成绩权值为w[r_i][i_j]。设I₁, I₂是I的子项集，I₁ I₂=I且，I₁ I₂=，给出如下基本定义。

定义1完全加权课程项集支持度(Course itemset support, cisup)：完全加权课程项集支持度cisup(I)的计算公式(谭义红,林亚平.向量空间模型中完全加权关联规则的挖掘[J].计算机工程与应用,2003(13):208-211.)如式(1)所示，其中，k为项集I的长度（即I的项目个数）。

(1)

矩阵加权课程负项集和负关联规则支持度如式(2)至式(5)所示。

cisup(﹁I)=1–cisup(I) (2)

cisup(I₁→﹁I₂)= cisup(I₁,﹁I₂)= cisup(I₁) –cisup(I₁,I₂) (3)

cisup(﹁I₁→I₂)= cisup(﹁I₁,I₂)= cisup(I₂) –cisup(I₁,I₂) (4)

cisup(﹁I₁→﹁I₂)= cisup(﹁I₁,﹁I₂)=1–cisup(I₁) –cisup(I₂)＋cisup(I₁,I₂) (5)

定义2完全加权课程频繁项集和负项集：对于矩阵加权课程项集I，若cisup(I)≥ms，则称项集I为完全加权课程频繁项集；当I₁和I₂都是完全加权课程频繁项集，若cisup (I₁,I₂)<ms，则项集(I₁,I₂)称为完全加权课程负项集，其中ms为最小支持度阈值。

定义3 完全加权课程关联规则置信度(ciconf)：完全加权正负关联规则置信度计算公式如式(6)至(10)：

(6)

(7)

(8)

(9)

定义4 教育数据完全加权互信息（ciMI): 教育数据完全加权项集(I₁,I₂)互信息（ciMI(I₁,I₂)）是用来衡量两个完全加权项集I₁和I₂的相关程度，其计算如式(10)所示。

(10)

定义5 课程项集k-权值期望(KIWT(C_k-1, k) )：课程项集权值频繁期望KIWT(C_k-1, k)是指包含课程项集C_k-1的k_项集频繁的权值估计值。根据KIWT(C_k-1, k)，可以预测I_k的后续(k+1)_项集的频繁性。

课程(k-1)-项集C_k-1的k-权值阈值KIWT(C_k-1, k)的计算公式为：

KIWT(C_k-1, k)=n×k×ms-sc(C_k-1)×w_r(C_k-1)

其中，sc(C_k-1)为课程候选项集C_k-1在学生信息库中的项集频度，w_r(C_k-1)为在不属于C_k-1项目集合的其他项目中权值最大的项目权值。

下面通过具体实施例对本发明的技术方案做进一步的说明。

具体实施例中本发明采取的挖掘方法和***如图1-图4所示。

实例：表1是一个课程项目库实例，表2是学生选修课程的学生信息库实例，即有5个课程项目和5个学生信息记录以及各个课程项目的成绩权值，其中成绩权值已经进行规范化处理，使之在0到1之间，没有选修的课程成绩为0，满分的课程成绩为1。

采用本发明挖掘方法对该课程信息数据实例挖掘完全加权课程正负关联模式，其挖掘过程如下(ms=0. 50，mc=0.55)：

1. 挖掘完全加权频繁1_项集L₁和负1-项集N₁，如表1所示，其中n=5。

表3：

C₁	w(C₁)	cisup(C₁)	sc(C₁)	w_r(C₁)	KIWT(C₁, 2)
						(i₁)	2.97	0.594	4	0.92	=5×2×0.5-4×0.92=1.32
(i₂)	3.24	0.648	4	0.92	=5×2×0.5-4×0.92=1.32
						(i₃)	2.78	0.556	4	0.91	=5×2×0.5-4×0.91=1.36
(i₄)	2.14	0.428	4	0.92	=5×2×0.5-4×0.92=1.32
						(i₅)	3.45	0.69	4	0.92	=5×2×0.5-4×0.92=1.32

由表3可知，L₁={(i₁), (i₂), (i₃), (i₅)}，N₁={(i₄) }

课程频繁项集集合ciPIS={(i₁), (i₂), (i₃), (i₅)}。课程负项集集合ciNIS={(i₄) }

2. 挖掘完全加权课程频繁k_项集L_k和负k-项集N_k，所述的k≥2。

k=2:

(1) 将其w(C₁)≥KIWT(C₁, 2)的课程候选1_项集C₁进行Apriori连接，生成课程候选2_项集C₂，如表4所示。

表4：

C₂	w(C₂)	cisup(C₂)	sc(C₂)	w_r(C₂)	KIWT(C₂, 3)
						(i₁, i₂)	4.94	0.494	3	0.92	=5×3×0.5-3×0.92=4.47
(i₁, i₃)	4.08	0.408	3	0.91	=5×3×0.5-3×0.91=4.77
						(i₁, i₄)	3.65	0.365	3	0.92	=5×3×0.5-3×0.92=4.47
(i₁, i₅)	4.73	0.473	3	0.92	=5×3×0.5-3×0.92=4.47
						(i₂, i₃)	5.06	0.506	3	0.85	=5×3×0.5-3×0.85=4.95
(i₂, i₄)	4.06	0.406	3	0.92	=5×3×0.5-3×0.92=4.47
						(i₂, i₅)	4.87	0.487	3	0.92	=5×3×0.5-3×0.92=4.47
(i₃, i₄)	3.74	0.374	3	0.91	=5×3×0.5-3×0.91=4.77
						(i₃, i₅)	4.52	0.452	3	0.91	=5×3×0.5-3×0.91=4.77
(i₄, i₅)	4.09	0.409	3	0.92	=5×3×0.5-3×0.92=4.47

对于表4，进行如下操作：

﹡ cisup(C₂)≥ms的完全加权课程频繁2-项集L₂有：(i₂, i₃)，即L₂={ (i₂, i₃)}， ciPIS={(i₁), (i₂), (i₃), (i₅), (i₂, i₃)}

﹡cisup(C₂)<ms的完全加权课程负2-项集N₂有：(i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)，即N₂={(i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)}，ciNIS={(i₄) , (i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)}。

k=3:

﹡从表4可得，其w(C₂)<KIWT(C₂, 3)的完全加权课程候选2-项集有：(i₁, i₃), (i₁, i₄), (i₂, i₄), (i₃, i₄), (i₃, i₅), (i₄, i₅)，这些项集的后续3-项集都是负项集，N₃={(i₁, i₃, i₄), (i₁, i₃, i₅), (i₁, i₄, i₅), (i₂, i₄, i₅), (i₃, i₄, i₅)}，ciNIS={(i₄) , (i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)，(i₁, i₃, i₄), (i₁, i₃, i₅), (i₁, i₄, i₅), (i₂, i₄, i₅), (i₃, i₄, i₅)}

l 将其w(C₂)≥KIWT(C₂, 3)的完全加权课程候选2-项集进行Apriori连接生成课程候选3_项集C₃，由表4可得，C₃={(i₁, i₂, i₅), (i₂, i₃, i₅) }，如表5所示，

表5：

C₃	w(C₃)	cisup(C₃)	sc(C₃)	w_r(C₃)	KIWT(C₃, 4)
						(i₁, i₂, i₅)	4.88	0.325	2	0.92	=5×4×0.5-2×0.92=8.16
(i₂, i₃, i₅)	4.98	0.332	2	0.84	=5×4×0.5-2×0.84=8.32

对于表5，进行如下操作：

﹡无cisup(C₃)≥ms的完全加权课程频繁3-项集L₃，即L₃为空集。

l cisup(C₃)<ms的完全加权课程负3-项集N₃有：(i₁, i₂, i₅)，(i₂, i₃, i₅)，即，N₃={(i₁, i₂, i₅)，(i₂, i₃, i₅)}，ciNIS={(i₄) , (i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)，(i₁, i₃, i₄), (i₁, i₃, i₅), (i₁, i₄, i₅), (i₂, i₄, i₅), (i₃, i₄, i₅)，(i₁, i₂, i₅)，(i₂, i₃, i₅)}

k=4:

﹡从表5可得，其w(C₃)<KIWT(C₃, 4)的完全加权课程候选3-项集有：(i₁, i₂, i₅)，(i₂, i₃, i₅)，这些项集没有后续4-项集，N₄为空集。

﹡无w(C₃)≥KIWT(C₃, 4)的完全加权课程候选3-项集，故C₄为空集，挖掘完全加权课程频繁k_项集L_k和负k-项集N_k结束，转入如下3步骤。

﹡最终挖掘项集结果为：ciPIS={(i₁), (i₂), (i₃), (i₅), (i₂, i₃)}，ciNIS={(i₄) , (i₁, i₂)，(i₁, i₃)，(i₁, i₄)，(i₁, i₅)，(i₂, i₄)，(i₂, i₅)，(i₃, i₄)，(i₃, i₅)，(i₄, i₅)，(i₁, i₃, i₄), (i₁, i₃, i₅), (i₁, i₄, i₅), (i₂, i₄, i₅), (i₃, i₄, i₅)，(i₁, i₂, i₅)，(i₂, i₃, i₅)}。

3. 从课程频繁项集集合ciPIS中挖掘完全加权课程正负关联规则模式。

以ciPIS中课程频繁项集(i₂, i₃)为例，给出完全加权课程正负关联规则模式挖掘过程如下：

课程频繁项集(i₂, i₃)的真子集集合为{( i₂), (i₃) }，设I₁=( i₂)，I₂=(i₃)。

cisup(I₁)= 0.648≥ms，cisup(I₂)= 0.556≥ms，cisup(I₁,I₂)= 0.506

由于ciMI(I₁,I₂)>0，所以，

，

cisup(﹁I₁,﹁I₂)=1–0.648 –0.556＋0.506=0.302

故能挖掘出完全加权课程强关联规则I₁→I₂和强负关联规则﹁I₁→﹁I₂，即( i₂)→(i₃)，(﹁i₂)→(﹁i₃)，或者，(数据结构)→(数据库开发)，(﹁数据结构)→(﹁数据库开发)

综上所述，对于课程频繁项集(i₂, i₃)，可以挖掘出有效的完全加权课程正负关联规则模式 ( i₂)→(i₃)，(﹁i₂)→(﹁i₃)，或者，(数据结构)→(数据库开发)，(﹁数据结构)→(﹁数据库开发) (ms=0. 50，mc=0.55)。

4. 从课程负项集集合ciNIS中挖掘完全加权课程负关联规则模式。

以ciNIS中课程负项集(i₂, i₃, i₅)为例，给出完全加权课程强负关联规则模式挖掘过程如下：

﹡负项集(i₂, i₃, i₅)的真子集集合为{( i₂), ( i₃), (i₅), (i₂,i₃), (i₂,i₅), ( i₃, i₅) }。

（1）设I₁=( i₂)，I₂= (i₃, i₅)，

cisup(I₁)= 0.648>ms，cisup(I₂)= 0.452<ms，所以挖掘不出课程关联规则。

（2）设I₁=( i₃)，I₂= (i₂,i₅)，

cisup(I₁)= 0.556>ms，cisup(I₂)= 0.487<ms，所以挖掘不出课程关联规则。

（3）设I₁=( i₅)，I₂= (i₂,i₃)，

cisup(I₁)=0.69>ms，cisup(I₂)=0.506>ms，cisup(I₁,I₂)=0.332

由于ciMI(I₁,I₂)<0，所以，

cisup(I₁,﹁I₂)= 0.69 – 0.332=0.358

cisup(﹁I₁,I₂)= 0.506 – 0.332=0.174

即可以完全加权课程强负关联规则﹁I₁→I₂，即，(﹁i₅)→(i₂,i₃)，或者，(﹁微机原理)→(数据结构, 数据库开发)。

综上所述，对于课程负项集(i₂, i₃, i₅)，可以挖掘出完全加权课程强负关联规则(﹁i₅)→(i₂,i₃)，或者，(﹁微机原理)→(数据结构, 数据库开发) (ms=0. 50，mc=0.55)。

下面通过实验对本发明的有益效果做进一步说明。

为了验证本发明方法的有效性，选择来自高校教务真实的课程考试成绩数据为实验数据测试集。测试集是历届毕业生在校学习成绩，将每个学生信息作为一个学生记录，将学生选修的课程当作课程项目，课程成绩当作权值，将成绩权值规范化为0到1之间，构建课程信息数据库和课程项目库。实验中，学生信息记录数为2000，课程项目数为121。

选择经典无加权正负关联规则挖掘方法(WU Xin-dong, ZHANG Cheng-qi and ZHANG Shi-chao. Efficient mining of both positive and negative association rules[J]. ACM Transactions on Information Systems, 2004,22(3): 381–405.)(记为PNARM算法)为实验对比方法，编写实验源程序，分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。实验参数除了ms和mc以外，还有：IN:挖掘的课程项目数量，n:学生信息记录数。实验挖掘到4-项集。

实验1：教育数据课程项集模式数量比较

支持度阈值变化情况下，置信度阈值取值为0.1，取项目个数为20，本发明方法和对比方法挖掘出的教育数据频繁项集和负项集模式数量比较如表6所示。

实验2：教育数据课程正负关联规则模式数量比较

(1)支持度阈值变化情况下，置信度阈值取值为0.1，项目个数为20，本发明方法和对比方法挖掘出的完全加权课程正负关联规则模式数量比较如表7和表8所示。

表7 在不同支持度阈值下正负关联规则数量比较

表8 在不同支持度阈值下负关联规则数量比较

(2) 置信度阈值的取值从0.1到0.9，支持度阈值为0.2，项目个数为20，本发明方法和对比方法挖掘出的完全加权课程正负关联规则模式数量比较如表9和表10所示。

表9 在不同置信度阈值下正负关联规则数量比较

表10 在不同置信度阈值下负关联规则数量比较

实验3：挖掘时间效率比较

(1)支持度阈值变化情况下教育数据课程项集模式挖掘时间比较。置信度为0.1，项目个数为20，支持度阈值取值0.1到0.5，2种方法挖掘教育数据课程频繁项集和负项集的时间比较如表11所示。

表11 在不同支持度阈值下项集挖掘时间(秒)比较

ms	PNARM	本发明方法
			0.1	2151.650	3642.460
0.2	2144.489	2129.170
			0.3	90.137	2124.309
0.4	89.606	2120.93
			0.5	89.498	2120.206
合计	4565.38	12137.08

(2)支持度阈值变化情况下教育数据课程正负关联规则挖掘时间比较。置信度为0.1，项目个数为20，支持度阈值取值0.2到0.3，2种方法的教育数据课程正负关联规则挖掘时间比较如表12所示。

表12 在不同支持度阈值下正负关联规则挖掘时间(秒)比较

ms	PNARM	本发明方法
			0.2	308.475	257.765
0.22	400.343	252.252
			0.24	300.363	248.201
0.26	300.84	246.965
			0.28	300.209	250.557
0.30	296.417	247.762
			合计	1906.647	1503.502

(3) 置信度阈值变化情况下教育数据课程正负关联规则挖掘时间比较。支持度为0.2，项目个数为20，置信度阈值取值0.1到0.9，本发明方法和对比方法的教育数据课程正负关联规则挖掘时间比较如表13所示。

表13 在不同置信度阈值下正负关联规则挖掘时间(秒)比较

mc	PNARM	本发明方法
			0.1	308.475	257.765
0.2	306.410	254.301
			0.3	305.714	252.300
0.4	306.386	254.343
			0.5	303.828	253.844
0.6	302.828	253.157
			0.7	302.705	253.343
0.8	302.542	250.07
			0.9	301.127	248.476
合计	2740.015	2277.599

实验4：正负关联模式实例分析

下面是对2种方法挖掘出来的教育数据课程正负关联规则模式进行合理性分析，列举了2种方法挖掘出的部分课程正负关联规则模式实例，如表14和表15所示。

表14列举了本文方法挖掘的矩阵加权正负关联模式实例。通过模式分析发现，所列举的课程正负关联模式与现实情况很接近，是合理的、有效的模式。例如，学好《英语语法》、《英汉翻译》、《英语朗读技巧》、《英语语音》等课程，能促进《英文报刊阅读》课程的学习与掌握（序号1、2和3模式），它们之间是正相关关联；没有学好《商务英语听力》，也很难学好《会场培训英语》、《剑桥商务英语》、《英语口语》和《国际贸易英语》课程（序号4、5和6模式）。

表15列举的是对比方法挖掘的部分无加权课程正负关联规则模式。对其模式分析后发现，对比算法挖掘的正负关联模式中有些与现实情况不尽相符，存在一些不合理的、无效的模式，特别是挖掘出的负关联规则模式I₁→﹁I₂和﹁I₁→I₂对于课程成绩数据关联分析来说意义不是很大。例如，序号1模式表明学好了《旅游概论》课程可以有助于学好《旅游地理》课程，与现实基本相符，是一条有效模式，但是，序号2模式的前件和后件似乎关系不是很大，互不受影响，与现实基本不符，是无效模式；学不好《旅游英语》课程或者《商务英语听力》课程就可以学好《综合英语Ⅰ》(序号3、4模式)，学不好《综合英语Ⅰ》就可以学好《英文报刊阅读》和《网络英语》(序号5模式)，学好课程《旅游英语》就学不好《综合英语Ⅰ》课程(序号6模式)，等等，这些模式都不合情理，应该是不合理模式。

综上所述，本发明方法是有效的，与现有无加权正负关联模式挖掘方法比较，具有以下特点：

(1)本发明方法所挖掘出的完全加权课程频繁项集和正关联规则模式I₁→I₂数量比对比方法挖掘的无加权关联模式数量少，而挖掘出的完全加权课程负项集和负关联模式﹁I₁→﹁I₂数量比对比方法挖掘的无加权关联模式数量多。

(2)本发明方法的课程正负关联规则模式挖掘时间比对比方法的少。

(3) 本发明方法没有挖掘出形如I₁→﹁I₂和﹁I₁→I₂的负关联规则模式，对比方法能挖掘出这类负模式。而这类负模式对于课程成绩数据关联的分析意义不是很大。

(4)本发明方法是基于学生课程成绩权值的挖掘，能挖掘出客观反映教学效果的完全加权课程关联模式，其模式更客观、更合理，更接近现实情况。

Claims

1.一种基于互信息的完全加权课程正负关联模式挖掘方法，其特征在于，包括如下步骤：

（1）教育数据预处理：对于待处理的教育数据，提取学生课程信息及其成绩，将课程当作项目，课程成绩当作项目权值，课程权值规范化为0至1之间，构建学生信息库和课程项目库；

（2）挖掘课程完全加权频繁1-项集L₁和负1-项集：从课程项目库中提取课程候选1-项集C₁，累加C₁的项集权值，计算其支持度cisup(C₁)，与最小支持度阈值ms比较，从C₁中挖掘课程完全加权频繁1-项集L₁和负1-项集N₁，L₁加入ciPIS，N₁加入ciNIS;

(3.1)计算完全加权课程(i-1)-项集的i-权值阈值，并与其课程(i-1)-项集的项集权值比较，可得到课程负i-项集，并加入课程负项集集合中，即若课程(i-1)-项集的项集权值小于其i-权值阈值，则该课程(i-1)-项集的后续i-项集为完全加权课程负项集；

(3.2)将上述(3.1)步中其课程(i-1)-项集的项集权值大于或者等于其i-权值阈值的课程候选(i-1)-项集C_i-1进行Apriori连接生成课程候选i_项集C_i；

(3.3)若课程候选i_项集C_i不为空集，则转入如下(3.4)步，否则，退出（3）步，转入（4）步；

(3.4)累加课程候选i_项集C_i的项集权值；

(3.5)对于课程候选i_项集中，计算除了（3.1）步获得的负项集以外的项集支持度，若其支持度大于或等于最小支持度阈值，则得到完全加权课程频繁i_项集，并加入课程频繁项集集合中，否则，得到完全加权课程负i-项集，并加入课程负项集集合中；

(3.6) 变量i加1后，继续循环(3.1)步至(3.6)步，直到C_i为空集即退出（3）步，转入（4）步；

（4）从课程频繁项集集合中挖掘完全加权课程正负关联规则模式，包括以下(4.1) 步至(4.6) 步：

(4.1) 从课程频繁项集集合中取出完全加权课程频繁项集L_i，求出L_i的所有真子集；

(4.2) 从L_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的支持度大于或等于最小支持度阈值ms时，即cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁ I₂=， I₁ I₂=L_i，计算完全加权课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)；

(4.3) 若课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)>0，并且I₁→I₂和﹁I₁→﹁I₂的置信度大于或者等于最小置信度阈值mc，则挖掘出完全加权课程强关联规则I₁→I₂和强负关联规则﹁I₁→﹁I₂；

(4.4) 若课程频繁项集(I₁,I₂)的互信息ciMI(I₁,I₂)<0，并且I₁→﹁I₂和﹁I₁→I₂的置信度大于或者等于最小置信度阈值mc，则挖掘出完全加权课程强负关联规则I₁→﹁I₂和﹁I₁→I₂；

（5）从完全加权课程负项集集合中挖掘有效的完全加权课程负关联规则模式，包括以下(5.1) 步至(5.6) 步：

(5.1) 从课程负项集集合中取出课程负项集N_i，找出N_i的所有真子集；

(5.2) 从N_i的真子集集合中任意取出两个真子集I₁和I₂，当I₁和I₂的支持度大于或等于最小支持度阈值ms时，即cisup(I₁)≥ms，cisup(I₂)≥ms，并且I₁ I₂=， I₁ I₂=N_i，计算完全加权课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)；

(5.3) 若课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)>0，并且﹁I₁→﹁I₂的置信度大于或者等于最小置信度阈值mc，则挖掘出完全加权课程强负关联规则﹁I₁→﹁I₂；

(5.4) 若课程负项集(I₁,I₂)的互信息ciMI(I₁,I₂)<0，并且I₁→﹁I₂和﹁I₁→I₂的置信度大于或者等于最小置信度阈值mc，则挖掘出完全加权课程强负关联规则I₁→﹁I₂和﹁I₁→I₂；

至此，基于互信息的完全加权课程正负关联模式挖掘结束；

所述的ms为最小支持度阈值，mc为最小置信度阈值。

2.一种适用于权利要求1所述的基于互信息的完全加权课程正负关联模式挖掘***，其特征在于，包括以下4个模块：

教育数据预处理模块：该模块提取学生课程信息及其成绩，将课程成绩权值规范化为0至1之间，将待处理的教育数据进行预处理后构建学生信息库和课程项目库；

完全加权课程项集生成模块：该模块从学生信息库和课程信息库挖掘完全加权课程候选1-项集，从i-项集(i≥2)起，计算完全加权课程(i-1)-项集的i-权值阈值，并与其课程(i-1)-项集的项集权值比较，可得到课程负i-项集，然后，课程候选(i-1)-项集通过Apriori连接生成完全加权课程候选i-项集，累加课程候选i_项集C_i的项集权值，计算其支持度，若其支持度大于或等于最小支持度阈值，则得到完全加权课程频繁i_项集，否则，得到完全加权课程负i-项集，直到课程候选i_项集C_i不为空集即结束项集挖掘；

完全加权课程正负关联规则生成模块：该模块生成课程频繁项集和负项集的真子集，计算课程关联规则前件和后件的互信息和置信度，根据其互信息的值以及最小置信度阈值，从完全加权课程频繁项集和负项集中挖掘完全加权课程强正负关联规则模式；

3. 根据权利要求2所述的挖掘***，其特征在于，所述的完全加权课程项集生成模块包括以下3个模块：

完全加权课程候选项集生成模块：该模块从课程项目库和学生信息库挖掘完全加权课程候选1-项集，从i-项集(i≥2)起，课程候选(i-1)-项集通过Apriori连接生成课程候选i-项集；

完全加权课程频繁项集生成模块：该模块计算候选i-项集支持度，若其支持度大于或者等于支持度阈值，则就得到完全加权课程频繁项集；

4. 根据权利要求2所述的挖掘***，其特征在于，所述的完全加权课程正负关联规则生成模块包括以下2个模块：

来自课程频繁项集的完全加权课程正负关联规则生成模块：该模块生成课程频繁项集的真子集，计算课程关联规则前项和后项的互信息和置信度，根据其互信息的值以及最小置信度阈值，从完全加权课程频繁项集中挖掘完全加权课程强正负关联规则模式；

5.根据权利要求2-4中任一项所述的挖掘***，其特征在于，所述的挖掘***中的支持度阈值，置信度阈值，由用户输入。