发明内容
本发明的目的在于,针对教育数据课程正负关联模式挖掘进行深入探索,提出一种基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***,应用于教育数据挖掘领域,为教育数据课程正负关联模式挖掘与分析提供新的挖掘方法,通过课程正负关联规则模式分析发现教育领域潜在的教育、教学规律和教育发展趋势,提高任课教师提高教学质量和学生的学习效果。
本发明所采取的技术方案是:一种基于互信息的完全加权课程正负关联模式挖掘方法,包括如下步骤:
(1)教育数据预处理:对于待处理的教育数据,提取学生课程信息及其成绩,将课程当作项目,课程成绩当作项目权值,课程权值规范化为0至1之间,构建学生信息库和课程项目库。
(2)挖掘课程完全加权频繁1-项集L1和负1-项集:从课程项目库中提取课程候选1-项集C1,累加C1的项集权值,计算其支持度cisup(C1),与最小支持度阈值ms比较,从C1中挖掘课程完全加权频繁1-项集L1和负1-项集N1,L1加入课程频繁项集集合ciPIS,N1加入课程负项集集合ciNIS。候选1-项集C1支持度cisup(C1)公式如下:
其中,n为学生信息库的记录总数。
(3)挖掘有趣的完全加权课程频繁i-项集Li和负i-项集Ni(所述的i≥2),包括以下(3.1) 步至(3.6) 步:
(3.1)计算完全加权课程(i-1)-项集的i-权值阈值KIWT(Ci-1, i),并与其课程(i-1)-项集Ci-1的项集权值w(Ci-1)比较,可得到课程负i-项集,并加入课程负项集集合ciNIS中,即若课程(i-1)-项集的项集权值小于其i-权值阈值,即w(Ci-1)<KIWT(Ci-1, i),则该课程(i-1)-项集的后续i-项集Ci为完全加权课程负项集。课程(i-1)-项集的i-权值阈值KIWT(Ci-1, i)的计算公式为:
KIWT(Ci-1, i)=n×i×ms-sc(Ci-1)×wr(Ci-1)
其中,sc(Ci-1)为课程候选项集Ci-1在学生信息库中的项集频度,wr(Ci-1)为在不属于Ci-1项目集合的其他项目中权值最大的项目权值。
(3.2)将上述(3.1)步中其w(Ci-1)≥KIWT(Ci-1, i)的课程候选(i-1)-项集Ci-1进行Apriori连接生成课程候选i_项集Ci。
(3.3)若课程候选i_项集Ci不为空集,则转入如下(3.4)步,否则,退出(3)步,转入(4)步。
(3.4)累加课程候选i_项集Ci的项集权值w(Ci)。
(3.5)对于课程候选i_项集Ci中,计算除了(3.1)步获得的负项集以外的项集支持度cisup(Ci),若其支持度大于或等于最小支持度阈值ms,即cisup(Ci)≥ms,则得到完全加权课程频繁i_项集Li,并加入课程频繁项集集合ciPIS中,否则,得到完全加权课程负i-项集Ni,并加入课程负项集集合ciNIS中。cisup(Ci)计算公式如下:
(3.6) 变量i加1后,继续循环(3.1)步至(3.6)步,直到Ci为空集即退出(3)步,转入(4)步。
(4)从完全加权课程频繁项集集合ciPIS中挖掘有效的完全加权课程正负关联规则模式,包括以下(4.1) 步至(4.6) 步:
(4.1)从课程频繁项集集合ciPIS中取出完全加权课程频繁项集Li,求出Li的所有真子集.
(4.2)从Li的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度大于或等于最小支持度阈值ms时,即cisup(I1)≥ms,cisup(I2)≥ms,并且I1 I2=, I1 I2=Li,计算完全加权课程频繁项集(I1,I2)的互信息ciMI(I1,I2)。cisup(I1)、cisup(I2)和完全加权课程频繁项集(I1,I2)的互信息ciMI(I1,I2)的计算公式如下:
,,其中,i1和i2为I1和I2的项目个数,即项集维数。
(4.3) 若课程频繁项集(I1,I2)的互信息ciMI(I1,I2)>0,并且I1→I2和﹁I1→﹁I2的置信度大于或者等于最小置信度阈值mc,即,ciconf(I1→I2)≥mc,ciconf(﹁I1→﹁I2)≥mc,则挖掘出完全加权课程强关联规则I1→I2和强负关联规则﹁I1→﹁I2。I1→I2和﹁I1→﹁I2的置信度ciconf(I1→I2)和ciconf(﹁I1→﹁I2)的计算公式如下:
(4.4) 若课程频繁项集(I1,I2)的互信息ciMI(I1,I2)<0,并且I1→﹁I2和﹁I1→I2的置信度大于或者等于最小置信度阈值mc,即,ciconf(I1→﹁I2)≥mc,ciconf(﹁I1→I2)≥mc,则挖掘出完全加权课程强负关联规则I1→﹁I2和﹁I1→I2。I1→﹁I2和﹁I1→I2的置信度ciconf(I1→﹁I2)和ciconf(﹁I1→I2)的计算公式如下:
(4.5) 继续(4.2)步骤,当课程频繁项集Li的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(4.6)步;
(4.6) 继续(4.1)步骤,当课程频繁项集集合中每个频繁项集Li都被取出一次,而且仅能取出一次,则(4)步运行结束,转入(5)步;
(5)从完全加权课程负项集集合ciNIS中挖掘有效的完全加权课程负关联规则模式,包括以下(5.1) 步至(5.6) 步:
(5.1)从课程负项集集合中取出课程负项集Ni,找出Ni的所有真子集。
(5.2)从Ni的真子集集合中任意取出两个真子集I1和I2,当I1和I2的支持度大于或等于最小支持度阈值ms时,即cisup(I1)≥ms,cisup(I2)≥ms,并且I1 I2=, I1 I2=Ni,计算完全加权课程负项集(I1,I2)的互信息ciMI(I1,I2)。cisup(I1)、cisup(I2)和完全加权课程频繁项集(I1,I2)的互信息ciMI(I1,I2)的计算公式同(4.2)的。
(5.3) 若课程负项集(I1,I2)的互信息ciMI(I1,I2)>0,并且﹁I1→﹁I2的置信度大于或者等于最小置信度阈值mc,即,ciconf(﹁I1→﹁I2)≥mc,则挖掘出完全加权课程强负关联规则﹁I1→﹁I2。ciconf(﹁I1→﹁I2)的计算公式同(4.3)的。
(5.4) 若课程负项集(I1,I2)的互信息ciMI(I1,I2)<0,并且I1→﹁I2和﹁I1→I2的置信度大于或者等于最小置信度阈值mc,即,ciconf(I1→﹁I2)≥mc,ciconf(﹁I1→I2)≥mc,则挖掘出完全加权课程强负关联规则I1→﹁I2和﹁I1→I2。ciconf(I1→﹁I2)和ciconf(﹁I1→I2)的计算公式同(4.4)的。
(5.5) 继续(5.2)步骤,当课程负项集Ni的真子集集合中每个真子集都被取出一次,而且仅能取出一次,则转入步骤(5.6)步;
(5.6) 继续(5.1)步骤,当课程频繁项集集合中每个负项集Ni都被取出一次,而且仅能取出一次,则(5)步运行结束;
至此,基于互信息的完全加权课程正负关联模式挖掘结束。所述的ms为最小支持度阈值,mc为最小置信度阈值。
一种适用于上述基于互信息的完全加权课程正负关联模式挖掘方法的挖掘***,其特征在于,包括以下4个模块:
教育数据预处理模块:该模块提取学生课程信息及其成绩,将课程成绩权值规范化为0至1之间,将待处理的教育数据进行预处理后构建学生信息库和课程项目库。
完全加权课程项集生成模块:该模块从学生信息库和课程信息库挖掘完全加权课程候选1-项集,从i-项集(i≥2)起,计算完全加权课程(i-1)-项集的i-权值阈值,并与其课程(i-1)-项集的项集权值比较,可得到课程负i-项集,然后,课程候选(i-1)-项集通过Apriori连接生成完全加权课程候选i-项集,累加课程候选i_项集Ci的项集权值,计算其支持度,若其支持度大于或等于最小支持度阈值,则得到完全加权课程频繁i_项集,否则,得到完全加权课程负i-项集,直到课程候选i_项集Ci不为空集即结束项集挖掘。
完全加权课程正负关联规则生成模块:该模块生成课程频繁项集和负项集的真子集,计算课程关联规则前件和后件的互信息和置信度,根据其互信息的值以及最小置信度阈值,从完全加权课程频繁项集和负项集中挖掘完全加权课程强正负关联规则模式。
完全加权课程关联规则模式显示模块:该模块将完全加权课程正负关联规则模式显示给用户,供教育工作者或者教务人员分析和使用。
所述的完全加权课程项集生成模块包括以下3个模块:
完全加权课程候选项集生成模块:该模块从课程项目库和学生信息库挖掘完全加权课程候选1-项集,从i-项集(i≥2)起,课程候选(i-1)-项集通过Apriori连接生成课程候选i-项集。
完全加权课程频繁项集生成模块:该模块计算候选i-项集支持度,若其支持度大于或者等于支持度阈值,则就得到完全加权课程频繁项集。
完全加权课程负项集生成模块:该模块计算完全加权课程(i-1)-项集的i-权值阈值,与其课程(i-1)-项集的项集权值比较,可得到完全加权课程负i-项集,对余下的课程候选i-项集,计算其支持度,若其支持度小于最小支持度阈值,则就得到完全加权课程负项集。
所述的完全加权课程正负关联规则生成模块包括以下2个模块:
来自课程频繁项集的完全加权课程正负关联规则生成模块:该模块生成课程频繁项集的真子集,计算课程关联规则前项和后项的互信息和置信度,根据其互信息的值以及最小置信度阈值,从完全加权课程频繁项集中挖掘完全加权课程强正负关联规则模式。
来自课程负项集的完全加权课程负关联规则生成模块:该模块生成课程负项集的真子集,计算课程关联规则前项和后项的互信息和置信度,根据其互信息的值以及最小置信度阈值,从完全加权课程负项集中挖掘完全加权课程强正负关联规则模式。
所述的挖掘***中的支持度阈值,置信度阈值,由用户输入。
与现有技术相比,本发明具有以下有益效果:
(1)本发明提出一种新的基于互信息的完全加权课程正负关联模式挖掘方法及其挖掘***。该发明方法的正负关联规则模式挖掘时间效率比对比算法的高,所挖掘出的完全加权课程频繁项集和课程正关联规则模式I1→I2数量比对比方法挖掘的无加权模式数量少,而挖掘出的完全加权课程负项集和课程负关联模式﹁I1→﹁I2数量比对比方法挖掘的无加权模式数量多。
(2)以真实的高校课程考试成绩作为本发明实验数据测试集,将本发明与现有的无加权模式挖掘方法进行实验比较和分析,实验结果表明,与基于项集频度挖掘的对比方法不同,本发明方法是基于学生成绩权值的挖掘,能挖掘出客观反映教学效果的矩阵加权课程关联模式,通过模式分析后得到的教育、教学模式应该更客观、更合理,更接近现实情况。
(3)该发明在教育信息化教育数据分析与挖掘领域有较高的应用价值和广阔的应用前景,运用于高校教务管理***,可以扩展教务管理功能,其关联模式可以有助于教师改善和调整方法,提高教学质量,可为教学改革和教育管理、决策提供科学的依据。同时,可以帮助学生提高学习效果。
具体实施例中本发明采取的挖掘方法和***如图1-图4所示。
实例:表1是一个课程项目库实例,表2是学生选修课程的学生信息库实例,即有5个课程项目和5个学生信息记录以及各个课程项目的成绩权值,其中成绩权值已经进行规范化处理,使之在0到1之间,没有选修的课程成绩为0,满分的课程成绩为1。
采用本发明挖掘方法对该课程信息数据实例挖掘完全加权课程正负关联模式,其挖掘过程如下(ms=0. 50,mc=0.55):
1. 挖掘完全加权频繁1_项集L1和负1-项集N1,如表1所示,其中n=5。
表3:
C1 |
w(C1) |
cisup(C1) |
sc(C1) |
wr(C1) |
KIWT(C1, 2) |
(i1) |
2.97 |
0.594 |
4 |
0.92 |
=5×2×0.5-4×0.92=1.32 |
(i2) |
3.24 |
0.648 |
4 |
0.92 |
=5×2×0.5-4×0.92=1.32 |
(i3) |
2.78 |
0.556 |
4 |
0.91 |
=5×2×0.5-4×0.91=1.36 |
(i4) |
2.14 |
0.428 |
4 |
0.92 |
=5×2×0.5-4×0.92=1.32 |
(i5) |
3.45 |
0.69 |
4 |
0.92 |
=5×2×0.5-4×0.92=1.32 |
由表3可知,L1={(i1), (i2), (i3), (i5)},N1={(i4) }
课程频繁项集集合ciPIS={(i1), (i2), (i3), (i5)}。课程负项集集合ciNIS={(i4) }
2. 挖掘完全加权课程频繁k_项集Lk和负k-项集Nk,所述的k≥2。
k=2:
(1) 将其w(C1)≥KIWT(C1, 2)的课程候选1_项集C1进行Apriori连接,生成课程候选2_项集C2,如表4所示。
表4:
C2 |
w(C2) |
cisup(C2) |
sc(C2) |
wr(C2) |
KIWT(C2, 3) |
(i1, i2) |
4.94 |
0.494 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
(i1, i3) |
4.08 |
0.408 |
3 |
0.91 |
=5×3×0.5-3×0.91=4.77 |
(i1, i4) |
3.65 |
0.365 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
(i1, i5) |
4.73 |
0.473 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
(i2, i3) |
5.06 |
0.506 |
3 |
0.85 |
=5×3×0.5-3×0.85=4.95 |
(i2, i4) |
4.06 |
0.406 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
(i2, i5) |
4.87 |
0.487 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
(i3, i4) |
3.74 |
0.374 |
3 |
0.91 |
=5×3×0.5-3×0.91=4.77 |
(i3, i5) |
4.52 |
0.452 |
3 |
0.91 |
=5×3×0.5-3×0.91=4.77 |
(i4, i5) |
4.09 |
0.409 |
3 |
0.92 |
=5×3×0.5-3×0.92=4.47 |
对于表4,进行如下操作:
﹡ cisup(C2)≥ms的完全加权课程频繁2-项集L2有:(i2, i3),即L2={ (i2, i3)}, ciPIS={(i1), (i2), (i3), (i5), (i2, i3)}
﹡cisup(C2)<ms的完全加权课程负2-项集N2有:(i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5),即N2={(i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5)},ciNIS={(i4) , (i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5)}。
k=3:
﹡从表4可得,其w(C2)<KIWT(C2, 3)的完全加权课程候选2-项集有:(i1, i3), (i1, i4), (i2, i4), (i3, i4), (i3, i5), (i4, i5),这些项集的后续3-项集都是负项集,N3={(i1, i3, i4), (i1, i3, i5), (i1, i4, i5), (i2, i4, i5), (i3, i4, i5)},ciNIS={(i4) , (i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5),(i1, i3, i4), (i1, i3, i5), (i1, i4, i5), (i2, i4, i5), (i3, i4, i5)}
l 将其w(C2)≥KIWT(C2, 3)的完全加权课程候选2-项集进行Apriori连接生成课程候选3_项集C3,由表4可得,C3={(i1, i2, i5), (i2, i3, i5) },如表5所示,
表5:
C3 |
w(C3) |
cisup(C3) |
sc(C3) |
wr(C3) |
KIWT(C3, 4) |
(i1, i2,
i5) |
4.88 |
0.325 |
2 |
0.92 |
=5×4×0.5-2×0.92=8.16 |
(i2, i3,
i5) |
4.98 |
0.332 |
2 |
0.84 |
=5×4×0.5-2×0.84=8.32 |
对于表5,进行如下操作:
﹡无cisup(C3)≥ms的完全加权课程频繁3-项集L3,即L3为空集。
l cisup(C3)<ms的完全加权课程负3-项集N3有:(i1, i2, i5),(i2, i3, i5),即,N3={(i1, i2, i5),(i2, i3, i5)},ciNIS={(i4) , (i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5),(i1, i3, i4), (i1, i3, i5), (i1, i4, i5), (i2, i4, i5), (i3, i4, i5),(i1, i2, i5),(i2, i3, i5)}
k=4:
﹡从表5可得,其w(C3)<KIWT(C3, 4)的完全加权课程候选3-项集有:(i1, i2, i5),(i2, i3, i5),这些项集没有后续4-项集,N4为空集。
﹡无w(C3)≥KIWT(C3, 4)的完全加权课程候选3-项集,故C4为空集,挖掘完全加权课程频繁k_项集Lk和负k-项集Nk结束,转入如下3步骤。
﹡最终挖掘项集结果为:ciPIS={(i1), (i2), (i3), (i5), (i2, i3)},ciNIS={(i4) , (i1, i2),(i1, i3),(i1, i4),(i1, i5),(i2, i4),(i2, i5),(i3, i4),(i3, i5),(i4, i5),(i1, i3, i4), (i1, i3, i5), (i1, i4, i5), (i2, i4, i5), (i3, i4, i5),(i1, i2, i5),(i2, i3, i5)}。
3. 从课程频繁项集集合ciPIS中挖掘完全加权课程正负关联规则模式。
以ciPIS中课程频繁项集(i2, i3)为例,给出完全加权课程正负关联规则模式挖掘过程如下:
课程频繁项集(i2, i3)的真子集集合为{( i2), (i3) },设I1=( i2),I2=(i3)。
cisup(I1)= 0.648≥ms,cisup(I2)= 0.556≥ms,cisup(I1,I2)= 0.506
由于ciMI(I1,I2)>0,所以,
,
cisup(﹁I1,﹁I2)=1–0.648 –0.556+0.506=0.302
故能挖掘出完全加权课程强关联规则I1→I2和强负关联规则﹁I1→﹁I2,即( i2)→(i3),(﹁i2)→(﹁i3),或者,(数据结构)→(数据库开发),(﹁数据结构)→(﹁数据库开发)
综上所述,对于课程频繁项集(i2, i3),可以挖掘出有效的完全加权课程正负关联规则模式 ( i2)→(i3),(﹁i2)→(﹁i3),或者,(数据结构)→(数据库开发),(﹁数据结构)→(﹁数据库开发) (ms=0. 50,mc=0.55)。
4. 从课程负项集集合ciNIS中挖掘完全加权课程负关联规则模式。
以ciNIS中课程负项集(i2, i3, i5)为例,给出完全加权课程强负关联规则模式挖掘过程如下:
﹡负项集(i2, i3, i5)的真子集集合为{( i2), ( i3), (i5), (i2,i3), (i2,i5), ( i3, i5) }。
(1)设I1=( i2),I2= (i3, i5),
cisup(I1)= 0.648>ms,cisup(I2)= 0.452<ms,所以挖掘不出课程关联规则。
(2)设I1=( i3),I2= (i2,i5),
cisup(I1)= 0.556>ms,cisup(I2)= 0.487<ms,所以挖掘不出课程关联规则。
(3)设I1=( i5),I2= (i2,i3),
cisup(I1)=0.69>ms,cisup(I2)=0.506>ms,cisup(I1,I2)=0.332
由于ciMI(I1,I2)<0,所以,
cisup(I1,﹁I2)= 0.69 – 0.332=0.358
cisup(﹁I1,I2)= 0.506 – 0.332=0.174
即可以完全加权课程强负关联规则﹁I1→I2,即,(﹁i5)→(i2,i3),或者,(﹁微机原理)→(数据结构, 数据库开发)。
综上所述,对于课程负项集(i2, i3, i5),可以挖掘出完全加权课程强负关联规则(﹁i5)→(i2,i3),或者,(﹁微机原理)→(数据结构, 数据库开发) (ms=0. 50,mc=0.55)。
下面通过实验对本发明的有益效果做进一步说明。
为了验证本发明方法的有效性,选择来自高校教务真实的课程考试成绩数据为实验数据测试集。测试集是历届毕业生在校学习成绩,将每个学生信息作为一个学生记录,将学生选修的课程当作课程项目,课程成绩当作权值,将成绩权值规范化为0到1之间,构建课程信息数据库和课程项目库。实验中,学生信息记录数为2000,课程项目数为121。
选择经典无加权正负关联规则挖掘方法(WU Xin-dong, ZHANG Cheng-qi and ZHANG Shi-chao. Efficient mining of both positive and negative association rules[J]. ACM Transactions on Information Systems, 2004,22(3): 381–405.)(记为PNARM算法)为实验对比方法,编写实验源程序,分别从支持度阈值变化和置信度阈值变化两种情况对本发明和对比方法的挖掘性能进行实验对比和分析。实验参数除了ms和mc以外,还有:IN:挖掘的课程项目数量,n:学生信息记录数。实验挖掘到4-项集。
实验1:教育数据课程项集模式数量比较
支持度阈值变化情况下,置信度阈值取值为0.1,取项目个数为20,本发明方法和对比方法挖掘出的教育数据频繁项集和负项集模式数量比较如表6所示。
实验2:教育数据课程正负关联规则模式数量比较
(1)支持度阈值变化情况下,置信度阈值取值为0.1,项目个数为20,本发明方法和对比方法挖掘出的完全加权课程正负关联规则模式数量比较如表7和表8所示。
表7 在不同支持度阈值下正负关联规则数量比较
表8 在不同支持度阈值下负关联规则数量比较
(2) 置信度阈值的取值从0.1到0.9,支持度阈值为0.2,项目个数为20,本发明方法和对比方法挖掘出的完全加权课程正负关联规则模式数量比较如表9和表10所示。
表9 在不同置信度阈值下正负关联规则数量比较
表10 在不同置信度阈值下负关联规则数量比较
实验3:挖掘时间效率比较
(1)支持度阈值变化情况下教育数据课程项集模式挖掘时间比较。置信度为0.1,项目个数为20,支持度阈值取值0.1到0.5,2种方法挖掘教育数据课程频繁项集和负项集的时间比较如表11所示。
表11 在不同支持度阈值下项集挖掘时间(秒)比较
ms |
PNARM |
本发明方法 |
0.1 |
2151.650 |
3642.460 |
0.2 |
2144.489 |
2129.170 |
0.3 |
90.137 |
2124.309 |
0.4 |
89.606 |
2120.93 |
0.5 |
89.498 |
2120.206 |
合计 |
4565.38 |
12137.08 |
(2)支持度阈值变化情况下教育数据课程正负关联规则挖掘时间比较。置信度为0.1,项目个数为20,支持度阈值取值0.2到0.3,2种方法的教育数据课程正负关联规则挖掘时间比较如表12所示。
表12 在不同支持度阈值下正负关联规则挖掘时间(秒)比较
ms |
PNARM |
本发明方法 |
0.2 |
308.475 |
257.765 |
0.22 |
400.343 |
252.252 |
0.24 |
300.363 |
248.201 |
0.26 |
300.84 |
246.965 |
0.28 |
300.209 |
250.557 |
0.30 |
296.417 |
247.762 |
合计 |
1906.647 |
1503.502 |
(3) 置信度阈值变化情况下教育数据课程正负关联规则挖掘时间比较。支持度为0.2,项目个数为20,置信度阈值取值0.1到0.9,本发明方法和对比方法的教育数据课程正负关联规则挖掘时间比较如表13所示。
表13 在不同置信度阈值下正负关联规则挖掘时间(秒)比较
mc |
PNARM |
本发明方法 |
0.1 |
308.475 |
257.765 |
0.2 |
306.410 |
254.301 |
0.3 |
305.714 |
252.300 |
0.4 |
306.386 |
254.343 |
0.5 |
303.828 |
253.844 |
0.6 |
302.828 |
253.157 |
0.7 |
302.705 |
253.343 |
0.8 |
302.542 |
250.07 |
0.9 |
301.127 |
248.476 |
合计 |
2740.015 |
2277.599 |
实验4:正负关联模式实例分析
下面是对2种方法挖掘出来的教育数据课程正负关联规则模式进行合理性分析,列举了2种方法挖掘出的部分课程正负关联规则模式实例,如表14和表15所示。
表14列举了本文方法挖掘的矩阵加权正负关联模式实例。通过模式分析发现,所列举的课程正负关联模式与现实情况很接近,是合理的、有效的模式。例如,学好《英语语法》、《英汉翻译》、《英语朗读技巧》、《英语语音》等课程,能促进《英文报刊阅读》课程的学习与掌握(序号1、2和3模式),它们之间是正相关关联;没有学好《商务英语听力》,也很难学好《会场培训英语》、《剑桥商务英语》、《英语口语》和《国际贸易英语》课程(序号4、5和6模式)。
表15列举的是对比方法挖掘的部分无加权课程正负关联规则模式。对其模式分析后发现,对比算法挖掘的正负关联模式中有些与现实情况不尽相符,存在一些不合理的、无效的模式,特别是挖掘出的负关联规则模式I1→﹁I2和﹁I1→I2对于课程成绩数据关联分析来说意义不是很大。例如,序号1模式表明学好了《旅游概论》课程可以有助于学好《旅游地理》课程,与现实基本相符,是一条有效模式,但是,序号2模式的前件和后件似乎关系不是很大,互不受影响,与现实基本不符,是无效模式;学不好《旅游英语》课程或者《商务英语听力》课程就可以学好《综合英语Ⅰ》(序号3、4模式),学不好《综合英语Ⅰ》就可以学好《英文报刊阅读》和《网络英语》(序号5模式),学好课程《旅游英语》就学不好《综合英语Ⅰ》课程(序号6模式),等等,这些模式都不合情理,应该是不合理模式。
综上所述,本发明方法是有效的,与现有无加权正负关联模式挖掘方法比较,具有以下特点:
(1)本发明方法所挖掘出的完全加权课程频繁项集和正关联规则模式I1→I2数量比对比方法挖掘的无加权关联模式数量少,而挖掘出的完全加权课程负项集和负关联模式﹁I1→﹁I2数量比对比方法挖掘的无加权关联模式数量多。
(2)本发明方法的课程正负关联规则模式挖掘时间比对比方法的少。
(3) 本发明方法没有挖掘出形如I1→﹁I2和﹁I1→I2的负关联规则模式,对比方法能挖掘出这类负模式。而这类负模式对于课程成绩数据关联的分析意义不是很大。
(4)本发明方法是基于学生课程成绩权值的挖掘,能挖掘出客观反映教学效果的完全加权课程关联模式,其模式更客观、更合理,更接近现实情况。