CN112131285A - 一种动态时序数据的关联规则挖掘方法及装置 - Google Patents

一种动态时序数据的关联规则挖掘方法及装置 Download PDF

Info

Publication number
CN112131285A
CN112131285A CN202011138075.8A CN202011138075A CN112131285A CN 112131285 A CN112131285 A CN 112131285A CN 202011138075 A CN202011138075 A CN 202011138075A CN 112131285 A CN112131285 A CN 112131285A
Authority
CN
China
Prior art keywords
degree
index
confidence
mining
support
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011138075.8A
Other languages
English (en)
Other versions
CN112131285B (zh
Inventor
郭成
李胜男
王加富
段军鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power Grid Co Ltd filed Critical Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority to CN202011138075.8A priority Critical patent/CN112131285B/zh
Publication of CN112131285A publication Critical patent/CN112131285A/zh
Application granted granted Critical
Publication of CN112131285B publication Critical patent/CN112131285B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种动态时序数据的关联规则挖掘方法及装置,包括:获取指标对应的动态时序数据,对动态时序数据进行预处理得到待挖掘数据;根据指标构建指标网络;根据指标网络及待挖掘数据计算指标的支持度及置信度;根据支持度及置信度的计算结果判断指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则‑挖掘矩阵;根据置信度计算kulc度及不平衡度;根据kulc度及不平衡度的计算结果更新规则‑挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法,能够通过构建指标网络进行挖掘,避免对数据进行区间划分,实现关联规则的挖掘,具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。

Description

一种动态时序数据的关联规则挖掘方法及装置
技术领域
本申请涉及数据挖掘领域,尤其涉及一种动态时序数据的的关联规则挖掘方法及装置。
背景技术
从大规模数据中挖掘对象之间的隐含关系被称为关联规则挖掘。关联规则可以从侧面揭示事物之间的联系,常用的关联挖掘算法均是基于频繁项集的思想进行挖掘,例如FP-growth算法和Apriori算法等。
FP-growth算法和Apriori算法在开始挖掘时,需要对数据进行转换,即对数据进行离散处理,具体的,将包括连续数据的数据集进行区间划分。
在实际应用中,区间划分的不同,往往会导致挖掘结果的不同。例如,等宽区间划分会存在因区间宽度不同而影响挖掘结果的问题,区间宽度过小,则可能导致难以挖掘出频繁项,区间宽度过大,则可能导致挖掘结果偏差较大。等频区间划分则可能导致两个相同的数值被分进了不同的区间,对挖掘结果的准确性有影响。
发明内容
本申请提供一种动态时序数据的关联规则挖掘方法及装置,以解决传统关联规则挖掘方法区间划分对挖掘结果准确性有影响的问题。
一方面,本申请提供一种动态时序数据的关联规则挖掘方法,包括:
获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;
根据所述指标构建指标网络;
根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;
根据所述置信度计算kulc度及不平衡度;
根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
可选的,根据所述支持度及所述置信度的计算结果判断所述指标是否存在关联的步骤包括:将支持度计算结果与支持度阈值进行对比,将置信度计算结果与置信度阈值进行对比,如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值,则所述指标存在关联,如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值,则所述指标不存在关联。
可选的,根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵的步骤包括:将kulc度计算结果与kulc度阈值进行对比,将不平衡度计算结果与不平衡度阈值进行对比,如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值,则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。
可选的,所述挖掘方法限制最大频繁项阶数为2阶。
可选的,所述支持度计算公式为:
S(A,B)=s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B);
其中,S(A,B)表示指标A及指标B的支持度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
可选的,所述置信度计算公式为:
C(A->B)=c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B);
其中,C(A->B)表示指标A指向指标B的置信度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
可选的,所述规则-挖掘矩阵如下:
T=f(R,S,C);
其中,R为规则矩阵,S、C分别为支持度矩阵合集、置信度矩阵合集;
又有:
Figure BDA0002737325610000021
其中,如果指标A及指标B存在关联,则rAB=1,如果指标A及指标B不存在关联,则rAB=0;
又有:
S={SAB,SAC,SAD...};
C={CAB,CAC,CAD...};
其中:SAB为指标A及指标B的支持度矩阵,SAC指标A及指标C的支持度矩阵,SAD为指标A及指标D的支持度矩阵,CAB为指标A及指标B的置信度矩阵,CAC为指标A及指标C的置信度矩阵,CAD为指标A及指标D的置信度矩阵;
又有:
SAB={s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B};
CAB={c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B};
其中:s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B表示支持度的值,c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B表示置信度的值。
可选的,kulc度的计算公式如下:
Figure BDA0002737325610000031
其中:kulc(A,B)表示指标A及指标B的kulc度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
可选的,不平衡度的计算公式如下:
Figure BDA0002737325610000032
其中:IR(A,B)表示指标A及指标B的不平衡度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
另一方面,本申请还提供一种动态时序数据的关联规则挖掘装置,包括:
预处理模块,用于获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;
指标网络构建模块,用于根据所述指标构建指标网络;
第一计算模块,用于根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
矩阵输出模块,用于根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;
第二计算模块,用于根据所述置信度计算kulc度及不平衡度;
矩阵更新模块,用于根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
由以上技术方案可知,本申请提供一种动态时序数据的关联规则挖掘方法及装置,包括:获取指标对应的动态时序数据,对动态时序数据进行预处理得到待挖掘数据;根据指标构建指标网络;根据指标网络及待挖掘数据计算指标的支持度及置信度;根据支持度及置信度的计算结果判断指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;根据置信度计算kulc度及不平衡度;根据kulc度及不平衡度的计算结果更新规则-挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法,能够通过构建指标网络进行挖掘,避免对数据进行区间划分,实现关联规则的挖掘,具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种动态时序数据的关联规则挖掘方法流程示意图;
图2为本申请指标网络一种实施例示意图;
图3为本申请一种动态时序数据的关联规则挖掘方法测试结果图;
图4为本申请一种动态时序数据的关联规则挖掘方法又一测试结果图;
图5为本申请一种动态时序数据的关联规则挖掘装置结构示意图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的***和方法的示例。
本申请提供一种动态时序数据的关联规则挖掘方法及装置,具体的,所述挖掘方法及装置基于频繁项集的思想。项的集合称为项集(数据集),包含k个项的项集称为k-项集。项集的出现频率(支持计数)是项集的事务数,简称为项集的频率、支持度、支持率计数或者计数。如果项集I的相对出现频率大于等于预定义的最小支持度阈值,则I是频繁项集。
参见图1,为本申请一种动态时序数据的关联规则挖掘方法流程示意图。由图1可知。本申请提供的一种动态时序数据的关联规则挖掘方法,包括以下步骤:
S1:获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据。
动态时序数据是指随着时间的变化而改变的数据。以指标A为例,对于指标A对应的动态时序数据,预处理过程即为,如果所述动态时序数据某一时刻的数值大小相对于前一时刻增加,则记为“+”,相对于前一时刻减小,则记为“-”,相对于前一时刻相同,则记为“*”。对所述动态时序数据进行预处理后,即可得到待挖掘数据。在实际应用中,对动态时序数据的预处理还包括数据清洗及数据去耦合等步骤,本申请不作具体限定。
S2:根据所述指标构建指标网络。
参见图2,为本申请指标网络一种实施例示意图。由图2可知,本申请构建的指标网络为无向全连接网络,把所有待挖掘的指标均压缩进指标网络,可以实现指标之间的连接,即每个指标之间均存在连接关系。例如,图中示出了A~P共16个指标,每个指标之间均实现了连接,在挖掘过程中,可以达到每两个指标均进行挖掘的目的。压缩进指标网络的指标数可以根据实际需要进行设计,因此无向全连接网络具有使用灵活,连接效果好的特点,并且通过指标网络可以避免对数据进行离散化处理,减少了离散化处理对挖掘产生的影响。
S3:根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
支持度,可以理解为支持的程度,表示前项与后项在一个数据集中出现的频率。置信度,也称可靠度、置信水平或置信系数,具体指总体参数值落在样本统计值某一区内的概率。在实际应用中,通过所述指标网络可以计算任意指标之间的支持度与置信度。具体的,所述挖掘方法限制最大频繁项阶数为2阶,即限制指标网络挖掘阶数为2。即,计算每两个指标之间的支持度与置信度。对最大频繁项进行阶数进行限制,可以避免规则的冗余。
以指标A及指标B为例,所述支持度的计算公式为:
S(A,B)=s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B);
其中,S(A,B)表示指标A及指标B的支持度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
所述置信度的计算公式为:
C(A->B)=c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B);
其中,C(A->B)表示指标A指向指标B的置信度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
对于指标A及指标B,增大、减小和相同三种情况随机且互斥,只有当发生指标A增大且指标B也增大、指标A增大指标B减小、指标A增大指标B不变、指标A减小指标B增大、指标A减小且指标B也减小、指标A减小指标B不变、指标A不变指标B增大、指标A不变指标B减小以及指标A不变且指标B也不变几种情况时,才能判断两指标之间可能存在关联。对几种情况进行表示即是支持度计算公式示出的+A+B、+A-B、+A*B、-A+B、-A-B、-A*B、*A+B、*A-B、*A*B。
S4:根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵。
具体还包括如下步骤:将支持度计算结果与支持度阈值进行对比,将置信度计算结果与置信度阈值进行对比,如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值,则所述指标存在关联,如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值,则所述指标不存在关联。即,只有当支持度的计算结果和置信度的计算结果均满足相应阈值时,才能得出两个指标存在关联。在实际应用中,所述支持度阈值以及所述置信度阈值的具体数值可以根据实际需要进行设计。
进一步的,所述规则-挖掘矩阵如下:
T=f(R,S,C);
其中,R为规则矩阵,S、C分别为支持度矩阵合集、置信度矩阵合集。
又有:
Figure BDA0002737325610000071
其中,如果指标A及指标B存在关联,则rAB=1,如果指标A及指标B不存在关联,则rAB=0;在实际应用中,根据两指标是否存在关联填充所述规则矩阵R即可。
又有:
S={SAB,SAC,SAD...};
C={CAB,CAC,CAD...};
其中:SAB为指标A及指标B的支持度矩阵,SAC指标A及指标C的支持度矩阵,SAD为指标A及指标D的支持度矩阵,CAB为指标A及指标B的置信度矩阵,CAC为指标A及指标C的置信度矩阵,CAD为指标A及指标D的置信度矩阵;
又有:
SAB={s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B};
CAB={c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B};
其中:s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B表示支持度的值,c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B表示置信度的值。
通过支持度与置信度建立的规则-挖掘矩阵还存在一些意义较小的关联规则,需要进一步的进行筛选。具体如下:
S5:根据所述置信度计算kulc度及不平衡度。
具体的,kulc度的计算公式如下:
Figure BDA0002737325610000072
其中:kulc(A,B)表示指标A及指标B的kulc度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
不平衡度的计算公式如下:
Figure BDA0002737325610000081
其中:IR(A,B)表示指标A及指标B的不平衡度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
在实际应用中,上述计算过程避开了支持度的计算,因此不会受零和事务的影响。不平衡度通过计算两个指标相互影响的情况能较好的筛去不平衡的规则。
S6:根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
具体还包括如下步骤:将kulc度计算结果与kulc度阈值进行对比,将不平衡度计算结果与不平衡度阈值进行对比,如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值,则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。即,如果kulc度及不平衡度的计算结果存在不符合阈值的情况,其对应的规则即为不平衡规则,需要将所述kulc度计算结果对应的指标从规则-挖掘矩阵中删除。随着指标网络的挖掘,规则-挖掘矩阵也不断更新,直至挖掘结束。在实际应用中,所述kulc度阈值以及所述不平衡度阈值可以根据实际情况进行确定。通过输出规则-挖掘矩阵即可实现关联规则的挖掘。随着挖掘的进行不断更新规则-挖掘矩阵,直至挖掘结束。
参见图3,为本申请一种动态时序数据的关联规则挖掘方法测试结果图。参见图4,为本申请一种动态时序数据的关联规则挖掘方法又一测试结果图。将本申请提供的关联规则挖掘方法与FP-growth算法及Apriori算法进行对比,将本申请的挖掘方法命名为DBARMA算法,各算法的参数设置如下:
(1)DBARMA:Smin=0.5%,Cmin=75%,Kluc=35%;
(2)Apriori:Smin=0.5%,Cmin=75%,Kluc=35%;
(3)FP-growth:Smin=0.5%,Cmin=75%,Kluc=35%;
其中,Smin表示支持度阈值,Cmin表示置信度阈值,Kluc表示kulc度阈值。
在相同条件下,采用包含1382000条数据的数据库,取Smin=0.5%,对算法进行运行速度测试。由图3可知,在小规模数据的情况下,由于DBARMA算法需要构建指标网络,因此相对于FP-growth算法及Apriori算法速度较慢,但随着数据量的增大,DBARMA算法在运行速度方面体现出了一定的优势。在相同条件下,采用包含1382000条数据的数据库,取Smin=0.5%,Cmin=75%,采用Kluc=35%,不平衡度{0.6~2}对关联规则进行过滤,进而对算法进行性能测试。由图4可知,在小规模数据下集中算挖的挖掘结果经过kulc度和所述不平衡度的过滤得到的规则数量无太大差别,但随着数据规模的增大,基于指标网络的DBARMA算法与其余两种算法相比,在相同参数、相同过滤条件下,能够得到较多有意义的关联规则。
基于上述动态时序数据的关联规则挖掘方法,本申请还提供一种动态时序数据的关联规则挖掘装置。参见图5,为本申请一种动态时序数据的关联规则挖掘装置结构示意图。由图5可知,所述装置包括:
预处理模块,用于获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;
指标网络构建模块,用于根据所述指标构建指标网络;
第一计算模块,用于根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
矩阵输出模块,用于根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;
第二计算模块,用于根据所述置信度计算kulc度及不平衡度;
矩阵更新模块,用于根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
由以上技术方案可知,本申请提供一种动态时序数据的关联规则挖掘方法及装置,包括:获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;根据所述指标构建指标网络;根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;根据所述置信度计算kulc度及不平衡度;根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。本申请提供的动态时序数据的关联规则挖掘方法,能够通过构建指标网络进行数据挖掘,避免对数据进行区间划分,在不断挖掘过程中更新并输出规则-挖掘矩阵,以实现关联规则的挖掘。在实际应用中,具有挖掘准确、运行迅速以及输出的关联规则更具意义的特点。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。

Claims (10)

1.一种动态时序数据的关联规则挖掘方法,其特征在于,包括:
获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;
根据所述指标构建指标网络;
根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;
根据所述置信度计算kulc度及不平衡度;
根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
2.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,根据所述支持度及所述置信度的计算结果判断所述指标是否存在关联的步骤包括:将支持度计算结果与支持度阈值进行对比,将置信度计算结果与置信度阈值进行对比,如果支持度计算结果满足支持度阈值且置信度计算结果满足置信度阈值,则所述指标存在关联,如果支持度计算结果不满足支持度阈值和/或置信度计算结果不满足置信度阈值,则所述指标不存在关联。
3.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵的步骤包括:将kulc度计算结果与kulc度阈值进行对比,将不平衡度计算结果与不平衡度阈值进行对比,如果kulc度计算结果不满足kulc度阈值和/或不平衡度计算结果不满足不平衡度阈值,则将kulc度对应的支持度及置信度的计算结果从规则-挖掘矩阵中删除。
4.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,所述挖掘方法限制最大频繁项阶数为2阶。
5.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,所述支持度计算公式为:
S(A,B)=s(+A+B)+s(+A-B)+s(-A+B)+s(-A-B)+s(*A*B);
其中,S(A,B)表示指标A及指标B的支持度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
6.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,所述置信度计算公式为:
C(A->B)=c(+A+B)+c(+A-B)+c(-A+B)+c(-A-B)+c(*A*B);
其中,C(A->B)表示指标A指向指标B的置信度,+A、-A、+B、-B、*A、*B表示经过预处理的待挖掘数据。
7.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,所述规则-挖掘矩阵如下:
T=f(R,S,C);
其中,R为规则矩阵,S、C分别为支持度矩阵合集、置信度矩阵合集;
又有:
Figure FDA0002737325600000021
其中,如果指标A及指标B存在关联,则rAB=1,如果指标A及指标B不存在关联,则rAB=0;
又有:
S={SAB,SAC,SAD...};
C={CAB,CAC,CAD...};
其中:SAB为指标A及指标B的支持度矩阵,SAC指标A及指标C的支持度矩阵,SAD为指标A及指标D的支持度矩阵,CAB为指标A及指标B的置信度矩阵,CAC为指标A及指标C的置信度矩阵,CAD为指标A及指标D的置信度矩阵;
又有:
SAB={s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B};
CAB={c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B};
其中:s+A+B,s+A-B,s+A*B,s-A+B,s-A-B,s-A*B,s*A+B,s*A-B,s*A*B表示支持度的值,c+A+B,c+A-B,c+A*B,c-A+B,c-A-B,c-A*B,c*A+B,c*A-B,c*A*B表示置信度的值。
8.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,kulc度的计算公式如下:
Figure FDA0002737325600000022
其中:kulc(A,B)表示指标A及指标B的kulc度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
9.根据权利要求1所述的动态时序数据的关联规则挖掘方法,其特征在于,不平衡度的计算公式如下:
Figure FDA0002737325600000023
其中:IR(A,B)表示指标A及指标B的不平衡度,C(A->B)为A指向B的置信度,C(B->A)为B指向A的置信度。
10.一种动态时序数据的关联规则挖掘装置,其特征在于,包括:
预处理模块,用于获取指标对应的动态时序数据,对所述动态时序数据进行预处理得到待挖掘数据;
指标网络构建模块,用于根据所述指标构建指标网络;
第一计算模块,用于根据所述指标网络及所述待挖掘数据计算所述指标的支持度及置信度;
矩阵输出模块,用于根据支持度及置信度的计算结果判断所述指标是否存在关联,将存在关联的指标对应的支持度及置信度的计算结果存储至规则-挖掘矩阵;
第二计算模块,用于根据所述置信度计算kulc度及不平衡度;
矩阵更新模块,用于根据所述kulc度及所述不平衡度的计算结果更新所述规则-挖掘矩阵。
CN202011138075.8A 2020-10-22 2020-10-22 一种动态时序数据的关联规则挖掘方法及装置 Active CN112131285B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011138075.8A CN112131285B (zh) 2020-10-22 2020-10-22 一种动态时序数据的关联规则挖掘方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011138075.8A CN112131285B (zh) 2020-10-22 2020-10-22 一种动态时序数据的关联规则挖掘方法及装置

Publications (2)

Publication Number Publication Date
CN112131285A true CN112131285A (zh) 2020-12-25
CN112131285B CN112131285B (zh) 2024-06-21

Family

ID=73853380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011138075.8A Active CN112131285B (zh) 2020-10-22 2020-10-22 一种动态时序数据的关联规则挖掘方法及装置

Country Status (1)

Country Link
CN (1) CN112131285B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734261A (zh) * 2021-01-18 2021-04-30 国网山东省电力公司菏泽供电公司 一种配电网运行指标序列关联分析方法及***
CN113806765A (zh) * 2021-08-12 2021-12-17 中国信息通信研究院 物联网设备数据安全防护方法及装置
CN114595271A (zh) * 2022-02-24 2022-06-07 贵州具京网络科技有限公司 一种大数据挖掘方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011096A1 (en) * 2015-07-07 2017-01-12 Sap Se Frequent item-set mining based on item absence
CN107609107A (zh) * 2017-09-13 2018-01-19 大连理工大学 一种基于多源城市数据的出行共现现象可视化分析方法
CN110136008A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 利用大数据的产品数据推送方法、装置、设备和存储介质
CN111625574A (zh) * 2019-12-09 2020-09-04 昆明理工大学 一种基于布尔矩阵约简的关联规则挖掘算法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170011096A1 (en) * 2015-07-07 2017-01-12 Sap Se Frequent item-set mining based on item absence
CN107609107A (zh) * 2017-09-13 2018-01-19 大连理工大学 一种基于多源城市数据的出行共现现象可视化分析方法
CN110136008A (zh) * 2019-04-15 2019-08-16 深圳壹账通智能科技有限公司 利用大数据的产品数据推送方法、装置、设备和存储介质
CN111625574A (zh) * 2019-12-09 2020-09-04 昆明理工大学 一种基于布尔矩阵约简的关联规则挖掘算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈斌;姚敏;: "一种新的动态关联规则及其挖掘算法", 控制与决策, no. 09 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112734261A (zh) * 2021-01-18 2021-04-30 国网山东省电力公司菏泽供电公司 一种配电网运行指标序列关联分析方法及***
CN113806765A (zh) * 2021-08-12 2021-12-17 中国信息通信研究院 物联网设备数据安全防护方法及装置
CN114595271A (zh) * 2022-02-24 2022-06-07 贵州具京网络科技有限公司 一种大数据挖掘方法及***
CN114595271B (zh) * 2022-02-24 2022-12-13 北京中数睿智科技有限公司 一种大数据挖掘方法及***

Also Published As

Publication number Publication date
CN112131285B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN112131285A (zh) 一种动态时序数据的关联规则挖掘方法及装置
Hong et al. Fuzzy linear regression analysis for fuzzy input–output data using shape-preserving operations
CN104756106A (zh) 表征数据存储***中的数据源
CN109582714B (zh) 一种基于时间衰减关联的政务事项数据处理方法
Suri et al. On the most likely voronoi diagram and nearest neighbor searching
Bai et al. Nontrivial solutions of boundary value problems of second-order difference equations
Coonen Underflow and the denormalized numbers
CN113468382A (zh) 基于知识联邦的多方环路检测方法、装置及相关设备
Reddy et al. The accuracy of the Chebyshev differencing method for analytic functions
Moklyachuk et al. Filtering problem for functionals of stationary sequences
Bukszár et al. Probability bounds given by hypercherry trees
Tsabadze A method for aggregation of trapezoidal fuzzy estimates under group decision-making
Edalat A computable approach to measure and integration theory
CN115952156A (zh) 一种数据清洗方法、装置、计算机设备及可读介质
CN113434823B (zh) 数据采集任务异常预警方法、装置、计算机设备和介质
Pap Pseudo-analysis approach to nonlinear partial differential equations
Lu et al. On Shimura curves in the Torelli locus of curves
Farahani et al. Finding fuzzy inverse matrix using Wu’s method
Castro et al. On a seminal paper by Karlin and McGregor
Graillat et al. On the maximum relative error when computing integer powers by iterated multiplications in floating-point arithmetic
Parchami et al. A consistent confidence interval for fuzzy capability index
CN113392378A (zh) 一种基于时间序列的围岩变形多点突变识别方法及***
Aytac et al. On exponential bondage number of a graph
Eggels et al. Quantifying dependencies for sensitivity analysis with multivariate input sample data
Wright A note on computing maximum likelihood estimates for the three-parameter asymmetric Laplace distribution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant