CN103995828B - 一种云存储日志数据分析方法 - Google Patents

一种云存储日志数据分析方法 Download PDF

Info

Publication number
CN103995828B
CN103995828B CN201410145688.2A CN201410145688A CN103995828B CN 103995828 B CN103995828 B CN 103995828B CN 201410145688 A CN201410145688 A CN 201410145688A CN 103995828 B CN103995828 B CN 103995828B
Authority
CN
China
Prior art keywords
matrix
row
frequent
daily record
cloud storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410145688.2A
Other languages
English (en)
Other versions
CN103995828A (zh
Inventor
樊凯
李晖
郝延静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Original Assignee
XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE filed Critical XIDIAN-NINGBO INFORMATION TECHNOLOGY INSTITUTE
Priority to CN201410145688.2A priority Critical patent/CN103995828B/zh
Publication of CN103995828A publication Critical patent/CN103995828A/zh
Application granted granted Critical
Publication of CN103995828B publication Critical patent/CN103995828B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种云存储日志数据分析方法,步骤1、对云存储日志的数据进行预分析;步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;步骤4、输出步骤3得到的关联规则.本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。

Description

一种云存储日志数据分析方法
技术领域
本发明属于数据分析技术领域,特别涉及一种云存储日志数据分析方法,可用于云存储***日志的数据分析。
背景技术
云存储***在运行的过程中,会产生大量的日志文件。这些日志文件记录了***管理员对***的操作情况,用户对***的访问情况以及***服务器接收、分析请求、运行时错误等各种原始信息。对***管理员操作日志进行数据分析,可以规范管理员的操作;对用户访问情况日志进行数据分析,可以发现用户的行为习惯,有利于查询、分析各用户操作,提升用户满意度;对云存储服务器日志进行数据分析,可以检测***状态,排除网络故障,实现入侵检测,还能够发现云存储***自身的设计缺陷、性能瓶颈以及需要优化配置的模块。
由于云存储***所产生的日志数据量非常庞大,因而如何从大量的数据中,快速并有效地提取出有价值的信息,发现这些信息之间的相互关系,成为云存储日志数据分析中首要解决的问题。目前针对云存储***日志的数据分析的研究较少。关联准则是数据分析过程的重要组成部分,通过关联准则可以发现大量数据之间的内在关系和有价值的联系。对云存储日志进行数据分析,生成关联准则,就可以有效利用云存储日志文件。
目前,现有的云存储日志的数据分析的流程参见附图1所示,其主要包括:对云存储日志文件预处理,准则生成和对生成的准则输出进行分析利用这几个步骤。其中准则生成这一步,主要涉及寻找频繁项集和生成关联准则两个方面。其中寻找频繁项集的方法主要有Apriori算法和基于矩阵的Apriori算法。Apriori算法是一种经典的寻找频繁项集算法,该算法使用逐层搜索的迭代方法,利用前一项的计算结果得到后一项。Apriori算法被广泛的研究和改进,其中一种改进是基于矩阵的Apriori算法。这个改进是将矩阵的思想应用到该算法中,把被分析的数据库表示成矩阵的形式。通过这种方法可以将数据库的扫描次数减少为两次,缩短数据分析时间,提高算法性能。
然而,现有基于矩阵的Apriori算法存在以下问题:首先该算法的计算量比较大,当被分析的数据库中包含的数据项目较多时,该算法耗费的时间会呈指数增长,所以在对大量数据进行分析时,会耗费更多的时间;其次,该算法在进行迭代的过程中会产生过多的候选项集,存储这些候选项集会占用内存空间,并且在进行后续的迭代计算时增加计算量。这些缺点不利于从云存储日志中快速的提取关联准则,导致整个云存储日志的数据分析过程需要很长的时间,效率不高,不能及时反映云存储***的运行状态情况,不利于对***进行优化和性能提升。
发明内容
本发明所要解决的技术问题是针对上述现有技术提供一种云存储日志数据分析方法,该方法能减少计算量和迭代过程中生成的候选项集数据,能大大提高数据分析的效果。
本发明解决上述技术问题所采用的技术方案为:一种云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;
步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;
步骤4、输出步骤3得到的关联规则;
其特征在于:设常数k,k为迭代计算的次数,令k的初始值为2,所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1
候选1项集矩阵该矩阵是M行N列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤M,1≤j≤N,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,…,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Ti∈{T1,T2,…TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1';
步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。
作为改进,所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:
其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck
其中“∧”表示与运算符。
再改进,所述步骤3通过如下步骤得到关联准则:
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则
与现有技术相比,本发明的优点在于:本发明通过对频繁项集矩阵的化简来减小生成的候选项集矩阵的规模,有效的减少了后续迭代计算过程中生成的候选项集的数量;另外,在进一步改进技术方案中,发明通过自定义的矩阵运算计算候选项集矩阵,整个计算过程比较简单,能够减少数据分析过程中的运算量,缩短挖掘时间。
附图说明
图1为现有技术中云存储日志的数据分析方法流程图;
图2为本发明实施例中步骤2得到频繁项集的流程图;
图3为采用本发明实施例中的生成频繁项集方法与现有方法中生成频繁项集方法的效果对比图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
如图2所示的云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集,在该步骤中,设常数k,k为迭代计算的次数,令k的初始值为2,本步骤又是通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1
候选1项集矩阵该矩阵是M行N列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤M,1≤j≤N,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,…,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Ti∈{T1,T2,…TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',步骤2b对频繁1项集矩阵L1化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1';
步骤2c、设k为迭代计算的次数,令k的初始值为2,利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck,这里步骤2c中候选k项集矩阵Ck由下述方式计算得到:
其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck
其中“∧”表示与运算符;
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',这里步骤2d中对频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d;
步骤3、根据步骤2得到的化简后的频繁项集生成云存储日志的关联准则,具体包括:
步骤3a、给定最小置信度Sz
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则
步骤4、输出步骤3得到的关联规则。
本发明效果可以通过以下仿真进一步说明:
1.仿真条件
本发明的仿真是在主频2.5GHz intel(R)Core(TM)i5CPU的硬件环境以及MATLABR2009b,Window 7的软件环境下进行的。
2.仿真内容与结果分析
采用本发明中的生成频繁项集方法与现有方法中生成频繁项集方法,结果如图3所示。
从图3可见,两种方法的运行时间都随着最小支持度的增加而减少,但本发明的运行时间明显低于现有方法,即本发明在生成频繁项集时效率明显高于现有方法。这是由于本发明在生成候选项集时计算量小,需要的时间少,而且对频繁项集进行了化简,使生成的候选项集数量明显减少。
仿真结果表明:本发明由于采用了自定义的矩阵运算来生成候选项集,减少了生成候选项集的计算量,并通过频繁项集进行化简减少了生成的候选项集的数量,加快了云存储日志数据分析的效率。

Claims (3)

1.一种云存储日志数据分析方法,其包括如下步骤:
步骤1、对云存储日志的数据进行预分析,即删除日志数据中的重复数据,补齐日志数据中的缺失数据;
步骤2、对预分析后的云存储日志数据进行计算,得到生成关联准则需要的频繁项集;
步骤3、根据步骤2得到的频繁项集生成云存储日志的关联准则;
步骤4、输出步骤3得到的关联规则;
其特征在于:设常数k,k为迭代计算的次数,令k的初始值为2,所述步骤2中,通过以下步骤得到生成关联准则需要的频繁项集:
步骤2a、利用预分析后的云存储日志数据生成候选1项集矩阵C1
候选1项集矩阵该矩阵是M行N列矩阵,cij是该矩阵的第i行第j列的元素,i和j是候选1项集矩阵C1的位置索引,其中1≤i≤M,1≤j≤N,Ij为云存储日志数据库中记录的第j个事件,Ij∈{I1,I2,…,IN},1、2、……N表示云存储日志数据库中包含的事件的标号,N为事件的总数;Ti为云存储日志据库中的第i条日志,Ti∈{T1,T2,…TM},1、2、……M表示云存储日志据库中记录的日志的标号,M为日志的总数;cij是一个布尔值,只能取0或者1,即如果云存储日志文件记录的第i条日志Ti包含第j个事件Ij,则cij取0,否则cij取1;
步骤2b、利用给定的最小支持度Sc和候选1项集矩阵C1,计算频繁1项集矩阵L1,对该矩阵进行化简,得到化简后的频繁1项集矩阵L1',其中最小支持度Sc等于常数x乘以N,常数x的取值范围为0~1;其具体通过如下步骤实现:
步骤2b-1、计算候选1项集矩阵C1各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,得到第一中间矩阵;
步骤2b-2、计算第一中间矩阵每一行的行和,若行和小于2,则将该行删除,否则保留该行,得到第二中间矩阵;
步骤2b-3、计算第二中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成新的频繁1项集矩阵L1';
步骤2c、利用k的值求得(k-1)的值,确定出计算候选k项集矩阵Ck时需要的频繁(k-1)项集矩阵Lk-1',并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck
步骤2d、利用最小支持度Sc与候选k项集矩阵Ck,计算频繁k项集矩阵Lk,并对该频繁k项集矩阵Lk进行化简,得到化简后的频繁k项集矩阵Lk',包括如下步骤:
步骤2d-1、计算候选2项集矩阵C2中各列的列和,依次将每列列和与最小支持度Sc比较,若列小于最小支持度Sc,则删除该列,反之则保留该列,得到第三中间矩阵;
步骤2d-2、根据迭代计算次数k的值求出k+1的值,计算第三中间矩阵每一行的行和,若行和小于k+1,则将对应的行删除行,否则保留该行,得到第四中间矩阵;
步骤2d-3、再次计算第四中间矩阵各列的列和,依次将每个列和与最小支持度Sc比较,若列和小于最小支持度Sc,则删除该列,反之则保留该列,生成化简后的频繁k项集矩阵Lk';
步骤2e、判断化简后的频繁k项集矩阵Lk'是否为空矩阵,若该矩阵为空矩阵,则结束计算,否则令k自增1,重复步骤2c至步骤2d。
2.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤2c中候选k项集矩阵Ck由下述方式计算得到:
其中u,v分别表为频繁(k-1)项集矩阵Lk-1'的位置索引,并根据该频繁(k-1)项集矩阵Lk-1'得到候选k项集矩阵Ck
其中“∧”表示与运算符。
3.根据权利要求1所述的云存储日志数据分析方法,其特征在于:所述步骤3通过如下步骤得到关联准则:
步骤3a、给定最小置信度Sz,最小置信度Sz的取值范围为0~1;
步骤3b、对于化简后的频繁k项集矩阵Lk',将Lk'的每一列组成一个单列矩阵l,l∈Lk',产生单列矩阵l的所有非空子集r;
步骤3c、对于每个非空子集r,如果其中Sr是非空子集r的计数,Sl是单列矩阵l的列和,则得到关联准则
CN201410145688.2A 2014-04-11 2014-04-11 一种云存储日志数据分析方法 Expired - Fee Related CN103995828B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410145688.2A CN103995828B (zh) 2014-04-11 2014-04-11 一种云存储日志数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410145688.2A CN103995828B (zh) 2014-04-11 2014-04-11 一种云存储日志数据分析方法

Publications (2)

Publication Number Publication Date
CN103995828A CN103995828A (zh) 2014-08-20
CN103995828B true CN103995828B (zh) 2017-06-13

Family

ID=51309993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410145688.2A Expired - Fee Related CN103995828B (zh) 2014-04-11 2014-04-11 一种云存储日志数据分析方法

Country Status (1)

Country Link
CN (1) CN103995828B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104881467B (zh) * 2015-05-26 2018-08-31 上海交通大学 基于频繁项集的数据关联性分析和预读取方法
CN106991141B (zh) * 2017-03-21 2020-12-11 北京邮电大学 一种基于深度剪枝策略的关联规则挖掘方法
CN108536841A (zh) * 2018-04-13 2018-09-14 国家计算机网络与信息安全管理中心 基于业务用户习惯的智能学习查询模型
CN108830655A (zh) * 2018-06-19 2018-11-16 郑州云海信息技术有限公司 一种用户操作关系获取方法及相关装置
CN109947728B (zh) * 2019-03-11 2023-09-05 ***股份有限公司 一种日志文件的处理方法及装置
CN111125183B (zh) * 2019-11-07 2023-06-23 北京科技大学 一种雾环境下基于CFI-Apriori算法的元组度量方法及***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370033B1 (en) * 2002-05-17 2008-05-06 Oracle International Corporation Method for extracting association rules from transactions in a database
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7370033B1 (en) * 2002-05-17 2008-05-06 Oracle International Corporation Method for extracting association rules from transactions in a database
CN103020256A (zh) * 2012-12-21 2013-04-03 电子科技大学 一种大规模数据的关联规则挖掘方法
CN103279570A (zh) * 2013-06-19 2013-09-04 广西教育学院 一种面向文本数据库的矩阵加权负模式挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
关联规则中频繁项集高效挖掘的研究;张云涛等;《计算机工程与应用》;20111231;第139-141页 *
基于向量和矩阵的频繁项集挖掘算法研究;张敏等;《计算机工程与设计》;20130331;第34卷(第3期);第939-943页 *
基于项目集格及位图索引的频繁项目集发现算法;陈富赞等;《***工程理论与实践》;20080229(第2期);第26-34页 *

Also Published As

Publication number Publication date
CN103995828A (zh) 2014-08-20

Similar Documents

Publication Publication Date Title
CN105069703B (zh) 一种电网海量数据管理方法
Mehmood et al. Implementing big data lake for heterogeneous data sources
CN103995828B (zh) 一种云存储日志数据分析方法
Yang et al. A system architecture for manufacturing process analysis based on big data and process mining techniques
CN105912666B (zh) 一种面向云平台的混合结构数据高性能存储、查询方法
CN104112026B (zh) 一种短信文本分类方法及***
CN106960006A (zh) 一种不同轨迹间相似度度量***及其度量方法
CN113254630B (zh) 一种面向全球综合观测成果的领域知识图谱推荐方法
CN111343161A (zh) 异常信息处理节点分析方法、装置、介质及电子设备
CN105389341A (zh) 一种客服电话重复来电工单的文本聚类与分析方法
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN110121729A (zh) 用于识别和表征数据流中包含的信号的***和方法
CN109308290A (zh) 一种基于cim的高效数据清洗转换方法
CN117873839B (zh) 复杂算力***的故障检测方法、装置、设备和存储介质
CN113779261A (zh) 知识图谱的质量评价方法、装置、计算机设备及存储介质
CN109213793A (zh) 一种流式数据处理方法和***
CN110442614B (zh) 元数据的搜索方法及装置、电子设备、存储介质
Li et al. Automatic classification algorithm for multisearch data association rules in wireless networks
Hassan et al. Sampling technique selection framework for knowledge discovery
Mathai et al. An efficient approach for item set mining using both utility and frequency based methods
CN107562909A (zh) 一种融合搜索与计算的大数据分析***及其分析方法
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质
JP6201053B2 (ja) 素性データ管理システム、および素性データ管理方法
Vakali et al. New directions in web data management 1
de Sousa et al. Integrated detection and localization of concept drifts in process mining with batch and stream trace clustering support

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170613