CN103488757A

CN103488757A - 一种基于云计算的聚类特征等值直方图的维护方法

Info

Publication number: CN103488757A
Application number: CN201310440281.8A
Authority: CN
Inventors: 侯德龙; 马旭军; 曹玲玲; 方雪静
Original assignee: Inspur Electronic Information Industry Co Ltd
Current assignee: Inspur Electronic Information Industry Co Ltd
Priority date: 2013-09-25
Filing date: 2013-09-25
Publication date: 2014-01-01

Abstract

本发明提供一种基于云计算的聚类特征等值直方图的维护方法，从聚类方法中采用不同的策略，该方法在簇的层次上优化聚类参数来定义聚类标准函数（或全局相似测量）。每个新的数据和现有簇进行比较，而不是每个数据。全局度量计算速度远远超过成对相似性度量。利用全局相似性度量的概念，对异构XML文档进行有效分组的具有层级相似的XML文档聚类（XCLS）方法。另一个XCLS的优点是它的层级结构格式，该格式是为在聚类处理中有效表述文件而开发的。为提高聚类过程速度，在层级结构式包含在标记名称中的语义将被忽略，将用编号代替。事实上，聚类过程也不包括标签的内容。新的全局标准函数，叫做LevelSim，是在聚类级别利用层级关系测量文件属性之间的相似性。实验结果表明，XCLS是一种准确，快速和可扩展的XML文档分组方法。

Description

一种基于云计算的聚类特征等值直方图的维护方法

技术领域

本发明涉及计算机应用技术领域,具体地说是一种基于云计算的聚类特征等值直方图的维护方法。

随着网络信息时代的来临，XML由于其良好的结构性和可扩展性，越来越多的用于网络信息的交流，这导致生成了大量XML数据流。如何从海量异构的XML文档中找到有用信息成为重要研究课题。其中面向XML数据流的聚类算法越来越多的得到人们的注意。为了在线聚类这些XML数据流，本文介绍了一种基于滑动窗口的XML聚类算法。该算法将XML文档或文档集概化为一种层结构，并将该层结构组织成等值直方图用于表示一个实时类；为了在线聚类的维护，采用了滑动窗口技术实现动态添加与删除XML文档的操作。

背景技术

数据流最初是通信领域中使用的概念，代表传输中使用的信息的数字编码信号序列。现在所说的数据流属于广义概念，指的是以流的形式产生的数据，其所用的范围广得多。广义上的数据流最早出现于传统的银行和股票交易领域，后来出现在地质测量、气象和天文观测等方面，而互联网和无线通信网的出现，同样产生了大量数据流类型的数据，比如网络流量监控、点击流和通话记录等。

传统的数据挖掘方法一般是针对静态数据的挖掘，在静态数据中它们可以高效地挖掘出有用的知识和信息，因此，最初对数据的分析往往是在脱机情况下进行的数据挖掘。然而一些新的应用对时间因素非常敏感，比如网络安全和国家安全领域方面，而传统的数据挖掘方法却无法适应高速的、大量的、实时性很强的数据流数据。因此，针对数据流的挖掘技术已经成为人们研究的重点。在数据流挖掘技术中，数据流一般采用这样的定义：数据流是指可能无限的、持续而快速到达的数据序列，它主要分为三种类型：Time Series Model，Cash Register Model，Turnstile Model。

到目前为止，理论界比较公认的数据流挖掘方法应具备如下特点[8]：

（1）对于每条数据的处理都必须用很少的时间，否则数据的处理会落后于数据的积累。

（2）使用有限的内存；

（3）数据只能扫描一遍，因为没有时间和空间再访问以前的数据；

（4）在任何时刻都能够得到模式，而不是在所有的处理完成后生成模式；

（5）应建立与数据库中的数据模型等价或近似等价的数据模型；

（6）当数据的产生随时间变化而变化时，要保证模型在任何时候都是动态更新的，并且能保留过去未过时的信息；

（7）尽量保证算法能够在线挖掘数据，也就是说尽量不采用先挖掘出中间结果，再通过中间结果挖掘出知识的方法，而是尽量使算法做到能在需要的时候直接输出挖掘结果。

由于传统的数据挖掘方法已经很难适应数据流挖掘的过程，这就需要新的方法来专门处理数据流挖掘的问题。数据挖掘中一些基础性的挖掘技术，如分类、聚类和关联规则等，如果应用在数据流的环境中，都要对相应的挖掘算法提出更高的要求。因此数据流挖掘成为数据挖掘领域比较新的研究热点，也引起了越来越多人的关注。

随着网络技术的快速发展，XML由于其灵活性和自我们描述的性质，得到了广泛的应用。基于XML网络数据的一些例子包括技术期刊，文献数据库，雅虎，eBay，和政府部门。作为两个主要标准数据和元数据的表示XML被广泛采用，这导致XML的数据收集大量。因此，如何从海量异类的XML文件中找到有用信息迫在眉睫。

一些数据库工具满足XML数据的发送、存储、整合和查询。尽管如此，它们都需要有效地数据库管理技术，比如基于结构相似性上的索引技术。基于结构相似性上的索引技术现在广泛应用在网络搜索引擎的后台处理工作。当用户需要索引一批结构相似的XML文档数据的时候，如何从大量的异构XML数据中找到相似度足够高的一批文档就成了一个需要解决的重要问题。

数据挖掘技术的分支之一聚类恰好可以根据文件结构的相似性进行分组以便进行其他应用。XML结构相似性的评估同时对网络数据的管理有着极大的价值。许多从多个网络数据源提取整合相关信息的技术都需要根据它们的相似性对数据进行分组。

聚类技术在对海量的、符号和文本数据进行分组方面已经发展了很多年。XML数据的聚类和平面数据和文本的聚类有很大不同，甚至更复杂。

发明内容

本发明的目的是提供一种基于云计算的聚类特征等值直方图的维护方法。

本发明的目的是按以下方式实现的，对滑动窗口进行聚类，采用反应数据结构的聚类特征等值直方图来表示，聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶，每一个桶存储该组元组的聚类特征，称为时间聚类特征，时间聚类特征除了包含聚类特征外，还含有时标信息，当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时，则删除该桶；

等值直方图的维护是基于滑动窗口的，若滑动窗口未满的时候直接进行聚类操作，先进行等值直方图的删除，然后在聚类，假设新进入的XML文档概化结构x，窗口大小N，相似度阙值LevelSim，以聚类的簇为EHCF，维护步骤如下：

1：判断滑动窗口大小是否等于N；

2：若不等于{

3：循环遍历所有EHCF与x的相似度大小；

4：若大于阙值把x加入到该EHCF；

5：否则继续遍历

6：}若等于窗口大小N{

7：找到最早进入窗口的XML文档所在的簇；

8：删除该簇中最早到达的TCF；

9：重复操作步骤3到5；

10：}

11：当3步骤找到相似度大于阙值的簇EHCF的时候，就要进行EHCF的添加工作，首先判断EHCF中最后添加的桶TCF内保存的XML文档个数是否已经达到桶的最大值，若未达到直接把x添加到该TCF中，否则在EHCF重新创建一个TCF把x加入其中；

12：如果进入x的时候窗口已满，则要进行删除工作，首先根据EHCF中保存的时间戳TimeStep找到窗口内最早进入的EHCF，然后找到该EHCF中最早进入的TCF，删除这个TCF，这样窗口内就减少了n个XML文档，这样就能继续添加最近的XML文档了。

本发明的有益效果是：本文从聚类方法中采用不同的策略。该方法在簇的层次上优化聚类参数来定义聚类标准函数（或全局相似测量）。每个新的数据和现有簇进行比较，而不是每个数据。全局度量计算速度远远超过成对相似性度量。利用全局相似性度量的概念，本文将介绍对异构XML文档进行有效分组的具有层级相似的XML文档聚类（XCLS）方法。另一个XCLS的优点是它的层级结构格式，该格式是为在聚类处理中有效表述文件而开发的。为提高聚类过程速度，在层级结构式包含在标记名称中的语义将被忽略，将用编号代替。事实上，聚类过程也不包括标签的内容。新的全局标准函数，叫做LevelSim，是在聚类级别利用层级关系测量文件属性之间的相似性。实验结果表明，XCLS是一种准确，快速和可扩展的XML文档分组方法。

附图说明

附图1是XML树形结构示意图；

图2是层次形式的XML结构。

具体实施方式

参照说明书附图对本发明的方法作以下详细地说明。

本文介绍的方法是把XML文档概化为层次结构。由于XML的灵活性很难把所有的XML文档的语意规范化。所以不能用一个结构来定义它。就算使用了同一个结构，也肯能因为应用领域的不同而导致完成聚类算法。为了适应一般的网络文件和任何类型的XML文档，XCLS算法从推断文档中的结构信息开始，把这些文件开始预处理的时候就表示为有序的标记树。每个新来的XML文档检测其中的属性是否已在语义库中存在，若存在则用语义库中的编号作为该属性的语义编号，若不存在则再将编号加1作为该属性的语义编号并且把该属性与其对应的编号存入语义库中的。这样做，就可以跳过语义不同导致的无法规范化XML文档结构的问题。

<?xml version="1.0" encoding="ISO-8859-1"?>

<W4F_DOC>

<Actor>

<Name>

<FirstName>Karen</FirstName>

<LastName>Allen</LastName>

</Name>

<Movie>

<Title>Perfect Storm, The</Title>

</Movie>

</Filmography>

</Actor>

</W4F_DOC> 。

图1是XML文档及其树表示图，一个关于电影的XML文档例子，图的左半部分是这个XML文档的标准写法，有半部分是树的表示形式。这个XML文档一共有5层12个有意义的节点并且没有重复。每个属性都标记了一个有顺序***数字。图2是层次形式的XML结构。

当推导结构时，重点考虑带着内容值（即一个文档树的叶子节点）的属性路径，而不用考虑文档中的属性。推导出的结构保存了层次和文档上下文信息。 XCLS在计算相似性时不考虑兄弟姐妹的顺序，因为兄弟姐妹的顺序对聚类并不重要。因为属性的出现对聚类非常重要。如果一层中有多个相同的属性则只保存一个属性,因为数据的聚类只考虑一层中是否出现同类属性，保存多个属性对聚类算法没有实质性的意义，并且可能导致相似度计算错误。

层次结构显示了树结构的每一级的层级和标记。它包含如属性名称，属性的编号以及在层次机构中的层级的信息。图2显示了图1中XML的层次结构。

聚类特征等值直方图

数据流是一个不断增长的数据集合，我们这个程序的数据集合中的元素就是大量的XML层结构化的LevelStructure。我们把每一个进入程序的XML文档都加了一个时间戳，这个时间戳就是XML进入程序的时间。对于滑动窗口来说，在任一时刻只考虑并处理最近到达的N的数据元素。滑动窗口的提出就是要求聚类算法可对任意最近到达的元素进行聚类。对于最近到达的N格数据元素我们称之为有效数据元素，其他的数据元素称之为过期元素，并不再参与聚类过程。

对滑动窗口进行聚类，我们提出了一种数据结构，我们称之为聚类特征等值直方图，聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶(bucket).每一个桶存储该组元组的聚类特征，称为时间聚类特征.时间聚类特征除了包含聚类特征外，还含有时标信息。当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时，则删除该桶。

为了实现聚类特征等职直方图我设计了两个数据结构TCF和EHCF。TCF就是每个聚类特征等值直方图所保存的桶，表2-1是TCF内含有的属性。ls就是聚类等值直方图的聚类特征是一个LevelStructure型的结构，它是由该TCF内的所有XML文档的层结构合并而成，合并的原则是按层合并属性信息相同的属性信息只保存一个。TimeStep是这个桶的时标信息，是个长整形。TimeStep是由这个TCF中所有XML文档的最早到达时间确定。当TimeStep在整个滑动窗口中是最早到达而滑动窗口已满的时候将被删除。n是这个TCF保存文档的数量，n的最大值是由用户自己定义的，当n达到最大值的时候这个TCF就不能再继续添加新的XML文档。这时再添加XML文档的时候就要新创建一个TCF结构。表2-1 TCF结构设计表

名称	类型	备注
			ls	LevelStructure	聚类特征，由该TCF内的所有XML文档的层结构合并而成
TimeStep	长整形	保存着最早进入这个TCF内的XML文档的时间
			n	整形	n是这个TCF保存文档的数量。

每个EHCF所保存的就是聚类结果出来的一个簇。EHCF中保存的list是一个TCF的链表，用于储存该簇中所有XML文档的信息。簇中还保存着一个用于与新来的XML文档进行比较相似度的LevelStructure命名为ls，这个ls是整个簇的聚类特征，由该EHCF内的所有TCF文档的层结构合并而成，合并的原则是按层合并属性信息相同的属性信息只保存一个。TimeStep是这个簇的时标信息，是个长整形。TimeStep是由这个簇中所有TCF中的TimeStep最小的确定。当TimeStep在整个滑动窗口中是最小的嘶吼并且滑动窗口已满的时候，将删除list 的第一个TCF。因为list是按照时间顺序添加TCF的，所以第一个TCF就是最早到达这个簇的。

名称	类型	备注
			list	ArrayList<TCF>	保存了一个TCF的链表，用于储存该簇中所有XML文档的信息。
ls	LevelStructure	聚类特征，由该EHCF内的所有TCF文档的层结构合并而成。
			TimeStep	长整形	保存着最早进入这个EHCF内的TCF文档的时间。

聚类特征等值直方图的维护

等值直方图的维护是基于滑动窗口的，若滑动窗口未满的时候直接进行聚类操作，否则先进行等值直方图的删除，然后在聚类。

新进入的XML文档概化结构x，窗口大小N，相似度阙值LevelSim，以聚类的簇EHCF。

1：判断滑动窗口大小是否等于N；

2：若不等于{

3：循环遍历所有EHCF与x的相似度大小；

4：若大于阙值把x加入到该EHCF；

5：否则继续遍历

6：}若等于窗口大小N{

7：找到最早进入窗口的XML文档所在的簇；

8：删除该簇中最早到达的TCF；

9：重复操作步骤3到5；

10：}

当3步骤找到相似度大于阙值的簇EHCF的时候，我们就要进行EHCF的添加工作。首先判断EHCF中最后添加的桶TCF内保存的XML文档个数是否已经达到桶的最大值。若未达到直接把x添加到该TCF中，否则在EHCF重新创建一个TCF把x加入其中。

如果进入x的时候窗口已满，则要进行删除工作。首先我们可以根据EHCF中保存的时间戳TimeStep找到窗口内最早进入的EHCF，然后找到该EHCF中最早进入的TCF，删除这个TCF。这样窗口内就减少了n个XML文档。这样就可以继续添加最近的XML文档了。当然，这个n值大小的设定肯定会导致聚类误差的产生，但为了降低删除工作的时间复杂度这是最好的解决办法。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。

Claims

1.一种基于云计算的聚类特征等值直方图的维护方法, 其特征在于对滑动窗口进行聚类，采用反应数据结构的聚类特征等值直方图来表示，聚类特征等值直方图根据元组的到达时标将元组划分为若干个桶，每一个桶存储该组元组的聚类特征，称为时间聚类特征，时间聚类特征除了包含聚类特征外，还含有时标信息，当聚类特征等值直方图中的第一个桶的时标不再属于当前最近的N个时标内时，则删除该桶；

1：判断滑动窗口大小是否等于N；

2：若不等于{

3：循环遍历所有EHCF与x的相似度大小；

4：若大于阙值把x加入到该EHCF；

5：否则继续遍历

6：}若等于窗口大小N{

7：找到最早进入窗口的XML文档所在的簇；

8：删除该簇中最早到达的TCF；

9：重复操作步骤3到5；

10：}