CN101876995A

CN101876995A - 一种计算xml文档相似度的方法

Info

Publication number: CN101876995A
Application number: CN2009102449033A
Authority: CN
Inventors: 汪陈应; 袁晓洁; 廉鑫; 林伟坚
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2009-12-18
Filing date: 2009-12-18
Publication date: 2010-11-03

Abstract

本发明属于数据库技术领域，建立一种XML文档约束模型，称为双向路径约束模型。基于这种模型提出一种新的计算XML文档相似度的方法。它通过节点的双向路径约束更全面的提取XML文档的结构信息，有利于更精确的衡量XML文档之间的相似度。本发明引入自然语言领域中非常成熟的N-Gram思想，将基于N-Gram的划分方式应用在路径约束相似度计算中。最后本发明巧妙地运用正整数和权值简化了N-Gram信息的提取和运算。本发明可用于XML文档分类、聚类以及模式提取等领域。

Description

一种计算XML文档相似度的方法

【技术领域】

本发明属于数据库技术领域，具体涉及一种计算XML文档相似度的方法。

【背景技术】

可扩展标记语言XML已成为Web上表示和交换数据的标准格式。随着XML相关标准的推广和应用，各行各业都以XML作为元语言，制定各自领域特定的子语言，用于存储和共享本领域所涉及的数据。在这种背景下，各个领域都会不断涌现出大量的XML文档。如何从大量文档中挖掘知识成为了当前急需解决的问题。XML数据挖掘是知识发现技术里一个重要的应用，而相似度计算在XML数据挖掘中起基础性的作用。

XML文档挖掘分为内容挖掘和结构挖掘，它可以用于XML数据的提取、整合以及其他一些应用。XML文档是半结构化数据，因而结构挖掘尤为重要。分类、聚类是数据挖掘普遍采用的方法，而XML文档相似度是分类、聚类的基础，是影响挖掘结果的一个重要因素。

目前XML文档相似度计算主要有两类方法，基于树编辑距离的方法和基于频繁路径的方法。其中基于树编辑距离的方法得到了普遍应用，它首先把一篇XML文档表示为一棵有序标签树，例如DOM树。进而通过树编辑距离来衡量XML文档树的相似度。基于树编辑距离有三种经典算法：Selkow、Chawathe和Dalamagas，但树编辑距离算法时间复杂度普遍较高。基于频繁路径的方法可以快速计算文档相似度，但丢失所有的非频繁路径，从而丢失大量的结构信息，正确率相对较低。

【发明内容】

本发明的目的是弥补现有技术存在的上述不足，提出一种新的计算XML文档相似度的方法。该方法使用BPC模型提取出XML文档的结构信息，引入各种权重体现结构层次，基于N-Gram划分方式，通过一次扫描降低了XML文档相似性计算的时间复杂度。

本发明提供的计算XML文档相似度的方法包括如下步骤：

步骤1、将XML文档定义为一棵XML文档树；

步骤2、建立双向路径约束(Bidirectional path constraints，BPC)模型：在步骤1文档树的基础上定义节点的BPC，一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型；

步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束(或孩子路径约束)之间的相似度，统称为路径约束相似度；

步骤4、根据步骤3得出的路径约束相似度计算两个节点的BPC相似度，进而把这个BPC相似度作为这两个节点的相似度；

步骤5、最后文档中所有节点相似度按照节点的结构层次加权求和作为两篇文档的相似度。

本发明的具体计算过程如下：

1.XML文档树

将XML文档定义为一棵XML文档树，具体如下：

定义1.XML文档树：将一棵XML文档树表示为一个6元组T＝(V，v₀，E，∑，P，lab)，其中：

1)、V是文档树中所有节点的集合；

2)、v₀是文档树的根节点；

3)、E_a定义了父子约束集合，E_a＝{(u，v)|u∈V∧v∈V，并且u是v的父亲节点}，E_s定义了兄弟约束集合，E_s＝{(u，v)|u∈V∧v∈V，并且v是u的右兄弟节点}；用E表示约束集合，即E＝E_a∪E_s；

4)、∑是文档树中节点标签的集合；

5)、P_A定义了祖先路径约束，P_A＝{(v₀，v₁，...，v_n)|(v_i，v_i+1)∈E_a，0≤i＜n}∪{v₀}，P_S定义了孩子路径约束，P_S＝{(v₁，...，v_n)|(v_i，v_i+1)∈E_s，0＜i＜n，v₁，v_n分别是它们父亲节点的第一个和最后一个孩子节点}∪{v₁|v₁是其父亲节点的唯一孩子节点}；用P表示路径约束集合，即P＝P_A∪P_S，

P &Subset; V \cup V^{2} \cup . . . \cup V^{| V |};

6)、函数lab返回节点的标签，即当v∈V，lab(v)∈∑。

需要说明的是，我们关注的是结构相似度，传统的信息检索技术已经很好的处理了内容相似度，所以文本节点统一当做标签值为#text的节点。另外将属性节点看成一种特殊的元素节点。文档树示例如图1。

2.节点的BPC

定义2.节点的BPC。P_A(e)定义了节点e的祖先路径约束，P_A(e)＝(v₀，v₁，...，e)∈P_A，P_S(e)定义了节点e的孩子路径约束，P_S(e)＝(u₁，...，u_n)∈P_S，(e，u_i)∈E_a，cons(e)定义了节点的BPC，cons(e)＝(P_A(e)，P_S(e))，e∈V。对于文档树的叶节点，它的P_S(e)为空，用ε表示。

通常基于树编辑距离的方法只提取祖先路径约束。本发明使用的BPC在原有的祖先路径约束的基础上增加了孩子路径约束。这样更全面的获取了XML文档的结构信息，可以提高依据文档相似度聚类结果的正确率。

3.基于N-Gram思想计算两个路径约束之间的相似度

设k为待比较的两个路径约束中出现的不同节点标签的数量，将这k个节点标签按照字典序排列，则每个节点标签可以依次映射为[1，k]内的一个正整数。这样用字符串表示的节点标签被转换为一个数字，相同的标签名有相同的数字编号。那么路径约束最后的表现形式是一个有顺序的整数数组。

定义3.基于N-Gram思想的划分方式。它将长为n的整数数组划分为n个子数组，其中第i(0＜i≤n)个子数组存储的是提取的i-Gram项，该子数组简称为i-Gram数组，含有n-i+1项，其中每一项均为原整数数组中i个连续项(a₁，a₂，……，a_i)生成的结果，生成方法如下：

i-GramItem＝a₁×(k+1)^i-1+a₂×(k+1)^i-2+……+a_i×(k+1)⁰

引入k+1是为了保证各个子数组的项的唯一性，可见，1-Gram数组有n项，2-Gram数组有n-1项，……，(n-1)-Gram数组有2项，n-Gram数组有1项；因而所有子数组共有

项；为了简化后面的处理，将n个子数组依次存储在一个长为

的数组中；

待比较的两个路径约束，通过使用符号映射转化为整数数组，长度分别为n和m，它们是某两个节点的祖先路径约束(或同是孩子路径约束)，根据定义3将他们依次分解成1-Gram数组，2-Gram数组，……，min(n，m)-Gram数组。

定义4.两个一维数组的相同项个数C。把数组看成集合，用两个集合的交集表示相同项个数C。

用C_i表示两个路径约束分解后两个i-Gram数组的相同项个数。如果在i-Gram数组中有完全匹配项时，该项的所有子项都会匹配，这部分匹配的子项个数无形中体现了C_i的权重，

C = \cup_{i = 1}^{n} C_{i};

因此用C表示两个路径约束分解后的相同项个数。

定义5.路径约束相似度。根据上面的定义，路径约束相似度公式如下所示：

Sim (p_{1}, p_{2}) = \frac{C}{\frac{t (t + 1)}{2}} = \frac{2 C}{t (t + 1)},

t＝max(n，m)，p₁，p₂∈P_A或p₁，p₂∈P_S。

4.BPC相似度

为了保持原有的结构信息，本发明对XML文档的每个节点提取了BPC，但是祖先路径相似度和孩子路径相似度对BPC的影响程度可能不一样。引入影响因子来描述祖先约束对BPC的影响程度。这个影响因子由程序员设定。一般认为祖先路径约束对BPC有更大的影响。

定义6.BPC相似度。设α为祖先路径约束的影响因子，自然1-α为孩子路径约束的影响因子，0≤α≤1，BPC相似度公式如下所示：

Sim(cons(e)，cons(e₀))＝α×Sim(P_A(e)，P_A(e₀))+(1-α)×Sim(P_S(e)，P_S(e₀))。

5.文档相似度

定义7.文档相似度。两篇XML文档D₁和D₂，节点个数分别为n和m，根据定义6计算出D₁每个节点的BPC和D₂每个节点的BPC相似度形成相似矩阵后，选出D₁各个节点和D₂相似度最大的节点的相似值，则文档相似度公式如下：

Sim (D_{1}, D_{2}) = Σ_{i = 1}^{n} w (v_{i}) \max_{j = 1}^{m} (s_{ij}) / Σ_{i = 1}^{n} w (v_{i}),

s_ij＝Sim(cons(v_i)，cons(v_j))，1≤i≤n，1≤j≤m。

在XML文档标签树中，节点越靠近根节点，它对文档结构的影响就越大。引入

w (v_{i}) = 2^{- lev (v_{i})}

来描述不同节点深度的不同影响，lev(v_i)为节点v_i的层数，根节点的层数是0。

本发明的优点和积极效果：

本发明提出一种新的比较XML文档相似度的方法。该方法使用BPC模型，更全面的提取XML文档的结构信息，为精确计算XML文档相似度打下了基础。引入各种权重体现结构层次。创新的用N-Gram思想简化路径相似度的度量，精确效率高。作为分类、聚类的基础，可以提高分类、聚类的正确率。

【附图说明】

图1为一篇XML文档和它对应的XML文档树。

图2为使用N-Gram思想提取路径约束6→3→4→5→3中的N-Gram信息，此图包括由a到e的五个过程，因为出现的最大整数为6，提取过程中使用的是七进制。其中，

(a)为扫描路径的第一个元素后填充第一个1-Gram的示意图。

(b)为扫描路径的第二个元素后填充第二个1-Gram，第一个2-Gram的示意图。

(c)为扫描路径的第三个元素后填充第三个1-Gram，第二个2-Gram，第一个3-Gram的示意图。

(d)为扫描路径的第四个元素后填充第四个1-Gram，第三个2-Gram，第二个3-Gram，第一个4-Gram的示意图。

(e)为扫描路径的第三个元素后填充第五个1-Gram，第四个2-Gram，第三个3-Gram，第二个4-Gram，第一个5-Gram的示意图。

图3为文档相似度算法流程图。

【具体实施方式】

N-Gram(N是元数)是大词汇连续语音识别中常用的一种语言模型。该模型基于这样一种假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram，已经广泛应用于自然语言处理。N-Gram的意思可以理解为N个词构成的序列。

实施例1：基于XML文档树构建BPC模型的具体方法，描述如下：

1.根据本发明提出的将XML文档定义为一棵XML文档树，并在此文档树基础上对每个节点建立BPC模型。图1显示了一篇XML文档和它对应的XML文档树，表1以图1文档树为例列举各个节点的BPC模型。

实施例2：基于N-Gram思想计算文档相似度的具体方法，描述如下：

算法1.根据两个相邻i-Gram项生成i+1-Gram项的方法CreateGram

输入：item₁，item₂ /*用正整数表示的两个相邻i-Gram项*/

t /*进制t*/

输出：item /*用正整数表示的(i+1)-Gram项*/

①.item:＝item₁×t+item₂％t；

②.RETURN item；

③.算法结束

该算法是根据两个相邻i-Gram项生成(i+1)-Gram项。算法中的进制t为待比较的两个路径约束中不同标签数目总数加1。对于同一个路径约束，引入进制t，当i≠j时，可以保证i-Gram项所在的整数域和j-Gram所在的整数域没有交集。

算法2.路径约束中N-Gram信息的提取方法PathDecomposition

输入：Path[1，2，…，n] /*映射为正整数数组后的路径约束*/

t /*进制t，意义同算法1*/

n₀ /*需要提取的最大的N-Gram项，即提取的

k-Gram子数组中，k≤n₀*/

输出：

/*提取的N-Gram信息*/

①.pos[1，2，…，n]；

/*pos[i]记录路径约束Path的每个i-Gram数组在NGram数组(i＝1，2，……，

Path.Length)中的起始位置*/

②.

pos [i] : = \frac{2 ni - 2 n + 3 i - i^{2}}{2};

③.FOREACH member IN Path

④. i:＝member在Path中的下标；

⑤. NGram[i]＝member /*填充第i个1-Gram项＊/

⑥. j:＝2；/*j表示待填充的j-Gram项*/

⑦. IF j≤i&&j≤n₀THEN

⑧. item₁:＝NGram[pos[j-1]+i-j+1]；

⑨. item₂:＝NGram[pos[j-1]+i-j+2]；

⑩. NGram[pos[j]+i-j+1]:＝CreateGram(item₁，item₂，t)；

/*根据(j-1)-Gram项填充第i-j+1个j-Gram项*/

j++；

GOTO⑦

END IF

END FOREACH

RETURN NGram；

算法结束

该算法的主要目的是通过扫描一次数组Path，提取出该数组包含的所有的i-Gram项，并填充到NGram数组的相应位置里。每个i-Gram的长度确定，用pos数组存储每个i-Gram在NGram的起始位置。根据i，填充方式如下：

i＝1填充第1个1-Gram

i＝2填充第2个1-Gram，第1个2-Gram

i＝3填充第3个1-Gram，第2个2-Gram，第1个3-Gram

...... ......

i＝n 填充第n个1-Gram，第n-1个2-Gram，……，第1个n-Gram

由此发现，当已知Path的当前扫描位置i和待填充项属于j-Gram，结合数组pos可以计算出待填充项在NGram中的存储位置。算法的第⑧至⑩步调用了算法1，利用(j-1)-Gram的第i-j+1和i-j+2项，生成j-Gram的第i-j+1项。路径数组Path扫描结束，它对应的N-Gram信息数组NGram填充完整。如图2为使用N-Gram思想提取路径约束6→3→4→5→3填充的N-Gram信息。

算法3.路径约束之间相似度计算PathSimilarity

输入：StringPath₁[1，2，…，n]，StringPath₂[1，2，…，m]/*字符串形式的路径约束*/

输出：pathSim /*路径相似度*/

①.Dictionary[1，2，…，k]；

/*数组Dictionary为输入的两个路径约束中包含的所有标签按照字典序排

好的词典，相同的字符串只占词典中的一项；k为StringPath₁和StringPath₂

中不同节点标签的数量*/

②.Path₁:＝Mapping(StringPath₁，Dictionary)；

/*函数Mapping返回将字符串数组StringPath₁中的字符串都转化为在

Dictionary中该字符串的下标而形成的一个整形数组*/

③.Path₂:＝Mapping(StringPath₂，Dictionary)；

④.minLength:＝min(StringPath₁.Length，StringPath₂.Length)；

⑤.DecPath₁:＝PathDecomposition(Path₁，k+1，minLength)；

/*根据算法2，提取路径约束中的N-Gram信息*/

⑥.DecPath₂:＝PathDecomposition(Path₂，k+1，minLength)；

⑦.pathSim:＝|DecPath₁∩DecPath₂|；

⑧.RETURN pathSim；

⑨.算法结束

算法的目的是计算两个路径约束的相似度。k为待比较的两个路径约束中出现的不同节点标签的数量，将这k个节点标签按照字典序排列，则每个节点标签可以依次映射为[1，k]内的一个正整数。这样用字符串表示的节点标签被转换为一个数字，相同的标签名有相同的数字编号。那么路径约束最后的表现形式是一个有顺序的整数数组。采用t＝k+1作为进制，从而达到算法1引入该参数的目的。表2示例说明待比较的两个约束：BOOK→SECTION→TITLE，BOOK→SECTION→FIGURE→CAPTION各个字符串的映射信息。

算法4.BPC相似度BPCSimilarity

输入：节点e₁的BPC，节点e₂的BPC

输出：BPCsim /*BPC相似度，也即节点相似度*/

①.α:＝0.6；/*参数α是祖先路径约束在BPC约束中所占的比重，α越大，祖

先路径约束对BPC相似度的影响越大，孩子路径约束对BPC相似度的影响越

小；反之，α越小，孩子路径约束对BPC相似度的影响越大，祖先路径约束对

BPC相似度的影响越小*/

②.BPCsim:＝α×PathSimilarity(P_A(e₁)，P_A(e₂))+(1-α)×PathSimilarity(P_S(e₁)，P_S(e₂))

③.RETURN BPCsim；

④.算法结束

算法的目的是计算两个节点的BPC相似度。引入影响因子来描述祖先路径约束对BPC相似度的影响程度。这个影响因子需要根据具体的应用而设定，一般情况下认为祖先路径约束比孩子路径约束对BPC相似度具有更大的影响，即α＞0.5。

算法5.XML文档相似度

输入：XML文档树D₁和D₂

输出：documentSim /*文档D₁和D₂的相似度*/

①. 遍历文档树D₁和D₂，建立对应的BPC模型；

②. s[n×m]；

/*BPC相似矩阵，设文档D₁节点数为n，文档D₂节点数为m*/

③. s_ij:＝BPCSimilarity((P_A(e_i)，P_S(e_i))，(P_A(e_j)，P_S(e_j)))；

/*根据算法4，s_ij存储的是节点e_i与节点e_j之间的相似度，其中节点e_i

属于文档D₁，节点e_j属于文档D₂*/

④.

documentSim : = Σ_{i = 1}^{n} w (e_{1}) \max_{j = 1}^{m} (Matrix [ij]) / Σ_{i = 1}^{n} w (e_{1})

/*函数w(e)获得节点e的权重，且w(e)＝2^-lev(e)*/

算法的目的是计算两篇XML文档的相似度。由于BPC相似矩阵满足关于矩阵主对角线对称，具体操作时可只计算矩阵的上三角形，再复制到下三角形，计算次数减少一半。如图3为文档相似度算法流程图。

表1列举了图1XML文档树各个节点的BPC

节点	节点的BPC
节点	节点的BPC	BOOK	(BOOK，ISBN→SECTION→SECTION)
ISBN	(BOOK→ISBN，#text)	BOOK	(BOOK，ISBN→SECTION→SECTION)
ISBN	(BOOK→ISBN，#text)	#text	(BOOK→ISBN→#text，ε)
SECTION	(BOOK→SECTION，TITLE→#text→FIGURE)	#text	(BOOK→ISBN→#text，ε)
SECTION	(BOOK→SECTION，TITLE→#text→FIGURE)	TITLE	(BOOK→SECTION→TITLE，ε)
#text	(BOOK→SECTION→#text，ε)	TITLE	(BOOK→SECTION→TITLE，ε)
#text	(BOOK→SECTION→#text，ε)	FIGURE	(BOOK→SECTION→FIGURE，CAPTION)
CAPTION	(BOOK→SECTION→FIGURE→CAPTION，ε)	FIGURE	(BOOK→SECTION→FIGURE，CAPTION)
CAPTION	(BOOK→SECTION→FIGURE→CAPTION，ε)	SECTION	(BOOK→SECTION，TITLE→#text→BOLD)
TITLE	(BOOK→SECTION→TITLE，ε)	SECTION	(BOOK→SECTION，TITLE→#text→BOLD)
TITLE	(BOOK→SECTION→TITLE，ε)	#text	(BOOK→SECTION→#text，ε)
BOLD	(BOOK→SECTION→BOLD，#text)	#text	(BOOK→SECTION→#text，ε)
BOLD	(BOOK→SECTION→BOLD，#text)	#text	(BOOK→SECTION→BOLD→#text，ε)

表2示例说明待比较的两个约束：BOOK→SECTION→TITLE，BOOK→SECTION→FIGURE→CAPTION各个字符串的映射信息

BOOK	1
BOOK	1	SECTION	2
TITLE	3	SECTION	2
TITLE	3	FIGURE	4
CAPTION	5	FIGURE	4

Claims

1.一种计算XML文档相似度的方法，其特征在于该方法包括如下步骤：

步骤1、将XML文档定义为一棵XML文档树，并表示为一个6元组；

步骤2、建立双向路径约束Bidirectional path constraints，BPC模型：在步骤1文档树的基础上定义节点的BPC，一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型；

步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束或孩子路径约束之间的相似度，统称为路径约束相似度；

2.根据权利要求1所述的方法，其特征在于步骤1所述的XML文档树的定义如下：

1)、V是文档树中所有节点的集合；

2)、v₀是文档树的根节点；

4)、∑是文档树中节点标签的集合；

P &Subset; V \cup V^{2} \cup . . . \cup V^{| V |};

6)、函数lab返回节点的标签，即当v∈V，lab(v)∈∑。

3.根据权利要求1所述的方法，其特征在于步骤2所述的节点的BPC定义为：

定义2.节点的BPC：P_A(e)定义了节点e的祖先路径约束，P_A(e)＝(v₀，v₁，...，e)∈P_A，P_S(e)定义了节点e的孩子路径约束，P_S(e)＝(u₁，...，u_n)∈P_S，(e，u_i)∈E_a，cons(e)定义了节点的BPC，cons(e)＝(P_A(e)，P_S(e))，e∈V；对于文档树的叶节点，它的P_S(e)为空，用ε表示。

4.根据权利要求1所述的方法，其特征在于步骤3所述的使用基于N-Gram的划分方式计算两个路径约束之间的相似度的方法是：

设k为待比较的两个路径约束中出现的不同节点标签的数量，将这k个节点标签按照字典序排列，则每个节点标签可以依次映射为[1，k]内的一个正整数；这样用字符串表示的节点标签被转换为一个数字，相同的标签名有相同的数字编号；那么路径约束最后的表现形式是一个有顺序的整数数组；

定义3.基于N-Gram思想的划分方式：它将长为n的整数数组划分为n个子数组，其中第i(0＜i≤n)个子数组存储的是提取的i-Gram项，该子数组简称为i-Gram数组，含有n-i+1项，其中每一项均为原整数数组中i个连续项(a₁，a₂，……，a_i)生成的结果，生成方法如下：

i-GramItem＝a₁×(k+1)^i-1+a₂×(k+1)^i-2+……+a_i×(k+1)⁰

项；为了简化后面的处理，将n个子数组依次存储在一个长为

的数组中；

待比较的两个路径约束，通过使用符号映射转化为整数数组，长度分别为n和m，它们是某两个节点的祖先路径约束或同是孩子路径约束，根据定义3将他们依次分解成1-Gram数组，2-Gram数组，……，min(n，m)-Gram数组；

定义4.两个一维数组的相同项个数C：把数组看成集合，用两个集合的交集表示相同项个数C；

定义5.路径约束相似度：根据上面的定义，路径约束相似度公式如下所示：

Sim (p_{1}, p_{2}) = \frac{C}{\frac{t (t + 1)}{2}} = \frac{2 C}{t (t + 1)},

t＝max(n，m)，p₁，p₂∈P_A或p₁，p₂∈P_S；

定义6.BPC相似度：设α为祖先路径约束的影响因子，自然1-α为孩子路径约束的影响因子，0≤α≤1，BPC相似度公式如下所示：

5.根据权利要求1所述的方法，其特征在于步骤5所述的文档中所有节点相似度加权求和作为两篇文档的相似度的方法是：

定义7.文档相似度：两篇XML文档D₁和D₂，节点个数分别为n和m，根据定义6计算出D₁每个节点的BPC和D₂每个节点的BPC相似度形成相似矩阵后，选出D₁各个节点和D₂相似度最大的节点的相似值，则文档相似度公式如下：

Sim (D_{1}, D_{2}) = Σ_{i = 1}^{n} w (v_{i}) \max_{j = 1}^{m} (s_{ij}) / Σ_{i = 1}^{n} w (v_{i}),

s_ij＝Sim(cons(v_i)，cons(v_j))，1≤i≤n，1≤j≤m；

在XML文档树中，节点越靠近根节点，它对文档结构的影响就越大；引入

w (v_{i}) = 2^{- lev (v_{i})}