CN101876995A - 一种计算xml文档相似度的方法 - Google Patents

一种计算xml文档相似度的方法 Download PDF

Info

Publication number
CN101876995A
CN101876995A CN2009102449033A CN200910244903A CN101876995A CN 101876995 A CN101876995 A CN 101876995A CN 2009102449033 A CN2009102449033 A CN 2009102449033A CN 200910244903 A CN200910244903 A CN 200910244903A CN 101876995 A CN101876995 A CN 101876995A
Authority
CN
China
Prior art keywords
node
similarity
gram
array
bpc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2009102449033A
Other languages
English (en)
Inventor
汪陈应
袁晓洁
廉鑫
林伟坚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN2009102449033A priority Critical patent/CN101876995A/zh
Publication of CN101876995A publication Critical patent/CN101876995A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据库技术领域,建立一种XML文档约束模型,称为双向路径约束模型。基于这种模型提出一种新的计算XML文档相似度的方法。它通过节点的双向路径约束更全面的提取XML文档的结构信息,有利于更精确的衡量XML文档之间的相似度。本发明引入自然语言领域中非常成熟的N-Gram思想,将基于N-Gram的划分方式应用在路径约束相似度计算中。最后本发明巧妙地运用正整数和权值简化了N-Gram信息的提取和运算。本发明可用于XML文档分类、聚类以及模式提取等领域。

Description

一种计算XML文档相似度的方法
【技术领域】
本发明属于数据库技术领域,具体涉及一种计算XML文档相似度的方法。
【背景技术】
可扩展标记语言XML已成为Web上表示和交换数据的标准格式。随着XML相关标准的推广和应用,各行各业都以XML作为元语言,制定各自领域特定的子语言,用于存储和共享本领域所涉及的数据。在这种背景下,各个领域都会不断涌现出大量的XML文档。如何从大量文档中挖掘知识成为了当前急需解决的问题。XML数据挖掘是知识发现技术里一个重要的应用,而相似度计算在XML数据挖掘中起基础性的作用。
XML文档挖掘分为内容挖掘和结构挖掘,它可以用于XML数据的提取、整合以及其他一些应用。XML文档是半结构化数据,因而结构挖掘尤为重要。分类、聚类是数据挖掘普遍采用的方法,而XML文档相似度是分类、聚类的基础,是影响挖掘结果的一个重要因素。
目前XML文档相似度计算主要有两类方法,基于树编辑距离的方法和基于频繁路径的方法。其中基于树编辑距离的方法得到了普遍应用,它首先把一篇XML文档表示为一棵有序标签树,例如DOM树。进而通过树编辑距离来衡量XML文档树的相似度。基于树编辑距离有三种经典算法:Selkow、Chawathe和Dalamagas,但树编辑距离算法时间复杂度普遍较高。基于频繁路径的方法可以快速计算文档相似度,但丢失所有的非频繁路径,从而丢失大量的结构信息,正确率相对较低。
【发明内容】
本发明的目的是弥补现有技术存在的上述不足,提出一种新的计算XML文档相似度的方法。该方法使用BPC模型提取出XML文档的结构信息,引入各种权重体现结构层次,基于N-Gram划分方式,通过一次扫描降低了XML文档相似性计算的时间复杂度。
本发明提供的计算XML文档相似度的方法包括如下步骤:
步骤1、将XML文档定义为一棵XML文档树;
步骤2、建立双向路径约束(Bidirectional path constraints,BPC)模型:在步骤1文档树的基础上定义节点的BPC,一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型;
步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束(或孩子路径约束)之间的相似度,统称为路径约束相似度;
步骤4、根据步骤3得出的路径约束相似度计算两个节点的BPC相似度,进而把这个BPC相似度作为这两个节点的相似度;
步骤5、最后文档中所有节点相似度按照节点的结构层次加权求和作为两篇文档的相似度。
本发明的具体计算过程如下:
1.XML文档树
将XML文档定义为一棵XML文档树,具体如下:
定义1.XML文档树:将一棵XML文档树表示为一个6元组T=(V,v0,E,∑,P,lab),其中:
1)、V是文档树中所有节点的集合;
2)、v0是文档树的根节点;
3)、Ea定义了父子约束集合,Ea={(u,v)|u∈V∧v∈V,并且u是v的父亲节点},Es定义了兄弟约束集合,Es={(u,v)|u∈V∧v∈V,并且v是u的右兄弟节点};用E表示约束集合,即E=Ea∪Es
4)、∑是文档树中节点标签的集合;
5)、PA定义了祖先路径约束,PA={(v0,v1,...,vn)|(vi,vi+1)∈Ea,0≤i<n}∪{v0},PS定义了孩子路径约束,PS={(v1,...,vn)|(vi,vi+1)∈Es,0<i<n,v1,vn分别是它们父亲节点的第一个和最后一个孩子节点}∪{v1|v1是其父亲节点的唯一孩子节点};用P表示路径约束集合,即P=PA∪PS P ⋐ V ∪ V 2 ∪ . . . ∪ V | V | ;
6)、函数lab返回节点的标签,即当v∈V,lab(v)∈∑。
需要说明的是,我们关注的是结构相似度,传统的信息检索技术已经很好的处理了内容相似度,所以文本节点统一当做标签值为#text的节点。另外将属性节点看成一种特殊的元素节点。文档树示例如图1。
2.节点的BPC
定义2.节点的BPC。PA(e)定义了节点e的祖先路径约束,PA(e)=(v0,v1,...,e)∈PA,PS(e)定义了节点e的孩子路径约束,PS(e)=(u1,...,un)∈PS,(e,ui)∈Ea,cons(e)定义了节点的BPC,cons(e)=(PA(e),PS(e)),e∈V。对于文档树的叶节点,它的PS(e)为空,用ε表示。
通常基于树编辑距离的方法只提取祖先路径约束。本发明使用的BPC在原有的祖先路径约束的基础上增加了孩子路径约束。这样更全面的获取了XML文档的结构信息,可以提高依据文档相似度聚类结果的正确率。
3.基于N-Gram思想计算两个路径约束之间的相似度
设k为待比较的两个路径约束中出现的不同节点标签的数量,将这k个节点标签按照字典序排列,则每个节点标签可以依次映射为[1,k]内的一个正整数。这样用字符串表示的节点标签被转换为一个数字,相同的标签名有相同的数字编号。那么路径约束最后的表现形式是一个有顺序的整数数组。
定义3.基于N-Gram思想的划分方式。它将长为n的整数数组划分为n个子数组,其中第i(0<i≤n)个子数组存储的是提取的i-Gram项,该子数组简称为i-Gram数组,含有n-i+1项,其中每一项均为原整数数组中i个连续项(a1,a2,……,ai)生成的结果,生成方法如下:
i-GramItem=a1×(k+1)i-1+a2×(k+1)i-2+……+ai×(k+1)0
引入k+1是为了保证各个子数组的项的唯一性,可见,1-Gram数组有n项,2-Gram数组有n-1项,……,(n-1)-Gram数组有2项,n-Gram数组有1项;因而所有子数组共有
Figure G2009102449033D00031
项;为了简化后面的处理,将n个子数组依次存储在一个长为
Figure G2009102449033D00032
的数组中;
待比较的两个路径约束,通过使用符号映射转化为整数数组,长度分别为n和m,它们是某两个节点的祖先路径约束(或同是孩子路径约束),根据定义3将他们依次分解成1-Gram数组,2-Gram数组,……,min(n,m)-Gram数组。
定义4.两个一维数组的相同项个数C。把数组看成集合,用两个集合的交集表示相同项个数C。
用Ci表示两个路径约束分解后两个i-Gram数组的相同项个数。如果在i-Gram数组中有完全匹配项时,该项的所有子项都会匹配,这部分匹配的子项个数无形中体现了Ci的权重, C = ∪ i = 1 n C i ; 因此用C表示两个路径约束分解后的相同项个数。
定义5.路径约束相似度。根据上面的定义,路径约束相似度公式如下所示:
Sim ( p 1 , p 2 ) = C t ( t + 1 ) 2 = 2 C t ( t + 1 ) , t=max(n,m),p1,p2∈PA或p1,p2∈PS
4.BPC相似度
为了保持原有的结构信息,本发明对XML文档的每个节点提取了BPC,但是祖先路径相似度和孩子路径相似度对BPC的影响程度可能不一样。引入影响因子来描述祖先约束对BPC的影响程度。这个影响因子由程序员设定。一般认为祖先路径约束对BPC有更大的影响。
定义6.BPC相似度。设α为祖先路径约束的影响因子,自然1-α为孩子路径约束的影响因子,0≤α≤1,BPC相似度公式如下所示:
Sim(cons(e),cons(e0))=α×Sim(PA(e),PA(e0))+(1-α)×Sim(PS(e),PS(e0))。
5.文档相似度
定义7.文档相似度。两篇XML文档D1和D2,节点个数分别为n和m,根据定义6计算出D1每个节点的BPC和D2每个节点的BPC相似度形成相似矩阵后,选出D1各个节点和D2相似度最大的节点的相似值,则文档相似度公式如下:
Sim ( D 1 , D 2 ) = Σ i = 1 n w ( v i ) max j = 1 m ( s ij ) / Σ i = 1 n w ( v i ) , sij=Sim(cons(vi),cons(vj)),1≤i≤n,1≤j≤m。
在XML文档标签树中,节点越靠近根节点,它对文档结构的影响就越大。引入 w ( v i ) = 2 - lev ( v i ) 来描述不同节点深度的不同影响,lev(vi)为节点vi的层数,根节点的层数是0。
本发明的优点和积极效果:
本发明提出一种新的比较XML文档相似度的方法。该方法使用BPC模型,更全面的提取XML文档的结构信息,为精确计算XML文档相似度打下了基础。引入各种权重体现结构层次。创新的用N-Gram思想简化路径相似度的度量,精确效率高。作为分类、聚类的基础,可以提高分类、聚类的正确率。
【附图说明】
图1为一篇XML文档和它对应的XML文档树。
图2为使用N-Gram思想提取路径约束6→3→4→5→3中的N-Gram信息,此图包括由a到e的五个过程,因为出现的最大整数为6,提取过程中使用的是七进制。其中,
(a)为扫描路径的第一个元素后填充第一个1-Gram的示意图。
(b)为扫描路径的第二个元素后填充第二个1-Gram,第一个2-Gram的示意图。
(c)为扫描路径的第三个元素后填充第三个1-Gram,第二个2-Gram,第一个3-Gram的示意图。
(d)为扫描路径的第四个元素后填充第四个1-Gram,第三个2-Gram,第二个3-Gram,第一个4-Gram的示意图。
(e)为扫描路径的第三个元素后填充第五个1-Gram,第四个2-Gram,第三个3-Gram,第二个4-Gram,第一个5-Gram的示意图。
图3为文档相似度算法流程图。
【具体实施方式】
N-Gram(N是元数)是大词汇连续语音识别中常用的一种语言模型。该模型基于这样一种假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是二元的Bi-Gram和三元的Tri-Gram,已经广泛应用于自然语言处理。N-Gram的意思可以理解为N个词构成的序列。
实施例1:基于XML文档树构建BPC模型的具体方法,描述如下:
1.根据本发明提出的将XML文档定义为一棵XML文档树,并在此文档树基础上对每个节点建立BPC模型。图1显示了一篇XML文档和它对应的XML文档树,表1以图1文档树为例列举各个节点的BPC模型。
实施例2:基于N-Gram思想计算文档相似度的具体方法,描述如下:
算法1.根据两个相邻i-Gram项生成i+1-Gram项的方法CreateGram
输入:item1,item2    /*用正整数表示的两个相邻i-Gram项*/
        t     /*进制t*/
输出:item    /*用正整数表示的(i+1)-Gram项*/
①.item:=item1×t+item2%t;
②.RETURN item;
③.算法结束
该算法是根据两个相邻i-Gram项生成(i+1)-Gram项。算法中的进制t为待比较的两个路径约束中不同标签数目总数加1。对于同一个路径约束,引入进制t,当i≠j时,可以保证i-Gram项所在的整数域和j-Gram所在的整数域没有交集。
算法2.路径约束中N-Gram信息的提取方法PathDecomposition
输入:Path[1,2,…,n]    /*映射为正整数数组后的路径约束*/
      t                    /*进制t,意义同算法1*/
      n0                   /*需要提取的最大的N-Gram项,即提取的
                           k-Gram子数组中,k≤n0*/
输出:
Figure G2009102449033D00051
/*提取的N-Gram信息*/
①.pos[1,2,…,n];
         /*pos[i]记录路径约束Path的每个i-Gram数组在NGram数组(i=1,2,……,
         Path.Length)中的起始位置*/
②. pos [ i ] : = 2 ni - 2 n + 3 i - i 2 2 ;
③.FOREACH member IN Path
④.   i:=member在Path中的下标;
⑤.   NGram[i]=member /*填充第i个1-Gram项*/
⑥.   j:=2;/*j表示待填充的j-Gram项*/
⑦.   IF j≤i&&j≤n0THEN
⑧.        item1:=NGram[pos[j-1]+i-j+1];
⑨.        item2:=NGram[pos[j-1]+i-j+2];
⑩.        NGram[pos[j]+i-j+1]:=CreateGram(item1,item2,t);
              /*根据(j-1)-Gram项填充第i-j+1个j-Gram项*/
Figure G2009102449033D00053
           j++;
Figure G2009102449033D00054
           GOTO⑦
Figure G2009102449033D00055
         END IF
Figure G2009102449033D00056
     END FOREACH
Figure G2009102449033D00057
     RETURN NGram;
Figure G2009102449033D00058
    算法结束
该算法的主要目的是通过扫描一次数组Path,提取出该数组包含的所有的i-Gram项,并填充到NGram数组的相应位置里。每个i-Gram的长度确定,用pos数组存储每个i-Gram在NGram的起始位置。根据i,填充方式如下:
i=1填充第1个1-Gram
i=2填充第2个1-Gram,第1个2-Gram
i=3填充第3个1-Gram,第2个2-Gram,第1个3-Gram
......   ......
i=n  填充第n个1-Gram,第n-1个2-Gram,……,第1个n-Gram
由此发现,当已知Path的当前扫描位置i和待填充项属于j-Gram,结合数组pos可以计算出待填充项在NGram中的存储位置。算法的第⑧至⑩步调用了算法1,利用(j-1)-Gram的第i-j+1和i-j+2项,生成j-Gram的第i-j+1项。路径数组Path扫描结束,它对应的N-Gram信息数组NGram填充完整。如图2为使用N-Gram思想提取路径约束6→3→4→5→3填充的N-Gram信息。
算法3.路径约束之间相似度计算PathSimilarity
输入:StringPath1[1,2,…,n],StringPath2[1,2,…,m]/*字符串形式的路径约束*/
输出:pathSim    /*路径相似度*/
①.Dictionary[1,2,…,k];
      /*数组Dictionary为输入的两个路径约束中包含的所有标签按照字典序排
    好的词典,相同的字符串只占词典中的一项;k为StringPath1和StringPath2
    中不同节点标签的数量*/
②.Path1:=Mapping(StringPath1,Dictionary);
         /*函数Mapping返回将字符串数组StringPath1中的字符串都转化为在
    Dictionary中该字符串的下标而形成的一个整形数组*/
③.Path2:=Mapping(StringPath2,Dictionary);
④.minLength:=min(StringPath1.Length,StringPath2.Length);
⑤.DecPath1:=PathDecomposition(Path1,k+1,minLength);
       /*根据算法2,提取路径约束中的N-Gram信息*/
⑥.DecPath2:=PathDecomposition(Path2,k+1,minLength);
⑦.pathSim:=|DecPath1∩DecPath2|;
⑧.RETURN pathSim;
⑨.算法结束
算法的目的是计算两个路径约束的相似度。k为待比较的两个路径约束中出现的不同节点标签的数量,将这k个节点标签按照字典序排列,则每个节点标签可以依次映射为[1,k]内的一个正整数。这样用字符串表示的节点标签被转换为一个数字,相同的标签名有相同的数字编号。那么路径约束最后的表现形式是一个有顺序的整数数组。采用t=k+1作为进制,从而达到算法1引入该参数的目的。表2示例说明待比较的两个约束:BOOK→SECTION→TITLE,BOOK→SECTION→FIGURE→CAPTION各个字符串的映射信息。
算法4.BPC相似度BPCSimilarity
输入:节点e1的BPC,节点e2的BPC
输出:BPCsim    /*BPC相似度,也即节点相似度*/
①.α:=0.6;/*参数α是祖先路径约束在BPC约束中所占的比重,α越大,祖
   先路径约束对BPC相似度的影响越大,孩子路径约束对BPC相似度的影响越
   小;反之,α越小,孩子路径约束对BPC相似度的影响越大,祖先路径约束对
   BPC相似度的影响越小*/
②.BPCsim:=α×PathSimilarity(PA(e1),PA(e2))+(1-α)×PathSimilarity(PS(e1),PS(e2))
③.RETURN BPCsim;
④.算法结束
算法的目的是计算两个节点的BPC相似度。引入影响因子来描述祖先路径约束对BPC相似度的影响程度。这个影响因子需要根据具体的应用而设定,一般情况下认为祖先路径约束比孩子路径约束对BPC相似度具有更大的影响,即α>0.5。
算法5.XML文档相似度
输入:XML文档树D1和D2
输出:documentSim    /*文档D1和D2的相似度*/
①.   遍历文档树D1和D2,建立对应的BPC模型;
②.   s[n×m];
           /*BPC相似矩阵,设文档D1节点数为n,文档D2节点数为m*/
③.   sij:=BPCSimilarity((PA(ei),PS(ei)),(PA(ej),PS(ej)));
                /*根据算法4,sij存储的是节点ei与节点ej之间的相似度,其中节点ei
                属于文档D1,节点ej属于文档D2*/
④. documentSim : = Σ i = 1 n w ( e 1 ) max j = 1 m ( Matrix [ ij ] ) / Σ i = 1 n w ( e 1 )
/*函数w(e)获得节点e的权重,且w(e)=2-lev(e)*/
算法的目的是计算两篇XML文档的相似度。由于BPC相似矩阵满足关于矩阵主对角线对称,具体操作时可只计算矩阵的上三角形,再复制到下三角形,计算次数减少一半。如图3为文档相似度算法流程图。
表1列举了图1XML文档树各个节点的BPC
 节点  节点的BPC
 BOOK  (BOOK,ISBN→SECTION→SECTION)
 ISBN  (BOOK→ISBN,#text)
 #text  (BOOK→ISBN→#text,ε)
 SECTION  (BOOK→SECTION,TITLE→#text→FIGURE)
 TITLE  (BOOK→SECTION→TITLE,ε)
 #text   (BOOK→SECTION→#text,ε)
 FIGURE   (BOOK→SECTION→FIGURE,CAPTION)
 CAPTION   (BOOK→SECTION→FIGURE→CAPTION,ε)
 SECTION   (BOOK→SECTION,TITLE→#text→BOLD)
 TITLE   (BOOK→SECTION→TITLE,ε)
 #text   (BOOK→SECTION→#text,ε)
 BOLD   (BOOK→SECTION→BOLD,#text)
 #text   (BOOK→SECTION→BOLD→#text,ε)
表2示例说明待比较的两个约束:BOOK→SECTION→TITLE,BOOK→SECTION→FIGURE→CAPTION各个字符串的映射信息
  BOOK   1
  SECTION   2
  TITLE   3
  FIGURE   4
  CAPTION   5

Claims (5)

1.一种计算XML文档相似度的方法,其特征在于该方法包括如下步骤:
步骤1、将XML文档定义为一棵XML文档树,并表示为一个6元组;
步骤2、建立双向路径约束Bidirectional path constraints,BPC模型:在步骤1文档树的基础上定义节点的BPC,一篇XML文档包含的所有节点的BPC集合称为双向路径约束模型;
步骤3、使用基于N-Gram的划分方式计算两个祖先路径约束或孩子路径约束之间的相似度,统称为路径约束相似度;
步骤4、根据步骤3得出的路径约束相似度计算两个节点的BPC相似度,进而把这个BPC相似度作为这两个节点的相似度;
步骤5、最后文档中所有节点相似度按照节点的结构层次加权求和作为两篇文档的相似度。
2.根据权利要求1所述的方法,其特征在于步骤1所述的XML文档树的定义如下:
定义1.XML文档树:将一棵XML文档树表示为一个6元组T=(V,v0,E,∑,P,lab),其中:
1)、V是文档树中所有节点的集合;
2)、v0是文档树的根节点;
3)、Ea定义了父子约束集合,Ea={(u,v)|u∈V∧v∈V,并且u是v的父亲节点},Es定义了兄弟约束集合,Es={(u,v)|u∈V∧v∈V,并且v是u的右兄弟节点};用E表示约束集合,即E=Ea∪Es
4)、∑是文档树中节点标签的集合;
5)、PA定义了祖先路径约束,PA={(v0,v1,...,vn)|(vi,vi+1)∈Ea,0≤i<n}∪{v0},PS定义了孩子路径约束,PS={(v1,...,vn)|(vi,vi+1)∈Es,0<i<n,v1,vn分别是它们父亲节点的第一个和最后一个孩子节点}∪{v1|v1是其父亲节点的唯一孩子节点};用P表示路径约束集合,即P=PA∪PS P ⋐ V ∪ V 2 ∪ . . . ∪ V | V | ;
6)、函数lab返回节点的标签,即当v∈V,lab(v)∈∑。
3.根据权利要求1所述的方法,其特征在于步骤2所述的节点的BPC定义为:
定义2.节点的BPC:PA(e)定义了节点e的祖先路径约束,PA(e)=(v0,v1,...,e)∈PA,PS(e)定义了节点e的孩子路径约束,PS(e)=(u1,...,un)∈PS,(e,ui)∈Ea,cons(e)定义了节点的BPC,cons(e)=(PA(e),PS(e)),e∈V;对于文档树的叶节点,它的PS(e)为空,用ε表示。
4.根据权利要求1所述的方法,其特征在于步骤3所述的使用基于N-Gram的划分方式计算两个路径约束之间的相似度的方法是:
设k为待比较的两个路径约束中出现的不同节点标签的数量,将这k个节点标签按照字典序排列,则每个节点标签可以依次映射为[1,k]内的一个正整数;这样用字符串表示的节点标签被转换为一个数字,相同的标签名有相同的数字编号;那么路径约束最后的表现形式是一个有顺序的整数数组;
定义3.基于N-Gram思想的划分方式:它将长为n的整数数组划分为n个子数组,其中第i(0<i≤n)个子数组存储的是提取的i-Gram项,该子数组简称为i-Gram数组,含有n-i+1项,其中每一项均为原整数数组中i个连续项(a1,a2,……,ai)生成的结果,生成方法如下:
i-GramItem=a1×(k+1)i-1+a2×(k+1)i-2+……+ai×(k+1)0
引入k+1是为了保证各个子数组的项的唯一性,可见,1-Gram数组有n项,2-Gram数组有n-1项,……,(n-1)-Gram数组有2项,n-Gram数组有1项;因而所有子数组共有
Figure F2009102449033C00021
项;为了简化后面的处理,将n个子数组依次存储在一个长为
Figure F2009102449033C00022
的数组中;
待比较的两个路径约束,通过使用符号映射转化为整数数组,长度分别为n和m,它们是某两个节点的祖先路径约束或同是孩子路径约束,根据定义3将他们依次分解成1-Gram数组,2-Gram数组,……,min(n,m)-Gram数组;
定义4.两个一维数组的相同项个数C:把数组看成集合,用两个集合的交集表示相同项个数C;
定义5.路径约束相似度:根据上面的定义,路径约束相似度公式如下所示:
Sim ( p 1 , p 2 ) = C t ( t + 1 ) 2 = 2 C t ( t + 1 ) , t=max(n,m),p1,p2∈PA或p1,p2∈PS
定义6.BPC相似度:设α为祖先路径约束的影响因子,自然1-α为孩子路径约束的影响因子,0≤α≤1,BPC相似度公式如下所示:
Sim(cons(e),cons(e0))=α×Sim(PA(e),PA(e0))+(1-α)×Sim(PS(e),PS(e0))。
5.根据权利要求1所述的方法,其特征在于步骤5所述的文档中所有节点相似度加权求和作为两篇文档的相似度的方法是:
定义7.文档相似度:两篇XML文档D1和D2,节点个数分别为n和m,根据定义6计算出D1每个节点的BPC和D2每个节点的BPC相似度形成相似矩阵后,选出D1各个节点和D2相似度最大的节点的相似值,则文档相似度公式如下:
Sim ( D 1 , D 2 ) = Σ i = 1 n w ( v i ) max j = 1 m ( s ij ) / Σ i = 1 n w ( v i ) , sij=Sim(cons(vi),cons(vj)),1≤i≤n,1≤j≤m;
在XML文档树中,节点越靠近根节点,它对文档结构的影响就越大;引入 w ( v i ) = 2 - lev ( v i ) 来描述不同节点深度的不同影响,lev(vi)为节点vi的层数,根节点的层数是0。
CN2009102449033A 2009-12-18 2009-12-18 一种计算xml文档相似度的方法 Pending CN101876995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102449033A CN101876995A (zh) 2009-12-18 2009-12-18 一种计算xml文档相似度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102449033A CN101876995A (zh) 2009-12-18 2009-12-18 一种计算xml文档相似度的方法

Publications (1)

Publication Number Publication Date
CN101876995A true CN101876995A (zh) 2010-11-03

Family

ID=43019553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102449033A Pending CN101876995A (zh) 2009-12-18 2009-12-18 一种计算xml文档相似度的方法

Country Status (1)

Country Link
CN (1) CN101876995A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043848A (zh) * 2010-12-20 2011-05-04 北京大学 一种xml文档树实例查询方法
CN102622432A (zh) * 2012-02-27 2012-08-01 北京工业大学 一种xml文档结构概要间的相似性度量方法
CN102722556A (zh) * 2012-05-29 2012-10-10 清华大学 一种基于相似性度量的模型比对方法
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
WO2013063734A1 (en) * 2011-10-31 2013-05-10 Hewlett-Packard Development Company, L.P. Determining document structure similarity using discrete wavelet transformation
CN104750609A (zh) * 2015-03-26 2015-07-01 广东欧珀移动通信有限公司 确定界面布局兼容度的方法及装置
CN106933824A (zh) * 2015-12-29 2017-07-07 伊姆西公司 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN111381188A (zh) * 2020-03-18 2020-07-07 华中科技大学 一种两电平三相电压源逆变器桥臂开路故障诊断方法
CN111815175A (zh) * 2020-07-08 2020-10-23 睿智合创(北京)科技有限公司 一种嵌套列表形式的五层结构xml语言交互应用方法
CN112364604A (zh) * 2020-10-26 2021-02-12 南京工程学院 一种xml文档的数字化方法和***
CN117610536A (zh) * 2024-01-23 2024-02-27 南京邮电大学 基于XML文档相似度的Office操作题自动判分方法及***

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043848A (zh) * 2010-12-20 2011-05-04 北京大学 一种xml文档树实例查询方法
US9405750B2 (en) 2011-10-31 2016-08-02 Hewlett-Packard Development Company, L.P. Discrete wavelet transform method for document structure similarity
WO2013063734A1 (en) * 2011-10-31 2013-05-10 Hewlett-Packard Development Company, L.P. Determining document structure similarity using discrete wavelet transformation
CN102622432A (zh) * 2012-02-27 2012-08-01 北京工业大学 一种xml文档结构概要间的相似性度量方法
CN102622432B (zh) * 2012-02-27 2013-07-31 北京工业大学 一种xml文档结构概要间的相似性度量方法
CN102722556A (zh) * 2012-05-29 2012-10-10 清华大学 一种基于相似性度量的模型比对方法
CN102722556B (zh) * 2012-05-29 2014-10-22 清华大学 一种基于相似性度量的模型比对方法
CN102799680A (zh) * 2012-07-24 2012-11-28 华北电力大学(保定) 一种基于近邻传播的xml文档谱聚类方法
CN104750609A (zh) * 2015-03-26 2015-07-01 广东欧珀移动通信有限公司 确定界面布局兼容度的方法及装置
CN104750609B (zh) * 2015-03-26 2018-01-19 广东欧珀移动通信有限公司 确定界面布局兼容度的方法及装置
CN106933824B (zh) * 2015-12-29 2021-01-01 伊姆西Ip控股有限责任公司 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN106933824A (zh) * 2015-12-29 2017-07-07 伊姆西公司 在多个文档中确定与目标文档相似的文档集合的方法和装置
CN109885657A (zh) * 2019-02-18 2019-06-14 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN109885657B (zh) * 2019-02-18 2021-04-27 武汉瓯越网视有限公司 一种文本相似度的计算方法、装置及存储介质
CN111381188A (zh) * 2020-03-18 2020-07-07 华中科技大学 一种两电平三相电压源逆变器桥臂开路故障诊断方法
CN111815175A (zh) * 2020-07-08 2020-10-23 睿智合创(北京)科技有限公司 一种嵌套列表形式的五层结构xml语言交互应用方法
CN112364604A (zh) * 2020-10-26 2021-02-12 南京工程学院 一种xml文档的数字化方法和***
CN117610536B (zh) * 2024-01-23 2024-04-09 南京邮电大学 基于XML文档相似度的Office操作题自动判分方法及***
CN117610536A (zh) * 2024-01-23 2024-02-27 南京邮电大学 基于XML文档相似度的Office操作题自动判分方法及***

Similar Documents

Publication Publication Date Title
CN101876995A (zh) 一种计算xml文档相似度的方法
CN109284352B (zh) 一种基于倒排索引的评估类文档不定长词句的查询方法
CN106294593B (zh) 结合从句级远程监督和半监督集成学习的关系抽取方法
Embley et al. Table-processing paradigms: a research survey
CN101079024B (zh) 一种专业词表动态生成***和方法
CN101866337B (zh) 词性标注***、用于训练词性标注模型的装置及其方法
CN103500160B (zh) 一种基于滑动语义串匹配的句法分析方法
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN101079025B (zh) 一种文档相关度计算***和方法
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
CN106528583A (zh) 一种网页正文提取比对方法
CN109145260A (zh) 一种文本信息自动提取方法
CN105653522B (zh) 一种针对植物领域的非分类关系识别方法
CN105677638B (zh) Web信息抽取方法
CN111177591A (zh) 面向可视化需求的基于知识图谱的Web数据优化方法
CN102063424A (zh) 一种中文分词方法
CN105975475A (zh) 基于中文短语串的细粒度主题信息抽取方法
CN102314647A (zh) 一种利用xbrl进行的企业数据存储的方法
CN101404033A (zh) 本体层级结构的自动生成方法及***
CN102063493A (zh) 基于正则表达式组和控制逻辑的内容抽取方法
CN102779135A (zh) 跨语言获取搜索资源的方法和装置及对应搜索方法和装置
CN102360436B (zh) 一种基于部件的联机手写藏文字符的识别方法
CN110427488A (zh) 文档的处理方法及装置
CN107301166A (zh) 面向跨领域进行信息抽取的多层次特征模型和特征评价方法
CN112925901A (zh) 一种辅助在线问卷评估的评估资源推荐方法及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20101103