CN104699778A - 一种基于机器学习的跨语言分类结构匹配方法 - Google Patents

一种基于机器学习的跨语言分类结构匹配方法 Download PDF

Info

Publication number
CN104699778A
CN104699778A CN201510105414.5A CN201510105414A CN104699778A CN 104699778 A CN104699778 A CN 104699778A CN 201510105414 A CN201510105414 A CN 201510105414A CN 104699778 A CN104699778 A CN 104699778A
Authority
CN
China
Prior art keywords
classification
attribute
given
similarity
taxonomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510105414.5A
Other languages
English (en)
Other versions
CN104699778B (zh
Inventor
方一曙
漆桂林
吴天星
陆彬
张慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CN201510105414.5A priority Critical patent/CN104699778B/zh
Publication of CN104699778A publication Critical patent/CN104699778A/zh
Application granted granted Critical
Publication of CN104699778B publication Critical patent/CN104699778B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于机器学习的跨语言分类结构匹配方法,主要用于处理不同语言分类结构之间的匹配问题。本发明首先根据给定的两个分类结构产生一个双语的对照字典;然后对于给定的两个分类结构生成所有待匹配的分类对;接下来使用先前产生的字典作为辅助,使用一种基于机器学习的判定方法对每个分类对中两个分类是否可以匹配做出判定,该判定方法包含两步,第一步使用三个不同的评价方法(基于结构的相似度,基于属性的相似度,基于属性取值的相似度)对每个分类对中两个分类的可匹配程度进行评价,第二步使用机器学习的方法综合三种评价方法并对是否可匹配给出判定;最后,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。

Description

一种基于机器学习的跨语言分类结构匹配方法
技术领域
本发明属于跨语言信息匹配领域,涉及一种基于机器学习的跨语言分类结构匹配方法。
背景技术
近年来,随着语义万维网的不断发展,以分类结构为主干的模式信息在语义网领域中扮演着越来越重要的角色,随着开放链接模式概念的突出,对模式信息,尤其是分类结构信息的研究也引来了一个新的热潮。然而,当前的研究主要集中在单语言的环境中,现已经发布的分类结构数据也大多只包含单一语言的信息,不同语言的分类结构信息之间并没有很有效的连接起来。如何将不同语言的分类信息整合起来,使之发挥更大的应用价值是一个很值得研究的问题。
不同语言这个天然的障碍为跨语言的信息匹配带来了很大的困难。近年来,国内外的研究人员为了解决跨语言信息匹配的问题,提出了很多性能颇佳的方法,包括清华大学提出的扩充***中跨语言连接的方法,阿姆斯特丹自由大学提出的基于实例对不同语言间的图书分类进行匹配的方法,加拿大维多利亚大学设计的SOCOM++跨语言本体匹配***。清华大学提出的扩充***中的跨语言连接的方法首先将***中每一篇文章的标题,作者,所属类别,出度,入度等信息作为特征对文章进行描述,通过这些特征的相似程度来评价不用语言文章之间的相似程度,然后使用机器学习的方法对跨语言连接进行了扩充。
然而,目前并未出现针对跨语言分类结构匹配的方法,现已提出的方法虽然都涉及跨语言信息匹配领域,但是假定的待匹配数据都与本发明针对的分类结构数据有一定的差异,从而导致直接将这些方法应用到跨语言分类结构的匹配中去,并不能获得很好的效果。
发明内容
技术问题:本发明提供了一种对不同语言的两个分类结构之间进行匹配,可以识别出两个分类结构之间等价分类的基于机器学习的跨语言分类结构匹配方法。
技术方案:本发明的基于机器学习的跨语言分类结构匹配方法,首先根据给定的两个分类结构产生一个双语的对照字典;然后对于给定的两个分类结构生成所有待匹配的分类对;接下来使用先前产生的字典作为辅助,使用一种基于机器学习的判定方法对每个分类对中两个分类是否可以匹配做出判定,该判定方法包含两步,第一步使用三个不同的评价方法(基于结构的相似度,基于属性的相似度,基于属性取值的相似度)对每个分类对中两个分类的可匹配程度进行评价,第二步使用机器学习的方法综合三种评价方法并对是否可匹配给出判定;最后,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。
本发明的基于机器学习的跨语言分类结构匹配方法,包括如下步骤:
1)根据给定的两个分类结构产生一个双语的对照字典;同时对于给定的两个分类结构生成所有待匹配的分类对;
2)使用所述步骤1)中产生的对照字典作为辅助,分别使用基于结构的相似度评价方法、基于属性的相似度评价方法和基于属性取值的相似度评价方法,对每个待匹配的分类对中两个分类的可匹配程度进行评价;
3)使用机器学习的方法对所述步骤2)获得的三种评价结果方法进行综合匹配判定,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。
本发明的优选方案中,步骤1)中所述根据给定的两个分类结构产生一个双语的对照字典,具体包含如下步骤:
1a)对应给定的两个分类结构He和Hc,遍历He中所有的出现的词汇,建立词汇集合We={we1,we2,…,wen},其中n表示We中共包含n个词汇,we1,we2,…,wen分别表示这些词汇,所述的n个词汇不仅包括分类的名称,还包括所有分类描述信息中出现的的词汇;
同时,采用同样的方法遍历Hc,建立词汇集合Wc={wc1,wc2,…,wcm},其中m表示Wc中包含的词汇个数,wc1,wc2,…,wcm分别表示这些词汇;
求集合We与集合Wc的笛卡尔乘积,将得到的集合DC作为待定字典:
DC={(wc1,we1),(wc1,we2),…,(wci,wej),…,(wcn,we,m-1),(wcn,wem)},其中i∈[1,n],j∈[1,m];
1b)将DC中每一个元素(wi,wj)都分别使用多语言同义词字典和机器翻译技术进行分析,来判定wi与wj是否有相同含义:如果wi与wj出现在同一个多语言同义词字典的同义词集合中,或者wi能通过机器翻译技术翻译得到wj,或者wj能通过机器翻译技术翻译得到wi,则判定wi与wj有相同含义,并将此元素(wi,wj)放入集合D中;最终得到的集合D作为双语对照字典:
D={(wi,wj)|wi与wj被判定为有相同含义}。
本发明的优选方案中,步骤1)中还可以包括:对于给定的一个英文词汇e和一个中文词汇c,根据字典D定义基于字典的相似度Simdic(e,c):
本发明的优选方案中,步骤2)中基于结构的相似度评价方法的具体内容为:
对于给定的一个分类对(e,c),分类e与分类c之间的基于结构的相似度Simstruct(e,c)定义如下所示:
Si m struct ( e , c ) = Σ a ∈ N ( e ) , b ∈ N ( c ) Si m dic ( a , b ) | N ( e ) | | N ( c ) |
这里将每一个分类结构看作一个树结构,每一个分类为树结构的一个节点,上式中N(e)与N(c)分别表示分类e与分类c在自己所在的分类结构中所有相邻的分类节点和所有兄弟分类节点所构成的集合,Simdic(a,b)表示的是N(e)中的分类a与N(c)中的分类b基于字典的相似度;
基于属性的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出其中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,…,pk},其中k表示属性的个数,p1,p2,…,pk表示这些属性,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的;
对于给定的一个分类结构H,根据其中包含属性p的分类在所有分类中占的比例,为属性p定义权重WH(p)为:
其中CH为分类结构H中所有分类的集合,分母指的是CH中所有包含属性p的分类的个数;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性的相似度Simprop(e,c):
Si m prop ( e , c ) = Σ p ∈ P ( e ) , q ∈ P ( c ) Si m dic ( p , q ) W R ( p ) W S ( q ) | P ( e ) | | P ( c ) |
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重;
基于属性取值的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出分类c中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,…,pk},其中k表示属性的个数,p1,p2,…,pk表示这些属性,并为c的每一个属性p取出它在c的所有实例中取值的集合,记做VH(p),其中,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的,H为c所在的分类结构;
对于给定的两个属性p与q,根据下式定义出属性取值集合的相似度Simval(p,q):
Si m val ( p , q ) = Σ r ∈ V R ( p ) , s ∈ V S ( q ) Si m dic ( r , s ) | V R ( p ) | | V S ( q ) |
其中,R和S分别为e和c所在的分类结构,VR(p)和VS(q)分别为p在R中的取值集合与q在S中的取值集合;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性取值的相似度Simprop_val(e,c):
Si m prop _ val ( e , a ) = Σ p ∈ P ( e ) , q ∈ P ( c ) Si m dic ( p , q ) W R ( p ) W S ( q ) Si m val ( p , q ) | P ( e ) | | P ( c ) |
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重,WR(p)与WS(q)都是按照“基于属性的相似度评价方法”中的方式计算的到的。
有益效果:本发明与现有技术相比,具有以下优点:
相对于清华大学提出的扩充***中跨语言连接的方法而言,本发明重新定义了能适用于分类匹配的三种相似度的评价方式。原方法虽然也使用机器学习的方法对跨语言信息匹配的问题进行解决,但是这种方法利用了很多***中的文章中所特有的特征,这些特征是本发明所针对的分类信息所不具有的,这也就导致了特征大量缺失的问题,使得原方法不能直接应用于分类结构的匹配。而将本发明提出的三种相似度评价方法作为三种特征,充分考虑了分类结构本身的特性和分类结构与***文章的区别。本发明提出的方法使得将机器学习的框架应用到分类结构的匹配问题的成为了可能。
相对于阿姆斯特丹自由大学提出的基于实例对不同语言间的图书分类进行匹配的方法而言,本发明在对实例信息的利用上深入到了更细的粒度。在跨语言信息匹配的问题中,尤其是不针对于某一特定领域的跨语言匹配问题中,不同分类的实例之间的重合程度并不会很高,所以利用实例集合的相似度来辅助判断分类的相似度的方法显得难以实施。本发明提出的方法中,基于属性的相似度和基于属性取值的相似度分别利用了属性与属性取值的相似度来评价分类的相似度,考虑到了虽然属于同一分类的两个实例可能不完全相同,但是其属性或属性值的取值范围会较为一致。本发明利用这一现象,有效地解决了不能充分利用实例信息的问题。
相对于加拿大维多利亚大学设计的SOCOM++***而言,本发明在解决语言障碍时利用了多语言同义词字典和机器翻译技术。通过分析发现在词语所含单词数目字数较少的时候,该词汇存在歧义的可能性会很大,并且这类词语在分类结构中所占的比例很高,而若仅使用机器翻译的方法去解决语言障碍的话,一个词语只能对应到另一个语言中的一个词,使得歧义问题不能很好的解决。本发明使用了多语言同义词字典(如BabelNet)中的同义词集合有效的解决了这个问题,因为BabelNet的目标就是将所有语言中所有含义相同的词都纳入到同一个同义词集合中去,这样便使得一个词可以对应带另一个语言中的和多词上去。
经过实例分析证明,利用本发明提出的基于机器学习的跨语言分类结构匹配方法,可以有效的对不同语言的分类之间的等价分类进行识别,该方法的正确率与召回率均超过现有的跨语言信息匹配方法。
附图说明
图1是本发明的基本过程的示意图;
图2是本发明中两个分类匹配判定方法的示意图。
具体实施方式
以下结合实施例和说明书附图,详细说明本发明的实施过程。
本发明提出了一种基于机器学习的跨语言分类结构匹配方法,该方法包括以下3个步骤:
1)根据给定的两个分类结构产生一个双语的对照字典;同时对于给定的两个分类结构生成所有待匹配的分类对;
这里指定待匹配的两个分类结构分别为:He和Hc。这里所述的每一个分类结构都是由若干分类构成的一个树状层次结构,每一个分类包含一定数量的实例,每一个实例由若干“属性-属性值”对其进行描述。例如,从某英文电子商务站点中提取出来的分类结构He中可能会包含“Laptop”,“Phone”等类别,“Laptop”类别中又包含很多商品作为实例信息出现,并且每一个商品都有若干“属性-属性值”对其进行描述,例如,其中某实例的“Product Name”为“Dell Inspiron i3531-1200BK Laptop”,“CPU”为“Intel Celeron N2830”,“Memory”为“4GB”。从某中文电子商务站点中提取出来的分类结构Hc中可能会包含“笔记本电脑”,“书籍”等类别,“笔记本电脑”类别中又包含有很多的商品作为实例信息出现,并且每一个商品都由若干“属性-属性值”对其进行描述,例如,其中某实例的“商品名”为“联想G510AT笔记本电脑”,“处理器”为“Intel i5”,“内存大小”为“4G”。这里的“商品名”,“处理器”,“内存大小”为属性,而“联想G510AT笔记本电脑”,“Intel i5”,“4G”为属性值。
首先根据给定的两个分类结构产生一个双语的对照字典,具体包含如下步骤:
1a)对应给定的两个分类结构He和Hc,遍历He中所有的出现的词汇,建立词汇集合We={we1,we2,…,wen},其中n表示We中共包含n个词汇,we1,we2,…,wen分别表示这些词汇,所述的n个词汇不仅包括分类的名称,还包括所有分类描述信息中出现的词汇。例如,在上面所举得例子中,这里的We为包含“Notebook”、“Product Name”、“CPU”、“Memory”等词汇的集合。
同时,采用同样的方法遍历Hc,建立词汇集合Wc={wc1,wc2,…,wcm},其中m表示Wc中包含的词汇个数,wc1,wc2,…,wcm分别表示这些词汇。这里的Wc则可能为包含“笔记本电脑”、“书籍”、“商品名”、“联想G510AT笔记本电脑”、“处理器”等词汇的集合。
求集合We与集合Wc的笛卡尔乘积,将得到的集合DC作为待定字典:
DC={(wc1,we1),(wc1,we2),…,(wci,wej),…,(wcn,we,m-1),(wcn,wem)},其中i∈[1,n],j∈[1,m]。在这里举出的例子中,DC包含了("Notebook","笔记本电脑"),("CPU","笔记本电脑"),("CPU","处理器")等元素。
1b)将DC中每一个元素(wi,wj)都分别使用多语言同义词字典和机器翻译技术进行分析,来判定wi与wj是否有相同含义。BabelNet是一个典型的多语言同义词字典,它包含了很多的同义词集,每一个同义词集合中包含了很多语言中含义相同的词汇,例如“Notebook”与“笔记本电脑”就会出现在同一个同义词集合中。如果wi与wj出现在同一个BabelNet的同义词集合中,或者wi能通过机器翻译技术翻译得到wj,或者wj能通过机器翻译技术翻译得到wi,则判定wi与wj有相同含义,并将此元素(wi,wj)放入集合D中。最终得到的集合D作为双语对照字典:
D={(wi,wj)|wi与wj被判定为有相同含义},通过这一步骤,在这里的例子中,D包含了("Notebook","笔记本电脑"),("CPU","处理器")等元素。
在完成上述步骤之后,对于给定的一个英文词汇e和一个中文词汇c,根据字典D定义基于字典的相似度Simdic(e,c):
最后,对于给定的两个分类结构生成所有待匹配的分类对:遍历He中所有的分类,建立分类集合Ce={we1,we2,…,wen},其中n为Ce中包含分类的个数,例子中Ce为包含“Notebook”,“Phone”等分类的集合。同样的,遍历Hc中所有的分类,建立分类集合Cc={wc1,wc2,…,wcm},其中m为Cc中包含分类的个数,例子中Cc为包含“笔记本电脑”,“图书”等分类的集合。然后,求集合Ce与集合Cc的笛卡尔乘积,将得到的集合AC作为待匹配的分类对集合:AC={(ce1,cc1),(ce2,cc2),…,(cei,ccj),…,(cen,cc,m-1),(cen,ccm)},其中i∈[1,n],j∈[1,m],每一个元素(ci,cj)为一个待匹配的分类对,这里的AC为包含("Notebook","笔记本电脑"),("Phone","笔记本电脑"),("Notebook","书籍"),("Phone","书籍")等分类对的集合。
2)使用所述步骤1)中产生的对照字典作为辅助,分别使用基于结构的相似度评价方法、基于属性的相似度评价方法和基于属性取值的相似度评价方法,对每个待匹配的分类对中两个分类的可匹配程度进行评价。
对于给定的一个分类对(e,c),分类e与分类c之间的基于结构的相似度Simstruct(e,c)定义如下所示:
Si m struct ( e , c ) = Σ a ∈ N ( e ) , b ∈ N ( c ) Si m dic ( a , b ) | N ( e ) | | N ( c ) |
这里将每一个分类结构看作一个树结构,每一个分类为树结构的一个节点,上式中N(e)与N(c)分别表示分类e与分类c在自己所在的分类结构中所有相邻的分类节点和所有兄弟分类节点所构成的集合,Simdic(a,b)表示的是N(e)中的分类a与N(c)中的分类b基于字典的相似度;
基于属性的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出其中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,…,pk},其中k表示属性的个数,p1,p2,…,pk表示这些属性,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的。例如,“笔记本电脑”类别下的实例都含有“商品名”,“处理器”,“内存”等属性,于是P("笔记本电脑")={"商品名","处理器","内存",...}。
对于给定的一个分类结构H,根据其中包含属性p的分类在所有分类中占的比例,为属性p定义权重WH(p)为:
其中CH为分类结构H中所有分类的集合,分母指的是CH中所有包含属性p的分类的个数;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性的相似度Simprop(e,c):
Si m prop ( e , c ) = Σ p ∈ P ( e ) , q ∈ P ( c ) Si m dic ( p , q ) W R ( p ) W S ( q ) | P ( e ) | | P ( c ) |
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重;
基于属性取值的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出分类c中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,…,pk},其中k表示属性的个数,p1,p2,…,pk表示这些属性,并为c的每一个属性p取出它在c的所有实例中取值的集合,记做VH(p),其中,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的,H为c所在的分类结构。例如在“笔记本电脑”分类所包含的实例中,“处理器”这个属性的取值可能为“Intel i5”,“Intel i7”,“奔腾双核”等等,于是在这里VH("处理器")={"Intel i5","Intel i7","奔腾双核",…}。
对于给定的两个属性p与q,根据下式定义出属性取值集合的相似度Simval(p,q):
Si m val ( p , q ) = Σ r ∈ V R ( p ) , s ∈ V S ( q ) Si m dic ( r , s ) | V R ( p ) | | V S ( q ) |
其中,R和S分别为e和c所在的分类结构,VR(p)和VS(q)分别为p在R中的取值集合与q在S中的取值集合;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性取值的相似度Simprop_val(e,c):
Si m prop _ val ( e , c ) = Σ p ∈ P ( e ) , q ∈ P ( c ) Si m dic ( p , q ) W R ( p ) W S ( q ) Si m val ( p , q ) | P ( e ) | | P ( c ) |
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重,WR(p)与WS(q)都是按照“基于属性的相似度评价方法”中的方式计算的到的。
3)使用机器学习的方法对所述步骤2)获得的三种评价结果方法进行综合匹配判定,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。包含以下步骤:
3a)从AC随机选取一定数量的分类对,人工对这些分类对进行标注,若人工判定给定分类对中的两个分类可以匹配,则该分类对为正例,反之则为负例。在这里的例子中,("Notebook","笔记本电脑")应被标注为正例,其他的分类对都应被标注为负例。
3b)选取数量相当的正例和负例作为训练集,训练出一个基于决策树的机器学习分类模型。其中使用每一个分类对两个分类之间的三种相似度评价结果作为机器学习的特征输入,分别为步骤2)中所求得的基于结构的相似度,基于属性的相似度和基于属性取值的相似度。
3c)对AC中每一个分类对应用步骤3b)中训练得到的机器学习分类模型,判定每个分类对中的两个分类是否可以匹配。最后得到一个分类对集合A,该集合中所有的元素都是被判定为可以匹配的分类对:A={(ci,cj)|ci与cj被判定为可以匹配}。A即为作为分类结构的匹配结果,在这里的例子中,得到的结果输出中应该包含("Notebook","笔记本电脑")等分类匹配结果。
上述实施例仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和等同替换,这些对本发明权利要求进行改进和等同替换后的技术方案,均落入本发明的保护范围。

Claims (4)

1.一种基于机器学习的跨语言分类结构匹配方法,其特征在于,该方法包括如下步骤:
1)根据给定的两个分类结构产生一个双语的对照字典;同时对于给定的两个分类结构生成所有待匹配的分类对;
2)使用所述步骤1)中产生的对照字典作为辅助,分别使用基于结构的相似度评价方法、基于属性的相似度评价方法和基于属性取值的相似度评价方法,对每个待匹配的分类对中两个分类的可匹配程度进行评价;
3)使用机器学习的方法对所述步骤2)获得的三种评价结果方法进行综合匹配判定,将所有被判定为可以匹配的分类对作为分类结构的匹配结果。
2.根据权利要求1所述的基于机器学习的跨语言分类结构匹配方法,其特征在于,所述根据给定的两个分类结构产生一个双语的对照字典,具体包含如下步骤:
1a)对应给定的两个分类结构He和Hc,遍历He中所有出现的词汇,建立词汇集合We={we1,we2,...,wen},其中n表示We中共包含n个词汇,we1,we2,...,wen分别表示这些词汇,所述的n个词汇不仅包括分类的名称,还包括所有分类描述信息中出现的词汇;
同时,采用同样的方法遍历Hc,建立词汇集合Wc={wc1,wc2,...,wcm},其中m表示Wc中包含的词汇个数,wc1,wc2,...,wcm分别表示这些词汇;
求集合We与集合Wc的笛卡尔乘积,将得到的集合DC作为待定字典:
DC={(wc1,we1),(wc1,we2),...,(wci,wej),...,(wcn,we,m-1),(wcn,wem)},其中i∈[1,n],j∈[1,m];
1b)将DC中每一个元素(wi,wj)都分别使用多语言同义词字典和机器翻译技术进行分析,来判定wi与wj是否有相同含义:如果wi与wj出现在同一个多语言同义词字典的同义词集合中,或者wi能通过机器翻译技术翻译得到wj,或者wj能通过机器翻译技术翻译得到wi,则判定wi与wj有相同含义,并将此元素(wi,wj)放入集合D中;最终得到的集合D作为双语对照字典:
D={(wi,wj)|wi与wj被判定为有相同含义}。
3.根据权利要求1或2所述的基于机器学习的跨语言分类结构匹配方法,其特征在于,所述步骤1)中还包括:对于给定的一个英文词汇e和一个中文词汇c,根据字典D定义基于字典的相似度Simdic(e,c):
4.根据权利要求3所述的基于机器学习的跨语言分类结构匹配方法,其特征在于,所述步骤2)中基于结构的相似度评价方法的具体内容为:
对于给定的一个分类对(e,c),分类e与分类c之间的基于结构的相似度Simstruct(e,c)定义如下所示:
这里将每一个分类结构看作一个树结构,每一个分类为树结构的一个节点,上式中N(e)与N(c)分别表示分类e与分类c在自己所在的分类结构中所有相邻的分类节点和所有兄弟分类节点所构成的集合,Simdic(a,b)表示的是N(e)中的分类a与N(c)中的分类b基于字典的相似度;
基于属性的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出其中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,...,pk},其中k表示属性的个数,p1,p2,...,pk表示这些属性,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的;
对于给定的一个分类结构H,根据其中包含属性p的分类在所有分类中占的比例,为属性p定义权重WH(p)为:
其中CH为分类结构H中所有分类的集合,分母指的是CH中所有包含属性p的分类的个数;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性的相 似度Simprop(e,c):
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重;
基于属性取值的相似度评价方法的具体内容为:对于任意给定一个分类c,总结出分类c中所有实例都包含的属性,形成一个集合作为分类c的属性,记做P(c)={p1,p2,...,pk},其中k表示属性的个数,p1,p2,...,pk表示这些属性,并为c的每一个属性p取出它在c的所有实例中取值的集合,记做VH(p),其中,所述分类c中包含一定数量的实例,并且每一个实例是由若干“属性-属性值”对描述的,H为c所在的分类结构;
对于给定的两个属性p与q,根据下式定义出属性取值集合的相似度Simval(p,q):
其中,R和S分别为e和c所在的分类结构,VR(p)和VS(q)分别为p在R中的取值集合与q在S中的取值集合;
对于给定的一个分类对(e,c),根据下式获得分类e与分类c之间的基于属性取值的相似度Simprop_val(e,c):
其中p和q分别为e和c的属性,R和S分别为e和c所在的分类结构,WR(p)和WS(q)分别表示p和q这两个属性的权重,WR(p)与WS(q)都是按照“基于属性的相似度评价方法”中的方式计算的到的。
CN201510105414.5A 2015-03-10 2015-03-10 一种基于机器学习的跨语言分类结构匹配方法 Expired - Fee Related CN104699778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510105414.5A CN104699778B (zh) 2015-03-10 2015-03-10 一种基于机器学习的跨语言分类结构匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510105414.5A CN104699778B (zh) 2015-03-10 2015-03-10 一种基于机器学习的跨语言分类结构匹配方法

Publications (2)

Publication Number Publication Date
CN104699778A true CN104699778A (zh) 2015-06-10
CN104699778B CN104699778B (zh) 2017-09-01

Family

ID=53346899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510105414.5A Expired - Fee Related CN104699778B (zh) 2015-03-10 2015-03-10 一种基于机器学习的跨语言分类结构匹配方法

Country Status (1)

Country Link
CN (1) CN104699778B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704474A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 属性对齐方法和装置
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008943A (zh) * 2006-01-23 2007-08-01 富士施乐株式会社 词语对齐设备、方法、程序产品和例句双语词典
US20100070262A1 (en) * 2008-09-10 2010-03-18 Microsoft Corporation Adapting cross-lingual information retrieval for a target collection
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103473222A (zh) * 2013-09-16 2013-12-25 中央民族大学 一种藏语语义本体创建及词汇扩充方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101008943A (zh) * 2006-01-23 2007-08-01 富士施乐株式会社 词语对齐设备、方法、程序产品和例句双语词典
US20100070262A1 (en) * 2008-09-10 2010-03-18 Microsoft Corporation Adapting cross-lingual information retrieval for a target collection
CN101901249A (zh) * 2009-05-26 2010-12-01 复旦大学 一种图像检索中基于文本的查询扩展与排序方法
CN103473222A (zh) * 2013-09-16 2013-12-25 中央民族大学 一种藏语语义本体创建及词汇扩充方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHICHUN WANG等: "Cross-lingual Knowledge Linking Across Wiki Knowledge Bases", 《PROCEEDINGS OF THE 21ST INTERNATIONAL CONFERENCE ON WORLD SIDE WEB》 *
彭琳: "汉语词语语义相似度度量及其在跨语言信息检索中的应用研究", 《万方数据》 *
赵晋巍: "本体匹配技术研究概述", 《现代图书情报技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704474A (zh) * 2016-08-08 2018-02-16 华为技术有限公司 属性对齐方法和装置
CN107704474B (zh) * 2016-08-08 2020-08-25 华为技术有限公司 属性对齐方法和装置
CN109408822A (zh) * 2018-10-30 2019-03-01 中译语通科技股份有限公司 一种跨语言图书相关度分析方法及***

Also Published As

Publication number Publication date
CN104699778B (zh) 2017-09-01

Similar Documents

Publication Publication Date Title
CN110633409B (zh) 一种融合规则与深度学习的汽车新闻事件抽取方法
Jiang et al. Wikipedia-based information content and semantic similarity computation
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN109684440A (zh) 基于层级标注的地址相似度度量方法
Zouaq et al. A survey of domain ontology engineering: Methods and tools
CN112199511A (zh) 跨语言多来源垂直领域知识图谱构建方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN106776711A (zh) 一种基于深度学习的中文医学知识图谱构建方法
Fengmei et al. FSFP: Transfer learning from long texts to the short
Wu et al. Knowledge graph construction from multiple online encyclopedias
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN110377690B (zh) 一种基于远程关系抽取的信息获取方法和***
Wei et al. LSTM-SN: complex text classifying with LSTM fusion social network
Ma et al. Research on the construction method of knowledge graph for power grid education resources
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
Antopol’skii et al. The development of a semantic network of keywords based on definitive relationships
CN104699778A (zh) 一种基于机器学习的跨语言分类结构匹配方法
CN103853701A (zh) 一种基于神经网络的自学习语义检测方法及***
Qiu et al. Review of development and construction of Uyghur knowledge graph
CN110377706A (zh) 基于深度学习的搜索语句挖掘方法及设备
Wang et al. Park recommendation algorithm based on user reviews and ratings
Jing et al. Sentiment classification of online reviews based on lda and semantic analysis of sentimental words
Lu et al. Overview of knowledge mapping construction technology
Wu et al. A text correlation algorithm for stock market news event extraction
Wang et al. A semantic path based approach to match subgraphs from large financial knowledge graph

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170901