CN104699778A

CN104699778A - 一种基于机器学习的跨语言分类结构匹配方法

Info

Publication number: CN104699778A
Application number: CN201510105414.5A
Authority: CN
Inventors: 方一曙; 漆桂林; 吴天星; 陆彬; 张慧
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-03-10
Filing date: 2015-03-10
Publication date: 2015-06-10
Anticipated expiration: 2035-03-10
Also published as: CN104699778B

Abstract

本发明公开了一种基于机器学习的跨语言分类结构匹配方法，主要用于处理不同语言分类结构之间的匹配问题。本发明首先根据给定的两个分类结构产生一个双语的对照字典；然后对于给定的两个分类结构生成所有待匹配的分类对；接下来使用先前产生的字典作为辅助，使用一种基于机器学习的判定方法对每个分类对中两个分类是否可以匹配做出判定，该判定方法包含两步，第一步使用三个不同的评价方法(基于结构的相似度，基于属性的相似度，基于属性取值的相似度)对每个分类对中两个分类的可匹配程度进行评价，第二步使用机器学习的方法综合三种评价方法并对是否可匹配给出判定；最后，将所有被判定为可以匹配的分类对作为分类结构的匹配结果。

Description

一种基于机器学习的跨语言分类结构匹配方法

技术领域

本发明属于跨语言信息匹配领域，涉及一种基于机器学习的跨语言分类结构匹配方法。

背景技术

近年来，随着语义万维网的不断发展，以分类结构为主干的模式信息在语义网领域中扮演着越来越重要的角色，随着开放链接模式概念的突出，对模式信息，尤其是分类结构信息的研究也引来了一个新的热潮。然而，当前的研究主要集中在单语言的环境中，现已经发布的分类结构数据也大多只包含单一语言的信息，不同语言的分类结构信息之间并没有很有效的连接起来。如何将不同语言的分类信息整合起来，使之发挥更大的应用价值是一个很值得研究的问题。

不同语言这个天然的障碍为跨语言的信息匹配带来了很大的困难。近年来，国内外的研究人员为了解决跨语言信息匹配的问题，提出了很多性能颇佳的方法，包括清华大学提出的扩充***中跨语言连接的方法，阿姆斯特丹自由大学提出的基于实例对不同语言间的图书分类进行匹配的方法，加拿大维多利亚大学设计的SOCOM++跨语言本体匹配***。清华大学提出的扩充***中的跨语言连接的方法首先将***中每一篇文章的标题，作者，所属类别，出度，入度等信息作为特征对文章进行描述，通过这些特征的相似程度来评价不用语言文章之间的相似程度，然后使用机器学习的方法对跨语言连接进行了扩充。

然而，目前并未出现针对跨语言分类结构匹配的方法，现已提出的方法虽然都涉及跨语言信息匹配领域，但是假定的待匹配数据都与本发明针对的分类结构数据有一定的差异，从而导致直接将这些方法应用到跨语言分类结构的匹配中去，并不能获得很好的效果。

发明内容

技术问题：本发明提供了一种对不同语言的两个分类结构之间进行匹配，可以识别出两个分类结构之间等价分类的基于机器学习的跨语言分类结构匹配方法。

技术方案：本发明的基于机器学习的跨语言分类结构匹配方法，首先根据给定的两个分类结构产生一个双语的对照字典；然后对于给定的两个分类结构生成所有待匹配的分类对；接下来使用先前产生的字典作为辅助，使用一种基于机器学习的判定方法对每个分类对中两个分类是否可以匹配做出判定，该判定方法包含两步，第一步使用三个不同的评价方法(基于结构的相似度，基于属性的相似度，基于属性取值的相似度)对每个分类对中两个分类的可匹配程度进行评价，第二步使用机器学习的方法综合三种评价方法并对是否可匹配给出判定；最后，将所有被判定为可以匹配的分类对作为分类结构的匹配结果。

本发明的基于机器学习的跨语言分类结构匹配方法，包括如下步骤：

1)根据给定的两个分类结构产生一个双语的对照字典；同时对于给定的两个分类结构生成所有待匹配的分类对；

2)使用所述步骤1)中产生的对照字典作为辅助，分别使用基于结构的相似度评价方法、基于属性的相似度评价方法和基于属性取值的相似度评价方法，对每个待匹配的分类对中两个分类的可匹配程度进行评价；

3)使用机器学习的方法对所述步骤2)获得的三种评价结果方法进行综合匹配判定，将所有被判定为可以匹配的分类对作为分类结构的匹配结果。

本发明的优选方案中，步骤1)中所述根据给定的两个分类结构产生一个双语的对照字典，具体包含如下步骤：

1a)对应给定的两个分类结构H_e和H_c，遍历H_e中所有的出现的词汇，建立词汇集合W_e＝{w_e1,w_e2,…,w_en}，其中n表示W_e中共包含n个词汇，w_e1,w_e2,…,w_en分别表示这些词汇，所述的n个词汇不仅包括分类的名称，还包括所有分类描述信息中出现的的词汇；

同时，采用同样的方法遍历H_c，建立词汇集合W_c＝{w_c1,w_c2,…,w_cm}，其中m表示W_c中包含的词汇个数，w_c1,w_c2,…,w_cm分别表示这些词汇；

求集合W_e与集合W_c的笛卡尔乘积，将得到的集合DC作为待定字典：

DC＝{(w_c1,w_e1),(w_c1,w_e2),…,(w_ci,w_ej),…,(w_cn,w_e,m-1),(w_cn,w_em)}，其中i∈[1,n]，j∈[1,m]；

1b)将DC中每一个元素(w_i,w_j)都分别使用多语言同义词字典和机器翻译技术进行分析，来判定w_i与w_j是否有相同含义：如果w_i与w_j出现在同一个多语言同义词字典的同义词集合中，或者w_i能通过机器翻译技术翻译得到w_j，或者w_j能通过机器翻译技术翻译得到w_i，则判定w_i与w_j有相同含义，并将此元素(w_i,w_j)放入集合D中；最终得到的集合D作为双语对照字典：

D＝{(w_i,w_j)|w_i与w_j被判定为有相同含义}。

本发明的优选方案中，步骤1)中还可以包括：对于给定的一个英文词汇e和一个中文词汇c，根据字典D定义基于字典的相似度Sim_dic(e,c)：

本发明的优选方案中，步骤2)中基于结构的相似度评价方法的具体内容为：

对于给定的一个分类对(e,c)，分类e与分类c之间的基于结构的相似度Sim_struct(e,c)定义如下所示：

Si m_{struct} (e, c) = \frac{Σ_{a &Element; N (e), b &Element; N (c)} Si m_{dic} (a, b)}{| N (e) | | N (c) |}

这里将每一个分类结构看作一个树结构，每一个分类为树结构的一个节点，上式中N(e)与N(c)分别表示分类e与分类c在自己所在的分类结构中所有相邻的分类节点和所有兄弟分类节点所构成的集合，Sim_dic(a,b)表示的是N(e)中的分类a与N(c)中的分类b基于字典的相似度；

基于属性的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出其中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,…,p_k}，其中k表示属性的个数，p₁,p₂,…,p_k表示这些属性，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的；

对于给定的一个分类结构H，根据其中包含属性p的分类在所有分类中占的比例，为属性p定义权重W_H(p)为：

其中C_H为分类结构H中所有分类的集合，分母指的是C_H中所有包含属性p的分类的个数；

对于给定的一个分类对(e,c)，根据下式获得分类e与分类c之间的基于属性的相似度Sim_prop(e,c)：

Si m_{prop} (e, c) = \frac{Σ_{p &Element; P (e), q &Element; P (c)} Si m_{dic} (p, q) W_{R} (p) W_{S} (q)}{| P (e) | | P (c) |}

其中p和q分别为e和c的属性，R和S分别为e和c所在的分类结构，W_R(p)和W_S(q)分别表示p和q这两个属性的权重；

基于属性取值的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出分类c中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,…,p_k}，其中k表示属性的个数，p₁,p₂,…,p_k表示这些属性，并为c的每一个属性p取出它在c的所有实例中取值的集合，记做V_H(p)，其中，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的，H为c所在的分类结构；

对于给定的两个属性p与q，根据下式定义出属性取值集合的相似度Sim_val(p,q)：

Si m_{val} (p, q) = \frac{Σ_{r &Element; V_{R} (p), s &Element; V_{S} (q)} Si m_{dic} (r, s)}{| V_{R} (p) | | V_{S} (q) |}

其中，R和S分别为e和c所在的分类结构，V_R(p)和V_S(q)分别为p在R中的取值集合与q在S中的取值集合；

对于给定的一个分类对(e,c)，根据下式获得分类e与分类c之间的基于属性取值的相似度Sim_{prop_val}(e,c)：

Si m_{prop_val} (e, a) = \frac{Σ_{p &Element; P (e), q &Element; P (c)} Si m_{dic} (p, q) W_{R} (p) W_{S} (q) Si m_{val} (p, q)}{| P (e) | | P (c) |}

其中p和q分别为e和c的属性，R和S分别为e和c所在的分类结构，W_R(p)和W_S(q)分别表示p和q这两个属性的权重，W_R(p)与W_S(q)都是按照“基于属性的相似度评价方法”中的方式计算的到的。

有益效果：本发明与现有技术相比，具有以下优点：

相对于清华大学提出的扩充***中跨语言连接的方法而言，本发明重新定义了能适用于分类匹配的三种相似度的评价方式。原方法虽然也使用机器学习的方法对跨语言信息匹配的问题进行解决，但是这种方法利用了很多***中的文章中所特有的特征，这些特征是本发明所针对的分类信息所不具有的，这也就导致了特征大量缺失的问题，使得原方法不能直接应用于分类结构的匹配。而将本发明提出的三种相似度评价方法作为三种特征，充分考虑了分类结构本身的特性和分类结构与***文章的区别。本发明提出的方法使得将机器学习的框架应用到分类结构的匹配问题的成为了可能。

相对于阿姆斯特丹自由大学提出的基于实例对不同语言间的图书分类进行匹配的方法而言，本发明在对实例信息的利用上深入到了更细的粒度。在跨语言信息匹配的问题中，尤其是不针对于某一特定领域的跨语言匹配问题中，不同分类的实例之间的重合程度并不会很高，所以利用实例集合的相似度来辅助判断分类的相似度的方法显得难以实施。本发明提出的方法中，基于属性的相似度和基于属性取值的相似度分别利用了属性与属性取值的相似度来评价分类的相似度，考虑到了虽然属于同一分类的两个实例可能不完全相同，但是其属性或属性值的取值范围会较为一致。本发明利用这一现象，有效地解决了不能充分利用实例信息的问题。

相对于加拿大维多利亚大学设计的SOCOM++***而言，本发明在解决语言障碍时利用了多语言同义词字典和机器翻译技术。通过分析发现在词语所含单词数目字数较少的时候，该词汇存在歧义的可能性会很大，并且这类词语在分类结构中所占的比例很高，而若仅使用机器翻译的方法去解决语言障碍的话，一个词语只能对应到另一个语言中的一个词，使得歧义问题不能很好的解决。本发明使用了多语言同义词字典(如BabelNet)中的同义词集合有效的解决了这个问题，因为BabelNet的目标就是将所有语言中所有含义相同的词都纳入到同一个同义词集合中去，这样便使得一个词可以对应带另一个语言中的和多词上去。

经过实例分析证明，利用本发明提出的基于机器学习的跨语言分类结构匹配方法，可以有效的对不同语言的分类之间的等价分类进行识别，该方法的正确率与召回率均超过现有的跨语言信息匹配方法。

附图说明

图1是本发明的基本过程的示意图；

图2是本发明中两个分类匹配判定方法的示意图。

具体实施方式

以下结合实施例和说明书附图，详细说明本发明的实施过程。

本发明提出了一种基于机器学习的跨语言分类结构匹配方法，该方法包括以下3个步骤：

这里指定待匹配的两个分类结构分别为：H_e和H_c。这里所述的每一个分类结构都是由若干分类构成的一个树状层次结构，每一个分类包含一定数量的实例，每一个实例由若干“属性-属性值”对其进行描述。例如，从某英文电子商务站点中提取出来的分类结构H_e中可能会包含“Laptop”，“Phone”等类别，“Laptop”类别中又包含很多商品作为实例信息出现，并且每一个商品都有若干“属性-属性值”对其进行描述，例如，其中某实例的“Product Name”为“Dell Inspiron i3531-1200BK Laptop”，“CPU”为“Intel Celeron N2830”，“Memory”为“4GB”。从某中文电子商务站点中提取出来的分类结构H_c中可能会包含“笔记本电脑”，“书籍”等类别，“笔记本电脑”类别中又包含有很多的商品作为实例信息出现，并且每一个商品都由若干“属性-属性值”对其进行描述，例如，其中某实例的“商品名”为“联想G510AT笔记本电脑”，“处理器”为“Intel i5”，“内存大小”为“4G”。这里的“商品名”，“处理器”，“内存大小”为属性，而“联想G510AT笔记本电脑”，“Intel i5”，“4G”为属性值。

首先根据给定的两个分类结构产生一个双语的对照字典，具体包含如下步骤：

1a)对应给定的两个分类结构H_e和H_c，遍历H_e中所有的出现的词汇，建立词汇集合W_e＝{w_e1,w_e2,…,w_en}，其中n表示W_e中共包含n个词汇，w_e1,w_e2,…,w_en分别表示这些词汇，所述的n个词汇不仅包括分类的名称，还包括所有分类描述信息中出现的词汇。例如，在上面所举得例子中，这里的W_e为包含“Notebook”、“Product Name”、“CPU”、“Memory”等词汇的集合。

同时，采用同样的方法遍历H_c，建立词汇集合W_c＝{w_c1,w_c2,…,w_cm}，其中m表示W_c中包含的词汇个数，w_c1,w_c2,…,w_cm分别表示这些词汇。这里的W_c则可能为包含“笔记本电脑”、“书籍”、“商品名”、“联想G510AT笔记本电脑”、“处理器”等词汇的集合。

DC＝{(w_c1,w_e1),(w_c1,w_e2),…,(w_ci,w_ej),…,(w_cn,w_e,m-1),(w_cn,w_em)}，其中i∈[1,n]，j∈[1,m]。在这里举出的例子中，DC包含了("Notebook","笔记本电脑")，("CPU","笔记本电脑")，("CPU","处理器")等元素。

1b)将DC中每一个元素(w_i,w_j)都分别使用多语言同义词字典和机器翻译技术进行分析，来判定w_i与w_j是否有相同含义。BabelNet是一个典型的多语言同义词字典，它包含了很多的同义词集，每一个同义词集合中包含了很多语言中含义相同的词汇，例如“Notebook”与“笔记本电脑”就会出现在同一个同义词集合中。如果w_i与w_j出现在同一个BabelNet的同义词集合中，或者w_i能通过机器翻译技术翻译得到w_j，或者w_j能通过机器翻译技术翻译得到w_i，则判定w_i与w_j有相同含义，并将此元素(w_i,w_j)放入集合D中。最终得到的集合D作为双语对照字典：

D＝{(w_i,w_j)|w_i与w_j被判定为有相同含义}，通过这一步骤，在这里的例子中，D包含了("Notebook","笔记本电脑")，("CPU","处理器")等元素。

在完成上述步骤之后，对于给定的一个英文词汇e和一个中文词汇c，根据字典D定义基于字典的相似度Sim_dic(e,c)：

最后，对于给定的两个分类结构生成所有待匹配的分类对：遍历H_e中所有的分类，建立分类集合C_e＝{w_e1,w_e2,…,w_en}，其中n为C_e中包含分类的个数，例子中C_e为包含“Notebook”，“Phone”等分类的集合。同样的，遍历H_c中所有的分类，建立分类集合C_c＝{w_c1,w_c2,…,w_cm}，其中m为C_c中包含分类的个数，例子中C_c为包含“笔记本电脑”，“图书”等分类的集合。然后，求集合C_e与集合C_c的笛卡尔乘积，将得到的集合AC作为待匹配的分类对集合：AC＝{(c_e1,c_c1),(c_e2,c_c2),…,(c_ei,c_cj),…,(c_en,c_c,m-1),(c_en,c_cm)}，其中i∈[1,n]，j∈[1,m]，每一个元素(c_i,c_j)为一个待匹配的分类对，这里的AC为包含("Notebook","笔记本电脑")，("Phone","笔记本电脑")，("Notebook","书籍")，("Phone","书籍")等分类对的集合。

2)使用所述步骤1)中产生的对照字典作为辅助，分别使用基于结构的相似度评价方法、基于属性的相似度评价方法和基于属性取值的相似度评价方法，对每个待匹配的分类对中两个分类的可匹配程度进行评价。

Si m_{struct} (e, c) = \frac{Σ_{a &Element; N (e), b &Element; N (c)} Si m_{dic} (a, b)}{| N (e) | | N (c) |}

基于属性的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出其中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,…,p_k}，其中k表示属性的个数，p₁,p₂,…,p_k表示这些属性，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的。例如，“笔记本电脑”类别下的实例都含有“商品名”，“处理器”，“内存”等属性，于是P("笔记本电脑")＝{"商品名","处理器","内存",...}。

Si m_{prop} (e, c) = \frac{Σ_{p &Element; P (e), q &Element; P (c)} Si m_{dic} (p, q) W_{R} (p) W_{S} (q)}{| P (e) | | P (c) |}

基于属性取值的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出分类c中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,…,p_k}，其中k表示属性的个数，p₁,p₂,…,p_k表示这些属性，并为c的每一个属性p取出它在c的所有实例中取值的集合，记做V_H(p)，其中，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的，H为c所在的分类结构。例如在“笔记本电脑”分类所包含的实例中，“处理器”这个属性的取值可能为“Intel i5”，“Intel i7”，“奔腾双核”等等，于是在这里V_H("处理器")＝{"Intel i5","Intel i7","奔腾双核",…}。

Si m_{val} (p, q) = \frac{Σ_{r &Element; V_{R} (p), s &Element; V_{S} (q)} Si m_{dic} (r, s)}{| V_{R} (p) | | V_{S} (q) |}

Si m_{prop_val} (e, c) = \frac{Σ_{p &Element; P (e), q &Element; P (c)} Si m_{dic} (p, q) W_{R} (p) W_{S} (q) Si m_{val} (p, q)}{| P (e) | | P (c) |}

3)使用机器学习的方法对所述步骤2)获得的三种评价结果方法进行综合匹配判定，将所有被判定为可以匹配的分类对作为分类结构的匹配结果。包含以下步骤：

3a)从AC随机选取一定数量的分类对，人工对这些分类对进行标注，若人工判定给定分类对中的两个分类可以匹配，则该分类对为正例，反之则为负例。在这里的例子中，("Notebook","笔记本电脑")应被标注为正例，其他的分类对都应被标注为负例。

3b)选取数量相当的正例和负例作为训练集，训练出一个基于决策树的机器学习分类模型。其中使用每一个分类对两个分类之间的三种相似度评价结果作为机器学习的特征输入，分别为步骤2)中所求得的基于结构的相似度，基于属性的相似度和基于属性取值的相似度。

3c)对AC中每一个分类对应用步骤3b)中训练得到的机器学习分类模型，判定每个分类对中的两个分类是否可以匹配。最后得到一个分类对集合A，该集合中所有的元素都是被判定为可以匹配的分类对：A＝{(c_i,c_j)|c_i与c_j被判定为可以匹配}。A即为作为分类结构的匹配结果，在这里的例子中，得到的结果输出中应该包含("Notebook","笔记本电脑")等分类匹配结果。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于机器学习的跨语言分类结构匹配方法，其特征在于，该方法包括如下步骤：

2.根据权利要求1所述的基于机器学习的跨语言分类结构匹配方法，其特征在于，所述根据给定的两个分类结构产生一个双语的对照字典，具体包含如下步骤：

1a)对应给定的两个分类结构H_e和H_c，遍历H_e中所有出现的词汇，建立词汇集合W_e＝{w_e1,w_e2,...,w_en}，其中n表示W_e中共包含n个词汇，w_e1,w_e2,...,w_en分别表示这些词汇，所述的n个词汇不仅包括分类的名称，还包括所有分类描述信息中出现的词汇；

同时，采用同样的方法遍历H_c，建立词汇集合W_c＝{w_c1,w_c2,...,w_cm}，其中m表示W_c中包含的词汇个数，w_c1,w_c2,...,w_cm分别表示这些词汇；

DC＝{(w_c1,w_e1),(w_c1,w_e2),...,(w_ci,w_ej),...,(w_cn,w_e,m-1),(w_cn,w_em)}，其中i∈[1,n]，j∈[1,m]；

D＝{(w_i,w_j)|w_i与w_j被判定为有相同含义}。

3.根据权利要求1或2所述的基于机器学习的跨语言分类结构匹配方法，其特征在于，所述步骤1)中还包括：对于给定的一个英文词汇e和一个中文词汇c，根据字典D定义基于字典的相似度Sim_dic(e,c)：

。

4.根据权利要求3所述的基于机器学习的跨语言分类结构匹配方法，其特征在于，所述步骤2)中基于结构的相似度评价方法的具体内容为：

基于属性的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出其中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,...,p_k}，其中k表示属性的个数，p₁,p₂,...,p_k表示这些属性，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的；

基于属性取值的相似度评价方法的具体内容为：对于任意给定一个分类c，总结出分类c中所有实例都包含的属性，形成一个集合作为分类c的属性，记做P(c)＝{p₁,p₂,...,p_k}，其中k表示属性的个数，p₁,p₂,...,p_k表示这些属性，并为c的每一个属性p取出它在c的所有实例中取值的集合，记做V_H(p)，其中，所述分类c中包含一定数量的实例，并且每一个实例是由若干“属性-属性值”对描述的，H为c所在的分类结构；