CN107193799A

CN107193799A - 一种数据匹配方法

Info

Publication number: CN107193799A
Application number: CN201710349923.1A
Authority: CN
Inventors: 向敏明
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Dongguan Huarui Electronic Technology Co Ltd
Priority date: 2017-05-17
Filing date: 2017-05-17
Publication date: 2017-09-22

Abstract

本发明提供了一种数据匹配方法，方法包括：获取第一词语以及第二词语；对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。

Description

一种数据匹配方法

技术领域

本发明数据处理领域，尤其涉及一种数据匹配方法。

背景技术

在现在的网络通信或数据处理过程中，常常会产生对两个词语进行相似度匹配的需求。

现有技术主要采用的匹配方式为字面含义的匹配，通过相同或近似的字来判断词语是否匹配，例如“接近”和“靠近”，由于都具有“近”这个字，***会判断这两个词匹配度较高。

但是，文字的内涵博大精深，仅仅依靠字面含义进行匹配经常容易出现错误，从而严重影响了匹配精确度。

发明内容

本发明提供了一种数据匹配方法。

本发明提供的一种数据匹配方法，方法包括：

获取第一词语以及第二词语；

对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；

计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；

将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；

根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。

可选地，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度；

计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度，所述第二独立义原为语义表达式中除所述第一独立义原以外的所有其他独立义原；

计算所述第一概念的关系义原与第二概念的关系义原之间的第三相似度；

计算所述第一概念的符号义原与第二概念的符号义原之间的第四相似度；

根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度。

可选地，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

其中，所述(d+α)表示两个义原，d是和在义原层次体系中的路径长度，α为常数参数。

可选地，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

1)将第一概念与第二概念的语义表达式的所有独立义原任意配对，计算两两独立义原相似度；

2)将相似度取值最大的一对归为一组；

3)对剩余的独立义原两两执行步骤2)，直至所有独立义原都完成分组；

4)对各组的相似度计算平均值作为所述第二相似度。

可选地，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

本发明中，获取第一词语以及第二词语；对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。本发明中，在进行数据匹配时要对词语进行拆分，形成概念集合，而概念集合中的概念可以最大程度的涵盖词语的本质含义，所以从概念的粒度对词语进行匹配，可以有效的提高匹配的精确度。

附图说明

图1为数据匹配方法流程示意图。

具体实施方式

为了使本领域的技术人员更好的理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

请参阅图1，本发明数据匹配方法流程包括：

101、获取第一词语以及第二词语；

102、对所述第一词语进行概念拆分得到包含若干个概念的第一概念集合，对所述第二词语进行概念拆分得到包含若干个概念的第二概念集合；

103、计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度，所述第一概念为所述第一概念集合中的任一概念，所述第二概念为所述第二概念集合中的任一概念；

104、将计算得到的各概念相似度中的最大值最为所述第一词语与所述第二词语之间的词语相似度；

105、根据所述词语相似度判断所述第一词语与所述第二词语是否匹配成功。

Hownet中，对实词的概念描述由以下三种形式的描述式组成：

(1)独立义原描述式：由“基本义原”或“(具体词)”表示；

(2)关系义原描述式：由“关系义原＝基本义原”或“关系义原＝(具体词)”或者“(关系义原＝具体词)”来表示，其中关系义原是指包含“EventRole| 动态角色”和“EventFeatures|动态属性”这两类的义原；

(3)符号义原描述式：由“关系符号基本义原”或者“关系符号(具体词)”表示，其中关系符号包括“#、％、$、*、+、&、@、？、！”，其各自代表的关系不再赘述。

在实际应用中，每一个概念由多个义原组成，义原是最基本的、不易于再分割的意义的最小单位。例如：“人”虽然是一个非常复杂的概念，它可以是多种属性的集合体，但也可以把它看作为一个义原。

所有的概念都可以分解成各种各样的义原。同时也应该有一个有限的义原集合，其中的义原组合成一个无限的概念集合。中文中的字(包括单纯词) 是有限的，并且它可以被用来表达各种各样的单纯的或复杂的概念，以及表达概念与概念之间、概念的属性与属性之间的关系。

通过对义原和概念的定义，就可以对两个词语的相似度进行计算，例如对于词语X₁和词语X₂，如果X₁有n个概念[S₁，S₂,…,S_n]，X₂有m个概念[T₁， T₂,…,T_m]，X₁和X₂的相似度Sim(X₁，X₂)为各个概念的相似度的最大值：

因此，为了计算得到X₁和X₂的相似度Sim(X₁，X₂)，则需要计算每两个概念之间的相似度。

计算两个概念之间的相似度则需要通过多个方面来综合计算：

(1)第一独立义原描述式：

因为所有的概念都最终归结于用义原来表示，所以义原的相似度计算是概念相似度的基础。由于所有的义原根据上下位关系构成树状的义原层次体系，可以简单的通过语义距离计算相似度。

用Sim₁(V₁，V₂)表示两个概念的这部分相似度，具体就是两个义原的相似度，具体计算公式如下：

其中(d+α)表示两个义原，d是和在义原层次体系中的路径长度。α是一个可调节的参数，在基于Hownet的词汇语义相似度计算方法中可以设定α的取值，例如：α＝0.5。

(2)其他独立义原描述式：语义表达式中除第一独立义原以外的所有其他独立义原，用Sim₂(V₁，V₂)表示两个概念的这部分相似度，具体计算步骤如下：

a、先把两个表达式的所有独立义原任意配对，计算两两义原相似度；

b、取值最大的一对归为一组；

c、对剩下的独立义原两两相似度执行第b步。如此反复，直到所有都完成分组。任何义原与空值的相似度定义为常数δ，例如：δ＝0.2；

d、最后求平均值。

(3)关系义原描述式：语义表达式中所有的关系义原，用Sim₃(V₁，V₂) 表示两个概念的这部分相似度，把关系义原相同的表达式分为一组，计算相似度，最后求平均值。

(4)符号义原描述式：语义表达式中所有的符号义原，用Sim₄(V₁，V₂) 表示两个概念的这部分相似度，把关系符号相同的表达式分为一组，计算相似度，最后求平均值。

综上所述，两个概念的相似度计算方法如公式(3)所示。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种数据匹配方法，其特征在于，所述方法包括：

获取第一词语以及第二词语；

2.根据权利要求1所述的数据匹配方法，其特征在于，所述计算所述第一概念集合中的第一概念与所述第二概念集合中的第二概念之间的概念相似度包括：

3.根据权利要求2所述的数据匹配方法，其特征在于，所述计算所述第一概念的第一独立义原与第二概念的第一独立义原之间的第一相似度包括：

按照如下公式计算所述第一相似度Sim₁(V₁,V₂)：

<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&alpha;</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>&alpha;</mi> </mrow> </mfrac> <mo>;</mo> </mrow>

4.根据权利要求3所述的数据匹配方法，其特征在于，计算所述第一概念的第二独立义原与第二概念的第二独立义原之间的第二相似度包括：

2)将相似度取值最大的一对归为一组；

4)对各组的相似度计算平均值作为所述第二相似度。

5.根据权利要求4所述的数据匹配方法，其特征在于，所述根据所述第一相似度、第二相似度、第三相似度、第四相似度计算所述第一概念与所述第二概念之间的概念相似度包括：

按照如下公式计算所述概念相似度Sim(S_i,T_j)：

<mrow> <mi>S</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>T</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>&beta;</mi> <mi>x</mi> </msub> <munderover> <mo>&Pi;</mo> <mrow> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>x</mi> </munderover> <msub> <mi>Sim</mi> <mi>y</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mn>1</mn> </msub> <mo>,</mo> <msub> <mi>V</mi> <mn>2</mn> </msub> <mo>)</mo> </mrow> <mo>.</mo> </mrow> 1