CN109145289A

CN109145289A - 基于改进关系向量模型的老-汉双语句子相似度计算方法

Info

Publication number: CN109145289A
Application number: CN201810808788.7A
Authority: CN
Inventors: 周兰江; 李思卓; 周枫
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-01-04

Abstract

本发明涉及一种结合相似度和图匹配的老‑汉双语句子对齐方法，属于自然语言处理和机器学***行句对，老‑汉双语句子相似度的计算和二部图的最佳匹配算法充分结合，能够有效提高句子对齐的准确率，因此本发明具有一定的研究意义。

Description

基于改进关系向量模型的老-汉双语句子相似度计算方法

技术领域

本发明涉及一种基于改进关系向量模型的老-汉双语句子相似度计算方法，属于自然语言处理和机器学习技术领域。

背景技术

句子相似度计算是自然语言处理领域中比较重要的研究课题，应用广泛。在问答***中，需要使用相似度方法对用户所提问题和***知识库中的问题进行比较，找到问题的最佳匹配并返回最佳答案。在自动文摘的生成过程中，需要用到句子相似度的方法来排除意思相近的句子，避免文摘的冗余。在跨语言方面，汉老双语句子相似度计算可以应用在汉老热点新闻的搜索，汉老教育资源共享，以及在各方面促进汉老文化交流和双方的发展。

发明内容

本发明要解决的技术问题是提供一种基于改进关系向量模型的老-汉双语句子相似度计算方法，能够有效地提高老-汉双语句子相似度计算的准确率，另一方面也能对老挝语语料进行扩充，因此本发明具有一定的研究意义。

本发明采用的技术方案是：一种基于改进关系向量模型的老-汉双语句子相似度计算方法，其特征在于：包括如下步骤：

Step1、首先对语料中汉语句子T_i和老挝语句子T_j进行分词和词性标注，从中筛选出汉语句子和老挝语句子的关键词；

Step1.1、首先利用分词***分别对汉语语句子T_i和老挝语句子T_j进行分词，得到分词后的汉语和老挝语句子；

Step1.2、经过分词后，进行词性标注，从中过滤出一个句子的主要成分，它们包括名词、代词、动词、形容词和副词这几种词性，将之作为汉语句子和老挝语句子相应的关键词，这样做可以极大限度地保证句子的语义完整性；

Step2、将Step1得到的汉语句子T_i和老挝语句子T_j的关键词转换为第三方语言英语，构成T_i和T_j的关键词向量表示；

Step2.1、定义1：关键词向量表示的定义：如给定一个汉语句子T_i，经过分词***分词后，所得到的关键词m_i构成的向量称为汉语句子T_i的关键词向量表示，为T_iv＝{m₁,m₂,…,m_n}；

Step3、构成汉语句子T_i和老挝语句子T_j的关键词向量表示后，然后考虑向量长度更短的关键词向量，这里假设Len(T_i)≤Len(T_j)，即假设汉语句子向量长度短于老挝语句子向量长度，此时计算汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}，对于汉语句子T_i中的每一个关键词m_i，计算老-汉双语句子相似度值；

Step3.1、由于此处涉及到了汉语句子T_i和老挝语句子T_j的关键词表示和权重值向量，所以在此处利用定义2、定义3、定义4进行说明：定义2：给定一个汉语句子T_i的关键词向量表示T_iv＝{m₁,m₂,…,m_n}，在向量中关键词m_i的前一个关键词m_i-1称为m_i的前关键词，m_i的后一个关键词m_i+1称为m_i的后关键词；定义3：给定一个汉语句子T_i的关键词向量表示T_iv＝{m₁,m₂,…,m_n}，T_i的向量长度Len(T_i)＝n，给每一个关键词m_i赋一个初始权重值所有关键词的权重值构成一个向量称为T_i的初始权重值向量，表示为TB_i＝{b₁,b₂,…,b_n}；定义4:给定两个汉语句子T_i和老挝语句子T_j的关键词向量表示，对于T_iv中的任一关键词m_i，如果m_i也在T_j中出现，则称m_i在T_j中存在，T_i中所有在T_j中存在的关键词构成的向量称为T_i基于T_j的存在向量，表示为E_i,j＝{e₁,e₂,…,e_p}，存在向量中相应关键词的权重值构成的向量称为T_i基于T_j的存在值向量，表示为TE_i,j＝{v₁,v₂,…,v_p}，然后分别进行Step3.2和Step3.3；

Step3.2、通过相应增加关键词为近义词的权重来提高第三方语言精度，然后进行Step3.4；

Step3.3、通过增加前关键词和后关键词的判断个数来提高关键词位置的精度，然后进行Step3.4；

Step3.4、根据得到汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}，汉语句子T_i基于老挝语句子T_j的存在值向量TE_i,j＝{v₁,v₂,…,v_p}，因此，老-汉双语句子相似度值计算公式如公式(1)所示：

具体地，所述的Step3.2的具体步骤如下；

Step3.2.1、假设Len(T_i)≤Len(T_j)，计算T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}；

Step3.2.2、对于汉语句子T_i中的每一个关键词m_i，如果m_i在老挝语句子T_j中存在或者有同义词存在，考虑m_i在T_i和T_j中的前关键词，如果这两个前关键词为相同的词或者同义词，则将TB_i中m_i相应的权重增大α倍，如果这两个前关键词为近义词，则将TB_i中m_i相应的权重增大β(1＜β＜α)倍，对于m_i的后关键词做相同的处理即可，最终可以得到E_i,j＝{e₁,e₂,...,e_p}和TE_i,j＝{v₁,v₂,...,v_p}。

具体地，所述的Step3.3的具体步骤如下；

Step3.3.1、假设Len(T_i)≤Len(T_j)，计算汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}；

Step3.3.2、对于T_i中的每一个关键词m_i：如果m_i在老挝语句子T_j中存在或者有同义词存在，考虑m_i在T_i和T_j中的前个关键词，其中γ向下取整，且γ为T_j关键词的个数，如果前个关键词为相同的词或者同义词，则将TB_i中m_i相应的权重增大α倍，如果前个关键词为近义词，则将TB_i中m_i相应的权重增大β(1＜β＜α)倍，对于m_i的后个关键词做相同的处理，最终得到E_i,j＝{e₁,e₂,...,e_p}和TE_i,j＝{v₁,v₂,...,v_p}。

本发明的有益效果是：

1.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法，提出了一种利用第三方语言在空间向量模型的基础上同时考虑双语句子结构和语义信息的关系向量模型，有效地改进了传统的向量空间模型，在一定程度上提高了老-汉双语句子相似度计算的准确率。

2.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法，这种模型考虑了组成句子的关键词之间的搭配关系和关键词的同义信息，在第三方语言和关键词位置的精度上都有所提高，能很好地体现句子的结构和语义信息，提高了老-汉双语句子相似度计算的准确度。

3.本发明的基于改进的关系向量模型的老-汉双语句子相似度计算方法，实现的跨语言句子相似度的计算方法可以应用在汉老热点新闻的搜索，搜寻意思相近的两个标题，生成汉老网络热点新闻的自动摘要时排除意思相近的句子，避免文摘句的冗余以及促进各种汉老文化交流和双方的发展。

附图说明

图1为本发明中的总体流程图。

图2为本发明中第三方语言精度提高。

图3为本发明中关键词位置精度提高。

具体实施方式

为了更详细的描述本发明和便于本领域人员的理解，下面结合附图以及实施例对本发明做进一步的描述，本部分的实施例用于解释说明本发明，便于理解的目的，不以此来限制本发明。

实施例1：如图1-3所示，一种基于改进的关系向量模型的老-汉双语句子相似度计算方法，包括如下步骤：

Step1、首先对语料中汉语句子和老挝语句子进行分词和词性标注，从中筛选出汉语句子和老挝语句子的关键词；

Step1.1、首先利用分词***分别对汉语句子T_i和老挝语句子T_j进行分词，得到分词后的汉语和老挝语句子。

Step1.2、经过分词后，进行词性标注，从中过滤出一个句子的主要成分，它们包括名词、代词、动词、形容词和副词这几种词性，将之作为汉语句子和老挝语句子相应的关键词，这样做可以极大限度地保证句子的语义完整性。

Step2、从Step1的分词结果中，提取汉语句子T_i和老挝语句子T_j相应的关键词并将这些关键词转换为第三方语言英语，构成T_i和T_j的关键词向量表示。

Step2.1、由于此处涉及到了汉语句子T_i和老挝语句子T_j的关键词向量，所以在此处利用定义1进行说明：定义1:给定一个汉语句子T_i，经过分词***分词后，所得到的关键词m_i构成的向量称为汉语句子T_i的关键词向量表示，为T_iv＝{m₁,m₂,…,m_n}。

Step3、构成汉语句子T_i和老挝语句子T_j的关键词向量后，然后考虑向量长度更短的关键词向量，这里假设Len(T_i)≤Len(T_j)(即假设汉语句子向量长度短于老挝语句子向量长度)，此时计算汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}。对于汉语句子T_i中的每一个关键词m_i，依次做一些处理来计算老-汉双语句子相似度值，此处可以通过说明书附图2和附图3来帮助理解本发明提出的基于改进的关系向量模型的老-汉双语句子相似度计算方法的改进。关系向量模型不但考虑一个句中的关键词是否在另一个句中出现，还考虑了与这个关键词最紧密的两个词(前关键词和后关键词)的影响，这样，句中所有关键词之间的结构关系得到了体现，因而增加了分析的全面性和准确性。本发明就是对此模型进行了一些改进，来提高老-汉双语句子相似度计算的准确率。

Step3.1、由于此处涉及到了汉语句子T_i和老挝语句子T_j的关键词表示和权重值向量，所以在此处利用定义2、定义3、定义4进行说明：定义2：给定一个汉语句子T_i的关键词向量表示T_iv＝{m₁,m₂,…,m_n}，在向量中关键词m_i的前一个关键词m_i-1称为m_i的前关键词，m_i的后一个关键词m_i+1称为m_i的后关键词。定义3：给定一个汉语句子T_i的关键词向量表示T_iv＝{m₁,m₂,…,m_n}，T_i的向量长度Len(T_i)＝n，给每一个关键词m_i赋一个初始权重值所有关键词的权重值构成一个向量称为T_i的初始权重值向量，表示为TB_i＝{b₁,b₂,…,b_n}。定义4:给定两个汉语句子T_i和老挝语句子T_j的关键词向量表示，对于T_iv中的任一关键词m_i，如果m_i也在T_j中出现，则称m_i在T_j中存在，T_i中所有在T_j中存在的关键词构成的向量称为T_i基于T_j的存在向量，表示为E_i,j＝{e₁,e₂,…,e_p}。存在向量中相应关键词的权重值构成的向量称为T_i基于T_j的存在值向量，表示为TE_i,j＝{v₁,v₂,…,v_p}。

Step3.2、由于此发明采用将关键词转换为第三方语言的方法来计算句子相似度，其中就不可避免的受到第三方语言的影响，尤其是转换的过程中遇到近义词的影响。因此，需要提高第三方语言的精度，本发明通过相应增加关键词为近义词的权重来实现。此处可以通过说明书附图2来帮助理解本发明在第三方语言精度上的提高。

Step3.2.1、假设Len(T_i)≤Len(T_j)，计算T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}。

Step3.2.2、对于汉语句子T_i中的每一个关键词m_i，如果m_i在老挝语句子T_j中存在或者有同义词存在，考虑m_i在T_i和T_j中的前关键词，如果这两个前关键词为相同的词或者同义词，则将TB_i中m_i相应的权重增大α倍，如果这两个前关键词为近义词，则将TB_i中m_i相应的权重增大β(1＜β＜α)倍，对于m_i的后关键词做相同的处理即可，最终得到E_i,j＝{e₁,e₂,...,e_p}和TE_i,j＝{v₁,v₂,...,v_p}

Step3.3、由于汉语和老挝语的语句构成大同小异，主要的主语+谓语+宾语的结构相似，但还是有一些细微的差异，这些差异导致了关键词位置会发生偏差，也就是前一个关键词和后一个关键词不能完全决定一个关键词能否增加权重，因此会造成由于关键词的位置导致的精度丢失。因此，本发明通过增加前关键词和后关键词的判断个数来提高关键词位置的精度。此处可以通过说明书附图3来帮助理解本发明在关键词位置精度上的提高。

Step3.3.1、假设Len(T_i)≤Len(T_j)，计算汉语句子T_i的初始权重值向量TB_i＝{b₁,b₂,…,b_n}。

Step3.3.2、对于T_i中的每一个关键词m_i：如果m_i在老挝语句子T_j中存在或者有同义词存在，考虑m_i在T_i和T_j中的前个关键词，其中γ向下取整，且γ为T_j关键词的个数。如果前个关键词为相同的词或者同义词，则将TB_i中m_i相应的权重增大α倍，如果前个关键词为近义词，则将TB_i中m_i相应的权重增大β(1＜β＜α)倍，对于m_i的后个关键词做相同的处理，最终得到E_i,j＝{e₁,e₂,...,e_p}和TE_i,j＝{v₁,v₂,...,v_p}。

在具体实验过程中会发现γ＝Len(T_i)会影响到最后的相似度准确率，也就是在考虑前后(向下取整)个关键词的时候会产生误差。有两种情况出现：第一种情况：当关键词个数较少时，只考虑前后一个关键词对准确率没有太大影响，还能保持计算的准确性，但是当关键词个数增加后，汉语和老挝语间的语法差异所导致的误差也就增大，前后一个关键词已经不能保证计算的准确率，因此准确率下降；第二种情况：当关键词个数较少时，对准确率没有太大影响，但是当关键词个数增加时，考虑前后会导致有的关键词被重复计算，因此会导致准确率偏高。因此，综合分析后发现，关键词个数在5个到7个之间时，老-汉双语句子相似度计算较为准确。

本发明能够成功地解决了在老挝语语料较少的情况下，有效地进行汉语和老挝语的双语句子相似度计算，另一方面也能对老挝语语料进行扩充，因此本发明具有一定的研究意义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于改进关系向量模型的老-汉双语句子相似度计算方法，其特征在于：包括如下步骤：

Step2.1、定义1：关键词向量表示的定义：如给定一个汉语句子T_i，经过分词***分词后，所得到的关键词m_i构成的向量称为汉语句子T_i的关键词向量表示，为T_iv＝{m₁,m₂,…,m_n}。

2.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法，其特征在于：所述的Step3.2的具体步骤如下；

3.根据权利要求1所述的一种基于改进关系向量模型的老-汉双语句子相似度计算方法，其特征在于：所述的Step3.3的具体步骤如下；