CN112257453B

CN112257453B - 融合关键词和语义特征的汉越文本相似度计算方法

Info

Publication number: CN112257453B
Application number: CN202011006911.7A
Authority: CN
Inventors: 高盛祥; 潘润海; 余正涛; 毛存礼; 朱俊国; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-23
Filing date: 2020-09-23
Publication date: 2022-02-22
Anticipated expiration: 2040-09-23
Also published as: CN112257453A

Abstract

本发明涉及融合关键词和语义特征的汉越文本相似度计算方法，属于自然语言处理技术领域。本发明包括步骤：提取汉语、越南语文章的关键词，将越南语关键词翻译为中文，计算出两篇文章中的共现关键词，得到词的相似信息；然后利用共现关键词抽取出与其紧密相关的句子进行拼接来表征文本，并去除无关的句子以压缩文本；再利用知识蒸馏训练出汉越BERT模型对压缩后的文本进行编码，以获得上下文语义特征；最后将词的相似信息和上下文语义特征融合实现文本相关性判断。本发明提升了汉‑越文本相似度计算的准确率。

Description

融合关键词和语义特征的汉越文本相似度计算方法

技术领域

本发明涉及融合关键词和语义特征的汉越文本相似度计算方法，属于自然语言处理技术领域。

背景技术

汉越文本相似度的计算对于汉语和越南语的跨语言信息检索，多语言文档聚类，机器翻译和双语语料库构建等方面起到重要的支撑作用。目前，鉴于训练的文本级语料资源匮乏，同时汉越翻译效果不好，汉越文本相似度计算现在面临着很多问题。因此，非常有必要提出一种面向汉越语料稀缺和翻译质量较差情况下的文本相似度计算方法。

近来，随着LSTM、Transfomer等特征提取器的发展，对句子级别的特征提取效果已经很好。然而，针对文本特点，汉越文本中常常包含大量的冗余信息，其关键的文本信息并不贯穿整篇文章，所以使用神经网络捕获到关键的上下文信息变得困难；同时，汉语和越南语在神经网络的向量空间并不对齐。因此，一部分学者开始在考虑运用基于翻译、互译词对数、向量空间模型、LDA主题模型等方法来解决文本级的相似度计算问题。

发明内容

本发明提供了融合关键词和语义特征的汉越文本相似度计算方法，以用于解决使用翻译的方法进行相似度计算效果不佳，以及神经网络对文本信息捕获不够充分的问题。

本发明的技术方案是：融合关键词和语义特征的汉越文本相似度计算方法，所述方法包括：

Step1、对汉越文本语料数据进行预处理，将文本拆分成词的序列和句子的序列；Step2、将词的序列作为关键词获取层的输入，对越南语和汉语经过不同的处理得到文本间共现关键词的信息，计算出基于关键词的文本相似度信息；

Step3、将句子序列作为文本压缩层的输入，基于共现关键词信息，去除与共现关键词无关的句子，以对文本进行压缩，然后将包含共现关键词的句子进行拼接，分别输入汉-越BERT模型，捕获到文本的上下文语义特征，计算出基于句子的语义特征相似性；

Step4、将基于关键词的相似信息和基于句子的语义特征进行融合，得到最终文本的相似信息。

作为本发明的进一步方案，所述Step1中：

Step1、首先将汉-越平行文本语料数据进行分词和去除停用词处理，将文本拆分成词的序列和句子的序列作为下游模型的输入。

作为本发明的进一步方案，所述步骤Step1的具体步骤为：

Step1.1、对汉越平行文本语料进行数据预处理，输入为中文文档和越南文文档，其中中文文档和越南语文档分别被拆分为词的序列W_C＝(C₁,C₂,…,C_n),W_V＝(V₁,V₂,…,V_n)和句子的序列S_C＝(S_c1,S_c2,…,S_cn),S_V＝(S_v1,S_v2,…,S_vn),词的序列作为关键词获取层的输入经过处理获取到文本间词的相似信息，而句子序列作为文本压缩层的输入经过处理获取文本上下文语义相似特征。

作为本发明的进一步方案，所述步骤Step2的具体步骤为：

Step2.1、使用关键词提取算法TextRank提取文档中的关键词并得到关键词的权重W，其权重计算公式如下所示，该算法将词之间的信息表示为一个有向有权图G＝(V,E),V为点集合E为边集合；

其中d是阻尼系数，WS(V_i)和WS(V_j)分别代表词V_i和V_j的权重，In(V_i)和Out(V_j)分别代表词V_i和V_j的入度和出度，w_ji和w_jk分别代表V_i，V_j和V_j，V_k间的权重；

Step2.2、在经过TextRank算法输出文本的关键词信息后，将越南语关键词经过Translation模块将越南语文本关键词翻译成汉语，翻译后得到的关键词和中文关键词使用中文同义词工具Synonyms计算出与关键词相关的近义词集，将近义词和文章的关键词进行融合构成中文文本关键词词集和越南语文本关键词词集；

Step2.3、为了获取两文档的关键词相似特征，利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性。

作为本发明的进一步方案，Step2.3中，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性的具体方法为：将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息，其计算公式如下所示：

其中W_Ii和W_Ci分别代表共现关键词的第i个词的权重和抽取到的全部关键词第i个词的权重，n为关键词的个数，m为共现关键词的个数。

作为本发明的进一步方案，所述Step3中：

为了将汉越的句子或短文本段落映射到密集的向量空间，训练一个能捕获汉越上下语义信息的汉越BERT模型(ZH-VI BERT)，采用知识蒸馏的方法将现有的句子嵌入模型扩展到新语言；利用教师模型M将源语言s映射到一个密集的向量空间，同时训练数据为汉越平行句对((s₁,t₁),...,(s_n,t_n))，其中s_i是源语言，t_i为目标语言，训练新的学生模型

使

和

将此方法称为多语言知识蒸馏学习，因为学生

提炼了老师M的知识，给定最小批次B，最小化其均方损失MSE，计算公式如下所示。

学生模型

可以是具有教师模型M的结构和权重，也可以是权重完全不同的其他网络体系结构，使用中文BERT模型作为教师模型，学生模型为多语言BERT模型；

将训练好的模型称为汉-越BERT模型，将压缩后的文本输入训练好的汉-越BERT模型，对其进行语义捕获，以获得上下文语义特征。

作为本发明的进一步方案，所述Step3中，捕获到文本的上下文语义特征，计算出基于句子的语义特征相似性的具体做法如下：

将与共现关键词相关的中文短文本和越南语短文本分别输入汉-越BERT模型，使其对汉越双语短文本进行编码，编码后的输出的特征向量使用余弦相似度计算两个向量的余弦距离，计算公式如下所示：

其中a_i表示中文短文本S₁的向量的第i个特征值，b_i表示越南语短文本S₂的向量的第i个特征值；

得到多个基于共现关键词上的汉语越南语短文本相似信息后，求其平均值得到基于上下文语义信息所得的相似度Sim₂，计算公式如下式所示：

其中F_i表示第i个关键词的上下文语义相似度。

本发明的有益效果是：本发明提供的方法解决使用翻译的方法进行相似度计算效果不佳，以及神经网络对文本信息捕获不够充分的问题，本发明提升了汉-越文本相似度计算的准确率。

附图说明

图1为本发明中的总的模型结构图；

图2为本发明中汉-越BERT模型训练图。

具体实施方式

实施例1：如图1-2所示，融合关键词和语义特征的汉越文本相似度计算方法，所述方法包括：

Step1、对汉越平行文本语料进行数据预处理，输入为中文文档和越南文文档，其中中文文档和越南语文档分别被拆分为词的序列W_C＝(C₁,C₂,…,C_n),W_V＝(V₁,V₂,…,V_n)和句子的序列S_C＝(S_c1,S_c2,…,S_cn),S_V＝(S_v1,S_v2,…,S_vn),词的序列作为关键词获取层的输入经过处理获取到文本间词的相似信息，而句子序列作为文本压缩层的输入经过处理获取文本上下文语义相似特征；

Step2、将词的序列作为关键词获取层的输入，对越南语和汉语经过不同的处理得到文本间共现关键词的信息，计算出基于关键词的文本相似度信息；

Step2.2、由于汉语文本和越南语文本在用词上会存在一定的差异，针对这一问题，本文提出使用计算关键词的近义词来降低跨语言文档在用词差异上的问题。在经过TextRank算法输出文本的关键词信息后，将越南语关键词经过Translation模块将越南语文本关键词翻译成汉语，翻译后得到的关键词和中文关键词使用中文同义词工具Synonyms计算出与关键词相关的近义词集，将近义词和文章的关键词进行融合构成中文文本关键词词集和越南语文本关键词词集；

Step2.3、为了获取两文档的关键词相似特征，利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性，具体方法为：将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息，其计算公式如下所示：

使

和

将此方法称为多语言知识蒸馏学习，因为学生

学生模型

可以是具有教师模型M的结构和权重，也可以是权重完全不同的其他网络体系结构，训练过程如图2所示。使用中文BERT模型作为教师模型，学生模型为多语言BERT模型；

其中，捕获到文本的上下文语义特征，计算出基于句子的语义特征相似性的具体做法如下：

其中F_i表示第i个关键词的上下文语义相似度。

具体为：将计算得到的两个相似度信息求出平均值，也就是两篇文章的相似度，计算公式如下式所示，求得的结果在0到1之间，0表示完全不相同，1表示完全相同。

图1中，本发明模型包括如下：

数据预处理层：首先，针对文本的特点和神经网络的性质，我们对汉越文本数据进行预处理，同时也为了让数据满足模型需要。

关键词获取层：为了获取文本间词的相似信息，针对汉越文本中常常包含大量的冗余信息，其关键的文本信息并不贯穿整篇文章，所以使用神经网络捕获到关键的上下文信息变得困难，故本文考虑将汉越文本相似度计算任务转化为关键词和关键句的相似度计算任务，从文本中抽取关键词以及能表达文章核心语义的句子来实现相似度计算。

统计特征获取层：为了获取两文档的关键词相似特征，我们利用关键词获取层得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性。

文本压缩层：针对文本具有较多冗余信息的特点，为提取到文章的关键信息，本文提出一种基于共现关键词的文本压缩方法。我们利用统计特征获取层提取出的共现关键词对文本进行压缩，将与之相关联的句子保留，去除那些无关的句子，若同一关键词包含多个句子，则将它们的汉语和越南语分别拼接构成两个短文本，作为上下文特征获取层的输入。

上下文特征获取层：为了对上下文特征进行捕获，本文采用目前最为主流的特征编码BERT来对汉越关键句子进行编码，以获得上下文语义特征。

预测层：基于统计特征层和上下文特征获取层得到的两个相似信息，得到关键词和句子两个不同维度的相似信息。

为了训练汉-越BERT模型实现中文和越南语语义特征提取，构建了50万的汉-越双语平行句对，为了验证本文所提出方法的有效性，对本文提出和使用的算法进行测试，从网上获取到篇章级对齐的一些汉语越南语的新闻数据及故事数据集，共400对800篇构成标准集来验证本文算法的有效性。

本发明采用算法匹配文本的准确率来衡量算法的有效性，即匹配正确的文本数量占总文本的值来评价算法的有效性。

训练汉越BERT模型时，本文使用的激活函数为GELU，隐含层维度为768，注意力头数为12，隐藏层层数为12层，隐藏层dropout概率为0.1，学习率为2e-5，学习率优化器为Adam，batch size设为32，epochs为20，词典我们使用多语言BERT模型的词典，大小为119547。

为了验证本文提出的方法的有效性，设置了与一些已有的跨语言相似度计算方法的对比实验，将本方法与LDA主题模型、全文翻译和BiRNN得到的结果相比较。其中全文翻译的相似度计算方法将越南语翻译成中文，通过BERT来表征两个文本的句子，计算句子间距离得到文本的相似度。

表1中展示了本发明提出的模型和现有一些模型的准确率对比。显然，对于主题模型本文的方法表现更好，表明本文对文本的压缩和基于BERT的上下文语义编码对文本相似信息的挖掘表现更优秀；同时本文的方法和全文翻译的方法比较有一定的提升，其原因在于当使用翻译***翻译汉越文本时会造成一定的翻译误差，而本文只对抽出的关键词进行翻译其翻译误差比起全文翻译误差被有效降低；与BiRNN比较准确率提升了3.5％，其；故本文提出的方法比已有的一些相似度计算模型有一定的提升。

本发明提出的融合关键词和语义特征的汉越文本相似度计算在汉越文本相似度计算任务上具有较好的性能，主要有以下几方面的原因：1、使用了目前最为主流的特征提取器BERT，提升了对句子语义的捕获能力；2、提出了一种利用文本间的共现关键词信息和上下文语义特征融合的一种相似度方法，从不同的维度挖掘文本间的相似信息；3、本方法能解决文本信息冗余，使神经网络能更加有效的捕获文本信息。

表1汉-越低资源翻译实验准确率对比

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.融合关键词和语义特征的汉越文本相似度计算方法，其特征在于：所述方法包括：

Step1、对汉越文本语料数据进行预处理，将文本拆分成词的序列和句子的序列；

Step4、将基于关键词的相似信息和基于句子的语义特征进行融合，得到最终文本的相似信息；

所述步骤Step2的具体步骤为：

Step2.3、为了获取两文档的关键词相似特征，利用得到的中文文本关键词词集和越南语文本关键词词集求出两篇文章的共现关键词，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性；

Step2.3中，利用共现关键词的权重占抽取出的全部关键词权重来求出两篇文章关键词的相似性的具体方法为：将两篇文章共现的关键词占所有抽取到的关键词的比重作为基于关键词所获得的文本相似度信息，其计算公式如下所示：

其中W_Ii和W_Ci分别代表共现关键词的第i个词的权重和抽取到的全部关键词第i个词的权重，n为关键词的个数，m为共现关键词的个数；

所述Step3中：

为了将汉越的句子或短文本段落映射到密集的向量空间，训练一个能捕获汉越上下语义信息的汉越BERT模型，采用知识蒸馏的方法将现有的句子嵌入模型扩展到新语言；利用教师模型M将源语言s映射到一个密集的向量空间，同时训练数据为汉越平行句对((s₁,t₁),...,(s_n,t_n))，其中s_i是源语言，t_i为目标语言，训练新的学生模型

使

和

将此方法称为多语言知识蒸馏学习，因为学生

提炼了老师M的知识，给定最小批次B，最小化其均方损失MSE，计算公式如下所示：

学生模型

将训练好的模型称为汉-越BERT模型，将压缩后的文本输入训练好的汉-越BERT模型，对其进行语义捕获，以获得上下文语义特征；

所述Step3中，捕获到文本的上下文语义特征，计算出基于句子的语义特征相似性的具体做法如下：

其中F_i表示第i个关键词的上下文语义相似度。

2.根据权利要求1所述的融合关键词和语义特征的汉越文本相似度计算方法，其特征在于：所述Step1中：

3.根据权利要求1所述的融合关键词和语义特征的汉越文本相似度计算方法，其特征在于：所述步骤Step1的具体步骤为：