CN111581943A

CN111581943A - 一种基于句子关联图的汉越双语多文档新闻观点句识别方法

Info

Publication number: CN111581943A
Application number: CN202010254227.4A
Authority: CN
Inventors: 余正涛; 唐珊; 王剑; 黄于欣; 高盛祥
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-04-02
Filing date: 2020-04-02
Publication date: 2020-08-25

Abstract

本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法，属于自然语言技术领域。本发明针对汉越双语多文档新闻观点句识别任务，提出一种联合句子关联特征和语义特征的观点句识别模型；包括步骤：构建融合事件要素和情感要素的汉越双语多文档关联无向图；获取汉越双语的句子关联特征；获取句子的语义编码表示；对得到的语义编码进行降维来获得汉越双语的句子语义特征；利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征，采用分类器对观点句识别特征进行分类，并采用二分类的交熵损失函数对分类器进行优化，采用优化好的分类器实现观点句识别。本发明可以有效提升汉越双语多文档新闻观点句识别的准确率。

Description

一种基于句子关联图的汉越双语多文档新闻观点句识别方法

技术领域

本发明涉及一种基于句子关联图的汉越双语多文档新闻观点句识别方法，属于自然语言技术领域。

背景技术

开展汉越双语新闻观点句识别研究，及时掌握中越两国关于同一事件的观点，对于促进中越两国之间的文化交流、经济发展至关重要。在观点句识别任务中，现有的方法主要是根据观点句特征对文档中的观点句进行识别。比如通过观点句语义模型和非观点句语义模型构建语义特征，然后通过融入词汇特征和词性特征对句子进行分类，最后将置信度高的样本加入训练集迭代得到最终的分类器。或者是通过构建词典的方式来获得观点词和非观点词的集合，然后对观点词的强弱程度进行计算，通过对每个句子中包含的观点词的强弱程度的计算来对其是否为观点句进行甄别。还有学者提出了一种基于集成学习的中文观点句抽取方法，该方法首先采用基于Fisher判别准则的特征选择方法，然后使用Booststraping方法对朴素贝叶斯分类器、SVM分类器和最大熵分类器进行集成，从而对观点句进行识别。

但是以上方法都是基于单文档，没有考虑多个文档多个句子之间的关联关系。因此，本发明专利提出了一种联合句子关联关系和句子语义特征的基于句子关联图的汉越双语多文档新闻观点句识别方法。

发明内容

本发明提供了一种基于句子关联图的汉越双语多文档新闻观点句识别方法，以用于解决了汉越新闻观点句识别的问题，且能有效提升汉越新闻观点句抽取的准确性。

本发明的技术方案是：一种基于句子关联图的汉越双语多文档新闻观点句识别方法，包括：

首先计算不同句子间事件要素和情感要素的关联强度；

利用不同句子间事件要素和情感要素的关联强度构建汉越双语多文档关联无向图；

获取汉越双语的句子关联特征；

利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下；

利用BI-LSTM网络对映射到同一个语义空间下的词向量编码，获取句子的语义编码表示；

对得到的语义编码进行降维来获得汉越双语的句子语义特征；

利用句子关联特征、句子语义特征进行联合计算得到观点句识别特征，采用分类器对观点句识别特征进行分类，并采用二分类的交熵损失函数对分类器进行优化，采用优化好的分类器实现观点句识别。

进一步地，具体步骤如下：

Step1、语料收集：收集中文新闻文本、越南语新闻文本作为训练语料和测试语料；目前还没有公开的汉越双语新闻语料，因此可以利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件，共计200 篇文档，2832个句子。每个话题事件按照90％，5％，5％随机划分训练集、验证集和测试集。

Step2、计算不同句子间事件要素的关联强度：

事件要素包含事件发生的时间、地点、人物和组织机构等信息。可以利用不同新闻句中事件要素的共现次数来表示不同句子间事件要素的关联强度。抽取汉越双语新闻句子中的命名实体作为事件要素，根据汉越双语词典对抽取的要素进行对齐，计算句子间事件要素的共现度。

进一步地，首先抽取汉越双语新闻句子中的命名实体作为事件要素，得到的汉语新闻要素的集合记为

越南语新闻要素集合记为

为了衡量抽取要素的关联强度，首先利用汉越双语词典对抽取的要素进行对齐，得到对齐的汉越新闻要素集合

最后通过计算不同句子的事件要素共现次数来确定其关联强度，其共现次数可以通过判断两个句子是否包含相同的要素，即对任意语言的两个句子s_i、s_j的要素集合是否存在交集。如果s_i和s_j的集合有交集，则两者之间具有要素关联关系，其中，若s_i和s_j是同一语种的句子，则直接做交集运算即可判断，若属于不同语种的句子，则需使用对齐集合A^cv中的要素重新表示句子s_i和s_j之后，再做交集运算进行判断；

判断任意语言的两个句子s_i、s_j的要素集合是否存在交集，即对事件要素关联强度进行归一化操作计算的具体公式为：

其中C(s_i∩s_j)表示新闻句s_i和s_j的共现要素数，C(s_i)则表示句子s_i的要素个数。

Step3、计算不同句子间情感要素的关联强度：

情感要素关联是指汉越双语新闻句子中包含的情感词的关联关系，通过计算不同句子间情感词的相似性来衡量其关联关系。为了实现情感要素关联，首先抽取不同语言新闻句中所包含的情感词，其中，汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD情感词典，提取出每个句子中的情感词集

针对越南语情感词典资源缺乏的问题，采用汉越双语词典翻译汉语情感词典，来构建越南语情感词典，在采用的汉越双语情感词典中，中文情感词典规模可以为5126，越南文情感词典规模可以为3248。抽取后得到每个越南语句子中包含的情感词集合

通过计算任意两个句子s_i和s_j所包含情感词的相似性作为句子的情感关联强度。其中情感词相似性通过汉越双语词向量的余弦相似度得到，具体公式为：

其中cos为余弦相似度函数，

和

为情感要素的双语词向量。

最终两个句子的情感关联强度通过计算两个句子的所有情感词相似度的最大值得到。具体公式为：

Step4、构建汉越双语多文档关联无向图；

根据句子间的关联关系，构建汉越双语多文档句子关联图G＝<V,E>，其中顶点V表示双语句子、E＝{e_a,e_b}表示边的集合，e_a表示相同语言顶点之间的边，e_b表示不同语言顶点之间的边。

作为本发明的优选方案，所述步骤Step4中，图G中任意两个顶点V_i和V_j的边的权重为步骤Step2和步骤Step3得到的事件要素关联强度F_a(s_i,s_j)和情感要素关联强度F_b(s_i,s_j)的线性加权，

利用步骤Step2和步骤Step3得到的事件要素关联强度F_a(s_i,s_j)和情感要素关联强度F_b(s_i,s_j)计算得到无向图G中任意两个顶点V_i和V_j之间边的权重，具体公式为：

W(V_i,V_j)＝α·F_a(s_i,s_j)+β·F_b(s_i,s_j)

为了降低无向图G的复杂性，设置边的权重的阈值为ε，0＜ε＜1，如果 W(V_i,V_j)＞ε则保留这条边，反之则删除这条边，α，β均为超参数。

Step5、获取句子关联特征：在步骤Step4构建的汉越双语多文档关联无向图G 上，利用TextRank算法得到汉越双语的句子关联特征；具体公式为：

其中R(V_i)是句子V_i的句子关联特征，W(V_j,V_i)为构建的汉越双语多文档关联无向图的顶点V_i和V_j的边的权重，nb(V_j)为与V_i有关联关系的邻居节点，d为阻尼系数，本文取0.85。

Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下。对于给定的句子s_i＝{w_i,1,w_i,2,…,w_i,k}，利用下式计算得到其双语词嵌入表征：

e_i,k＝Embeddin_g(w_i,k)

其中，Embedding为双语词向量映射矩阵，w_i,k表示第i个句子的第k个词。

Step7、语义编码：使用双向长短期记忆(BI-LSTM)网络作为编码器，编码器在接收到步骤Step6的双语词向量后，顺序更新其隐藏状态，输出句子向量，具体公式为：

h_i,k＝BI-LSTM(e_i,k,h_i,k-1)

其中e_i,k表示在第i个句子中第k个词的双语词向量表示，h_i,k表示隐层向量；

编码状态中，前向LSTM顺序读入句子中包含的每个词产生的前向隐式状态序列

其中

表示第i个句子中第k个词，后向LSTM逆序读入句子中包含的每个词产生后向隐式状态序列

采用编码器最后时刻的前向和后向对应的隐层状态拼接，构成句子的语义编码表示，具体公式为：

Step8、使用sigmoid函数对步骤Step7得到的语义编码表示进行降维来获得汉越双语的句子语义特征，具体公式为：

S_i＝sigmoid(W_sh_i+b_s)

其中，W_s和b_s为训练参数，sigmoid函数为激活函数。

采用的2层的BI-LSTM网络获取汉越双语的语义特征，其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合，dropout设置为0.3。模型训练批次大小设置为64，训练200轮次，采用Adam优化器对BI-LSTM模型进行优化，学习率为1e-3，同时在BI-LSTM模型训练过程中加入梯度裁剪，最大梯度裁剪为5。

Step9、利用步骤Step5得到的句子关联特征和Step8得到的句子语义特征进行联合计算得到观点句识别特征，采用softmax分类器对观点句识别特征进行分类，并采用二分类的交熵损失函数对分类器进行优化，采用优化好的分类器实现观点句识别。

进一步地，所述步骤Step9中，利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征，具体公式为：

其中，y为观点句识别特征，S_i为句子语义特征，R_i为句子关联特征。

采用softmax分类器对于观点句识别特征进行分类：

并采用二分类的交熵损失函数对分类器进行优化，具体公式为：

其中y_i是第i个样本的标签，

是分类器模型预测样本是正样本的概率。

本发明的有益效果是：

1、本发明针对跨语言多文档观点句识别问题，首先定义了事件要素关联和情感要素关联两种关联关系，然后构造以汉越双语句子为顶点，以关联关系为边的句子关联图，最后基于句子关联图，通过TextRank算法计算句子的关联特征。

2、本发明通过融合句子关联特征和通过BI-LSTM得到的句子语义特征，来改善观点句识别的效果，能有效地提高汉越双语多文档新闻观点句识别的准确性。

附图说明

图1为本发明中的方法流程示意图；

图2为本发明中汉越观点句抽取模型的具体细节示意图。

具体实施方式

实施例1：如图1-2所示，一种基于句子关联图的汉越双语多文档新闻观点句识别方法，具体步骤如下：

Step1、利用爬虫工具从中文新闻网站和越南新闻网站收集新闻文档。手动选择三个中越共同关心的话题事件，共计200篇文档，2832个句子。每个话题事件按照 90％，5％，5％随机划分训练集、验证集和测试集；

Step2、计算不同句子间事件要素的关联强度：首先抽取汉越双语新闻句子中的命名实体作为事件要素，得到的汉语事件要素的集合记为

越南语事件要素集合记为

为了衡量抽取要素的关联强度，首先利用汉越双语词典对抽取的要素进行对齐，得到对齐的汉越双语事件要素集合

最后通过计算不同句子的事件要素共现次数来确定其关联强度，其共现次数可以通过判断两个句子是否包含相同的要素，即任意语言的两个句子s_i、s_j的要素集合是否存在交集。判断任意语言的两个句子s_i、s_j的要素集合是否存在交集的具体公式为：

Step3、计算不同句子间情感要素的关联强度：首先抽取不同语言新闻句中所包含的情感词，其中，汉语新闻句情感词抽取利用知网情感词典以及台湾大学NTUSD 情感词典，提取出每个句子中的情感词集

针对越南语情感词典资源缺乏的问题，采用汉越双语词典翻译汉语情感词典，来构建越南语情感词典。抽取后得到每个越南语句子中包含的情感词集合

其中cos为余弦相似度函数，

和

为情感要素的双语词向量。

Step4、构建汉越双语多文档关联无向图；根据句子间的关联关系，构建汉越双语多文档句子关联图G＝<V,E>，其中顶点V表示双语句子、E＝{e_a,e_b}表示边的集合， e_a表示相同语言顶点之间的边，e_b表示不同语言顶点之间的边。

图G中利用步骤Step2和步骤Step3得到的事件要素关联强度F_a(s_i,s_j)和情感要素关联强度F_b(s_i,s_j)计算得到无向图G中任意两个顶点V_i和V_j之间边的权重，具体公式为：

W(V_i,V_j)＝α·F_a(s_i,s_j)+β·F_b(s_i,s_j)

Step5、获取句子关联特征：在步骤Step4构建的汉越双语多文档关联无向图G 上，利用TextRank算法计算得到汉越双语的句子关联特征的具体公式为：

Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下；对于给定的句子s_i＝{w_i,1,w_i,2,…,w_i,k}，利用下式计算得到其双语词嵌入表征：

e_i,k＝Embedding(w_i,k)

h_i,k＝BI-LSTM(e_i,k,h_i,k-1)

其中

S_i＝sigmoid(W_sh_i+b_s)

其中，W_s和b_s为训练参数，sigmoid函数为激活函数。

采用的2层的BI-LSTM网络获取汉越双语的语义特征，其中双语词嵌入维度为 300维。BI-LSTM隐状态设置为512维。为避免模型过拟合，dropout设置为0.3。模型训练批次大小设置为64，训练200轮次，采用Adam优化器对BI-LSTM模型进行优化，学习率为1e＝3，同时在BI-LSTM模型训练过程中加入梯度裁剪，最大梯度裁剪为5。

采用softmax分类器对于观点句识别特征进行分类：

其中y_i是第i个样本的标签，

是分类器模型预测样本是正样本的概率。

为了验证本发明与其他识别模型的效果，本发明做了如下对比实验：表1为不同模型观点句识别结果，表2为不同超参数α和β对模型性能的影响；表3为不同超参数ε的模型性能。

表1不同模型观点句识别结果

表2不同超参数α和β对模型性能的影响

表3不同超参数ε的模型性能

从表1中可以看出，三种模型在都不使用关联特征时，BI-LSTM模型取得了最佳的性能，这也说明BI-LSTM在文本数据上强大的建模能力。但是同时可以看出，在不使用关联特征时，性能最佳的BI-LSTM模型也仅能获得63.8％的准确率，比仅利用关联特征的准确率低了7.4％。这也说明了在多文档观点句识别过程中，模型仅依赖深度学习模型的输出无法得到很好的语义表征。造成这种现象有两个原因：一个是因为数据集规模较小，模型训练不充分，另一个原因是汉越双语词向量质量不高，在词嵌入阶段存在误差。另外还能看出，仅使用关联特征相比三种深度学习模型在准确率、召回率和F1值均能够获得较好的性能，这也说明了本发明提出的句子关联特征建模方法是有效地，并且在深度学习模型中融入句子关联特征是有效的。最后可以看出，联合建模深度学习模型和句子关联特征，模型性能有一个较大幅度的提升。相比BI-LSTM模型，加入句子关联特征，模型准确率提升了15.1％，相比仅使用关联特征，模型准确率提升了7.7％。这些都充分说明了本发明提出的结合语义特征和关联特征能够有效提升汉越双语多文档观点句识别任务的性能。

从表2可以发现：模型在α＝0.3，β＝0.7时取得了最佳性能，这表明情感要素在计算关联特征时更重要，也说明了观点句识别中情感词仍然是一个重要的影响因素。当α＝0.9，β＝0.1时模型性能最差，这也反映了仅使用事件要素来表征关联特征并不能很好的反映不同句子之间的情感关联关系。

从表3可以看出，超参数ε＝0.5模型性能最佳。同样可以看出ε过小或者过大，模型性能均有一个显著的下降。特别是ε＝0.9时，相比ε＝0.5，模型F1值下降了6.9％，这也说明ε＝0.9时，图模型过于稀疏，很多句子间的有用的关联关系被丢弃，从而导致句子关联特征产生较大偏差。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：包括：

首先计算不同句子间事件要素和情感要素的关联强度；

获取汉越双语的句子关联特征；

2.根据权利要求1所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：具体步骤如下：

Step1、语料收集：收集中文新闻文本、越南语新闻文本作为训练语料和测试语料；

Step2、计算不同句子间事件要素的关联强度：抽取汉越双语新闻句子中的命名实体作为事件要素，根据汉越双语词典对抽取的要素进行对齐，计算句子间事件要素的关联强度；

Step3、计算不同句子间情感要素的关联强度：抽取汉越双语新闻句子中所包含的情感词作为情感要素，通过汉越双语词向量的余弦相似度计算情感词的相似性，并以最大情感词相似性作为句子情感要素的关联强度；

Step4、构建汉越双语多文档关联无向图；其中通过利用步骤Step2和步骤Step3得到的事件要素和情感要素关联强度计算得到无向图中任意两个顶点之间边的权重；

Step5、获取句子关联特征：在步骤Step4构建的汉越双语多文档关联无向图上，利用TextRank算法计算得到汉越双语的句子关联特征；

Step6、利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下；

Step7、语义编码：使用双向长短期记忆BI-LSTM网络作为编码器，编码器在接收到步骤Step6的双语词向量后，顺序更新其隐藏状态，获得句子的语义编码表示；

Step8、获取语义特征：使用sigmoid函数对步骤Step7得到的语义编码进行降维来获得汉越双语的句子语义特征；

3.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step2中，汉语新闻要素的集合记为

越南语新闻要素集合记为

根据汉越双语词典对抽取的要素进行对齐，得到对齐的汉越新闻要素集合

对任意语言的两个句子s_i、s_j，如果s_i和s_j的集合有交集，则两者之间具有要素关联关系，其中，若s_i和s_j是同一语种的句子，则直接做交集运算即可判断，若属于不同语种的句子，则需使用对齐集合A^cv中的要素重新表示句子s_i和s_j之后，再做交集运算进行判断；则对事件要素关联强度进行归一化操作计算的具体公式为：

4.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step3中，汉语句子中包含的情感词集合记为

越南语句子中包含的情感词集合记为

对任意语言的两个句子s_i和s_j，计算其包含情感词的相似性，并以最大情感词相似性作为句子情感要素关联强度，其中情感词相似性通过汉越双语词向量的余弦相似度得到，具体公式为：

其中cos为余弦相似度函数，

和

为情感要素的双语词向量；

最终两个句子的情感要素关联强度通过计算两个句子的所有情感词相似度的最大值得到，具体公式为：

5.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step4中，利用步骤Step2和步骤Step3得到的事件要素关联强度F_a(s_i,s_j)和情感要素关联强度F_b(s_i,s_j)计算得到无向图G中任意两个顶点V_i和V_j之间边的权重，具体公式为：

W(V_i,V_j)＝α·F_a(s_i,s_j)+β·F_b(s_i,s_j)

为了降低无向图G的复杂性，设置边的权重的阈值为ε，0＜ε＜1，如果W(V_i,V_j)＞ε则保留这条边，反之则删除这条边，α，β均为超参数。

6.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step5中，利用TextRank算法得到汉越双语的句子关联特征的具体公式为：

7.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step6中，利用双语词向量模型将汉语、越南语两种不同的语言映射到同一个语义空间下，对于给定的句子s_i＝{w_i,1,w_i,2,...,w_i,k}，利用下式计算得到其双语词嵌入表征：

e_i,k＝Embedding(w_i,k)

8.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step7中，使用双向长短期记忆BI-LSTM网络作为编码器，编码器在接收到步骤Step6中的每个双语词向量后，顺序更新其隐藏状态，输出句子向量，具体公式为：

h_i,k＝BI-LSTM(e_i,k,h_i,k-1)

其中

9.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step8中，对步骤Step7中得到的句子语义编码表示h_i进行降维来获得其语义特征，具体公式为：

S_i＝sigmoid(W_sh_i+b_s)

其中，W_s和b_s为训练参数，sigmoid函数为激活函数。

10.根据权利要求2所述的基于句子关联图的汉越双语多文档新闻观点句识别方法，其特征在于：所述步骤Step9中，利用步骤Step5得到的汉越双语的句子关联特征和步骤Step8得到的句子语义特征进行联合计算得到观点句识别特征，具体公式为：

采用softmax分类器对于观点句识别特征进行分类：

其中y_i是第i个样本的标签，

是分类器模型预测样本是正样本的概率。