CN110414009B

CN110414009B - 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置

Info

Publication number: CN110414009B
Application number: CN201910873805.XA
Authority: CN
Inventors: 毛存礼; 梁昊远; 余正涛; 张少宁; 张亚飞; 朱浩东
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-09
Filing date: 2019-09-17
Publication date: 2021-02-05
Anticipated expiration: 2039-09-17
Also published as: CN110414009A

Abstract

本发明涉及基于BiLSTM‑CNN的英缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。本发明首先通过Muse工具预训练出双语词向量，然后利用缅甸语虚词和助词识别缅语的主谓宾的特点对句子进行功能标记，把每个词的句法结构信息拼接到词向量中，再使用BiLSTM‑CNN对句子中进行编码，把输出概率作为衡量是否为平行句对的条件。并根据上述步骤功能模块化制成基于BiLSTM‑CNN的英缅双语平行句对抽取装置。本发明较传统的双语平行句对识别***更为简单，实验结果表明该方法及装置在正确率和召回率等指标表现上均优于基线***，精确率普遍都有所提升。

Description

基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置

技术领域

本发明涉及基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置，属于自然语言处理技术领域。

背景技术

在自然语言处理领域中，平行语料库的规模对于机器翻译性能的提高具有重要作用，而对于资源稀缺型的缅甸语来说，英缅平行语料资源严重匮乏，机器翻译质量尚未达到实用水平。传统的获取平行语料的方法有人工翻译和利用机器翻译译文，然后前者成本较高效率较低，后者则依赖机器翻译性能，质量差。在网络上平行语料库规模相对是很少的，而可比语料库相比较较多，如何利用互联网上海量的英缅可比语料来获取英缅双语平行句对具有重要意义。

近几年，已有多种方法从可比语料库中抽取平行句对，例如利用最大熵方法构建分类器，从而在大量可比语料中抽取出平行句对，构建了汉英翻译***，而该方法极大依赖于特征工程，而且需要大量的平行语料，对于资源稀缺的语言极不适用。传统的方法往往仅考虑自身语言所具有的语义信息，而实际上，不同语言间包含对应的功能结构，由于句子语义表达与句法结构密切相关，现有的表示方法虽能够一定程度上保留句子中词序信息，但不能避免句法结构信息的丢失，难以准确地学习到句子表示。

发明内容

未解决上述问题，本发明提供了基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置，本发明正确率和召回率等指标表现上均优于基线***，精确率普遍都有所提升。

本发明的技术方案是：基于BiLSTM-CNN的英缅双语平行句对抽取方法，所述方法的具体步骤如下：

Step1、利用从英缅互译网站爬取的英缅互译文章，通过人工进行筛选并对齐得到2万个平行句对进行双语词向量预训练，得到英-缅跨语言共享的词嵌入空间，从而再得到英缅双语词向量，让句子表征的语义向量在跨英-缅语义空间具有相关性；

Step2、对句子进行功能标记，把每个词的句法结构信息拼接到词向量中，获取英-缅的句法差异性；

Step3、使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递，得到包含上下文信息的不同时序所产生的特征状态；利用CNN网络表示句子的句法特征，得到该句的语义特征；

Step4、通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对。

进一步地，所述步骤Step1的具体步骤如下：

从英缅互译网站爬取的英缅互译文章，通过人工进行筛选并对齐得到2万个平行句对；

使用昆明理工大学研发的缅甸语分词***，网址为222.197.219.24:8099，对缅甸语进行分词并通过利用一个英-缅的种子词典，进行有监督的方法训练，使用普鲁克斯特对齐Procrustes alignment进行迭代，学习从源语言到目标语言的映射，得到英-缅跨语言共享的词嵌入空间，从而得到英缅双语词向量；其中能使用Facebook的MUSE***实现。

利用Facebook的MUSE***预训练出英-缅跨语言共享的词嵌入空间，从而使语义相近的不同语言的词在词向量空间中距离接近，让句子表征的语义向量在跨英-缅语义空间具有相关性；

进一步地，所述步骤Step2中，对句子进行功能标记时，通过缅甸语虚词和助词识别句子中的主谓宾，包括：

使用缅甸语分词***对缅甸语进行分词；

使用缅甸语分词***对缅甸语进行音节切分；

通过缅甸语的后置于名词的虚词和前置于名词的虚词以及主、谓、宾语成分助词识别句子中的虚词助词；

通过上述步骤得到的虚词助词进行主谓宾标注；

对句子进行功能标记时，通过斯坦福工具对英语进行功能标注，然后仅保留和缅甸句子所对应的句法结构。

利用缅甸语虚词和助词能够识别缅语的主谓宾的特点，使用缅甸语分词和音节切分工具，识别出该句子中虚词和助词的位置，对句子进行功能标记，把每个词的句法结构信息拼接到词向量中；

进一步地，所述步骤Step3、Step4的具体步骤如下：

通过BiLSMT对句子中的每个词信息进行正向和反向的信息传递，利用词的上下文信息，从而得到包含上下文信息的不同时序所产生的特征状态；

利用CNN网络表示句子的句法特征，对得到的特征状态进行卷积和池化来提取句子关键语义特征，得到该句的深层语义表示；

使用Adam作为模型优化器；

使用交叉熵作为损失函数对模型进行评估；

通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，然后馈送到全连接层来估计句子相互翻译的概率，再把输出概率作为衡量是否为平行句对的条件来抽取平行句对，通过输出概率来判断是否为平行句对；其中，通过输出概率和阈值比较，大于阈值的则判断为平行句对，阈值取0.8或0.9。

根据本发明的构思，本发明还提供了一种基于BiLSTM-CNN的英缅双语平行句对抽取装置，如图6所示，该装置包括：

数据获取模块，用于利用网络爬虫技术获取网络上的英缅互译文章以及对数据进行清洗；

词向量模块，用于利用Facebook的Muse工具对获取到的数据进行双语词向量的训练；

功能标注模块，利用缅甸语分词***对缅甸语进行分词以及音节切分，再利用缅甸语虚词及助词对缅甸语进行功能标注，通过斯坦福工具对英语进行功能标注；

句子表征模块，用于采用BiLSTM-CNN提取句子的语义特征；

输出模块，在对源语句和目标语句进行编码之后，即提取句子的语义特征之后，用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对。

本发明的有益效果是：

本发明将CNN和Bi-LSTM进行融合，既能利用CNN提取局部特征的优势，又能利用BiLSTM对文本序列全局特征的优势。利用BiLSTM解决CNN忽略词的上下文含义的问题，并提出的融合功能标注的BiLSTM-CNN的句子表征，体现语言差异性对句子表征的影响，有效利用语言的外部知识，提高了平行句对抽取模型的准确率；

本发明提出的方法及装置较传统的双语平行句对识别***更为简单，实验结果表明该方法及装置在正确率和召回率等指标表现上均优于基线***，精确率普遍都有所提升。

附图说明

图1为本发明中的具体流程框图；

图2为本发明中的英缅双语词向量空间示意图；

图3为本发明中的缅甸语的句子功能标注流程图；

图4为本发明中的三种模型得到的准确率折线图；

图5为本发明中的三种模型得到的召回率折线图；

图6为本发明中的装置结构框图；

图7为本发明中的流程图。

具体实施方式

实施例1：如图1-7所示，基于BiLSTM-CNN的英缅双语平行句对抽取方法，图7为本发明的流程图。该方法中包括以下步骤：A步骤：预训练出英-缅跨语言共享的词嵌入空间，从而使语义相近的不同语言的词在词向量空间中距离接近，让句子表征的语义向量在跨英-缅语义空间具有相关性；B步骤：对句子进行功能标记，把每个词的句法结构信息拼接到词向量中，能够获取英-缅的句法差异性；C步骤：使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递，得到包含上下文信息的不同时序所产生的特征状态，进而利用CNN提取特征的特点，得到该句的深层语义特征；D步骤：在对源语句和目标语句进行编码之后，即提取句子的语义特征之后，通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对。图1提供了基于BiLSTM-CNN的英缅双语平行句对抽取方法的具体流程框图。

在A步骤中，本发明的实验数据集来源主要是从英缅互译网爬取的英缅互译文章，通过人工进行筛选并对齐得到2万个平行句对。使用昆明理工大学研发的缅甸语分词***，网址为222.197.219.24:8099，对缅甸语进行分词并利用一个英-缅的种子词典，进行有监督的方法训练，并且使用普鲁克斯特对齐(Procrustes alignment)进行迭代，学***行句对的负样本的个数为7，随机构建14万个非平行语料。为了能够很好的衡量该英-缅平行分类器的性能，选取0.2万英-缅平行语料、0.4万英-缅非平行语料作为实验的测试集。

在B步骤中，因为缅语属于低资源语言，所以缅甸语相关的自然语言处理研究工作开展缓慢，尚未有较成熟的词性标注和句法结构等方面的工具，而缅甸语虚词和助词的符号能够识别出句子中主语、谓语、宾语等，见表1；

表1缅甸助词、虚词例句

通过相关资料查询，具体的虚词和助词见表2、3

表2缅甸语虚词一览表

表3缅甸语结构助词一览表

因此本发明利用缅甸语虚词和助词能够识别缅语的主谓宾的特点，使用缅甸语分词和音节切分工具，识别出该句子中虚词和助词的位置。对句子进行功能标记，具体流程如图3所示。对于英语的功能标注，本发明使用斯坦福工具，对英文句子进行功能标记，然后仅保留和缅甸句子所对应的句法结构。基于以上步骤得到句子的句法结构，主要是主语、谓语、宾语。

在C步骤中，包含以下步骤：C01步骤：使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递，得到包含上下文信息的不同时序所产生的特征状态；C02步骤：利用CNN提取特征的特点，得到该句的深层语义表示。

在C01步骤中，循环神经网络(RNN)已被广泛用于处理可变长度序列输入，LSTM是RNN的一种流行变体，用于缓解RNN的梯度消失和梯度***问题。当给定一个句子x＝{x(1),x(2)…,x(n),t∈n}，其中，x(t)表示的是k维的词向量。隐藏向量h(t)在时间步为t时刻的更新公式如下所示：

i_t＝σ(W_ix(t)+U_ih(t-1)+b_i (1)

f_t＝σ(W_fx(t)+U_fh(t-1)+b_f (2)

o_t＝σ(W_ox(t)+U_oh(t-1)+b_o (3)

h_t＝o_t*tanh(C_t) (6)

h_tg＝o_t*tanh(C_t+G) (7)

其中，i_t表示输入门，f_t表示遗忘门，o_t代表输出门，σ代表sigmoid函数。

和

是网络的参数，本文中在隐层向量加入句法信息后的公式更新为(7)，其中“G”代表着功能标记操作,表示主谓宾的向量。

在单向LSTM中，无法考虑利用反向的上下文信息，而双向LSTM通过在两个方向上处理序列来利用上下文，并生成两个独立的LSTM输出向量序列，一个用来处理正向的输入序列，而另一个处理反向的输入，每个时间步的输出是来自两个方向的两个输出矢量的串联，即

在C02步骤中，最原始的CNN由卷积层，池化层和完全连接层组成。对于长度为n的句子，它可表示为

其中

是连接操作，

表示第i个词向量，d表示为词向量的维度。卷积操作的核心是将滤波器

应用于窗口大小为h的词序列来产生一个新的特征c_i，如公式所示：

c_i＝f(W·x_i:i+h-1+b) (8)

其中，

是一个偏置向量，f是一个非线性函数(例如，Sigmoid，ReLU)。长度为n的句子通过卷积层后可以得到句子中任意一个连续词序列{x_1:h,x_2:h+1,...,x_n-h+1:n}的深层语义特征c，如公式所示：

c＝[c₁,c₂,…,c_n-h+1] (9)

在本发明中，将窗口为m的卷积核F＝[F(0)…F(m-1)]对Bi-LSTM的输出向量进行卷积，得到特征映射，如公式所示：

其中，b是偏置项，F和b是该单个滤波器的参数。

由典型的CNN结构可知，池化层构建在卷积层的顶部。在本文中通过K-MaxPooling，将为每个过滤器保留最大k个，即

在D步骤中，通过以上步骤提取到源句子和目标句子的语义特征，即

再通过元素乘积和绝对元素差来捕获它们的匹配信息，然后馈送到全连接层来估计句子相互翻译的概率，具体公式如下：

p(y_i|c_i)＝σ(W^cc_i+c)(14)

其中σ代表激活函数，W^a,W^a,W^a,b,c是模型的参数，该模型选择交叉熵作为目标函数：

其中n为源句子的个数，m为候选目标句子的个数。

本发明的实验数据集来源主要是从英缅互译网站爬取的英缅互译文章，通过人工进行筛选并对齐得到2万个平行句对。利用Muse工具预训练出高质量的双语词向量，其词向量维度设为300维。实际情况见表4；

表4语料规模

语言	句子数(万)
		英-缅平行语料	2.0
英-缅非平行语料	14.0

同时，基于假定每个平行句对的负样本的个数为7，随机构建14万个非平行语料。为了能够很好的衡量该英-缅平行分类器的性能，选取0.2万英-缅平行语料、0.4万英-缅非平行语料作为实验的测试集，见表5

表5实验数据

在评价指标的方面，选用准确率(Accuracy)，精确率(Precision),召回率(Recall)和F值(F1-Measure)作为衡量该模型是否可以对英-缅平行句子做出正确的分类。具体公式如下：

其中TP是真的正例，FP是假的反例，FP是假的正例，TN是真的反例。

为了体现本发明所提出的方法有效性，本发明将Grégoire,Francis等人提出利用Bidirectional Recurrent Neural Networks方法提取平行句对作为基准模型。同时，为了突出深度学习在分类器的构建上比传统机器学习具有更好的准确性，本发明也将MunteanuD S等人提出的最大熵模型作为对比实验。

实验参数的选取直接影响最后的实验结果，下表列出了BiLSTM、CNN以及实验参数设置。见表6、7、8。

表6 BiLSTM参数设置

参数	参数值
		嵌入层维度	300维
隐状态维度	300维
		层数	3层

表7 CNN参数设置

参数	参数值
		滑动窗口大小	2，3，4
滑动窗口个数	300
		隐状态维度	600维
池化层	最大池化

表8实验参数设置

为验证本发明提出的基于BiLSTM-CNN的英缅双语平行句对抽取模型的性能，将BiLSTM和最大熵作为基准实验，在不同阈值下与本发明提出的BiLSTM-CNN方法进行对比。见表9

表9实验对比表

从结果可以看出，利用深度学***行句对抽取模型，通常阈值设置在0.9及以上。准确率和召回值得折线图见图4、5。

在本发明中，同样提出了功能标注能够对句对抽取模型具有重要影响作用。因此，本发明在阈值为0.9的情况下对融入功能标注的模型和不融入功能标注的模型进行了以下几组实验。见表10.

表10是否融入功能标注的模型对比

从表10中，可以看出，融合功能标注的模型比不融合功能标注的模型都有一定的小幅度提升，主要原因是由于功能标注作为外部知识，能够对句子的表示具有一定的指导性作用。同时，本发明也对BiLSTM之后的操作提供了三组对比实验即：mean_pooling，max_pooling以及CNN，通过实验结果对比，CNN的效果还是较优，其主要原因还是在于CNN对重要特征的提取；本发明的BiLSTM-CNN+功能标注得到的效果最好。

数据获取模块，用于利用网络爬虫技术获取网络上的英缅互译文章以及对数据进行清洗；词向量模块，用于利用Facebook的Muse工具对获取到的数据进行双语词向量的训练；功能标注模块，用于利用昆明理工大学缅甸语分词***对缅甸语进行分词以及音节切分，再利用缅甸语虚词及助词对缅甸语进行功能标注，通过斯坦福工具对英语进行功能标注；句子表征模块，用于采用BiLSTM-CNN提取句子的语义特征；输出模块，在对源语句和目标语句进行编码之后，即提取句子的语义特征之后，用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于BiLSTM-CNN的英缅双语平行句对抽取方法，其特征在于：

所述方法的具体步骤如下：

Step4、通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对；

所述步骤Step2中，对句子进行功能标记时，通过缅甸语虚词和助词识别句子中的主谓宾，包括：

使用缅甸语分词***对缅甸语进行分词；

使用缅甸语分词***对缅甸语进行音节切分；

通过上述步骤得到的虚词助词进行主谓宾标注；

对句子进行功能标记时，通过斯坦福工具对英语进行功能标注；

所述步骤Step3、4的具体步骤如下：

使用Adam作为模型优化器；

使用交叉熵作为损失函数对模型进行评估；

2.根据权利要求1所述的基于BiLSTM-CNN的英缅双语平行句对抽取方法，其特征在于：所述步骤Step1的具体步骤如下：

使用缅甸语分词***，对缅甸语进行分词并通过利用一个英-缅的种子词典，进行有监督的方法训练，使用普鲁克斯特对齐Procrustes alignment进行迭代，学习从源语言到目标语言的映射，得到英-缅跨语言共享的词嵌入空间，从而得到英缅双语词向量。

3.一种基于BiLSTM-CNN的英缅双语平行句对抽取装置，其特征在于，包括：

句子表征模块，用于采用BiLSTM-CNN提取句子的语义特征；

输出模块，在对源语句和目标语句进行编码之后，即提取句子的语义特征之后，用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息，将匹配信息馈送到全连接层，把输出概率作为衡量是否为平行句对的条件来抽取平行句对；

使用Adam作为模型优化器；

使用交叉熵作为损失函数对模型进行评估；