CN112287695A

CN112287695A - 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

Info

Publication number: CN112287695A
Application number: CN202010990010.XA
Authority: CN
Inventors: 高盛祥; 刘畅; 余正涛; 毛存礼; 黄于欣; 王振晗
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-09-18
Filing date: 2020-09-18
Publication date: 2021-01-29

Abstract

本发明涉及跨语言双语预训练及Bi‑LSTM汉‑越平行句对抽取方法，属于自然语言技术领域。本发明首先收集汉越可比语料，从可比语料中抽取汉越平行句对。然后在预训练中需要一个汉越种子词典及大量汉越单语，通过将汉越双语映射到公共语义空间进行词对齐，再利用汉越种子词典通过自学***行句对。本发明在从可比语料中抽取平行句对的实验取得了好的效果。

Description

基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

技术领域

本发明涉及基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，属于自然语言处理技术领域。

背景技术

平行句对抽取是自然语言处理中缓解机器翻译数据稀缺的重要方法，旨扩充汉越翻译语料。目前,平行句对抽取可转换为同一语义空间下的句子相似性分类任务，其核心在于双语语义空间对齐。传统语义空间对齐方法依赖大规模的双语平行语料，但越南语作为低资源稀缺型语言获取大规模平行语料相对困难，而获得汉越单语相对容易。因此，如何利用汉越单语和种子词典从可比语料中抽取汉越双语平行句对成任务的难点和关键技术之一。

目前双语平行句对抽取主要分为以下四类方法。(1)统计机器翻译和神经机器翻译方法。Rauf等人用机器翻译的方法将目标语言翻译成源语言，利用跨语言信息检索技术从可比语料库中抽取平行句对，提高了统计机器翻译的性能；在神经机器翻译方面，Benjamin等人提出了基于词嵌入在大型单语语料库中抽取平行句子的方法提升了神经机器翻译的性能。(2)特征工程方法。Chuang等人在双语词典信息的基础上结合了标点符号统计信息和词汇信息的双语平行文本对齐的方法；Gale等人介绍了一种基于字符长度的统计模型对齐平行文本中的句子的方法，识别一种语言的句子和另一种语言的句子之间的长度对应关系。(3)深度学***行；Munteanu等人提出一种利用最大熵分类器从大量可比语料中抽取平行句对的方法，从零开始构建了汉英翻译***。(4)句子相似度计算的方面。Juryong Cheon等人提出了一种利用语言资源的顺序匹配在句子之间执行相似度计算从而查找相似句子的方法，从***构建英语和韩语之间的平行语料库。上述方法在预训练中均是利用大量的双语平行句对，汉语和越南语都是独立派系的语言且汉越双语训练数据稀缺，因此本发明提出了一种基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法。

发明内容

本发明提供了基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，以用于解决汉越双语平行数据稀缺，小规模训练数据，汉越双语平行句对抽取效果差问题，从而解决汉-越机器翻译效果差的问题。

本发明的技术方案是：基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，首先收集汉越可比语料，从可比语料中抽取汉越平行句对。然后在预训练中需要一个汉越种子词典及大量汉越单语，通过将汉越双语映射到公共语义空间进行词对齐，再利用汉越种子词典通过自学***行句对，进而实现汉越平行句对的抽取；

所述汉-越平行句对抽取方法的具体步骤如下：

Step1、构建语料库：构建汉越可比语料库，爬取汉越单语，构建汉越种子词典；

Step2、汉越跨语言词向量预训练：将汉越双语进行词向量表征，利用汉越种子词典在同一语义空间词对齐，进行跨语言双语预训练；

Step3、Bi-LSTM和CNN统一空间编码：然后将预训练后得到的汉语和越南语句子输入到一个由Bi-LSTM和CNN组成的孪生神经网络，分别提取到句子的全局特征和局部特征；

Step4、模型训练与分类：将输出的结果反馈到全连接层中，设置阈值来判断输入的汉越双语句对是否是平行的。

作为本发明的优选方案，所述步骤Step1的具体步骤为:

Step1.1、汉越语料爬取及预处理：

通过***下载dump汉越数据，Wiki官网对该数据可直接下载http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2、http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2；

利用Scrap作为爬取工具，爬取汉越新闻事件页面，如越南新闻社http://www.vnagency.com.vn、https://zh.vietnamplus.vn/等获取汉越语料；

Step1.2、汉越语料预处理：

将获取的汉越语料进行手动对齐得到汉语、越南语平行句对13万，基于每个平行句对的负采样样本数设置为1:1，随机构造了13万汉越非平行句对；将构造好的汉越语料按照13:1:1的比例分配训练集、测试集、验证集；手动构造汉越种子词典3000多个词条；

作为本发明的优选方案，所述步骤Step2的具体步骤为:

Step2.1、汉越单语语料独立训练：

利用word2vec(CBOW/Skip-grim)在汉语和越南语各自的单语语料库上进行独立训练，构建一个汉语和越南语同时映射的特征向量空间，汉语语料训练得到的词嵌入矩阵X，越南语语料中训练的词嵌入矩阵Z，汉越种子字典表示为一个二进制矩阵D；

Step2.2、汉越跨语言词向量预训练：

找到最佳映射矩阵W,让汉语词向量和越南语词向量分布在同一个向量空间，使得映射汉语词嵌入X_i*W与越南语词嵌入Z_j*之间的欧几里德距离的平方和最小，映射矩阵；

作为本发明的优选方案，所述步骤Step2.2的具体步骤为:

Step2.2.1、汉越跨语言预训练中预处理：

对汉语嵌入矩阵X和越南语嵌入矩阵Z进行长度归一化和平均居中；

将W约束为正交矩阵即WW^T＝W^TW＝I，以强制执行汉语和越南语的单语不变性，可以产生更好的汉越跨语言双语映射；在这种正交性约束下，最小化平方欧几里德距离就等于最大化点积，因此重新构造优化目标为：

W_*＝arg_WmaxTr(XWZ^TD^T)

其中，Tr(·)表示主对角线上的所有元素之和；W^*＝UV^T给出了此问题的最佳正交解；X^TDZ＝U∑V^T是X^TDZ的奇异值分解；

Step2.2.2、汉越跨语言预训练中词对齐：

获得了映射矩阵W后，对于汉越种子词典外的任何一个没有翻译的单词，可以根据映射后的空间余弦相似度来进行词对齐；

在最近邻检索中，为每个汉语单词分配了越南语中最接近的单词，将映射后汉语嵌入矩阵和越南语嵌入矩阵之间的点积用作相似度度量；

通过矢量化相似矩阵XWZ^T并进行不断迭代计算，找到该矩阵的最大值，从而达到优化目标；

作为本发明的优选方案，所述步骤Step3的具体步骤为:

Step3.1、Bi-LSTM和CNN编码步骤：

编码器由两层Bi-LSTM和CNN堆叠成一个基本的编码单元；依次从汉语语句和越南语语句中接受每个单词的单词嵌入矩阵W_x∈R^d×|Vx|来输入单词x,其中d为单词嵌入向量的维数，_Vx为所有输入单词的集合；在每个时间步骤t，由词汇表_Vx中的整数索引k定义的第i个句子中的标记表示为one-hot向量

该one-hot向量与词嵌入矩阵

相乘，以获得该标记的连续向量表示

其用做Bi-LSTM编码器的前向和后向循环状态的输入；

Step3.2、上述Bi-LSTM中，前向LSTM读取变长句，并从第一个标记到最后一个标记更新其递归状态，从而创建一个固定大小的句子连续向量表示；后向LSTM反向处理该句子；然后将第二层相同位置上每个时间步长的两个方向的编码器输出都拼接在一起

前向递归状态和后向递归状态分别计算如下；

其中φ(·)是LSTM模块；

Step3.3、上述的CNN中，原始CNN由卷积层、池化层和全连接层组成，对于句子长度为n的句子，可以将它表示成

表示全连接，

表示的是第i个词向量，d表示的是词向量的维度，卷积运算的核心是对滑动窗口的大小的序列应用在过滤器上以产生新的特征，具体如下公式所示；

c_i＝f(W·x_i:i+h-1+b)

其中，

是一个偏移向量，f是非线性函数(比如Sigmoid，ReLU)；

长度为n的句子可以通过卷积层来获得句子中任何连续单词序列的深层语义特征，具体如下公式所示；

c＝[c₁,c₂,...,c_n-h+1]

本文将窗口大小为F＝[F(0)...F(m-1)]的卷积核与Bi-LSTM的输出向量进行卷积以获得特征向量，如公式所示；

b是偏移向量，F和b是过滤器的参数。从典型的CNN结构可以看出，池化层构建在卷积层之上。在本文中，通过K-Max Pooling提取特征中c价值最高的信息，每个滤波器最大值k会被保留，即

作为本发明的优选方案，所述步骤Step4的具体步骤为:

Step4.1、基于以上步骤，利用具有融合功能的Bi-LSTM和CNN提取出源语句和目标句的语义特征，即

然后使用元素积和绝对元素差来捕获它们的匹配信息，然后反馈到全连接的层以评估汉语-越南语句对相互翻译的可能性大小。具体公式如下：

p(y_i|c_i)＝σ(W^cc_i+c)

其中σ(·)是sigmoid激活函数W^a，W^b，W^c，b和c是模型参数，其中n是源句子的数量，m是候选目标句子的数量。通过最小化标记的汉越句对的交叉熵来训练模型：对于预测，如果句子对的概率大于或等于设置的决策阈值ρ，则将其分类为平行；如果小于决策阈值ρ，则将其分类为不平行；

本发明的有益效果是：本发明通过通过利用汉越种子词典将汉越双语映射到公共语义空间进行词对齐，从而最大化表示汉-越句对之间的语义相关性。其次利用Bi-LSTM和CNN组合成的孪生网络对输入的词向量进行特征提取，获取质量更高的汉越平行句对。实验结果表明，该方法在汉越平行句对抽取中取得了很好的效果。

附图说明

图1为本发明中的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取模型图；

图2为本发明中提出的跨语言双语预训练方法流程示意图。

具体实施方式

实施例1：如图1-2所示，基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，所述基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽方法的具体步骤如下：

作为本发明的优选方案，所述步骤Step1的具体步骤为:

Step1.1、汉越语料爬取并预处理：

Step1.2、汉越语料预处理：

将获取的汉越语料进行手动对齐得到汉语、越南语平行句对13万，基于每个平行句对的负采样样本数设置为1:1，随机构造了13万汉越非平行句对；将构造好的汉越语料按照13:1:1的比例分配训练集、测试集、验证集；手动构造汉越种子词典3000多个词条；获得的汉越数据规模如表1所示：

表1实验数据

作为本发明的优选方案，所述步骤Step2的具体步骤为:

Step2.1、汉越单语语料独立训练：

Step2.2、汉越跨语言词向量预训练：

作为本发明的优选方案，所述步骤Step2.2的具体步骤为:

Step2.2.1、汉越跨语言预训练中预处理：

将W约束为正交矩阵即WW^T＝W^TW＝I，以强制执行汉语和越南语的单语不变性，可以产生更好的汉语-越南语跨原语言双语映射；在这种正交性约束下，最小化平方欧几里德距离就等于最大化点积，因此重新构造优化目标为：

W^*＝arg_WmaxTr(XWZ^TD^T)

Step2.2.2、汉越跨语言预训练词对齐：

作为本发明的优选方案，所述步骤Step3的具体步骤为:

Step3.1、Bi-LSTM和CNN编码步骤：

该one-hot向量与词嵌入矩阵

相乘，以获得该标记的连续向量表示

其用做Bi-LSTM编码器的前向和后向循环状态的输入；

前向递归状态和后向递归状态分别计算如下；

其中φ(·)是LSTM模块；

表示全连接，

c_i＝f(W·x_i:i+h-1+b)

其中，

是一个偏移向量，f是非线性函数(比如Sigmoid，ReLU)；

长度为n的句子可以通过卷积层获得句子中任何连续单词序列的深层语义特征，具体如下公式所示；

c＝[c₁,c₂,...,c_n-h+1]

作为本发明的优选方案，所述步骤Step4的具体步骤为:

Step4.1、基于以上步骤，具有融合功能的Bi-LSTM和CNN提取出源语句和目标句的语义特征，即

p(y_i|c_i)＝σ(W^cc_i+c)

其中σ(·)是sigmoid激活函数W^a，W^b，W^c，b和c是模型参数，其中n是源句子的数量，m是候选目标句子的数量。通过最小化标记的汉越句对的交叉熵来训练模型：对于预测，如果句子对的概率大于或等于设置的决策阈值ρ，则将其分类为平行；如果小于决策阈值ρ，则将其分类为不平行：

具体的，为了验证本发明的性能，设置了以下三组对比实验，采用准确率(Precision)，召回率(Recall)，和F1值作为评价指标。

其中，TP是提取句子中真正平行的句对的数量，FP是提取句子中非平行句对的数量，FN是测试集中未被提取的平行句对的数量。

(1)为了验证预训练方法的有效性，设置阈值为0.90，将经过预训练的Bi-LSTM和CNN汉越平行句对抽取模型与不经过预训练的效果进行对比。我们还将仅使用Bi-LSTM抽取汉越双语平行句对的基线方法进行比较，同时，为了突出分类器构造比传统机器学习更深入学习具有更好的准确性，同时还比较了Munteanu D S等人提出的最大熵模型。具体实验结果如下表2所示。

表2不同模型对比实验结果

实验结果表明，在汉-越数据集上，本文模型的F1得分优于基线模型和其他模型。经过跨语言预训练的模型比单独使用Bi-LSTM和CNN编码的效果要好是因为将汉-越两种语言映射到相同空间，语义相关性更好。经过深度学习训练的特征提取分类器比最大熵模型具有更好的性能。其主要原因是神经网络能够自动学习并提取更好的特征。Bi-LSTM和CNN的结合优化于简单使用Bi-LSTM，是因为通过CNN可以获得更多的语义特征信息。

(2)不同词向量表征方法探究

为了进一步证明本文提出的汉语-越南跨语言预训练方法的有效性，设置在阈值为0.9，做了一组将本文在词向量表征部分与word2vec的词向量表征模型的对比实验，具体实验结果如表3所示。

表3不同词向量表征方法对比实验结果

方法	R(％)	P(％)	F1(％)
				word2vec-BiLSTM-CNN	72.8	64.2	68.2
本文法方法(VecMap)	75.6	66.5	70.7

实验结果表明，本文提出的预训练方法VecMap比word2vec在汉越双语抽取工作中的效果要好，其主要原因是VecMap是跨语言双语词向量预训练将汉越双语映射到公共语义空间训练加强汉越跨语言相关性，从而能抽取到更高质量的汉越双语平行句对。

(3)不同阈值探究

为了验证选取不同阈值时是否会影响模型的效果，为抽取到更高质量的汉越双语平行句对提供阈值参数基础，设置了在本文提出方法上不同阈值的对比实验，具体实验结果如表4所示。

表4不同阈值对比实验结果

不同的阈值M	R(％)	P(％)	F1(％)
				M＝0.85	77.3	68.6	72.7
M＝0.90	75.6	66.5	70.7
				M＝0.95	73.9	64.7	68.9

实验结果表明，不同的阈值M对实验结果的影响。其中，实验设置阈值参数越大，抽取汉越双语平行句对的F1分值反而越低。阈值M作为汉越双语平行句对抽取的判别值，若想获取质量更高的汉-越平行句对，通常将阈值设置为0.95者更高。

通过以上实验和实例数据分析，该发明提出了一种基于跨语言预训练及Bi-LSTM方法抽取汉越双语平行句对方法。在没有大规模汉越平行语料情况下，该方法利用汉越种子词典进行汉越跨语言预训练，将汉越双语表征到同一语义空间中来进行词对齐。同时利用深度神经网络Bi-LSTM和CNN分别提起汉越句对的上下文信息和局部信息从而抽取出匹配度更高，噪声更小的汉越双语平行句。通过不同实验模型进行对比，经过跨语言预训练的平行句提取方法在准确率和召回率上高于基线模型，并且抽取到的汉-越平行句的语义更近。通过对模型设置不同的参数和使用不同预训练方法，并将本文方法与基本方法作比较，证明了该方法在汉越平行句对抽取任务上达到了较好的效果。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，其特征在于：

所述方法包括如下：

2.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，其特征在于：所述步骤Step1中，通过***下载dump汉越数据，利用Scrapy作为爬取工具，爬取汉越新闻事件页面，获取汉越语料，再对得到的汉越数据进行预处理，建立汉越平行句对和非平行句对数据集。

3.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，其特征在于：所述步骤Step2中，利用word2vec在汉语和越南语各自的单语语料库上进行独立训练，再将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练，使得汉语-越南语的语义相似词在该空间中接近，从而增强了汉语和越南语语义空间中的相关性，在跨语言双语预训练中，利用种子词典在没有大规模平行语料情况下可以实现在汉越同一语义空间词对齐，并以自学习的方式迭代地生成新词典。

4.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，其特征在于：所述步骤Step3中，利用汉越种子词典来学习词嵌入并指导后面Bi-LSTM和CNN在公共语义空间进行统一编码，再将训练好的词向量输入Bi-LSTM来获取单词前后信息特征，然后使用CNN来提取双语句子更深层语义特征。

5.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法，其特征在于：所述步骤Step4中，在对汉语句子和越南语句子进行编码后，通过使用元素乘积和元素绝对差将它们提供给全连接层，将它们提供给全连接层以及使用输出概率作为汉越句对是否为平行语句对的度量来捕获其匹配信息。