CN112287695A - 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 - Google Patents

基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 Download PDF

Info

Publication number
CN112287695A
CN112287695A CN202010990010.XA CN202010990010A CN112287695A CN 112287695 A CN112287695 A CN 112287695A CN 202010990010 A CN202010990010 A CN 202010990010A CN 112287695 A CN112287695 A CN 112287695A
Authority
CN
China
Prior art keywords
chinese
cross
training
lstm
bilingual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010990010.XA
Other languages
English (en)
Inventor
高盛祥
刘畅
余正涛
毛存礼
黄于欣
王振晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202010990010.XA priority Critical patent/CN112287695A/zh
Publication of CN112287695A publication Critical patent/CN112287695A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及跨语言双语预训练及Bi‑LSTM汉‑越平行句对抽取方法,属于自然语言技术领域。本发明首先收集汉越可比语料,从可比语料中抽取汉越平行句对。然后在预训练中需要一个汉越种子词典及大量汉越单语,通过将汉越双语映射到公共语义空间进行词对齐,再利用汉越种子词典通过自学***行句对。本发明在从可比语料中抽取平行句对的实验取得了好的效果。

Description

基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
技术领域
本发明涉及基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,属于自然语言处理技术领域。
背景技术
平行句对抽取是自然语言处理中缓解机器翻译数据稀缺的重要方法,旨扩充汉越翻译语料。目前,平行句对抽取可转换为同一语义空间下的句子相似性分类任务,其核心在于双语语义空间对齐。传统语义空间对齐方法依赖大规模的双语平行语料,但越南语作为低资源稀缺型语言获取大规模平行语料相对困难,而获得汉越单语相对容易。因此,如何利用汉越单语和种子词典从可比语料中抽取汉越双语平行句对成任务的难点和关键技术之一。
目前双语平行句对抽取主要分为以下四类方法。(1)统计机器翻译和神经机器翻译方法。Rauf等人用机器翻译的方法将目标语言翻译成源语言,利用跨语言信息检索技术从可比语料库中抽取平行句对,提高了统计机器翻译的性能;在神经机器翻译方面,Benjamin等人提出了基于词嵌入在大型单语语料库中抽取平行句子的方法提升了神经机器翻译的性能。(2)特征工程方法。Chuang等人在双语词典信息的基础上结合了标点符号统计信息和词汇信息的双语平行文本对齐的方法;Gale等人介绍了一种基于字符长度的统计模型对齐平行文本中的句子的方法,识别一种语言的句子和另一种语言的句子之间的长度对应关系。(3)深度学***行;Munteanu等人提出一种利用最大熵分类器从大量可比语料中抽取平行句对的方法,从零开始构建了汉英翻译***。(4)句子相似度计算的方面。Juryong Cheon等人提出了一种利用语言资源的顺序匹配在句子之间执行相似度计算从而查找相似句子的方法,从***构建英语和韩语之间的平行语料库。上述方法在预训练中均是利用大量的双语平行句对,汉语和越南语都是独立派系的语言且汉越双语训练数据稀缺,因此本发明提出了一种基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法。
发明内容
本发明提供了基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,以用于解决汉越双语平行数据稀缺,小规模训练数据,汉越双语平行句对抽取效果差问题,从而解决汉-越机器翻译效果差的问题。
本发明的技术方案是:基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,首先收集汉越可比语料,从可比语料中抽取汉越平行句对。然后在预训练中需要一个汉越种子词典及大量汉越单语,通过将汉越双语映射到公共语义空间进行词对齐,再利用汉越种子词典通过自学***行句对,进而实现汉越平行句对的抽取;
所述汉-越平行句对抽取方法的具体步骤如下:
Step1、构建语料库:构建汉越可比语料库,爬取汉越单语,构建汉越种子词典;
Step2、汉越跨语言词向量预训练:将汉越双语进行词向量表征,利用汉越种子词典在同一语义空间词对齐,进行跨语言双语预训练;
Step3、Bi-LSTM和CNN统一空间编码:然后将预训练后得到的汉语和越南语句子输入到一个由Bi-LSTM和CNN组成的孪生神经网络,分别提取到句子的全局特征和局部特征;
Step4、模型训练与分类:将输出的结果反馈到全连接层中,设置阈值来判断输入的汉越双语句对是否是平行的。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、汉越语料爬取及预处理:
通过***下载dump汉越数据,Wiki官网对该数据可直接下载http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2、http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2;
利用Scrap作为爬取工具,爬取汉越新闻事件页面,如越南新闻社http://www.vnagency.com.vn、https://zh.vietnamplus.vn/等获取汉越语料;
Step1.2、汉越语料预处理:
将获取的汉越语料进行手动对齐得到汉语、越南语平行句对13万,基于每个平行句对的负采样样本数设置为1:1,随机构造了13万汉越非平行句对;将构造好的汉越语料按照13:1:1的比例分配训练集、测试集、验证集;手动构造汉越种子词典3000多个词条;
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、汉越单语语料独立训练:
利用word2vec(CBOW/Skip-grim)在汉语和越南语各自的单语语料库上进行独立训练,构建一个汉语和越南语同时映射的特征向量空间,汉语语料训练得到的词嵌入矩阵X,越南语语料中训练的词嵌入矩阵Z,汉越种子字典表示为一个二进制矩阵D;
Step2.2、汉越跨语言词向量预训练:
找到最佳映射矩阵W,让汉语词向量和越南语词向量分布在同一个向量空间,使得映射汉语词嵌入Xi*W与越南语词嵌入Zj*之间的欧几里德距离的平方和最小,映射矩阵;
Figure BDA0002690552110000031
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、汉越跨语言预训练中预处理:
对汉语嵌入矩阵X和越南语嵌入矩阵Z进行长度归一化和平均居中;
将W约束为正交矩阵即WWT=WTW=I,以强制执行汉语和越南语的单语不变性,可以产生更好的汉越跨语言双语映射;在这种正交性约束下,最小化平方欧几里德距离就等于最大化点积,因此重新构造优化目标为:
W*=argWmaxTr(XWZTDT)
其中,Tr(·)表示主对角线上的所有元素之和;W*=UVT给出了此问题的最佳正交解;XTDZ=U∑VT是XTDZ的奇异值分解;
Step2.2.2、汉越跨语言预训练中词对齐:
获得了映射矩阵W后,对于汉越种子词典外的任何一个没有翻译的单词,可以根据映射后的空间余弦相似度来进行词对齐;
在最近邻检索中,为每个汉语单词分配了越南语中最接近的单词,将映射后汉语嵌入矩阵和越南语嵌入矩阵之间的点积用作相似度度量;
通过矢量化相似矩阵XWZT并进行不断迭代计算,找到该矩阵的最大值,从而达到优化目标;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、Bi-LSTM和CNN编码步骤:
编码器由两层Bi-LSTM和CNN堆叠成一个基本的编码单元;依次从汉语语句和越南语语句中接受每个单词的单词嵌入矩阵Wx∈Rd×|Vx|来输入单词x,其中d为单词嵌入向量的维数,Vx为所有输入单词的集合;在每个时间步骤t,由词汇表Vx中的整数索引k定义的第i个句子中的标记表示为one-hot向量
Figure BDA0002690552110000041
该one-hot向量与词嵌入矩阵
Figure BDA0002690552110000042
相乘,以获得该标记的连续向量表示
Figure BDA0002690552110000043
其用做Bi-LSTM编码器的前向和后向循环状态的输入;
Step3.2、上述Bi-LSTM中,前向LSTM读取变长句,并从第一个标记到最后一个标记更新其递归状态,从而创建一个固定大小的句子连续向量表示;后向LSTM反向处理该句子;然后将第二层相同位置上每个时间步长的两个方向的编码器输出都拼接在一起
Figure BDA0002690552110000044
前向递归状态和后向递归状态分别计算如下;
Figure BDA0002690552110000045
Figure BDA0002690552110000046
Figure BDA0002690552110000047
其中φ(·)是LSTM模块;
Step3.3、上述的CNN中,原始CNN由卷积层、池化层和全连接层组成,对于句子长度为n的句子,可以将它表示成
Figure BDA0002690552110000048
表示全连接,
Figure BDA0002690552110000049
表示的是第i个词向量,d表示的是词向量的维度,卷积运算的核心是对滑动窗口的大小的序列应用在过滤器上以产生新的特征,具体如下公式所示;
ci=f(W·xi:i+h-1+b)
其中,
Figure BDA00026905521100000410
是一个偏移向量,f是非线性函数(比如Sigmoid,ReLU);
长度为n的句子可以通过卷积层来获得句子中任何连续单词序列的深层语义特征,具体如下公式所示;
c=[c1,c2,...,cn-h+1]
本文将窗口大小为F=[F(0)...F(m-1)]的卷积核与Bi-LSTM的输出向量进行卷积以获得特征向量,如公式所示;
Figure BDA0002690552110000051
b是偏移向量,F和b是过滤器的参数。从典型的CNN结构可以看出,池化层构建在卷积层之上。在本文中,通过K-Max Pooling提取特征中c价值最高的信息,每个滤波器最大值k会被保留,即
Figure BDA0002690552110000052
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、基于以上步骤,利用具有融合功能的Bi-LSTM和CNN提取出源语句和目标句的语义特征,即
Figure BDA0002690552110000053
然后使用元素积和绝对元素差来捕获它们的匹配信息,然后反馈到全连接的层以评估汉语-越南语句对相互翻译的可能性大小。具体公式如下:
Figure BDA0002690552110000054
Figure BDA0002690552110000055
Figure BDA0002690552110000056
p(yi|ci)=σ(Wcci+c)
Figure BDA0002690552110000057
其中σ(·)是sigmoid激活函数Wa,Wb,Wc,b和c是模型参数,其中n是源句子的数量,m是候选目标句子的数量。通过最小化标记的汉越句对的交叉熵来训练模型:对于预测,如果句子对的概率大于或等于设置的决策阈值ρ,则将其分类为平行;如果小于决策阈值ρ,则将其分类为不平行;
Figure BDA0002690552110000058
本发明的有益效果是:本发明通过通过利用汉越种子词典将汉越双语映射到公共语义空间进行词对齐,从而最大化表示汉-越句对之间的语义相关性。其次利用Bi-LSTM和CNN组合成的孪生网络对输入的词向量进行特征提取,获取质量更高的汉越平行句对。实验结果表明,该方法在汉越平行句对抽取中取得了很好的效果。
附图说明
图1为本发明中的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取模型图;
图2为本发明中提出的跨语言双语预训练方法流程示意图。
具体实施方式
实施例1:如图1-2所示,基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,所述基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽方法的具体步骤如下:
Step1、构建语料库:构建汉越可比语料库,爬取汉越单语,构建汉越种子词典;
Step2、汉越跨语言词向量预训练:将汉越双语进行词向量表征,利用汉越种子词典在同一语义空间词对齐,进行跨语言双语预训练;
Step3、Bi-LSTM和CNN统一空间编码:然后将预训练后得到的汉语和越南语句子输入到一个由Bi-LSTM和CNN组成的孪生神经网络,分别提取到句子的全局特征和局部特征;
Step4、模型训练与分类:将输出的结果反馈到全连接层中,设置阈值来判断输入的汉越双语句对是否是平行的。
作为本发明的优选方案,所述步骤Step1的具体步骤为:
Step1.1、汉越语料爬取并预处理:
通过***下载dump汉越数据,Wiki官网对该数据可直接下载http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2、http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2;
利用Scrap作为爬取工具,爬取汉越新闻事件页面,如越南新闻社http://www.vnagency.com.vn、https://zh.vietnamplus.vn/等获取汉越语料;
Step1.2、汉越语料预处理:
将获取的汉越语料进行手动对齐得到汉语、越南语平行句对13万,基于每个平行句对的负采样样本数设置为1:1,随机构造了13万汉越非平行句对;将构造好的汉越语料按照13:1:1的比例分配训练集、测试集、验证集;手动构造汉越种子词典3000多个词条;获得的汉越数据规模如表1所示:
表1实验数据
Figure BDA0002690552110000061
Figure BDA0002690552110000071
作为本发明的优选方案,所述步骤Step2的具体步骤为:
Step2.1、汉越单语语料独立训练:
利用word2vec(CBOW/Skip-grim)在汉语和越南语各自的单语语料库上进行独立训练,构建一个汉语和越南语同时映射的特征向量空间,汉语语料训练得到的词嵌入矩阵X,越南语语料中训练的词嵌入矩阵Z,汉越种子字典表示为一个二进制矩阵D;
Step2.2、汉越跨语言词向量预训练:
找到最佳映射矩阵W,让汉语词向量和越南语词向量分布在同一个向量空间,使得映射汉语词嵌入Xi*W与越南语词嵌入Zj*之间的欧几里德距离的平方和最小,映射矩阵;
Figure BDA0002690552110000072
作为本发明的优选方案,所述步骤Step2.2的具体步骤为:
Step2.2.1、汉越跨语言预训练中预处理:
对汉语嵌入矩阵X和越南语嵌入矩阵Z进行长度归一化和平均居中;
将W约束为正交矩阵即WWT=WTW=I,以强制执行汉语和越南语的单语不变性,可以产生更好的汉语-越南语跨原语言双语映射;在这种正交性约束下,最小化平方欧几里德距离就等于最大化点积,因此重新构造优化目标为:
W*=argWmaxTr(XWZTDT)
其中,Tr(·)表示主对角线上的所有元素之和;W*=UVT给出了此问题的最佳正交解;XTDZ=U∑VT是XTDZ的奇异值分解;
Step2.2.2、汉越跨语言预训练词对齐:
获得了映射矩阵W后,对于汉越种子词典外的任何一个没有翻译的单词,可以根据映射后的空间余弦相似度来进行词对齐;
在最近邻检索中,为每个汉语单词分配了越南语中最接近的单词,将映射后汉语嵌入矩阵和越南语嵌入矩阵之间的点积用作相似度度量;
通过矢量化相似矩阵XWZT并进行不断迭代计算,找到该矩阵的最大值,从而达到优化目标;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、Bi-LSTM和CNN编码步骤:
编码器由两层Bi-LSTM和CNN堆叠成一个基本的编码单元;依次从汉语语句和越南语语句中接受每个单词的单词嵌入矩阵Wx∈Rd×|Vx|来输入单词x,其中d为单词嵌入向量的维数,Vx为所有输入单词的集合;在每个时间步骤t,由词汇表Vx中的整数索引k定义的第i个句子中的标记表示为one-hot向量
Figure BDA0002690552110000081
该one-hot向量与词嵌入矩阵
Figure BDA0002690552110000082
相乘,以获得该标记的连续向量表示
Figure BDA0002690552110000083
其用做Bi-LSTM编码器的前向和后向循环状态的输入;
Step3.2、上述Bi-LSTM中,前向LSTM读取变长句,并从第一个标记到最后一个标记更新其递归状态,从而创建一个固定大小的句子连续向量表示;后向LSTM反向处理该句子;然后将第二层相同位置上每个时间步长的两个方向的编码器输出都拼接在一起
Figure BDA0002690552110000084
前向递归状态和后向递归状态分别计算如下;
Figure BDA0002690552110000085
Figure BDA0002690552110000086
Figure BDA0002690552110000087
其中φ(·)是LSTM模块;
Step3.3、上述的CNN中,原始CNN由卷积层、池化层和全连接层组成,对于句子长度为n的句子,可以将它表示成
Figure BDA0002690552110000088
表示全连接,
Figure BDA0002690552110000089
表示的是第i个词向量,d表示的是词向量的维度,卷积运算的核心是对滑动窗口的大小的序列应用在过滤器上以产生新的特征,具体如下公式所示;
ci=f(W·xi:i+h-1+b)
其中,
Figure BDA00026905521100000810
是一个偏移向量,f是非线性函数(比如Sigmoid,ReLU);
长度为n的句子可以通过卷积层获得句子中任何连续单词序列的深层语义特征,具体如下公式所示;
c=[c1,c2,...,cn-h+1]
本文将窗口大小为F=[F(0)...F(m-1)]的卷积核与Bi-LSTM的输出向量进行卷积以获得特征向量,如公式所示;
Figure BDA0002690552110000091
b是偏移向量,F和b是过滤器的参数。从典型的CNN结构可以看出,池化层构建在卷积层之上。在本文中,通过K-Max Pooling提取特征中c价值最高的信息,每个滤波器最大值k会被保留,即
Figure BDA0002690552110000092
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、基于以上步骤,具有融合功能的Bi-LSTM和CNN提取出源语句和目标句的语义特征,即
Figure BDA0002690552110000093
然后使用元素积和绝对元素差来捕获它们的匹配信息,然后反馈到全连接的层以评估汉语-越南语句对相互翻译的可能性大小。具体公式如下:
Figure BDA0002690552110000094
Figure BDA0002690552110000095
Figure BDA0002690552110000096
p(yi|ci)=σ(Wcci+c)
Figure BDA0002690552110000097
其中σ(·)是sigmoid激活函数Wa,Wb,Wc,b和c是模型参数,其中n是源句子的数量,m是候选目标句子的数量。通过最小化标记的汉越句对的交叉熵来训练模型:对于预测,如果句子对的概率大于或等于设置的决策阈值ρ,则将其分类为平行;如果小于决策阈值ρ,则将其分类为不平行:
Figure BDA0002690552110000098
具体的,为了验证本发明的性能,设置了以下三组对比实验,采用准确率(Precision),召回率(Recall),和F1值作为评价指标。
Figure BDA0002690552110000101
Figure BDA0002690552110000102
Figure BDA0002690552110000103
其中,TP是提取句子中真正平行的句对的数量,FP是提取句子中非平行句对的数量,FN是测试集中未被提取的平行句对的数量。
(1)为了验证预训练方法的有效性,设置阈值为0.90,将经过预训练的Bi-LSTM和CNN汉越平行句对抽取模型与不经过预训练的效果进行对比。我们还将仅使用Bi-LSTM抽取汉越双语平行句对的基线方法进行比较,同时,为了突出分类器构造比传统机器学习更深入学习具有更好的准确性,同时还比较了Munteanu D S等人提出的最大熵模型。具体实验结果如下表2所示。
表2不同模型对比实验结果
Figure BDA0002690552110000104
实验结果表明,在汉-越数据集上,本文模型的F1得分优于基线模型和其他模型。经过跨语言预训练的模型比单独使用Bi-LSTM和CNN编码的效果要好是因为将汉-越两种语言映射到相同空间,语义相关性更好。经过深度学习训练的特征提取分类器比最大熵模型具有更好的性能。其主要原因是神经网络能够自动学习并提取更好的特征。Bi-LSTM和CNN的结合优化于简单使用Bi-LSTM,是因为通过CNN可以获得更多的语义特征信息。
(2)不同词向量表征方法探究
为了进一步证明本文提出的汉语-越南跨语言预训练方法的有效性,设置在阈值为0.9,做了一组将本文在词向量表征部分与word2vec的词向量表征模型的对比实验,具体实验结果如表3所示。
表3不同词向量表征方法对比实验结果
方法 R(%) P(%) F1(%)
word2vec-BiLSTM-CNN 72.8 64.2 68.2
本文法方法(VecMap) 75.6 66.5 70.7
实验结果表明,本文提出的预训练方法VecMap比word2vec在汉越双语抽取工作中的效果要好,其主要原因是VecMap是跨语言双语词向量预训练将汉越双语映射到公共语义空间训练加强汉越跨语言相关性,从而能抽取到更高质量的汉越双语平行句对。
(3)不同阈值探究
为了验证选取不同阈值时是否会影响模型的效果,为抽取到更高质量的汉越双语平行句对提供阈值参数基础,设置了在本文提出方法上不同阈值的对比实验,具体实验结果如表4所示。
表4不同阈值对比实验结果
不同的阈值M R(%) P(%) F1(%)
M=0.85 77.3 68.6 72.7
M=0.90 75.6 66.5 70.7
M=0.95 73.9 64.7 68.9
实验结果表明,不同的阈值M对实验结果的影响。其中,实验设置阈值参数越大,抽取汉越双语平行句对的F1分值反而越低。阈值M作为汉越双语平行句对抽取的判别值,若想获取质量更高的汉-越平行句对,通常将阈值设置为0.95者更高。
通过以上实验和实例数据分析,该发明提出了一种基于跨语言预训练及Bi-LSTM方法抽取汉越双语平行句对方法。在没有大规模汉越平行语料情况下,该方法利用汉越种子词典进行汉越跨语言预训练,将汉越双语表征到同一语义空间中来进行词对齐。同时利用深度神经网络Bi-LSTM和CNN分别提起汉越句对的上下文信息和局部信息从而抽取出匹配度更高,噪声更小的汉越双语平行句。通过不同实验模型进行对比,经过跨语言预训练的平行句提取方法在准确率和召回率上高于基线模型,并且抽取到的汉-越平行句的语义更近。通过对模型设置不同的参数和使用不同预训练方法,并将本文方法与基本方法作比较,证明了该方法在汉越平行句对抽取任务上达到了较好的效果。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (5)

1.基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,其特征在于:
所述方法包括如下:
Step1、构建语料库:构建汉越可比语料库,爬取汉越单语,构建汉越种子词典;
Step2、汉越跨语言词向量预训练:将汉越双语进行词向量表征,利用汉越种子词典在同一语义空间词对齐,进行跨语言双语预训练;
Step3、Bi-LSTM和CNN统一空间编码:然后将预训练后得到的汉语和越南语句子输入到一个由Bi-LSTM和CNN组成的孪生神经网络,分别提取到句子的全局特征和局部特征;
Step4、模型训练与分类:将输出的结果反馈到全连接层中,设置阈值来判断输入的汉越双语句对是否是平行的。
2.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,其特征在于:所述步骤Step1中,通过***下载dump汉越数据,利用Scrapy作为爬取工具,爬取汉越新闻事件页面,获取汉越语料,再对得到的汉越数据进行预处理,建立汉越平行句对和非平行句对数据集。
3.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,其特征在于:所述步骤Step2中,利用word2vec在汉语和越南语各自的单语语料库上进行独立训练,再将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,使得汉语-越南语的语义相似词在该空间中接近,从而增强了汉语和越南语语义空间中的相关性,在跨语言双语预训练中,利用种子词典在没有大规模平行语料情况下可以实现在汉越同一语义空间词对齐,并以自学习的方式迭代地生成新词典。
4.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,其特征在于:所述步骤Step3中,利用汉越种子词典来学习词嵌入并指导后面Bi-LSTM和CNN在公共语义空间进行统一编码,再将训练好的词向量输入Bi-LSTM来获取单词前后信息特征,然后使用CNN来提取双语句子更深层语义特征。
5.根据权利要求1所述的基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法,其特征在于:所述步骤Step4中,在对汉语句子和越南语句子进行编码后,通过使用元素乘积和元素绝对差将它们提供给全连接层,将它们提供给全连接层以及使用输出概率作为汉越句对是否为平行语句对的度量来捕获其匹配信息。
CN202010990010.XA 2020-09-18 2020-09-18 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 Pending CN112287695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010990010.XA CN112287695A (zh) 2020-09-18 2020-09-18 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010990010.XA CN112287695A (zh) 2020-09-18 2020-09-18 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

Publications (1)

Publication Number Publication Date
CN112287695A true CN112287695A (zh) 2021-01-29

Family

ID=74421029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010990010.XA Pending CN112287695A (zh) 2020-09-18 2020-09-18 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法

Country Status (1)

Country Link
CN (1) CN112287695A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076398A (zh) * 2021-03-30 2021-07-06 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN114595688A (zh) * 2022-01-06 2022-06-07 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114861631A (zh) * 2022-05-19 2022-08-05 昆明理工大学 基于上下文的汉越跨语言句嵌入方法
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110297903A (zh) * 2019-06-11 2019-10-01 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110414009A (zh) * 2019-07-09 2019-11-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MIKEL ARTETXE 等: "Learning bilingual word embeddings with (almost) no bilingual data", 《PROCEEDINGS OF THE 55TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076467A (zh) * 2021-03-26 2021-07-06 昆明理工大学 基于跨语言神经主题模型的汉越新闻话题发现方法
CN113076398A (zh) * 2021-03-30 2021-07-06 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN113076398B (zh) * 2021-03-30 2022-07-29 昆明理工大学 基于双语词典映射指导的跨语言信息检索方法
CN113343672A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 一种基于语料合并的无监督双语词典构建方法
CN113627171A (zh) * 2021-07-14 2021-11-09 内蒙古师范大学 一种面向多语言大数据分析的汉蒙跨语言主题表示及语义对齐模型
CN113505571A (zh) * 2021-07-30 2021-10-15 沈阳雅译网络技术有限公司 一种面向神经机器翻译的数据选择及训练方法
CN113901831B (zh) * 2021-09-15 2024-04-26 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN113901831A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于预训练语言模型及双向交互注意力的平行句对抽取方法
CN114595688A (zh) * 2022-01-06 2022-06-07 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114595688B (zh) * 2022-01-06 2023-03-10 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN114896394B (zh) * 2022-04-18 2024-04-05 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN114861631A (zh) * 2022-05-19 2022-08-05 昆明理工大学 基于上下文的汉越跨语言句嵌入方法

Similar Documents

Publication Publication Date Title
CN112287695A (zh) 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法
CN107085581B (zh) 短文本分类方法和装置
Zahran et al. Word representations in vector space and their applications for arabic
CN112541343B (zh) 基于词对齐的半监督对抗学习跨语言摘要生成方法
CN110717332B (zh) 基于非对称孪生网络的新闻与案件相似度计算方法
CN110414009B (zh) 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN108984526A (zh) 一种基于深度学习的文档主题向量抽取方法
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN107273913B (zh) 一种基于多特征融合的短文本相似度计算方法
CN110222338B (zh) 一种机构名实体识别方法
CN112069312B (zh) 一种基于实体识别的文本分类方法及电子装置
Dahou et al. Multi-channel embedding convolutional neural network model for arabic sentiment classification
Roy et al. Date-field retrieval in scene image and video frames using text enhancement and shape coding
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及***
CN111581943A (zh) 一种基于句子关联图的汉越双语多文档新闻观点句识别方法
CN114647715A (zh) 一种基于预训练语言模型的实体识别方法
CN111159405B (zh) 基于背景知识的讽刺检测方法
Zhang et al. Visual enhanced gLSTM for image captioning
Retsinas et al. An alternative deep feature approach to line level keyword spotting
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
Gong et al. A semantic similarity language model to improve automatic image annotation
CN114048354A (zh) 基于多元表征和度量学习的试题检索方法、装置及介质
CN111382333B (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210129

RJ01 Rejection of invention patent application after publication