CN110414009B - 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 - Google Patents
基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 Download PDFInfo
- Publication number
- CN110414009B CN110414009B CN201910873805.XA CN201910873805A CN110414009B CN 110414009 B CN110414009 B CN 110414009B CN 201910873805 A CN201910873805 A CN 201910873805A CN 110414009 B CN110414009 B CN 110414009B
- Authority
- CN
- China
- Prior art keywords
- sentence
- burma
- parallel
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000605 extraction Methods 0.000 title description 8
- 239000013598 vector Substances 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 12
- 229940028444 muse Drugs 0.000 claims abstract description 8
- GMVPRGQOIOIIMI-DWKJAMRDSA-N prostaglandin E1 Chemical compound CCCCC[C@H](O)\C=C\[C@H]1[C@H](O)CC(=O)[C@@H]1CCCCCCC(O)=O GMVPRGQOIOIIMI-DWKJAMRDSA-N 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 35
- 238000013519 translation Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000011176 pooling Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 241000228740 Procrustes Species 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 2
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000004519 manufacturing process Methods 0.000 abstract 1
- 238000013527 convolutional neural network Methods 0.000 description 30
- 238000002474 experimental method Methods 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及基于BiLSTM‑CNN的英缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。本发明首先通过Muse工具预训练出双语词向量,然后利用缅甸语虚词和助词识别缅语的主谓宾的特点对句子进行功能标记,把每个词的句法结构信息拼接到词向量中,再使用BiLSTM‑CNN对句子中进行编码,把输出概率作为衡量是否为平行句对的条件。并根据上述步骤功能模块化制成基于BiLSTM‑CNN的英缅双语平行句对抽取装置。本发明较传统的双语平行句对识别***更为简单,实验结果表明该方法及装置在正确率和召回率等指标表现上均优于基线***,精确率普遍都有所提升。
Description
技术领域
本发明涉及基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置,属于自然语言处理技术领域。
背景技术
在自然语言处理领域中,平行语料库的规模对于机器翻译性能的提高具有重要作用,而对于资源稀缺型的缅甸语来说,英缅平行语料资源严重匮乏,机器翻译质量尚未达到实用水平。传统的获取平行语料的方法有人工翻译和利用机器翻译译文,然后前者成本较高效率较低,后者则依赖机器翻译性能,质量差。在网络上平行语料库规模相对是很少的,而可比语料库相比较较多,如何利用互联网上海量的英缅可比语料来获取英缅双语平行句对具有重要意义。
近几年,已有多种方法从可比语料库中抽取平行句对,例如利用最大熵方法构建分类器,从而在大量可比语料中抽取出平行句对,构建了汉英翻译***,而该方法极大依赖于特征工程,而且需要大量的平行语料,对于资源稀缺的语言极不适用。传统的方法往往仅考虑自身语言所具有的语义信息,而实际上,不同语言间包含对应的功能结构,由于句子语义表达与句法结构密切相关,现有的表示方法虽能够一定程度上保留句子中词序信息,但不能避免句法结构信息的丢失,难以准确地学习到句子表示。
发明内容
未解决上述问题,本发明提供了基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置,本发明正确率和召回率等指标表现上均优于基线***,精确率普遍都有所提升。
本发明的技术方案是:基于BiLSTM-CNN的英缅双语平行句对抽取方法,所述方法的具体步骤如下:
Step1、利用从英缅互译网站爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对进行双语词向量预训练,得到英-缅跨语言共享的词嵌入空间,从而再得到英缅双语词向量,让句子表征的语义向量在跨英-缅语义空间具有相关性;
Step2、对句子进行功能标记,把每个词的句法结构信息拼接到词向量中,获取英-缅的句法差异性;
Step3、使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递,得到包含上下文信息的不同时序所产生的特征状态;利用CNN网络表示句子的句法特征,得到该句的语义特征;
Step4、通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对。
进一步地,所述步骤Step1的具体步骤如下:
从英缅互译网站爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对;
使用昆明理工大学研发的缅甸语分词***,网址为222.197.219.24:8099,对缅甸语进行分词并通过利用一个英-缅的种子词典,进行有监督的方法训练,使用普鲁克斯特对齐Procrustes alignment进行迭代,学习从源语言到目标语言的映射,得到英-缅跨语言共享的词嵌入空间,从而得到英缅双语词向量;其中能使用Facebook的MUSE***实现。
利用Facebook的MUSE***预训练出英-缅跨语言共享的词嵌入空间,从而使语义相近的不同语言的词在词向量空间中距离接近,让句子表征的语义向量在跨英-缅语义空间具有相关性;
进一步地,所述步骤Step2中,对句子进行功能标记时,通过缅甸语虚词和助词识别句子中的主谓宾,包括:
使用缅甸语分词***对缅甸语进行分词;
使用缅甸语分词***对缅甸语进行音节切分;
通过缅甸语的后置于名词的虚词和前置于名词的虚词以及主、谓、宾语成分助词识别句子中的虚词助词;
通过上述步骤得到的虚词助词进行主谓宾标注;
对句子进行功能标记时,通过斯坦福工具对英语进行功能标注,然后仅保留和缅甸句子所对应的句法结构。
利用缅甸语虚词和助词能够识别缅语的主谓宾的特点,使用缅甸语分词和音节切分工具,识别出该句子中虚词和助词的位置,对句子进行功能标记,把每个词的句法结构信息拼接到词向量中;
进一步地,所述步骤Step3、Step4的具体步骤如下:
通过BiLSMT对句子中的每个词信息进行正向和反向的信息传递,利用词的上下文信息,从而得到包含上下文信息的不同时序所产生的特征状态;
利用CNN网络表示句子的句法特征,对得到的特征状态进行卷积和池化来提取句子关键语义特征,得到该句的深层语义表示;
使用Adam作为模型优化器;
使用交叉熵作为损失函数对模型进行评估;
通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,然后馈送到全连接层来估计句子相互翻译的概率,再把输出概率作为衡量是否为平行句对的条件来抽取平行句对,通过输出概率来判断是否为平行句对;其中,通过输出概率和阈值比较,大于阈值的则判断为平行句对,阈值取0.8或0.9。
根据本发明的构思,本发明还提供了一种基于BiLSTM-CNN的英缅双语平行句对抽取装置,如图6所示,该装置包括:
数据获取模块,用于利用网络爬虫技术获取网络上的英缅互译文章以及对数据进行清洗;
词向量模块,用于利用Facebook的Muse工具对获取到的数据进行双语词向量的训练;
功能标注模块,利用缅甸语分词***对缅甸语进行分词以及音节切分,再利用缅甸语虚词及助词对缅甸语进行功能标注,通过斯坦福工具对英语进行功能标注;
句子表征模块,用于采用BiLSTM-CNN提取句子的语义特征;
输出模块,在对源语句和目标语句进行编码之后,即提取句子的语义特征之后,用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对。
本发明的有益效果是:
本发明将CNN和Bi-LSTM进行融合,既能利用CNN提取局部特征的优势,又能利用BiLSTM对文本序列全局特征的优势。利用BiLSTM解决CNN忽略词的上下文含义的问题,并提出的融合功能标注的BiLSTM-CNN的句子表征,体现语言差异性对句子表征的影响,有效利用语言的外部知识,提高了平行句对抽取模型的准确率;
本发明提出的方法及装置较传统的双语平行句对识别***更为简单,实验结果表明该方法及装置在正确率和召回率等指标表现上均优于基线***,精确率普遍都有所提升。
附图说明
图1为本发明中的具体流程框图;
图2为本发明中的英缅双语词向量空间示意图;
图3为本发明中的缅甸语的句子功能标注流程图;
图4为本发明中的三种模型得到的准确率折线图;
图5为本发明中的三种模型得到的召回率折线图;
图6为本发明中的装置结构框图;
图7为本发明中的流程图。
具体实施方式
实施例1:如图1-7所示,基于BiLSTM-CNN的英缅双语平行句对抽取方法,图7为本发明的流程图。该方法中包括以下步骤:A步骤:预训练出英-缅跨语言共享的词嵌入空间,从而使语义相近的不同语言的词在词向量空间中距离接近,让句子表征的语义向量在跨英-缅语义空间具有相关性;B步骤:对句子进行功能标记,把每个词的句法结构信息拼接到词向量中,能够获取英-缅的句法差异性;C步骤:使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递,得到包含上下文信息的不同时序所产生的特征状态,进而利用CNN提取特征的特点,得到该句的深层语义特征;D步骤:在对源语句和目标语句进行编码之后,即提取句子的语义特征之后,通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对。图1提供了基于BiLSTM-CNN的英缅双语平行句对抽取方法的具体流程框图。
在A步骤中,本发明的实验数据集来源主要是从英缅互译网爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对。使用昆明理工大学研发的缅甸语分词***,网址为222.197.219.24:8099,对缅甸语进行分词并利用一个英-缅的种子词典,进行有监督的方法训练,并且使用普鲁克斯特对齐(Procrustes alignment)进行迭代,学***行句对的负样本的个数为7,随机构建14万个非平行语料。为了能够很好的衡量该英-缅平行分类器的性能,选取0.2万英-缅平行语料、0.4万英-缅非平行语料作为实验的测试集。
在B步骤中,因为缅语属于低资源语言,所以缅甸语相关的自然语言处理研究工作开展缓慢,尚未有较成熟的词性标注和句法结构等方面的工具,而缅甸语虚词和助词的符号能够识别出句子中主语、谓语、宾语等,见表1;
表1缅甸助词、虚词例句
通过相关资料查询,具体的虚词和助词见表2、3
表2缅甸语虚词一览表
表3缅甸语结构助词一览表
因此本发明利用缅甸语虚词和助词能够识别缅语的主谓宾的特点,使用缅甸语分词和音节切分工具,识别出该句子中虚词和助词的位置。对句子进行功能标记,具体流程如图3所示。对于英语的功能标注,本发明使用斯坦福工具,对英文句子进行功能标记,然后仅保留和缅甸句子所对应的句法结构。基于以上步骤得到句子的句法结构,主要是主语、谓语、宾语。
在C步骤中,包含以下步骤:C01步骤:使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递,得到包含上下文信息的不同时序所产生的特征状态;C02步骤:利用CNN提取特征的特点,得到该句的深层语义表示。
在C01步骤中,循环神经网络(RNN)已被广泛用于处理可变长度序列输入,LSTM是RNN的一种流行变体,用于缓解RNN的梯度消失和梯度***问题。当给定一个句子x={x(1),x(2)…,x(n),t∈n},其中,x(t)表示的是k维的词向量。隐藏向量h(t)在时间步为t时刻的更新公式如下所示:
it=σ(Wix(t)+Uih(t-1)+bi (1)
ft=σ(Wfx(t)+Ufh(t-1)+bf (2)
ot=σ(Wox(t)+Uoh(t-1)+bo (3)
ht=ot*tanh(Ct) (6)
htg=ot*tanh(Ct+G) (7)
在单向LSTM中,无法考虑利用反向的上下文信息,而双向LSTM通过在两个方向上处理序列来利用上下文,并生成两个独立的LSTM输出向量序列,一个用来处理正向的输入序列,而另一个处理反向的输入,每个时间步的输出是来自两个方向的两个输出矢量的串联,即
在C02步骤中,最原始的CNN由卷积层,池化层和完全连接层组成。对于长度为n的句子,它可表示为其中是连接操作,表示第i个词向量,d表示为词向量的维度。卷积操作的核心是将滤波器应用于窗口大小为h的词序列来产生一个新的特征ci,如公式所示:
ci=f(W·xi:i+h-1+b) (8)
其中,是一个偏置向量,f是一个非线性函数(例如,Sigmoid,ReLU)。长度为n的句子通过卷积层后可以得到句子中任意一个连续词序列{x1:h,x2:h+1,...,xn-h+1:n}的深层语义特征c,如公式所示:
c=[c1,c2,…,cn-h+1] (9)
在本发明中,将窗口为m的卷积核F=[F(0)…F(m-1)]对Bi-LSTM的输出向量进行卷积,得到特征映射,如公式所示:
其中,b是偏置项,F和b是该单个滤波器的参数。
p(yi|ci)=σ(Wcci+c)(14)
其中σ代表激活函数,Wa,Wa,Wa,b,c是模型的参数,该模型选择交叉熵作为目标函数:
其中n为源句子的个数,m为候选目标句子的个数。
本发明的实验数据集来源主要是从英缅互译网站爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对。利用Muse工具预训练出高质量的双语词向量,其词向量维度设为300维。实际情况见表4;
表4语料规模
语言 | 句子数(万) |
英-缅平行语料 | 2.0 |
英-缅非平行语料 | 14.0 |
同时,基于假定每个平行句对的负样本的个数为7,随机构建14万个非平行语料。为了能够很好的衡量该英-缅平行分类器的性能,选取0.2万英-缅平行语料、0.4万英-缅非平行语料作为实验的测试集,见表5
表5实验数据
在评价指标的方面,选用准确率(Accuracy),精确率(Precision),召回率(Recall)和F值(F1-Measure)作为衡量该模型是否可以对英-缅平行句子做出正确的分类。具体公式如下:
其中TP是真的正例,FP是假的反例,FP是假的正例,TN是真的反例。
为了体现本发明所提出的方法有效性,本发明将Grégoire,Francis等人提出利用Bidirectional Recurrent Neural Networks方法提取平行句对作为基准模型。同时,为了突出深度学习在分类器的构建上比传统机器学习具有更好的准确性,本发明也将MunteanuD S等人提出的最大熵模型作为对比实验。
实验参数的选取直接影响最后的实验结果,下表列出了BiLSTM、CNN以及实验参数设置。见表6、7、8。
表6 BiLSTM参数设置
参数 | 参数值 |
嵌入层维度 | 300维 |
隐状态维度 | 300维 |
层数 | 3层 |
表7 CNN参数设置
参数 | 参数值 |
滑动窗口大小 | 2,3,4 |
滑动窗口个数 | 300 |
隐状态维度 | 600维 |
池化层 | 最大池化 |
表8实验参数设置
为验证本发明提出的基于BiLSTM-CNN的英缅双语平行句对抽取模型的性能,将BiLSTM和最大熵作为基准实验,在不同阈值下与本发明提出的BiLSTM-CNN方法进行对比。见表9
表9实验对比表
从结果可以看出,利用深度学***行句对抽取模型,通常阈值设置在0.9及以上。准确率和召回值得折线图见图4、5。
在本发明中,同样提出了功能标注能够对句对抽取模型具有重要影响作用。因此,本发明在阈值为0.9的情况下对融入功能标注的模型和不融入功能标注的模型进行了以下几组实验。见表10.
表10是否融入功能标注的模型对比
从表10中,可以看出,融合功能标注的模型比不融合功能标注的模型都有一定的小幅度提升,主要原因是由于功能标注作为外部知识,能够对句子的表示具有一定的指导性作用。同时,本发明也对BiLSTM之后的操作提供了三组对比实验即:mean_pooling,max_pooling以及CNN,通过实验结果对比,CNN的效果还是较优,其主要原因还是在于CNN对重要特征的提取;本发明的BiLSTM-CNN+功能标注得到的效果最好。
根据本发明的构思,本发明还提供了一种基于BiLSTM-CNN的英缅双语平行句对抽取装置,如图6所示,该装置包括:
数据获取模块,用于利用网络爬虫技术获取网络上的英缅互译文章以及对数据进行清洗;词向量模块,用于利用Facebook的Muse工具对获取到的数据进行双语词向量的训练;功能标注模块,用于利用昆明理工大学缅甸语分词***对缅甸语进行分词以及音节切分,再利用缅甸语虚词及助词对缅甸语进行功能标注,通过斯坦福工具对英语进行功能标注;句子表征模块,用于采用BiLSTM-CNN提取句子的语义特征;输出模块,在对源语句和目标语句进行编码之后,即提取句子的语义特征之后,用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于BiLSTM-CNN的英缅双语平行句对抽取方法,其特征在于:
所述方法的具体步骤如下:
Step1、利用从英缅互译网站爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对进行双语词向量预训练,得到英-缅跨语言共享的词嵌入空间,从而再得到英缅双语词向量,让句子表征的语义向量在跨英-缅语义空间具有相关性;
Step2、对句子进行功能标记,把每个词的句法结构信息拼接到词向量中,获取英-缅的句法差异性;
Step3、使用BiLSTM对句子中的每个词信息进行正向和反向的信息传递,得到包含上下文信息的不同时序所产生的特征状态;利用CNN网络表示句子的句法特征,得到该句的语义特征;
Step4、通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对;
所述步骤Step2中,对句子进行功能标记时,通过缅甸语虚词和助词识别句子中的主谓宾,包括:
使用缅甸语分词***对缅甸语进行分词;
使用缅甸语分词***对缅甸语进行音节切分;
通过缅甸语的后置于名词的虚词和前置于名词的虚词以及主、谓、宾语成分助词识别句子中的虚词助词;
通过上述步骤得到的虚词助词进行主谓宾标注;
对句子进行功能标记时,通过斯坦福工具对英语进行功能标注;
所述步骤Step3、4的具体步骤如下:
通过BiLSMT对句子中的每个词信息进行正向和反向的信息传递,利用词的上下文信息,从而得到包含上下文信息的不同时序所产生的特征状态;
利用CNN网络表示句子的句法特征,对得到的特征状态进行卷积和池化来提取句子关键语义特征,得到该句的深层语义表示;
使用Adam作为模型优化器;
使用交叉熵作为损失函数对模型进行评估;
通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,然后馈送到全连接层来估计句子相互翻译的概率,再把输出概率作为衡量是否为平行句对的条件来抽取平行句对,通过输出概率来判断是否为平行句对;其中,通过输出概率和阈值比较,大于阈值的则判断为平行句对,阈值取0.8或0.9。
2.根据权利要求1所述的基于BiLSTM-CNN的英缅双语平行句对抽取方法,其特征在于:所述步骤Step1的具体步骤如下:
从英缅互译网站爬取的英缅互译文章,通过人工进行筛选并对齐得到2万个平行句对;
使用缅甸语分词***,对缅甸语进行分词并通过利用一个英-缅的种子词典,进行有监督的方法训练,使用普鲁克斯特对齐Procrustes alignment进行迭代,学习从源语言到目标语言的映射,得到英-缅跨语言共享的词嵌入空间,从而得到英缅双语词向量。
3.一种基于BiLSTM-CNN的英缅双语平行句对抽取装置,其特征在于,包括:
数据获取模块,用于利用网络爬虫技术获取网络上的英缅互译文章以及对数据进行清洗;
词向量模块,用于利用Facebook的Muse工具对获取到的数据进行双语词向量的训练;
功能标注模块,利用缅甸语分词***对缅甸语进行分词以及音节切分,再利用缅甸语虚词及助词对缅甸语进行功能标注,通过斯坦福工具对英语进行功能标注;
句子表征模块,用于采用BiLSTM-CNN提取句子的语义特征;
输出模块,在对源语句和目标语句进行编码之后,即提取句子的语义特征之后,用于通过使用语义特征的元素乘积和元素绝对差来捕获句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,把输出概率作为衡量是否为平行句对的条件来抽取平行句对;
通过BiLSMT对句子中的每个词信息进行正向和反向的信息传递,利用词的上下文信息,从而得到包含上下文信息的不同时序所产生的特征状态;
利用CNN网络表示句子的句法特征,对得到的特征状态进行卷积和池化来提取句子关键语义特征,得到该句的深层语义表示;
使用Adam作为模型优化器;
使用交叉熵作为损失函数对模型进行评估;
通过使用上述步骤得到的语义特征的元素乘积和元素绝对差来捕获源句子和目标句子的语义特征的匹配信息,将匹配信息馈送到全连接层,然后馈送到全连接层来估计句子相互翻译的概率,再把输出概率作为衡量是否为平行句对的条件来抽取平行句对,通过输出概率来判断是否为平行句对;其中,通过输出概率和阈值比较,大于阈值的则判断为平行句对,阈值取0.8或0.9。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019106131752 | 2019-07-09 | ||
CN201910613175 | 2019-07-09 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414009A CN110414009A (zh) | 2019-11-05 |
CN110414009B true CN110414009B (zh) | 2021-02-05 |
Family
ID=68370528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910873805.XA Active CN110414009B (zh) | 2019-07-09 | 2019-09-17 | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414009B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111046946B (zh) * | 2019-12-10 | 2021-03-02 | 昆明理工大学 | 基于crnn的缅甸语图像文本识别方法 |
CN111310480B (zh) * | 2020-01-20 | 2021-12-28 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111460830B (zh) * | 2020-03-11 | 2022-04-12 | 北京交通大学 | 一种司法文本中经济事件的抽取方法及*** |
CN111709245A (zh) * | 2020-04-30 | 2020-09-25 | 昆明理工大学 | 基于语义自适应编码的汉-越伪平行句对抽取方法 |
CN112232090A (zh) * | 2020-09-17 | 2021-01-15 | 昆明理工大学 | 融合句法结构及Tree-LSTM的汉越平行句对抽取方法 |
CN112287688B (zh) * | 2020-09-17 | 2022-02-11 | 昆明理工大学 | 融合预训练语言模型及结构特征的英-缅双语平行句对抽取方法及装置 |
CN112287695A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 |
CN113609872A (zh) * | 2021-03-29 | 2021-11-05 | 智慧芽信息科技(苏州)有限公司 | 文本处理方法及装置、模型训练方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107491444B (zh) * | 2017-08-18 | 2020-10-27 | 南京大学 | 基于双语词嵌入技术的并行化词对齐方法 |
CN109213995B (zh) * | 2018-08-02 | 2022-11-18 | 哈尔滨工程大学 | 一种基于双语词嵌入的跨语言文本相似度评估技术 |
CN109559781A (zh) * | 2018-10-24 | 2019-04-02 | 成都信息工程大学 | 一种预测dna-蛋白质结合的双向lstm和cnn模型 |
CN109117472A (zh) * | 2018-11-12 | 2019-01-01 | 新疆大学 | 一种基于深度学习的维吾尔文命名实体识别方法 |
CN109783809B (zh) * | 2018-12-22 | 2022-04-12 | 昆明理工大学 | 一种从老挝-汉语篇章级对齐语料中抽取对齐语句的方法 |
CN109783817B (zh) * | 2019-01-15 | 2022-12-06 | 浙江大学城市学院 | 一种基于深度强化学习的文本语义相似计算模型 |
CN109885686A (zh) * | 2019-02-20 | 2019-06-14 | 延边大学 | 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法 |
-
2019
- 2019-09-17 CN CN201910873805.XA patent/CN110414009B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110414009A (zh) | 2019-11-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414009B (zh) | 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
CN110162636B (zh) | 基于d-lstm的情绪原因识别方法 | |
CN108804530B (zh) | 对图像的区域加字幕 | |
CN110059188B (zh) | 一种基于双向时间卷积网络的中文情感分析方法 | |
CN111274398B (zh) | 一种方面级用户产品评论情感分析方法及*** | |
CN109543181B (zh) | 一种基于主动学习和深度学习相结合的命名实体模型和*** | |
CN111401061A (zh) | 基于BERT及BiLSTM-Attention的涉案新闻观点句识别方法 | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN109871535A (zh) | 一种基于深度神经网络的法语命名实体识别方法 | |
CN110489750A (zh) | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 | |
CN112287695A (zh) | 基于跨语言双语预训练及Bi-LSTM的汉-越平行句对抽取方法 | |
CN110704621A (zh) | 文本处理方法、装置及存储介质和电子设备 | |
CN111651974A (zh) | 一种隐式篇章关系分析方法和*** | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN112231472A (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
Chen et al. | Extractive text-image summarization using multi-modal RNN | |
CN110046356A (zh) | 标签嵌入在微博文本情绪多标签分类中的应用研究 | |
CN112101014A (zh) | 一种混合特征融合的中文化工文献分词方法 | |
CN111581943A (zh) | 一种基于句子关联图的汉越双语多文档新闻观点句识别方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及*** | |
CN114626367A (zh) | 基于新闻文章内容的情感分析方法、***、设备及介质 | |
CN108108184B (zh) | 一种基于深度信念网络的源代码作者识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |