CN108829685A - 一种基于单语语料库训练的蒙汉互译方法 - Google Patents

一种基于单语语料库训练的蒙汉互译方法 Download PDF

Info

Publication number
CN108829685A
CN108829685A CN201810428620.3A CN201810428620A CN108829685A CN 108829685 A CN108829685 A CN 108829685A CN 201810428620 A CN201810428620 A CN 201810428620A CN 108829685 A CN108829685 A CN 108829685A
Authority
CN
China
Prior art keywords
language
chinese
training
translation
autocoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810428620.3A
Other languages
English (en)
Inventor
苏依拉
牛向华
赵亚平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia University of Technology
Original Assignee
Inner Mongolia University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia University of Technology filed Critical Inner Mongolia University of Technology
Priority to CN201810428620.3A priority Critical patent/CN108829685A/zh
Publication of CN108829685A publication Critical patent/CN108829685A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

一种基于单语语料库训练的蒙汉互译方法,基于两个分别针对蒙语和汉语的自动编码器,具体采用降噪自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小,从而完善蒙汉机器翻译***,达到较好翻译的目标。本发明将最大限度利用现有蒙汉单语语料缓解因蒙汉平行语料缺乏而导致的蒙汉互译译文质量不高的问题,并且将辐射带动蒙古语语言学相关研究,对、机器翻译、多语言语音技术的研发等提供研究依据,将推动蒙古语信息化处理进程,为其它少数民族语言开展相关研究提供参考,具有一定的理论意义。

Description

一种基于单语语料库训练的蒙汉互译方法
技术领域
本发明属于机器翻译技术领域,特别涉及一种基于单语语料库训练的蒙汉互译方法。
背景技术
机器翻译研究如何利用计算机实现自然语言之间的自动转换,是人工智能和自然语言处理领域的重要研究方向之一。机器翻译作为突破不同国家和民族之间信息传递所面临的“语言屏障”问题的关键技术,对于促进民族团结、加强文化交流和推动对外贸易具有重要意义。近年来,机器翻译受到越来越多的关注。一方面,机器翻译技术拥有迫切的社会需求,并不完美的机器翻译技术在产业界的应用越来越广泛,实时语音翻译***和在线翻译服务已进入日常生活;另一方面,机器翻译一直是学术界研究的一个热点,关于机器翻译技术的研究论文在数量上长期占据计算机语言学(或自然语言处理)领域各大学术会议的头名。
在我国经济快速发展与社会不断进步的背景下,蒙古族与汉族之间的交流日益频繁。蒙古族是我国五十六个民族的重要组成之一,是草原游牧民族的典型代表和草原文化的重要传承者,蒙古语则是我国蒙古族同胞使用的主要语言。伴随着我国经济的发展,蒙古族和汉族同胞要进行交流就需要翻译,而人工翻译成本较高,这就促使蒙汉机器翻译有了用武之地,并且机器翻译也能极大的促进两种文化的融合和信息共享。对于两种文化的价值观相互渗透,凝聚民族的核心文化,促进良好民族关系的建立都具有重要的意义。
从20世纪40年代末至今这六十多年的时间里,追随着机器翻译发展的脚步,研究人员也从未停止过机器翻译在蒙汉翻译中应用的研究。从基于统计的蒙汉机器翻译到基于实例的蒙汉机器翻译,再到基于深度学***行语料库来进行参数估计。由于平行语料库在数量,质量和覆盖面方面通常非常有限,特别是对于像传统蒙古语这样的低资源语言,因此利用单语语料库来提高神经机器翻译的性能是很有必要的。
作为一种数据驱动方法,神经机器翻译的性能高度依赖于平行语料库的规模、质量和领域覆盖面。由于神经网络的参数规模庞大,只有当训练语料库达到一定规模,神经机器翻译才会显著超过统计机器翻译,然而,除了中文、英文等资源丰富语言,世界上绝大多数语言都缺乏大规模、高质量、广覆盖率的平行语料库。即使对中文和英文,现有平行语料库的领域也主要集中在政府文献和时政新闻,对于绝大多数领域而言依然严重缺乏数据。因此,如何充分利用现有数据来缓解资源稀缺问题成为神经机器翻译的一个重要研究方向。
发明内容
为了克服上述现有技术的缺点,充分利用现有数据来缓解资源缺乏问题,本发明的目的在于提供一种基于单语语料库训练的蒙汉互译方法,将给定未标记(即单语语料库)数据,引入降噪自动编码器和跨域训练来学习蒙汉两种语言之间的翻译,运用对抗训练在两种语言之间学习一个相似的潜在空间,建立降噪自动编码器损失函数,建立翻译过程损失函数以及建立鉴别器损失函数,设置约束条件,使得上述三种不同的损失之和最小。从而完善蒙汉机器翻译***,达到较好译文翻译的目标。
为了实现上述目的,本发明采用的技术方案是:
一种基于单语语料库训练的蒙汉互译方法,基于两个分别针对蒙语和汉语的自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小。
所述自动编码器为基于LSTM的自动编码器。
所述蒙汉互译翻译模型的训练步骤如下:
(1)使用FastText学习得到蒙汉双语词典,使用词典翻译得到编码器-解码器结构的蒙汉互译初始翻译模型;
(2)训练两个自动编码器,使其能够在给定一个带噪声的句子时重构变为不含噪声的句子;
(3)训练鉴别器,学习得到一个对齐的潜在空间;
(4)训练蒙语自动编码器和汉语解码器,同时训练汉语自动编码器和蒙语解码器,更新初始翻译模型,使得译文质量一步步提升。
以一种无监督的方法学习句子特征,将自动编码器降噪的损失函数定义为:
其中,Lauto()为自动编码器的降噪损失函数,θenc是在源语言和目标语言之间共享的参数,θdec是不依赖于输出语言的矢量参数,Z是隐藏状态序列,l是源语言,x是输入句子,Dl为单语语料库,C()是噪声函数,C(x)是输入句子x中添加噪声之后得到的新的句子,e()是自动编码器,d()是解码器,是重构之后的句子,△是衡量和x之间差异的度量,为词级交叉熵损失之和,E为期望,表示输入的分布取决于源语言l,并且采用损失的平均值,符号~表示来自概率分布的意思。
所述添加噪声通过如下步骤实现:
首先,以概率p_wd随机地从输入句子中删除一个字;
其次,每个字都使用约束公式|σ(i)-i|≤k进行原始位置偏移,其中σ表示第i个字的移动位置,一个字最多能够向右或者向左移动k个字的位置。
在蒙汉两种语言之间训练相似词向量空间,之后设置规则对蒙汉两种语言进行重构,训练相似词向量空间的过程如下:
蒙语/汉语自动编码器将加入噪声的输入句子C(x)编码,得到源语言词向量序列Zsrc,汉语/蒙语解码器解码得到重构之后的句子
蒙语/汉语自动编码器将目标语言句子C(y)编码,得到目标语言词向量序列Ztgt,汉语/蒙语解码器解码得到源语言输入句子x;
使用初始翻译模型第t次迭代之后得到的翻译模型M(t)翻译句子,y=M(t)(x),经过训练得到一个Zsrc和Ztgt相似的向量空间。
定义将输入句子x映射到输出句子y的过程为跨域训练,跨域训练损失函数即翻译损失函数,其表达式为:
Lcd()为翻译损失函数,l1是源/目标语言域,l2是与l1对应的目标/源语言域,Dl1为l1的单语语料库。
在进行跨域训练的同时还进行对抗训练,学习得到一个对齐的潜在空间,其方法是:
利用一个鉴别器,接收蒙汉两种语言降噪自动编码器中编码器的输出,对降噪自动编码器中编码器的输出进行操作,鉴别器中的序列是(z1,z2,...zm)的一个潜在向量序列并产生关于自动编码器输入语句的语言的二进制预测:其中pD:Rn→[0;1],0对应于源域,1对应用于目标域,鉴别器被训练以通过最小化下列交叉熵损失函数来预测语言:其中(xi,li)对应于从蒙汉两个单语语料库中均匀采样的句子和语言id对,θD是鉴别器的参数,θenc是自动编码器,Z是自动编码器字嵌入,鉴别器损失函数定义为:
如果li=l2则lj=l1,相反如果li=l1则lj=l2
所述使得三种损失之和最小的最终目标函数是:
L(θencdec,Z)=λauto[Lautoencdec,Z,src)+Lautoencdec,Z,tgt)]+
λcd[Lcdencde,Z,src,tgt)+Lcdencdec,Z,tgt,src)]+
λadvLadvenc,Z|θD)
其中λauto,λcd,和λadv是超参数,用于加权自动编码器降噪损失、翻译损失和鉴别器损失,同时,鉴别器损失LD被最小化用以更新鉴别器。
与现有技术相比,本发明将最大限度利用现有蒙汉单语语料缓解因蒙汉平行语料缺乏而导致的蒙汉互译译文质量不高的问题,并且将辐射带动蒙古语语言学以及蒙古语语音学的相关研究,对计算机辅助翻译、机器翻译、翻译培训、翻译软件或翻译机器的研发生产、多语言语音技术相关产品的研发等各领域提供研究依据,将推动蒙古语信息化处理进程,促进蒙古族语言文化的繁荣、发展和科技进步,为其它少数民族语言开展相关研究提供参考,具有一定的理论意义。
附图说明
图1是本发明自动编码器工作原理示意图。
图2是本发明训练相似的词向量空间过程示意图。
图3是本发明整体翻译框架流程图。
具体实施方式
下面结合附图和实施例详细说明本发明的实施方式。
本发明一种基于单语语料库训练的蒙汉互译方法,训练蒙汉互译翻译模型并设置约束条件,包括建立降噪自动编码器损失函数,建立翻译过程损失函数以及建立鉴别器损失函数,并设置约束条件下,使得上述三种不同的损失之和最小。由于这是一个序列到序列的问题,所以本发明使用长短时记忆网络(LSTM),并且使用两个基于LSTM的自动编码器,蒙语和汉语各包含一个。本发明中训练蒙汉互译模型包含如下主要步骤:
(1)使用语言A(蒙语或汉语)的编码器和语言B(汉语或蒙语)的解码器获得初始翻译模型,具体地,可使用FastText学习得到蒙汉双语词典,使用词典翻译即可获取。
初始翻译模型由编码器-解码器结构构成,因为刚开始时学习得到了一个词级的蒙汉双语词典,所以使用词典就能形成一个包含编码器和解码器的蒙汉翻译的初始模型,这个初始模型只是能起到把一种语言转换成另一种语言的作用,并不能达到翻译的效果,接下来的任务就是要训练这个初始模型使其达到翻译质量越来越好的效果。
(2)训练每种语言的自动编码器,使其能够在给定一个带噪声的句子时重构语句变为不含噪声的句子。
自动编码器如图1所示,也是由一个编码器和一个解码器构成,它的作用是实现句子的重构,在重构过程中需要的是瓶颈层中提取的句子特征表示,但是由于自动编码器实现重构时提取句子特征并不明显,所以选择降噪自动编码器,先给句子添加噪声再去噪实现重构,这样在学习重构的过程中能更加有效的提取瓶颈层中句子的特征表示信息。把瓶颈层中存放句子的特征表示信息的空间称为潜在空间(类似于人的意识空间,就像人类虽然讲不同的语言,但是意识空间是一样的,所以我们能够通过翻译来理解对方的意思。),使用降噪自编码器训练会分别得到两种语言各自的潜在空间。
(3)训练鉴别器,学习得到一个对齐的潜在空间;
为了实现翻译,需要上述两个潜在空间尽可能的相似,所以使用训练鉴别器这个方法来达到学习一个对齐的潜在空间的目的。
(4)训练蒙语自动编码器和汉语解码器,同时训练汉语自动编码器和蒙语解码器,更新初始翻译模型,使得译文质量一步步提升。
把初始模型中的编码器和解码器换成训练好的自编码器中的任意一个A的编码器和B的解码器就能得到译文质量较好的翻译模型,从而实现蒙汉互译。
本发明中,自动编码器是一种用于无监督任务的广泛的神经网络类别。它的工作原理是重新创建一个和最初输入相同的输入。完成这一操作的关键是网络中间有一个名为瓶颈层(bottleneck layer)的网络层。该网络层被用以捕捉所有关于输入的有用信息,并摒弃无用信息。工作原理如图1所示。
如果一个自动编码器被调教成完全按照输入的方式重建输入,那么它可能什么都做不了。在这种情况下,输出将得到完美的重建,但是在瓶颈层中没有任何有用的特性。为了解决这一问题,本发明使用了降噪自动编码器。首先,实际输入因为增加了一些噪声而受到轻微干扰。然后,使用网络重建原始输入(并非含噪版本)。这样一来,通过学习什么是噪声(以及其真正有用的特征是什么),网络可以学习输入句子的有用特征。
建立降噪自动编码器损失函数,本发明以一种无监督的方法学习句子特征,将降噪自动编码器的损失函数定义为:
其中,Lauto()为降噪自编码器的损失函数,θenc是在源语言和目标语言之间共享的参数,θdec是不依赖于输出语言的矢量参数,Z是隐藏状态序列,l是源语言(在本方法中为蒙语或者汉语),x是输入句子,Dl为单语语料库,C(x)是输入句子x中添加噪声之后得到的新的句子e()是编码器,d()是解码器,是重构之后的句子,△是衡量和x之间差异的度量,在本方法中为词级交叉熵损失之和,E表示期望,在本方法中表示输入的分布取决于语言l,并且采用损失的平均值,符号~表示来自概率分布的意思。
由于本发明中只使用蒙汉两种语言的单语语料,所以采用去噪的方式对语言进行重构来训练两种语言各自的编码器和解码器,故需向语料库的句子中先添加噪声,添加噪声的方法通过如下两个步骤:
首先,以概率p_wd随机地从输入的句子中删除一个字。
其次,每个字都可以使用下面这个约束公式进行原始位置的偏移。
|σ(i)-i|≤k
其中σ表示第i个字的移动位置,一个字最多可以向右或者向左移动k个字的位置。
潜在空间可以捕捉句子的特征。因此,如果有可能获得一个空间,即当输入语言A时,就会产生与输入语言B相同的特征,那么就有可能在它们之间进行翻译。由于该模型已经拥有了正确的“特征”,因此由语言A的编码器进行编码,由语言B的解码器进行解码,这将使二者进行有效的翻译工作。在蒙汉两种语言之间训练相似词向量空间,之后设置规则对蒙汉两种语言进行重构。训练相似的词向量空间过程如图2所示:
在图2中,左边为自编码器,用来将一个加入噪声的句子重构。x是目标,C(x)带噪声的句子输入,是重构之后的句子。右边是翻译过程,将源语言翻译为目标语言,本方法为蒙汉互译的方法,所以源语言和目标语言可以是两种语言中的任意一种。首先使用初始模式第t次迭代之后得到的翻译模型M(t)翻译句子,y=M(t)(x)。经过训练就会得到一个源语言词向量序列Zsrc和目标语言词向量序列Ztgt相似的向量空间。
为了学习两种语言之间的翻译,本方法通过一些处理将输入句子即语言A,映射到输出句子即语言B,定义这个过程为跨域训练,跨域训练损失函数即翻译损失函数,其表达为:
我们的目标是使得模型能够将输入语句从源/目标域l1映射到目标/源域l2,原则是采样一个句子l2并在中生成这个句子待噪声版本,这种版本是通过将当前的转换模型应用于M来生成的,使得y=M(x)。然后对这个损坏的版本进行采样(见图1右图)。因此,目标是学习编码器和解码器,以便它们可以从C(y)重构x。
跨域训练可以帮助机器学习一个相似的空间,而我们还需要使用对抗训练来促使模式学习一个共享的潜在空间,本发明中使用另外一个模型称之为鉴别器,该模型接收蒙汉两种语言的编码器的输出,并预测编码后的句子属于哪一种语言,从而实现蒙汉互译。鉴别器对编码器的输出进行操作,该序列是(z1,z2,...zm)的一个潜在向量序列并产生关于编码器输入语句的语言的二进制预测:其中pD:Rn→[0;1],0对应于源域,1对应用于目标域。鉴别器被训练以通过最小化下列交叉熵损失函数来预测语言:其中(xi,li)对应于从蒙汉两个单语语料库中均匀采样的句子和语言id对,θD是鉴别器的参数,θenc是编码器,Z是编码器字嵌入。鉴别器损失函数定义为:
如果li=l2则lj=l1,如果li=l1则lj=l2
综上所述,本发明的最后目标是降噪自动编码器损失、翻译过程损失和鉴别器损失三种不同的损失之和最小。因此,定义我们最终的目标函数为:
L(θencdec,Z)=λauto[Lautoencdec,Z,src)+Lautoencdec,Z,tgt)]+
λcd[Lcdencde,Z,src,tgt)+Lcdencdec,Z,tgt,src)]+
λadvLadvenc,Z|θD)
其中λauto,λcd,和λadv是超参数,用于加权自动编码损失,跨域损失和对抗损失。同时,鉴别器损失LD被最小化用以更新鉴别器。
本发明整体翻译框架流程图如图3所示。

Claims (9)

1.一种基于单语语料库训练的蒙汉互译方法,其特征在于,基于两个分别针对蒙语和汉语的自动编码器,使用单语源语言语料库和单语目标语言语料库训练蒙汉互译翻译模型,且在训练过程中,设置自动编码器降噪损失函数、翻译过程损失函数以及鉴别器损失函数三个约束条件,使得三种损失之和最小。
2.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述自动编码器为基于LSTM的自动编码器。
3.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述蒙汉互译翻译模型的训练步骤如下:
(1)使用FastText学习得到蒙汉双语词典,使用词典翻译得到编码器-解码器结构的蒙汉互译初始翻译模型;
(2)训练两个自动编码器,使其能够在给定一个带噪声的句子时重构变为不含噪声的句子;
(3)训练鉴别器,学习得到一个对齐的潜在空间;
(4)训练蒙语自动编码器和汉语解码器,同时训练汉语自动编码器和蒙语解码器,更新初始翻译模型,使得译文质量一步步提升。
4.根据权利要求1所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述自动编码器为降噪自动编码器,以一种无监督的方法学习句子特征,将降噪自动编码器降噪的损失函数定义为:
其中,Lauto()为自动编码器的降噪损失函数,θenc是在源语言和目标语言之间共享的参数,θdec是不依赖于输出语言的矢量参数,Z是隐藏状态序列,l是源语言,x是输入句子,Dl为单语语料库,C()是噪声函数,C(x)是输入句子x中添加噪声之后得到的新的句子,e()是自动编码器,d()是解码器,是重构之后的句子,△是衡量和x之间差异的度量,为词级交叉熵损失之和,E为期望,表示输入的分布取决于源语言l,并且采用损失的平均值,符号~表示来自概率分布的意思。
5.根据权利要求4所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述添加噪声通过如下步骤实现:
首先,以概率p_wd随机地从输入句子中删除一个字;
其次,每个字都使用约束公式|σ(i)-i|≤k进行原始位置偏移,其中σ表示第i个字的移动位置,一个字最多能够向右或者向左移动k个字的位置。
6.根据权利要求4所述基于单语语料库训练的蒙汉互译方法,其特征在于,在蒙汉两种语言之间训练相似词向量空间,之后设置规则对蒙汉两种语言进行重构,训练相似词向量空间的过程如下:
蒙语/汉语自动编码器将加入噪声的输入句子C(x)编码,得到源语言词向量序列Zsrc,汉语/蒙语解码器解码得到重构之后的句子
蒙语/汉语自动编码器将目标语言句子C(y)编码,得到目标语言词向量序列Ztgt,汉语/蒙语解码器解码得到源语言输入句子x;
使用初始翻译模型第t次迭代之后得到的翻译模型M(t)翻译句子,y=M(t)(x),经过训练得到一个Zsrc和Ztgt相似的向量空间。
7.根据权利要求4所述基于单语语料库训练的蒙汉互译方法,其特征在于,定义将输入句子x映射到输出句子y的过程为跨域训练,跨域训练损失函数即翻译损失函数,其表达式为:
Lcd()为翻译损失函数,l1是源/目标语言域,l2是与l1对应的目标/源语言域,Dl1为l1的单语语料库。
8.根据权利要求7所述基于单语语料库训练的蒙汉互译方法,其特征在于,在进行跨域训练的同时还进行对抗训练,学习得到一个对齐的潜在空间,其方法是:
利用一个鉴别器,接收蒙汉两种语言降噪自动编码器中编码器的输出,对降噪自动编码器中编码器的输出进行操作,鉴别器中的序列是(z1,z2,...zm)的一个潜在向量序列并产生关于自动编码器输入语句的语言的二进制预测:其中pD:Rn→[0;1],0对应于源域,1对应用于目标域,鉴别器被训练以通过最小化下列交叉熵损失函数来预测语言:其中(xi,li)对应于从蒙汉两个单语语料库中均匀采样的句子和语言id对,θD是鉴别器的参数,θenc是自动编码器,Z是自动编码器字嵌入,鉴别器损失函数定义为:
如果li=l2则lj=l1,相反如果li=l1则lj=l2
9.根据权利要求8所述基于单语语料库训练的蒙汉互译方法,其特征在于,所述使得三种损失之和最小的最终目标函数是:
L(θencdec,Z)=λauto[Lautoencdec,Z,src)+Lautoencdec,Z,tgt)]+
λcd[Lcdencde,Z,src,tgt)+Lcdencdec,Z,tgt,src)]+
λadvLadvenc,Z|θD)
其中λauto,λcd,和λadv是超参数,用于加权自动编码器降噪损失、翻译损失和鉴别器损失,同时,鉴别器损失LD被最小化用以更新鉴别器。
CN201810428620.3A 2018-05-07 2018-05-07 一种基于单语语料库训练的蒙汉互译方法 Pending CN108829685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810428620.3A CN108829685A (zh) 2018-05-07 2018-05-07 一种基于单语语料库训练的蒙汉互译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810428620.3A CN108829685A (zh) 2018-05-07 2018-05-07 一种基于单语语料库训练的蒙汉互译方法

Publications (1)

Publication Number Publication Date
CN108829685A true CN108829685A (zh) 2018-11-16

Family

ID=64148484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810428620.3A Pending CN108829685A (zh) 2018-05-07 2018-05-07 一种基于单语语料库训练的蒙汉互译方法

Country Status (1)

Country Link
CN (1) CN108829685A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109558605A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110197279A (zh) * 2019-06-10 2019-09-03 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN110457713A (zh) * 2019-06-19 2019-11-15 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
WO2021037559A1 (en) * 2019-08-23 2021-03-04 Sony Corporation Electronic device, method and computer program
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别***、方法、音箱、显示设备和交互平台
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN114201975A (zh) * 2021-10-26 2022-03-18 科大讯飞股份有限公司 翻译模型训练方法和翻译方法及其装置
CN114298061A (zh) * 2022-03-07 2022-04-08 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质
CN114841176A (zh) * 2022-05-16 2022-08-02 天津大学 一种神经机器翻译鲁棒性增强方法、设备及存储介质
WO2023011260A1 (zh) * 2021-08-03 2023-02-09 北京有竹居网络技术有限公司 翻译处理方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和***

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
CN107368475A (zh) * 2017-07-18 2017-11-21 中译语通科技(北京)有限公司 一种基于生成对抗神经网络的机器翻译方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GUILLAUME LAMPLE 等: "Unsupervised Machine Translation Using Monolingual Corpora Only", 《HTTPS://OPENREVIEW.NET/FORUM?ID=RKYTTF-AZ》 *

Cited By (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108920468A (zh) * 2018-05-07 2018-11-30 内蒙古工业大学 一种基于强化学习的蒙汉双语种互译方法
CN109558605A (zh) * 2018-12-17 2019-04-02 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109558605B (zh) * 2018-12-17 2022-06-10 北京百度网讯科技有限公司 用于翻译语句的方法和装置
CN109684648B (zh) * 2019-01-14 2020-09-01 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN109684648A (zh) * 2019-01-14 2019-04-26 浙江大学 一种多特征融合的古今汉语自动翻译方法
CN110009013A (zh) * 2019-03-21 2019-07-12 腾讯科技(深圳)有限公司 编码器训练及表征信息提取方法和装置
CN110197279A (zh) * 2019-06-10 2019-09-03 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
CN110197279B (zh) * 2019-06-10 2021-01-29 北京百度网讯科技有限公司 变换模型训练方法、装置、设备和存储介质
CN110457713A (zh) * 2019-06-19 2019-11-15 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110457713B (zh) * 2019-06-19 2023-07-28 腾讯科技(深圳)有限公司 基于机器翻译模型的翻译方法、装置、设备和存储介质
CN110334361A (zh) * 2019-07-12 2019-10-15 电子科技大学 一种面向小语种语言的神经机器翻译方法
CN110334361B (zh) * 2019-07-12 2022-11-22 电子科技大学 一种面向小语种语言的神经机器翻译方法
CN110427629A (zh) * 2019-08-13 2019-11-08 苏州思必驰信息科技有限公司 半监督文本简化模型训练方法和***
CN110427629B (zh) * 2019-08-13 2024-02-06 思必驰科技股份有限公司 半监督文本简化模型训练方法和***
WO2021037559A1 (en) * 2019-08-23 2021-03-04 Sony Corporation Electronic device, method and computer program
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别***、方法、音箱、显示设备和交互平台
CN111178094A (zh) * 2019-12-20 2020-05-19 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN111178094B (zh) * 2019-12-20 2023-04-07 沈阳雅译网络技术有限公司 一种基于预训练的稀缺资源神经机器翻译训练方法
CN112215017A (zh) * 2020-10-22 2021-01-12 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN112215017B (zh) * 2020-10-22 2022-04-29 内蒙古工业大学 一种基于伪平行语料库构造的蒙汉机器翻译方法
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
WO2023011260A1 (zh) * 2021-08-03 2023-02-09 北京有竹居网络技术有限公司 翻译处理方法、装置、设备及介质
CN113590761B (zh) * 2021-08-13 2022-03-25 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN113590761A (zh) * 2021-08-13 2021-11-02 网易有道信息技术(北京)有限公司 文本处理模型的训练方法、文本处理方法及相关设备
CN114201975A (zh) * 2021-10-26 2022-03-18 科大讯飞股份有限公司 翻译模型训练方法和翻译方法及其装置
CN114201975B (zh) * 2021-10-26 2024-04-12 中国科学技术大学 翻译模型训练方法和翻译方法及其装置
CN114548125A (zh) * 2022-02-25 2022-05-27 中国工商银行股份有限公司 神经机器翻译模型的确定方法、装置以及存储介质
CN114298061A (zh) * 2022-03-07 2022-04-08 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质
CN114298061B (zh) * 2022-03-07 2022-12-06 阿里巴巴(中国)有限公司 机器翻译及模型训练质量评估方法、电子设备及存储介质
CN114841176A (zh) * 2022-05-16 2022-08-02 天津大学 一种神经机器翻译鲁棒性增强方法、设备及存储介质
CN114841176B (zh) * 2022-05-16 2023-09-01 天津大学 一种神经机器翻译鲁棒性增强方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN108829685A (zh) 一种基于单语语料库训练的蒙汉互译方法
CN107967262B (zh) 一种神经网络蒙汉机器翻译方法
CN110334361B (zh) 一种面向小语种语言的神经机器翻译方法
CN111382582A (zh) 一种基于非自回归的神经机器翻译解码加速方法
CN104391842A (zh) 一种翻译模型构建方法和***
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及***
CN112257465B (zh) 一种基于图像描述生成的多模态机器翻译数据增强方法
CN110472255A (zh) 神经网络机器翻译方法、模型、电子终端以及存储介质
CN116737759B (zh) 一种基于关系感知注意力的中文查询生成sql语句方法
CN112257460B (zh) 基于枢轴的汉越联合训练神经机器翻译方法
CN113821635A (zh) 一种用于金融领域的文本摘要的生成方法及***
Li et al. Multimodality information fusion for automated machine translation
CN112287694A (zh) 基于共享编码器的汉越无监督神经机器翻译方法
Basystiuk et al. The Developing of the System for Automatic Audio to Text Conversion.
CN113204978B (zh) 一种机器翻译增强训练方法及***
Sun [Retracted] Analysis of Chinese Machine Translation Training Based on Deep Learning Technology
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法
Liu et al. A survey of low resource neural machine translation
CN109033042A (zh) 基于中文子字单元的bpe编码方法及***、机器翻译***
Li A Study on Chinese‐English Machine Translation Based on Transfer Learning and Neural Networks
Wan et al. [Retracted] Semantic Role Labeling Integrated with Multilevel Linguistic Cues and Bi‐LSTM‐CRF
CN113076744A (zh) 一种基于卷积神经网络的文物知识关系抽取方法
CN116432637A (zh) 一种基于强化学习的多粒度抽取-生成混合式文摘方法
Shao [Retracted] Human‐Computer Interaction Environment Monitoring and Collaborative Translation Mode Exploration Using Artificial Intelligence Technology
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181116