CN108363704A - 一种基于统计短语表的神经网络机器翻译语料扩展方法 - Google Patents

一种基于统计短语表的神经网络机器翻译语料扩展方法 Download PDF

Info

Publication number
CN108363704A
CN108363704A CN201810175915.4A CN201810175915A CN108363704A CN 108363704 A CN108363704 A CN 108363704A CN 201810175915 A CN201810175915 A CN 201810175915A CN 108363704 A CN108363704 A CN 108363704A
Authority
CN
China
Prior art keywords
phrase
language
translation
training set
define
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810175915.4A
Other languages
English (en)
Inventor
黄河燕
史学文
鉴萍
唐翼琨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201810175915.4A priority Critical patent/CN108363704A/zh
Publication of CN108363704A publication Critical patent/CN108363704A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)

Abstract

一种基于统计短语表的神经网络机器翻译语料扩展方法,属于机器翻译技术领域。本发明针对神经网络机器翻译技术提出了一种基于统计短语表的机器翻译语料扩展方法,可以在机器翻译原始训练集的基础上有效扩展语料规模;本方法主要包含:训练集扩展阶段和模型训练阶段;阶段一通过统计机器学习方法从原始训练集中学习短语表并将其按照一定的过滤规则与原始训练集融合成新的扩展后的训练集,阶段二对神经机器翻译模型进行训练,先通过扩展后的训练集进行预训练,再由原始训练集进行训练以调优,得到最终模型;实验结果表明,本发明与不使用语料扩展方法的机器翻译模型相比,BLEU测评指标明显提升。

Description

一种基于统计短语表的神经网络机器翻译语料扩展方法
技术领域
本发明涉及一种基于统计短语表的神经网络机器翻译语料扩展方法,属于计算机应用以及机器翻译技术领域。
背景技术
机器翻译是利用计算机自动地将一种语言(源语言)翻译成另外一种语言(目标语言)的技术。
随着人工神经网络和深度学习技术的发展,基于深度学习技术的神经网络机器翻译技术(以下简称神经机器翻译)在近几年取得了重要的成就。神经机器翻译具有:需要的语言学知识和人工的干预少,模型存储所占空间小,翻译输出的译文流畅自然等优势。在面向双语资源丰富的的翻译任务上,神经机器翻译通常被认为是最好的选择。目前,神经机器翻译已经受到机器翻译领域的广泛关注和认可,并已投入商用。
训练神经网络的数据以双语平行句对为主。通常,神经机器翻译所用的神经网络模型具有大规模的自由参数,理论上,这类模型需要大规模的双语平行语料对其进行训练。经验表明,包含千万级别自由参数的神经机器翻译模型通常需要至少百万句对级别的数据进行训练方可获得理想效果。对于一些双语平行资源较为稀缺的语言,应用神经网络进行翻译难以获得满意效果。
此外,神经机器翻译的训练通常以一个或一组(多个)完整的句对为单位进行,当语料资源稀缺时,对句对中包含的一些出现频率较低的短语学习的能力受限,尤其在单独翻译这些短语时。
发明内容
本发明针对资源稀缺语言的神经机器翻译的模型训练问题,提出了一种基于统计短语表的神经网络机器翻译语料扩展方法,能有效扩展神经机器翻译模型的训练数据,缓解语言资源稀缺对模型训练的不利影响。
本发明包含:训练集扩展阶段和模型训练阶段;
其中,A)训练集扩展阶段的操作如下:通过统计机器学***行短语对数据集,将新抽取出的数据集与原始训练集拼接得到新的双语平行伪数据,实现训练集的扩展;
B)模型训练阶段的操作分为两个步骤,步骤一是预训练,即将阶段A)得到的双语平行伪数据对模型进行预训练,训练后得到预训练好的模型b1;步骤二利用原始训练集重新对模型b2进行训练,目的为对模型进行调优,缓解伪数据中引入的噪声对模型的影响;
为实现上述目的和技术,本发明采用的技术方案如下:
首先进行相关定义,具体如下:
定义1:源语言,即机器翻译中,进行翻译时将要被翻译的内容所属的语言,例如从中文翻译到英文的机器翻译中,中文为源语言;
定义2:源语言数据,即属于源语言的数据,若源语言数据是一个自然语言句子,则该属于源语言的数据称为源语言句子,例如从中文翻译到英文的机器翻译中,输入的中文句子就是源语言数据,亦可称为源语言句子;
由源语言数据组成的集合称为源语言数据集;
定义3:目标语言,即机器翻译中,进行翻译时被翻译成的内容所属的语言,例如从中文翻译到英文的机器翻译中,英文为目标语言;
定义4:目标语言数据,即属于目标语言的数据,若目标语言数据是一个自然语言句子,则该属于目标语言的数据称为目标语言句子,例如从中文翻译到英文的机器翻译中,输出的英文句子就是目标语言数据,亦可称为目标语言句子;
由目标语言数据组成的集合称为目标语言数据集;
定义5:训练集,特指统计机器翻译模型的训练集,即用于训练统计机器翻译模型的数据集合,记为T;
定义6:原始训练集,即经过扩展前的训练集;
定义7:词对齐信息,简称词对齐,即训练集T中,源语言单词和目标语言单词之间的对齐关系,记为α;
其中,若训练集T中,源语言第j个单词与目标语言第i个单词存在对齐关系记为(j,i);
定义8,短语,一个或多个单词组成的语言单位;
使用的语言为源语言的短语称为源语言短语,记为f,使用的语言为目标语言的短语称为目标语言短语,记为e;
定义9,翻译短语对,源语言短语和对齐的目标语言短语组成的短语对,例如“(‘长城’,‘The Great Wall’)”;
定义10,正向短语翻译概率,即给定源语言短语f时,翻译到目标语言短语e的条件概率,记为
定义11,反向短语翻译概率,即给定目标语言短语e时,翻译回源语言短语f的条件概率。记为
定义12,双向短语翻译概率,正向短语翻译概率和反向短语翻译概率合称为双向短语翻译概率;
定义13,正向词汇化短语翻译概率,给定源语言短语f时,翻译到目标语言短语e的词汇化翻译概率,记为lex(e|f);
定义14,反向词汇化短语翻译概率,给定目标语言短语e时,翻译回源语言短语f的词汇化翻译概率,记为lex(f|e);
定义15,双向词汇化短语翻译概率,正向词汇化翻译概率和反向词汇化翻译概率合称为双向词汇化翻译概率;
定义16,短语表,也称为短语翻译表,由多组翻译短语对构成的,并对每组翻译短语对附加上双向短语翻译概率和双向词汇化翻译概率;
定义17,过滤规则,即过滤短语表的规则,根据短语表内所包含的源语言短语、目标语言短语、双向短语翻译概率、双向词汇化短语翻译概率信息对短语表进行过滤的人工制定的规则;
训练集扩展阶段,包括如下步骤:
步骤A1,根据定义1、定义2、定义3、定义4和定义5,对原始训练集进行预处理,得到经过预处理后的原始训练集Tf
其中,对原始训练集进行预处理的具体过程因不同源语言和目标语言而异,目的为对训练集进行规范化处理,得到经过预处理后的原始训练集Tf
步骤A2,基于步骤A1得到的经预处理后的原始训练集Tf,并根据定义7和定义8学习词对齐信息,该过程通常利用开源词对齐工具包实现,将步骤A1中得到的经过预处理后的原始训练集作为输入,经过训练词对齐工具的训练,得到训练集的词对齐信息α;
步骤A3,根据定义6,定义7、定义8、定义9、定义10、定义11、定义12、定义13、定义14、定义15和定义16,结合步骤A1得到的经过预处理后的原始训练集Tf以及步骤A2得到的训练集的词对齐信息α,抽取翻译短语对,并对翻译短语对进行概率估计,得到每个翻译短语对的双向短语翻译概率和双向词汇化翻译概率,结合翻译短语对和翻译概率,得到短语表,短语表的每条记录由翻译短语对、词对齐信息、双向短语翻译概率和双向词汇化翻译概率组成;
步骤A4,根据定义9、定义12、定义15、定义16和定义17,利用人工定义的过滤规则,对步骤A3得到的短语表进行过滤,过滤掉概率较低的翻译短语对,得到过滤后的短语表,记为Pnew
步骤A5,根据定义5、定义16,将步骤A4得到的过滤后的短语表Pnew中的翻译短语对部分与步骤A1得到的预处理后的原始训练集Tf拼接,得到新训练集Tnew
步骤A1至步骤A5,完成了本方法的训练集扩展阶段;
模型训练阶段,包括如下步骤:
步骤B1,利用步骤A5得到的新训练集Tnew对模型进行预训练,得到模型b1
步骤B2,利用步骤A1得到的预处理后的原始训练集Tf,对步骤B1得到的模型b1再次进行训练,得到新训练好的模型b2
至此,从步骤B1到步骤B2,完成了本方法的模型训练阶段;
至此,从步骤A1到步骤A5以及步骤B1到步骤B2,完成了一种基于统计短语表的神经网络机器翻译语料扩展方法。
有益效果
本发明一种基于统计短语表的神经网络机器翻译语料扩展方法,与现有的机器翻译训练集使用方法相比,具有如下有益效果:
1.本发明设计了基于统计短语表的神经网络机器翻译语料扩展方法,该方法在不需要额外的双语或单语数据的情况下,可以对原始训练集进行有效的扩展,缓解资源稀缺语言训练集规模小对神经机器翻译模型的训练带来的不利影响。
2.在训练集、开发集和测试集数据相同的情况下,本发明与不使用本发明的神经机器翻译模型训练方法相比,BLEU评测指标有明显提升。
附图说明
图1是本发明一种基于统计短语表的神经网络机器翻译语料扩展方法及实施例中的流程图。
具体实施方式
下面结合附图及实施例对本发明所述方法进行详细叙述。说明时按照本发明包含的两个主要阶段:1)训练集扩展阶段以及2)模型训练阶段,分别进行说明。
实施例1
本实施例叙述了本发明所述方法的流程及其具体实施例。
图1为本发明一种基于统计短语表的神经网络机器翻译语料扩展方法及在本实施例中的流程图。
从图1中可以看出本发明包含的两个阶段1)训练集扩展阶段以及2)模型训练阶段的操作流程。
以维吾尔语到汉语的翻译为例,其中维吾尔语为源语言,汉语为目标语言。
1)训练集扩展阶段:
步骤一,根据定义1、定义2、定义3、定义4、定义5,对原始训练集进行预处理,预处理具体过程因不同源语言和目标语言而异,目的为对训练集进行规范化处理,其中,对源语言维吾尔语以及目标语言汉语的数据的预处理过程均为:先进行词片段(word-piece)切分,再进行词切分(tokenization),得到经过预处理后的原始训练集Tf
步骤二,根据定义6和定义7,学习词对齐,在本实施例中,该过程利用开源词对齐工具包GIZA++实现,将步骤一中得到的经过预处理后的原始训练集作为输入,经过训练词对齐工具GIZA++的训练,得到训练集的词对齐信息α;
步骤三,根据定义6,定义7,定义8、定义9、定义10、定义11、定义12、定义13、定义14、定义15和定义16,结合步骤一得到的经过预处理后的原始训练集Tf以及步骤二得到的训练集的词对齐信息α,抽取翻译短语对,并对翻译短语对进行概率估计,本实施例中,利用Moses开源工具中的train-model.perl脚本实现上述功能,得到短语表P,短语表的每条记录由翻译短语对、词对齐信息、双向短语翻译概率和双向词汇化翻译概率组成;
步骤四,根据定义9、定义12、定义15、定义16、定义17,利用人工定义的过滤规则,对步骤三得到的短语表进行过滤,人工定义的规则如下:
保留该翻译短语对,当且仅当该翻译短语对的概率且lex(e|f)≥0.025,且lex(f|e)≥0.025;
过滤掉概率较低的翻译短语对,得到过滤后的新短语表Pnew
步骤五,根据定义5、定义16,将步骤四得到的过滤后的新短语表Pnew的翻译短语对部分与步骤一得到的预处理后的原始训练集Tf拼接,得到新训练集Tnew
2)模型训练阶段的步骤如下:
步骤六,进行模型预训练,本实施例中采用开源神经机器翻译模型tesnor2tensor,利用步骤五得到的新训练集Tnew对模型进行预训练,得到模型b1
步骤七,利用步骤一得到的预处理后的原始训练集Tf,对步骤六得到的模型b1再次进行训练,得到新训练好的模型b2
至此,从步骤一到步骤七,完成了一种基于统计短语表的神经网络机器翻译语料扩展方法。
实施例2
将CWMT2017提供的维吾尔语-汉语新闻翻译任务中的训练集随机地拆分为训练集、开发集以及测试集1,另外,将CWMT2017提供的维吾尔语-汉语新闻翻译评测任务的开发集数据作为测试集2,实验结果表明,在原始训练集、开发集、测试集数据和神经机器翻译模型相同的情况下,本发明与不使用本发明的神经机器翻译模型训练方法相比,采用基于汉字的BLEU作为评测指标,可以得到如下实验结果。
表1使用本发明提出的训练集扩展方法前后BLEU值对比
表1的实验结果表明:在训练集、开发集和测试集数据相同的情况下,采用本发明所述方法与不使用本发明的神经机器翻译模型训练方法相比,BLEU评测指标有明显提升。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。

Claims (4)

1.一种基于统计短语表的神经网络机器翻译语料扩展方法,其特征在于:包含:训练集扩展阶段和模型训练阶段;
其中,A)训练集扩展阶段的操作如下:通过统计机器学***行短语对数据集,将新抽取出的数据集与原始训练集拼接得到新的双语平行伪数据,实现训练集的扩展;
B)模型训练阶段的操作分为两个步骤,步骤一是预训练,即将阶段A)得到的双语平行伪数据对模型进行预训练,训练后得到预训练好的模型b1;步骤二利用原始训练集重新对模型b2进行训练,目的为对模型进行调优,缓解伪数据中引入的噪声对模型的影响。
2.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法,其特征在于:为实现上述目的和技术,采用如下技术方案:
首先进行相关定义,具体如下:
定义1:源语言,即机器翻译中,进行翻译时将要被翻译的内容所属的语言,例如从中文翻译到英文的机器翻译中,中文为源语言;
定义2:源语言数据,即属于源语言的数据,若源语言数据是一个自然语言句子,则该属于源语言的数据称为源语言句子,例如从中文翻译到英文的机器翻译中,输入的中文句子就是源语言数据,亦可称为源语言句子;
由源语言数据组成的集合称为源语言数据集;
定义3:目标语言,即机器翻译中,进行翻译时被翻译成的内容所属的语言,例如从中文翻译到英文的机器翻译中,英文为目标语言;
定义4:目标语言数据,即属于目标语言的数据,若目标语言数据是一个自然语言句子,则该属于目标语言的数据称为目标语言句子,例如从中文翻译到英文的机器翻译中,输出的英文句子就是目标语言数据,亦可称为目标语言句子;
由目标语言数据组成的集合称为目标语言数据集;
定义5:训练集,特指统计机器翻译模型的训练集,即用于训练统计机器翻译模型的数据集合,记为T;
定义6:原始训练集,即经过扩展前的训练集;
定义7:词对齐信息,简称词对齐,即训练集T中,源语言单词和目标语言单词之间的对齐关系,记为α;
其中,若训练集T中,源语言第j个单词与目标语言第i个单词存在对齐关系记为(j,i);
定义8,短语,一个或多个单词组成的语言单位;
使用的语言为源语言的短语称为源语言短语,记为f,使用的语言为目标语言的短语称为目标语言短语,记为e;
定义9,翻译短语对,源语言短语和对齐的目标语言短语组成的短语对,例如“(‘长城’,‘The Great Wall’)”;
定义10,正向短语翻译概率,即给定源语言短语f时,翻译到目标语言短语e的条件概率,记为
定义11,反向短语翻译概率,即给定目标语言短语e时,翻译回源语言短语f的条件概率,记为
定义12,双向短语翻译概率,正向短语翻译概率和反向短语翻译概率合称为双向短语翻译概率;
定义13,正向词汇化短语翻译概率,给定源语言短语f时,翻译到目标语言短语e的词汇化翻译概率,记为lex(e|f);
定义14,反向词汇化短语翻译概率,给定目标语言短语e时,翻译回源语言短语f的词汇化翻译概率,记为lex(f|e);
定义15,双向词汇化短语翻译概率,正向词汇化翻译概率和反向词汇化翻译概率合称为双向词汇化翻译概率;
定义16,短语表,也称为短语翻译表,由多组翻译短语对构成的,并对每组翻译短语对附加上双向短语翻译概率和双向词汇化翻译概率;
定义17,过滤规则,即过滤短语表的规则,根据短语表内所包含的源语言短语、目标语言短语、双向短语翻译概率、双向词汇化短语翻译概率信息对短语表进行过滤的人工制定的规则;
训练集扩展阶段,包括如下步骤:
步骤A1,根据定义1、定义2、定义3、定义4和定义5,对原始训练集进行预处理,得到经过预处理后的原始训练集Tf
步骤A2,基于步骤A1得到的经预处理后的原始训练集Tf,并根据定义7和定义8学习词对齐信息,该过程通常利用开源词对齐工具包实现,将步骤A1中得到的经过预处理后的原始训练集作为输入,经过训练词对齐工具的训练,得到训练集的词对齐信息α;
步骤A3,根据定义6,定义7、定义8、定义9、定义10、定义11、定义12、定义13、定义14、定义15和定义16,结合步骤A1得到的经过预处理后的原始训练集Tf以及步骤A2得到的训练集的词对齐信息α,抽取翻译短语对,并对翻译短语对进行概率估计,得到每个翻译短语对的双向短语翻译概率和双向词汇化翻译概率,结合翻译短语对和翻译概率,得到短语表,短语表的每条记录由翻译短语对、词对齐信息、双向短语翻译概率和双向词汇化翻译概率组成;
步骤A4,根据定义9、定义12、定义15、定义16和定义17,利用人工定义的过滤规则,对步骤A3得到的短语表进行过滤,过滤掉概率较低的翻译短语对,得到过滤后的短语表,记为Pnew
步骤A5,根据定义5、定义16,将步骤A4得到的过滤后的短语表Pnew中的翻译短语对部分与步骤A1得到的预处理后的原始训练集Tf拼接,得到新训练集Tnew
3.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法,其特征在于:模型训练阶段,包括如下步骤:
步骤B1,利用步骤A5得到的新训练集Tnew对模型进行预训练,得到模型b1
步骤B2,利用步骤A1得到的预处理后的原始训练集Tf,对步骤B1得到的模型b1再次进行训练,得到新训练好的模型b2
4.根据权利要求1所述的一种基于统计短语表的神经网络机器翻译语料扩展方法,其特征在于:步骤A1中,其中,对原始训练集进行预处理的具体过程因不同源语言和目标语言而异,目的为对训练集进行规范化处理,得到经过预处理后的原始训练集Tf
CN201810175915.4A 2018-03-02 2018-03-02 一种基于统计短语表的神经网络机器翻译语料扩展方法 Pending CN108363704A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810175915.4A CN108363704A (zh) 2018-03-02 2018-03-02 一种基于统计短语表的神经网络机器翻译语料扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810175915.4A CN108363704A (zh) 2018-03-02 2018-03-02 一种基于统计短语表的神经网络机器翻译语料扩展方法

Publications (1)

Publication Number Publication Date
CN108363704A true CN108363704A (zh) 2018-08-03

Family

ID=63003675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810175915.4A Pending CN108363704A (zh) 2018-03-02 2018-03-02 一种基于统计短语表的神经网络机器翻译语料扩展方法

Country Status (1)

Country Link
CN (1) CN108363704A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190768A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种数据增强语料在神经网络中训练方法
CN110046332A (zh) * 2019-04-04 2019-07-23 珠海远光移动互联科技有限公司 一种相似文本数据集生成方法及装置
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN111160046A (zh) * 2018-11-07 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘***
CN112507734A (zh) * 2020-11-19 2021-03-16 南京大学 一种基于罗马化维吾尔语的神经机器翻译***
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN113111667A (zh) * 2021-04-13 2021-07-13 沈阳雅译网络技术有限公司 一种基于多语言模型的低资源语言生成伪数据的方法
CN117540755A (zh) * 2023-11-13 2024-02-09 北京云上曲率科技有限公司 一种神经机器翻译模型进行数据增强的方法和***
CN118095302A (zh) * 2024-04-26 2024-05-28 四川交通运输职业学校 一种基于计算机的辅助翻译方法及***

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译***和方法
US20130144593A1 (en) * 2007-03-26 2013-06-06 Franz Josef Och Minimum error rate training with a large number of features for machine learning
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和***
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN105190609A (zh) * 2013-06-03 2015-12-23 国立研究开发法人情报通信研究机构 翻译装置、学习装置、翻译方法以及存储介质
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN107092594A (zh) * 2017-04-19 2017-08-25 厦门大学 基于图的双语递归自编码器
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144593A1 (en) * 2007-03-26 2013-06-06 Franz Josef Och Minimum error rate training with a large number of features for machine learning
CN102214166A (zh) * 2010-04-06 2011-10-12 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译***和方法
CN105190609A (zh) * 2013-06-03 2015-12-23 国立研究开发法人情报通信研究机构 翻译装置、学习装置、翻译方法以及存储介质
CN104391842A (zh) * 2014-12-18 2015-03-04 苏州大学 一种翻译模型构建方法和***
CN105068997A (zh) * 2015-07-15 2015-11-18 清华大学 平行语料的构建方法及装置
CN106484682A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106156013A (zh) * 2016-06-30 2016-11-23 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
CN107092594A (zh) * 2017-04-19 2017-08-25 厦门大学 基于图的双语递归自编码器
CN107329960A (zh) * 2017-06-29 2017-11-07 哈尔滨工业大学 一种上下文敏感的神经网络机器翻译中未登录词翻译装置和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张金鹏 等: "基于跨语言语料的汉泰词分布表示", 《计算机工程与科学》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190768A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种数据增强语料在神经网络中训练方法
CN111160046A (zh) * 2018-11-07 2020-05-15 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
US10963757B2 (en) 2018-12-14 2021-03-30 Industrial Technology Research Institute Neural network model fusion method and electronic device using the same
CN110046332A (zh) * 2019-04-04 2019-07-23 珠海远光移动互联科技有限公司 一种相似文本数据集生成方法及装置
CN110046332B (zh) * 2019-04-04 2024-01-23 远光软件股份有限公司 一种相似文本数据集生成方法及装置
CN110472252A (zh) * 2019-08-15 2019-11-19 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110472252B (zh) * 2019-08-15 2022-12-13 昆明理工大学 基于迁移学习的汉越神经机器翻译的方法
CN110543645A (zh) * 2019-09-04 2019-12-06 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备
CN110543645B (zh) * 2019-09-04 2023-04-07 网易有道信息技术(北京)有限公司 机器学习模型训练方法、介质、装置和计算设备
CN110717341A (zh) * 2019-09-11 2020-01-21 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110717341B (zh) * 2019-09-11 2022-06-14 昆明理工大学 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110852117B (zh) * 2019-11-08 2023-02-24 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN110852117A (zh) * 2019-11-08 2020-02-28 沈阳雅译网络技术有限公司 一种提升神经机器翻译效果的有效数据增强方法
CN111368035A (zh) * 2020-03-03 2020-07-03 新疆大学 一种基于神经网络的汉维-维汉机构名词典的挖掘***
CN112507734A (zh) * 2020-11-19 2021-03-16 南京大学 一种基于罗马化维吾尔语的神经机器翻译***
CN112507734B (zh) * 2020-11-19 2024-03-19 南京大学 一种基于罗马化维吾尔语的神经机器翻译***
CN113111667A (zh) * 2021-04-13 2021-07-13 沈阳雅译网络技术有限公司 一种基于多语言模型的低资源语言生成伪数据的方法
CN113111667B (zh) * 2021-04-13 2023-08-22 沈阳雅译网络技术有限公司 一种基于多语言模型的低资源语言生成伪数据的方法
CN117540755A (zh) * 2023-11-13 2024-02-09 北京云上曲率科技有限公司 一种神经机器翻译模型进行数据增强的方法和***
CN118095302A (zh) * 2024-04-26 2024-05-28 四川交通运输职业学校 一种基于计算机的辅助翻译方法及***

Similar Documents

Publication Publication Date Title
CN108363704A (zh) 一种基于统计短语表的神经网络机器翻译语料扩展方法
CN110852117B (zh) 一种提升神经机器翻译效果的有效数据增强方法
CN107690634B (zh) 自动查询模式生成方法及***
CN101458681A (zh) 语音翻译方法和语音翻译装置
CN109359304A (zh) 限定性神经网络机器翻译方法及存储介质
CN104391885A (zh) 一种基于平行语料训练的篇章级可比语料平行短语对的抽取方法
CN105573994B (zh) 基于句法骨架的统计机器翻译***
CN101404036A (zh) PowerPoint电子演示文稿的关键词抽取方法
CN109101518A (zh) 语音转录文本质量评估方法、装置、终端及可读存储介质
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN112446213A (zh) 一种文本语料扩充方法
CN112101047A (zh) 一种面向小语种包含精确术语匹配的机器翻译方法
CN108491399A (zh) 基于语境迭代分析的汉译英机器翻译方法
CN101763403A (zh) 面向多语言信息检索***的查询翻译方法
CN117251524A (zh) 一种基于多策略融合的短文本分类方法
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN112765977B (zh) 一种基于跨语言数据增强的分词方法及装置
Li et al. Cultural concept adaptation on multimodal reasoning
CN106156007A (zh) 一种单词原形化的英汉统计机器翻译方法
CN112836525A (zh) 一种基于人机交互机器翻译***及其自动优化方法
Millour et al. Unsupervised data augmentation for less-resourced languages with no standardized spelling
CN109657244B (zh) 一种英文长句自动切分方法及***
Gad-Elrab et al. Named entity disambiguation for resource-poor languages
Baisa et al. Automating dictionary production: a Tagalog-English-Korean dictionary from scratch
CN111597824B (zh) 语言翻译模型的训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180803

WD01 Invention patent application deemed withdrawn after publication