CN111414772B - 一种机器翻译方法、装置及介质 - Google Patents

一种机器翻译方法、装置及介质 Download PDF

Info

Publication number
CN111414772B
CN111414772B CN202010171952.5A CN202010171952A CN111414772B CN 111414772 B CN111414772 B CN 111414772B CN 202010171952 A CN202010171952 A CN 202010171952A CN 111414772 B CN111414772 B CN 111414772B
Authority
CN
China
Prior art keywords
pinyin
corpus
chinese character
sequence
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010171952.5A
Other languages
English (en)
Other versions
CN111414772A (zh
Inventor
孙于惠
李响
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010171952.5A priority Critical patent/CN111414772B/zh
Publication of CN111414772A publication Critical patent/CN111414772A/zh
Application granted granted Critical
Publication of CN111414772B publication Critical patent/CN111414772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本公开是关于一种机器翻译方法、装置及介质。该方法包括:获取待翻译的源语言序列,所述源语言序列为汉字序列;基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。该方法可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量。

Description

一种机器翻译方法、装置及介质
技术领域
本公开涉及神经机器翻译技术领域,尤其涉及机器翻译方法、装置及介质。
背景技术
神经机器翻译是目前最主流的机器翻译方法,尽管翻译质量得到极大改进,但它对于输入的待翻译文本十分敏感,即使源语言中存在少量不影响人理解语义的错误,模型一般都无法生成正确的译文。增强神经机器翻译鲁棒性的方法主要包括:(1)对于中文输入文本进行纠错,进而提高后续机器翻译质量;(2)改进神经机器翻译模型的训练方法,增强模型对噪音训练样本的抗干扰性,提高翻译模型的鲁棒性。
源语言错误中常见的一种错误是同音字错误。这里的同音字错误可以是拼音和声调完全一致的错误,也可以是拼音一致但是声调不一致的错误。
现有提升同音字错误模型鲁棒性方法有如下几种:
一、离线构造同音字错误语料,即在原始训练数据中加入一定比例的同音字训练语料,提升模型的抗噪能力。但是离线构造噪音的方法并不能穷尽很多未知的同音字错误。
二、同音字错误主要是因为拼音相同但是文字表示不一样所引起的,因而可以训练一个源语言的拼音到目标文本语言文本的模型,也就是将原始的输入都转化成拼音,喂给模型去学习。然而拼音传递的信息并没有中文字词丰富。
三、将翻译文本的每一个汉字的向量表示和这个汉字的拼音的向量表示相加(也可以是拼接的形式)代表这个汉字的最终的向量表示参与训练,期望提高模型的抗噪能力。但是这样的构造方法没有针对性,大部分正确的语料其实并不需要加入拼音的信息,加入了拼音信息反而会使得在正确语料翻译上的效果并没有那么好。
发明内容
为克服相关技术中存在的问题,本公开提供一种翻译模型的训练方法、装置及介质。
根据本公开实施例的第一方面,提供一种机器翻译方法,所述方法包括:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
其中,所述基于所述汉字序列和训练好的判别模型获取处理后的源语言序列,包括:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
其中,所述翻译模型是通过以下方式训练的:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
其中,所述将所述汉字语料中至少一个汉字替换为相应的拼音,包括下述方式中至少一种:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
其中,所述确定所述汉字语料中至少一个同音错误字,包括:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
其中,所述判别模型是通过以下方式训练的:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
其中,所述源语言序列是基于语音识别技术由语音数据获取的。
根据本公开实施例的第二方面,提供一种机器翻译装置,所述装置包括:
源语言序列获取模块,被设置为获取待翻译的源语言序列,所述源语言序列为汉字序列;
源语言序列处理模块,被设置为基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
预测结果获取模块,被设置为将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
其中,所述源语言序列处理模块还被设置为:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
其中,所述装置还包括翻译模型训练模块,所述翻译模型训练模块被设置为:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
其中,所述翻译模型训练模块还被设置为通过下述方式中至少一种将所述汉字语料中至少一个汉字替换为相应的拼音:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
其中,所述翻译模型训练模块还被设置为通过下述步骤确定所述汉字语料中至少一个同音错误字:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
其中,所述装置还包括判别模型训练模块,所述判别模型训练被设置为:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
其中,所述源语言序列是基于语音识别技术由语音数据获取的。
根据本公开实施例的第三方面,提供一种机器翻译装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为在运行所述可执行指令时实现以下步骤:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
根据本公开实施例的第四方面,提供一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置的处理器执行时,使得装置能够执行一种机器翻译方法,所述方法包括:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
采用本公开的上述方法,将汉字语料中至少一个汉字替换为相应的拼音,获取混合语料,将汉字语料、混合语料和目标语料合成为训练数据,并基于该合成的训练数据,训练翻译模型。本公开提供的方法针对含有中文同音异形字语音识别错误,可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量,且在真实的没有噪音的待翻译文本上的翻译效果不变差。
该方法既可以保证在正常测试集合上翻译效果良好,而且对带有同音字错误字的中文源端的翻译效果也有很大的改善。另外,该方法实现简单,无需离线构造大量同音字错误语料,动态构造汉字和拼音的混合语料,只要训练的步数足够的多,基本可以覆盖各种情形。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种翻译模型的训练方法的流程图。
图2是根据一示例性实施例示出的一种翻译模型的训练方法的流程图。
图3是根据一示例性实施例示出的一种翻译模型的训练装置的框图。
图4是根据一示例性实施例示出的一种装置的框图。
图5是根据一示例性实施例示出的一种装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
目前,语言翻译主要采用先语音识别再机器翻译的级联模式,针对以中文为源语言的语音翻译场景进行翻译。这样在语音识别时就可能出现同音字错误的情况,包括拼音和声调完全一致的错误,以及拼音一致但是声调不一致的错误。
针对同音字错误,最简单的方法是离线构造大量的同音字错误的数据,和原始数据的混合来训练型。记训练数据为(X,Y),其中有一个训练数据X=“他爱你”,Y=“He lovesyou”。随机替换源句中的某个词为它的同音异形词,假设替换“他”为“踏”,则替换后的X'=“踏爱你”,将替换后的(X',Y)也放入训练语料一起参与训练。该方法存在两个比较大的缺点:一是离线构造数据无法穷尽各种情形;二是例如将“他”替换为同音异形字,有“她,它,踏,塌,塔,祂,沓,牠”...非常多的情形,如果每一个都替换一遍,则训练数据量太大,训练周期会过长。
针对同音字错误的另一种方法是训练一个源语言的拼音到目标文本语言文本的模型。假设我们的训练数据中有一个句对为(X,Y),X=“他爱你”,Y=“He loves you”。将X转化为拼音后得到X'=“ta ai ni”。将(X',Y)作为训练语言喂给模型去学习。该方法在有同音字错误的待翻译文本上效果确实比较好,但是在正常的没有同音字错误的测试集合上却有明显的下降。这是因为拼音所传递的信息并没有文字所丰富。如上面举的例子,X'中的“ta”是翻译为“she”还是“he”呢?
还有一种方法将翻译文本的每一个token的词级别的向量表示和这个token的拼音的向量表示相加(也可以是拼接的形式),来代表这个token的最终的向量表示参与训练,来期望提高模型的抗噪能力。假设训练数据为(X,Y),其中X=[x1,x2,...,xn],每一个词xi的词向量记为ei,则序列X的词向量序列记为EX=[e1,e2,...,en]。假设这里的中文是字符级别的,那么每一个xi对应的拼音记为pi,则得到序列X的拼音序列为P=[p1,p2,...,pn]。同样获得拼音序列的此向量为Ep=[z1,z2,...,zn]。最后将ei+zi表示词xi的最终词向量参与训练。该方法构造的最终词向量没有针对性,大部分正确的语料其实并不需要加入拼音的信息,加入了拼音信息反而会使得在正确语料翻译上的效果并不好。
针对上述问题,本公开提供了一种机器翻译方法。在本公开提供的方法中,获取待翻译的源语言序列,源语言序列为汉字序列;基于汉字序列和训练好的判别模型,获取处理后的源语言序列;将处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。其中,在训练翻译模型时,将汉字语料中至少一个汉字替换为相应的拼音,获取混合语料,将汉字语料、混合语料和目标语料组成训练数据,并基于该组成的训练数据,训练翻译模型。本公开提供的方法针对含有中文同音异形字语音识别错误,可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量,且在真实的没有噪音的待翻译文本上的翻译效果不变差。
本公开的方法特别适用于在源语言序列中出现同音错误字。这里同音错误字可能由于以下两种因素产生:一种是使用语音识别技术对用户输入的语音进行识别时,识别出了同音错误字;一种是用户例如通过键盘或手写板输入待翻译的源语言序列时,输入了同音错误字。
本公开提供的方法适用于将中文到其它语言的翻译,这里的其它语言可以是英文、法文、德文等。
图1是根据一示例性实施例示出的一种翻译模型的训练方法的流程图,如图1所示,该方法包括以下步骤:
步骤101,获取待翻译的源语言序列,所述源语言序列为汉字序列;
步骤102,基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
步骤103,将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
步骤101中,源语言序列为汉字序列,可以是用户通过键盘或手写板输入的汉字序列,也可以是通过语音识别技术对用户输入的语音进行识别得到汉字序列。
步骤102中和步骤103中,基于训练好的判别模型,对汉字序列进行处理,将其中的同音错误字替换为相应的拼音,然后输入训练好的翻译模型,以获取预测结果,即翻译结果。
采用上述方法,将汉字序列中的同音错误字替换为相应的拼音,以避免中文同音错误字带来的翻译错误问题,从而提高翻译模型的鲁棒性,增强神经机器翻译质量。
在可选实施方式中,所述基于所述汉字序列和训练好的判别模型获取处理后的源语言序列,包括:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
这里,先通过汉字序列获取相应的拼音序列,再依次掩码拼音序列中一个汉字的拼音,通过训练好的判别模型依次判断被掩码位置输出汉字序列中对应汉字的概率。当这一概率小于设定概率时,就将汉字序列中的对应汉字替换为拼音。从汉字序列中的第一个汉字开始依次判断是否需要替换为拼音,直到对汉字序列中的每个汉字判断完成。
关于判别模型的判别(预测)过程,简单说明如下:
在PM已知的情形下,通过判别模型得到预测结果T=[t1,t2,...,tz],其中tj代表的是第j个词的预测结果。模型的输出最后会经过一个归一化(例如softmax函数)的操作,得到每一个tj在目标端词表上的概率分布。判别模型预测的具体操作是本领域技术人员已知的,在此不再赘述。
在本公开的上述实施例中,获取tj取其所对应的目标字的概率,将该概率与设定概率相比,来判断目标字是否是同音错误字。
在可选实施方式中,所述翻译模型是通过以下方式训练的:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
第一训练数据的源语料是汉字语料,目标语料例如是该汉字语料对应的英文语料。
为了降低同音错误字的影响,可以将汉字语料中至少一个汉字替换为该汉字的拼音,得到汉字与拼音混合的语料。该混合语料作为第二训练数据源语料,第一训练数据目标语料作为第二训练数据目标语料。
用混合语料和目标语料组成的第二训练数据和第一训练数据训练翻译模型。
采用上述方法,将源语料(汉字语料)中的汉字替换为该汉字的拼音,生成混合语料。将汉字语料、混合语料与目标语料构成新的训练数据,训练翻译模型。将没有被拼音替换的汉字语料也放入训练数据,是为了保证翻译模型的数据中有完全正确的没有拼音的语料出现过。这种方法,针对含有中文同音异形字语音识别错误,可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量。
在可选实施方式中,所述将所述汉字语料中至少一个汉字替换为相应的拼音,包括下述方式中至少一种:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
这里采用两种方式将汉字语料中至少一个汉字替换为拼音。采用方式一,随机选取汉字语料中的汉字替换为拼音,可以使得训练的翻译模型具有更好的泛化效果。采用方式二,选取汉字语料中的同音错误字替换为拼音,在一些语言环境中具有更好的鲁棒性。在优选的实施方式中,可以同时采用上述方式一和方式二获取混合语料。
在可选实施方式中,所述确定所述汉字语料中至少一个同音错误字,包括:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
假设汉字语料为X=[x1,x2,...,xn],将每一个汉字xi对应的拼音记为pi,1≤i≤n,相应的拼音语料为P[p1,p2,...,pn]。
下面的例子中判断汉字语料中的各汉字是否为同音错误字,如果是则将汉字替换为拼音。
具体地,依次选取拼音语料中对应于一个汉字的拼音,例如从对应于汉字语料中第一个汉字的拼音开始选取,掩码该拼音,得到掩码语料。将汉字语料中该第一个汉字作为目标字。将掩码语料输入训练好的判别模型,获取被掩码的拼音的位置对应于目标字的概率。基于实际的翻译场景设置设定概率。当获取的概率小于设定概率时,则确定上述目标字为同音错误字。在汉字语料中,将该目标字替换为它的拼音。在可选实施方式中,所述判别模型是通过以下方式训练的:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
在拼音语料P中随机选取z个汉字的拼音,例如用M=[m1,m2,...,mz]表示选择的这z个汉字的拼音在拼音语料中的下标。在拼音语料中掩码这Z个拼音,用一个特殊的符号,例如“#MASK”替换这z个拼音,得到掩码后的拼音语料,表示为PM。被掩码的拼音对应于汉字语料中的z个汉字,这z个汉字组成的语料为XM。将PM作为判别模型源语料,XM判别模型目标语料,来训练判别模型。这里z个拼音是随机选取的,并不要求这z个拼音在拼音语料中的位置是连续的。
判别模型可以基于P中未被掩码的拼音,来预测该被掩码的拼音的位置对应的汉字是什么。例如,X=“他爱你”,P=“wo ai ni”,随机掩码P中对应于X中一个汉字的拼音后得到PM=“wo ai$mask”,那么XM=“你”。在本例中,即基于“wo ai$mask”,预测“$mask”这个位置对应的汉字是什么。
针对上面的例子,在对判别模型进行训练时,是将PM=“wo ai$mask”和XM=“你”作为模型的输入和输出进行训练的。
需要说明的是,上述的z的最大值一般取n/5,即最大值取到n的20%,一般取n的10%。当然10%是根据具体情况改变的,具体要看替换百分之几效果最好,实际训练中就替换百分之多少。当z取n的10%时,如果一句话的汉字的字数超过10,那么我们截取它的10%的汉字转化成拼音,如果一句话的字数小于10,则可以随机取一个位置为拼音。
如上所述,将汉字语料中的一部分同音错误字替换为拼音,可以提高翻译模型的鲁棒性,那么如果将汉字语料中的全部同音错误字替换为拼音,则可以更佳地提高翻译模型的鲁棒性。
在可选实施方式中,所述源语言序列是基于语音识别技术由语音数据获取的。即用户输入的是语音,基于语音识别技术将语音识别为文字。
在可选实施方式中,所述判别模型为BERT语言模型。
BERT语言模型是一种掩码语言模型。根据实际情况,也可以选用GPT语言模型、ELMo语言模型,等语言模型。
在可选实施方式中,所述翻译模型是基于transformer框架的翻译模型。
该翻译模型基于汉字和拼音的混合语料进行训练,是基于transformer框架的模型。
下面结合具体的应用场景描述根据本公开的具体实施例。该实施例中,是将中文翻译为英文,源语料中包含的汉字超过10个,BERT语言模型作为判别模型,判别模型和翻译模型分别通过上述的方法进行训练。因此通过训练好的BERT语言模型来确定同音错误字,将同音错误字替换为相应的拼音。如图2所示,该实施例包括下述步骤。
步骤201,获取待翻译的源语言序列,该源语言序列为汉字序列。
步骤202,获取汉字序列中每个汉字的拼音,将每个汉字的拼音组成拼音序列。
步骤203,掩码拼音序列中对应于汉字序列中第一个汉字的拼音,该拼音称为第一个拼音,获取掩码第一个拼音后的拼音序列。
步骤204,将掩码后的拼音序列输入训练好的BERT语言模型,获取训练好的BERT语言模型预测的正确汉字概率。
步骤205,当正确汉字概率小于设定概率时,将汉字序列中的对应汉字替换为相应的拼音。
步骤206,掩码拼音序列中对应于汉字序列中第二个汉字的拼音,该拼音称为第二个拼音,获取掩码第二个拼音后的拼音序列,基于掩码第二个拼音后的拼音序列,重复执行步骤204和205。
步骤207,依次掩码拼音序列中对应于汉字序列中第三、第四、…最后一个汉字的拼音,重复执行步骤204和205。
步骤208,获取处理后的源语言序列。
步骤209,将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
采用本公开的上述方法,将汉字语料中至少一个汉字替换为相应的拼音,获取混合语料,将汉字语料、混合语料和目标语料合成为训练数据,并基于该合成的训练数据,训练翻译模型。本公开提供的方法针对含有中文同音异形字语音识别错误,可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量,且在真实的没有噪音的待翻译文本上的翻译效果不变差。
本公开还提供了一种翻译模型的训练装置,如图3所示,所述装置包括:
源语言序列获取模块301,被设置为获取待翻译的源语言序列,所述源语言序列为汉字序列;
源语言序列处理模块302,被设置为基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
预测结果获取模块303,被设置为将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
在可选实施方式中,所述源语言序列处理模块302还被设置为:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
在可选实施方式中,所述装置还包括翻译模型训练模块,所述翻译模型训练模块被设置为:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
在可选实施方式中,所述翻译模型训练模块还被设置为通过下述方式中至少一种将所述汉字语料中至少一个汉字替换为相应的拼音:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
在可选实施方式中,所述翻译模型训练模块还被设置为通过下述步骤确定所述汉字语料中至少一个同音错误字:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
在可选实施方式中,所述装置还包括判别模型训练模块,所述判别模型训练被设置为:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
在可选实施方式中,所述源语言序列是基于语音识别技术由语音数据获取的。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用本公开的上述方法,将汉字语料中至少一个汉字替换为相应的拼音,获取混合语料,将汉字语料、混合语料和目标语料合成为训练数据,并基于该合成的训练数据,训练翻译模型。本公开提供的方法针对含有中文同音异形字语音识别错误,可以提高翻译模型的鲁棒性,从而有效增强神经机器翻译质量,且在真实的没有噪音的待翻译文本上的翻译效果不变差。
该方法既可以保证在正常测试集合上翻译效果良好,而且对带有同音字错误字的中文源端的翻译效果也有很大的改善。另外,该方法实现简单,无需离线构造大量同音字错误语料,动态构造汉字和拼音的混合语料,只要训练的步数足够的多,基本可以覆盖各种情形。
图4是根据一示例性实施例示出的一种机器翻译装置400的框图。
参照图4,装置400可以包括以下一个或多个组件:处理组件402,存储器404,电力组件406,多媒体组件408,音频组件410,输入/输出(I/O)的接口412,传感器组件414,以及通信组件416。
处理组件402通常控制装置400的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件402可以包括一个或多个模块,便于处理组件402和其他组件之间的交互。例如,处理组件402可以包括多媒体模块,以方便多媒体组件408和处理组件402之间的交互。
存储器404被配置为存储各种类型的数据以支持在设备400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件406为装置400的各种组件提供电力。电力组件406可以包括电源管理***,一个或多个电源,及其他与为装置400生成、管理和分配电力相关联的组件。
多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件408包括一个前置摄像头和/或后置摄像头。当设备400处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件410被配置为输出和/或输入音频信号。例如,音频组件410包括一个麦克风(MIC),当装置400处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中,音频组件410还包括一个扬声器,用于输出音频信号。
I/O接口412为处理组件402和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件414包括一个或多个传感器,用于为装置400提供各个方面的状态评估。例如,传感器组件414可以检测到设备400的打开/关闭状态,组件的相对定位,例如所述组件为装置400的显示器和小键盘,传感器组件414还可以检测装置400或装置400一个组件的位置改变,用户与装置400接触的存在或不存在,装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件414还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件416经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件416还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器404,上述指令可由装置400的处理器420执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种机器翻译方法,所述方法包括:获取待翻译的源语言序列,所述源语言序列为汉字序列;基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
图5是根据一示例性实施例示出的一种机器翻译500的框图。例如,装置500可以被提供为一服务器。参照图5,装置500包括处理组件522,其进一步包括一个或多个处理器,以及由存储器532所代表的存储器资源,用于存储可由处理组件522的执行的指令,例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件522被配置为执行指令,以执行上述方法:获取待翻译的源语言序列,所述源语言序列为汉字序列;基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果。
装置500还可以包括一个电源组件526被配置为执行装置500的电源管理,一个有线或无线网络接口550被配置为将装置500连接到网络,和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种机器翻译方法,其特征在于,所述方法包括:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果;
所述基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,包括:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
2.如权利要求1所述的方法,其特征在于,所述翻译模型是通过以下方式训练的:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
3.如权利要求2所述的方法,其特征在于,所述将所述汉字语料中至少一个汉字替换为相应的拼音,包括下述方式中至少一种:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
4.如权利要求3所述的方法,其特征在于,所述确定所述汉字语料中至少一个同音错误字,包括:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
5.如权利要求1所述的方法,其特征在于,所述判别模型是通过以下方式训练的:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
6.如权利要求1所述的训练方法,其特征在于,所述源语言序列是基于语音识别技术由语音数据获取的。
7.一种机器翻译装置,其特征在于,所述装置包括:
源语言序列获取模块,被设置为获取待翻译的源语言序列,所述源语言序列为汉字序列;
源语言序列处理模块,被设置为基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
预测结果获取模块,被设置为将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果;
所述源语言序列处理模块还被设置为:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
8.如权利要求7所述的装置,其特征在于,所述装置还包括翻译模型训练模块,所述翻译模型训练模块被设置为:
获取第一训练数据,所述第一训练数据包括源语料和对应的目标语料,所述源语料为汉字语料;
将所述汉字语料中至少一个汉字替换为相应的拼音,获取混合语料;
将所述混合语料和所述目标语料组成第二训练数据,其中所述混合语料为第二训练数据源语料,所述目标语料为第二训练数据目标语料;
基于所述第二训练数据和所述第一训练数据,训练所述翻译模型。
9.如权利要求8所述的装置,其特征在于,所述翻译模型训练模块还被设置为通过下述方式中至少一种将所述汉字语料中至少一个汉字替换为相应的拼音:
方式一,将在所述汉字语料中随机选取的至少一个汉字替换为相应的拼音;
方式二,确定所述汉字语料中至少一个同音错误字,将所述至少一个同音错误字替换为相应的拼音。
10.如权利要求9所述的装置,其特征在于,所述翻译模型训练模块还被设置为通过下述步骤确定所述汉字语料中至少一个同音错误字:
获取所述汉字语料中每个汉字的拼音,将所述每个汉字的拼音组成拼音语料;
在所述拼音语料中选取一个汉字的拼音作为待掩码拼音,在所述拼音语料中掩码所述待掩码拼音,获取掩码语料;
获取所述汉字语料中与所述待掩码拼音对应的汉字,将与所述待掩码拼音对应的汉字作为目标字;
将所述掩码语料输入所述训练好的判别模型,获取所述训练好的判别模型预测的被掩码拼音对应于所述目标字的概率;
当所述概率小于设定阈值时,确定所述目标字为同音错误字。
11.如权利要求7所述的装置,其特征在于,所述装置还包括判别模型训练模块,所述判别模型训练被设置为:
获取判别模型源语料,所述判别模型源语料为汉字语料;
获取所述判别模型源语料中每个汉字的拼音,组成判别模型拼音语料;
在所述判别模型拼音语料中选取z个汉字的拼音,其中所述判别模型拼音语料包括n个汉字的拼音,1≤z<n/5;
在所述判别模型拼音语料中掩码选取的z个汉字的拼音,获取掩码后的判别模型拼音语料;
获取所述判别模型源语料中与所述选取的z个汉字的拼音对应的汉字,将与所述选取的z个汉字的拼音对应的汉字组成判别模型目标语料;
基于所述掩码后的判别模型拼音语料和所述判别模型目标语料,训练所述判别模型。
12.如权利要求7所述的装置,其特征在于,所述源语言序列是基于语音识别技术由语音数据获取的。
13.一种机器翻译装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为在运行所述可执行指令时实现以下步骤:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果;
所述基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,包括:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
14.一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置的处理器执行时,使得装置能够执行一种机器翻译方法,所述方法包括:
获取待翻译的源语言序列,所述源语言序列为汉字序列;
基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,所述判别模型用于判别所述汉字序列中的汉字是否替换为相应的拼音;
将所述处理后的源语言序列输入训练好的翻译模型,获取所述训练好的翻译模型的预测结果;
所述基于所述汉字序列和训练好的判别模型,获取处理后的源语言序列,包括:
获取所述汉字序列中每个汉字的拼音,将所述每个汉字的拼音组成拼音序列,其中所述汉字序列包括m个汉字,m为大于等于1的正整数;
依次掩码所述拼音序列中每个汉字的拼音,获取m个掩码后的拼音序列,针对每个掩码后的拼音序列,执行下述操作:将掩码后的拼音序列输入所述训练好的判别模型,获取所述训练好的判别模型预测的正确汉字概率,所述正确汉字概率为被掩码位置输出所述汉字序列中对应汉字的概率;
当所述正确汉字概率小于设定概率时,将所述汉字序列中的对应汉字替换为相应的拼音,获取处理后的源语言序列。
CN202010171952.5A 2020-03-12 2020-03-12 一种机器翻译方法、装置及介质 Active CN111414772B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171952.5A CN111414772B (zh) 2020-03-12 2020-03-12 一种机器翻译方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171952.5A CN111414772B (zh) 2020-03-12 2020-03-12 一种机器翻译方法、装置及介质

Publications (2)

Publication Number Publication Date
CN111414772A CN111414772A (zh) 2020-07-14
CN111414772B true CN111414772B (zh) 2023-09-26

Family

ID=71492892

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171952.5A Active CN111414772B (zh) 2020-03-12 2020-03-12 一种机器翻译方法、装置及介质

Country Status (1)

Country Link
CN (1) CN111414772B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111768765B (zh) * 2020-07-30 2022-08-19 华为技术有限公司 语言模型生成方法和电子设备
CN112069795B (zh) * 2020-08-28 2023-05-30 平安科技(深圳)有限公司 基于掩码语言模型的语料检测方法、装置、设备及介质
CN113761950A (zh) * 2021-04-28 2021-12-07 腾讯科技(深圳)有限公司 一种翻译模型的测试方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006010163A2 (en) * 2004-07-23 2006-01-26 America Online Incorporated User interface and database structure for chinese phrasal stroke and phonetic text input
CN101788978A (zh) * 2009-12-30 2010-07-28 中国科学院自动化研究所 一种拼音和汉字相结合的汉外口语自动翻译方法
CN104850237A (zh) * 2014-02-19 2015-08-19 马舜尧 输入法衍生候选项生成与处理方法
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质
CN110147554A (zh) * 2018-08-24 2019-08-20 腾讯科技(深圳)有限公司 同声翻译方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006010163A2 (en) * 2004-07-23 2006-01-26 America Online Incorporated User interface and database structure for chinese phrasal stroke and phonetic text input
CN101788978A (zh) * 2009-12-30 2010-07-28 中国科学院自动化研究所 一种拼音和汉字相结合的汉外口语自动翻译方法
CN104850237A (zh) * 2014-02-19 2015-08-19 马舜尧 输入法衍生候选项生成与处理方法
CN110147554A (zh) * 2018-08-24 2019-08-20 腾讯科技(深圳)有限公司 同声翻译方法、装置和计算机设备
CN110110041A (zh) * 2019-03-15 2019-08-09 平安科技(深圳)有限公司 错词纠正方法、装置、计算机装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘俊鹏 ; 宋鼎新 ; 张一鸣 ; 黄德根 ; .多种数据泛化策略融合的神经机器翻译***.江西师范大学学报(自然科学版).2020,(第01期),全文. *
曹宜超 ; 高翊 ; 李淼 ; 冯韬 ; 王儒敬 ; 付莎 ; .基于单语语料和词向量对齐的蒙汉神经机器翻译研究.中文信息学报.2020,(第02期),全文. *

Also Published As

Publication number Publication date
CN111414772A (zh) 2020-07-14

Similar Documents

Publication Publication Date Title
CN111414772B (zh) 一种机器翻译方法、装置及介质
CN107291260B (zh) 一种信息输入方法和装置、及用于信息输入的装置
CN111832316B (zh) 语义识别的方法、装置、电子设备和存储介质
CN107564526B (zh) 处理方法、装置和机器可读介质
CN111831806B (zh) 语义完整性确定方法、装置、电子设备和存储介质
CN112562675B (zh) 语音信息处理方法、装置及存储介质
CN112735396A (zh) 语音识别纠错方法、装置及存储介质
CN108733657B (zh) 神经机器翻译中注意力参数的修正方法、装置及电子设备
CN110781689B (zh) 信息处理方法、装置及存储介质
CN111324214B (zh) 一种语句纠错方法和装置
CN112199032A (zh) 一种表情推荐方法、装置和电子设备
CN109979435B (zh) 数据处理方法和装置、用于数据处理的装置
CN109308126B (zh) 一种候选词展示方法和装置
CN108073294B (zh) 一种智能组词方法和装置、一种用于智能组词的装置
CN110908523A (zh) 一种输入方法及装置
CN114462410A (zh) 实体识别方法、装置、终端及存储介质
CN112863499B (zh) 语音识别方法及装置、存储介质
CN110837741B (zh) 一种机器翻译方法、装置及***
CN110780749A (zh) 一种字符串纠错方法和装置
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN112149432A (zh) 篇章机器翻译方法及装置、存储介质
CN113515618A (zh) 语音处理方法、装置和介质
CN111414731B (zh) 文本标注方法和装置
CN110084065B (zh) 数据脱敏方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant