CN107818086B - 机器翻译方法和装置 - Google Patents
机器翻译方法和装置 Download PDFInfo
- Publication number
- CN107818086B CN107818086B CN201610819758.7A CN201610819758A CN107818086B CN 107818086 B CN107818086 B CN 107818086B CN 201610819758 A CN201610819758 A CN 201610819758A CN 107818086 B CN107818086 B CN 107818086B
- Authority
- CN
- China
- Prior art keywords
- translation
- hypothesis
- score
- options
- user history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明提供机器翻译方法和机器翻译装置。根据一个实施方式的机器翻译装置,包括:输入单元,其输入第一语言的句子;划分单元,其对上述句子进行划分得到多个短语;翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。
Description
技术领域
本发明涉及自然语言处理领域,具体涉及机器翻译方法和机器翻译装置。
背景技术
当前的机器翻译(Machine Translation,缩写为MT)***有很多,包括在线的机器翻译***,例如谷歌翻译、百度翻译、有道翻译、Systran等。这些机器翻译***虽然翻译质量没有完全达到理想的翻译效果,但是对于普通的翻译需求,还是有很大的参考价值。
发明内容
本发明者们发现,当使用机器翻译***翻译专业资料时,很难得到很好的翻译结果。原因是:现有的统计机器翻译***都是基于训练语料而获得的,这些训练语料有限,不可能涵盖所有的领域,或者穷尽人类所有可能表达的话语。因此,现有的机器翻译***存在领域内翻译效果相对较好但跨领域翻译效果差的问题。对于领域内测试集来说,训练语料中或多或少有一些片段可以命中测试集中的片段,甚至整句命中也有可能。而对于领域外的测试集,训练语料中几乎没有任何片段可以命中测试集中的任何片段,这就导致在翻译的时候出现大量的未登录词,因此翻译效果差。而专业资料一般属于领域外。
专业语料一般是从事某个领域的人使用的语料。所以他可能积累了很多该专业领域的相关资料,如果能够有效利用该用户历史积累的一些文档语料,则能够改进机器翻译效果。本发明的实施方式提出了利用用户历史文档(User History Documents,缩写为UHD)改进机器翻译的机器翻译方法和机器翻译装置,可以有效改进机器翻译的质量。具体地,提供了以下技术方案。
[1]一种机器翻译方法,包括:
输入第一语言的句子;
对上述句子进行划分得到多个短语;
在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;
在用户历史短语对中查找上述翻译假设;和
提高在上述用户历史短语对中存在的翻译假设的得分。
上述方案的机器翻译方法,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
[2]一种机器翻译方法,包括:
输入第一语言的句子;
对上述句子进行划分得到多个短语;
在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和
在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
上述方案的机器翻译方法,通过将与用户相关,但是概率很低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
[3]根据上述方案[2]所述的机器翻译方法,还包括:
对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;
在上述用户历史短语对中查找上述翻译假设;和
提高在上述用户历史短语对中存在的翻译假设的得分。
[4]根据上述方案[2]或[3]所述的机器翻译方法,其中,
上述在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码的步骤包括:
对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。
[5]根据上述方案[1]和[3]-[4]中的任一方案所述的机器翻译方法,其中,
上述提高在上述用户历史短语对中存在的翻译假设的得分的步骤中,
上述翻译假设的长度越长,将其得分提高地越高。
[6]根据上述方案[1]和[3]-[5]中的任一方案所述的机器翻译方法,其中,
上述提高上述翻译假设的得分的步骤基于以下公式(1)进行:
其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度。
[7]根据上述方案[1]和[3]-[5]中的任一方案所述的机器翻译方法,其中,
上述提高在上述用户历史短语对中存在的翻译假设的得分的步骤包括:
基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分,提高其得分。
[8]根据上述方案[1]、[3]-[5]和[7]中的任一方案所述的机器翻译方法,其中,
上述基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分提高其得分的步骤基于以下公式(2)进行:
其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度,Score_in_UHP(TH)是上述翻译假设在上述用户历史短语对中的得分。
[9]根据上述方案[1]-[8]中的任一方案所述的机器翻译方法,其中,
在基于用户的用户历史文档获取上述用户历史短语对时,没有设置短语的最大长度。
[10]一种机器翻译装置,包括:
输入单元,其输入第一语言的句子;
划分单元,其对上述句子进行划分得到多个短语;
翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;
翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和
提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。
上述方案的机器翻译装置,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
[11]一种机器翻译装置,包括:
输入单元,其输入第一语言的句子;
划分单元,其对上述句子进行划分得到多个短语;
第一翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和
第二翻译选项查找单元,其在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
上述方案的机器翻译装置,通过将与用户相关,但是概率很低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
[12]根据上述方案[11]所述的机器翻译装置,还包括:
组合单元,其对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;
翻译假设查找单元,其在上述用户历史短语对中查找上述翻译假设;和
提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。
[13]根据上述方案[11]或[12]所述的机器翻译装置,其中,
上述第二翻译选项查找单元,
对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。
[14]根据上述方案[10]和[12]-[13]中的任一方案所述的机器翻译装置,其中,
上述提高单元,
上述翻译假设的长度越长,将其得分提高地越高。
[15]根据上述方案[10]和[12]-[14]中的任一方案所述的机器翻译装置,其中,
上述提高单元基于以下公式(1)提高上述翻译假设的得分:
其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度。
[16]根据上述方案[10]和[12]-[14]中的任一方案所述的机器翻译装置,其中,
上述提高单元,
基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分,提高其得分。
[17]根据上述方案[10]、[12]-[14]和[16]中的任一方案所述的机器翻译装置,其中,
上述提高单元基于以下公式(2)提高上述翻译假设的得分:
其中,Score(TH)是上述翻译假设的提高后的得分,Score_before(TH)是上述翻译假设的提高前的得分,Length(TH)是上述翻译假设的长度,Score_in_UHP(TH)是上述翻译假设在上述用户历史短语对中的得分。
[18]根据上述方案[10]-[17]中的任一方案所述的机器翻译装置,其中,
在基于用户的用户历史文档获取上述用户历史短语对时,没有设置短语的最大长度。
附图说明
通过以下结合附图对本发明具体实施方式的说明,能够更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施方式的机器翻译方法的流程图。
图2是根据本发明的另一个实施方式的机器翻译方法的流程图。
图3是根据本发明的一个实施方式的机器翻译过程的一个实例的示意图。
图4是现有的机器翻译过程的一个实例的示意图。
图5是根据本发明的另一实施方式的机器翻译装置的框图。
图6是根据本发明的另一实施方式的机器翻译装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
<机器翻译方法>
图1是根据本发明的一个实施方式的机器翻译方法的流程图。
本实施方式的机器翻译方法,包括:输入第一语言的句子;对上述句子进行划分得到多个短语;在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;将概率高的前N个翻译选项选出用于解码,N是1以上的整数;对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;在用户历史短语对中查找上述翻译假设;和提高在上述用户历史短语对中存在的翻译假设的得分。
如图1所示,首先,在步骤S101,输入第一语言的句子。
在本实施方式中,第一语言的句子是待翻译的句子,第一语言没有任何限制,可以是任何语言,例如英语,汉语,德语,日语等。
接着,在步骤S105,对第一语言的句子进行划分,得到多个短语。对句子进行划分的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
接着,在步骤S110,在翻译模型10中查找上述多个短语的每个的第二语言的翻译选项TO(translation option)。
在翻译模型10中,具有第一语言的短语和第二语言的短语彼此对齐的双语对及其概率。在步骤S110中,针对每个短语,在翻译模型10中查找与其对应的第二语言的翻译选项TO。
通常,与每个短语对应的翻译选项TO有很多个,这里假设有T个。在本实施例中,为了降低计算复杂度,在步骤S115,将概率高的前N个翻译选项TO选出用于解码,N是1以上的整数。即,将概率大(或者代价小)的前N个即Top N个翻译选项选出用于后续的解码。
接着,在步骤S120,对上述多个短语的前N个翻译选项TO进行组合,得到多个翻译假设TH(translation hypothesis)。对翻译选项TO进行组合得到翻译假设TH的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
接着,在步骤S125,在用户历史短语对20中查找上述翻译假设。
在本实施方式中,用户历史短语对(user history phrase pairs)来源于用户双语历史文档(user bilingual history documents)。首先基于双语历史文档使用MT的工具包获得词对齐语料,然后使用短语一致性原则获取用户历史短语对。一般在获取短语对的时候会设置短语的最大长度,而在本实施方式中,优选,不对用户历史短语限定最大长度。不设最大长度的原因是为了下一步奖励翻译假设。因为翻译假设是由很多短语候选扩展来的,虽然每个短语有最大长度限制,但是翻译假设是没有长度限制的。
接着,在步骤S130,提高在用户历史短语对20中存在的翻译假设TH的得分,即对用户历史短语对20中存在的翻译假设TH进行奖励。
在本实施方式中,对翻译假设TH进行奖励的方法可以是将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率简单相加,也可以是考虑翻译假设TH的长度奖励。优选,翻译假设TH的长度越长,将其得分提高地越高,即奖励越大。
这是因为,在将翻译假设TH与用户历史短语对20进行匹配时,匹配的对象是一句话、一个短语或者一个词,匹配的概率将根据长度而降低,匹配长度越长,越可信,奖励应该越大。
具体地,优选,基于以下公式(1)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度。
另外,也可以在公式(1)的基础上,进一步考虑翻译假设TH在用户历史短语对20中的概率,即,基于翻译假设TH的长度和翻译假设TH在上述用户历史短语对20中的得分,提高其得分。
具体地,优选,基于以下公式(2)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度,Score_in_UHP(TH)是翻译假设TH在上述用户历史短语对20中的得分。
本实施方式的机器翻译方法,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
图2是根据本发明的另一个实施方式的机器翻译方法的流程图。
本实施方式的机器翻译方法,包括:输入第一语言的句子;对上述句子进行划分得到多个短语;在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
如图2所示,首先,在步骤S201,输入第一语言的句子。
在本实施方式中,第一语言的句子与上述实施方式的相同,在此省略其详细说明。
接着,在步骤S205,对第一语言的句子进行划分,得到多个短语。对句子进行划分的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
接着,在步骤S210,在翻译模型10中查找上述多个短语的每个的第二语言的翻译选项TO。
在翻译模型10中,具有第一语言的短语和第二语言的短语彼此对齐的双语对及其概率。在步骤S210中,针对每个短语,在翻译模型10中查找与其对应的第二语言的翻译选项TO。
通常,与每个短语对应的翻译选项TO有很多个,这里假设有T个。在本实施例中,为了降低计算复杂度,在步骤S215,将概率高的前N个翻译选项TO选出用于解码,N是1以上的整数。即,将概率大(或者代价小)的前N个即Top N个翻译选项选出用于后续的解码。
接着,在步骤S220,在用户历史短语对20中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
在本实施方式中,用户历史短语对20与上述实施方式的相同,在此省略其详细说明。
在步骤S215中,从T个翻译选项TO中选出Top N个翻译选项。在步骤S220中,优选对没有选出的T-N个剩余的翻译选项TO与用户历史短语对20进行交集运算,假设交集有M个,将这M个翻译选项TO,连同开始的Top N个翻译选项TO,一同参与最后的解码过程。
本实施方式的机器翻译方法,通过使一些在翻译模型中概率低但与用户历史文档密切相关的翻译选项TO,参与到最终的解码过程中,从而加大了获得较好翻译的概率。对于输入句子来说,仅有少数的短语存在于用户历史文档中,所以几乎不影响解码复杂度。
也就是说,本实施方式的机器翻译方法,通过将与用户相关,但是概率低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
另外,图2所示的机器翻译方法和图1所示的机器翻译方法可以进行组合,即在图2所示的机器翻译方法的步骤S220之后,还可以进行图1所示的机器翻译方法的步骤S120、步骤S125和步骤S130。
具体地,在步骤S220之后,对多个短语的在步骤S215中选出的Top N个翻译选项和在步骤S220中查找到的M个翻译选项,即N+M个翻译选项TO进行组合,得到多个翻译假设TH。
接着,在用户历史短语对20中查找上述翻译假设TH。
接着,提高在用户历史短语对20中存在的翻译假设TH的得分,即对用户历史短语对20中存在的翻译假设TH进行奖励。
在本实施方式中,对翻译假设TH进行奖励的方法可以是将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率简单相加,也可以是考虑翻译假设TH的长度奖励。优选,翻译假设TH的长度越长,将其得分提高地越高,即奖励越大。
这是因为,在将翻译假设TH与用户历史短语对20进行匹配时,匹配的对象是一句话、一个短语或者一个词,匹配的概率将根据长度而降低,匹配长度越长,越可信,奖励应该越大。
具体地,优选,基于以下公式(1)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度。
另外,也可以在公式(1)的基础上,进一步考虑翻译假设TH在用户历史短语对20中的概率,即,基于翻译假设TH的长度和翻译假设TH在上述用户历史短语对20中的得分,提高其得分。
具体地,优选,基于以下公式(2)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度,Score_in_UHP(TH)是翻译假设TH在上述用户历史短语对20中的得分。
本实施方式的机器翻译方法,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
下面结合图3说明上述机器翻译方法的翻译过程的一个实例。图3是根据本发明的一个实施方式的机器翻译过程的一个实例的示意图。
如图3所示,待翻译的句子30为一句德语“er geht ja nicht nach hause”。
在步骤S205,将上述德语的句子划分为多个短语40。
在步骤S210,针对每个短语,在翻译模型10中查找与其对应的翻译选项,并在步骤S215,将概率高的Top 4个翻译选项选出,图3中的标号50所示。以短语“er”为例,选出的翻译选项TO为“.he”、“it”、“,it”、“,he”。
接着,在步骤220,将未选出的翻译选项和用户历史短语对20进行交集运算,针对短语“er”、“geht”、“ja nicht”,分别得到与其对应的翻译选项“he”、“go”、“does not”,即M个翻译选项。
接着,在步骤S120,对上述选出的Top 4个翻译选项50和M个翻译选项进行组合,得到多个翻译假设60。
接着,在步骤S125,将多个翻译假设60与用户历史短语对20进行匹配,得到在用户历史短语对20中存在两个翻译假设“he does not 0.22”和“go home 0.02”,其在用户历史短语对20中的概率分别为“0.42”和“0.29”。
接着,对这两个翻译假设进行奖励。这里,通过简单相加进行奖励,即将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率相加,得到奖励后的翻译假设“hedoes not 0.64”和“go home 0.31”,如图3中的标号70所示。
接着,对多个翻译假设进行组合,得到候选翻译80。
最终,将得分最高即概率最高的候选翻译“he does not go home 0.015”选出作为最终的翻译结果。
下面结合图4说明现有的方法进行翻译的过程。图4是现有的机器翻译过程的一个实例的示意图。
如图4所示,在通过翻译模型10得到翻译选项后,没有利用用户历史短语对对翻译选项进行扩充,在得到翻译假设后,也没有利用用户历史短语对对翻译假设进行奖励,最终得到的翻译结果为“.he do not go home0.0059”。
由此可见,本实施方式的机器翻译方法,与图4的现有方法相比,由于将与用户历史文档密切相关的翻译选项选出用于解码,并利用用户历史短语对对翻译假设进行了奖励,能够有效改进机器翻译质量,得到了质量更高且更符合用户习惯的翻译结果。
<机器翻译装置>
图5是在同一发明构思下的本发明的另一个实施方式的机器翻译装置的框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
本实施方式的机器翻译装置500,包括:输入单元501,其输入第一语言的句子;划分单元505,其对上述句子进行划分得到多个短语;翻译选项查找单元510,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元515,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;组合单元520,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;翻译假设查找单元525,其在用户历史短语对中查找上述翻译假设;和提高单元530,其提高在上述用户历史短语对中存在的翻译假设的得分。
如图5所示,输入单元501输入第一语言的句子。
在本实施方式中,第一语言的句子是待翻译的句子,第一语言没有任何限制,可以是任何语言,例如英语,汉语,德语,日语等。
划分单元505,对第一语言的句子进行划分,得到多个短语。对句子进行划分的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
翻译选项查找单元510,在翻译模型10中查找上述多个短语的每个的第二语言的翻译选项TO(translation option)。
在翻译模型10中,具有第一语言的短语和第二语言的短语彼此对齐的双语对及其概率。翻译选项查找单元510,针对每个短语,在翻译模型10中查找与其对应的第二语言的翻译选项TO。
通常,与每个短语对应的翻译选项TO有很多个,这里假设有T个。在本实施例中,为了降低计算复杂度,选择单元515,将概率高的前N个翻译选项TO选出用于解码,N是1以上的整数。即,将概率大(或者代价小)的前N个即Top N个翻译选项选出用于后续的解码。
组合单元520,对上述多个短语的前N个翻译选项TO进行组合,得到多个翻译假设TH(translation hypothesis)。对翻译选项TO进行组合得到翻译假设TH的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
翻译假设查找单元525,在用户历史短语对20中查找上述翻译假设。
在本实施方式中,用户历史短语对(user history phrase pairs)来源于用户双语历史文档(user bilingual history documents)。首先基于双语历史文档使用MT的工具包获得词对齐语料,然后使用短语一致性原则获取用户历史短语对。一般在获取短语对的时候会设置短语的最大长度,而在本实施方式中,优选,不对用户历史短语限定最大长度。不设最大长度的原因是为了下一步奖励翻译假设。因为翻译假设是由很多短语候选扩展来的,虽然每个短语有最大长度限制,但是翻译假设是没有长度限制的。
提高单元530,提高在用户历史短语对20中存在的翻译假设TH的得分,即对用户历史短语对20中存在的翻译假设TH进行奖励。
在本实施方式中,对翻译假设TH进行奖励的方法可以是将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率简单相加,也可以是考虑翻译假设TH的长度奖励。优选,翻译假设TH的长度越长,将其得分提高地越高,即奖励越大。
这是因为,在将翻译假设TH与用户历史短语对20进行匹配时,匹配的对象是一句话、一个短语或者一个词,匹配的概率将根据长度而降低,匹配长度越长,越可信,奖励应该越大。
具体地,优选,基于以下公式(1)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度。
另外,也可以在公式(1)的基础上,进一步考虑翻译假设TH在用户历史短语对20中的概率,即,基于翻译假设TH的长度和翻译假设TH在上述用户历史短语对20中的得分,提高其得分。
具体地,优选,基于以下公式(2)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度,Score_in_UHP(TH)是翻译假设TH在上述用户历史短语对20中的得分。
本实施方式的机器翻译装置500,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
图6是根据本发明的另一实施方式的机器翻译装置的框图。
本实施方式的机器翻译装置600,包括:输入单元601,其输入第一语言的句子;划分单元605,其对上述句子进行划分得到多个短语;第一翻译选项查找单元610,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;选择单元615,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;和第二翻译选项查找单元620,其在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
如图6所示,输入单元601,输入第一语言的句子。
在本实施方式中,第一语言的句子与上述实施方式的相同,在此省略其详细说明。
划分单元605,对第一语言的句子进行划分,得到多个短语。对句子进行划分的方法可以是本领域技术人员公知的任何方法,本实施方式对此没有任何限制。
第一翻译选项查找单元610,在翻译模型10中查找上述多个短语的每个的第二语言的翻译选项TO。
在翻译模型10中,具有第一语言的短语和第二语言的短语彼此对齐的双语对及其概率。第一翻译选项查找单元610,针对每个短语,在翻译模型10中查找与其对应的第二语言的翻译选项TO。
通常,与每个短语对应的翻译选项TO有很多个,这里假设有T个。在本实施例中,为了降低计算复杂度,选择单元615,将概率高的前N个翻译选项TO选出用于解码,N是1以上的整数。即,将概率大(或者代价小)的前N个即Top N个翻译选项选出用于后续的解码。
第二翻译选项查找单元620,在用户历史短语对20中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数。
在本实施方式中,用户历史短语对20与上述实施方式的相同,在此省略其详细说明。
选择单元615,从T个翻译选项TO中选出Top N个翻译选项。第二翻译选项查找单元620,优选对没有选出的T-N个剩余的翻译选项TO与用户历史短语对20进行交集运算,假设交集有M个,将这M个翻译选项TO,连同开始的Top N个翻译选项TO,一同参与最后的解码过程。
本实施方式的机器翻译装置600,通过使一些在翻译模型中概率低但与用户历史文档密切相关的翻译选项TO,参与到最终的解码过程中,从而加大了获得较好翻译的概率。对于输入句子来说,仅有少数的短语存在于用户历史文档中,所以几乎不影响解码复杂度。
也就是说,本实施方式的机器翻译装置600,通过将与用户相关,但是概率低,几乎没有机会参与最终解码过程的翻译选项挑选出来,使其参与解码过程,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
另外,图6所示的机器翻译装置和图5所示的机器翻译装置可以进行组合,即在图6所示的机器翻译装置还可以包括图5所示的机器翻译装置的组合单元520、翻译假设查找单元525和提高单元530。
具体地,组合单元520,对多个短语的由选择单元615选出的Top N个翻译选项和由第二翻译选项查找单元620查找到的M个翻译选项,即N+M个翻译选项TO进行组合,得到多个翻译假设TH。
翻译假设查找单元525,在用户历史短语对20中查找上述翻译假设TH。
提高单元530,提高在用户历史短语对20中存在的翻译假设TH的得分,即对用户历史短语对20中存在的翻译假设TH进行奖励。
在本实施方式中,对翻译假设TH进行奖励的方法可以是将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率简单相加,也可以是考虑翻译假设TH的长度奖励。优选,翻译假设TH的长度越长,将其得分提高地越高,即奖励越大。
这是因为,在将翻译假设TH与用户历史短语对20进行匹配时,匹配的对象是一句话、一个短语或者一个词,匹配的概率将根据长度而降低,匹配长度越长,越可信,奖励应该越大。
具体地,优选,基于以下公式(1)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度。
另外,也可以在公式(1)的基础上,进一步考虑翻译假设TH在用户历史短语对20中的概率,即,基于翻译假设TH的长度和翻译假设TH在上述用户历史短语对20中的得分,提高其得分。
具体地,优选,基于以下公式(2)进行奖励:
其中,Score(TH)是对翻译假设TH进行奖励后的得分,Score_before(TH)是对翻译假设TH进行奖励前的得分,Length(TH)是翻译假设TH的长度,Score_in_UHP(TH)是翻译假设TH在上述用户历史短语对20中的得分。
本实施方式的机器翻译装置,通过使用用户历史短语对对用户历史短语对中存在的翻译假设的得分进行提高,能够有效提高机器翻译的质量,并使翻译结果更符合用户的习惯。同时,在不需要改变机器翻译模型的情况下,实现了用户自适应,有效提高了机器翻译质量。
下面结合图3说明上述机器翻译装置的翻译过程的一个实例。图3是根据本发明的一个实施方式的机器翻译过程的一个实例的示意图。
如图3所示,待翻译的句子30为一句德语“er geht ja nicht nach hause”。
划分单元605,将上述德语的句子划分为多个短语40。
第一翻译选项查找单元610,针对每个短语,在翻译模型10中查找与其对应的翻译选项,并选择单元615,将概率高的Top 4个翻译选项选出,图3中的标号50所示。以短语“er”为例,选出的翻译选项TO为“.he”、“it”、“,it”、“,he”。
第二翻译选项查找单元620,将未选出的翻译选项和用户历史短语对20进行交集运算,针对短语“er”、“geht”、“ja nicht”,分别得到与其对应的翻译选项“he”、“go”、“doesnot”,即M个翻译选项。
组合单元520,对上述选出的Top 4个翻译选项50和M个翻译选项进行组合,得到多个翻译假设60。
翻译假设查找单元525,将多个翻译假设60与用户历史短语对20进行匹配,得到在用户历史短语对20中存在两个翻译假设“he does not 0.22”和“go home 0.02”,其在用户历史短语对20中的概率分别为“0.42”和“0.29”。
提高单元530,对这两个翻译假设进行奖励。这里,通过简单相加进行奖励,即将翻译假设TH的概率和翻译假设TH在用户历史短语对20中的概率相加,得到奖励后的翻译假设“he does not 0.64”和“go home 0.31”,如图3中的标号70所示。
接着,对多个翻译假设进行组合,得到候选翻译80。
最终,将得分最高即概率最高的候选翻译“he does not go home 0.015”选出作为最终的翻译结果。
下面结合图4说明现有的方法进行翻译的过程。图4是现有的机器翻译过程的一个实例的示意图。
如图4所示,在通过翻译模型10得到翻译选项后,没有利用用户历史短语对对翻译选项进行扩充,在得到翻译假设后,也没有利用用户历史短语对对翻译假设进行奖励,最终得到的翻译结果为“.he do not go home 0.0059”。
由此可见,本实施方式的机器翻译装置,与图4的现有方法相比,由于将与用户历史文档密切相关的翻译选项选出用于解码,并利用用户历史短语对对翻译假设进行了奖励,能够有效改进机器翻译质量,得到了质量更高且更符合用户习惯的翻译结果。
以上虽然通过一些示例性的实施方式详细地描述了本发明的机器翻译方法和机器翻译装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。
Claims (9)
1.一种机器翻译装置,包括:
输入单元,其输入第一语言的句子;
划分单元,其对上述句子进行划分得到多个短语;
翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
组合单元,其对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;
翻译假设查找单元,其在用户历史短语对中查找上述翻译假设;和
提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分,
上述翻译假设的长度越长,上述提高单元将其得分提高地越高。
2.一种机器翻译装置,包括:
输入单元,其输入第一语言的句子;
划分单元,其对上述句子进行划分得到多个短语;
第一翻译选项查找单元,其在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
选择单元,其将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
第二翻译选项查找单元,其在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数;
组合单元,其对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;
翻译假设查找单元,其在上述用户历史短语对中查找上述翻译假设;和
提高单元,其提高在上述用户历史短语对中存在的翻译假设的得分。
3.根据权利要求2所述的机器翻译装置,其中,
上述第二翻译选项查找单元,
对上述用户历史短语对和上述翻译选项中未选出的翻译选项进行交集运算。
4.根据权利要求2所述的机器翻译装置,其中,
上述翻译假设的长度越长,上述提高单元将其得分提高地越高。
6.根据权利要求1或2所述的机器翻译装置,其中,
上述提高单元,
基于上述翻译假设的长度和上述翻译假设在上述用户历史短语对中的得分,提高其得分。
8.一种机器翻译方法,包括:
输入第一语言的句子;
对上述句子进行划分得到多个短语;
在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
对上述多个短语的前N个翻译选项进行组合,得到多个翻译假设;
在用户历史短语对中查找上述翻译假设;和
提高在上述用户历史短语对中存在的翻译假设的得分,上述翻译假设的长度越长,将其得分提高地越高。
9.一种机器翻译方法,包括:
输入第一语言的句子;
对上述句子进行划分得到多个短语;
在翻译模型中查找上述多个短语的每个的第二语言的翻译选项;
将概率高的前N个翻译选项选出用于解码,N是1以上的整数;
在用户历史短语对中查找与上述前N个翻译选项不同的M个翻译选项用于解码,M是1以上的整数;
对上述多个短语的上述前N个翻译选项和上述M个翻译选项进行组合,得到多个翻译假设;
在上述用户历史短语对中查找上述翻译假设;和
提高在上述用户历史短语对中存在的翻译假设的得分。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610819758.7A CN107818086B (zh) | 2016-09-13 | 2016-09-13 | 机器翻译方法和装置 |
JP2017165926A JP6523388B2 (ja) | 2016-09-13 | 2017-08-30 | 機械翻訳装置及び機械翻訳方法 |
US15/692,756 US10496758B2 (en) | 2016-09-13 | 2017-08-31 | Machine translation method and machine translation apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610819758.7A CN107818086B (zh) | 2016-09-13 | 2016-09-13 | 机器翻译方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107818086A CN107818086A (zh) | 2018-03-20 |
CN107818086B true CN107818086B (zh) | 2021-08-10 |
Family
ID=61560046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610819758.7A Active CN107818086B (zh) | 2016-09-13 | 2016-09-13 | 机器翻译方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10496758B2 (zh) |
JP (1) | JP6523388B2 (zh) |
CN (1) | CN107818086B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489761B (zh) | 2018-05-15 | 2021-02-02 | 科大讯飞股份有限公司 | 一种篇章级文本翻译方法及装置 |
CN109327614B (zh) * | 2018-10-17 | 2021-01-26 | 永德利硅橡胶科技(深圳)有限公司 | 全球同声传译手机及方法 |
CN109088995B (zh) * | 2018-10-17 | 2020-11-13 | 永德利硅橡胶科技(深圳)有限公司 | 支持全球语言翻译的方法及手机 |
CN114139560B (zh) * | 2021-12-03 | 2022-12-09 | 山东诗语信息科技有限公司 | 基于人工智能翻译*** |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271451A (zh) * | 2007-03-20 | 2008-09-24 | 株式会社东芝 | 计算机辅助翻译的方法和装置 |
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2480398C (en) * | 2002-03-27 | 2011-06-14 | University Of Southern California | Phrase-based joint probability model for statistical machine translation |
US7353165B2 (en) * | 2002-06-28 | 2008-04-01 | Microsoft Corporation | Example based machine translation system |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
US8886517B2 (en) * | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
JP4113204B2 (ja) * | 2005-06-23 | 2008-07-09 | 日本電信電話株式会社 | 機械翻訳装置、その方法およびプログラム |
JP4756499B2 (ja) * | 2005-08-19 | 2011-08-24 | 株式会社国際電気通信基礎技術研究所 | 音声認識結果の検査装置及びコンピュータプログラム |
US7552053B2 (en) * | 2005-08-22 | 2009-06-23 | International Business Machines Corporation | Techniques for aiding speech-to-speech translation |
JP5011751B2 (ja) * | 2006-02-27 | 2012-08-29 | 富士通株式会社 | 訳語情報出力処理プログラム,処理方法および処理装置 |
US8209163B2 (en) * | 2006-06-02 | 2012-06-26 | Microsoft Corporation | Grammatical element generation in machine translation |
EP2054817A4 (en) * | 2006-08-18 | 2009-10-21 | Ca Nat Research Council | MEANS AND METHOD FOR DRIVING A STATISTICAL MACHINE TRANSLATION SYSTEM |
JP5082374B2 (ja) | 2006-10-19 | 2012-11-28 | 富士通株式会社 | フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法 |
US8204739B2 (en) * | 2008-04-15 | 2012-06-19 | Mobile Technologies, Llc | System and methods for maintaining speech-to-speech translation in the field |
JP5100445B2 (ja) * | 2008-02-28 | 2012-12-19 | 株式会社東芝 | 機械翻訳する装置および方法 |
CN102084417B (zh) * | 2008-04-15 | 2014-05-21 | 飞书博公司 | 现场维护语音到语音翻译的***和方法 |
JP2010033418A (ja) * | 2008-07-30 | 2010-02-12 | Sharp Corp | 携帯型翻訳装置およびそれを用いた翻訳文の出力方法 |
KR101762866B1 (ko) * | 2010-11-05 | 2017-08-16 | 에스케이플래닛 주식회사 | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 |
US9323746B2 (en) * | 2011-12-06 | 2016-04-26 | At&T Intellectual Property I, L.P. | System and method for collaborative language translation |
JP2014078132A (ja) * | 2012-10-10 | 2014-05-01 | Toshiba Corp | 機械翻訳装置、方法およびプログラム |
US10025778B2 (en) * | 2013-06-09 | 2018-07-17 | Microsoft Technology Licensing, Llc | Training markov random field-based translation models using gradient ascent |
JP2015060095A (ja) * | 2013-09-19 | 2015-03-30 | 株式会社東芝 | 音声翻訳装置、音声翻訳方法およびプログラム |
US20150347397A1 (en) * | 2014-06-03 | 2015-12-03 | Xerox Corporation | Methods and systems for enriching statistical machine translation models |
-
2016
- 2016-09-13 CN CN201610819758.7A patent/CN107818086B/zh active Active
-
2017
- 2017-08-30 JP JP2017165926A patent/JP6523388B2/ja not_active Expired - Fee Related
- 2017-08-31 US US15/692,756 patent/US10496758B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101271451A (zh) * | 2007-03-20 | 2008-09-24 | 株式会社东芝 | 计算机辅助翻译的方法和装置 |
CN105068998A (zh) * | 2015-07-29 | 2015-11-18 | 百度在线网络技术(北京)有限公司 | 基于神经网络模型的翻译方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
US20180075022A1 (en) | 2018-03-15 |
US10496758B2 (en) | 2019-12-03 |
CN107818086A (zh) | 2018-03-20 |
JP6523388B2 (ja) | 2019-05-29 |
JP2018045686A (ja) | 2018-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Van Der Wees et al. | Dynamic data selection for neural machine translation | |
CN110543639B (zh) | 一种基于预训练Transformer语言模型的英文句子简化算法 | |
CN110210029B (zh) | 基于垂直领域的语音文本纠错方法、***、设备及介质 | |
CN105917327B (zh) | 用于将文本输入到电子设备中的***和方法 | |
CN107818086B (zh) | 机器翻译方法和装置 | |
CN104011712B (zh) | 对跨语言查询建议的查询翻译进行评价 | |
KR101744861B1 (ko) | 합성어 분할 | |
US20080306728A1 (en) | Apparatus, method, and computer program product for machine translation | |
CN104462072B (zh) | 面向计算机辅助翻译的输入方法与装置 | |
Wu et al. | Inversion transduction grammar constraints for mining parallel sentences from quasi-comparable corpora | |
CN1643511A (zh) | 命名实体翻译 | |
US20150227528A1 (en) | Sentiment-based query processing system and method | |
CN105095182A (zh) | 一种回复信息推荐方法及装置 | |
Ferreira et al. | Zero-shot semantic parser for spoken language understanding. | |
CN111401080A (zh) | 神经机器翻译方法以及神经机器翻译装置 | |
Tennage et al. | Neural machine translation for sinhala and tamil languages | |
Leveling | On the effect of stopword removal for sms-based faq retrieval | |
Primandhika et al. | Experiment on a Transformer Model Indonesian-to-Sundanese Neural Machine Translation with Sundanese Speech Level Evaluation | |
US8782067B2 (en) | Searching method, searching device and recording medium recording a computer program | |
Misu et al. | A bootstrapping approach for SLU portability to a new language by inducting unannotated user queries | |
US10318565B2 (en) | Method and system for searching phrase concepts in documents | |
Prutskov | Algorithmic provision of a universal method for word-form generation and recognition | |
Ruiz Costa-Jussà et al. | The talp–upc spanish–english wmt biomedical task: Bilingual embeddings and char-based neural language model rescoring in a phrase-based system | |
Buck et al. | Analyzing language learned by an active question answering agent | |
US20200211533A1 (en) | Processing method, device and electronic apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |