CN102662934A - 一种在跨语言交流中对译文进行验证的方法和装置 - Google Patents

一种在跨语言交流中对译文进行验证的方法和装置 Download PDF

Info

Publication number
CN102662934A
CN102662934A CN2012100943815A CN201210094381A CN102662934A CN 102662934 A CN102662934 A CN 102662934A CN 2012100943815 A CN2012100943815 A CN 2012100943815A CN 201210094381 A CN201210094381 A CN 201210094381A CN 102662934 A CN102662934 A CN 102662934A
Authority
CN
China
Prior art keywords
translation
statement
user
module
read
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012100943815A
Other languages
English (en)
Inventor
刘占一
刘璇
吴华
王海峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN2012100943815A priority Critical patent/CN102662934A/zh
Publication of CN102662934A publication Critical patent/CN102662934A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种在跨语言交流中对译文进行验证的方法,包括:a)利用第一翻译模块对第一用户的输入语句进行翻译,获得译文;b)利用第二翻译模块对所述译文进行反向翻译,获得参照语句;c)对所述第一用户的输入语句和参照语句进行差异比较,并将比较结果提供给所述第一用户,供所述第一用户对输入语句进行调整:d)获取所述第一用户调整后的输入语句;e)利用第一翻译模块对调整后的输入语句进行翻译,获得新的译文;f)将所述新的译文发送给第二用户。相应地还提供了一种在跨语言交流中对译文进行验证的装置。利于降低在跨语言交流中聊天双方产生误解的概率。

Description

一种在跨语言交流中对译文进行验证的方法和装置
技术领域
本发明涉及语言处理技术,尤其涉及一种在跨语言交流中对译文进行验证的方法和装置。
背景技术
机器翻译,又称为自动翻译,是利用计算机把一种自然源语言转变为另一种自然目标语言的过程,一般指自然语言之间句子和全文的翻译,例如,将英文语句翻译成中文语句。
目前,机器翻译***的性能已经能够基本满足用户在网络上进行外语阅读的需要(如浏览新闻网页等)。但是,由于机器翻译技术并不是非常成熟,所以在翻译过程中还是会存在一定的错误。因此,对于一些对译文质量要求较高的需求,现有的机器翻译技术还不能完完全全使用户满意。例如,在跨语言交流中(即使用不同语言的用户利用计算机、手机等进行网络聊天),交流双方主要靠机器翻译***产生的译文来理解对方的意思,一旦译文稍微不准确,就会导致双方的误解。
因此,希望可以提出一种用于解决上述问题的在跨语言交流中对译文进行验证的方法和装置。
发明内容
本发明的目的是提供一种在跨语言交流中对译文进行验证的方法和装置,可以有效降低在跨语言交流中聊天双方产生误解的概率,以保证跨语言交流的顺利进行。
根据本发明的一个方面,提供了一种在跨语言交流中对译文进行验证的方法,该方法包括以下步骤:
a)利用第一翻译模块对第一用户的输入语句进行翻译,获得译文;
b)利用第二翻译模块对所述译文进行反向翻译,获得参照语句;
c)对所述第一用户的输入语句和参照语句进行差异比较,并将比较结果提供给所述第一用户,供所述第一用户对输入语句进行调整:
d)获取所述第一用户调整后的输入语句;
e)利用第一翻译模块对调整后的输入语句进行翻译,获得新的译文;
f)将所述新的译文发送给第二用户。
根据本发明的另一个方面,还提供了一种在跨语言交流中对译文进行验证的装置,包括输入获取模块、第一翻译模块、第二翻译模块、语句比较模块、语句显示模块、译文输出模块,其中:
所述输入获取模块,用于对第一用户的输入语句进行获取;
所述第一翻译模块,用于对第一用户的输入语句进行翻译,获得译文;
所述第二翻译模块,用于对所述译文进行反向翻译,获得参照语句;
所述语句比较模块,用于对所述第一用户的输入语句和参照语句进行差异比较,并将所述比较结果提供给所述第一用户,供所述第一用户对所述输入语句进行调整;
所述语句显示模块,用于对第一用户的输入语句、译文、参照语句、差异比较结果进行显示。
与现有技术相比,本发明具有以下优点:
1)在跨语言交流中,在对用户的输入语句进行翻译获取译文后,计算该译文的置信度,以及通过对该译文进行反向翻译得到参照语句,并对该参照语句和用户的输入语句进行比较。本发明通过上述两种方式为用户提供了译文正确性的判断信息,从而使用户可以更加充分地了解译文质量的高低;
2)对于质量较低的译文,用户可以根据参照语句与输入语句之间的对比结果对输入语句进行相应地调整(例如将生僻词调整为常用词等),从而得到更加准确的译文。因此,本发明可以有效地降低错误译文的概率,减少跨语言用户之间发生误解的机会,从而促进跨语言交流的发展。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1(a)为根据本发明一个优选实施例的在跨语言交流中对译文进行验证方法流程图;
图1(b)为根据本发明另一个优选实施例的在跨语言交流中对译文进行验证方法流程图;
图2至图6为根据本发明一个优选实施例的在跨语言交流各个阶段中第一用户的聊天界面示意图;
图7为根据本发明一个优选实施例的在跨语言交流中第二用户的聊天界面示意图;
图8为根据本发明另一个优选实施例的在跨语言交流中的聊天界面示意图;
图9(a)为根据本发明一个优选实施例的在跨语言交流中对译文进行验证的装置示意图;以及
图9(b)为根据本发明另一个优选实施例的在跨语言交流中对译文进行验证的装置示意图。
具体实施方式
下面结合附图对本发明作进一步详细描述。
根据本发明的一个方面,提供了一种在跨语言交流中对译文进行验证的方法。需要说明的是,下文中,将以第一用户和第二用户对跨语言交流中的聊天双方分别进行表示,并以第一用户使用汉语、第二用户使用英语进行交流为例,从第一用户的角度对本发明所提供的译文验证方法进行具体说明。
请参考图1(a),图1(a)为根据本发明一个优选实施例的在跨语言交流中对译文进行验证方法流程图。
如图1(b)所示,本发明所提供的对译文进行验证的方法包括以下步骤:
在步骤S101中,利用第一翻译模块对第一用户的输入语句进行翻译,获得译文。
具体地,当第一用户和第二用户进行网络聊天的时候,第一用户使用汉语进行输入,以发起谈话或者对第二用户的话题进行回复。其中,第一用户的输入语句可以是一句话,也可以是一段话。在本实施例中,以第一用户的输入语句为一句话为例进行说明。对于第一用户的输入语句为一段话的情况,可以先将其输入的一段话分解为多个独立的句子,然后以句子为单位逐一进行翻译和验证。因此,为了简明起见,对于第一用户输入一段话的情况,在此不再赘述。
第一用户的输入方式可以是键盘输入、手写输入或者语音输入,也可以是上述输入方式的混合。当第一用户输入结束后,第一翻译模块对第一用户的输入语句进行翻译,获得译文(在本实施例中译文为英文),并将该译文提供给第一用户。其中,第一翻译模块采用的翻译方法包括但不限于基于统计的翻译方法、基于实例的翻译方法或者基于规则的翻译方法。
在步骤S 102中,利用第二翻译模块对所述译文进行反向翻译,获得参照语句。
具体地,为了使第一用户了解译文质量的高低,使用第二翻译模块对该译文进行反向翻译,即,使用第一用户的语言将该译文反向翻译回去,生成参照语句,提供给第一用户。在本实施例中,第二翻译模块将英语译文翻译成汉语的参照语句。生成参照语句的目的在于,使第一用户通过该参照语句可以判断出该译文是否包含了其输入语句的含义。
为了使参照语句尽可能忠实于译文且更为客观,优选地,反向翻译所采用的第二翻译模块不同于第一翻译模块,即,第一翻译模块和第二翻译模块二者相互独立。反向翻译后的参照语句只要保证第一用户可以了解到译文的主要含义即可,因此,在本实施例中,第二翻译模块优选采用基于词典的翻译方法。其中,基于词典的翻译方法的过程如下:从左到右依次查询待反向翻译译文中每个词汇或短语在词典中相应的翻译结果,如果译文中的一个词汇或短语有多个翻译结果,则选择其中与用户输入句子中词汇相同的翻译结果,否则选择最常用的翻译结果。在其他实施例中,只要能够保证参照语句的忠实度和客观性,第一翻译模块和第二翻译模块也可以是同一个翻译模块。
在步骤S103中,对所述第一用户的输入语句和参照语句进行差异比较,并将比较结果提供给所述第一用户,供所述第一用户对输入语句进行调整。
具体地,将所述参照语句和输入语句进行比较后,用特殊的方式对所述参照语句和输入语句中的差异词汇进行标注,并将标注结果提供给第一用户进行参考。例如,在差异词汇下面划线、将差异词汇的字体加粗、改变差异词汇字体的颜色等等。通过标注,第一用户可以直观地看出输入语句中没有翻译出来的词汇或者翻译错误的词汇,然后第一用户可以相应地对其输入语句进行调整。
在步骤S104中,获取所述第一用户调整后的输入语句。
具体地,第一用户根据标注的内容,判断原来的输入语句哪里需要进一步的调整,例如,将生僻词语调整为常用词语,将口语化的词语调整为书面化的词语,在译文的质量比较低的情况下,甚至需要对整个句子进行重新输入。获取第一用户调整后的输入语句后,将调整后的输入语句发送给第一翻译模块,再次进行翻译。
在步骤S105中,利用第一翻译模块对调整后的输入语句进行翻译,获得新的译文,并在步骤S106中,将所述新的译文发送给第二用户。
具体地,由于第一用户对其初始输入进行了调整,因此,在第一翻译模块对调整后的输入语句进行翻译后,所获得的新的译文的质量将相应有所提高。如此一来,则可以将新的译文发送给第二用户。
在其他实施例中,也可能会存在需要对输入语句进行多次调整的情况,也就是需要多次重复上述步骤S102至步骤S105。即,第一翻译模块给出的新的译文,第二翻译模块对新的译文进行反向翻译,获得相应的参照语句;通过调整后的输入语句与参照语句的比较结果,第一用户获知新的译文仍然存在一定的问题,则再次对输入语句进行调整。如此反复,直至第一用户认为最终形成的参照语句和其调整后的语句之间不存在差异或者存在的差异不影响译文所表达的含义的时候,将相应的译文发给第二用户。
请参考图1(b),图1(b)为根据本发明另一个优选实施例的在跨语言交流中对译文进行验证方法流程图。其中,如图1(b)所示,本发明所提供的对译文进行验证的方法包括以下步骤:
在步骤S201中,利用第一翻译模块对第一用户的输入语句进行翻译,获得译文。
具体地,当第一用户和第二用户进行网络聊天的时候,第一用户使用汉语进行输入,以发起谈话或者对第二用户的话题进行回复。其中,第一用户的输入语句可以是一句话,也可以是一段话。在本实施例中,以第一用户的输入语句为一句话为例进行说明。对于第一用户的输入语句为一段话的情况,可以先将其输入的一段话分解为多个独立的句子,然后以句子为单位逐一进行翻译和验证。因此,为了简明起见,对于第一用户输入一段话的情况,在此不再赘述。
第一用户的输入方式可以是键盘输入、手写输入或者语音输入,也可以是上述输入方式的混合。当第一用户输入结束后,第一翻译模块对第一用户的输入语句进行翻译,获得译文(在本实施例中译文为英文),并将该译文提供给第一用户。其中,第一翻译模块采用的翻译方法包括但不限于基于统计的翻译方法、基于实例的翻译方法或者基于规则的翻译方法。
在步骤S202中,对所述译文的质量进行量化评价。
具体地,为了使用户可以了解第一翻译模块给出的译文的质量(即译文的准确度)的高低,可以对所述译文的质量进行量化评价。对译文质量的量化评价的方式有很多种。在本实施例中,基于译文的特征,利用log-linear模型计算译文的置信度。第一用户可以通过该置信度数值的大小,非常清楚地了解到译文质量的高低。其中,使用log-linear模型整合译文的各个特征计算译文置信度的公式如下:
Conf ( T ; S ) = Σ i log λ i h i ( T ; S )
其中,S表示第一用户的输入语句;T表示译文;hi(T;S)表示第i个特征函数,常用的特征包括译文的语言模型概率、输入句子和译文之间的对齐概率等;λi是第i个特征的权重。
如果译文的置信度数值较大,则说明该译文的质量较高,即该译文将第一用户的意思较为准确的表述出来;如果译文的置信度数值较小,则说明该译文的质量较低,即该译文在表述第一用户的意思时存在不准确的内容,这些不准确的内容有可能会导致第二用户产生误会。对所述译文的质量进行量化评价后,将评价结果提供给第一用户。例如,如果译文的置信度为0.9,则在译文后面相应显示0.9,如果译文的置信度为0.4,则在译文的后面相应显示0.4。如此一来,用户即可知道译文质量的高低。
优选地,还可以使用其他更为直观的方式对评价结果进行显示。例如,在计算出译文置信度之后,根据置信度数值的大小,将译文的质量分为“高”、“中”、“低”,然后直接将“高”、“中”、“低”的字样提供给第一用户。再例如,还可以使用人们习惯的评分标识来表示,如质量较高的译文用“☆☆☆”来表示,质量一般的译文用“☆☆”来表示,而质量较低的译文用“☆”来表示。需要说明的是,对译文质量的表示方法不限于上述方式,其他任何可以让第一用户了解译文质量高低的方法均可在本发明中使用。
在步骤S203中,将所述量化评价结果与预定阈值进行比较,如果所述评价结果高于所述阈值,则将所述译文输出给第二用户,结束所述译文的验证;否则利用第二翻译模块对所述译文进行反向翻译,获得参照语句,并执行步骤S204。
具体地,对译文给出量化评价后,将该量化评价与预定阈值进行比较,如果所述量化评价高于所述阈值,则认为该译文的质量较高,可以较为准确地表达第一用户想要表述的内容,此时,将该译文输出给第二用户,结束对所述译文的验证;如果所述量化评价低于所述阈值,则认为该译文可能不能准确地表达第一用户想要表述的内容,此时,将为第一用户提供更进一步的判断信息。例如,对于打分制的评价结果(假设分值范围在0-1之间),阈值设定为0.8,即如果译文的评价结果高于0.8,则认为译文质量较好,如果译文的评价结果低于0.8,则认为译文的质量不可靠。其中,可以基于统计分析的结果,来对阈值的内容进行设定。例如,对大量汉语例句进行翻译,获取相应的英语译文以及对该英语译文的量化评价,然后令掌握汉语和英语的用户对例句和译文进行比较,看哪些译文可以基本准确表达例句的含义,然后对可以表达例句含义的译文的量化评价结果进行统计,从而对阈值的内容进行设定。当然,阈值设定的方法不限于此,为了简明起见,在此不再赘述。
当判断译文可能存在一定问题,不能准确地表达第一用户想要表述的内容时,使用第二翻译模块对该译文进行反向翻译,即,使用第一用户的语言将该译文反向翻译回去,生成参照语句,提供给第一用户。在本实施例中,第二翻译模块将英语译文翻译成汉语的参照语句。生成参照语句的目的在于,使第一用户通过该参照语句可以判断出该译文是否包含了其输入语句的含义。
为了使参照语句尽可能忠实于译文且更为客观,优选地,反向翻译所采用的第二翻译模块不同于第一翻译模块,即,第一翻译模块和第二翻译模块二者相互独立。反向翻译后的参照语句只要保证第一用户可以了解到译文的主要含义即可,因此,在本实施例中,第二翻译模块优选采用基于词典的翻译方法。其中,基于词典的翻译方法的过程如下:从左到右依次查询待反向翻译译文中每个词汇或短语在词典中相应的翻译结果,如果译文中的一个词汇或短语有多个翻译结果,则选择其中与用户输入句子中词汇相同的翻译结果,否则选择最常用的翻译结果。在其他实施例中,只要能够保证参照语句的忠实度和客观性,第一翻译模块和第二翻译模块也可以是同一个翻译模块。
接着,执行步骤S204,对所述输入语句和参照语句进行比较,并将所述比较结果提供给所述第一用户,供所述第一用户对所述输入语句进行调整。
具体地,将所述参照语句和输入语句进行比较后,用特殊的方式对所述参照语句和输入语句中的差异词汇进行标注,并将标注结果提供给第一用户进行参考。例如,在差异词汇下面划线、将差异词汇的字体加粗、改变差异词汇字体的颜色等等。通过标注,第一用户可以直观地看出输入语句中没有翻译出来的词汇或者翻译错误的词汇,然后第一用户可以相应地对其输入语句进行调整。
当然了,在某些情况下,虽然译文的量化评价结果低于阈值,但是参照语句的内容表明译文可以大致包含第一用户所要表述的内容,此时,第一用户无需对输入语句进行调整,直接将输入语句发送给第二用户即可。如果第一用户觉得需要调整输入语句,则继续执行步骤S205。
在步骤S205中,获取所述第一用户调整后的输入语句。
具体地,第一用户根据标注的内容,判断原来的输入语句哪里需要进一步的调整,例如,将生僻词语调整为常用词语,将口语化的词语调整为书面化的词语,在译文的质量比较低的情况下,甚至需要对整个句子进行重新输入。
第一用户对输入语句进行调整后,第一翻译模块重新对调整后的输入语句进行翻译,生成译文;然后对该译文进行量化评价,并将该量化评价结果与阈值比较,如果译文质量较高,则将译文输出给第二用户,反之则由第二翻译模块给出参照语句,然后对参照语句和调整后的输入语句进行比较,标注出比较结果后提供给第一用户,为第一用户的再次修改提供依据。重复执行上述步骤,直至调整后的输入语句的译文具有较高的质量时,将所述高质量译文输出给第二用户,结束所述译文的验证过程。
下面,以一个具体实施例对上述方法进行说明。请参考图2至图6,其中,图2至图6为根据本发明一个优选实施例的在跨语言交流的各个阶段中用户聊天界面的示意图。需要说明的是,在这个实施例中,分别以A和B表示第一用户和第二用户,其中,第一用户使用的语言为汉语,第二用户使用的语言为英语,且图2至图7中的聊天界面均为第一用户所使用的聊天界面。
具体地,如图2所示,聊天界面200包括三个区域,分别为聊天记录区201、用户输入区202以及信息显示区203,其中:
所述聊天记录区201显示第一用户和第二用户之间的聊天记录。第一用户使用的语言为汉语,因此,聊天记录区201内的聊天记录均为中文,包括第一用户的历史输入语句以及第二用户的译文。
所述用户输入区202显示第一用户的输入语句。如图所示,第一用户的输入语句为“今天巴西队的表现真是太棒了”。
所述信息显示区203显示译文以及参照语句。如图所示,第一翻译模块对第一用户的输入语句进行翻译后的译文为“Today the brazilteam’s performance is really out of sight”,并给出评价为“☆☆”。由于评价结果低于预定阈值,所以第二翻译模块对译文进行反向翻译,得到参照语句“今天巴西队的表现真的不见”。其中,参照语句与输入语句之间存在差异词汇“不见”,该差异词汇被标注出来,以提示第一用户。优选地,如图3所示,还可以进一步显示译文和参照语句之间的对应关系,便于第一用户了解译文具体哪些地方翻译的不够准确。
第一用户根据参照语句以及差异词汇对输入语句进行调整,如图4所示,将初始的输入语句调整为“今天巴西队的表现真是太好了”。调整后的输入语句的译文质量较高,其评价结果为“☆☆☆”,此时,则认为译文准确表述了第一用户所要表达的意思,所以不再显示参照语句。当然,为了确保将尽可能准确的译文发送给第二用户,对于译文质量较高的输入语句,也可以进行反向翻译,并将参照语句提供给第一用户进行比较。如图5所示,第二翻译模块给出参照语句“今天巴西队的表现很好”,第一用户比较输入语句“今天巴西队的表现真是太好了”以及“今天巴西队的表现很好”,发现表述的含义一致,则认为无需再调整输入语句了。
接着,第一用户发送其输入语句给第二用户。如图6所示,在第一用户的聊天界面上,“今天巴西队的表现真是太好了”将显示在聊天记录区201内,而用户输入区202中的输入语句以及信息显示区203中的内容将被清空。如图7所示,在第二用户的聊天界面上,译文“Today the brazil team’s performance is really good”将被显示。
需要说明的是,图2至图7所示的聊天界面仅为示意图。本领域的技术人员应该可以理解,聊天记录区201、用户输入区202以及信息显示区203的布局方式并不限于此,其还可以是其他方式,如图8所示。为了简明起见,在此不再一一列举。
与现有技术相比,本发明所提供的在跨语言交流中对译文进行验证的方法具有以下优点:
1)在跨语言交流中,在对用户的输入语句进行翻译获取译文后,计算该译文的置信度,以及通过对该译文进行反向翻译得到参照语句,并对该参照语句和用户的输入语句进行比较。本发明所提供的对译文进行验证的方法通过上述两种方式为用户提供了译文正确性的判断信息,从而使用户可以更加充分地了解译文质量的高低;
2)对于质量较低的译文,用户可以根据参照语句与输入语句之间的对比结果对输入语句进行相应地调整(例如将生僻词调整为常用词等),从而得到更加准确的译文。因此,本发明所提供的对译文进行验证的方法可以有效地降低错误译文的概率,减少跨语言用户之间发生误解的机会,从而促进跨语言交流的发展。
根据本发明的另一个方面,还提供了一种在跨语言交流中对译文进行验证的装置。
请参考图9(a)所示,图9(a)为根据本发明一个优选实施例的在跨语言交流中对译文进行验证的装置示意图。该装置300包括输入获取模块301、第一翻译模块302、第二翻译模块303、语句比较模块304、语句显示模块305、译文输出模块306,其中:
所述输入获取模块301,用于对第一用户的输入语句进行获取;
所述第一翻译模块302,用于对第一用户的输入语句进行翻译,获得译文;
所述第二翻译模块303,用于对所述译文进行反向翻译,获得参照语句;
所述语句比较模块304,用于对所述第一用户的输入语句和参照语句进行差异比较,并将所述比较结果提供给所述第一用户,供所述第一用户对所述输入语句进行调整;
所述语句显示模块305,用于对第一用户的输入语句、译文、参照语句、差异比较结果进行显示;
所述输入获取模块301获取第一用户调整后的输入语句后,所述第一翻译模块302、所述第二翻译模块303、所述语句比较模块304、所述语句显示模块305一次或者多次执行相应的步骤,直至所述译文输出模块306将最终的译文输出给第二用户。
下面,对本发明所提供的对译文进行验证的装置的工作过程进行具体说明。
首先,当第一用户和第二用户进行网络聊天的时候,第一用户使用汉语进行输入,以发起谈话或者对第二用户的话题进行回复。其中,第一用户的输入语句可以是一句话,也可以是一段话。输入获取模块301获取第一用户的输入语句后,将该输入语句发送至语句显示模块305进行显示,以及发送至第一翻译模块302进行翻译,生成译文。在本实施例中,第一用户使用的语言为汉语,第二用户使用的语言为英语。其中,第一翻译模块302采用的翻译方法包括但不限于基于统计的翻译方法、基于实例的翻译方法或者基于规则的翻译方法。译文生成后,第一翻译模块302将译文发送至语句显示模块305,在聊天界面上进行显示。
接着,为了使第一用户了解译文质量的高低,第二翻译模块303对该译文进行反向翻译,即,使用第一用户的语言将该译文反向翻译回去,生成参照语句,并由语句显示模块305在聊天界面上对该参照语句进行显示,提供给第一用户。在本实施例中,第二翻译模块303将英语译文翻译成汉语的参照语句。生成参照语句的目的在于,使第一用户通过该参照语句可以判断出该译文是否包含了其输入语句的含义。
为了使参照语句尽可能忠实于译文且更为客观,优选地,第二翻译模块303不同于第一翻译模块302,即,第一翻译模块302和第二翻译模块303二者相互独立。反向翻译后的参照语句只要保证第一用户可以了解到译文的主要含义即可,因此,在本实施例中,第二翻译模块303优选采用基于词典的翻译方法。其中,基于词典的翻译方法的过程如下:第二翻译模块303从左到右依次查询待反向翻译译文中每个词汇或短语在词典中相应的翻译结果,如果译文中的一个词汇或短语有多个翻译结果,则选择其中与用户输入句子中词汇相同的翻译结果,否则选择最常用的翻译结果。在其他实施例中,只要能够保证参照语句的忠实度和客观性,第一翻译模块302和第二翻译模块303也可以是同一个翻译模块。
接着,语句比较模块304将所述参照语句和输入语句进行比较后,用特殊的方式对所述参照语句和输入语句中的差异词汇进行标注,并通过语句显示模块305在聊天界面上将标注结果提供给第一用户进行参考。例如,语句比较模块304在差异词汇下面划线、将差异词汇的字体加粗、改变差异词汇字体的颜色等等。通过标注,第一用户可以直观地看出输入语句中没有翻译出来的词汇或者翻译错误的词汇,然后第一用户可以相应地对其输入语句进行调整。
第一用户根据标注的内容,判断原来的输入语句哪里需要进一步的调整,例如,将生僻词语调整为常用词语,将口语化的词语调整为书面化的词语,在译文的质量比较低的情况下,甚至需要对整个句子进行重新输入。输入获取模块301获取第一用户调整后的输入语句后,将调整后的输入语句发送给第一翻译模块302,再次进行翻译。由于第一用户对其初始输入进行了调整,因此,第一翻译模块302对调整后的输入语句进行翻译后,所给出的新的译文的质量将相应有所提高。如此一来,译文输出模块306将新的译文发送给第二用户。
在其他实施例中,也可能会存在需要第一用户对输入语句进行多次调整的情况,因此,所述第一翻译模块302、所述第二翻译模块303、所述语句比较模块304、所述语句显示模块305多次执行相应的步骤,直至第一用户认为最终形成的参照语句和其调整后的语句之间不存在差异或者存在的差异不影响译文所表达的含义的时候,所述译文输出模块306将最终的译文输出给第二用户。
请参考图9(b)所示,图9(b)为根据本发明另一个优选实施例的在跨语言交流中对译文进行验证的装置示意图。该装置400包括输入获取模块401、第一翻译模块402、质量评价模块403、阈值比较模块404、第二翻译模块405、语句比较模块406、语句显示模块407、译文输出模块408,其中:
所述输入获取模块401,用于对第一用户的输入语句进行获取;
所述第一翻译模块402,对第一用户的输入语句进行翻译,获得译文;
所述质量评价模块403,对所述译文的质量进行评价;
所述阈值比较模块404,将所述评价结果和阈值进行比较,如果所述译文的质量高于该阈值,则所述译文输出模块408将所述译文进行输出给第二用户;否则,所述第二翻译模块405对所述译文进行反向翻译,获得参照语句,并将该参照语句发送至所述语句比较模块406;
所述语句比较模块406,对所述输入语句和参照语句进行比较,并将所述比较结果提供给所述第一用户,供所述第一用户对所述输入语句进行调整;
所述语句显示模块407,显示所述第一用户和第二用户之间的聊天记录、第一用户的输入语句、译文以及参照语句;
所述输入获取模块401获取第一用户调整后的输入语句后,所述第一翻译模块402、所述质量评价模块403、所述阈值比较模块404、所述第二翻译模块405、所述语句比较模块406、所述语句显示模块407一次或者多次执行相应的步骤,直至所述译文输出模块408将最终的译文输出给第二用户。
下面,对本发明所提供的对译文进行验证的装置的工作过程进行具体说明。
当第一用户和第二用户进行网络聊天的时候,第一用户使用汉语进行输入,以发起谈话或者对第二用户的话题进行回复。其中,第一用户的输入语句可以是一句话,也可以是一段话。输入获取模块401获取第一用户的输入语句后,将该输入语句发送至语句显示模块407进行显示,以及发送至第一翻译模块402进行翻译,生成译文。在本实施例中,第一用户使用的语言为汉语,第二用户使用的语言为英语。其中,第一翻译模块402采用的翻译方法包括但不限于基于统计的翻译方法、基于实例的翻译方法或者基于规则的翻译方法。译文生成后,第一翻译模块402将译文发送至语句显示模块407,在聊天界面上进行显示。
接着,为了使用户可以了解第一翻译模块给出的译文的质量(即译文的重要度)的高低,质量评价模块403对所述译文的质量进行量化评价。质量评价模块403对译文质量的量化评价的方式有很多种。在本实施例中,质量评价模块403基于译文的特征利用log-linear模型计算译文的置信度,其中,译文的置信度数值较大,则说明该译文的质量较高,反之则说明该译文在表述第一用户的意思时存在不准确的内容,这些不准确的内容有可能会导致第二用户产生误会。优选地,质量评价模块403还可以使用其他更为直观的方式对译文质量进行评价。例如,在计算出译文置信度之后,根据置信度数值的大小,将译文的质量分为“高”、“中”、“低”。再例如,质量评价模块403还可以使用人们习惯的评分标识来表示,如质量较高的译文用“☆☆☆”来表示,质量一般的译文用“☆☆”来表示,而质量较低的译文用“☆”来表示。质量评价模块403对译文进行量化评价后,语句显示模块407将评价结果在聊天界面上进行显示。
质量评价模块403对译文给出量化评价后,阈值比较模块404将该量化评价与预定阈值进行比较,如果所述量化评价高于所述阈值,则认为该译文的质量较高,可以较为准确地表达第一用户想要表述的内容,此时,译文输出模块408将该译文输出给第二用户,结束对所述译文的验证;如果所述量化评价低于所述阈值,则认为该译文可能不能准确地表达第一用户想要表述的内容,此时,第二翻译模块405对该译文进行反向翻译,即,使用第一用户的语言将该译文反向翻译回去,生成参照语句,然后将该参照语句发送至语句显示模块407,在聊天界面上进行显示。为了使参照语句尽可能忠实于译文且更为客观,优选地,第二翻译模块405不同于第一翻译模块402,即,第一翻译模块402和第二翻译模块405二者相互独立。反向翻译后的参照语句只要保证第一用户可以了解到译文的主要含义即可,因此,在本实施例中,第二翻译模块405优选采用基于词典的翻译方法。在其他实施例中,只要能够保证参照语句的忠实度和客观性,第一翻译模块402和第二翻译模块405也可以是同一个翻译模块。此外,第二翻译模块405还可以生成译文和参照语句之间词汇的对应关系。
接着,语句比较模块406将所述参照语句和输入语句进行比较,找出参照语句和输入语句之间的差异词汇,然后,将比较结果发送至语句显示模块407,语句显示模块407用特殊的方式在聊天界面上显示所述差异词汇。例如,在差异词汇下面划线、将差异词汇的字体加粗、改变差异词汇字体的颜色等等。
第一用户根据差异词汇的内容,判断原来的输入语句哪里需要进一步的调整,例如,将生僻词语调整为常用词语,将口语化的词语调整为书面化的词语,在译文的质量比较低的情况下,甚至需要对整个句子进行重新输入。
第一用户对输入语句进行调整后,第一翻译模块402重新对调整后的输入语句进行翻译,生成译文;然后质量评价模块403对该译文进行量化评价,阈值比较模块404将该量化评价结果与阈值比较,如果译文质量较高,则译文输出模块408将译文输出给第二用户,反之则由第二翻译模块405给出参照语句,然后语句比较模块406对参照语句和调整后的输入语句进行比较,并将比较结果后提供给第一用户,为第一用户的再次修改提供依据。重复执行上述步骤,直至调整后的输入语句的译文具有较高的质量时,译文输出模块408将所述高质量译文输出给第二用户,结束所述译文的验证过程。
请参考图2至图7所示(图2至图6为第一用户使用的聊天界面,图7为第二用户使用的聊天界面),以一个具体实施例对语句显示模块所显示的聊天界面进行说明。具体地,语句显示模块在聊天界面上的显示包括三个区域,分别为聊天记录区201、用户输入区202以及信息显示区203,其中,所述聊天记录区201显示第一用户和第二用户之间的聊天记录;所述用户输入区202显示第一用户的输入语句;所述信息显示区203显示译文、量化评价结果以及参照语句,如果第二翻译模块给出了译文和参照语句之间词汇的对应关系,则该对应关系也相应被显示在信息显示区203内。需要说明的是,图2至图7所示的聊天界面仅为示意图。本领域的技术人员应该可以理解,聊天记录区201、用户输入区202以及信息显示区203的布局方式并不限于此,其还可以是其他方式,如图8所示。为了简明起见,在此不再一一列举。
本发明所提供的在跨语言交流中对译文进行验证的装置具有以下优点:
1)在跨语言交流中,在对用户的输入语句进行翻译获取译文后,计算该译文的置信度,以及通过对该译文进行反向翻译得到参照语句,并对该参照语句和用户的输入语句进行比较。本发明所提供的对译文进行验证的装置通过上述两种方式为用户提供了译文正确性的判断信息,从而使用户可以更加充分地了解译文质量的高低;
2)对于质量较低的译文,用户可以根据参照语句与输入语句之间的对比结果对输入语句进行相应地调整(例如将生僻词调整为常用词等),从而得到更加准确的译文。因此,本发明所提供的对译文进行验证的装置可以有效地降低错误译文的概率,减少跨语言用户之间发生误解的机会,从而促进跨语言交流的发展。
本发明提供的在跨语言交流中对译文进行验证方法可以使用可编程逻辑器件结合来实现,也可以实施为计算机程序软件,例如根据本发明的实施例可以是一种计算机程序产品,运行该程序产品使计算机执行用于所示范的方法。所述计算机程序产品包括计算机可读存储介质,该介质上包含计算机程序逻辑或代码部分,用于实现所述在跨语言交流中对译文进行验证的方法。所述计算机可读存储介质可以是被安装在计算机中的内置介质或者可从计算机主体拆卸的可移动介质(例如热拔插技术存储设)。所述内置介质包括但不限于可重写的非易失性存储器,例如RAM、ROM、快闪存储器和硬盘。所述可移动介质包括但不限于:光存储媒体(例如CD-ROM和DVD)、磁光存储媒体(例如MO)、磁存储媒体(例如盒带或移动硬盘)、具有内置的可重写的非易失性存储器的媒体(例如存储卡)和具有内置ROM的媒体(例如ROM盒)。
以上所揭露的仅为本发明的一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种在跨语言交流中对译文进行验证的方法,该方法包括以下步骤:
a)利用第一翻译模块对第一用户的输入语句进行翻译,获得译文;
b)利用第二翻译模块对所述译文进行反向翻译,获得参照语句;
c)对所述第一用户的输入语句和参照语句进行差异比较,并将比较结果提供给所述第一用户,供所述第一用户对输入语句进行调整;
d)获取所述第一用户调整后的输入语句;
e)利用第一翻译模块对调整后的输入语句进行翻译,获得新的译文;
f)将所述新的译文发送给第二用户。
2.根据权利要求1所述的方法,其中,在所述步骤f)之前重复执行步骤b)至步骤e),获取新的译文。
3.根据权利要求1或2所述的方法,在所述步骤a)之后还包括:
g)对所述译文质量进行量化评价,将所述量化评价的结果与预定阈值进行比较,如果所述评价结果高于所述阈值,则将所述译文输出给第二用户,结束所述译文的验证;否则,执行步骤b)至步骤f)。
4.根据权利要求1或2所述的方法,其中,所述步骤c)包括:
将所述参照语句和输入语句进行比较,标注所述参照语句和输入语句中的差异词汇。
5.根据权利要求3所述的方法,其中,对所述译文质量进行量化评价的步骤包括:
基于所述译文的特征,利用log-linear模型计算所述译文的置信度。
6.根据权利要求1或2所述的方法,其中:
所述第一翻译模块采用的翻译方法包括基于统计的翻译方法、基于实例的翻译方法、基于规则的翻译方法中的一种或者多种。
7.根据权利要求1或2所述的方法,其中,所述第二翻译模块采用基于词典的翻译方法。
8.一种在跨语言交流中对译文进行验证的装置,包括输入获取模块、第一翻译模块、第二翻译模块、语句比较模块、语句显示模块、译文输出模块,其中:
所述输入获取模块,用于对第一用户的输入语句进行获取;
所述第一翻译模块,用于对第一用户的输入语句进行翻译,获得译文;
所述第二翻译模块,用于对所述译文进行反向翻译,获得参照语句;
所述语句比较模块,用于对所述第一用户的输入语句和参照语句进行差异比较,并将所述比较结果提供给所述第一用户,供所述第一用户对所述输入语句进行调整;
所述语句显示模块,用于对第一用户的输入语句、译文、参照语句、差异比较结果进行显示。
9.根据权利要求8所述的装置,还包括:
质量评价模块,用于对所述译文的质量进行评价;
阈值比较模块,用于将所述评价结果和阈值进行比较,如果所述译文的质量高于该阈值,则所述译文输出模块将所述译文进行输出给第二用户;否则,所述第二翻译模块、所述语句比较模块、所述语句显示模块完成相应的步骤,直至所述译文输出模块将最终的译文输出给第二用户。
10.根据权利要求8或9所述的装置,其中:
所述语句比较模块将所述参照语句和输入语句进行比较,标注所述参照语句和输入语句中的差异词汇。
11.根据权利要求9所述的装置,其中:
所述质量评价模块基于所述译文的特征,利用log-linear模型计算所述译文的置信度。
12.根据权利要求8或9所述的装置,其中:
所述第一翻译模块采用的翻译方法包括基于统计的翻译方法、基于实例的翻译方法、基于规则的翻译方法中的一种或者多种。
13.根据权利要求8或9所述的装置,其中,所述第二翻译模块采用基于词典的翻译方法。
14.根据权利要求8或9所述的装置,其中:
所述语句显示模块进行显示的区域包括聊天记录区、用户输入区以及信息显示区,其中:
所述聊天记录区,用于显示第一用户和第二用户之间的聊天记录;
所述用户输入区,用于显示第一用户的输入语句;
所述信息显示区,用于显示译文、量化评价结果以及参照语句。
15.根据权利要求8或9所述的装置,其中:
所述输入获取模块获取第一用户调整后的输入语句后,所述第一翻译模块、所述第二翻译模块、所述语句比较模块、所述语句显示模块一次或者多次执行相应的步骤,直至所述译文输出模块将最终的译文输出给第二用户。
CN2012100943815A 2012-04-01 2012-04-01 一种在跨语言交流中对译文进行验证的方法和装置 Pending CN102662934A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012100943815A CN102662934A (zh) 2012-04-01 2012-04-01 一种在跨语言交流中对译文进行验证的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012100943815A CN102662934A (zh) 2012-04-01 2012-04-01 一种在跨语言交流中对译文进行验证的方法和装置

Publications (1)

Publication Number Publication Date
CN102662934A true CN102662934A (zh) 2012-09-12

Family

ID=46772429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012100943815A Pending CN102662934A (zh) 2012-04-01 2012-04-01 一种在跨语言交流中对译文进行验证的方法和装置

Country Status (1)

Country Link
CN (1) CN102662934A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503960A (zh) * 2015-01-07 2015-04-08 渤海大学 一种用于英语翻译的文本数据处理方法
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
CN108228574A (zh) * 2017-12-07 2018-06-29 科大讯飞股份有限公司 文本翻译处理方法及装置
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108681540A (zh) * 2018-07-02 2018-10-19 北京分音塔科技有限公司 正向反向验证翻译装置
CN108710616A (zh) * 2018-05-23 2018-10-26 科大讯飞股份有限公司 一种语音翻译方法及装置
CN111680525A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向差异识别的人机共译方法与***
CN111680526A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译***与方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102043774A (zh) * 2011-01-13 2011-05-04 北京交通大学 机器翻译测评装置和方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503960A (zh) * 2015-01-07 2015-04-08 渤海大学 一种用于英语翻译的文本数据处理方法
CN104731777B (zh) * 2015-03-31 2019-02-01 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
CN107193807A (zh) * 2017-05-12 2017-09-22 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
US10664666B2 (en) 2017-05-12 2020-05-26 Beijing Baidu Netcom Science And Technology Co., Ltd. Language conversion method and device based on artificial intelligence and terminal
CN108228574B (zh) * 2017-12-07 2020-07-28 科大讯飞股份有限公司 文本翻译处理方法及装置
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108228574A (zh) * 2017-12-07 2018-06-29 科大讯飞股份有限公司 文本翻译处理方法及装置
CN108304389B (zh) * 2017-12-07 2021-06-08 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108710616A (zh) * 2018-05-23 2018-10-26 科大讯飞股份有限公司 一种语音翻译方法及装置
CN108681540A (zh) * 2018-07-02 2018-10-19 北京分音塔科技有限公司 正向反向验证翻译装置
CN111680525A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向差异识别的人机共译方法与***
CN111680526A (zh) * 2020-06-09 2020-09-18 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译***与方法
CN111680526B (zh) * 2020-06-09 2023-09-08 语联网(武汉)信息技术有限公司 基于逆向翻译结果比对的人机交互翻译***与方法
CN111680525B (zh) * 2020-06-09 2024-03-26 语联网(武汉)信息技术有限公司 基于逆向差异识别的人机共译方法与***

Similar Documents

Publication Publication Date Title
CN102662934A (zh) 一种在跨语言交流中对译文进行验证的方法和装置
Heilman et al. Combining lexical and grammatical features to improve readability measures for first and second language texts
CN103154936B (zh) 用于自动化文本校正的方法和***
Sato et al. Automatic Assessment of Japanese Text Readability Based on a Textbook Corpus.
US8688698B1 (en) Automatic text suggestion
US20160371250A1 (en) Text suggestion using a predictive grammar model
CN105468585A (zh) 机器翻译装置和机器翻译方法
US20070005345A1 (en) Generating Chinese language couplets
CN113221545B (zh) 一种文本处理方法、装置、设备及介质、程序产品
Tsvetkov et al. Cross-lingual bridges with models of lexical borrowing
US20220164520A1 (en) Automatic document sketching
Prabhakar et al. Machine transliteration and transliterated text retrieval: a survey
Rijhwani et al. Lexically aware semi-supervised learning for OCR post-correction
Teich et al. Translation, information theory and cognition
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
JP4963245B2 (ja) 構文・意味解析結果ランキングモデル作成方法および装置、プログラム並びに記録媒体
CN112528628A (zh) 一种文本处理的方法、装置及电子设备
Rytting et al. Spelling correction for dialectal Arabic dictionary lookup
CN103823795A (zh) 机器翻译***、机器翻译方法和与其一起使用的解码器
Andrés et al. Search for hyphenated words in probabilistic indices: a machine learning approach
Wolk Machine Learning in Translation corpora processing
CN112183117B (zh) 一种翻译评价的方法、装置、存储介质及电子设备
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
JP5182954B2 (ja) 穴埋問題生成装置及びそのプログラム
Simianer Preference Learning for Machine Translation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20120912