一种用于提高机器翻译质量的装置和方法
技术领域
本发明涉及机器翻译技术,尤其涉及一种用于提高机器翻译质量的装置和方法。
背景技术
随着因特网的发展,世界各国不同语言的人们在现实中和网上的交流也越来越多,越来越密切。随之而来产生了各种机器翻译工具。机器翻译通过用计算机实现不同语种之间的翻译。虽然机器翻译的质量在不断提高,但是,到现在为止,机器翻译仍然不能替代人工翻译,甚至会出现翻译的句子让使用者看不懂的情况。
现有的机器翻译质量检查方法主要是用于进行机器翻译质量的评测,例如是,通过对比机器翻译的输出和人工翻译的输出,最终计算出一个数字值,用这个数字值来评价机器翻译的质量。这种机器翻译质量评测的流程为基于机器翻译***的输出译文与预先指定的参考译文之间的字符串匹配,也就是在参考译文中查找在输出译文中出现的字符串。对于匹配到的字符串的处理方式有很多种,基于N-gram(N元语法)共现的方法是目前机器翻译自动评测技术中的主要方法,如BLEU(Bilingual Evaluation Understudy)和NIST(US NationalInstitute of Standards and Technology)。该方法需要多个翻译人员独立的将同样的源语言文本信息翻译成目标语言文本信息,而且,为了评价更合理准确,一般需要对相当长度的源语言文本信息进行评价,给出综合的评价结果。这种方法适于机器翻译的评测和比赛,但是对普通用户来说,以数字值表示的机器翻译质量的评价结果或许不能让他直观地理解。比如,一个日本人使用机器翻译工具时,他想将日文源语言文本信息翻译成中文文本信息,机器翻译的评测***告诉他翻译结果的BLEU值是0.3,但是他仍然无法判断整体的翻译质量,也不清楚究竟是哪段文本信息翻译的质量差。
而且,这种评测由于依赖于人工翻译员的翻译结果,成本比较高。而且,这种评测是针对给定的源语言信息的,不能够对用户实时输入的源语言信息的翻译质量进行评测。
另外,在现有的机器翻译***中,即使用户知道了翻译的目标语言结果不好,一般也没有办法去有效改进机器翻译输出的目标语言结果。
发明内容
为了解决现有技术中机器翻译效果不理想的问题,本发明在一个方面提供一种用于提高机器翻译质量的装置,该装置包括:源语言输入模块,用于让用户输入要翻译的源语言,并显示用户输入的源语言;机器翻译模块,用于将用户在源语言输入模块中输入的源语言翻译成目标语言;机器翻译结果呈现模块,用于呈现经过机器翻译模块翻译后的目标语言;机器翻译结果检查模块,用于把经过机器翻译模块翻译后的目标语言,翻译成与源语言语种相同的对比语言;机器翻译结果检查显示模块,显示机器翻译结果检查模块翻译后的与源语言语种相同的对比语言。
在前述的提高机器翻译质量的装置中,还包括源语言编辑模块,用于提供与所述要翻译的源语言相关的信息,使得用户可以选择并更改其中的一些与源语言相关的信息,供机器翻译模块参考来进行翻译。
在前述的提高机器翻译质量的装置中,其进一步包括源语言反馈信息呈现模块,用于呈现机器翻译模块翻译时所使用的与要翻译的源语言相关的信息。
在前述的提高机器翻译质量的装置中,其中所述的与所述要翻译的源语言相关的信息是通过可以选择的选项的方式提供的。可替换的是其中所述的与所述要翻译的源语言相关的信息是通过结构树的形式体现的,该结构树可以通过拖拉、点击的方式进行变化。
本发明提高机器翻译质量的装置中,其中所述的与要翻译的源语言相关的信息包括源语言的分词信息、词法信息和语法信息中的至少一种。
在上述的提高机器翻译质量的装置中,其中所述的分词是通过用符号的方式将源语言分成多个语言信息单位。
在前述的提高机器翻译质量的装置中,其中所述的符号有逗号,空格,斜划线。
在上述的提高机器翻译质量的装置中,其中所述的源语言输入模块、机器翻译结果呈现模块和机器翻译结果检查显示模块是Html或者Java网页上的输入区域或者显示区域,或者是计算机或单片机中的应用软件产生的输入区域或者显示区域。
在前述的提高机器翻译质量的装置中,其中所述的机器翻译模块通过以下的至少一种方式对所述要翻译的源语言进行处理:对源语言信息的分词,将源语言信息分成多个语言信息单位;对源语言信息的词性分析,将源语言信息的多个语言信息单位的词性进行分析;以及对源语言信息的语法分析,将源语言信息的多个语言信息单位之间的语法进行分析。
在上述的提高机器翻译质量的装置中,其中所述的机器翻译结果检查模块还用于将所述输入模块输入的源语言和所述机器翻译结果检查模块翻译后的对比语言进行比较,并计算出一个相似度的分数。
在前述的提高机器翻译质量的装置中,其中所述的机器翻译结果检查显示模块还显示所述相似度分数,供使用者参考。
本发明在另一方面提供一种用于提高机器翻译质量的装置,其包括:源语言输入模块,用于让用户输入要翻译的源语言,并显示用户输入的源语言;机器翻译模块,用于将用户在源语言输入模块中输入的源语言翻译成目标语言;机器翻译结果呈现模块,用于呈现经过机器翻译模块翻译后的目标语言;源语言编辑模块,用于提供与所述要翻译的源语言相关的信息,使得用户可以选择并更改其中的一些与源语言相关的信息,供机器翻译模块参考来进行翻译。
在前述的提高机器翻译质量的装置中,进一步包括源语言反馈信息呈现模块,用于呈现机器翻译模块翻译时所使用的与要翻译的源语言相关的信息。
在上述的提高机器翻译质量的装置,其中所述的与要翻译的源语言相关的信息包括源语言的分词信息、词法信息和语法信息中的至少一种。
在上述的提高机器翻译质量的装置中,其包括:机器翻译结果检查模块,用于把经过机器翻译模块翻译后的目标语言,翻译成与源语言语种相同的对比语言;机器翻译结果检查显示模块,显示机器翻译结果检查模块翻译后的与源语言语种相同的对比语言。
在上述的提高机器翻译质量的装置中,其中所述的机器翻译模块通过以下的至少一种方式对所述要翻译的源语言进行处理:对源语言信息的分词,将源语言信息分成多个语言信息单位;对源语言信息的词性分析,将源语言信息的多个语言信息单位的词性进行分析;以及对源语言信息的语法分析,将源语言信息的多个语言信息单位之间的语法进行分析。
在上述的提高机器翻译质量的装置中,其中所述的与所述要翻译的源语言相关的信息是通过选项的方式提供的。可替换的是,其中所述的与所述要翻译的源语言相关的信息是通过结构树的形式体现的,该结构树可以通过拖拉、点击的方式进行变化。
在上述的提高机器翻译质量的装置中,其中所述的与要翻译的源语言相关的信息包括源语言的分词信息、词法信息和语法信息中的至少一种。
在上述的提高机器翻译质量的装置中,其中所述的分词是通过用符号的方式将源语言分成多个语言信息单位。
在前述的提高机器翻译质量的装置中,其中所述的符号有逗号,空格,斜划线。
在上述的提高机器翻译质量的装置中,其中所述的源语言输入模块、机器翻译结果呈现模块和机器翻译结果检查显示模块是Html或者Java网页上的输入区域或者显示区域,或者是计算机或单片机中的应用软件产生的输入区域或者显示区域。
在上述的提高机器翻译质量的装置中,所述的机器翻译结果检查模块还用于将所述输入模块输入的源语言和所述机器翻译结果检查模块翻译后的对比语言进行比较,并计算出一个相似度的分数。
在上述的提高机器翻译质量的装置中,其中所述的机器翻译结果检查显示模块还显示所述相似度分数,供使用者参考。
附图说明
图1所示为根据本发明提高机器翻译质量的装置的实施例。
图2所示为根据本发明提高机器翻译质量的装置的实施例的变化例。
图3所示为根据本发明提高机器翻译质量的装置进行翻译时对源语言的词性进行编辑的用户界面示例。
图4所示为根据本发明提高机器翻译质量的装置进行翻译时对源语言的词性进行编辑的用户界面的另一个示例。
图5a所示为根据本发明的用于计算机分析的一个句子的语法树。
图5b所示为根据本发明的句子树结构。
图6所示为根据本发明的用于提高机器翻译质量的***工作流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下列举实施例并参照附图,对本发明进一步详细说明。
图1所示为根据本发明第一实施例的提高机器翻译质量的装置。该装置包括:用于输入并呈现源语言信息的源语言输入模块1;将用户在源语言输入模块1输入的源语言信息翻译成目标语言信息的机器翻译模块2,该机器翻译模块2例如可以体现为计算机或者单片机上的CPU的一个进程;用于呈现机器翻译模块2翻译后的目标语言信息的机器翻译结果呈现模块3;把机器翻译模块2翻译的目标语言信息再次翻译成用于和前述的源语言进行对比的源语言对比信息的机器翻译结果检查模块4;和用于呈现机器翻译结果检查模块4翻译后的用于对比的源语言对比信息的机器翻译结果检查呈现模块5。源语言输入模块1、机器翻译结果呈现模块3和/或机器翻译结果检查呈现模块5例如可以为html或者Java网页上的输入或者/和显示区域,或者计算机或单片机中的应用软件产生的输入或者/和显示区域。触发前述翻译模块2和机器翻译检查模块4的翻译功能的为机器翻译触发模块/按键10和机器翻译检查触发模块/按键11,它们例如可以体现为网页上或者单机程序上的两个分开的按键,或者可以区分这两个功能的其它方式实现。按键10上可以有“翻译”的字样,而按键11上可以有“检查”的字样。
在本发明实施例的用于提高翻译质量的装置中的机器翻译模块2的作用还体现在于,但不限于,对源语言的词汇的词性进行分析、对源语言的句子进行断句/分词分析、语法分析和/或词法分析。比如,当源语言是“她喜欢把和服装在大袋子里面”时,机器翻译模块2将该源语言信息分成多个语言信息单位:她,喜欢,把,和服,装,在,大,袋子,里面,供所述机器翻译模块2的翻译过程所用。在进行所述分词的过程中,除了上述的分词处理(即对要翻译的源语言信息进行断句),机器翻译模块2还用于对源语言信息的词性分析,将源语言信息的多个语言信息单位的词性以及语法进行分析,再进行翻译。
而机器翻译结果检查模块4也具有与机器翻译模块类似的词性分析、句子的断句/分词分析和/或词法分析等等其中的一些或者全部功能,但翻译的语言是相反的。在此不再赘述。
在一个变化的实施例中,所述的机器翻译结果检查模块4还可以用于将在所述输入模块1输入的源语言信息和所述机器翻译结果检查模块4翻译后的对比的源语言信息进行比较,并计算出一个相似度的分数。该相似度的分数的计算方法可以利用已知的算法,如基于n元语法(N-gram)的BLEU和NIST方法。该相似度分数可以通过机器翻译结果检查显示模块5进行显示,供用户参考。
在一个变化的实施例中,如图2所示,在前述的提高机器翻译质量的装置的基础上还包括源语言反馈信息呈现模块6,用于呈现机器翻译模块2在翻译所述源语言信息时用到的分词信息、词法信息和语法信息等等,供用户参考。根据实际的应用,可以选择前述的分词信息、词法信息和语法信息中的一种或者几种或者都呈现在源语言反馈信息呈现模块6中。如源语言反馈信息呈现模块6显示为一个html输入框,该输入框可以显示机器翻译模块2生成的分词结果”她 喜欢 把 和 服装 在 大 袋子 里面”,词和词之间的由空格隔开。可替换的是,也可以用其它方式进行分词,比如用逗号“,”或者“/”,等等。如源语言是“她喜欢把和服装在大袋子里面。”机器翻译的英文为“She likes to put inside the bag and clothingin large.”机器翻译的检查结果为“她喜欢把内袋和大型服装。”虽然用户不懂英文,但是仍然能判断出,机器没有翻译出“和服”这个单词。通过本***提供的分词结果显示界面,用户可以清楚地看到错误源语言分词结果“她喜欢把和服装在大袋子里面。”这样即使用户不懂英文,但是他仍然能确认机器翻译发生的分词错误。
但是由于在实际应用中,所述的词汇分割结果可能会有不同的结果。例如上述句子中的词汇有可能会被分成:她,喜欢,把,和,服装,在,大,袋子,里面。当用户在源语言反馈信息呈现模块6中看到这个分词信息的反馈时,他/她可以断定这个翻译很有可能会出现错误。为了校正这样的分词,在前述的提高机器翻译质量的装置中还可以具有一个源语言信息编辑模块7,用于供用户编辑源语言反馈信息显示模块6显示的信息。比如,用户在词之间加上空格或者逗号“,”或者“/”编辑后的信息输入到机器翻译模块2进行翻译。对源语言进行编辑例如可以是在源语言输入模块1中进行。在另一种图像界面的实现中,每个源语言短语都是显示在一个按钮上,按钮之间显示间隔以表示分词;用鼠标点击可以分离和合并按钮,从而达到编辑分词的目的。如一个按钮上显示“服装”,用鼠标双击“服装”两个字中间的位置,这一个按钮就分离成两个按钮,按钮上分别显示“服”和“装”;又如“和”和“服”分别显示在两个按钮中,按住Ctrl键不释放,再用鼠标左键先后单击“和”按钮和“服”按钮,“和”按钮和“服”按钮就合并为一个按钮,按钮上显示“和服”表示合并为一个短语。
他可以通过编辑界面改正这个分词错误,如改正为“她喜欢把和服装在大袋子里面。”,即把“和服”合并为一个词。然后再次进行翻译,机器翻译模块就可以利用新输入的分析信息,翻译结果改正为“She likes the kimono packed in big bags inside.”。机器翻译的检查结果为“她喜欢在大袋包装里面的和服。”用户可以清楚的看到机器翻译的质量的改进。
用户还可以进行其它方式的编辑,例如,源语言为中文,目标语言为英文。源语言是“我是县长派来的。”机器翻译的英文为“I am a magistrate sent”。假设用户并不懂英文。但用户点击“检查”按键(机器翻译结果检查触发模块11),触发机器翻译结果检查模块4,机器翻译结果检查模块4将“I am a magistrate sent”进行翻译并显示结果为“我是裁判官发出。”在翻译结果的检查结果呈现模块5,这样用户就知道机器很有可能没有正确地翻译源语言。为了修正翻译的结果,用户可以更改表达方式,如将源语言改为“我是被县长派来的。”机器翻译的英文为“I was sent by county head.”机器翻译的检查结果为“我是被县长送来的。”这样,用户可以再次检查这个回翻的结果。当用户确定检查到的回翻结果基本上和源语言一致,便可以确认机器翻译的英文结果比较可靠。
除了上述的源语言的编辑方法之外,用户还可以编辑源语言的词性。图3所示为根据本发明提高机器翻译质量的装置进行翻译时对源语言的词性进行编辑的用户界面示例。如图3所示,其中一种实现方式为:在分词结果下面的位置,每个词的下面显示着每个词的词性。用户可以在词性分析结果中,在可选项中选择正确的词性,也可以通过“增加新词性”按键对词语增加未显示的词性,如图4所示。如源语言是“回回考满分。”用户可以通过词性编辑模块,将“回回”选择为量词。然后再运行机器翻译,机器翻译的结果为“Get full marks everytime.”机器翻译的检查结果为“每次都得到满分”(未示)。用户可以知道机器翻译的结果基本正确。
另外,用户还可以对要翻译的源语言的语法进行编辑。图5a和图5b所示的是其中的一种实现方式,句法结构树。具体为:在计算机浏览器中,通过交互界面(如Flash或者Java实现),显示出树形的句法结构,让用户可以知道计算机分析的句法结构树,相关短语的结合关系,图形界面可以通过颜色、字体等显示方式的区别不同的成分,高亮等方式区别选中和未选中的短语。同时,用户可以通过鼠标的拖拉,点击,实现句法结构树的改变。例如图5a为计算机分析的一个句子的语法树,计算机一般根据已有的句法分析工具计算句法树,但是,在这样的计算结果有时是不符合用户的本来想法的。如图5a中,用户本来是想说“我看到一个望远镜和一个女孩子在一起”。用户通过短语直接的结合关系,可以很清楚的看到“with atelescope”是用来修饰“saw a girl”的,而且“a girl”和“with a telescope”并没有结合在一起。这样,用户可以判断这个句法分析是错误的,由这样的句法分析结果分析出来的目标语言很可能是不正确的。
用户这个时候可以删除,添加和移动句子树结构,生成如图5b所示的句子树结构,在这个结构中“a girl”和“with a telescope”结合在一起,为“saw”做宾语,符合用户的本来含义。这样,用户再次启动翻译按钮,则机器翻译的结果更正确。
机器翻译模块可以生成多个语法树生成,可以显示概率最高的几个树,供用户选择。这样用户的操作更方便。
机器翻译模块可以把词性和语法信息与源语言短语结合起来,与目标语言短语建立关联,如同样的中文短语在不同的词性时对应不同的英文短语,从而提高机器翻译的准确性。类似的,同样的中文短语在作为句子中不同成分时,对应不同的英文短语;同样的中文短语,在不同语法树结构中时,对应不同的英文短语。
同样,机器翻译结果检查模块也可以利用短语附带的词性和语法信息,提高反向翻译的准确性。
前面的各个模块的处理可以是,但不限于是分布式处理和集中式处理。
图6所示为根据本发明的用于提高机器翻译质量的工作流程图。该图只是用于示例,并不对本发明构成限制。对显示结果的判断步骤的先后顺序,可以根据由用户根据自己的喜欢自由调整。流程图中三种信息同时显示,也可以根据用户的喜好调整显示的时机或者条件。
如图6所示,具体的操作方法如下。用户首先在源语言输入模块1中输入要翻译的源语言,步骤610。点击按键10,触发机器翻译模块2,步骤620。在步骤630中,机器翻译模块2翻译输入的源语言,并将翻译后的目标语言信息显示在机器翻译结果呈现模块3中,然后再点击按键11触发机器翻译结果检查模块4,将翻译后的目标语言信息再翻译成与前述的源语言进行对比的源语言对比信息,并在机器翻译结果检查呈现模块5中呈现该源语言对比信息。然后经过步骤630之后,在步骤640中判断,机器翻译的结果是否满意?如果翻译结果是满意的,则在步骤650中结束翻译。如果翻译结果不满意,则进行到步骤660,查看源语言反馈信息是否有错误。另外,在步骤630之后,还在步骤660中判断源语言反馈信息是否包含错误,如果是,则在步骤670中进行更正,如果没有错误,则翻译结束,流程道步骤650。
虽然至此已经根据本发明实施例描述了本发明的用于提高机器翻译质量的装置,显而易见的是,本发明并不局限于当前的实施例,并可以由本领域技术人员容易地通过补充、修改、删除和/或添加同样技术构想中的元素应用在别的实施例中。但是,这样修改的或者变化的实施例应当包含在权利要求中。