CN104750687B - 改进双语语料库的方法及装置、机器翻译方法及装置 - Google Patents

改进双语语料库的方法及装置、机器翻译方法及装置 Download PDF

Info

Publication number
CN104750687B
CN104750687B CN201310728270.XA CN201310728270A CN104750687B CN 104750687 B CN104750687 B CN 104750687B CN 201310728270 A CN201310728270 A CN 201310728270A CN 104750687 B CN104750687 B CN 104750687B
Authority
CN
China
Prior art keywords
cutting
mentioned
sentence
candidate
bilingualism corpora
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310728270.XA
Other languages
English (en)
Other versions
CN104750687A (zh
Inventor
苏韬
张大鲲
郝杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201310728270.XA priority Critical patent/CN104750687B/zh
Priority to US14/581,855 priority patent/US10061768B2/en
Publication of CN104750687A publication Critical patent/CN104750687A/zh
Application granted granted Critical
Publication of CN104750687B publication Critical patent/CN104750687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。根据本发明的一个方面,提供了一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述装置包括:提取单元,其在给定的句对的词对齐信息中提取切分候选;计算单元,其计算上述切分候选的切分置信度;比较单元,其对上述切分置信度和预定的阈值进行比较;以及切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。

Description

改进双语语料库的方法及装置、机器翻译方法及装置
技术领域
本实施方式涉及自然语言的处理技术,具体地,涉及用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。
背景技术
一直以来,长句子的翻译是统计机器翻译(Statistical Machine Translation(SMT))中的一个难点问题。当句子过长时,SMT***通常很难给出正确的翻译结果,甚至根本无法处理。
为了避免长句子的翻译困难,人们通常先将长句子切分为较短的子句,然后再进行处理。以往的研究结果表明,这是一种有效的处理方式,特别是对于句子结构相对简单的口语句子,即便只是简单地将切分后的子句的翻译结果顺序拼接,也往往会有较好的效果。
为了切分输入的长句子,首先需要解决的问题是确定合理的切分标准,即确定正确的切分位置。基于语料的SMT***中包含用于训练数据模型的大规模平行双语语料,可以利用双语语料中的源语言端语料训练和学习切分位置。但是,语料中通常会存在一定数量的较长的双语句对,这些长句对会产生如下问题:首先,源语言端过长的句子无法提供充分的切分信息;其次,过长的双语句对容易引入更多的词对齐错误,而错误的词对齐会直接导致翻译质量的下降。
通常,标点符号可以提供有价值的切分信息,但直接利用标点符号或只是辅以简单的人工制定的规则,通常很难取得满意的效果。并且,由于不同语言间的语法体系差异,如果仅从单语的角度考虑断句可能会导致子句的翻译结果不再是相对独立的句子,或者语序发生变化。为此,需要从双语的角度出发对平行语料进行切分。
在获得合适的训练语料之后,另一个需要解决的问题是:如何将输入的长句子切分为多个子句。长句子的切分可以看作是一个序列标注问题,
即,对长句子词序列中每一个词进行标注,其标注值为一个给定的标注集内的某一个值,然后根据标注结果进行切分。
综上,为了提高统计机器翻译***中长句子的翻译质量,需要解决如下两个问题:
(1)在训练阶段,如何切分平行的双语语料;
(2)在解码阶段,如何切分输入的长句子。
对于第一个问题“训练阶段对平行双语语料的切分”,以往的研究中曾利用“修正的IBM-1翻译模型”寻找双语句对中最优的切分点并将其切分为两部分;然后,对切分后的子句对递归使用该方法,直至每个新子句的长度小于预定的阈值。但是该切分方法较为复杂。
另外,在以往的研究中也曾利用自动词对齐结果进行双语句对的切分,其遵循一定的经验规则在断句的标点符号处寻找双语句子的最优切分点,根据最优切分点,将双语句对切分为两个短的子句对。然后,对上述得到的子句对递归地进行再次切分,直至没有切分点为止。该切分方法粗略的考虑了对齐错误的影响,其目的主要在于缩短句长以削减与句子对应的句法树结构的搜索空间,对于词对齐质量并无改进。
对于第二个问题“解码阶段对输入的长句子的切分”,常用的解决方法之一是利用基于隐含马尔科夫模型(HMM)的N-gram语言模型。例如,利用SRILM工具中集成的命令“hidden-ngram”,即利用N-gram模型,用词之间的隐含事件对词序列进行标注(这里,隐含事件指的是“边界”和“非边界”)。具体到长句子切分问题,就是对长句子中的每一个词进行句子边界标注,根据N-gram语言模型计算概率得分,找出最有可能的包含给定词序列和标注序列的组合,根据标注结果进行切分。
然而,HMM的一个最大的缺点是基于输出独立性的假设,导致其无法考虑到上下文信息。
发明内容
为了改善上述现有技术中在训练阶段存在的对双语语料切分方法复杂及对词对齐质量没有改进的问题,本发明提出了一种新的切分算法。该算法首次提出了一种可度量的切分置信度(SC)的概念,对每一个切分候选计算切分置信度,并与预定的阈值相比较,在超过阈值的候选处进行切分,将较长的双语句对同时切分为多个较短的子句对。
另外,为了改善上述现有技术中在解码阶段存在的在对长句子进行切分时没有考虑上下文信息的问题,本发明提出了采用条件随机场(CRF)模型结合句子相似度共同将长句子切分为较短的更易翻译和理解的相对独立的子句。CRF模型可以方便的引入更多的上下文特征,在解决如分词、命名体识别等序列标注问题中,相对于HMM显示出明显的优势。同时,可以利用句子相似度补充CRF模型的信息。
概括地,本发明的实施方式提供了用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置。具体地,提供了以下技术方案。
[1]一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述装置包括:
提取单元,其在给定的句对的词对齐信息中提取切分候选;
计算单元,其计算上述切分候选的切分置信度;
比较单元,其对上述切分置信度和预定的阈值进行比较;以及
切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。
本实施方式的用于改进双语语料库的装置,在选择切分位置时考虑了对应的翻译结果,切分后避免了部分长距离的词对齐错误,提高了词对齐质量,进而改进了翻译性能。同时,切分后的源语言端语料提供了更加充分的切分位置信息,可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。
[2]根据上述[1]所述的用于改进双语语料库的装置,其中,与上述切分候选对应的上述第一语种的词和上述第二语种的词为一一对齐。
[3]根据上述[1]或[2]所述的用于改进双语语料库的装置,其中,与上述切分候选对应的上述第一语种的词和上述第二语种的词为具有断句功能的词和/或符号。
[4]根据上述[1]~[3]之一所述的用于改进双语语料库的装置,其中,上述计算单元利用跨越上述切分候选的词对齐的数量和上述给定的句对的长度来计算上述切分置信度。
[5]根据上述[4]所述的用于改进双语语料库的装置,其中,上述计算单元利用下面的公式来计算上述切分置信度,
其中,aj为上述切分候选,SCaj为上述切分置信度,crossaj为跨越上述切分候选的词对齐的数量,sent_len为上述给定的句对的长度,m为上述给定的句对中上述第一语种的句子的长度,l为上述给定的句对中上述第二语种的句子的长度。
[6]根据上述[1]~[5]之一所述的用于改进双语语料库的装置,还包括:
对齐单元,其对上述切分单元切分后的子句对重新进行词对齐。
本实施方式的用于改进双语语料库的装置,对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内,避免了原双语句对中可能出现的错误的长距离词对齐,因此有效的改进了词对齐质量,进而提高了翻译性能。
[7]一种机器翻译装置,包括:
切分单元,其利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;
相似度计算单元,其计算上述待翻译句子的与每个切分候选对应的句子相似度;
得分计算单元,其利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及
翻译单元,其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
本实施方式的机器翻译装置,通过采用CRF模型结合句子相似度共同对长句子进行切分,不仅可以利用CRF模型引入更多的特征,而且可以利用句子相似度补充CRF模型的信息,从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句,提高了翻译性能。
[8]根据上述[7]所述的机器翻译装置,其中,上述双语语料库为利用上述[1]~[6]之一所述的用于改进双语语料库的装置进行了改进的双语语料库。
本实施方式的机器翻译装置,通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译,进一步提高了翻译性能
[9]根据上述[7]或[8]所述的机器翻译装置,其中,上述得分计算单元计算上述切分概率与上述子句相似度的加权平均值,作为上述得分。
[10]根据上述[7]~[9]之一所述的机器翻译装置,其中,上述相似度计算单元:
计算上述待翻译句子的每个子句相对于上述双语语料库中第一语种的句子的子句相似度;以及
以上述子句的长度与上述待翻译句子的长度的比值作为权重计算上述子句的子句相似度的加权平均值,作为上述句子相似度。
[11]一种用于改进双语语料库的方法,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述方法包括以下步骤:
在给定的句对的词对齐信息中提取切分候选;
计算上述切分候选的切分置信度;
对上述切分置信度和预定的阈值进行比较;以及
在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。
本实施方式的用于改进双语语料库的方法,在选择切分位置时考虑了对应的翻译结果,切分后避免了部分长距离的词对齐错误,提高了词对齐质量,进而改进了翻译性能。同时,切分后的源语言端语料提供了更加充分的切分位置信息,可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。
[12]根据上述[11]所述的用于改进双语语料库的方法,其中,与上述切分候选对应的上述第一语种的词和上述第二语种的词为一一对齐。
[13]根据上述[11]或[12]所述的用于改进双语语料库的方法,其中,与上述切分候选对应的上述第一语种的词和上述第二语种的词为具有断句功能的词和/或符号。
[14]根据上述[11]~[13]之一所述的用于改进双语语料库的方法,其中,上述计算步骤包括以下步骤:
利用跨越上述切分候选的词对齐的数量和上述给定的句对的长度来计算上述切分置信度。
[15]根据上述[14]所述的用于改进双语语料库的方法,其中,上述计算步骤包括以下步骤:
利用下面的公式来计算上述切分置信度,
其中,aj为上述切分候选,SCaj为上述切分置信度,crossaj为跨越上述切分候选的词对齐的数量,sent_len为上述给定的句对的长度,m为上述给定的句对中上述第一语种的句子的长度,l为上述给定的句对中上述第二语种的句子的长度。
[16]根据上述[11]~[15]之一所述的用于改进双语语料库的方法,还包括以下步骤:
对上述切分步骤切分后的子句对重新进行词对齐。
本实施方式的用于改进双语语料库的方法,对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内,避免了原双语句对中可能出现的错误的长距离词对齐,因此有效的改进了词对齐质量,进而提高了翻译性能。
[17]一种机器翻译方法,包括以下步骤:
利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;
计算上述待翻译句子的与每个切分候选对应的句子相似度;
利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及
利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
本实施方式的机器翻译方法,通过采用CRF模型结合句子相似度共同对长句子进行切分,不仅可以利用CRF模型引入更多的特征,而且可以利用句子相似度补充CRF模型的信息,从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句,提高了翻译性能。
[18]根据上述[17]所述的机器翻译方法,其中,上述双语语料库为利用上述[11]~[16]之一所述的用于改进双语语料库的方法进行了改进的双语语料库。
本实施方式的机器翻译方法,通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译,进一步提高了翻译性能
[19]根据上述[17]或[18]所述的机器翻译方法,其中,上述计算得分的步骤包括以下步骤:
计算上述切分概率与上述子句相似度的加权平均值,作为上述得分。
[20]根据上述[17]~[19]之一所述的机器翻译方法,其中,上述计算句子相似度的步骤包括以下步骤:
计算上述待翻译句子的每个子句相对于上述双语语料库中第一语种的句子的子句相似度;以及
以上述子句的长度与上述待翻译句子的长度的比值作为权重计算上述子句的子句相似度的加权平均值,作为上述句子相似度。
附图说明
通过以下结合附图对本发明具体实施方式的说明,能够更好地了解本发明上述的特点、优点和目的。
图1是根据本发明的一个实施方式的用于改进双语语料库的方法的流程图。
图2是根据本发明的另一个实施方式的用于改进双语语料库的装置的方框图。
图3是根据本发明的另一个实施方式的机器翻译方法的流程图。
图4是根据本发明的另一个实施方式的机器翻译装置的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施方式进行详细的说明。
用于改进双语语料库的方法
本实施方式提供一种用于改进双语语料库的方法,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述方法包括以下步骤:在给定的句对的词对齐信息中提取切分候选;计算上述切分候选的切分置信度;对上述切分置信度和预定的阈值进行比较;以及在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。
下面参照图1进行详细说明。图1是根据本实施方式的用于改进双语语料库的方法的流程图。
如图1所示,首先,在步骤S101,在需要进行改进的对齐双语语料库10中选择一个双语句对。本实施方式中,对齐双语语料库10包括多个第一语种(源语言)和第二语种(目标语言)的句对以及每个句对之间由自动词对齐工具给出的词对齐信息。对齐双语语料库10是利用本领域的技术人员公知的任何词对齐工具,例如GIZA++工具对双语语料进行对齐而获得的词对齐结果。双语语料库是本领域的技术人员公知的用于SMT***的任何双语语料库。本实施方式对于对齐双语语料库10没有任何限制。
接着,在步骤S105,对于所选的双语句对,在其词对齐信息中提取切分候选。具体过程如下。
假设双语句对中的源语言句子为:目标语言句子为:m和l为自然数。
由GIZA++得到的双向词对齐结果:
aj=<sj,tj>,sj∈[0,1,...,m],tj∈[0,1,...,1]
在步骤S105中,提取可能的切分候选aj=<sj,tj>。在本实施方式中,切分候选优选满足如下条件:
(1),为一一对齐,
(2),为具有断句功能的词和/或符号。
具有断句功能的符号优选为标点符号,标点符号优选但不限于:逗号、句号、分号、问号、感叹号等。
接着,在步骤S110,计算切分候选aj=<sj,tj>的切分置信度。优选,利用跨越切分候选aj=<sj,tj>的词对齐的数量和所选的双语句对的长度来计算上述切分置信度。
具体地,利用下面的公式(1)来计算上述切分置信度,
其中,aj为切分候选,SCaj为切分置信度,crossaj为跨越切分候选的词对齐的数量,sent_len为所选的双语句对的长度,m为所选的双语句对中源语言的句子的长度,l为所选的双语句对中目标语言的句子的长度。
下面举一个具体的实例进行说明切分置信度的计算。
例如,对于如下的中英双语句对,GIZA++工具给出的双向词对齐结果如下图所示:
第一步:抽取可能的切分候选,即<6,5>;
第二步:利用公式(1)计算切分置信度
接着,在步骤S115,判断切分置信度是否大于预先设定的阈值。在本实施方式中,阈值用于控制切分的数量及质量。根据经验,优选将阈值设定为0.9,即长度为十的子句内最多允许一个词跨越切分候选对齐到子句对以外的其他子句。应该理解,根据需要,阈值也可以设定为比0.9小,也可以设定为比0.9大。
在步骤S115,如果切分置信度小于阈值,则进行步骤S120,将切分候选丢弃,接着进行步骤S130。
相反,在步骤S115,如果切分置信度大于等于阈值,则进行步骤S125,分别在源语言句子的sj位置及目标语言句子的tj位置将双语句对进行切分。
对于上述实例,如果将阈值设为0.9,则由于切分置信度sc<6,5>大于0.9,因此判定在<6,5>处分别切分源语言及目标语言的句子,即原句对被切分为如下两个子句对:
我有一点不舒服。——i don’t feel well.
给我些药,好吗?——can I have some medicine?
接着,在步骤S130,判断是否对所有的切分候选都进行了处理。如果还有没有处理的切分候选,则返回到步骤S110,对没有处理的切分候选,计算其切分置信度。如果所有的切分候选都已处理,则进行步骤S135。
应该理解,步骤S125和步骤S130的先后顺序可以交换。也就是说,既可以如上进行各个步骤,也可以在选出所有的切分置信度大于等于阈值的切分候选之后再进行切分。
在步骤S135,判断是否对齐双语语料库10中的所有双语句对都被选择。如果还有未处理的双语句对,则返回步骤S101,继续进行处理。否则,进行步骤S140。
在步骤S140,对切分后的子句对进行词对齐。本实施方式中,可以利用GIZA++工具进行词对齐,也可以用本领域的技术人员公知的任何其他词对齐工具进行词对齐。
对于上述实例,对齐结果如下。
本实施方式的用于改进双语语料库的方法,通过对双语句对进行切分避免了部分长距离的词对齐错误,再对切分后的语料库重新进行词对齐。由于词对齐被限制在子句对之内,避免了原双语句对中可能出现的错误的长距离词对齐,因此有效的改进了词对齐质量,进而提高了翻译性能。同时,切分后的源语言端语料提供了更加充分的切分位置信息,可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。
用于改进双语语料库的装置
在同一发明构思下,图2是根据本发明的另一个实施方式的用于改进双语语料库的装置的方框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
本实施方式提供一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息。上述装置包括:提取单元,其在给定的句对的词对齐信息中提取切分候选;计算单元,其计算上述切分候选的切分置信度;比较单元,其对上述切分置信度和预定的阈值进行比较;以及切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分。
下面参照图2进行详细说明。如图2所示,本实施方式的用于改进双语语料库的装置200包括:选择单元201、提取单元205、计算单元210、比较单元215、切分单元220和对齐单元225。
选择单元201在需要进行改进的对齐双语语料库10中选择一个双语句对。本实施方式中,对齐双语语料库10包括多个第一语种(源语言)和第二语种(目标语言)的句对以及每个句对之间由自动词对齐工具给出的词对齐信息。对齐双语语料库10是利用本领域的技术人员公知的任何词对齐工具,例如GIZA++工具对双语语料进行对齐而获得的词对齐结果。双语语料库是本领域的技术人员公知的用于SMT***的任何双语语料库。
本实施方式对于对齐双语语料库10没有任何限制。
提取单元205对于选择单元201所选的双语句对,在其词对齐信息中提取切分候选。具体过程如下。
假设双语句对中的源语言句子为:目标语言句子为:m和l为自然数。
由GIZA++得到的双向词对齐结果:aj=<sj,tj>,sj∈[0,1,...,m],tj∈[0,1,...,1]
提取单元205提取可能的切分候选aj=<sj,tj>。在本实施方式中,切分候选优选满足如下条件:
(1)为一一对齐,
(2)为具有断句功能的词和/或符号。
具有断句功能的符号优选为标点符号,标点符号优选但不限于:逗号、句号、分号、问号、感叹号等。
计算单元210计算切分候选aj=<sj,tj>的切分置信度,优选,利用跨越切分候选aj=<sj,tj>的词对齐的数量和所选的双语句对的长度来计算上述切分置信度。
具体地,计算单元210利用下面的公式(1)来计算上述切分置信度,
其中,aj为切分候选,SCaj为切分置信度,crossaj为跨越切分候选的词对齐的数量,sent_len为所选的双语句对的长度,m为所选的双语句对中源语言的句子的长度,l为所选的双语句对中目标语言的句子的长度。
对于上述实例,计算单元210利用公式(1)计算得到切分置信度
比较单元215判断切分置信度是否大于预先设定的阈值。在本实施方式中,阈值用于控制切分的数量及质量。根据经验,优选将阈值设定为0.9,即长度为十的子句内最多允许一个词跨越切分候选对齐到子句对以外的其他子句。应该理解,根据需要,阈值也可以设定为比0.9小,也可以设定为比0.9大。
如果切分置信度小于阈值,则将切分候选丢弃。
如果切分置信度大于等于阈值,则切分单元220分别在源语言句子的sj位置及目标语言句子的tj位置将双语句对进行切分。
切分单元220既可以在选出一个切分置信度大于等于阈值的切分候选后进行切分,也可以在选出所有的切分置信度大于等于阈值的切分候选之后进行切分。
对齐单元225对切分后的子句对进行词对齐。本实施方式中,可以利用GIZA++工具进行对齐,也可以用本领域的技术人员公知的任何其他对齐工具进行对齐。
本实施方式的用于改进双语语料库的装置200可以对对齐双语语料库10中的所有句对进行处理,从而得到改进的双语语料库20。
本实施方式的用于改进双语语料库的装置200,通过对双语句对进行切分避免了部分长距离的词对齐错误,再对切分后的子句对重新进行词对齐。由于词对齐被限制在子句对之内,避免了原双语句对中可能出现的错误的长距离词对齐,因此有效的改进了词对齐质量,进而提高了翻译性能。同时,切分后的源语言端语料提供了更加充分的切分位置信息,可以用作后续解码阶段输入长句子切分任务的训练语料。这种自动切分的方法可以很方便的扩展到其他不同语种的双语平行语料上。
机器翻译方法
在同一发明构思下,图3是根据本发明的另一个实施方式的机器翻译方法的流程图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
本实施方式提供一种机器翻译方法,包括以下步骤:利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;计算上述待翻译句子的与每个切分候选对应的句子相似度;利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
下面参照图3进行详细说明。如图3所示,在步骤S301,输入待翻译句子。本实施方式中,待翻译句子可以是任何语言的句子。
接着,在步骤S305,利用CRF模型30对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率。
CRF模型30为本领域的技术人员公知的任何CRF模型。具体地,CRF模型30可以利用开源的CRF++工具,在标注后的训练语料上,根据预先定义的特征模板训练得到。
对训练语料进行标注的标注集(B,I,E)具体定义为:
B:子句的起始词;
I:子句的中间词;
E:子句的末尾词。
例如:我/B有/I一点/I不/I舒/I服/I。/E
在步骤S305,首先对待翻译句子中的每个词进行标注,接着,根据标注结果,利用CRF模型30得到最优的N个切分候选,每个切分候选赋予一个切分概率。
接着,在步骤S310,计算待翻译句子的与每个切分候选对应的句子相似度。具体地,与每个切分候选对应,待翻译句子被切分为多个子句,首先计算每个子句相对于双语语料库中源语言句子的子句相似度,接着,以子句的长度与待翻译句子的长度的比值作为权重计算子句的子句相似度的加权平均值,作为待翻译句子的与该切分候选对应的句子相似度。
接着,在步骤S315,利用切分概率和句子相似度计算每个切分候选的得分,将得分最高的切分候选作为待翻译句子的切分结果。优选,将切分概率与子句相似度的加权平均值作为上述得分。
具体地,根据下面的公式(2)计算上述得分,以选取最优切分候选:
Score=Prob1-λ·Simλ,λ∈[0,1] (2)
其中:Prob为该切分候选的CRF模型切分概率;Sim为句子相似度,λ为权重。
接着,在步骤S320,利用基于双语语料库训练得到的翻译知识,例如翻译模型40和语言模型50对切分结果进行翻译。在本实施方式中,训练翻译知识的双语语料库可以是本领域的技术人员公知的任何双语语料库,也可以是基于上述实施方式的用于改进双语语料库的方法和装置进行了改进的双语语料库。训练得到的翻译模型40和语言模型50可以是本领域的技术人员公知的用于机器翻译的任何模型,本发明对此没有任何限制。
本实施方式的机器翻译方法,通过采用CRF模型结合句子相似度共同对长句子进行切分,不仅可以利用CRF模型引入更多的特征,而且可以利用句子相似度补充CRF模型的信息,从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句,提高了翻译性能。
本实施方式的机器翻译方法,通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译,进一步提高了翻译性能
机器翻译装置
在同一发明构思下,图4是根据本发明的另一个实施方式的机器翻译装置的方框图。下面就结合该图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
本实施方式提供一种机器翻译装置,包括:切分单元,其利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;相似度计算单元,其计算上述待翻译句子的与每个切分候选对应的句子相似度;得分计算单元,其利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及翻译单元,其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译。
下面参照图4进行详细说明。如图4所示,本实施方式的机器翻译装置400具备:输入单元401、切分单元405、相似度计算单元410、得分计算单元415和翻译单元420。
输入单元401输入待翻译句子。本实施方式中,待翻译句子可以是任何语言的句子。
切分单元405利用CRF模型30对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率。
CRF模型30为本领域的技术人员公知的任何CRF模型。具体地,CRF模型30可以利用开源的CRF++工具,在标注后的训练语料上,根据预先定义的特征模板训练得到。
对训练语料进行标注的标注集(B,I,E)
具体定义为:
B:子句的起始词;
I:子句的中间词;
E:子句的末尾词。
例如:我/B有/I一点/I不/I舒/I服/I。/E
切分单元405,首先对待翻译句子中的每个词进行标注,接着,根据标注结果,利用CRF模型30得到最优的N个切分候选,每个切分候选赋予一个切分概率。
相似度计算单元410计算待翻译句子的与每个切分候选对应的句子相似度。具体地,与每个切分候选对应,待翻译句子被切分为多个子句,首先计算每个子句相对于双语语料库中源语言句子的子句相似度,接着,以子句的长度与待翻译句子的长度的比值作为权重计算子句的子句相似度的加权平均值,作为待翻译句子的与该切分候选对应的句子相似度。
得分计算单元415,利用切分概率和句子相似度计算每个切分候选的得分,将得分最高的切分候选作为待翻译句子的切分结果。优选,将切分概率与子句相似度的加权平均值作为上述得分。
具体地,根据下面的公式(2)计算上述得分,以选取最优切分候选:
Score=Prob1-λ·Simλ,λ∈[0,1] (2)
其中:Prob为该切分候选的CRF模型切分概率;Sim为句子相似度,λ为权重。
翻译单元420,利用基于双语语料库训练得到的翻译知识,例如翻译模型40和语言模型50对切分结果进行翻译。在本实施方式中,训练翻译知识的双语语料库可以是本领域的技术人员公知的任何双语语料库,也可以是基于上述实施方式的用于改进双语语料库的方法和装置进行了改进的双语语料库。训练得到的翻译模型40和语言模型50可以是本领域的技术人员公知的用于机器翻译的任何模型,本发明对此没有任何限制。
本实施方式的机器翻译装置400,通过采用CRF模型结合句子相似度共同对长句子进行切分,不仅可以利用CRF模型引入更多的特征,而且可以利用句子相似度补充CRF模型的信息,从而可以准确地将长句子切分为较短的更易翻译和理解的相对独立的子句,提高了翻译性能。
本实施方式的机器翻译装置400,通过利用了基于进行了改进的双语语料库训练得到的翻译知识进行翻译,进一步提高了翻译性能
以上虽然通过一些示例性的实施方式详细地描述了本发明的用于改进双语语料库的方法、用于改进双语语料库的装置、机器翻译方法以及机器翻译装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求为准。

Claims (8)

1.一种用于改进双语语料库的装置,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述装置包括:
提取单元,其在给定的句对的词对齐信息中提取切分候选;
计算单元,其计算上述切分候选的切分置信度;
比较单元,其对上述切分置信度和预定的阈值进行比较;以及
切分单元,其在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分;
与上述切分候选对应的上述第一语种的词和上述第二语种的词,为一一对齐且为具有断句功能的词对和/或符号对。
2.根据权利要求1所述的用于改进双语语料库的装置,其中,上述计算单元利用下面的公式来计算上述切分置信度,
其中,aj为上述切分候选,SCaj为上述切分置信度,crossaj为跨越上述切分候选的词对齐的数量,sent_len为上述给定的句对的长度,m为上述给定的句对中上述第一语种的句子的长度,l为上述给定的句对中上述第二语种的句子的长度 QUOTE。
3.根据权利要求1所述的用于改进双语语料库的装置,还包括:
对齐单元,其对上述切分单元切分后的子句对重新进行词对齐。
4.一种机器翻译装置,包括:
切分单元,其利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;
相似度计算单元,其计算上述待翻译句子的与每个切分候选对应的句子相似度;
得分计算单元,其利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及
翻译单元,其利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译;
上述双语语料库为利用权利要求1-3的任一项所述的用于改进双语语料库的装置进行了改进的双语语料库。
5.根据权利要求4所述的机器翻译装置,其中,上述得分计算单元,计算上述切分概率与上述句子相似度的加权平均值,作为上述得分。
6.根据权利要求4所述的机器翻译装置,其中,上述相似度计算单元:
计算上述待翻译句子的每个切分候选相对于上述双语语料库中第一语种的句子的句子相似度;并且
以上述切分候选的长度与上述待翻译句子的长度的比值作为权重计算上述切分候选的句子相似度的加权平均值,作为上述句子相似度。
7.一种用于改进双语语料库的方法,其中,上述双语语料库包括多个第一语种和第二语种的句对以及每个句对之间的词对齐信息,上述方法包括以下步骤:
在给定的句对的词对齐信息中提取切分候选;
计算上述切分候选的切分置信度;
对上述切分置信度和预定的阈值进行比较;以及
在上述切分置信度大于等于上述阈值的情况下,在上述切分候选处对上述给定的句对进行切分;
与上述切分候选对应的上述第一语种的词和上述第二语种的词,为一一对齐且为具有断句功能的词对和/或符号对。
8.一种机器翻译方法,包括以下步骤:
利用条件随机场模型对待翻译句子进行切分,得到多个切分候选,每个切分候选具有一个切分概率;
计算上述待翻译句子的与每个切分候选对应的句子相似度;
利用上述切分概率和上述句子相似度计算每个切分候选的得分,将得分最高的切分候选作为上述待翻译句子的切分结果;以及
利用基于双语语料库训练得到的翻译知识对上述切分结果进行翻译;
上述双语语料库为利用权利要求7所述的用于改进双语语料库的方法进行了改进的双语语料库。
CN201310728270.XA 2013-12-25 2013-12-25 改进双语语料库的方法及装置、机器翻译方法及装置 Active CN104750687B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310728270.XA CN104750687B (zh) 2013-12-25 2013-12-25 改进双语语料库的方法及装置、机器翻译方法及装置
US14/581,855 US10061768B2 (en) 2013-12-25 2014-12-23 Method and apparatus for improving a bilingual corpus, machine translation method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310728270.XA CN104750687B (zh) 2013-12-25 2013-12-25 改进双语语料库的方法及装置、机器翻译方法及装置

Publications (2)

Publication Number Publication Date
CN104750687A CN104750687A (zh) 2015-07-01
CN104750687B true CN104750687B (zh) 2018-03-20

Family

ID=53481960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310728270.XA Active CN104750687B (zh) 2013-12-25 2013-12-25 改进双语语料库的方法及装置、机器翻译方法及装置

Country Status (2)

Country Link
US (1) US10061768B2 (zh)
CN (1) CN104750687B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105068997B (zh) * 2015-07-15 2017-12-19 清华大学 平行语料的构建方法及装置
CN106547743B (zh) * 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其***
CN105912533B (zh) * 2016-04-12 2019-02-12 苏州大学 面向神经机器翻译的长句切分方法及装置
CN106126506B (zh) * 2016-06-22 2019-10-22 上海一者信息科技有限公司 一种在线语料对齐方法及***
CN108073565A (zh) * 2016-11-10 2018-05-25 株式会社Ntt都科摩 词语规范化的方法和设备及机器翻译方法和设备
CN106598959B (zh) * 2016-12-23 2021-03-19 北京金山办公软件股份有限公司 一种确定双语语句对互译关系方法及***
CN106874263A (zh) * 2017-01-17 2017-06-20 中译语通科技(北京)有限公司 一种基于多维度数据分析和语义的中英语料库校对方法
KR20190111009A (ko) * 2017-02-07 2019-10-01 파나소닉 아이피 매니지먼트 가부시키가이샤 번역 장치 및 번역 방법
CN107247706B (zh) * 2017-06-16 2021-06-25 中国电子技术标准化研究院 文本断句模型建立方法、断句方法、装置及计算机设备
CN109492213B (zh) * 2017-09-11 2023-04-07 阿里巴巴集团控股有限公司 句子相似度计算方法和装置
CN109933778B (zh) * 2017-12-18 2024-03-05 北京京东尚科信息技术有限公司 分词方法、装置以及计算机可读存储介质
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
CN109284503B (zh) * 2018-10-22 2023-08-18 传神语联网网络科技股份有限公司 翻译语句结束判断方法与***
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
CN110263349A (zh) * 2019-03-08 2019-09-20 腾讯科技(深圳)有限公司 语料评估模型训练方法、装置、存储介质和计算机设备
CN109977402B (zh) * 2019-03-11 2022-11-11 北京明略软件***有限公司 一种命名实体识别方法及***
CN111914571A (zh) * 2019-05-07 2020-11-10 阿里巴巴集团控股有限公司 语句切分方法及装置、存储介质、处理器及终端设备
CN110362820B (zh) * 2019-06-17 2022-11-01 昆明理工大学 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN110489739B (zh) * 2019-07-03 2023-06-20 东莞数汇大数据有限公司 一种基于crf算法的公安案件及口供文本的命名提取方法及其装置
CN111027332B (zh) * 2019-12-11 2023-06-02 北京百度网讯科技有限公司 生成翻译模型的方法和装置
CN111191469B (zh) * 2019-12-17 2023-09-19 语联网(武汉)信息技术有限公司 大规模语料清洗对齐方法及装置
WO2021181569A1 (ja) * 2020-03-11 2021-09-16 日本電信電話株式会社 言語処理装置、学習装置、言語処理方法、学習方法、及びプログラム
CN111428522B (zh) * 2020-03-23 2023-06-30 腾讯科技(深圳)有限公司 翻译语料生成方法、装置、计算机设备及存储介质
CN111611811B (zh) * 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
CN112257453B (zh) * 2020-09-23 2022-02-22 昆明理工大学 融合关键词和语义特征的汉越文本相似度计算方法
CN112446224A (zh) * 2020-12-07 2021-03-05 北京彩云环太平洋科技有限公司 平行语料处理方法、装置、设备及计算机可读存储介质
CN113283250B (zh) * 2021-05-26 2024-06-21 南京大学 一种基于句法成分分析的自动化机器翻译测试方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译***
CN102859515A (zh) * 2010-02-12 2013-01-02 谷歌公司 复合词拆分
CN103324607A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种泰语文本切词方法及装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4868750A (en) * 1987-10-07 1989-09-19 Houghton Mifflin Company Collocational grammar system
US6288656B1 (en) * 1999-12-21 2001-09-11 Lsi Logic Corporation Receive deserializer for regenerating parallel data serially transmitted over multiple channels
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8898052B2 (en) * 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US20080249764A1 (en) * 2007-03-01 2008-10-09 Microsoft Corporation Smart Sentiment Classifier for Product Reviews
US8788258B1 (en) * 2007-03-15 2014-07-22 At&T Intellectual Property Ii, L.P. Machine translation using global lexical selection and sentence reconstruction
CN101271452B (zh) * 2007-03-21 2010-07-28 株式会社东芝 生成译文和机器翻译的方法及装置
JP5280642B2 (ja) * 2007-04-23 2013-09-04 株式会社船井電機新応用技術研究所 翻訳システム及び翻訳プログラム、並びに、対訳データ生成方法
US8825466B1 (en) * 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
CN101667177B (zh) * 2009-09-23 2011-10-26 清华大学 双语文本的对齐方法及装置
US8930176B2 (en) * 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US20140163963A2 (en) * 2010-09-24 2014-06-12 National University Of Singapore Methods and Systems for Automated Text Correction
US9330087B2 (en) * 2013-04-11 2016-05-03 Microsoft Technology Licensing, Llc Word breaker from cross-lingual phrase table
US20140358519A1 (en) * 2013-06-03 2014-12-04 Xerox Corporation Confidence-driven rewriting of source texts for improved translation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271451A (zh) * 2007-03-20 2008-09-24 株式会社东芝 计算机辅助翻译的方法和装置
CN101996166A (zh) * 2009-08-14 2011-03-30 张龙哺 双语句对模式化记录方法以及翻译方法和翻译***
CN102859515A (zh) * 2010-02-12 2013-01-02 谷歌公司 复合词拆分
CN103324607A (zh) * 2012-03-20 2013-09-25 北京百度网讯科技有限公司 一种泰语文本切词方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Splitting Input Sentence for Machine Translation Using Language Model with Sentence Similarity;Takao Doi 等;《COLIN "04 Proceeding of the 20th international conference on Computational Linguistics》;20040827(第113期);第2-4页 *

Also Published As

Publication number Publication date
US10061768B2 (en) 2018-08-28
US20150186361A1 (en) 2015-07-02
CN104750687A (zh) 2015-07-01

Similar Documents

Publication Publication Date Title
CN104750687B (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN105068997B (zh) 平行语料的构建方法及装置
CN101271452B (zh) 生成译文和机器翻译的方法及装置
Xiong et al. Modeling the translation of predicate-argument structure for smt
CN106844351B (zh) 一种面向多数据源的医疗机构组织类实体识别方法及装置
US20120296633A1 (en) Syntax-based augmentation of statistical machine translation phrase tables
CN104375988A (zh) 一种词语对齐方法及装置
CN104731774A (zh) 面向通用机译引擎的个性化翻译方法及装置
CN106528694A (zh) 基于人工智能的语义判定处理方法和装置
CN106156013B (zh) 一种固定搭配型短语优先的两段式机器翻译方法
CN110362820A (zh) 一种基于Bi-LSTM算法的老汉双语平行句子抽取方法
CN104035918A (zh) 一种采用上下文特征匹配的中文机构名简称识别***
CN103678288A (zh) 一种专名自动翻译的方法
Dandapat et al. Improved named entity recognition using machine translation-based cross-lingual information
Dandapat et al. Using example-based MT to support statistical MT when translating homogeneous data in a resource-poor setting
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
Ahmadnia et al. Round-trip training approach for bilingually low-resource statistical machine translation systems
Crego et al. Using shallow syntax information to improve word alignment and reordering for SMT
CN107992479A (zh) 基于转移方法的字级别中文组块分析方法
CN103473222A (zh) 一种藏语语义本体创建及词汇扩充方法
Wołk et al. Polish-English statistical machine translation of medical texts
CN113962225A (zh) 道路名的翻译方法、装置、电子设备和存储介质
Crego et al. Reordering experiments for N-gram-based SMT
Tran et al. Preordering for Chinese-Vietnamese statistical machine translation
CN108280066B (zh) 一种汉语到英语的离线翻译方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant