CN101030197A

CN101030197A - 双语词对齐方法和装置、训练双语词对齐模型的方法和装置

Info

Publication number: CN101030197A
Application number: CNA2006100580727A
Authority: CN
Inventors: 吴华; 王海峰; 刘占一
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-02-28
Filing date: 2006-02-28
Publication date: 2007-09-05
Also published as: JP2007234024A; JP4331219B2; US7827027B2; US20070203689A1

Abstract

本发明提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。本发明的双语词对齐方法，包括：利用进行了词对齐的标注的双语语料，训练双语词对齐模型；利用上述双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；利用上述扩展了的标注的双语语料，再次训练上述双语词对齐模型；以及利用上述再次训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

Description

双语词对齐方法和装置、训练双语词对齐模型的方法和装置

技术领域

本发明涉及信息处理技术，具体地，涉及自然语言处理中双语词对齐的技术和统计机器翻译技术。

背景技术

词对齐在自然语言处理中被广泛地使用。现有的词对齐技术，通常使用统计词对齐模型，把双语句子中互为译文的词对对应起来。统计词对齐模型包含用于确定双语句子中互为译文的词对的统计信息。

在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年发表的文章“The Mathematics of Statistical Machine Translation：Parameter Estimation”(发表于Computational Linguistics，19(2)：263-311)中描述了关于统计机器翻译模型和统计词对齐模型以及相应的参数估计方法。

但是，由于目前统计词对齐模型利用大规模未标注的双语语料来无指导地训练统计词对齐模型，因此，这样的统计词对齐模型会导致产生很多不正确的对齐。如果有人工进行了词对齐标注的双语语料来进行有指导地训练，将可以得到精度更高的对齐模型。

另一方面，人工标注大规模双语语料是一件费时费力的工作。而如果只需人工标注少量语料，则不会占用太多的人力和时间。

发明内容

为了解决上述现有技术中存在的问题，本发明提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。

根据本发明的一个方面，提供了一种双语词对齐方法，包括：利用进行了词对齐的标注的双语语料，训练双语词对齐模型；利用上述双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；利用上述扩展了的标注的双语语料，再次训练上述双语词对齐模型；以及利用上述再次训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

根据本发明的另一个方面，提供了一种训练双语词对齐模型的方法，包括：利用进行了词对齐的标注的双语语料，训练初始双语词对齐模型；利用上述初始双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；以及利用上述扩展了的标注的双语语料，训练双语词对齐模型。

根据本发明的另一个方面，提供了一种双语词对齐装置，包括：模型训练单元，其利用进行了词对齐的标注的双语语料，训练双语词对齐模型；词对齐单元，其利用上述双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断单元，其判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；模型再训练单元，其利用上述由判断单元扩展了的标注的双语语料，再次训练上述双语词对齐模型；以及再次词对齐单元，其利用上述再次训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

根据本发明的另一个方面，提供了一种训练双语词对齐模型的装置，包括：初始模型训练单元，其利用进行了词对齐的标注的双语语料，训练初始双语词对齐模型；词对齐单元，其利用上述初始双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断单元，其判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；以及模型训练单元，其利用上述由判断单元扩展了的标注的双语语料，训练双语词对齐模型。

附图说明

相信通过以下结合附图对本发明具体实施方式的说明，能够使人们更好地了解本发明上述的特点、优点和目的。

图1是根据本发明一个实施例的双语词对齐方法的流程图；

图2是根据本发明一个实施例的训练双语词对齐模型的方法的流程图；

图3是根据本发明一个实施例的双语词对齐装置的方框图；以及

图4是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。

具体实施方式

下面就结合附图对本发明的各个优选实施例进行详细的说明。

图1是根据本发明一个实施例的双语词对齐方法的流程图。

如图1所示，首先在步骤101，利用进行了词对齐的标注的双语语料，训练双语词对齐模型。在本步骤中，标注的双语语料是由专业人员(例如，翻译人员)手工进行了词对齐标注的双语语料，其中包括多个互为译文的双语句子以及每对双语句子的词对齐信息。虽然标注的双语语料越大，***的性能越好，但是，由于手工进行词对齐标注费时费力，因此，相对于后面描述的未标注语料来说，标注语料是很小的。

在本实施例中，双语对齐模型采用至少包含词翻译概率(wordtranslation probability)、位置扭曲概率(position distortion probability)和词衍生概率(word fertility probability)的统计词对齐模型。其中，词翻译概率p(ws|wt)是目标语言词汇wt翻译到源语言语词汇ws的概率；位置扭曲概率p(j|i，l，m)是给定源语言句子的长度m，目标语句子的长度l的情况下，目标语言句子中第i个位置对应到源语言句子中第j个位置的概率。词汇的衍生概率p(i|wt)是目标语言词汇wt对应i个源语言词汇的概率。

另外，在本实施例中，双语词对齐模型包括正向双语词对齐模型和反向双语词对齐模型。在本步骤中，利用标注的双语语料，训练正向双语词对齐模型，并且训练反向双语词对齐模型。例如，对于中/英双语语料，需要训练中英词对齐模型和英中词对齐模型。

接着，在步骤105，利用前面步骤101中训练的双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐。在本实施例中，采用包含词翻译概率、位置扭曲概率和词衍生概率的双语词对齐模型，具体的对齐方式为：

1.利用词汇翻译概率和位置对齐概率，为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。

2.在对齐序列Ai的基础上，利用词汇翻译概率，位置扭曲模型和词汇衍生模型，通过尝试交换任意两个对齐或改变一个对齐，来寻找更好的对齐序列Ai+1。

3.重复过程2，直到没有更好的对齐序列被发现。

在此，本领域技术人员应当可以理解，对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。

在本步骤中，利用前面步骤101训练出的双向双语词对齐模型，对未标注的双语语料中的多对双语句子进行双向词对齐，从而分别得到正向词对齐结果和反向词对齐结果。

接着，在步骤110，判断每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到标注的双语语料中并将该对双语句子从未标注的双语语料中删除。

具体地，在本实施例中，计算每对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的交集A₁∩A₂；

计算该对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的并集A₁∪A₂；

如果上述交集A₁∩A₂中的元素个数与上述并集A₁∪A₂中的元素个数的比率R，

R = \frac{# (A_{1} \cap A_{2})}{# (A_{1} \cup A_{2})}

大于一个预先定义的阈值th，则判断该对双语句子的词对齐是正确的。否则，判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对，将其从未标注的语料移入标注的语料中。

另外，在本步骤中，如果该双语句子对的正向词对齐结果与反向词对齐结果不完全相同，也就是说，当th＜R＜1时，则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率，并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。

例如，对于英汉句对：

英语：Please put the redjacket on the bed.

汉语：请把红色的夹克放在床上。

利用词对齐模型我们得到下面正向和反向的对齐结果：

英-汉的对齐(正向)

汉-英的对齐(反向)

这时，

#(A1)＝7//正向的对齐个数

#(A2)＝7//反向的对齐个数

在汉-英的对齐结果中，存在”on<->在”；而英-汉中存在”on<->在..上”。所以

#(A1∪A2)＝6//正向和反向对齐中一共出现的对齐个数(在正向和反向对齐中同时出现的对齐计作一次)

#(A1∩A2)＝8//正向和反向对齐中同时出现的对齐个数

这样，根据

R = \frac{# (A_{1} \cap A_{2})}{# (A_{1} \cup A_{2})},

R＝6/8＝0.75＞0.7.(假设预先设定的阈值th是0.7)

那么，得到的该例句的对齐满足要求，然后，对于没有出现在A1∩A2中的对齐，使用“词对齐概率”来判断哪一种对齐情况正确。对于上面的例子来说，存在”on<->在”和”on<->在..上”，分别计算两个对齐的概率，得出“on<->在..上”的概率大，所以选择“on<->在..上”。把该例句和处理过的对齐保存到标注集合中。即把下面的结果保存到标注集合中。

接着，在步骤115，利用扩展了的标注的双语语料，再次训练双语词对齐模型。与前面的步骤101类似，在本步骤中，利用扩展了的标注的双语语料，训练正向双语词对齐模型和反向双语词对齐模型。

接着，在步骤120，利用上述双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

通过以上描述可知，如果采用本实施例的双语词对齐方法，由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练，所以可以得到精度更高的对齐模型；同时，由于标注的双语语料相对于未标注的语料规模要小得多，所以不会占用太多的人力和时间。这样，本实施例的双语词对齐方法可以比现有的词对齐方法更准确地对未标注的语料中的句子对进行词对齐。

另外，根据本发明的另外一个实施例，在步骤120之后，进一步重复上述判断(步骤110)、再次训练(步骤115)和再次进行词对齐(步骤120)的步骤，直到没有新的正确的词对齐产生。这样，可以利用新的对其结果，进一步完善词对齐模型，从而提高词对齐的准确性。

在同一发明构思下，图2是根据本发明一个实施例的训练双语词对齐模型的方法的流程图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图2所示，首先在步骤201，利用标注的双语语料，训练初始双语词对齐模型。与前面图1所示的步骤101类似，标注的双语语料是由专业人员(例如，翻译人员)手工进行了词对齐标注的双语语料，其中包括多个互为译文的双语句子以及每对双语句子的词对齐信息。

另外，在本实施例中，双语词对齐模型包括正向双语词对齐模型和反向双语词对齐模型。在本步骤中，利用标注的双语语料，训练正向双语词对齐模型，并且训练反向双语词对齐模型。

接着，在步骤205，利用训练的初始双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐。与前面图1所示的步骤105类似，在本实施例中，采用包含词翻译概率、位置扭曲概率和词衍生概率的双语词对齐模型，具体的对齐方式为：

3.重复过程2，直到没有更好的对齐序列被发现。

在本步骤中，利用训练出的初始双向双语词对齐模型，对未标注的双语语料中的多对双语句子进行双向词对齐，从而分别得到正向词对齐结果和反向词对齐结果。

接着，在步骤210，判断每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到标注的双语语料中并将该对双语句子从未标注的双语语料中删除。

R = \frac{# (A_{1} \cap A_{2})}{# (A_{1} \cup A_{2})}

接着，在步骤215，利用扩展了的标注的双语语料，训练双语词对齐模型。在本步骤中，利用扩展了的标注的双语语料，训练正向双语词对齐模型和反向双语词对齐模型。

通过以上描述可知，如果采用本实施例的双语词对齐方法，由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练，所以可以得到精度很高的初始词对齐模型，进而，利用初始词对齐模型对未标注语料进行词对齐并利用判断为正确的对齐结果扩展标注语料，来训练双语词对齐模型。这样，在保证训练出的词对齐模型的质量的同时，又不会占用太多的人力和时间。

另外，根据本发明的另外一个实施例，在步骤215之后，利用上述新训练的双语词对齐模型，对未标注的双语语料中剩下的双语句子再次进行词对齐。并且重复上述判断(步骤210)、训练(步骤215)和再次进行词对齐的步骤，直到没有新的正确的词对齐产生。这样，可以利用新的对其结果，进一步完善词对齐模型。

在同一发明构思下，图3是根据本发明一个实施例的双语词对齐装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图3所示，本实施例的双语词对齐装置300，包括：标注语料303，其中包含有经过词对齐标注的双语句子对；未标注语料307，其中包含由没有标注的双语句子对；模型训练单元301，其利用标注语料303中进行了词对齐的标注的双语语料，训练双语词对齐模型；词对齐单元302，其利用双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；判断单元306，其判断每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子从未标注语料307移入到标注语料303中；模型再训练单元304，其利用由判断单元306扩展了的标注语料303，再次训练双语词对齐模型；再次词对齐单元305，其利用由模型再训练单元304再次训练的双语词对齐模型，对未标注语料307中剩下的双语句子再次进行词对齐。

与前面图1所示的实施例类似，本实施例中，双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。并且，模型训练单元301利用标注的双语语料，训练正向双语词对齐模型，并且，利用标注的双语语料，训练反向双语词对齐模型；词对齐单元302利用正向双语词对齐模型，对每对双语句子进行正向词对齐，并且，利用反向双语词对齐模型，对每对双语句子进行反向词对齐；判断单元306计算每对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的交集A₁∩A₂；计算该对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的并集A₁∪A₂；如果上述交集A₁∩A₂中的元素个数与上述并集A₁∪A₂中的元素个数的比率R，

R = \frac{# (A_{1} \cap A_{2})}{# (A_{1} \cup A_{2})}

大于一个预先定义的阈值th，则判断该对双语句子的词对齐是正确的。否则，判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对，将其从未标注的语料移入标注的语料中。如果正向词对齐结果与反向词对齐结果不完全相同，则分别计算正向词对齐结果与反向词对齐结果中不相同部分的词翻译概率，并将词翻译概率高的词对齐结果加入到标注语料中。

模型再训练单元304利用扩展了的标注语料，再次训练正向双语词对齐模型，并且，利用扩展了的标注语料，再次训练反向双语词对齐模型。

通过以上描述可知，本实施例的双语词对齐装置可以实施前面描述的本发明实施例的双语词对齐方法，可以比现有的词对齐方法更准确地对未标注的语料中的句子对进行词对齐，同时，不会占用太多的人力和时间。

另外，根据本发明的另外一个实施例，对于经由再次词对齐单元305进行了词对齐的句子对，可以由判断单元306进行再次判断，从而再次扩展标注语料303，如前面实施例中描述的那样，重复判断、再次训练和再次进行词对齐的步骤，直到没有新的正确的词对齐产生。这样，可以利用新的对其结果，进一步完善词对齐模型，从而提高词对齐的准确性。

在此，应当指出，本实施例的双语词对齐装置300及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

在同一发明构思下，图4是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。下面就结合该图，对本实施例进行描述。对于那些与前面实施例相同的部分，适当省略其说明。

如图4所示，本实施例的训练双语词对齐模型的装置400，包括：标注语料303，其中包含有经过词对齐标注的双语句子对；未标注语料307，其中包含由没有标注的双语句子对；初始模型训练单元401，其利用标注语料303中进行了词对齐的标注的双语语料，训练初始双语词对齐模型；词对齐单元402，其利用初始双语词对齐模型，对未标注语料中多对双语句子进行词对齐；判断单元406，其判断每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子从未标注语料307移入到标注语料303中；模型训练单元404，其利用由判断单元406扩展了的标注语料，训练双语词对齐模型。

与前面图2所示的实施例类似，本实施例中，双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。并且，初始模型训练单元401利用标注的双语语料，训练正向双语词对齐模型，并且，利用标注的双语语料，训练反向双语词对齐模型；词对齐单元402利用正向双语词对齐模型，对每对双语句子进行正向词对齐，并且，利用反向双语词对齐模型，对每对双语句子进行反向词对齐；判断单元406计算每对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的交集A₁∩A₂；计算该对双语句子的正向词对齐结果A₁和反向词对齐结果A₂的并集A₁∪A₂；如果上述交集A₁∩A₂中的元素个数与上述并集A₁∪A₂中的元素个数的比率R，

R = \frac{# (A_{1} \cap A_{2})}{# (A_{1} \cup A_{2})}

通过以上描述可知，本实施例的训练双语词对齐模型的装置可以实施前面描述的本发明实施例的训练双语词对齐模型的方法，由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练，所以可以得到精度很高的初始词对齐模型，进而，利用初始词对齐模型对未标注语料进行词对齐并利用判断为正确的对齐结果扩展标注语料，来训练双语词对齐模型。这样，在保证训练出的词对齐模型的质量的同时，又不会占用太多的人力和时间。

另外，根据本发明的另一个实施例，模型训练单元404利用扩展了的标注语料，训练正向双语词对齐模型，并且，利用扩展了的标注语料，训练反向双语词对齐模型。词对齐单元402进一步利用模型训练单元404新训练的双语词对齐模型，对未标注语料307中剩下的双语句子再次进行词对齐。如前面实施例所述的那样，重复判断、训练和再次进行词对齐的步骤，直到没有新的正确的词对齐产生。这样，可以利用新的对其结果，进一步完善词对齐模型。

在此，应当指出，本实施例的训练双语词对齐模型的装置400及其各个组成部分，可以用专用的电路或芯片构成，也可以通过计算机(处理器)执行相应的程序来实现。

以上虽然通过一些示例性的实施例对本发明的双语词对齐方法和装置、训练双语词对齐模型的方法和装置进行了详细的描述，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附权利要求为准。

Claims

1.一种双语词对齐方法，包括：

利用进行了词对齐的标注的双语语料，训练双语词对齐模型；

利用上述双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；

判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；

利用上述扩展了的标注的双语语料，再次训练上述双语词对齐模型；以及

利用上述再次训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

2.根据权利要求1所述的双语词对齐方法，进一步包括：重复上述判断、再次训练和再次进行词对齐的步骤，直到没有新的正确的词对齐产生。

3.根据权利要求1所述的双语词对齐方法，其中，上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。

4.根据权利要求1～3中任意一项所述的双语词对齐方法，其中，上述训练双语词对齐模型的步骤包括：

利用上述标注的双语语料，训练正向双语词对齐模型；以及

利用上述标注的双语语料，训练反向双语词对齐模型；

其中，对未标注的双语语料中多对双语句子进行词对齐的步骤包括：

利用上述正向双语词对齐模型，对上述每对双语句子进行正向词对齐；以及

利用上述反向双语词对齐模型，对上述每对双语句子进行反向词对齐；

其中，上述判断上述每对双语句子的词对齐是否正确的步骤包括：

计算该对双语句子的正向词对齐结果和反向词对齐结果的交集；

计算该对双语句子的正向词对齐结果和反向词对齐结果的并集；以及

如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值，则判断该对双语句子的词对齐是正确的。

5.根据权利要求4所述的双语词对齐方法，其中上述再次训练双语词对齐模型的步骤包括：

利用上述扩展了的标注的双语语料，再次训练正向双语词对齐模型；以及

利用上述扩展了的标注的双语语料，再次训练反向双语词对齐模型。

6.根据权利要求4所述的双语词对齐方法，其中将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中的步骤进一步包括：

如果上述正向词对齐结果与上述反向词对齐结果不完全相同，则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率，并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。

7.一种训练双语词对齐模型的方法，包括：

利用进行了词对齐的标注的双语语料，训练初始双语词对齐模型；

利用上述初始双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；

判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；以及

利用上述扩展了的标注的双语语料，训练双语词对齐模型。

8.根据权利要求7所述的训练双语词对齐模型的方法，进一步包括：

利用上述新训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐；以及

重复上述判断、训练和再次进行对齐的步骤，直到没有新的正确的词对齐产生。

9.根据权利要求7所述的训练双语词对齐模型的方法，其中，上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。

10.根据权利要求7～9中任意一项所述的训练双语词对齐模型的方法，其中上述训练初始双语词对齐模型的步骤包括：

利用上述标注的双语语料，训练正向初始双语词对齐模型；以及

利用上述标注的双语语料，训练反向初始双语词对齐模型；

利用上述正向初始双语词对齐模型，对上述每对双语句子进行正向词对齐；以及

利用上述反向初始双语词对齐模型，对上述每对双语句子进行反向词对齐；

11.根据权利要求10所述的训练双语词对齐模型的方法，其中上述训练双语词对齐模型的步骤包括：

利用上述扩展了的标注的双语语料，训练正向双语词对齐模型；以及

利用上述扩展了的标注的双语语料，训练反向双语词对齐模型。

12.根据权利要求10所述的训练双语词对齐模型的方法，其中将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中的步骤进一步包括：

13.一种双语词对齐装置，包括：

模型训练单元，其利用进行了词对齐的标注的双语语料，训练双语词对齐模型；

词对齐单元，其利用上述双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；

判断单元，其判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；

模型再训练单元，其利用上述由判断单元扩展了的标注的双语语料，再次训练上述双语词对齐模型；以及

再次词对齐单元，其利用上述再次训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

14.根据权利要求13所述的双语词对齐装置，其中，上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。

15.根据权利要求13或14所述的双语词对齐装置，其中上述模型训练单元利用上述标注的双语语料，训练正向双语词对齐模型，并且，利用上述标注的双语语料，训练反向双语词对齐模型；

其中，上述词对齐单元利用上述正向双语词对齐模型，对上述每对双语句子进行正向词对齐，并且，利用上述反向双语词对齐模型，对上述每对双语句子进行反向词对齐；

其中，上述判断单元计算该对双语句子的正向词对齐结果和反向词对齐结果的交集，计算该对双语句子的正向词对齐结果和反向词对齐结果的并集，并且，如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值，则判断该对双语句子的词对齐是正确的。

16.根据权利要求15所述的双语词对齐装置，其中上述模型再训练单元利用上述扩展了的标注的双语语料，再次训练正向双语词对齐模型，并且，利用上述扩展了的标注的双语语料，再次训练反向双语词对齐模型。

17.根据权利要求15所述的双语词对齐装置，其中上述判断单元被设置为，如果上述正向词对齐结果与上述反向词对齐结果不完全相同，则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率，并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。

18.一种训练双语词对齐模型的装置，包括：

初始模型训练单元，其利用进行了词对齐的标注的双语语料，训练初始双语词对齐模型；

词对齐单元，其利用上述初始双语词对齐模型，对未标注的双语语料中多对双语句子进行词对齐；

判断单元，其判断上述每对双语句子的词对齐是否正确，如果正确，则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除；以及

模型训练单元，其利用上述由判断单元扩展了的标注的双语语料，训练双语词对齐模型。

19.根据权利要求18所述的训练双语词对齐模型的装置，其中，上述词对齐单元利用上述模型训练单元新训练的双语词对齐模型，对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

20.根据权利要求18所述的训练双语词对齐模型的装置，其中，上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。

21.根据权利要求18～20中任意一项所述的训练双语词对齐模型的装置，其中，上述初始模型训练单元利用上述标注的双语语料，训练正向初始双语词对齐模型，并且，利用上述标注的双语语料，训练反向初始双语词对齐模型；

上述词对齐单元利用上述正向初始双语词对齐模型，对上述每对双语句子进行正向词对齐，并且，利用上述反向初始双语词对齐模型，对上述每对双语句子进行反向词对齐；

上述判断判断单元计算该对双语句子的正向词对齐结果和反向词对齐结果的交集，计算该对双语句子的正向词对齐结果和反向词对齐结果的并集，并且，如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值，则判断该对双语句子的词对齐是正确的。

22.根据权利要求21所述的训练双语词对齐模型的装置，其中上述模型训练单元利用上述扩展了的标注的双语语料，训练正向双语词对齐模型，并且，利用上述扩展了的标注的双语语料，训练反向双语词对齐模型。

23.根据权利要求21所述的训练双语词对齐模型的装置，其中上述判断单元被设置为，如果上述正向词对齐结果与上述反向词对齐结果不完全相同，则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率，并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。