CN101030197A - 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 - Google Patents

双语词对齐方法和装置、训练双语词对齐模型的方法和装置 Download PDF

Info

Publication number
CN101030197A
CN101030197A CNA2006100580727A CN200610058072A CN101030197A CN 101030197 A CN101030197 A CN 101030197A CN A2006100580727 A CNA2006100580727 A CN A2006100580727A CN 200610058072 A CN200610058072 A CN 200610058072A CN 101030197 A CN101030197 A CN 101030197A
Authority
CN
China
Prior art keywords
bilingual
word
alignment
mentioned
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100580727A
Other languages
English (en)
Inventor
吴华
王海峰
刘占一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CNA2006100580727A priority Critical patent/CN101030197A/zh
Priority to US11/678,364 priority patent/US7827027B2/en
Priority to JP2007048894A priority patent/JP4331219B2/ja
Publication of CN101030197A publication Critical patent/CN101030197A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。本发明的双语词对齐方法,包括:利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。

Description

双语词对齐方法和装置、训练双语词对齐模型的方法和装置
技术领域
本发明涉及信息处理技术,具体地,涉及自然语言处理中双语词对齐的技术和统计机器翻译技术。
背景技术
词对齐在自然语言处理中被广泛地使用。现有的词对齐技术,通常使用统计词对齐模型,把双语句子中互为译文的词对对应起来。统计词对齐模型包含用于确定双语句子中互为译文的词对的统计信息。
在P.F.Brown、S.A.Della Pietra、V.J.Della Pietra和R.Mercer于1993年发表的文章“The Mathematics of Statistical Machine Translation:Parameter Estimation”(发表于Computational Linguistics,19(2):263-311)中描述了关于统计机器翻译模型和统计词对齐模型以及相应的参数估计方法。
但是,由于目前统计词对齐模型利用大规模未标注的双语语料来无指导地训练统计词对齐模型,因此,这样的统计词对齐模型会导致产生很多不正确的对齐。如果有人工进行了词对齐标注的双语语料来进行有指导地训练,将可以得到精度更高的对齐模型。
另一方面,人工标注大规模双语语料是一件费时费力的工作。而如果只需人工标注少量语料,则不会占用太多的人力和时间。
发明内容
为了解决上述现有技术中存在的问题,本发明提供了双语词对齐方法和装置、训练双语词对齐模型的方法和装置。
根据本发明的一个方面,提供了一种双语词对齐方法,包括:利用进行了词对齐的标注的双语语料,训练双语词对齐模型;利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
根据本发明的另一个方面,提供了一种训练双语词对齐模型的方法,包括:利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及利用上述扩展了的标注的双语语料,训练双语词对齐模型。
根据本发明的另一个方面,提供了一种双语词对齐装置,包括:模型训练单元,其利用进行了词对齐的标注的双语语料,训练双语词对齐模型;词对齐单元,其利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;模型再训练单元,其利用上述由判断单元扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及再次词对齐单元,其利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
根据本发明的另一个方面,提供了一种训练双语词对齐模型的装置,包括:初始模型训练单元,其利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;词对齐单元,其利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及模型训练单元,其利用上述由判断单元扩展了的标注的双语语料,训练双语词对齐模型。
附图说明
相信通过以下结合附图对本发明具体实施方式的说明,能够使人们更好地了解本发明上述的特点、优点和目的。
图1是根据本发明一个实施例的双语词对齐方法的流程图;
图2是根据本发明一个实施例的训练双语词对齐模型的方法的流程图;
图3是根据本发明一个实施例的双语词对齐装置的方框图;以及
图4是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。
具体实施方式
下面就结合附图对本发明的各个优选实施例进行详细的说明。
图1是根据本发明一个实施例的双语词对齐方法的流程图。
如图1所示,首先在步骤101,利用进行了词对齐的标注的双语语料,训练双语词对齐模型。在本步骤中,标注的双语语料是由专业人员(例如,翻译人员)手工进行了词对齐标注的双语语料,其中包括多个互为译文的双语句子以及每对双语句子的词对齐信息。虽然标注的双语语料越大,***的性能越好,但是,由于手工进行词对齐标注费时费力,因此,相对于后面描述的未标注语料来说,标注语料是很小的。
在本实施例中,双语对齐模型采用至少包含词翻译概率(wordtranslation probability)、位置扭曲概率(position distortion probability)和词衍生概率(word fertility probability)的统计词对齐模型。其中,词翻译概率p(ws|wt)是目标语言词汇wt翻译到源语言语词汇ws的概率;位置扭曲概率p(j|i,l,m)是给定源语言句子的长度m,目标语句子的长度l的情况下,目标语言句子中第i个位置对应到源语言句子中第j个位置的概率。词汇的衍生概率p(i|wt)是目标语言词汇wt对应i个源语言词汇的概率。
另外,在本实施例中,双语词对齐模型包括正向双语词对齐模型和反向双语词对齐模型。在本步骤中,利用标注的双语语料,训练正向双语词对齐模型,并且训练反向双语词对齐模型。例如,对于中/英双语语料,需要训练中英词对齐模型和英中词对齐模型。
接着,在步骤105,利用前面步骤101中训练的双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐。在本实施例中,采用包含词翻译概率、位置扭曲概率和词衍生概率的双语词对齐模型,具体的对齐方式为:
1.利用词汇翻译概率和位置对齐概率,为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。
2.在对齐序列Ai的基础上,利用词汇翻译概率,位置扭曲模型和词汇衍生模型,通过尝试交换任意两个对齐或改变一个对齐,来寻找更好的对齐序列Ai+1。
3.重复过程2,直到没有更好的对齐序列被发现。
在此,本领域技术人员应当可以理解,对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。
在本步骤中,利用前面步骤101训练出的双向双语词对齐模型,对未标注的双语语料中的多对双语句子进行双向词对齐,从而分别得到正向词对齐结果和反向词对齐结果。
接着,在步骤110,判断每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到标注的双语语料中并将该对双语句子从未标注的双语语料中删除。
具体地,在本实施例中,计算每对双语句子的正向词对齐结果A1和反向词对齐结果A2的交集A1∩A2
计算该对双语句子的正向词对齐结果A1和反向词对齐结果A2的并集A1∪A2
如果上述交集A1∩A2中的元素个数与上述并集A1∪A2中的元素个数的比率R,
R = # ( A 1 ∩ A 2 ) # ( A 1 ∪ A 2 )
大于一个预先定义的阈值th,则判断该对双语句子的词对齐是正确的。否则,判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对,将其从未标注的语料移入标注的语料中。
另外,在本步骤中,如果该双语句子对的正向词对齐结果与反向词对齐结果不完全相同,也就是说,当th<R<1时,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
例如,对于英汉句对:
英语:Please put the redjacket on the bed.
汉语:请把红色的夹克放在床上。
利用词对齐模型我们得到下面正向和反向的对齐结果:
英-汉的对齐(正向)
Figure A20061005807200122
汉-英的对齐(反向)
Figure A20061005807200123
这时,
#(A1)=7//正向的对齐个数
#(A2)=7//反向的对齐个数
在汉-英的对齐结果中,存在”on<->在”;而英-汉中存在”on<->在..上”。所以
#(A1∪A2)=6//正向和反向对齐中一共出现的对齐个数(在正向和反向对齐中同时出现的对齐计作一次)
#(A1∩A2)=8//正向和反向对齐中同时出现的对齐个数
这样,根据 R = # ( A 1 &cap; A 2 ) # ( A 1 &cup; A 2 ) , R=6/8=0.75>0.7.(假设预先设定的阈值th是0.7)
那么,得到的该例句的对齐满足要求,然后,对于没有出现在A1∩A2中的对齐,使用“词对齐概率”来判断哪一种对齐情况正确。对于上面的例子来说,存在”on<->在”和”on<->在..上”,分别计算两个对齐的概率,得出“on<->在..上”的概率大,所以选择“on<->在..上”。把该例句和处理过的对齐保存到标注集合中。即把下面的结果保存到标注集合中。
Figure A20061005807200132
接着,在步骤115,利用扩展了的标注的双语语料,再次训练双语词对齐模型。与前面的步骤101类似,在本步骤中,利用扩展了的标注的双语语料,训练正向双语词对齐模型和反向双语词对齐模型。
接着,在步骤120,利用上述双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
通过以上描述可知,如果采用本实施例的双语词对齐方法,由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练,所以可以得到精度更高的对齐模型;同时,由于标注的双语语料相对于未标注的语料规模要小得多,所以不会占用太多的人力和时间。这样,本实施例的双语词对齐方法可以比现有的词对齐方法更准确地对未标注的语料中的句子对进行词对齐。
另外,根据本发明的另外一个实施例,在步骤120之后,进一步重复上述判断(步骤110)、再次训练(步骤115)和再次进行词对齐(步骤120)的步骤,直到没有新的正确的词对齐产生。这样,可以利用新的对其结果,进一步完善词对齐模型,从而提高词对齐的准确性。
在同一发明构思下,图2是根据本发明一个实施例的训练双语词对齐模型的方法的流程图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图2所示,首先在步骤201,利用标注的双语语料,训练初始双语词对齐模型。与前面图1所示的步骤101类似,标注的双语语料是由专业人员(例如,翻译人员)手工进行了词对齐标注的双语语料,其中包括多个互为译文的双语句子以及每对双语句子的词对齐信息。
另外,在本实施例中,双语词对齐模型包括正向双语词对齐模型和反向双语词对齐模型。在本步骤中,利用标注的双语语料,训练正向双语词对齐模型,并且训练反向双语词对齐模型。
接着,在步骤205,利用训练的初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐。与前面图1所示的步骤105类似,在本实施例中,采用包含词翻译概率、位置扭曲概率和词衍生概率的双语词对齐模型,具体的对齐方式为:
1.利用词汇翻译概率和位置对齐概率,为每一个源语言单词寻找一个最佳的单词对齐。这样得到一个对齐序列A0。
2.在对齐序列Ai的基础上,利用词汇翻译概率,位置扭曲模型和词汇衍生模型,通过尝试交换任意两个对齐或改变一个对齐,来寻找更好的对齐序列Ai+1。
3.重复过程2,直到没有更好的对齐序列被发现。
在此,本领域技术人员应当可以理解,对于最佳对其序列的搜索可以采用人们已知的和将来的任何搜索算法。
在本步骤中,利用训练出的初始双向双语词对齐模型,对未标注的双语语料中的多对双语句子进行双向词对齐,从而分别得到正向词对齐结果和反向词对齐结果。
接着,在步骤210,判断每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到标注的双语语料中并将该对双语句子从未标注的双语语料中删除。
具体地,在本实施例中,计算每对双语句子的正向词对齐结果A1和反向词对齐结果A2的交集A1∩A2
计算该对双语句子的正向词对齐结果A1和反向词对齐结果A2的并集A1∪A2
如果上述交集A1∩A2中的元素个数与上述并集A1∪A2中的元素个数的比率R,
R = # ( A 1 &cap; A 2 ) # ( A 1 &cup; A 2 )
大于一个预先定义的阈值th,则判断该对双语句子的词对齐是正确的。否则,判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对,将其从未标注的语料移入标注的语料中。
另外,在本步骤中,如果该双语句子对的正向词对齐结果与反向词对齐结果不完全相同,也就是说,当th<R<1时,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
接着,在步骤215,利用扩展了的标注的双语语料,训练双语词对齐模型。在本步骤中,利用扩展了的标注的双语语料,训练正向双语词对齐模型和反向双语词对齐模型。
通过以上描述可知,如果采用本实施例的双语词对齐方法,由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练,所以可以得到精度很高的初始词对齐模型,进而,利用初始词对齐模型对未标注语料进行词对齐并利用判断为正确的对齐结果扩展标注语料,来训练双语词对齐模型。这样,在保证训练出的词对齐模型的质量的同时,又不会占用太多的人力和时间。
另外,根据本发明的另外一个实施例,在步骤215之后,利用上述新训练的双语词对齐模型,对未标注的双语语料中剩下的双语句子再次进行词对齐。并且重复上述判断(步骤210)、训练(步骤215)和再次进行词对齐的步骤,直到没有新的正确的词对齐产生。这样,可以利用新的对其结果,进一步完善词对齐模型。
在同一发明构思下,图3是根据本发明一个实施例的双语词对齐装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图3所示,本实施例的双语词对齐装置300,包括:标注语料303,其中包含有经过词对齐标注的双语句子对;未标注语料307,其中包含由没有标注的双语句子对;模型训练单元301,其利用标注语料303中进行了词对齐的标注的双语语料,训练双语词对齐模型;词对齐单元302,其利用双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;判断单元306,其判断每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子从未标注语料307移入到标注语料303中;模型再训练单元304,其利用由判断单元306扩展了的标注语料303,再次训练双语词对齐模型;再次词对齐单元305,其利用由模型再训练单元304再次训练的双语词对齐模型,对未标注语料307中剩下的双语句子再次进行词对齐。
与前面图1所示的实施例类似,本实施例中,双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。并且,模型训练单元301利用标注的双语语料,训练正向双语词对齐模型,并且,利用标注的双语语料,训练反向双语词对齐模型;词对齐单元302利用正向双语词对齐模型,对每对双语句子进行正向词对齐,并且,利用反向双语词对齐模型,对每对双语句子进行反向词对齐;判断单元306计算每对双语句子的正向词对齐结果A1和反向词对齐结果A2的交集A1∩A2;计算该对双语句子的正向词对齐结果A1和反向词对齐结果A2的并集A1∪A2;如果上述交集A1∩A2中的元素个数与上述并集A1∪A2中的元素个数的比率R, R = # ( A 1 &cap; A 2 ) # ( A 1 &cup; A 2 ) 大于一个预先定义的阈值th,则判断该对双语句子的词对齐是正确的。否则,判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对,将其从未标注的语料移入标注的语料中。如果正向词对齐结果与反向词对齐结果不完全相同,则分别计算正向词对齐结果与反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到标注语料中。
模型再训练单元304利用扩展了的标注语料,再次训练正向双语词对齐模型,并且,利用扩展了的标注语料,再次训练反向双语词对齐模型。
通过以上描述可知,本实施例的双语词对齐装置可以实施前面描述的本发明实施例的双语词对齐方法,可以比现有的词对齐方法更准确地对未标注的语料中的句子对进行词对齐,同时,不会占用太多的人力和时间。
另外,根据本发明的另外一个实施例,对于经由再次词对齐单元305进行了词对齐的句子对,可以由判断单元306进行再次判断,从而再次扩展标注语料303,如前面实施例中描述的那样,重复判断、再次训练和再次进行词对齐的步骤,直到没有新的正确的词对齐产生。这样,可以利用新的对其结果,进一步完善词对齐模型,从而提高词对齐的准确性。
在此,应当指出,本实施例的双语词对齐装置300及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
在同一发明构思下,图4是根据本发明一个实施例的训练双语词对齐模型的装置的方框图。下面就结合该图,对本实施例进行描述。对于那些与前面实施例相同的部分,适当省略其说明。
如图4所示,本实施例的训练双语词对齐模型的装置400,包括:标注语料303,其中包含有经过词对齐标注的双语句子对;未标注语料307,其中包含由没有标注的双语句子对;初始模型训练单元401,其利用标注语料303中进行了词对齐的标注的双语语料,训练初始双语词对齐模型;词对齐单元402,其利用初始双语词对齐模型,对未标注语料中多对双语句子进行词对齐;判断单元406,其判断每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子从未标注语料307移入到标注语料303中;模型训练单元404,其利用由判断单元406扩展了的标注语料,训练双语词对齐模型。
与前面图2所示的实施例类似,本实施例中,双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。并且,初始模型训练单元401利用标注的双语语料,训练正向双语词对齐模型,并且,利用标注的双语语料,训练反向双语词对齐模型;词对齐单元402利用正向双语词对齐模型,对每对双语句子进行正向词对齐,并且,利用反向双语词对齐模型,对每对双语句子进行反向词对齐;判断单元406计算每对双语句子的正向词对齐结果A1和反向词对齐结果A2的交集A1∩A2;计算该对双语句子的正向词对齐结果A1和反向词对齐结果A2的并集A1∪A2;如果上述交集A1∩A2中的元素个数与上述并集A1∪A2中的元素个数的比率R, R = # ( A 1 &cap; A 2 ) # ( A 1 &cup; A 2 ) 大于一个预先定义的阈值th,则判断该对双语句子的词对齐是正确的。否则,判断该对双语句子的词对齐是错误的。对于正确的词对齐的双语句子对,将其从未标注的语料移入标注的语料中。如果正向词对齐结果与反向词对齐结果不完全相同,则分别计算正向词对齐结果与反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到标注语料中。
通过以上描述可知,本实施例的训练双语词对齐模型的装置可以实施前面描述的本发明实施例的训练双语词对齐模型的方法,由于使用了人工进行了词对齐标注的双语语料来进行有指导地训练,所以可以得到精度很高的初始词对齐模型,进而,利用初始词对齐模型对未标注语料进行词对齐并利用判断为正确的对齐结果扩展标注语料,来训练双语词对齐模型。这样,在保证训练出的词对齐模型的质量的同时,又不会占用太多的人力和时间。
另外,根据本发明的另一个实施例,模型训练单元404利用扩展了的标注语料,训练正向双语词对齐模型,并且,利用扩展了的标注语料,训练反向双语词对齐模型。词对齐单元402进一步利用模型训练单元404新训练的双语词对齐模型,对未标注语料307中剩下的双语句子再次进行词对齐。如前面实施例所述的那样,重复判断、训练和再次进行词对齐的步骤,直到没有新的正确的词对齐产生。这样,可以利用新的对其结果,进一步完善词对齐模型。
在此,应当指出,本实施例的训练双语词对齐模型的装置400及其各个组成部分,可以用专用的电路或芯片构成,也可以通过计算机(处理器)执行相应的程序来实现。
以上虽然通过一些示例性的实施例对本发明的双语词对齐方法和装置、训练双语词对齐模型的方法和装置进行了详细的描述,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。

Claims (23)

1.一种双语词对齐方法,包括:
利用进行了词对齐的标注的双语语料,训练双语词对齐模型;
利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;
判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;
利用上述扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及
利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
2.根据权利要求1所述的双语词对齐方法,进一步包括:重复上述判断、再次训练和再次进行词对齐的步骤,直到没有新的正确的词对齐产生。
3.根据权利要求1所述的双语词对齐方法,其中,上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。
4.根据权利要求1~3中任意一项所述的双语词对齐方法,其中,上述训练双语词对齐模型的步骤包括:
利用上述标注的双语语料,训练正向双语词对齐模型;以及
利用上述标注的双语语料,训练反向双语词对齐模型;
其中,对未标注的双语语料中多对双语句子进行词对齐的步骤包括:
利用上述正向双语词对齐模型,对上述每对双语句子进行正向词对齐;以及
利用上述反向双语词对齐模型,对上述每对双语句子进行反向词对齐;
其中,上述判断上述每对双语句子的词对齐是否正确的步骤包括:
计算该对双语句子的正向词对齐结果和反向词对齐结果的交集;
计算该对双语句子的正向词对齐结果和反向词对齐结果的并集;以及
如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值,则判断该对双语句子的词对齐是正确的。
5.根据权利要求4所述的双语词对齐方法,其中上述再次训练双语词对齐模型的步骤包括:
利用上述扩展了的标注的双语语料,再次训练正向双语词对齐模型;以及
利用上述扩展了的标注的双语语料,再次训练反向双语词对齐模型。
6.根据权利要求4所述的双语词对齐方法,其中将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中的步骤进一步包括:
如果上述正向词对齐结果与上述反向词对齐结果不完全相同,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
7.一种训练双语词对齐模型的方法,包括:
利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;
利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;
判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及
利用上述扩展了的标注的双语语料,训练双语词对齐模型。
8.根据权利要求7所述的训练双语词对齐模型的方法,进一步包括:
利用上述新训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐;以及
重复上述判断、训练和再次进行对齐的步骤,直到没有新的正确的词对齐产生。
9.根据权利要求7所述的训练双语词对齐模型的方法,其中,上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。
10.根据权利要求7~9中任意一项所述的训练双语词对齐模型的方法,其中上述训练初始双语词对齐模型的步骤包括:
利用上述标注的双语语料,训练正向初始双语词对齐模型;以及
利用上述标注的双语语料,训练反向初始双语词对齐模型;
其中,对未标注的双语语料中多对双语句子进行词对齐的步骤包括:
利用上述正向初始双语词对齐模型,对上述每对双语句子进行正向词对齐;以及
利用上述反向初始双语词对齐模型,对上述每对双语句子进行反向词对齐;
其中,上述判断上述每对双语句子的词对齐是否正确的步骤包括:
计算该对双语句子的正向词对齐结果和反向词对齐结果的交集;
计算该对双语句子的正向词对齐结果和反向词对齐结果的并集;以及
如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值,则判断该对双语句子的词对齐是正确的。
11.根据权利要求10所述的训练双语词对齐模型的方法,其中上述训练双语词对齐模型的步骤包括:
利用上述扩展了的标注的双语语料,训练正向双语词对齐模型;以及
利用上述扩展了的标注的双语语料,训练反向双语词对齐模型。
12.根据权利要求10所述的训练双语词对齐模型的方法,其中将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中的步骤进一步包括:
如果上述正向词对齐结果与上述反向词对齐结果不完全相同,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
13.一种双语词对齐装置,包括:
模型训练单元,其利用进行了词对齐的标注的双语语料,训练双语词对齐模型;
词对齐单元,其利用上述双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;
判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;
模型再训练单元,其利用上述由判断单元扩展了的标注的双语语料,再次训练上述双语词对齐模型;以及
再次词对齐单元,其利用上述再次训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
14.根据权利要求13所述的双语词对齐装置,其中,上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。
15.根据权利要求13或14所述的双语词对齐装置,其中上述模型训练单元利用上述标注的双语语料,训练正向双语词对齐模型,并且,利用上述标注的双语语料,训练反向双语词对齐模型;
其中,上述词对齐单元利用上述正向双语词对齐模型,对上述每对双语句子进行正向词对齐,并且,利用上述反向双语词对齐模型,对上述每对双语句子进行反向词对齐;
其中,上述判断单元计算该对双语句子的正向词对齐结果和反向词对齐结果的交集,计算该对双语句子的正向词对齐结果和反向词对齐结果的并集,并且,如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值,则判断该对双语句子的词对齐是正确的。
16.根据权利要求15所述的双语词对齐装置,其中上述模型再训练单元利用上述扩展了的标注的双语语料,再次训练正向双语词对齐模型,并且,利用上述扩展了的标注的双语语料,再次训练反向双语词对齐模型。
17.根据权利要求15所述的双语词对齐装置,其中上述判断单元被设置为,如果上述正向词对齐结果与上述反向词对齐结果不完全相同,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
18.一种训练双语词对齐模型的装置,包括:
初始模型训练单元,其利用进行了词对齐的标注的双语语料,训练初始双语词对齐模型;
词对齐单元,其利用上述初始双语词对齐模型,对未标注的双语语料中多对双语句子进行词对齐;
判断单元,其判断上述每对双语句子的词对齐是否正确,如果正确,则将判断为正确的对齐后的该对双语句子增加到上述标注的双语语料中并将该对双语句子从上述未标注的双语语料中删除;以及
模型训练单元,其利用上述由判断单元扩展了的标注的双语语料,训练双语词对齐模型。
19.根据权利要求18所述的训练双语词对齐模型的装置,其中,上述词对齐单元利用上述模型训练单元新训练的双语词对齐模型,对上述未标注的双语语料中剩下的双语句子再次进行词对齐。
20.根据权利要求18所述的训练双语词对齐模型的装置,其中,上述双语词对齐模型至少包括词翻译概率、位置扭曲概率和词衍生概率。
21.根据权利要求18~20中任意一项所述的训练双语词对齐模型的装置,其中,上述初始模型训练单元利用上述标注的双语语料,训练正向初始双语词对齐模型,并且,利用上述标注的双语语料,训练反向初始双语词对齐模型;
上述词对齐单元利用上述正向初始双语词对齐模型,对上述每对双语句子进行正向词对齐,并且,利用上述反向初始双语词对齐模型,对上述每对双语句子进行反向词对齐;
上述判断判断单元计算该对双语句子的正向词对齐结果和反向词对齐结果的交集,计算该对双语句子的正向词对齐结果和反向词对齐结果的并集,并且,如果上述交集中的元素个数与上述并集中的元素个数的比率大于一个预先定义的阈值,则判断该对双语句子的词对齐是正确的。
22.根据权利要求21所述的训练双语词对齐模型的装置,其中上述模型训练单元利用上述扩展了的标注的双语语料,训练正向双语词对齐模型,并且,利用上述扩展了的标注的双语语料,训练反向双语词对齐模型。
23.根据权利要求21所述的训练双语词对齐模型的装置,其中上述判断单元被设置为,如果上述正向词对齐结果与上述反向词对齐结果不完全相同,则分别计算上述正向词对齐结果与上述反向词对齐结果中不相同部分的词翻译概率,并将词翻译概率高的词对齐结果加入到上述标注的双语语料中。
CNA2006100580727A 2006-02-28 2006-02-28 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 Pending CN101030197A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CNA2006100580727A CN101030197A (zh) 2006-02-28 2006-02-28 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US11/678,364 US7827027B2 (en) 2006-02-28 2007-02-23 Method and apparatus for bilingual word alignment, method and apparatus for training bilingual word alignment model
JP2007048894A JP4331219B2 (ja) 2006-02-28 2007-02-28 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100580727A CN101030197A (zh) 2006-02-28 2006-02-28 双语词对齐方法和装置、训练双语词对齐模型的方法和装置

Publications (1)

Publication Number Publication Date
CN101030197A true CN101030197A (zh) 2007-09-05

Family

ID=38445092

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100580727A Pending CN101030197A (zh) 2006-02-28 2006-02-28 双语词对齐方法和装置、训练双语词对齐模型的方法和装置

Country Status (3)

Country Link
US (1) US7827027B2 (zh)
JP (1) JP4331219B2 (zh)
CN (1) CN101030197A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN107436865A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及***
CN107704456A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、***、电子设备及计算机可读介质
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
US8504354B2 (en) 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
JP2010170306A (ja) * 2009-01-22 2010-08-05 Toshiba Corp 対訳可逆性適性判断システムおよび機械翻訳システム
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US10529013B2 (en) * 2013-07-01 2020-01-07 Intuit Inc. Identifying business type using public information
CN108664999B (zh) * 2018-05-03 2021-02-12 北京图森智途科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN110874536B (zh) * 2018-08-29 2023-06-27 阿里巴巴集团控股有限公司 语料质量评估模型生成方法和双语句对互译质量评估方法
CN109857746B (zh) * 2018-11-09 2021-05-04 语联网(武汉)信息技术有限公司 双语词库的自动更新方法、装置与电子设备
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
US20200401878A1 (en) * 2019-06-19 2020-12-24 International Business Machines Corporation Collaborative real-time solution efficacy
CN112668307B (zh) * 2020-12-30 2022-06-21 清华大学 一种双语句子自动对齐方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7945437B2 (en) * 2005-02-03 2011-05-17 Shopping.Com Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN107436865A (zh) * 2016-05-25 2017-12-05 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及***
CN107436865B (zh) * 2016-05-25 2020-10-16 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及***
CN107704456A (zh) * 2016-08-09 2018-02-16 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107704456B (zh) * 2016-08-09 2023-08-29 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386A (zh) * 2016-09-01 2018-03-13 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、***、电子设备及计算机可读介质
CN111933116A (zh) * 2020-06-22 2020-11-13 厦门快商通科技股份有限公司 语音识别模型训练方法、***、移动终端及存储介质

Also Published As

Publication number Publication date
JP2007234024A (ja) 2007-09-13
JP4331219B2 (ja) 2009-09-16
US7827027B2 (en) 2010-11-02
US20070203689A1 (en) 2007-08-30

Similar Documents

Publication Publication Date Title
CN101030197A (zh) 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
CN101030196A (zh) 训练双语词对齐模型的方法和装置、双语词对齐方法和装置
CN1945562A (zh) 训练音译模型、切分统计模型以及自动音译的方法和装置
CN104750687B (zh) 改进双语语料库的方法及装置、机器翻译方法及装置
CN1945693A (zh) 训练韵律统计模型、韵律切分和语音合成的方法及装置
CN1159662C (zh) 连续语音识别中的标点符号自动生成装置及方法
CN101051458A (zh) 基于组块分析的韵律短语预测方法
CN108647214A (zh) 基于深层神经网络翻译模型的解码方法
DE60332220D1 (de) Phrasenbasiertes gemeines wahrscheinlichkeitsmodell zur statistischen maschinellen übersetzung
CN1282072A (zh) 对语音识别结果中的错误进行校正的方法和语音识别***
JP2009140503A (ja) 音声翻訳方法及び装置
CN1185897C (zh) 一种移动台位置的估计方法及装置
CN1916941A (zh) 一种字符识别的后处理方法
CN103823796A (zh) 一种翻译***及翻译方法
CN105701089A (zh) 一种机器翻译错词修正的后编辑处理方法
CN101075230A (zh) 一种基于语块的中文机构名翻译方法及装置
CN1828580A (zh) 一种矩阵文字框适应文字内容的排版方法
CN1916887A (zh) 基于替换词技术的无指导词义消歧方法
CN1879148A (zh) 用于语法产生的语义标记到短语的分配
CN1949184A (zh) 一种芯片验证的方法及***
CN1238834C (zh) 一种口语识别理解的识别分析方法
CN1484173A (zh) 基于汉字形状的中文单词拼写错误校正方法
CN1134568A (zh) 中文简繁体字文件转换装置
CN1258725C (zh) 基于语义构词约束的汉语二字词抽取方法
CN100337232C (zh) 盲汉对照编辑排版方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070905