CN106844332A

CN106844332A - 基于锚点的增长式实时双语词对齐的对齐方法及对齐***

Info

Publication number: CN106844332A
Application number: CN201611169586.XA
Authority: CN
Inventors: 张家俊; 黄国平; 周玉; 宗成庆
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2016-12-16
Filing date: 2016-12-16
Publication date: 2017-06-13

Abstract

本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐***，所述对齐方法包括：对一对源语言句子和目标语言句子进行分词处理，获得源语言词组和目标语言词组；根据源语言词组和目标语言词组确定探测锚点集合；根据探测锚点集合，进行双语短语切分，得到双语短语切分候选集合；根据双语短语切分候选集合和词对齐模型，确定源语言词组和目标语言词组的对齐双语词；将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中，判断当前的批处理训练集的大小是否超过设定阈值，如果是则根据当前的批处理训练集更新词对齐模型；否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率，提高最终的机器翻译译文质量。

Description

基于锚点的增长式实时双语词对齐的对齐方法及对齐***

技术领域

本发明涉及自然语言处理技术领域，更具体地，涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐***。

背景技术

机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言，翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。词对齐是统计机器翻译的一项核心任务，它从双语平行语料中发掘互为翻译的语言片断，是翻译知识的主要来源。简而言之，词对齐就是源语言句子中某个词是由目标语言中哪个词翻译而来的。如图1所示，一个词可以被翻译为一个或多个词，甚至不被翻译。在实践中，一部分错误的翻译规则因词对齐错误而触发，因而进一步影响最终机器翻译译文质量。

在实践中，经典的词对齐方法包括IBM模型1到5和隐马尔可夫词对齐方法，可参见文献(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and RobertL.Mercer.1993.The mathematics of statistical machine translation:Parameterestimation.Computational Linguistics,19(2):263–311.；Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings ofthe 16th conference on Computational linguistics.vol.2,pp.836–841)。经典的词对齐方法在离线训练场景中的性能比较优越，已得到很多工具的支持，如广泛使用的GIZA++等。

在人工翻译场景中，专业译员不断地产生新的双语平行句对，而且要求统计机器翻译***能实时地学习新的翻译知识，所以必然要求词对齐模型也能尽快学习到新的词语翻译知识，从而不断降低词对齐错误率。由于传统的词对齐方法用于大规模语料的离线训练周期较长，不利于统计机器翻译***实时学习翻译知识。

然而，当前的增长式双语词对齐性能并没有达到能直接用于统计机器翻译实时学***。其主要原因为如下三点：(1)对新词处理能力较弱；(2)长句子词对齐错误率较高；(3)大规模语料的训练周期仍然较长；(4)未充分利用置信度较高的先验知识。如果直接将先验知识作为词对齐的约束，并不能带来性能的提升，还需要改进现有增长式双语词对齐算法。因此，研究如何利用先验知识，大幅减少增长式双语词对齐的训练时间，同时明显降低新词和长句的双语词对齐的错误率，并提高最终的机器翻译译文质量是迫切需要解决的一个难题。

发明内容

为了解决现有技术中的上述问题，即为了解决降低新词和长句的双语词对齐的错误率，并提高最终的机器翻译译文质量的问题，本发明提供了一种基于锚点的增长式实时双语词对齐的对齐方法。

实现上述目的，本发明提供了如下方案：

一种基于锚点的增长式实时双语词对齐的对齐方法，所述对齐方法包括：

对一对源语言句子和目标语言句子进行分词处理，获得源语言词组和目标语言词组；

根据所述源语言词组和目标语言词组确定探测锚点集合；

根据所述探测锚点集合，对源语言词组和目标语言词组进行双语短语切分，得到双语短语切分候选集合；

根据所述双语短语切分候选集合和词对齐模型，确定所述源语言词组和目标语言词组的对齐双语词；

将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中，判断当前的批处理训练集的大小是否超过设定阈值，如果是则根据当前的批处理训练集更新词对齐模型；否则重复上述步骤，直至完成全部源语言句子和目标语言句子的处理。

可选的，所述确定探测锚点集合的方法包括：

步骤S21：根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息；

步骤S22：将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点，多个锚点形成对齐描点集合；

步骤S23：标记所述锚点对应的源语言句子词的下标为横坐标，将横坐标所在行的所有互信息替换为最小互信息值；标记所述锚点对应的目标语言句子词的下标为纵坐标，将纵坐标对应列的所有互信息替换为最小互信息值；

步骤S24：从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点，多个启用锚点形成探测锚点集合，超过距离阈值的锚点为禁用锚点。

可选的，在步骤S22之前，所述确定探测锚点集合的方法还包括：

初始化对齐描点集合，使得所述对齐描点集合为空集。

可选的，所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。

可选的，所述对源语言词组和目标语言词组进行双语短语切分的方法包括：

逐一遍历所述探测锚点集合中的每个启用锚点，以设定位置的启用锚点为中心，在满足双语短语扩展的约束条件下，从源语言句子端和目标语言句子端分别向左右两边扩展，获得多个双语短语切分候选，形成双语短语切分候选集合。

可选的，所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点，能跨越禁用锚点；且源语言句子端和目标语言句子端均不能超过距离阈值。

可选的，所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括：

采用动态规划算法搜索最佳的双语短语切分候选，并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。

可选的，所述根据当前的批处理训练集更新词对齐模型的方法包括：

随机抽样一批对齐双语词作为初始化训练数据，并训练得到双语短语翻译对当前的词对齐模型的状态跳转概率和词翻译概率；

更新共现次数小于设定次数的源语言词和目标语言词的翻译概率。

根据本发明的实施例，本发明公开了以下技术效果：

本发明基于锚点的增长式实时双语词对齐的对齐方法通过对源语言句子和目标语言句子分词、确定探测锚点集合，进而根据探测锚点集合确定双语短语切分候选集合，通过引入双语短语切分候选可有效降低新词的词对齐错误率，从而提高翻译规则抽取的准确率，最终提高机器翻译译文质量。

为了解决现有技术中的上述问题，即为了解决降低新词和长句的双语词对齐的错误率，并提高最终的机器翻译译文质量的问题，本发明提供了一种基于锚点的增长式实时双语词对齐的对齐***。

实现上述目的，本发明提供了如下方案：

一种基于锚点的增长式实时双语词对齐的对齐***，所述对齐***包括：

分词模块，用于对一对源语言句子和目标语言句子进行分词处理，获得源语言词组和目标语言词组；

集合确定模块，用于根据所述源语言词组和目标语言词组确定探测锚点集合；

短语切分模块，用于根据所述探测锚点集合，对所述源语言词组和目标语言词组进行双语短语切分，得到双语短语切分候选集合；

对齐模块，用于根据所述双语短语切分候选集合和词对齐模型，确定所述源语言词组和目标语言词组的对齐双语词；

判断模块，分别所述对齐模块和分词模块连接，用于将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中，判断当前的批处理训练集的大小是否超过设定阈值；

更新模块，用于在所述判断模块的判断结果为是时，根据当前的批处理训练集更新词对齐模型；所述分词模块还用于在所述判断模块的判断结果为否时，对其他对的源语言句子和目标语言句子进行分词处理。

可选的，所述集合确定模块包括：

计算单元，用于根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息；

对齐描点集合确定单元，用于将最大互信息值对应的源语言词和目标语言词或者先验知识确定的源语言词和目标语言词标为锚点，多个锚点形成对齐描点集合；

标记单元，用于标记所述锚点对应的源语言句子词的下标为横坐标，标记所述锚点对应的目标语言句子词的下标为纵坐标；

替换单元，用于将横坐标所在行的所有互信息替换为最小互信息值，将纵坐标对应列的所有互信息替换为最小互信息值；

筛选单元，用于从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点，多个启用锚点形成探测锚点集合，超过距离阈值的锚点为禁用锚点。

根据本发明的实施例，本发明公开了以下技术效果：

本发明基于锚点的增长式实时双语词对齐的对齐装置通过设置分词模块对对源语言句子和目标语言句子分词处理，设置集合确定模块确定探测锚点集合，进而通过设置短语切分模块根据探测锚点集合确定双语短语切分候选集合，通过引入双语短语切分候选可有效降低新词的词对齐错误率，从而提高翻译规则抽取的准确率，最终提高机器翻译译文质量。

附图说明

图1是词对齐的一个实例示意图；

图2是本发明基于锚点的增长式实时双语词对齐的对齐方法的流程图；

图3是本发明中的获得对齐锚点集合的示意图；

图4是本发明中进行双语短语切分和词对齐的示意图；

图5是本发明基于锚点的增长式实时双语词对齐的对齐***的结构示意图。

符号说明：

分词模块—1，集合确定模块—2，短语切分模块—3，对齐模块—4，判断模块—5，更新模块—6。

具体实施方式

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

如图2所示，本发明基于锚点的增长式实时双语词对齐的对齐方法包括：

步骤100：对一对源语言句子和目标语言句子进行分词处理，获得源语言词组和目标语言词组；

步骤200：根据所述源语言词组和目标语言词组确定探测锚点集合；

步骤300：根据所述探测锚点集合，对源语言词组和目标语言词组进行双语短语切分，得到双语短语切分候选集合；

步骤400：根据所述双语短语切分候选集合和词对齐模型，确定所述源语言词组和目标语言词组的对齐双语词；

步骤500：将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中；

步骤600：判断当前的批处理训练集的大小是否超过设定阈值，如果是则执行步骤700；否则重复上述步骤，直至完成全部源语言句子和目标语言句子的处理；

步骤700：根据当前的批处理训练集更新词对齐模型。

通过上述步骤得到：

源语言句子其中J为源语言句子的词数，s_j为源语言句子的第j个词；

目标语言句子其中I为目标语言句子的词数，t_i为目标语言句子的第i个词；

原始锚点集合其中h_m＝(j，i)表示源语言第j个词与目标语言第i个词构成的第m个对齐锚点，共M个锚点；

探测锚点集合通过禁用部分锚点得到，是原始锚点集合的真子集，一次探测中，共N个锚点；

双语句子短语切分D＝d₁d₂...d_N，d_n＝(s.start，s.end，t.start，t.end，pa_n)指第n个双语短语，s.start，s.end，t.start，t.end分别指源短语的起始下标、源短语的终止下标、目标短语的起始下标和目标短语的终止下标，pa_n为短语内双语词对齐；

双语短语词对齐pa＝a₁a₂...a_len(pa)，a_j＝{i|a(j)＝i}，其中a(j)＝i指源语言短语第j个词与目标语言短语的第i个词对应，i可能有多个不同的值；

双语句子词对齐A＝pa₁pa₂...pa_N，其中N指短语切分的数量；

最终双语句子词对齐A^*，最终锚点集合H^*和最终短语划分D^*。

利用上述符号，本发明的核心思想可形式化为如下模型：

由公式(1)可知，本发明将锚点探测、双语短语切分和短语内部词对齐融合在一起同时执行，在理论上避免了已有方法结合先验知识、长句对齐和新词处理存在错误相互传递的缺点。因为已有方法一般是独立进行先验知识的融合、长句切分成子句和新词处理，考虑到每个环节均可能引入错误而且会传递到下一阶段，最后造成词对齐性能明显下降。在公式(1)中，P(d_n.s，d_n.pa|d_n.t)为双语短语词对齐模型。

例如，假设源语言句子S：

The Netherlands agrees with the commission that domestic violenceaffects women disproportionately.

目标语言句子t：

荷兰同意平等待遇委员会的看法，即家庭暴力对妇女影响特别大。

通过分词处理，通过空格隔开相邻词:

其中，在步骤200中所述确定探测锚点集合的方法包括：

步骤210：根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息。

具体的，源语言词组s与目标语言词组t之间的互信息可由下述公式计算得到：

其中，P(s，t)指源语言词与目标语言词的共现频率：

count(.)表示出现次数，P(s)和P(t)分别表示源语言词和目标语言词出现频率。

本实施例中，词之间的互信息计算结果如图3所示。互信息可以衡量两个变量之间相互依赖的强度。因此，一些互为翻译之间的词的互信息值相对较大，单元格的互信息值越大，对应词之间互为翻译的可能性也越大。如果源语言词和目标语言词都是首次出现，则相关互信息值则会明显超过周围单元格的值。

步骤220：将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点h＝(j，i)，多个锚点形成对齐描点集合H。

优选地，在确定锚点之前，初始化对齐描点集合，使得所述对齐描点集合为空集，即H＝{}。

在所述锚点h＝(j，i)添加到到所述对齐描点集合后，所述对齐描点集合为其中h_m＝(j，i)表示源语言第j个词与目标语言第i个词构成的第m个对齐锚点，共M个锚点。

本实施例中，最大的互信息值MI(“netherlands”,“荷兰”)＝8，则可以将“netherlands”与“荷兰”作为对齐锚点。

所述先验知识包括：(1)领域词典；(2)领域术语库；(3)专家总结的双语词对齐规则中至少一者。例如，可以根据词典查询到第一次出现的英语单词“disproportionately”的中文词为“特别大”，则可以将“disproportionately”和“特别”或者“大”作为词对齐锚点，则将MI(“disproportionately”，“特别”)或者MI(“disproportionately”，“大”)设置为8。

步骤230：标记所述锚点对应的源语言句子词的下标为横坐标，将横坐标所在行的所有互信息替换为最小互信息值；标记所述锚点对应的目标语言句子词的下标为纵坐标，将纵坐标对应列的所有互信息替换为最小互信息值。

在本实施例中，如步骤220所示，“netherlands”与“荷兰”被确定为锚点后，源语言句子词“netherlands”的下标为2，目标语言句子词“荷兰”的下标为1，因此第一个锚点为h₁＝(2，1)，然后将其添加到到锚点集合H中。

在实施例中，最小的互信息值MI(“commission”，“家庭”)＝-3，因此将h₁添加到锚点集合后，令所有MI(“netherlands”，*)和MI(*，“荷兰”)的值为-3。

步骤S240：从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点，多个启用锚点形成探测锚点集合，超过距离阈值的锚点为禁用锚点。

探测锚点集合通过禁用部分锚点得到，是对齐锚点集合的真子集，一次探测中，共N个锚点。

本实施例中，最大距离域值为7，因此最终可以确定6个锚点，分别为：(“netherlands”，“荷兰”)、(“agrees”，“同意”)、(“violence”，“暴力”)、(“affects”，“影响”)、(“women”，“妇女”)和(“commission”，“委员会”)。

可选的，在步骤300中，所述对源语言词组和目标语言词组进行双语短语切分的方法包括：

其中，所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点，能跨越禁用锚点；且源语言句子端和目标语言句子端均不能超过距离阈值。

在本实施例中，如图4所示，具体执行步骤为：逐一遍历探测锚点集合中的每个启用锚点，如H₂＝{9，11}，则以该启用锚点为中心，在满足双语短语扩展约束的条件下，从源语言句子端和目标语言句子端分别向左右两边扩展，形成一个双语短语切分候选d₃＝(8，9，9，11，pa₃)。如图4中从左上角到右下角首尾连接的框，表示当前短语切分集合D包含四个双语短语切分候选：D＝{(1，2，1，1，pa₁)，(3，7，2，8，pa₂)，(8，9，9，11，pa₃)，(10，12，12，16，pa₄)}。

短语扩展时，为了避免因锚点错误造成的错误传递，在探测过程中，每个锚点有启用(如图4中的双星号)和禁用(如图4中的错号)两种状态。在相邻两个锚点之间的距离小于距离阈值时，该锚点可以被禁用。在一次探测过程中，被启用的锚点组成探测锚点集合

本实施例中的距离阈值为7，根据双语短语扩展的约束条件，如图4中的A区域所示为可以跨越已被禁用的锚点，短语扩展时，跨越了被禁用的锚点(3，2)。

进一步地，在步骤400中，所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括：

在本实施例中，所述基本词对齐模型采用隐马尔可夫词对齐模型，模型细节参见文献(Vogel,S.,Ney,H.,Tillmann,C.:HMM-based word alignment in statisticaltranslation.In:Proceedings of the 16th conference on Computationallinguistics.vol.2,pp.836–841(1996))。隐马尔可夫词对齐模型假设：就短语内的词对齐而言，对于源语言短语位置j，对位a_j的概率对它前一个词的对位a_j-1具有一定的依赖性，即存在概率P(a_j|a_j-1，I)。因此，短语内部原始的隐马尔可夫词对齐模型可以表示为：

其中，I′和J′分别表示目标语言短语和源语言短语的长度。

原始马尔可夫模型的初始状态为a₀＝0，即源语言短语起始符对位目标语言短语起始符。

本发明与原始马尔可夫词对齐模型的不同之处在于，起始状态为词对齐锚点，如图4的(A)中的锚点“commission”与“委员会”对应的(6，5)。因此，本发明涉及的隐马尔可夫模型如图4的(B)中所示：竖排的空心圆点表示隐马尔可夫模型的内部状态序列，即中文短语对齐位置；实心点表示锚点，也是初始状态，即英文短语第4个词与中文短语第4个词，而锚点两边的词对齐直接依赖于短语切分中心的对齐锚点。

本发明的隐马尔可夫词对齐模型可以表示为：

图4中(A)部分对应的短语词对齐结果为：(已简化记号)

A＝{荷兰{netherlands}同意{agrees}平等{}委员会{commission}的{}看法{with}，{that}即{}家庭{domestic}暴力{violence}对{}妇女{women}影响{affects}特别{disproportionately}大{disproportionately}}；

D＝{(the netherlands,荷兰{2}),(agrees with the commission that,同意{1}平等{}待遇{}委员会{4}的{}看法{2}，{5}),(domestic violence,即{}家庭{1}暴力{2}),(affects women disproportionately,对{}妇女{2}影响{1}特别{3}大{3})}。

本实施例中，最终对齐结果为：(已简化记号)

A^*＝{荷兰{netherlands}同意{agrees}平等{}委员会{commission}的{}看法{with}，{that}即{that}家庭{domestic}暴力{violence}对{}妇女{women}影响{affects}特别{disproportionately}大{disproportionately}}；

H^*＝{(2,1),(6,5),(9,11),(11,13)}；

D^*＝{(the netherlands,荷兰{2}),(agrees with the commission,同意{1}平等{}待遇{}委员会{4}的{}看法{2}，{5}),(that domestic violence,，{1}即{1}家庭{2}暴力{3}),(affects women disproportionately,对{}妇女{2}影响{1}特别{3}大{3})}。

所述根据当前的批处理训练集更新词对齐模型的方法包括：

以更新隐马尔可夫模型为例，具体步骤包括：

(1)初始化：利用现有词对齐模型的跳转概率a_ij和发射概率b_j(k)：

其中，N为隐马尔可夫模型中状态的数目(本实施例中取值为8)，M为每个状态可能输出的不同符号的数目，即源语言词的数目。

(2)迭代计算：

(2.1)由下列公式分别计算期望值ξ_t(i，j)和γ_t(i)。

给定隐马尔可夫模型的参数μ和观察序列O＝O₁O₂...O_T，在时间t位置状态s_i的概率ξ_t(i，j)＝P(q_t＝s_i，q_t+1＝s_j|O，μ)(1≤t≤T，1≤i，j≤N)可以由下面的公式计算获得：

给定隐马尔可夫模型的参数μ和观察序列O＝O₁O₂...O_T，在时间t位于状态s_i的概率γ_t(i)可以由下面的公式计算获得：

其中，α_t(i)是在时间t，隐马尔可夫模型输出了序列O＝O₁O₂...O_t，并且位于状态s_i的概率：

α_t(i)＝P(O₁O₂...O_t，q_t＝s_i|μ) (10)；

β_t(i)是在时间t状态为s_i的条件下，隐马尔可夫模型输出序列O＝O_t+1O_t+2...O_T的概率：

β_t(i)＝P(O_t+1O_t+2…O_T|q_t＝s_i，μ) (11)；

(2.2)根据步骤(2.1)得到的期望值，根据下列公式重新估计参数a_ij和b_j(k)：

其中，υ_k表示输出第k个符号即源语言单词，δ(x，y)为克罗奈克函数，当x＝y时，δ(x，y)＝1，否则δ(x，y)＝0。

(3)循环计算，令i＝i+1。重复执行(2)，直到a_ij和b_j(k)收敛。

进一步地，随机抽样一批双语句对(本实例中为500000句)作为初始化训练数据，并训练得到双语短语翻译对当前的词对齐模型(例如，内部的隐马尔可夫模型)的状态跳转概率和词翻译概率；在后续增量词对齐模型时，不再更新状态跳转概率，同时不再更新源语言词和目标词出现次数共同出现次数超过次数阈值次的词翻译概率，即仅更新共现次数小于次数阈值的源语言词和目标语言词的翻译概率。在本实施例中，所述次数阈值为30。

通过上述技术方案可知，本发明基于锚点的增长式实时双语词对齐的对齐方法具有如下的积极效果：

(1)由于新增加的平行句对中可能出现新词，因此利用互信息、领域词典等先验知识作为双语词对齐的起点，有利于降低新词的词对齐错误率。从而提高翻译规则抽取的准确率，最终提高机器翻译译文质量；

(2)通过先进行双语短语切分，再搜索短语内部词对齐，有效降低长句的双语词对齐错误率；

(3)在一次批处理更新周期内，仅更新出现次数小于词更新阈值的源语言词和目标语言词的翻译概率，有利于大幅降低训练周期，满足增长式实时双语词对齐的要求。

本发明也能够利用先验知识生成词对齐锚点，有效降低新词和长句的词对齐错误率，同时降低了增量式词对齐的时间复杂度，有效提升了增长式实时词对齐的可用性。通过英中软件本地化翻译实验，结果表明，相对于已有的词对齐方法，本发明在词对齐F值的提高多于4.1个百分点；整体翻译质量方面，绝对TER值降低1.53个百分点。效果提升较为明显。

其中，F值一个统计学概念，F值＝2×(准确率×召回率)/(准确率+召回率)；TER是一个双语评测替代指标。

此外，本发明还提供一种基于锚点的增长式实时双语词对齐的对齐***如图5所示,本发明基于锚点的增长式实时双语词对齐的对齐***包括分词模块1、集合确定模块2、短语切分模块3、对齐模块4、判断模块5及更新模块6。

其中，所述分词模块1用于对一对源语言句子和目标语言句子进行分词处理，获得源语言词组和目标语言词组；所述集合确定模块2，用于根据所述源语言词组和目标语言词组确定探测锚点集合；所述短语切分模块3用于根据所述探测锚点集合，对所述源语言词组和目标语言词组进行双语短语切分，得到双语短语切分候选集合；所述对齐模块4用于根据所述双语短语切分候选集合和词对齐模型，确定所述源语言词组和目标语言词组的对齐双语词；所述判断模块5分别所述对齐模块和分词模块连接，用于将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中，判断当前的批处理训练集的大小是否超过设定阈值；所述更新模块6用于在所述判断模块的判断结果为是时，根据当前的批处理训练集更新词对齐模型。

进一步地，所述分词模块1还用于在所述判断模块的判断结果为否时，对其他对的源语言句子和目标语言句子进行分词处理。

优选地，所述集合确定模块2包括计算单元、对齐描点集合确定单元、标记单元、替换单元及筛选单元。

其中，所述计算单元用于根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息；所述对齐描点集合确定单元，用于将最大互信息值对应的源语言词和目标语言词或者先验知识确定的源语言词和目标语言词标为锚点，多个锚点形成对齐描点集合；所述标记单元用于标记所述锚点对应的源语言句子词的下标为横坐标，标记所述锚点对应的目标语言句子词的下标为纵坐标；所述替换单元用于将横坐标所在行的所有互信息替换为最小互信息值，将纵坐标对应列的所有互信息替换为最小互信息值；所述筛选单元，用于从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点，多个启用锚点形成探测锚点集合，超过距离阈值的锚点为禁用锚点。

其中，所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。

所述短语切分模块3对所述源语言词组和目标语言词组进行双语短语切分具体包括逐一遍历所述探测锚点集合中的每个启用锚点，以设定位置的启用锚点为中心，在满足双语短语扩展的约束条件下，从源语言句子端和目标语言句子端分别向左右两边扩展，获得多个双语短语切分候选，形成双语短语切分候选集合。

所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点，能跨越禁用锚点；且源语言句子端和目标语言句子端均不能超过距离阈值。

所述对齐单元4确定所述源语言词组和目标语言词组的对齐双语词的方法包括：采用动态规划算法搜索最佳的双语短语切分候选，并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。

相对于现有技术，本发明基于锚点的增长式实时双语词对齐的对齐***与上述基于锚点的增长式实时双语词对齐的对齐方法的有益效果相同，在此不再赘述。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述对齐方法包括：

根据所述源语言词组和目标语言词组确定探测锚点集合；

2.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述确定探测锚点集合的方法包括：

3.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，在步骤S22之前，所述确定探测锚点集合的方法还包括：

初始化对齐描点集合，使得所述对齐描点集合为空集。

4.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。

5.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述对源语言词组和目标语言词组进行双语短语切分的方法包括：

6.根据权利要求5所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点，能跨越禁用锚点；且源语言句子端和目标语言句子端均不能超过距离阈值。

7.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括：

8.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法，其特征在于，所述根据当前的批处理训练集更新词对齐模型的方法包括：

9.一种基于锚点的增长式实时双语词对齐的对齐***，其特征在于，所述对齐***包括：

10.根据权利要求9所述的基于锚点的增长式实时双语词对齐的对齐***，其特征在于，所述集合确定模块包括：