CN106844332A - 基于锚点的增长式实时双语词对齐的对齐方法及对齐*** - Google Patents
基于锚点的增长式实时双语词对齐的对齐方法及对齐*** Download PDFInfo
- Publication number
- CN106844332A CN106844332A CN201611169586.XA CN201611169586A CN106844332A CN 106844332 A CN106844332 A CN 106844332A CN 201611169586 A CN201611169586 A CN 201611169586A CN 106844332 A CN106844332 A CN 106844332A
- Authority
- CN
- China
- Prior art keywords
- alignment
- word
- phrase
- bilingual
- anchor point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000012010 growth Effects 0.000 title claims abstract description 33
- 230000011218 segmentation Effects 0.000 claims abstract description 68
- 238000013519 translation Methods 0.000 claims abstract description 50
- 238000001514 detection method Methods 0.000 claims abstract description 40
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 33
- 206010028916 Neologism Diseases 0.000 claims abstract description 15
- 238000000034 method Methods 0.000 claims description 30
- 230000007704 transition Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐***,所述对齐方法包括:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;根据源语言词组和目标语言词组确定探测锚点集合;根据探测锚点集合,进行双语短语切分,得到双语短语切分候选集合;根据双语短语切分候选集合和词对齐模型,确定源语言词组和目标语言词组的对齐双语词;将源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤。本发明对齐方法可有效降低新词和长句的双语词对齐的错误率,提高最终的机器翻译译文质量。
Description
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种基于锚点的增长式实时双语词对齐的对齐方法及对齐***。
背景技术
机器翻译是用计算机来实现不同语言之间的转换。被翻译的语言通常称为源语言,翻译成的结果语言称为目标语言。机器翻译就是实现从源语言到目标语言转换的过程。词对齐是统计机器翻译的一项核心任务,它从双语平行语料中发掘互为翻译的语言片断,是翻译知识的主要来源。简而言之,词对齐就是源语言句子中某个词是由目标语言中哪个词翻译而来的。如图1所示,一个词可以被翻译为一个或多个词,甚至不被翻译。在实践中,一部分错误的翻译规则因词对齐错误而触发,因而进一步影响最终机器翻译译文质量。
在实践中,经典的词对齐方法包括IBM模型1到5和隐马尔可夫词对齐方法,可参见文献(Brown,Peter F.,Stephen A.Della Pietra,Vincent J.Della Pietra,and RobertL.Mercer.1993.The mathematics of statistical machine translation:Parameterestimation.Computational Linguistics,19(2):263–311.;Vogel,S.,Ney,H.,Tillmann,C..1996.HMM-based word alignment in statistical translation.In:Proceedings ofthe 16th conference on Computational linguistics.vol.2,pp.836–841)。经典的词对齐方法在离线训练场景中的性能比较优越,已得到很多工具的支持,如广泛使用的GIZA++等。
在人工翻译场景中,专业译员不断地产生新的双语平行句对,而且要求统计机器翻译***能实时地学习新的翻译知识,所以必然要求词对齐模型也能尽快学习到新的词语翻译知识,从而不断降低词对齐错误率。由于传统的词对齐方法用于大规模语料的离线训练周期较长,不利于统计机器翻译***实时学习翻译知识。
然而,当前的增长式双语词对齐性能并没有达到能直接用于统计机器翻译实时学***。其主要原因为如下三点:(1)对新词处理能力较弱;(2)长句子词对齐错误率较高;(3)大规模语料的训练周期仍然较长;(4)未充分利用置信度较高的先验知识。如果直接将先验知识作为词对齐的约束,并不能带来性能的提升,还需要改进现有增长式双语词对齐算法。因此,研究如何利用先验知识,大幅减少增长式双语词对齐的训练时间,同时明显降低新词和长句的双语词对齐的错误率,并提高最终的机器翻译译文质量是迫切需要解决的一个难题。
发明内容
为了解决现有技术中的上述问题,即为了解决降低新词和长句的双语词对齐的错误率,并提高最终的机器翻译译文质量的问题,本发明提供了一种基于锚点的增长式实时双语词对齐的对齐方法。
实现上述目的,本发明提供了如下方案:
一种基于锚点的增长式实时双语词对齐的对齐方法,所述对齐方法包括:
对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
根据所述源语言词组和目标语言词组确定探测锚点集合;
根据所述探测锚点集合,对源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤,直至完成全部源语言句子和目标语言句子的处理。
可选的,所述确定探测锚点集合的方法包括:
步骤S21:根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;
步骤S22:将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;
步骤S23:标记所述锚点对应的源语言句子词的下标为横坐标,将横坐标所在行的所有互信息替换为最小互信息值;标记所述锚点对应的目标语言句子词的下标为纵坐标,将纵坐标对应列的所有互信息替换为最小互信息值;
步骤S24:从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
可选的,在步骤S22之前,所述确定探测锚点集合的方法还包括:
初始化对齐描点集合,使得所述对齐描点集合为空集。
可选的,所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。
可选的,所述对源语言词组和目标语言词组进行双语短语切分的方法包括:
逐一遍历所述探测锚点集合中的每个启用锚点,以设定位置的启用锚点为中心,在满足双语短语扩展的约束条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,获得多个双语短语切分候选,形成双语短语切分候选集合。
可选的,所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点,能跨越禁用锚点;且源语言句子端和目标语言句子端均不能超过距离阈值。
可选的,所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括:
采用动态规划算法搜索最佳的双语短语切分候选,并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。
可选的,所述根据当前的批处理训练集更新词对齐模型的方法包括:
随机抽样一批对齐双语词作为初始化训练数据,并训练得到双语短语翻译对当前的词对齐模型的状态跳转概率和词翻译概率;
更新共现次数小于设定次数的源语言词和目标语言词的翻译概率。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于锚点的增长式实时双语词对齐的对齐方法通过对源语言句子和目标语言句子分词、确定探测锚点集合,进而根据探测锚点集合确定双语短语切分候选集合,通过引入双语短语切分候选可有效降低新词的词对齐错误率,从而提高翻译规则抽取的准确率,最终提高机器翻译译文质量。
为了解决现有技术中的上述问题,即为了解决降低新词和长句的双语词对齐的错误率,并提高最终的机器翻译译文质量的问题,本发明提供了一种基于锚点的增长式实时双语词对齐的对齐***。
实现上述目的,本发明提供了如下方案:
一种基于锚点的增长式实时双语词对齐的对齐***,所述对齐***包括:
分词模块,用于对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
集合确定模块,用于根据所述源语言词组和目标语言词组确定探测锚点集合;
短语切分模块,用于根据所述探测锚点集合,对所述源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
对齐模块,用于根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
判断模块,分别所述对齐模块和分词模块连接,用于将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值;
更新模块,用于在所述判断模块的判断结果为是时,根据当前的批处理训练集更新词对齐模型;所述分词模块还用于在所述判断模块的判断结果为否时,对其他对的源语言句子和目标语言句子进行分词处理。
可选的,所述集合确定模块包括:
计算单元,用于根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;
对齐描点集合确定单元,用于将最大互信息值对应的源语言词和目标语言词或者先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;
标记单元,用于标记所述锚点对应的源语言句子词的下标为横坐标,标记所述锚点对应的目标语言句子词的下标为纵坐标;
替换单元,用于将横坐标所在行的所有互信息替换为最小互信息值,将纵坐标对应列的所有互信息替换为最小互信息值;
筛选单元,用于从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
根据本发明的实施例,本发明公开了以下技术效果:
本发明基于锚点的增长式实时双语词对齐的对齐装置通过设置分词模块对对源语言句子和目标语言句子分词处理,设置集合确定模块确定探测锚点集合,进而通过设置短语切分模块根据探测锚点集合确定双语短语切分候选集合,通过引入双语短语切分候选可有效降低新词的词对齐错误率,从而提高翻译规则抽取的准确率,最终提高机器翻译译文质量。
附图说明
图1是词对齐的一个实例示意图;
图2是本发明基于锚点的增长式实时双语词对齐的对齐方法的流程图;
图3是本发明中的获得对齐锚点集合的示意图;
图4是本发明中进行双语短语切分和词对齐的示意图;
图5是本发明基于锚点的增长式实时双语词对齐的对齐***的结构示意图。
符号说明:
分词模块—1,集合确定模块—2,短语切分模块—3,对齐模块—4,判断模块—5,更新模块—6。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
如图2所示,本发明基于锚点的增长式实时双语词对齐的对齐方法包括:
步骤100:对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
步骤200:根据所述源语言词组和目标语言词组确定探测锚点集合;
步骤300:根据所述探测锚点集合,对源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
步骤400:根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
步骤500:将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中;
步骤600:判断当前的批处理训练集的大小是否超过设定阈值,如果是则执行步骤700;否则重复上述步骤,直至完成全部源语言句子和目标语言句子的处理;
步骤700:根据当前的批处理训练集更新词对齐模型。
通过上述步骤得到:
源语言句子其中J为源语言句子的词数,sj为源语言句子的第j个词;
目标语言句子其中I为目标语言句子的词数,ti为目标语言句子的第i个词;
原始锚点集合其中hm=(j,i)表示源语言第j个词与目标语言第i个词构成的第m个对齐锚点,共M个锚点;
探测锚点集合通过禁用部分锚点得到,是原始锚点集合的真子集,一次探测中,共N个锚点;
双语句子短语切分D=d1d2...dN,dn=(s.start,s.end,t.start,t.end,pan)指第n个双语短语,s.start,s.end,t.start,t.end分别指源短语的起始下标、源短语的终止下标、目标短语的起始下标和目标短语的终止下标,pan为短语内双语词对齐;
双语短语词对齐pa=a1a2...alen(pa),aj={i|a(j)=i},其中a(j)=i指源语言短语第j个词与目标语言短语的第i个词对应,i可能有多个不同的值;
双语句子词对齐A=pa1pa2...paN,其中N指短语切分的数量;
最终双语句子词对齐A*,最终锚点集合H*和最终短语划分D*。
利用上述符号,本发明的核心思想可形式化为如下模型:
由公式(1)可知,本发明将锚点探测、双语短语切分和短语内部词对齐融合在一起同时执行,在理论上避免了已有方法结合先验知识、长句对齐和新词处理存在错误相互传递的缺点。因为已有方法一般是独立进行先验知识的融合、长句切分成子句和新词处理,考虑到每个环节均可能引入错误而且会传递到下一阶段,最后造成词对齐性能明显下降。在公式(1)中,P(dn.s,dn.pa|dn.t)为双语短语词对齐模型。
例如,假设源语言句子S:
The Netherlands agrees with the commission that domestic violenceaffects women disproportionately.
目标语言句子t:
荷兰同意平等待遇委员会的看法,即家庭暴力对妇女影响特别大。
通过分词处理,通过空格隔开相邻词:
其中,在步骤200中所述确定探测锚点集合的方法包括:
步骤210:根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息。
具体的,源语言词组s与目标语言词组t之间的互信息可由下述公式计算得到:
其中,P(s,t)指源语言词与目标语言词的共现频率:
count(.)表示出现次数,P(s)和P(t)分别表示源语言词和目标语言词出现频率。
本实施例中,词之间的互信息计算结果如图3所示。互信息可以衡量两个变量之间相互依赖的强度。因此,一些互为翻译之间的词的互信息值相对较大,单元格的互信息值越大,对应词之间互为翻译的可能性也越大。如果源语言词和目标语言词都是首次出现,则相关互信息值则会明显超过周围单元格的值。
步骤220:将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点h=(j,i),多个锚点形成对齐描点集合H。
优选地,在确定锚点之前,初始化对齐描点集合,使得所述对齐描点集合为空集,即H={}。
在所述锚点h=(j,i)添加到到所述对齐描点集合后,所述对齐描点集合为其中hm=(j,i)表示源语言第j个词与目标语言第i个词构成的第m个对齐锚点,共M个锚点。
本实施例中,最大的互信息值MI(“netherlands”,“荷兰”)=8,则可以将“netherlands”与“荷兰”作为对齐锚点。
所述先验知识包括:(1)领域词典;(2)领域术语库;(3)专家总结的双语词对齐规则中至少一者。例如,可以根据词典查询到第一次出现的英语单词“disproportionately”的中文词为“特别大”,则可以将“disproportionately”和“特别”或者“大”作为词对齐锚点,则将MI(“disproportionately”,“特别”)或者MI(“disproportionately”,“大”)设置为8。
步骤230:标记所述锚点对应的源语言句子词的下标为横坐标,将横坐标所在行的所有互信息替换为最小互信息值;标记所述锚点对应的目标语言句子词的下标为纵坐标,将纵坐标对应列的所有互信息替换为最小互信息值。
在本实施例中,如步骤220所示,“netherlands”与“荷兰”被确定为锚点后,源语言句子词“netherlands”的下标为2,目标语言句子词“荷兰”的下标为1,因此第一个锚点为h1=(2,1),然后将其添加到到锚点集合H中。
在实施例中,最小的互信息值MI(“commission”,“家庭”)=-3,因此将h1添加到锚点集合后,令所有MI(“netherlands”,*)和MI(*,“荷兰”)的值为-3。
步骤S240:从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
探测锚点集合通过禁用部分锚点得到,是对齐锚点集合的真子集,一次探测中,共N个锚点。
本实施例中,最大距离域值为7,因此最终可以确定6个锚点,分别为:(“netherlands”,“荷兰”)、(“agrees”,“同意”)、(“violence”,“暴力”)、(“affects”,“影响”)、(“women”,“妇女”)和(“commission”,“委员会”)。
可选的,在步骤300中,所述对源语言词组和目标语言词组进行双语短语切分的方法包括:
逐一遍历所述探测锚点集合中的每个启用锚点,以设定位置的启用锚点为中心,在满足双语短语扩展的约束条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,获得多个双语短语切分候选,形成双语短语切分候选集合。
其中,所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点,能跨越禁用锚点;且源语言句子端和目标语言句子端均不能超过距离阈值。
在本实施例中,如图4所示,具体执行步骤为:逐一遍历探测锚点集合中的每个启用锚点,如H2={9,11},则以该启用锚点为中心,在满足双语短语扩展约束的条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,形成一个双语短语切分候选d3=(8,9,9,11,pa3)。如图4中从左上角到右下角首尾连接的框,表示当前短语切分集合D包含四个双语短语切分候选:D={(1,2,1,1,pa1),(3,7,2,8,pa2),(8,9,9,11,pa3),(10,12,12,16,pa4)}。
短语扩展时,为了避免因锚点错误造成的错误传递,在探测过程中,每个锚点有启用(如图4中的双星号)和禁用(如图4中的错号)两种状态。在相邻两个锚点之间的距离小于距离阈值时,该锚点可以被禁用。在一次探测过程中,被启用的锚点组成探测锚点集合
本实施例中的距离阈值为7,根据双语短语扩展的约束条件,如图4中的A区域所示为可以跨越已被禁用的锚点,短语扩展时,跨越了被禁用的锚点(3,2)。
进一步地,在步骤400中,所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括:
采用动态规划算法搜索最佳的双语短语切分候选,并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。
在本实施例中,所述基本词对齐模型采用隐马尔可夫词对齐模型,模型细节参见文献(Vogel,S.,Ney,H.,Tillmann,C.:HMM-based word alignment in statisticaltranslation.In:Proceedings of the 16th conference on Computationallinguistics.vol.2,pp.836–841(1996))。隐马尔可夫词对齐模型假设:就短语内的词对齐而言,对于源语言短语位置j,对位aj的概率对它前一个词的对位aj-1具有一定的依赖性,即存在概率P(aj|aj-1,I)。因此,短语内部原始的隐马尔可夫词对齐模型可以表示为:
其中,I′和J′分别表示目标语言短语和源语言短语的长度。
原始马尔可夫模型的初始状态为a0=0,即源语言短语起始符对位目标语言短语起始符。
本发明与原始马尔可夫词对齐模型的不同之处在于,起始状态为词对齐锚点,如图4的(A)中的锚点“commission”与“委员会”对应的(6,5)。因此,本发明涉及的隐马尔可夫模型如图4的(B)中所示:竖排的空心圆点表示隐马尔可夫模型的内部状态序列,即中文短语对齐位置;实心点表示锚点,也是初始状态,即英文短语第4个词与中文短语第4个词,而锚点两边的词对齐直接依赖于短语切分中心的对齐锚点。
本发明的隐马尔可夫词对齐模型可以表示为:
图4中(A)部分对应的短语词对齐结果为:(已简化记号)
A={荷兰{netherlands}同意{agrees}平等{}委员会{commission}的{}看法{with},{that}即{}家庭{domestic}暴力{violence}对{}妇女{women}影响{affects}特别{disproportionately}大{disproportionately}};
D={(the netherlands,荷兰{2}),(agrees with the commission that,同意{1}平等{}待遇{}委员会{4}的{}看法{2},{5}),(domestic violence,即{}家庭{1}暴力{2}),(affects women disproportionately,对{}妇女{2}影响{1}特别{3}大{3})}。
本实施例中,最终对齐结果为:(已简化记号)
A*={荷兰{netherlands}同意{agrees}平等{}委员会{commission}的{}看法{with},{that}即{that}家庭{domestic}暴力{violence}对{}妇女{women}影响{affects}特别{disproportionately}大{disproportionately}};
H*={(2,1),(6,5),(9,11),(11,13)};
D*={(the netherlands,荷兰{2}),(agrees with the commission,同意{1}平等{}待遇{}委员会{4}的{}看法{2},{5}),(that domestic violence,,{1}即{1}家庭{2}暴力{3}),(affects women disproportionately,对{}妇女{2}影响{1}特别{3}大{3})}。
所述根据当前的批处理训练集更新词对齐模型的方法包括:
随机抽样一批对齐双语词作为初始化训练数据,并训练得到双语短语翻译对当前的词对齐模型的状态跳转概率和词翻译概率;
更新共现次数小于设定次数的源语言词和目标语言词的翻译概率。
以更新隐马尔可夫模型为例,具体步骤包括:
(1)初始化:利用现有词对齐模型的跳转概率aij和发射概率bj(k):
其中,N为隐马尔可夫模型中状态的数目(本实施例中取值为8),M为每个状态可能输出的不同符号的数目,即源语言词的数目。
(2)迭代计算:
(2.1)由下列公式分别计算期望值ξt(i,j)和γt(i)。
给定隐马尔可夫模型的参数μ和观察序列O=O1O2...OT,在时间t位置状态si的概率ξt(i,j)=P(qt=si,qt+1=sj|O,μ)(1≤t≤T,1≤i,j≤N)可以由下面的公式计算获得:
给定隐马尔可夫模型的参数μ和观察序列O=O1O2...OT,在时间t位于状态si的概率γt(i)可以由下面的公式计算获得:
其中,αt(i)是在时间t,隐马尔可夫模型输出了序列O=O1O2...Ot,并且位于状态si的概率:
αt(i)=P(O1O2...Ot,qt=si|μ) (10);
βt(i)是在时间t状态为si的条件下,隐马尔可夫模型输出序列O=Ot+1Ot+2...OT的概率:
βt(i)=P(Ot+1Ot+2…OT|qt=si,μ) (11);
(2.2)根据步骤(2.1)得到的期望值,根据下列公式重新估计参数aij和bj(k):
其中,υk表示输出第k个符号即源语言单词,δ(x,y)为克罗奈克函数,当x=y时,δ(x,y)=1,否则δ(x,y)=0。
(3)循环计算,令i=i+1。重复执行(2),直到aij和bj(k)收敛。
进一步地,随机抽样一批双语句对(本实例中为500000句)作为初始化训练数据,并训练得到双语短语翻译对当前的词对齐模型(例如,内部的隐马尔可夫模型)的状态跳转概率和词翻译概率;在后续增量词对齐模型时,不再更新状态跳转概率,同时不再更新源语言词和目标词出现次数共同出现次数超过次数阈值次的词翻译概率,即仅更新共现次数小于次数阈值的源语言词和目标语言词的翻译概率。在本实施例中,所述次数阈值为30。
通过上述技术方案可知,本发明基于锚点的增长式实时双语词对齐的对齐方法具有如下的积极效果:
(1)由于新增加的平行句对中可能出现新词,因此利用互信息、领域词典等先验知识作为双语词对齐的起点,有利于降低新词的词对齐错误率。从而提高翻译规则抽取的准确率,最终提高机器翻译译文质量;
(2)通过先进行双语短语切分,再搜索短语内部词对齐,有效降低长句的双语词对齐错误率;
(3)在一次批处理更新周期内,仅更新出现次数小于词更新阈值的源语言词和目标语言词的翻译概率,有利于大幅降低训练周期,满足增长式实时双语词对齐的要求。
本发明也能够利用先验知识生成词对齐锚点,有效降低新词和长句的词对齐错误率,同时降低了增量式词对齐的时间复杂度,有效提升了增长式实时词对齐的可用性。通过英中软件本地化翻译实验,结果表明,相对于已有的词对齐方法,本发明在词对齐F值的提高多于4.1个百分点;整体翻译质量方面,绝对TER值降低1.53个百分点。效果提升较为明显。
其中,F值一个统计学概念,F值=2×(准确率×召回率)/(准确率+召回率);TER是一个双语评测替代指标。
此外,本发明还提供一种基于锚点的增长式实时双语词对齐的对齐***如图5所示,本发明基于锚点的增长式实时双语词对齐的对齐***包括分词模块1、集合确定模块2、短语切分模块3、对齐模块4、判断模块5及更新模块6。
其中,所述分词模块1用于对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;所述集合确定模块2,用于根据所述源语言词组和目标语言词组确定探测锚点集合;所述短语切分模块3用于根据所述探测锚点集合,对所述源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;所述对齐模块4用于根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;所述判断模块5分别所述对齐模块和分词模块连接,用于将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值;所述更新模块6用于在所述判断模块的判断结果为是时,根据当前的批处理训练集更新词对齐模型。
进一步地,所述分词模块1还用于在所述判断模块的判断结果为否时,对其他对的源语言句子和目标语言句子进行分词处理。
优选地,所述集合确定模块2包括计算单元、对齐描点集合确定单元、标记单元、替换单元及筛选单元。
其中,所述计算单元用于根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;所述对齐描点集合确定单元,用于将最大互信息值对应的源语言词和目标语言词或者先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;所述标记单元用于标记所述锚点对应的源语言句子词的下标为横坐标,标记所述锚点对应的目标语言句子词的下标为纵坐标;所述替换单元用于将横坐标所在行的所有互信息替换为最小互信息值,将纵坐标对应列的所有互信息替换为最小互信息值;所述筛选单元,用于从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
其中,所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。
所述短语切分模块3对所述源语言词组和目标语言词组进行双语短语切分具体包括逐一遍历所述探测锚点集合中的每个启用锚点,以设定位置的启用锚点为中心,在满足双语短语扩展的约束条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,获得多个双语短语切分候选,形成双语短语切分候选集合。
所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点,能跨越禁用锚点;且源语言句子端和目标语言句子端均不能超过距离阈值。
所述对齐单元4确定所述源语言词组和目标语言词组的对齐双语词的方法包括:采用动态规划算法搜索最佳的双语短语切分候选,并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。
相对于现有技术,本发明基于锚点的增长式实时双语词对齐的对齐***与上述基于锚点的增长式实时双语词对齐的对齐方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述对齐方法包括:
对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
根据所述源语言词组和目标语言词组确定探测锚点集合;
根据所述探测锚点集合,对源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值,如果是则根据当前的批处理训练集更新词对齐模型;否则重复上述步骤,直至完成全部源语言句子和目标语言句子的处理。
2.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述确定探测锚点集合的方法包括:
步骤S21:根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;
步骤S22:将最大互信息值对应的源语言词和目标语言词或者根据先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;
步骤S23:标记所述锚点对应的源语言句子词的下标为横坐标,将横坐标所在行的所有互信息替换为最小互信息值;标记所述锚点对应的目标语言句子词的下标为纵坐标,将纵坐标对应列的所有互信息替换为最小互信息值;
步骤S24:从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
3.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,在步骤S22之前,所述确定探测锚点集合的方法还包括:
初始化对齐描点集合,使得所述对齐描点集合为空集。
4.根据权利要求2所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述先验知识包括领域词典、领域术语库及专家总结的双语词对齐规则中至少一者。
5.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述对源语言词组和目标语言词组进行双语短语切分的方法包括:
逐一遍历所述探测锚点集合中的每个启用锚点,以设定位置的启用锚点为中心,在满足双语短语扩展的约束条件下,从源语言句子端和目标语言句子端分别向左右两边扩展,获得多个双语短语切分候选,形成双语短语切分候选集合。
6.根据权利要求5所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述双语短语扩展的约束条件为在扩展时当前双语短语不能跨越启用锚点,能跨越禁用锚点;且源语言句子端和目标语言句子端均不能超过距离阈值。
7.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述确定所述源语言词组和目标语言词组的对齐双语词的方法包括:
采用动态规划算法搜索最佳的双语短语切分候选,并通过词对齐模型搜索双语短语切分候选内部对齐得到对齐双语词。
8.根据权利要求1所述的基于锚点的增长式实时双语词对齐的对齐方法,其特征在于,所述根据当前的批处理训练集更新词对齐模型的方法包括:
随机抽样一批对齐双语词作为初始化训练数据,并训练得到双语短语翻译对当前的词对齐模型的状态跳转概率和词翻译概率;
更新共现次数小于设定次数的源语言词和目标语言词的翻译概率。
9.一种基于锚点的增长式实时双语词对齐的对齐***,其特征在于,所述对齐***包括:
分词模块,用于对一对源语言句子和目标语言句子进行分词处理,获得源语言词组和目标语言词组;
集合确定模块,用于根据所述源语言词组和目标语言词组确定探测锚点集合;
短语切分模块,用于根据所述探测锚点集合,对所述源语言词组和目标语言词组进行双语短语切分,得到双语短语切分候选集合;
对齐模块,用于根据所述双语短语切分候选集合和词对齐模型,确定所述源语言词组和目标语言词组的对齐双语词;
判断模块,分别所述对齐模块和分词模块连接,用于将所述源语言词组、目标语言词组及对齐双语词添加到批处理训练集中,判断当前的批处理训练集的大小是否超过设定阈值;
更新模块,用于在所述判断模块的判断结果为是时,根据当前的批处理训练集更新词对齐模型;所述分词模块还用于在所述判断模块的判断结果为否时,对其他对的源语言句子和目标语言句子进行分词处理。
10.根据权利要求9所述的基于锚点的增长式实时双语词对齐的对齐***,其特征在于,所述集合确定模块包括:
计算单元,用于根据所述源语言词组、目标语言词组计算任意源语言词与目标语言词之间的互信息;
对齐描点集合确定单元,用于将最大互信息值对应的源语言词和目标语言词或者先验知识确定的源语言词和目标语言词标为锚点,多个锚点形成对齐描点集合;
标记单元,用于标记所述锚点对应的源语言句子词的下标为横坐标,标记所述锚点对应的目标语言句子词的下标为纵坐标;
替换单元,用于将横坐标所在行的所有互信息替换为最小互信息值,将纵坐标对应列的所有互信息替换为最小互信息值;
筛选单元,用于从所述对齐描点集合中筛选出相邻锚点的横坐标或者纵坐标之间的最大距离未超过距离阈值的锚点为启用锚点,多个启用锚点形成探测锚点集合,超过距离阈值的锚点为禁用锚点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169586.XA CN106844332A (zh) | 2016-12-16 | 2016-12-16 | 基于锚点的增长式实时双语词对齐的对齐方法及对齐*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611169586.XA CN106844332A (zh) | 2016-12-16 | 2016-12-16 | 基于锚点的增长式实时双语词对齐的对齐方法及对齐*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844332A true CN106844332A (zh) | 2017-06-13 |
Family
ID=59139609
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611169586.XA Pending CN106844332A (zh) | 2016-12-16 | 2016-12-16 | 基于锚点的增长式实时双语词对齐的对齐方法及对齐*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844332A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710950A (zh) * | 2018-12-20 | 2019-05-03 | 龙马智芯(珠海横琴)科技有限公司 | 双语对齐方法、装置及*** |
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN112199965A (zh) * | 2020-08-28 | 2021-01-08 | 北京中科凡语科技有限公司 | 机器翻译结果的词对齐方法、装置、电子设备及存储介质 |
-
2016
- 2016-12-16 CN CN201611169586.XA patent/CN106844332A/zh active Pending
Non-Patent Citations (1)
Title |
---|
GUOPING HUANG ET AL: "Learning from User Feedback for Machine Translation in Real-Time", 《ICCPOL 2016,NLPCC 2016: NATURAL LANGUAGE UNDERSTANDING AND INTELLIGENT APPLICATIONS》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710950A (zh) * | 2018-12-20 | 2019-05-03 | 龙马智芯(珠海横琴)科技有限公司 | 双语对齐方法、装置及*** |
CN110688837A (zh) * | 2019-09-27 | 2020-01-14 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN110688837B (zh) * | 2019-09-27 | 2023-10-31 | 北京百度网讯科技有限公司 | 数据处理的方法及装置 |
CN111597826A (zh) * | 2020-05-15 | 2020-08-28 | 苏州七星天专利运营管理有限责任公司 | 一种辅助翻译中处理术语的方法 |
CN112199965A (zh) * | 2020-08-28 | 2021-01-08 | 北京中科凡语科技有限公司 | 机器翻译结果的词对齐方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107632981B (zh) | 一种引入源语组块信息编码的神经机器翻译方法 | |
CN110852117B (zh) | 一种提升神经机器翻译效果的有效数据增强方法 | |
CN109190131B (zh) | 一种基于神经机器翻译的英语单词及其大小写联合预测方法 | |
CN111310480B (zh) | 一种基于英语枢轴的弱监督汉越双语词典构建方法 | |
CN109003601A (zh) | 一种针对低资源土家语的跨语言端到端语音识别方法 | |
CN106844332A (zh) | 基于锚点的增长式实时双语词对齐的对齐方法及对齐*** | |
CN109871538A (zh) | 一种中文电子病历命名实体识别方法 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN103823857B (zh) | 基于自然语言处理的空间信息检索方法 | |
CN107423290A (zh) | 一种基于层次结构的神经网络机器翻译模型 | |
CN103853710A (zh) | 一种基于协同训练的双语命名实体识别方法 | |
CN110134949A (zh) | 一种基于教师监督的文本标注方法和设备 | |
CN103544309A (zh) | 一种中文垂直搜索的检索串拆分方法 | |
CN110555084A (zh) | 基于pcnn和多层注意力的远程监督关系分类方法 | |
CN112215017B (zh) | 一种基于伪平行语料库构造的蒙汉机器翻译方法 | |
CN110287482A (zh) | 半自动化分词语料标注训练装置 | |
CN108763227A (zh) | 一种基于分块机制的机器翻译方法 | |
CN106156013B (zh) | 一种固定搭配型短语优先的两段式机器翻译方法 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取***和方法 | |
CN110347857A (zh) | 基于强化学习的遥感影像的语义标注方法 | |
CN115861995B (zh) | 一种视觉问答方法、装置及电子设备和存储介质 | |
CN104317882A (zh) | 一种决策级中文分词融合方法 | |
CN106649289A (zh) | 同时识别双语术语与词对齐的实现方法及实现*** | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN110502759B (zh) | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170613 |
|
WD01 | Invention patent application deemed withdrawn after publication |