CN103955456A

CN103955456A - 基于句长惩罚因子的富含信息量句子的选择方法

Info

Publication number: CN103955456A
Application number: CN201410168282.6A
Authority: CN
Inventors: 杜金华; 张萌
Original assignee: Xian University of Technology
Current assignee: Xi'an bonny Translation Co., Ltd.
Priority date: 2014-04-23
Filing date: 2014-04-23
Publication date: 2014-07-30

Abstract

本发明公开了一种基于句长惩罚因子的富含信息量句子的选择方法，步骤包括：步骤1、构建初始的统计机器翻译***；步骤2、构建信息量化单元集合X及进行信息量计算；步骤3、进行专业翻译，得到平行语料句对集合；步骤4、对语料库进行更新；步骤5、对统计机器翻译***重新训练；步骤6、进行过程迭代及算法评价。本发明的带句长惩罚因子的富含信息量句子选择方法可以有效地对源语言单语言句子进行信息量计算，平衡所选择句子绝对信息量与句长的关系，实现对信息量最大句子的选择准确率，从而使得人工翻译价值最大化和有限数据效能的最大化。

Description

基于句长惩罚因子的富含信息量句子的选择方法

技术领域

本发明属于计算语言学/统计机器翻译技术领域，涉及一种基于句长惩罚因子的富含信息量句子的选择方法。

背景技术

基于统计方法或语料库方法的机器翻译技术本质上是基于数据驱动的翻译方法，因此，数据规模的大小和数据本身的好坏对翻译性能有着至关重要的影响。要获得一个高质量的统计机器翻译***，通常需要大规模的双语平行语料，而目前这对很多语言来说是无法实现的。目前已经有很多方法可以缓解这类问题，比如使用复述技术或者用可比较语料等。但对于资源缺乏的语言来说，数据规模是统计机器翻译技术研究的瓶颈问题，也是亟待解决的核心问题之一。

在现今众多语系中，还有多数是属于“低密度”语言，使用这种语言的人并不多，即便有数以百万的人讲这种语言，但是可用的数字化的平行语料库还是十分匮乏。例如，我国少数民族众多，随着经济的发展，少数民族语言及信息处理研究与应用成为振兴地区经济、推动地区发展和促进文化交流的重要手段之一。在这种背景下，对“低密度”语言的高质量统计机器翻译***的需求就显得尤为迫切。总体来讲，两种方案可以有效缓解这种需求：(1)构建大规模双语平行语料库；(2)以现有的一定规模双语平行语料库为基础，构建大规模单语语料库，采用高效的方法从单语语料中生成双语数据，扩展数据的效能。

事实上，大规模双语平行语料库的构建是一个***工程，需要大量的人力、物力和财力投入，尤其是高质量的语料库，需要相当长的时间才能完善。而信息技术的发展瞬息万变，新词和新知识层出不穷，如何提出可行的方法，有效利用当前已经构建的双语平行语料和单语语料库以适应新的知识，提高面向资源缺乏语言的统计机器翻译质量，在当前显得尤为重要和迫切。

现有的富含信息量句子一般性的选择算法存在的主要问题是：当大规模单语语料库中句子长度差别较大时，现存的方法会倾向于选择句长较短的句子，从而造成所挑选的句子使得所生成的双语语料无论在对测试集的覆盖率还是对翻译引擎短语表的概率估计上都表现不好，造成使用选择算法所生成的双语语料的机器翻译***的翻译性能低于使用随机方法产生的双语语料的机器翻译***性能，从而造成富含信息量句子的挑选没有任何意义。

发明内容

本发明的目的是提供一种基于句长惩罚因子的富含信息量句子的选择方法，解决了现有技术中，倾向于选择句长较短的句子，从而造成所挑选的句子使得所生成的双语语料无论在对测试集的覆盖率还是在对翻译引擎短语表的概率估计上都表现不好，影响机器翻译***性能的问题。

本发明所采用的技术方案是，一种基于句长惩罚因子的富含信息量句子的选择方法，按照以下步骤具体实施：

步骤1、构建初始的统计机器翻译***

使用初始双语平行语料L＝{(f_i,e_i)}来训练统计机器翻译***，其中L表示初始双语平行语料库，f_i，e_i分别表示L中第i个平行句对，即第i个汉语句子和第i个英文句子，{i=1,…N}；

步骤2、构建信息量化单元集合X及进行信息量计算

根据所定义的信息表示单元x，从大规模单语语料U＝{f_j}中挑选句子集合U_n，带句长惩罚因子的富含信息量句子选择算法如下：

其中，U表示大规模单语语料库，U_n表示挑选出来的句子构成的单语语料子集，BP为句长惩罚因子，根据单语语料句长均值与待选句子句长之比来决定是否施加惩罚，即比值大于1，则惩罚；比值小于1，则不惩罚；

是句子s可提供的信息量化单元集合，即短语的集合；P(x|U)和P(x|L)分别表示在大规模单语语料U和双语平行语料L中某短语x的概率，P(x|U)和P(x|L)的计算公式分别如下：

P (x | U) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{U}^{m}} Count (x) + ϵ}, - - - (2)

P (x | L) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{L}^{m}} Count (x) + ϵ}, - - - (3)

其中，ε是平滑因子，表示大规模单语语料中U可提供的用于计算句子级信息量的可能短语集合，是双语平行语料L中可提供的用于计算句子级信息量的可能短语集合，Count(x)表示短语x出现的次数即频率；

步骤3、进行专业翻译

将U_n交由人工进行专业翻译，记U_n所生成的译文集合为U_n和为互译的平行语料句对集合；

步骤4、对语料库进行更新

从U中移除上一步被挑选的n句单语数据U_n，然后将U_n及同时添加到双语平行语料L中；

步骤5、对统计机器翻译***重新训练

在新构成的双语语料上重新训练统计机器翻译***，并使用由此产生的翻译引擎重新解码测试集；然后，对测试集的翻译结果按BLEU准则打分，根据得分提高情况与随机方法进行对比，衡量句子选择算法性能，得分越高则表示性能越好；

步骤6、进行过程迭代及算法评价

从步骤2开始进行迭代，每次迭代挑选新的富含信息量的句子集合，更新U与L中的数据，衡量句子选择算法性能，即成。

本发明的有益效果是，通过计算单语语料句子一级的信息量，抽取信息量最大的句子交予有限的人工翻译，实现高质量的双语平行数据的获取，提高双语资源缺乏语言的统计机器翻译译文质量；能够平衡句长和信息量之间的矛盾，抽取真正富含信息的句子，确保提高测试集覆盖率的同时，亦保证翻译引擎短语表概率估计的准确性，扩展现有数据资源的效能。例如对于汉语与其他少数民族语言、汉语与其他小语种语言等的稀缺资源的机器翻译***，采用本发明提出的带句长惩罚的富含信息量句子选择算法，可以有效地从大规模单语语料中获得高质量双语平行数据。

附图说明

图1是本发明方法主动学习框架下面向稀缺资源的统计机器翻译双语生成过程示意图；

图2是现有的几何短语法和随机方法在每次迭代时统计机器翻译***的性能对比图；

图3是现有的几何短语选择方法与随机选择法在每次迭代时所挑选的富含信息量句子的平均句长统计特性图；

图4是现有的几何短语选择方法和随机选择法在每次迭代时所生成的双语数据对不同测试集的覆盖率统计特性图；

图5是本发明方法与其他两种现有方法在每次迭代时所挑选出的富含信息量句子的平均句长统计特性图；

图6是本发明方法与其他两种现有方法在统计机器翻译性能上的对比图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于句长惩罚因子的富含信息量句子的选择方法，综合考虑到富含信息量的单语句子所生成的双语平行数据对翻译性能的影响，以挑选出大规模单语语料中信息量最大的句子交予人工进行专业翻译，生成高质量双语平行数据，达到提高双语资源缺乏语言的统计机器翻译质量的目的。

如图1所示，是本发明方法在主动学***行语料的迭代过程。每次迭代所生成的双语平行语料加入上一次训练翻译引擎的平行语料库，然后重新训练得到新的统计机器翻译***。新的统计机器翻译***对同一个测试集进行翻译解码，使用BLEU评价准则（连续词匹配程度的准确度，分值介于(0,1)之间）以衡量每次新增双语语料的质量，从而间接衡量所挑选的富含信息量句子集合的质量，以反映句子选择算法的有效性，此过程有两个先决条件：1）少量用于搭建基线统计机器翻译***的初始平行语料（这个***是现有的技术）；2）大规模单语语料：用于在本发明框架下生成双语语料。同时，此过程包含的关键问题为如何设计挑选富含信息量的句子的有效方法，这也是本发明的核心。

本发明基于句长惩罚因子的富含信息量句子的选择方法，根据上述的原理，按照以下步骤具体实施：

步骤1、构建初始的统计机器翻译***

使用少量资源受限的初始双语平行语料L＝{(f_i,e_i)}来训练统计机器翻译***，其中L表示初始双语平行语料库，f_i，e_i分别表示L中第i个平行句对，即第i个汉语句子和第i个英文句子，{i=1,…N}；

步骤2、构建信息量化单元集合X及进行信息量计算

其中，U表示大规模单语语料库，U_n表示挑选出来的句子构成的单语语料子集，BP为本发明方法的句长惩罚因子，基本思想为根据单语语料句长均值与待选句子句长之比来决定是否施加惩罚，即比值大于1，则惩罚；比值小于1，则不惩罚，该惩罚因子的引入也是本发明方法创造性的核心；

x是针对句子级信息量化的信息表示单元，在本发明中x定义为基于短语的统计机器翻译***所使用词序列；

P (x | U) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{U}^{m}} Count (x) + ϵ}, - - - (2)

P (x | L) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{L}^{m}} Count (x) + ϵ}, - - - (3)

其中，ε是平滑因子，表示大规模单语语料中U可提供的用于计算句子级信息量的可能短语集合，是双语平行语料L中可提供的用于计算句子级信息量的可能短语集合，Count(x)表示短语x出现的次数即频率，

步骤3、进行专业翻译

步骤4、对语料库进行更新

步骤5、对统计机器翻译***重新训练

在新构成的双语语料上重新训练统计机器翻译***，并使用由此产生的翻译引擎重新解码测试集；然后，对测试集的翻译结果按BLEU准则（连续词匹配程度的准确度，分值介于(0,1)之间）打分，根据得分提高情况与随机方法进行对比，衡量句子选择算法性能，得分越高则表示性能越好。

步骤6、进行过程迭代及算法评价

从步骤2开始进行迭代，每次迭代挑选新的富含信息量的句子集合，更新U与L中的数据，衡量句子选择算法性能，25次迭代后停止；计算25次迭代BLEU得分的均值，与随机方法的均值进行比较，衡量句子选择算法的性能，均值越大则说明算法越好，说明该算法选择信息量大的句子能力越强，对机器翻译性能提升的能力越强。

实施例

以“汉-英”语言对及翻译方向为对象，从美国标准技术研究所（NIST）公开评测提供的汉-英FBIS双语平行语料中随机挑选出初始平行语料5K（汉语侧平均句长为36.5词），及模拟单语（汉语）语料20K（汉语平均句长为36.4词）。将NIST在2006年的测试集作为本次实验统计机器翻译***模型参数训练的开发集U(共1,664句，每句含四个参考译文)，使用NIST在2005和2008年的测试集作为本次实验测试***翻译性能的测试集，前者含1,083句（每句4个参考译文），后者含1,357句（每句4个参考译文）。主动学***行语料）中的英文侧数据提供。

主动学***滑因子设为0.5。

图2表示的是以现有的富含信息量句子选择算法（基于几何短语的方法）为例说明与随机挑选方法的对比结果。几何短语挑选方法的基本公式如下：

φ (s) : = \frac{1}{| X_{s}^{m} |} \underset{x &Element; X_{s}^{m}}{Σ} \log \frac{P (x | U)}{P (x | U)}, - - - (4)

式（4）中的各个参数同式（1）。

图2中的折线表示主动框架下每次迭代生成双语平行数据后对应的统计机器翻译***BLEU得分情况。折线的每个节点表示一次迭代，每次迭代是一个完整的富含信息量句子选择、人工翻译、合并新平行语料后机器翻译模型训练、解码的过程。图2中上部的两条折线表示机器翻译的性能测试是基于NIST2005测试集，下部的两条折线表示采用的NIST2008测试集。交缠在一起的两条折线分别表示采用现有的基于几何短语的方法与基于随机方法所代表的机器翻译***。从对比结果看，现有的几何短语方法（图中为Geom phrase NIST05和Geom phrase NIST08）的性能不如随机方法（图中为random NIST05和random NIST08）。

对现有的几何短语法和随机法进行了统计特性分析。图3中列出了现有的几何短语法和随机选择方法在每次迭代中挑出的句子平均长度。每次迭代中几何短语法挑选出句子的平均句长都短于随机法挑选出的平均句长。对25次迭代进行统计分析，几何短语法中25次迭代的句长均值为27.7，方差为5.93，而随机法挑选的句长均值是36.5，方差为1.23。可以看出，一般性的几何短语法无论在平均句长上，还是在动态范围上，皆不如随机法表现稳定。

通常，就大规模单语语料的句子而言，句子含的新词（相对于已存在双语平行语料库而言）越多，那么该句所含信息量越高；句子含的旧词（相对于已存在双语平行语料库而言）越多，则该句所含信息量越低，但对短语的概率估计则越准。因此，对主动学***行数据在三个测试集（NIST05，NIST06及NIST08）上的覆盖率都比随机法的高，表示现有的几何短语法挑选出的句子包含更多的新词。然而，高覆盖率并没能提高翻译质量。综合句长统计特性和测试集覆盖率统计特性，分析现有的短语几何法表现不如随机方法的根本原因在于前者所挑选的富含信息量的句子所表现的信息量为“相对信息最大”，即信息的量化没有根据句长进行归一化，因此，虽然新词多，但由于句长较短，导致绝对信息量不足，所以翻译性能表现逊于随机法生成的双语数据。

根据以上的统计分析，本发明提出了带句长惩罚因子的基于短语几何的富含信息量句子选择方法，将相对信息量转化为绝对信息量，选择绝对信息量最大的单语句子进行人工翻译。

图5说明了本发明方法（phrase-pen）与现有的短语几何方法（phrase）和随机法（random）在每次迭代时所选择句子的平均长度对比图。从图5中可以看出，加入句长惩罚因子后，因综合考虑了语料库的句长因素，使得每次挑选出的句子集合平均长度不仅得到提高，同时减小了句长波动。

图6说明了本发明方法（Phrase-penalty）与现有的短语几何方法（Phrase）和随机方法（Random）在每次迭代时统计机器翻译***性能（BLEU得分）的对比图。从图6中可以看出，相比于随机法，加入句长惩罚因子后，本发明方法显著提高了机器翻译***性能。本实施例的具体数值说明见表1。

表1、本发明方法与其他两种方法的翻译性能对比

表1说明了本发明方法与现有的短语几何法及随机法对25次迭代平均后的统计机器翻译性能比较。表中“BLEU”列表示采用4元BLEU自动评价准则对翻译结果进行评价，取值为0～100%之间，越大表示性能越好。“Phrase”表示现有的短语几何方法，“Random”表示随机法，“Phrase-penalty”表示本发明提出的带句长惩罚因子的选择方法。

从表1中可以看出，相比随机法和现有的短语几何方法，本发明所提出的带句长惩罚因子的方法使得翻译性能在NIST05数据集上分别提高了0.33和0.14个点，在NIST08数据集上分别提高了0.45和0.33个点，显著提高了***的翻译性能。因此，本发明所提出的方法是有效和可行的。

Claims

1.一种基于句长惩罚因子的富含信息量句子的选择方法，其特征在于，按照以下步骤具体实施：

步骤1、构建初始的统计机器翻译***

步骤2、构建信息量化单元集合X及进行信息量计算

P (x | U) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{U}^{m}} Count (x) + ϵ}, - - - (2)

P (x | L) = \frac{Count (x) + ϵ}{Σ_{x &Element; X_{L}^{m}} Count (x) + ϵ}, - - - (3)

步骤3、进行专业翻译

步骤4、对语料库进行更新

步骤5、对统计机器翻译***重新训练

步骤6、进行过程迭代及算法评价

2.根据权利要求1所述的基于句长惩罚因子的富含信息量句子的选择方法，其特征在于，所述的步骤6中，进行25次迭代后停止；计算25次迭代BLEU得分的均值，与随机方法的均值进行比较，衡量句子选择算法的性能，均值越大则说明算法越好。