CN1567297A

CN1567297A - 一种从双语语料库中自动抽取多词翻译等价单元的方法

Info

Publication number: CN1567297A
Application number: CN 03148989
Authority: CN
Inventors: 杜利民; 陈博兴
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2003-07-03
Filing date: 2003-07-03
Publication date: 2005-01-19

Abstract

本发明涉及计算机自然语言处理技术，特别涉及一种从双语句子对齐语料库中自动抽取双语多词翻译等价单元的技术。本发明方法采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准；在对齐的过程中同时识别多词单元。本发明方法的改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元，提高抽取的正确率和降低计算复杂度。

Description

一种从双语语料库中自动抽取多词翻译等价单元的方法

技术领域

本发明涉及计算机自然语言处理技术，特别涉及一种从双语句子对齐语料库中自动抽取双语多词翻译等价单元的技术。

背景技术

多词单元(Multi-Word Unit，MWU)是在语法上合理，具有一定语义，搭配较为紧密，由多个词语构成的语法结构；包括多词短语、多词固定搭配、多词习语和多词术语等；从属性上可以分为名词多词单元、动词多词单元、形容词多词单元、副词多词单元等等。多词翻译等价单元是指源语言和目标语言均为多词单元，而且源语言和目标语言部分具有对等关系的翻译等价对。多词翻译等价单元能够应用于机器翻译、机器辅助翻译、双语词典编纂、术语学、信息抽取、自然语言生成等自然语言处理技术以及应用于第二语言教学等等。

从上个世纪90年代以来，双语多词单元的自动抽取技术就一直受到很多研究人员的关注，该技术传统的方法也是应用最多的方法由两部分技术组成：单语多词单元的抽取和双语等价单元的对齐。国内外相关的工作很多，典型技术流程可以总结如下：

首先，用某个关联度度量标准，如互信息(mutual information)[Church et al.，1990]等等，计算文本中所有词对(Bi-gram)之间的关联度，并标记出所有关联度大于某个预设阈值的词对；

然后，递归调用算法，进一步标记出长度大于2个词的多词单元；

第三步，从对齐语料中列出所有可能的双语翻译等价单元并计算出它们之间的关联度；

最后，抽取关联度大于某个预设阈值的双语多词单元。

这些方法由于主要算法流程相似，所以它们都有一些共同的不足之处：(a)预设阈值为全局阈值，高频多词单元和低频多词单元的关联度的大小存在较大差异，该阈值不能兼顾，这就导致低频多词单元无法正确抽取，如在[Smadja et al.，1996]的实验中抽取的是出现频次大于10的多词单元，而且阈值会随着语言种类的改变、语料的多少以及所选取的关联值的不同而发生改变；(b)抽取结果很大程度上依靠于算法中循环开始时合适的词对(Bi-gram)的确定[Dias et al.，2000a]；(c)这种方法有多处需要计算两个对象之间的关联度，而最后结果的正确率依赖于这多处应用关联度所得正确率的乘积，因此，如果当应用一次关联度和阈值所得到结果的正确率不高的话，那么这些错误就会累计，导致最后结果的正确率迅速下降。同时需要很大的计算量。

发明内容

为了提高抽取双语翻译等价单元的正确率和降低计算复杂度，本发明提供一种计算方法，该方法应具有以下特点：(1)摒弃了利用关联度参数反复统计词对(Bi-gram)来获取多词单元的算法，而是利用关联度的平均值和归一化差值构建抽取模型；(2)把首先识别单语多词单元，然后对齐的算法流程改成在对齐的过程中同时识别多词单元；(3)把满足全局阈值改成局部最优算法。

为达到上述目的，本发明的技术解决方法是提供一个从双语语料库中抽取双语多词翻译等价单元的方法，其采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准；在对齐的过程中同时识别多词单元。

所述的方法，其分为以下几步：

(1)语料预处理，包括英文的断词、词形变换和中文分词：将英文标点符号和单词分开，词形变换，包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形，以及名词的复数形式变换成名词原形；将中文进行分词；

(2)通过统计共现频率估计共现概率：统计出所有词对的共现频次和每个词汇的出现频次后，以公式计算出它们的概率；

(3)计算单个源语言词汇和单个目标语言词汇的关联度：用公式

MI (X, Y) = \log \frac{\Pr (X, Y)}{\Pr (X) \Pr (Y)}

计算每个词对的关联度：互信息MI(S，T)；其中Pr(X，Y)为X和Y的共现概率，Pr(X)和Pr(Y)分别为这两个变量的出现概率；

(4)计算每个源语言词汇和与其共现的目标语言的词串之间的平均关联度：运用公式

AMI (S, C) = \frac{1}{n} Σ_{i = 1}^{n} MI (S, W_{i})

计算单个源语言词汇和目标语言多词单元之间的平均关联度；

(5)计算每个目标语言的词串和与其共现的源语言的词串之间的关联值：运用公式

ASAMI (H, C) = \frac{1}{m} Σ_{i = 1}^{m} AMI (S_{i}, C)

和

NDAMI (H, C) = \frac{1}{m \times ASAMI (H, C)} Σ_{i = 1}^{m} | ASAMI (H, C) - AMI (S_{i}, C) |

计算源语言多词单元和目标语言多词单元之间的平均关联度和归一化关联度差值；

(6)应用局部最优算法：针对每个源语言词串利用局部最优算法将其非局部最优的候选目标语言多词单元排除掉，针对每个目标语言词串也运用局部最优算法做同样的过滤；

(7)关联值最优过滤：

将剩下的候选多词单元取其中关联值最大的一项作为可能的目标语言翻译出来。

所述的方法，其第(3)步所述的互信息MI(X，Y)，表示的是两个变量独立的情况下，这两个变量均出现1的事件的联合概率的对数似然比。

所述的方法，其第(6)步所述的局部最优算法可以表述如下：

x∈Ω_n-1，y∈Ω_n+1如果

(length(C)＝2and S(C)＞S(y))或者

(length(C)＞2and S(x)＜＝S(C)and S(C)＞S(y))

则词串C是一个短语；其中length(C)表示词串C所包含的词语的个数；其中，用Ω_n-1表示所有(n-1)词串的集合，Ω_n+1表示所有(n+1)词串的集合。

本发明的这些改进使得算法能有效地同时抽取高频和低频双语多词翻译等价单元，能提高抽取的正确率和降低计算复杂度。

具体实施方式

本发明先建立一个数学模型，再归纳出实施的方法。

一、数学模型

从信息论的角度，两个随机变量之间的互信息的定义是：

I (X, Y) = \underset{x &Element; (0,1)}{Σ} \underset{y &Element; (0,1)}{Σ} p (X = x, Y = y) \log \frac{p (X = x, Y = y)}{p (X = x) p (Y = y)} . - - (1)

但是，在自然语言处理领域中，大多数情况下，互信息只用到了上面公式中的一部分，也就是当X＝1，Y＝1的情况，在这里我们用MI(X，Y)表示，见公式(2)。I(X，Y)表示的是通信前后，平均不确定度的消除，也就是X包含在Y中的信息。而计算语言学意义上的互信息MI(X，Y)表示的是两个变量独立的情况下，这两个变量均出现1的事件的联合概率的对数似然比。

MI (X, Y) = \log \frac{\Pr (X, Y)}{\Pr (X) \Pr (Y)} . - - (2)

其中Pr(X，Y)为X和Y的共现概率，Pr(X)和Pr(Y)分别为这两个变量的出现概率。互信息可以为正，也可以为负，当它为正时，说明这两个变量是相互关联的，而且互信息越大，表示两个变量的关联度也越大。当互信息为0时，说明这两个变量无关，而当它为负时，说明这两个变量的出现为相互排斥事件。如果把一个中文机译单元的出现和一个英文机译单元的出现分别看作两个事件，那么就可以通过统计它们在整个语料库中的出现概率以及共现概率来计算它们的关联度。

假设一个目标语言词串C(Chunk)用下面的符号表示：

C＝W₁W₂...W_i...W_n。 (3)

则互信息平均值AMI(Average Mutual Information)、互信息归一化差值NMID(Normalized Mutual Information Difference)的计算公式分别如下：

AMI (S, C) = \frac{1}{n} Σ_{i = 1}^{n} MI (S, W_{i}), - - (4)

NMID (S, C) = \frac{1}{n \times AMI (S, C)} Σ_{i = 1}^{n} | MI (S, W_{i}) - AMI (S, C) | . - - (5)

其中S为源语言词汇。

假设输入端为一个源语言词汇，N个输出端分别为N个独立的目标语言词汇，那么单元源语言词汇和目标语多词单元中每个词语之间得互信息的算术平均值指的是输入端和所有输出端均为1的事件(假设该事件叫做E1)的概率对数似然比的归一化值。

互信息归一化差值是度量将词串C中的N个词汇分别与源语言词汇共现这N个事件各自的概率对数似然比与事件E1的概率对数似然比之间的偏离程度。当这个偏离程度较小的时候，说明当源语言词汇出现时，词串C中的N个词汇也出现的可能性较大，说明词串C是一个固定多词单元的可能性同时也增大，所以能用关联度的归一化差值来提取多词单元。

假设一个源语言词串H(Chunk)用下面的符号表示：

H＝S₁S₂...S_i...S_m。 (6)

那么每个目标语言的词串(n-gram)和与其共现的源语言的词串(n-gram)之间的统计关联度：平均互信息的平均值ASAMI(Average Score ofAverage Mutual Information)与平均互信息的归一化差值NDAMI(Normalized Difference of Average Mutual Information)的计算公式如下：

ASAMI (H, C) = \frac{1}{m} Σ_{i = 1}^{m} AMI (S_{i}, C), - - (7)

NDAMI (H, C) = \frac{1}{m \times ASAMI (H, C)} Σ_{i = 1}^{m} | ASAMI (H, C) - AMI (S_{i}, C) | . - - (8)

同理，当平均互信息的归一化差值NDAMI较小的时候，说明：词串H中的每个词汇出现，同时词串C中的每个词汇也出现的可能性较大。也就是，词串H是一个固定多词单元的可能性同时也增大。

二、算法描述

本发明提取双语多词等价翻译单元的方法分为以下几步：

(1)语料预处理，包括英文的断词、词形变换和中文分词

所谓英文的断词(tokenization)主要是指将标点符号和单词分开，词形变换(lemmatization)主要包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形，以及名词的复数形式变换成名词原形等等。因为中文没有词边界，而该方法是以词语为处理对象，所以必须进行分词。

(2)通过统计共现频率估计共现概率

统计出所有词对的共现频次和每个词汇的出现频次后可以估计出它们的概率，计算公式如(9)、(10)、(11)。

\Pr (S) = \frac{freq (S)}{N}, - - - (9)

\Pr (T) = \frac{freq (T)}{N}, - - - (10)

\Pr (S, T) = \frac{freq (S, T)}{N} . - - - (11)

其中N是语料库中所有句子对(共现模型)的总数。freq(.)表示的是源语言词汇S、目标语言词汇T出现的频次或者S和T共现的频次。Pr(.)表示的是概率。

(3)计算单个源语言词汇和单个目标语言词汇的关联度用公式(2)计算每个词对的关联度：互信息MI(S，T)。

(4)计算每个源语言词汇和与其共现的目标语言的词串(n-gram)之间的平均关联度运用公式(4)计算单个源语言词汇和目标语言多词单元之间的平均关联度。

(5)计算每个目标语言的词串(n-gram)和与其共现的源语言的词串(n-gram)之间的关联值运用公式(7)和(8)计算源语言多词单元和目标语言多词单元之间的平均关联度和归一化关联度差值。

(6)应用局部最优算法

针对每个源语言词串(n-gram)利用局部最优算法将其非局部最优的候选目标语言多词单元排除掉，针对每个目标语言词串(n-gram)也运用局部最优算法做同样的过滤。

从局部最大算法改进得到的局部最优算法提供了一个鲁棒性更强、适用范围更广、更为灵活的提取短语的手段。如果每一个词串(n-gram)是一个短语，那么会有着更强的内在关联，同时它的关联值肯定也会更高，并且一个短语是一个局部的结构，在一个局部能表现出最优的关联程度，而在全局范围内可能会因为它出现的频率太低等原因而表现不出在全局范围内有优势的关联值来，所以当一个词串的关联值在一个局部表现出最优，那么可以认为该词串就是一个短语。例如，对于词对(Bi-gram)<ice，cream>，在词语“ice”和“cream”之间有很强的内在关联，但是对于词对(Bi-gram)<the，in>，不能说词语“the”和“in”之间有很强的内在关联。假设函数S(.)可以衡量这种内在关联的大小。

假设一个词串(n-gram)C(Chunk)包含的所有(n-1)-gram的集合用Ω_n-1表示，而所有包含该词串(n-gram) C的(n+1)-gram的集合用Ω_n+1表示，假设关联值S(.)越大，结果就越优，则局部最优算法可以表述如下：

算法2.1局部最优算法

x∈Ω_n-1，y∈Ω_n+1如果

(length＝2 and S＞S(y))或者

(length＞2 and S(x)＜＝Sand S＞S(y))

则词串C是一个短语。

其中length表示词串C所包含的词语的个数。

(7)关联值最优过滤

将剩下的候选多词单元取其中关联值最大的1项作为可能的目标语言翻译。

实施例：

以抽取“meat packing：肉类/加工厂”为例来说明整个算法的过程，选择该双语多词单元的原因是它在语料库中出现的频率较低，只有一次，其他算法很容易漏掉。

(a)There is meat packing a big industry in your country？

(b)在你们国家肉类加工厂是否算一门大型工业？

该句对中各个词语在语料库中出现的频次以及各个源语言词汇和各个目标语言词汇在语料库中共现的频次如表1所示。

表1. 例句句对中各词汇的频次以及共现频次

		在	你们	国家	肉类	加工厂	是否	算	一	门	大型	工业
		在	你们	国家	肉类	加工厂	是否	算	一	门	大型	工业			1123	178	15	1	1	81	6	493	24	1	7
Is	1467	169	13	8	1	1	14	1	54	6	1	4			1123	178	15	1	1	81	6	493	24	1	7
Is	1467	169	13	8	1	1	14	1	54	6	1	4	Meat	9	1	1	1	1	1	1	1	1	1	1	1
Packing	1	1	1	1	1	1	1	1	1	1	1	1	Meat	9	1	1	1	1	1	1	1	1	1	1	1
Packing	1	1	1	1	1	1	1	1	1	1	1	1	A	2686	220	40	3	1	1	19	1	332	7	1	2
Big	15	3	1	1	1	1	1	1	3	1	1	1	A	2686	220	40	3	1	1	19	1	332	7	1	2
Big	15	3	1	1	1	1	1	1	3	1	1	1	Industry	4	1	1	1	1	1	1	1	1	2	1	4
In	1125	320	31	7	1	1	9	1	42	9	1	2	Industry	4	1	1	1	1	1	1	1	1	2	1	4
In	1125	320	31	7	1	1	9	1	42	9	1	2	Your	1042	80	41	2	1	1	8	1	23	6	1	1
Country	18	4	1	7	1	1	1	1	1	1	1	1	Your	1042	80	41	2	1	1	8	1	23	6	1	1

其中第二行是中文各词汇在语料库中出现的频次，第二列是各英文单词在语料库中出现的频次。

用公式(2)计算的每个源语言词汇与它所有共现的单个目标语言词汇的互信息MI(S，T)如表2所示。S为源语言词汇，T为目标语言词汇。

表2.“meat、packing、肉类、加工厂”四个词语与其他词语的共现概率

	Meat	Packing		肉类	加工厂
	Meat	Packing		肉类	加工厂	在	0.364990	2.562215	Is	2.323096	2.323096
你们	2.235063	4.432287	Meat	7.416846	7.416846	在	0.364990	2.562215	Is	2.323096	2.323096
你们	2.235063	4.432287	Meat	7.416846	7.416846	国家	4.708796	6.906020	Packing	9.614071	9.614071
肉类	7.416846	9.614071	A	1.718262	1.718262	国家	4.708796	6.906020	Packing	9.614071	9.614071
肉类	7.416846	9.614071	A	1.718262	1.718262	加工厂	7.416846	9.614071	Big	6.906020	6.906020
是否	3.022397	5.219621	Industry	8.227776	8.227776	加工厂	7.416846	9.614071	Big	6.906020	6.906020
是否	3.022397	5.219621	Industry	8.227776	8.227776	算	4.472407	6.669632	In	2.588532	2.588532
一	1.291069	2.795147	Your	2.665173	2.665173	算	4.472407	6.669632	In	2.588532	2.588532
一	1.291069	2.795147	Your	2.665173	2.665173	门	4.238792	6.436017	Country	6.723699	6.723699
大型	7.416846	9.614071				门	4.238792	6.436017	Country	6.723699	6.723699
大型	7.416846	9.614071				工业	5.470936	7.668160

以“meat”和“packing”为源语言词汇，所有可能由上面例句(a)和(b)所产生的中文多词单元为目标语言，其采用公式(4)计算得到的互信息的平均值为表3所示(为了节省篇幅，仅列出与“肉类/加工厂”有关的若干条记录)。

表3.与“meat、packing”共现的目标语言多词单元的互信息平均值

	Meat	Packing
	Meat	Packing	国家肉类	6.062821	8.260046
国家肉类加工厂	6.514163	8.711387	国家肉类	6.062821	8.260046
国家肉类加工厂	6.514163	8.711387	国家肉类加工厂是否	5.641221	7.838446
你们国家肉类	4.786902	6.984126	国家肉类加工厂是否	5.641221	7.838446
你们国家肉类	4.786902	6.984126	你们国家肉类加工厂	5.444388	7.641612
你们国家肉类加工厂是否	4.959990	7.157214	你们国家肉类加工厂	5.444388	7.641612
你们国家肉类加工厂是否	4.959990	7.157214	肉类加工厂	7.416846	9.614071
肉类加工厂是否	5.952030	8.149254	肉类加工厂	7.416846	9.614071
肉类加工厂是否	5.952030	8.149254	肉类加工厂是否算	5.582124	7.779349

以与“肉类/加工厂：meat packing”有关的双语词串(n-gram)为例，其采用公式(7)和(8)计算得到的平均互信息的平均值ASAMI和平均互信息的归一化差值NDAMI为表4所示。

表4双语词串(n-gram)的ASAMI和NDAMI

	ASAMI	NDAMI
	ASAMI	NDAMI	肉类加工厂：Is meat packing	7.061801	0.274464
肉类加工厂：meat packing	8.515458	0.129014	肉类加工厂：Is meat packing	7.061801	0.274464
肉类加工厂：meat packing	8.515458	0.129014	肉类加工厂：meat packing a	6.262760	0.479596
国家肉类加工厂：meat packing	7.612775	0.144312	肉类加工厂：meat packing a	6.262760	0.479596
国家肉类加工厂：meat packing	7.612775	0.144312	肉类加工厂是否：meat packing	7.050642	0.155817

在基于该例句对生成的1980个双语词串(n-gram)中，平均互信息的平均值ASAMI和平均互信息的归一化差值NDAMI同时满足局部最优算法的记录如表5所示。

表5 ASAMI和NDAMI同时满足局部最优的双语词串(n-gram)

	ASAMI	NDGMI
	ASAMI	NDGMI	大型工业：big industry	6.940516	0.145155
肉类加工厂：big industry	7.566898	0.087338	大型工业：big industry	6.940516	0.145155
肉类加工厂：big industry	7.566898	0.087338	肉类加工厂：meat packing	8.515458	0.129014
肉类加工厂：big industry in your country	5.443985	0.405992	肉类加工厂：meat packing	8.515458	0.129014
肉类加工厂：big industry in your country	5.443985	0.405992	门大型：big industry in your country	4.223847	0.451290

关联度最优过滤所得结果如表5中黑体字所示。

Claims

1、种从双语语料库中抽取双语多词翻译等价单元的方法，其特征在于，采用平均关联度和关联度的归一化差值作为双语多词翻译等价单元的关联衡量标准；在对齐的过程中同时识别多词单元。

2、如权利要求1所述的方法，其特征在于，该方法分为以下几步：

a)语料预处理，包括英文的断词、词形变换和中文分词：将英文标点符号和单词分开，词形变换，包括将动词的单数形式、分词形式、过去式和过去分词形式变换成动词原形，以及名词的复数形式变换成名词原形；将中文进行分词；

b)通过统计共现频率估计共现概率：统计出所有词对的共现频次和每个词汇的出现频次后，以公式计算出它们的概率；

c)计算单个源语言词汇和单个目标语言词汇的关联度：用公式

MI (X, Y) = \log \frac{\Pr (X, Y)}{\Pr (X) \Pr (Y)}

d)计算每个源语言词汇和与其共现的目标语言的词串之间的平均关联度：运用公式

AMI (S, C) = \frac{1}{n} Σ_{i = 1}^{n} MI (S, W_{i})

e)计算每个目标语言的词串和与其共现的源语言的词串之间的关联值：运用公式

ASAMI (H, C) = \frac{1}{m} Σ_{i = 1}^{m} AMI (S_{i}, C)

和

NDAMI (H, C) = \frac{1}{m \times ASAMI (H, C)} Σ_{i = 1}^{m} | ASAMI (H, C) - AMI (S_{i}, C) |

(7)关联值最优过滤：

3、如权利要求2所述的方法，其特征在于，第(3)步所述的互信息MI(X，Y)，表示的是两个变量独立的情况下，这两个变量均出现1的事件的联合概率的对数似然比。

4、如权利要求2所述的方法，其特征在于，第(6)步所述的局部最优算法可以表述如下：

x∈Ω_n-1，y∈Ω_n+1如果

(length(C)＝2 and S(C)＞S(y))或者

(length(C)＞2 and S(x)＜＝S(C)and S(C)＞S(y))