CN101295294A

CN101295294A - 基于信息增益改进贝叶斯词义消歧方法

Info

Publication number: CN101295294A
Application number: CNA2008100585185A
Authority: CN
Inventors: 余正涛; 邓宾; 韩露; 郭剑毅; 车文刚
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2008-06-12
Filing date: 2008-06-12
Publication date: 2008-10-29

Abstract

本发明提出了一种基于信息增益改进贝叶斯词义消歧方法。该方法采用“知网”(HowNet)作为消歧资源，通过知网中的义项来描述和区分词在上下文中的词义，利用***标注语料库，对歧义词进行词义义项标注，构建了词义消歧语料库。采用信息增益方法对语料进行统计，计算出歧义词上下文不同位置信息增益值，根据信息增益值选取影响岐义词前后6个位置词构建词义消歧特征向量，采用贝叶斯算法，通过信息增益为特征向量12维特征赋予不同的权重值，构建了改进贝叶斯词义消歧模型。对10个汉语常用歧义词进行消歧测试实验，结果证明该方法有效，其中封闭测试正确率达95.72％，开放测试正确率达85.71％。

Description

基于信息增益改进贝叶斯词义消歧方法

技术领域

本发明涉及自然语言处理技术领域，特别是基于信息增益改进贝叶斯词义消歧方法。

背景技术

多义词的词义消歧(Word Sense Disambiguation，WSD)是影响自然语言处理领域的一个“热点问题”，一词多义在自然语言中出现的非常频繁，在英语资料中多义词的出现占据语料的30％～43％，在汉语资料中多义词的出现占据语料的42％。在一定程度上说自然语言处理就是要实现人机相互交流。为了实现这个目标，我们还有大量的工作需要完成，而词义消歧就是对于词的处理问题，同时也是自然语言处理中的一个难点。词义消歧技术可以使计算机模拟人类分析、理解、判断不同语言环境中的词义信息。词义的自动消歧可以被广泛用于自然语言处理***，如：文本分类、信息检索、机器翻译、文本挖掘、语音识别等。有资料表明，在自然语言处理***中加入词义消歧技术后，可以使***的正确率由29％上升到34.2％，词义消歧被认为是自然语言处理领域中词汇级别最困难的问题。

用于词义消歧的方法有很多种，主要可以分为两大类。一类为约束规则，这类方法主要通过语言学中的语法规则来确定歧义词的义项，如：句法关系、语义搭配、词法特征、词性特征等。Cowie(1992)、Agirre和Rigau(1995)等人就利用机器可读词典的方法进行词义消歧处理，刘风成等人基于AdaBoost MH的分类方法，吴云芳等人提出了基于词典属性特征的消歧方法。这类方法需要构建语法规则库，而语法规则的构建和获取成为这种方法的难点。第二类为基于语料库统计方法，在人为确定的语料库中计算歧义词在上下文中的概率权重，选择具有最大概率权重的义项作为歧义词的最优结果。荀恩东等人利用汉语二元同现的方法进行词义消歧，东北大学朱靖波等人提出了基于对数模型的消歧方法，杨尔弘提出了基于义原同现频率的词义消歧方法，鲁松等人提出了基于向量空间模型的词义消歧方法，哈尔滨工业大学卢志茂、刘挺等人把神经网络和贝叶斯网络应用于汉语的词义消歧。

在单纯贝叶斯消歧模型中，通常选取包含歧义词整个语句词语作为消歧特征，当语句过长时，特征向量就会过多，增加了噪音干扰；另外，一般采用空间向量进行词义消歧时，认为歧义词周围所有词对歧义词词义的影响是一样的，但是，实际情况是距离歧义词越近，上下文对歧义词词义的影响就越大，反之就会越小。因此，我们利用信息增益的方法改进单纯贝叶斯模型中特征向量对歧义词影响的程度，限制了歧义词的上下文范围，并为特征向量赋予了不同的权重值，提出了一种基于信息增益改进贝叶斯模型的词义消歧方法。

发明内容

本发明的目的是提供一种基于信息增益改进贝叶斯(技术有指导)词义消歧方法。与纯贝叶斯词义消歧模型相比较，该方法在封闭测试中准确率提高了4.7个百分点，开放测试中的正确率高出0.97个百分点。

本发明的方法采用“知网”(HowNet)作为消歧资源，通过知网中的义项来描述和区分词在上下文中的词义，利用***标注语料库，对歧义词进行词义义项标注，构建了词义消歧语料库。采用信息增益方法对语料进行统计，计算出歧义词上下文不同位置信息增益值，根据信息增益值选取影响岐义词前后6个位置词构建词义消歧特征向量，采用贝叶斯算法，通过信息增益为特征向量12维特征赋予不同的权重值，构建了改进贝叶斯词义消歧模型。具体是：

1、利用知网定义词语义项，构建词义消歧训练、测试语料库

《知网》是一个以汉语和英语的词语所代表的概念为描述对象，以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。《知网》利用有限的义原集合对概念进行解释，这些义原被分别组织在各自的文件内，包括实体，事件，属性和属性值等。《知网》把与概念相关的义原按一定规则组合起来称之为一个义项，这个义项用一个编号(NO.)表示，W_C，G_C，E_C分别表示汉语的词语、词性和例子，DEF为语义表达式。词语(word)同一个语义表达式(DEF)可能有不同的编号(NO.)，为了便于和统计，我们为每个义项定义一个唯一的语义标识码(NO_MARK)。如“材料”有三个义项。义项一的NO_MARK为“9406”，NO.为“009406”，DEF为“attribute|属性，quality|质量，&human|人”；义项二的NO_MARK为“9408”，NO.为“009408”，DEF为“information|信息”；义项三的NO_MARK为“9409”，NO.为“009409”，DEF为“material|材料，generic|统称”；在计算时根据DEF进行处理。同时建立一个NO_MARK-WORD数据库表。

在此数据库中同一个词可能具有不同的NO_MARK，不同的词也有可能对应有相同的NO_MARK。从数据库中共统计出17308个义项，因此用这些义项可以表示所有的概念，作为词义标注的依据。

2、上下文范围及各位置权值的确定

在词义消歧中歧义词的上下文对歧义词的理解显得的非常重要，词与词之间存在着一定的相关性即前后词有着一定的联系，歧义词一定范围的上下文为词语提供较为充分的语言信息，可以利用信息增益的方法来量化这种关系的程度。一定范围的上下文可以被进一步分析为求解歧义词上下文中各个位置对歧义词提供信息量贡献大小的问题，包括如何确定各个位置的信息量和上下文范围取值多大比较合适。

可以将核心词一定范围内的上下文词语定义为核心词的一个上下文向量。经过分词和标注后，构成核心词的上下文向量集合，并且将核心词的上下文向量定义为上下文信息矩阵。由此可知，核心词义项的数目就是该核心词上下文信息矩阵的数量。上下文信息矩阵的形式为核心词义项表示的进一步形式化提供了一种直接的表示方式。如何确定上下文信息的范围是本节讨论的问题。

上下文有效范围的确定采用信息增益(Information Gain)的计算方法来获得。为获得基于语料库的上下文位置权重统计性平均结果，计算统计工作以1998年的《***》中统计所得到的1000高频词构成的词语集合为研究对象。

将高频词及其上下文形式化为一个符号信息***，信源的先验不确定性(entropy)就是高频词的统计不确定性，信宿的后验不确定性就是在已知一位置上下文情况下的不确定性，二者之差即为相对于已知一上下文位置的情况下条件熵的信息增益，以此确定各位置的信息量。

设高频词词集为W，上下文词词集为CW，信息增益的公式如下：

IG_P＝H(W)-H(W|V_P) (1)

公式(1)是上下文位置P的信息量IG_P，即信息增益是整个***熵H(W)相对于已知上下文位置p时整个***条件熵H(W|V_P)的减少量，即信息增益。

式(1)中各项解释如下：

H(W)是上下文信息矩阵中高频词为信源的信息熵：

H (w) = \underset{w &Element; W}{Σ} P (w) \times \log_{2} P (w) - - - (2)

其中P(w)为高频词w的词频统计概率，定义为式(3)的形式：

P (w) = \frac{| fre (w) |}{| \underset{w &Element; W}{Σ} fre (w) |} - - - (3)

说明：

为1000个高频词在语料中出现的总频率；|fre(w)|为词语w在语料中出现的频率。

H(W|V_P)为已知上下文位置Vp的条件熵，定义为式(4)的形式：

H (W | V_{p}) = \underset{cw &Element; V_{p}}{Σ} P (cw) \times H (W | cw) - - - (4)

其中P(cw)为上下文位置p中的上下文词语cw的统计概率；H(W|cw)是在上下文词语已知情况下的条件熵。

各位置上下文权重的计算结果如下表：

表1.1上下文位置信息增益表

上下文位置	信息增益值	上下文位置	信息增益值
上下文位置	信息增益值	上下文位置	信息增益值	-1	2.27311089547	1	2.30594858001
-2	2.15387590152	2	2.13597409566	-1	2.27311089547	1	2.30594858001
-2	2.15387590152	2	2.13597409566	-3	1.94098164570	3	1.92702181067
-4	1.31981900741	4	1.11722149564	-3	1.94098164570	3	1.92702181067
-4	1.31981900741	4	1.11722149564	-5	1.15615596421	5	1.10859172459
-6	1.00150682983	6	1.00649586732	-5	1.15615596421	5	1.10859172459
-6	1.00150682983	6	1.00649586732	-7	0.19558745846	7	0.63259581121
-8	0.10980246139	8	0.30904760549	-7	0.19558745846	7	0.63259581121

由结果可以看出，本文中上下文有效范围被确定为高频词的前6个和后6个位置比较合适。

3、基于信息增益改进贝叶斯词义消歧模型

贝叶斯分类利用贝叶斯决策规则进行分类，假定歧义词

有2个义项，要决定待消歧的词

属于词义类别s₁还是s₂，首先计算出概率

即分别计算出

属于不同类别的概率，如果

P (s_{1} | \overset{&RightArrow;}{x}) > P (s_{2} | \overset{&RightArrow;}{x}),

则歧义词属于类别s₁，否则属于类别s₂。利用贝叶斯公式：

P (s | \overset{&RightArrow;}{x}) = \frac{P (\overset{&RightArrow;}{x} | s)}{P (\overset{&RightArrow;}{x})} P (s) - - - (5)

根据贝叶斯决策规则，可以通过下面的公式决定歧义词

的类别s′：

s^{'} = \underset{s}{\arg \max} [\log P (\overset{&RightArrow;}{x} | s) + \log P (s)] - - - (6)

为了计算的方便，假设文本特征向量中的特征相互独立，即：

P (\overset{&RightArrow;}{x} | s) = P ({x_{j} | x_{j} in \overset{&RightArrow;}{x}} s) = Π_{x_{j} in \overset{&RightArrow;}{x}} P (x_{j} | s) - - - (7)

由于信息增益对上下文位置的影响，如果对于歧义词s有义项集合S，可以将公式(7)进行如下的变化。

s^{'} = \underset{s &Element; S}{\arg \max} Π_{p = - 6}^{6} [{IG}_{p} P (x_{p} | s)] P (s) - - - (8)

基于信息增益的贝叶斯模型的参数训练采用极大似然估计的方法，其中IG_p根据表1.1取得各值，而P(x_p|s)和P(s)分别由公式(9)和公式(10)来计算：

P (x_{p} | s) = \frac{C (x_{p}, s)}{C (s)} - - - (9)

P (s) = \frac{C (s)}{C (w)} - - - (10)

公式中C(x_p，s)表示歧义词w取s这个词义时，训练语料中上下文x在位置p与歧义词w共同出现的次数，C(s)表示歧义词w取s这个词义时，总共出现的次数，C(w)则表示歧义词w在语料中共计出现的次数。

4、数据平滑处理

由于训练语料规模比较小，并且参数分布不均衡，所以有些概率参数可能统计为“0”，即存在数据稀疏矩阵。为了消除“0”对计算的影响，我们利用数据平滑技术来估计那些为“0”的概率参数。

数据平滑技术有很多种，常用的有“Add One”方法、“Good-Turing”估计方法等。本发明采用了“Add One”的平滑方法，此法简单有效。“Add One”方法的主要思想就是对于那些没有统计到的词语也认为它出现了一次，同时为了保证所有概率之和为“1”，在计算概率时分母要加上所有可能出现的词语的总数。这样模型参数P(x_p|s)和P(s)的计算公式如公式(11)和公式(12)所示：

P (x_{p} | s) = \frac{C (x_{p}, s) + 1}{C (s) + N} - - - (11)

P (s) = \frac{C (s) + 1}{C (w) + m} - - - (12)

其中N是HowNet中词语的总数，而m为词w所有语义的总数。对于那些大量参数为“0”的参数，在这种平滑的方法中，如果把这些参数都计算为“1”次，从而造成概率密度的分布倾向于没有统计到的词语，这样的值在统计中是没有任何用处的，因此，对于那些没有统计到的词语不是记为“1”次，而记为λ次，令λ取值在(0，1)的范围内，λ可以根据训练语料的大小做出相应的调整。于是P(x_p|s)和P(s)的计算公式如公式(13)和公式(14)所示：

P (x_{p} | s) = \frac{C (x_{p}, s) + λ}{C (s) + λN} - - - (13)

P (s) = \frac{C (s) + λ}{C (w) + λm} - - - (14)

在本发明中，P(x_p|s)的平滑算法中取λ＝0.5，而P(s)的平滑算法取λ＝0.01。

本发明的方法是一种有效的汉语词义消歧技术，在引入信息增益后可以有效的改进贝叶斯模型，能够有效的提高词义消歧的准确率，该方法具有广阔的发展前景，对自然语言的进一步发展是十分有利的。

附图说明

图1是一种基于信息增益改进贝叶斯技术词义消歧方法***图。

具体实施方式

本发明可以在普通计算机上实现，分为以下几个步骤，如图1所示。

训练阶段如下：

①使用《***》语料库，抽取其中的歧义词，利用知网的义项描叙歧义词的词义，人工标注的方式构建词义消歧训练、测试语料库。消歧语料库以文本TXT的方式存放，分词后，词与词之间用空格分隔，歧义词词义标注是以分词标识加上NO_MARK-WORD数据库表的NO_MARK号而组合而成。训练、测试语料词语共计10万词。

②从1998年的《***》中选取1000高频词，构成的词语集合为研究对象，同时选取高频词一定范围的上下文(本文定义核心词前后各15个词)形成上下文信息矩阵。

③根据步骤②的数据，利用信息增益方法即公式(1)计算上下文信息矩阵，获得各上下文位置对核心词的信息量IGp。各位置上下文权重的计算结果见表1.1。由结果可以看出，上下文有效范围被确定为高频词的前6个和后6个位置比较合适。各位置上下文权重值见表1.1。

④计算平滑处理中的参数：在数据库中统计HowNet中所有词语的数值，在训练语料中计算歧义词所有语义的数值。

测试阶段如下：

①对于测试语料中的所有语句进行分词和标注。测试语料分词后，词与词之间用空格分隔，不在以文本TXT方式存放，仅仅存在内存中。

②利用知网的义项描叙歧义词的词义，统计出测试语料中每一个岐义词的义项总数，计算每一个义项在训练语料中的概率，计算一个句子中的岐义词的每个义项的P(s)和P(x_p|s)。

③把步骤②中得到的结果即P(s)和P(x_p|s)的值代入基于信息增益的贝叶斯词义消歧模型即公式(8)，将各上下文位置对核心词的信息量IGp和训练阶段获得的平滑参数值也代入公式(8)，P(x_p|s)的平滑算法中取λ＝0.5，P(s)的平滑算法取λ＝0.01。最后计算出每个岐义词的词义s′。

④重复②③直到测试语料中所有的岐义词全部计算完成。

实验效果

整个实验分为训练阶段和测试阶段。实验所有数据来自于1998年的《***》语料，其中歧义词义项来源于HowNet中对歧义词的解释。实验数据共有1000句，其中有词语66500个。分别进行封闭测试和开放测试，封闭测试的数据依然来源于1998年的《***》，封闭测试数据有150句，其中词语共有13400个。而开放测试的语料为来源于互联网的中文信息，每个句长平均为30个词，开放测试数据有200句，其中词语共有6500个。为了体现对比我们还利用纯贝叶斯模型对同样的测试语料进行消歧实验。

采用基于信息增益改进贝叶斯模型对岐义词进行有指导消歧方法，对10个高频多义词进行训练和测试。同时，我们采用纯贝叶斯模型对这10个高频多义词也做了相同的训练和测试，作为对比。其结果如下所示：

表2.1实验结果数据表

基于信息增益改进的贝叶斯模型在封闭的有导学***均正确率比纯贝叶斯模型高出4.7个百分点，开放测试中的正确率高出0.97个百分点。

Claims

1.一种基于信息增益改进贝叶斯词义消歧方法，其特征在于该方法包括：

(1)利用知网的义项描叙多义词词义，以构建词义消歧训练、测试语料库；

(2)利用《***》中统计所得到的1000高频词构成的词语集合，采用信息增益的方法统计并获得基于语料库的上下文位置权重统计性平均结果，从而确定上下文范围和各位置上下文的权值；

(3)在训练语料库中统计多义词出现的概率，确定贝叶斯模型的参数；

(4)根据步骤(2)的结果，改进贝叶斯模型中特征向量的取值和计算；

(5)在数据平滑处理中，采用“Add One”的平滑方法；

(6)根据步骤(3)、(4)和(5)，确定多义词最终的义项。

2.根据权利要求1所述的基于信息增益改进贝叶斯词义消歧方法，其特征在于步骤(1)具体为，人工标注的方式构建训练语料库，对训练语料库中的词语进行分词、词性标注、义项标注，利用1998年的PFR***标注语料库，使用知网的义项对对其中的多义词进行标注。

3.根据权利要求1所述的基于信息增益改进贝叶斯词义消歧方法，其特征在于步骤(2)具体为，上下文有效范围以及各位置上下文权值的确定采用信息增益的计算方法来获得，以此确定各位置的信息量，信息量计算如下：

IG_P＝H(W)-H(W|V_P)。

4.根据权利要求1所述的基于信息增益改进贝叶斯词义消歧方法，其特征在于步骤(5)具体为，对那些没有统计的词语记为λ次，分别调整P(x_p|s)和P(s)的计算公式，如下所示：

P (x_{p} | s) = \frac{C (x_{p}, s) + λ}{C (s) + λN}

P (s) = \frac{C (s) + λ}{C (w) + λm} .

5.根据权利要求1所述的基于信息增益改进贝叶斯词义消歧方法，其特征在于：步骤(6)中使用信息增益的方法，计算出词语在上下文中位置的权重，并利用这些权重来改变特征向量中特征维权重的大小，借助歧义词句子上下文对歧义词的影响关系，改进贝叶斯词义消歧模型，计算方法如下：

s^{'} = \underset{s &Element; S}{\arg \max} Π_{p - n}^{n} [{IG}_{p} P (x_{p} | s)] P (s) .