CN105677639A

CN105677639A - 一种基于短语结构句法树的英文词义消歧方法

Info

Publication number: CN105677639A
Application number: CN201610011045.8A
Authority: CN
Inventors: 鹿文鹏; 成金勇; 张维玉
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2016-01-10
Filing date: 2016-01-10
Publication date: 2016-06-15

Abstract

本发明涉及到一种基于短语结构句法树的英文词义消歧方法，属于自然语言处理领域。其步骤为：1.通过对句子进行短语结构句法分析，生成其短语结构句法树；2.以短语结构句法树为依据，筛选词义相关词；3.构建词义消歧模型，通过评估歧义词的词义与词义相关词的密切程度而判定正确词义；4.由词义标注语料库，利用遗传算法，对步骤3中的词义消歧模型的参数进行优化；5.对于待消歧词，重复步骤1和2，利用步骤4所获得的优化词义消歧模型，判定歧义词的正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法，利用短语结构句法树筛选词义相关词并为其赋予消歧权重，能够减少噪声词的干扰，改善词义相关度的计算精度，提高英文词义消歧的正确率。

Description

一种基于短语结构句法树的英文词义消歧方法

技术领域

本发明涉及到一种英文词义消歧方法，特别涉及一种基于短语结构句法树的英文词义消歧方法，属于自然语言处理技术领域。

背景技术

词义消歧是指根据歧义词所处的上下文环境判断其正确的词义。词义是构成一个句子含义的基本单位，是理解一个句子的前提。词义消歧属于自然语言处理领域的基础性任务，在机器翻译、信息检索、文本分类、问答***等领域具有广泛的应用需求。

歧义词的词义由其所处的上下文环境而确定。能否准确地选择上下文词义相关词，将直接影响词义消歧***的性能。现有的词义消歧方法通常利用上下文滑动窗口来选择上下文相关词，即以歧义词为中心选择左右一定距离以内的词语。这种方法只考虑了词语在句子中的直接距离，而未考虑词语的语法、语义关系。这种方法无法滤除近距离的噪声词，也容易遗漏远距离的相关词。

歧义词的词义通常通过比较各词义与上下文词义相关词的密切程度而确定。能否准确地计算密切程度，对词义消歧***的性能具有决定性影响。不同距离的相关词对歧义词词义的影响程度并不相同，需要赋予适当的消歧权重。现有的词义消歧方法通常将上下文词义相关词的权重视为同等的，这无法体现不同距离词语的权重差异，难以准确评估词义与上下文词义相关词的密切程度。

鉴于上述问题，本申请提出一种基于短语结构句法树的英文词义消歧方法，该方法可以充分利用短语结构句法树来进行词义相关词的筛选并为其赋予消歧权重，根据词义与上下文词义相关词的密切程度而判断正确词义。

发明内容

本发明的目的是为了克服现有词义消歧技术的不足，主要解决上下文词义相关词的筛选及赋权和词义相关度的计算问题，提出了一种新的基于短语结构句法树的英文词义消歧方法。

本发明的目的是通过如下技术方案实现的。

一种基于短语结构句法树的英文词义消歧方法，其具体操作步骤如下。

步骤一、通过对句子进行短语结构句法分析，生成其短语结构句法树；具体如下。

步骤1.1：用符号S表示待处理的句子。

步骤1.2：对句子S进行预处理，主要包括去除乱码字符、特殊符号、英文断词（Tokenization）等，获得预处理后的句子S’。

步骤1.3：使用短语结构句法分析器，对句子S’进行短语结构句法分析，生成短语结构句法树T。

步骤1.4：对短语结构句法树T中的词语进行词形还原。

步骤二、以短语结构句法树为依据，计算歧义词与句子中其它词语的层次距离和路径距离，筛选出词义相关词；具体如下。

步骤2.1：用符号w_t表示待消歧的歧义词，用符号w表示句子中的其它词语，用符号W表示句子中除歧义词w_t之外的全部实词的集合。

步骤2.2：由短语结构句法树T，统计歧义词w_t与其它词语w的层次距离d_l，将d_l记入w，并保存到W中。

步骤2.3：由短语结构句法树T，统计歧义词w_t与其它词语w的路径距离d_p，将d_p记入w，并保存到W中。

步骤2.4：指定层次距离参数d_layer和路径距离参数d_path，从W中筛选d_l不大于d_layer并且d_p不大于d_path的词语，构建歧义词的词义相关词集合R。

步骤三、构建词义消歧模型，通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义；具体如下。

步骤3.1：对于词义相关词集合R中的每个词语w，根据其层次距离d_l和路径距离d_p，由公式(1)计算其消歧权重。

(1)

其中，α和β为层次距离d_l和路径距离d_p的调节参数。

步骤3.2：对于歧义词w_t的每个词义s_i，由公式(2)计算其与词义相关词集R的密切程度。

(2)

其中，s_i表示歧义词w_t的第i个词义，sense(w_t)表示歧义词w_t的全部词义的集合，s_i∈sense(w_t)，w_j表示第j个词义相关词，R表示歧义词w_t的全部词义相关词的集合，w_j∈R，weight(w_j)表示由公式(1)计算而得的w_j的消歧权重，wnss(s_i,w_j)表示词义s_i与词义相关词w_j的词义相关度。

步骤3.3：根据由步骤3.2所得的各个词义s_i与词义相关词集R的密切程度，选择密切程度最高的词义作为歧义词的正确词义。

步骤四、由词义标注语料库，利用遗传算法，对步骤三中的词义消歧模型的参数进行优化，获得优化的词义消歧模型；具体如下。

步骤4.1：选择适当的词义标注语料库Corpus。

步骤4.2：收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注，构建词义消歧模型训练数据集C_train。

步骤4.3：将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量，将公式(3)作为遗传算法的目标函数，在C_train上进行优化训练，获得最优的d_layer、d_path、α、β参数。

(3)

其中，precision为消歧正确率，其值为正确消歧的歧义词的数量与歧义词总数的比值。

步骤4.4：将步骤4.3所获得的d_layer、d_path代入步骤2.4，将α、β代入公式(1)，完成词义消歧模型的参数优化。

步骤五、对于待消歧词，重复步骤一和二，利用步骤四所获得的优化的词义消歧模型，判定歧义词的正确词义；具体如下。

步骤5.1：根据步骤一，生成待消歧词w_t所在句子的短语结构句法树T。

步骤5.2：根据步骤二，获得待消歧词w_t与句子中其它词语的层次距离和路径距离，并根据步骤四所获得的d_layer、d_path筛选词义相关词，构建词义相关词集合R。

步骤5.3：根据步骤四所获得的α、β参数，由步骤3.1，计算词义相关词集合R中的每个词义相关词的消歧权重。

步骤5.4：由步骤3.2，确定歧义词w_t的每个词义s_i与词义相关词集R的密切程度。

步骤5.5：由步骤3.3，确定歧义词w_t的正确词义。

经过以上步骤的操作，即可判定英文歧义语的词义，完成词义消歧任务。

有益效果

本发明提出基于短语结构句法树的英文词义消歧方法，使用短语结构句法树作为歧义词的上下文词义相关词的筛选依据；根据词义相关词与歧义词在短语结构句法树上的层次距离和路径距离，赋予词义相关词消歧权重；根据歧义词的各个词义与上下文词义相关词的关联密切程度而判断正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法与现有的英文词义消歧方法相比，其能够更准确地筛选上下文词义相关词，并为词义相关词赋予适当的消歧权重，对歧义词词义与上下文词义相关词的密切程度的计算更为精确。本方法能够有效避免传统方法存在的词义相关词筛选及赋权不准确的问题，改善词义相关度的计算精度，提高英文词义消歧的正确率。

附图说明

图1为本发明具体实施中的句子的短语结构句法树。

具体实施方式

下面结合具体实施例，对本发明做进一步的详细描述。

以句子“⊙Thecoaches‘teachingfootballarestandingonthebus＠.”为例，对其中的歧义词coach进行消歧处理。

根据WordNet3.0词典，歧义词coach的词义如表1所示。

表1coach#n的词义表

词义编号	词义说明
		coach#n#1	coach,manager, handler -- ((sports) someone in charge of training an athlete or a team)
coach#n#2	coach, private instructor, tutor -- (a person who gives private instruction (as in singing,acting, etc.))
		coach#n#3	passenger car, coach, carriage -- (a railcar where passengers ride)
coach#n#4	coach, four-in-hand,coach-and-four -- (a carriage pulled by four horses with one driver)
		coach#n#5	bus,autobus, coach, charabanc, double-decker, jitney, motorbus, motorcoach,omnibus, passenger vehicle -- (avehicle carrying many passengers; used for public transport; "he always rode the bus to work")

其中，#n表示词性为名词；#1,#2,#3,#4,#5表示在WordNet3.0中的词义序号。

步骤1.1：用符号S表示待处理的句子，此例中S为“⊙Thecoaches‘teachingfootballarestandingonthebus＠.”。

步骤1.2：对句子S进行预处理，主要包括去除乱码字符、特殊符号、英文断词（Tokenization）等，获得预处理后的句子S’，此例可得“thecoachesteachingfootballarestandingonthebus.”。

步骤1.3：使用短语结构句法分析器，对句子S’进行短语结构句法分析，生成短语结构句法树T。此例中使用斯坦福大学所提供的StanfordParser句法分析器，使用englishPCFG.ser.gz语言模型，生成的短语结构句法树如图1所示。

步骤1.4：对短语结构句法树T中的词语进行词形还原。此例中借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包，完成词形还原工作，图1中的词语将被还原为：the,coach,teach,football,be,stand,on,the,bus。

步骤2.1：用符号w_t表示待消歧的歧义词coach，用符号w表示句子中的其它词语，用符号W表示句子中除歧义词w_t之外的全部实词的集合，即{teach#n,football#n,stand#v,bus#n}（其中#n表示名词，#v表示动词）。

步骤2.2：由短语结构句法树T，统计歧义词coach与其它词语w的层次距离d_l，将d_l记入w，并保存到W中。设coach与w在T中的共有父结点为f，则层次距离为coach与f的路径距离长度减1。此例中，由图1可知，coach与teach,football,stand,bus的层次距离依次为：1,1,2,2。

步骤2.3：由短语结构句法树T，统计歧义词coach与其它词语w的路径距离d_p，将d_p记入w，并保存到W中。此例中，由图1可知，coach与teach,football,stand,bus的路径距离依次为：4,4,7,9。

步骤2.4：指定层次距离参数d_layer和路径距离参数d_path，从W中筛选d_l不大于d_layer并且d_p不大于d_path的词语w的集合，构建歧义词的词义相关词集合R。此例中，将d_layer和d_path分别设为2,9，可得coach的词义相关词集合为{teach#n,football#n,stand#v,bus#n}。

(1)

其中，α和β为层次距离d_l和路径距离d_p的调节参数。

此例中，将和分别设为1和0，相当于将各个词义相关词的权重均赋为1。

(2)

此例中，歧义词coach#n的词义相关词集R={teach#n,football#n,stand#v,bus#n}，首先需要计算coach#n的各个词义与各相关词的词义相关度，即wnss值。wnss可以借助多种相似度或相关度计算工具完成；在此选用TedPedersen所编写的WordNet::Similarity工具包来进行计算，可得各词义相关度如表2所示。

表2coach#n的词义与相关词的词义相关度

	teach#n	football#n	stand#v	bus#n
					coach#n#1	0.0274664653923546	0.474638267730824	0.0794203349688148	0.0953982038879483
coach#n#2	0.0411270396042137	0.0636370034284592	0.125973809222455	0.105985587733038
					coach#n#3	0.0441240510549878	0.109828009114997	0.118997168597431	0.165005388203732
coach#n#4	0.0395030928811857	0.118434570601007	0.116094035457169	0.31888473124512
					coach#n#5	0.0563124527152087	0.113685514457318	0.113552132406334	0.999999999999987

表2中的相关度值使用WordNet::Similarity::vector_pairs度量标准计算而得。

为便于后期计算，首先对各个相关词w_j，计算的值。其中，=wnss(coach#n#1,teach#n)+wnss(coach#n#2,teach#n)+wnss(coach#n#3,teach#n)+wnss(coach#n#4,teach#n)+wnss(coach#n#5,teach#n)=0.0274664653923546+0.0411270396042137+0.0441240510549878+0.0395030928811857+0.0563124527152087=0.20853310164795047。

同理，可得，

=0.8802233653326053；

=0.5540374806522037；

=1.6852739110698254。

对于词义coach#n#1，由公式(2)，relatedness(coach#n#1)=+++=+++=0.13171273613300974+0.5392247995501404+0.14334830718550395+0.05660694280100067=0.8708927856696547。

同理，对于其它词义，由公式(2)，可得

relatedness(coach#n#2)=0.5597805034534482；

relatedness(coach#n#3)=0.6490573694718037；

relatedness(coach#n#4)=0.7227439715647753；

relatedness(coach#n#5)=1.197525369840318。

在此实例中，比较步骤3.2中计算出的词义相关度（relatedness值），选择相关度最大的coach#n#5作为歧义词的正确词义（实际上，coach#n#5为错误词义，后续步骤将通过优化模型参数，纠正此错误判断）。

步骤4.1：选择适当的词义标注语料库Corpus。在实施时，可以采用任何类型的词义标注语料库。此例中，选用DianaMcCarthy和RobKoeling所提供的ReutersBNC中的部分标注语料。

步骤4.2：收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注，构建词义消歧模型训练数据集C_train。在此例中，步骤4.1所选用的ReutersBNC可直接作为训练数据集。对于其它标注语料库，只需进行简单的文本处理转化，即可构建训练数据集。

(3)

此例中，借助Matlab软件提供的OptimizationTool的GeneticAlgorithm来获取最优参数，GeneticAlgorithm的参数使用Matlab的缺省设置。经过训练，本实例中4个参数分别被优化为3、10、0.5、1.2。

此例中，将层次距离不大于3且路径距离不大于10的词语将作为歧义词的词义相关词。公式(1)将改写为公式(4)：

(4)

其中，公式(1)中的α、β已分别优化为0.5、1.2。

在此实施例中，仍以句子“⊙Thecoaches‘teachingfootballarestandingonthebus＠.”为例，对其中的歧义词coach进行消歧处理。

步骤5.1：根据步骤一，生成待消歧词w_t所在句子的短语结构句法树T。此例中，短语结构句法树如图1所示。

步骤5.2：根据步骤二，获得待消歧词w_t与句子中其它词语的层次距离和路径距离，并根据步骤四所获得的d_layer、d_path筛选词义相关词，构建词义相关词集合R。此例中，由图1的短语结构句法树，coach与teach,football,stand,bus的层次距离依次为：1,1,2,2；coach与teach,football,stand,bus的路径距离依次为：4,4,7,9。经步骤四优化后的d_layer、d_path分别为3、10，teach,football,stand,bus与coach的层次距离及路径距离均满足条件，故构建的词义相关词集合R={teach#n,football#n,stand#v,bus#n}。

步骤5.3：根据步骤四所获得的最优参数，由步骤3.1，计算词义相关词集合R中的每个词义相关词的权重。此例中，由公式(4)，根据其层次距离和路径距离，teach#n,football#n,stand#v,bus#n的消歧权重weight分别为：0.2902804823653377、0.2902804823653377、0.12412383171664482、0.11654517159405858。

步骤5.4：由步骤3.2，确定歧义词w_t的每个词义s_i与词义相关词集R的密切程度。此例中，对于词义coach#n#1，由公式(2)，relatedness(coach#n#1)=+++=+++

=0.03823363657834851+0.1565264349167673+0.0177929411579594+0.006597265862157682=0.2191502785152329。

同理，可得，

relatedness(coach#n#2)=0.11378754409746956；

relatedness(coach#n#3)=0.13571081450099737；

relatedness(coach#n#4)=0.1421077906515997；

relatedness(coach#n#5)=0.21047354027607934。

步骤5.5：由步骤3.3，确定歧义词w_t的正确词义。此例中，比较步骤5.4中获得的coach的各个词义的词义相关度（relatedness值）大小；选择相关度最大的coach#n#1作为正确的词义。

Claims

1.一种基于短语结构句法树的英文词义消歧方法，其特征在于：其具体操作步骤为：

步骤一、通过对句子进行短语结构句法分析，生成其短语结构句法树；具体为：

步骤1.1：用符号S表示待处理的句子；

步骤1.2：对句子S进行预处理，主要包括去除乱码字符、特殊符号、英文断词（Tokenization）等，获得预处理后的句子S’；

步骤1.3：使用短语结构句法分析器，对句子S’进行短语结构句法分析，生成短语结构句法树T；

步骤1.4：对短语结构句法树T中的词语进行词形还原；

步骤二、以短语结构句法树为依据，计算歧义词与句子中其它词语的层次距离和路径距离，筛选出词义相关词；具体为：

步骤2.1：用符号w_t表示待消歧的歧义词，用符号w表示句子中的其它词语，用符号W表示句子中除歧义词w_t之外的全部实词的集合；

步骤2.2：由短语结构句法树T，统计歧义词w_t与其它词语w的层次距离d_l，将d_l记入w，并保存到W中；

步骤2.3：由短语结构句法树T，统计歧义词w_t与其它词语w的路径距离d_p，将d_p记入w，并保存到W中；

步骤2.4：指定层次距离参数d_layer和路径距离参数d_path，从W中筛选d_l不大于d_layer并且d_p不大于d_path的词语，构建歧义词的词义相关词集合R；

步骤三、构建词义消歧模型，通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义；具体为：

步骤3.1：对于词义相关词集合R中的每个词语w，根据其层次距离d_l和路径距离d_p，由公式(1)计算其消歧权重；

(1)

其中，α和β为层次距离d_l和路径距离d_p的调节参数；

步骤3.2：对于歧义词w_t的每个词义s_i，由公式(2)计算其与词义相关词集R的密切程度；

(2)

其中，s_i表示歧义词w_t的第i个词义，sense(w_t)表示歧义词w_t的全部词义的集合，s_i∈sense(w_t)，w_j表示第j个词义相关词，R表示歧义词w_t的全部词义相关词的集合，w_j∈R，weight(w_j)表示由公式(1)计算而得的w_j的消歧权重，wnss(s_i,w_j)表示词义s_i与词义相关词w_j的词义相关度；

步骤3.3：根据由步骤3.2所得的各个词义s_i与词义相关词集R的密切程度，选择密切程度最高的词义作为歧义词的正确词义；

步骤四、由词义标注语料库，利用遗传算法，对步骤三中的词义消歧模型的参数进行优化，获得优化的词义消歧模型；具体为：

步骤4.1：选择适当的词义标注语料库Corpus；

步骤4.2：收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注，构建词义消歧模型训练数据集C_train；

步骤4.3：将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量，将公式(3)作为遗传算法的目标函数，在C_train上进行优化训练，获得最优的d_layer、d_path、α、β参数；

(3)

其中，precision为消歧正确率，其值为正确消歧的歧义词的数量与歧义词总数的比值；

步骤4.4：将步骤4.3所获得的d_layer、d_path代入步骤2.4，将α、β代入公式(1)，完成词义消歧模型的参数优化；

步骤五、对于待消歧词，重复步骤一和二，利用步骤四所获得的优化的词义消歧模型，判定歧义词的正确词义；具体为：

步骤5.1：根据步骤一，生成待消歧词w_t所在句子的短语结构句法树T；

步骤5.2：根据步骤二，获得待消歧词w_t与句子中其它词语的层次距离和路径距离，根据步骤四所获得的d_layer、d_path参数，筛选词义相关词，构建词义相关词集合R；

步骤5.3：根据步骤四所获得的α、β参数，由步骤3.1，计算词义相关词集合R中的每个词义相关词的消歧权重；

步骤5.4：由步骤3.2，确定歧义词w_t的每个词义s_i与词义相关词集R的密切程度；

步骤5.5：由步骤3.3，确定歧义词w_t的正确词义；