CN105718443A

CN105718443A - 一种基于依存词汇关联度的形容词词义消歧方法

Info

Publication number: CN105718443A
Application number: CN201610048601.9A
Authority: CN
Inventors: 鹿文鹏
Original assignee: Qilu University of Technology
Current assignee: Qilu University of Technology
Priority date: 2016-01-26
Filing date: 2016-01-26
Publication date: 2016-06-29

Abstract

本发明涉及到一种基于依存词汇关联度的形容词词义消歧方法，属于自然语言处理技术领域。其步骤为：1.根据语义词典，收集目标形容词歧义词各个词义的同义词、近义词、反义词，构建相应词义的相关词集。2.对目标歧义词所在的句子进行依存句法分析，收集包含目标歧义词的形容词修饰及副词修饰依存元组，提取相应的依存共现词。3.对大规模语料进行依存句法分析，收集其中的依存共现词对，构建依存共现词对数据库DB。4.根据DB，计算目标歧义词的各个词义的依存词汇关联度。5.将整体依存词汇关联度最大的词义判定为正确词义。本发明的方法对比现有技术，能够准确地选择依存共现词，避免噪声词的干扰；能够自动构建依存共现词对数据库，无需任何人工辅助操作；能够改善形容词词义消歧的效果。

Description

一种基于依存词汇关联度的形容词词义消歧方法

技术领域

本发明涉及到一种形容词词义消歧方法，特别涉及到一种基于依存词汇关联度的形容词词义消歧方法，属于自然语言处理技术领域。

背景技术

自然语言中普遍存在一词多义的现象。词义消歧即指根据多义词所处的上下文环境自动确定其词义。词义消歧属于自然语言处理领域的底层研究，对机器翻译、信息检索、信息抽取、情感分析、舆情监测等均具有直接影响。

词义消歧方法可划分有监督方法、无监督方法和基于知识库的方法。有监督方法利用词义分类器来进行词义的判定；无监督方法主要通过对歧义词的上下文词语进行聚类而对词义进行分类；基于知识库的方法根据上下文环境，利用知识库来判定歧义词的词义。有监督方法需要大量的词义标注语料以训练词义分类器，这严重制约了其应用范围；无监督方法本质上是一种词义辨析方法，并不能真正应用于大规模词义消歧任务；基于知识库的方法需要使用大量的知识库，知识库的优劣直接影响其消歧能力。其中，基于知识库的方法是目前唯一能够真正应用于大规模词义消歧任务的方法。

基于知识库的方法需要结合歧义词的上下文环境，依据其知识库判定歧义词的词义。现有方法通常利用滑动窗口来进行上下文的选择，这难免会引入一些无关的噪声词；现有方法使用的知识库通常是人工构建的，其成本高昂，不易于扩展；现有方法往往并不区分歧义词的词性，未能充分利用不同词性歧义词的自身特征。

发明内容

本发明的目的是为了克服现有技术的不足，主要解决形容词的词义消歧问题，提出一种基于依存词汇关联度的形容词词义消歧方法。

本发明的目的是通过如下技术方案实现的。

一种基于依存词汇关联度的形容词词义消歧方法，其具体操作步骤如下。

步骤一、根据语义词典，收集目标形容词歧义词w_t各个词义si的同义词、近义词、反义词，构建相应词义的相关词集W_si；具体如下。

步骤1.1：根据WordNet，取词义概念si的同义词集。

步骤1.2：根据WordNet，取词义概念si的近义词集。

步骤1.3：根据WordNet，取词义概念si的反义词集。

步骤1.4：将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并，构建相应词义的相关词集W_si。

步骤二、对目标歧义词所在的句子进行依存句法分析，收集包含目标歧义词的形容词修饰及副词修饰依存元组，提取相应的依存共现词w_amod和w_advmod；具体如下。

步骤2.1：利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析，获取其依存元组集合。

步骤2.2：由步骤2.1所得的依存元组集合，提取包含目标歧义词的形容词修饰及副词修饰依存元组。

步骤2.3：由步骤2.2所得的依存元组，提取歧义词的依存共现实词w_amod和w_advmod。

步骤三、对大规模语料进行依存句法分析，收集其中的依存共现词对，构建依存共现词对数据库DB；具体如下。

步骤3.1：利用依存句法分析工具对大规模文本语料进行依存句法分析，获取其依存元组集合DSet。

步骤3.2：舍弃DSet中依存元组的依存关系类型信息，统计依存共现词对，构建依存共现词对数据库DB。

步骤四、根据DB，计算目标歧义词的各个词义的依存词汇关联度；具体如下。

步骤4.1：对于词义si的相关词集W_si中的各个相关词w_si，由公式(1)，计算其与w_amod、w_advmod的依存词汇关联度，即relatedness(w_amod,w_si)及relatedness(w_si,w_advmod)。

relatedness(w₁,w₂)=LLR(w₁,w₂)=2[LogL(p₁,a,a+b)+LogL(p₂,c,c+d)-LogL(p,a,a+b)-LogL(p,c,c+d)](1)

其中，

；

a=freq(w₁,w₂)表示支配词是w₁，且从属词是w₂的依存元组的总数；

b=freq(w₁,*)-a表示支配词是w₁，但从属词不是w₂的依存元组的总数；

c=freq(*,w₂)-a表示从属词是w₂，但支配词不是w₁的依存元组的总数；

d=N-a-b-c表示支配词不是w₁并且从属词不是w₂的依存元组的总数；

N表示语料库所包含的全部依存元组的总数。

步骤4.2：由公式(2)，计算词义si与依存共现词w_amod和w_advmod的整体依存词汇关联度。

relatedness(si)=relatedness(w_amod,W_si)+relatedness(W_si,w_advmod)(2)

其中，

；

W_si表示由步骤一所获得的词义si的相关词集。

步骤五、将整体依存词汇关联度最大的词义判定为正确词义；具体如下。

比较由步骤4.2所获得的各个词义的整体依存词汇关联度，将依存词汇关联度最大的词义判定为歧义词的正确词义。

经过以上步骤的操作，即可判定形容词歧义词的词义，完成词义消歧任务。

有益效果

本发明提出的基于依存词汇关联度的形容词词义消歧方法，利用依存句法分析为形容词获取依存共现词，根据自动获取的依存共现词对数据库计算词义的依存词汇关联度，从而判定形容词的正确词义。与传统的词义消歧方法相比，本发明提出的方法针对形容词的特点能够更准确地选择依存共现词，有效避免无关噪声词的干扰；能够自动构建依存共现词对数据库，无需任何人工辅助操作，易于对数据库进行扩展。本发明提出的方法能够改善形容词词义消歧的效果。

具体实施方式

下面结合实例对本发明的具体实施方式做进一步详细说明。

以句子“Thelargenumberofmentallyillpeopletendtocommitsuicideinmostdevelopedcountries.”为例，对其中的形容词歧义词ill、developed进行消歧处理。

根据WordNet3.0词典，形容词歧义词ill、developed的词义如表1、表2所示。

表1形容词ill的词义表

词义编号	词义说明
		ill#a#1	ill, sick -- (affected by an impairment of normal physical or mental function; "ill from the monotony of his suffering")
ill#a#2	ill -- (resulting in suffering or adversity; "ill effects"; "it's an ill wind that blows no good")
		ill#a#3	ill -- (distressing; "ill manners"; "of ill repute")
ill#a#4	ill -- (indicating hostility or enmity; "you certainly did me an ill turn"; "ill feelings"; "ill will")
		ill#a#5	ill, inauspicious, ominous -- (presaging ill fortune; "ill omens"; "ill predictions"; "a by-election at a time highly unpropitious forthe government")

其中，#a表示词性为形容词，#1~#5表示词义序号。

表2形容词developed的词义表

词义编号	词义说明
		developed#a#1	developed -- (being changed over time so as to be e.g. stronger or more complete or more useful; "they have very small limbs withonly two fully developed toes on each")
developed#a#2	developed, highly-developed -- ((used of societies) having high industrial development; "developed countries")
		developed#a#3	developed -- ((of real estate) made more useful and profitable as by building or laying out roads; "condominiums were built on thedeveloped site")

其中，#a表示词性为形容词，#1~#3表示词义序号。

步骤1.1：根据WordNet，取词义概念si的同义词集。

在此例中，根据WordNet，可得ill和developed的各词义的同义词如表3、表4所示。

步骤1.2：根据WordNet，取词义概念si的近义词集。

在此例中，根据WordNet，可得ill和developed的各词义的近义词如表3、表4所示。

步骤1.3：根据WordNet，取词义概念si的反义词集。

在此例中，根据WordNet，可得ill和developed的各词义的反义词如表3、表4所示。

在此例中，可得ill和developed的各词义的相关词集如表5、表6所示。

表3形容词ill的各个词义的相关词

词义编号	同义词	近义词	反义词3 -->
				ill#a#1	sick	afflicted stricken aguish ailing indisposed peaked poorlysickly unwell seedy airsick carsick seasick autistic bedfastbedridden bedrid sick-abed bilious liverish livery bronchiticconsumptive convalescent recovering delirious hallucinatingdiabetic dizzy giddy woozy vertiginous dyspeptic faint lightswooning light-headed lightheaded feverish feverous funny goutygreen milk-sick nauseated nauseous queasy sickish palsiedparalytic paralyzed paraplegic rickety rachitic scrofuloussneezy spastic tubercular tuberculous unhealed upset	well
ill#a#2	-	harmful	-
				ill#a#3	-	bad	-
ill#a#4	-	hostile	-
				ill#a#5	inauspicious ominous	unpropitious	-

其中，#a表示词性为形容词，#1~#5表示词义序号。

表4形容词developed的各个词义的相关词

词义编号	同义词	近义词	反义词
				developed#a#1	-	formed formulated mature matured	undeveloped
developed#a#2	highly-developed	industrial	-
				developed#a#3	-	improved	-

其中，#a表示词性为形容词，#1~#3表示词义序号。

表5形容词ill的各个词义的的相关词集

词义编号	相关词集
		ill#a#1	sick afflicted stricken aguish ailing indisposed peaked poorly sickly unwell seedy airsick carsick seasick autistic bedfast bedridden bedridsick-abed bilious liverish livery bronchitic consumptive convalescent recovering delirious hallucinating diabetic dizzy giddy woozyvertiginous dyspeptic faint light swooning light-headed lightheaded feverish feverous funny gouty green milk-sick nauseated nauseous queasysickish palsied paralytic paralyzed paraplegic rickety rachitic scrofulous sneezy spastic tubercular tuberculous unhealed upset well
ill#a#2	harmful
		ill#a#3	bad
ill#a#4	hostile
		ill#a#5	inauspicious ominous unpropitious

其中，#a表示词性为形容词，#1~#5表示词义序号。

表6形容词developed的各个词义的相关词集

词义编号	相关词集
		developed#a#1	formed formulated mature matured undeveloped
developed#a#2	highly-developed industrial
		developed#a#3	improved

其中，#a表示词性为形容词，#1~#3表示词义序号。

此例中，借助斯坦福大学所提供的StanfordParser句法分析器，使用englishPCFG.ser.gz语言模型，并使用WordNet3.0进行词形还原，可得到句子的依存元组集合如下：det(number-3,the-1)、amod(number-3,large-2)、nsubj(tend-8,number-3)、xsubj(commit-10,number-3)、advmod(ill-6,mentally-5)、amod(people-7,ill-6)、prep_of(number-3,people-7)、aux(commit-10,to-9)、xcomp(tend-8,commit-10)、dobj(commit-10,suicide-11)、advmod(developed-14,most-13)、amod(country-15,developed-14)、prep_in(suicide-11,country-15)。

此例中，对于歧义词ill，可提取出amod(people-7,ill-6)和advmod(ill-6,mentally-5)；对于歧义词developed，可提取出amod(country-15,developed-14)和advmod(developed-14,most-13)。

此例中，对于歧义词ill，可得w_amod为people、w_advmod为mentally；对于歧义词developed，可得w_amod为country、w_advmod为most。

此例中，依存句法分析工具采用斯坦福大学所提供的StanfordParser句法分析器，使用englishPCFG.ser.gz语言模型，并使用WordNet3.0进行词形还原。大规模文本语料采用路透社提供的ReuterCorpus。利用StanfordParser对ReuterCorpus中的文本语料逐句进行句法分析，收集得到的依存元组，存入依存元组集合DSet。此例中，最终得到的DSet共包含93850841个依存元组。

此例中，将DSet中的依存元组舍弃依存关系类型信息，只保留支配词和从属词信息，统计支配词和从属词所构成的依存共现词对的共现频次信息，构建依存共现词对数据库DB。

此例中，最终得到的DB中共包含存共现词对9269109对，其共现频次总和为93850841。

其中，

；

N表示语料库所包含的全部依存元组的总数。

此例中，对于歧义词ill，其w_amod为people、w_advmod为mentally，由公式(1)，计算其各个词义相关词的依存词汇关联度。

其中ill#a#1的词义相关词sick、sickly、light、funny、green与people的依存词汇关联度分别为：414.633560、2.797437、10.267433、10.214535、3.727571；其它词义相关词的关联度均为0。

ill#a#1的词义相关词sick与mentally的依存词汇关联度为：36.692474；其它词义相关词的关联度均为0。

ill#a#2的词义相关词harmful与people、mentally的依存词汇关联度均为0。

ill#a#3的词义相关词bad与people、mentally的依存词汇关联度分别为0.703737、0。

ill#a#4的词义相关词hostile与people、mentally的依存词汇关联度分别为0.609087、0。

ill#a#5的词义相关词inauspicious、ominous、unpropitious与people、mentally的依存词汇关联度均为0。

对于歧义词developed，其w_amod为country、w_advmod为most，由公式(1)，计算其各个词义相关词的依存词汇关联度。

其中，developed#a#1的词义相关词formed、formulated、mature、matured、undeveloped与country的依存词汇相关度分别为0、0、0、0、22.751748；其与most的依存词汇相关度分别为0、0、7.076829、0、1.862240。

developed#a#2的词义相关词highly-developed、industrial与country的依存词汇相关度分别为0、611.842281；其与most的依存词汇相关度分别为0、16.894161。

developed#a#3的词义相关词improved与country的依存词汇相关度为0；其与most的依存词汇相关度为0。

relatedness(si)=relatedness(w_amod,W_si)+relatedness(W_si,w_advmod)(2)

其中，

；

W_si表示由步骤一所获得的词义si的相关词集。

此例中，对于歧义词ill，relatedness(ill#a#1)=relatedness(“people”,W_ill#n#1)+relatedness(W_ill#n#1,“mentally”)=max(414.633560,2.797437,10.267433,10.214535,3.727571,0,0,…,0)+max(36.692474,0,0,…,0)=414.633560+36.692474=451.326034。

同理，relatedness(ill#a#2)=0；relatedness(ill#a#3)=0.703737；relatedness(ill#a#4)=0.609087；relatedness(ill#a#5)=0。

对于歧义词developed，relatedness(developed#a#1)=relatedness(“country”,W_{developed#a#1})+relatedness(W_{developed#a#1},“most”)=max(0,0,0,0,22.751748)+max(0,0,7.076829,0,1.862240)=22.751748+7.076829=29.828577。

同理，relatedness(developed#a#2)=628.736442；relatedness(developed#a#3)=0。

在此例中，对于歧义词ill，由步骤4.2，其ill#a#1、ill#a#2、ill#a#3、ill#a#4、ill#a#5的依存词汇关联度分别为：451.326034、0、0.703737、0.609087、0；可见，ill#a#1的依存词汇关联度最大，其将被判定为歧义词ill的正确词义。

对于歧义词developed，由步骤4.2，其developed#a#1、developed#a#2、developed#a#3的依存词汇关联度分别为：29.828577、628.736442、0；可见，developed#a#2的依存词汇关联度最大，其将被判定为歧义词developed的正确词义。

如上所述，本发明提供了一种基于依存词汇关联度的形容词词义消歧方法。用户输入句子并指明目标形容词歧义词，***将自动对目标形容词的词义进行判定。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于依存词汇关联度的形容词词义消歧方法，其特征在于：其具体操作步骤为：

步骤一、根据语义词典，收集目标形容词歧义词w_t各个词义si的同义词、近义词、反义词，构建相应词义的相关词集W_si；具体为：

步骤1.1：根据WordNet，取词义概念si的同义词集；

步骤1.2：根据WordNet，取词义概念si的近义词集；

步骤1.3：根据WordNet，取词义概念si的反义词集；

步骤1.4：将步骤1.1~1.3所得的同义词集、近义词集、反义词集合并，构建相应词义的相关词集W_si；

步骤二、对目标歧义词所在的句子进行依存句法分析，收集包含目标歧义词的形容词修饰及副词修饰依存元组，提取相应的依存共现词w_amod和w_advmod；具体为：

步骤2.1：利用依存句法分析工具对目标歧义词所在的句子进行依存句法分析，获取其依存元组集合；

步骤2.2：由步骤2.1所得的依存元组集合，提取包含目标歧义词的形容词修饰及副词修饰依存元组；

步骤2.3：由步骤2.2所得的依存元组，提取歧义词的依存共现实词w_amod和w_advmod；

步骤三、对大规模语料进行依存句法分析，收集其中的依存共现词对，构建依存共现词对数据库DB；具体为：

步骤3.1：利用依存句法分析工具对大规模文本语料进行依存句法分析，获取其依存元组集合DSet；

步骤3.2：舍弃DSet中依存元组的依存关系类型信息，统计依存共现词对，构建依存共现词对数据库DB；

步骤四、根据DB，计算目标歧义词的各个词义的依存词汇关联度；具体为：

步骤4.1：对于词义si的相关词集W_si中的各个相关词w_si，由公式(1)，计算其与w_amod、w_advmod的依存词汇关联度，即relatedness(w_amod,w_si)及relatedness(w_si,w_advmod)；

其中，

；

N表示语料库所包含的全部依存元组的总数；

步骤4.2：由公式(2)，计算词义si与依存共现词w_amod和w_advmod的整体依存词汇关联度；

relatedness(si)=relatedness(w_amod,W_si)+relatedness(W_si,w_advmod)(2)

其中，

；

W_si表示由步骤一所获得的词义si的相关词集；

步骤五、将整体依存词汇关联度最大的词义判定为正确词义；具体为：

比较由步骤4.2所获得的各个词义的整体依存词汇关联度，将依存词汇关联度最大的词义判定为歧义词的正确词义；