CN105893346A - 一种基于依存句法树的图模型词义消歧方法 - Google Patents

一种基于依存句法树的图模型词义消歧方法 Download PDF

Info

Publication number
CN105893346A
CN105893346A CN201610189859.0A CN201610189859A CN105893346A CN 105893346 A CN105893346 A CN 105893346A CN 201610189859 A CN201610189859 A CN 201610189859A CN 105893346 A CN105893346 A CN 105893346A
Authority
CN
China
Prior art keywords
word
meaning
sentence
syntax tree
disambiguation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610189859.0A
Other languages
English (en)
Inventor
鹿文鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201610189859.0A priority Critical patent/CN105893346A/zh
Publication of CN105893346A publication Critical patent/CN105893346A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及到一种基于依存句法树的图模型词义消歧方法,属于自然语言处理技术领域。其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。本发明所提出的基于依存句法树的图模型词义消歧方法,能够进一步发掘图模型的消歧潜力,具有较好的消歧效果。

Description

一种基于依存句法树的图模型词义消歧方法
技术领域
本发明涉及一种词义消歧方法,特别涉及一种基于依存句法树的图模型词义消歧方法,属于自然语言处理技术领域。
背景技术
词义消歧是指根据歧义词所处的上下文环境而自动判定其正确词义。词义消歧属于自然语言处理的底层技术,其对机器翻译、信息检索、自动问答、情感分析等自然语言处理任务均具有直接的影响。
基于知识库的词义消歧方法可划分为基于相似度度量的方法和基于图模型的方法。前者,通过比较歧义词的词义与上下文词语的相似程度而判定正确词义;后者,根据知识库为词义结点构建消歧知识图,利用图模型的结点重要度评价方法对词义结点进行评分,从而判定正确词义。近年来,图模型因其良好的性能逐渐受到研究者的重视。
不论基于相似度度量的方法,还是基于图模型的方法,其消歧性能均受到上下文相关词的影响。上下文相关词与歧义词的距离不同,它们对歧义词词义的影响也不尽相同。如何在词义消歧图模型中合理地体现距离的影响,是一个亟待解决的问题。
目前,图模型词义消歧方法多数利用PageRank算法对词义结点的重要度进行评价。PageRank算法在搜索引擎中取得了巨大成功,但这并不意味着其在词义消歧领域同样有效。针对词义消歧任务的特定需求,设计一种有效的图模型结点重要度评价机制,同样也是一个亟待解决的问题。
发明内容
本发明的目的是针对目前词义消歧方法存在的不足,提出一种基于依存句法树的图模型词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于依存句法树的图模型词义消歧方法,其具体操作步骤如下。
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下。
步骤1.1:用符号S表示待处理的句子。
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’
步骤1.3:对句子S’中的词语进行词形还原。
步骤1.4:提取S’中待消歧的实词,存入实词集合W
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下。
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树。
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下。
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离。
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下。
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R
步骤4.2:由语义关联路径集合R,构建消歧知识图G
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下。
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值。
(1)
其中,p代表语义关联路径集合中的某一条路径。e代表关联路径p中的某一条关联边。w e 为关联边e的权重。是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7。代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2。
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下。
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义。
经过以上步骤的操作,即可完成全文词义消歧处理。
有益效果
本发明提出的基于依存句法树的图模型词义消歧方法,利用BabelNet知识库为歧义词的各个词义概念构建消歧知识图,综合考虑图中词义关联路径的长度、关联边的权重、路径端点概念所对应的词语在依存句法树上的最短距离而确定词义概念结点的图评分值,为各歧义词选择图评分值最高的词义概念作为正确词义。与传统的图模型词义消歧方法相比,该发明引入了依存句法树上词语的最短距离,提出一种结合关联路径长度和关联边权重的图模型结点重要度评价方法。本发明能够有效体现词语距离对结点重要度评价的影响,更全面准确地评价词义结点的重要程度,能够改善图模型词义消歧的效果。
附图说明
图1为本发明具体实施方式中的依存句法树。
图2 为本发明具体实施方式中的消歧知识图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的详细描述。
以句子“the coach and athletes © will leave for Shanghai by 【train.”为例,对其中的全部实词,即coach、athlete、leave、Shanghai、train进行全文词义消歧处理。
根据BabelNet 1.0词典,以上实词的词义分别如表1~表5所示。BabelNet词典中的词义来源于Wikipedia和WordNet。词义消歧评测中通常以WordNet词义作为标准,为简化说明,本实例仅列出来源于WordNet的词义。
表1 coach#n的词义表
词义编号(BabelNet) 词义说明 词义编号(WordNet)
bn:00020121n a carriage pulled by four horses with one driver coach#n#4
bn:00016240n a railcar where passengers ride coach#n#3
bn:00007329n a vehicle carrying many passengers; used for publictransport; "he always rode the bus to work" coach#n#5
bn:00020120n a person who gives private instruction (as in singing,acting, etc.) coach#n#2
bn:00020119n (sports) someone in charge of training an athlete or ateam coach#n#1
其中,bn表示BabelNet;n、#n表示词性为名词;#1,#2,#3,#4,#5表示在WordNet 3.0中的词义序号。
表2 athlete#n的词义表
词义编号(BabelNet) 词义说明 词义编号(WordNet)
bn:00006747n a person trained to compete in sports athlete#n#1
其中,bn表示BabelNet;n、#n表示词性为名词;#1表示在WordNet 3.0中的词义序号。
表3 leave#v的词义表
词义编号(BabelNet) 词义说明 词义编号(WordNet)
bn:00090273v leave unchanged or undisturbed or refrain from taking;"leave it as is"; "leave the young fawn alone"; "leavethe flowers that you see in the park behind" leave#v#4
bn:00090275v be survived by after one's death; "He left sixchildren"; "At her death, she left behind her husbandand 11 cats" leave#v#12
bn:00088482v leave behind unintentionally; "I forgot my umbrella inthe restaurant"; "I left my keys inside the car andlocked the doors" leave#v#14
bn:00090271v go and leave behind, either intentionally or by neglector forgetfulness; "She left a mess when she moved out";"His good luck finally left him"; "her husband left herafter 20 years of marriage"; "she wept thinking she hadbeen left behind" leave#v#2
bn:00087845v move out of or depart from; "leave the room"; "thefugitive has left the country" leave#v#5
bn:00088939v go away from a place; "At what time does your trainleave"; "She didn't leave until midnight"; "The shipleaves at midnight" leave#v#1
bn:00083420v leave or give by will after one's death; "My auntbequeathed me all her jewelry"; "My grandfather left mehis entire estate" leave#v#10
bn:00088821v transmit (knowledge or skills); "give a secret to theRussians"; "leave your name and address here"; "imparta new skill to the students" leave#v#13
bn:00087695v put into the care or protection of someone; "He leftthe decision to his deputy"; "leave your child thenurse's care" leave#v#9
bn:00086604v remove oneself from an association with orparticipation in; "She wants to leave"; "The teenagerleft home"; "She left her position with the Red Cross";"He left the Senate after two terms"; "after 20 yearswith the same company, she pulled up stakes" leave#v#8
bn:00090243v have as a result or residue; "The water left a mark onthe silk dress"; "Her blood left a stain on the napkin" leave#v#7
bn:00082540v make a possibility or provide opportunity for; permitto be attainable or cause to remain; "This leaves noroom for improvement"; "The evidence allows only oneconclusion"; "allow for mistakes"; "leave lots of timefor the trip"; "This procedure provides for lots ofleeway" leave#v#6
bn:00090272v act or be so as to become in a specified state; "Theinflation left them penniless"; "The president'sremarks left us speechless" leave#v#3
bn:00090274v have left or have as a remainder; "That left the fourof us"; "19 minus 8 leaves 11" leave#v#11
其中,bn表示BabelNet;v、#v表示词性为动词;#1~#14表示在WordNet 3.0中的词义序号。
表4 Shanghai#n的词义表
词义编号(BabelNet) 词义说明 词义编号(WordNet)
bn:00070893n the largest city of China; located in the east on thePacific; one of the largest ports in the world Shanghai#n#1
其中,bn表示BabelNet;n、#n表示词性为名词;#1表示在WordNet 3.0中的词义序号。
表5 train#n的词义表
词义编号(BabelNet) 词义说明 词义编号(WordNet)
bn:00066028n public transport provided by a line of railwaycarscoupled together and drawn by a locomotive; "express trains don't stop at Princeton Junction" train#n#1
bn:00037572n wheelwork consisting of a connected set of rotatinggears by which force is transmitted or motion or torqueis changed; "the fool got his tie caught in thegeartrain" train#n#6
bn:00077914n piece of cloth forming the long back section of a gownthat is drawn along the floor; "the bride's train wascarried by her two young nephews" train#n#5
bn:00077913n a series of consequences wrought by an event; "it ledto a train of disasters" train#n#4
bn:00015839n a procession (of wagons or mules or camels) travelingtogether in single file; "we were part of a caravan ofalmost a thousand camels"; "they joined the wagon trainfor safety" train#n#3
bn:00074684n a sequentially ordered set of things or events or ideasin which each successive member is related to thepreceding; "a string of islands"; "train of mourners";"a train of thought" train#n#2
其中,bn表示BabelNet;n、#n表示词性为名词;#1,#2,#3,#4,#5,#6表示在WordNet 3.0中的词义序号。
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下。
步骤1.1:用符号S表示待处理的句子。
此例中,S=“the coach and athletes © will leave for Shanghai by【train.”。
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’
此例中,S’=“the coach and athletes will leave for Shanghai by train .”。
步骤1.3:对句子S’中的词语进行词形还原。
此例中借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作。此例中仅涉及一个词语“athletes”,其将被还原为“athlete”。
步骤1.4:提取S’中待消歧的实词,存入实词集合W
此例中,共包含5个待消歧的实词,分别为coach、athlete、leave、Shanghai、train。
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下。
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet
此例中使用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,使用CCPropagatedDependencies参数以允许对依存关系进行折叠和传递处理。结合步骤1.3中的词形还原信息,可得到如下依存元组集合DSetDSet={ det(coach-2, the-1)、nsubj(leave-6, coach-2)、conj_and(coach-2, athlete-4)、nsubj(leave-6, athlete-4)、aux(leave-6, will-5)、prep_for(leave-6, Shanghai-8)、prep_by(leave-6, train-10) }。
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树。
此例中,由DSet中的依存元组数据,可构建如附图1所示的依存句法树。
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下。
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离。
此例中,将附图1视为无向图,利用Dijkstra算法依次计算各个结点之间的最短路径的长度,如表6所示。
表6 词语结点之间的最短路径长度
the coach athlete will leave Shanghai train
the 0 1 2 3 2 3 3
coach 1 0 1 2 1 2 2
athlete 2 1 0 2 1 2 2
will 3 2 2 0 1 2 2
leave 2 1 1 1 0 1 1
Shanghai 3 2 2 2 1 0 2
train 3 2 2 2 1 2 0
由表6可见,因将附图1视为无向图,词语距离沿对角线对称。
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下。
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R
此例中,因BabelNet蕴含的词义概念和语义关联关系比WordNet更为丰富。为了能够充分发挥BabelNet的优势,本发明抽取句子中全部实词的全部BabelNet词义概念之间的语义关联关系。为了保证抽取的关联关系的质量,舍弃长度大于3的关联路径、舍弃存在环的关联路径、舍弃关联边的权重低于0.01的关联路径。对于此例中的5个实词的BabelNet词义概念,满足以上条件的语义关联路径共1162条,其中部分路径如下所示。
[bn:00006747n, ~, 0.03152, bn:00035713n, r, 0.05971, bn:00036014n, r, 0.02804, bn:00020119n]
[bn:00006747n, ~, 0.03182, bn:00008897n, ~, 0.10154, bn:00036014n, r, 0.02804, bn:00020119n]
[bn:00006747n, ~, 0.0187, bn:00074678n, r, 0.02084, bn:00020119n]
[bn:00066028n, gdis, 0.04991, bn:00015785n, ~, 0.0556, bn:00036420n, r, 0.11841, bn:00016240n]
[bn:00020119n, gmono, 0.03247, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00808723n, r, 0.04456, bn:00045278n, @, 0.05508, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:02554145n, r, 0.01137, bn:00003403n, r, 0.03647, bn:00051309n, r, 0.01701, bn:00020119n]
[bn:00808723n, r, 0.02219, bn:00008805n, r, 0.03697, bn:00003403n, r, 0.01158, bn:02554145n]。
以第一条路径为例,该路径长度为3,包含四个词义结点,其中路径端点bn:00006747n和bn:00020119n分别对应句子中的两个实词(athlete和coach);bn:00035713n和bn:00036014n为路径的中间关联结点。~、r分别代表不同的语义关联关系。0.03152、0.05971、0.02804分别代表关联边的权重。
步骤4.2:由语义关联路径集合R,构建消歧知识图G
此例中,根据语义关联集合R,可构建如附图2所示的消歧知识图。附图2仅为示意图,只画出了集合R所包含的一小部分语义关联关系。
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下。
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合
此例中,由消歧知识图G和语义关联路径集合R,逐条比对路径的起点和终点,可得到词义结点s i 的相关关联路径。
以词义概念bn:00020119n为例,其相关路径共57条,可得其如下。
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, gmono, 0.03338, bn:00006747n]
[bn:00020119n, +, 0.0766, bn:00085223v, gdis, 0.01403, bn:00006759n, r, 0.01589, bn:01228222n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n, gdis, 0.04801, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n, gdis, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n, @, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n, gmono, 0.04801, bn:00006747n]
[bn:00020119n, gmono, 0.03247, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00020119n, r, 0.10964, bn:01228222n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n, gdis, 0.03338, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n, gdis, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n, @, 0.05689, bn:00006747n]
[bn:00020119n, gdis, 0.0766, bn:00085223v, gdis, 0.01403, bn:00006759n, r, 0.01589, bn:01228222n]
[bn:00020119n, r, 0.30744, bn:00006547n, r, 0.02294, bn:00074678n, @, 0.3871, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n, gdis, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n, gmono, 0.03338, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n, gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, @, 0.03338, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n, gmono, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n, gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n, @, 0.05689, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n, gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n, @, 0.03338, bn:00006747n]
[bn:00020119n, gdis, 0.0116, bn:00073699n, r, 0.10336, bn:00006759n, r, 0.01589, bn:01228222n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, gdis, 0.03338, bn:00006747n]
[bn:00020119n, gdis, 0.03247, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n, gmono, 0.02831, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n, @, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06078, bn:00021660n, gmono, 0.02708, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n, gmono, 0.05689, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n, gdis, 0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n, gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n, @, 0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00020119n, r, 0.30975, bn:00003403n, r, 0.01158, bn:02554145n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n, gmono, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.06078, bn:00021660n, gdis, 0.02708, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n, @, 0.04801, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n, gmono, 0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n, gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n, gdis, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n, @, 0.03076, bn:00006747n]
[bn:01228222n, r, 0.09407, bn:00020119n]
[bn:00006747n, ~, 0.03152, bn:00035713n, r, 0.05971, bn:00036014n, r, 0.02804, bn:00020119n]
[bn:00006747n, ~, 0.03182, bn:00008897n, ~, 0.10154, bn:00036014n, r, 0.02804, bn:00020119n]
[bn:02554145n, r, 0.01035, bn:00006547n, r, 0.01303, bn:00036014n, r, 0.02804, bn:00020119n]
[bn:00006747n, ~, 0.0187, bn:00074678n, r, 0.02084, bn:00020119n]
[bn:00006747n, ~, 0.02777, bn:00008205n, ~i, 0.03802, bn:00048315n, @i, 0.20541, bn:00020119n]
[bn:02554145n, r, 0.01035, bn:00006547n, r, 0.02294, bn:00074678n, r, 0.02084, bn:00020119n]
[bn:02554145n, r, 0.01137, bn:00003403n, r, 0.03647, bn:00051309n, r, 0.01701, bn:00020119n]。
由消歧知识图G和语义关联路径集合R,可得各词义结点的语义关联路径的数量如表7所示。
表7 各词义结点的语义关联路径的数量表
词义编号(BabelNet) 词义编号(WordNet) 路径数量
bn:00020121n coach#n#4 24
bn:00016240n coach#n#3 258
bn:00007329n coach#n#5 222
bn:00020120n coach#n#2 1
bn:00020119n coach#n#1 57
bn:00006747n athlete#n#1 52
bn:00090273v leave#v#4 0
bn:00090275v leave#v#12 0
bn:00088482v leave#v#14 0
bn:00090271v leave#v#2 0
bn:00087845v leave#v#5 6
bn:00088939v leave#v#1 0
bn:00083420v leave#v#10 0
bn:00088821v leave#v#13 0
bn:00087695v leave#v#9 1
bn:00086604v leave#v#8 0
bn:00090243v leave#v#7 2
bn:00082540v leave#v#6 0
bn:00090272v leave#v#3 0
bn:00090274v leave#v#11 0
bn:00070893n Shanghai#n#1 11
bn:00066028n train#n#1 496
bn:00037572n train#n#6 1
bn:00077914n train#n#5 0
bn:00077913n train#n#4 2
bn:00015839n train#n#3 12
bn:00074684n train#n#2 0
表7中的符号意义同表1~表5。
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值。
(1)
其中,p代表语义关联路径集合中的某一条路径。e代表关联路径p中的某一条关联边。w e 为关联边e的权重。是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7。代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2。
以词义概念bn:00020119n为例,由步骤5.1可知,其相关路径集合共包含57条路径。
首先由公式(1)分别计算各条路径对bn:00020119n的评分值。以路径[bn: 00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, gmono, 0.03338, bn:00006747n]为例。该路径的长度p为3,端点概念bn:00020119nbn: 00006747n分别对应词语coach和athlete,由表6可知,其在依存句法树上的最短距离d为1,则该路径对bn:00020119n的评分值如下。
同理,可依次计算出中的其它路径对词义概念bn:00020119n的评分值。
由公式(1)将各个评分值累加,可得词义概念bn:00020119n的总的图评分值为10.700425261762511。
同理,可依次计算出实词集合W所对应的其它词义结点的图评分值,如表8所示。
表8 各词义结点的图评分值
词义编号(BabelNet) 词义编号(WordNet) 图评分值
bn:00020121n coach#n#4 1.0082584099
bn:00016240n coach#n#3 11.4882290706
bn:00007329n coach#n#5 10.5894412402
bn:00020120n coach#n#2 0.170904903
bn:00020119n coach#n#1 13.3931907933
bn:00006747n athlete#n#1 10.7004252618
bn:00090273v leave#v#4 0
bn:00090275v leave#v#12 0
bn:00088482v leave#v#14 0
bn:00090271v leave#v#2 0
bn:00087845v leave#v#5 0.9645209914
bn:00088939v leave#v#1 0
bn:00083420v leave#v#10 0
bn:00088821v leave#v#13 0
bn:00087695v leave#v#9 0.170904903
bn:00086604v leave#v#8 0
bn:00090243v leave#v#7 0.4209186144
bn:00082540v leave#v#6 0
bn:00090272v leave#v#3 0
bn:00090274v leave#v#11 0
bn:00070893n Shanghai#n#1 0.3871979381
bn:00066028n train#n#1 22.9460264215
bn:00037572n train#n#6 0.0374394109
bn:00077914n train#n#5 0
bn:00077913n train#n#4 0.4209186144
bn:00015839n train#n#3 0.5335290356
bn:00074684n train#n#2 0
表8中的符号意义同表1~表5。
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下。
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义。
此例中,根据表8对比歧义词的各个词义的图评分值,可知:coach的正确词义为bn:00020119n(coach#n#1)、athlete的正确词义为bn:00006747n(athlete#n#1)、leave的正确词义为bn:00087845v(leave#v#5)、Shanghai的正确词义为bn:00070893n(Shanghai#n#1)、train的正确词义为bn:00066028n(train#n#1)。
经过以上步骤的操作,即可完成全文词义消歧处理。
结合原句子和表1~表5,可知以上五个实词的消歧结果都是正确的。
如上所述,本发明提供了一种基于依存句法树的图模型词义消歧方法。用户只需输入句子,***将自动根据依存句法树和图模型对句子中的全部实词进行消歧处理。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于依存句法树的图模型词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下;
步骤1.1:用符号S表示待处理的句子;
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’
步骤1.3:对句子S’中的词语进行词形还原;
步骤1.4:提取S’中待消歧的实词,存入实词集合W
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下;
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树;
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下;
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离;
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下;
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R
步骤4.2:由语义关联路径集合R,构建消歧知识图G
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下;
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值;
(1)
其中,p代表语义关联路径集合中的某一条路径;e代表关联路径p中的某一条关联边;w e 为关联边e的权重;是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7;代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2;
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下;
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义;
经过以上步骤的操作,即可完成全文词义消歧处理。
CN201610189859.0A 2016-03-30 2016-03-30 一种基于依存句法树的图模型词义消歧方法 Pending CN105893346A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610189859.0A CN105893346A (zh) 2016-03-30 2016-03-30 一种基于依存句法树的图模型词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610189859.0A CN105893346A (zh) 2016-03-30 2016-03-30 一种基于依存句法树的图模型词义消歧方法

Publications (1)

Publication Number Publication Date
CN105893346A true CN105893346A (zh) 2016-08-24

Family

ID=57014391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610189859.0A Pending CN105893346A (zh) 2016-03-30 2016-03-30 一种基于依存句法树的图模型词义消歧方法

Country Status (1)

Country Link
CN (1) CN105893346A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107656921A (zh) * 2017-10-10 2018-02-02 上海数眼科技发展有限公司 一种基于深度学习的短文本依存分析方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN108446266A (zh) * 2018-02-01 2018-08-24 阿里巴巴集团控股有限公司 一种语句拆分的方法、装置及设备
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN109271621A (zh) * 2017-07-18 2019-01-25 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和***
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和***
CN110674640A (zh) * 2019-09-25 2020-01-10 北京明略软件***有限公司 中文姓名获取方法、中文姓名提取模型的训练方法及装置
CN112099764A (zh) * 2020-08-13 2020-12-18 南京航空航天大学 基于形式化转换规则的航电领域需求的规范化方法
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143597A1 (en) * 2008-04-18 2012-06-07 Biz360 Inc. System and Methods for Evaluating Feature Opinions for Products, Services, and Entities
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271621A (zh) * 2017-07-18 2019-01-25 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN109271621B (zh) * 2017-07-18 2023-04-18 腾讯科技(北京)有限公司 语义消歧处理方法、装置及其设备
CN107656921A (zh) * 2017-10-10 2018-02-02 上海数眼科技发展有限公司 一种基于深度学习的短文本依存分析方法
CN107957991A (zh) * 2017-12-05 2018-04-24 湖南星汉数智科技有限公司 一种基于句法依赖的实体属性信息抽取方法及装置
CN108446266B (zh) * 2018-02-01 2022-03-22 创新先进技术有限公司 一种语句拆分的方法、装置及设备
CN108446266A (zh) * 2018-02-01 2018-08-24 阿里巴巴集团控股有限公司 一种语句拆分的方法、装置及设备
CN108664468A (zh) * 2018-05-02 2018-10-16 武汉烽火普天信息技术有限公司 一种基于词典和语义消歧的人名识别方法和装置
CN109359303A (zh) * 2018-12-10 2019-02-19 枣庄学院 一种基于图模型的词义消歧方法和***
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和***
CN109359303B (zh) * 2018-12-10 2023-04-07 枣庄学院 一种基于图模型的词义消歧方法和***
CN109614620B (zh) * 2018-12-10 2023-01-17 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和***
CN110674640B (zh) * 2019-09-25 2022-10-25 北京明略软件***有限公司 中文姓名获取方法、中文姓名提取模型的训练方法及装置
CN110674640A (zh) * 2019-09-25 2020-01-10 北京明略软件***有限公司 中文姓名获取方法、中文姓名提取模型的训练方法及装置
CN112099764B (zh) * 2020-08-13 2022-03-15 南京航空航天大学 基于形式化转换规则的航电领域需求的规范化方法
CN112099764A (zh) * 2020-08-13 2020-12-18 南京航空航天大学 基于形式化转换规则的航电领域需求的规范化方法
CN112214999A (zh) * 2020-09-30 2021-01-12 内蒙古科技大学 一种基于图模型和词向量相结合的词义消歧方法及装置

Similar Documents

Publication Publication Date Title
CN105893346A (zh) 一种基于依存句法树的图模型词义消歧方法
O'Brien Introductory thanksgivings in the letters of Paul
Hafemann Paul, Moses, and the history of Israel: The letter/Spirit contrast and the argument from scripture in 2 Corinthians 3
Barr The concept of biblical theology: An Old Testament perspective
Brown et al. Peter in the New Testament: A Collaborative Assessment by Protestant and Roman Catholic Scholars
Mullins The Axioms of Religion
Harris The Odes and Psalms of Solomon
Behr The way to Nicaea
Davies Introduction to the Pentateuch
CN104750676B (zh) 机器翻译处理方法及装置
Trautmann Hullabaloo about Telugu
Spivak Translating in a World of Languages
Driver An Introduction to the Literature of the Old Testament
Bowie Women's suffrage in Thailand: a Southeast Asian historiographical challenge
Rapoport-Albert et al. Late Aramaic: The Literary and Linguistic Context of the Zohar
Porter et al. The Gospel of John in Modern Interpretation
Conway The making of Latin: an introduction to Latin, Greek and English etymology
Ebihara Evidentiality of the Tibetan Verb snang
Kilgour The Rule against the Use of Legislative History: Canon of Construction or Counsel of Action
e Habiba et al. A MARXIST FEMINIST STUDY OF MALE AND FEMALE IMAGES IN CHETAN BHAGAT’S ONE INDIAN GIRL
De Weerdt et al. Observations on possessive and existential constructions in Flemish Sign Language
Tavris No Precedent in Point: So What and Why Not
Liu et al. Use and misuse of cohesive devices in the writings of EFL Chinese learners: A corpus-based study
Aboud et al. The Jurisprudential (Fiqh) Opinions of Ibn Al-Fars Al-Andalusi (d. 597 AH) in His Book Ahkam Al-Quran [The Rulings of Quran]: The Capability to Perform Hajj as a Model
Skinner The International Critical Commentary: A Critical and Exegetical Commentary on Genesis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824