CN105893346A - 一种基于依存句法树的图模型词义消歧方法 - Google Patents
一种基于依存句法树的图模型词义消歧方法 Download PDFInfo
- Publication number
- CN105893346A CN105893346A CN201610189859.0A CN201610189859A CN105893346A CN 105893346 A CN105893346 A CN 105893346A CN 201610189859 A CN201610189859 A CN 201610189859A CN 105893346 A CN105893346 A CN 105893346A
- Authority
- CN
- China
- Prior art keywords
- word
- meaning
- sentence
- syntax tree
- disambiguation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及到一种基于依存句法树的图模型词义消歧方法,属于自然语言处理技术领域。其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。本发明所提出的基于依存句法树的图模型词义消歧方法,能够进一步发掘图模型的消歧潜力,具有较好的消歧效果。
Description
技术领域
本发明涉及一种词义消歧方法,特别涉及一种基于依存句法树的图模型词义消歧方法,属于自然语言处理技术领域。
背景技术
词义消歧是指根据歧义词所处的上下文环境而自动判定其正确词义。词义消歧属于自然语言处理的底层技术,其对机器翻译、信息检索、自动问答、情感分析等自然语言处理任务均具有直接的影响。
基于知识库的词义消歧方法可划分为基于相似度度量的方法和基于图模型的方法。前者,通过比较歧义词的词义与上下文词语的相似程度而判定正确词义;后者,根据知识库为词义结点构建消歧知识图,利用图模型的结点重要度评价方法对词义结点进行评分,从而判定正确词义。近年来,图模型因其良好的性能逐渐受到研究者的重视。
不论基于相似度度量的方法,还是基于图模型的方法,其消歧性能均受到上下文相关词的影响。上下文相关词与歧义词的距离不同,它们对歧义词词义的影响也不尽相同。如何在词义消歧图模型中合理地体现距离的影响,是一个亟待解决的问题。
目前,图模型词义消歧方法多数利用PageRank算法对词义结点的重要度进行评价。PageRank算法在搜索引擎中取得了巨大成功,但这并不意味着其在词义消歧领域同样有效。针对词义消歧任务的特定需求,设计一种有效的图模型结点重要度评价机制,同样也是一个亟待解决的问题。
发明内容
本发明的目的是针对目前词义消歧方法存在的不足,提出一种基于依存句法树的图模型词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于依存句法树的图模型词义消歧方法,其具体操作步骤如下。
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下。
步骤1.1:用符号S表示待处理的句子。
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’。
步骤1.3:对句子S’中的词语进行词形还原。
步骤1.4:提取S’中待消歧的实词,存入实词集合W。
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下。
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet。
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树。
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下。
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离。
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下。
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R。
步骤4.2:由语义关联路径集合R,构建消歧知识图G。
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下。
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合。
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值。
(1)
其中,p代表语义关联路径集合中的某一条路径。e代表关联路径p中的某一条关联边。w e 为关联边e的权重。是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7。代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2。
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下。
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义。
经过以上步骤的操作,即可完成全文词义消歧处理。
有益效果
本发明提出的基于依存句法树的图模型词义消歧方法,利用BabelNet知识库为歧义词的各个词义概念构建消歧知识图,综合考虑图中词义关联路径的长度、关联边的权重、路径端点概念所对应的词语在依存句法树上的最短距离而确定词义概念结点的图评分值,为各歧义词选择图评分值最高的词义概念作为正确词义。与传统的图模型词义消歧方法相比,该发明引入了依存句法树上词语的最短距离,提出一种结合关联路径长度和关联边权重的图模型结点重要度评价方法。本发明能够有效体现词语距离对结点重要度评价的影响,更全面准确地评价词义结点的重要程度,能够改善图模型词义消歧的效果。
附图说明
图1为本发明具体实施方式中的依存句法树。
图2 为本发明具体实施方式中的消歧知识图。
具体实施方式
下面结合附图和具体实施例,对本发明做进一步的详细描述。
以句子“the coach and athletes © will leave for Shanghai by 【train.”为例,对其中的全部实词,即coach、athlete、leave、Shanghai、train进行全文词义消歧处理。
根据BabelNet 1.0词典,以上实词的词义分别如表1~表5所示。BabelNet词典中的词义来源于Wikipedia和WordNet。词义消歧评测中通常以WordNet词义作为标准,为简化说明,本实例仅列出来源于WordNet的词义。
表1 coach#n的词义表
词义编号(BabelNet) | 词义说明 | 词义编号(WordNet) |
bn:00020121n | a carriage pulled by four horses with one driver | coach#n#4 |
bn:00016240n | a railcar where passengers ride | coach#n#3 |
bn:00007329n | a vehicle carrying many passengers; used for publictransport; "he always rode the bus to work" | coach#n#5 |
bn:00020120n | a person who gives private instruction (as in singing,acting, etc.) | coach#n#2 |
bn:00020119n | (sports) someone in charge of training an athlete or ateam | coach#n#1 |
其中,bn表示BabelNet;n、#n表示词性为名词;#1,#2,#3,#4,#5表示在WordNet 3.0中的词义序号。
表2 athlete#n的词义表
词义编号(BabelNet) | 词义说明 | 词义编号(WordNet) |
bn:00006747n | a person trained to compete in sports | athlete#n#1 |
其中,bn表示BabelNet;n、#n表示词性为名词;#1表示在WordNet 3.0中的词义序号。
表3 leave#v的词义表
词义编号(BabelNet) | 词义说明 | 词义编号(WordNet) |
bn:00090273v | leave unchanged or undisturbed or refrain from taking;"leave it as is"; "leave the young fawn alone"; "leavethe flowers that you see in the park behind" | leave#v#4 |
bn:00090275v | be survived by after one's death; "He left sixchildren"; "At her death, she left behind her husbandand 11 cats" | leave#v#12 |
bn:00088482v | leave behind unintentionally; "I forgot my umbrella inthe restaurant"; "I left my keys inside the car andlocked the doors" | leave#v#14 |
bn:00090271v | go and leave behind, either intentionally or by neglector forgetfulness; "She left a mess when she moved out";"His good luck finally left him"; "her husband left herafter 20 years of marriage"; "she wept thinking she hadbeen left behind" | leave#v#2 |
bn:00087845v | move out of or depart from; "leave the room"; "thefugitive has left the country" | leave#v#5 |
bn:00088939v | go away from a place; "At what time does your trainleave"; "She didn't leave until midnight"; "The shipleaves at midnight" | leave#v#1 |
bn:00083420v | leave or give by will after one's death; "My auntbequeathed me all her jewelry"; "My grandfather left mehis entire estate" | leave#v#10 |
bn:00088821v | transmit (knowledge or skills); "give a secret to theRussians"; "leave your name and address here"; "imparta new skill to the students" | leave#v#13 |
bn:00087695v | put into the care or protection of someone; "He leftthe decision to his deputy"; "leave your child thenurse's care" | leave#v#9 |
bn:00086604v | remove oneself from an association with orparticipation in; "She wants to leave"; "The teenagerleft home"; "She left her position with the Red Cross";"He left the Senate after two terms"; "after 20 yearswith the same company, she pulled up stakes" | leave#v#8 |
bn:00090243v | have as a result or residue; "The water left a mark onthe silk dress"; "Her blood left a stain on the napkin" | leave#v#7 |
bn:00082540v | make a possibility or provide opportunity for; permitto be attainable or cause to remain; "This leaves noroom for improvement"; "The evidence allows only oneconclusion"; "allow for mistakes"; "leave lots of timefor the trip"; "This procedure provides for lots ofleeway" | leave#v#6 |
bn:00090272v | act or be so as to become in a specified state; "Theinflation left them penniless"; "The president'sremarks left us speechless" | leave#v#3 |
bn:00090274v | have left or have as a remainder; "That left the fourof us"; "19 minus 8 leaves 11" | leave#v#11 |
其中,bn表示BabelNet;v、#v表示词性为动词;#1~#14表示在WordNet 3.0中的词义序号。
表4 Shanghai#n的词义表
词义编号(BabelNet) | 词义说明 | 词义编号(WordNet) |
bn:00070893n | the largest city of China; located in the east on thePacific; one of the largest ports in the world | Shanghai#n#1 |
其中,bn表示BabelNet;n、#n表示词性为名词;#1表示在WordNet 3.0中的词义序号。
表5 train#n的词义表
词义编号(BabelNet) | 词义说明 | 词义编号(WordNet) |
bn:00066028n | public transport provided by a line of railwaycarscoupled together and drawn by a locomotive; "express trains don't stop at Princeton Junction" | train#n#1 |
bn:00037572n | wheelwork consisting of a connected set of rotatinggears by which force is transmitted or motion or torqueis changed; "the fool got his tie caught in thegeartrain" | train#n#6 |
bn:00077914n | piece of cloth forming the long back section of a gownthat is drawn along the floor; "the bride's train wascarried by her two young nephews" | train#n#5 |
bn:00077913n | a series of consequences wrought by an event; "it ledto a train of disasters" | train#n#4 |
bn:00015839n | a procession (of wagons or mules or camels) travelingtogether in single file; "we were part of a caravan ofalmost a thousand camels"; "they joined the wagon trainfor safety" | train#n#3 |
bn:00074684n | a sequentially ordered set of things or events or ideasin which each successive member is related to thepreceding; "a string of islands"; "train of mourners";"a train of thought" | train#n#2 |
其中,bn表示BabelNet;n、#n表示词性为名词;#1,#2,#3,#4,#5,#6表示在WordNet 3.0中的词义序号。
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下。
步骤1.1:用符号S表示待处理的句子。
此例中,S=“the coach and athletes © will leave for Shanghai by【train.”。
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’。
此例中,S’=“the coach and athletes will leave for Shanghai by train .”。
步骤1.3:对句子S’中的词语进行词形还原。
此例中借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作。此例中仅涉及一个词语“athletes”,其将被还原为“athlete”。
步骤1.4:提取S’中待消歧的实词,存入实词集合W。
此例中,共包含5个待消歧的实词,分别为coach、athlete、leave、Shanghai、train。
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下。
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet。
此例中使用斯坦福大学所提供的Stanford Parser句法分析器,使用englishPCFG.ser.gz语言模型,使用CCPropagatedDependencies参数以允许对依存关系进行折叠和传递处理。结合步骤1.3中的词形还原信息,可得到如下依存元组集合DSet,DSet={ det(coach-2, the-1)、nsubj(leave-6, coach-2)、conj_and(coach-2, athlete-4)、nsubj(leave-6, athlete-4)、aux(leave-6, will-5)、prep_for(leave-6, Shanghai-8)、prep_by(leave-6, train-10) }。
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树。
此例中,由DSet中的依存元组数据,可构建如附图1所示的依存句法树。
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下。
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离。
此例中,将附图1视为无向图,利用Dijkstra算法依次计算各个结点之间的最短路径的长度,如表6所示。
表6 词语结点之间的最短路径长度
the | coach | athlete | will | leave | Shanghai | train | |
the | 0 | 1 | 2 | 3 | 2 | 3 | 3 |
coach | 1 | 0 | 1 | 2 | 1 | 2 | 2 |
athlete | 2 | 1 | 0 | 2 | 1 | 2 | 2 |
will | 3 | 2 | 2 | 0 | 1 | 2 | 2 |
leave | 2 | 1 | 1 | 1 | 0 | 1 | 1 |
Shanghai | 3 | 2 | 2 | 2 | 1 | 0 | 2 |
train | 3 | 2 | 2 | 2 | 1 | 2 | 0 |
由表6可见,因将附图1视为无向图,词语距离沿对角线对称。
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下。
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R。
此例中,因BabelNet蕴含的词义概念和语义关联关系比WordNet更为丰富。为了能够充分发挥BabelNet的优势,本发明抽取句子中全部实词的全部BabelNet词义概念之间的语义关联关系。为了保证抽取的关联关系的质量,舍弃长度大于3的关联路径、舍弃存在环的关联路径、舍弃关联边的权重低于0.01的关联路径。对于此例中的5个实词的BabelNet词义概念,满足以上条件的语义关联路径共1162条,其中部分路径如下所示。
[bn:00006747n, ~, 0.03152, bn:00035713n, r, 0.05971, bn:00036014n, r,
0.02804, bn:00020119n]
[bn:00006747n, ~, 0.03182, bn:00008897n, ~, 0.10154, bn:00036014n, r,
0.02804, bn:00020119n]
[bn:00006747n, ~, 0.0187, bn:00074678n, r, 0.02084, bn:00020119n]
[bn:00066028n, gdis, 0.04991, bn:00015785n, ~, 0.0556, bn:00036420n, r,
0.11841, bn:00016240n]
[bn:00020119n, gmono, 0.03247, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00808723n, r, 0.04456, bn:00045278n, @, 0.05508, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:02554145n, r, 0.01137, bn:00003403n, r, 0.03647, bn:00051309n, r,
0.01701, bn:00020119n]
[bn:00808723n, r, 0.02219, bn:00008805n, r, 0.03697, bn:00003403n, r,
0.01158, bn:02554145n]。
以第一条路径为例,该路径长度为3,包含四个词义结点,其中路径端点bn:00006747n和bn:00020119n分别对应句子中的两个实词(athlete和coach);bn:00035713n和bn:00036014n为路径的中间关联结点。~、r分别代表不同的语义关联关系。0.03152、0.05971、0.02804分别代表关联边的权重。
步骤4.2:由语义关联路径集合R,构建消歧知识图G。
此例中,根据语义关联集合R,可构建如附图2所示的消歧知识图。附图2仅为示意图,只画出了集合R所包含的一小部分语义关联关系。
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下。
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合。
此例中,由消歧知识图G和语义关联路径集合R,逐条比对路径的起点和终点,可得到词义结点s i 的相关关联路径。
以词义概念bn:00020119n为例,其相关路径共57条,可得其如下。
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n,
gmono, 0.03338, bn:00006747n]
[bn:00020119n, +, 0.0766, bn:00085223v, gdis, 0.01403, bn:00006759n, r,
0.01589, bn:01228222n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n,
gdis, 0.04801, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n,
gdis, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n, @,
0.02831, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n,
gmono, 0.04801, bn:00006747n]
[bn:00020119n, gmono, 0.03247, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00020119n, r, 0.10964, bn:01228222n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n,
gdis, 0.03338, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n,
gdis, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n, @,
0.05689, bn:00006747n]
[bn:00020119n, gdis, 0.0766, bn:00085223v, gdis, 0.01403, bn:00006759n,
r, 0.01589, bn:01228222n]
[bn:00020119n, r, 0.30744, bn:00006547n, r, 0.02294, bn:00074678n, @,
0.3871, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n,
gdis, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n,
gmono, 0.03338, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n,
gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n,
gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, @,
0.03338, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n,
gmono, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n,
gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n, @,
0.05689, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n,
gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gmono, 0.09436, bn:00035713n, @,
0.03338, bn:00006747n]
[bn:00020119n, gdis, 0.0116, bn:00073699n, r, 0.10336, bn:00006759n, r,
0.01589, bn:01228222n]
[bn:00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n,
gdis, 0.03338, bn:00006747n]
[bn:00020119n, gdis, 0.03247, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n,
gmono, 0.02831, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gdis, 0.10569, bn:00076528n, @,
0.02831, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:00020119n, ~, 0.06078, bn:00021660n, gmono, 0.02708, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gmono, 0.17857, bn:00044335n,
gmono, 0.05689, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n,
gdis, 0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gdis, 0.10159, bn:00008205n,
gdis, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gdis, 0.18966, bn:00008897n, @,
0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, @i, 0.10159, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00020119n, r, 0.30975, bn:00003403n, r, 0.01158, bn:02554145n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gmono, 0.08358, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00076524n, gmono, 0.10569, bn:00076528n,
gmono, 0.02831, bn:00006747n]
[bn:00020119n, ~, 0.06078, bn:00021660n, gdis, 0.02708, bn:00006747n]
[bn:00020119n, ~, 0.0665, bn:00008810n, gdis, 0.08358, bn:00008205n, @,
0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n, @,
0.04801, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00008892n, gmono, 0.18966, bn:00008897n,
gmono, 0.04801, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n,
gmono, 0.03076, bn:00006747n]
[bn:00020119n, ~, 0.07073, bn:00044333n, gdis, 0.17857, bn:00044335n,
gdis, 0.05689, bn:00006747n]
[bn:00020119n, ~i, 0.09063, bn:00048315n, gmono, 0.10159, bn:00008205n,
@, 0.03076, bn:00006747n]
[bn:01228222n, r, 0.09407, bn:00020119n]
[bn:00006747n, ~, 0.03152, bn:00035713n, r, 0.05971, bn:00036014n, r,
0.02804, bn:00020119n]
[bn:00006747n, ~, 0.03182, bn:00008897n, ~, 0.10154, bn:00036014n, r,
0.02804, bn:00020119n]
[bn:02554145n, r, 0.01035, bn:00006547n, r, 0.01303, bn:00036014n, r,
0.02804, bn:00020119n]
[bn:00006747n, ~, 0.0187, bn:00074678n, r, 0.02084, bn:00020119n]
[bn:00006747n, ~, 0.02777, bn:00008205n, ~i, 0.03802, bn:00048315n, @i,
0.20541, bn:00020119n]
[bn:02554145n, r, 0.01035, bn:00006547n, r, 0.02294, bn:00074678n, r,
0.02084, bn:00020119n]
[bn:02554145n, r, 0.01137, bn:00003403n, r, 0.03647, bn:00051309n, r,
0.01701, bn:00020119n]。
由消歧知识图G和语义关联路径集合R,可得各词义结点的语义关联路径的数量如表7所示。
表7 各词义结点的语义关联路径的数量表
词义编号(BabelNet) | 词义编号(WordNet) | 路径数量 |
bn:00020121n | coach#n#4 | 24 |
bn:00016240n | coach#n#3 | 258 |
bn:00007329n | coach#n#5 | 222 |
bn:00020120n | coach#n#2 | 1 |
bn:00020119n | coach#n#1 | 57 |
bn:00006747n | athlete#n#1 | 52 |
bn:00090273v | leave#v#4 | 0 |
bn:00090275v | leave#v#12 | 0 |
bn:00088482v | leave#v#14 | 0 |
bn:00090271v | leave#v#2 | 0 |
bn:00087845v | leave#v#5 | 6 |
bn:00088939v | leave#v#1 | 0 |
bn:00083420v | leave#v#10 | 0 |
bn:00088821v | leave#v#13 | 0 |
bn:00087695v | leave#v#9 | 1 |
bn:00086604v | leave#v#8 | 0 |
bn:00090243v | leave#v#7 | 2 |
bn:00082540v | leave#v#6 | 0 |
bn:00090272v | leave#v#3 | 0 |
bn:00090274v | leave#v#11 | 0 |
bn:00070893n | Shanghai#n#1 | 11 |
bn:00066028n | train#n#1 | 496 |
bn:00037572n | train#n#6 | 1 |
bn:00077914n | train#n#5 | 0 |
bn:00077913n | train#n#4 | 2 |
bn:00015839n | train#n#3 | 12 |
bn:00074684n | train#n#2 | 0 |
表7中的符号意义同表1~表5。
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值。
(1)
其中,p代表语义关联路径集合中的某一条路径。e代表关联路径p中的某一条关联边。w e 为关联边e的权重。是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7。代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2。
以词义概念bn:00020119n为例,由步骤5.1可知,其相关路径集合共包含57条路径。
首先由公式(1)分别计算各条路径对bn:00020119n的评分值。以路径[bn: 00020119n, ~, 0.06707, bn:00035706n, gdis, 0.09436, bn:00035713n, gmono, 0.03338, bn:00006747n]为例。该路径的长度p为3,端点概念bn:00020119n和bn: 00006747n分别对应词语coach和athlete,由表6可知,其在依存句法树上的最短距离d为1,则该路径对bn:00020119n的评分值如下。
同理,可依次计算出中的其它路径对词义概念bn:00020119n的评分值。
由公式(1)将各个评分值累加,可得词义概念bn:00020119n的总的图评分值为10.700425261762511。
同理,可依次计算出实词集合W所对应的其它词义结点的图评分值,如表8所示。
表8 各词义结点的图评分值
词义编号(BabelNet) | 词义编号(WordNet) | 图评分值 |
bn:00020121n | coach#n#4 | 1.0082584099 |
bn:00016240n | coach#n#3 | 11.4882290706 |
bn:00007329n | coach#n#5 | 10.5894412402 |
bn:00020120n | coach#n#2 | 0.170904903 |
bn:00020119n | coach#n#1 | 13.3931907933 |
bn:00006747n | athlete#n#1 | 10.7004252618 |
bn:00090273v | leave#v#4 | 0 |
bn:00090275v | leave#v#12 | 0 |
bn:00088482v | leave#v#14 | 0 |
bn:00090271v | leave#v#2 | 0 |
bn:00087845v | leave#v#5 | 0.9645209914 |
bn:00088939v | leave#v#1 | 0 |
bn:00083420v | leave#v#10 | 0 |
bn:00088821v | leave#v#13 | 0 |
bn:00087695v | leave#v#9 | 0.170904903 |
bn:00086604v | leave#v#8 | 0 |
bn:00090243v | leave#v#7 | 0.4209186144 |
bn:00082540v | leave#v#6 | 0 |
bn:00090272v | leave#v#3 | 0 |
bn:00090274v | leave#v#11 | 0 |
bn:00070893n | Shanghai#n#1 | 0.3871979381 |
bn:00066028n | train#n#1 | 22.9460264215 |
bn:00037572n | train#n#6 | 0.0374394109 |
bn:00077914n | train#n#5 | 0 |
bn:00077913n | train#n#4 | 0.4209186144 |
bn:00015839n | train#n#3 | 0.5335290356 |
bn:00074684n | train#n#2 | 0 |
表8中的符号意义同表1~表5。
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下。
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义。
此例中,根据表8对比歧义词的各个词义的图评分值,可知:coach的正确词义为bn:00020119n(coach#n#1)、athlete的正确词义为bn:00006747n(athlete#n#1)、leave的正确词义为bn:00087845v(leave#v#5)、Shanghai的正确词义为bn:00070893n(Shanghai#n#1)、train的正确词义为bn:00066028n(train#n#1)。
经过以上步骤的操作,即可完成全文词义消歧处理。
结合原句子和表1~表5,可知以上五个实词的消歧结果都是正确的。
如上所述,本发明提供了一种基于依存句法树的图模型词义消歧方法。用户只需输入句子,***将自动根据依存句法树和图模型对句子中的全部实词进行消歧处理。
以上所述的具体描述,对发明的目的、技术方案和有益效果进行了详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于依存句法树的图模型词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;具体如下;
步骤1.1:用符号S表示待处理的句子;
步骤1.2:对句子S进行预处理,主要包括规范化处理、断词等,获得预处理后的句子S’;
步骤1.3:对句子S’中的词语进行词形还原;
步骤1.4:提取S’中待消歧的实词,存入实词集合W;
步骤二、对句子进行依存句法分析,构建其依存句法树;具体如下;
步骤2.1:使用依存句法分析工具,对句子S’进行依存句法分析,获得其依存元组集合DSet;
步骤2.2:根据依存元组集合DSet中的元组信息,构建依存句法树;
步骤三、获得句子中词语在依存句法树上的距离,即最短路径的长度;具体如下;
将依存句法树视为一个无向图;利用Dijkstra算法或Floyd算法,计算图中任意两个词语结点之间的最短路径的长度,即得词语在依存句法树上的距离;
步骤四、根据知识库,为句子中实词的词义概念构建消歧知识图;具体如下;
步骤4.1:根据BabelNet知识库,抽取句子中全部实词之间的语义关联路径,构建语义关联路径集合R;
步骤4.2:由语义关联路径集合R,构建消歧知识图G;
步骤五、根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;具体如下;
步骤5.1:对于词义结点s i ,由消歧知识图G和语义关联路径集合R,找到所有以其作为起点或终点的语义关联路径,存入路径集合;
步骤5.2:对于词义结点s i ,根据公式(1),由语义关联路径集合、路径端点在依存句法树上的距离,共同确定其图评分值;
(1)
其中,p代表语义关联路径集合中的某一条路径;e代表关联路径p中的某一条关联边;w e 为关联边e的权重;是关联边e的加权系数,对于标记为“r”(即Wikipediarelations类型)的关联边,其加权系数为0.3;对于其它类型的关联边,加权系数为0.7;代表关联路径p的两个端点概念所对应的词语在依存句法树上的距离;为距离的加权系数,被置为2;
步骤六、为每个歧义词,选择图评分值最大的词义作为正确词义;具体如下;
对于每个歧义词,对比其各个词义的图评分值,选择图评分值最大的词义作为正确词义;
经过以上步骤的操作,即可完成全文词义消歧处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610189859.0A CN105893346A (zh) | 2016-03-30 | 2016-03-30 | 一种基于依存句法树的图模型词义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610189859.0A CN105893346A (zh) | 2016-03-30 | 2016-03-30 | 一种基于依存句法树的图模型词义消歧方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105893346A true CN105893346A (zh) | 2016-08-24 |
Family
ID=57014391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610189859.0A Pending CN105893346A (zh) | 2016-03-30 | 2016-03-30 | 一种基于依存句法树的图模型词义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105893346A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107656921A (zh) * | 2017-10-10 | 2018-02-02 | 上海数眼科技发展有限公司 | 一种基于深度学习的短文本依存分析方法 |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN109271621A (zh) * | 2017-07-18 | 2019-01-25 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和*** |
CN110674640A (zh) * | 2019-09-25 | 2020-01-10 | 北京明略软件***有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN112099764A (zh) * | 2020-08-13 | 2020-12-18 | 南京航空航天大学 | 基于形式化转换规则的航电领域需求的规范化方法 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
US20120143597A1 (en) * | 2008-04-18 | 2012-06-07 | Biz360 Inc. | System and Methods for Evaluating Feature Opinions for Products, Services, and Entities |
-
2016
- 2016-03-30 CN CN201610189859.0A patent/CN105893346A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120143597A1 (en) * | 2008-04-18 | 2012-06-07 | Biz360 Inc. | System and Methods for Evaluating Feature Opinions for Products, Services, and Entities |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与*** |
Non-Patent Citations (1)
Title |
---|
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271621A (zh) * | 2017-07-18 | 2019-01-25 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN109271621B (zh) * | 2017-07-18 | 2023-04-18 | 腾讯科技(北京)有限公司 | 语义消歧处理方法、装置及其设备 |
CN107656921A (zh) * | 2017-10-10 | 2018-02-02 | 上海数眼科技发展有限公司 | 一种基于深度学习的短文本依存分析方法 |
CN107957991A (zh) * | 2017-12-05 | 2018-04-24 | 湖南星汉数智科技有限公司 | 一种基于句法依赖的实体属性信息抽取方法及装置 |
CN108446266B (zh) * | 2018-02-01 | 2022-03-22 | 创新先进技术有限公司 | 一种语句拆分的方法、装置及设备 |
CN108446266A (zh) * | 2018-02-01 | 2018-08-24 | 阿里巴巴集团控股有限公司 | 一种语句拆分的方法、装置及设备 |
CN108664468A (zh) * | 2018-05-02 | 2018-10-16 | 武汉烽火普天信息技术有限公司 | 一种基于词典和语义消歧的人名识别方法和装置 |
CN109359303A (zh) * | 2018-12-10 | 2019-02-19 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109614620A (zh) * | 2018-12-10 | 2019-04-12 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和*** |
CN109359303B (zh) * | 2018-12-10 | 2023-04-07 | 枣庄学院 | 一种基于图模型的词义消歧方法和*** |
CN109614620B (zh) * | 2018-12-10 | 2023-01-17 | 齐鲁工业大学 | 一种基于HowNet的图模型词义消歧方法和*** |
CN110674640B (zh) * | 2019-09-25 | 2022-10-25 | 北京明略软件***有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN110674640A (zh) * | 2019-09-25 | 2020-01-10 | 北京明略软件***有限公司 | 中文姓名获取方法、中文姓名提取模型的训练方法及装置 |
CN112099764B (zh) * | 2020-08-13 | 2022-03-15 | 南京航空航天大学 | 基于形式化转换规则的航电领域需求的规范化方法 |
CN112099764A (zh) * | 2020-08-13 | 2020-12-18 | 南京航空航天大学 | 基于形式化转换规则的航电领域需求的规范化方法 |
CN112214999A (zh) * | 2020-09-30 | 2021-01-12 | 内蒙古科技大学 | 一种基于图模型和词向量相结合的词义消歧方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893346A (zh) | 一种基于依存句法树的图模型词义消歧方法 | |
O'Brien | Introductory thanksgivings in the letters of Paul | |
Hafemann | Paul, Moses, and the history of Israel: The letter/Spirit contrast and the argument from scripture in 2 Corinthians 3 | |
Barr | The concept of biblical theology: An Old Testament perspective | |
Brown et al. | Peter in the New Testament: A Collaborative Assessment by Protestant and Roman Catholic Scholars | |
Mullins | The Axioms of Religion | |
Harris | The Odes and Psalms of Solomon | |
Behr | The way to Nicaea | |
Davies | Introduction to the Pentateuch | |
CN104750676B (zh) | 机器翻译处理方法及装置 | |
Trautmann | Hullabaloo about Telugu | |
Spivak | Translating in a World of Languages | |
Driver | An Introduction to the Literature of the Old Testament | |
Bowie | Women's suffrage in Thailand: a Southeast Asian historiographical challenge | |
Rapoport-Albert et al. | Late Aramaic: The Literary and Linguistic Context of the Zohar | |
Porter et al. | The Gospel of John in Modern Interpretation | |
Conway | The making of Latin: an introduction to Latin, Greek and English etymology | |
Ebihara | Evidentiality of the Tibetan Verb snang | |
Kilgour | The Rule against the Use of Legislative History: Canon of Construction or Counsel of Action | |
e Habiba et al. | A MARXIST FEMINIST STUDY OF MALE AND FEMALE IMAGES IN CHETAN BHAGAT’S ONE INDIAN GIRL | |
De Weerdt et al. | Observations on possessive and existential constructions in Flemish Sign Language | |
Tavris | No Precedent in Point: So What and Why Not | |
Liu et al. | Use and misuse of cohesive devices in the writings of EFL Chinese learners: A corpus-based study | |
Aboud et al. | The Jurisprudential (Fiqh) Opinions of Ibn Al-Fars Al-Andalusi (d. 597 AH) in His Book Ahkam Al-Quran [The Rulings of Quran]: The Capability to Perform Hajj as a Model | |
Skinner | The International Critical Commentary: A Critical and Exegetical Commentary on Genesis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160824 |