CN105677639A - 一种基于短语结构句法树的英文词义消歧方法 - Google Patents

一种基于短语结构句法树的英文词义消歧方法 Download PDF

Info

Publication number
CN105677639A
CN105677639A CN201610011045.8A CN201610011045A CN105677639A CN 105677639 A CN105677639 A CN 105677639A CN 201610011045 A CN201610011045 A CN 201610011045A CN 105677639 A CN105677639 A CN 105677639A
Authority
CN
China
Prior art keywords
word
meaning
disambiguation
ambiguity
phrase structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610011045.8A
Other languages
English (en)
Inventor
鹿文鹏
成金勇
张维玉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN201610011045.8A priority Critical patent/CN105677639A/zh
Publication of CN105677639A publication Critical patent/CN105677639A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及到一种基于短语结构句法树的英文词义消歧方法,属于自然语言处理领域。其步骤为:1.通过对句子进行短语结构句法分析,生成其短语结构句法树;2.以短语结构句法树为依据,筛选词义相关词;3.构建词义消歧模型,通过评估歧义词的词义与词义相关词的密切程度而判定正确词义;4.由词义标注语料库,利用遗传算法,对步骤3中的词义消歧模型的参数进行优化;5.对于待消歧词,重复步骤1和2,利用步骤4所获得的优化词义消歧模型,判定歧义词的正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法,利用短语结构句法树筛选词义相关词并为其赋予消歧权重,能够减少噪声词的干扰,改善词义相关度的计算精度,提高英文词义消歧的正确率。

Description

一种基于短语结构句法树的英文词义消歧方法
技术领域
本发明涉及到一种英文词义消歧方法,特别涉及一种基于短语结构句法树的英文词义消歧方法,属于自然语言处理技术领域。
背景技术
词义消歧是指根据歧义词所处的上下文环境判断其正确的词义。词义是构成一个句子含义的基本单位,是理解一个句子的前提。词义消歧属于自然语言处理领域的基础性任务,在机器翻译、信息检索、文本分类、问答***等领域具有广泛的应用需求。
歧义词的词义由其所处的上下文环境而确定。能否准确地选择上下文词义相关词,将直接影响词义消歧***的性能。现有的词义消歧方法通常利用上下文滑动窗口来选择上下文相关词,即以歧义词为中心选择左右一定距离以内的词语。这种方法只考虑了词语在句子中的直接距离,而未考虑词语的语法、语义关系。这种方法无法滤除近距离的噪声词,也容易遗漏远距离的相关词。
歧义词的词义通常通过比较各词义与上下文词义相关词的密切程度而确定。能否准确地计算密切程度,对词义消歧***的性能具有决定性影响。不同距离的相关词对歧义词词义的影响程度并不相同,需要赋予适当的消歧权重。现有的词义消歧方法通常将上下文词义相关词的权重视为同等的,这无法体现不同距离词语的权重差异,难以准确评估词义与上下文词义相关词的密切程度。
鉴于上述问题,本申请提出一种基于短语结构句法树的英文词义消歧方法,该方法可以充分利用短语结构句法树来进行词义相关词的筛选并为其赋予消歧权重,根据词义与上下文词义相关词的密切程度而判断正确词义。
发明内容
本发明的目的是为了克服现有词义消歧技术的不足,主要解决上下文词义相关词的筛选及赋权和词义相关度的计算问题,提出了一种新的基于短语结构句法树的英文词义消歧方法。
本发明的目的是通过如下技术方案实现的。
一种基于短语结构句法树的英文词义消歧方法,其具体操作步骤如下。
步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体如下。
步骤1.1:用符号S表示待处理的句子。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词(Tokenization)等,获得预处理后的句子S’。
步骤1.3:使用短语结构句法分析器,对句子S’进行短语结构句法分析,生成短语结构句法树T。
步骤1.4:对短语结构句法树T中的词语进行词形还原。
步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和路径距离,筛选出词义相关词;具体如下。
步骤2.1:用符号wt表示待消歧的歧义词,用符号w表示句子中的其它词语,用符号W表示句子中除歧义词wt之外的全部实词的集合。
步骤2.2:由短语结构句法树T,统计歧义词wt与其它词语w的层次距离dl,将dl记入w,并保存到W中。
步骤2.3:由短语结构句法树T,统计歧义词wt与其它词语w的路径距离dp,将dp记入w,并保存到W中。
步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选dl不大于d_layer并且dp不大于d_path的词语,构建歧义词的词义相关词集合R。
步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义;具体如下。
步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离dl和路径距离dp,由公式(1)计算其消歧权重。
(1)
其中,α和β为层次距离dl和路径距离dp的调节参数。
步骤3.2:对于歧义词wt的每个词义si,由公式(2)计算其与词义相关词集R的密切程度。
(2)
其中,si表示歧义词wt的第i个词义,sense(wt)表示歧义词wt的全部词义的集合,si∈sense(wt),wj表示第j个词义相关词,R表示歧义词wt的全部词义相关词的集合,wj∈R,weight(wj)表示由公式(1)计算而得的wj的消歧权重,wnss(si,wj)表示词义si与词义相关词wj的词义相关度。
步骤3.3:根据由步骤3.2所得的各个词义si与词义相关词集R的密切程度,选择密切程度最高的词义作为歧义词的正确词义。
步骤四、由词义标注语料库,利用遗传算法,对步骤三中的词义消歧模型的参数进行优化,获得优化的词义消歧模型;具体如下。
步骤4.1:选择适当的词义标注语料库Corpus。
步骤4.2:收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注,构建词义消歧模型训练数据集Ctrain
步骤4.3:将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量,将公式(3)作为遗传算法的目标函数,在Ctrain上进行优化训练,获得最优的d_layer、d_path、α、β参数。
(3)
其中,precision为消歧正确率,其值为正确消歧的歧义词的数量与歧义词总数的比值。
步骤4.4:将步骤4.3所获得的d_layer、d_path代入步骤2.4,将α、β代入公式(1),完成词义消歧模型的参数优化。
步骤五、对于待消歧词,重复步骤一和二,利用步骤四所获得的优化的词义消歧模型,判定歧义词的正确词义;具体如下。
步骤5.1:根据步骤一,生成待消歧词wt所在句子的短语结构句法树T。
步骤5.2:根据步骤二,获得待消歧词wt与句子中其它词语的层次距离和路径距离,并根据步骤四所获得的d_layer、d_path筛选词义相关词,构建词义相关词集合R。
步骤5.3:根据步骤四所获得的α、β参数,由步骤3.1,计算词义相关词集合R中的每个词义相关词的消歧权重。
步骤5.4:由步骤3.2,确定歧义词wt的每个词义si与词义相关词集R的密切程度。
步骤5.5:由步骤3.3,确定歧义词wt的正确词义。
经过以上步骤的操作,即可判定英文歧义语的词义,完成词义消歧任务。
有益效果
本发明提出基于短语结构句法树的英文词义消歧方法,使用短语结构句法树作为歧义词的上下文词义相关词的筛选依据;根据词义相关词与歧义词在短语结构句法树上的层次距离和路径距离,赋予词义相关词消歧权重;根据歧义词的各个词义与上下文词义相关词的关联密切程度而判断正确词义。本发明提出的基于短语结构句法树的英文词义消歧方法与现有的英文词义消歧方法相比,其能够更准确地筛选上下文词义相关词,并为词义相关词赋予适当的消歧权重,对歧义词词义与上下文词义相关词的密切程度的计算更为精确。本方法能够有效避免传统方法存在的词义相关词筛选及赋权不准确的问题,改善词义相关度的计算精度,提高英文词义消歧的正确率。
附图说明
图1为本发明具体实施中的句子的短语结构句法树。
具体实施方式
下面结合具体实施例,对本发明做进一步的详细描述。
以句子“⊙Thecoaches‘teachingfootballarestandingonthebus@.”为例,对其中的歧义词coach进行消歧处理。
根据WordNet3.0词典,歧义词coach的词义如表1所示。
表1coach#n的词义表
词义编号 词义说明
coach#n#1 coach,manager, handler -- ((sports) someone in charge of training an athlete or a team)
coach#n#2 coach, private instructor, tutor -- (a person who gives private instruction (as in singing,acting, etc.))
coach#n#3 passenger car, coach, carriage -- (a railcar where passengers ride)
coach#n#4 coach, four-in-hand,coach-and-four -- (a carriage pulled by four horses with one driver)
coach#n#5 bus,autobus, coach, charabanc, double-decker, jitney, motorbus, motorcoach,omnibus, passenger vehicle -- (avehicle carrying many passengers; used for public transport; "he always rode the bus to work")
其中,#n表示词性为名词;#1,#2,#3,#4,#5表示在WordNet3.0中的词义序号。
步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体如下。
步骤1.1:用符号S表示待处理的句子,此例中S为“⊙Thecoaches‘teachingfootballarestandingonthebus@.”。
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词(Tokenization)等,获得预处理后的句子S’,此例可得“thecoachesteachingfootballarestandingonthebus.”。
步骤1.3:使用短语结构句法分析器,对句子S’进行短语结构句法分析,生成短语结构句法树T。此例中使用斯坦福大学所提供的StanfordParser句法分析器,使用englishPCFG.ser.gz语言模型,生成的短语结构句法树如图1所示。
步骤1.4:对短语结构句法树T中的词语进行词形还原。此例中借助于WordNet3.0和美国西北大学所提供的MorphAdorner工具包,完成词形还原工作,图1中的词语将被还原为:the,coach,teach,football,be,stand,on,the,bus。
步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和路径距离,筛选出词义相关词;具体如下。
步骤2.1:用符号wt表示待消歧的歧义词coach,用符号w表示句子中的其它词语,用符号W表示句子中除歧义词wt之外的全部实词的集合,即{teach#n,football#n,stand#v,bus#n}(其中#n表示名词,#v表示动词)。
步骤2.2:由短语结构句法树T,统计歧义词coach与其它词语w的层次距离dl,将dl记入w,并保存到W中。设coach与w在T中的共有父结点为f,则层次距离为coach与f的路径距离长度减1。此例中,由图1可知,coach与teach,football,stand,bus的层次距离依次为:1,1,2,2。
步骤2.3:由短语结构句法树T,统计歧义词coach与其它词语w的路径距离dp,将dp记入w,并保存到W中。此例中,由图1可知,coach与teach,football,stand,bus的路径距离依次为:4,4,7,9。
步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选dl不大于d_layer并且dp不大于d_path的词语w的集合,构建歧义词的词义相关词集合R。此例中,将d_layer和d_path分别设为2,9,可得coach的词义相关词集合为{teach#n,football#n,stand#v,bus#n}。
步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义;具体如下。
步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离dl和路径距离dp,由公式(1)计算其消歧权重。
(1)
其中,α和β为层次距离dl和路径距离dp的调节参数。
此例中,将和分别设为1和0,相当于将各个词义相关词的权重均赋为1。
步骤3.2:对于歧义词wt的每个词义si,由公式(2)计算其与词义相关词集R的密切程度。
(2)
其中,si表示歧义词wt的第i个词义,sense(wt)表示歧义词wt的全部词义的集合,si∈sense(wt),wj表示第j个词义相关词,R表示歧义词wt的全部词义相关词的集合,wj∈R,weight(wj)表示由公式(1)计算而得的wj的消歧权重,wnss(si,wj)表示词义si与词义相关词wj的词义相关度。
此例中,歧义词coach#n的词义相关词集R={teach#n,football#n,stand#v,bus#n},首先需要计算coach#n的各个词义与各相关词的词义相关度,即wnss值。wnss可以借助多种相似度或相关度计算工具完成;在此选用TedPedersen所编写的WordNet::Similarity工具包来进行计算,可得各词义相关度如表2所示。
表2coach#n的词义与相关词的词义相关度
teach#n football#n stand#v bus#n
coach#n#1 0.0274664653923546 0.474638267730824 0.0794203349688148 0.0953982038879483
coach#n#2 0.0411270396042137 0.0636370034284592 0.125973809222455 0.105985587733038
coach#n#3 0.0441240510549878 0.109828009114997 0.118997168597431 0.165005388203732
coach#n#4 0.0395030928811857 0.118434570601007 0.116094035457169 0.31888473124512
coach#n#5 0.0563124527152087 0.113685514457318 0.113552132406334 0.999999999999987
表2中的相关度值使用WordNet::Similarity::vector_pairs度量标准计算而得。
为便于后期计算,首先对各个相关词wj,计算的值。其中,=wnss(coach#n#1,teach#n)+wnss(coach#n#2,teach#n)+wnss(coach#n#3,teach#n)+wnss(coach#n#4,teach#n)+wnss(coach#n#5,teach#n)=0.0274664653923546+0.0411270396042137+0.0441240510549878+0.0395030928811857+0.0563124527152087=0.20853310164795047。
同理,可得,
=0.8802233653326053;
=0.5540374806522037;
=1.6852739110698254。
对于词义coach#n#1,由公式(2),relatedness(coach#n#1)=+++=+++=0.13171273613300974+0.5392247995501404+0.14334830718550395+0.05660694280100067=0.8708927856696547。
同理,对于其它词义,由公式(2),可得
relatedness(coach#n#2)=0.5597805034534482;
relatedness(coach#n#3)=0.6490573694718037;
relatedness(coach#n#4)=0.7227439715647753;
relatedness(coach#n#5)=1.197525369840318。
步骤3.3:根据由步骤3.2所得的各个词义si与词义相关词集R的密切程度,选择密切程度最高的词义作为歧义词的正确词义。
在此实例中,比较步骤3.2中计算出的词义相关度(relatedness值),选择相关度最大的coach#n#5作为歧义词的正确词义(实际上,coach#n#5为错误词义,后续步骤将通过优化模型参数,纠正此错误判断)。
步骤四、由词义标注语料库,利用遗传算法,对步骤三中的词义消歧模型的参数进行优化,获得优化的词义消歧模型;具体如下。
步骤4.1:选择适当的词义标注语料库Corpus。在实施时,可以采用任何类型的词义标注语料库。此例中,选用DianaMcCarthy和RobKoeling所提供的ReutersBNC中的部分标注语料。
步骤4.2:收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注,构建词义消歧模型训练数据集Ctrain。在此例中,步骤4.1所选用的ReutersBNC可直接作为训练数据集。对于其它标注语料库,只需进行简单的文本处理转化,即可构建训练数据集。
步骤4.3:将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量,将公式(3)作为遗传算法的目标函数,在Ctrain上进行优化训练,获得最优的d_layer、d_path、α、β参数。
(3)
其中,precision为消歧正确率,其值为正确消歧的歧义词的数量与歧义词总数的比值。
此例中,借助Matlab软件提供的OptimizationTool的GeneticAlgorithm来获取最优参数,GeneticAlgorithm的参数使用Matlab的缺省设置。经过训练,本实例中4个参数分别被优化为3、10、0.5、1.2。
步骤4.4:将步骤4.3所获得的d_layer、d_path代入步骤2.4,将α、β代入公式(1),完成词义消歧模型的参数优化。
此例中,将层次距离不大于3且路径距离不大于10的词语将作为歧义词的词义相关词。公式(1)将改写为公式(4):
(4)
其中,公式(1)中的α、β已分别优化为0.5、1.2。
步骤五、对于待消歧词,重复步骤一和二,利用步骤四所获得的优化的词义消歧模型,判定歧义词的正确词义;具体如下。
在此实施例中,仍以句子“⊙Thecoaches‘teachingfootballarestandingonthebus@.”为例,对其中的歧义词coach进行消歧处理。
步骤5.1:根据步骤一,生成待消歧词wt所在句子的短语结构句法树T。此例中,短语结构句法树如图1所示。
步骤5.2:根据步骤二,获得待消歧词wt与句子中其它词语的层次距离和路径距离,并根据步骤四所获得的d_layer、d_path筛选词义相关词,构建词义相关词集合R。此例中,由图1的短语结构句法树,coach与teach,football,stand,bus的层次距离依次为:1,1,2,2;coach与teach,football,stand,bus的路径距离依次为:4,4,7,9。经步骤四优化后的d_layer、d_path分别为3、10,teach,football,stand,bus与coach的层次距离及路径距离均满足条件,故构建的词义相关词集合R={teach#n,football#n,stand#v,bus#n}。
步骤5.3:根据步骤四所获得的最优参数,由步骤3.1,计算词义相关词集合R中的每个词义相关词的权重。此例中,由公式(4),根据其层次距离和路径距离,teach#n,football#n,stand#v,bus#n的消歧权重weight分别为:0.2902804823653377、0.2902804823653377、0.12412383171664482、0.11654517159405858。
步骤5.4:由步骤3.2,确定歧义词wt的每个词义si与词义相关词集R的密切程度。此例中,对于词义coach#n#1,由公式(2),relatedness(coach#n#1)=+++=+++
=0.03823363657834851+0.1565264349167673+0.0177929411579594+0.006597265862157682=0.2191502785152329。
同理,可得,
relatedness(coach#n#2)=0.11378754409746956;
relatedness(coach#n#3)=0.13571081450099737;
relatedness(coach#n#4)=0.1421077906515997;
relatedness(coach#n#5)=0.21047354027607934。
步骤5.5:由步骤3.3,确定歧义词wt的正确词义。此例中,比较步骤5.4中获得的coach的各个词义的词义相关度(relatedness值)大小;选择相关度最大的coach#n#1作为正确的词义。
经过以上步骤的操作,即可判定英文歧义语的词义,完成词义消歧任务。

Claims (1)

1.一种基于短语结构句法树的英文词义消歧方法,其特征在于:其具体操作步骤为:
步骤一、通过对句子进行短语结构句法分析,生成其短语结构句法树;具体为:
步骤1.1:用符号S表示待处理的句子;
步骤1.2:对句子S进行预处理,主要包括去除乱码字符、特殊符号、英文断词(Tokenization)等,获得预处理后的句子S’;
步骤1.3:使用短语结构句法分析器,对句子S’进行短语结构句法分析,生成短语结构句法树T;
步骤1.4:对短语结构句法树T中的词语进行词形还原;
步骤二、以短语结构句法树为依据,计算歧义词与句子中其它词语的层次距离和路径距离,筛选出词义相关词;具体为:
步骤2.1:用符号wt表示待消歧的歧义词,用符号w表示句子中的其它词语,用符号W表示句子中除歧义词wt之外的全部实词的集合;
步骤2.2:由短语结构句法树T,统计歧义词wt与其它词语w的层次距离dl,将dl记入w,并保存到W中;
步骤2.3:由短语结构句法树T,统计歧义词wt与其它词语w的路径距离dp,将dp记入w,并保存到W中;
步骤2.4:指定层次距离参数d_layer和路径距离参数d_path,从W中筛选dl不大于d_layer并且dp不大于d_path的词语,构建歧义词的词义相关词集合R;
步骤三、构建词义消歧模型,通过评估歧义词的各个词义与词义相关词的密切程度而判定正确词义;具体为:
步骤3.1:对于词义相关词集合R中的每个词语w,根据其层次距离dl和路径距离dp,由公式(1)计算其消歧权重;
(1)
其中,α和β为层次距离dl和路径距离dp的调节参数;
步骤3.2:对于歧义词wt的每个词义si,由公式(2)计算其与词义相关词集R的密切程度;
(2)
其中,si表示歧义词wt的第i个词义,sense(wt)表示歧义词wt的全部词义的集合,si∈sense(wt),wj表示第j个词义相关词,R表示歧义词wt的全部词义相关词的集合,wj∈R,weight(wj)表示由公式(1)计算而得的wj的消歧权重,wnss(si,wj)表示词义si与词义相关词wj的词义相关度;
步骤3.3:根据由步骤3.2所得的各个词义si与词义相关词集R的密切程度,选择密切程度最高的词义作为歧义词的正确词义;
步骤四、由词义标注语料库,利用遗传算法,对步骤三中的词义消歧模型的参数进行优化,获得优化的词义消歧模型;具体为:
步骤4.1:选择适当的词义标注语料库Corpus;
步骤4.2:收集语料库Corpus中的每个歧义词、所在的句子及正确词义标注,构建词义消歧模型训练数据集Ctrain
步骤4.3:将步骤2.4和3.1中的层次距离参数d_layer、路径距离参数d_path及其调节参数α、β作为遗传算法的输入向量,将公式(3)作为遗传算法的目标函数,在Ctrain上进行优化训练,获得最优的d_layer、d_path、α、β参数;
(3)
其中,precision为消歧正确率,其值为正确消歧的歧义词的数量与歧义词总数的比值;
步骤4.4:将步骤4.3所获得的d_layer、d_path代入步骤2.4,将α、β代入公式(1),完成词义消歧模型的参数优化;
步骤五、对于待消歧词,重复步骤一和二,利用步骤四所获得的优化的词义消歧模型,判定歧义词的正确词义;具体为:
步骤5.1:根据步骤一,生成待消歧词wt所在句子的短语结构句法树T;
步骤5.2:根据步骤二,获得待消歧词wt与句子中其它词语的层次距离和路径距离,根据步骤四所获得的d_layer、d_path参数,筛选词义相关词,构建词义相关词集合R;
步骤5.3:根据步骤四所获得的α、β参数,由步骤3.1,计算词义相关词集合R中的每个词义相关词的消歧权重;
步骤5.4:由步骤3.2,确定歧义词wt的每个词义si与词义相关词集R的密切程度;
步骤5.5:由步骤3.3,确定歧义词wt的正确词义;
经过以上步骤的操作,即可判定英文歧义语的词义,完成词义消歧任务。
CN201610011045.8A 2016-01-10 2016-01-10 一种基于短语结构句法树的英文词义消歧方法 Pending CN105677639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610011045.8A CN105677639A (zh) 2016-01-10 2016-01-10 一种基于短语结构句法树的英文词义消歧方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610011045.8A CN105677639A (zh) 2016-01-10 2016-01-10 一种基于短语结构句法树的英文词义消歧方法

Publications (1)

Publication Number Publication Date
CN105677639A true CN105677639A (zh) 2016-06-15

Family

ID=56299412

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610011045.8A Pending CN105677639A (zh) 2016-01-10 2016-01-10 一种基于短语结构句法树的英文词义消歧方法

Country Status (1)

Country Link
CN (1) CN105677639A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
CN108804529A (zh) * 2018-05-02 2018-11-13 深圳智能思创科技有限公司 一种基于Web的问答***实现方法
CN110008310A (zh) * 2019-04-04 2019-07-12 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN110333990A (zh) * 2019-05-29 2019-10-15 阿里巴巴集团控股有限公司 数据处理方法以及装置
CN111079429A (zh) * 2019-10-15 2020-04-28 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510221A (zh) * 2009-02-17 2009-08-19 北京大学 一种用于信息检索的查询语句分析方法与***

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HEYAN HUANG等: "Knowledge-based Word Sense Disambiguation with Feature Words Based on Dependency Relation and Syntax Tree", 《INTERNATIONAL JOURNAL OF ADVANCEMENTS IN COMPUTING TECHNOLOGY》 *
郎倩雨等: "电力专业英语语料库在电力专业学习中的应用", 《学理论》 *
鹿文鹏: "基于依存和领域知识的词义消歧方法研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126501A (zh) * 2016-06-29 2016-11-16 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
CN106126501B (zh) * 2016-06-29 2019-02-19 齐鲁工业大学 一种基于依存约束和知识的名词词义消歧方法和装置
CN108804529A (zh) * 2018-05-02 2018-11-13 深圳智能思创科技有限公司 一种基于Web的问答***实现方法
CN110008310A (zh) * 2019-04-04 2019-07-12 北京神州泰岳软件股份有限公司 一种内容搜索方法及装置
CN110333990A (zh) * 2019-05-29 2019-10-15 阿里巴巴集团控股有限公司 数据处理方法以及装置
CN110333990B (zh) * 2019-05-29 2023-06-27 创新先进技术有限公司 数据处理方法以及装置
CN111079429A (zh) * 2019-10-15 2020-04-28 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备
CN111079429B (zh) * 2019-10-15 2022-03-18 平安科技(深圳)有限公司 基于意图识别模型的实体消歧方法、装置和计算机设备

Similar Documents

Publication Publication Date Title
CN107239446B (zh) 一种基于神经网络与注意力机制的情报关系提取方法
US10776566B2 (en) System and method of document generation
CN107463607B (zh) 结合词向量和自举学习的领域实体上下位关系获取与组织方法
Demir et al. Improving named entity recognition for morphologically rich languages using word embeddings
CN110297913A (zh) 一种电子公文实体抽取方法
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及***
CN105677639A (zh) 一种基于短语结构句法树的英文词义消歧方法
CN108846017A (zh) 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN110427608B (zh) 一种引入分层形声特征的中文词向量表示学习方法
CN103678285A (zh) 机器翻译方法和机器翻译***
CN106682089A (zh) 一种基于RNNs的短信自动安全审核的方法
CN103678271B (zh) 一种文本校正方法及用户设备
CN106569993A (zh) 一种挖掘领域术语间上下位关系的方法及装置
Sharma et al. Using Hidden Markov Model to improve the accuracy of Punjabi POS tagger
CN113743099B (zh) 基于自注意力机制方面术语提取***、方法、介质、终端
CN105975455A (zh) 基于双向递归神经网络的信息分析***
CN110489554B (zh) 基于位置感知互注意力网络模型的属性级情感分类方法
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
Bilgin et al. Sentiment analysis with term weighting and word vectors
CN110334362B (zh) 一种基于医学神经机器翻译的解决产生未翻译单词的方法
Du et al. Named entity recognition method with word position
CN110929518A (zh) 一种使用重叠拆分规则的文本序列标注算法
Singh et al. Statistical tagger for Bhojpuri (employing support vector machine)
CN109977391B (zh) 一种文本数据的信息抽取方法及装置
Zhao Research and design of automatic scoring algorithm for English composition based on machine learning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160615