CN109359303B - 一种基于图模型的词义消歧方法和*** - Google Patents
一种基于图模型的词义消歧方法和*** Download PDFInfo
- Publication number
- CN109359303B CN109359303B CN201811503355.7A CN201811503355A CN109359303B CN 109359303 B CN109359303 B CN 109359303B CN 201811503355 A CN201811503355 A CN 201811503355A CN 109359303 B CN109359303 B CN 109359303B
- Authority
- CN
- China
- Prior art keywords
- word
- similarity
- disambiguation
- sim
- sense
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于图模型的词义消歧方法和***,属于自然语言处理技术领域,本发明要解决的技术问题为如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能,采用的技术方案为:①一种基于图模型的词义消歧方法,包括如下步骤:S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;S3、构建消歧图;S4、词义的正确选择。②一种基于图模型的词义消歧***,该***包括上下文知识提取单元、相似度计算单元、消歧图构建单元以及词义正确选择单元。
Description
技术领域
本发明涉及自然语言处理技术领域,具体地说是一种基于图模型的词义消歧方法和***。
背景技术
词义消歧是指根据歧义词所处的特定上下文环境确定其具体词义,它是自然语言处理领域的一项基础性研究,对机器翻译、信息抽取、信息检索、文本分类、情感分析等上层应用有着直接影响。无论是中文还是英文等其他西方语言,一词多义的现象是普遍存在的。
传统的基于图模型进行中文词义消歧任务处理的方法主要利用了一种或多种中文知识资源,受知识资源不足问题的困扰,词义消歧性能较低。故如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能是目前急需解决的技术问题。
专利号为CN105893346A的专利文献公开了一种基于依存句法树的图模型词义消歧方法,其步骤为:1.对句子进行预处理并提取待消歧的实词,主要包括规范化处理、断词及词形还原等;2.对句子进行依存句法分析,构建其依存句法树;3.获得句子中词语在依存句法树上的距离,即最短路径的长度;4.根据知识库,为句子中词语的词义概念构建消歧知识图;5.根据消歧知识图中词义结点之间的语义关联路径长度、关联边的权重、路径端点在依存句法树上的距离,计算各个词义结点的图评分值;6.为每个歧义词,选择图评分值最大的词义作为正确词义。但是该技术方案利用BabelNet中蕴含的语义关联关系,而不是HowNet中的语义知识;其适用于英文词义消歧工作,但对于中文并不适用,且不能解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。
发明内容
本发明的技术任务是提供一种基于图模型的词义消歧方法和***,来解决如何结合多种中英文资源,优势互补,实现充分挖掘资源中的消歧知识,提升词义消歧性能的问题。
本发明的技术任务是按以下方式实现的,一种基于图模型的词义消歧方法,包括如下步骤:
S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;
S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;
S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。
作为优选,所述步骤S2中相似度计算具体步骤如下:
S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;另,考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息;
S202、基于词向量的相似度计算:Sogou全网新闻语料共计1.43GB,使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
S203、基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。
更优地,所述步骤S201中基于词向量和知识库的词语相似度计算算法具体如下:
S20101、判断给定的是词语还是短语:
①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;
②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:
其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;
S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ;
S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;
S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:
simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj))
式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;
S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和wj的相似度,公式如下:
simbn(wi,wj)=α*1/(δpath)+(1-α)simlap(wi,wj)
其中,path是wi和wj之间的最短路径;δ用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;
S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:
simfinal(wi,wj)=β*simvec+(1-β)*simbn
其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数α是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;
S20107、返回相似度simfinal。
作为优选,所述步骤S3中构建消歧图的具体步骤如下:
S301、权重优化:基于模拟退火的权重优化算法,对步骤S2中的三种相似度值进行自动优化,得到最优权重参数;
S302、相似度融合:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=αsimhow+βsimen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;
S303、构建消歧图:消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重。
更优地,所述步骤S301中的模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew;
所述步骤S303中的词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
作为优选,所述步骤S4中选择正确词义具体步骤如下:
S401、图评分:调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
S402、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
更优地,所述步骤S401中图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
一种基于图模型的词义消歧***,该***包括,
上下文知识提取单元,对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
相似度计算单元,用于分别做基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算;
消歧图构建单元,用于利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建消歧图;
词义正确选择单元,用于通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最大者为正确词义。
作为优选,所述相似度计算单元包括:
英文相似度计算单元,用于对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息;
词向量相似度计算单元,用于使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;需要注意的是,歧义词的词义较多,训练好的词向量文件很可能倾向于该歧义词的某个较为常用的词义;
HowNet相似度计算单元,用于利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度;
所述消歧图构建单元包括,
权重优化单元,用于基于模拟退火的权重优化算法,对基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算的三种相似度值进行自动优化,得到最优权重参数;模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew;
相似度融合单元:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=αsimhow+βsimen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;
构建消歧图单元,用于消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重;其中,词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
更优地,所述词义正确选择单元包括,
图评分单元,用于调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
选择正确词义单元,用于在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
本发明的基于图模型的词义消歧方法和***具有以下优点:
(一)、本发明通过结合多种中英文资源,优势互补,充分挖掘资源中的消歧知识,有助于词义消歧性能的提升;
(二)、本发明分别做基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算,确保能够有效整合多种知识资源,提高消歧准确率;
(三)、本发明利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建消歧图,确保能够自动优化多种知识资源的相似度值;
(四)、本发明进行英文相似度计算时,对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合,确保能够自动对齐中英文知识资源;
(五)、本发明通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最大者为正确词义,能够自动实现对目标歧义词的正确词义选择。
附图说明
下面结合附图对本发明进一步说明。
附图1为基于图模型的词义消歧方法的流程框图;
附图2为相似度计算的流程框图;
附图3为构建消歧图的流程框图;
附图4为正确词义选择的流程框图;
附图5为基于图模型的词义消歧的结构框图;
附图6为举例中医词语的词义信息图;
附图7为基于词向量和知识库的词语相似度计算算法中构建的同义词集图。
具体实施方式
参照说明书附图和具体实施例对本发明的一种基于图模型的词义消歧方法和***作以下详细地说明。
实施例:
如附图1所示,本发明的基于图模型的词义消歧方法和***,包括如下步骤:
S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
举例:以对“围绕《指导意见》的贯彻落实,结合中医药工作的实际,各地要加大力度,积极而稳妥地推进中医医疗机构改革。”的处理为例,其中“中医”待消歧词语。词性标注处理使用中科院分词***NLPIR-ICTCLAS。词性标注后得,“围绕/v《/wkz 指导/v 意见/n》/wky 的/ude1 贯彻/vn 落实/vn,/wd 结合/v 中医药/n 工作/vn 的/ude1 实际/n,/wd 各地/rzs 要/v 加大/v 力度/n,/wd 积极/a 而/cc 稳妥/a 地/ude2 推进/vi 中医/n 医疗/n 机构/n 改革/vn。/wj”,对其提取实词并进行格式整理,以方便后续处理,得到“中医_n_25:围绕_v_0 指导_vn_2 意见_n_3 贯彻_v_6 落实_v_7 结合_v_9 中医药_n_10 工作_vn_11 实际_n_13 要_v_16 加大_v_17 力度_n_18 积极_a_20 稳妥_a_22 推进_v_24 中医_n_25 医疗_n_26 机构_n_27 改革_vn_28”,其中冒号前为待消歧词,词性后的编号为单词在句子中所处的位置。
S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;
如附图2所示,相似度计算具体步骤如下:
基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算,另,考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息。基于词向量和知识库的词语相似度计算算法的部分主要代码如下:
在基于词向量和知识库的词语相似度计算算法中,行1,给定两个英文词语,它们之间的相似度,通过计算两者词向量的cosine相似度得到,若给定词语为短语,由于训练所得的词向量中没有短语,需要对短语进行进一步处理,通过将短语中的词语对应的词向量相加,得到短语的向量表示,进而求得短语的相似度,公式如下:
其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语。
行2-4,迭代地搜索与词语w1和w2相关的同义词集,直到迭代步数step超过γ,由于节点过多时图计算的代价较大,故将最大迭代步数γ设置为10;行5,以w1、w2以及它们之间相关联的同义词集为基础构建图;行6,在图中一定距离范围内,计算与w1和w2相关的同义词集的重合度,设定距离为2,公式如下:
simlap(w1,w2)=2*count(w1,w2)/(count(w1)+count(w2))
式中,count(w1,w2)表示词语w1和w2共同具有的同义词集个数;count(w1)和count(w2)分别为w1和w2各自具有的同义词集个数。
行7,使用Dijkstra算法计算图中w1和w2之间的最短路径,进一步得到w1和w2的相似度,公式如下:
simbn(w1,w2)=α*1/(δpath)+(1-α)simlap(w1,w2)
其中,path是w1和w2之间的最短路径;δ用以调节相似度的取值,设置为1.4;simlap(w1,w2)表示w1和w2之间的重合度;参数α是一个调节因子,用来调节公式中两个部分的相似度值。
行8,将上述基于词向量的方法和基于知识库(BabelNet)的方法,进行线性相加结合,得到最终的相似度,公式如下:
simfinal(w1,w2)=β*simvec+(1-β)*simbn
simbn和simvec分别表示基于知识库的方法和基于词向量的方法得到的相似度;参数α是一个调节因子,用来调节两种方法得到结果,具体设置为0.6。
行9,返回相似度simfinal。
基于词向量和知识库的词语相似度计算算法中有关词向量的处理为,利用word2vec工具包,在无标注英文Wikipedia语料库上,训练词向量。在训练之前,对数据进行了预处理,将文件格式由Unicode转换为UTF-8。训练窗口设置为5,默认向量维度设置为200,模型选择Skip-gram。训练结束之后,得到一个词向量文件,在文件中,每个词语被映射为一个具有200维的向量,向量的每一维为一个双精度数值。
知识库选取BabelNet,BabelNet提供了丰富的概念和命名实体,并通过大量的语义关系进行相互链接,这里的语义关系指同义词关系,上下位关系,整体部分关系等。给定两个词语(概念或命名实体),借助于BabelNet API可以获取各自的同义词集,以及通过语义关系链接的同义词集。同义词集是指一个同义词集合,在BabelNet中具有唯一的标识符,表示具体的一个词义。例如“bn:00021464n”指示同义词集“computer,computing machine,computing device,data processor,electronic computer,information processingsystem”,表示具体的一个词义“电脑、计算机”。基于词向量和知识库的词语相似度计算算法中构建的同义词集图,如附图7所示。
举例:对上下文知识进行HowNet词义信息标注,具体为词义编号,得“中医_n_25:围绕_v_0:124932 围绕_v_0:124933 指导_vn_2:155807 意见_n_3:143264 意见_n_3:143267 贯彻_v_6:047082 落实_v_7:081572 落实_v_7:081573 落实_v_7:081575 结合_v_9:064548 结合_v_9:064549 中医药_n_10:157339 工作_vn_11:044068 实际_n_13:109077 实际_n_13:109078 要_v_16:140522 要_v_16:140530 要_v_16:140532 要_v_16:140534 加大_v_17:059967 加大_v_17:059968 加大_v_17:059969 力度_n_18:076991 积极_a_20:057562 积极_a_20:057564 稳妥_a_22:126267 稳妥_a_22:126269 推进_v_24:122203 推进_v_24:122206 推进_v_24:122211 中医_n_25:157332 中医_n_25:157329 机构_n_27:057323 机构_n_27:057325 机构_n_27:057326 改革_vn_28:041189”。
做词义映射处理之后,得“中医_n_25:围绕_v_0:124932|revolve round围绕_v_0:124933|centre on 指导_vn_2:155807|direct 意见_n_3:143264|complaint 意见_n_3:143267|idea 贯彻_v_6:047082|carry out 落实_v_7:081572|feel at ease 落实_v_7:081573|ascertain 落实_v_7:081575|fulfil 结合_v_9:064548|be united inwedlock 结合_v_9:064549|combination 中医药_n_10:157339|traditional Chinesemedicine and druds 工作_vn_11:044068|work 实际_n_13:109077|reality 实际_n_13:109078|practice 要_v_16:140522|want to 要_v_16:140530|ask要 _v_16:140532|askfor 要_v_16:140534|take 加大_v_17:059967|widen 加大_v_17:059968|enhance 加大_v_17:059969|enlarge 力度_n_18:076991|dynamics 积极_a_20:057562|active 积极_a_20:057564|positive 稳妥_a_22:126267|safe 稳妥_a_22:126269|reliable 推进_v_24:122203|move forward 推进_v_24:122206|advance 推进_v_24:122211|push into 中医_n_25:157332|traditional_Chinese_medical_science 中医_n_25:157329|practitioner_of_Chinese_medicine 机构_n_27:057323|institution 机构_n_27:057325|internal structure of an organization 机构_n_27:057326|mechanism 改革_vn_28:041189|reform”。
对上述所得任意两个英文词语(每个HowNet词义概念对应的英文词语)间做英文相似度计算,得“中医_n_25:围绕_v_0:124932|revolve round and 指导_vn_2:155807|direct is 0.292 围绕_v_0:124932|revolve round and 意见_n_3:143264|complaintis 0.3085围绕_v_0:124932|revolve round and意见_n_3:143267|idea is 0.3742 围绕_v_0:124932|revolve round and 贯彻_v_6:047082|carry out is 0.4015 围绕_v_0:124932|revolve round and 落实_v_7:081572|feel at ease is 0.3575 围绕_v_0:124932|revolve round and 落实_v_7:081573|ascertain is 0.3215 围绕_v_0:124932|revolve round and 落实_v_7:081575|fulfil is 0.3541 围绕_v_0:124932|revolveround and 结合_v_9:064548|be united in wedlock is 0.3299 围绕_v_0:124932|revolve round and 结合_v_9:064549|combination is 0.3487 围绕_v_0:124932|revolve round and 中医药_n_10:157339|traditional Chinese medicine and drudsis 0.3520围绕_v_0:124932|revolve round and 工作_vn_11:044068|work is 0.3478围绕_v_0:124932|revolve round and 实际_n_13:109077|reality is 0.3664 围绕_v_0:124932|revolve round and 实际_n_13:109078|practice is 0.3907 围绕_v_0:124932|revolve round and 要_v_16:140522|want to is 0.3375围绕_v_0:124932|revolve round and 要_v_16:140530|ask is 0.3482”,由于篇幅有限,这里只展示了部分相似度结果。
基于词向量的相似度计算:Sogou全网新闻语料共计1.43GB,使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
需要注意的是,歧义词的词义较多,训练好的词向量文件很可能倾向于该歧义词的某个较为常用的词义。为此,利用HowNet将歧义词转换成它所具有的词义,也就是每个概念定义中的第一义原,如附图5所示,将歧义词“中医”转换为“人”和“知识”。
举例:利用HowNet对歧义词进行处理后,得“中医_n_25:围绕_v_0:124932|围绕围绕_v_0:124933|包围 指导_vn_2:155807|命令 意见_n_3:143264|语文 意见_n_3:143267|念头 贯彻_v_6:047082|实施 落实_v_7:081572|安心 落实_v_7:081573|决定 落实_v_7:081575|实现 结合_v_9:064548|结婚 结合_v_9:064549|合并 中医药_n_10:157339|知识_药物 工作_vn_11:044068|做 实际_n_13:109077|实体 实际_n_13:109078|事情 要_v_16:140522|期望 要_v_16:140530|要求 要_v_16:140532|谋取 要_v_16:140534|花费 加大_v_17:059967|变形状 加大_v_17:059968|优化 加大_v_17:059969|扩大 力度_n_18:076991|强度 积极_a_20:057562|积极 积极_a_20:057564|正面 稳妥_a_22:126267|当 稳妥_a_22:126269|稳固 推进_v_24:122203|前进 推进_v_24:122206|发动 推进_v_24:122211|推 中医_n_25:157332|知识 中医_n_25:157329|人 机构_n_27:057323|机构 机构_n_27:057325|部件 机构_n_27:057326|部件 改革_vn_28:041189|改良”。
对所得任意两个中文词语(对应于具体的HowNet词义概念)做基于词向量的相似度计算,得“中医_n_25:围绕_v_0:124932|围绕and指导_vn_2:155807|命令 is-0.0145 围绕_v_0:124932|围绕 and 意见_n_3:143264|语文 is-0.0264 围绕_v_0:124932|围绕and 意见_n_3:143267|念头 is -0.0366 围绕_v_0:124932|围绕 and 贯彻_v_6:047082|实施 is 0.2071 围绕_v_0:124932|围绕 and 落实_v_7:081572|安心 is -0.0430 围绕_v_0:124932|围绕 and 落实_v_7:081573|决定 is 0.1502 围绕_v_0:124932|围绕 and落实_v_7:081575|实现 is 0.2254 围绕_v_0:124932|围绕 and 结合_v_9:064548|结婚is -0.0183 围绕_v_0:124932|围绕 and 结合_v_9:064549|合并 is 0.0745 围绕_v_0:124932|围绕 and 中医药_n_10:157339|知识_药物 is 0.0866 围绕_v_0:124932|围绕and 工作_vn_11:044068|做 is 0.1434围绕_v_0:124932|围绕 and 实际_n_13:109077|实体 is 0.1503 围绕_v_0:124932|围绕 and 实际_n_13:109078|事情 is -0.0571 围绕_v_0:124932|围绕 and 要_v_16:140522|期望 is 0.1009 围绕_v_0:124932|围绕 and要_v_16:140530|要求 is 0.2090 围绕_v_0:124932|围绕 and 要_v_16:140532|谋取 is0.0496 围绕_v_0:124932|围绕 and 要_v_16:140534|花费 is 0.0176 围绕_v_0:124932|围绕 and 加大_v_17:059967|变形状 is 0.0000 围绕_v_0:124932|围绕 and 加大_v_17:059968|优化 is 0.2410 围绕_v_0:124932|围绕 and 加大_v_17:059969|扩大 is0.1911 围绕_v_0:124932|围绕 and 力度_n_18:076991|强度 is 0.0592 围绕_v_0:124932|围绕 and 积极_a_20:057562|积极 is 0.3089 围绕_v_0:124932|围绕 and 积极_a_20:057564|正面 is 0.0554 围绕_v_0:124932|围绕 and 稳妥_a_22:126267|当 is0.0245 围绕_v_0:124932|围绕 and 稳妥_a_22:126269|稳固is 0.0490 围绕_v_0:124932|围绕 and 推进_v_24:122203|前进 is 0.1917 围绕_v_0:124932|围绕 and 推进_v_24:122206|发动 is 0.0277 围绕_v_0:124932|围绕 and 推进_v_24:122211|推 is0.1740 围绕_v_0:124932|围绕 and 中医_n_25:157332|知识 is 0.2205 围绕_v_0:124932|围绕 and 中医_n_25:157329|人 is-0.0686 围绕_v_0:124932|围绕 and 机构_n_27:057323|机构 is 0.0945 围绕_v_0:124932|围绕 and 机构_n_27:057325|部件 is0.0582 围绕_v_0:124932|围绕 and 机构_n_27:057326|部件 is 0.0582”。由于篇幅有限,这里只展示了部分相似度结果。
基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。
举例:对上下文知识进行HowNet词义信息标注,具体为词义编号,得“中医_n_25:围绕_v_0:124932 围绕_v_0:124933指导_vn_2:155807 意见_n_3:143264 意见_n_3:143267 贯彻_v_6:047082 落实_v_7:081572 落实_v_7:081573 落实_v_7:081575 结合_v_9:064548 结合_v_9:064549 中医药_n_10:157339 工作_vn_11:044068 实际_n_13:109077 实际_n_13:109078 要_v_16:140522 要_v_16:140530 要_v_16:140532 要_v_16:140534 加大_v_17:059967 加大_v_17:059968 加大_v_17:059969 力度_n_18:076991 积极_a_20:057562 积极_a_20:057564 稳妥_a_22:126267 稳妥_a_22:126269 推进_v_24:122203 推进_v_24:122206 推进_v_24:122211 中医_n_25:157332 中医_n_25:157329 机构_n_27:057323 机构_n_27:057325 机构_n_27:057326 改革_vn_28:041189”。
利用HowNet提供的概念相似度工具包计算各词义间的相似度,得“中医_n_25:围绕_v_0:124932 and 指导_vn_2:155807 is 0.015094围绕_v_0:124932 and 意见_n_3:143264 is 0.000624围绕_v_0:124932 and 意见_n_3:143267 is 0.010256 围绕_v_0:124932 and 贯彻_v_6:047082 is 0.013793围绕_v_0:124932 and 落实_v_7:081572 is0.010256 围绕_v_0:124932 and 落实_v_7:081573 is 0.013793 围绕_v_0:124932 and落实_v_7:081575 is 0.013793 围绕_v_0:124932 and 结合_v_9:064548 is 0.016667围绕_v_0:124932 and 结合_v_9:064549 is 0.018605围绕_v_0:124932 and 中医药_n_10:157339 is 0.000624 围绕_v_0:124932 and 工作_vn_11:044065 is 0.000624 围绕_v_0:124932 and 工作_vn_11:044067 is 0.000624 围绕_v_0:124932 and 工作_vn_11:044068 is 0.015094 围绕_v_0:124932 and 实际_n_13:109077 is 0.000624 围绕_v_0:124932 and 实际_n_13:109078 is 0.000624 围绕_v_0:124932 and 要_v_16:140522 is0.010959 围绕_v_0:124932 and 要_v_16:140530 is 0.015094 围绕_v_0:124932 and要_v_16:140532 is 0.018605 围绕_v_0:124932 and 要_v_16:140534 is 0.015094 围绕_v_0:124932 and 加大_v_17:059967 is 0.013793 围绕_v_0:124932 and 加大_v_17:059968 is 0.015094 围绕_v_0:124932 and 加大_v_17:059969 is 0.013793 围绕_v_0:124932 and 力度_n_18:076991 is 0.000624 围绕_v_0:124932 and 积极_a_20:057562is 0.000624 围绕_v_0:124932 and 积极_a_20:057564 is 0.000624 围绕_v_0:124932and 稳妥_a_22:126267 is 0.000624 围绕_v_0:124932 and 稳妥_a_22:126269 is0.000624”。
S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;如附图3所示,构建消歧图的具体步骤如下:
S301、权重优化:基于模拟退火的权重优化算法,对步骤S2中的三种相似度值进行自动优化,得到最优权重参数;模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew。
基于模拟退火的权重优化算法的部分代码如下表所示:
基于模拟退火的权重优化算法中,行1为初始化操作,设置初始温度值t为100,温度下界值t_min为0.001,冷却速率delta置为0.98,最大迭代步数k设为100;行2-3为温度以及迭代步数的控制;行4-5,随机选择0到1-y的双精度值为x赋值,并为z赋值1-x-y;行6,函数getEvalResult(x,y,z)为目标函数,函数返回值为给定权重参数x、y、x时所得的消歧准确率;行7,在x的邻域内选择新值赋给x_new;行8-18,决定x_new是否保留以取代x,具体见模拟退火算法进行参数优化的公式;行20,以delta的冷却速率更改t;行22,返回x、y、z的最优参数组合。
其中,x、y、z表示三种相似度结果的权重变量,第一次执行算法时,将y设为1/3,此时算法结束后得到x、y的权重优化参数,这时将min(x,y)固定下来,继续执行第二次算法,在算法结束后,其他两个权重参数可得到确定。
S302、相似度融合:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=αsimhow+βsimen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;
举例:权重优化后,根据词义间最终融合的相似度公式对三种相似度值进行融合,“中医_n_25:围绕_v_0:124932|revolve round|围绕 and 指导_vn_2:155807|direct|命令 is 0.015094|0.2929|-0.0145 围绕 _v_0:124932|revolve round|围绕 and 意见_n_3:143264|complaint|语文 is 0.000624|0.3085|-0.0264 围绕_v_0:124932|revolveround|围绕 and 意见_n_3:143267|idea|念头 is 0.010256|0.3742|-0.0366
围绕_v_0:124932|revolve round|围绕 and 贯彻_v_6:047082|carry out|实施is 0.013793|0.4015|0.2071 围绕_v_0:124932|revolve round|围绕 and 落实_v_7:081572|feel at ease|安心 is 0.010256|0.3575|-0.0430 围绕_v_0:124932|revolveround|围绕 and 落实_v_7:081573|ascertain|决定 is 0.013793|0.3215|0.1502 围绕_v_0:124932|revolve round|围绕 and 落实_v_7:081575|fulfil|实现 is 0.013793|0.3541|0.2254 围绕_v_0:124932|revolve round|围绕 and 结合_v_9:064548|beunited in wedlock|结婚 is 0.016667|0.3299|-0.0183 围绕_v_0:124932|revolveround|围绕 and 结合_v_9:064549|combination|合并 is 0.018605|0.3487|0.0745 围绕_v_0:124932|revolve round|围绕 and 中医药_n_10:157339|traditional Chinesemedicine and druds|知识_药物 is 0.000624|0.3520|0.0866 围绕_v_0:124932|revolve round|围绕 and 工作_vn_11:044068|work|做 is 0.015094|0.3478|0.1434 围绕_v_0:124932|revolve round|围绕 and 实际_n_13:109077|reality|实体 is0.000624|0.3664|0.1503 围绕_v_0:124932|revolve round|围绕 and 实际_n_13:109078|practice|事情 is 0.000624|0.3907|-0.0571围绕 _v_0:124932|revolve round|围绕 and 要_v_16:140522|want to|期望 is 0.010959|0.3375|0.1009 围绕_v_0:124932|revolve round|围绕 and 要_v_16:140530|ask|要求 is 0.015094|0.3482|0.2090 围绕_v_0:124932|revolve round|围绕 and 要_v_16:140532|ask for|谋取 is0.018605|0.3648|0.0496”,这里为了展示过程没有进一步计算,例如“0.018605|0.3648|0.0496”表示三种相似度值,它们融合后为α0.018605+β0.3648+γ0.0496。
S303、构建消歧图:消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重;其中,词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
这三元组形式的词义使得上述三种相似度计算方法能够被整合为一个整体,以“中医”为例,“中医”有两个词义,分别对应于两个词义三元组,具体如下:“中医(157329,人,practitioner of Chinese medicine)”,“中医(157332,知识,traditional Chinesescience)”,此时在消歧图中任意两个顶点间的边权重,也就是词义间的语义相似度,可以由词义间最终融合的相似度计算得到。
S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。如附图4所示,选择正确词义具体步骤如下:
S401、图评分:调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点。
举例:图评分后,得到候选词义概念列表,
中医_n_25:157332 2.1213090873827947E58;
中医_n_25:157329 1.8434688340823378E58。
S402、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
举例:选择词义概念得分最高者为正确词义,也即“中医_n_25:157332”。
实施例2:
如附图5所示,本发明基于图模型的词义消歧***,该***包括,
上下文知识提取单元,对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
相似度计算单元,用于分别做基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算。相似度计算单元包括:
英文相似度计算单元,用于对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;考虑到HowNet是双语的,这里词义映射处理直接获取HowNet中的英文词语信息;
词向量相似度计算单元,用于使用Google的word2vec工具包在该语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;需要注意的是,歧义词的词义较多,训练好的词向量文件很可能倾向于该歧义词的某个较为常用的词义;为此,利用HowNet将歧义词转换成它所具有的词义,也就是每个概念定义中的第一义原,如图6所示,将歧义词“中医”转换为“人”和“知识”。
HowNet相似度计算单元,用于利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。
消歧图构建单元,用于利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建消歧图;消歧图构建单元包括,
权重优化单元,用于基于模拟退火的权重优化算法,对基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算的三种相似度值进行自动优化,得到最优权重参数;模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew;
相似度融合单元:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=αsimhow+βsimen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α;simen表示基于词向量和知识库的词语相似度计算结果,权重为β;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α+β+γ=1,α≥0,β≥0,γ≥0;
构建消歧图单元,用于消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重;其中,词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
词义正确选择单元,用于通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最大者为正确词义。词义正确选择单元包括,
图评分单元,用于调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
选择正确词义单元,用于在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (8)
1.一种基于图模型的词义消歧方法,其特征在于,包括如下步骤:
S1、提取上下文知识:对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
S2、相似度计算:分别做基于英文的相似度计算、基于词向量的相似度计算和基于HowNet的相似度计算;具体步骤如下:
S201、基于英文的相似度计算:对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;基于词向量和知识库的词语相似度计算算法具体如下:
S20101、判断给定的是词语还是短语:
①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;
②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:
其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;
S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ1;
S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;
S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:
simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj));
式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;
S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和wj的相似度,公式如下:
simbn(wi,wj)=α*1/(δ1 path)+(1-α)simlap(wi,wj);
其中,path是wi和wj之间的最短路径;δ1用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;
S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:
simfinal(wi,wj)=β*simvec+(1-β)*simbn;
其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数β是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;
S20107、返回相似度simfinal;
S202、基于词向量的相似度计算:使用Google的word2vec工具包在中文语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
S203、基于HowNet的相似度计算:利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度;
S3、构建消歧图:利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建出消歧图;
S4、词义的正确选择:通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最高者作为正确词义。
2.根据权利要求1所述的基于图模型的词义消歧方法,其特征在于,所述步骤S3中构建消歧图的具体步骤如下:
S301、权重优化:基于模拟退火的权重优化算法,对步骤S2中的三种相似度值进行自动优化,得到最优权重参数;
S302、相似度融合:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=α1simhow+β1simen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α1;simen表示基于词向量和知识库的词语相似度计算结果,权重为β1;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α1+β1+γ=1,α1≥0,β1≥0,γ≥0;
S303、构建消歧图:消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重。
3.根据权利要求2所述的基于图模型的词义消歧方法,其特征在于,所述步骤S301中的模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew;
所述步骤S303中的词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
4.根据权利要求1所述的基于图模型的词义消歧方法,其特征在于,所述步骤S4中选择正确词义具体步骤如下:
S401、图评分:调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;
S402、选择正确词义:在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
6.一种基于图模型的词义消歧***,其特征在于,该***包括,
上下文知识提取单元,对歧义句进行词性标注,提取实词作为上下文知识,实词指名词、动词、形容词、副词;
相似度计算单元,用于分别做基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算;
消歧图构建单元,用于利用模拟退火算法对相似度进行权重优化,得到融合后的相似度,进而以词语概念为顶点,概念间的语义关系为边,边的权重为融合后的相似度,构建消歧图;
词义正确选择单元,用于通过图评分对图中候选词义进行打分,进而得到候选词义的得分列表,选择得分最大者为正确词义;
其中,相似度计算单元包括:
英文相似度计算单元,用于对上下文知识进行HowNet词义信息标注,并做词义映射处理,得到英文词语集合;再利用基于词向量和知识库的词语相似度计算算法,对所得英文词语进行相似度计算;其中,基于词向量和知识库的词语相似度计算算法具体如下:
S20101、判断给定的是词语还是短语:
①、若给定是两个英文词语,则通过计算两词语向量的cosine相似度得到两个词语之间的相似度;
②、若给定词语为短语,则需要将短语中的词语对应的词向量相加,得到短语的向量表示,求得短语的相似度,公式如下:
其中,|p1|和|p2|表示短语p1和p2所含词语的个数;wi和wj分别表示p1中的第i个词语,p2中的第j个词语;
S20102、迭代地搜索与两个英文词语相关的同义词集,直到迭代步数超过γ1;
S20103、以两个英文词语以及与两个英文词语相关的同义词集为基础构建同义词集图;
S20104、在图中设定距离范围内,计算与两个英文词语相关的同义词集的重合度,公式如下:
simlap(wi,wj)=d*count(wi,wj)/(count(wi)+count(wj));
式中,count(wi,wj)表示词语wi和wj共同具有的同义词集个数;count(wi)和count(wj)分别为wi和wj各自具有的同义词集个数;d表示设定距离范围的取值;
S20105、使用Dijkstra算法计算图中wi和wj之间的最短路径,得到wi和wj的相似度,公式如下:
simbn(wi,wj)=α*1/(δ1 path)+(1-α)simlap(wi,wj);
其中,path是wi和wj之间的最短路径;δ1用以调节相似度的取值;simlap(wi,wj)表示wi和wj之间的重合度;参数α是一个调节因子,调节公式中两个部分的相似度值;
S20106、将步骤S20101中基于词向量方法得到的相似度simvec和步骤S20105中基于知识库方法得到的相似度simbn,进行线性相加结合,得到最终的相似度,公式如下:
simfinal(wi,wj)=β*simvec+(1-β)*simbn;
其中,simbn和simvec分别表示基于知识库方法得到的相似度和基于词向量方法得到的相似度;参数β是一个调节因子,调节基于知识库方法和基于词向量方法得到的相似度结果;
S20107、返回相似度simfinal;
词向量相似度计算单元,用于使用Google的word2vec工具包在中文语料上训练词向量,得到词向量文件,根据词向量文件获取给定两个词语对应的词向量,计算词向量间的余弦相似度作为两者的相似度;
HowNet相似度计算单元,用于利用HowNet对上下文知识进行词义信息标注,采用词语词汇和概念编号的形式,利用HowNet提供的概念相似度工具包计算各词义间的相似度。
7.根据权利要求6所述的基于图模型的词义消歧***,其特征在于,所述消歧图构建单元包括,
权重优化单元,用于基于模拟退火的权重优化算法,对基于英文的相似度计算、基于词向量的相似度计算以及基于HowNet的相似度计算的三种相似度值进行自动优化,得到最优权重参数;模拟退火算法进行参数优化的公式为:
其中,result(x)表示目标函数,指的是消歧准确率;δ表示冷却速率;t表示当前所处温度;xnew表示新取参数;xold表示原参数;
模拟退火算法进行参数优化的公式表示的含义包括如下两种情况:
(a)、若新取参数xnew的目标函数取值不小于原参数xold的目标函数取值,则以概率p为1选择新取参数xnew;
(b)、若新取参数xnew的目标函数取值小于原参数xold的目标函数取值,则以概率p为exp((result(xnew)-result(xold))/(δt))作为选取参数xnew的依据,随机生成一个概率值,并判断随机生成的概率值与概率p的大小:
①、若随机生成的概率值不大于p时,则选择新取参数xnew;
②、若随机生成的概率值大于p时,则舍弃新取参数xnew;
相似度融合单元:权重优化之后,词义间最终融合的相似度公式为:
sim(ws,ws′)=α1simhow+β1simen+γsimvec
其中,ws和ws’表示两个词义,simhow表示基于HowNet的相似度计算结果,权重为α1;simen表示基于词向量和知识库的词语相似度计算结果,权重为β1;simvec表示基于词向量的相似度计算结果,权重为γ;其中,α1+β1+γ=1,α1≥0,β1≥0,γ≥0;
构建消歧图单元,用于消歧图以词义为顶点,词义间的语义关系为边,利用基于模拟退火的权重优化算法,整合三种相似度值作为词义间的边权重;其中,词义指的是一个三元组,表示为:Word(No.,Sword,Enword);其中,No.表示的是概念编号;Sword表示第一义原词语;Enword表示英文词语;No.、Sword、Enword三者是有机统一的整体,描述同一个词义概念;在HowNet中一个词义概念编号唯一标识一个词义,在其概念定义中可以获取到第一义原词语,进而映射该词义为英文词语。
8.根据权利要求6或7所述的基于图模型的词义消歧***,其特征在于,所述词义正确选择单元包括,
图评分单元,用于调用图评分方法对消歧图中词义概念顶点的重要度进行评分;完成图评分后,将候选词义概念按照得分从大到小进行排列,构成候选词义概念列表;图评分采用PageRank算法,PageRank算法是基于马尔科夫链模型对图中结点进行评估,一个结点的PageRank得分取决于与其链接的所有结点的PageRank得分;一个结点的具体PageRank得分计算公式为:
其中,1-α2表示在随机游走过程中,跳出当前马尔可夫链随机选择一个结点的概率;α2是指继续当前马尔可夫链的概率;N为总的结点数量;|out(u)|表示结点u的出度;in(v)为链接到结点v的所有结点;
选择正确词义单元,用于在消歧结果中选择正确词义,包括如下两种情况:
①、若消歧结果中仅有一个词义概念,则将仅有的一个词义概念作为正确词义;
②、若消歧结果是由多个词义概念构成的词义列表,则以词义概念得分最高者为正确词义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811503355.7A CN109359303B (zh) | 2018-12-10 | 2018-12-10 | 一种基于图模型的词义消歧方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811503355.7A CN109359303B (zh) | 2018-12-10 | 2018-12-10 | 一种基于图模型的词义消歧方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109359303A CN109359303A (zh) | 2019-02-19 |
CN109359303B true CN109359303B (zh) | 2023-04-07 |
Family
ID=65332018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811503355.7A Active CN109359303B (zh) | 2018-12-10 | 2018-12-10 | 一种基于图模型的词义消歧方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109359303B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413989B (zh) * | 2019-06-19 | 2020-11-20 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与*** |
CN110362691B (zh) * | 2019-07-19 | 2023-06-02 | 大连语智星科技有限公司 | 一种句法树库构建*** |
CN110598209B (zh) * | 2019-08-21 | 2022-11-04 | 合肥工业大学 | 用于提取关键词的方法、***及存储介质 |
CN110705295B (zh) * | 2019-09-11 | 2021-08-24 | 北京航空航天大学 | 基于关键词提取的实体名消岐方法 |
CN110766072A (zh) * | 2019-10-22 | 2020-02-07 | 探智立方(北京)科技有限公司 | 一种基于结构相似性的计算图进化ai模型自动生成方法 |
CN111310475B (zh) * | 2020-02-04 | 2023-03-10 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN111783418B (zh) * | 2020-06-09 | 2024-04-05 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN112256885B (zh) * | 2020-10-23 | 2023-10-27 | 上海恒生聚源数据服务有限公司 | 一种标签消歧方法、装置、设备和计算机可读存储介质 |
CN113158687B (zh) * | 2021-04-29 | 2021-12-28 | 新声科技(深圳)有限公司 | 语义的消歧方法及装置、存储介质、电子装置 |
CN115114397B (zh) * | 2022-05-09 | 2024-05-31 | 泰康保险集团股份有限公司 | 年金信息更新方法、装置、电子设备、存储介质及程序 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002017128A1 (en) * | 2000-08-24 | 2002-02-28 | Science Applications International Corporation | Word sense disambiguation |
WO2014087506A1 (ja) * | 2012-12-05 | 2014-06-12 | 三菱電機株式会社 | 語義推定装置、語義推定方法及び語義推定プログラム |
WO2016050066A1 (zh) * | 2014-09-29 | 2016-04-07 | 华为技术有限公司 | 知识库中问句解析的方法及设备 |
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN105893346A (zh) * | 2016-03-30 | 2016-08-24 | 齐鲁工业大学 | 一种基于依存句法树的图模型词义消歧方法 |
CN106951684A (zh) * | 2017-02-28 | 2017-07-14 | 北京大学 | 一种医学疾病诊断记录中实体消歧的方法 |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
-
2018
- 2018-12-10 CN CN201811503355.7A patent/CN109359303B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002017128A1 (en) * | 2000-08-24 | 2002-02-28 | Science Applications International Corporation | Word sense disambiguation |
WO2014087506A1 (ja) * | 2012-12-05 | 2014-06-12 | 三菱電機株式会社 | 語義推定装置、語義推定方法及び語義推定プログラム |
WO2016050066A1 (zh) * | 2014-09-29 | 2016-04-07 | 华为技术有限公司 | 知识库中问句解析的方法及设备 |
CN105760363A (zh) * | 2016-02-17 | 2016-07-13 | 腾讯科技(深圳)有限公司 | 文本文件的词义消歧方法及装置 |
CN105893346A (zh) * | 2016-03-30 | 2016-08-24 | 齐鲁工业大学 | 一种基于依存句法树的图模型词义消歧方法 |
WO2017217661A1 (ko) * | 2016-06-15 | 2017-12-21 | 울산대학교 산학협력단 | 어휘 의미망을 이용한 단어 의미 임베딩 장치 및 방법과, 어휘 의미망 및 단어 임베딩을 이용한 동형이의어 분별 장치 및 방법 |
CN106951684A (zh) * | 2017-02-28 | 2017-07-14 | 北京大学 | 一种医学疾病诊断记录中实体消歧的方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
CN108959461A (zh) * | 2018-06-15 | 2018-12-07 | 东南大学 | 一种基于图模型的实体链接方法 |
Non-Patent Citations (1)
Title |
---|
基于依存和领域知识的词义消歧方法研究;鹿文鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;I138-99 * |
Also Published As
Publication number | Publication date |
---|---|
CN109359303A (zh) | 2019-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359303B (zh) | 一种基于图模型的词义消歧方法和*** | |
US10311146B2 (en) | Machine translation method for performing translation between languages | |
US20200226328A1 (en) | Translation method, target information determining method, related apparatus, and storage medium | |
Knowles et al. | Neural interactive translation prediction | |
WO2020220539A1 (zh) | 数据增量方法、装置、计算机设备及存储介质 | |
US20190384810A1 (en) | Method of training a descriptive text generating model, and method and apparatus for generating descriptive text | |
US11966703B2 (en) | Generating replacement sentences for a particular sentiment | |
US20160162473A1 (en) | Localization complexity of arbitrary language assets and resources | |
US10346548B1 (en) | Apparatus and method for prefix-constrained decoding in a neural machine translation system | |
US11593557B2 (en) | Domain-specific grammar correction system, server and method for academic text | |
US20120209590A1 (en) | Translated sentence quality estimation | |
Toral et al. | Linguistically-augmented perplexity-based data selection for language models | |
CN111144134B (zh) | 基于OpenKiWi的翻译引擎自动化评测*** | |
JP2022076439A (ja) | 対話管理 | |
KR20220021836A (ko) | 자동회귀 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법 | |
Hu et al. | Improved beam search with constrained softmax for nmt | |
Liu et al. | Machine Translation: General | |
Saini et al. | Relative clause based text simplification for improved english to hindi translation | |
Kri et al. | Phrase-based machine translation of Digaru-English | |
Miyata et al. | Evaluating and implementing a controlled language checker | |
Wołk et al. | Enhancing the assessment of (Polish) translation in PROMIS using statistical, semantic, and neural network metrics | |
Nou et al. | Khmer POS tagger: a transformation-based approach with hybrid unknown word handling | |
Khan et al. | A corpus based sql formation from bangla language using neural machine translation | |
Jabin et al. | An online English-Khmer hybrid machine translation system | |
Vanderwende | NLPwin–an introduction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |