CN109033307A - 基于crp聚类的词语多原型向量表示及词义消歧方法 - Google Patents
基于crp聚类的词语多原型向量表示及词义消歧方法 Download PDFInfo
- Publication number
- CN109033307A CN109033307A CN201810783010.5A CN201810783010A CN109033307A CN 109033307 A CN109033307 A CN 109033307A CN 201810783010 A CN201810783010 A CN 201810783010A CN 109033307 A CN109033307 A CN 109033307A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- cluster
- indicates
- ambiguity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 113
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 16
- 239000012141 concentrate Substances 0.000 claims abstract description 13
- 238000000746 purification Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 6
- 239000003814 drug Substances 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,包括步骤一:对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中目标多义词语按照聚类簇类别标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;步骤二:对目标短文本预处理获得短文本词语序列,识别词语序列中目标多义词语,计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度,将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。
Description
技术领域
本发明涉及自然语言处理领域,特别涉及一种基于CRP聚类的词语多原型向量表示及词义消歧方法。
背景技术
在自然语言处理领域的众多任务中,面临的基本问题是如何将语言符号表示为机器可以处理的编码模式。对语言符号进行映射表示,将词语、句子、文本等表示为一个连续的低维向量,实现词语、句子、文本的语义向量化表示,在信息检索、短文本分类、命名实体识别、情感分析、推荐引擎、自动文本摘要等任务有广泛应用。
词语是语言的最基本组成单元,词语的向量化表示在自然语言处理任务中有着广泛的应用。一种简单的词语向量表示是One-hot Representation,这种表示方法的缺点是向量维数等于所有词语的数目,存在维数灾难问题,也不能刻画词语之间的语义联系,同时对于多义词语也不能反应出不同的语义表达。
词语的词向量表示(Word Embedding或Word Representation)是一种固定长度的低维实数向量表示,通过对海量文本的训练学习,得到每个词语唯一的向量表示,特点是相似或者相关的词语在距离上更接近了。但是由于词语中多义词语的存在,同一个词语符号在不同的上下文语境可能反映不同的语义,大多数传统的词语词向量表示只对应唯一的词向量表示,不能有效的表达多义词语的不同词义。多义词语的每个词义应该对应的一个向量表示。
词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示,能提高词语表示的精确性。获得词语不同词义的向量表示,通常使用基于聚类的模型,通过聚类词语上下文来进行词义归纳,对原文词语的上下文直接进行聚类或者利用跨语言知识进行语义映射后聚类,再训练获得词语在不同上下文语境中具体词义对应的词向量表示。
基于k-means聚类算法及神经网络语言模型训练获得多义词语词向量表示的方法,参数k(聚类类别)的大小需要根据多义词语词义个数来选择不同的数值。而基于CRP聚类的词语多原型向量表示训练过程不需要事先指定聚类类别数目,符合不同的多义词语在上下文中词义数目不一致的实际情况。
高质量的词语词义表示能捕获丰富的语义和句法信息,有助于词义消歧。高质量的词义消歧能更好地学习词语词义的表示。词义消歧主要方法有两类:基于外部知识库方法和基于语料库的方法。基于外部知识库方法,借助外部知识库(WordNet或HowNet)对词语不同语义的解释或描述,来辨析识别多义词语具体的语义,但外部知识库或词典的构建需要耗费大量的人力物力。基于语料库的方法,以语料库为知识资源,通过自动或半自动的学习确定词语在给定上下文中的具体词义,从而实现词义消歧。
对语句中的多义词语,利用文本语料库,基于获得的词语多原型向量表示,通过给出的词义消歧方法获得词语在上下文中特定词义,有助于提高词语及语句的表示效率。
互联网技术及移动应用逐渐普及日常的生活,人们使用移动终端进行信息传递和交流沟通变得越来越普遍,由此产生了海量的数据,例如新闻标题、微博信息、购物平台的商品或服务描述、论坛评论、智能交互应用以及社交对话消息等,这些数据通常由文字构成,长度较短,是一种典型的短文本形式,这种短文本数据含有大量高价值的信息,具有很高的研究价值。利用机器对互联网上海量的短文本数据进行有效的处理和理解已成为自然语言处理和机器学习领域重要的研究难点和热点。
在信息检索的相似度计算中,词语多原型向量表示及词义消歧方法能够区分检索对象中多义词语的具体词义,提高词语表示及计算的准确性。为信息检索领域中的短文本检索提供一种有效的词语语义表示及词义消歧方法,为语义计算提供技术支持。
发明内容
本发明的目的是克服上述现有技术中存在的问题,提供一种基于CRP聚类的词语多原型向量表示及词义消歧方法,其词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示,解决了词语表示中一词多义的表示问题,其基于词语多原型向量表示的词义消歧方法解决了词义表示中的歧义识别问题。
本发明的技术方案是:基于CRP聚类的词语多原型向量表示及词义消歧方法,包括如下步骤:
步骤S1,对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中的目标多义词语按照聚类簇类别进行标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;
步骤S2,对目标短文本进行预处理获得短文本的词语序列,识别词语序列中的目标多义词语,计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。
上述步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本,包括:删除字数少于预设阈值的文本;繁体字统一转化为简体字;利用中英文缩写字典,对文本语料中英文缩写使用中文词语进行替换;对文本语料集中的文本进行分词;去除停用词;删除非中文字符和数字外的其他字符;统计词频;高频词语的词频预设为上限阈值;选择文本语料集中出现次数大于预设下限阈值的词语建立词语表;基于多义词词典建立多义词词语表。
上述步骤S1中所述的目标多义词语的上下文窗口表示,其方法是由词语上下文中词语的词向量进行平均来得到,具体计算公式为:
其中,veC为词语的上下文窗口表示,wi为词语上下文窗口词语集合Context中的第i个词语,vec(wi)为词语wi的初始词向量。
上述步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,其表示方法包括如下步骤:
步骤S101,获取所述的多义词语在文本语料集中所有样本的上下文窗口表示;
步骤S102,获得CRP聚类算法的初始聚类簇质心,取随机一个样本作为CRP聚类的初始聚类簇质心,或者基于k-means算法对多义词语的上下文窗口表示进行初始聚类,将包含最多数量样本的聚类簇质心作为初始聚类簇质心;
步骤S103,对所述的多义词语所有样本的上下文窗口表示,对于所有的聚类簇,计算每个样本和每个聚类簇质心之间的相似度,获得第i个样本与第t个聚类簇质心间的最大相似度Smax;如果Smax大于预设阈值α,则将第i个样本划分到第t个聚类簇,聚类簇t中的样本数量加1,重新计算第t个聚类簇的质心;否则,生成新聚类簇,聚类簇总数目K增加1,新聚类簇中样本数量为1,新聚类簇的质心为样本i;
步骤S104,获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。
上述步骤S1所述的在标记的文本语料集上训练获得多义词语的多原型向量表示,其表示方法包括如下步骤:
步骤S201,对文本语料集中所述目标多义词语的所有样本,按照所属的聚类簇进行标记,不同的聚类簇代表目标词语不同的词义;
步骤S202,在标记的聚类簇上执行基于神经网络语言模型的词语词向量表示训练过程,得到词语在不同上下文中表达特定词义的多原型向量表示。
上述步骤S2所述的对多义词进行词义消歧,包括如下步骤:
步骤S301,对所述的目标短文本进行预处理,获得短文本的词语序列,根据词语的多原型向量表示识别所述词语序列中的多义词语;
步骤S302,对所述的多义词语进行词义消歧,计算词语在短文本词语序列中的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,提取出相似度最大值的聚类簇类别所对应的词向量表示,作为多义词语在上下文中表达特定词义的词向量表示。
上述步骤S2所述的对目标短文本进行预处理获得短文本的词语序列,包括去除停用词,繁体字转化为简体字;利用中英文缩写字典,对目标短文本中的英文缩写使用中文词语进行替换;对短文本进行分词处理;非中文字符和数字外的其他字符使用特殊符号替换。
本发明的有益效果:本发明实施例中,提供一种基于CRP聚类的词语多原型向量表示及词义消歧方法,采用基于CRP的聚类算法聚类文本语料集中目标词语的上下文窗口表示,在标记的聚类簇上训练获得多义词语的词向量表示,提高了多义词语向量表示的准确度,解决词语表示中一词多义的表示问题。对语句中的多义词语,利用词语的多原型向量表示,通过计算多义词语的上下文窗口表示与训练样本中该词语聚类簇质心间的相似度,将相似度最大值的聚类簇所对应的词向量表示,作为多义词语在上下文中特定语义的词向量表示,消除了多义词语的歧义性。
本发明提出的基于CRP聚类的词语多原型向量表示方法,采用基于CRP的聚类算法聚类目标多义词语所有样本的上下文表示,一个聚类簇结果代表目标词语一种的语义,在标记的聚类簇语料集上训练获得词语多原型向量表示。词语的多原型向量表示能够区别表示多义词语不同的词义,解决了一词多义的表示问题。
本发明采用基于CRP的聚类算法对目标多义词语所有样本的上下文窗口表示进行聚类,CRP算法聚类不需要事先指定聚类个数,获得的聚类簇个数能有效的表达多义词语不同词义的数量,解决了不同多义词语词义数目不一致的实际问题,利用词语上下文窗口表示的作为词语属于同一聚类簇的判断标准,计算过程简单。
本发明提出的基于词语多原型向量表示的词义消歧方法,能够识别语句中的多义词语,并获得词语在上下文中具体词义的词向量表示,消除了多义词语在不同上下文语境中的歧义性。计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词语进行了词义消歧。
附图说明
图1是基于CRP聚类的词语多原型向量表示及词义消歧的整体流程图;
图2是基于CRP聚类多义词语上下文窗口表示的流程图;
图3是基于CRP聚类的词语多原型向量表示的训练流程;
图4是基于词语多原型向量表示的词义消歧流程图;
图5是基于词语多原型向量表示的名词词义消歧结果;
图6是基于词语多原型向量表示的动词词义消歧结果。
具体实施方式
下面结合附图,对本发明的一个具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法,如图1所示,本发明的基本思路是在基于CRP聚类词语上下文表示的基础上构建词语的多原型向量表示,识别句子或短文本中的多义词语,消除多义词语的歧义性,获得词语在上下文中具体词义的词向量表示,词向量的多原型表示能够更精确表示词语在上下文语境中的不同语义。本发明的具体步骤如下:
在步骤S1中,对海量文本语料集中的文本进行提纯预处理获得纯文本:对公开的或者采集获得的文本语料集,删除字数少于预设阈值的文本;将文本语料集中的繁体字转化为简体字;利用自定义词典对文本语料集中的英文缩写使用中文词语进行替换;然后采用分词***进行分词处理;采用正则匹配的方法去除非中文字符和数字外的其他字符;去除停用词并统计词频;将高频词语的词频预设为上限阈值;最后根据文本语料集中出现次数大于预设下限阈值的词语建立词语表。
在步骤S1中,获取多义词语在文本语料集中所有样本的上下文窗口表示,窗口大小设置为一个正整数,每个上下文窗口表示由窗口内词语的词向量加权计算;
在步骤S1中,如图2所示,基于CRP算法聚类目标多义词语所有样本的上下文窗口表示,具体为:
1.基于k-means算法对多义词语的上下文窗口表示进行初始聚类,获得每个聚类簇及其质心;
2.将包含最多数量样本的聚类簇质心作为CRP聚类算法的初始聚类簇质心;
3.对多义词语所有样本的上下文窗口表示,对于所有的聚类簇,计算每个样本和每个聚类簇质心之间的相似度,获得第i个样本与第t个聚类簇质心间的最大相似度Smax;
4.如果Smax大于预设阈值α,则将第i个样本划分到第t个聚类簇,聚类簇t中的样本数量加1,重新计算第t个聚类簇的质心。否则,生成新聚类簇,聚类簇总数目K增加1,新聚类簇中样本数量为1,新聚类簇的质心为样本i;
5.获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。
其中,第1、2步骤可以简化为将第一个样本或取随机一个样本作为CRP聚类的初始聚类簇质心。
在步骤S1中,如图3所示,训练获得词语的多原型向量表示,具体为:
1.获取目标多义词语在文本语料集中所有的上下文窗口表示;
2.基于CRP算法聚类多义词语的上下文窗口表示,得到词语上下文表示的聚类簇;
3.对目标多义词语,在原始文本语料集中根据目标词语及其上下文查找到相应的位置,按照样本所属的聚类簇在目标文本语料集进行相应的类别标记,不同的聚类簇代表目标词语不同的语义;
4.对每一个多义词语,执行步骤1,2,3,将聚类簇的类别标记到目标文本语料集中。
5.在标记的文本语料集上基于CBOW模型训练获得词语的多原型向量表示。
在步骤S2中,如图4所示,基于词语多原型向量表示的多义词语识别及词义消歧,具体为:
1.对目标短文本进行预处理,具体包括:去除停用词,繁体字转化为简体字;利用中英文缩写字典,对目标句子中的英文缩写使用中文词语进行替换;对短文本进行分词处理;非中文字符和数字外的其他字符使用特殊符号替换,得到短文本的词语序列。
2.识别句子中多义的词语。根据词语多原型向量表示识别词语序列中多义的词语,多义词语有两个及以上的词向量表示。
3.计算多义词语的上下文窗口表示。上下文窗口表示由上下文词语的词向量的加权平均值表示,对于上下文词语中出现的多义词语,采用在文本语料集中该词语出现次数最多的聚类簇所对应的词向量作为参与计算的词向量,对未识别词语采用上下文窗口中词语词向量的平均值进行表示。
4.对多义词语,按照词语语义数量的多少,依照先少后多的顺序依次对多义词语进行消歧。
5.计算多义词语在短文本序列中的上下文窗口表示与训练样本聚类簇的质心间的相似度,将相似度最大值的聚类簇所对应的词向量表示作为多义词语的词向量表示。
根据词语的语义由其上下文决定的思想,多义词语在上下文中特定语义,通过计算多义词语的上下文窗口表示和多义词语的各个词向量对应的文本语料聚类簇质心间的相似度来获得,将相似度最大值所对应的词向量表示作为多义词语在上下文中特定语义的词向量表示,具体计算方法为:
vec(w)={veck(w)|k,Sim(veC,veck(w))=Max(Sim(veC,vecj(w)))} (2)
其中,vec(w)为多义词语w在上下文窗口中对应的特定语义词向量表示,vecj(w)为多义词语w的第j个语义对应的文本语料聚类簇质心的词向量表示,Max(Sim(veC,vecj(w)))为多义词语w上下文窗口表示veC与各个vecj(w)相似度的最大值,将最大值对应的第k个词向量表示作为词语w特定语义的词向量。
术语解释:CRP:Chinese Restaurant Process的简称,中文名称为“中国餐馆过程”,是一个典型的Dirichlet(狄利克雷)过程混合模型,其优点是建立混合模型类别的数目无需人为指定,适合自然语言处理中的聚类问题。
多义词语在不同上下文中多个词义的词向量多原型表示。表1中,无标签的词语对应词语词向量的表示,例如“苹果”,是不区分多义性的词语。词语特定的词义对应词语多原型向量表示,例如,“苹果2”表示词语“苹果”的第2个词义,指的是农产品的苹果。“苹果1”的词向量表示与其作为IT公司相对应,“苹果2”则表示其作为一种水果的意义。词语多原型向量表示能够捕捉区别词语的语义信息。
表1基于CRP方法的词语或词义的最相近词语
基于词语多原型向量表示的词义消歧方法的实施例。
多义词词义消歧测试数据集来自SemEval-2007#task5中的中文语料库。测试数据集中共有40个多义词语:分为动词和名词,每个单词的意义至少有两个词义。词义消歧测试数据集中多义词的词义数量不同,多数为2-4个词义,词义数量最多的词语“出”,有9个词义。例如词语“中医”,有两个词义,分别为“practitioner of Chinese medicine”和“traditional of Chinese medical science”,词义为“中医医生”和“中医医学”,每个词义各有不等数量的具体文本实例。
在词义消歧测试实例中,基于词语多原型向量表示的词义消歧方法,对测试集中给定的每个多义词,抽取文本实例中的多义词语及其上下文表示,计算词语多原型向量表示中各个词向量对应的文本语料聚类簇质心间的相似度,得到多义词所对应的多原型词向量表示及其对应的聚类类别,将多原型词向量表示所表达的词义类别与测试集判别的标准进行比较,判别消歧结果的正确性。
基于词语多原型向量表示的名词词义消歧结果如图5所示。基于词语多原型向量表示的动词词义消歧结果如图6所示。
在信息检索中,词语词向量多原型表示及词义消歧方法能够识别检索对象中多义词语在上下文的具体语义,提高词语表示的准确性,计算更加合理,检索结果更加准确。
在信息检索应用中,为了能召回更多与检索词语序列或关键词相似的结果,会使用相似度(句子相似度、词语相似度)来识别相似的词语序列或关键词。词语相似度,可以通过两个词语词向量的夹角余弦值来度量词语的相似性。
例如,多义词语“算账”的词向量多原型表示为“算账1”和“算账2”,“算账1”的语义为“计算账目”或“核算盈亏”的意思,“算账2”的语义为“秋后算账”或“吃亏或失败后再与人较量”的意思。“算账1”与词语“结算”和“报复”的相似度分别为0.66、0.11,“算账2”与词语“结算”和“报复”的相似度0.14、0.72。“算账1”和“算账2”的相似度为0.25,词语“算账”不同的语义间的相似性差异较大。
在信息检索中,检索对象为句子时,可以使用句子相似度来度量检索对象和检索目标之间的相似性。对检索目标进行预处理,得到检索目标的词语序列,词语个数记为m,识别词语序列中的多义词语,获得词语序列中每个词语的词向量表示,记为集合D。对检索对象的句子进行预处理,得到检索句子的词语序列,词语个数记为n,识别词语序列中的多义词语,获得词语序列中每个词语的词向量表示,记为集合S。
分别计算集合D与集合S中各个词语之间的相似度sim(Di,Sj),提取出最相似的m个词语对,检索对象S和目标D之间的相似度Sim(D,S),可以由句子相似度计算公式得到:
其中,表示最相似的m个词对的相似度之和,m为集合D中词语的个数,n为集合S中词语的个数。
例如,检索目标包含多义词语“算账”,检索目标为句子{找他算账},检索对象为句子1{说假话人家会找你算账}、句子2{让他们在算账中去认知危害},进行预处理后分别得到词语序列集合D={要找他算账},S1={说假话人家会找你算账},S2={让他们在算账中认知危害}。识别词语序列集合D、S1、S2中的多义词语并获得每个词语的词向量表示。检索目标D和检索对象S1、S2之间各个词语的相似度如表2所示。
表2检索目标和检索对象中各个词语间的相似度表
由公式3可得,Sim(D,S1)=0.62,Sim(D,S2)=0.39,检索目标D与句子S1更加匹配,与真实语境更接近,检索结果更准确。
以上公开的仅为本发明的几个具体实施例,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
Claims (7)
1.基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,包括如下步骤:
步骤S1,对海量文本语料集中的文本进行提纯预处理获得纯文本,基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,对文本语料集中的目标多义词语按照聚类簇类别进行标记,在标记的文本语料集上训练获得多义词语的多原型向量表示;
步骤S2,对目标短文本进行预处理获得短文本的词语序列,识别词语序列中的目标多义词语,计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,将相似度最大值的聚类簇类别所对应词向量表示,作为多义词语在上下文中特定词义的词向量表示,对多义词进行词义消歧。
2.如权利要求1所述的基于CRP聚类的词语多原型表示及词义消歧方法,其特征在于,步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本,包括:删除字数少于预设阈值的文本;繁体字统一转化为简体字;利用中英文缩写字典,对文本语料中英文缩写使用中文词语进行替换;对文本语料集中的文本进行分词;去除停用词;删除非中文字符和数字外的其他字符;统计词频;高频词语的词频预设为上限阈值;选择文本语料集中出现次数大于预设下限阈值的词语建立词语表;基于多义词词典建立多义词词语表。
3.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S1中所述的目标多义词语的上下文窗口表示,其方法是由词语上下文中词语的词向量进行平均来得到,具体计算公式为:
其中,veC为词语的上下文窗口表示,wi为词语上下文窗口词语集合Context中的第i个词语,vec(wi)为词语wi的初始词向量。
4.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示,其表示方法包括如下步骤:
步骤S101,获取所述的多义词语在文本语料集中所有样本的上下文窗口表示;
步骤S102,获得CRP聚类算法的初始聚类簇质心,取随机一个样本作为CRP聚类的初始聚类簇质心,或者基于k-means算法对多义词语的上下文窗口表示进行初始聚类,将包含最多数量样本的聚类簇质心作为初始聚类簇质心;
步骤S103,对所述的多义词语所有样本的上下文窗口表示,对于所有的聚类簇,计算每个样本和每个聚类簇质心之间的相似度,获得第i个样本与第t个聚类簇质心间的最大相似度Smax;如果Smax大于预设阈值α,则将第i个样本划分到第t个聚类簇,聚类簇t中的样本数量加1,重新计算第t个聚类簇的质心;否则,生成新聚类簇,聚类簇总数目K增加1,新聚类簇中样本数量为1,新聚类簇的质心为样本i;
步骤S104,获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。
5.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S1所述的在标记的文本语料集上训练获得多义词语的多原型向量表示,其表示方法包括如下步骤:
步骤S201,对文本语料集中所述目标多义词语的所有样本,按照所属的聚类簇进行标记,不同的聚类簇代表目标词语不同的词义;
步骤S202,在标记的聚类簇上执行基于神经网络语言模型的词语词向量表示训练过程,得到词语在不同上下文中表达特定词义的多原型向量表示。
6.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S2所述的对多义词进行词义消歧,包括如下步骤:
步骤S301,对所述的目标短文本进行预处理,获得短文本的词语序列,根据词语的多原型向量表示识别所述词语序列中的多义词语;
步骤S302,对所述的多义词语进行词义消歧,计算词语在短文本词语序列中的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度,提取出相似度最大值的聚类簇类别所对应的词向量表示,作为多义词语在上下文中表达特定词义的词向量表示。
7.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法,其特征在于,步骤S2所述的对目标短文本进行预处理获得短文本的词语序列,包括去除停用词,繁体字转化为简体字;利用中英文缩写字典,对目标短文本中的英文缩写使用中文词语进行替换;对短文本进行分词处理;非中文字符和数字外的其他字符使用特殊符号替换。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810783010.5A CN109033307B (zh) | 2018-07-17 | 2018-07-17 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810783010.5A CN109033307B (zh) | 2018-07-17 | 2018-07-17 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109033307A true CN109033307A (zh) | 2018-12-18 |
CN109033307B CN109033307B (zh) | 2021-08-31 |
Family
ID=64643470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810783010.5A Expired - Fee Related CN109033307B (zh) | 2018-07-17 | 2018-07-17 | 基于crp聚类的词语多原型向量表示及词义消歧方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033307B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109740162A (zh) * | 2019-01-09 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 文本表示方法、装置及介质 |
CN109783806A (zh) * | 2018-12-21 | 2019-05-21 | 众安信息技术服务有限公司 | 一种利用语义解析结构的文本匹配方法 |
CN109960799A (zh) * | 2019-03-12 | 2019-07-02 | 中南大学 | 一种面向短文本的优化分类方法 |
CN110309515A (zh) * | 2019-07-10 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN110532395A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于语义嵌入的词向量改进模型的建立方法 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110717015A (zh) * | 2019-10-10 | 2020-01-21 | 大连理工大学 | 一种基于神经网络的多义词识别方法 |
CN110765781A (zh) * | 2019-12-11 | 2020-02-07 | 沈阳航空航天大学 | 一种领域术语语义知识库人机协同构建方法 |
CN111159337A (zh) * | 2019-12-20 | 2020-05-15 | 中国建设银行股份有限公司 | 化学表达式提取方法、装置及设备 |
CN111310475A (zh) * | 2020-02-04 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN111414523A (zh) * | 2020-03-11 | 2020-07-14 | 中国建设银行股份有限公司 | 一种数据获取方法和装置 |
CN111507098A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111523312A (zh) * | 2020-04-22 | 2020-08-11 | 南京贝湾信息科技有限公司 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
CN111783418A (zh) * | 2020-06-09 | 2020-10-16 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN112579769A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 关键词的聚类方法、装置、存储介质和电子设备 |
CN113298103A (zh) * | 2020-05-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 向量聚类训练方法及装置 |
CN113723101A (zh) * | 2021-09-09 | 2021-11-30 | 国网电子商务有限公司 | 一种应用于意图识别的词义消歧方法及装置 |
CN113723116A (zh) * | 2021-08-25 | 2021-11-30 | 科大讯飞股份有限公司 | 文本翻译方法及相关装置、电子设备、存储介质 |
CN113761196A (zh) * | 2021-07-28 | 2021-12-07 | 北京中科模识科技有限公司 | 文本聚类方法及***、电子设备和存储介质 |
CN114943235A (zh) * | 2022-07-12 | 2022-08-26 | 长安大学 | 一种基于多类语言模型的命名实体识别方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065623A1 (en) * | 2006-09-08 | 2008-03-13 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
US20140214840A1 (en) * | 2010-11-29 | 2014-07-31 | Google Inc. | Name Disambiguation Using Context Terms |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN104731771A (zh) * | 2015-03-27 | 2015-06-24 | 大连理工大学 | 一种基于词向量的缩写词歧义消除***及方法 |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104778186A (zh) * | 2014-01-15 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 将商品对象挂载到标准产品单元的方法及*** |
US20160292149A1 (en) * | 2014-08-02 | 2016-10-06 | Google Inc. | Word sense disambiguation using hypernyms |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
-
2018
- 2018-07-17 CN CN201810783010.5A patent/CN109033307B/zh not_active Expired - Fee Related
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080065623A1 (en) * | 2006-09-08 | 2008-03-13 | Microsoft Corporation | Person disambiguation using name entity extraction-based clustering |
US20140214840A1 (en) * | 2010-11-29 | 2014-07-31 | Google Inc. | Name Disambiguation Using Context Terms |
CN104778186A (zh) * | 2014-01-15 | 2015-07-15 | 阿里巴巴集团控股有限公司 | 将商品对象挂载到标准产品单元的方法及*** |
CN103970729A (zh) * | 2014-04-29 | 2014-08-06 | 河海大学 | 一种基于语义类的多主题提取方法 |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
US20160292149A1 (en) * | 2014-08-02 | 2016-10-06 | Google Inc. | Word sense disambiguation using hypernyms |
CN104778158A (zh) * | 2015-03-04 | 2015-07-15 | 新浪网技术(中国)有限公司 | 一种文本表示方法及装置 |
CN104731771A (zh) * | 2015-03-27 | 2015-06-24 | 大连理工大学 | 一种基于词向量的缩写词歧义消除***及方法 |
CN106598947A (zh) * | 2016-12-15 | 2017-04-26 | 山西大学 | 一种基于同义词扩展的贝叶斯词义消歧方法 |
CN107861939A (zh) * | 2017-09-30 | 2018-03-30 | 昆明理工大学 | 一种融合词向量和主题模型的领域实体消歧方法 |
Non-Patent Citations (4)
Title |
---|
BASILI,R等: "Contextual word sense tuning and disambiguation", 《APPLIED ARTIFICIAL INTELLIGENCE》 * |
张晗: "融合句义特征的人名消歧及人物关系抽取技术研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 * |
王瑞琴等: "无监督词义消歧研究", 《软件学报》 * |
郭鸿奇等: "一种基于词语多原型向量表示的句子相似度计算方法", 《智能计算机与应用》 * |
Cited By (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109783806A (zh) * | 2018-12-21 | 2019-05-21 | 众安信息技术服务有限公司 | 一种利用语义解析结构的文本匹配方法 |
CN109783806B (zh) * | 2018-12-21 | 2023-05-02 | 众安信息技术服务有限公司 | 一种利用语义解析结构的文本匹配方法 |
CN109740162A (zh) * | 2019-01-09 | 2019-05-10 | 安徽省泰岳祥升软件有限公司 | 文本表示方法、装置及介质 |
CN109740162B (zh) * | 2019-01-09 | 2023-07-11 | 安徽省泰岳祥升软件有限公司 | 文本表示方法、装置及介质 |
CN109960799A (zh) * | 2019-03-12 | 2019-07-02 | 中南大学 | 一种面向短文本的优化分类方法 |
CN110532395B (zh) * | 2019-05-13 | 2021-09-28 | 南京大学 | 一种基于语义嵌入的词向量改进模型的建立方法 |
CN110532395A (zh) * | 2019-05-13 | 2019-12-03 | 南京大学 | 一种基于语义嵌入的词向量改进模型的建立方法 |
CN110309515B (zh) * | 2019-07-10 | 2023-08-11 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN110309515A (zh) * | 2019-07-10 | 2019-10-08 | 北京奇艺世纪科技有限公司 | 实体识别方法及装置 |
CN110705274A (zh) * | 2019-09-06 | 2020-01-17 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN110705274B (zh) * | 2019-09-06 | 2023-03-24 | 电子科技大学 | 基于实时学习的融合型词义嵌入方法 |
CN112579769A (zh) * | 2019-09-30 | 2021-03-30 | 北京国双科技有限公司 | 关键词的聚类方法、装置、存储介质和电子设备 |
CN110717015A (zh) * | 2019-10-10 | 2020-01-21 | 大连理工大学 | 一种基于神经网络的多义词识别方法 |
CN110765781A (zh) * | 2019-12-11 | 2020-02-07 | 沈阳航空航天大学 | 一种领域术语语义知识库人机协同构建方法 |
CN110765781B (zh) * | 2019-12-11 | 2023-07-14 | 沈阳航空航天大学 | 一种领域术语语义知识库人机协同构建方法 |
CN111159337A (zh) * | 2019-12-20 | 2020-05-15 | 中国建设银行股份有限公司 | 化学表达式提取方法、装置及设备 |
CN111310475A (zh) * | 2020-02-04 | 2020-06-19 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN111310475B (zh) * | 2020-02-04 | 2023-03-10 | 支付宝(杭州)信息技术有限公司 | 词义消歧模型的训练方法及装置 |
CN111414523A (zh) * | 2020-03-11 | 2020-07-14 | 中国建设银行股份有限公司 | 一种数据获取方法和装置 |
CN111507098A (zh) * | 2020-04-17 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111507098B (zh) * | 2020-04-17 | 2023-03-21 | 腾讯科技(深圳)有限公司 | 多义词识别方法、装置、电子设备及计算机可读存储介质 |
CN111523312B (zh) * | 2020-04-22 | 2023-06-16 | 南京贝湾信息科技有限公司 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
CN111523312A (zh) * | 2020-04-22 | 2020-08-11 | 南京贝湾信息科技有限公司 | 一种基于释义消歧的查词显示方法、装置和计算设备 |
CN113298103A (zh) * | 2020-05-27 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 向量聚类训练方法及装置 |
CN111783418A (zh) * | 2020-06-09 | 2020-10-16 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN111783418B (zh) * | 2020-06-09 | 2024-04-05 | 北京北大软件工程股份有限公司 | 一种中文词义表示学习方法及装置 |
CN111914569A (zh) * | 2020-08-10 | 2020-11-10 | 哈尔滨安天科技集团股份有限公司 | 基于融合图谱的预测方法、装置、电子设备及存储介质 |
CN113761196A (zh) * | 2021-07-28 | 2021-12-07 | 北京中科模识科技有限公司 | 文本聚类方法及***、电子设备和存储介质 |
CN113761196B (zh) * | 2021-07-28 | 2024-02-20 | 北京中科模识科技有限公司 | 文本聚类方法及***、电子设备和存储介质 |
CN113723116A (zh) * | 2021-08-25 | 2021-11-30 | 科大讯飞股份有限公司 | 文本翻译方法及相关装置、电子设备、存储介质 |
CN113723116B (zh) * | 2021-08-25 | 2024-02-13 | 中国科学技术大学 | 文本翻译方法及相关装置、电子设备、存储介质 |
CN113723101A (zh) * | 2021-09-09 | 2021-11-30 | 国网电子商务有限公司 | 一种应用于意图识别的词义消歧方法及装置 |
CN114943235A (zh) * | 2022-07-12 | 2022-08-26 | 长安大学 | 一种基于多类语言模型的命名实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109033307B (zh) | 2021-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033307A (zh) | 基于crp聚类的词语多原型向量表示及词义消歧方法 | |
Haque et al. | Multi-class sentiment classification on Bengali social media comments using machine learning | |
CN106598944B (zh) | 一种民航安保舆情情感分析方法 | |
CN110968684B (zh) | 一种信息处理方法、装置、设备及存储介质 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN112231447B (zh) | 一种中文文档事件抽取的方法和*** | |
CN106033462B (zh) | 一种新词发现方法及*** | |
CN107562918A (zh) | 一种数学题知识点发现与批量标签获取方法 | |
CN101079025B (zh) | 一种文档相关度计算***和方法 | |
CN106610951A (zh) | 改进的基于语义分析的文本相似度求解算法 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN103617290B (zh) | 中文机器阅读*** | |
Ahmad et al. | Select, extract and generate: Neural keyphrase generation with layer-wise coverage attention | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
Ahammed et al. | Implementation of machine learning to detect hate speech in Bangla language | |
CN107133212B (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN110879834B (zh) | 一种基于循环卷积网络的观点检索***及其观点检索方法 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN109086355B (zh) | 基于新闻主题词的热点关联关系分析方法及*** | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及***、智能文本处理*** | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN109522547A (zh) | 基于模式学习的中文同义词迭代抽取方法 | |
Saad et al. | Evaluation of support vector machine and decision tree for emotion recognition of malay folklores |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210831 |