CN109033307A

CN109033307A - 基于crp聚类的词语多原型向量表示及词义消歧方法

Info

Publication number: CN109033307A
Application number: CN201810783010.5A
Authority: CN
Inventors: 李国佳; 郭鸿奇; 杨喜亮; 王国卿; 杨振中
Original assignee: North China University of Water Resources and Electric Power
Current assignee: North China University of Water Resources and Electric Power
Priority date: 2018-07-17
Filing date: 2018-07-17
Publication date: 2018-12-18
Anticipated expiration: 2038-07-17
Also published as: CN109033307B

Abstract

本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法，包括步骤一：对海量文本语料集中的文本进行提纯预处理获得纯文本，基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示，对文本语料集中目标多义词语按照聚类簇类别标记，在标记的文本语料集上训练获得多义词语的多原型向量表示；步骤二：对目标短文本预处理获得短文本词语序列，识别词语序列中目标多义词语，计算目标多义词语上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间相似度，将相似度最大值聚类簇类别所对应词向量表示作为多义词语在上下文中特定词义的词向量表示，对多义词进行词义消歧。本发明解决了词语表示中一词多义表示问题及词义表示中歧义识别问题。

Description

基于CRP聚类的词语多原型向量表示及词义消歧方法

技术领域

本发明涉及自然语言处理领域，特别涉及一种基于CRP聚类的词语多原型向量表示及词义消歧方法。

背景技术

在自然语言处理领域的众多任务中，面临的基本问题是如何将语言符号表示为机器可以处理的编码模式。对语言符号进行映射表示，将词语、句子、文本等表示为一个连续的低维向量，实现词语、句子、文本的语义向量化表示，在信息检索、短文本分类、命名实体识别、情感分析、推荐引擎、自动文本摘要等任务有广泛应用。

词语是语言的最基本组成单元，词语的向量化表示在自然语言处理任务中有着广泛的应用。一种简单的词语向量表示是One-hot Representation，这种表示方法的缺点是向量维数等于所有词语的数目，存在维数灾难问题，也不能刻画词语之间的语义联系，同时对于多义词语也不能反应出不同的语义表达。

词语的词向量表示(Word Embedding或Word Representation)是一种固定长度的低维实数向量表示，通过对海量文本的训练学习，得到每个词语唯一的向量表示，特点是相似或者相关的词语在距离上更接近了。但是由于词语中多义词语的存在，同一个词语符号在不同的上下文语境可能反映不同的语义，大多数传统的词语词向量表示只对应唯一的词向量表示，不能有效的表达多义词语的不同词义。多义词语的每个词义应该对应的一个向量表示。

词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示，能提高词语表示的精确性。获得词语不同词义的向量表示，通常使用基于聚类的模型，通过聚类词语上下文来进行词义归纳，对原文词语的上下文直接进行聚类或者利用跨语言知识进行语义映射后聚类，再训练获得词语在不同上下文语境中具体词义对应的词向量表示。

基于k-means聚类算法及神经网络语言模型训练获得多义词语词向量表示的方法，参数k(聚类类别)的大小需要根据多义词语词义个数来选择不同的数值。而基于CRP聚类的词语多原型向量表示训练过程不需要事先指定聚类类别数目，符合不同的多义词语在上下文中词义数目不一致的实际情况。

高质量的词语词义表示能捕获丰富的语义和句法信息，有助于词义消歧。高质量的词义消歧能更好地学习词语词义的表示。词义消歧主要方法有两类：基于外部知识库方法和基于语料库的方法。基于外部知识库方法，借助外部知识库(WordNet或HowNet)对词语不同语义的解释或描述，来辨析识别多义词语具体的语义，但外部知识库或词典的构建需要耗费大量的人力物力。基于语料库的方法，以语料库为知识资源，通过自动或半自动的学习确定词语在给定上下文中的具体词义，从而实现词义消歧。

对语句中的多义词语，利用文本语料库，基于获得的词语多原型向量表示，通过给出的词义消歧方法获得词语在上下文中特定词义，有助于提高词语及语句的表示效率。

互联网技术及移动应用逐渐普及日常的生活，人们使用移动终端进行信息传递和交流沟通变得越来越普遍，由此产生了海量的数据，例如新闻标题、微博信息、购物平台的商品或服务描述、论坛评论、智能交互应用以及社交对话消息等，这些数据通常由文字构成，长度较短，是一种典型的短文本形式，这种短文本数据含有大量高价值的信息，具有很高的研究价值。利用机器对互联网上海量的短文本数据进行有效的处理和理解已成为自然语言处理和机器学习领域重要的研究难点和热点。

在信息检索的相似度计算中，词语多原型向量表示及词义消歧方法能够区分检索对象中多义词语的具体词义，提高词语表示及计算的准确性。为信息检索领域中的短文本检索提供一种有效的词语语义表示及词义消歧方法，为语义计算提供技术支持。

发明内容

本发明的目的是克服上述现有技术中存在的问题，提供一种基于CRP聚类的词语多原型向量表示及词义消歧方法，其词语多原型向量表示对于多义词语的每个词义都对应一个词向量表示，解决了词语表示中一词多义的表示问题，其基于词语多原型向量表示的词义消歧方法解决了词义表示中的歧义识别问题。

本发明的技术方案是：基于CRP聚类的词语多原型向量表示及词义消歧方法，包括如下步骤：

步骤S1，对海量文本语料集中的文本进行提纯预处理获得纯文本，基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示，对文本语料集中的目标多义词语按照聚类簇类别进行标记，在标记的文本语料集上训练获得多义词语的多原型向量表示；

步骤S2，对目标短文本进行预处理获得短文本的词语序列，识别词语序列中的目标多义词语，计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度，将相似度最大值的聚类簇类别所对应词向量表示，作为多义词语在上下文中特定词义的词向量表示，对多义词进行词义消歧。

上述步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本，包括：删除字数少于预设阈值的文本；繁体字统一转化为简体字；利用中英文缩写字典，对文本语料中英文缩写使用中文词语进行替换；对文本语料集中的文本进行分词；去除停用词；删除非中文字符和数字外的其他字符；统计词频；高频词语的词频预设为上限阈值；选择文本语料集中出现次数大于预设下限阈值的词语建立词语表；基于多义词词典建立多义词词语表。

上述步骤S1中所述的目标多义词语的上下文窗口表示，其方法是由词语上下文中词语的词向量进行平均来得到，具体计算公式为：

其中，veC为词语的上下文窗口表示，w_i为词语上下文窗口词语集合Context中的第i个词语，vec(w_i)为词语w_i的初始词向量。

上述步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示，其表示方法包括如下步骤：

步骤S101，获取所述的多义词语在文本语料集中所有样本的上下文窗口表示；

步骤S102，获得CRP聚类算法的初始聚类簇质心，取随机一个样本作为CRP聚类的初始聚类簇质心，或者基于k-means算法对多义词语的上下文窗口表示进行初始聚类，将包含最多数量样本的聚类簇质心作为初始聚类簇质心；

步骤S103，对所述的多义词语所有样本的上下文窗口表示，对于所有的聚类簇，计算每个样本和每个聚类簇质心之间的相似度，获得第i个样本与第t个聚类簇质心间的最大相似度Smax；如果Smax大于预设阈值α，则将第i个样本划分到第t个聚类簇，聚类簇t中的样本数量加1，重新计算第t个聚类簇的质心；否则，生成新聚类簇，聚类簇总数目K增加1，新聚类簇中样本数量为1，新聚类簇的质心为样本i；

步骤S104，获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。

上述步骤S1所述的在标记的文本语料集上训练获得多义词语的多原型向量表示，其表示方法包括如下步骤：

步骤S201，对文本语料集中所述目标多义词语的所有样本，按照所属的聚类簇进行标记，不同的聚类簇代表目标词语不同的词义；

步骤S202，在标记的聚类簇上执行基于神经网络语言模型的词语词向量表示训练过程，得到词语在不同上下文中表达特定词义的多原型向量表示。

上述步骤S2所述的对多义词进行词义消歧，包括如下步骤：

步骤S301，对所述的目标短文本进行预处理，获得短文本的词语序列，根据词语的多原型向量表示识别所述词语序列中的多义词语；

步骤S302，对所述的多义词语进行词义消歧，计算词语在短文本词语序列中的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度，提取出相似度最大值的聚类簇类别所对应的词向量表示，作为多义词语在上下文中表达特定词义的词向量表示。

上述步骤S2所述的对目标短文本进行预处理获得短文本的词语序列，包括去除停用词，繁体字转化为简体字；利用中英文缩写字典，对目标短文本中的英文缩写使用中文词语进行替换；对短文本进行分词处理；非中文字符和数字外的其他字符使用特殊符号替换。

本发明的有益效果：本发明实施例中，提供一种基于CRP聚类的词语多原型向量表示及词义消歧方法，采用基于CRP的聚类算法聚类文本语料集中目标词语的上下文窗口表示，在标记的聚类簇上训练获得多义词语的词向量表示，提高了多义词语向量表示的准确度，解决词语表示中一词多义的表示问题。对语句中的多义词语，利用词语的多原型向量表示，通过计算多义词语的上下文窗口表示与训练样本中该词语聚类簇质心间的相似度，将相似度最大值的聚类簇所对应的词向量表示，作为多义词语在上下文中特定语义的词向量表示，消除了多义词语的歧义性。

本发明提出的基于CRP聚类的词语多原型向量表示方法，采用基于CRP的聚类算法聚类目标多义词语所有样本的上下文表示，一个聚类簇结果代表目标词语一种的语义，在标记的聚类簇语料集上训练获得词语多原型向量表示。词语的多原型向量表示能够区别表示多义词语不同的词义，解决了一词多义的表示问题。

本发明采用基于CRP的聚类算法对目标多义词语所有样本的上下文窗口表示进行聚类，CRP算法聚类不需要事先指定聚类个数，获得的聚类簇个数能有效的表达多义词语不同词义的数量，解决了不同多义词语词义数目不一致的实际问题，利用词语上下文窗口表示的作为词语属于同一聚类簇的判断标准，计算过程简单。

本发明提出的基于词语多原型向量表示的词义消歧方法，能够识别语句中的多义词语，并获得词语在上下文中具体词义的词向量表示，消除了多义词语在不同上下文语境中的歧义性。计算目标多义词语的上下文窗口表示与文本语料集中该词语所对应的各个聚类簇质心间的相似度，将相似度最大值的聚类簇类别所对应词向量表示，作为多义词语在上下文中特定词义的词向量表示，对多义词语进行了词义消歧。

附图说明

图1是基于CRP聚类的词语多原型向量表示及词义消歧的整体流程图；

图2是基于CRP聚类多义词语上下文窗口表示的流程图；

图3是基于CRP聚类的词语多原型向量表示的训练流程；

图4是基于词语多原型向量表示的词义消歧流程图；

图5是基于词语多原型向量表示的名词词义消歧结果；

图6是基于词语多原型向量表示的动词词义消歧结果。

具体实施方式

下面结合附图，对本发明的一个具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

本发明公开了一种基于CRP聚类的词语多原型向量表示及词义消歧方法，如图1所示，本发明的基本思路是在基于CRP聚类词语上下文表示的基础上构建词语的多原型向量表示，识别句子或短文本中的多义词语，消除多义词语的歧义性，获得词语在上下文中具体词义的词向量表示，词向量的多原型表示能够更精确表示词语在上下文语境中的不同语义。本发明的具体步骤如下：

在步骤S1中，对海量文本语料集中的文本进行提纯预处理获得纯文本：对公开的或者采集获得的文本语料集，删除字数少于预设阈值的文本；将文本语料集中的繁体字转化为简体字；利用自定义词典对文本语料集中的英文缩写使用中文词语进行替换；然后采用分词***进行分词处理；采用正则匹配的方法去除非中文字符和数字外的其他字符；去除停用词并统计词频；将高频词语的词频预设为上限阈值；最后根据文本语料集中出现次数大于预设下限阈值的词语建立词语表。

在步骤S1中，获取多义词语在文本语料集中所有样本的上下文窗口表示，窗口大小设置为一个正整数，每个上下文窗口表示由窗口内词语的词向量加权计算；

在步骤S1中，如图2所示，基于CRP算法聚类目标多义词语所有样本的上下文窗口表示，具体为：

1.基于k-means算法对多义词语的上下文窗口表示进行初始聚类，获得每个聚类簇及其质心；

2.将包含最多数量样本的聚类簇质心作为CRP聚类算法的初始聚类簇质心；

3.对多义词语所有样本的上下文窗口表示，对于所有的聚类簇，计算每个样本和每个聚类簇质心之间的相似度，获得第i个样本与第t个聚类簇质心间的最大相似度Smax；

4.如果Smax大于预设阈值α，则将第i个样本划分到第t个聚类簇，聚类簇t中的样本数量加1，重新计算第t个聚类簇的质心。否则，生成新聚类簇，聚类簇总数目K增加1，新聚类簇中样本数量为1，新聚类簇的质心为样本i；

5.获得每个聚类簇中的样本、聚类簇的质心以及聚类簇的总数。

其中，第1、2步骤可以简化为将第一个样本或取随机一个样本作为CRP聚类的初始聚类簇质心。

在步骤S1中，如图3所示，训练获得词语的多原型向量表示，具体为：

1.获取目标多义词语在文本语料集中所有的上下文窗口表示；

2.基于CRP算法聚类多义词语的上下文窗口表示，得到词语上下文表示的聚类簇；

3.对目标多义词语，在原始文本语料集中根据目标词语及其上下文查找到相应的位置，按照样本所属的聚类簇在目标文本语料集进行相应的类别标记，不同的聚类簇代表目标词语不同的语义；

4.对每一个多义词语，执行步骤1，2，3，将聚类簇的类别标记到目标文本语料集中。

5.在标记的文本语料集上基于CBOW模型训练获得词语的多原型向量表示。

在步骤S2中，如图4所示，基于词语多原型向量表示的多义词语识别及词义消歧，具体为：

1.对目标短文本进行预处理，具体包括：去除停用词，繁体字转化为简体字；利用中英文缩写字典，对目标句子中的英文缩写使用中文词语进行替换；对短文本进行分词处理；非中文字符和数字外的其他字符使用特殊符号替换，得到短文本的词语序列。

2.识别句子中多义的词语。根据词语多原型向量表示识别词语序列中多义的词语，多义词语有两个及以上的词向量表示。

3.计算多义词语的上下文窗口表示。上下文窗口表示由上下文词语的词向量的加权平均值表示，对于上下文词语中出现的多义词语，采用在文本语料集中该词语出现次数最多的聚类簇所对应的词向量作为参与计算的词向量，对未识别词语采用上下文窗口中词语词向量的平均值进行表示。

4.对多义词语，按照词语语义数量的多少，依照先少后多的顺序依次对多义词语进行消歧。

5.计算多义词语在短文本序列中的上下文窗口表示与训练样本聚类簇的质心间的相似度，将相似度最大值的聚类簇所对应的词向量表示作为多义词语的词向量表示。

根据词语的语义由其上下文决定的思想，多义词语在上下文中特定语义，通过计算多义词语的上下文窗口表示和多义词语的各个词向量对应的文本语料聚类簇质心间的相似度来获得，将相似度最大值所对应的词向量表示作为多义词语在上下文中特定语义的词向量表示，具体计算方法为：

vec(w)＝{vec_k(w)|k,Sim(veC,vec_k(w))＝Max(Sim(veC,vec_j(w)))} (2)

其中，vec(w)为多义词语w在上下文窗口中对应的特定语义词向量表示，vec_j(w)为多义词语w的第j个语义对应的文本语料聚类簇质心的词向量表示，Max(Sim(veC,vec_j(w)))为多义词语w上下文窗口表示veC与各个vec_j(w)相似度的最大值，将最大值对应的第k个词向量表示作为词语w特定语义的词向量。

术语解释：CRP：Chinese Restaurant Process的简称，中文名称为“中国餐馆过程”，是一个典型的Dirichlet(狄利克雷)过程混合模型，其优点是建立混合模型类别的数目无需人为指定，适合自然语言处理中的聚类问题。

多义词语在不同上下文中多个词义的词向量多原型表示。表1中，无标签的词语对应词语词向量的表示，例如“苹果”，是不区分多义性的词语。词语特定的词义对应词语多原型向量表示，例如，“苹果2”表示词语“苹果”的第2个词义，指的是农产品的苹果。“苹果1”的词向量表示与其作为IT公司相对应，“苹果2”则表示其作为一种水果的意义。词语多原型向量表示能够捕捉区别词语的语义信息。

表1基于CRP方法的词语或词义的最相近词语

基于词语多原型向量表示的词义消歧方法的实施例。

多义词词义消歧测试数据集来自SemEval-2007#task5中的中文语料库。测试数据集中共有40个多义词语：分为动词和名词，每个单词的意义至少有两个词义。词义消歧测试数据集中多义词的词义数量不同，多数为2-4个词义，词义数量最多的词语“出”，有9个词义。例如词语“中医”，有两个词义，分别为“practitioner of Chinese medicine”和“traditional of Chinese medical science”，词义为“中医医生”和“中医医学”，每个词义各有不等数量的具体文本实例。

在词义消歧测试实例中，基于词语多原型向量表示的词义消歧方法，对测试集中给定的每个多义词，抽取文本实例中的多义词语及其上下文表示，计算词语多原型向量表示中各个词向量对应的文本语料聚类簇质心间的相似度，得到多义词所对应的多原型词向量表示及其对应的聚类类别，将多原型词向量表示所表达的词义类别与测试集判别的标准进行比较，判别消歧结果的正确性。

基于词语多原型向量表示的名词词义消歧结果如图5所示。基于词语多原型向量表示的动词词义消歧结果如图6所示。

在信息检索中，词语词向量多原型表示及词义消歧方法能够识别检索对象中多义词语在上下文的具体语义，提高词语表示的准确性，计算更加合理，检索结果更加准确。

在信息检索应用中，为了能召回更多与检索词语序列或关键词相似的结果，会使用相似度(句子相似度、词语相似度)来识别相似的词语序列或关键词。词语相似度，可以通过两个词语词向量的夹角余弦值来度量词语的相似性。

例如，多义词语“算账”的词向量多原型表示为“算账1”和“算账2”，“算账1”的语义为“计算账目”或“核算盈亏”的意思，“算账2”的语义为“秋后算账”或“吃亏或失败后再与人较量”的意思。“算账1”与词语“结算”和“报复”的相似度分别为0.66、0.11，“算账2”与词语“结算”和“报复”的相似度0.14、0.72。“算账1”和“算账2”的相似度为0.25，词语“算账”不同的语义间的相似性差异较大。

在信息检索中，检索对象为句子时，可以使用句子相似度来度量检索对象和检索目标之间的相似性。对检索目标进行预处理，得到检索目标的词语序列，词语个数记为m，识别词语序列中的多义词语，获得词语序列中每个词语的词向量表示，记为集合D。对检索对象的句子进行预处理，得到检索句子的词语序列，词语个数记为n，识别词语序列中的多义词语，获得词语序列中每个词语的词向量表示，记为集合S。

分别计算集合D与集合S中各个词语之间的相似度sim(D_i，S_j)，提取出最相似的m个词语对，检索对象S和目标D之间的相似度Sim(D，S)，可以由句子相似度计算公式得到：

其中，表示最相似的m个词对的相似度之和，m为集合D中词语的个数，n为集合S中词语的个数。

例如，检索目标包含多义词语“算账”，检索目标为句子{找他算账}，检索对象为句子1{说假话人家会找你算账}、句子2{让他们在算账中去认知危害}，进行预处理后分别得到词语序列集合D＝{要找他算账}，S1＝{说假话人家会找你算账}，S2＝{让他们在算账中认知危害}。识别词语序列集合D、S1、S2中的多义词语并获得每个词语的词向量表示。检索目标D和检索对象S1、S2之间各个词语的相似度如表2所示。

表2检索目标和检索对象中各个词语间的相似度表

由公式3可得，Sim(D,S1)＝0.62,Sim(D,S2)＝0.39，检索目标D与句子S1更加匹配，与真实语境更接近，检索结果更准确。

以上公开的仅为本发明的几个具体实施例，但是，本发明实施例并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于CRP聚类的词语多原型表示及词义消歧方法，其特征在于，步骤S1所述的对海量文本语料集中的文本进行提纯预处理获得纯文本，包括：删除字数少于预设阈值的文本；繁体字统一转化为简体字；利用中英文缩写字典，对文本语料中英文缩写使用中文词语进行替换；对文本语料集中的文本进行分词；去除停用词；删除非中文字符和数字外的其他字符；统计词频；高频词语的词频预设为上限阈值；选择文本语料集中出现次数大于预设下限阈值的词语建立词语表；基于多义词词典建立多义词词语表。

3.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，步骤S1中所述的目标多义词语的上下文窗口表示，其方法是由词语上下文中词语的词向量进行平均来得到，具体计算公式为：

4.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，步骤S1所述的基于CRP算法聚类文本语料集中目标多义词语的上下文窗口表示，其表示方法包括如下步骤：

5.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，步骤S1所述的在标记的文本语料集上训练获得多义词语的多原型向量表示，其表示方法包括如下步骤：

6.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，步骤S2所述的对多义词进行词义消歧，包括如下步骤：

7.如权利要求1所述的基于CRP聚类的词语多原型向量表示及词义消歧方法，其特征在于，步骤S2所述的对目标短文本进行预处理获得短文本的词语序列，包括去除停用词，繁体字转化为简体字；利用中英文缩写字典，对目标短文本中的英文缩写使用中文词语进行替换；对短文本进行分词处理；非中文字符和数字外的其他字符使用特殊符号替换。