CN111368532A

CN111368532A - 一种基于lda的主题词嵌入消歧方法及***

Info

Publication number: CN111368532A
Application number: CN202010189104.7A
Authority: CN
Inventors: 唐季林; 贾连印; 陈明鲜; 张崇德
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-03
Anticipated expiration: 2040-03-18
Also published as: CN111368532B

Abstract

本发明涉及一种基于LDA的主题词嵌入消歧方法及***，属于语义分析技术领域。本发明方法包括：主题模型训练步骤：基于Wiki语料库结合LDA算法训练主题模型；主题词向量生成步骤：根据Wiki语料库和主题模型，利用Word2Vec训练出主题词向量；上下文向量生成步骤：利用主题模型和主题词向量，计算出歧义词所在上下文的向量表示；有监督词义消歧步骤：将上下文向量与其他传统语义特征结合，利用SVM进行词义消歧。

Description

一种基于LDA的主题词嵌入消歧方法及***

技术领域

本发明涉及一种基于LDA的主题词嵌入消歧方法及***，属于语义分析技术领域。

背景技术

自然语言具有天生的歧义性，很多单词普遍有多个词义，如“cricket”，该单词既可表示为一种运动，也可表示为一种昆虫，但在特定的上下文中，每个单词都有一个确定的词义。词义消歧是一种根据特定的上下文确定歧义词的正确词义的方法，被认为是AI-Complete问题。词义消歧是自然语言处理方向历史最悠久的任务之一，同时它也是很多自然语言处理中的一个关键基础任务，在机器翻译、信息检索、信息抽取等领域应用广泛。

词义消歧目前常用的解决方案可粗略分为以下三大类：

1、基于有监督机器学习算法的词义消歧方法：

有监督词义消歧方法最明显的特点就是需要利用人工词义注释的数据，而这些方法也都基于一个假设：一个单词的上下文能够提供足够的证据来对这个单词进行消歧。然而由于人工词义标注是一件又困难又非常耗时的事情，所以很快会到达“知识获取瓶颈”，因此有监督词义消歧方法不具有扩展性，并且对于一个新的语言，它都得做大量类似的重复工作。不过到目前为止，性能最好的词义消歧***都是基于有监督学习方法的。

2、基于无监督机器学习算法的词义消歧方法：

无监督词义消歧方法不需要人工创建有词义标记的语料，这类方法基于一个基本的假设：相似的词义会在相似的上下文中出现。因此通过该假设，我们便有可能根据它们共享的含义将相似上下文的单词聚类，生成的每一个簇便为应该词义。但这类方法存在一些缺陷，就是它们难以将其所归纳出来的词义映射到一个词义数据库里，因此它们仍然需要人工的干扰来进行这样的映射。

3、半监督词义消歧方法

介于有监督词义消歧和无监督词义消歧方法中间的一种方法，就是半监督词义消歧方。这类方法分为两个方向，第一个方向是先将一个小的、有人工注释的语料通过某些方法对一个大的无人工标注进行标注，进而获得一个大的、由人工注释的语料，然后再用有监督词义消歧方法进行处理；另外一个方向是基于词对齐的双语语料的方法，这种方法认为，一个语言中有歧义的词，在另一个语言中是没有歧义的，这样就可以将词义标注到前一个语言的词上。

随着Word2Vec、Glove等语义模型的提出，近年来词嵌入技术在自然语言处理的多个领域引起了众多研究者的关注。通过word2vec、Glove提供的训练模型训练得到的词向量反映了自然语言中的语义和语法关系，可以通过利用词向量获取更加丰富的语义信息进而提示词义消歧的性能。

目前基于Word2Vec的词义消歧的效果相较之前确实有比较大的进度，但多数工作多存在以下主要不足：其为每个词生成唯一一个上下文无关的词向量，但众所周知，词普遍存在多义的现象，不同上下文下词义往往不同。故为每个歧义词生成的单一的词向量往往难以捕获不同上下文的词义，从而影响消岐效果的进一步提升。

发明内容

本发明要解决的技术问题是提供一种基于LDA的主题词嵌入消歧方法及***，根据歧义词所在上下文对歧义词进行消歧得到明确的词义，用以解决上述问题。

本发明的技术方案是：一种基于LDA的主题词嵌入消歧方法，考虑结合LDA和Word2Vec生成主题词向量，通过LDA训练主题模型，然后通过Word2Vec生成主题词向量。根据主题词向量进一步生成上下文向量，最后将上下文向量作为特征与其他传统语义特征结合，利用SVM训练出消歧模型进行词义消歧，能够获得比较明显的性能提升。

具体步骤为：

Step1：基于大规模无词义标注的Wiki语料库，利用online LDA算法方式训练出主题模型；

Step2：基于主题模型，将Wiki语料库的每篇文档归类到各个主题下分别形成各种的主题文档集，然后对每个主题文档集用Word2Vec训练出每个主题下的词向量，即为主题词向量；

Step3：基于小规模有词义标注的SemCor语料库，利用主题模型和主题词向量计算出上下文向量；

Step4：将上下文向量和其他传统语义特征串联，利用SVM训练并测试消歧模型。

进一步的，所述Step1具体为：

Step1.1：对于Wiki语料库做分词处理，将每篇文档中非单词的符号去掉进行分词，转换为一篇文档一行的形式；

Step1.2：之后利用WordNet对语料库进行词形还原；

Step1.3：然后利用预设的停用词集合去掉语料库中所有停用词，生成新的Wiki语料库；

Step1.4：最后基于Wiki语料库，利用online LDA训练出主题模型，包括文档-主题概率分布p(t_i|d)和词-主题概率分布p(t_j|w)，其中，d表示当前文档，w表示当前单词，t_i表示第i个主题。

进一步的，所述Step2具体为：

Step2.1：根据主题模型的文档-主题概率分布p(t_i|d)获取每篇文档的主题分布，将每篇文档归类到概率最大的一个主题下，进而为每个主题生成各自的主题文档集D_t；

Step2.2：基于每个主题文档集，利用Word2Vec训练出每个文档集中每个单词的词向量，即为主题词向量

其表示主题t下单词w的向量表示。

进一步的，所述Step3具体为：

Step3.1：根据主题模型，由式(1)计算出歧义词上下文的主题分布：

其中，C为歧义词上下文，p(t|w_j)为单词w_j的主题分布；

Step3.2：根据得到的上下文主题分布p(t|C)和主题词向量

由式(2)计算出上下文中每个词的向量表示：

其中，K为预设的主题数量；

Step3.3：获得上下文中每个词的向量后，由式(3)计算出上下文的向量表示：

其中，d表示单词w_j和歧义词的距离，α表示衰减因子，此处取

进一步的，Step4具体为：

Step4.1：利用Stanford CoreNLP工具提取传统语义特征：词性标签、本地搭配和周边词；

Step4.2：将之前获取的上下文向量作为特征，与传统语义特征串联，利用SVM训练出消歧模型进行词义消歧。

一种基于LDA的主题词嵌入消歧***，包括：

主题模型训练模块，用于主题模型的构建，对大规模无标注的Wiki语料库做分词、词形还原和去停用词后，利用LDA训练出主题模型；

主题词向量生成模块，用于生成主题词向量，利用主题模型计算出Wiki语料库每篇文档的主题分布并据此归类到主题文档集，之后利用Word2Vec训练出每个主题下每个单词的向量表示；

上下文向量生成模块，用于生成上下文向量基于小规模有词义标注的SemCor语料库，利用主题模型和主题词向量计算出上下文向量；

有监督词义消歧模块，用于生成消歧模型，将上下文向量和其他传统语义特征串联，利用SVM训练并测试消歧模型。

本发明的有益效果是：本发明提出基于LDA的主题词嵌入消歧方法，考虑结合LDA和Word2Vec生成主题词向量，根据主题词向量进一步生成上下文向量，为不同主题的上下文生成不同的向量，相比单一的向量具有更加丰富的语义信息，因此能够获得比较明显的性能提升。

附图说明

图1是本发明的步骤流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种基于LDA的主题词嵌入消歧方法，具体步骤为：

进一步的，所述Step1具体为：

Step1.2：之后利用WordNet对语料库进行词形还原；

进一步的，所述Step2具体为：

其表示主题t下单词w的向量表示。

进一步的，所述Step3具体为：

其中，C为歧义词上下文，p(t|w_j)为单词w_j的主题分布；

Step3.2：根据得到的上下文主题分布p(t|C)和主题词向量

由式(2)计算出上下文中每个词的向量表示：

其中，K为预设的主题数量；

进一步的，Step4具体为：

一种基于LDA的主题词嵌入消歧***，包括：

实施例2：一种基于LDA的主题词嵌入消歧方法，包括：

主题模型训练步骤：

Step1.2：之后利用WordNet对语料库进行词形还原；

Step1.4：最后基于Wiki语料库，利用online LDA训练出主题模型，包括文档-主题概率分布p(t_i|d)和词-主题概率分布p(t_j|w)。其中，d表示当前文档，w表示当前单词，t_i表示第i个主题。

示例：

假设有语料库包含文档三篇：{“Anarchism draws on many currents ofthought and strategy.”，“Anarchism does not offer a fixed body of doctrinefrom a single particular world view，instead fluxing and flowing as aphilosophy.”，“Anarchism：A Very Short Introduction.”}。

(1)对语料库做去符号并进行分词后变为：{{“anarchism”，“draws”，“on”，“many”，“currents”，“of”，“thought”，“and”，“strategy”},{“Anarchism”,“does”,“not”,“offer”,“a”,“fixed”,“body”,“of”,“doctrine”,“from”,“a”,“single”,“particular”,“world”,“view”,“instead”,“fluxing”,“and”,“flowing”,“as”,“a”,“philosophy”},{“anarchism”,“a”,“very”,“short”,“introduction”}}；

(2)通过查询WordNet进行词形还原后变为：{{“anarchism”,“draw”,“on”，“many”,“current”,“of”,“think”,“and”,“strategy”},{“Anarchism”,“do”,“not”,“offer”,“a”,“fixed”,“body”,“of”,“doctrine”,“from”,“a”,“single”,“particular”,“world”,“view”,“instead”,“flux”,“and”,“flow”,“as”,“a”,“philosophy”},{“anarchism”,“a”,“very”,“short”,“introduction”}}；

(3)根据预设停用词集对前面的文档集合做去停用词处理后得到：{{“anarchism”,“draw”,“many”,“current”,“think”,“strategy”},{“Anarchism”,“offer”,“fixed”,“body”,“doctrine”,“single”,“particular”,“world”,“view”,“instead”,“flux”,“flow”,“philosophy”},{“anarchism”,“short”,“introduction”}}；

(4)基于以上处理后的语料库，利用online LDA并设定主题数K＝2，可以得到主题模型，其中，每篇文档的对2个主题的概率分布为：

document1:{0.918,0.082},

document2:{0.052,0.948},

document3:{0.152,0.848}；

每个单词对所有文档蕴含的2个主题的分布为：

anarchism:{topic1:0.49,topic2:0.506}

draw:{topic1:0.702,topic2:0.298}

……

introduction:{topic1:0.323,topic2:0.677}

主题词向量生成步骤：

Step2.1：根据主题模型的p(t_i|d)获取每篇文档的主题分布，将每篇文档归类到概率最大的一个主题下，进而为每个主题生成各自的主题文档集D_t；

Step2.1：基于每个主题文档集，利用Word2Vec训练出每个文档集中每个单词的词向量，即为主题词向量

其表示主题t下单词w的向量表示。

示例：

(1)根据前文所得的文档-主题分布，可以知道：

(2)通过Word2Vec算法，在每个主题下为每个单词生成各自的词向量：

(i)在topic1下的词向量：

……

(ii)在topic1下的词向量：

……

上下文向量生成步骤：

Step3.1：根据主题模型，由下式计算出歧义词上下文的主题分布：

其中，C为歧义词上下文，p(t|w_j)为单词w_j的主题分布；

Step3.2：根据前文所得到的上下文主题分布p(t|C)和主题词向量

由下式计算出上下文中每个词的向量表示：

其中，K为预设的主题数量；

Step3.3：获得上下文中每个词的向量后，根据“离歧义词越远的词越不能表达歧义词，离歧义词越近的词越能表达歧义词”的思想，并结合指数下降法，由下式可计算出上下文的向量表示：

示例：

对在句子“The offer in introduction is fixed.”中的歧义词“offer”：

(1)根据主题模型中的主题-词概率分布，利用以下式子可以计算出该句子的主题分布：

(2)得到上下文主题分布后，可以计算出在该上下文中每个词的向量表示：

(3)之后，根据上下文中每个词的向量表示，结合指数下降法，我们可以得到关于歧义词的上下文的向量表示：

有监督词义消歧步骤：

示例：

(1)对歧义词所在上下文利用Stanford CoreNLP提取的语义特征：

词性标签：{NOUN,NOUN,ADJ}

本地搭配：{(offer,introduction),(offer,fixed)}

周边词：{introduction,fixed}

(2)将所有特征串联，利用SVM训练出消歧模型：

Modeloffer＝SVM(词性标签，本地搭配，周边词，V_C)，

当需要对含有歧义词offer的句子消歧时，则根据以上步骤提取特征，最后用Modeloffer计算出正确词义。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。