CN108052593A

CN108052593A - 一种基于主题词向量和网络结构的主题关键词提取方法

Info

Publication number: CN108052593A
Application number: CN201711315360.0A
Authority: CN
Inventors: 胡晓慧; 李超; 曾庆田; 戴明弟; 赵中英
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2017-12-12
Filing date: 2017-12-12
Publication date: 2018-05-18
Anticipated expiration: 2037-12-12
Also published as: CN108052593B

Abstract

本发明公开了一种基于主题词向量和网络结构的主题关键词提取方法，具体涉及从文本中提取关键词技术领域。该基于主题词向量和网络结构的主题关键词提取方法基于LDA主题模型对文本语料进行主题聚类，并获得每个主题中与该主题相关度为top100的100个关键词；利用word2vec将文本语料中的每个词表示为一个词向量，通过计算获得每两个词之间的语义相似度，分别计算出与关键词中的每个关键词在语义上相似度top5的词，关键词和每个关键词在语义上相似度top5的词共同组成新的关键词集合；构建关键词网络，并获得每个集合top 20的词作为该主题的关键词。该方法既能对文档中词频较高的关键词进行提取，又可以有效地发现词频较低但是与主题关系强的关键词。

Description

一种基于主题词向量和网络结构的主题关键词提取方法

技术领域

本发明涉及从文本中提取关键词技术领域，具体涉及一种基于主题词向量和网络结构的主题关键词提取方法。

背景技术

随着表示学习技术在自然语言处理领域广泛应用，应用word2vec进行词语的向量表示，能够很好的描述和获取词语的语义及语法规则，同时，主题模型能够很好的解释文档层级的主题聚集情况。因此，目前融合主题模型及主题关键字的词向量表示的研究越来越广泛。

LDA主题模型：在提出的各种主题模型中，LDA是能够概括主题分布的生成模型。LDA是一个三级分层的贝叶斯模型，其中集合的每个项目被建模为潜在的主题集合上的有限混合，相反，每个主题也被模拟为一组潜在的主题概率的无限混合。在文本建模的上下文中，主题概率提供了文档的显示表示。LDA的建模过程可以被描述为每个资源(即P(z|d))找到对应的主题混合，每个主题由另一概率分布(即P(t|z))来描述。这可以被形式化地表示为：

LDA是使用范围很广的主题模型，多数其他的主题模型都是基于LDA进行扩展。但从整体来看LDA抽取的关键词一般过于宽泛，不能较好反映文章主题，因此本发明提出的方法是创新的。

word embedding：词嵌入是根据句法和语义信息将每个词编码为连续向量(词向量)，因此相似的词在其词向量上的距离是相近的。从自然文本中统计并建立一个语言模型并获得词向量后，可以将其作为神经网络的输入来进行句法分析、情感分析等，也可以作为辅助特征扩充现有模型。但是仅有词向量是无法识别文本预料中的主题的，必须将其与主题模型相结合。

现有无监督的关键词提取技术主要包括TF-IDF，Topic model，TextRank等方案。其技术缺点主要体现在以下几个方面：

TF-IDF是一种用于信息检索与数据挖掘的常用加权技术，是对搜索关键词重要性的度量，应用于文本关键词的提取同样获得较好的效果。但是TF-IDF是基于词频和关键词概率分布的交叉熵，即是不考虑词出现的先后顺序的，没有考虑文本中每个词与上下文之间的关系。

广泛使用的Topic model如LDA等能较好的从文档中挖掘出主题，但是其抽取的关键词过为宽泛，有很多是词频较高但与主题无关的词，不能较好的反应主题，所以作为关键词是不合适的。

TextRank算法是一种用于文本的基于图的排序算法，将文本拆分为句子，利用词在文本中上下文的共现关系来建立图模型，根据图模型中的PageRank值来提取关键词。该算法在考虑了词频和词共现关系的基础上，能简洁有效的提取单篇文档的关键词，但是无法对多篇文档的主题进行识别和聚类，因而无法对特定主题下文档的关键词进行提取。

发明内容

本发明的目的是针对上述不足，提出了一种将主题模型LDA与Word embedding相结合，利用相似度的网络传播来提取同一主题文本的关键词，既能对文档中词频较高的关键词进行提取，又可以有效地发现词频较低但是主题关系强的关键词的关键词提取方法。

本发明具体采用如下技术方案：

如图1所示，一种基于主题词向量和网络结构的主题关键词提取方法，具体包括：

对原始的文本语料进行分词；

基于LDA主题模型对文本语料进行主题聚类，并获得每个主题中与该主题相关度为top100的关键词集合KeywordsSet₁＝{k₁，...，k₁₀₀}；

利用word2vec将文本语料中的每个词表示为一个词向量，通过计算词向量之间的余弦值获得每两个词之间的语义相似度；

分别计算出与关键词集合KeywordsSet₁中的每个关键词在语义上相似度top5的词，关键词集合KeywordsSet₁中的词及其在语义上相似度top5的词共同组成新的关键词集合KeywordsSet₂；

以关键词集合KeywordsSet₂中的每个关键词为节点，词与词之间的语义相似度的倒数为边的权重，构建关键词网络，并根据每个节点的PageRank值获得关键词集合KeywordsSet₂中top20的词作为该主题的关键词，构成最终的关键词集合KeyordsSet_final。

优选地，所述分词，即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取，分词的结果作为word2vec的输入时去掉特殊符号；作为LDA的输入时，去掉虚词、无法作为主题关键词的地名以及与主题无关的重复的介词。

优选地，基于LDA主题模型对文本语料进行主题聚类，在语言建模中使用perplexity来衡量建模效果好坏，即较低的perplexity表示更好的泛化性能，perplexity计算式如下：

其中，P(w_i|t_j)是词w_i在主题t_j上的分布，P(t_j|d)是主题t_j在文档d上的分布，N是语料库中无重复的词总数，K是主题数，i＝1，...，N,j＝1，...，K。

优选地，在所述词向量生成过程中，以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。

优选地，所述关键词网络构建过程中，构建步骤具体包括：

S1：利用词向量之间的余弦关系，计算在同一主题下与主题聚类步骤中获得的初始关键词语义相似度top5的词，去重并与关键词集合KeywordsSet₁形成新的关键词集合KeywordsSet₂；

S2：计算每个主题下，关键词集合KeywordsSet₂中每个词两两之间的相似度，其倒数作为两点之间的权重；

S3：设置阈值，过滤相似度低于阈值的边；

S4：构建每个主题的关键词网络；

S5：主题关键词提取：关键词网络构建完成后，计算每个主题网络中PageRank值从高到低的top20个节点，将其对应的词作为该主题的关键词集合KeywordsSet_final。

本发明具有如下有益效果：

本发明首先基于LDA主题模型对文本语料进行聚类；其次，利用word2vec将文本预料中的每个词表示为一个词向量；然后，获得每个关键词在该主题的文档中相似度top5的词，共同组成新的关键词集合。最后，以关键词为节点，词之间的相似度为边的权重，构建关键词网络，获得网络的核心节点作为该主题的关键词；

该方法将主题模型LDA与Word embedding相结合，利用相似度的网络传播来提取同一主题文本的关键词，不仅可以对文档中词频较高的关键词进行提取，同时可以有效地发现词频较低但是主题关系强的关键词；

该方法在考虑词频的基础上根据词向量关系对关键词进行二次发现，将词频不高但语义相近的词纳入关键词的备选集合中，可以合理的扩大关键词的选择范围，使得最终获得的同一主题下的关键词在语义上联系更紧密；

该方法引入词向量并基于词向量之间的距离进行网络构建能更准确地找出在同一主题下词义相近的关键词，从而获得更准确的结果。

附图说明

图1为基于主题词向量和网络结构的主题关键词提取方法流程图；

图2为困惑度(perplexity)曲线图；

图3为教学类通知的关键词分布图；

图4为评优类通知的关键词分布图；

图5为图书馆类通知的关键词分布图。

具体实施方式

下面结合附图和具体实施例对本发明的具体实施方式做进一步说明：

对原始的文本语料进行分词；

以关键词集合KeywordsSet₂中的每个关键词为节点，词与词之间的语义相似度的倒数为边的权重，构建关键词网络，并根据每个节点的PageRank值获得关键词集合KeywordsSet₂中top20的词作为该主题的关键词，构成最终的关键词集合KeywordsSet_final。

分词，即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取，分词的结果作为word2vec的输入时去掉特殊符号；作为LDA的输入时，去掉虚词、无法作为主题关键词的地名以及大量与主题无关的重复的介词。

如图2所述，基于LDA主题模型对文本语料进行主题聚类，在语言建模中使用perplexity来衡量建模效果好坏，即较低的perplexity表示更好的泛化性能，perplexity计算式如下：

其中，P(w_i|t_j)是词w_i在主题t_j上的分布，P(t_j|d)是主题t_j在文档d上的分布，N是语料库中无重复的词总数，K是主题数，i＝1，...，N,j＝1，...，K。改变topic数量，通过计算不同主题数下数据集的perplexity来获得最佳主题数目。

选择曲线拐点处的数量值能够使得数据集的perplexity值较小且主题数量不至于过多。然后获得每篇文档的主题分布和每个主题下的词分布，选择每个主题下LDA值排名top100个词作为初始的关键词集合。

在词向量生成过程中，以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。本方案中选择CBOW模型将窗口大小设置为5来预测当前枢纽词的概率，并选择负采样算法通过逻辑回归来区分目标词以及抽取噪声分布。表1(word2vec模型训练参数设置)给出了训练过程中的关键参数的说明和默认值。

表1

最终可以获得文本中所有词的高维向量表示，并可以利用该词向量模型获得所有词之间的相似度关系，即语义上的距离。

关键词网络构建过程中，构建步骤具体包括：

S3：设置阈值，过滤相似度低于阈值的边；阈值选择不同的值对应的不同结果如表2：

表2

1/similarity	Topic similarity
		0.05	0.41
0.1	0.44
		0.15	0.48
0.2	0.49
		0.25	0.52
0.3	0.59
		0.35	0.55
0.4	0.57
		0.45	0.56
0.5	0.52
		0.55	0.50

由表可以看出阈值选择0.3(即similarity＞3.33)时同一主题下关键词之间的凝聚度更高。

S4：构建每个主题的关键词网络；

S5：主题关键词提取：关键词网络构建完成后，计算每个主题网络中PageRank值从高到低的top20个节点，将其对应的词作为该主题的关键词组成新的关键词集合KeywordsSet_final。

如图3-图5所示，本发明的方案通过实验的方式，先爬取了某高校2002年至2017年共9802条校内公告的新闻，分词处理后，经过主题挖掘、词向量计算、关键词网络构建等步骤，对主题关键词进行提取，并将结果与传统主题模型LDA获得的关键词进行比较。

其中颜色深的词表示能较好反应主题的词，颜色越浅表示该词与主题的相关程度越低。字越大表示在该方法下排名越靠前。可以看出，使用本发明的方法可以在综合词频和语义的情况下更好地提取出能代表该主题的关键词。

当然，上述说明并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换，也应属于本发明的保护范围。

Claims

1.一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，具体包括：

对原始的文本语料进行分词；

2.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，所述分词，即将获取的原始文本分割成词序列以便后续主题聚类和关键词提取，分词的结果作为word2vec的输入时去掉特殊符号；作为LDA的输入时，去掉虚词、无法作为主题关键词的地名以及与主题无关的重复的介词。

3.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，基于LDA主题模型对文本语料进行主题聚类，在语言建模中使用perplexity来衡量建模效果好坏，即较低的perplexity表示更好的泛化性能，perplexity计算式如下：

<mrow> <mi>p</mi> <mi>e</mi> <mi>r</mi> <mi>p</mi> <mi>l</mi> <mi>e</mi> <mi>x</mi> <mi>i</mi> <mi>t</mi> <mi>y</mi> <mo>=</mo> <msup> <mi>e</mi> <mfrac> <mrow> <mo>-</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </msubsup> <msubsup> <mi>log&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </msubsup> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>w</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>*</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>j</mi> </msub> <mo>|</mo> <mi>d</mi> <mo>)</mo> </mrow> </mrow> <mi>N</mi> </mfrac> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

4.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，在所述词向量生成过程中，以标题和内容的混合文本的分词结果作为输入获得每个词的词向量表示模型的过程。

5.如权利要求1所述的一种基于主题词向量和网络结构的主题关键词提取方法，其特征在于，所述关键词网络构建过程中，构建步骤具体包括：

S3：设置阈值，过滤相似度低于阈值的边；

S4：构建每个主题的关键词网络；