CN108710650B

CN108710650B - 一种针对论坛文本的主题挖掘方法

Info

Publication number: CN108710650B
Application number: CN201810418998.5A
Authority: CN
Inventors: 田贤忠; 姚明超; 顾思义
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2021-08-03
Anticipated expiration: 2038-05-04
Also published as: CN108710650A

Abstract

一种针对论坛文本的主题挖掘方法，所述方法包括以下步骤：步骤1：爬取论坛的数据，利用文本处理手段找出大概率可能是无意义的回复，并做好标记；步骤2：对论坛文本按照句子切割，之后进行分词，根据词性删除无用的词，去停用词；步骤3：对现有的文本根据BBS‑LDA主题模型使用Gibbs Sampling进行参数估计，最终得到属于每个主题可能性最大的词语。本发明对论坛的这些特点，基于LDA提出一种新的主题模型BBS‑LDA，更有效地挖掘论坛文本中的主题，以提高论坛文本主题挖掘的能力。

Description

一种针对论坛文本的主题挖掘方法

技术领域

本发明属于文本挖掘领域，尤其涉及概率主题模型。

背景技术

如今，互联网正飞速地发展，网络已经成了网民接收和传播信息的主要途径。通过网络，每个网民都可以在极短的时间内获取到全国各地最新的事件，并实时地对这些事件发表自己的感想，也可以把自己了解到的事件分享给其他人。通过这些文本信息，可以做很多有意义的事情：政府可以通过微博或者论坛，获取人民最关心的民生问题，并做出合理的改进；股民可以通过挖掘股吧里面的讨论信息，了解到哪只股票最热，哪只股票最被网民看好，并对自己的投资策略做出调整；消费者可以通过查看其他用户对商品的评价来对商品有一个客观的了解，并判断这个商品是否适合自己。

如何从海量文本中提取出有价值的信息一直是一件很有挑战的事情。文本不同于一般的数值型数据，表示和处理起来都复杂很多。空间向量模型(Vector Space Model)把文本中的每个词语一个个映射到向量空间，这使得我们可以通过传统的数值型数据挖掘算法来处理文本，不过面对海量数据，会面临维度灾难。TF-IDF等方法利用了词的词频率信息和逆文档频信息，能够实现快速提取文章的关键字，不过单纯以词频度量词的重要性，不够全面，而且不能够处理同义词的情况。近年来，主题模型在文本挖掘中得到了不错的运用，其中最具有代表性的就是潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)。如今，已经有许多针对不同语料特点改进的LDA模型被用在了情感分析，舆情控制，个性化推荐上。

对于论坛文本，因为其本身具有一些结构化信息，使用原始的LDA模型并不能够最大化地利用文本信息来挖掘主题。其次，论坛里面可能会存在大量的短回复和很多水帖，短回复会造成词的稀疏性，水帖会给主题挖掘带来很多噪音，这些因素都极大地影响了LDA在论坛上的建模效果。

发明内容

为了克服现有文本挖掘方法的无法有效挖掘论坛文本中的主题的不足，本发明针对论坛的结构特点，基于LDA提出一种新的主题模型BBS-LDA，更有效地挖掘论坛文本中的主题。

为了解决上述技术问题，本发明提供如下的技术方案：

一种针对论坛文本的主题挖掘方法，所述方法包括以下步骤：

步骤1：爬取论坛的数据，利用文本处理手段找出大概率可能是无意义的回复，并做好标记；

步骤2：对论坛文本按照句子切割，之后进行分词，根据词性删除无用的词，去停用词；

步骤3：对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计，最终得到属于每个主题可能性最大的词语。

进一步，所述步骤3中，所述BBS-LDA主题模型中，BBS-LDA将同一个帖子中的回复聚集在一起，并把回复切分成句；对于属于同一个帖子的句子，其主题是从同一个主题分布采样而来，且句子中的每个词所属的主题和句子的主题一致；同时，每个句子都有一定的概率被采样为无意义的句子，每个词都有一定的概率被采样为背景词，所述背景词与句子的主题无关，且这些概率与发表该回复的用户有关。

再进一步，所述BBS-LDA主题模型的参数估计过程为：

(3.1)采样第p个帖子中第s个句子所对应的标记变量r_p,s和句子的主题z_p,s公式如下：

当r_p,s＝1时，句子主题为k的概率计算如下：

其中，Γ()是gamma函数，Γ(x+1)＝xΓ(x)，

表示当前正在采样的句子中的词v属于主题k的个数，

是一个向量，一共有二维，

表示用户u发表的有意义的句子的个数，

表示用户u发表的无意义的句子(水帖)的个数，S_u表示用户u所发的句子的数目，

是一个向量，一共k维，

表示第p个帖子中主题为k的句子的个数。Q_p表示第p个帖子中有意义的句子的个数。

一共V维，R^(v)表示单词v属于无意义词的个数，R表示无意义的词的个数。

是一个向量，有V维，表示语料库中每个单词属于主题k的个数。下标带有

表示语料库排除当前采样句子的计数；

r_p,s＝0的概率计算如下：

其中，C表示当前采样句子中无意义词的个数，C^(v)表示当前采样句子中的词v属于无意义词的个数；

(3.2)采样句子中的每个词的标记变量t的公式如下：

词x属于背景词的概率计算如下：

其中，

有二维，

表示用户u发表的词中属于背景词的数量。

表示用户u发表的词中不属于背景词的词的数量。

有V维，O^(v)表示单词v属于背景词的数量，O表示所有背景词的数量。

词x不属于背景词的概率计算如下：

如果该单词所在的句子对应的标志变量r_p,s＝1，且z_p,s＝k

如果该单词所在的句子对应的标志变量r_p,s＝0

(3.3)当模型收敛的时候，各个单词属于每个主题的概率计算如下：

更进一步，所述步骤1包括以下步骤：

步骤11：通过爬虫爬取论坛中的文本，爬取的内容包括回复的内容，回复的用户，该条回复所对应的帖子的id(主帖也被当成一条回复，回复的用户为楼主)；

步骤12：对于字数小于10的回复，使用Jieba分词工具分词，统计高频词，并人工筛选出一份词典。包含词典里面的词的短回复很可能就是无意义的回复，并做好标记；

步骤13：对每个用户遍历其所有回复，通过Simhash找出相似度高的回复，如果相似度高的回复计数大于3，这些回复很有可能是广告或者无意义的回复，并做好标记。

进一步，所述步骤2包括以下步骤：

步骤21：对论坛中的所有回复按照“。”、“！”、“？”和换行进行切割，把长回复分割成一个个句子，句子的作者为原来回复的作者，如果该句子所在的回复在步骤1已经被标记为无意义回复，则该句子也属于无意义的句子。

步骤22：对所有句子使用Jieba分词工具分词，根据词性删除数字、标点、语气词等不包含语义的词性，并删除停用词。

本发明适用于论坛文本。论坛文本特指由一个个帖子组成的文本，通常一个帖子里面的所有回复讨论的都是相似的东西，每条回复都包含回复和内容和回复的作者等信息。通过利用回复的作者的信息和帖子中讨论内容相似的信息，我们可以更好地挖掘文本的主题。

本发明的有益效果表现在：更有效地挖掘论坛文本中的主题，以提高论坛文本主题挖掘的能力。

附图说明

图1是本文提出的BBS-LDA的图模型。

具体实施方式

下面结合附图对本发明做进一步说明。

参照图1，一种针对论坛文本的主题挖掘方法，包括以下步骤：

步骤1：爬取论坛的数据，利用一些文本处理手段找出大概率可能是无意义的回复，并做好标记；

步骤1主要是为了获取数据和给模型提供部分监督信息，帮助我们更好地对论坛文本进行建模。论坛的垃圾回复主要有两种，第一种是一些过短回复，基本不包含什么语义，只是为了顶贴或者水帖而发表的回复。第二种是一些推广。

所述步骤1包括以下步骤：

步骤2是文本处理的一般处理过程。论坛文本中的回复有长有短，LDA对短文本效果不太好，我们在这里选择把回复切分成句，每个句子中的词语属于同一个主题。

所述步骤2包括以下步骤：

所述BBS-LDA主题模型见图1。其生成过程如下：

假设数据集中一共有P个帖子，第p个帖子中一共有S_p个句子，每个句子中的词的数目标记为N，主题数为K，用户数为U。同一个帖子中的句子属于同一个主题分布θ，主题分布θ以α为参数的Dirichlet先验分布中产生。对于每个句子，我们先采样标记变量r，根据r的结果来决定该句子属于无意义的句子还是有意义的句子(r＝0为没意义个句子，r＝1为有意义的句子)。这个r由二项分布π中采样，对于每个用户，π是不同的，因为有些用户可能水帖比较多，有些用户不太会水帖，这种情况因人而异。如果句子有意义，则其主题Z从主题分布θ中采样。对于句子中的每个词语，根据标记t来判断其为主题词还是背景词(t＝0为主题词，t＝1为背景词)。t由二项分布η中采样，对于不同用户，η也是不同的。如果该词语为主题词，则该词语从对应句子主题的词分布

或者

中采样产生，如果该主题为背景词，则从背景词词的词分布

中采样产生。主题词词分布

由以β为参数的Dirichlet先验分布中产生，背景词词分布

由以β_b为参数的Dirichlet先验分布中产生，垃圾回复词的词分布

由以β_r为参数的Dirichlet先验分布中产生。

Gibbs Sampling的推导过程如下：

首先，我们需要推导每个句子属于对应主题的概率。为了简化这个问题，我们可以先忽略句子中的背景词，因为背景词与主题无关。根据图1所示的图模型，我们可以知道整个文本集的生成概率为：

其中，

表示主题模型的超参数，这些超参数需要我们凭经验人工进行选择，

表示语料的词向量，

表示语料每个句子的标记变量，r＝1表示该句子是有意义的，与主题相关，r＝0表示该句子与主题不相关。

是当前采样中每个句子所属的主题向量。

我们可以先看公式(1)的第三项，把第三项展开：

其中，

指的是从以β为参数的Dirichlet分布中采样

所以

Dir()指的是Dirichlet分布，

指的是从以

为参数的多项分布中采样w，所以

其中，

表示单词v属于主题k的概率，

指的是语料库中单词v属于主题k的个数。

把公式(3)和(4)代入公式(2)之后，我们可以得到：

其中，

是一个向量，有V维，表示语料库中每个单词属于主题k的个数。

同理，我们可以得到：

其中，

是一个向量，一共有二维，

表示用户u发表的有意义的句子的个数，

表示用户u发表的无意义的句子(水帖)的个数，S_u表示用户u所发的句子的数目。

是一个向量，一共k维，

在采样过程中，对于一个句子，我们先采样r，然后根据r判断句子是不是有意义的，如果有意义，从以α为参数的Dirichlet分布中再采样z，否则句子直接属于无意义主题，我们把无意义主题记为z_r，则此时P(z_r|r＝0)＝1。

所以，整个文本集生成的概率为：

由此，我们可以开始采样第p个帖子中第s个句子所对应的标记变量r_p,s和句子的主题z_p,s。

当r_p,s＝1时，句子主题为k的概率计算如下：

其中，Γ()是gamma函数，Γ(x+1)＝xΓ(x)。

表示当前正在采样的句子中的词v属于主题k的个数。下标带有

表示语料库排除当前采样句子的计数。

r_p,s＝0的概率计算如下：

其中，C表示当前采样句子中无意义词的个数，C^(v)表示当前采样句子中的词v属于无意义词的个数。

之后，我们对句子中的每个词进行采样(单词计为x,单词的序号为i)。

我们现在考虑文本集的时候不忽略背景词。则文本集的生成概率为：

因为此时句子的主题已经采样好了，所以对于单词，上式中的前两项与单词是否是背景词的概率无关，把它记为(*)。

与式子(5)的推导相同，可以得到：

其中，

有二维，

表示用户u发表的词中属于背景词的数量。

表示用户u发表的词中不属于背景词的词的数量。

代入，可得：

词x属于背景词的概率为：

如果该单词所在的句子对应的标志变量r_p,s＝1，且z_p,s＝k，同理可得：

如果该单词所在的句子对应的标志变量r_p,s＝0，同理可得：

等采样收敛之后，因为Dirichlet分布和多项分布共轭，各个隐藏变量的估计值如下：

BBS-LDA主题模型的采样过程如下：

1).随机初始化语料集中每个句子对应的r(r＝1表示该句子有意义，与主题相关，r＝0表示该句子无意义)。如果句子在步骤1已经被标记过属于无意义的句子，则该句子对应的r＝0。如果r＝1,则随机初始化该句子的主题k。对于一条回复中的每个词，随机初始化t(t＝0表示该词语是背景词，t＝1表示该词语是有意义的词)。

2).循环做以下操作，直到收敛：对于每个句子，如果它在步骤1已经被标记过是无意义的句子，则跳过，否则通过公式(11)和公式(12)采样出该句子的新的r和对应的主题。对于句子中的每个词，通过公式(17),(18)和(19)来采样该词对应的t。

3).根据公式(23)计算每个词属于每个主题的概率。

4).对于每个主题，对每个词属于该主题的概率进行排序，取出有可能属于该主题的20个词。

Claims

1.一种针对论坛文本的主题挖掘方法，其特征在于，所述方法包括以下步骤：

步骤3：对现有的文本根据BBS-LDA主题模型使用Gibbs Sampling进行参数估计，最终得到属于每个主题可能性最大的词语；

所述步骤3中，所述BBS-LDA主题模型中，BBS-LDA将同一个帖子中的回复聚集在一起，并把回复切分成句；对于属于同一个帖子的句子，其主题是从同一个主题分布采样而来，且句子中的每个词所属的主题和句子的主题一致；同时，每个句子都有一定的概率被采样为无意义的句子，每个词都有一定的概率被采样为背景词，所述背景词与句子的主题无关，且这些概率与发表该回复的用户有关；

所述BBS-LDA主题模型的参数估计过程为：

当r_p,s＝1时，句子主题为k的概率计算如下：