CN107330557A

CN107330557A - 一种基于社区划分和熵的舆情热点跟踪及预测方法与装置

Info

Publication number: CN107330557A
Application number: CN201710530245.9A
Authority: CN
Inventors: 刘昕; 王丰; 曹帅; 王奕文; 邹苹钧
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2017-06-28
Filing date: 2017-06-28
Publication date: 2017-11-07

Abstract

本发明实施例提供了一种舆情热点跟踪及预测的方法。本发明基于社区划分与关键词的信息熵计算，首先，根据用户关注的舆情热点，构建相似关系网络，分析其网络特征，并对相似关系网络进行社区划分，分析社区内节点的特征，获取每个社区的Hub节点；然后，实时关注并获取Hub节点网络主页；最后，对获取到的实时文本数据进行词的信息熵计算分析，从而实现对舆情热点的跟踪及预测。本发明实施例还提供了一种舆情热点跟踪及预测装置。本发明实施例提供的技术方案能够减少对海量冗余社交网络数据的处理，准确跟踪舆情热点并及时预测后续热点，为实时舆情预警和决策提供支持。

Description

一种基于社区划分和熵的舆情热点跟踪及预测方法与装置

技术领域

本发明涉及一种基于社区划分和熵的舆情热点跟踪及预测方法，特别涉及一种基于社区划分和熵的舆情热点跟踪及预测方法与装置。

背景技术

随着社交网络的普及，人们可以随时随地的获取信息和发表言论。因为社交网络的方便性和实时性，使其成为公众网络舆论的主要平台。随着社交网络用户的大量增加，社交网络已经积累形成了社交大数据，其中包含着海量舆情数据。舆情分析能够为政府和相关单位及时了解民意，反映社会信息，控制引导舆论正确的发展，对社会稳定和国家发展至关重要。大数据环境下如何对海量的社交网络数据进行快速的分析，实现舆情发现、是当前政府、企业和科研机构的一个研究热点。

热点跟踪与预测是研究如何追踪热点话题的后续发展动态信息、预测热点漂移形成新热点话题的技术。其主要任务为，监测并分析后续舆情数据中与已知话题的相关性，预测后续热点话题。

目前，国内外常用的话题跟踪技术主要有K近邻算法(KNN)、支持向量机(SVM)和朴素贝叶斯算法(NBC)。通过这些方法对热点话题进行分类，实现跟踪及预测。KNN理论上很成熟，简单易实现，且分类准确性较高，但其假设待分类的各类别分布均匀，而真实数据的分布千差万别，而且KNN对于大量数据处理速度较慢，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点，计算量较大。SVM方法是通过一个非线性映射p，把样本空间映射到一个高维乃至无穷维的特征空间中，使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题，SVM可以有效避免过度拟合问题，是当前最好的分类器之一，但SVM是基于二值分类，随着类别的增加，其复杂度也会相应地增加。NBC具有坚实的数学基础，在算法效率上较为稳定，但它假设文本中所有特征词汇都是相互独立的，真实文档中，特征词汇中具有很强的关联性，从而使得其分类误差率较大。

为了进行舆情数据文本分类，研究者通常通过将特征关键词转化为空间向量模型，进而对文本之间进行相似度计算，相似度计算方法主要有内积、余弦距离、Correlation距离等。

但面对大量的社交网络舆论数据时，传统的方法不再适用，在处理海量短文本数据时，由于数据量庞大，其不同类别数据的分布比重也十分不均匀，分类算法很难精准分类到中心结果，且速度非常慢，无法达到准确且实时跟踪及预测舆情热点目的。

信息熵是用来衡量一个随机变量出现的期望值，熵值越大它出现的各种情况也就越多，也就是包含的内容多，也就是需要更多的信息才能确定这个变量。我们将文档中一个词左右搭配的词的期望定义为这个词的信息熵，公式为：

H(w)＝-∑plogp

其中，w为待求信息熵的词，p为该词左右出现不同词的概率。如果一个词的信息熵较大，则这个词的左右搭配比较丰富，该词在本文中比较关键。在舆情文本数据中，舆情热点关键词的信息熵通常较大。

发明内容

为了解决现有的技术问题，本发明提供了一种基于社区划分和熵的舆情热点跟踪及预测方法，本发明基于社区划分与关键词的信息熵计算，根据用户关注的舆情热点构建相似关系网络；分析其网络特征，对相似关系网络进行社区划分，并分析社区内节点的特征，获取所有社区内的Hub节点；实时关注获取Hub节点网络主页内容；对获取到的实时数据进行信息熵分析，从而实现对舆情热点的跟踪及预测。进而实现减少对大量冗余数据处理的开销，及时准确地跟踪及预测舆情热点，为舆情预警和决策提供有力支撑。

本发明所采用的技术方案如下：

一种基于社区划分和熵的舆情跟踪与预测方法，其包括以下部分：

A、根据用户对热点话题的关注兴趣，构建相似关系网络，并对相似网络的结构特征进行分析，对相似网络进行社区划分，并分析社区内节点的特征，获取社区内多个Hub节点(连接数最多的节点)；

B、因社区中Hub节点关注的热点话题数量较多，实时关注Hub节点用户，并获取其网络主页实时数据；

C、对获取的每篇用户主页文档利用自然语言处理(NLP)工具进行分词、去除停用词处理，然后计算每个词的信息熵，并按信息熵大小排序；

D、根据每篇文档排序结果中n个TOP关键词，确定该文档所属的舆情热点，实现对舆情热点的跟踪，将排序靠前的，没有出现在已有热点关键词中的m个词作为对后续热点的预测，从而完成热点话题的跟踪及预测；

E、组合多个社区中Hub节点的n个关键词并排序形成跟踪关键词集，组合多个社区中Hub节点m个关键词并排序形成预测关键词集。

部分A中，是以用户为节点，用户之间的相似性为边构建一种无向带权相似关系网络，该相似关系网络具有小世界性、集群性和无标度性。对相似关系网络进行社区划分，将关注相同话题或具有相似兴趣爱好的用户划分到同一社区，计算社区内节点的度数中心度、介数中心度和接近中心度，选取度数中心度大的节点作为社区内的Hub节点。

部分B中，若Hub节点含有较少的关键词，根据权利要求2相似网络构建原理，若仅让关键词包含于该Hub节点中关键词的节点与该Hub节点相连，则Hub节点的连接节点数较少，Hub节点度数非常小，与Hub节点的定义(Hub节点具有较多的连结数)矛盾；同理，若普通节点含有较多关键词，则存在较多节点与之相连，其度数较大，该节点将归为Hub节点，因此，相似性网络中，相对于普通节点，Hub节点关注较多的热点话题。

部分C中，信息熵是对信息量化的概念，用来衡量一个随机变量出现的期望值，一个变量的信息熵越大，那么他出现的各种情况也就越多，也就是包含的内容多。词的信息熵计算，定义为一个词左右相邻词出现的期望值，一个词的信息熵越大，则表示与该词左右搭配的词越丰富，其在文档中的地位越重要，为文档的关键词；反之越不重要，不是关键词。

部分D中，将每篇文档中n个TOP关键词与已有的舆情热点关键词进行匹配，从而确定该文档所属的舆情热点，将未匹配到的前m个关键词作为热点话题的后续预测，其中，n和m的值通过多次实验分析取得。

部分E中，将组合成的跟踪关键词集和预测关键词集，形成舆情热点话题，与已有的热点话题进行对比，分析舆情热点的发展与演化。

另一方面，本发明提供了一种基于社区划分和熵的舆情跟踪与预测装置，包括以下模块：

社区划分与Hub节点获取模块：根据用户对热点话题的关注兴趣，构建相似关系网络，并对相似网络结构特征进行分析，对相似网络进行社区划分，分析社区内节点的特征，获取社区内Hub节点；

Hub节点实时数据获取模块：实时关注Hub节点用户，并获取其网络主页实时数据；

信息熵计算模块：对获取的每篇用户主页文档利用NLP工具进行分词、去除停用词处理，然后计算每个词的信息熵，并按信息熵大小排序关键词；

舆情热点跟踪及预测模块：根据每篇文档排序结果中n个TOP关键词，确定该文档所属的舆情热点，实现对舆情热点的跟踪，将没有出现在已有热点关键词中的前m个关键词作为对后续热点的预测。

本发明提供的技术方案以及获取装置带来的有益效果是：

本发明通过构建相似关系网络，将用户话题关注兴趣映射到相似关系网络中，通过分析，对相似关系网络进行社区划分，将相同话题关注爱好的用户划分到同一社区，实现对舆论发布者聚类。通过对社区节点特征分析，选取社区内Hub节点，爬取其主页上的实时数据，进行信息熵分析，从而实现减少对大量冗余数据的处理。通过对主页文本进行信息熵计算并排序，根据文本中信息熵较大的TOP关键词，确定文本所属已有热点，实现舆情热点的跟踪，将信息熵较大且不是热点的关键词作为后续热点，从而实现对热点的预测。

附图说明

为了更清楚的说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一种基于社区划分和熵的舆情跟踪与预测方法的相似关系网络图。

图2为本发明的一种基于社区划分和熵的舆情跟踪与预测方法的对相似关系网络进行社区划分图。

图3为本发明的一种基于社区划分和熵的舆情跟踪与预测方法的舆情热点跟踪及预测图。

图4为本发明的一种基于社区划分和熵的舆情跟踪与预测装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

本实施例的基础在于，事先收集最近的TOP舆情热点，并通过网络爬虫爬取含有10000个用户节点的新浪微博网络主页文本数据。

每个用户关注的舆情热点关键词不同，首先，对10000个用户节点的微博文本数据进行TOP关键词匹配，生成用户-关键词矩阵A，其中，A_i＝[010100001111…0011]，表示用户i对TOP关键词的关注，1表示用户关注此关键词，0表示用户不关注，将A_i矩阵乘以A_j矩阵的转置矩阵，T_ij＝A_i*A_j ^T，其中T_ij为用户i和j之间相同关键词个数，作为用户间相似性距离，将具有相同关键词的节点进行连接，将相似性距离作为权值，从而构建相似关系网络N＝{V，{E}}；对相似关系网络进行分析，计算其网络密度、平均路径长度、聚类系数以及度分布指标。

利用聚类算法对相似关系网络进行社区划分，初始将每一个节点看做一个社区，设置社区划分阈值y，将相似性距离大于y的节点划分到同一社区，直到没有任何两个节点之间的相似性距离达到相似度阈值为止，得到社区集合{C₁，C₂，C₃,…}。

对每个社区内的节点进行度数中心度、介数中心度和接近中心度计算，每个社区C_j内选取度较高的k个节点作为Hub节点，得到相似关系网络所有的Hub集合{H₁，H₂，H₃,…}。

实时关注所有Hub节点的微博主页数据，并利用网络爬虫爬取节点用户主页实时数据，获得实时文档数据集{D₁，D₂，D₃，…}；

对于文档集中每一篇文档D_k，利用NLP工具进行分词处理，根据词的信息熵公式，计算文档中每个词的信息熵，并排序，将信息熵较大的n个TOP词与收集到的当前TOP舆情热点关键词进行匹配，从而确定与该文档D_k所相关的舆情热点，从而实现舆情热点的跟踪；匹配后，将未匹配到的前m个关键词作为对后续热点的预测，以实现舆情热点的预测。

将所有社区中的n个TOP词集和m个关键词集分别排序组成跟踪关键词集和预测关键词集，形成舆情热点话题，与已有的热点话题进行比较，分析得出舆情热点的发展与演化情况。

实施例中，y、k、n、m值的选取通过多次实验获得。

Claims

1.一种基于社区划分和熵的舆情跟踪与预测方法，其包括以下部分：

A.根据用户对热点话题的关注兴趣，构建相似关系网络，并对相似网络的结构特征进行分析，对相似网络进行社区划分，并分析社区内节点的特征，获取社区内多个Hub节点(连接数最多的节点)；

B.因社区中Hub节点关注的热点话题数量较多，实时关注Hub节点用户，并获取其网络主页实时数据；

C.对获取的每篇用户主页文档利用自然语言处理(NLP)工具进行分词、去除停用词处理，然后计算每个词的信息熵，并按信息熵大小排序；

D.根据每篇文档排序结果中n个TOP关键词，确定该文档所属的舆情热点，实现对舆情热点的跟踪，将排序靠前的、没有出现在已有热点话题中的m个关键词作为对后续热点的预测，从而完成热点话题的跟踪及预测；

E.组合多个社区中Hub节点的n个关键词并排序形成跟踪关键词集，组合多个社区中Hub节点m个关键词并排序形成预测关键词集。

2.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法，其特征在于，所描述的部分A中，是以用户为节点，用户之间的相似性为边构建一种无向带权相似关系网络，该相似关系网络具有小世界性、集群性和无标度性。对相似关系网络进行社区划分，将关注相同话题具有相似兴趣爱好的用户划分到同一社区，计算社区内节点的度数中心度、介数中心度和接近中心度，选取度数中心度大的节点作为社区内的Hub节点。

3.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法，其特征在于，所描述的部分B中，若Hub节点含有较少的关键词，根据权利要求2相似网络构建原理，若仅让关键词包含于该Hub节点中关键词的节点与该Hub节点相连，则Hub节点的连接节点数较少，Hub节点度数非常小，与Hub节点的定义(Hub节点具有较多的连结数)矛盾；同理，若普通节点含有较多关键词，则存在较多节点与之相连，其度数较大，该节点将归为Hub节点，因此，相似性网络中，相对于普通节点Hub节点关注较多的热点话题。

4.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法，其特征在于，所描述的部分C中，信息熵是对信息量化的概念，用来衡量一个随机变量出现的期望值，一个变量的信息熵越大，那么他出现的各种情况也就越多，也就是包含的内容多。词的信息熵计算，定义为一个词左右相邻词出现的期望值，一个词的信息熵越大，则表示与该词左右搭配的词越丰富，其在文档中的地位越重要，为文档的关键词；反之越不重要，不是关键词。

5.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法，其特征在于，所描述的部分D中，将每篇文档中n个TOP关键词与已有的舆情热点关键词进行匹配，从而确定该文档所属的舆情热点，将未匹配到的前m个关键词作为热点话题的后续预测，其中，n和m的值通过多次实验分析取得。

6.根据权利要求1中所描述的一种基于社区划分和熵的舆情跟踪与预测方法，其特征在于，所描述的部分E中，将组合成的跟踪关键词集和预测关键词集，形成舆情热点话题，与已有的热点话题进行对比，分析舆情热点的发展与演化。

7.一种基于社区划分和熵的舆情跟踪与预测装置，包括以下模块：

Hub节点实时数据获取模块：实时关注Hub结点用户，并获取其网络主页实时数据；