CN103530402A

CN103530402A - 一种基于改进的PageRank的微博关键用户识别方法

Info

Publication number: CN103530402A
Application number: CN201310502924.7A
Authority: CN
Inventors: 程工; 刘春阳; 张旭; 庞琳; 吴俊杰; 韩洋; 刘洪甫; 韩小汀
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2013-10-23
Filing date: 2013-10-23
Publication date: 2014-01-22

Abstract

本发明公开了一种基于改进的PageRank的微博关键用户识别方法，包括输入微博信息数据，其中包括n条微博；对n条微博文本进行分词处理；根据分词结果建立倒排索引结构，便于根据指定关键词检索；根据检索到的相关微博提取其转发层级信息，构建加权有向图即转发网络G；将转发网络G划分为若干个极大连通子图G_i；利用并行化计算技术在每个子网络G_i应用PageRank算法；将各个子网络的计算结果融合生成整个网络生成整个网络G的排序结果；将排序结果选择前m条作为关键用户输出。本发明采用并行计算技术，在大数据环境下针对微博平台的动态转发网络进行排序计算，从而识别信息传播过程中的关键用户，应用于网络舆情分析等领域。

Description

一种基于改进的PageRank的微博关键用户识别方法

技术领域

本发明涉及微博关键用户识别方法，特别是一种基于改进的PageRank的微博关键用户识别方法，属于复杂网络和数据挖掘领域，特别针对海量的微博数据分析。

背景技术

微博平台关键用户是对信息的传播与扩散起到重要作用的用户。关键用户在大众传播效果的形成过程中起着重要的中介或过滤的作用，他们将信息扩散给受众，形成信息的级联传播。因此，关键用户的识别在信息的发现以及传播分析方面起到重要的作用，对于网络舆情分析等工作具有重大指导意义。然而，基于内容的关键用户识别，由于微博短文本的特点往往不够准确；基于结构的关键用户识别，即认为由用户构成的网络结构中关键用户均是重要节点，并且只考虑静态的关注粉丝关系网络，但由于相关度、用户活跃度等原因导致很多重要节点并不具备关键用户的特征。有鉴于此，本发明结合内容和网络结构两方面特点，利用微博平台中的转发信息构建主题相关的动态网络，将关键用户的识别转化为有向图上基于PageRank的排序问题。另外，考虑到微博平台具有海量数据的特点，动态生成的网络往往规模巨大，并且需要即时计算结果，因此传统的幂迭代算法在计算时间与空间上的消耗都难以满足需求。采用并行计算技术可以将大规模的计算分解到若干可扩展的计算节点上，降低了算法的时空复杂度以及对于单节点的计算能力的要求，特别适合在云计算平台上部署与应用。所以本发明采用MapReduce实现PageRank并行计算，在大数据环境下针对微博短文本信息进行挖掘，从而识别信息传播过程中的关键用户。

发明内容

本发明提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心，从微博文本结构提取转发信息构建由转发关系形成的网络，进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络，从一定程度上克服由短文本、相关性、静态网络结构导致的劣解；多个动态转发网络通过PageRank分别计算后进行组合提高计算效率和算法鲁棒性。一种基于改进的PageRank的微博关键用户识别方法，包括如下步骤：

步骤1：利用网络爬虫和微博API收集互联网上的微博客数据，主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。

步骤2：将微博数据中的文本数据进行分词处理。

步骤3：停用词移除、词干提取。

步骤4：构建倒排索引结构，便于快速从关键词检索微博。

步骤5：动态转发网络的构建，针对每一条转发的微博提取其转发层级信息，如图2所示，包括从原创作者到发表作者以及之间传播经过的用户，由此构建有向网络，节点为用户，边为转发的关系，这里是将信息流相反的方向作为边的方向，边的权重为转发出现的次数，方向为作者指向其转发的作者，最终形成的数据结构为加权有向图。

步骤6：转发网络的分解，将转发网络G划分为若干个极大连通子图，对于每一个子网络G_i，赋予其权重，即W_i＝V(G_i)/V(G)，其中V(G)代表图G中的节点数。

步骤7：并行迭代，求解子网络中每个节点的PageRank（pr）值。

（1）初始阶段，对于每个子网络G_i的每一个节点v赋予初始PageRank值pr_i0(v)＝1/V(G_i)。

（2）迭代阶段，利用MapReduce并行技术计算子网中各节点PageRank值，其计算公式为pr_ik＝((1-d)E/n+dA_i ^T)pr_ik-1，其中k为当前迭代阶段；d为阻尼系数，一般设为0.85；n为网络中的节点数；E为全1向量；A_i为子网络G_i的邻接矩阵。迭代的终止条件可以为k达到指定的阈值或两次迭代产生的结果差值小于指定的阈值，即|pr_ik-pr_ik-1|＜ε。

步骤8：排序结果的融合，将每个子网络G_i的排序结果pr_i，乘以其权重W_i，再将每个子网络的结果合并最后得到G的排序结果pr。

步骤9：结果排序输出，将pr按照值排序，输出用户重要度排序列表，前m个用户即为关键用户。

本发明利用动态转发关系构建用户网络，并将多个动态转发网络排序结果进行融合，大大提高大数据环境下微博平台关键用户识别的效率和质量，还具有很强的鲁棒性。本发明的方法能够克服短文本以及静态网络结构的缺点，能有效提高网络舆情分析的效率。

附图说明

图1为本发明的整体框架图。

图2为转发信息示例图。

图3为动态网络图。

图4为MapReduce示意图。

具体实施方式

下面将结合附图和具体实施实例对本发明做出进一步的说明。

本发明提出一种基于改进的PageRank的微博平台关键用户识别方法。该方法以PageRank为核心，采用MapReduce并行计算技术克服微博大数据的计算效率低的问题，从微博文本结构提取转发信息构建由转发关系形成的网络，进而利用PageRank最终获得具有高鲁棒性和高质量的关键用户识别结果。利用转发关系可以得到查询相关的质量较高的动态转发网络，从一定程度上克服由短文本、相关性、静态网络结构导致的劣解；多个动态转发网络通过PageRank分别计算后进行组合提高结果的鲁棒性。

一种基于改进的PageRank的微博平台关键用户识别方法，分为三个模块：数据收集与预处理模块，动态转发网络构建模块和PageRank计算与融合模块，其中数据收集与预处理模块包括数据收集、处理、停用词移除、提取词干和生成倒排索引等过程，动态转发网络构建模块利用微博信息提取转发关系构建转发网络，PageRank计算与融合模块包括转发网络划分、PageRank计算、计算结果融合以及最后的排序和输出，具体实施过程如下：

1.利用网络爬虫和微博API收集互联网上的微博客数据，主要包括微博的作者信息、文本信息、原创作者信息以及时间信息。以新浪微博为例，本发明在通过API获取数据阶段可能需要的字段包括：

其中一条转发微博的部分数据结构(JSON格式)如下：

此外需要注意的是对于这里的retweeted_staus项，不一定是用户直接转发的微博，但肯定是溯源微博，即是信息传播的发起点，即图2转发信息中的用户E。

2.将微博数据中的文本数据进行分词处理。

3.停用词移除、词干提取。

4.构建倒排索引结构，便于快速从关键词检索微博。

5.动态转发网络的构建，针对每一条转发的微博提取其转发的层级信息，包括从原创作者到发表作者以及之间传播经过的用户，由此构建有向网络，节点为用户，边为转发的关系，需要注意的是将信息流相反的方向作为边的方向，边的权重为转发出现的次数，方向为作者指向其转发的作者，最终形成的数据结构为加权有向图。下面以图3为例具体说明转发网络的构建过程。

该图中共有2条转发信息，共涉及A、B、C、D和E共5个用户，图中每一条边代表转发关系，如A->B表明A转发了B的信息，该条边上的权重为A转发了B的信息的次数，在该图中为2次。

6.转发网络的分解，将转发网络G划分为若干个极大连通子图，对于每一个子网络G_i，赋予其权重，即W_i＝V(G_i)/V(G)，其中V(G)代表图G中的顶点数。

7.子网络并行计算。

（1）初始阶段，对于每个子网络G_i的每一个节点v赋予初始值pr_i0(v)＝1/V(G_i)。

（2）迭代阶段，PageRank原始公式为pr_ik＝((1-d)E/n+dA_i ^T)pr_ik-1，其中k为当前迭代阶段；d为阻尼系数，一般设为0.85；n为网络中的节点数；E为全1向量；A_i为子网络G_i的邻接矩阵。迭代的终止条件可以为k达到指定的阈值或两次迭代产生的结果差值小于指定的阈值即|pr_ik-pr_ik-1|＜ε。

普通的PageRank算法收敛速度很慢，当数据规模非常大时，会大大降低算法的执行效率。本发明通过MapReduce计算模型，将算法求解的问题转化为若干个小问题，用于在不同的计算节点做分布式并行计算，最后再做归并汇总。下面结合图3介绍MapReduce并行计算PageRank的原理。

MapReduce的核心数据结构为“键值对”结构，这里用＜Key,Value＞表示。其中Key代表键，Value代表值。

在本发明中，将网络中的节点看作是键，即

将每一个节点的pr值及其出度节点作为值，即Value_i＝(pr_i,outlinks(v_i,G))，其中outlinks(v,G)示节点v在图G中的出度节点，如图4中的输入阶段所示。最后将整个动态转发网络结构转化为行的集合，其中每一行为一个键值对。即

RowData = \begin{matrix} < {Key}_{1}, {Value}_{1} > \\ < {Key}_{i}, {Value}_{i} > \\ . . . . . . \\ < {Key}_{n}, {Value}_{n} > \end{matrix}

MapReduce的核心计算过程可以理解为下面两个步骤：

（a）映射(Map)：将一对键值对通过转发关系与另一个或几个键值对应，如下所示：

< {Key}_{0}, {Value}_{0} > {< {Key}_{1}, {Value}_{1} >, < {Key}_{2}, {Value}_{2} >,}_{&DoubleRightArrow;}^{M} < {Key}_{3}, {Value}_{3} > . . .

其中M是映射函数。

（b）化简(Reduce)：将若干个具有相同键的键值对合并将它们的值化简，如下所示：

＜Key₁,Value₁＞

< {Key}_{1}, {Value}_{2} > &DoubleRightArrow; < {Key}_{1}, R ({Value}_{1}, {Value}_{2}, {Value}_{3}) >

＜Key₁,Value₃＞，

其中R是化简函数

值得注意的是，其中化简(Reduce)过程中生成的结果也是键值对的集合，可以继续用于做映射(Map)过程的输入，这为实现一些迭代算法提供了可能。

在本应用中，映射过程将网络中的节点的出度节点作为新的键，将节点的PageRank值除以出度节点的总数量作为新的值，生出新的键值对，即

< {Key}_{i}, {Value}_{i} > &DoubleRightArrow; < {Key}_{j}, {pr}_{i} / count (outlinks (v_{i}, G)) >, &ForAll; v_{j} &Element; outlinks (v_{i}, G) .

在化简过程中，对于每一个键，其值为指向该键所对应的节点的所有链接的PageRank值之和，即

\begin{matrix} < {Key}_{i}, {Value}_{1} > \\ < {Key}_{i}, {Value}_{2} > &DoubleRightArrow; < {Key}_{i}, (1 - d) / N + d * \underset{j}{Σ} {Value}_{j} > \\ < {Key}_{i}, {Value}_{3} > \end{matrix}

其中d为PageRank算法的阻尼系数，一般设置为0.85，N为网络中节点的总数目。

最后化简结果又可以作为下一次映射的输入，由此可以不断进行迭代，直到达到终止条件。需要注意的是，在上述过程中没有将节点的出度节点信息在映射-化简中传递，实际是需要在映射中不光生成节点的新pr值，也要保存其原始的结构关系。

（3）融合阶段，将每个子网络G_i的排序结果pr_i，乘以其权重W_i，再将每个子网络的结果合并最后得到G的排序结果pr。

8.结果排序输出，将pr按照值排序，得到节点即关键用户的排序列表，pr值越大，表明该用户越重要。

本发明提出了一种基于改进的PageRank的微博平台关键用户识别方法，该方法结合了内容和动态网络的结构信息，对用户进行排序，并采用MapReduce并行技术加快运行速度。该方法从一定程度上克服由短文本、相关性、静态网络结构导致的劣解；多个动态转发网络通过PageRank分别计算后进行组合提高结果的鲁棒性。

尽管本发明的实施方案公开如上，但其不仅仅限于说明书和实施方案中所列运用，它完全可以被适用于各种适合本发明的领域，对于本领域的人员而言，可容易地实施另外的修改，因此，在不背离权力要求及等同范围所限定的一般概念下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.基于改进的PageRank的微博关键用户识别方法，其特征在于，包括以下步骤：

步骤一，输入微博信息数据，其中包括n条微博的用户、文本、时间信息等；

步骤二，根据含有m个词汇的预设词库，对n条微博的文本进行分词处理；

步骤三，根据分词后的结果建立倒排索引结构，便于根据指定关键词检索；

步骤四，根据检索到的相关微博提取其转发层级信息，构建加权有向转发网络G；

步骤五，将转发网络G划分为若干个极大连通子图G_i；

步骤六，在各个子网络上分别采用并行计算技术，应用PageRank算法得出各个子网络的排序结果后再融合；

步骤七，排序结果输出。

2.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，所述步骤一中的微博信息数据来源于在互联网、微博平台API上抓取一预设时间段内的微博信息数据。

3.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，对每条微博的文本进行分词处理都包括以下步骤：

1）去掉文本中的停止词；

2）根据预设词库中的词汇，按照文本文字从前到后的顺序，对文本中的文字进行分词拆分。

4.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤三中建立微博分词结果到微博之间的倒排索引，方便根据关键词检索指定微博。

5.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤四中，根据微博文本的信息提取其转发层级信息，构建加权有向图。

6.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤五中，将转发网络分解为若干个极大连通子图，并为每个子网络赋予权值。

7.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤六中，在各个子网络采用PageRank算法。

8.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤六中，在各个子网络采用基于MapReduce计算模型的并行计算技术来实现PageRank算法。

9.如权利要求1所述的基于改进的PageRank的微博关键用户识别方法，其特征在于，在权利要求1所述步骤六中，在各个子网络的计算结果融合后形成整个转发网络的排序计算结果。