CN108596205A

CN108596205A - 基于地域相关因子与稀疏表示的微博转发行为预测方法

Info

Publication number: CN108596205A
Application number: CN201810231543.2A
Authority: CN
Inventors: 吴渝; 张宏斌; 李红波; 储伟; 林江鹏; 艾伟东
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2018-03-20
Filing date: 2018-03-20
Publication date: 2018-09-28
Anticipated expiration: 2038-03-20
Also published as: CN108596205B

Abstract

本发明请求保护一种基于主题地域相关因子与稀疏表示的微博转发行为预测方法，主要涉及机器学习及社交网络信息分析领域。首先，基于社交网络中用户关系以及用户行为数据，提取用户基本特征、微博基本特征、用户活跃度、用户的亲密程度、融入主题地域相关因子的用户兴趣度特征。其次，通过稀疏表示分类算法对特征组进行微博转发行为预测。本发明有效解决了目前微博转发行为预测计算时间长，准确率不高的问题。

Description

基于地域相关因子与稀疏表示的微博转发行为预测方法

技术领域

本发明属于社交网络信息分析领域以及机器学习领域，主要涉及一种社交网络转发预测方式。

背景技术

微博，即微型博客的简称，是一种通过关注机制分享实时信息的广播式的社交网络平台。其具有便捷性、背对脸、原创性、草根性的特点，同时具有反腐、打拐、营销、自媒体等效应。

转发是微博的一个重要机制。微博网络中，信息的传播主要是通过微博的转发实现的。当微博上某用户发布一条博文，该博文会被推送给该用户的全部粉丝，而当其粉丝看到这条博文后，可以选择转发这条博文，***会将此博文再推送给这个粉丝用户的全部粉丝。微博信息通过用户的转发行为在微博平台上实现了持续的传播。因此，研究微博的转发行为对研究信息在微博中传播，比如微博用户行为和兴趣、突发事件预测、控制敏感信息、网络舆情监控、产品营销、以及用户推荐等方面具有重要意义。

在微博转发行为预测中，能采集到的特征众多，而数据集中存在本身与预测无关的特征以及冗余特征，如果选择了几乎不具辨别能力的特征，将导致设计的预测模型性能低下，但若是选择的特征具有充分辨别能力，则会极大提高预测模型的预测精度。

近年来，针对微博转发行为预测准确率不高，特征选择任意性的问题，国内外学者展开了广泛和深入的研究。Petrovic等人通过人工实验证明了微博转发预测的可行性，然后利用改进的passive-aggressive算法预测转发，但正确率仅为46.6％。Morchid等人的研究表明选取的特征如果有较高的辨别能力，预测算法的性能会得到有效的提高。张旸等人提出了一种微博转发行为预测的方法。首先将微博转发转换为二元分类问题，然后使用支持向量机(Support Vector Machine，SVM)算法对加权后的各特征进行训练，但该模型未考虑个性化的用户兴趣特征，且预测命中率仅有85.9％，以及算法执行时间长。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种提高预测准确率、减少预测执行时间的基于地域相关因子与稀疏表示的微博转发行为预测方法。本发明的技术方案如下：

一种基于地域相关因子与稀疏表示的微博转发行为预测方法，其包括以下步骤：

步骤1：从数据中提取用户基本特征、微博基本特征；

步骤2：通过已提取的用户及微博基本特征计算用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度；

步骤3：对步骤2的包括用户活跃度、用户的亲密程度、基于主题地域相关因子的用户兴趣度在内的多维数据特征进行特征筛选；

步骤4：筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果。

进一步的，所述步骤1从数据中提取用户基本特征、微博基本特征具体包括：

步骤1.1：提取用户基本特征：用户昵称、用户所在地、用户姓名、用户粉丝数、用户关注数、用户微博数、用户创建时间；

步骤1.2：提取微博发布时间、微博具体内容、微博是否为转发、是否分享图片、是否含有链接、微博来源、微博转发数、微博评论数以及微博被赞数。

进一步的，所述步骤2用户的亲密程度为

其中，r_ij表示用户i转发j的微博消息数，c_ij表示用户i评论j的微博消息数，a_ij表示i提及用户j的次数；

所述用户活跃度为

其中，PA为发表活跃度，RA为转发活跃度，n为用户在时间t内发表的微博数量，r_i为用户第i天转发的微博数量，p_i为用户第i天发送的数量。

进一步的，所述步骤2中用户兴趣度引入主题地域相关因子，

融入主题地域相关因子的用户兴趣度表示为：

其中，I表示用户兴趣度，S表示兴趣相近度，T表示主题地域相关因子。

进一步的，所述主题地域相关因子计算公式为：

其中，Z_m表示微博m的主题词语集合，∩表示交集R表示接收用户的所在地区；

所述兴趣相近度为

其中，I表示用户兴趣空间，J表示新微博特征空间。∪表示并集。

进一步的，所述主题地域相关因子采用隐含狄利克雷主题模型LDA，生成文档的主题词；

根据隐含狄利克雷分布主题模型的生成过程，词语w_m,n的生成概率为：

θ_m表示文档m的主题分布，表示主题k的词分布，t表示词语t，w_m,n表示文档m的第n个词语，k表示主题k，z_m,n表示为微博m的第n个单词的主题

而LDA模型生成文档m及产生N_m个单词的生成概率为：

α表示文档中隐含主题间的强弱关系，β表示隐含主题的概率分布，表示文档m中第n个单词的词分布，w_m表示文档m的所有词语

多篇微博文档形成语料集，似然计算如下：

以每个用户发布的微博内容为文本预料，先进行预处理，再训练微博主题模型找出核心词语。预处理流程为，先根据“结巴分词”对源内容进行分词，其次去除停用词和标点符号，接着英语单词词干化。设置参数α，β，K从而构建主题模型。K表示主题数量

进一步的，所述步骤3是采用主成分分析方法对已有特征数据降维去噪。

进一步的，所述步骤4)筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果，具体包括：

稀疏表示分类(Sparse Representation based Classification，SRC)是通过借助超完备字典，用尽可能少的信号来表示原有信号，其中许多数值约为零的系数被丢弃，并通过最小重构误差来分类。

min||x||₀subject to Ax＝y(11)

其中，||x||₀表示x中非零元素的个数，A为字典，y为待处理信号。显然我们希望x尽可能稀疏，即||x||₀尽可能小。通过L₀范数表示稀疏性，在计算实现上复杂，因此将L₀范数转换为L₁范数处理，如式(12)。

min||x||₁subject to Ax＝y (12)

因此，L₁范数的求解可以转变为最优凸近似问题，可以通过L₁正则近似得到，如式(13)。

式(13)是数理模型中的Lasso问题，可以看做是正则最小二乘问题。

SRC分类算法流程如下：

1)输入训练样本集A＝[A₁,A₂,...,A_k]∈R^m*n，测试样本y∈R^m；

2)归一化矩阵A的列，为L₂范式；

3)解决L₁范式最小化问题：

min||x||₁subject to||Ax-y||₂≤ε，其中ε为重构误差值；

4)计算残差：

r_i(y)＝||y_r-Aδ_i(x)||₂＝||y_r-ε-Aδ_i(x)||₂，i＝1,2，其残差最小的i，则i为y的分类。本发明的优点及有益效果如下：

本发明提出地域相关因子改进用户兴趣度特征，用户兴趣评价不再完全依赖用户历史微博信息从而提高了微博转发预测的准确率。其次，本发明提出使用稀疏表示分类(SRC)进行微博转发预测，提高了转发预测率并且降低了计算耗时。

附图说明

图1是本发明提供优选实施例基于主题地域相关因子与稀疏表示的微博转发行为预测方法整体流程图。

图2为支持向量机下主题地域相关因子有无的准确率比较图；

图3为基于地域相关因子模型的不同算法准确率比较图；

图4为不同预测算法不同数据量的预测耗时对比图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

图1为本发明基于主题地域相关因子与稀疏表示的微博转发行为预测方法整体流程图，包括如下步骤：

步骤1：从数据中提取用户基本特征、微博基本特征。

步骤1.1：提取用户基本特征：用户昵称、用户所在地、用户姓名、用户粉丝数、用户关注数、用户微博数、用户创建时间。

步骤1.2：微博发布时间、微博具体内容、微博是否为转发、是否分享图片、是否含有链接、微博来源、微博转发数、微博评论数、微博被赞数。

步骤2：基于提取的基本特征计算用户活跃度、用户的亲密程度和基于主题地域相关因子的用户兴趣度。

步骤2.1：通过用户间转发、评论、提及的数量，使用式(1)，计算用户的亲密度。

步骤2.2：统计用户的转发数量、原创数量，通过式(2)、式(3)，计算用户的活跃度。

步骤2.3：对用户的历史微博内容进行预处理，使用”结巴分词”进行分词处理，再去除停用词，得到用户兴趣空间I。对新微博进行以上相同处理，得到微博特征空间J。根据式(5)计算兴趣相近度，式(6)计算主题相关因子，最终根据式(4)计算用户兴趣度。

所述用户的亲密程度为

其中，r_ij表示用户i转发j的微博消息数，c_ij表示用户i评论j的微博消息数，a_ij表示i提及用户j的次数。

所述用户活跃度为

作为本发明的进一步改进，所述用户兴趣度为

所述兴趣相近度为

其中，I表示用户兴趣空间，J表示新微博特征空间。

进一步的，所述主题地域相关因子采用隐含狄利克雷主题模型(LDA)，生成文档的主题词。

而LDA模型生成文档m及产生N_m个单词的生成概率为：

多篇微博文档形成语料集，似然计算如下：

以每个用户发布的微博内容为文本预料，先进行预处理，再训练微博主题模型找出核心词语。预处理流程为，先根据“结巴分词”对源内容进行分词，其次去除停用词和标点符号，接着英语单词词干化。设置参数α，β，K从而构建主题模型。

所述，主题地域相关因子为

其中，Z_m表示微博m的主题词语集合，R表示接收用户的所在地区。

作为本发明的进一步改进，采用稀疏表示分类作为预测的算法。虽然支持向量机作为传统的算法，能够很好的解决多维数据的二分类问题，但是面对数据量大、维数高的问题，就显得不足了。稀疏表示分类法可以使用尽可能少的原子来表示信号，然后利用最小重构误差来分类，计算时间相对缩短而预测准确率进一步提高。

步骤3：对多维数据特征使用主成分分析进行特征筛选；

步骤4：筛选后的特征组通过稀疏表示算法进行转发预测,得到最终预测结果。预测效果如图3、图4所示。本发明方法主要解决目前微博转发行为预测计算时间长，准确率不高的问题。实验数据特征包括提取的用户基本特征、微博基本特征、以及之后使用基于主题地域相关因子的用户兴趣度特征等多个合成特征；其次，使用主成分分析法对特征数据进一步筛选处理；最后，基于筛选后的数据，使用稀疏表示分类作为微博转发行为预测算法，实现计算速度快、预测结果好的微博转发行为预测。

图2，支持向量机下主题地域相关因子有无的准确率比较图，证明了基于主题地域相关因子的模型有较好的预测效果。

图3，基于地域相关因子模型的不同算法准确率比较图，说明相同转发行为特征下，稀疏表示方法预测准确率更好。

图4，不同预测算法不同数据量的预测耗时对比图，说明稀疏表示算法在数据量大的转发预测中，计算耗时少的优越性更加明显。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，包括以下步骤：

步骤1：从数据中提取用户基本特征、微博基本特征；

2.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述步骤1从数据中提取用户基本特征、微博基本特征具体包括：

3.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述步骤2用户的亲密程度为

所述用户活跃度为

4.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述步骤2中用户兴趣度引入主题地域相关因子，

融入主题地域相关因子的用户兴趣度表示为：

5.根据权利要求4所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述主题地域相关因子计算公式为：

其中，Z_m表示微博m的主题词语集合，∩表示交集。R表示接收用户的所在地区；

所述兴趣相近度为

6.根据权利要求5所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述主题地域相关因子采用隐含狄利克雷主题模型LDA，生成文档的主题词；

θ_m表示文档m的主题分布，表示主题k的词分布，t表示词语t，w_m,n表示文档m的第n个词语，k表示主题k，z_m,n表示为微博m的第n个单词的主题；

而LDA模型生成文档m及产生N_m个单词的生成概率为：

α表示文档中隐含主题间的强弱关系，β表示隐含主题的概率分布，表示文档m中第n个单词的词分布，w_m表示文档m的所有词语；

多篇微博文档形成语料集，似然计算如下：

以每个用户发布的微博内容为文本预料，先进行预处理，再训练微博主题模型找出核心词语。预处理流程为，先根据“结巴分词”对源内容进行分词，其次去除停用词和标点符号，接着英语单词词干化。设置参数α，β，K从而构建主题模型，K表示主题数量。

7.根据权利要求1所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述步骤3是采用主成分分析方法对已有特征数据降维去噪。

8.根据权利要求4所述的基于地域相关因子与稀疏表示的微博转发行为预测方法，其特征在于，所述步骤4)筛选后的特征组通过稀疏表示分类算法进行转发预测,得到最终预测结果，具体包括：

稀疏表示分类SRC是通过借助超完备字典，用尽可能少的信号来表示原有信号，其中许多数值约为零的系数被丢弃，并通过最小重构误差来分类；

min||x||₀subject to Ax＝y (11)

其中，||x||₀表示x中非零元素的个数，A为字典，y为待处理信号。显然我们希望x尽可能稀疏，即||x||₀尽可能小。通过L₀范数表示稀疏性，在计算实现上复杂，因此将L₀范数转换为L₁范数处理，如式(12)；

min||x||₁subject to Ax＝y (12)

因此，L₁范数的求解可以转变为最优凸近似问题，可以通过L₁正则近似得到，如式(13)：

式(13)是数理模型中的Lasso问题，可以看做是正则最小二乘问题；

SRC分类算法流程如下：

1)输入训练样本集测试样本y∈R^m；

2)归一化矩阵A的列，为L₂范式；

3)解决L₁范式最小化问题：

min||x||₁subject to||Ax-y||₂≤ε，其中ε为重构误差值；

4)计算残差：

r_i(y)＝||y_r-Aδ_i(x)||₂＝||y_r-ε-Aδ_i(x)||₂，i＝1,2，其残差最小的i，则i为y的分类。