CN105893637A

CN105893637A - 大规模微博异构信息网络中的链接预测方法

Info

Publication number: CN105893637A
Application number: CN201610478367.3A
Authority: CN
Inventors: 李川; 李旺龙
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2016-06-24
Filing date: 2016-06-24
Publication date: 2016-08-24

Abstract

本发明涉及互联网技术领域，提供一种大规模微博异构信息网络中的链接预测方法，该方法包括：按预设策略对用户进行过；从网络中抽取若干链接，正例集合为E_T，负例集合为E_F；在E‑E_T‑E_F网络中计算E_T∪E_F中所有节点的特征以及链接的特征，并将节点的特征转换为链接关系的特征；将E_F∪E_T分为训练集、验证集和测试集，在训练集上训练模型，在验证集上选择使预测结果最优的模型超参数，得到最终模型h_θ(x)和阈值θ；将测试集中任意一条链接关系带入模型，即可得到该链接关系产生的概率P。实验表明本发明提供的方法较基于局部信息相似性和路径相似性的方法的曲线下面积和F值有明显提升，且具备更好的最大K准确率稳定性。

Description

大规模微博异构信息网络中的链接预测方法

技术领域

本发明属于互联网技术领域，特别涉及一种大规模微博异构信息网络中的链接预测方法。

背景技术

目前，随着移动互联网的迅猛发展，搜索引擎、门户媒体、社交网络等的广泛应用，互联网已逐步成为一个包含海量信息的平台。新浪微博是国内最广泛使用的微博***，自2009年上线起，注册用户数已突破5亿。用户在微博***中可以发微博(类似一条消息，字数为140以内)、评论微博、转发微博等。微博中的链接关系包含好友关系、关注关系、@关系等。这些关系均为有向关系，可表示为一个有向图。微博是一种典型的异构信息网络。用户和微博可看作网络中的节点，用户间、用户与微博间可有不同类型的链接关系。不同类型的边代表不同的链接类型，人像图为用户，圆角矩形为微博。

链接预测是当前信息网络研究中的热点问题，旨在关注如何通过已知的网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的概率。链接预测在不同的场景中有不同的应用和价值。例如，在犯罪份子网络中，链接预测可用来发现潜在的犯罪分子；在社交网络中，链接预测可指示用户间建立好友关系的可能性，为用户提供好友推荐。另外，链接的产生隐含着网络结构的演化，抓住链接关系产生规律往往能揭示网络的演化趋势。

常用的链接预测方法多是基于节点相似性进行链接预测，这些相似性包括用户属性相似性、局部拓扑结构相似性和路径相似性等。节点间的相似性越高，链接关系的产生概率越大。然而，在微博这类在线社交网络中***中，仅凭借相似性很难刻画用户间链接关系产生的普遍规律。这主要因为

(1)网络中的信息传播会对链接关系的产生有巨大影响，微博中用户链接关系的产生往往是基于微博的发出与转发，微博被转发的次数与该微博的发出者被其他用户看到的概率成正比。

(2)社会学中的重要规律现象，如马太效应、二八定律等，很难用相似性简单表征。在社会网络中占据较多资源或者处于较核心地位的人，会利用资源优势扩充自己的资源。对微博中的链接关系而言，粉丝较多的用户，会吸收更多的粉丝。

传统链接预测方法多基于网络中节点的相似性，如节点属性相似性、局部拓扑结构中相关节点的相似性或路径相似性等。然而，这些相似性仅能刻画网络某些方面的特征，且与网络节点间新链接关系的产生无已证实的直接相关性。

发明内容

【要解决的技术问题】

本发明的目的是提供一种大规模微博异构信息网络中的链接预测方法，该方法综合基于相似性的特征和用户质量，而且能适用于大数据场景。

【技术方案】

本发明是通过以下技术方案实现的。

本发明涉及一种大规模微博异构信息网络中的链接预测方法，该方法包括步骤：

A、按预设策略对用户进行过滤，过滤后网络中边的集合为E；

B、从网络中抽取若干链接，其中正例集合为E_T，负例集合为E_F；

C、在E-E_T-E_F网络中计算E_T∪E_F中所有节点的特征以及链接的特征，并将节点的特征转换为链接关系的特征，最终链接关系的特征集为X；

D、将E_F∪E_T分为训练集、验证集和测试集，在训练集上训练模型，在验证集上选择使预测结果最优的模型超参数，得到最终模型h_θ(x)和阈值θ；

E、将测试集中任意一条链接关系带入最终模型h_θ(x)，即可得到该链接关系产生的概率P，当P>θ时，预测该链接关系将会产生，否则预测该链接关系不会产生。

作为一种优选的实施方式，所述步骤A按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。

作为另一种优选的实施方式，所述步骤C中节点特征包括入度和出度方向的杰卡得系数、链接关系强度。

作为另一种优选的实施方式，所述步骤C采用Spark计算入度和出度方向的杰卡得系数、链接关系强度。

作为另一种优选的实施方式，所述步骤D中求解最终模型h_θ(x)和阈值θ的方法为：初始化决策边界和损失函数，其中决策边界为：

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}},

损失函数为：

其中m为训练集的大小，n为回归参数的数量，x⁽ⁱ⁾为第i个训练数据，θ_j为第j个回归参数，λ为正则化参数；采用随机梯度下降法对损失函数进行求解得到最终模型h_θ(x)和阈值θ。

下面对本发明进行详细说明。

问题定义与数据描述

属性图是对异构信息网络图结构的一种灵活的表示，其定义如下：

定义1.(属性图)(Property Graph)G(P)＝(V；E；P)是一个三元组，其中，

(1)V＝{1,2,3,…n}表示图中节点的集合，E为图中有向边的集合。

(2)有向边(i,j)∈E将源点i∈V与终点j∈V连接起来。

(3)P_V(i)为节点i∈V的属性，P_E(i,j)为边(i,j)∈E的属性，所有属性的集合用P＝(P_V,P_E)表示。

属性可以为任何类型的数据(图像，文本以及对象等)，而且可在使用相同图结构组合不同属性而得到不同的图。例如，原始图表示为G(V；E；P)，对属性作一个映射f(P)→P′，产生一个新的图G(V；E；P′)，它和原始图保持相同的图结构。在微博异构信息网络中可以通过对节点类型过滤，将微博节点过滤掉，从而高效利用原图的索引存储结构，构建关于用户的同构信息网络属性图。图1为一个属性图示例。

数据描述

本发明研究的数据取自WISE(Web Information System Engineering)2012Challenge中的新浪微博数据集。该数据集包括用户关系数据(约13G)和用户微博数据(约63G)，包含58,478,875个用户，265,580,802条链接关系和369,797,719条微博。用户关系数据以(A,B)形式表示，代表一条由A指向B的边，即A关注B。通过对微博数据进行初步抽取，得到微博属性详见表1。

表1.微博数据的特征表

链接预测的形式化定义

定义G(V；E；P)为一个属性图，其中V为节点集合，E为有向边集合，P为节点和边的属性集合。网络总节点数为N，边数为M。网络共有N*(N-1)条有向边，即全集U。通过一种链路预测的方法，对节点对(x,y)∈(U\E)所表示的有向边赋予一个分数值S_xy，分值越大表示有向边产生的概率越大。

针对微博异构信息网络，可描述为：设G(V；E；P)为一个微博属性图，其中V为节点集合，包括微博和用户这两类；E为有向边的集合，包括用户与微博的链接关系(用户发微博、用户转发微博)以及用户与用户的链接关系(关注)；P为各类节点与连边的属性。预测不存在的链接关系(用户与微博，或者用户与用户)产生的概率。

本发明研究目标为探索预测用户间链接关系的方法。因此，需对微博属性图进行一次映射f(G(V；E；P))→G(V′；E′；P′)，微博异构信息网络映射为用户信息网络，映射后V′为用户集合，E′为用户链接关系集合，P′为用户的属性与用户间链接关系的属性集合，其中P′并非对P进行简单过滤，而是要将用户与微博间的链接属性以及微博属性映射为用户的属性或者用户间链接关系的属性。

本发明中的大规模微博异构信息网络中的链接预测方法具体为有向属性边回归算法(DPLR)。

DPLR算法，主要包括数据处理、特征计算、执行预测这三部分，下面分别介绍。

数据处理

King-wa Fu的研究表明在微博***中存在大量的“僵尸用户”。这些“僵尸用户”多为营销公司注册，用来操纵关注人数获取利益。这类用户通常会关注大量用户或者关注用户数远大于其粉丝数。另一类是活跃度较低的用户，这类用户很少使用微博，通常关注的用户很少。本发明将这两类用户看作噪声用户。为减少噪声用户对链接预测方法的影响，对用户进行过滤显得十分必要。过滤条件如下：

规则(1)：过滤关注人数小于5或者关注人数大于800的用户。

规则(2)：过滤关注人数大于粉丝数20倍的用户。

规则(3)：过滤前两步处理后页面排序值较小的1％的用户。

在用户信息网络中，节点的入度和出度分别代表了用户的粉丝数和关注人数。统计节点入度采用Spark实现(出度类似)，具体地，该算法主要运用MapReduce的核心思想，示例执行过程如图2，不同的方框代表不同集群节点。

得到节点入度与出度后，便可得到按规则(1)和规则(2)的待过滤节点集。对用户信息网络属性图G1执行过滤映射f，将G1中在过滤节点集中的点以及与这些点相连的边都从G1中移除，得到过滤后的用户信息网络属性图G2。按规则(3)过滤的方法与之类似，下面只列出页面排序实现。页面排序同样采用Spark实现，具体地，主要运用Pregel的核心思想——(1)在一个超步内，节点间通过相互发送消息(起点发向终点)传递数据；(2)在随后的一个超步内每个节点对收到的消息进行处理；(3)重复以上过程，直到达到停止条件(无任何消息产生或达到指定迭代次数)。对于页面排序即(1)将节点自身页面排序值均分给邻居节点；(2)将收到的页面排序值求汇总并计算新页面排序值；(3)重复步骤(1)、(2)，执行N次。

执行过滤后，从网络中抽取50000节点的入度和出度统计信息，统计信息如图3、图4所示，均服从长尾分布。

特征定义

在微博这种弱关系网络中，用户间以相同的兴趣聚合在一起，两个用户间共同关注的用户数，可表征这两个用户兴趣的相似性；而两用户共同粉丝数，则可表征在其他用户眼中他们的相似性。杰卡得系数在考虑共同邻居的同时也考虑了这两个用户的所有邻居，能较合理的刻画两个用户的结构相似性。杰卡得系数表示如下：

S_{x y} = \frac{| Γ (x) \cap Γ (y) |}{| Γ (x) \cup Γ (y) |}

其中，Г(x)Г(y)分别为x和y邻居节点的集合。将入度方向和出度方向的杰卡得系数作为(x,y)链接关系特征。在用Spark计算入度(出度)方向杰卡得系数时，需执行两个MapReduce过程，第一个MapReduce计算节点的入度(出度)方向邻居集合作为节点属性；第二个MapReduce过程，只有Map阶段，用来计算杰卡得系数作为边的属性。

通常用路径相似性来衡量网络中两个节点之间关系的强弱。设网络中的两个节点x和y，要衡量x到y这条链接关系的强弱，可以通过计算网络中从x经过任意一个中间节点z到达y的路径的条数。在图5中链接(x,y)的强度为2，而(y,x)强度为1。

在用Spark计算链接关系强度时，需执行两个MapReduce过程，第一个MapReduce用来执行Join操作，得到(中间节点，(起点，二阶终点))的元组，第二个MapReduce用来统计每个(起点，二阶终点)的频数。具体执行流程如图6所示。图7为抽取50000条链接关系，将强度归一化后的分布图，基本服从长尾分布。

在信息传播理论当中，网络中的核心节点往往占有更多的资源，即二八定律。在微博网络中，一些权威或影响力较高的用户往往会拥有更多的粉丝。他们所发的微博会被更多其他用户转发。从而有了更多机会被其他用户关注，即会产生马太效应。此外，权威或影响力较高的用户往往互相关注，即富人俱乐部现象。因此，对于一条待预测的用户链接关系，两个用户会具有不同的影响力和权威值，他们的影响力和权威值，对这条链接关系会产生一定的影响，而这种影响又无法简单的通过规则描述。因此，准确合理的衡量微博***中用户的影响力与权威，以及其对链接关系产生的影响，将对链接预测起到至关重要的作用。

常用的衡量网络中用户权威的度量为页面排序值，但在微博***中，微博本身又能体现发微博的用户的权威性。Manish Gupta指出，包含链接的微博更权威，从而该微博发出者的权威也会相应提高；用户微博的被转发情况，一定程度上能表征该用户的影响力。

定义2.(用户质量)(User Quality)设T表示用户发出的微博数，R表示用户被转发的微博数，L表示用户发出的包含链接的微博数，PR为用户在微博***中的页面排序值，则用户质量可表示为：

Q(u)＝PR*(μ*TL+(1-μ)*TR)

其中，

TL＝log(10+L*log(10+L)/T)TR＝log(10+R^0.9/T)

表2.取若干T、L、R值时对应TL、TR值

表2为若干T、R、L取值时TL和TR值。在表2中，一个用户发出的微博中平均包含的链接数越多，TL越大，并且在平均包含链接数相同的情况下发出的微博越多，TL越大。在微博***中，发出包含链接微博的用户多为在线媒体或企业帐号，这类用户发微博较为频繁；一个用户发出的微博平均被转发的次数越大，TR越大。并且在平均被转发次数相同的情况下发出的微博越多，TR越小。在微博***中，被大量转发的微博，往往出自名人或者媒体人和企业帐号，而名人发出的微博量通常少于媒体人和企业帐号。而名人通常拥有大量的粉丝，其影响力高于在线媒体和企业帐号。图8为根据用户质量的定义统计出的用户质量分布图，基本服从长尾分布。

特征转换

将上述所提到的特征，与一条待预测的链接关系关联起来。在用户属性图中，执行变换，将节点特征转换为链接关系的特征。最后得到的是一条链接关系上同时拥有多个特征。图9中将起点和终点这两个用户的质量，转换为这条链接关系的两个特征。

预测方法

逻辑回归是数据挖掘中常用的分类方法，通过训练得到模型后，可预测待分类的样例为正例的概率。通过设定一个阈值，可判断大于该阈值为正例，否则为负例。在DPLR中，利用逻辑回归可以计算出一条链接关系产生的概率P。将概率大于阈值θ的链接关系预测为将会产生，否则预测为不会产生。逻辑回归的一般性表示如下：

决策边界：

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}}

损失函数：

\begin{matrix} J (θ) = - [\frac{1}{m} Σ_{i = 1}^{m} y^{(i)} \log h_{θ} (x^{(i)}) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] + \\ \frac{λ}{2 m} Σ_{j = 1}^{n} θ_{j}^{2} \end{matrix}

其中m为训练集的大小，n为回归参数的数量，x⁽ⁱ⁾为第i个训练数据，θ_j为第j个回归参数，λ为正则化参数。优化求解时，采用随机梯度下降法(stochasticgradient descent，SGD)。由此，得到DPLR算法具体过程为：

(1)按上述的方法过滤后得到的网络中边的集合为E。

(2)随机抽取若干网络中的链接E_T作为正例。

(3)随机抽取若干不存在于网络中的链接E_F作为负例。

(4)在E-E_T-E_F的网络中计算上述所提到E_T∪E_F中所有节点的特征以及链接的特征，并将节点的特征转换为链接关系的特征，最终链接关系的特征集为X。

(5)将E_F∪E_T分为训练集、验证集和测试集。

(6)在训练集上训练模型，在验证集上选择使预测结果最优的模型超参数(θ、λ、SGD百分比和SGD学习率)，得到最终模型h_θ(x)和阈值θ。

(7)将测试集中任意一条链接关系带入模型，即可得到该链接关系产生的概率P。当P>θ时，预测该链接关系将会产生，否则，预测该链接关系不会产生。

【有益效果】

本发明提出的技术方案具有以下有益效果：

(1)从信息传播的角度结合页面排序和用户的微博相关统计量定义用户质量这一指标，该指标能够度量用户在网络拓扑结构与网络信息传播这两方面的综合影响力与权威性。

(2)将用户质量以及其他用户特征转换为用户间链接关系特征，转换后的链接关系特征包括：(a)出度方向杰卡得系数、(b)入度方向杰卡得系数、(c)用户间二步可达路径数、(d)起点用户质量、(e)终点用户质量等。最后，利用逻辑回归(Logistic regression)方法计算链接关系产生的概率。

(3)本发明基于Spark大数据处理框架进行DPLR算法设计，该方法较基于局部信息相似性和路径相似性的方法的曲线下面积和F值有明显提升，且具备更好的最大K准确率稳定性。

附图说明

图1为属性图示例；

图2为入度统计Spark实现；

图3为执行过滤后50000节点入度分布；

图4为执行过滤后50000节点出度分布；

图5为链接关系强度示意图；

图6为Spark计算链接关系强度流程；

图7为50000条链接关系强度分布；

图8为50000个用户的质量分布图；

图9为微博用户属性图中的节点特征与边特征的转换示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的具体实施方式进行清楚、完整的描述。

实施例一

实施例一提供一种大规模微博异构信息网络中的链接预测方法，该方法包括步骤(1)至步骤(5)。

步骤(1)、按预设策略对用户进行过滤，过滤后网络中边的集合为E；步骤(1)按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。

步骤(2)、从网络中抽取若干链接，其中正例集合为E_T，负例集合为E_F。

步骤(3)、在E-E_T-E_F网络中计算E_T∪E_F中所有节点的特征以及链接的特征，并将节点的特征转换为链接关系的特征，最终链接关系的特征集为X。

步骤(4)、将E_F∪E_T分为训练集、验证集和测试集，在训练集上训练模型，在验证集上选择使预测结果最优的模型超参数，得到最终模型h_θ(x)和阈值θ。

步骤(5)、将测试集中任意一条链接关系带入模型，即可得到该链接关系产生的概率P，当P>θ时，预测该链接关系将会产生，否则预测该链接关系不会产生。

下面采用实施例一中的方法进行实验。

实验分析

为衡量DFLR算法的有效性，本发明与基于局部结构相似性和路径相似性的链接预测方法进行比较。

实验在Spark集群上进行，集群总共包含6台计算机，总内存为72G，具体环境如下表：

表3.实验软硬件环境

	Master	Slave
			数量	1	5
内存	32G	8G
			CPU	8*3.4GHz	4*3.2GHz
操作***	CentOS 6.3	Ubuntu 12.04
			Hadoop	2.2.0	2.2.0
Spark	0.9.1	0.9.1

按上述实施例一中的步骤(1)过滤后的用户数为1317842，链接关系为30499609，微博数为109633259。虽然过滤了大量的用户，但是链接关系与微博数量并未按比例减少。少数的用户与大量链接关系相关而且发出了绝大多数的微博，即符合二八定律。

在上述步骤(3)和步骤(4)中，抽取出的正负例样本数分别为91338和100000，将其分为训练集、验证集和测试集。其中验证集和测试集均包含10000正例和10000负例，剩余的作为训练集。训练集、验证集以及测试集比例约为8:1:1。这里虽然只随机抽取了约19万条链接关系数据，但是这19万条链接关系数据的特征都是基于整个大的网络计算的特征。例如考虑抽取出的链接关系中的一条为(x,y)，在计算链接关系(x,y)的入度方向杰卡得系数时，是通过全图计算节点x和节点y的入度方向的杰卡得系数，而不是通过这19万条链接关系所组成的子图计算。

最常用的预测模型精度衡量指标为F值。F值是对单纯的准确率(预测结果中正确的比例)和召回率(正确的结果被预测出的比率)作为评价指标的折中，因为准确率和召回率通常是此消彼长的关系，而他们都能刻画模型的某一方面的特性。F值定义为：

F S c o r e = \frac{2 * p r e c i s i o n * r e c a l l}{p r e c i s i o n + r e c a l l}

在DFLR中模型的训练与验证阶段，先按在验证集上F值最大的得到上述提到的超参数，再将学习率缩小为原来的一半，迭代不同的次数得到验证集上不同的F值。

在F值最高的五个模型中，选出F值、准确率以及召回率最高的三个模型H1、H2、H3，以一定的比例参数对它们进行组合。得到最终的预测模型：

H(x)＝ρ₁H1(x)+ρ₂H2(x)+(1-ρ₁-ρ₂)H3(x)

经过加权组合后，模型的F值由0.8983提高到0.8999。

在计算基于局部结构相似性时，定义两个节点的局部结构相似性为他们入度和出度方向杰卡得系数的平均值。即

S S (x, y) = \frac{I n J a c c a r d (x, y) + O u t J a c c a r d (x, y)}{2}

在计算基于路径的相似性时，直接选取上述计算节点关系强度的特征，定义为TwoStep。基于局部结构相似性与基于路径的相似性的方法中，都需要确定一个阈值来作为分界线，大于该阈值，则预测链接关系会产生；否则，链接关系不会产生。阈值的确定与计算DFLR中超参数确定类似，当训练集中的F值最大时，即为阈值。

在测试集上，通过比较DFLR、SS与TwoStep的准确率，召回率以及F值可以得到SS与TwoStep的准确率比DPLR略微高，但召回率约为DPLR的一半，F值也远低于DPLR。

曲线下面积为预测模型精度的另一衡量指标。用于表示在测试集中的边的分数值有比随机选择的一个不存在的边的分数值高的概率。计算方法为每次随机从测试集中选取一条边与随机选择的不存在的边进行比较，如果测试集中的边的分数值大于不存在的边的分数值，就加1分；如果两个分数值相等，就加0.5分。独立地比较n次，如果有n’次测试集中的边的分数值大于不存在的边的分数，有n‘’次两分数值相等，曲线下面积定义为:

如果所有分数都是随机产生的，曲线下面积＝0.5。因此曲线下面积大于0.5的程度衡量了算法在多大程度上比随机选择的方法精确。通过比较三种方法的曲线下面积可以看出得到，DPLR比SS与TwoStep的曲线下面积高0.2左右。

最大K评价指标，是指预测链接关系产生概率最大的前K个中，实际上是正例的数目，形式化表示为：

{Precision}_{T o p - K} = \frac{m}{K}

在测试集上DPLR的可以得到最大K精度。

在测试集中，共有10000条正例，可以得到，虽然随着K值的增大，三种方法的最大K的精度有所下降，但DPLR整体还是保持在一个较高的水平(>88％)，具备更好的最大K稳定性。当K>4000后，SS与TwoStep的下降显著。到10000后接近0.5。

通过三种评价指标可以发现，DPLR较SS和TwoStep有明显效果提升。其主要原因在于社交网络具有高度稀疏性，绝大多数用户间都没有共同好友或好友间二步之内不可达，DPLR综合了结构相似性与路径相似性作为特征并且额外加入起点和终点用户质量作为特征，更细致的刻画了用户间链接关系的产生因素。

需要说明，上述描述的实施例是本发明的一部分实施例，而不是全部实施例，也不是对本发明的限制。基于本发明的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

Claims

1.一种大规模微博异构信息网络中的链接预测方法，其特征在于包括步骤：

2.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法，其特征在于所述步骤A按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。

3.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法，其特征在于所述步骤C中节点特征包括入度和出度方向的杰卡得系数、链接关系强度。

4.根据权利要求3所述的大规模微博异构信息网络中的链接预测方法，其特征在于所述步骤C采用Spark计算入度和出度方向的杰卡得系数、链接关系强度。

5.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法，其特征在于所述步骤D中求解最终模型h_θ(x)和阈值θ的方法为：初始化决策边界和损失函数，其中决策边界为：

h_{θ} (x) = \frac{1}{1 + e^{- θ^{T} x}},

损失函数为：