CN105893637A - 大规模微博异构信息网络中的链接预测方法 - Google Patents

大规模微博异构信息网络中的链接预测方法 Download PDF

Info

Publication number
CN105893637A
CN105893637A CN201610478367.3A CN201610478367A CN105893637A CN 105893637 A CN105893637 A CN 105893637A CN 201610478367 A CN201610478367 A CN 201610478367A CN 105893637 A CN105893637 A CN 105893637A
Authority
CN
China
Prior art keywords
user
link
microblogging
network
linking relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610478367.3A
Other languages
English (en)
Inventor
李川
李旺龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201610478367.3A priority Critical patent/CN105893637A/zh
Publication of CN105893637A publication Critical patent/CN105893637A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及互联网技术领域,提供一种大规模微博异构信息网络中的链接预测方法,该方法包括:按预设策略对用户进行过;从网络中抽取若干链接,正例集合为ET,负例集合为EF;在E‑ET‑EF网络中计算ET∪EF中所有节点的特征以及链接的特征,并将节点的特征转换为链接关系的特征;将EF∪ET分为训练集、验证集和测试集,在训练集上训练模型,在验证集上选择使预测结果最优的模型超参数,得到最终模型hθ(x)和阈值θ;将测试集中任意一条链接关系带入模型,即可得到该链接关系产生的概率P。实验表明本发明提供的方法较基于局部信息相似性和路径相似性的方法的曲线下面积和F值有明显提升,且具备更好的最大K准确率稳定性。

Description

大规模微博异构信息网络中的链接预测方法
技术领域
本发明属于互联网技术领域,特别涉及一种大规模微博异构信息网络中的链接预测方法。
背景技术
目前,随着移动互联网的迅猛发展,搜索引擎、门户媒体、社交网络等的广泛应用,互联网已逐步成为一个包含海量信息的平台。新浪微博是国内最广泛使用的微博***,自2009年上线起,注册用户数已突破5亿。用户在微博***中可以发微博(类似一条消息,字数为140以内)、评论微博、转发微博等。微博中的链接关系包含好友关系、关注关系、@关系等。这些关系均为有向关系,可表示为一个有向图。微博是一种典型的异构信息网络。用户和微博可看作网络中的节点,用户间、用户与微博间可有不同类型的链接关系。不同类型的边代表不同的链接类型,人像图为用户,圆角矩形为微博。
链接预测是当前信息网络研究中的热点问题,旨在关注如何通过已知的网络结构等信息预测网络中尚未产生连边的两个节点之间产生链接的概率。链接预测在不同的场景中有不同的应用和价值。例如,在犯罪份子网络中,链接预测可用来发现潜在的犯罪分子;在社交网络中,链接预测可指示用户间建立好友关系的可能性,为用户提供好友推荐。另外,链接的产生隐含着网络结构的演化,抓住链接关系产生规律往往能揭示网络的演化趋势。
常用的链接预测方法多是基于节点相似性进行链接预测,这些相似性包括用户属性相似性、局部拓扑结构相似性和路径相似性等。节点间的相似性越高,链接关系的产生概率越大。然而,在微博这类在线社交网络中***中,仅凭借相似性很难刻画用户间链接关系产生的普遍规律。这主要因为
(1)网络中的信息传播会对链接关系的产生有巨大影响,微博中用户链接关系的产生往往是基于微博的发出与转发,微博被转发的次数与该微博的发出者被其他用户看到的概率成正比。
(2)社会学中的重要规律现象,如马太效应、二八定律等,很难用相似性简单表征。在社会网络中占据较多资源或者处于较核心地位的人,会利用资源优势扩充自己的资源。对微博中的链接关系而言,粉丝较多的用户,会吸收更多的粉丝。
传统链接预测方法多基于网络中节点的相似性,如节点属性相似性、局部拓扑结构中相关节点的相似性或路径相似性等。然而,这些相似性仅能刻画网络某些方面的特征,且与网络节点间新链接关系的产生无已证实的直接相关性。
发明内容
【要解决的技术问题】
本发明的目的是提供一种大规模微博异构信息网络中的链接预测方法,该方法综合基于相似性的特征和用户质量,而且能适用于大数据场景。
【技术方案】
本发明是通过以下技术方案实现的。
本发明涉及一种大规模微博异构信息网络中的链接预测方法,该方法包括步骤:
A、按预设策略对用户进行过滤,过滤后网络中边的集合为E;
B、从网络中抽取若干链接,其中正例集合为ET,负例集合为EF
C、在E-ET-EF网络中计算ET∪EF中所有节点的特征以及链接的特征,并将节点的特征转换为链接关系的特征,最终链接关系的特征集为X;
D、将EF∪ET分为训练集、验证集和测试集,在训练集上训练模型,在验证集上选择使预测结果最优的模型超参数,得到最终模型hθ(x)和阈值θ;
E、将测试集中任意一条链接关系带入最终模型hθ(x),即可得到该链接关系产生的概率P,当P>θ时,预测该链接关系将会产生,否则预测该链接关系不会产生。
作为一种优选的实施方式,所述步骤A按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。
作为另一种优选的实施方式,所述步骤C中节点特征包括入度和出度方向的杰卡得系数、链接关系强度。
作为另一种优选的实施方式,所述步骤C采用Spark计算入度和出度方向的杰卡得系数、链接关系强度。
作为另一种优选的实施方式,所述步骤D中求解最终模型hθ(x)和阈值θ的方法为:初始化决策边界和损失函数,其中决策边界为:
h θ ( x ) = 1 1 + e - θ T x ,
损失函数为:
其中m为训练集的大小,n为回归参数的数量,x(i)为第i个训练数据,θj为第j个回归参数,λ为正则化参数;采用随机梯度下降法对损失函数进行求解得到最终模型hθ(x)和阈值θ。
下面对本发明进行详细说明。
问题定义与数据描述
属性图是对异构信息网络图结构的一种灵活的表示,其定义如下:
定义1.(属性图)(Property Graph)G(P)=(V;E;P)是一个三元组,其中,
(1)V={1,2,3,…n}表示图中节点的集合,E为图中有向边的集合。
(2)有向边(i,j)∈E将源点i∈V与终点j∈V连接起来。
(3)PV(i)为节点i∈V的属性,PE(i,j)为边(i,j)∈E的属性,所有属性的集合用P=(PV,PE)表示。
属性可以为任何类型的数据(图像,文本以及对象等),而且可在使用相同图结构组合不同属性而得到不同的图。例如,原始图表示为G(V;E;P),对属性作一个映射f(P)→P′,产生一个新的图G(V;E;P′),它和原始图保持相同的图结构。在微博异构信息网络中可以通过对节点类型过滤,将微博节点过滤掉,从而高效利用原图的索引存储结构,构建关于用户的同构信息网络属性图。图1为一个属性图示例。
数据描述
本发明研究的数据取自WISE(Web Information System Engineering)2012Challenge中的新浪微博数据集。该数据集包括用户关系数据(约13G)和用户微博数据(约63G),包含58,478,875个用户,265,580,802条链接关系和369,797,719条微博。用户关系数据以(A,B)形式表示,代表一条由A指向B的边,即A关注B。通过对微博数据进行初步抽取,得到微博属性详见表1。
表1.微博数据的特征表
链接预测的形式化定义
定义G(V;E;P)为一个属性图,其中V为节点集合,E为有向边集合,P为节点和边的属性集合。网络总节点数为N,边数为M。网络共有N*(N-1)条有向边,即全集U。通过一种链路预测的方法,对节点对(x,y)∈(U\E)所表示的有向边赋予一个分数值Sxy,分值越大表示有向边产生的概率越大。
针对微博异构信息网络,可描述为:设G(V;E;P)为一个微博属性图,其中V为节点集合,包括微博和用户这两类;E为有向边的集合,包括用户与微博的链接关系(用户发微博、用户转发微博)以及用户与用户的链接关系(关注);P为各类节点与连边的属性。预测不存在的链接关系(用户与微博,或者用户与用户)产生的概率。
本发明研究目标为探索预测用户间链接关系的方法。因此,需对微博属性图进行一次映射f(G(V;E;P))→G(V′;E′;P′),微博异构信息网络映射为用户信息网络,映射后V′为用户集合,E′为用户链接关系集合,P′为用户的属性与用户间链接关系的属性集合,其中P′并非对P进行简单过滤,而是要将用户与微博间的链接属性以及微博属性映射为用户的属性或者用户间链接关系的属性。
本发明中的大规模微博异构信息网络中的链接预测方法具体为有向属性边回归算法(DPLR)。
DPLR算法,主要包括数据处理、特征计算、执行预测这三部分,下面分别介绍。
数据处理
King-wa Fu的研究表明在微博***中存在大量的“僵尸用户”。这些“僵尸用户”多为营销公司注册,用来操纵关注人数获取利益。这类用户通常会关注大量用户或者关注用户数远大于其粉丝数。另一类是活跃度较低的用户,这类用户很少使用微博,通常关注的用户很少。本发明将这两类用户看作噪声用户。为减少噪声用户对链接预测方法的影响,对用户进行过滤显得十分必要。过滤条件如下:
规则(1):过滤关注人数小于5或者关注人数大于800的用户。
规则(2):过滤关注人数大于粉丝数20倍的用户。
规则(3):过滤前两步处理后页面排序值较小的1%的用户。
在用户信息网络中,节点的入度和出度分别代表了用户的粉丝数和关注人数。统计节点入度采用Spark实现(出度类似),具体地,该算法主要运用MapReduce的核心思想,示例执行过程如图2,不同的方框代表不同集群节点。
得到节点入度与出度后,便可得到按规则(1)和规则(2)的待过滤节点集。对用户信息网络属性图G1执行过滤映射f,将G1中在过滤节点集中的点以及与这些点相连的边都从G1中移除,得到过滤后的用户信息网络属性图G2。按规则(3)过滤的方法与之类似,下面只列出页面排序实现。页面排序同样采用Spark实现,具体地,主要运用Pregel的核心思想——(1)在一个超步内,节点间通过相互发送消息(起点发向终点)传递数据;(2)在随后的一个超步内每个节点对收到的消息进行处理;(3)重复以上过程,直到达到停止条件(无任何消息产生或达到指定迭代次数)。对于页面排序即(1)将节点自身页面排序值均分给邻居节点;(2)将收到的页面排序值求汇总并计算新页面排序值;(3)重复步骤(1)、(2),执行N次。
执行过滤后,从网络中抽取50000节点的入度和出度统计信息,统计信息如图3、图4所示,均服从长尾分布。
特征定义
在微博这种弱关系网络中,用户间以相同的兴趣聚合在一起,两个用户间共同关注的用户数,可表征这两个用户兴趣的相似性;而两用户共同粉丝数,则可表征在其他用户眼中他们的相似性。杰卡得系数在考虑共同邻居的同时也考虑了这两个用户的所有邻居,能较合理的刻画两个用户的结构相似性。杰卡得系数表示如下:
S x y = | Γ ( x ) ∩ Γ ( y ) | | Γ ( x ) ∪ Γ ( y ) |
其中,Г(x)Г(y)分别为x和y邻居节点的集合。将入度方向和出度方向的杰卡得系数作为(x,y)链接关系特征。在用Spark计算入度(出度)方向杰卡得系数时,需执行两个MapReduce过程,第一个MapReduce计算节点的入度(出度)方向邻居集合作为节点属性;第二个MapReduce过程,只有Map阶段,用来计算杰卡得系数作为边的属性。
通常用路径相似性来衡量网络中两个节点之间关系的强弱。设网络中的两个节点x和y,要衡量x到y这条链接关系的强弱,可以通过计算网络中从x经过任意一个中间节点z到达y的路径的条数。在图5中链接(x,y)的强度为2,而(y,x)强度为1。
在用Spark计算链接关系强度时,需执行两个MapReduce过程,第一个MapReduce用来执行Join操作,得到(中间节点,(起点,二阶终点))的元组,第二个MapReduce用来统计每个(起点,二阶终点)的频数。具体执行流程如图6所示。图7为抽取50000条链接关系,将强度归一化后的分布图,基本服从长尾分布。
在信息传播理论当中,网络中的核心节点往往占有更多的资源,即二八定律。在微博网络中,一些权威或影响力较高的用户往往会拥有更多的粉丝。他们所发的微博会被更多其他用户转发。从而有了更多机会被其他用户关注,即会产生马太效应。此外,权威或影响力较高的用户往往互相关注,即富人俱乐部现象。因此,对于一条待预测的用户链接关系,两个用户会具有不同的影响力和权威值,他们的影响力和权威值,对这条链接关系会产生一定的影响,而这种影响又无法简单的通过规则描述。因此,准确合理的衡量微博***中用户的影响力与权威,以及其对链接关系产生的影响,将对链接预测起到至关重要的作用。
常用的衡量网络中用户权威的度量为页面排序值,但在微博***中,微博本身又能体现发微博的用户的权威性。Manish Gupta指出,包含链接的微博更权威,从而该微博发出者的权威也会相应提高;用户微博的被转发情况,一定程度上能表征该用户的影响力。
定义2.(用户质量)(User Quality)设T表示用户发出的微博数,R表示用户被转发的微博数,L表示用户发出的包含链接的微博数,PR为用户在微博***中的页面排序值,则用户质量可表示为:
Q(u)=PR*(μ*TL+(1-μ)*TR)
其中,
TL=log(10+L*log(10+L)/T)TR=log(10+R0.9/T)
表2.取若干T、L、R值时对应TL、TR值
表2为若干T、R、L取值时TL和TR值。在表2中,一个用户发出的微博中平均包含的链接数越多,TL越大,并且在平均包含链接数相同的情况下发出的微博越多,TL越大。在微博***中,发出包含链接微博的用户多为在线媒体或企业帐号,这类用户发微博较为频繁;一个用户发出的微博平均被转发的次数越大,TR越大。并且在平均被转发次数相同的情况下发出的微博越多,TR越小。在微博***中,被大量转发的微博,往往出自名人或者媒体人和企业帐号,而名人发出的微博量通常少于媒体人和企业帐号。而名人通常拥有大量的粉丝,其影响力高于在线媒体和企业帐号。图8为根据用户质量的定义统计出的用户质量分布图,基本服从长尾分布。
特征转换
将上述所提到的特征,与一条待预测的链接关系关联起来。在用户属性图中,执行变换,将节点特征转换为链接关系的特征。最后得到的是一条链接关系上同时拥有多个特征。图9中将起点和终点这两个用户的质量,转换为这条链接关系的两个特征。
预测方法
逻辑回归是数据挖掘中常用的分类方法,通过训练得到模型后,可预测待分类的样例为正例的概率。通过设定一个阈值,可判断大于该阈值为正例,否则为负例。在DPLR中,利用逻辑回归可以计算出一条链接关系产生的概率P。将概率大于阈值θ的链接关系预测为将会产生,否则预测为不会产生。逻辑回归的一般性表示如下:
决策边界:
h θ ( x ) = 1 1 + e - θ T x
损失函数:
J ( θ ) = - [ 1 m Σ i = 1 m y ( i ) log h θ ( x ( i ) ) + ( 1 - y ( i ) ) log ( 1 - h θ ( x ( i ) ) ) ] + λ 2 m Σ j = 1 n θ j 2
其中m为训练集的大小,n为回归参数的数量,x(i)为第i个训练数据,θj为第j个回归参数,λ为正则化参数。优化求解时,采用随机梯度下降法(stochasticgradient descent,SGD)。由此,得到DPLR算法具体过程为:
(1)按上述的方法过滤后得到的网络中边的集合为E。
(2)随机抽取若干网络中的链接ET作为正例。
(3)随机抽取若干不存在于网络中的链接EF作为负例。
(4)在E-ET-EF的网络中计算上述所提到ET∪EF中所有节点的特征以及链接的特征,并将节点的特征转换为链接关系的特征,最终链接关系的特征集为X。
(5)将EF∪ET分为训练集、验证集和测试集。
(6)在训练集上训练模型,在验证集上选择使预测结果最优的模型超参数(θ、λ、SGD百分比和SGD学习率),得到最终模型hθ(x)和阈值θ。
(7)将测试集中任意一条链接关系带入模型,即可得到该链接关系产生的概率P。当P>θ时,预测该链接关系将会产生,否则,预测该链接关系不会产生。
【有益效果】
本发明提出的技术方案具有以下有益效果:
(1)从信息传播的角度结合页面排序和用户的微博相关统计量定义用户质量这一指标,该指标能够度量用户在网络拓扑结构与网络信息传播这两方面的综合影响力与权威性。
(2)将用户质量以及其他用户特征转换为用户间链接关系特征,转换后的链接关系特征包括:(a)出度方向杰卡得系数、(b)入度方向杰卡得系数、(c)用户间二步可达路径数、(d)起点用户质量、(e)终点用户质量等。最后,利用逻辑回归(Logistic regression)方法计算链接关系产生的概率。
(3)本发明基于Spark大数据处理框架进行DPLR算法设计,该方法较基于局部信息相似性和路径相似性的方法的曲线下面积和F值有明显提升,且具备更好的最大K准确率稳定性。
附图说明
图1为属性图示例;
图2为入度统计Spark实现;
图3为执行过滤后50000节点入度分布;
图4为执行过滤后50000节点出度分布;
图5为链接关系强度示意图;
图6为Spark计算链接关系强度流程;
图7为50000条链接关系强度分布;
图8为50000个用户的质量分布图;
图9为微博用户属性图中的节点特征与边特征的转换示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的具体实施方式进行清楚、完整的描述。
实施例一
实施例一提供一种大规模微博异构信息网络中的链接预测方法,该方法包括步骤(1)至步骤(5)。
步骤(1)、按预设策略对用户进行过滤,过滤后网络中边的集合为E;步骤(1)按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。
步骤(2)、从网络中抽取若干链接,其中正例集合为ET,负例集合为EF
步骤(3)、在E-ET-EF网络中计算ET∪EF中所有节点的特征以及链接的特征,并将节点的特征转换为链接关系的特征,最终链接关系的特征集为X。
步骤(4)、将EF∪ET分为训练集、验证集和测试集,在训练集上训练模型,在验证集上选择使预测结果最优的模型超参数,得到最终模型hθ(x)和阈值θ。
步骤(5)、将测试集中任意一条链接关系带入模型,即可得到该链接关系产生的概率P,当P>θ时,预测该链接关系将会产生,否则预测该链接关系不会产生。
下面采用实施例一中的方法进行实验。
实验分析
为衡量DFLR算法的有效性,本发明与基于局部结构相似性和路径相似性的链接预测方法进行比较。
实验在Spark集群上进行,集群总共包含6台计算机,总内存为72G,具体环境如下表:
表3.实验软硬件环境
Master Slave
数量 1 5
内存 32G 8G
CPU 8*3.4GHz 4*3.2GHz
操作*** CentOS 6.3 Ubuntu 12.04
Hadoop 2.2.0 2.2.0
Spark 0.9.1 0.9.1
按上述实施例一中的步骤(1)过滤后的用户数为1317842,链接关系为30499609,微博数为109633259。虽然过滤了大量的用户,但是链接关系与微博数量并未按比例减少。少数的用户与大量链接关系相关而且发出了绝大多数的微博,即符合二八定律。
在上述步骤(3)和步骤(4)中,抽取出的正负例样本数分别为91338和100000,将其分为训练集、验证集和测试集。其中验证集和测试集均包含10000正例和10000负例,剩余的作为训练集。训练集、验证集以及测试集比例约为8:1:1。这里虽然只随机抽取了约19万条链接关系数据,但是这19万条链接关系数据的特征都是基于整个大的网络计算的特征。例如考虑抽取出的链接关系中的一条为(x,y),在计算链接关系(x,y)的入度方向杰卡得系数时,是通过全图计算节点x和节点y的入度方向的杰卡得系数,而不是通过这19万条链接关系所组成的子图计算。
最常用的预测模型精度衡量指标为F值。F值是对单纯的准确率(预测结果中正确的比例)和召回率(正确的结果被预测出的比率)作为评价指标的折中,因为准确率和召回率通常是此消彼长的关系,而他们都能刻画模型的某一方面的特性。F值定义为:
F S c o r e = 2 * p r e c i s i o n * r e c a l l p r e c i s i o n + r e c a l l
在DFLR中模型的训练与验证阶段,先按在验证集上F值最大的得到上述提到的超参数,再将学习率缩小为原来的一半,迭代不同的次数得到验证集上不同的F值。
在F值最高的五个模型中,选出F值、准确率以及召回率最高的三个模型H1、H2、H3,以一定的比例参数对它们进行组合。得到最终的预测模型:
H(x)=ρ1H1(x)+ρ2H2(x)+(1-ρ12)H3(x)
经过加权组合后,模型的F值由0.8983提高到0.8999。
在计算基于局部结构相似性时,定义两个节点的局部结构相似性为他们入度和出度方向杰卡得系数的平均值。即
S S ( x , y ) = I n J a c c a r d ( x , y ) + O u t J a c c a r d ( x , y ) 2
在计算基于路径的相似性时,直接选取上述计算节点关系强度的特征,定义为TwoStep。基于局部结构相似性与基于路径的相似性的方法中,都需要确定一个阈值来作为分界线,大于该阈值,则预测链接关系会产生;否则,链接关系不会产生。阈值的确定与计算DFLR中超参数确定类似,当训练集中的F值最大时,即为阈值。
在测试集上,通过比较DFLR、SS与TwoStep的准确率,召回率以及F值可以得到SS与TwoStep的准确率比DPLR略微高,但召回率约为DPLR的一半,F值也远低于DPLR。
曲线下面积为预测模型精度的另一衡量指标。用于表示在测试集中的边的分数值有比随机选择的一个不存在的边的分数值高的概率。计算方法为每次随机从测试集中选取一条边与随机选择的不存在的边进行比较,如果测试集中的边的分数值大于不存在的边的分数值,就加1分;如果两个分数值相等,就加0.5分。独立地比较n次,如果有n’次测试集中的边的分数值大于不存在的边的分数,有n‘’次两分数值相等,曲线下面积定义为:
如果所有分数都是随机产生的,曲线下面积=0.5。因此曲线下面积大于0.5的程度衡量了算法在多大程度上比随机选择的方法精确。通过比较三种方法的曲线下面积可以看出得到,DPLR比SS与TwoStep的曲线下面积高0.2左右。
最大K评价指标,是指预测链接关系产生概率最大的前K个中,实际上是正例的数目,形式化表示为:
Precision T o p - K = m K
在测试集上DPLR的可以得到最大K精度。
在测试集中,共有10000条正例,可以得到,虽然随着K值的增大,三种方法的最大K的精度有所下降,但DPLR整体还是保持在一个较高的水平(>88%),具备更好的最大K稳定性。当K>4000后,SS与TwoStep的下降显著。到10000后接近0.5。
通过三种评价指标可以发现,DPLR较SS和TwoStep有明显效果提升。其主要原因在于社交网络具有高度稀疏性,绝大多数用户间都没有共同好友或好友间二步之内不可达,DPLR综合了结构相似性与路径相似性作为特征并且额外加入起点和终点用户质量作为特征,更细致的刻画了用户间链接关系的产生因素。
需要说明,上述描述的实施例是本发明的一部分实施例,而不是全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

Claims (5)

1.一种大规模微博异构信息网络中的链接预测方法,其特征在于包括步骤:
A、按预设策略对用户进行过滤,过滤后网络中边的集合为E;
B、从网络中抽取若干链接,其中正例集合为ET,负例集合为EF
C、在E-ET-EF网络中计算ET∪EF中所有节点的特征以及链接的特征,并将节点的特征转换为链接关系的特征,最终链接关系的特征集为X;
D、将EF∪ET分为训练集、验证集和测试集,在训练集上训练模型,在验证集上选择使预测结果最优的模型超参数,得到最终模型hθ(x)和阈值θ;
E、将测试集中任意一条链接关系带入最终模型hθ(x),即可得到该链接关系产生的概率P,当P>θ时,预测该链接关系将会产生,否则预测该链接关系不会产生。
2.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法,其特征在于所述步骤A按照用户关注人数、关注人数与粉丝数比率和页面排序值对用户进行过滤。
3.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法,其特征在于所述步骤C中节点特征包括入度和出度方向的杰卡得系数、链接关系强度。
4.根据权利要求3所述的大规模微博异构信息网络中的链接预测方法,其特征在于所述步骤C采用Spark计算入度和出度方向的杰卡得系数、链接关系强度。
5.根据权利要求1所述的大规模微博异构信息网络中的链接预测方法,其特征在于所述步骤D中求解最终模型hθ(x)和阈值θ的方法为:初始化决策边界和损失函数,其中决策边界为:
h θ ( x ) = 1 1 + e - θ T x ,
损失函数为:
其中m为训练集的大小,n为回归参数的数量,x(i)为第i个训练数据,θj为第j个回归参数,λ为正则化参数;采用随机梯度下降法对损失函数进行求解得到最终模型hθ(x)和阈值θ。
CN201610478367.3A 2016-06-24 2016-06-24 大规模微博异构信息网络中的链接预测方法 Pending CN105893637A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610478367.3A CN105893637A (zh) 2016-06-24 2016-06-24 大规模微博异构信息网络中的链接预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610478367.3A CN105893637A (zh) 2016-06-24 2016-06-24 大规模微博异构信息网络中的链接预测方法

Publications (1)

Publication Number Publication Date
CN105893637A true CN105893637A (zh) 2016-08-24

Family

ID=56718925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610478367.3A Pending CN105893637A (zh) 2016-06-24 2016-06-24 大规模微博异构信息网络中的链接预测方法

Country Status (1)

Country Link
CN (1) CN105893637A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341258A (zh) * 2016-08-23 2017-01-18 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN106777157A (zh) * 2016-12-20 2017-05-31 西南石油大学 一种基于主题的类引力模型微博预测方法与***
CN106899433A (zh) * 2017-01-18 2017-06-27 北京航空航天大学 网络链接预测方法及装置
CN106911512A (zh) * 2017-03-10 2017-06-30 山东大学 在可交换图中基于博弈的链接预测方法及***
CN106934494A (zh) * 2017-02-28 2017-07-07 深圳信息职业技术学院 符号预测方法及装置
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
CN107566249A (zh) * 2016-10-28 2018-01-09 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN109242001A (zh) * 2018-08-09 2019-01-18 百度在线网络技术(北京)有限公司 图像数据处理方法、装置及可读存储介质
CN109522954A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络链接预测装置
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端
CN113452379A (zh) * 2021-07-16 2021-09-28 燕山大学 断面轮廓降维模型训练方法、***及数据压缩方法、***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662956A (zh) * 2012-03-05 2012-09-12 西北工业大学 一种基于用户话题链接行为的社交网络意见领袖识别方法
US20130144818A1 (en) * 2011-12-06 2013-06-06 The Trustees Of Columbia University In The City Of New York Network information methods devices and systems

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130144818A1 (en) * 2011-12-06 2013-06-06 The Trustees Of Columbia University In The City Of New York Network information methods devices and systems
CN102662956A (zh) * 2012-03-05 2012-09-12 西北工业大学 一种基于用户话题链接行为的社交网络意见领袖识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李旺龙 等: "基于用户质量的关注关系预测", 《现代计算机》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341258A (zh) * 2016-08-23 2017-01-18 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN106341258B (zh) * 2016-08-23 2019-01-22 浙江工业大学 一种基于二阶局部社团和种子节点结构信息的预测网络未知连边的方法
CN107566249B (zh) * 2016-10-28 2020-12-29 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN107566249A (zh) * 2016-10-28 2018-01-09 中国科学院计算技术研究所 一种训练用于预测社交网络用户转发消息的模型的方法
CN106777157A (zh) * 2016-12-20 2017-05-31 西南石油大学 一种基于主题的类引力模型微博预测方法与***
CN106777157B (zh) * 2016-12-20 2023-04-07 西南石油大学 一种基于主题的类引力模型微博预测方法与***
CN106899433A (zh) * 2017-01-18 2017-06-27 北京航空航天大学 网络链接预测方法及装置
CN106934494A (zh) * 2017-02-28 2017-07-07 深圳信息职业技术学院 符号预测方法及装置
CN106934494B (zh) * 2017-02-28 2021-04-06 深圳信息职业技术学院 符号预测方法及装置
CN106911512A (zh) * 2017-03-10 2017-06-30 山东大学 在可交换图中基于博弈的链接预测方法及***
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
CN109242001A (zh) * 2018-08-09 2019-01-18 百度在线网络技术(北京)有限公司 图像数据处理方法、装置及可读存储介质
CN109543114A (zh) * 2018-11-14 2019-03-29 南京邮电大学 异构信息网络链接预测方法、可读存储介质和终端
CN109522954A (zh) * 2018-11-14 2019-03-26 南京邮电大学 异构信息网络链接预测装置
CN113452379A (zh) * 2021-07-16 2021-09-28 燕山大学 断面轮廓降维模型训练方法、***及数据压缩方法、***

Similar Documents

Publication Publication Date Title
CN105893637A (zh) 大规模微博异构信息网络中的链接预测方法
CN104268271B (zh) 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN109784636A (zh) 欺诈用户识别方法、装置、计算机设备及存储介质
CN106372072A (zh) 一种基于位置的移动社会网络用户关系的识别方法
CN106326637A (zh) 一种基于局部有效路径度的链路预测方法
CN102594909A (zh) 基于共邻矩阵谱信息的多目标社区检测方法
CN105183748B (zh) 一种基于内容和评分的组合预测方法
CN107895038A (zh) 一种链路预测关系推荐方法及装置
CN105574541A (zh) 一种基于紧密度排序的网络社区发现方法
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
Ahmed et al. Network sampling designs for relational classification
CN110705045A (zh) 一种利用网络拓扑特性构建加权网络的链路预测方法
CN103838806B (zh) 一种社会网络用户参与主题行为分析方法
CN104715034A (zh) 基于中心人物的有权图重叠社区发现方法
Lu et al. A unified link prediction framework for predicting arbitrary relations in heterogeneous academic networks
Karthika et al. Ibeh: Naive community detection methodology for dark social network
CN104537418A (zh) 一种自底向上的高维数据因果网络学习方法
Jin et al. Ant colony optimization with markov random walk for community detection in graphs
CN114329867B (zh) 一种基于模体的无标度网络鲁棒性度量方法
CN105761152A (zh) 社交网络中一种基于三元组的参与话题预测方法
Yu et al. A new method for link prediction using various features in social networks
CN106550387B (zh) 一种无线传感器网络路由层服务质量评价方法
Liu et al. Similarity-based common neighbor and sign influence model for link prediction in signed social networks
Guisheng et al. A new link prediction algorithm: node link strength algorithm
Lu et al. A novel centrality measure for identifying influential nodes based on minimum weighted degree decomposition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20160824

RJ01 Rejection of invention patent application after publication