CN103886169A - 一种基于AdaBoost的链路预测算法 - Google Patents
一种基于AdaBoost的链路预测算法 Download PDFInfo
- Publication number
- CN103886169A CN103886169A CN201210553291.8A CN201210553291A CN103886169A CN 103886169 A CN103886169 A CN 103886169A CN 201210553291 A CN201210553291 A CN 201210553291A CN 103886169 A CN103886169 A CN 103886169A
- Authority
- CN
- China
- Prior art keywords
- prediction
- sorter
- sample
- link
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种基于AdaBoost的链路预测算法,该方法适用于为当前拓扑结构中的通信实体预测其将来发生通信的可能性。用户输入当前网络的通信关系,通过一系列的计算,能够得到对下一时刻的通信实体是否发送通信的预测。该方法将Boosting方法中提升弱学习方法为强学习方法的思想应用到链路预测之中。本发明的优势在于相对于现有的各种常用的预测算法而言,具有更高的灵敏度和更低的误报率,能够在显著提高算法召回率的同时,保持计算结果的正确性。
Description
技术领域
本发明涉及互联网技术,具体涉及一种链路预测的实现方法。
背景技术
链路预测是链路挖掘中将链接作为挖掘对象的应用。主要预测已经存在但尚未被发现的链接以及尚未链接的节点间未来产生链接的可能性。随着一些链路预测算法开始在商业领域得到应用,与之相关的研究已经成为一个热门领域,其中基于拓扑图的链路预测算法研究工作在近年来受到了广泛重视。例如Facebook采用基于RWR(Random Walk with Restart)的方法预测用户的朋友关系,据此提高好友推荐的成功率。
基于网络拓扑图的链路预测算法主要包括基于节点邻居的相似性,基于最大似然估计以及基于概率模型等三种类型。代表性算法包括基于局部信息相似性的共同邻居(CommonNeighbors)算法,基于路径相似性的Katz算法和基于随机游走相似性的RWR算法。其中,基于节点邻居相似性的链路预测算法研究较早,在实际工作中取得了广泛应用。另一类取得实际推广应用的方法是基于随机游走的链路预测算法。这类算法的基本思想都是对图中节点所有可能的组合进行排序,选择其中最可能出现在新图中的节点对(即图中的边)。然而近一两年来,无论是在对已有算法的改进,还是在提出新算法方面,都没有出现有突破性的成果,基于拓扑的链路预测算法的召回率依然较低。
发明内容
本发明的目的是提供一种基于AdaBoost的链路预测算法。使用本发明提供的实施例,可以对当前网络拓扑图中将来可能发生链接的节点对进行预测。
为了克服当前主流的基于网络拓扑结构的链路预测算法普遍存在召回率较低的问题。通过我们的研究发现,现有的主流链路预测方法的预测结果并不完全相交,利用算法结果的叠加提高召回率。但是,直接累加求和并不可行,因为会降低总的算法精度。据此考虑采用Boosting方法对其进行改进。首先将链路预测问题看作二分类问题,对下一时刻网络中每一条可能存在的边(节点对),其分类结果为两类:存在或不存在。接下来借用Boosting方法通过错误反馈提升弱学习算法得到强学习算法的思想,根据一定的原则选择若干链路预测算法作为弱分类器,基于AdaBoost算法提出并实现了一个新的链路预测方法。
该方法的步骤包括:
读取预测训练样本以及预测测试样本;
为预测训练样本附上其真实所在类的标签值;
为每个样本的权重赋初始值;
选取若干链路预测算法作为弱分类器;
使用各个分类器为训练样本做分类;
计算每个分类器的投票权重;
使用每个分类器为预测测试集合中的样本做分类;
按上述各分类器的分类结果为预测测试集合中的样本投票,做出最终预测;
输出对预测测试集合中样本的预测结果;
最后,实施本发明具有以下有益效果:
本发明实施例的有益效果是,将Boosting思想应用于链接预测之中,相对于现有的各种常用算法而言,具有更高的灵敏度和更低的误报率,能够在显著提高算法召回率的同时,保持计算结果的正确性。
附图说明
附图是本发明改进现有链路预测算法提出的一种基于AdaBoost的链路预测算法的算法流程。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。
在本实施例中,如图所示,提供了一个优化的算法流程:
步骤101、读取预测训练样本以及预测测试样本;
对于预测训练样本以及训练测试样本,读取其信息并生成网络拓扑图。
步骤102、为预测训练样本附上其真实所在类的标签值;
对于一组长度为m的预测训练集合C。Ω表示xi被分类的类型值的集合。对于xi,如果它确实出现在下一时间段的图中,则yi=1,反之,yi=-1。
步骤103、为每个样本的权重赋初始值;
每个样本的权重初始值相等,是整个样本长度的倒数,即为1/m。
步骤104、选取若干链路预测算法作为弱分类器;
按照预测结果互补的原则选取基于节点邻居的相似性,基于最大似然估计以及基于概率模型等三种类型链路预测的方法作为弱分类器。
步骤105、使用各个分类器为训练样本做分类;
对每一种预测算法t,使用算法为C中每一对节点计算一个值,然后按照该值对节点对进行降序排列,选取前y个节点对,形成集合P,表示算法t认为这些节点对会在下一时刻的图中存在,剩下的形成集合Q,表示算法t认为这些节点对不会在下一时刻的图中存在。y是集合C中实际存在于下一时间段的图中的节点对的数目。将预测算法t看作一个弱分类器t,t做出的假设为ht。如果xi∈P,则ht(xi)=1,反之,若xi∈Q,ht(xi)=-1。
步骤106、计算每个分类器的投票权重;
进行T次循环,t=1,..,T:每一次循环时,首先为每个分类器计算当前的错误率。对于每一个样本,将分类器t对其的分类与其本身所属类型相比,如果不一致,则在此分类器的错误率上加上该样本的权重。计算并找出错误率最小的分类器作为当前的分类器。但是如果错误率大于1/2,就停止算法。对错误率进行归一化处理,作为当前分类器t的投票权重。更新每个样本的权重,如果该样本被当前分类器错误分类,则它的权重上升。相对来说xi如果被正确分类那么它的权重就降低了。T次循环后,得到每个分类器的投票权重。
步骤107、使用每个分类器为预测测试集合中的样本做分类;
预测测试集合D中,使用ej表示D中的每个节点对,n为D中所有节点对的数目。对于每种预测算法t,为预测测试集合D中每一对节点计算一个值,然后进行按照该值对节点对进行降序排列,选取前m’个节点对,形成集合P’,剩下的形成集合Q’。m’是集合D中实际存在于下一时间的图中的节点对的数目。如果ej∈P’,则ht(ej)=1,反之,若ej∈Q’,ht(ej)=-1。
步骤108、为测试样本做出最终预测;
对于每个ej,由每个弱分类器t对其进行投票。如果分类器t认为ej在下一时刻图中存在,则ej的权重加上此分类器的投票权重。如果分类器t认为ej在下一时刻图中不存在,则为ej的权重减去此分类器的投票权重。在所有分类器对ej投票完成之后,若ej的权重为正,即预测ej会在下一时刻的图中存在。反之,ej的权重为负,则预测ej不会在下一时刻的图中存在。
步骤109、输出对预测测试样本的预测结果
对预测结果进行输出
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
Claims (1)
1.一种基于AdaBoost的链路预测算法:其特征在于,首先读取预测训练样本以及预测测试样本;为预测训练样本附上其真实所在类的标签值;为每个样本的权重赋初始值;按照算法结果互补原则选取若干链路预测算法作为弱分类器;使用各个分类器为训练样本做分类;循环计算得到所有分类器投票权重,对每次循环,按照分类结果是否正确计算各个分类器当前错误率,选择出错误率最小的分类器,计算其投票权重,并对所有的样本进行权重升级。循环结束后得到每个分类器的投票权重;使用每个分类器为预测测试集合中的样本做分类;按上述各分类器的分类结果为预测测试集合中的样本投票,最终投票结果为正的样本即为预测其会在将来发生链接,投票结果为负的样本即为预测其不会再将来发生链接。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210553291.8A CN103886169A (zh) | 2012-12-19 | 2012-12-19 | 一种基于AdaBoost的链路预测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210553291.8A CN103886169A (zh) | 2012-12-19 | 2012-12-19 | 一种基于AdaBoost的链路预测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103886169A true CN103886169A (zh) | 2014-06-25 |
Family
ID=50955060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210553291.8A Pending CN103886169A (zh) | 2012-12-19 | 2012-12-19 | 一种基于AdaBoost的链路预测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103886169A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104363092A (zh) * | 2014-09-25 | 2015-02-18 | 电子科技大学 | 定距条件下的基于音频物理指纹的设备认证 |
CN106959967A (zh) * | 2016-01-12 | 2017-07-18 | 中国科学院声学研究所 | 一种链路预测模型的训练及链路预测方法 |
CN108154071A (zh) * | 2016-12-05 | 2018-06-12 | 北京君正集成电路股份有限公司 | 检测器训练方法及装置、行人移动方向的检测方法及装置 |
US10572501B2 (en) | 2015-12-28 | 2020-02-25 | International Business Machines Corporation | Steering graph mining algorithms applied to complex networks |
-
2012
- 2012-12-19 CN CN201210553291.8A patent/CN103886169A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104363092A (zh) * | 2014-09-25 | 2015-02-18 | 电子科技大学 | 定距条件下的基于音频物理指纹的设备认证 |
CN104363092B (zh) * | 2014-09-25 | 2018-06-19 | 电子科技大学 | 定距条件下的基于音频物理指纹的设备认证 |
US10572501B2 (en) | 2015-12-28 | 2020-02-25 | International Business Machines Corporation | Steering graph mining algorithms applied to complex networks |
CN106959967A (zh) * | 2016-01-12 | 2017-07-18 | 中国科学院声学研究所 | 一种链路预测模型的训练及链路预测方法 |
CN108154071A (zh) * | 2016-12-05 | 2018-06-12 | 北京君正集成电路股份有限公司 | 检测器训练方法及装置、行人移动方向的检测方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guo et al. | Deep information fusion-driven POI scheduling for mobile social networks | |
CN104134159B (zh) | 一种基于随机模型预测信息最大化传播范围的方法 | |
CN102567391B (zh) | 一种分类预测混合模型的建立方法及装置 | |
CN112631717B (zh) | 基于异步强化学习的网络服务功能链动态部署***及方法 | |
CN106951825A (zh) | 一种人脸图像质量评估***以及实现方法 | |
CN105975504A (zh) | 一种基于循环神经网络的社交网络消息爆发检测方法及*** | |
CN103678004A (zh) | 一种基于非监督特征学习的主机负载预测方法 | |
CN107292390A (zh) | 一种基于混沌理论的信息传播模型及其传播方法 | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
CN107886160B (zh) | 一种bp神经网络区间需水预测方法 | |
US20210383205A1 (en) | Taxonomy Construction via Graph-Based Cross-domain Knowledge Transfer | |
CN105760649A (zh) | 一种面向大数据的可信度量方法 | |
CN115270007B (zh) | 一种基于混合图神经网络的poi推荐方法及*** | |
CN105761153A (zh) | 一种加权网络重要用户发现的实现方法 | |
CN103886169A (zh) | 一种基于AdaBoost的链路预测算法 | |
CN107453921A (zh) | 基于非线性神经网络的智慧城市***人工智能评价方法 | |
CN105471647A (zh) | 一种电力通信网故障定位方法 | |
CN103617146B (zh) | 一种基于硬件资源消耗的机器学习方法及装置 | |
CN115456093A (zh) | 一种基于注意力图神经网络的高性能图聚类方法 | |
CN113868537B (zh) | 一种基于多行为会话图融合的推荐方法 | |
CN115099326A (zh) | 基于人工智能的行为预测方法、装置、设备及存储介质 | |
CN104092503A (zh) | 一种基于狼群优化的人工神经网络频谱感知方法 | |
CN106934373A (zh) | 一种图书馆图书损坏评定方法及*** | |
CN107644268B (zh) | 一种基于多特征的开源软件项目孵化状态预测方法 | |
CN106503794A (zh) | 一种风机齿轮箱剩余寿命预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140625 |