CN108270608A - 一种链路预测模型的建立及链路预测方法 - Google Patents

一种链路预测模型的建立及链路预测方法 Download PDF

Info

Publication number
CN108270608A
CN108270608A CN201710004638.6A CN201710004638A CN108270608A CN 108270608 A CN108270608 A CN 108270608A CN 201710004638 A CN201710004638 A CN 201710004638A CN 108270608 A CN108270608 A CN 108270608A
Authority
CN
China
Prior art keywords
model
network
link prediction
data
network data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710004638.6A
Other languages
English (en)
Other versions
CN108270608B (zh
Inventor
颜永红
李太松
张艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201710004638.6A priority Critical patent/CN108270608B/zh
Publication of CN108270608A publication Critical patent/CN108270608A/zh
Application granted granted Critical
Publication of CN108270608B publication Critical patent/CN108270608B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供了一种链路预测模型的建立方法,所述链路预测模型包括:时序受限玻尔兹曼机模型和梯度提升决策树模型;所述方法包括:从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理,将网络数据划分为历史数据和现有数据,输入时序受限玻尔兹曼机模型,训练出模型参数;提取网络数据节点对的网络拓扑特征,形成特征集并输入梯度提升决策树模型,训练出模型参数;所述链路预测模型包括训练好的时序受限玻尔兹曼机模型和梯度提升决策树模型。基于该方法建立的链路预测模型,本发明还提供了一种链路预测方法,该方法能够预测网络下一状态的所有链接。

Description

一种链路预测模型的建立及链路预测方法
技术领域
本发明涉及互联网技术领域,具体涉及一种链路预测模型的建立及链路预测方法,该方法利用网络的拓扑特征和深度学习模型,对大规模网络进行链路预测。
背景技术
伴随着互联网和移动通信技术的飞速发展,人们之间的联系变得越来越紧密。通过互联网和通信网,人与人之间组成了一个巨大的复杂网络。网络中的人与人之间的互动、交流和影响已融入到生活中的各个方面。对社会网络的研究也逐渐受到关注,并成为当前科学领域的研究热点之一。现实社会中,许多人希望通过分析社会网络的结构和变化,发现网络中节点之间的联系原理,知晓潜藏在一般现象下的规律,以及社会网络拓扑结构特征和节点属性特征与网络节点行为趋势之间的关系,进而发现社会网络的演变本质,利用这些信息帮助人们更有效的配置资源和信息处理,指导商业生产、人类生活、人口管理、自然规划等方面的管理、判读和决策。其中网络节点行为趋势的一个重要研究点就是链路预测。
链路预测方法用来描述网络未来的发展趋势,可以细化至节点之间的连接预测;也可以在现有的不完整网络中找出残缺的或者是隐藏的边。传统的链路预测方法一般利用网络拓扑特征和节点属性,采用机器学习的方法进行预测。然而这些方法都是从微观的角度,以节点对为对象进行链路预测,不利于对网络宏观结构的演化建模,因而其预测效果也存在一定瓶颈。
发明内容
本发明的目的在于克服目前链路预测方法存在的上述缺陷,提出了一种基于深度学习的链路预测方法,该方法利用时序受限玻尔兹曼机模型对宏观时序下网络的邻接矩阵进行建模,然后将训练好的模型作为生成模型,对下一时序的网络链接状态进行宏观预测。另一方面,从微观角度对网络局部拓扑特征进行提取,采用机器学习模型(梯度提升决策树学习模型)预测网络结构的链接状态。最后将二者的预测结果加权融合,得到网络最终的链路预测结果。该方法从网络的宏观和微观两个角度描述网络的演化,以生成深度学习模型为基础,融合机器学习模型,提升了链路预测性能。
为了实现上述目的,本发明提供了一种基于深度学习的链路预测方法,所述链路预测模型包括:时序受限玻尔兹曼机模型和梯度提升决策树模型;所述方法包括:从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理,将网络数据划分为历史数据和现有数据,输入时序受限玻尔兹曼机模型,训练出模型参数;提取网络数据节点对的网络拓扑特征,形成特征集并输入梯度提升决策树模型,训练出模型参数;所述链路预测模型包括训练好的时序受限玻尔兹曼机模型和梯度提升决策树模型。
上述技术方案中,所述方法具体包括:
步骤S1)从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理,使网络数据不包含孤立节点或节点对;
步骤S2)按一定时间长度将网络数据划分为时间片,每个时间片下构造网络图G={GK,GK-1,…,G1},将G用时序邻接矩阵表达为A={AK,AK-1,…,A1},然后确认时间窗为N,N<K,其中{AN,AN-1,…,A2}为历史数据,{A1}为现有数据;
步骤S3)将历史数据和现有数据输入时序受限玻尔兹曼机模型,训练出模型参数;
步骤S4)将{GK,…,G2}合并成基础网络G’;以G1为标准集,从G’中选出相距为一跳的节点对,形成正负样本;并使正负样本数量一致;提取节点对的网络拓扑特征,形成特征集并输入梯度提升决策树模型,训练出模型参数;
步骤S5)所述链路预测模型训练完毕,所述链路预测模型包括训练好的时序受限玻尔兹曼机模型和梯度提升决策树模型。
上述技术方案中,所述步骤S4)的网络拓扑特征包括基于邻居的特征和基于网络游走的特征。
基于上述方法建立的链路预测模型,本发明还提供了一种链路预测方法,所述方法包括:
步骤T1)抓取待预测的网络数据,并进行预处理,使网络数据不包含孤立节点或节点对;
步骤T2)按一定时间长度将待预测的网络数据划分为时间片,每个时间片下构造网络图G={GK,GK-1,…,G1,G0},其中{GN,GN-1,…,G2}为历史网络图,{G1}为现有网络图,{G0}为待预测的网络图;将G用时序邻接矩阵表达为A={AK,AK-1,…,A1,A0};时间窗为N,N<K,时间窗往前移动一个单位,历史数据变成{AN-1,AN-2,…,A1},待预测数据二值随机初始化为{A0},{A0}为现有数据,输入时序受限玻尔兹曼机模型,多次迭代后得到预测结果R1;
步骤T3)用{GK,GK-1,…,G1}构造基础网络,利用步骤S4)提取特征集,输入梯度提升决策树模型,预测{G0}下的节点连接状态,得到预测结果R2;
步骤T4)加权合并结果R1,R2,最后得到融合后的预测结果R。
上述技术方案中,所述步骤T4)的实现过程为:
如果R1和R2中有共同的节点对,则加权合并得到R=α·R1+(1-α)·R2,α取值在0.5-0.7之间;如果R1中存在R2中没有的节点对,则预测结果R=R1。
本发明的优点在于:
1、本发明的链路预测方法融合了深度学习和机器学习方法,从两个角度描述网络的变化,克服了单一模型的不足;而且预测的是网络下一状态的所有链接,因而预测效果更全面,更准确;
2、本发明的链路预测方法不仅对不同网络具有普适性,而且对不同网络特性,不同大小的网络都有很好的鲁棒性。
附图说明
图1为本发明的链路预测方法的时序图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细的说明。
一种链路预测模型的建立方法,所述链路预测模型包括:时序受限玻尔兹曼机(Temporal Restricted Boltzmann Machine,TRBM)模型和梯度提升决策树(GradientBoosting Decision Trees,GBDT)模型;所述方法包括以下步骤:
步骤S1)从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理;
所述网络数据中包含边的时间信息;若所抓取的网络数据为不包含孤立节点或节点对的网络数据,则可直接使用,否则需要对所抓取的网络数据进行预处理,删除孤立节点和节点对;
步骤S2)按一定时间长度将网络数据划分为时间片(snapshot),每个时间片下构造网络图G={GK,GK-1,…,G1},将G用时序邻接矩阵表达为A={AK,AK-1,…,A1},然后确认时间窗为N(N<K),其中{AN,AN-1,…,A2}为历史数据,{A1}为现有数据;
步骤S3)将历史数据和现有数据输入TRBM模型,训练模型参数;
步骤S4)将{GK,…,G2}合并成基础网络G’;以G1为标准集,从G’中选出相距为一跳的节点对,形成正负样本;由于正负样本不均衡,需要对节点对进行采样,使得正负样本数量一致;提取节点对的网络拓扑特征,形成特征集并输入GBDT模型训练,训练模型参数;
在本实施例中网络拓扑特征包括基于邻居的特征和基于网络游走的特征;在本实施例中,邻居特征为Adamic-Adar;游走特征为RootedPagerank。
步骤S5)所述链路预测模型训练完毕,所述链路预测模型包括训练好的TRBM模型和GBDT模型。
如图1所示,基于上述方法建立的链路预测模型,本发明还提供了一种链路预测方法,所述方法包括:
步骤T1)抓取待预测的网络数据,并进行预处理,使网络数据不包含孤立节点或节点对;
步骤T2)按一定时间长度将待预测的网络数据划分为时间片,每个时间片下构造网络图G={GK,GK-1,…,G1,G0},其中{GN,GN-1,…,G2}为历史网络图,{G1}为现有网络图,{G0}为待预测的网络图;将G用时序邻接矩阵表达为A={AK,AK-1,…,A1,A0};时间窗为N(N<K),时间窗往前移动一个单位,历史数据变成{AN-1,AN-2,…,A1},待预测数据二值随机初始化为{A0},{A0}为现有数据,输入TRBM模型,多次迭代后得到预测结果R1;
步骤T3)用{GK,GK-1,…,G1}构造基础网络,利用步骤S4)提取特征集,输入GBDT模型,预测{G0}下的节点连接状态,得到预测结果R2;
步骤T4)加权合并结果R1,R2,最后得到融合后的预测结果R。
如果R1和R2中有共同的节点对,加权合并R=α·R1+(1-α)·R2,α取值在0.5-0.7之间;如果R1中存在R2中没有的节点对,以R1的结果为最终结果R=R1。

Claims (5)

1.一种链路预测模型的建立方法,所述链路预测模型包括:时序受限玻尔兹曼机模型和梯度提升决策树模型;所述方法包括:从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理,将网络数据划分为历史数据和现有数据,输入时序受限玻尔兹曼机模型,训练出模型参数;提取网络数据节点对的网络拓扑特征,形成特征集并输入梯度提升决策树模型,训练出模型参数;所述链路预测模型包括训练好的时序受限玻尔兹曼机模型和梯度提升决策树模型。
2.根据权利要求1所述的链路预测模型的建立方法,其特征在于,所述方法具体包括:
步骤S1)从互联网或其它多媒体中抓取大量的网络数据,对网络数据进行预处理,使网络数据不包含孤立节点或节点对;
步骤S2)按一定时间长度将网络数据划分为时间片,每个时间片下构造网络图G={GK,GK-1,…,G1},将G用时序邻接矩阵表达为A={AK,AK-1,…,A1},然后确认时间窗为N,N<K,其中{AN,AN-1,…,A2}为历史数据,{A1}为现有数据;
步骤S3)将历史数据和现有数据输入时序受限玻尔兹曼机模型,训练出模型参数;
步骤S4)将{GK,…,G2}合并成基础网络G’;以G1为标准集,从G’中选出相距为一跳的节点对,形成正负样本;并使正负样本数量一致;提取节点对的网络拓扑特征,形成特征集并输入梯度提升决策树模型,训练出模型参数;
步骤S5)所述链路预测模型训练完毕,所述链路预测模型包括训练好的时序受限玻尔兹曼机模型和梯度提升决策树模型。
3.根据权利要求2所述的链路预测模型的建立方法,其特征在于,所述步骤S4)的网络拓扑特征包括基于邻居的特征和基于网络游走的特征。
4.一种链路预测方法,基于权利要求2-3之一所述的方法建立的链路预测模型实现,所述方法包括:
步骤T1)抓取待预测的网络数据,并进行预处理,使网络数据不包含孤立节点或节点对;
步骤T2)按一定时间长度将待预测的网络数据划分为时间片,每个时间片下构造网络图G={GK,GK-1,…,G1,G0},其中{GN,GN-1,…,G2}为历史网络图,{G1}为现有网络图,{G0}为待预测的网络图;将G用时序邻接矩阵表达为A={AK,AK-1,…,A1,A0};时间窗为N,N<K,时间窗往前移动一个单位,历史数据变成{AN-1,AN-2,…,A1},待预测数据二值随机初始化为{A0},{A0}为现有数据,输入时序受限玻尔兹曼机模型,多次迭代后得到预测结果R1;
步骤T3)用{GK,GK-1,…,G1}构造基础网络,利用步骤S4)提取特征集,输入梯度提升决策树模型,预测{G0}下的节点连接状态,得到预测结果R2;
步骤T4)加权合并结果R1,R2,最后得到融合后的预测结果R。
5.根据权利要求1所述的链路预测方法,其特征在于,所述步骤T4)的实现过程为:
如果R1和R2中有共同的节点对,则加权合并得到R=α·R1+(1-α)·R2,α取值在0.5-0.7之间;如果R1中存在R2中没有的节点对,则预测结果R=R1。
CN201710004638.6A 2017-01-04 2017-01-04 一种链路预测模型的建立及链路预测方法 Active CN108270608B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710004638.6A CN108270608B (zh) 2017-01-04 2017-01-04 一种链路预测模型的建立及链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710004638.6A CN108270608B (zh) 2017-01-04 2017-01-04 一种链路预测模型的建立及链路预测方法

Publications (2)

Publication Number Publication Date
CN108270608A true CN108270608A (zh) 2018-07-10
CN108270608B CN108270608B (zh) 2020-04-03

Family

ID=62771669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710004638.6A Active CN108270608B (zh) 2017-01-04 2017-01-04 一种链路预测模型的建立及链路预测方法

Country Status (1)

Country Link
CN (1) CN108270608B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639485A (zh) * 2018-12-13 2019-04-16 国家电网有限公司 用电采集通信链路的监测方法和装置
CN110061961A (zh) * 2019-03-05 2019-07-26 中国科学院信息工程研究所 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和***
CN110445653A (zh) * 2019-08-12 2019-11-12 灵长智能科技(杭州)有限公司 网络状态预测方法、装置、设备及介质
CN116132300A (zh) * 2022-09-15 2023-05-16 电子科技大学 基于梯度提升决策树特征组合的链路识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103490948A (zh) * 2013-09-06 2014-01-01 华为技术有限公司 网络性能的预测方法及装置
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence
CN103490948A (zh) * 2013-09-06 2014-01-01 华为技术有限公司 网络性能的预测方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109639485A (zh) * 2018-12-13 2019-04-16 国家电网有限公司 用电采集通信链路的监测方法和装置
CN110061961A (zh) * 2019-03-05 2019-07-26 中国科学院信息工程研究所 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和***
CN110061961B (zh) * 2019-03-05 2020-08-25 中国科学院信息工程研究所 一种基于受限波尔兹曼机的抗追踪网络拓扑智能构建方法和***
CN110445653A (zh) * 2019-08-12 2019-11-12 灵长智能科技(杭州)有限公司 网络状态预测方法、装置、设备及介质
CN116132300A (zh) * 2022-09-15 2023-05-16 电子科技大学 基于梯度提升决策树特征组合的链路识别方法
CN116132300B (zh) * 2022-09-15 2024-04-30 电子科技大学 基于梯度提升决策树特征组合的链路识别方法

Also Published As

Publication number Publication date
CN108270608B (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN108270608A (zh) 一种链路预测模型的建立及链路预测方法
Gatti et al. Large-scale multi-agent-based modeling and simulation of microblogging-based online social network
CN104809501B (zh) 一种基于类脑协处理器的计算机***
CN111368074A (zh) 一种基于网络结构和文本信息的链路预测方法
CN112084373B (zh) 一种基于图嵌入的多源异构网络用户对齐方法
CN104348829A (zh) 一种网络安全态势感知***及方法
CN111008337B (zh) 一种基于三元特征的深度注意力谣言鉴别方法及装置
Tehseen et al. A framework for the prediction of earthquake using federated learning
CN112990378B (zh) 基于人工智能的场景识别方法、装置及电子设备
CN104361462B (zh) 基于文化基因算法的社交网络影响最大化方法
CN110362728A (zh) 基于大数据分析的信息推送方法、装置、设备及存储介质
CN107086925B (zh) 一种基于深度学习的互联网流量大数据分析方法
CN114492978A (zh) 一种基于多层注意力机制的时空序列预测方法及设备
Garcia-Magarino et al. Survivability strategies for emerging wireless networks with data mining techniques: A case study with NetLogo and RapidMiner
Popa et al. Neural networks for production curve pattern recognition applied to cyclic steam optimization in diatomite reservoirs
CN107644268B (zh) 一种基于多特征的开源软件项目孵化状态预测方法
CN112000793B (zh) 一种面向人机交互的对话目标规划方法
CN110020379A (zh) 一种基于深度动态网络嵌入表示模型的链路预测方法
Lingyu et al. SMAM: Detecting rumors from microblogs with stance mining assisting task
CN114912354B (zh) 一种预测蚊媒传染病风险的方法、装置及介质
CN109981337A (zh) 面向数据开放共享的多源数据对齐方法
Esmaili et al. Effective synthetic data generation for fake user detection
Ren et al. [Retracted] A Study on Information Classification and Storage in Cloud Computing Data Centers Based on Group Collaborative Intelligent Clustering
CN113743605A (zh) 基于进化方法搜索烟、火检测网络架构的方法
Coscia et al. Fast Multiplex Graph Association Rules for Link Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant