CN112765415A - 基于关系内容联合嵌入卷积神经网络的链路预测方法 - Google Patents

基于关系内容联合嵌入卷积神经网络的链路预测方法 Download PDF

Info

Publication number
CN112765415A
CN112765415A CN202110085651.5A CN202110085651A CN112765415A CN 112765415 A CN112765415 A CN 112765415A CN 202110085651 A CN202110085651 A CN 202110085651A CN 112765415 A CN112765415 A CN 112765415A
Authority
CN
China
Prior art keywords
node
vector
training
neural network
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110085651.5A
Other languages
English (en)
Inventor
朱笑岩
张琳杰
马建峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202110085651.5A priority Critical patent/CN112765415A/zh
Publication of CN112765415A publication Critical patent/CN112765415A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于关系内容联合嵌入卷积神经网络的链路预测方法,主要解决现有链路预测方法的精度不高和运行速度慢的问题。其实现方案是:1)计算节点对的结构初始向量;2)计算节点对的内容嵌入向量;3)选取节点以生成训练样本集和测试样本集,分别获取训练样本和测试样本的节点对的结构初始向量、节点对的内容嵌入向量,获取训练样本的真实标签值;4)构建卷积神经网络,并用训练样本集对其进行训练;5)将测试样本输入到训练好的卷积神经网络中,得到预测结果。本发明由于综合考虑了节点的关系信息特征、内容信息特征,提高了链路的预测精度和效率,可用于通信隐私连接和社区形成及雷达网络中继评估中的链路预测。

Description

基于关系内容联合嵌入卷积神经网络的链路预测方法
技术领域
本发明属于计算机技术领域,更进一步涉及一种卷积神经网络的链路预测方法,可用于社交网络推荐、协作网络推荐、通信隐私连接和社区形成及雷达网络中继评估。
背景技术
链路预测是在社会网络分析中识别缺失链接并预测新链接而进行的信息处理技术,是将复杂网络与信息科学联系起来的重要桥梁之一。链路预测技术的进步依赖于网络链路形成因素分析技术的发展。网络中链路的形成与节点和边相关的许多因素有关。节点行为可能会潜在地影响其周围的节点,此外有关联的节点也通常会有相似的行为。网络中边的存在和性质也受若干结构因素的影响,例如网络中边的局部邻域、网络的拓扑结构、与网络中的周围边相关联的性质和标签等。随着链路形成因素分析技术的改进,链路预测的主流研究方法从利用启发式的数学方法、统计学方法逐渐过渡到了机器学习方法。现在的技术发展趋势为在欧氏空间中嵌入网络的连接信息和内容信息来学习节点和边表示,每个节点和边的表示负责编码相应类型的特征,通过神经网络训练预测链路是否存在,以保存原来关联节点和关联边之间的相似性,取得高精度的预测效果。链路预测相关研究不仅能够推动网络科学和信息科学理论上的发展,而且具有巨大的实际应用价值,譬如应用于朋友推荐、引文推荐、项目推荐、雷达网络优化、蜂窝网络形成、交通路径规划、合著网络中合作者的识别、犯罪网络中犯罪分子的识别等。
西安电子科技大学在其申请的专利文献“一种基于网络结构和文本信息的链路预测方法”(专利申请号CN202010113634.3,申请公开号CN111368074A)中公开了一种基于网络结构和文本信息的链路预测方法。该方法的实施步骤是:第一步,基于网络结构中随机游走的节点,获得节点的结构嵌入向量。第二步,构建卷积神经网络来处理节点的文本信息,获得节点的文本信息嵌入向量。第三步,将节点的结构嵌入向量和文本信息嵌入向量进行联合嵌入。第四步,生成训练集和测试集。第五步,构建神经网络进行二分类学习,第六步,训练神经网络。第七步,预测结果。该方法由于预测阶段通过构建的神经网络进行二分类学习,导致从高维稀疏的网络结构中预测低维密集的边表示和边权重比较困难,不适用于大规模网络,因此预测精度有限。
宁波大学在其申请的专利文献“一种动态社交网络中的链路预测方法”(专利申请号201911285769.1,申请公开号CN 111090781 A)中公开了一种动态社交网络中的链路预测方法。该方法的实施步骤是:第一步,将t时刻网络中的节点映射到低维嵌入空间中,并写成每个节点的低维表示向量。第二步,分别计算t时刻网络中节点的局部特征、二阶相似性和保持网络演化平滑性对应的损失函数,最后根据最小化总损失函数得到节点最佳的低维表示向量。第三步,使用最佳低维表示向量方法得到测试集中的所有节点低维表示向量,并依次将每个节点对的低维表示向量输入到逻辑回归分类器中进行训练,得到训练完成的逻辑回归分类器。第四步,将T时刻网络中每个节点对的低维表示向量输入到训练完成的逻辑回归分类器中,得到T+1时刻的网络信息。该方法由于将内容相似度分布和表示关系的边权重分布之间相对熵的最小值作为相似度分布和边权重分布之间的距离,节点邻居数量呈指数增加导致计算量大,拖慢了训练速度。另外,该方法由于使用全局信息进行计算,使得关系属性和内容属性难以充分参与预测权重的计算,因而预测精度较低。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于关系内容联合嵌入卷积神经网络的链路预测方法,以提升链路预测模型的精度和泛化能力,加快链路预测模型的训练速度。
实现本发明目的的方案是:计算节点对的整体贴近度得到节点对结构初始向量,计算节点和内容之间的偏好特征得到内容嵌入向量,构建基于关系内容属性的卷积神经网络的预测模型以获得链路预测的预测标签值。
为实现上述目的,本发明的技术方案是这样实现的:
1.一种基于关系内容联合嵌入卷积神经网络的链路预测方法,其特征在于,包括如下:
(1)获取链路网络中每一个节点的一阶邻居节点集合和二阶邻居节点集合,并对这两个集合进行采样,根据采样结果计算节点对的结构初始向量ai
(2)根据链路网络中每一个节点的内容信息计算节点内容嵌入向量,并将链路网络中所有节点两两配对,计算每个节点对的内容嵌入向量bi
(3)从链路网络所有节点对中,随机选取2437个节点对,组成训练样本集,获取训练样本的节点对的结构向量、节点对的内容嵌入向量、节点对的真实标签值,从除去训练样本集的链路网络中剩余所有节点对中,随机选取429个节点对,组成测试样本集,获取测试样本的节点对的结构向量、节点对的内容嵌入向量;
(4)构建依次由1层采样层,20层卷积层,16层池化层,2层隐藏层,1层全连接层级联组成的卷积神经网络,并在隐藏层选择哈达玛积作为隐藏层的计算函数,选择Relu函数作为隐藏层的激活函数,选择训练样本的训练误差li作为该网络的损失函数;
(5)训练卷积神经网络:
设置初始权重向量m1,初始学习率为η1,最大迭代轮次数为QMAX,将训练样本集分为i批次输入到卷积神经网络中,对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的卷积神经网络;
(6)将测试样本集中的每个样本的节点对的结构向量、节点对的内容嵌入向量输入到已经训练好的神经网络中,得到测试样本集中所有节点对的预测标签值W;
(7)设定检测阈值H,将(6)得到的预测标签值W与检测阈值H进行比较,得到最终链路预测结果:
若W>H,则认为该链路存在;
若W≤H,则认为该链路不存在。
本发明与现有技术相比,具有以下优点:
第一,由于本发明计算节点对结构初始向量时,获取关系拓扑图中的节点在结构向量空间中的有效表示,每个节点的表示负责编码相应类型的节点特征,保存原来关联节点之间的相似性,使得在使用卷积神经网络完成模型的训练与操作时能够加快卷积操作的速度,准确预测链路网络中尚未产生链路的两个节点之间产生链路的可能性;
第二,由于本发明计算节点对内容嵌入向量时,获取学习内容信息向量表示的潜在关联,提升了嵌入维度效率,解决了向量维度过高时最近邻搜索计算复杂度高的问题,并通过对参数不断的调优,可使其适用于大规模网络;
第三,由于本发明构建卷积神经网络时,利用隐藏层的计算函数和激活函数,可在保留节点特征的同时减少参数和计算量,具体体现在不仅能捕获节点的内容信息,还能抓取节点的关系结构,提升链路预测的准确度;
第四,由于本发明使用卷积神经网络进行嵌入向量的学习,并设计了适合本发明卷积神经网络模型的网络损失函数,可克服现有技术嵌入向量表征不准确的问题,使得本发明得到更加精确的链路预测结果。
附图说明
图1为本发明的实现流程图;
图2为本发明中的卷积神经网络模型结构示意图;
图3为用本发明和5种现有技术在2个数据集上的进行链路预测结果仿真图。
具体实施方式
下面结合附图对本发明的实施例做进一步的描述。
参照图1,本实例的实现步骤如下:
步骤1,计算节点对的结构初始向量ai
1.1)获取链路网络中每一个节点的一阶邻居节点集合和二阶邻居节点集合;
本实例取但不限于采取随机游走搜索方式获取一阶邻居节点集合和二阶邻居节点集合,即从当前候选解的邻居节点中选择一个更优的进行搜索转移;
1.2)对一阶邻居节点集合和二阶邻居节点集合进行采样;
本实例取但不限于采取祖先采样方式对一阶邻居节点集合和二阶邻居节点集合进行采样,即先对一阶邻居节点进行采样,只有当某个二阶邻居节点的所有一阶邻居节点都已完成采样,才对该二阶邻居节点进行采样;
1.3)根据采样结果计算节点对的结构初始向量ai
1.3.1)从链路网络中选取一个新目标节点i;
本实例取但不限于分支限界法则选取新目标节点,分支限界法是指以广度优先的方式来选取新目标节点;
1.3.2)从新目标节点i的一阶邻居节点集合中随机选择一个辅助节点j,将新目标节点i和辅助节点j组成节点对,计算节点对的连接贴近度Rij
Figure BDA0002910645790000051
其中,Ui表示新目标节点i的一阶邻居节点集合,
Figure BDA0002910645790000055
表示新目标节点i的一阶邻居节点集合的维数,Uj表示辅助节点j的一阶邻居节点集合,
Figure BDA0002910645790000056
表示辅助节点j的一阶邻居节点集合的维数;
1.3.3)计算节点对的范围贴近度Sij
Figure BDA0002910645790000052
其中,Ug表示新目标节点i的一阶邻居节点集合和辅助节点j的一阶邻居节点集合的交集,
Figure BDA0002910645790000057
表示新目标节点i的一阶邻居节点集合和辅助节点j的一阶邻居节点的交集的维数;
1.3.4)计算节点对的整体贴近度Jij
Figure BDA0002910645790000053
其中,ρ是将高维稠密的数据映射为低维稠密数据的映射向量,α表示节点对的连接贴近度的责任权重,本实例取且不限于0.7,
Figure BDA0002910645790000054
表示多层感知机的级联运算,β表示节点对的范围贴近度的责任权重,本实例取且不限于0.3;
1.3.5)判断是否选够32个辅助节点j:
若是,则把32个节点对的整体贴近度Jij组成结构初始向量:
εi=[Jij]32
其中,[]为组成运算符,执行1.3.6);
否则,返回1.3.2);
1.3.6)判断是否选完所有新目标节点:
若是,则把所有结构初始向量εi拼接成节点对的结构初始向量:
ai=∪εi
其中,∪为拼接运算符;
否则,返回1.3.1)。
步骤2,计算节点对的内容嵌入向量bi
2.1)根据链路网络中每一个节点的内容信息计算节点的内容嵌入向量;
2.1.1)从1.3.1)选取的新目标节点i的内容信息中获得新目标节点i的特征向量xi、新目标节点i的特征向量权重ωi、新目标节点i的内容库特征向量yi
本实例采取但不限于爬虫方式获得新目标节点i的特征向量xi,新目标节点i的特征向量权重ωi,新目标节点i的内容库特征向量yi,即按照标号顺序的规则自动地从数据集抓取新目标节点i数据列表上的内容信息;
2.1.2)计算新目标节点i的内容嵌入向量:
Figure BDA0002910645790000061
其中,ζ表示非线性激活函数Leaky ReLU函数,ψ表示内容嵌入向量的偏差,本实例取且不限于0.5;
2.1.3)从辅助节点j的内容信息中获得辅助节点j特征向量xj,辅助节点j特征向量的权重ωj,辅助节点j内容库特征向量yj,计算辅助节点j内容嵌入向量:
Figure BDA0002910645790000062
本实例采取但不限于爬虫方式获得辅助节点j特征向量xj,辅助节点j特征向量的权重ωj,辅助节点j内容库特征向量yj,即指按照一定的规则自动地从数据集抓取辅助节点j数据列表上的内容信息;
2.2)将链路网络中所有节点两两配对;
本实例采取但不限于匈牙利算法进行所有节点两两配对,即在多项式时间内求解节点分配问题的组合优化算法;
2.3)计算每个节点对的内容嵌入向量bi
2.3.1)计算内容嵌入向量πi
Figure BDA0002910645790000071
其中,ξ表示非线性激活函数;τ表示新目标节点i的内容嵌入责任权重,本实例取且不限于τ=0.7;
Figure BDA0002910645790000072
表示辅助节点j的内容嵌入责任权重,本实例取且不限于0.3;⊕表示两个向量之间的级联运算;
2.3.2)判断是否选完所有新目标节点:若是,则将所有的内容嵌入向量πi拼接成节点对的内容嵌入向量:bi=∪πi;否则,返回2.1.1)。
步骤3,生成训练样本集和测试样本集。
3.1)从真实链路预测数据集获取训练样本集和测试样本集;
本实例采用真实链路预测数据集为Subreddit数据集和Mooc数据集,从每一个数据集中选取2437个节点对作为训练样本集,选取429个节点对作为测试样本集。
3.2)从链路网络所有节点对中,随机选取2437个节点对,组成训练样本集,获取训练样本的节点对的结构初始向量、节点对的内容嵌入向量、节点对的真实标签值;
本实例采取但不限于回溯法则选取节点组成训练样本集,即以深度优先的方式来选取节点,按选优条件向前搜索,如发现先选取的节点达不到要求,就退回一步重新选择;
3.3)从除去训练样本集的链路网络所剩余的所有节点对中,随机选取429个节点对,组成测试样本集,获取测试样本节点对的结构初始向量、节点对的内容嵌入向量;
本实例采取但不限于回溯法则选取节点组成训练样本集,即以深度优先的方式来选取节点,按选优条件向前搜索,如发现先选取的节点达不到要求,就退回一步重新选择;
步骤4,构建卷积神经网络。
4.1)构建依次由1层采样层,20层卷积层,16层池化层,2层隐藏层,1层全连接层级联组成的卷积神经网络;
4.2)设置卷积神经网络参数;
参照图2,该卷积神经网络的各层功能与参数设置如下:
所述采样层:用以对步骤1中节点对结构初始向量ai利用双线性插值法进行采样运算,得到采样向量ci
所述卷积层:用以对采样向量ci进行卷积运算,得到卷积向量di,卷积层所用卷积核大小为3,步长为1,卷积核个数为32,卷积层激活函数为ReLU,dropout为0.2;
本实例采取但不限于窗口卷积法进行卷积运算,即对采样向量ci提取采样向量序列的局部的特征cij,进行窗口长度为1的窗口卷积运算,得到卷积向量di
di=cij·γi,其中γi表示卷积矩阵;
所述池化层:用以对卷积向量di进行均值池化运算,得到结构嵌入向量ei
本实例采取但不限于序位池化法进行均值池化运算,即对卷积向量di在池化域内按照激活值序位进行序位池化运算,得到结构嵌入向量ei
Figure BDA0002910645790000081
其中,t表示选择参与池化的激活值的序位阈值,θl表示在第l个特征图内的池化域,v表示在这个池化域内激活值的索引值,
Figure BDA0002910645790000082
表示激活值的序位;
所述隐藏层:用以对结构嵌入向量ei和步骤2中节点对的内容嵌入向量bi进行哈达玛积运算,得到联合嵌入向量ni
Figure BDA0002910645790000083
其中,χ表示隐藏层的激活函数Relu函数,
Figure BDA0002910645790000084
表示隐藏层的计算函数哈达玛积;
所述全连接层:用以计算i批次节点对的预测标签值fi
fi=δ(nimi),
其中,δ表示映射函数,mi表示i批次权重向量。
步骤5,训练卷积神经网络。
5.1)设置初始权重向量m1
先设置每层权重向量初始值mλ为满足标准差为0.1、均值为0的正态分布的随机数,再用所有层权重组成初始权重向量:m1=[mλ],其中,[]为组成运算符;
5.2)设置初始学习率为η1,最大迭代轮次数为QMAX
5.3)将训练样本集分为i批次输入到卷积神经网络中,对其进行训练;
5.3.1)将训练样本集分为i批次输入到步骤4中设计的卷积神经网络中,得到训练样本集中i批次节点对的预测标签值fi
5.3.2)根据i批次训练样本的节点对的预测标签值fi,计算i批次训练样本的预测标签概率
Figure BDA0002910645790000091
Figure BDA0002910645790000092
5.3.3)根据步骤3中得到的训练样本的节点对的真实标签值fT,计算训练样本的真实标签概率P:
Figure BDA0002910645790000093
5.3.4)计算损失函数i批次训练样本的训练误差li
Figure BDA0002910645790000094
5.3.5)根据i批次训练样本的训练误差li和当前批次的学习率ηi计算训练样本集的卷积神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
本实例取且不限于梯度下降法更新卷积核参数,即指沿着梯度方向对参数进行更新以求解神经网络收敛的最优解;
5.3.6)判断训练样本的训练误差li是否不再下降:若是,则停止对该网络训练,得到训练好的卷积神经网络。
否则,执行5.3.7)。
5.3.7)判断训练轮次数Q是否达到最大训练轮次数QMAX
若是,停止对该网络的训练,得到训练好的卷积神经网络;
否则,将训练轮次数Q增加1,将批次i增加1,返回5.3.1)。
步骤6,对测试样本集进行预测。
将测试样本集中的每个样本的节点对的结构向量、节点对的内容嵌入向量输入到已经训练好的神经网络中,得到测试样本集中所有节点对的预测标签值W。
步骤7,得到链路预测结果。
7.1)设定检测阈值H;
本实例取但不限于0.5;
7.2)将步骤6得到的预测标签值W与检测阈值H进行比较,得到最终链路预测结果;
若W>H,则认为该链路存在;
若W≤H,则认为该链路不存在。
下面结合仿真实验,对本发明的效果做进一步的说明。
1.仿真实验条件:
本发明的仿真实验的运行环境是:处理器为Intel(R)Core(TM)i3-9100 [email protected],内存为8.00GB,硬盘为929G,操作***为Windows 10,编程环境为Python3.8,编程软件为PyCharm Community Edition 2020.2.3x64。
仿真所使用的数据集为Subreddit数据集和Mooc数据集。其中Subreddit数据集包含的超链接网络表示的是两个子超链接之间的定向连接。Mooc数据集采集来自Mooc网站的用户操作日志。这两个数据集的内容有节点信息、节点关系信息、节点的内容信息、节点对的真实标签值向量。
训练样本集是由数据集中2437条节点组成,测试样本集是由数据集中429条节点组成。
使用的现有方法有以下5种:
1、根据具有均等权重的两个节点共有的相邻节点数进行链路预测的共同邻居方法。
2、根据具有度数相似性的两个节点共有的相邻节点数进行链路预测的杰卡德系数相关性方法。
3、根据两个节点共有的相邻节点的度数偏好进行链路预测的加权邻居方法。
4、根据两个节点度数相乘的结果来衡量节点之间是否存在链路的偏好性连接方法。
5、根据两个节点共有的相邻节点的邻接特征图来衡量节点之间是否存在链路的图同构方法。
2.仿真内容及其结果分析:
仿真实验1:比较本发明与上述现有5种方法的链路预测精度。
首先,使用本发明和上述现有5种方法,分别根据Subreddit数据集和Mooc数据集中各节点的节点信息,节点关系信息和节点内容信息,计算节点对结构向量和节点对内容向量,进行链路预测,得到预测标签值;
其次,将各方法的预测标签值与检测阈值进行比较,得到链路是否成功的结果,根据结果统计节点预测成功的链路数量Q、总可供预测的链路数量M和节点可连接的链路数量N;再分别利用准确率计算公式
Figure BDA0002910645790000111
和召回率计算公式
Figure BDA0002910645790000112
计算准确率P和召回率R,利用F1得分计算公式:
Figure BDA0002910645790000113
计算F1得分,其中λ=0.5,F1得分的高低可表示链路预测精度的高低;
最后,比较各方法的F1得分,结果如图3所示,其中横轴表示不同方法,纵轴表示F1得分。
由图3可以看出,本发明标示的柱状图对应的F1得分位于现有5种方法标示的柱状图对应的F1得分的上方,即本发明的F1得分是6种方法中最高的,表明本发明的链路预测精度高于现有的5种方法。
仿真实验2:比较本发明与上述现有5种方法的链路预测时间频度。
用本发明和上述5种现有方法,分别计算仿真实验1中本发明的方法与上述5种现有方法的时间频度,并将这6种链路预测方法时间频度进行比较,结果如表1。
表1各链路预测方法的时间频度
Figure BDA0002910645790000114
Figure BDA0002910645790000121
链路预测方法的时间频度长短可表示链路预测速度的快慢,时间频度越短,链路预测速度越快。
由表1可以看出,现有5种方法进行链路预测的时间频度均较长,本发明进行链路预测的时间频度较短,表明本发明的链路预测速度高于现有的5种方法链路预测的速度。

Claims (7)

1.一种基于关系内容联合嵌入卷积神经网络的链路预测方法,其特征在于,包括如下:
(1)获取链路网络中每一个节点的一阶邻居节点集合和二阶邻居节点集合,并对这两个集合进行采样,根据采样结果计算节点对的结构初始向量ai
(2)根据链路网络中每一个节点的内容信息计算节点内容嵌入向量,并将链路网络中所有节点两两配对,计算每个节点对的内容嵌入向量bi
(3)从链路网络所有节点对中,随机选取2437个节点对,组成训练样本集,获取训练样本的节点对的结构初始向量、节点对的内容嵌入向量、节点对的真实标签值,从除去训练样本集的链路网络中剩余所有节点对中,随机选取429个节点对,组成测试样本集,获取测试样本的节点对的结构初始向量、节点对的内容嵌入向量;
(4)构建依次由1层采样层,20层卷积层,16层池化层,2层隐藏层,1层全连接层级联组成的卷积神经网络,并在隐藏层选择哈达玛积作为隐藏层的计算函数,选择Relu函数作为隐藏层的激活函数,选择训练样本的训练误差li作为该网络的损失函数;
(5)训练卷积神经网络:
设置初始权重向量m1,初始学习率为η1,最大迭代轮次数为QMAX,将训练样本集分为i批次输入到卷积神经网络中,对其进行训练,直到网络的损失函数收敛或者达到最大迭代轮次数,得到训练好的卷积神经网络;
(6)将测试样本集中的每个样本的节点对的结构向量、节点对的内容嵌入向量输入到已经训练好的神经网络中,得到测试样本集中所有节点对的预测标签值W;
(7)设定检测阈值H,将(6)得到的预测标签值W与检测阈值H进行比较,得到最终链路预测结果:
若W>H,则认为该链路存在;
若W≤H,则认为该链路不存在。
2.根据权利要求1所述的方法,其特征在于,(1)中根据采样结果计算节点对的结构初始向量,实现如下:
(1a)从链路网络中选取一个新目标节点i;
(1b)从新目标节点i的一阶邻居节点集合中随机选择一个辅助节点j,将新目标节点i和辅助节点j组成节点对,计算节点对的连接贴近度Rij
Figure FDA0002910645780000021
其中,Ui表示新目标节点i的一阶邻居节点集合,
Figure FDA0002910645780000022
表示新目标节点i的一阶邻居节点集合的维数,Uj表示辅助节点j的一阶邻居节点集合,
Figure FDA0002910645780000023
表示辅助节点j的一阶邻居节点集合的维数;
(1c)计算节点对的范围贴近度Sij
Figure FDA0002910645780000024
其中,Ug表示新目标节点i的一阶邻居节点集合和辅助节点j的一阶邻居节点集合的交集,
Figure FDA0002910645780000027
表示新目标节点i的一阶邻居节点集合和辅助节点j的一阶邻居节点的交集的维数;
(1d)计算节点对的整体贴近度Jij
Figure FDA0002910645780000025
其中,ρ是将高维稠密的数据映射为低维稠密数据的映射向量,α表示节点对的连接贴近度的责任权重,
Figure FDA0002910645780000026
表示多层感知机的级联运算,β表示节点对的范围贴近度的责任权重;
(1e)判断是否选够32个辅助节点j:若是,则把32个节点对的整体贴近度Jij组成结构初始向量:
εi=[Jij]32
其中,[]为组成运算符,执行(1f);
否则,返回(1b);
(1f)判断是否选完所有新目标节点:若是,则把所有的结构初始向量εi拼接成节点对的结构初始向量:
ai=∪εi
其中,∪为拼接运算符;
否则,返回(1a)。
3.根据权利要求1所述的方法,其特征在于,(2)中根据链路网络中每一个节点的内容信息计算节点内容嵌入向量,实现如下:
(2a)从新目标节点i的内容信息中获得新目标节点i特征向量xi,新目标节点i特征向量权重ωi,新目标节点i内容库特征向量yi
(2b)计算新目标节点i内容嵌入向量:
Figure FDA0002910645780000031
其中,ζ表示非线性激活函数Leaky ReLU函数,ψ表示内容嵌入向量的偏差;
(2c)从辅助节点j的内容信息中获得辅助节点j特征向量xj,辅助节点j特征向量的权重ωj,辅助节点j内容库特征向量yj,计算辅助节点j内容嵌入向量:
Figure FDA0002910645780000032
4.根据权利要求1所述的方法,其特征在于,(2)中计算节点对的内容嵌入向量bi,实现如下:
(2d)计算内容嵌入向量πi
Figure FDA0002910645780000033
其中,ξ表示非线性激活函数,τ表示新目标节点i的内容嵌入责任权重,
Figure FDA0002910645780000034
表示两个向量之间的级联运算,
Figure FDA0002910645780000035
表示辅助节点j的内容嵌入责任权重;
(2e)判断是否选完所有新目标节点:若是,则将所有的内容嵌入向量πi拼接成节点对的内容嵌入向量:
bi=∪πi
其中∪为拼接运算符,否则,返回(2a)。
5.根据权利要求1所述的方法,其特征在于,(4)构建的卷积神经网络,其各层功能与参数设置如下:
所述采样层:用以对(1)中节点对结构初始向量ai利用双线性插值法进行采样运算,得到采样向量ci
所述卷积层:用以对采样向量ci进行卷积运算,得到卷积向量di,卷积层所用卷积核大小为3,步长为1,卷积核个数为32,卷积层激活函数为ReLU,dropout为0.2;
所述池化层:用以对卷积向量di进行均值池化运算,得到结构嵌入向量ei
所述隐藏层:用以对结构嵌入向量ei和(2)中节点对的内容嵌入向量bi进行哈达玛积运算,得到联合嵌入向量ni
Figure FDA0002910645780000041
其中,χ表示隐藏层的激活函数Relu函数,
Figure FDA0002910645780000042
表示隐藏层的计算函数哈达玛积;
所述全连接层:用以计算i批次节点对的预测标签值fi
fi=δ(nimi),
其中,δ表示映射函数,mi表示i批次权重向量。
6.根据权利要求1所述的方法,其特征在于,(5)设置初始权重向量m1,是先设置每层权重向量初始值mλ为满足标准差为0.1、均值为0的正态分布的随机数,再用所有层权重组成初始权重向量:
m1=[mλ],
其中,[]为组成运算符。
7.根据权利要求1所述的方法,其特征在于,(5)对卷积神经网络进行训练,实现如下:
(5a)将训练样本集分为i批次输入到(4)中设计的卷积神经网络中,得到训练样本集中i批次节点对的预测标签值fi
(5b)根据i批次训练样本的节点对的预测标签值fi,计算i批次训练样本的预测标签概率
Figure FDA0002910645780000051
Figure FDA0002910645780000052
(5c)根据(3)中得到的训练样本的节点对的真实标签值fT,计算训练样本的真实标签概率P:
Figure FDA0002910645780000053
(5d)计算损失函数i批次训练样本的训练误差li
Figure FDA0002910645780000054
(5e)根据i批次训练样本的训练误差li和当前批次的学习率ηi计算训练样本集的卷积神经网络中卷积核参数的梯度值,根据得到的梯度值更新卷积核参数,完成一次训练;
(5f)判断训练样本的训练误差li是否不再下降:
若是,则停止对该网络训练,得到得到训练好的卷积神经网络;
否则,执行(5g);
(5g)判断训练轮次数Q是否达到最大训练轮次数QMAX
若是,停止对该网络的训练,得到训练好的卷积神经网络;
否则,将训练轮次数Q增加1,将批次i增加1,返回(5a)。
CN202110085651.5A 2021-01-22 2021-01-22 基于关系内容联合嵌入卷积神经网络的链路预测方法 Pending CN112765415A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110085651.5A CN112765415A (zh) 2021-01-22 2021-01-22 基于关系内容联合嵌入卷积神经网络的链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110085651.5A CN112765415A (zh) 2021-01-22 2021-01-22 基于关系内容联合嵌入卷积神经网络的链路预测方法

Publications (1)

Publication Number Publication Date
CN112765415A true CN112765415A (zh) 2021-05-07

Family

ID=75702655

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110085651.5A Pending CN112765415A (zh) 2021-01-22 2021-01-22 基于关系内容联合嵌入卷积神经网络的链路预测方法

Country Status (1)

Country Link
CN (1) CN112765415A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269239A (zh) * 2021-05-13 2021-08-17 河南大学 一种基于多通道卷积神经网络的关系网络节点分类方法
CN113378990A (zh) * 2021-07-07 2021-09-10 西安电子科技大学 基于深度学习的流量数据异常检测方法
CN113676491A (zh) * 2021-09-17 2021-11-19 西北工业大学 一种基于共同邻居数和图卷积神经网络的网络拓扑混淆方法
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法
CN116413587A (zh) * 2023-06-06 2023-07-11 中科鉴芯(北京)科技有限责任公司 回退路径的选择方法和装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113269239A (zh) * 2021-05-13 2021-08-17 河南大学 一种基于多通道卷积神经网络的关系网络节点分类方法
CN113269239B (zh) * 2021-05-13 2024-04-19 河南大学 一种基于多通道卷积神经网络的关系网络节点分类方法
CN113378990A (zh) * 2021-07-07 2021-09-10 西安电子科技大学 基于深度学习的流量数据异常检测方法
CN113378990B (zh) * 2021-07-07 2023-05-05 西安电子科技大学 基于深度学习的流量数据异常检测方法
CN113676491A (zh) * 2021-09-17 2021-11-19 西北工业大学 一种基于共同邻居数和图卷积神经网络的网络拓扑混淆方法
CN113807600A (zh) * 2021-09-26 2021-12-17 河南工业职业技术学院 一种动态社交网络中的链路预测方法
CN113807600B (zh) * 2021-09-26 2023-07-25 河南工业职业技术学院 一种动态社交网络中的链路预测方法
CN116413587A (zh) * 2023-06-06 2023-07-11 中科鉴芯(北京)科技有限责任公司 回退路径的选择方法和装置
CN116413587B (zh) * 2023-06-06 2023-10-27 中科鉴芯(北京)科技有限责任公司 回退路径的选择方法和装置

Similar Documents

Publication Publication Date Title
CN110263227B (zh) 基于图神经网络的团伙发现方法和***
CN112765415A (zh) 基于关系内容联合嵌入卷积神经网络的链路预测方法
CN110837602B (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
EP3800586A1 (en) Generative structure-property inverse computational co-design of materials
CN112925989B (zh) 一种属性网络的群体发现方法及***
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN109933720B (zh) 一种基于用户兴趣自适应演化的动态推荐方法
Shao et al. The Traffic Flow Prediction Method Using the Incremental Learning‐Based CNN‐LTSM Model: The Solution of Mobile Application
CN109191276A (zh) 一种基于强化学习的p2p网络借贷机构风险评估方法
CN115114484A (zh) 异常事件检测方法、装置、计算机设备和存储介质
Zhou et al. Betweenness centrality-based community adaptive network representation for link prediction
CN114556364A (zh) 基于相似度运算符排序的神经架构搜索
CN115456093A (zh) 一种基于注意力图神经网络的高性能图聚类方法
Fan et al. A two-layer Wang-Mendel fuzzy approach for predicting the residuary resistance of sailing yachts
Gao et al. Accelerating graph mining algorithms via uniform random edge sampling
CN110866838A (zh) 基于转移概率预处理的网络表示学习算法
CN115734274A (zh) 一种基于深度学习和知识图谱的蜂窝网络故障诊断方法
Rezaeipanah et al. Providing a new method for link prediction in social networks based on the meta-heuristic algorithm
CN114722920A (zh) 一种基于图分类的深度图卷积模型钓鱼账户识别方法
Xiong et al. L-RBF: A customer churn prediction model based on lasso+ RBF
Xue et al. Tsc-gcn: A face clustering method based on gcn
Ting et al. Learning latent perception graphs for personalized unknowns recommendation
Chen Brain Tumor Prediction with LSTM Method
Zhou et al. Unsupervised community detection algorithm based on graph convolution network and social media
Sun et al. Network Security Situation Prediction Based on CPSO-WaveNet

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210507