CN113050931A - 一种基于图注意力机制的符号网络链路预测方法 - Google Patents

一种基于图注意力机制的符号网络链路预测方法 Download PDF

Info

Publication number
CN113050931A
CN113050931A CN202110275019.7A CN202110275019A CN113050931A CN 113050931 A CN113050931 A CN 113050931A CN 202110275019 A CN202110275019 A CN 202110275019A CN 113050931 A CN113050931 A CN 113050931A
Authority
CN
China
Prior art keywords
node
network
nodes
order
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110275019.7A
Other languages
English (en)
Inventor
苏晓萍
宋玉蓉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Vocational University of Industry Technology NUIT
Original Assignee
Nanjing Vocational University of Industry Technology NUIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Vocational University of Industry Technology NUIT filed Critical Nanjing Vocational University of Industry Technology NUIT
Priority to CN202110275019.7A priority Critical patent/CN113050931A/zh
Publication of CN113050931A publication Critical patent/CN113050931A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图注意力机制的符号网络链路预测方法,包括以下步骤:1)从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析;2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络;3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数;4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示;5)采用逻辑回归模型进行链路预测。改进图卷积神经网络的注意力机制使其适用于符号网络的用户行为建模和链路预测,并满足符号网络复杂性和处理大规模数据的要求。

Description

一种基于图注意力机制的符号网络链路预测方法
技术领域
本发明涉及互联网技术领域,具体为一种基于图注意力机制的符号网络链路预测方法。
背景技术
符号网络是一种不同于普通社交网络的特殊网络。该类网络的边具有正或负符号属性,符号为正表示网络中两节点间具有正向的、积极的关系,符号为负则表示负面的、消极的关系。具有符号属性的网络普遍存在:在线社交网络中的用户可以对其他用户表达信任或不信任的态度,可以标注其是朋友或敌人、对某一问题给出不同的观点;购物网站中的用户可以对商品给出正面或负面的评价;国际关系中存在合作与敌对关系。由于边的符号属性能够反映节点间的友好或对立,喜欢或讨厌,因此正确理解边的符号属性对准确认识这类复杂***和其上的应用设计具有重要的意义。
链路预测是基于边和边的属性对符号网络开展研究的核心问题,符号网络的链路预测在推荐***、社交网络情绪预测与观点形成等领域都有具体应用,例如:根据用户对不同物品的正、负面评价为用户提供精准的个性化物品推荐、社交网络的朋友推荐、社交网络观点形成等。链路预测不仅需要多种技术手段对用户行为进行分析,还要通过先进的技术手段对用户行为进行准确建模最终才能达到预测的目的。
符号网络的研究始于Heider等人基于社会心理学对人类关系的研究,他们提出了著名的结构平衡理论:符号网络中三个节点间的关系共形成四种三角形模体,若三边符号的乘积为正表示平衡关系,否则为不平衡。平衡网络的判别条件极其严苛,放宽结构平衡的约束有弱结构平衡理论:只要三角形模体中不存在两正一负的关系就构成弱平衡。对满足(弱)结构平衡结构的网络进行子集划分时,可得到子集内节点间的边全为正,子集间节点的边全为负的结构,该类网络被称为κ-平衡网。结构平衡理论的核心思想可以用一句话概括:“朋友的朋友是朋友,敌人的敌人是朋友”,该理论可以很好地指导符号网络的链路预测;另外,符号网络的统计特性也能够反映用户的行为特征:出度大的节点喜欢社交,受欢迎的节点有较多入度为正的边等等。因此,基于符号网络结构特征与各类机器学习方法相结合可以较好地实现链路预测。
符号网络的链路预测已经取得了一些研究成果,目前的工作可分为以下两类:①基于网络结构特征和平衡理论的预测方法;②基于网络表示学习的方法。
基于网络结构特征的预测方法主要利用网络的全局、局部特征与传统机器学***衡理论的符号网络其邻接矩阵具有低秩特征,于是他们将链路预测问题转化为低秩矩阵分解问题,通过矩阵分解技术提取网络的全局特征,采用优化方法使原矩阵与分解后矩阵误差最小,从而保留了网络的特征并“填充”未知连边从而达到链路预测的目的。Chiang等首先研究了大于三个节点构成的环的平衡程度,利用Katz系数提出了一个不平衡测度指标,并通过长度为κ的环的平衡程度构建特征集,然后使用逻辑回归模型优化目标函数,使图的不平衡程度最小,实现了链路预测,他们发现当环的长度从3增加到5时,预测精度有所提高,即:网络的高阶特征对链路预测有用。网络局部特征最终也会使全局特征出现,自然也出现了利用网络全局结构进行预测的方法,Kunegis等人就从谱分析的角度出发进行了链路预测。以上方法主要基于网络结构特征、结构平衡理论(弱结构平衡)和地位理论通过分析节点邻居间的标注行为,结合机器学习模型实现链路预测,由于传统机器学习方法的性能依赖于网络特征选择的质量(特征工程)和训练数据的质量,因此预测效果难以保证。
基于网络表示学***衡路径,将路径上的节点分成“朋友”、“敌人”两个不同集合,采用平均池化聚合邻居节点的信息获得敌友两个表示,然后对这两个表示拼接形成最终表示,但是SGCN模型中邻居节点被给予同等权重,即所有邻居对目标节点的影响力相同,这是不符合实际的假设,已经有研究者注意到这一问题,量化邻居节点的不同影响可以显著提高网络分析任务的性能,如Petar
Figure BDA0002976262980000031
提出的GAT模型就是将自然语言处理中的注意力机制应用到图领域,给邻居节点赋予不同“注意力”以量化邻居节点对目标节点的不同影响力,带来了较GCN好的性能。因此,自然地可以考虑将注意力机制引入符号网络的处理,Huang等提出的SiGAT是第一个将注意力机制应用于符号网络的模型,该模型赋予结构平衡理论和地位理论所构成的三角形模体不同权重获得符号网络的节点表示,YuLi等人对SGCN模型进行改进使之能够捕获符号网络中邻居节点的不同影响力。
发明内容
本发明的目的在于提供一种基于图注意力机制的符号网络链路预测方法,改进图卷积神经网络的注意力机制使其适用于符号网络的用户行为建模和链路预测,并满足符号网络复杂性和处理大规模数据的要求。
为达到上述目的,根据本发明的一个方面,本发明提供如下技术方案:
一种基于图注意力机制的符号网络链路预测方法,包括以下步骤:
1)从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析;
2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络;
3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数;
4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示;
5)采用逻辑回归模型进行链路预测。
本发明进一步设置为:所述步骤1)从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析,具体为,
计算真实符号网络的节点、边总数,各节点的出度、入度、互惠边和满足结构平衡理论的三角形模体数量,分别统计节点出度和入度分布、三角形模体以及互惠边在网络中出现的概率。
本发明进一步设置为:所述步骤2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络模型,具体为,
2-1)根据图论,定义符号网络为
Figure BDA0002976262980000041
其中
Figure BDA0002976262980000042
为节点集合,n为节点总数,
Figure BDA0002976262980000043
为边集合,其中i=1,2,...,n,j=1,2,...,n,且i≠j,边集合ε中包括符号为正的边和符号为负的边;
Figure BDA0002976262980000044
表示节点vi的正邻居集合,
Figure BDA0002976262980000045
表示节点vi的负邻居集合,
Figure BDA0002976262980000046
为正邻居集合中加入节点vi自身,
Figure BDA0002976262980000047
为负邻居集合中加入节点vi自身,即
Figure BDA0002976262980000048
2-2)根据结构平衡理论,节点vi经l跳可达的节点被分为“平衡”集合
Figure BDA0002976262980000049
和“非平衡”集合
Figure BDA00029762629800000410
其中
Figure BDA00029762629800000411
是节点vi经l跳后与节点vi成为朋友的节点所组成的集合,
Figure BDA00029762629800000412
是节点vi经l跳后与节点vi成为敌人的节点所组成的集合;
当l=1时有,
Figure BDA00029762629800000413
Figure BDA00029762629800000414
式中,
Figure BDA00029762629800000415
是与节点vi有直接连边即l=1时的正邻居集合,
Figure BDA00029762629800000416
是与节点vi有直接连边即l=时的负邻居集合;
当l>1时有,
Figure BDA0002976262980000051
Figure BDA0002976262980000052
上式中,vk是节点vi经l-1跳的邻居,vj为节点vi经l跳的邻居,即vi经vk可到达vj
Figure BDA0002976262980000053
表示节点vk的负邻居集合,
Figure BDA0002976262980000054
表示节点vk的正邻居集合;
2-3)设计图卷积神经网络使其能够用于符号网络,为同一个节点学习用
Figure BDA0002976262980000055
Figure BDA0002976262980000056
两种向量表示;
Figure BDA0002976262980000057
是节点vi的l阶“朋友”的向量表示,是对
Figure BDA0002976262980000058
中节点特征的聚合;
Figure BDA0002976262980000059
是节点vi的l阶“敌人”的向量表示,是对
Figure BDA00029762629800000510
中节点特征的聚合;
在进行第一层卷积时,所有节点的初始输入特征向量维度相同,均为
Figure BDA00029762629800000511
维随机实向量
Figure BDA00029762629800000512
Figure BDA00029762629800000513
为节点vi的初始输入特征向量,
Figure BDA00029762629800000514
为节点vj的初始输入特征向量,各节点特征经汇聚后得到vi的两种嵌入表示,分别为节点vi的1阶“朋友”嵌入表达
Figure BDA00029762629800000515
和节点vi的1阶“敌人”嵌入表达
Figure BDA00029762629800000516
聚合函数如下,
Figure BDA00029762629800000517
Figure BDA00029762629800000518
各层图卷积神经网络均以
Figure BDA00029762629800000519
为共享的线性变换矩阵,通过W与din维的输入特征相乘获得dout维的输出特征,σ(·)为非线性激活函数,
Figure BDA00029762629800000520
为1阶“朋友”的共享线性变换矩阵,
Figure BDA00029762629800000521
为1阶“敌人”的共享线性变换矩阵,
Figure BDA00029762629800000522
Figure BDA00029762629800000523
表示节点vi的1阶正邻居
Figure BDA00029762629800000524
对其自身的影响力权重、
Figure BDA00029762629800000525
则表示节点vi的1阶负邻居
Figure BDA00029762629800000526
对其自身的影响力权重,影响力权重在图神经网络中被称作注意力,计算方法如下,
Figure BDA00029762629800000527
Figure BDA0002976262980000061
公式(3)、(4)分别对节点vi与1阶“朋友”或“敌人”vj之间的余弦相似度进行归一化运算,
Figure BDA0002976262980000062
表示节点vi和1阶“朋友”节点vj间余弦相似度
Figure BDA0002976262980000063
的e指数,
Figure BDA0002976262980000064
表示节点vi的所有1阶“朋友”及其自身的余弦相似度
Figure BDA0002976262980000065
的e指数之和;相似地,
Figure BDA0002976262980000066
表示节点vi和1阶“敌人”节点vj间余弦相似度
Figure BDA0002976262980000067
的e指数,
Figure BDA0002976262980000068
表示节点vi的所有1阶“敌人”及其自身的余弦相似度
Figure BDA0002976262980000069
的e指数之和,由于在注意力的归一化过程中考虑了节点自身的影响,即
Figure BDA00029762629800000610
因此也被称为自注意力机制,节点间的余弦相似度的计算方法如下,
Figure BDA00029762629800000611
Figure BDA00029762629800000612
式中,
Figure BDA00029762629800000613
为训练偏差;
更深层的带有自注意力机制的卷积层,即l>1,可递归地定义为节点vi的l阶“朋友”嵌入表达
Figure BDA00029762629800000614
和节点vi的l阶“敌人”嵌入表达
Figure BDA00029762629800000615
有以下形式,
Figure BDA00029762629800000616
Figure BDA00029762629800000617
各节点对之间的余弦相似度计算公式为,
Figure BDA00029762629800000618
Figure BDA00029762629800000619
Figure BDA00029762629800000620
Figure BDA0002976262980000071
上式中,
Figure BDA0002976262980000072
表示节点vi的l阶正邻居
Figure BDA0002976262980000073
对其自身的影响力权重,
Figure BDA0002976262980000074
表示节点υi的l阶负邻居
Figure BDA0002976262980000075
对其自身的影响力权重,
Figure BDA0002976262980000076
表示节点υi的l阶正邻居
Figure BDA0002976262980000077
对其自身的影响力权重,
Figure BDA0002976262980000078
表示节点υi的l阶负邻居
Figure BDA0002976262980000079
对其自身的影响力权重,
Figure BDA00029762629800000710
表示节点vi的l-1阶“朋友”嵌入表达,
Figure BDA00029762629800000711
表示节点υi的l-1阶“敌人”嵌入表达,
Figure BDA00029762629800000712
表示节点vj的l-1阶“朋友”嵌入表达,
Figure BDA00029762629800000713
表示节点vj的l-1阶“敌人”嵌入表达,
Figure BDA00029762629800000714
表示节点υk的l-1阶“朋友”嵌入表达,
Figure BDA00029762629800000715
表示节点vk的l-1阶“敌人”嵌入表达,
Figure BDA00029762629800000716
表示节点vi和l阶“朋友”节点vj间余弦相似度,
Figure BDA00029762629800000717
表示节点vi和l阶“敌人”节点vj间余弦相似度,
Figure BDA00029762629800000718
表示节点vi和l阶“朋友”节点vk间余弦相似度,
Figure BDA00029762629800000719
表示节点vi和l阶“敌人”节点vk间余弦相似度,
Figure BDA00029762629800000720
为l阶“朋友”的共享线性变换矩阵,
Figure BDA00029762629800000721
为l阶“敌人”的共享线性变换矩阵,
Figure BDA00029762629800000722
进一步地对上述余弦相似度计算归一化,得到l>1时各层的注意力,
Figure BDA00029762629800000723
Figure BDA00029762629800000724
Figure BDA00029762629800000725
Figure BDA00029762629800000726
上式中,
Figure BDA0002976262980000081
表示节点vi和l阶“朋友”节点vt间余弦相似度,
Figure BDA0002976262980000082
表示节点vi和l阶“敌人”节点vt间余弦相似度;
在图卷积神经网络的最后一层,将学习到的“朋友”表示和“敌人”表示合并即可获得节点vi的低维向量表示zi
Figure BDA0002976262980000083
式中
Figure BDA0002976262980000084
是用于将节点vi的两种嵌入表达
Figure BDA0002976262980000085
Figure BDA0002976262980000086
连接在一起的线性变换矩阵。
本发明进一步设置为:所述步骤3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数,具体为,
3-1)将边的符号作为数据的标签,链路预测任务就是对符号网络的边的分类问题,符号网络中的边共有三种类型,即
Figure BDA0002976262980000087
“+”表示两节点间可能由符号为正的边连接,“-”则表示两节点间可能由符号为负的边连接,“?”表示不连边,设计目标函数用于评价两节点间的连边倾向,设符号网络数据集的mini-batch集合为
Figure BDA0002976262980000088
包含三元组(vi,vj,sij),表示节点vi和节点vj间连边类型是sij,采用one-hot向量编码连边类型,即
Figure BDA0002976262980000089
有以下交叉熵损失函数,
Figure BDA00029762629800000810
其中,loss函数表达式为,
Figure BDA00029762629800000811
式中,zi为节点vi的低维向量表示,zj为节点vj的低维向量表示,θMLG为SoftMax回归分类器的模型参数,
Figure BDA00029762629800000813
为与连边类型sij相关的权重,用于平衡三类边
Figure BDA00029762629800000812
在预测中的影响力;
3-2)将节点的低维向量表示作为损失函数的输入,使节点的低维向量表示之间的连边概率与原符号网络连边一致,该loss函数项能够捕捉符号网络的全局结构特性,
符号网络中的用户有着与无符号网络不同的用户行为,弱结构平衡就是符号网络所特有的用户行为导致的局部结构特征,因此设计能反映节点局部特征的惩罚项,设有节点vi,vj,vk,vt,(vi,vj,+),(vi,v-),
Figure BDA0002976262980000091
标记为“朋友”的两节点比没有连边的两节点相似,标记为“敌人”的节点比没有连边的两节点相异,
采用欧氏距离评价节点的相似性,于是下式成立,
Figure BDA0002976262980000092
其中,zi为节点vi的低维向量表示,zj为节点vj的低维向量表示,zk为节点vk的低维向量表示,zt为节点vt的低维向量表示;
设计目标函数项,
“推”节点vi,使其靠近与之连有正边节点vj时得到目标函数项
Figure BDA0002976262980000093
Figure BDA0002976262980000094
“拉”节点vi,使其远离与之连有负边节点vk时得到目标函数项
Figure BDA0002976262980000095
Figure BDA0002976262980000096
合并式(13)和式(14),有与符号网络局部特征相关的损失函数项
Figure BDA0002976262980000097
Figure BDA0002976262980000098
3-3)在链路预测任务中综合考虑符号网络的全局和局部特征,有以下联合训练目标函数
Figure BDA0002976262980000099
Figure BDA00029762629800000910
λ为模型参数,λ决定了符号网络的局部结构特征在模型中的权重,
Figure BDA00029762629800000911
为模型参数的正则化项。
本发明进一步设置为:所述步骤4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示,具体为,
以真实符号网络数据集Epinions、Slashdot、Wikipedia构成的
Figure BDA00029762629800000912
初始节点特征
Figure BDA00029762629800000913
神经网络层数L,线性变换矩阵
Figure BDA00029762629800000914
Figure BDA00029762629800000915
注意力参数
Figure BDA00029762629800000916
l∈{1,...,L}等作为模型的输入;
l=1时,利用公式(1)(2)对符号网络上所有节点计算其“朋友”嵌入表达
Figure BDA0002976262980000101
和“敌人”嵌入表达
Figure BDA0002976262980000102
使l=l+1;
l>1时,利用公式(5)(6)计算节点“朋友”嵌入表达
Figure BDA0002976262980000103
和“敌人”嵌入表达
Figure BDA0002976262980000104
利用公式(11)连接
Figure BDA0002976262980000105
Figure BDA0002976262980000106
得到初始各节点的低维向量表示;
使用误差反向传播法对模型进行训练,根据公式(15)计算
Figure BDA0002976262980000107
损失并据此更新图卷积神经网络的模型参数,迭代若干次最小化误差,获得最终节点的低维向量表示。
本发明进一步设置为:所述步骤5)采用逻辑回归模型进行链路预测,具体为,
通过最终节点的低维向量表示,将一条边两端的节点向量表示结合在一起作为边的特征,此时链路预测被看作二分类任务,采用逻辑回归分类器通过对边进行二分类来实现链路预测。
本发明进一步设置为:利用真实符号网络数据集Epinions、Slashdot、Wikipedia,证明所述步骤5)的预测效果。
与现有技术相比,本发明具有的有益之处是:利用图论、图卷积神经网络、误差反向传播等计算机技术手段对符号网络的标注行为进行建模,基于注意力机制设计了同时考虑网络全局和局部特征的符号预测方法,具有运算速度快、预测精度高、模型参数少的特点,适合应用于大规模符号网络的数据处理。
附图说明
图1为本发明一种基于图注意力机制的符号网络链路预测方法的流程图;
图2为数据集统计分析结果;
图3为符号网络中的四种三角形模体;
图4为“朋友”、“敌人”集合的计算方法;
图5为图注意力机制的信息汇聚过程;
图6为链路预测结果的AUC评价;
图7为链路预测结果的F1评价;
图8为数据集Wikipedia上参数λ对AUC的影响;
图9为数据集Wikipedia上参数λ对F1的影响;
具体实施方式
下面结合说明书附图,对本发明作进一步的说明。
本发明提供了一种基于图注意力机制的符号网络链路预测方法,利用图论、图卷积神经网络、误差反向传播等计算机技术手段对符号网络的标注行为进行建模,基于注意力机制设计了同时考虑网络全局和局部特征的符号预测方法,该方法具有运算速度快、预测精度高、模型参数少的特点,适合应用于大规模符号网络的数据处理。
一种基于图注意力机制的符号网络链路预测方法,如图1所示,包括以下步骤:
1)与现实社会网络一样,在线社会网络的用户间存在着互相评价的正负态度:相互信任的、积极的朋友关系为正,不信任的、消极的敌对关系为负,使得网络的边具有了符号。网络用户的行为受到多种因素的影响:周围邻居节点的行为、用户自身固有特征、用户行为的网络相关性。
本发明利用计算机相关技术手段对三个真实网络进行了数据统计分析:社交网络Epinions给出了用户间“who-trust-whom”的关系,Slashdot是一个技术相关的新闻网站,允许用户根据自身观点标记其他用户为friend/foe,Wikipedia是***申请管理员身份的投票关系网,若一个用户被大多数其他用户同意则当选为某一学科的管理员负责百科词条的维护,若该用户未受到大多数其他用户的赞成票则选举失败,三个数据集分别来斯坦福大学网络研究小组SNAP(http://snap.stanford.edu/data/index.html)提供的各社会网络的真实历史数据,对历史数据集进行初步处理,清除网络中的孤立节点等数据噪声并对其统计分析,具体结果如图2所示。统计结果表明,无论是正边还是负边,节点的度分布都满足幂律特征:大部分节点的度都比较小,只有少部分节点有很大的度。正边在网络中占比高,数据集Epinions中的正边比例更是高达85%,这说明数据是偏斜、不均衡的。互惠边(reciprocal edges)在网络中占有一定比例,且正边的互惠居多,互惠被认为是社交关系的加强,存在互惠边的两节点的权重比仅有单向正边的节点权重要高,即互为好友比单向好友关系更可靠,这也说明不同邻居节点对目标节点的影响力是不同的。负关系的标注特征与正关系不同,当一个人讨厌另一个人的是不予理睬,而不是反击:“爱的反义词不是恨而是冷漠”,因此负边的互惠概率很小。
同时,符号网络中三个节点间的关系共形成四种三角形模体,见图3,根据结构平衡理论,若三边符号之积为正则平衡,否则不平衡,由此可知,图3(a)中两种情况是平衡状态,而图3(b)中两种情况是不平衡的状态,根据图2统计结果可知:社会网络中满足结构平衡理论的边占比很高,以数据集Epinions为例,83.71%的节点位于结构平衡的三角形关系中,且不平衡结构具有向平衡结构转换的趋势。上述节点统计特征可指导链路预测,如:发出正边比较多的节点具有积极乐观的态度,这类节点对邻居的评价都倾向于正面,在将来的链路形成中倾向于正边,反之则容易形成负边,根据结构平衡理论,“朋友的朋友是朋友,敌人的敌人是朋友”,节点连边有使平衡三角形闭合的趋势。不同邻居节点对目标节点的影响力是不同的,如何合理地建模邻居节点的权重显得非常重要,而符号网络不同于其他无符号网络,它的边带有正负符号,代表着不同用户行为并相互影响的有符号的边同属于一个网络,不能将其割裂开来独立讨论,于是无符号网络应有不同于无符号网络的链路预测方法。
从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析,具体为,计算真实符号网络的节点、边总数,各节点的出度、入度、互惠边和满足结构平衡理论的三角形模体数量,分别统计节点出度和入度分布、三角形模体以及互惠边在网络中出现的概率。
2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络,具体为,
2-1)根据图论,定义符号网络为
Figure BDA0002976262980000121
其中
Figure BDA0002976262980000122
为节点集合,n为节点总数,
Figure BDA0002976262980000123
为边集合,其中i=1,2,...,n,j=1,2,...,n,且i≠j;边集合ε中包括符号为正的边和符号为负的边,定义ε+是ε的子集,表示符号网络中正边的集合,ε-为负边集合,
Figure BDA0002976262980000124
表示节点vi的正邻居集合,
Figure BDA0002976262980000125
表示节点vi的负邻居集合,为了在后续学习得到的节点表示中带有节点的自身特征,计算邻居集合时应包含自身,于是有
Figure BDA0002976262980000126
为正邻居集合中加入节点vi自身,
Figure BDA0002976262980000127
为负邻居集合中加入节点vi自身;
2-2)对于符号网络,正边和负边包含不同的语义信息,它们同属一个网络,又互相作用,因此要综合考虑,较好的解决方案是,将有可能成为朋友的和敌人的l跳邻居分为两个集合在将来的表示学***衡理论,设有网络中任意节点vi,节点vi经l跳可达的节点被分为“平衡”集合
Figure BDA0002976262980000131
和“非平衡”集合
Figure BDA0002976262980000132
形成过程如图4所示,其中
Figure BDA0002976262980000133
是节点vi经l跳后与vi成为朋友的节点所组成的集合,
Figure BDA0002976262980000134
是节点vi经l跳后与vi成为敌人的节点的集合;
其中,当l=1时有,
Figure BDA0002976262980000135
Figure BDA0002976262980000136
式中,
Figure BDA0002976262980000137
是与vi有直接连边,即l=1时的正邻居集合,
Figure BDA0002976262980000138
是与vi有直接连边时的负邻居集合;
当l>1时有,
Figure BDA0002976262980000139
Figure BDA00029762629800001310
上式中,vk是节点vi经l-1跳的邻居,vj为节点vi的l跳邻居,即vi经vk可到达vj
Figure BDA00029762629800001311
表示节点vk的负邻居集合,
Figure BDA00029762629800001312
表示节点vk的正邻居集合;
2-3)设计图卷积神经网络使其能够用于符号网络,为同一个节点学习用
Figure BDA00029762629800001313
Figure BDA00029762629800001314
两种向量表示;
Figure BDA00029762629800001315
是节点vi的l阶“朋友”的向量表示,是对
Figure BDA00029762629800001316
中节点特征的聚合,
Figure BDA00029762629800001317
是节点vi的l阶“敌人”的向量表示,是对
Figure BDA00029762629800001318
中节点特征的聚合;
图卷积神经网络通过汇聚来自邻居节点的信息并传播到下一卷积层,迭代后获得目标节点的低维向量表示,为下游机器学习任务提供有力地支撑。在进行第一层卷积时,所有节点的初始输入特征向量维度相同,均为
Figure BDA00029762629800001319
维随机实向量
Figure BDA00029762629800001320
Figure BDA00029762629800001321
Figure BDA00029762629800001322
为节点vi的初始输入特征向量,
Figure BDA00029762629800001323
为节点vj的初始输入特征向量,各节点特征经汇聚后得到vi的两种嵌入表示,分别为节点vi的1阶“朋友”嵌入表达
Figure BDA00029762629800001324
和节点vi的1阶“敌人”嵌入表达
Figure BDA00029762629800001325
聚合函数如下,
Figure BDA0002976262980000141
Figure BDA0002976262980000142
各层图卷积神经网络均以
Figure BDA0002976262980000143
为共享的线性变换矩阵,通过W与din维的输入特征相乘获得dout维的输出特征,σ(·)为非线性激活函数,
Figure BDA0002976262980000144
为1阶“朋友”的共享线性变换矩阵,
Figure BDA0002976262980000145
为1阶“敌人”的共享线性变换矩阵,
Figure BDA0002976262980000146
根据公式(1)、(2)可知,节点vi仅汇聚来自于邻居和其自身的信息,而不是网络全部节点的信息,使得vi的节点表示只与邻居节点和其自身有关,很好地利用了网络结构,这一汇聚机制被称为masked的自注意力机制,汇聚过程见图5,图中,5(a)为图注意力机制信息汇聚过程,5(b)为子图信息汇聚的示例,5(c)为第一层“朋友”信息的汇聚,5(d)为第一层“敌人”信息的汇聚,5(e)为l>1时“朋友”信息的汇聚,5(f)为l>1时“敌人”信息的汇聚。
Figure BDA0002976262980000147
表示节点vi的1阶正邻居
Figure BDA0002976262980000148
对其自身的影响力权重、
Figure BDA0002976262980000149
则表示节点vi的1阶负邻居
Figure BDA00029762629800001410
对其自身的影响力权重,影响力权重在图神经网络中被称作注意力,计算方法如下,
Figure BDA00029762629800001411
Figure BDA00029762629800001412
公式(3)、(4)分别对节点vi与1阶“朋友”或“敌人”vj之间的余弦相似度进行归一化运算,
Figure BDA00029762629800001413
表示节点vi和“朋友”节点vj间余弦相似度的e指数,
Figure BDA00029762629800001414
表示节点vi的所有1阶“朋友”及其自身的余弦相似度指数之和;相似地,
Figure BDA0002976262980000151
表示节点vi和“敌人”节点vj间余弦相似度的e指数,
Figure BDA0002976262980000152
表示节点vi的所有1阶“敌人”及其自身的余弦相似度指数之和,由于在注意力的归一化过程中考虑了节点自身的影响,即
Figure BDA0002976262980000153
因此也被称为自注意力机制,节点间的余弦相似度的计算方法如下,
Figure BDA0002976262980000154
Figure BDA0002976262980000155
式中,
Figure BDA0002976262980000156
为训练偏差,
更深层的带有自注意力机制的卷积层,即l>1,可递归地定义为节点vi的l阶“朋友”嵌入表达
Figure BDA0002976262980000157
和节点vi的l阶“敌人”嵌入表达
Figure BDA0002976262980000158
有以下形式,
Figure BDA0002976262980000159
Figure BDA00029762629800001510
上式中,各节点对之间的余弦相似度计算公式为,
Figure BDA00029762629800001511
Figure BDA00029762629800001512
Figure BDA00029762629800001513
Figure BDA00029762629800001514
上式中,
Figure BDA00029762629800001515
表示节点vi的l阶正邻居
Figure BDA00029762629800001516
对其自身的影响力权重,
Figure BDA00029762629800001517
表示节点vi的l阶负邻居
Figure BDA00029762629800001518
对其自身的影响力权重,
Figure BDA00029762629800001519
表示节点vi的l阶正邻居
Figure BDA00029762629800001520
对其自身的影响力权重,
Figure BDA00029762629800001521
表示节点vi的l阶负邻居
Figure BDA00029762629800001522
对其自身的影响力权重,
Figure BDA00029762629800001523
表示节点vi的l-1阶“朋友”嵌入表达,
Figure BDA00029762629800001524
表示节点vi的l-1阶“敌人”嵌入表达,
Figure BDA00029762629800001525
表示节点vj的l-1阶“朋友”嵌入表达,
Figure BDA00029762629800001526
表示节点vj的l-1阶“敌人”嵌入表达,
Figure BDA0002976262980000161
表示节点vk的l-1阶“朋友”嵌入表达,
Figure BDA0002976262980000162
表示节点vk的l-1阶“敌人”嵌入表达,
Figure BDA0002976262980000163
表示节点vi和l阶“朋友”节点vj间余弦相似度,
Figure BDA0002976262980000164
表示节点vi和l阶“敌人”节点vj间余弦相似度,
Figure BDA0002976262980000165
表示节点vi和l阶“朋友”节点vk间余弦相似度,
Figure BDA0002976262980000166
表示节点vi和l阶“敌人”节点vk间余弦相似度,
Figure BDA0002976262980000167
为阶“朋友”的共享线性变换矩阵,
Figure BDA0002976262980000168
为l阶“敌人”的共享线性变换矩阵,
Figure BDA0002976262980000169
进一步地对上述余弦相似度计算归一化,得到l<1时各层的注意力,
Figure BDA00029762629800001610
Figure BDA00029762629800001611
Figure BDA00029762629800001612
Figure BDA00029762629800001613
上式中,
Figure BDA00029762629800001614
表示节点vi和l阶“朋友”节点vt间余弦相似度,
Figure BDA00029762629800001615
表示节点vi和l阶“敌人”节点vt间余弦相似度;
由公式(5)、(6)知,平衡表示
Figure BDA00029762629800001616
聚合了与目标节点成为朋友的两种情况下节点的信息,“朋友的朋友”(公式5中第一项)和“敌人的敌人”(公式5中第二项),非平衡表示
Figure BDA00029762629800001617
则聚合另外两种与目标节点成为敌人的节点的信息,在图卷积神经网络的最后一层,将学习到的“朋友”表示和“敌人”表示合并即可获得节点的最终表示zi
Figure BDA00029762629800001618
式中
Figure BDA0002976262980000171
是用于将节点vi的两种嵌入表达
Figure BDA0002976262980000172
Figure BDA0002976262980000173
连接在一起的线性变换矩阵。
3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数,具体为,
3-1)将边的符号作为数据的标签,链路预测任务就是对符号网络的边的分类问题,符号网络中的边共有三种类型,即
Figure BDA0002976262980000174
“+”表示两节点间可能由符号为正的边连接,“-”则表示两节点间可能由负边相连,“?”表示不连边,合理设计目标函数用于评价两节点间的连边倾向,设符号网络数据集的mini-batch集合为
Figure BDA0002976262980000175
包含三元组(vi,vj,sij),表示节点vi和节点vj间连边类型是sij,采用one-hot向量编码连边类型,即
Figure BDA0002976262980000176
使用交叉熵损失函数评价
Figure BDA0002976262980000177
上的误差率,
Figure BDA0002976262980000178
其中,loss函数表达式为,
Figure BDA0002976262980000179
式中,zi为节点vi的节点表示,zj为节点vj的节点表示,θMLG为SoftMax回归分类器的模型参数,
Figure BDA00029762629800001710
为与连边类型sij相关的权重,用于平衡三类边
Figure BDA00029762629800001711
在预测中的影响力,引入该参数的原因是符号网络中边的类别偏斜严重,
Figure BDA00029762629800001712
根据边的数量赋予不同类型的边以不同的权重,可以保证每类边在分类器中起到的作用不同;
3-2)将节点的最终节点表示作为损失函数的输入,使节点表示之间的连边概率以及符号类型与原符号网络连边尽可能一致,该loss函数项能够捕捉符号网络的全局结构特性,
符号网络中的用户有着与无符号网络不同的用户行为,弱结构平衡就是符号网络所特有的用户行为导致的局部结构特征,因此设计能反映节点局部特征的惩罚项,设有节点vi,vj,vk,vt,(vi,vj,+),(vi,v-),
Figure BDA00029762629800001713
标记为“朋友”的两节点比没有连边的两节点相似,标记为“敌人”的节点比没有连边的两节点相异,
采用欧氏距离评价节点的相似性,于是下式成立,
Figure BDA00029762629800001714
其中,zi为节点vi的低维向量表示,zj为节点vj的低维向量表示,zk为节点vk的低维向量表示,zt为节点vt的低维向量表示;
设计目标函数项,
“推”节点vi,使其靠近与之连有正边节点vj时得到目标函数项
Figure BDA0002976262980000181
Figure BDA0002976262980000182
“拉”节点vi,使其远离与之连有负边节点vk时得到目标函数项
Figure BDA0002976262980000183
Figure BDA0002976262980000184
合并式(13)和式(14),有与符号网络局部特征相关的损失函数项
Figure BDA0002976262980000185
Figure BDA0002976262980000186
3-3)在链路预测任务中综合考虑符号网络的全局和局部特征,有以下联合训练目标函数
Figure BDA0002976262980000187
Figure BDA0002976262980000188
λ为模型参数,λ决定了符号网络的局部结构特征在模型中的权重,
Figure BDA0002976262980000189
为模型参数的正则化项。
4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示,具体为,以真实符号网络数据集Epinions、Slashdot、Wikipedia构成的
Figure BDA00029762629800001810
初始节点特征
Figure BDA00029762629800001811
神经网络层数L,线性变换矩阵
Figure BDA00029762629800001812
Figure BDA00029762629800001813
注意力参数
Figure BDA00029762629800001814
Figure BDA00029762629800001815
l∈{1,...,L}等作为模型的输入;
按照算法1为网络中各节点学习低维向量表示,
在三个真实符号网络的数据集上采用Mini-batches梯度下降法训练模型,
Figure BDA00029762629800001816
Figure BDA0002976262980000191
即,l=1时,利用公式(1)(2)对符号网上所有节点计算其“朋友”嵌入表达
Figure BDA0002976262980000192
和“敌人”嵌入表达
Figure BDA0002976262980000193
使l=l+1;
l>1时,利用公式(5)(6)计算节点“朋友”嵌入表达
Figure BDA0002976262980000194
和“敌人”嵌入表达
Figure BDA0002976262980000195
利用公式(11)连接
Figure BDA0002976262980000196
Figure BDA0002976262980000197
得到初始各节点的低维向量表示;
使用误差反向传播法对模型进行训练,根据公式(15)计算
Figure BDA0002976262980000198
损失并据此更新图卷积神经网络的模型参数,迭代若干次最小化误差,获得最终节点的低维向量表示。
5)采用逻辑回归模型进行链路预测,具体为,通过节点的最终低维向量,将一条边两端的节点向量表示结合在一起作为边的特征,此时链路预测被看作二分类任务,采用逻辑回归分类器通过对边进行二分类来实现链路预测,对于每个数据集,随机选取80%的数据作为训练集,另外20%的数据作为测试集,在训练数据集上采用10交叉验证预测结果,网格交叉验证用来学习神经网络的超参数,利用真实符号网络数据Epinions、Slashdot、Wikipedia,证明预测效果,使用AUC(Area Under Curve)和F1-score两种评价指标对预测结果进行评价,两种指标的值越大表明预测结果越好,为证明本预测方法SGATLP对符号网络链路预测问题的有效性,将它与以下基准预测算法进行比较:
(1)SiNE:该方法采用(弱)结构平衡理论的深度学习框架实现符号网络的链路预测。
(2)SIDE:该方法基于随机游走策略实现了满足(弱)结构平衡理论的不直接相连节点的极大似然。
(3)SGCN:第一个采用图卷积神经网络和(弱)结构平衡理论来汇聚节点信息获得节点向量表示的方法。
(4)SiGAT:构建符号网络的模体并基于注意力机制计算模体对目标节点的影响力权重,实现节点的向量表示。
所提方法(SGATLP)采用基于注意力机制的图卷积神经网络对用户行为建模,使用(弱)结构平衡理论监督节点嵌入表达的学习,获得各节点的低维向量表达后采用逻辑回归分类器进行链路预测。预测结果如图6,图7所示(取各次实验最好结果),所提方法在两种评价指标AUC和F1上均得到了较基准算法好的预测效果。
式(15)为模型最终的损失函数,式中交叉熵
Figure BDA0002976262980000201
利用符号网络的边符号作为数据标签,使模型学***衡理论对网络局部特征的影响,λ是模型参数,λ的值越大说明(弱)结构平衡理论在整个预测过程中所起的作用越大。图8,图9给出了数据集Wikipedia上不同λ对评价指标AUC和F1的影响。根据结果可知,λ的值在3~5之间时获得了较高的预测精度,说明网络局部结构在链路预测问题中具有正向作用,符号网络中的节点具有形成(弱)结构平衡的三角形模体的趋势。
本发明的实施过程如下:
(1)获取实验数据
三个数据集分别来斯坦福大学网络研究小组
SNAP(http://snap.stanford.edu/data/index.html)提供的各社会网络的真实历史数据,对历史数据集进行初步处理,清除网络中的孤立节点等数据噪声并对其统计分析,结果如图2所示。
(2)实验环境搭建
本方法采用的编程语言为python,利用开源的pytorch机器学习库构建基于注意力机制的图卷积神经网络,在单CPU环境下运行算法。
(3)数据预处理
编程计算符号网络的初始输入特征:计算节点特征:节点正负边的出、入度的占总的节点度的比例,结合TSVD分解矩阵共同构成节点的初始输入特征。
(4)算法实现
编程实现步骤S402给出的算法1伪代码和逻辑回归分类器。用Xavier初始化方法对基于注意力机制图卷积神经网络的模型参数:
Figure BDA0002976262980000211
进行初始化,选取公式(1)、(2)、(5)、(6)、(11)中的激活函数σ为tanh,用AdaGrad梯度下降法实现参数估计。符号网络中重要网络局部特征—结构平衡理论仅考虑了节点的2阶邻居,因此我们采用的神经网络的深度也为2层。进一步的,采用逻辑回归实现预测,以下是图卷积神经网络的基本结构:
Figure BDA0002976262980000212
Figure BDA0002976262980000221
本方法共有2个可调参数:AdaGrad的学习率∈和体现符号网络局部特征重要性权重λ(见公式16),通过调整以上参数获得最优节点嵌入,学习率∈优化算法的参数,与符号网络结构本身无关,只有参数λ为引入局部网络特征的权重,需要调参并讨论。
(5)给出实施例预测效果并与现有基准算法比较。
(6)评估网络局部结构对预测结果的影响。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于图注意力机制的符号网络链路预测方法,其特征在于,包括以下步骤:
1)从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析;
2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络;
3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数;
4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示;
5)采用逻辑回归模型进行链路预测。
2.根据权利要求1所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:所述步骤1)从网络全局、局部特征出发,对符号网络中的用户行为进行概率统计分析,具体为,
计算真实符号网络的节点、边总数,各节点的出度、入度、互惠边和满足结构平衡理论的三角形模体数量,分别统计节点出度和入度分布、三角形模体以及互惠边在网络中出现的概率。
3.根据权利要求2所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:所述步骤2)基于注意力机制设计能够反映正负邻居节点对目标节点影响力权重的图卷积神经网络模型,具体为,
2-1)根据图论,定义符号网络为
Figure FDA0002976262970000011
Figure FDA0002976262970000012
其中
Figure FDA0002976262970000013
为节点集合,n为节点总数,
Figure FDA0002976262970000014
为边集合,其中i=1,2,...,n,j=1,2,...,n,且i≠j,边集合ε中包括符号为正的边和符号为负的边;
Figure FDA0002976262970000015
表示节点υi的正邻居集合,
Figure FDA0002976262970000016
表示节点υi的负邻居集合,
Figure FDA0002976262970000017
为正邻居集合中加入节点υi自身,
Figure FDA0002976262970000018
为负邻居集合中加入节点υi自身,即
Figure FDA0002976262970000019
Figure FDA00029762629700000110
2-2)根据结构平衡理论,节点υi经l跳可达的节点被分为“平衡”集合
Figure FDA0002976262970000021
和“非平衡”集合
Figure FDA0002976262970000022
其中
Figure FDA0002976262970000023
是节点υi经l跳后与节点υi成为朋友的节点所组成的集合,
Figure FDA0002976262970000024
是节点υi经l跳后与节点υi成为敌人的节点所组成的集合;
当l=1时有,
Figure FDA0002976262970000025
Figure FDA0002976262970000026
式中,
Figure FDA0002976262970000027
是与节点υi有直接连边即l=1时的正邻居集合,
Figure FDA0002976262970000028
是与节点υi有直接连边即l=1时的负邻居集合;
当l>1时有,
Figure FDA0002976262970000029
Figure FDA00029762629700000210
上式中,υk是节点υi经l-1跳的邻居,υj为节点υi经l跳的邻居,即υi经υk可到达υj
Figure FDA00029762629700000211
表示节点υk的负邻居集合,
Figure FDA00029762629700000212
表示节点υk的正邻居集合;
2-3)设计图卷积神经网络使其能够用于符号网络,为同一个节点学习用
Figure FDA00029762629700000213
Figure FDA00029762629700000214
两种向量表示;
Figure FDA00029762629700000215
是节点υi的l阶“朋友”的向量表示,是对
Figure FDA00029762629700000216
中节点特征的聚合;
Figure FDA00029762629700000217
是节点υi的l阶“敌人”的向量表示,是对
Figure FDA00029762629700000218
中节点特征的聚合;
在进行第一层卷积时,所有节点的初始输入特征向量维度相同,均为
Figure FDA00029762629700000219
维随机实向量
Figure FDA00029762629700000220
Figure FDA00029762629700000221
Figure FDA00029762629700000222
Figure FDA00029762629700000223
为节点υi的初始输入特征向量,
Figure FDA00029762629700000224
为节点υj的初始输入特征向量,各节点特征经汇聚后得到υi的两种嵌入表示,分别为节点υi的1阶“朋友”嵌入表达
Figure FDA00029762629700000225
和节点υi的1阶“敌人”嵌入表达
Figure FDA00029762629700000226
聚合函数如下,
Figure FDA0002976262970000031
Figure FDA0002976262970000032
各层图卷积神经网络均以
Figure FDA0002976262970000033
为共享的线性变换矩阵,通过W与din维的输入特征相乘获得dout维的输出特征,σ(·)为非线性激活函数,
Figure FDA0002976262970000034
为1阶“朋友”的共享线性变换矩阵,
Figure FDA0002976262970000035
为1阶“敌人”的共享线性变换矩阵,
Figure FDA0002976262970000036
Figure FDA0002976262970000037
Figure FDA0002976262970000038
表示节点υi的1阶正邻居
Figure FDA0002976262970000039
对其自身的影响力权重、
Figure FDA00029762629700000310
则表示节点υi的1阶负邻居
Figure FDA00029762629700000311
对其自身的影响力权重,影响力权重在图神经网络中被称作注意力,计算方法如下,
Figure FDA00029762629700000312
Figure FDA00029762629700000313
公式(3)、(4)分别对节点υi与1阶“朋友”或“敌人”υj之间的余弦相似度进行归一化运算,
Figure FDA00029762629700000314
表示节点υi和1阶“朋友”节点υj间余弦相似度
Figure FDA00029762629700000315
的e指数,
Figure FDA00029762629700000316
表示节点υi的所有1阶“朋友”及其自身的余弦相似度
Figure FDA00029762629700000317
的e指数之和;相似地,
Figure FDA00029762629700000318
表示节点υi和1阶“敌人”节点υj间余弦相似度
Figure FDA00029762629700000319
的e指数,
Figure FDA00029762629700000320
表示节点υi的所有1阶“敌人”及其自身的余弦相似度
Figure FDA00029762629700000321
的e指数之和,由于在注意力的归一化过程中考虑了节点自身的影响,即
Figure FDA0002976262970000041
因此也被称为自注意力机制,节点间的余弦相似度的计算方法如下,
Figure FDA0002976262970000042
Figure FDA0002976262970000043
式中,
Figure FDA0002976262970000044
为训练偏差;
更深层的带有自注意力机制的卷积层,即l>1,可递归地定义为节点υi的l阶“朋友”嵌入表达
Figure FDA0002976262970000045
和节点υi的l阶“敌人”嵌入表达
Figure FDA0002976262970000046
有以下形式,
Figure FDA0002976262970000047
Figure FDA0002976262970000048
各节点对之间的余弦相似度计算公式为,
Figure FDA0002976262970000049
Figure FDA00029762629700000410
Figure FDA00029762629700000411
Figure FDA00029762629700000412
上式中,
Figure FDA00029762629700000413
表示节点υi的l阶正邻居
Figure FDA00029762629700000414
对其自身的影响力权重,
Figure FDA00029762629700000415
表示节点υi的l阶负邻居
Figure FDA00029762629700000416
对其自身的影响力权重,
Figure FDA00029762629700000417
表示节点υi的l阶正邻居
Figure FDA00029762629700000418
对其自身的影响力权重,
Figure FDA00029762629700000419
表示节点υi的l阶负邻居
Figure FDA00029762629700000420
对其自身的影响力权重,
Figure FDA00029762629700000421
表示节点υi的l-1阶“朋友”嵌入表达,
Figure FDA00029762629700000422
表示节点υi的l-1阶“敌人”嵌入表达,
Figure FDA00029762629700000423
表示节点υj的l-1阶“朋友”嵌入表达,
Figure FDA00029762629700000424
表示节点υj的l-1阶“敌人”嵌入表达,
Figure FDA00029762629700000425
表示节点υk的l-1阶“朋友”嵌入表达,
Figure FDA00029762629700000426
表示节点υk的l-1阶“敌人”嵌入表达,
Figure FDA0002976262970000051
表示节点υi和l阶“朋友”节点υj间余弦相似度,
Figure FDA0002976262970000052
表示节点υi和l阶“敌人”节点υj间余弦相似度,
Figure FDA0002976262970000053
表示节点υi和l阶“朋友”节点υk间余弦相似度,
Figure FDA0002976262970000054
表示节点υi和l阶“敌人”节点υk间余弦相似度,
Figure FDA0002976262970000055
为l阶“朋友”的共享线性变换矩阵,
Figure FDA0002976262970000056
为l阶“敌人”的共享线性变换矩阵,
Figure FDA0002976262970000057
Figure FDA0002976262970000058
进一步地对上述余弦相似度计算归一化,得到l>1时各层的注意力,
Figure FDA0002976262970000059
Figure FDA00029762629700000510
Figure FDA00029762629700000511
Figure FDA00029762629700000512
上式中,
Figure FDA00029762629700000513
表示节点υi和l阶“朋友”节点υt间余弦相似度,
Figure FDA00029762629700000514
表示节点υi和l阶“敌人”节点υt间余弦相似度;
在图卷积神经网络的最后一层,将学习到的“朋友”表示和“敌人”表示合并即可获得节点υi的低维向量表示zi
Figure FDA00029762629700000515
式中
Figure FDA00029762629700000516
是用于将节点υi的两种嵌入表达
Figure FDA00029762629700000517
Figure FDA00029762629700000518
连接在一起的线性变换矩阵。
4.根据权利要求3所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:所述步骤3)对符号网络的用户行为建模,设计图卷积神经网络的目标函数,具体为,
3-1)将边的符号作为数据的标签,链路预测任务就是对符号网络的边的分类问题,符号网络中的边共有三种类型,即
Figure FDA0002976262970000061
“+”表示两节点间可能由符号为正的边连接,“-”则表示两节点间可能由符号为负的边连接,“?”表示不连边,设计目标函数用于评价两节点间的连边倾向,设符号网络数据集的mini-batch集合为
Figure FDA0002976262970000062
Figure FDA0002976262970000063
包含三元组(υi,υj,sij),表示节点υi和节点υj间连边类型是sij,采用one-hot向量编码连边类型,即
Figure FDA0002976262970000064
有以下交叉熵损失函数,
Figure FDA0002976262970000065
其中,loss函数表达式为,
Figure FDA0002976262970000066
式中,zi为节点υi的低维向量表示,zj为节点υj的低维向量表示,θMLG为SoftMax回归分类器的模型参数,
Figure FDA0002976262970000067
为与连边类型sij相关的权重,用于平衡三类边
Figure FDA0002976262970000068
在预测中的影响力;
3-2)将节点的低维向量表示作为损失函数的输入,使节点的低维向量表示之间的连边概率与原符号网络连边一致,该loss函数项能够捕捉符号网络的全局结构特性,
符号网络中的用户有着与无符号网络不同的用户行为,弱结构平衡就是符号网络所特有的用户行为导致的局部结构特征,因此设计能反映节点局部特征的惩罚项,设有节点υi,υj,υk,υt,(υi,υj,+),(υi,υ-),
Figure FDA0002976262970000069
标记为“朋友”的两节点比没有连边的两节点相似,标记为“敌人”的节点比没有连边的两节点相异,
采用欧氏距离评价节点的相似性,于是下式成立,
Figure FDA0002976262970000071
其中,zi为节点υi的低维向量表示,zj为节点υj的低维向量表示,zk为节点υk的低维向量表示,zt为节点υi的低维向量表示;
设计目标函数项,
“推”节点υi,使其靠近与之连有正边节点υj时得到目标函数项
Figure FDA0002976262970000072
Figure FDA0002976262970000073
“拉”节点υi,使其远离与之连有负边节点υk时得到目标函数项
Figure FDA0002976262970000074
Figure FDA0002976262970000075
合并式(13)和式(14),有与符号网络局部特征相关的损失函数项
Figure FDA0002976262970000076
Figure FDA0002976262970000077
3-3)在链路预测任务中综合考虑符号网络的全局和局部特征,有以下联合训练目标函数
Figure FDA0002976262970000078
Figure FDA0002976262970000079
λ为模型参数,λ决定了符号网络的局部结构特征在模型中的权重,
Figure FDA00029762629700000710
为模型参数的正则化项。
5.根据权利要求4所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:所述步骤4)对网络模型进行训练,学习模型参数并获得节点的低维向量表示,具体为,
以真实符号网络数据集Epinions、Slashdot、Wikipedia构成的
Figure FDA0002976262970000081
初始节点特征
Figure FDA0002976262970000082
神经网络层数L,线性变换矩阵
Figure FDA0002976262970000083
Figure FDA0002976262970000084
Figure FDA0002976262970000085
注意力参数
Figure FDA0002976262970000086
等作为模型的输入;
l=1时,利用公式(1)(2)对符号网络上所有节点计算其“朋友”嵌入表达
Figure FDA0002976262970000087
和“敌人”嵌入表达
Figure FDA0002976262970000088
使l=l+1;
l>1时,利用公式(5)(6)计算节点“朋友”嵌入表达
Figure FDA0002976262970000089
和“敌人”嵌入表达
Figure FDA00029762629700000810
利用公式(11)连接
Figure FDA00029762629700000811
Figure FDA00029762629700000812
得到初始各节点的低维向量表示;
使用误差反向传播法对模型进行训练,根据公式(15)计算
Figure FDA00029762629700000813
损失并据此更新图卷积神经网络的模型参数,迭代若干次最小化误差,获得最终节点的低维向量表示。
6.根据权利要求5所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:所述步骤5)采用逻辑回归模型进行链路预测,具体为,
通过最终节点的低维向量表示,将一条边两端的节点向量表示结合在一起作为边的特征,此时链路预测被看作二分类任务,采用逻辑回归分类器通过对边进行二分类来实现链路预测。
7.根据权利要求6所述的一种基于图注意力机制的符号网络链路预测方法,其特征在于:利用真实符号网络数据集Epinions、Slashdot、Wikipedia,证明所述步骤5)的预测效果。
CN202110275019.7A 2021-03-15 2021-03-15 一种基于图注意力机制的符号网络链路预测方法 Withdrawn CN113050931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110275019.7A CN113050931A (zh) 2021-03-15 2021-03-15 一种基于图注意力机制的符号网络链路预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110275019.7A CN113050931A (zh) 2021-03-15 2021-03-15 一种基于图注意力机制的符号网络链路预测方法

Publications (1)

Publication Number Publication Date
CN113050931A true CN113050931A (zh) 2021-06-29

Family

ID=76512157

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110275019.7A Withdrawn CN113050931A (zh) 2021-03-15 2021-03-15 一种基于图注意力机制的符号网络链路预测方法

Country Status (1)

Country Link
CN (1) CN113050931A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114063169A (zh) * 2021-11-10 2022-02-18 中国石油大学(北京) 一种波阻抗反演方法、***、设备和存储介质
CN115169426A (zh) * 2022-02-22 2022-10-11 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及***
CN115376318A (zh) * 2022-08-22 2022-11-22 重庆邮电大学 一种基于多属性融合神经网络的交通数据补偿方法
CN116155755A (zh) * 2023-02-21 2023-05-23 湖南大学 一种基于线性优化封闭子图编码的链路符号预测方法
CN117670572A (zh) * 2024-02-02 2024-03-08 南京财经大学 一种基于图对比学习的社交行为预测方法、***及产品

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114063169A (zh) * 2021-11-10 2022-02-18 中国石油大学(北京) 一种波阻抗反演方法、***、设备和存储介质
CN114063169B (zh) * 2021-11-10 2023-03-14 中国石油大学(北京) 一种波阻抗反演方法、***、设备和存储介质
CN115169426A (zh) * 2022-02-22 2022-10-11 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及***
CN115169426B (zh) * 2022-02-22 2023-10-13 国网山东省电力公司信息通信公司 一种基于相似性学习融合模型的异常检测方法及***
CN115376318A (zh) * 2022-08-22 2022-11-22 重庆邮电大学 一种基于多属性融合神经网络的交通数据补偿方法
CN115376318B (zh) * 2022-08-22 2023-12-29 中交投资(湖北)运营管理有限公司 一种基于多属性融合神经网络的交通数据补偿方法
CN116155755A (zh) * 2023-02-21 2023-05-23 湖南大学 一种基于线性优化封闭子图编码的链路符号预测方法
CN116155755B (zh) * 2023-02-21 2024-04-26 湖南大学 一种基于线性优化封闭子图编码的链路符号预测方法
CN117670572A (zh) * 2024-02-02 2024-03-08 南京财经大学 一种基于图对比学习的社交行为预测方法、***及产品
CN117670572B (zh) * 2024-02-02 2024-05-03 南京财经大学 一种基于图对比学习的社交行为预测方法、***及产品

Similar Documents

Publication Publication Date Title
Chen et al. E-LSTM-D: A deep learning framework for dynamic network link prediction
Yi et al. Deep matrix factorization with implicit feedback embedding for recommendation system
Leng et al. Combining granular computing technique with deep learning for service planning under social manufacturing contexts
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN113050931A (zh) 一种基于图注意力机制的符号网络链路预测方法
Natesan Ramamurthy et al. Model agnostic multilevel explanations
Yang et al. Friend or frenemy? Predicting signed ties in social networks
Ma et al. Particle-swarm optimization of ensemble neural networks with negative correlation learning for forecasting short-term wind speed of wind farms in western China
Wan et al. Deep matrix factorization for trust-aware recommendation in social networks
CN113918832B (zh) 基于社交关系的图卷积协同过滤推荐***
CN113918833B (zh) 通过社交网络关系的图卷积协同过滤实现的产品推荐方法
CN113918834B (zh) 融合社交关系的图卷积协同过滤推荐方法
Li et al. Explain graph neural networks to understand weighted graph features in node classification
Wu et al. Estimating fund-raising performance for start-up projects from a market graph perspective
Wang et al. Proximity-based group formation game model for community detection in social network
Liu Deep learning in marketing: a review and research agenda
Li et al. Capsule neural tensor networks with multi-aspect information for Few-shot Knowledge Graph Completion
Feng et al. Link prediction based on orbit counting and graph auto-encoder
Li et al. Large-scale nodes classification with deep aggregation network
Liang et al. A normalizing flow-based co-embedding model for attributed networks
Zhou et al. Online recommendation based on incremental-input self-organizing map
Xu et al. Multiple social role embedding
Yan et al. Modeling long-and short-term user behaviors for sequential recommendation with deep neural networks
Huo et al. Learning cognitive embedding using signed knowledge interaction graph
Wang et al. JECI++: A Modified Joint Knowledge Graph Embedding Model for Concepts and Instances

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210629

WW01 Invention patent application withdrawn after publication