CN115130663A - 基于图神经网络和注意力机制的异质网络属性补全方法 - Google Patents

基于图神经网络和注意力机制的异质网络属性补全方法 Download PDF

Info

Publication number
CN115130663A
CN115130663A CN202211043710.3A CN202211043710A CN115130663A CN 115130663 A CN115130663 A CN 115130663A CN 202211043710 A CN202211043710 A CN 202211043710A CN 115130663 A CN115130663 A CN 115130663A
Authority
CN
China
Prior art keywords
attribute
nodes
node
attributes
target node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211043710.3A
Other languages
English (en)
Other versions
CN115130663B (zh
Inventor
于彦伟
王凯
董军宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202211043710.3A priority Critical patent/CN115130663B/zh
Publication of CN115130663A publication Critical patent/CN115130663A/zh
Application granted granted Critical
Publication of CN115130663B publication Critical patent/CN115130663B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Devices For Executing Special Programs (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于图神经网络和注意力机制的异质网络属性补全方法,属于数据处理技术领域。首先通过结合K‑Nearest Neighbor和属性之间的余弦相似度,从网络中捕获与目标节点(带有缺失属性的节点)相似的节点,将这些节点的属性自适应的转化为目标节点的特征域的网络表征;再基于图神经网络和transformer的注意力机制,对网络中的拓扑结构和节点的属性信息进行层次化的分析,进而在空间域获得目标节点的网络表征;最后结合空间域和特征域的网络表征基于欧氏距离的损失函数去进行模型参数学习进而对缺失属性补全。经过实际验证,本发明提供的属性补全方法具有高效、高精确度的特点。

Description

基于图神经网络和注意力机制的异质网络属性补全方法
技术领域
本发明涉及一种基于图神经网络和注意力机制的异质网络属性补全方法,属于数据处理技术领域。
背景技术
网络在我们现实生活中无处不在,现实世界中大多数对象间的联系都可以表示为网络,例如,用户之间的好友关系可以被视为社交网络,论文之间的引用关系可以被视为引用网络,路段之间的连接关系可以被认为是一个交通网络。上述网络都是由相同类型的节点构成,因此它们也被称为同质网络。现实世界中更广泛存在的是异质网络,构成异质网络的节点是不同类型的,例如:购物网络由用户和商品组成,学术网络由作者、作者所在单位和论文构成。虽然这些网络中包含了海量的数据,但是网络中的缺失属性(比如:在购物网络中,一些用户不愿意上传自己的年龄信息;学术网络中,论文的关键词没有被作者填写完整。)也 给挖掘网络中蕴含的潜在价值带来了巨大的挑战。对网络中的缺失属性进行补全可以有效的提高对网络进行数据挖掘的效率,但是其中的方法也是比较复杂的,考虑的因素有很多,比如网络节点之间的连接关系,网络节点现有属性和缺失属性的关系。如何高效准确地将网络中的缺失数据进行补全也越来越受到学术界和工业界的重视。
在属性补全领域中,传统的属性补全方法通常是从网络中节点的连接关系和语义文本信息进行分析补全。但是上述方法并没有考虑整个网络的拓扑结构。近年来图神经网络方法在挖掘网络信息上显示出了较高的效率和准确性,如图卷积神经网络和图注意力网络在捕获网络拓扑结构和节点属性信息上显示出了卓越的性能。图神经网络的发展也给属性补全领域带来了新的可能性,比如基于图卷积神经网络结合属性补全和商品推荐进行联合学习的方法,用图神经网络所学习到的表征进行属性补全。这些方法在属性补全中取得了显著的成果,但是仍有提升的空间。
通过对现有的属性补全方法进行分析总结,已有的方法存在下面几个不足:1)异质网络中的网络表征不同于同质网络中所有节点的类型都是相同的,补全异构网络中的节点的缺失属性需要综合考虑同质节点信息和异质节点信息。这一问题一直困扰着许多网络表征模型。2)图神经网络不能高效地捕获网络中的高阶节点信息。GCN本质上是通过在半监督的框架下通过聚合目标节点的周围节点信息来生成表征。而属性补全问题中,目标节点的属性可能不止与其周围节点相关也可能与其高阶节点相关。如果只是通过堆叠GCN的层数诚然可以捕获的目标节点的高阶信息,但是随着GCN层数增加,网络中节点与节点的表征也会越来越相似,失去特异性,进而影响属性补全的准确性。
发明内容
为了更有效地解决的异质网络属性补全问题,本发明的目的是提出一种基于图神经网络和注意力机制的属性补全方法,以进一步提高属性补全的效率和准确性,为异质网络属性补全问题提供方法与技术上的支持。
为实现上述发明目的,本发采取的具体技术方案如下:
一种基于图神经网络和注意力机制的属性补全方法,包括如下步骤:
S1:获取带有缺失属性的异质属性网络,将带有缺失属性的节点称为目标节点,将属性完整的节点称为源节点;
S2:采用K近邻(k-nearest neighbor)算法选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全;
S3:在利用余弦相似性将与目标节点最相似的K个源节点筛选出之后,为每个源节点赋予一个可学习的参数来动态调节各个源节点的属性对于目标节点属性补全的权重,得到特征空间的赋予权重的属性表征;
S4:将与目标节点在异质属性网络中直接相连的节点与之聚合,得到结构空间的低阶表征;具体的聚合方式是通过简化图神经网络(Simplifying graph convolutionalnetworks)来实现;
S5:首先使用随机游走的方式获得目标节点的高阶节点;
S6:基于transformer给所述高阶节点序列中的节点赋予不同的权重,得到结构空间的赋予权重的高阶表征;
S7:将所述特征空间的赋予权重的属性表征、结构空间的低阶表征和结构空间的赋予权重的高阶表征进行拼接,然后将拼接表征送入到多层感知机中,将表征转化为目标节点的属性;
S8:采用监督学习的方式,首先将部分节点的部分属性人为的去除,然后通过重构预测来补全这些属性,通过补全的属性和真实属性之间的差距不断训练,最后利用训练完成的模型用来补全其他节点的属性缺失值。
进一步的,所述S1中,将带有缺失属性的异质网络定义为
Figure 185024DEST_PATH_IMAGE001
表示图中顶点的集合,
Figure 164482DEST_PATH_IMAGE002
表示图中边的集合,
Figure 6536DEST_PATH_IMAGE003
代表图中顶点的属性矩阵,
Figure 464062DEST_PATH_IMAGE004
为图中顶点的个数,
Figure 544013DEST_PATH_IMAGE005
为每个顶点特征的维度,
Figure 428793DEST_PATH_IMAGE006
是一个标记矩阵,当
Figure 23722DEST_PATH_IMAGE007
时,
Figure 284939DEST_PATH_IMAGE008
中对应的属性是缺失的;反之,
Figure 16135DEST_PATH_IMAGE009
中对应的属性是完整的。
进一步的,所述S2中,在异质网络中通常包含大量节点,利用所有源节点的属性来补全目标节点的缺失属性是低效且不切实际的;所以,首先采用K近邻选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全,这里使用余弦相似性(公式(1))来度量两个属性向量的相似性;
Figure 71816DEST_PATH_IMAGE010
(1)
其中,
Figure 888462DEST_PATH_IMAGE011
表示两个节点的相似性,
Figure 687791DEST_PATH_IMAGE012
表示目标节点的现有属性,
Figure 804651DEST_PATH_IMAGE013
表示源节点中与目标节点现有属性相对应的属性,
Figure 296812DEST_PATH_IMAGE014
数值越大表示目标节点和源节点之间的相似性越高。
进一步的,所述S3中,在异质网络中可能存在多个因素影响源节点对目标节点的属性补全关系,例如:节点之间是否直接相连和相连接点边上的权重等。所述动态调节按照公式(2)进行:
Figure 600755DEST_PATH_IMAGE015
(2)
其中,
Figure 938195DEST_PATH_IMAGE016
为目标节点特征空间的表征,
Figure 643983DEST_PATH_IMAGE017
是与目标节点
Figure 244729DEST_PATH_IMAGE018
的最相似的
Figure 832705DEST_PATH_IMAGE019
个源节点集合,
Figure 973836DEST_PATH_IMAGE020
为每个源节点对应的可学习的调整权重,
Figure 534131DEST_PATH_IMAGE021
为源节点的特征向量。
进一步的,所述S4中,在特征空间完成对目标节点的表征学习后,需要在结构空间对目标节点学习表征;实现的具体公式(3)所示:
Figure 571357DEST_PATH_IMAGE022
(3)
其中,
Figure 584312DEST_PATH_IMAGE023
为简化图神经网络中第
Figure 325872DEST_PATH_IMAGE024
层的权重矩阵,
Figure 740673DEST_PATH_IMAGE025
是第
Figure 745538DEST_PATH_IMAGE024
层的输出,在简化图神经网络的第一层
Figure 980210DEST_PATH_IMAGE026
为邻接矩阵。
图神经网络本质上是通过聚合目标节点的邻居属性来捕获网络中的拓扑结构信息和节点的属性信息,但是随着图神经网络层数的堆叠,目标节点聚合的特征就会出现过平滑化的现象,也就是说目标节点通过聚合特征获得的表征会失去特异性和区分性。因此,在结构空间聚合目标节点的邻居节点使用的是简化图神经网络,并且只使用一层网络,在捕获拓扑结构和属性特征的同时保留目标节点表征的特异性。
进一步的,所述S5具体:为了捕获异质网络中目标节点的高阶信息,首先使用随机游走的方式获得目标节点的高阶节点,随机游走是结合了图中深度优先遍历和广度优先遍历的优点的一种遍历图中节点的方式,具体遍历方式如公式(4)所示:
Figure 259882DEST_PATH_IMAGE027
(4)
其中
Figure 325927DEST_PATH_IMAGE028
表示节点
Figure 236114DEST_PATH_IMAGE029
到节点
Figure 223661DEST_PATH_IMAGE030
的边的权重;
对每个目标节点,把它作为根节点,并基于其进行随机游走,获取节点序列。因为直接相连的源节点在简化图神经网络中已经被使用,所以将这些节点在随机游走的节点序列中删除。
进一步的,所述S6中,随机游走产生的节点序列对目标节点的影响各不相同,所以基于transformer给节点序列中的节点赋予不同的权重。具体为:
S6-1:首先对目标节点和源节点序列的特征进行线性变化,然后基于此线性变换计算目标节点和每个序列中的节点的权重,为了计算的稳定性,将获得到的权重进行softmax归一化操作;
S6-2:然后,再次对源节点序列中的节点特征进行独立于权重计算的新的线性变换。
S6-3:最后,将权重赋予每个线性变换之后的源节点序列节点特征,将其累加起来获得目标节点高阶的节点表征;计算方法如公式(5)所示:
Figure 307024DEST_PATH_IMAGE031
(5)
其中
Figure 165259DEST_PATH_IMAGE032
表示节点
Figure 43085DEST_PATH_IMAGE033
通过简化图神经网络所聚合的表征,
Figure 314666DEST_PATH_IMAGE034
表示节点
Figure 428419DEST_PATH_IMAGE035
的特征,
Figure 406740DEST_PATH_IMAGE036
Figure 455467DEST_PATH_IMAGE037
Figure 417607DEST_PATH_IMAGE038
表示参数可学习的投影参数矩阵,
Figure 577193DEST_PATH_IMAGE039
表示节点
Figure 206757DEST_PATH_IMAGE035
的高阶网络表征。
S6-4:在这基础上,将上述的注意力机制拓展到多头的注意力机制以捕获目标节点与高阶源节点之间的多重依赖关系。然后,将多重依赖关系送入到平均池化层获得最终的高阶网络表征,计算方法如公式(6)所示:
Figure 629648DEST_PATH_IMAGE040
(6)
其中,
Figure 875822DEST_PATH_IMAGE041
表示节点
Figure 839099DEST_PATH_IMAGE042
在第
Figure 995274DEST_PATH_IMAGE043
次注意力机制中的获得的高阶网络表征,
Figure 854645DEST_PATH_IMAGE044
表示一共需要进行注意力机制计算的次数。
进一步的,所述S7中,所述拼接的具体计算方式如公式(7)所示:
Figure 322536DEST_PATH_IMAGE045
(7)
其中
Figure 761607DEST_PATH_IMAGE046
表示向量拼接操作,
Figure 834605DEST_PATH_IMAGE047
为预测的目标节点
Figure 864878DEST_PATH_IMAGE048
的属性值。
进一步的,所述S8具体为:
S8-1:在获得到目标节点的预测属性之后,将其原有存在的属性保留,将预测的属性填入其缺失的属性完成属性补全的任务,填充方法如公式(8)所示:
Figure 23327DEST_PATH_IMAGE049
(8)
其中,
Figure 62827DEST_PATH_IMAGE050
表示经过属性补全之后所有节点的预测属性,
Figure 724753DEST_PATH_IMAGE051
表示哈达玛积,
Figure 191506DEST_PATH_IMAGE052
为元素全为1的矩阵:
S8-2:基于欧氏距离的公式,来设置损失函数度量预测属性和真实属性之间的差距,具体计算方式如公式(9)所示:
Figure 837251DEST_PATH_IMAGE053
(9)
其中
Figure 883705DEST_PATH_IMAGE054
表示目标节点集合,
Figure 931295DEST_PATH_IMAGE055
为节点
Figure 303371DEST_PATH_IMAGE042
真实的缺失属性数值,
Figure 436412DEST_PATH_IMAGE056
为节点
Figure 552135DEST_PATH_IMAGE035
预测的缺失属性数值。
本发明在进行异质网络属性补全时同时考虑了目标节点和源节点之间在属性空间的关联性和在结构空间的关联性,具体表现为:在属性空间使用了
Figure 454232DEST_PATH_IMAGE057
近邻算法寻找出与目标节点最相似的
Figure 997209DEST_PATH_IMAGE057
个源节点,然后自适应地赋予其对应的
Figure 351967DEST_PATH_IMAGE057
个权值进行相加,获得目标节点的属性空间表征。在结构空间,使用简化图神经网络来聚合目标节点的一阶邻居信息,获得目标节点的低阶表征;然后使用基于transformer和随机游走的多头注意力机制来捕获目标节点在结构空间的高阶邻居信息获得目标节点的高阶表征。最后,将这三个表征融合,在基于欧氏距离的损失函数的引导下对整体模型进行参数更新,最后补全目标节点的缺失属性。
本发明的优点和有益效果:
相比于传统的属性补全方法,本发明引入了网络表征学***滑问题。
经过实际验证,本发明提供的属性补全方法具有高效、高精确度的特点。
附图说明
图1是本发明的整体流程图。
图2是本发明的框架图。
图3是本发明中获得的节点之间的权重的拓扑结构图一。
图4是本发明中获得的节点之间的权重的拓扑结构图二。
图5是本发明基于注意力机制获得高阶节点表征的流程图。
具体实施方式
下面将结合附图1-5及与具体实施例对本发明做进一步说明。
实施例1:
一种基于图神经网络和注意力机制的属性补全方法,整体流程如图1所示。包括如下步骤:
S1:获取有缺失属性的异质属性网络,将带有缺失属性的节点称为目标节点,将属性完整的节点称为源节点;将带有缺失属性的异质属性网络定义为
Figure 271381DEST_PATH_IMAGE058
表示图中顶点的集合
Figure 27985DEST_PATH_IMAGE059
Figure 741863DEST_PATH_IMAGE002
表示图中边的集合,
Figure 115075DEST_PATH_IMAGE003
代表图中顶点的属性矩阵,n为图中顶点的个数,
Figure 572602DEST_PATH_IMAGE060
为每个顶点特征的维度,
Figure 183711DEST_PATH_IMAGE061
是一个标记矩阵,如果
Figure 334070DEST_PATH_IMAGE062
,则表示
Figure 663420DEST_PATH_IMAGE063
中对应的属性是缺失的;反之,则表示
Figure 924637DEST_PATH_IMAGE064
中对应的属性是完整的;
S2:采用K近邻(k-nearest neighbor)算法选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全;在异质网络中通常包含大量节点,利用所有源节点的属性来补全目标节点的缺失属性是低效且不切实际的;所以,首先采用K近邻选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全,这里使用余弦相似性(公式(1))来度量两个属性向量的相似性;
Figure 390254DEST_PATH_IMAGE065
(1)
其中,
Figure 711514DEST_PATH_IMAGE066
表示两个节点的相似性,
Figure 528160DEST_PATH_IMAGE067
表示目标节点的现有属性,
Figure 327489DEST_PATH_IMAGE068
表示源节点中与目标节点现有属性相对应的属性,
Figure 913191DEST_PATH_IMAGE069
数值越大表示目标节点和源节点之间的相似性越高;
S3:在利用余弦相似性将与目标节点最相似的K个源节点筛选出之后,为每个源节点赋予一个可学习的参数来动态调节各个源节点的属性对于目标节点属性补全的权重,得到特征空间的赋予权重的属性表征;在异质网络中可能存在多个因素影响源节点对目标节点的属性补全关系,例如:节点之间是否直接相连和相连接点边上的权重等。所述动态调节按照公式(2)进行:
Figure 405352DEST_PATH_IMAGE070
(2)
其中,
Figure 443715DEST_PATH_IMAGE071
为目标节点特征空间的表征,
Figure 46735DEST_PATH_IMAGE072
是与目标节点
Figure 752523DEST_PATH_IMAGE073
的最相似的
Figure 150006DEST_PATH_IMAGE074
个源节点集合,
Figure 941244DEST_PATH_IMAGE075
为每个源节点对应的可学习的调整权重,
Figure 82376DEST_PATH_IMAGE076
为源节点的特征向量;
S4:将与目标节点在异质属性网络中直接相连的节点与之聚合,得到结构空间的低阶表征;具体的聚合方式是通过简化图神经网络(Simplifying graph convolutionalnetworks)来实现;在特征空间完成对目标节点的表征学习后,需要在结构空间对目标节点学习表征;实现的具体公式(3)所示:
Figure 642670DEST_PATH_IMAGE077
(3)
其中,
Figure 414317DEST_PATH_IMAGE078
为简化图神经网络中第
Figure 692852DEST_PATH_IMAGE079
层的权重矩阵,
Figure 637674DEST_PATH_IMAGE080
是第
Figure 52475DEST_PATH_IMAGE079
层的输出,在简化图神经网络的第一层
Figure 57340DEST_PATH_IMAGE081
为邻接矩阵;
S5:首先使用随机游走的方式获得目标节点的高阶节点;为了捕获异质网络中目标节点的高阶信息,首先使用随机游走的方式获得目标节点的高阶节点,随机游走是结合了图中深度优先遍历和广度优先遍历的优点的一种遍历图中节点的方式,具体遍历方式如公式(4)所示:
Figure 823170DEST_PATH_IMAGE082
(4)
其中
Figure 40525DEST_PATH_IMAGE083
表示节点
Figure 840991DEST_PATH_IMAGE084
到节点
Figure 751178DEST_PATH_IMAGE085
的边的权重;
对每个目标节点,把它作为根节点,并基于其进行随机游走,获取节点序列。因为直接相连的源节点在简化图神经网络中已经被使用,所以将这些节点在随机游走的节点序列中删除;
S6:基于transformer给所述高阶节点序列中的节点赋予不同的权重,得到结构空间的赋予权重的高阶表征;具体为:
S6-1:首先对目标节点和源节点序列的特征进行线性变化,然后基于此线性变换计算目标节点和每个序列中的节点的权重,为了计算的稳定性,将获得到的权重进行softmax归一化操作;
S6-2:然后,再次对源节点序列中的节点特征进行独立于权重计算的新的线性变换。
S6-3:最后,将权重赋予每个线性变换之后的源节点序列节点特征,将其累加起来获得目标节点高阶的节点表征;计算方法如公式(5)所示:
Figure 738726DEST_PATH_IMAGE086
(5)
其中
Figure 25351DEST_PATH_IMAGE087
表示节点
Figure 414744DEST_PATH_IMAGE088
通过简化图神经网络所聚合的表征,
Figure 761411DEST_PATH_IMAGE089
表示节点
Figure 259692DEST_PATH_IMAGE088
的特征,
Figure 84429DEST_PATH_IMAGE090
Figure 328329DEST_PATH_IMAGE091
Figure 845898DEST_PATH_IMAGE092
表示参数可学习的投影参数矩阵,
Figure 808037DEST_PATH_IMAGE093
表示节点
Figure 436465DEST_PATH_IMAGE088
的高阶网络表征。
S6-4:在这基础上,将上述的注意力机制拓展到多头的注意力机制以捕获目标节点与高阶源节点之间的多重依赖关系。然后,将多重依赖关系送入到平均池化层获得最终的高阶网络表征,计算方法如公式(6)所示:
Figure 534871DEST_PATH_IMAGE094
(6)
其中,
Figure 223341DEST_PATH_IMAGE095
表示节点
Figure 672777DEST_PATH_IMAGE088
在第
Figure 42578DEST_PATH_IMAGE096
次注意力机制中的获得的高阶网络表征,
Figure 261070DEST_PATH_IMAGE097
表示一共需要进行注意力机制计算的次数;
S7:将所述特征空间的赋予权重的属性表征、结构空间的低阶表征和结构空间的赋予权重的高阶表征进行拼接,然后将拼接表征送入到多层感知机中,将表征转化为目标节点的属性;所述拼接的具体计算方式如公式(7)所示:
Figure 386021DEST_PATH_IMAGE098
(7)
其中
Figure 57174DEST_PATH_IMAGE099
表示向量拼接操作,
Figure 496245DEST_PATH_IMAGE100
为预测的目标节点
Figure 569244DEST_PATH_IMAGE088
的属性值。
S8:采用监督学习的方式,首先将部分节点的部分属性人为的去除,然后通过重构预测来补全这些属性,通过补全的属性和真实属性之间的差距不断训练,最后利用训练完成的模型用来补全其他节点的属性缺失值;具体为:
S8-1:在获得到目标节点的预测属性之后,将其原有存在的属性保留,将预测的属性填入其缺失的属性完成属性补全的任务,填充方法如公式(8)所示:
Figure 865096DEST_PATH_IMAGE101
(8)
其中,
Figure 23545DEST_PATH_IMAGE102
表示经过属性补全之后所有节点的预测属性,
Figure 531886DEST_PATH_IMAGE103
表示哈达玛积,
Figure 724970DEST_PATH_IMAGE104
为元素全为1的矩阵;
S8-2:基于欧氏距离的公式,来设置损失函数度量预测属性和真实属性之间的差距,具体计算方式如公式(9)所示:
Figure 926144DEST_PATH_IMAGE105
(9)
其中
Figure 571889DEST_PATH_IMAGE106
表示目标节点集合,
Figure 883922DEST_PATH_IMAGE107
为节点
Figure 931513DEST_PATH_IMAGE108
真实的缺失属性数值,
Figure 506850DEST_PATH_IMAGE109
为节点
Figure 639891DEST_PATH_IMAGE110
预测的缺失属性数值。
实施例2:该实施例以实施例1为基本方法,进行模块设计。
一种基于图神经网络和注意力机制的属性补全***,由数据预处理模块、标记矩阵构建模块、特征空间表征学习模块、低阶邻居表征学习模块、高阶邻居表征学习模块、表征融合模块和属性推理模块组成,如图2所示,以下对各部分进行详细说明:
所述数据预处理模块:首先将原始数据集中的属性特征归一化,然后将数据划分训练集、测试集和验证集,随机去除其中节点的属性信息,把去掉的属性信息记录作为真值来引导模型进行学习。
所述标记矩阵构建模块:对数据集中的节点属性进行遍历,将节点的缺失属性值进行标记,进而构成属性标记矩阵
Figure 755615DEST_PATH_IMAGE111
所述特征空间表征学习模块:选取目标节点在结构空间中相似的节点,然后赋予这些节点权重,将这些节点的特征求和,获得目标节点的属性空间的表征。
所述低阶邻居表征学习模块:利用简化图神经网络,聚合目标节点一阶邻居节点的属性,如图3所示,获取目标节点的低阶邻居表征。
所述高阶邻居表征学习模块:通过随机游走和基于transformer的注意力机制聚合目标节点高阶邻居节点的属性,如图4、5所示,获取目标节点的高阶邻居表征。
所述表征融合模块:将目标节点的特征空间表征、低阶邻居节点表征和高阶邻居节点表征融合。
所述属性推理模块:将目标节点的融合表征通过多层感知机进行预测,获得目标节点的预测属性,通过标记矩阵,将预测到的属性填补到对应的缺失属性中。
实施例3:该实施例以上述方法和***为基础进行实例验证
为了验证本发明提出模型属性补全的准确性,在三个数据集:数据库***与程序逻辑网络(DataBase systems and Logic Programming,DBLP)、国际计算机学会网络(Association for Computing Machinery,ACM)和互联网电影数据库(Internet MovieDatabase,IMDb)上进行了实验,使用Heat Kernel和Correlation为评价指标,并与七个已有的模型进行比较。
七个已有模型分别为:矩阵补全(Matrix Completion,MC)、最大似然估计(Expectation Maximization,EM)、多层感知机(Multilayer Perceptron,MLP
)、支持向量回归(Support Vector Regression,SVR)、异构图注意力网络(heterogeneous graph attention networks,HGAT)、自适应图神经网络(Adaptive GraphConvolutional Network,AGCN)和通过属性补全方式的异构图神经网络(HeterogeneousGraph Neural Network via Attribute Completion,HGNN-AC)。
表1 对比实验结果
Figure 657712DEST_PATH_IMAGE113
最终的实验结果如表1所示,其中AC-HEN是本发明所提供的方法。可以看到在三个真实数据集上,本发明提供的属性补全方法的Heat Kernel和Correlation都要显著高于其他的方法,这也就说明,本发明构建的模型优于其他现有的模型,属性补全的准确性较高。
以上计划方案,仅为本发明中的实施方法,但本发明的保护范围不限于此,所有熟悉该技术的人员在本发明所披露的技术范围以内,可理解想到的替换或者变换,都应该包含在本发明的保护范围之内,所以,本发明的保护范围应以权利要求书的保护范围为准。

Claims (9)

1.一种基于图神经网络和注意力机制的异质网络属性补全方法,其特征在于,包括如下步骤:
S1:获取带有缺失属性的异质属性网络,将带有缺失属性的节点称为目标节点,将属性完整的节点称为源节点;
S2:采用K近邻算法选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全;
S3:在利用余弦相似性将与目标节点最相似的K个源节点筛选出之后,为每个源节点赋予一个学习的参数来动态调节各个源节点的属性对于目标节点属性补全的权重,得到特征空间的赋予权重的属性表征;
S4:将与目标节点在异质属性网络中直接相连的节点与之聚合,得到结构空间的低阶表征;具体的聚合方式是通过简化图神经网络来实现;
S5:首先使用随机游走的方式获得目标节点的高阶节点;
S6:基于transformer给所述高阶节点序列中的节点赋予不同的权重,得到结构空间的赋予权重的高阶表征;
S7:将所述特征空间的赋予权重的属性表征、结构空间的低阶表征和结构空间的赋予权重的高阶表征进行拼接,然后将拼接表征送入到多层感知机中,将表征转化为目标节点的属性;
S8:采用监督学习的方式,首先将部分节点的部分属性人为的去除,然后通过重构预测来补全这些属性,通过补全的属性和真实属性之间的差距不断训练,最后利用训练完成的模型用来补全其他节点的属性缺失值。
2.如权利要求1所述的属性补全方法,其特征在于,所述S1中,将带有缺失属性的异质网络定义为
Figure 511699DEST_PATH_IMAGE001
表示图中顶点的集合,
Figure 824869DEST_PATH_IMAGE002
表示图中边的集合,
Figure 196944DEST_PATH_IMAGE003
代表图中顶点的属性矩阵,
Figure 329985DEST_PATH_IMAGE004
为图中顶点的个数,
Figure 445709DEST_PATH_IMAGE005
为每个顶点特征的维度,
Figure 347806DEST_PATH_IMAGE006
是一个标记矩阵,当
Figure 890783DEST_PATH_IMAGE007
时,
Figure 245541DEST_PATH_IMAGE008
中对应的属性是缺失的;反之,
Figure 899376DEST_PATH_IMAGE009
中对应的属性是完整的。
3.如权利要求1所述的属性补全方法,其特征在于,所述S2中,首先采用K近邻选出与目标节点现有属性最相似的K个源节点来进行在特征空间的属性补全,使用余弦相似性来度量两个属性向量的相似性;
Figure 655979DEST_PATH_IMAGE010
(1)
其中,
Figure 369857DEST_PATH_IMAGE011
表示两个节点的相似性,
Figure 477491DEST_PATH_IMAGE012
表示目标节点的现有属性,
Figure 935017DEST_PATH_IMAGE013
表示源节点中与目标节点现有属性相对应的属性,
Figure 546127DEST_PATH_IMAGE014
数值越大表示目标节点和源节点之间的相似性越高。
4.如权利要求1所述的属性补全方法,其特征在于,所述S3中,所述动态调节按照公式(2)进行:
Figure 696485DEST_PATH_IMAGE015
(2)
其中,
Figure 25836DEST_PATH_IMAGE016
为目标节点特征空间的表征,
Figure 310490DEST_PATH_IMAGE017
是与目标节点
Figure 41686DEST_PATH_IMAGE018
的最相似的
Figure 362946DEST_PATH_IMAGE019
个源节点集合,
Figure 914013DEST_PATH_IMAGE020
为每个源节点对应的可学习的调整权重,
Figure 978921DEST_PATH_IMAGE021
为源节点的特征向量。
5.如权利要求1所述的属性补全方法,其特征在于,所述S4中,在特征空间完成对目标节点的表征学习后,需要在结构空间对目标节点学习表征;实现的具体公式(3)所示:
Figure 299044DEST_PATH_IMAGE022
(3)
其中,
Figure 525626DEST_PATH_IMAGE023
为简化图神经网络中第
Figure 829568DEST_PATH_IMAGE024
层的权重矩阵,
Figure 698167DEST_PATH_IMAGE025
是第
Figure 138375DEST_PATH_IMAGE024
层的输出,在简化图神经网络的第一层
Figure 535859DEST_PATH_IMAGE026
为邻接矩阵。
6.如权利要求1所述的属性补全方法,其特征在于,所述S5具体:为了捕获异质网络中目标节点的高阶信息,首先使用随机游走的方式获得目标节点的高阶节点,随机游走是结合了深度优先遍历和广度优先遍历的优点的一种遍历图中节点的方式,具体遍历方式如公式(4)所示:
Figure 327097DEST_PATH_IMAGE027
(4)
其中
Figure 733808DEST_PATH_IMAGE028
表示节点
Figure 294102DEST_PATH_IMAGE029
到节点
Figure 862487DEST_PATH_IMAGE030
的边的权重。
7.如权利要求1所述的属性补全方法,其特征在于,所述S6具体为:
S6-1:首先对目标节点和源节点序列的特征进行线性变化,然后基于此线性变换计算目标节点和每个序列中的节点的权重,为了计算的稳定性,将获得到的权重进行softmax归一化操作;
S6-2:然后,再次对源节点序列中的节点特征进行独立于权重计算的新的线性变换;
S6-3:最后,将权重赋予每个线性变换之后的源节点序列节点特征,将其累加起来获得目标节点高阶的节点表征;计算方法如公式(5)所示:
Figure 141021DEST_PATH_IMAGE031
(5)
其中
Figure 85844DEST_PATH_IMAGE032
表示节点
Figure 500644DEST_PATH_IMAGE033
通过简化图神经网络所聚合的表征,
Figure 239930DEST_PATH_IMAGE034
表示节点
Figure 740182DEST_PATH_IMAGE035
的特征,
Figure 488695DEST_PATH_IMAGE036
Figure 758002DEST_PATH_IMAGE037
Figure 933769DEST_PATH_IMAGE038
表示参数可学习的投影参数矩阵,
Figure 921316DEST_PATH_IMAGE039
表示节点
Figure 207941DEST_PATH_IMAGE035
的高阶网络表征;
S6-4:将上述的注意力机制拓展到多头的注意力机制以捕获目标节点与高阶源节点之间的多重依赖关系;然后,将多重依赖关系送入到平均池化层获得最终的高阶网络表征,计算方法如公式(6)所示:
Figure 597334DEST_PATH_IMAGE040
(6)
其中,
Figure 944002DEST_PATH_IMAGE041
表示节点
Figure 153266DEST_PATH_IMAGE033
在第
Figure 243582DEST_PATH_IMAGE042
次注意力机制中的获得的高阶网络表征,
Figure 487482DEST_PATH_IMAGE043
表示一共需要进行注意力机制计算的次数。
8.如权利要求1所述的属性补全方法,其特征在于,所述S7中,所述拼接的具体计算方式如公式(7)所示:
Figure 5051DEST_PATH_IMAGE044
(7)
其中
Figure 701611DEST_PATH_IMAGE045
表示向量拼接操作,
Figure 330039DEST_PATH_IMAGE046
为预测的目标节点
Figure 428445DEST_PATH_IMAGE047
的属性值。
9.如权利要求1所述的属性补全方法,其特征在于,所述S8具体为:
S8-1:在获得到目标节点的预测属性之后,将其原有存在的属性保留,将预测的属性填入其缺失的属性完成属性补全的任务,填充方法如公式(8)所示:
Figure 116915DEST_PATH_IMAGE048
(8)
其中,
Figure 300772DEST_PATH_IMAGE049
表示经过属性补全之后所有节点的预测属性,
Figure 732890DEST_PATH_IMAGE050
表示哈达玛积,
Figure 216961DEST_PATH_IMAGE051
为元素全为1的矩阵;
S8-2:基于欧氏距离的公式,来设置损失函数度量预测属性和真实属性之间的差距,具体计算方式如公式(9)所示:
Figure 76332DEST_PATH_IMAGE052
(9)
其中
Figure 481906DEST_PATH_IMAGE053
表示目标节点集合,
Figure 717715DEST_PATH_IMAGE054
为节点
Figure 525134DEST_PATH_IMAGE033
真实的缺失属性数值,
Figure 555407DEST_PATH_IMAGE055
为节点
Figure 713856DEST_PATH_IMAGE035
预测的缺失属性数值。
CN202211043710.3A 2022-08-30 2022-08-30 基于图神经网络和注意力机制的异质网络属性补全方法 Active CN115130663B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211043710.3A CN115130663B (zh) 2022-08-30 2022-08-30 基于图神经网络和注意力机制的异质网络属性补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211043710.3A CN115130663B (zh) 2022-08-30 2022-08-30 基于图神经网络和注意力机制的异质网络属性补全方法

Publications (2)

Publication Number Publication Date
CN115130663A true CN115130663A (zh) 2022-09-30
CN115130663B CN115130663B (zh) 2023-10-13

Family

ID=83388013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211043710.3A Active CN115130663B (zh) 2022-08-30 2022-08-30 基于图神经网络和注意力机制的异质网络属性补全方法

Country Status (1)

Country Link
CN (1) CN115130663B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759199A (zh) * 2022-11-21 2023-03-07 山东大学 基于层次化图神经网络的多机器人环境探索方法及***

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113094484A (zh) * 2021-04-07 2021-07-09 西北工业大学 基于异质图神经网络的文本视觉问答实现方法
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
WO2021179640A1 (zh) * 2020-03-10 2021-09-16 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN114692867A (zh) * 2022-03-24 2022-07-01 大连理工大学 一种结合高阶结构和注意力机制的网络表示学习算法
CN114723037A (zh) * 2022-02-25 2022-07-08 上海理工大学 一种聚合高阶邻居节点的异构图神经网络计算方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021179838A1 (zh) * 2020-03-10 2021-09-16 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
WO2021179640A1 (zh) * 2020-03-10 2021-09-16 深圳大学 一种基于图模型的短视频推荐方法、和智能终端和存储介质
CN113094484A (zh) * 2021-04-07 2021-07-09 西北工业大学 基于异质图神经网络的文本视觉问答实现方法
CN114723037A (zh) * 2022-02-25 2022-07-08 上海理工大学 一种聚合高阶邻居节点的异构图神经网络计算方法
CN114692867A (zh) * 2022-03-24 2022-07-01 大连理工大学 一种结合高阶结构和注意力机制的网络表示学习算法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HONGYAN CUI等: ""Self-training method based on GCN for semi-supervised short text classification"", 《INFORMATION SCIENCES》 *
丁钰;魏浩;潘志松;刘鑫;: "网络表示学习算法综述", 计算机科学, no. 09 *
杨宝生;: "基于注意力机制增强图卷积神经网络的个性化新闻推荐", 兰州文理学院学报(自然科学版), no. 05 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115759199A (zh) * 2022-11-21 2023-03-07 山东大学 基于层次化图神经网络的多机器人环境探索方法及***
CN115759199B (zh) * 2022-11-21 2023-09-26 山东大学 基于层次化图神经网络的多机器人环境探索方法及***

Also Published As

Publication number Publication date
CN115130663B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN112529168B (zh) 一种基于gcn的属性多层网络表示学习方法
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN113961759B (zh) 基于属性图表示学习的异常检测方法
CN114565053B (zh) 基于特征融合的深层异质图嵌入模型
Choi et al. Identifying emerging technologies to envision a future innovation ecosystem: A machine learning approach to patent data
CN113255895A (zh) 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN115859793A (zh) 基于注意力的异构信息网络用户异常行为检测方法及***
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
CN114936307A (zh) 一种范式化图模型构建方法
Ma et al. Class-imbalanced learning on graphs: A survey
CN115130663B (zh) 基于图神经网络和注意力机制的异质网络属性补全方法
CN115699058A (zh) 通过边缘搜索的特征交互
CN113744023B (zh) 一种基于图卷积网络的双通道协同过滤推荐方法
Du et al. Image recommendation algorithm combined with deep neural network designed for social networks
Sheng et al. Personalized recommendation of location-based services using spatio-temporal-aware long and short term neural network
Wang et al. RETRACTED ARTICLE: Intrusion detection and performance simulation based on improved sequential pattern mining algorithm
CN117556148A (zh) 一种基于网络数据驱动的个性化跨域推荐方法
Layne et al. Temporal sir-gn: Efficient and effective structural representation learning for temporal graphs
CN117408336A (zh) 一种结构与属性注意力机制的实体对齐方法
CN117093928A (zh) 基于谱域图神经网络的自适应图节点异常检测方法
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
CN115545833A (zh) 一种基于用户社交信息的推荐方法及***
Tang et al. Hypergraph structure inference from data under smoothness prior
Zhou et al. A structure distinguishable graph attention network for knowledge base completion
Chen et al. Semi-supervised heterogeneous graph learning with multi-level data augmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant