CN115640842A - 一种基于图注意力自编码器的网络表示学习方法 - Google Patents

一种基于图注意力自编码器的网络表示学习方法 Download PDF

Info

Publication number
CN115640842A
CN115640842A CN202211403627.2A CN202211403627A CN115640842A CN 115640842 A CN115640842 A CN 115640842A CN 202211403627 A CN202211403627 A CN 202211403627A CN 115640842 A CN115640842 A CN 115640842A
Authority
CN
China
Prior art keywords
encoder
network
representation
self
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211403627.2A
Other languages
English (en)
Inventor
卢宇威
许国艳
吴春艳
章煜巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202211403627.2A priority Critical patent/CN115640842A/zh
Publication of CN115640842A publication Critical patent/CN115640842A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图注意力自编码器的网络表示学习方法,包括如下步骤:步骤1、初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵;步骤2、提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量;步骤3、根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示;步骤4、使用聚类算法对提取到的网络特征表示进行分类,得到社区发现的结果。本发明能够提高后续节点分类任务的准确性。

Description

一种基于图注意力自编码器的网络表示学习方法
技术领域
本发明涉及数据挖掘技术领域,尤其是一种基于图注意力自编码器的网络表示学习方法。
背景技术
现实生活中,各种各样的实体映射构造成一个个复杂网络。网络中的顶点代表实体对象,边代表顶点之间的联系。现实世界中的事物之间也是密切联系的,这些联系将大部分事物映射成复杂的***,由此衍生的网络结构也具有一定的复杂性,比如社交网络、引文网络、合著网络等。此类网络具有重要的研究意义,如对社交网络拓扑结构的清晰刻画,有助于更好地研究各种社会现象。
复杂网络中社区结构的识别对网络功能演化、拓扑结构的认识都很重要。根据网络中节点之间的关系,把节点划分为一系列子结构,这就是社区。与社区间节点之间的连接相比,社区内的节点之间具有较强的连接关系。
目前,网络表示学习在最近几年引起了学术界和工业界的极大关注,它是指从给定的网络学习有关节点或网络的向量表示,并将得到的向量表示作为后续应用任务的特征输入。深度学习方法在计算机视觉和其他领域中取得了令人瞩目的成就,基于深度学习的网络嵌入方法具有更强的节点表示能力,不仅能够学习节点间复杂的非线性关系,而且可通过高效优化方法求解模型参数。目前,主流的深度学习方法有自动编码器、卷积神经网络、循环神经网络等。
基于深度神经网络的网络表示学习算法利用学习特征表示方面的优势,进一步提高了节点分类的准确度。目前方法得到节点低维特征向量后通常采用的是两步策略,其缺点是学习到的网络表示可能不适合后续的下游任务。
发明内容
本发明所要解决的技术问题在于,提供一种基于图注意力自编码器的网络表示学习方法,能够提高后续节点分类任务的准确性。
为解决上述技术问题,本发明提供一种基于图注意力自编码器的网络表示学习方法,包括如下步骤:
步骤1、初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵;
步骤2、提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量;
步骤3、根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示;
步骤4、使用聚类算法对提取到的网络特征表示进行分类,得到社区发现的结果。
优选的,步骤1中,初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵具体包括如下步骤:
步骤11、输入网络为一个带节点属性的网络,即原始数据包括邻接矩阵A以及节点属性矩阵X;此外,引入社区相似度矩阵Acom来捕获图的宏观特征;
步骤12、构建自编码器网络,初始化一个深度自编码器和一个图注意力自编码器,将深度自编码器的每一层与相应的图注意力自编码层连接起来。
优选的,步骤2中,提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量具体包括如下步骤:
步骤21、将步骤1提取的网络特征矩阵X与邻接矩阵A,以及得到的社区相似度矩阵Acom,作为输入层输入到自编码器网络中;
步骤22、深度自编码器对输入层进行二维卷积操作,分别用卷积核进行卷积,得到该层特征表示,即:
H(l)=φ(W(l)H(l-1)+b(l))
其中,φ是全连接层的激活函数,H(l-1)表示第l-1层的隐藏表示,b(l)和W(l)分别表示解码器第l层的偏差和权重矩阵,得到输出H(l)即为第l层的隐藏表示。
步骤23、图注意力自编码器对输入层进行二维卷积操作,得到该层特征表示,利用Louvain算法来获取社区信息,计算如下:
Figure BDA0003936153470000021
其中,Ni表示节点i的邻域,
Figure BDA0003936153470000022
为第l层编码器的注意力系数,衡量相邻节点对目标节点的重要性,注意力系数由传统图注意力网络系数与节点的社区结构特征矩阵
Figure BDA0003936153470000023
共同决定,
Figure BDA0003936153470000031
代表Acom第i行第j列元素的社区结构系数;
步骤24、为了解决多层注意力网络中的过渡平滑问题,深度自编码器学习到的特征表示被集成到图注意力编码器中,最终学习的表示将能够适应两种不同的信息,即数据本身和数据之间的关系。
优选的,步骤3中,根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示具体包括如下步骤:
步骤31、在损失函数中增加稀疏性限制,使用KL散度即相对熵作为稀疏性限制,作为训练期间学习的嵌入是否得到良好优化的反馈:
Figure BDA0003936153470000032
其中,qij表示节点嵌入zi和聚类簇中心嵌入zu之间的相似性,使用学生t-分布作为软聚类分配度量,假设共有k个簇,其中zu由预训练的自编码器中K-means的参数进行初始化,是学生t-分布的自由度,这里将设置为1;
步骤32、通过训练而优化深度自编码器参数{W,b},使得输出特征矩阵能够最大化的拟合原始的输入数据,解码器部分通过全连接层重构原始特征矩阵,已经编码的数据通过解码器之后可以重构原始数据,即解码器最终输出的结果是原始特征的重构,它应当与原始特征矩阵具有最小损失,损失函数如下式:
Figure BDA0003936153470000033
其中,
Figure BDA0003936153470000034
为重构的特征,xi则是原始特征,该损失函数利用均方误差最小化
Figure BDA0003936153470000035
与xi的误差来优化模型。
步骤33、通过将两个不同的目标函数合并到一个损失函数中,另外通过结合节点的特征信息能够获得更高的聚类精度,因此这里提出的最终损失函数为:
L=αLDAE+βLGATE+γLCLU
其中α、β、γ为超参数,LDAE、βLGATE、γLCLU分别为深度自编码器、图注意力自编码器的损失以及聚类损失函数。在训练到最终阶段后,将获得稳定的结果,然后可以为节点设置标签,选择分布Q中分配到最高概率的簇作为该节点对应的社区。
优选的,步骤4中,使用K-Means聚类算法对步骤3得到的表示矩阵进行聚类。
本发明的有益效果为:本发明基于深度自编码器和图注意力自编码模型,能够同时学习网络节点属性以及节点的拓扑结构,得到节点在低维特征空间的向量表示;使用注意力机制捕捉相邻节点对目标节点的重要性,并且将节点的社区相似性融入到注意力系数的计算中,进一步融入社区结构特征,提高后续节点分类任务的准确性;与已有网络表示学习方法在经典数据集进行实验对比,在节点分类任务上,验证了提出模型的有效性。
附图说明
图1为本发明的方法流程示意图。
图2为本发明实施例的对比实验结果图。
图3为本发明实施例的对比实验结果图。
图4为本发明实施例的对比实验结果图。
图5为本发明实施例的对比实验结果图。
具体实施方式
如图1所示,一种基于图注意力自编码器的网络表示学习方法,包括如下步骤:
步骤1、初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵;
步骤2、提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量;
步骤3、根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示;
步骤4、使用聚类算法对提取到的网络特征表示进行分类,得到社区发现的结果。
步骤1中,初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵具体包括如下步骤:
步骤11、输入网络为一个带节点属性的网络,即原始数据包括邻接矩阵A以及节点属性矩阵X;此外,引入社区相似度矩阵Acom来捕获图的宏观特征;
步骤12、构建自编码器网络,初始化一个深度自编码器和一个图注意力自编码器,将深度自编码器的每一层与相应的图注意力自编码层连接起来。
步骤2中,提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量具体包括如下步骤:
步骤21、将步骤1提取的网络特征矩阵X与邻接矩阵A,以及得到的社区相似度矩阵Acom,作为输入层输入到自编码器网络中;
步骤22、深度自编码器对输入层进行二维卷积操作,分别用卷积核进行卷积,得到该层特征表示,即:
H(l)=φ(W(l)H(l-1)+b(l))
步骤23、图注意力自编码器对输入层进行二维卷积操作,得到该层特征表示,利用Louvain算法来获取社区信息,计算如下:
Figure BDA0003936153470000051
其中,Ni表示节点i的邻域,
Figure BDA0003936153470000052
为第L层编码器的注意力系数,衡量相邻节点对目标节点的重要性,注意力系数由传统图注意力网络系数与节点的社区结构特征矩阵
Figure BDA0003936153470000053
共同决定,
Figure BDA0003936153470000054
代表第i行第j列元素的社区结构系数;
步骤24、为了解决多层注意力网络中的过渡平滑问题,深度自编码器学习到的特征表示被集成到图注意力编码器中,最终学习的表示将能够适应两种不同的信息,即数据本身和数据之间的关系。
步骤3中,根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示具体包括如下步骤:
步骤31、在损失函数中增加稀疏性限制,使用KL散度即相对熵作为稀疏性限制,作为训练期间学习的嵌入是否得到良好优化的反馈:
Figure BDA0003936153470000055
其中,qij表示节点嵌入zi和聚类簇中心嵌入zu之间的相似性,学生t-分布作为软聚类分配度量,假设共有k个簇,其中zu由预训练的自编码器中K-means的参数进行初始化,是学生t-分布的自由度,这里将设置为1;
步骤32、通过训练而优化深度自编码器参数{W,b},使得输出特征矩阵能够最大化的拟合原始的输入数据,解码器部分通过全连接层重构原始特征矩阵,已经编码的数据通过解码器之后可以重构原始数据,即解码器最终输出的结果是原始特征的重构,它应当与原始特征矩阵具有最小损失,损失函数如下式:
Figure BDA0003936153470000061
步骤33、通过将两个不同的目标函数合并到一个损失函数中,另外通过结合节点的特征信息能够获得更高的聚类精度,因此这里提出的最终损失函数为:
L=αLDAE+βLGATE+γLCLU
其中α、β、γ为超参数,在训练到最终阶段后,将获得稳定的结果,然后可以为节点设置标签,选择分布Q中分配到最高概率的簇作为该节点对应的社区。
步骤4中,使用K-Means聚类算法对步骤3得到的表示矩阵进行聚类。
下方实施例在公开的真实的数据集上验证了本发明的模型和算法。
Citeseer:是论文引用网络,同样是研究论文引用关系的数据集,包含3327个节点,分为6类:Agents、Artificial Intelligence(人工智能)、Batabase(数据库)、Information Retrieval(信息检索)、Machine Language(机器学习)和HCI。
ACM:是从ACM论文合作者网络中选取的一个子集。包含在KDD、SIGMOD、SIGCOMM和MobiCOMM上发表的3025篇论文,按照研究领域,这些论文分为3个类别,分别是Database(数据库)、Wireless Communication(无线通信)和Data Mining(数据挖掘)。
DBLP:是DBLP合作者网络中选取的一个子集。这些作者的研究包括四个领域:Database(数据库)、Data Mining(数据挖掘)、Machine Learning(机器学习)和Information Retrieval(信息检索)。
基于本发明的方法所实现的程序使用Python 3.8,PyTorch 1.7.0,CUDA11.0.221实现。
表1总结了四个基准数据集的实验结果,其中粗体值表示最佳性能。我们可以看到,对于每个指标,该方法明显优于大多数评估指标的所有基线方法。
表1 四个基准数据集的实验结果表
Figure BDA0003936153470000071
表格使用四个指标来评估聚类结果:准确度(ACC)、归一化互信息(NMI)、F-score和调整Rand指数(ARI),一个更好的聚类结果应该会导致所有指标的值更高。
考虑到聚类损失参数γ的取值对实验结果的影响,分别取γ∈{10-2,10-1,0,1,10,102},在四个数据集上进行实验,对每种情况下第100到200次迭代的结果取平均值,绘制的γ-柱状图如图2-5所示。从结果来说,本发明提出的算法是有效的,表示学习效果也得到明显的提升。
从上述实验结果数据中,充分反映了本发明的方法在实现节点分类时所具有的良好效果,能够很好地反映社会结构的实际情况。

Claims (5)

1.一种基于图注意力自编码器的网络表示学习方法,其特征在于,包括如下步骤:
步骤1、初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵;
步骤2、提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量;
步骤3、根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示;
步骤4、使用聚类算法对提取到的网络特征表示进行分类,得到社区发现的结果。
2.如权利要求1所述的基于图注意力自编码器的网络表示学习方法,其特征在于,步骤1中,初始化参数,构建自编码器网络,随机初始化编码器参数,读取原始网络数据,计算得到节点社区相似度矩阵具体包括如下步骤:
步骤11、输入网络为一个带节点属性的网络,即原始数据包括邻接矩阵A以及节点属性矩阵X;此外,引入社区相似度矩阵Acom来捕获图的宏观特征;
步骤12、构建自编码器网络,初始化一个深度自编码器和一个图注意力自编码器,将深度自编码器的每一层与相应的图注意力自编码层连接起来。
3.如权利要求1所述的基于图注意力自编码器的网络表示学习方法,其特征在于,步骤2中,提取属性网络特征与邻接矩阵,将网络特征与邻接矩阵作为自编码器网络的输入,得到隐藏层表示向量具体包括如下步骤:
步骤21、将步骤1提取的网络特征矩阵X与邻接矩阵A,以及得到的社区相似度矩阵Acom,作为输入层输入到自编码器网络中;
步骤22、深度自编码器对输入层进行二维卷积操作,分别用卷积核进行卷积,得到该层特征表示,即:
H(l)=φ(W(l)H(l-1)+b(l))
其中,φ是全连接层的激活函数,H(l-1)表示第l-1层的隐藏表示,b(l)和W(l)分别表示解码器第l层的偏差和权重矩阵,得到输出H(l)即为第l层的隐藏表示;
步骤23、图注意力自编码器对输入层进行二维卷积操作,得到该层特征表示,利用Louvain算法来获取社区信息,计算如下:
Figure FDA0003936153460000021
其中,Ni表示节点i的邻域,
Figure FDA0003936153460000022
为第l层编码器的注意力系数,衡量相邻节点对目标节点的重要性,注意力系数由传统图注意力网络系数与节点的社区结构特征矩阵Acom共同决定,
Figure FDA0003936153460000023
代表第i行第j列元素的社区结构系数;
步骤24、深度自编码器学习到的特征表示被集成到图注意力编码器中,最终学习的表示将能够适应两种不同的信息,即数据本身和数据之间的关系。
4.如权利要求1所述的基于图注意力自编码器的网络表示学习方法,其特征在于,步骤3中,根据步骤2中得到的隐藏层表示计算当前表示的软分配分布及目标分布,并通过解码器内积操作进一步计算重构损失及聚类损失,最小化总体损失函数,得到最终隐藏层表示具体包括如下步骤:
步骤31、在损失函数中增加稀疏性限制,使用KL散度即相对熵作为稀疏性限制,作为训练期间学习的嵌入是否得到良好优化的反馈:
Figure FDA0003936153460000024
其中,qij表示节点嵌入zi和聚类簇中心嵌入zu之间的相似性,学生t-分布作为软聚类分配度量,假设共有k个簇,其中zu由预训练的自编码器中K-means的参数进行初始化,是学生t-分布的自由度,设置为1;
步骤32、通过训练而优化深度自编码器参数{W,b},使得输出特征矩阵能够最大化的拟合原始的输入数据,解码器部分通过全连接层重构原始特征矩阵,已经编码的数据通过解码器之后可以重构原始数据,即解码器最终输出的结果是原始特征的重构,它应当与原始特征矩阵具有最小损失,损失函数如下式:
Figure FDA0003936153460000025
其中,
Figure FDA0003936153460000026
为重构的特征,xi则是原始特征,该损失函数利用均方误差最小化
Figure FDA0003936153460000027
与xi的误差来优化模型;
步骤33、通过将两个不同的目标函数合并到一个损失函数中,另外通过结合节点的特征信息能够获得更高的聚类精度,最终损失函数为:
L=αLDAE+βLGATE+γLCLU
其中α、β、γ为超参数,LDAE、LGATE、LCLu分别为深度自编码器、图注意力自编码器的损失以及聚类损失函数,在训练到最终阶段后,将获得稳定的结果,为节点设置标签,选择分布Q中分配到最高概率的簇作为该节点对应的社区。
5.如权利要求1所述的基于图注意力自编码器的网络表示学习方法,其特征在于,步骤4中,使用K-Means聚类算法对步骤3得到的表示矩阵进行聚类。
CN202211403627.2A 2022-11-10 2022-11-10 一种基于图注意力自编码器的网络表示学习方法 Pending CN115640842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211403627.2A CN115640842A (zh) 2022-11-10 2022-11-10 一种基于图注意力自编码器的网络表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211403627.2A CN115640842A (zh) 2022-11-10 2022-11-10 一种基于图注意力自编码器的网络表示学习方法

Publications (1)

Publication Number Publication Date
CN115640842A true CN115640842A (zh) 2023-01-24

Family

ID=84948183

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211403627.2A Pending CN115640842A (zh) 2022-11-10 2022-11-10 一种基于图注意力自编码器的网络表示学习方法

Country Status (1)

Country Link
CN (1) CN115640842A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522143A (zh) * 2023-05-08 2023-08-01 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质
CN117057929A (zh) * 2023-10-11 2023-11-14 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质
CN117407697A (zh) * 2023-12-14 2024-01-16 南昌科晨电力试验研究有限公司 基于自动编码器和注意力机制的图异常检测方法及***

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522143A (zh) * 2023-05-08 2023-08-01 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质
CN116522143B (zh) * 2023-05-08 2024-04-05 深圳市大数据研究院 模型训练方法、聚类方法、设备及介质
CN117057929A (zh) * 2023-10-11 2023-11-14 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质
CN117057929B (zh) * 2023-10-11 2024-01-26 中邮消费金融有限公司 异常用户行为检测方法、装置、设备及存储介质
CN117407697A (zh) * 2023-12-14 2024-01-16 南昌科晨电力试验研究有限公司 基于自动编码器和注意力机制的图异常检测方法及***
CN117407697B (zh) * 2023-12-14 2024-04-02 南昌科晨电力试验研究有限公司 基于自动编码器和注意力机制的图异常检测方法及***

Similar Documents

Publication Publication Date Title
CN108108854B (zh) 城市路网链路预测方法、***及存储介质
CN115640842A (zh) 一种基于图注意力自编码器的网络表示学习方法
CN109447098B (zh) 一种基于深度语义嵌入的图像聚类算法
CN113157957A (zh) 一种基于图卷积神经网络的属性图文献聚类方法
Tsui et al. Data mining methods and applications
CN115661550B (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
CN105631416A (zh) 采用新型密度聚类进行人脸识别的方法
Wang et al. Graph neural networks: Self-supervised learning
CN114118369B (zh) 一种基于群智能优化的图像分类卷积神经网络设计方法
Pan et al. Low-rank tensor regularized graph fuzzy learning for multi-view data processing
CN111353534B (zh) 一种基于自适应分数阶梯度的图数据类别预测方法
Henriques et al. Spatial clustering using hierarchical SOM
CN116645579A (zh) 一种基于异质图注意力机制的特征融合方法
CN114880538A (zh) 基于自监督的属性图社团检测方法
CN113920210A (zh) 基于自适应图学习主成分分析方法的图像低秩重构方法
CN113723608A (zh) 基于迭代知识蒸馏的异质图神经网络模型构建方法
CN116303386A (zh) 一种基于关系图谱的缺失数据智能插补方法和***
Kim et al. Identifying the impact of decision variables for nonlinear classification tasks
CN114265954A (zh) 基于位置与结构信息的图表示学习方法
Czarnowski et al. An approach to data reduction and integrated machine classification
Cai et al. Stacked sparse auto-encoder for deep clustering
CN113033641A (zh) 一种高维数据半监督分类方法
CN112015854A (zh) 一种基于自组织映射神经网络的异构数据属性关联算法
Tej et al. Comparative study of clustering distance measures to determine neural network architectures
Bustos et al. A comparison of different types of Niching Genetic Algorithms for variable selection in solar radiation estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination