CN116595479A - 基于图双重自编码器的社区发现方法、***、设备及介质 - Google Patents

基于图双重自编码器的社区发现方法、***、设备及介质 Download PDF

Info

Publication number
CN116595479A
CN116595479A CN202310498705.XA CN202310498705A CN116595479A CN 116595479 A CN116595479 A CN 116595479A CN 202310498705 A CN202310498705 A CN 202310498705A CN 116595479 A CN116595479 A CN 116595479A
Authority
CN
China
Prior art keywords
graph
encoder
information
reconstruction
representation information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310498705.XA
Other languages
English (en)
Inventor
李明娇
储星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202310498705.XA priority Critical patent/CN116595479A/zh
Publication of CN116595479A publication Critical patent/CN116595479A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于图双重自编码器的社区发现方法、***、设备及介质,涉及社区发现技术领域,该方法包括将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。本发明提高了对引文网络中社区划分的准确性。

Description

基于图双重自编码器的社区发现方法、***、设备及介质
技术领域
本发明涉及社区发现技术领域,特别是涉及一种基于图双重自编码器的社区发现方法、***、设备及介质。
背景技术
引文分析是指对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析以揭示其数量特征和内在规律。引文分析对于研究选题、研究热点、领域内研究趋势、高影响力科学家的寻找、文献回溯等十分有用。最为常见的引文分析工具就是web of science,Scopus和Google Scholar,然而这三种工具通常只对于计算期刊影响因子,某一文章的引用次数,某一作者的引用等统计比较有用。对于普通科研人员来说,特别是对于辅助了解课题内容来说就不是那么实用,一个优秀的引文分析方法可以从文献引用角度发现重要文献,探究科学知识流向。图是现实世界中探索和建模复杂***的通用数据结构,作为实体关系交互的重要媒介,也成为当前研究的热点之一。复杂网络通常由一组节点(顶点)之间有连接(边)的图来表示,引文网络就是一种复杂网络,在其结构中,每个节点表示一篇引文,两点之间若有边存在则表示两篇引文之间存在引用或被引用的关系,若无边存在,则表示两篇引文无引用或被引用的关系。社区发现是指在网络图中寻找具有相似特征的社区结构,以了解它们的拓扑结构和属性信息,从而应用于分类、预测等任务,服务于现实社会。社区发现具有重要的现实意义,现已在许多现实网络问题中得到了广泛的研究与应用。通过对引文网络的社区结构进行探索将有利于引文分析过程,对其发现重要文献、探究科学知识流向具有重大意义,因此,一个好的社区发现方法对引文分析领域的发展有很大的作用。
随着复杂网络的出现,网络中不仅拥有大量的节点数量,还包含了多样的节点特征,有着重要的属性信息。这对传统的社区发现方法提出了挑战,传统的方法基本都是对图的结构信息进行处理,而没有充分发掘属性信息中的内容,这些方法在没有节点特征的网络上取得了不错的成果,但面对如今大型网络(例如引文网络)的数据集时,如何同时保持网络结构信息和节点属性信息检测复杂网络中的社区结构,也成为一项新兴的研究任务。图神经网络是传统深度学习方法在图结构数据上的运用和创新,用来提取图中的特征表示,这一技术的出现弥补了传统方法的缺陷。自动编码器(AE)作为一种无监督学习的人工神经网络,在特征提取方面应用十分广泛,其在图像处理领域的成功使得研究者们尝试着将自动编码器用于社区发现。
最近的基于图自编码器的社区发现方法大多采用结构重构的方式,少数采用特征重构的编码器仍然采用普通架构,这种没有损坏的特征重建可能不可靠,设计出的模型不够健壮,因此现存的图自编码器在解决社区发现问题时还存在很大的进步空间。近些年来,社区发现领域中出现了一些重构结构和重构属性特征的图双重自编码器模型,这些算法有着不错的图表示学习能力和社区划分效果,使用图双重自编码器进行社区划分这一思想已经展现了它的潜力。
通过上述分析,现有技术存在的问题及缺陷为:
(1)不能同时考虑网络拓扑结构和节点属性特征,传统的社区发现方法主要包括统计推断方法和机器学习方法,这些方法都是基于网络的结构特征,只考虑节点间的连边关系划分社区,而忽略了节点本身的特征,导致社区划分缺乏语义性;还有其他经典方法,如K-Means,则仅仅使用节点属性来进行社区发现,这些方法则忽略了节点间的关系,即网络的结构特征。
(2)最近的基于图自编码器的社区发现方法大多都采用单一的重构结构或重构特征的方式,对图表示的学习不够充分。这些方法中大部分选用结构重构的方式,对结构信息太过看重;小部分采用特征重构的编码器仍采用普通架构,这种没有损坏的特征重建可能不可靠,设计出的模型存在健壮性不强的问题。
(3)图中大多数目标是信息量较少的特征向量,图自编码器中常用作解码器的多层感知机可能无法弥合编码器表示和解码器目标之间的差距,无法很好的得到图特征,这种不够优秀的图表示信息不利于后续的社区划分。
(4)现在具有特征重建的图自编码器进行重构损失计算时采用的均方误差(MSE)会受到存在不种特征向量范数和维数这一问题影响,存在导致模型不稳定的风险。
上述问题制约着社区发现方法的发展,进一步制约了引文分析技术的进步。
发明内容
本发明的目的是提供一种基于图双重自编码器的社区发现方法、***、设备及介质,提高了对引文网络中社区划分的准确性。
为实现上述目的,本发明提供了如下方案:
一种基于图双重自编码器的社区发现方法,包括:
将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;
将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;
采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
可选地,所述图双重自编码器包括第一编码器和第二编码器;
所述第一编码器用于根据每个节点与邻居节点的注意力系数以及邻居节点的节点特征,输出每个节点融合邻域信息后的特征,得到图结构表示信息;节点为引文网络中节点;
所述第二编码器用于采用随机抽样策略对引文网络中节点进行采样,得到采样集合,采用第一掩码令牌屏蔽采样集合中节点的特征,将采用第一掩码令牌屏蔽处理过后的节点和未采用第一掩码令牌屏蔽处理过后的节点进行图信息学习,得到图属性表示信息。
可选地,所述重构结构的图自动编码器采用图形注意力网络;所述重构特征的图自动编码器采用图神经网络。
可选地,所述基于图双重自编码器的社区发现方法还包括对所述图双重自编码器进行训练;对所述图双重自编码器进行训练采用的损失函数中损失包括结构重构损失、特征重构损失和聚类损失。
可选地,所述图双重自编码器还包括第一解码器和第二解码器,所述第一解码器为重构结构的图自动编码器的解码器,所述第二解码器为重构特征的图自动编码器的解码器;
所述第一解码器用于对图结构表示信息进行内积操作,得到重构的邻接矩阵;
所述第二解码器用于:
采用第二掩码令牌对第一掩码令牌屏蔽处理过的节点进行重掩码;
对于重掩码处理后的节点,基于重掩码处理后的节点的邻居节点,采用图神经网络为重掩码处理后的节点重建特征,得到重构的特征矩阵;
所述结构重构损失表示为:
其中,Aij表示所述引文网络初始的图的邻接矩阵中元素的值,N为所述引文网络中节点的数量,表示重构的邻接矩阵中元素的值;
所述特征重构损失表示为:
其中,xi表示所述引文网络中节点i的原始特征,zi为特征重构后节点i的特征,γ表示比例因子,表示采用随机抽样策略对引文网络中节点进行采样得到的节点集合,T表示转置。
可选地,所述损失函数表示为:
Loss=LX+LS+εLclu
其中,Loss表示所述损失函数的值,LX表示特征重构损失,LS表示结构重构损失,Lclu表示聚类损失,ε表示第一超参数。
可选地,融合后的图表示信息表示为:C=[(1-α)*Z+α*H];
其中,C表示融合后的图表示信息,α表示第二超参数,Z表示图结构表示信息,H表示图属性表示信息。。
本发明还公开了一种基于图双重自编码器的社区发现***,包括:
图信息表示模块,用于将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;
信息融合模块,用于将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;
聚类模块,用于采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
本发明还公开了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行所述的基于图双重自编码器的社区发现方法。
本发明还公开了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于图双重自编码器的社区发现方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明将图结构表示信息和图属性表示信息进行融合,基于融合后得到的图表示信息,进行社区划分,使得图属性信息和结构信息得到充分挖掘,从而提高了对引文网络中社区划分的效果,优化了对引文网络结构的探索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于图双重自编码器的社区发现方法流程示意图;
图2为本发明实施例提供的社区发现示意图;
图3是本发明实施例提供的采用特征重构的图自动编码器结构示意图;
图4是本发明实施例提供的MLP模型简图;
图5是本发明实施例提供的重构损失计算示意图;
图6是本发明实施例提供的图双重自编码器详细结构示意图;
图7是本发明实施例提供的K-Means算法过程示意图;
图8是本发明实施例提供的图双重自编码器损失示意图;
图9是本发明实施例提供的图结构示例图;
图10是本发明实施例提供的图结构中示例消息传递过程示意图;
图11是本发明实施例提供的图自动编码器简图;
图12为本发明实施例提供的一种基于图双重自编码器的社区发现***结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于图双重自编码器的社区发现方法、***、设备及介质,提高了对引文网络中社区划分的准确性。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图2所示,本发明实施例提供的社区发现示意图形象的解释了本发明如何探索对引文分析过程至关重要的内容主体-引文网络的结构,为使这一过程更加贴合图本身代表的信息,进一步使划分质量更高,摒弃传统社区发现方法单一利用图拓扑结构或节点属性信息来进行社区探索的方式,紧跟深度学习的浪潮,充分利用图自动编码器这一工具来研究社区发现方法。图2展示了一个图结构进行社区发现的过程,社区发现意在将带有相关信息的图节点进行聚类,图2中将节点以职业为标准进行了聚类分成了两个社区C1和C2,社区C1包括节点1、2、3和4,社区C2包括节点5、6和7;若此结构为引文网络,则可以将具有相关引用的文章聚合在同一个社区。
在近些年基于图自动编码器的社区发现方法中大部分采用重构结构的方式,还有一小部分采用重构节点特征的方式,如图3所示,本发明实施例提供的采用特征重构的图自动编码器普通架构示意图描述了传统编码器的运行机制,传统的重构特征的图自动编码器单纯依靠最小化输入与重构信号之间的误差来得到输入的隐含层特征表示,这种训练策略并不能保证提取到数据的本质特征,单纯依靠最小化重构误差可能会导致编码器学习到的特征仅仅是原始输入的复制,这使得图表示信息学习的并不理想;除此之外,这种没有损坏的特征重建可能导致架构不可靠,进一步使设计出的模型出现健壮性不强的问题。
在设计自动编码器时,解码器的选择一般取决于目标X的语义水平,目标X含有的语义信息越多(比如X是独热矩阵),解码器就可以选取比较简单的模型,如多层感知机(MLP);目标X含有的语义信息越少,就需要越复杂的解码器。近些年出现的重构特征的图自动编码器普遍选用简单的MLP作为解码器,如图4所示,本发明实施例提供的MLP模型简图生动的描述了多层感知机的结构形式,多层感知机在单层神经网络的基础上引入了一到多个隐藏层(hidden layer),隐藏层位于输入层和输出层之间。在图4中,解码器重构的是语义信息量相对较少的多维节点特征,多层感知机表现力较差,无法弥合编码器表示和解码器目标之间的差距,导致学习到的隐层表示H倾向于与输入特征X几乎一致,不利于后续的社区划分工作。
如图5所示,本发明实施例提供的重构损失计算示意图展示了简单的重构过程及损失计算主体。现在具有特征重建的图自动编码器进行重构损失计算时经常采用均方误差(MSE)。由于节点特征是多维且连续的,使用传统MSE作为特征重建好坏的标准并不合适。具体来说,实验发现MSE损失可以最小化到接近零,这不足以进行特征重建;此外,MSE存在敏感性(sensitivity)和低分离度(low selectivity)的问题。敏感性是指MSE对向量范数(vector norms)和维度敏感,某些特征维度的极端值也会导致MSE对它们过拟合。低分离度表示MSE的分离性不够,无法让模型的重心放在更难学习的样本上。
为解决这些社区发现方法中存在的问题,本发明设计了包含结构重构和有掩码策略的特征重构的图双重自编码器来进行社区发现,将图的拓扑信息和属性信息充分运用其中,并通过损坏节点特征后再进行重构改善模型隐层向量学习不精、模型稳定性不强等问题。除此之外,在对重构特征的图自动编码器进行设计时,充分考虑了上述多层感知机作为解码器表现力不够好、均方误差作为特征重建好坏的标准不合适等问题,进一步完善了模型。
实施例1
如图1所述,本实施例提供了一种基于图双重自编码器的社区发现方法,包括以下步骤。
步骤101:将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息。
给定的引文网络是根据待社区发现的数据集构建。
步骤101中图双重自编码器为训练后的图双重自编码器。本发明图双重自编码器的结构如图6所示。
给定引文网络的全局信息,设G=(V,A,X)表示给定引文网络的图,其中V是节点集,N=|V|是节点的数量,A∈{0,1}N×N是图的邻接矩阵,Aij为邻接矩阵中元素的值,X∈RN×d是图中节点的特征矩阵,其中xi表示第i个样本,N为样本数,d表示第一特征维度。
所述图双重自编码器包括第一编码器和第二编码器,所述第一编码器为重构结构的图自动编码器的编码器,所述第二编码器为重构特征的图自动编码器的编码器。所述第一编码器采用图形注意力网络(Graph Attention Network,GAT);所述第二编码器采用图神经网络(Graph Neural Network,GNN)。
所述第一编码器用于根据每个节点与邻居节点的注意力系数以及邻居节点的节点特征,输出每个节点融合邻域信息后的特征,得到图结构表示信息;节点为引文网络中节点。
第一编码器的具体工作流程包括:
对于任意一个节点i,Ni为节点i的图上邻居节点的集合,逐个计算节点i的邻居们(j∈Ni)和节点i之间的相关系数eij
eij=a([Wxi||Wxj]),j∈Ni
其中,xi为节点特征,节点i,节点j之间的相关性是通过可学习的参数W和映射函数a(·)完成的:首先一个共享参数W的线性映射对于节点的特征进行了增维,这是一种常见的特征增强(feature augment)方法;[·||·]对于节点i,节点j的变换后的特征进行了拼接(concatenate);最后a(·)把拼接后的高维特征映射到一个实数上。
对相关系数eij归一化处理以得到注意力系数αij
根据注意力系数αij,将特征加权求和(aggregate)得到每个顶点i的新特征(融合了邻域信息)。
其中,σ(·)是激活函数;将Z=[z′i]作为重构结构的图自动编码器最终得到的隐层表示,Z为GAT输出的对于所有节点的新特征,即图结构表示信息。
所述第二编码器用于采用随机抽样策略对引文网络中节点进行采样,得到采样集合,采用第一掩码令牌屏蔽采样集合中节点的特征,将采用第一掩码令牌屏蔽处理过后的节点和未采用第一掩码令牌屏蔽处理过后的节点进行图信息学习,得到图属性表示信息。
第二编码器的具体工作流程包括:
采用统一的随机抽样策略,对节点的集合采样,得到采样集合,再用第一掩码令牌(掩码标记[MASK])屏蔽采样集合中每个节点的特征,用如下公式表示:
其中,为节点采样得到的采样集合,x[M]∈Rd为可学习向量,xi为vi∈V的节点特征,/>为掩码标记处理后节点集V中节点i的节点特征。
在重构特征的图自动编码器中进行图信息学习(编码学习),重构特征的图自动编码器具体以图卷积网络(Graph Convolutional Networks,GCN)为例,编码学习过程包括:
其中,L表示GCN的层数量,H(1)、H(l-1)、H(l)分别为GCN的第1层、第l-1层和第l层学到的图信息表示,第一层GCN的输入是X′,X′由经掩码标记处理后得到的构成;φ(·)是全连接层的激活函数,如Relu或Sigmoid函数;/> 为度矩阵,I是每个节点自循环的相邻矩阵A的单位对角矩阵;W(1)、W(l-1)分别为GCN的第1层、第l-1层的权重矩阵。
采用softmax归一化处理上一步生成的H(L),得到编码器阶段的最终隐层表示。GCN模块的最后一层是具有softmax功能的多分类层,H∈RN×dh表示GCN编码器编码得到的隐层表示,是重构特征的图自动编码器的产物,dh表示第二特征维度,H描述为:
其中,H(L)为GCN的第L层学到的表示,W(L)为GCN的第L层的权重矩阵。
步骤102:将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息。
融合后的图表示信息表示为:C=[(1-α)*Z+α*H];
其中,C表示融合后的图表示信息,α表示第二超参数,Z表示图结构表示信息,H表示图属性表示信息。
步骤103:采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
聚类方法采用K-Means聚类方法。
如图7所示,本发明实施例提供的K-Means算法过程示意图形象的表现了K-Means算法的一次聚类过程,K-Means算法思想为:首先,随机选取K个对象作为初始的聚类中心,然后计算每个对象与每一个种子聚类中心的距离,然后分别把这些对象分配给距离对象最近的一个聚类中心,只要对象被分配以后,被分配的对象就和聚类中心组成一个新的聚类,分配后就不能改变了,然后在根据每个聚类的聚类中心和对象的距离进行重新计算,并且一直重复这样的计算,直到没有对象可以被重新分配给不同的聚类或聚类中心不再发生变化或误差平方和局部已经最小,这样循环计算就会停止。图7中(a)表示原来的种子分配,(b)至(f)中符号叉表示聚类中心的变化过程,K-Means算法的运行机制表示如下:
输入:类簇的个数K,迭代终止值Z
输出:聚类结果
1:For(t=1;t<=Z;t+=1){
2:给出数据对象Xi;//数据Xi数量多于K
3:计算聚类中心和对象的距离dist(Xi,Center);
4:将Xi划到距离Xi最近的类簇中心所在的类簇中;
5:For(直到Xi不能在分配){
6:将所有的类簇中心更新
7:}
8:输出聚类结果;
9:}
所述基于图双重自编码器的社区发现方法还包括对所述图双重自编码器进行训练;对所述图双重自编码器进行训练采用的损失函数中损失包括结构重构损失、特征重构损失和聚类损失,如图8所示。
所述图双重自编码器还包括第一解码器和第二解码器,所述第一解码器为重构结构的图自动编码器的解码器,所述第二解码器为重构特征的图自动编码器的解码器。
所述第一解码器用于对图结构表示信息进行内积操作,得到重构的邻接矩阵。
重构的邻接矩阵表示为:
其中,为重构的邻接矩阵,/>与对应位置的原邻接矩阵Aij一起计算结构重构损失。
所述第二解码器用于:采用第二掩码令牌对第一掩码令牌屏蔽处理过的节点进行重掩码;对于重掩码处理后的节点,基于重掩码处理后的节点的邻居节点,采用图神经网络为重掩码处理后的节点重建特征,得到重构的特征矩阵。
第二解码器的具体工作流程包括:使用另一掩码令牌[DMASK](第二掩码令牌)对第一掩码令牌屏蔽处理过的节点进行掩码,对重构特征的图自动编码器的输出H中与对第一掩码令牌屏蔽处理过的节点对应的节点特征向量进行置零处理,为第二解码器掩码后的向量,/>为/> 中的重掩码代码。
如图9和图10所示,本发明实施例提供的示例图和示例消息传递过程示意图生动展现了一个简单的图结构中节点监听来自于它邻居的信息,然后更新信息,并将其向前传递的过程,这个过程被称为消息传递。
使用第二解码器为屏蔽节点从相邻的未屏蔽潜在表示重建其输入特征,重建过程依据消息传播过程完成。第二解码器仅在自监督训练阶段用于执行节点特征重构任务,因此,第二解码器架构独立于编码器选择,可以使用任何类型的GNN。给定fE作为图编码器,fD作为图解码器,重构特征的图自动编码器整个学习过程表示为:
H=fE(A,X),G′=fD(A,H)。
其中G′表示重构的图,为第二解码器生成的产物。
本发明基于引文分析采用图双重自编码器进行社区发现的方法,在设计出图双重自编码器模型后,需要选取合理的目标函数对模型进行调优,并且通过设计这样一个目标函数,使社区划分质量提高,从而促进社区发现过程。
对于一个引文网络,可以根据文献的不同关联方式,例如:合著、共引和耦合等来进行社区划分,以合著为例,共同编撰一部著作的作者会被聚类到同一个社区。一方面,这一过程会提升科学数据的传播率和共享成效,通过社区划分可以发现与某一研究方向相关的更多文献,这种数据推荐作用有利于获取某一研究方向更全面的知识;另一方面,通过社区划分,可以从同一社区中的科学数据中更便利的了解这类科学知识的流向,有利于对某一研究的发展和演进状态进行探索。
图双重自编码器的损失函数由重构损失和聚类损失组成。而重构损失则由特征重构损失和结构重构损失组成,图双重自编码器训练的目的是为了最小化输入和输出之间的重构误差,图双重自编码器最终学习到的向量的好坏决定了模型的效果。
本发明为增强模型鲁棒性,用余弦误差(SCE)替代均方误差(MSE)计算特征重构后的重构损失。
使用余弦误差作为重建原始节点特征的标准,能够摆脱维度和向量范数的影响,余弦误差中的l2范数能将向量映射到单位超球面,可以大大改善表示学习的训练稳定性。
所述特征重构损失表示为:
其中,xi表示所述引文网络中节点i的原始特征,zi为特征重构后节点i的特征,γ表示比例因子,表示采用随机抽样策略对引文网络中节点进行采样得到的节点集合,T表示转置。
使用经典的交叉熵函数进行结构重构后损失的计算。交叉熵能够衡量同一个随机变量中的两个不同概率分布的差异程度,在机器学习中就表示为真实概率分布与预测概率分布之间的差异,交叉熵的值越小,模型预测效果就越好。
所述结构重构损失表示为:
其中,Aij表示所述引文网络初始的图的邻接矩阵中元素的值,N为所述引文网络中节点的数量,表示重构的邻接矩阵中元素的值。
模型在进行特征重构和结构重构的过程中,会生成相应的图表示信息,在进行特征重构时,人们希望提取到的特征更能反映原始输入的特点,因而获得一个属性信息被更好学习到的图表示,即重构特征的图自动编码器输出的向量H;而在进行结构重构时,人们希望提取到的结构信息更能反映原始输入时的结构特点,因而获得一个结构信息被更好学习到的图表示,即重构结构的图自动编码器输出的向量Z。
基于步骤103得到的聚类结果,计算聚类结果分布Q和目标分布P之间的KL散度损失,KL散度越小,表示P与Q的分布更加接近,可以通过反复训练Q来使Q的分布逼近P。聚类损失表示为:
其中,qij表示聚类结果分布Q中元素,pij表示目标分布P中元素。
qij可以看作是将节点i分配给聚类j的概率;fj为第i行qij之和;hi是H的第i行;μj由训练前自动编码器学习的表示上的K-Means初始化类别;t是学生t分布的自由度。
所述损失函数表示为:
Loss=LX+LS+εLclu
其中,Loss表示所述损失函数的值,LX表示特征重构损失,LS表示结构重构损失,Lclu表示聚类损失,ε表示第一超参数,ε>0,ε是平衡原始数据的聚类优化和局部结构保存的超参数。
如图11所示,本发明实施例提供的图自动编码器模型简图简单描述了自编码器的结构,自编码器是一个无监督的应用,它使用反向传播来更新参数,它最终的目标是使输出的x′无限接近输入x。在这个过程中,自编码器会先将输入数据压缩到一个较低维度的特征,然后利用这个较低维度的特征重现输入的数据,重现后的数据就是自编码器的输出。从本质上来说,自编码器就是一个压缩算法。一个自编码器由3个部分组成:编码器(Encoder):用于数据压缩;压缩特征向量(Compressed Feature Vector):被编码器压缩后的特征;解码器(Decoder):用于数据解码。图11中,Wenc表示编码器的权重矩阵,Wdec表示解码器的权重矩阵。
本发明将损失函数作为目标函数,利用目标函数对图双重自编码器调优。
通过最小化目标函数,采用随机梯度下降(SGD)反向传播帮助图双重自编码器模型学习到获得更好聚类效果的参数,提高训练效率。
同时,对两个图自动编码器生成的侧重点不同的图表示信息加权求和再生成新的图表示然后进行聚类将使社区划分结果更加准确、优质,有利于探索出更精准的引文网络结构,促进引文分析过程。
为体现本发明的进步性,本发明在一个真实世界的数据集Citeseer上进行了实验,Citeseer数据集包含了3312篇论文和4732篇论文之间的引文链接,所有的论文都属于6个不同的学术研究领域,每篇论文都用一个由3703维单词向量表示的关键词表示;超参数α、ε分别取值0.5和0.001;并选取了社区发现领域中三种常用的度量标准,即精度(ACC)、归一化互信息(NMI)和调整兰德系数(ARI),进行模型性能的评估。在此基础上对比了其他社区发现方法,详细如下:
K-Means(Krishna&Murty,1999):它初始化K个不同的聚类,使用均值计算方法计算每个聚类的中心,然后迭代地更新聚类中心,直到准则函数收敛。
TADW(Yang等人,2015):它通过矩阵分解将节点文本信息集成到网络表示学习中,从而结合了丰富的拓扑结构和语义信息。
GAE&VGAE(Kipf&Welling,2016):他们使用由图卷积网络构造的图自动编码器将拓扑和属性信息值集成到学习到的表示中。
GraphEncoder(Salehi&Davulcu,2020):它通过堆叠式自动编码器学习原始网络的非线性表示,并通过K-Means方法实现聚类结果。
实验结果的细节如表1所示,其中最佳值以粗体表示。A、X和A&X分别表示该方法是否只利用网络拓扑、属性信息,或是否同时利用网络拓扑和属性信息。
表1本发明图双重自编码器和其他社区发现算法在社区检测任务中的表现
通过对数据进行对比可以发现本发明的模型在数据集Citeseer上优于上述其他方法。具体而言,对比其他同时利用网络拓扑和属性信息的社区发现算法,我们的模型在此数据集上的精度(Accuracy,ACC)、归一化互信息(Normalized Mutual Info,NMI)和调整兰德系数(Adjusted Rand Index,ARI)评估指标分别平均提高了20.4%、27.1%和21.4%;对比只利用属性信息的传统聚类算法K-Means,本发明的模型在此数据集上的ACC、NMI和ARI评估指标分别提高了9.4%、17.8%和10.5%;对比2020年的只利用网络拓扑的GraphEncoder算法,本发明的模型在此数据集上的ACC、NMI和ARI评估指标分别提高了34.5%、43.3%和34.7%,这验证了本发明的有效性。
本发明通过优化社区划分算法促进引文分析,在现实中对研究者发现重要文献、探究科学知识流向有帮助作用。本发明描述的一种基于图双重自编码器的社区发现方法可以嵌入于文献查找或文献阅读软件,通过一篇正在查找或阅读的文献关联到与其有引用关系的其他文献,有助于研究者们发现重要文献和探究领域知识流向(可以类比查找或观看某电影时网页推荐出与此电影有关联的其他电影)。网包括节点和边,引文网络是以文献为节点、引文链接为边的图数据,Citeseer数据集是引文网络,但引文网络不止有Citeseer这一个数据集,该实施例是为说明本发明的技术效果而进行的一个举例,通过衡量指标的反馈达到对引文网络进行社区发现的优化的验证。
本发明基于引文分析,设计了一个社区划分质量较高的图双重自编码器社区发现算法,为对图自动编码器发展产生负面影响的问题提出了可行的解决方案,弥补了属性信息未被充分发掘的缺陷,增强了自编码器的健壮性,从而提升了社区划分效果,优化了对引文网络结构的探索;同时,引入掩码思想到社区发现领域将会对未来社区发现方法研究提供一种新方案,进一步促进了引文分析技术领域的发展。
本发明一种基于图双重自编码器的社区发现方法,对图自动编码器发展产生负面影响的问题提出了可行的解决方案:1、图中大多数目标是信息量较少的特征向量,GAE中常用作解码器的多层感知机(MLP)可能无法弥合编码器表示和解码器目标之间的差距,无法很好的得到图特征。对于此问题,本发明提出采用更具表现力的图神经网络(GNN)作为解码器,改进之后图自动编码器得到了更好的隐层表示,有利于提升后续社区划分的效果。2、现在具有特征重建的图自动编码器进行重构损失计算时采用的均方误差(MSE)会受到存在不种特征向量范数和维数这一问题影响,存在导致模型不稳定的风险。对于此问题,本发明提出采用余弦误差(SCE)来进行特征重构损失的计算,改进之后模型的健壮性得到增强。
本发明的技术方案解决了传统社区发现方法无法同时考虑网络拓扑结构和节点属性特征的问题,本发明通过设计一个重构结构和重构特征的图双重自编码器模型,同时利用了图的结构信息和属性信息。本发明的技术方案还解决了最近的基于图自动编码器的社区发现方法由于采用单一的重构结构或重构特征的方式而存在的对图表示的学习不够充分的问题,本发明通过重构结构得到一个结构信息被更好学习到的隐层表示,通过重构特征得到一个属性信息被更好学习到的隐层表示,对这两个隐层表示加权求和,再通过最小化模型的目标函数监督学习,可以得到最优的图表示信息。另外,这些重构特征的图自动编码器采用的都是普通架构,这是一种没有损坏的特征重建,实验发现,这种架构可能不可靠,设计出的模型存在健壮性不强的问题。为解决这个问题,受计算机视觉和自然语言处理领域中广泛采用的破坏输入再重建输入的去噪自动编码器思想的启发,本发明采用先破坏部分节点的原始特征再进行特征重构的重建方式,这种方法增强了图自编码器的鲁棒性。
本发明的技术方案填补了国内外业内技术空白:本发明参考计算机视觉和自然语言处理领域中出现的先破坏输入再重建输入的去噪自动编码器思想后设计了一种有损坏的特征重构方式。与传统编码器相比,采用这种特征重构方式的图自动编码器的隐层表示并不是由原始输入直接映射得到,而是由原始输入的“腐坏”版本得到。该编码器按照一定比例将原始输入中的节点随机置零,对剩余节点不作处理,便得到了原始输入的“腐坏”版本。相当于向原始输入中引入一定比例的“空白”元素,减少了原始输入包含的信息;再通过对和进行学习,尝试着去填补丢失的信息,进而学习到数据结构,使得提取到的特征更能反映原始输入的特点。通过向输入中注入噪声,然后利用含噪声的“腐坏”的样本去重构不含噪声的“干净”输入,有助于形成输入的更高层特征表达。传统自动编码器单纯依靠最小化输入与重构信号之间的误差来得到输入的隐含层特征表示,这种训练策略并不能保证提取到数据的本质特征,单纯依靠最小化重构误差可能会导致编码器学习到的特征仅仅是原始输入的复制,而有损坏的特征重构可以避免上述问题。本发明首次将这种掩码去噪思想用于社区发现方法,填补了国内外业内技术空白,这是对社区发现方法的一次充满创新的探索,进一步利于对引文网络结构的探索,将促进引文分析技术领域发展。
实施例2
如图12所示,一种基于图双重自编码器的社区发现***,包括如下结构。
图信息表示模块201,用于将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息。
信息融合模块202,用于将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息。
聚类模块203,用于采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
实施例3
本发明实施例提供一种电子设备包括存储器及处理器,该存储器用于存储计算机程序,该处理器运行计算机程序以使电子设备执行实施例1的基于图双重自编码器的社区发现方法。
可选地,上述电子设备可以是服务器。
另外,本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例1的基于图双重自编码器的社区发现方法。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于图双重自编码器的社区发现方法,其特征在于,包括:
将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;
将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;
采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
2.根据权利要求1所述的基于图双重自编码器的社区发现方法,其特征在于,所述图双重自编码器包括第一编码器和第二编码器;
所述第一编码器用于根据每个节点与邻居节点的注意力系数以及邻居节点的节点特征,输出每个节点融合邻域信息后的特征,得到图结构表示信息;节点为引文网络中节点;
所述第二编码器用于采用随机抽样策略对引文网络中节点进行采样,得到采样集合,采用第一掩码令牌屏蔽采样集合中节点的特征,将采用第一掩码令牌屏蔽处理过后的节点和未采用第一掩码令牌屏蔽处理过后的节点进行图信息学习,得到图属性表示信息。
3.根据权利要求2所述的基于图双重自编码器的社区发现方法,其特征在于,所述重构结构的图自动编码器采用图形注意力网络;所述重构特征的图自动编码器采用图神经网络。
4.根据权利要求2所述的基于图双重自编码器的社区发现方法,其特征在于,所述基于图双重自编码器的社区发现方法还包括对所述图双重自编码器进行训练;对所述图双重自编码器进行训练采用的损失函数中损失包括结构重构损失、特征重构损失和聚类损失。
5.根据权利要求4所述的基于图双重自编码器的社区发现方法,其特征在于,所述图双重自编码器还包括第一解码器和第二解码器,所述第一解码器为重构结构的图自动编码器的解码器,所述第二解码器为重构特征的图自动编码器的解码器;
所述第一解码器用于对图结构表示信息进行内积操作,得到重构的邻接矩阵;
所述第二解码器用于:
采用第二掩码令牌对第一掩码令牌屏蔽处理过的节点进行重掩码;
对于重掩码处理后的节点,基于重掩码处理后的节点的邻居节点,采用图神经网络为重掩码处理后的节点重建特征,得到重构的特征矩阵;
所述结构重构损失表示为:
其中,Aij表示所述引文网络初始的图的邻接矩阵中元素的值,N为所述引文网络中节点的数量,表示重构的邻接矩阵中元素的值;
所述特征重构损失表示为:
其中,xi表示所述引文网络中节点i的原始特征,zi为特征重构后节点i的特征,γ表示比例因子,表示采用随机抽样策略对引文网络中节点进行采样得到的节点集合,T表示转置。
6.根据权利要求5所述的基于图双重自编码器的社区发现方法,其特征在于,所述损失函数表示为:
Loss=LX+LS+εLclu
其中,Loss表示所述损失函数的值,LX表示特征重构损失,LS表示结构重构损失,Lclu表示聚类损失,ε表示第一超参数。
7.根据权利要求1所述的基于图双重自编码器的社区发现方法,其特征在于,融合后的图表示信息表示为:C=[(1-α)*Z+α*H];
其中,C表示融合后的图表示信息,α表示第二超参数,Z表示图结构表示信息,H表示图属性表示信息。
8.一种基于图双重自编码器的社区发现***,其特征在于,包括:
图信息表示模块,用于将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;
信息融合模块,用于将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;
聚类模块,用于采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至7中任一项所述的基于图双重自编码器的社区发现方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于图双重自编码器的社区发现方法。
CN202310498705.XA 2023-05-06 2023-05-06 基于图双重自编码器的社区发现方法、***、设备及介质 Pending CN116595479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310498705.XA CN116595479A (zh) 2023-05-06 2023-05-06 基于图双重自编码器的社区发现方法、***、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310498705.XA CN116595479A (zh) 2023-05-06 2023-05-06 基于图双重自编码器的社区发现方法、***、设备及介质

Publications (1)

Publication Number Publication Date
CN116595479A true CN116595479A (zh) 2023-08-15

Family

ID=87600014

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310498705.XA Pending CN116595479A (zh) 2023-05-06 2023-05-06 基于图双重自编码器的社区发现方法、***、设备及介质

Country Status (1)

Country Link
CN (1) CN116595479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113240A (zh) * 2023-10-23 2023-11-24 华南理工大学 动态网络社区发现方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113240A (zh) * 2023-10-23 2023-11-24 华南理工大学 动态网络社区发现方法、装置、设备及存储介质
CN117113240B (zh) * 2023-10-23 2024-03-26 华南理工大学 动态网络社区发现方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和***
CN112417219B (zh) 基于超图卷积的超边链接预测方法
JP7247258B2 (ja) コンピュータシステム、方法及びプログラム
Reddy et al. A deep neural networks based model for uninterrupted marine environment monitoring
CN108108854B (zh) 城市路网链路预测方法、***及存储介质
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN109389151B (zh) 一种基于半监督嵌入表示模型的知识图谱处理方法和装置
CN114048331A (zh) 一种基于改进型kgat模型的知识图谱推荐方法及***
CN112464004A (zh) 一种多视角深度生成图像聚类方法
Ning et al. Conditional generative adversarial networks based on the principle of homologycontinuity for face aging
CN116595479A (zh) 基于图双重自编码器的社区发现方法、***、设备及介质
CN114743037A (zh) 一种基于多尺度结构学习的深度医学图像聚类方法
Du et al. Image recommendation algorithm combined with deep neural network designed for social networks
CN117349494A (zh) 空间图卷积神经网络的图分类方法、***、介质及设备
Fang et al. Hyperspherical variational co-embedding for attributed networks
CN117408336A (zh) 一种结构与属性注意力机制的实体对齐方法
CN116821519A (zh) 一种基于图结构的***过滤和降噪的智能推荐方法
CN116861923A (zh) 多视图无监督图对比学习模型构建方法、***、计算机、存储介质及应用
Zhuang et al. Synthesis and generation for 3D architecture volume with generative modeling
CN116304367A (zh) 基于图自编码器自监督训练用于获得社区的算法及装置
CN112861882B (zh) 一种基于频率自适应的图像-文本匹配方法及***
CN114637846A (zh) 视频数据处理方法、装置、计算机设备和存储介质
CN114492458A (zh) 一种基于多头注意力和词共现的方面级情感分析方法
CN114861863A (zh) 基于元路径多级图注意力网络的异质图表示学习方法
Jian et al. An improved memory networks based product model classification method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination