CN111950594B - 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 - Google Patents

基于子图采样的大规模属性图上的无监督图表示学习方法和装置 Download PDF

Info

Publication number
CN111950594B
CN111950594B CN202010673816.6A CN202010673816A CN111950594B CN 111950594 B CN111950594 B CN 111950594B CN 202010673816 A CN202010673816 A CN 202010673816A CN 111950594 B CN111950594 B CN 111950594B
Authority
CN
China
Prior art keywords
graph
attribute
sub
node
commodity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010673816.6A
Other languages
English (en)
Other versions
CN111950594A (zh
Inventor
王佳麟
高军
白金泽
李朝
张吉
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202010673816.6A priority Critical patent/CN111950594B/zh
Publication of CN111950594A publication Critical patent/CN111950594A/zh
Application granted granted Critical
Publication of CN111950594B publication Critical patent/CN111950594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置。该方法包括:根据属性图的结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器。本发明支持用户利用此方法以无监督的方式学习大规模属性图中的节点的低维向量表示,这些向量表示会尽可能保留图上的拓扑结构信息和节点属性信息,这些向量作为输入应用于不同的下游任务来对图进行数据挖掘任务。

Description

基于子图采样的大规模属性图上的无监督图表示学习方法和装置
技术领域
本发明属于信息技术领域,具体涉及一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置。
背景技术
近年来,随着互联网的飞速发展,数据规模***式增长,数据之间的联系也越来越复杂紧密。图以点和边的形式来描述事物及事物间的关系,是一种能够直观描述客观世界的数据结构,广泛存在于生产生活中,如社交网络,交通路网,电子商务。而这些图中的节点通常带有丰富的属性信息,如论文引用网络中,节点代表论文,边代表引用关系,而节点上的属性信息是论文摘要或者全文的内容。如何在海量的属性图的数据中高效地挖掘出有效的信息是一种迫切的需要。
图表示学习是一种挖掘图中信息的方法,由于有监督任务中,对海量数据进行人工打标记代价巨大,本专利关注无监督的图表示学习问题。属性图上的无监督的图表示学习方法是利用神经网络模型来学习生成图中节点的低维向量表示,这些向量表示要尽可能保持图上原有的结构信息和节点的属性信息,它们(节点向量)可以被用于多种下游任务(如节点分类,节点聚类)来挖掘图上的信息。
现有的方法从模型角度可以分为两大类:基于随机游走的算法,基于图神经网络的算法。基于随机游走的算法在原图中通过随机游走生成多条路径,然后通过神经网络学习,使得在多条路径中一起出现概率大的节点对的节点有着更类似的向量表示。基于图神经网络的算法利用图自编码器来学习节点的向量表示,它在编码器中利用图卷积神经网络(或者其它图神经网络)来编码图的结构信息和节点属性信息,然后在解码器中重构图上的边。以上两种算法是通过不同的方法使得网络学习过程中考虑图上的各种维度的信息来学习节点的低维向量表示,都是无监督的图表示学习方法。
从算法可扩展性的角度,现有研究中适用于大规模图(十万级别的点,百万级别的边的规模以上)的算法通常是基于随机游走的方法,它们只利用图中的结构信息。而基于图神经网络的算法能够同时利用图中的结构信息和节点属性信息的算法,但是只适用于小图上(上千个节点,上万条边的规模),可扩展性受限。
从信息利用的角度,现有的算法,即上述两类算法,在损失函数中都只关注图中的局部结构信息,重构边或者局部紧邻的邻居节点,缺乏对节点属性信息和图上高阶结构信息(如社区)的利用。
发明内容
为了提高算法的可扩展性,并且在算法训练过程中对属性图中的各种维度的信息进行充分利用,本专利提出了一种基于子图采样的大规模属性图上的无监督图表示学习方法和装置,支持用户利用此方法以无监督的方式学习大规模属性图中的节点的低维向量表示,这些向量表示会尽可能保留图上的拓扑结构信息和节点属性信息,这些向量作为输入应用于不同的下游任务来对图进行数据挖掘任务。
本发明采用的技术方案如下:
一种基于子图采样的大规模属性图上的无监督图表示学习方法,包括以下步骤:
根据属性图的结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;
利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。
进一步地,所述子图采样包括:
计算节点影响矩阵
Figure BDA0002583327220000021
其维度大小为[N,N],N为图中的节点数量;
通过结合
Figure BDA0002583327220000022
的有偏斜的随机游走来采样子图。
进一步地,所述计算节点影响矩阵
Figure BDA0002583327220000023
包括:
利用线性图卷积变换计算节点表示向量矩阵X′;其中,线性图卷积变换输入的是图的邻接矩阵A和节点属性向量矩阵X,输出的是新的节点表示向量矩阵X′,计算公式为X′=SKX,其中
Figure BDA0002583327220000024
其中
Figure BDA0002583327220000025
I是和A大小相同的单位矩阵;
Figure BDA0002583327220000026
Figure BDA0002583327220000027
的度数矩阵,K代表节点的感受域覆盖的K阶邻居范围;
根据根据节点表示向量矩阵X′中向量的相似性构造节点影响矩阵
Figure BDA0002583327220000028
进一步地,所述通过结合
Figure BDA0002583327220000029
的有偏斜的随机游走来采样子图,包括:
对于每次子图采样过程,首先根据图的拓扑结构随机采样种子节点,然后从每个种子节点出发,随机游走一条长度为T的路径;游走过程中对于所有邻居是根据
Figure BDA00025833272200000210
来采样;
在全图中,把包含随机游走路径的节点作为子图的节点从而抽出一张子图。
进一步地,所述图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器,其中图结构损失重构解码器用于重构子图上的边,图内容损失重构解码器用于重构子图的节点属性向量,图社区损失重构解码器用于重构子图的社区信息。
进一步地:所述图结构损失重构解码器,通过重构子图邻接矩阵的方式来计算损失函数,即衡量重构邻接矩阵
Figure BDA0002583327220000031
和真实子图邻接矩阵At的差别来定义损失函数;
所述图内容损失重构解码器,通过同编码器中完全对称的网络结构来重构子图节点属性向量矩阵
Figure BDA0002583327220000032
然后通过计算
Figure BDA0002583327220000033
和真实的Xt的差别来定义损失函数。
所述图社区损失重构解码器,通过最大化子图中的节点向量表示和子图全图向量表示的互信息来计算损失函数,包括:首先根据子图中所有的节点向量来计算社区向量表示:
Figure BDA0002583327220000034
Figure BDA0002583327220000035
其中Nt代表子图中节点的个数,
Figure BDA0002583327220000036
代表第i个节点的隐层向量表示;然后通过利用腐蚀函数打乱子图中的向量表示Xt,并据此计算腐蚀掉的节点向量表示
Figure BDA0002583327220000037
然后在损失函数中迫使semb与Zt更相似,与
Figure BDA0002583327220000038
更不相似,通过计算semb同Zt以及
Figure BDA0002583327220000039
的相似程度的不同来最大化互信息。
进一步地,在训练阶段,先采样多张子图,然后在每张子图上,根据三种解码器中的损失函数计算神经网络的损失,然后通过反向传播梯度下降训练神经网络后,得到训练好的神经网络的参数;在推测阶段,输入全图的邻接矩阵和节点向量矩阵,然后通过训练好参数的图自编码器中的编码器来进行节点隐层向量矩阵的计算,得到图表示学习中的节点的低维向量表示。
进一步地,所述属性图为下列中的一种:
属性图采用论文引用数据集,图中节点是论文,边是论文引用关系;
属性图采用图片数据集,图中节点是图片,当且仅当两张图片有着相似属性时会连边;
属性图采用社区帖子数据集,图中节点是海报的内容,两个节点连边当且仅当两个帖子会被同一个用户评论;
属性图采用电子商务数据集,图中节点是网页上的商品,如果两个商品被同一个用户购买则进行连边。
一种基于子图采样的大规模属性图上的无监督图表示学习装置,其包括:
子图采样模块,用于根据属性图的拓扑结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;
图自编码器模块,用于利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。
本发明的有益效果如下:
本发明的基于子图采样的大规模属性图上的无监督图表示学习方法是在无监督设置下,考虑算法可扩展性,图中不同维度信息的利用的情况下实现了图中节点向量的生成。该方法的优点是:1)本方法利用子图采样的形式提高算法的可扩展性,现有方法大多通过层级邻居采样来提升算法可扩展性,子图采样策略与之相比更加灵活且高效,同时现有的基于子图采样的方法在子图采样设计时值考虑了图的结构信息,本发明的子图采样策略综合考虑图结构信息和节点属性信息,更加合理有效。2)现有的利用图自编码器的算法在解码器中只关注图结构(边)的重构,本发明的方法在解码器综合考虑图结构信息,节点内容信息,图中高阶结构(社区)的信息使得学习的节点向量表示更加有效。
附图说明
图1是本发明方法的整体框架和流程示意图。其中,A表示图的邻接矩阵,X表示节点属性向量矩阵,At表示子图的邻接矩阵,Xt表示子图的节点属性向量矩阵,
Figure BDA0002583327220000041
表示自编码器重构的子图邻接矩阵,
Figure BDA0002583327220000042
表示自编码器重构的节点属性向量矩阵,
Figure BDA0002583327220000043
代表被腐蚀函数腐蚀过的子图邻接矩阵,
Figure BDA0002583327220000044
表示被腐蚀函数腐蚀过的节点属性向量矩阵。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本专利是在无监督的设置下利用图神经网络来学习属性图中的节点的低维向量表示。为了提升算法的可扩展性,对于大图,本专利利用子图采样的方法来减小训练数据规模,该子图采样方法综合考虑了图的结构信息和节点属性信息,使得采样的子图更加合理。为了网络在学习过程中综合利用图的结构信息,节点属性信息,以及图上的社区信息,在图自编码器的解码器中设计了与以上三种信息相关的损失函数。其中社区信息是指节点和其所属社区(结构上紧密相连,节点属性信息方面上高度相似的一组点)在节点表示上的相似性。
本发明方法的整体框架如图1所示。给定属性图G={V,E,X},其中V代表图中的节点集,E代表图中的边集,X代表图中的节点属性向量矩阵,A代表G的邻接矩阵。首先利用子图采样方法(称为SAMP)对G进行子图采样生成多张子图,然后在每个子图上进行图自编码器的学习,图自编码器的编码器利用的是图卷积神经网络(这里的图卷积神经网络指的是GCN Layer),图自编码器的解码器包含三个模块,图结构损失重构解码器(这里用的是Product Layer),图内容损失重构解码器,图社区损失重构解码器。其中图结构损失重构解码器是重构子图上的边(这里的loss是L1),图内容损失重构解码器是重构子图的节点属性向量(这里的loss是L2),图社区损失重构解码器是重构子图的社区信息(这里的loss是L3)。
下面给出子图采样,图自编码器两块的详细构造以及具体实施方式。
1.子图采样:
对于给定的图G,本发明的采样方法SAMP可以使得图上在结构和内容角度联系紧密的节点对被采样到同一张子图的概率更大,并且保证子图不会过于稀疏。
具体来说,子图采样包括以下步骤:
1)计算节点影响矩阵
Figure BDA0002583327220000051
节点影响矩阵
Figure BDA0002583327220000052
的维度大小为[N,N],N为图中的节点数量,这个矩阵衡量了不同节点之间的相关性。
为了计算
Figure BDA0002583327220000053
首先利用线性图卷积变换计算节点表示向量矩阵X′,然后根据节点表示向量的相似性构造节点影响矩阵
Figure BDA0002583327220000054
这里的线性图卷积变换输入的是图的邻接矩阵A,和节点属性向量矩阵X,输出的是新的节点表示向量矩阵X′,计算公式为X′=SKX,其中
Figure BDA0002583327220000055
其中
Figure BDA0002583327220000056
I是和A大小相同的单位矩阵,
Figure BDA0002583327220000057
Figure BDA0002583327220000058
的度数矩阵。这样X′就结合了图的结构信息和节点内容信息(即节点属性信息)。这里的K代表的是节点的感受域覆盖的K阶邻居范围,通常被设置为2,即代表节点通过计算过程可以感受到的2阶邻居的信息。
给定节点表示向量矩阵X′,可以计算节点影响矩阵
Figure BDA0002583327220000059
计算公式为
Figure BDA00025833272200000510
Figure BDA00025833272200000511
其中(X′)T是X′的转置,cos代表cosine,通过cosine函数计算向量相似度,同时利用softmax函数对节点所有邻居相似度做归一化。
2)通过结合
Figure BDA00025833272200000512
的有偏斜的随机游走来采样子图
在得到
Figure BDA00025833272200000513
后,通过结合
Figure BDA00025833272200000514
的有偏斜的随机游走来采样子图。对于每次子图采样过程,首先根据图的拓扑结构(如节点度数,Pagerank值)来随机采样种子节点,然后从每个种子节点出发,随机游走一条长度为T的路径,游走过程中,对于所有邻居,是根据
Figure BDA00025833272200000515
来采样,这样相关性高的节点就有更高的概率出现在一条随机游走路径中。然后在全图中,把包含这些随机游走路径的节点作为子图的节点抽出一张子图。
2.图自编码器:
在得到多张子图后,每个子图上训练图自编码器这一神经网络,图自编码器分为编码器和解码器两个模块,解码器又细分为图结构损失重构解码器,图内容损失重构解码器,图社区损失重构解码器三部分。下面分别给出其具体实现形式:
假设子图是Gt={At,Xt},其中At是子图的邻接矩阵,Xt是子图的节点属性向量矩阵。
本专利中的图编码器,利用图神经网络,编码图的结构信息和节点内容信息,可以利用很多种形式的图神经网络如图卷积神经网络,图注意力机制神经网络。这里给出图卷积神经网络
Figure BDA0002583327220000061
其中l代表网络的第l层,
Figure BDA0002583327220000062
代表网络中第l层的节点向量表示,St同S在A中的定义相同,W{l}是第l层中的可训练的参数,σ为网络中的激活函数,通常被设置为RELU。这样经过L层网络后,得到网络中的隐层节点向量表示
Figure BDA0002583327220000063
本专利中的图结构损失重构解码器,是通过重构子图邻接矩阵的方式来计算损失函数,即衡量重构邻接矩阵
Figure BDA0002583327220000064
和真实子图邻接矩阵At的差别来定义损失函数。
本专利中的图内容损失重构解码器,是通过重构子图节点属性向量矩阵的方式来计算损失函数,它通过同编码器中完全对称的网络结构来重构子图节点属性向量矩阵
Figure BDA0002583327220000065
然后通过计算
Figure BDA0002583327220000066
和真实的Xt的差别来定义损失函数。
本专利中的图社区损失重构解码器,是通过最大化子图中的节点向量表示和子图全图(社区)向量表示的互信息来计算损失函数。首先根据一种聚合计算的方式,根据子图中所有的节点向量来计算社区向量表示:
Figure BDA0002583327220000067
其中Nt代表子图中节点的个数,而
Figure BDA0002583327220000068
代表第i个节点的隐层向量表示。然后通过利用腐蚀函数打乱子图,得到腐蚀后的子图邻接矩阵矩阵
Figure BDA0002583327220000069
以及腐蚀后的节点向量表示
Figure BDA00025833272200000610
并据此计算腐蚀掉的节点向量表示
Figure BDA00025833272200000611
然后在损失函数中迫使semb与Zt更相似,与
Figure BDA00025833272200000612
更不相似,通过计算semb同Zt以及
Figure BDA00025833272200000613
的相似程度的不同来最大化互信息。
在训练阶段,先采样多张子图,然后每张子图上,根据上述三种解码器中的损失函数计算神经网络的损失,然后通过反向传播梯度下降训练神经网络后,得到训练好的神经网络的参数。在推测阶段,输入全图的邻接矩阵和节点向量矩阵,然后通过训练好参数的图自编码器中的编码器来进行节点隐层向量矩阵的计算,得到最后的图表示学习中的节点的低维向量表示,这些低维向量表示可以方便地用于下游不同的图数据挖掘任务,比如节点分类,节点聚类等。
为了测试方法的有效性,在六个公开的属性图数据集上进行了实验,其中Cora,Citeseer和Pubmed是论文引用数据集,它们的图中节点是论文,边是论文引用关系,Cora数据集中有2708个点,5429条边,Citeseer有3327个点,4732条边,Pumbed有19717个点,44338条边。Flickr是图片数据集,节点是图片,当且仅当两张图片有着相似属性时会连边,它有89250个点,899756条边。Reddit是社区帖子数据集,节点是海报的内容,两个节点连边当且仅当两个帖子会被同一个用户评论,Reddit有232965个点,11606919条边。Amazon数据集是电子商务数据集,节点是Amazon网页上的商品,如果两个商品被同一个用户购买则会进行连边,它有1008606个点,116196671条边。
在以上六个数据集上,利用生成的节点向量表示接入节点分类任务,节点分类任务利用简单的logistic回归分析来根据节点向量对输入的节点进行分类,评价指标用分类精确度和F1分数(F1 Score)来评判。实验结果表明,本专利的方法在无监督的图表示学***均高出5个百分点。同时还在Cora和Citeseer数据集上,利用生成的节点向量下游接入节点聚类任务,利用生成的节点向量后面接入K-means算法进行聚类,评测指标用归一化互信息(NMI),社区分类精确度等来评测聚类结果,实验发现,本发明的方法比已有的先进的图表示学***均高出7个百分点。
随着信息时代的来临,互联网上数据规模海量增长,数据之间的关系越来越复杂,这时利用属性图这一数据结构就能够更好的描述和表达数据的特征和它们之间的关系。同时,在不同的属性图中的数据挖掘任务中,对海量数据进行人工打标记的代价巨大,所以无监督设置下的属性图中的图表示学习任务显得尤为重要。本专利结合近年来被广泛研究和使用的深度学习技术图神经网络来进行图表示学习任务,通过子图采样的策略提高算法的可扩展性,通过对图结构信息,图中节点的属性信息,以及图中的社区信息的利用学习到更好的节点向量表示,以供下游不同图数据挖掘任务使用。1)本发明首先是能够应用于大规模属性图(百万级节点,上亿条边)上的图表征学习,例如社交网络中的用户表征学习,电子商务中的商品表征学习等。2)本发明适用于带有丰富节点属性的图中,例如学术论文引用网络中,图中的节点(论文)有着丰富的文本表示,这些文本信息可以被更好的利用。3)本发明所学习的节点的低维向量表示,可以应用于不同的下游的图挖掘任务,例如这些向量可以直接通过聚类算法来发掘图中的社区信息,可以通过线性的逻辑回归层来判断图中的链接预测任务和节点分类任务等。
基于同一发明构思,本发明的另一个实施例提供一种采用本发明方法的大规模属性图上的无监督图表示学习装置,其包括:
子图采样模块,用于根据属性图的拓扑结构信息和节点属性信息,对属性图进行子图采样,生成多张子图;
图自编码器模块,用于利用属性图的结构信息、节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图中节点的低维向量表示。
基于同一发明构思,本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例和附图,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例和附图所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (8)

1.一种基于子图采样的大规模属性图上的无监督图表示学习和数据挖掘方法,其特征在于,所述属性图采用电子商务数据集,图中节点是网页上的商品,如果两个商品被同一个用户购买则进行连边;该方法包括以下步骤:
根据属性图即电子商务数据集的结构信息和商品节点属性信息,对属性图即电子商务数据集进行子图采样,生成多张子图;
利用属性图即电子商务数据集的结构信息、商品节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图即电子商务数据集中商品节点的低维向量表示;所述图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器,其中图结构损失重构解码器用于重构子图上的边,图内容损失重构解码器用于重构子图的商品节点属性向量,图社区损失重构解码器用于重构子图的社区信息;
利用属性图即电子商务数据集中商品节点的低维向量表示,对属性图即电子商务数据集进行数据挖掘,包括商品节点分类、商品节点聚类。
2.商品节点商品节点商品节点商品节点商品节点根据权利要求1所述的方法,其特征在于,所述子图采样包括:
计算商品节点影响矩阵其维度大小为[N,N],N为图中的商品节点数量;
通过结合的有偏斜的随机游走来采样子图。
3.根据权利要求2所述的方法,其特征在于,所述计算商品节点影响矩阵包括:
利用线性图卷积变换计算商品节点表示向量矩阵X′;其中,线性图卷积变换输入的是图的邻接矩阵A和商品节点属性向量矩阵X,输出的是新的商品节点表示向量矩阵X′,计算公式为X′=SKX,其中其中I是和A大小相同的单位矩阵;的度数矩阵,K代表商品节点的感受域覆盖的K阶邻居范围;
根据商品节点表示向量矩阵X′中向量的相似性构造商品节点影响矩阵
4.根据权利要求3所述的方法,其特征在于,商品节点影响矩阵的计算公式为:
其中,(X′)T是X′的转置,cos代表cosine,通过cosine函数计算向量相似度,同时利用softmax函数对商品节点所有邻居相似度做归一化。
5.根据权利要求2所述的方法,其特征在于,所述通过结合的有偏斜的随机游走来采样子图,包括:
对于每次子图采样过程,首先根据图的拓扑结构随机采样种子节点,然后从每个种子节点出发,随机游走一条长度为T的路径;游走过程中对于所有邻居是根据来采样;
在全图中,把包含随机游走路径的商品节点作为子图的商品节点从而抽出一张子图。
6.根据权利要求1所述的方法,其特征在于:
所述图结构损失重构解码器,通过重构子图邻接矩阵的方式来计算损失函数,即衡量重构邻接矩阵和真实子图邻接矩阵At的差别来定义损失函数;
所述图内容损失重构解码器,通过同编码器中完全对称的网络结构来重构子图商品节点属性向量矩阵然后通过计算和真实的Xt的差别来定义损失函数;
所述图社区损失重构解码器,通过最大化子图中的商品节点向量表示和子图全图向量表示的互信息来计算损失函数,包括:首先根据子图中所有的商品节点向量来计算社区向量表示:其中Nt代表子图中商品节点的个数,代表第i个商品节点的隐层向量表示;然后通过利用腐蚀函数打乱子图中的向量表示Xt,并据此计算腐蚀掉的商品节点向量表示然后在损失函数中迫使semb与Zt更相似,与更不相似,通过计算semb同Zt以及的相似程度的不同来最大化互信息。
7.根据权利要求1所述的方法,其特征在于,在训练阶段,先采样多张子图,然后在每张子图上,根据三种解码器中的损失函数计算神经网络的损失,然后通过反向传播梯度下降训练神经网络后,得到训练好的神经网络的参数;在推测阶段,输入全图的邻接矩阵和商品节点向量矩阵,然后通过训练好参数的图自编码器中的编码器来进行商品节点隐层向量矩阵的计算,得到图表示学习中的商品节点的低维向量表示。
8.一种采用权利要求1~7中任一权利要求所述方法的基于子图采样的大规模属性图上的无监督图表示学习和数据挖掘装置,其特征在于,所述属性图采用电子商务数据集,图中节点是网页上的商品,如果两个商品被同一个用户购买则进行连边;该***包括:
子图采样模块,用于根据属性图即电子商务数据集的拓扑结构信息和商品节点属性信息,对属性图即电子商务数据集进行子图采样,生成多张子图;
图自编码器模块,用于利用属性图即电子商务数据集的结构信息、商品节点属性信息和社区信息,在每个子图上进行图自编码器的学习,得到属性图即电子商务数据集中商品节点的低维向量表示;利用属性图即电子商务数据集中商品节点的低维向量表示,对属性图即电子商务数据集进行数据挖掘,包括商品节点分类、商品节点聚类;
所述图自编码器包括编码器和解码器;编码器采用图卷积神经网络;解码器包含图结构损失重构解码器、图内容损失重构解码器以及图社区损失重构解码器,其中图结构损失重构解码器用于重构子图上的边,图内容损失重构解码器用于重构子图的商品节点属性向量,图社区损失重构解码器用于重构子图的社区信息。
CN202010673816.6A 2020-07-14 2020-07-14 基于子图采样的大规模属性图上的无监督图表示学习方法和装置 Active CN111950594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010673816.6A CN111950594B (zh) 2020-07-14 2020-07-14 基于子图采样的大规模属性图上的无监督图表示学习方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010673816.6A CN111950594B (zh) 2020-07-14 2020-07-14 基于子图采样的大规模属性图上的无监督图表示学习方法和装置

Publications (2)

Publication Number Publication Date
CN111950594A CN111950594A (zh) 2020-11-17
CN111950594B true CN111950594B (zh) 2023-05-05

Family

ID=73341817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010673816.6A Active CN111950594B (zh) 2020-07-14 2020-07-14 基于子图采样的大规模属性图上的无监督图表示学习方法和装置

Country Status (1)

Country Link
CN (1) CN111950594B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309609A1 (en) * 2021-03-25 2022-09-29 College Of Electronic Information And Electrical Engineering, Shanghai Jiaotong University Graph sampling and random walk acceleration method and system on GPU

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465067B (zh) * 2020-12-15 2022-07-15 上海交通大学 基于图卷积自编码器的冷冻电镜单颗粒图像聚类实现方法
CN112633499A (zh) * 2021-01-12 2021-04-09 北京大学 一种无监督图拓扑变换共变表征学习的方法和装置
CN112925627B (zh) * 2021-03-25 2022-03-29 上海交通大学 基于图形处理器的图采样和随机游走加速方法及***
CN113099427B (zh) * 2021-04-21 2022-08-02 中山大学 一种基于稀疏度自适应的带内部署NB-IoT信号恢复方法
CN113194493B (zh) * 2021-05-06 2023-01-06 南京大学 基于图神经网络的无线网络数据缺失属性恢复方法及装置
CN113314189B (zh) * 2021-05-28 2023-01-17 北京航空航天大学 一种化学分子结构的图神经网络表征方法
CN113268993B (zh) * 2021-05-31 2024-05-14 之江实验室 基于互信息的属性异构信息网络无监督网络表示学习方法
CN113255895B (zh) * 2021-06-07 2023-06-16 之江实验室 基于图神经网络表示学习的结构图对齐方法和多图联合数据挖掘方法
CN113326884B (zh) * 2021-06-11 2023-06-16 之江实验室 大规模异构图节点表示的高效学习方法及装置
CN113626723B (zh) * 2021-07-09 2024-06-14 中国科学院信息工程研究所 一种基于表示学习的属性图社区搜索方法和***
CN113961759B (zh) * 2021-10-22 2024-05-07 北京工业大学 基于属性图表示学习的异常检测方法
CN113988012B (zh) * 2021-10-25 2024-05-21 天津大学 融合社交上下文与多粒度关系的无监督社交媒体摘要方法
CN114863234A (zh) * 2022-04-29 2022-08-05 华侨大学 一种基于拓扑结构保持的图表示学习方法及***
CN116304367B (zh) * 2023-02-24 2023-12-01 河北师范大学 基于图自编码器自监督训练用于获得社区的算法及装置
CN116776175B (zh) * 2023-08-24 2023-11-24 中国空气动力研究与发展中心计算空气动力研究所 一种基于层次聚类的数据标签体系构建方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740106A (zh) * 2019-01-09 2019-05-10 中国人民解放军国防科技大学 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及***
CN110245682A (zh) * 2019-05-13 2019-09-17 华中科技大学 一种基于话题的网络表示学习方法
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200074301A1 (en) * 2018-09-04 2020-03-05 Beijing Jingdong Shangke Information Technology Co., Ltd. End-to-end structure-aware convolutional networks for knowledge base completion

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109740106A (zh) * 2019-01-09 2019-05-10 中国人民解放军国防科技大学 基于图卷积神经网络的大规模网络介数逼近方法、存储装置及存储介质
CN110245682A (zh) * 2019-05-13 2019-09-17 华中科技大学 一种基于话题的网络表示学习方法
CN110191110A (zh) * 2019-05-20 2019-08-30 山西大学 基于网络表示学习的社交网络异常账户检测方法及***
CN110717617A (zh) * 2019-09-09 2020-01-21 广东工业大学 一种基于深度图网络自编码器的无监督关系预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Amin Salehi等.Graph Attention Auto-Encoders.《zrXiv》.2019,第1-10页. *
Philip S. Yu 团队最新综述!社区发现的深度学习⽅法:进展、挑 战、机遇.《https://www.leiphone.com/category/academic/eLZaf7hOmqhrhUeH.html 》.2020,第1-26页. *
William L. Hamilton等.Representation Learning on Graphs: Methods and Applications.《arXiv》.2018,第1-24页. *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220309609A1 (en) * 2021-03-25 2022-09-29 College Of Electronic Information And Electrical Engineering, Shanghai Jiaotong University Graph sampling and random walk acceleration method and system on GPU
US11875426B2 (en) * 2021-03-25 2024-01-16 Shanghai Jiao Tong University Graph sampling and random walk acceleration method and system on GPU

Also Published As

Publication number Publication date
CN111950594A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950594B (zh) 基于子图采样的大规模属性图上的无监督图表示学习方法和装置
Ahmed et al. Deep learning modelling techniques: current progress, applications, advantages, and challenges
Zhao et al. Transformer-based dual relation graph for multi-label image recognition
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及***
Zhu et al. A survey on graph structure learning: Progress and opportunities
Chen et al. Developing a new mesh quality evaluation method based on convolutional neural network
CN111898703B (zh) 多标签视频分类方法、模型训练方法、装置及介质
Yang et al. GraphLSHC: towards large scale spectral hypergraph clustering
Xu et al. Graph partitioning and graph neural network based hierarchical graph matching for graph similarity computation
Zhang et al. Random multi-graphs: a semi-supervised learning framework for classification of high dimensional data
Liang et al. Review–a survey of learning from noisy labels
Jiang et al. A fast deep autoencoder for high-dimensional and sparse matrices in recommender systems
Kempinska et al. Modelling urban networks using Variational Autoencoders
CN116304367B (zh) 基于图自编码器自监督训练用于获得社区的算法及装置
CN112417289A (zh) 一种基于深度聚类的资讯信息智能推荐方法
Fang et al. Collaborative filtering recommendation algorithm based on deep neural network fusion
Yang et al. A novel deep density model for unsupervised learning
CN112784118A (zh) 一种对三角形结构敏感的图中的社区发现方法和装置
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Zhai et al. FPANet: feature pyramid attention network for crowd counting
Yue et al. Multiple auxiliary information based deep model for collaborative filtering
Xie et al. TPNE: topology preserving network embedding
Ding et al. Towards transmission-friendly and robust cnn models over cloud and device
Liu et al. Deep dual-stream network with scale context selection attention module for semantic segmentation
Uzun et al. Deep learning based classification of time series of chaotic systems over graphic images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant