CN114529096A - 基于三元闭包图嵌入的社交网络链路预测方法及*** - Google Patents

基于三元闭包图嵌入的社交网络链路预测方法及*** Download PDF

Info

Publication number
CN114529096A
CN114529096A CN202210181966.4A CN202210181966A CN114529096A CN 114529096 A CN114529096 A CN 114529096A CN 202210181966 A CN202210181966 A CN 202210181966A CN 114529096 A CN114529096 A CN 114529096A
Authority
CN
China
Prior art keywords
node
nodes
embedding
social network
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210181966.4A
Other languages
English (en)
Inventor
芮晓彬
王志晓
柴雅慧
张健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology CUMT
Original Assignee
China University of Mining and Technology CUMT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology CUMT filed Critical China University of Mining and Technology CUMT
Priority to CN202210181966.4A priority Critical patent/CN114529096A/zh
Publication of CN114529096A publication Critical patent/CN114529096A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • Strategic Management (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于三元闭包图嵌入的社交网络链路预测方法及***,该方法包括:对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节点的节点嵌入;在社交网络中任取两个节点作为待预测节点,根据每个所述待预测节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的边嵌入;利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测任意两个节点之间是否存在链接。本发明充分利用社交网络中节点的结构信息,并考虑节点邻居之间的差异性,采用深度神经网络确保社交网络链路预测的准确性。

Description

基于三元闭包图嵌入的社交网络链路预测方法及***
技术领域
本发明属于社交网络分析技术领域,尤其涉及一种基于三元闭包图 嵌入的社交网络链路预测方法及***。
背景技术
链接预测是指对丢失的链接或未来可能发生的链接进行预测的任务。 这一任务在多个应用领域中都有着非常重要的应用,包括自动超链接创 建、网站超链接预测、推荐***和社区检测;例如计算社交网络中两个 用户成为好友的可能性,为用户推荐与其成为好友可能性高的用户,即 两个用户间的链接预测。
现有技术中的链接预测方法,主要可以分为三类:基于相似性、基 于概率和基于嵌入的预测方法。
相似性的方法通过几种相似性度量方法来提取两个节点之间的相似 性,然后,将所有节点对根据它们的相似性来进行排序,找到其中相似 度最大的节点对,假定它们之间存在链路。基于相似性的方法受到相似 特征的限制,导致最终的预测结果准确性不高;基于概率的算法是建立 含有可调参数的模型,通过优化参数来模拟真实网络的特征和拓扑结构; 除了结构信息,基于概率的方法通常需要更多信息,例如节点或边的属 性信息;提取这些额外的属性信息既复杂又耗时,并且会导致维度***。 因此,这些模型不适用于大型网络。
针对上述问题,提出了网络嵌入这一降维技术,通过将图的高维节 点映射到低维向量空间来保留节点的邻域结构。图卷积网络(GCN)在 图上定义了一个卷积算子,并迭代地聚合一个节点的采样节点的嵌入以 获得它的新嵌入;但是,其所有节点的汇聚权重相同,忽视了节点间的 结构差异。GraphSAGE通过均匀采样得到一个固定大小的邻居集,然后通过特征聚合生成节点嵌入;但是,抛弃部分节点会造成信息丢失,尤 其是在度值较小的网络上,会造成更严重的信息丢失;CensNet通过使用 原始无向图的线图将节点和边共同嵌入到潜在特征空间;这些基于边缘 的方法对于图嵌入是有效的,但是,由于边的数量通常远大于网络中节 点的数量,直接嵌入边需要花费更多的时间,这使得链路预测效率低下。
由两个节点嵌入生成边嵌入时,现有方法主要包括Hadamard乘积、 求和或直接连接。这些方法将两个节点视为等价的节点,没有考虑它们 对边形成的不同贡献。因此,会导致局部结构信息的丢失,影响链路预 测的性能。
综上所述,现有基于嵌入的社交网络链路预测方法存在以下不足: (1)传统方法在获取节点嵌入时,需要为每个节点分配完全不同的权重, 或在聚合过程中对所有邻居共享完全相同的权重,不能以较低的节点聚 合成本很好地保留全局结构信息;(2)当从两个节点嵌入生成边嵌入时, 现有方法将两个节点等效看待,而不考虑它们对边形成的不同贡献,会 导致局部结构信息的丢失,影响链路预测的性能。
发明内容
鉴于上述的分析,本发明旨在提供一种基于三元闭包及其图嵌入的 社交网络链路预测方法及***,用于解决现有技术中基于图嵌入的方法 无法保留网络中节点的全局结构信息,会导致局部结构信息丢失的问题。
本发明的目的主要是通过以下技术方案实现的:
一方面,本发明提供一种基于三元闭包图嵌入的社交网络链路预测 方法,其特征在于,包括以下步骤:
对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节 点的节点嵌入;其中,所述采样节点包括该节点及其邻居节点;
在社交网络中任取两个节点作为待预测节点,根据每个所述待预测 节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;
根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的 边嵌入;
利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务 结果预测任意两个节点之间是否存在链接。
进一步的,所述根据采样节点的三元闭包结构,计算每个节点的节 点嵌入,包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其对应的 采样节点分为三元闭包节点和非三元闭包节点两种类型;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的初始 节点嵌入表示;
将每个节点的所述初始节点嵌入表示输入多通道单层神经网络,完 成节点嵌入的特征映射,得到网络中所有节点的节点嵌入。
进一步的,前述的为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重为1;
非三元闭包节点的聚合权重为
Figure BDA0003521960080000031
其中,N表示采样节点中的节点 数量,l表示采样节点中三元闭包节点数。
进一步的,根据下述公式计算网络中每个节点的节点嵌入:
Figure BDA0003521960080000032
其中,G表示社交网络中所有节点集合,T表示所述采样节点中三元 闭包节点集合,N表示采样节点中的节点数量,li表示节点i的采样节点 中三元闭包节点数。
进一步的,利用下述公式计算两个节点的拼接权重,
Figure BDA0003521960080000041
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数。
进一步的,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
进一步的,所述根据二分类任务结果预测两个节点之间是否存在链 接,包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到 二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数;
若预测分数大于0.5,则预测为两个节点间存在链接。
进一步的,本发明还涉及一种基于三元闭包图嵌入的社交网络链路预 测***,其特征在于,包括:
节点嵌入计算模块,用于根据社交网络中的三元闭包结构计算每个 节点的节点嵌入;
边嵌入计算模块,与所述节点嵌入计算模块相连,用于根据待预测 节点的三元闭包采样节点数,计算两个节点间的拼接权重;根据所述拼 接权重计算两节点间生成的边嵌入;
链路预测模块,与所述边嵌入计算模块相连,利用全连接神经网络 将所述边嵌入转化为二分类任务,根据所述二分类任务结果预测节点之 间是否存在链接。
进一步的,所述节点嵌入计算模块,用于计算每个节点的节点嵌入, 还包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点 嵌入表示;
将所述节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特 征映射,得到网站中所有节点的节点嵌入。
进一步的,根据下述公式计算网络中每个节点的节点嵌入:
Figure BDA0003521960080000051
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集 合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数;
利用下述公式计算两个节点的拼接权重,
Figure BDA0003521960080000052
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的三元闭包采样节点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
本技术方案的有益效果:
本发明解决了现有方法无法实现以高效率完成节点聚合并很好地保 留全局结构信息的问题。利用社交网络的三元闭包结构将采样节点分为 三元闭包节点和非三元闭包节点,并为它们分配不同的聚合权重。较大 的权重将分配给三元闭包节点,因为它们更有影响力。不同的聚合权重 使得中心节点的嵌入偏向三元闭包节点,这符合社交网络中信息传播的 规律。此外,
另外本发明解决了传统的边嵌入方法难以保留丰富的局部结构信息 的问题。提出了一种通过两个端节点嵌入的加权求和来生成边嵌入的新 方法。权重基于每个节点的三元闭包采样节点数,其中三元闭包邻居节 点越多意味着节点的重要性越高,因此权重越高。通过节点嵌入的加权 求和获得边嵌入,可以更好地保留节点的局部结构信息两端节点;故本 发明的基于三元闭包图嵌入的社交网络链路预测方法能够更好的保留局 部和全局信息,进一步提升了链路预测的效果。
本发明的关键技术点:
1.利用社交网络的三元闭包结构将采样节点分为三元闭包节点和非 三元闭包节点,并为不同类型的节点分配不同的聚合权重,使得预测结 果更加符合社交网络中信息传播的规律。
2.通过两个端节点嵌入的加权求和来生成边嵌入的新方法。基于每 个节点的三元闭包节点数分配不同的权重,解决了传统边嵌入方法难以 保留丰富的局部结构信息的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分的 从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的 和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指 出的结构来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制, 在整个附图中,相同的参考符号表示相同的部件。
图1为本发明所述的基于三元闭包图嵌入的社交网络链路预测方法 的流程示意图。
图2为本发明所述的基于三元闭包图嵌入的社交网络链路预测*** 的结构示意图。
图3为简单社交网络的结构示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本 申请一部分,并与本发明的实施案例一起用于阐释本发明的原理,并非 用于限定本发明的范围。
社交网络图可以为如下真实网络:US-Air美国航空网络图、BN生物 视网膜网络图、Blog美国政治博客图、Hamster网站上的用户关系图、 Biology生物网络的范畴、Yeast酵母蛋白质之间的交互式网络图、 Facebook的网络图等、Wing鸟翼架构上的网络图等。
本发明的技术构思:社交网络中的节点可以根据三元闭包结构分为 三元闭包节点和非三元闭包节点,三元闭包节点具有更强的影响力,在 节点嵌入过程中,为三元闭包采样节点分配较大的聚合权重,使得节点 的嵌入偏向三元闭包采样节点,这符合社交网络中信息传播的规律。此 外,传统的边嵌入方法难以保留丰富的局部结构信息,本发明提出了一 种通过两个节点嵌入的加权求和来生成边嵌入的新方法;权重分配基于 每个节点的三元闭包邻居数,其中三元闭包邻居越多意味着节点的重要 性越高,因此权重越高。通过节点嵌入的加权求和获得边嵌入,可以更 好地保留节点的局部结构信息;故本发明的基于三元闭包图嵌入的社交 网络链路预测方法能够更好的保留局部和全局信息,进一步提升链路预 测的效果。
实施例一:
图1为本发明所述的基于三元闭包图嵌入的社交网络链路预测方法 的流程示意图。
本实施例提供一种基于三元闭包图嵌入的社交网络链路预测方法, 如图1所示,包括:
步骤S110、对于给定的社交网络,根据每个节点的采样节点的三元 闭包结构,计算每个节点的节点嵌入;包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点 嵌入表示;
将每个节点的所述节点嵌入表示输入多通道单层神经网络,完成节 点嵌入的特征映射,得到网络中所有节点的节点嵌入。
其中,为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重设为1;
非三元闭包节点的聚合权重为
Figure BDA0003521960080000091
其中,N表示采样节点的数量,l 表示采样节点中三元闭包节点数。
利用下述公式计算每个节点的节点嵌入表示:
Figure BDA0003521960080000092
其中,G表示社交网络中所有节点集合,T表示三元闭包节点集合, N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数。
最后通过多通道单层神经网络完成节点嵌入的特征映射,即使用多 通道单层神经网络进行降维,得到最终的节点嵌入。
特殊的,本实施例采用的多通道单层神经网络包含两个通道,每一 通道为一个单层神经网络(感知机),单层神经网络输入层维度为g,g 为前述社交网络中所有节点总数;输出层维度为128;将两通道得到的嵌 入结果求均值,完成了节点嵌入的特征映射,得到128维节点嵌入表示。
需要说明的是,社交网络中的三元闭包节点具有更强的影响力,在 节点嵌入过程中,为三元闭包采样节点分配较大的聚合权重,使得节点 的嵌入偏向三元闭包采样节点,这符合社交网络中信息传播的规律,由 此预测出的社交链路更加准确,预测效果更好。
步骤S120、根据任意两个待预测节点的三元闭包采样节点数,计算 所述任意两个待预测节点的拼接权重;
根据前述的拼接权重和节点嵌入,得到任意两个待预测节点间生成 的边嵌入;
其中,利用下述公式计算两个节点的拼接权重,
Figure BDA0003521960080000101
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
步骤S130、利用全连接神经网络将边嵌入转化为二分类任务,根据 二分类任务结果预测任意两个节点之间是否存在链接;包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到 二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数; 若预测分数大于0.5,则预测为两个节点间存在链接。
特殊的,本实施例采用的全连接神经网络,输入维度为128维,只 有一个隐藏层,隐藏层的神经元数量为输入向量维度的一半,为了整个 网络训练过程的稳定性,输入层与隐藏层之后都包括一个batch normalization层,并使用Relu作为激活函数;输出层神经元数量为2, 由此将边嵌入降维成二维,得到二维的边嵌入表示;输出层使用SoftMax 作为激活函数,得到最终的预测分数;若预测分数大于0.5,则预测为两 个节点间存在链接。
需要说明的是,在通过两个节点嵌入的加权求和来生成边嵌入的过 程中;权重分配是基于每个节点的三元闭包邻居数,其中三元闭包邻居 越多分配的权重越高,通过这种方式获得的边嵌入,可以更好地保留节 点的局部结构信息;另外,对网络中任意两个节点间的边嵌入进行预测, 历遍整个网络后,即可预测出给定的社交网络中所有可能的链接。本发 明的基于三元闭包图嵌入的社交网络链路预测方法能够更好的保留局部 和全局信息,进一步提升链路预测的效果,解决了传统的边嵌入方法难 以保留丰富的局部结构信息的问题。
实施例二:
本发明还提供一种基于三元闭包图嵌入的社交网络链路预测***, 如图2所示,包括:节点嵌入计算模块210,边嵌入计算模块220,链路 预测模块230。
***中,节点嵌入计算模块210,用于根据社交网络中的三元闭包结 构计算每个节点的节点嵌入;包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得 到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个采样节点的聚合权重,计算每个节点的节点嵌入表示;
将每个节点的所述节点嵌入表示输入多通道单层神经网络,完成节 点嵌入的特征映射,得到网络中所有节点的节点嵌入。
其中,为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重设为1;
非三元闭包节点的聚合权重为
Figure BDA0003521960080000111
其中,N表示采样节点的数量,l 表示采样节点中三元闭包节点数。
利用下述公式计算每个节点的节点嵌入表示:
Figure BDA0003521960080000121
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集 合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数。
最后使用多通道单层神经网络进行降维,得到最终的节点嵌入。
***中,边嵌入计算模块220,与所述节点嵌入计算模块210相连, 用于根据待预测节点的三元闭包采样节点数,计算两个节点间的拼接权 重;根据所述拼接权重计算两节点间生成的边嵌入。
特殊的,利用下述公式计算两个节点的拼接权重,
Figure BDA0003521960080000122
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节 点数。
进一步的,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j 的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
***中,链路预测选取模块230,与边嵌入计算模块220相连;利用 全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测 节点之间是否存在链接;
具体的,将边嵌入输入到全连接神经网络,将边嵌入降维成二维, 得到二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数; 若预测分数大于0.5,则预测为两个节点间存在链接。
本发明首先对于给定的社交网络,根据三元闭包结构划分不同的节 点类型,从而计算得到每个节点的节点嵌入,该结果反应了初始情况下 的节点能够保留全局结构信息,由此得到的节点嵌入更符合社交网络的 传播规律。其次,基于两节点的节点嵌入和节点周围的三元闭包结构, 计算节点间边的嵌入;该结果反应了边嵌入能够保留形成边的两端节点 的局部信息。最后,通过一全连接神经网络将边嵌入转化成二分类问题, 预测边是否存在。本发明的基于三元闭包图嵌入的社交网络链路预测方 法能够更好的保留局部和全局信息,进一步提升链路预测的效果。
实施例三:
作为一个具体的实施例,以一个简单的网络示意图为例,用以说明 本发明基于三元闭包图嵌入的社交网络链路预测方法的具体实现方法, 网络示意图的拓扑结构如图3所示。
本实施例包括以下具体步骤:
1)根据给定的网络,按照本发明实施例一所述的方法得出采样的三 元闭包节点和非三元闭包节点如表1和表2所示。
表1:节点i采样分类结果
节点 节点类型 节点 节点类型 节点 节点类型
i 1 3 1 6 0
1 1 4 0 7 0
2 0 5 0 8 0
表2:节点j采样分类结果
Figure BDA0003521960080000131
Figure BDA0003521960080000141
表1和表2中的节点类型,1表示为三元闭包节点,0表示非三元 闭包节点。可以看出,节点i的三元闭包采样节点为节点{i,1,3},非 三元闭包采样节点为{2,4,5,6,7,8}。节点j的三元闭包采样节点为 节点{j,1,2,3,6,7},非三元闭包采样节点为{4,5,8}。节点1,2,3,… 表示节点i的邻居节点,节点1,2,3,…表示节点j的邻居节点。
2)根据采样节点信息,根据发明实施例一所述的方法计算出节点的 汇聚权重如表3表4所示。
表3:节点i采样节点的汇聚权重
节点 汇聚权重 节点 汇聚权重 节点 汇聚权重
i 1 3 1 6 2/3
1 1 4 2/3 7 2/3
2 2/3 5 2/3 8 2/3
表4:节点j采样节点的汇聚权重
节点 汇聚权重 节点 汇聚权重 节点 汇聚权重
j 1 <u>3</u> 1 <u>6</u> 1
<u>1</u> 1 <u>4</u> 1/3 <u>7</u> 1
<u>2</u> 1 <u>5</u> 1/3 <u>8</u> 1/3
3)根据计算出的汇聚权重,将其邻居节点的信息汇聚到节点i和节 点j,得到节点i和节点j的节点嵌入表示。按照本发明实施例一所述的 方法计算出的节点嵌入表示如表5所示。
表5:节点i,j的嵌入表示
节点 嵌入表示 节点 嵌入表示
i 7 j 7
4)根据两节点的节点嵌入和节点周围的三元闭包结构,计算得到边 嵌入。按照本发明实施例一所述的方法计算出的边嵌入的拼接权重如表6 所示。
表6:节点i,j的拼接权重
节点 拼接权重 节点 拼接权重
i 4/7 j 10/7
因此,可以得出边eij的嵌入表示为14
5)将边eij的嵌入表示输入一全连接神经网络,把链接预测问题转化 为二分类任务,以此来预测两个节点之间是否存在链接。边eij的嵌入表 示转化成二分类问题后所得到的结果为1,即边eij为预测出的社交网络中 存在的边。
需要说明的是,本实施例中节点i的嵌入表示主要来源于节点i、节 点1和节点3,节点j的嵌入表示主要来源于节点j、节点1、节点2、 节点3、节点6和节点7,这说明节点i,j的信息主要都是来自于三元 闭包节点,这更加符合社交网络中信息传播的规律,能够更好的保留节 点的全局结构信息。在由节点嵌入生成边嵌入的过程中,两节点由于拥 有不同的三元闭包邻居数,因此对于边的形成的贡献是不同的,节点j 的三元闭包邻居较多,因此对于边的形成的贡献较大。这一措施能够很 好的保留形成边的两节点的局部结构信息,使得预测得到的结果更加准 确。
实施例四:
本实施例以八个真实网络为例,将本发明提供的所述基于三元闭 包图嵌入的社交网络链路预测方法用于上述网络的链路预测,并与其 他典型社交网络链路预测方法进行比较,选取的典型方法包括: DeepWalk、GCN、GAT、GraphSAGE、DeepEdge、CensNet和 SEAL等链路预测方法。选取的评估标准包括:接收器工作特性曲线 下面积(AUC)、准确度(ACC)和精度(PRE);
Figure BDA0003521960080000161
Figure BDA0003521960080000162
AUC曲线描述了在各种阈值设置下,真阳性率(TPR)与假阳性 率(FPR)的比例。真阳性率(TPR)和假阳性率(FPR)可以通过以下 公式进行评估;
Figure BDA0003521960080000163
Figure BDA0003521960080000164
其中,FN:False Negative,被判定为负样本,但事实上是正样本。
FP:False Positive,被判定为正样本,但事实上是负样本。
TN:True Negative,被判定为负样本,事实上也是负样本。
TP:True Positive,被判定为正样本,事实上也是正样本。
本实施例所应用到的八个真实网络分别为:
1)US-Air是美国航空网络图。
2)BN是生物视网膜网络图。
3)Blog是美国政治博客图。
4)Hamster是hamsterster.com网站上的用户关系图。
5)Biology属于生物网络的范畴。
6)Yeast是酵母蛋白质之间的交互式网络图。
7)Facebook为美国社交平台Facebook上的网络图。
8)Wing是鸟翼架构上的网络图。
各个网络的详细参数见表7。
表7:真实网络的具体参数
网络 N E
US-Air 332 2126
BN 1123 90811
Blog 1222 16714
Hamster 1858 12534
Biology 1871 47754
Yeast 2375 11693
Facebook 4039 88234
Wing 10937 75488
其中,N和E分别表示网络中的节点总数和存在连边总数。
表8:不同的链接预测方法在真实网络中的效果
Figure BDA0003521960080000171
Figure BDA0003521960080000181
Figure BDA0003521960080000191
上述表8中,TRI为本发明提出的链路预测方法;基于PRE、ACC和 AUC三种评价指标,将该方法与其他七种基线方法在八个网络上进行比较, 得出本发明的TRI链路预测方法在几乎所有网络上都取得了最好的结果。
本发明解决了现有方法无法以高节点聚合效率很好地保留全局结构 信息的问题。利用社交网络的三元闭包结构将采样节点分为三元闭包节 点和非三元闭包节点,并为它们分配不同的聚合权重。较大的权重将分 配给三元闭包节点,因为它们更有影响力。不同的聚合权重使得中心节 点的嵌入偏向三元闭包节点,这符合社交网络中信息传播的规律。此外, 本发明解决了传统边嵌入方法难以保留丰富的局部结构信息的问题。提 出了一种通过两个端节点嵌入的加权求和来生成边嵌入的新方法。权重 基于每个节点的三元邻居数,其中三元邻居越多意味着节点的重要性越 高,因此权重越高。通过节点嵌入的加权求和获得边嵌入,可以更好地 保留节点的局部结构信息两端节点;故本发明的基于三元闭包图嵌入的 社交网络链路预测方法能够更好的保留节点的局部和全局信息,进一步 提升链路预测的效果。
综上所述,本实施例公开的基于三元闭包图嵌入的社交网络链路预 测方法及***,与其他典型的社交网络链路预测方法相比,对于不同的 网络,都可以取得非常好的效果。
本发明充分利用社交网络中的三元闭包信息结构,并考虑到节点间 不同的汇聚权重和拼接权重,采用节点嵌入加权求和的方法确保社交网 络链路预测的准确性。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程, 可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计 算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、 只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围 并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范 围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于三元闭包图嵌入的社交网络链路预测方法,其特征在于,包括以下步骤:
对于给定的社交网络,根据采样节点的三元闭包结构,计算每个节点的节点嵌入;其中,所述采样节点包括该节点及其邻居节点;
在社交网络中任取两个节点作为待预测节点,根据每个所述待预测节点的三元闭包采样节点数,计算所述两个待预测节点的拼接权重;
根据所述拼接权重和节点嵌入,得到所述两个待预测节点间生成的边嵌入;
利用全连接神经网络将边嵌入转化为二分类任务,根据二分类任务结果预测任意两个节点之间是否存在链接。
2.根据权利要求1所述的链路预测方法,其特征在于,所述根据采样节点的三元闭包结构,计算每个节点的节点嵌入,包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其对应的采样节点分为三元闭包节点和非三元闭包节点两种类型;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的初始节点嵌入表示;
将每个节点的所述初始节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特征映射,得到网络中所有节点的节点嵌入。
3.根据权利要求2所述的链路预测方法,其特征在于,所述为每种类型的节点分配不同的聚合权重包括:
三元闭包节点的聚合权重为1;
非三元闭包节点的聚合权重为
Figure FDA0003521960070000011
其中,N表示所述采样节点中的节点数量,l表示所述采样节点中三元闭包节点数。
4.根据权利要求2或3所述的链路预测方法,其特征在于,根据下述公式计算网络中每个节点的节点嵌入:
Figure FDA0003521960070000021
其中,G表示社交网络中所有节点集合,T表示所述采样节点中三元闭包节点集合,N表示所述采样节点中的节点数量,li表示节点i的采样节点中三元闭包节点数。
5.根据权利要求1所述的链路预测方法,其特征在于,利用下述公式计算两个节点的拼接权重,
Figure FDA0003521960070000022
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的采样节点中三元闭包节点数。
6.根据权利要求1所述的链路预测方法,其特征在于,利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd]
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
7.根据权利要求1所述的链路预测方法,其特征在于,所述根据二分类任务结果预测两个节点之间是否存在链接,包括:
将所述边嵌入输入到全连接神经网络,将边嵌入降维成二维,得到二维的边嵌入表示;
将二维的边嵌入表示经过softmax激活函数,得到最终的预测分数;
若预测分数大于0.5,则预测为两个节点间存在链接。
8.一种基于三元闭包图嵌入的社交网络链路预测***,其特征在于,包括:
节点嵌入计算模块,用于根据社交网络中的三元闭包结构计算每个节点的节点嵌入;
边嵌入计算模块,与所述节点嵌入计算模块相连,用于根据待预测节点的三元闭包采样节点数,计算两个节点间的拼接权重;根据所述拼接权重计算两节点间生成的边嵌入;
链路预测模块,与所述边嵌入计算模块相连,利用全连接神经网络将所述边嵌入转化为二分类任务,根据所述二分类任务结果预测节点之间是否存在链接。
9.根据权利要求8所述的链路预测***,其特征在于,所述节点嵌入计算模块,用于计算每个节点的节点嵌入,还包括:
对于给定的社交网络中的每个节点,利用三元闭包结构将其采样得到的节点分为两种类型,即三元闭包节点和非三元闭包节点;
为每种类型的节点分配不同的聚合权重;
根据每个节点及其所有邻居节点的聚合权重,计算每个节点的节点嵌入表示;
将所述节点嵌入表示输入多通道单层神经网络,完成节点嵌入的特征映射,得到网站中所有节点的节点嵌入。
10.根据权利要求8或9所述的链路预测***,其特征在于,包括:
根据下述公式计算网络中每个节点的节点嵌入:
Figure FDA0003521960070000031
其中,G表示社交网络中所有节点集合,T表示三元闭包采样节点集合,N表示采样节点的数量,li表示节点i的采样节点中三元闭包节点数;
利用下述公式计算两个节点的拼接权重:
Figure FDA0003521960070000041
Li,Lj为节点i,j的拼接权重;li,lj为节点i,j的三元闭包采样节点数;
利用下述公式计算两个节点间生成的边嵌入:
eij=Lihi+Ljhj=[Lihi1+Ljhj1,Lihi2+Ljhj2,…,Lihid+Ljhjd];
其中,eij表示社交网络节点i,j之间的边;hi,hj为社交网络的节点i,j的节点嵌入;Li,Lj为节点i,j在拼接时的拼接权重。
CN202210181966.4A 2022-02-25 2022-02-25 基于三元闭包图嵌入的社交网络链路预测方法及*** Pending CN114529096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210181966.4A CN114529096A (zh) 2022-02-25 2022-02-25 基于三元闭包图嵌入的社交网络链路预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210181966.4A CN114529096A (zh) 2022-02-25 2022-02-25 基于三元闭包图嵌入的社交网络链路预测方法及***

Publications (1)

Publication Number Publication Date
CN114529096A true CN114529096A (zh) 2022-05-24

Family

ID=81624481

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210181966.4A Pending CN114529096A (zh) 2022-02-25 2022-02-25 基于三元闭包图嵌入的社交网络链路预测方法及***

Country Status (1)

Country Link
CN (1) CN114529096A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680633A (zh) * 2023-05-06 2023-09-01 国网四川省电力公司广安供电公司 基于多任务学习的异常用户检测方法、***及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116680633A (zh) * 2023-05-06 2023-09-01 国网四川省电力公司广安供电公司 基于多任务学习的异常用户检测方法、***及存储介质
CN116680633B (zh) * 2023-05-06 2024-01-26 国网四川省电力公司广安供电公司 基于多任务学习的异常用户检测方法、***及存储介质

Similar Documents

Publication Publication Date Title
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN111126674B (zh) 基于深度模型的传播预测方法及其***
CN112906770A (zh) 一种基于跨模态融合的深度聚类方法及***
CN110097095B (zh) 一种基于多视图生成对抗网络的零样本分类方法
CN110837602A (zh) 基于表示学习和多模态卷积神经网络的用户推荐方法
CN110889450B (zh) 超参数调优、模型构建方法和装置
CN112784031B (zh) 一种基于小样本学习的客服对话文本的分类方法和***
CN111985623A (zh) 基于最大化互信息和图神经网络的属性图群组发现方法
CN109686402A (zh) 基于动态加权相互作用网络中关键蛋白质识别方法
CN112733035A (zh) 基于知识图谱的知识点推荐方法、装置、存储介质及电子装置
CN109948242A (zh) 基于特征哈希的网络表示学习方法
CN112580902A (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN110830291B (zh) 一种基于元路径的异质信息网络的节点分类方法
CN112258250A (zh) 基于网络热点的目标用户识别方法、装置和计算机设备
CN115358809A (zh) 一种基于图对比学习的多意图推荐方法及装置
CN113297429A (zh) 一种基于神经网络架构搜索的社交网络链路预测方法
CN115309906A (zh) 一种基于知识图谱技术的数据智能分类技术
CN115858919A (zh) 基于项目领域知识和用户评论的学习资源推荐方法及***
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及***
CN111369124A (zh) 一种基于自生成全局特征和注意力的图像美学预测方法
CN116662564A (zh) 一种基于深度矩阵分解与知识图谱的服务推荐方法
CN106911512B (zh) 在可交换图中基于博弈的链接预测方法及***
CN115601745A (zh) 一种面向应用端的多视图三维物体识别方法
CN115238073A (zh) 一种融合异构信息网络与生成对抗网络的服务分类方法
CN114936890A (zh) 一种基于逆倾向加权方法的反事实公平的推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination