CN109767008A - 一种基于元模式的高度异构网络多态特征学习方法 - Google Patents

一种基于元模式的高度异构网络多态特征学习方法 Download PDF

Info

Publication number
CN109767008A
CN109767008A CN201910017697.6A CN201910017697A CN109767008A CN 109767008 A CN109767008 A CN 109767008A CN 201910017697 A CN201910017697 A CN 201910017697A CN 109767008 A CN109767008 A CN 109767008A
Authority
CN
China
Prior art keywords
node
meta schema
network
type
learning method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910017697.6A
Other languages
English (en)
Inventor
陈军
高熙越
朱文谦
詹泽行
杨帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910017697.6A priority Critical patent/CN109767008A/zh
Publication of CN109767008A publication Critical patent/CN109767008A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元模式的高度异构网络多态特征学习方法,基于原网络中相似节点在嵌入空间中也相似的原则,提取方法包括以下步骤。首先,采用基于元模式的随机游走来提取异构网络中的随机路径。然后,利用滑窗提取路径中特定目标的相似节点对。最后,根据网络影响力矩阵和加权skip‑gram模型来学习异构节点的多态嵌入表达。得到的节点嵌入可以进一步送入有监督学习模型中,实现对节点分类等任务的预测。本发明实现了从异构网络连接中学习节点特征的功能,具有计算简单、时间复杂度低、嵌入表达多样效果好的技术效果。

Description

一种基于元模式的高度异构网络多态特征学习方法
技术领域
本发明属于网络技术领域,尤其涉及一种基于元模式的异构网络多态特征学习方法。
背景技术
随着互联网的快速发展和各类社交网站的相继出现,网络科学逐渐成为一门备受关注的学科,在大数据研究中发挥着重要作用。生活中的网络随处可见,例如计算机领域中的万维网,能源领域的电力网络,交通领域的航空网络,社交领域的在线***络等等。当人们试图去解决如节点分类、链路预测、聚类等网络传统问题时,迫切需要关于网络节点、连边、社团或其他网络元素的特征。而网络嵌入算法就提供了一种从网络的关系和属性中自动的提取特征表达的方法。异构网络是一种包含了多种类型的节点或者连边网络的总称。如何从异构网络中提取特征成为一个急需解决的问题。
目前网络嵌入技术主要可以根据数据提取方式分为三类:节点到邻居,节点到节点,随机游走。第一类方法([文献1])假设每个节点的嵌入是其邻居节点的线性组合。第二类方法([文献2])试图让两个节点嵌入的距离更近,如果他们之间的权重更大。第三类方法([文献3、4])通过随机游走提取相似节点对,然后通过skip-gram算法学习节点嵌入。然而,这些方法在高度异构网络中的效率和表达能力有限,迫切需要一种灵活的可以对高度异构网络进行特征提取的方法。
[文献1].S.T.Roweis,Nonlinear dimensionality reduction by lo callylinear emb edding,Science 290(5500)(2000)2323{2326.doi:10.1126/science.290.5500.2323
[文献2]M.Belkin,P.Niyogi,Laplacian eigenmaps and sp ectral tech-250niques for emb edding and clustering,in:Advances in neural in-formationpro cessing systems,2002,pp.585{591}
[文献3]A.Grover,J.Leskovec,no de2vec:Scalable feature learning fornetworks,in:Pro ceedings of the 22nd ACM SIGKDD Interna-tional Conference onKnowledge Discovery and Data Mining,KDD'16,ACM,2016,pp.855{864.doi:10.1145/2939672.275 2939754
[文献4]Y.Dong,N.V.Chawla,A.Swami,metapath2vec:Scalable rep-resentation learning for heterogeneous networks,in:Pro ceed-ings of the 23rdACM SIGKDD International Conference on Knowledge Discovery and Data Mining-KDD'17,ACM,2017,280pp.135{144.doi:10.1145/3097983.3098036
发明内容
针对现有技术存在的不足,本发明提出了一种基于元模式的异构网络多态特征学习方法。
本发明所采用的技术方案是:一种基于元模式的高度异构网络多态特征学习方法,其特征在于,包括以下步骤:
步骤1:给定的异构网络G={V,E,φve},其中V表示节点集合,E表示边集合,φv是从V到Tv的节点类型映射函数,φe是从E到Te的边类型映射函数,其中Tv和Te分别是节点类型和边类型的集合,高度异构性要求|Tv|+|Te|>>1。根据异构网络G初始化采样元模式S,初始化影响力权重矩阵α;
步骤2:从异构网络每个节点出发,利用基于元模式的随机游走获取k条随机游走路径;
步骤3:利用长度为l的滑动窗在随机游走路径中采样,所有窗口中心节点和窗口内其余节点均分别作为相似节点对提出,所有窗口内的节点都被认为是相似的;
步骤4:根据影响力权重矩阵α和相似节点对snp,利用加权skip-gram算法优化以下目标函数,该目标函数减少相似节点对之间的距离同时增加其余节点对之间的距离,最终求得网络节点特征X∈R|V|*d,其中|V|为异构网络节点数量,d为网络节点特征的维度,满足d《|V|。
其中,up为相似节点对中的一个节点,un为其余节点对中的一个节点,t(up)和t(v)分别表示节点up和节点v的类型,neg表示通过负采样得到的其余节点对,表示从节点类型t(up)到t(v)的影响力权重,p(u|v)表示从节点u观测到节点v的概率;
步骤5:将节点嵌入通入后续有监督分类器中,解决实际任务。
与现有网络嵌入技术与***相比,本发明具有以下优点和有益效果:
1)与现有技术相比,本发明提出了一个新的面向异构网络的基于元模式的相似节点提取技术;
2)与现有技术相比,本发明通过设置影响力矩阵,可以得到多种异构网络特征表达,全面提取异构网络节点间的相似和差异性。
附图说明
图1:为本发明实施例的流程图;
图2:为本发明实施例中元模式示意图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图1,本发明提供的一种基于元模式的高度异构网络多态特征学习方法,包括以下步骤:
步骤1:给定的异构网络G={V,E,φve},其中V表示节点集合,E表示边集合,φv是从V到Tv的节点类型映射函数,φe是从E到Te的边类型映射函数,其中Tv和Te分别是节点类型和边类型的集合,高度异构性要求|Tv|+|Te|》1。根据异构网络G初始化采样元模式S,初始化影响力权重矩阵α;
请见图2,本实施例的元模式S是网络模式的子网络,规定每个节点的加权出度为1。
步骤2:从异构网络每个节点出发,利用基于元模式的随机游走获取k条随机游走路径;
本实施例中,利用基于元模式的随机游走获取k条随机游走路径,具体实现包括以下子步骤:
步骤2.1:查找随机游走路径末端节点在异构网络中的邻居节点集ngb;
假设随机游走路径末端节点为v,首先在元模式中查找节点v的类型所连接的节点和连边类型t,然后在实际网络中查找v满足t的邻居节点集ngb;
步骤2.2:根据元模式计算节点到邻居节点集ngb的转移概率,计算转移概率的具体公式为:
其中,为在元模式S中从节点类型t(vs)到边类型t(est)的转移概率,为元模式S中所有节点类型组成的集合,为元模式中所有从节点类型t(vs)出发的所有边类型组成的集合。
所述转移概率在0~1之间,是元模式中的设定值,在游走中每个节点上的目标转移概率矩阵是非归一化矩阵;
步骤2.3:利用Alias采样方法,从节点转移概率集中采样出目标转移节点;
步骤2.4:将目标转移节点送入游走路径中,然后跳转到步骤2.1,重复多次,直到目标函数中的L小于某一设定的临界值时结束重复。
步骤3:利用长度为l的滑动窗在随机游走路径中采样,所有窗口中心节点和窗口内其余节点均分别作为相似节点对提出,所有窗口内的节点都被认为是相似的;
本实施例中,滑动窗在路径上只提取目标节点对,并非元模式中全部节点对。
步骤4:根据影响力权重矩阵α和相似节点对snp,利用加权skip-gram算法优化以下目标函数,该目标函数减少相似节点对之间的距离同时增加其余节点对之间的距离,最终求得网络节点特征X∈R|V|*d,其中|V|为异构网络节点数量,d为网络节点特征的维度,满足d《|V|。
其中,up为相似节点对中的一个节点,un为其余节点对中的一个节点,t(up)和t(v)分别表示节点up和节点v的类型,neg表示通过负采样得到的其余节点对,表示从节点类型t(up)到t(v)的影响力权重,p(u|v)表示从节点u观测到节点v的概率;
本实施例中,影响力权重大小在0~1,0表示节点类型间影响力较小,分割性较大;1表示节点类型间影响力较大,分割性较小。加权skip-gram算法的目标函数将节点对相似性目标设置为节点对类型的影响力权重。
步骤5:将节点嵌入通入后续有监督分类器中,解决如节点分类、链路预测、聚类等实际任务;
本实施例中,分类器是逻辑回归、支持向量机或神经网络中的一种;
节点分类,是根据部分已知标签的节点,预测其他标签缺失的节点标签,将skip-gram学习的节点特征作为输入特征通入有监督分类器;
链路预测,是将节点对的特征作为输入特征通入有监督分类器,节点对(u,v)的特征f(u,v)可以按照如下方式中的一种进行融合:
(1)均值融合:f(u,v)i=f(u)i+f(v)i/2;
(2)Hadamard融合:f(u,v)i=f(u)i*f(v)i
(3)加权L1融合:f(u,v)i=|f(u)i-f(v)i|;
(4)加权L2融合:f(u,v)i=|f(u)i-f(v)i|;
(5)串联融合:f(u,v)i=concatenate(f(u),f(v));
其中,u和v分别表示异构网络中的两个节点,f(u)和f(v)分别表示节点u和节点v的两个特征嵌入,f(u)i和f(v)i分别表示这两个特征嵌入向量的第i个元素,concatenate函数表示将两个向量f(u)和f(v)进行串联。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (9)

1.一种基于元模式的高度异构网络多态特征学习方法,其特征在于,包括以下步骤:
步骤1:给定异构网络G={V,E,φv,φe},其中V表示节点集合,E表示边集合,φv是从V到Tv的节点类型映射函数,φe是从E到Te的边类型映射函数,其中Tv和Te分别是节点类型和边类型的集合,高度异构性要求|Tv|+|Te|>>1;根据异构网络G初始化采样元模式S,初始化影响力权重矩阵α;
步骤2:从异构网络每个节点出发,利用基于元模式的随机游走获取k条随机游走路径;
步骤3:利用长度为l的滑动窗在随机游走路径中采样,所有窗口中心节点和窗口内其余节点均分别作为相似节点对提出,所有窗口内的节点都被认为是相似的;
步骤4:根据影响力权重矩阵α和相似节点对snp,利用加权skip-gram算法优化以下目标函数,该目标函数减少相似节点对之间的距离同时增加其余节点对之间的距离,最终求得网络节点特征X∈R|V|*d,其中|V|为异构网络节点数量,d为网络节点特征的维度,满足d<<|V|;
其中,up为相似节点对中的一个节点,un为其余节点对中的一个节点,t(up)和t(v)分别表示节点up和节点v的类型,neg表示通过负采样得到的其余节点对,表示从节点类型t(up)到t(v)的影响力权重,p(u|v)表示从节点u观测到节点v的概率;
步骤5:将节点嵌入通入后续有监督分类器中,解决实际任务。
2.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤1中,所述元模式S是网络模式的子网络,规定每个节点的加权出度为1。
3.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤2中,所述利用基于元模式的随机游走获取k条随机游走路径,具体实现包括以下子步骤:
步骤2.1:查找随机游走路径末端节点在异构网络中的邻居节点集ngb;
步骤2.2:根据元模式计算节点到邻居节点集ngb的转移概率,计算转移概率的具体公式为:
其中,为在元模式S中从节点类型t(vs)到边类型t(est)的转移概率,为元模式S中所有节点类型组成的集合,为元模式中所有从节点类型t(vs)出发的所有边类型组成的集合;
所述转移概率在0~1之间,是元模式中的设定值,在游走中每个节点上的目标转移概率矩阵是非归一化矩阵;
步骤2.3:利用Alias采样方法,从节点转移概率集中采样出目标转移节点;
步骤2.4:将目标转移节点送入游走路径中,然后跳转到步骤2.1,重复多次,直到目标函数中的L小于某一设定的临界值时结束重复。
4.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤3中,滑动窗在路径上只提取目标节点对,并非元模式中全部节点对。
5.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤4中,影响力权重大小在0~1,0表示节点类型间影响力较小,分割性较大;1表示节点类型间影响力较大,分割性较小。
6.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤4中,所述加权skip-gram算法的目标函数将节点对相似性目标设置为节点对类型的影响力权重。
7.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤4中,所述从节点u观测到节点v的概率p(u|v)=σ(X(u)Tθ(v)),其中X(u)表示节点u的特征嵌入,θ(v)表示节点v的辅助特征嵌入,σ为sigmoid函数。
8.根据权利要求1所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤5中,所述分类器是逻辑回归、支持向量机或神经网络中的一种。
9.根据权利要求1-8任意一项所述的基于元模式的高度异构网络多态特征学习方法,其特征在于:步骤5中,实际任务包括节点分类、链路预测、聚类;
所述节点分类,是根据部分已知标签的节点,预测其他标签缺失的节点标签,将skip-gram学习的节点特征作为输入特征通入有监督分类器;
所述链路预测,是将节点对的特征作为输入特征通入有监督分类器,节点对(u,v)的特征f(u,v)可以按照如下方式中的一种进行融合:
(1)均值融合:f(u,v)i=f(u)i+f(v)i/2;
(2)Hadamard融合:f(u,v)i=f(u)i*f(v)i
(3)加权L1融合:f(u,v)i=|f(u)i-f(v)i|;
(4)加权L2融合:f(u,v)i=|f(u)i-f(v)i|;
(5)串联融合:f(u,v)i=concatenate(f(u),f(v));
其中,u和v分别表示异构网络中的两个节点,f(u)和f(v)分别表示节点u和节点v的两个特征嵌入,f(u)i和f(v)i分别表示这两个特征嵌入向量的第i个元素,concatenate函数表示将两个向量f(u)和f(v)进行串联。
CN201910017697.6A 2019-01-07 2019-01-07 一种基于元模式的高度异构网络多态特征学习方法 Pending CN109767008A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910017697.6A CN109767008A (zh) 2019-01-07 2019-01-07 一种基于元模式的高度异构网络多态特征学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910017697.6A CN109767008A (zh) 2019-01-07 2019-01-07 一种基于元模式的高度异构网络多态特征学习方法

Publications (1)

Publication Number Publication Date
CN109767008A true CN109767008A (zh) 2019-05-17

Family

ID=66453516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910017697.6A Pending CN109767008A (zh) 2019-01-07 2019-01-07 一种基于元模式的高度异构网络多态特征学习方法

Country Status (1)

Country Link
CN (1) CN109767008A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
CN111581488A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质
CN112507244A (zh) * 2019-09-16 2021-03-16 腾讯科技(深圳)有限公司 社交数据推荐方法、装置、分布式计算集群及存储介质
CN112561688A (zh) * 2020-12-21 2021-03-26 第四范式(北京)技术有限公司 基于图嵌入的***逾期预测方法、装置及电子设备

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507244A (zh) * 2019-09-16 2021-03-16 腾讯科技(深圳)有限公司 社交数据推荐方法、装置、分布式计算集群及存储介质
CN112507244B (zh) * 2019-09-16 2023-09-26 腾讯科技(深圳)有限公司 社交数据推荐方法、装置、分布式计算集群及存储介质
CN111325326A (zh) * 2020-02-21 2020-06-23 北京工业大学 一种基于异质网络表示学习的链路预测方法
CN111400560A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种基于异构图神经网络模型进行预测的方法和***
CN111581488A (zh) * 2020-05-14 2020-08-25 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质
CN111581488B (zh) * 2020-05-14 2023-08-04 上海商汤智能科技有限公司 一种数据处理方法及装置、电子设备和存储介质
CN112561688A (zh) * 2020-12-21 2021-03-26 第四范式(北京)技术有限公司 基于图嵌入的***逾期预测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN109767008A (zh) 一种基于元模式的高度异构网络多态特征学习方法
Bansal et al. Zero-shot object detection
CN112257066B (zh) 面向带权异质图的恶意行为识别方法、***和存储介质
CN101950284B (zh) 中文分词方法及***
CN108595708A (zh) 一种基于知识图谱的异常信息文本分类方法
CN108628970A (zh) 一种基于新标记模式的生物医学事件联合抽取方法
Abdelhade et al. Detecting twitter users’ opinions of arabic comments during various time episodes via deep neural network
US20140047091A1 (en) System and method for supervised network clustering
CN105656692B (zh) 无线传感网络中基于多示例多标记学习的区域监测方法
Meena et al. Image-based sentiment analysis using InceptionV3 transfer learning approach
Agrawal et al. Scalable, semi-supervised extraction of structured information from scientific literature
CN114782752A (zh) 基于自训练的小样本图像集成分类方法及装置
CN106127260A (zh) 一种新颖的多源数据模糊聚类算法
Petkos et al. Graph-based multimodal clustering for social multimedia
CN109033304B (zh) 基于在线深层主题模型的多模态检索方法
Boomija et al. Comparison of partition based clustering algorithms
CN109002561A (zh) 基于样本关键词学习的文本自动分类方法、***及介质
Li et al. Inferring user profiles in online social networks based on convolutional neural network
Kularbphettong The awareness of environment conservation based on opinion data mining from social media
Gao et al. Semi-supervised graph embedding for multi-label graph node classification
Yu et al. Social group suggestion from user image collections
Zhang et al. Federated model decomposition with private vocabulary for text classification
CN111191462B (zh) 一种基于链路预测实现跨语言知识空间实体对齐方法及***
US11436262B2 (en) System and method of creating entity records
López-Sánchez et al. Dynamic detection of radical profiles in social networks using image feature descriptors and a case-based reasoning methodology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication