CN110555050A - 一种基于元路径的异构网络节点表示学习方法 - Google Patents

一种基于元路径的异构网络节点表示学习方法 Download PDF

Info

Publication number
CN110555050A
CN110555050A CN201810294523.XA CN201810294523A CN110555050A CN 110555050 A CN110555050 A CN 110555050A CN 201810294523 A CN201810294523 A CN 201810294523A CN 110555050 A CN110555050 A CN 110555050A
Authority
CN
China
Prior art keywords
path
meta
node
nodes
paths
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810294523.XA
Other languages
English (en)
Other versions
CN110555050B (zh
Inventor
王晓玲
吴桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810294523.XA priority Critical patent/CN110555050B/zh
Publication of CN110555050A publication Critical patent/CN110555050A/zh
Application granted granted Critical
Publication of CN110555050B publication Critical patent/CN110555050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于元路径的异构网络节点表示学习方法。本发明方法考虑到异构网络图中包含多种节点类型和关系类型,采用抽取元路径的方式,将网络图中丰富的语义信息和结构信息存储在多条元路径中;本发明在每条元路径中通过学习节点的向量表示保存节点在元路径中的特征信息,然后将多条元路径整合一起进行共同训练,从而将整个异构网络中的语义信息和结构信息保存在节点向量表示当中。本发明具有更高的分类准确率,能够更好地将节点在异构网络中的特征信息保存在节点的向量表示当中,可以根据具体目标任务对元路径进行自由选取,更具灵活性。

Description

一种基于元路径的异构网络节点表示学习方法
技术领域
本发明属于图的表示学习技术领域,更具体地讲,涉及一种基于元路径的异构网络节点表示学习方法。
背景技术
现如今,网络图成为一种常见数据组织形式。现实世界中越来越多的应用都以网络图的形式保存和呈现数据。比如Facebook,twitter形成的社交网络图,DBLP上构建的论文引用网络,生物学中蛋白质分子间构成的网络等等。为了挖掘网络图中潜藏的有价值的信息,需要将网络图转化为机器学习可以处理的形式,因此网络表示学习成为一个关键的步骤。
与仅含一种节点类型和关系的同质网络图相比,异质网络图通常包含多种类型节点和关系。另外,同质网络图中节点之间只包含一种关系,其表达的语义也都相同,然而在异质网络图中,不同节点类型之间的连接代表不同的关系,每种关系所表达的语义也并不相同,相对于同质网络图,异质网络图结构更复杂,也更符合现实世界中数据存在的形式,另外,它包含的节点对象和关系种类更多样话,涵盖的信息更丰富,所以完成对异质网络图的表示更具有现实意义,存在的挑战也更大。
目前,绝大多数网络表示学习方法仅限于处理同质图,无法对现实中常见的异质网络图进行表示。虽然存在一些对异质网络图的表示学习方法,但这些方法可处理的节点类型和关系类型有限,对网络图中丰富的语义信息和结构信息不能够充分利用。
为了弥补以前方法对异质信息网络表示能力不足,本发明提出一种基于元路径的异构网络节点表示学习方法。根据节点之间存在的语义信息构建出多条元路径,将全部元路径结合在一起共同训练,使得学习得到的节点向量可以保存原网络图中的结构特征和语义信息。
发明内容
本发明要解决的技术问题是如何将异构网络图中包含的丰富的语义信息和结构信息保存在节点的向量表示当中,以克服现有网络表示学习方法对含有多种节点类型和关系类型的复杂异构网络图处理能力不足的问题。
为了解决上述技术问题,本发明提出一种基于元路径的异构网络节点表示学习方法,基于考虑到异构信息网络图中包含多种节点类型和关系类型,采用抽取元路径的方式,将网络图中丰富的多种多样的语义信息和结构信息存储在多条元路径中;本发明在每条元路径中通过学习节点的向量表示保存节点在元路径中的特征信息,然后将多条元路径整合一起进行共同训练,从而将整个异构网络中的语义信息和结构信息保存在节点向量表示当中。
本发明基于元路径的异构网络节点表示学习方法,包括以下步骤:
S1:基于异构信息网络图构建网络架构;然后依据网络架构从异构信息网络中获取多条不同类型的元路径;再将元路径进行数学量化,获得每条元路径对应的矩阵表示形式。
S2:以一条元路径包含的节点信息为基础,根据元路径内目标节点与周围邻居节点的连接关系,获取目标节点向量表示的条件概率分布;再根据该元路径的矩阵表示,获取元路径内目标节点的经验概率分布;用KL散度计算两个分布之间的距离,通过最小化两分布间距离,从而将一条元路径内节点信息保存在目标节点的向量表示当中。
S3:从异构网络图中选取多条元路径构成元路径集合,将集合中所有元路径整合一起进行联合训练来获得节点的向量表示,学习得到的节点向量保存了所述异构信息网络图中的语义信息和结构信息。在模型训练过程中,采用边采样和负采样方法并配合随机梯度下降算法对模型进行优化。
S4:从步骤S3的多元路径联合训练模型中获得包涵盖整个异构网络图节点的节点表示矩阵,矩阵每一行的向量表示对应网络图中的一个节点。利用学习得到的节点向量确定节点所属类别,并与节点已有类别进行比较以评判学习得到的节点表示向量是否保存了节点在原网络图中的结构特征和语义信息,其中节点已有类别信息存储在原异质信息网络数据集中。
进一步地,所述步骤S1包括以下步骤:
S11:构建异构信息网络数据集;所述数据集包括多种类型的节点和多种类型的关系(边);节点之间的关联关系不仅可以表示异构网络图的网络结构,还可以表示节点间的语义信息。
S12:根据所述数据集,抽取出所有节点类型和关系类型构建成网络架构;网络架构中每个节点代表一种节点类型,每一条边代表一种关系类型;构建出的网络架构可以清楚地展示异构信息网络图中节点类型和关系类型之间的结构关系。
S13:依据网络架构从异构信息网络图中抽取元路径并对获取得到的元路径进行数学量化,获得每条元路径的矩阵表示。
进一步地,所述步骤S13包括以下步骤:
S131:依据网络架构中两种节点类型之间直接连接关系获取一跳距离元路径;然后根据一跳距离元路径所包含的两种类型的节点以及节点间存在的连接关系(路径实例)构造出对应的邻接矩阵,其中矩阵内任意位置的值表示元路径内两节点构成的路径实例权重大小。
S132:依据网络架构中两种节点类型之间间接连接关系获取K跳距离元路径;K跳距离元路径的获取采用路径拼接的方法,根据K跳距离元路径中节点的排列顺序让多条一跳距离元路径按节点顺序首尾相接;对应的K跳距离元路径的邻接矩阵由一跳距离元路径的邻接矩阵通过矩阵乘法获得。
进一步地,所述步骤S2包括以下步骤:
S21:在一条元路径L内,路径起始节点类型包含的节点定义为目标节点,路径终端节点类型包含的节点定义为目标节点的邻居节点。由目标节点vi通过元路径L连接到其中一个邻居节点vj的条件概率为:
式中,表示节点vi对应的向量表示,表示节点vj对应的向量表示,T(L)为元路径L终端节点类型包含的节点集合。在该元路径上,目标节点在整个邻居节点集合上的条件概率分布定义为:p(·|vi;L)。
S22:根据元路径L对应的矩阵表示ML,由目标节点vi通过元路径L连接到其中一个邻居节点vj的经验概率为:
式中,是元路径L上路径实例lij的权重,是元路径L上含节点vi的路径实例权重和。在该元路径上,目标节点在整个邻居节点集合上的经验概率分布定义为:
S23:采用KL散度计算两个概率分布间的距离,通过最小化两分布间的距离,让两个概率分布尽可能接近,从而将一条元路径内节点间的语义信息和结构信息保存在目标节点的向量表示当中:
DKL()代表采用KL散度计算分布距离,S(L)代表元路径起始节点类型包含的节点集合,λi表示节点vi在元路径L中的重要性,设置
进一步地,所述步骤S3包括以下步骤:
S31:从异构信息网络中选取多条包含目标节点的元路径构建成一个元路径集合Γ(L);将集合中每条元路径通过步骤S2获得在该元路径下目标节点的向量表示函数;然后将集合中所有元路径整合一起进行联合训练,通过最小化所有元路径节点向量表示函数来获得目标节点在整个异构网络中的向量表示:
S32:对于步骤S31联合训练函数中条件概率p(vj|vi;L)的计算,采用负采样的方法代替softmax计算方法,根据每条元路径的噪声分布,采样多个路径实例负例来降低计算开销,让logp(vj|vi;L)近似等于:
式中,σ为sigmoid函数,K是负采样的个数,是元路径L的噪声分布,设置是元路径L上含节点v的路径实例权重和。
S33:模型初始化过程中,在元路径集合Γ(L)内根据每条元路径端点的节点类型分别构造对应类型的负采样表;在模型训练过程中,首先进行边采样,将元路径集合Γ(L)包含的所有路径实例视为边,使用alias表根据边的权重对边进行采样;然后根据采样的路径实例所属元路径类型,选择对应的负采样表;接着根据从负采样表中选取路径实例负例参与随机梯度下降运算并更新模型参数。
本发明的方法,在节点分类任务上相对于现有的网络表示学习方法具有更高的分类准确率,这也证明了本发明能够更好地将节点在异构网络中的特征信息保存在节点的向量表示当中;另外,由于可以根据具体目标任务对元路径进行自由选取,从而使得本方法更具灵活性。
附图说明
图1表示本发明基于元路径的异构网络节点表示学习方法总体流程图。
图2表示本发明一实施例中网络架构图。
图3表示本发明基于元路径的异构网络节点表示学习方法的步骤S13的流程示意图。
图4表示本发明基于元路径的异构网络节点表示学习方法的步骤S2的流程示意图。
图5表示本发明基于元路径的异构网络节点表示学习方法的步骤S3的流程示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细描述,以便本领域技术人员可以更好的理解本发明。以下实施例用于说明本发明,但不能用来限制本发明的适用范围。
本发明提出一种基于元路径的异构网络节点表示学习方法,如图1所示,所述方法包括以下步骤:
S1:基于异构信息网络图构建网络架构,可以清楚地展示异构信息网络图中多种节点类型和关系类型之间的结构关系;然后依据网络架构从异构信息网络中获取多条不同类型的元路径;再将元路径进行数学量化,获得每条元路径对应的矩阵表示形式。
S2:以一条元路径包含的节点信息为基础,根据元路径内目标节点与周围邻居节点的连接关系,获取目标节点向量表示的条件概率分布;再根据该元路径的矩阵表示,获取目标节点的经验概率分布;用KL散度计算两个分布之间的距离,通过最小化分布距离,让两个概率分布尽可能接近,从而将一条元路径内节点间的语义信息和结构信息保存在目标节点的向量表示当中。
S3:从异构网络图中选取多条元路径构成元路径集合,将集合中所有元路径整合一起进行联合训练来获得节点的向量表示,学习得到的节点向量保存了异构网络图中丰富的语义信息和结构信息。在模型训练过程中,为加速模型计算并降低模型训练复杂度,采用边采样和负采样方法并配合随机梯度下降算法对模型进行优化。
S4:从步骤S3的多元路径联合训练模型中获得包涵盖整个异构网络图节点的节点表示矩阵,矩阵每一行的向量表示对应网络图中的一个节点。利用学习得到的节点向量确定节点所属类别,并与节点已有类别进行比较,通过分类准确率来评判学习得到的节点表示向量是否保存了节点在原网络图中的结构特征和语义信息,其中节点已有类别信息存储在原异质信息网络数据集中。
在本发明一实施例中,所述步骤S1包括以下步骤:
S11:构建异构信息网络数据集;所述数据集包括多种类型的节点和多种类型的关系(边);节点之间的关联关系不仅可以表示异构网络图的网络结构,还可以表示节点间的语义信息。
S12:根据所述数据集,抽取出所有节点类型和关系类型构建成网络架构;网络架构中每个节点代表一种节点类型,每一条边代表一种关系类型;构建出的网络架构可以清楚地展示异构信息网络图中节点类型和关系类型之间的结构关系。如图2所示,对于一个电影数据集包含5种节点类型,分别是:用户,电影,年份,风格,关键词。节点类型之间相互连接构成多种关系类型,比如:用户对电影的评论关系,电影与风格的所属关系,电影与关键字的描述关系,电影与年份的发布关系等。
S13:依据网络架构从异构信息网络图中抽取元路径并对获取得到的元路径进行数学量化,获得每条元路径的矩阵表示。
在本发明一实施例中,如图3所示,所述步骤S13包括以下步骤:
S131:依据网络架构中两种节点类型之间直接连接关系获取一跳距离元路径;然后根据一跳距离元路径所包含的两种类型的节点以及节点间存在的连接关系(路径实例)构造出对应的邻接矩阵,其中矩阵内任意位置的值表示元路径内两节点构成的路径实例权重大小。如果元素值为0,代表在该元路径内两节点构成的路径实例权重为0,即两节点之间不存在路径实例;如果元素值不为0,代表在该元路径下两节点间存在路径实例,元素值的大小代表路径实例在该元路径中出现的次数。例如,根据用户与电影之间直接连接的评论关系,可抽取出一跳距离元路径L(MU),其中任意用户对电影的一条评论记录视为一条路径实例l,根据元路径内节点类型包含的节点间的连接构建出邻接矩阵ML(MU),如果矩阵中任意位置元素值为0,代表该用户没有评论过此电影;如果矩阵中任意位置元素不为0,代表该用户对此电影有过评价。
S132:依据网络架构中两种节点类型之间间接连接关系获取K跳距离元路径;K跳距离元路径的获取采用路径拼接的方法,根据K跳距离元路径中节点的排列顺序让多条一跳距离元路径首尾相接;对应的K跳距离元路径的邻接矩阵由一跳距离元路径的邻接矩阵通过矩阵乘法获得。例如,喜欢同一风格电影的用户之间间接连接构成的K跳距离元路径L(UMGMU),可由多条一条距离元路径按照元路径内节点顺序首尾拼接构成,即L(UMGMU)=L(UM)L(MG)L(GM)L(MU);其对应的邻接矩阵ML(UMGMU)=ML(UM)×ML(MG)×ML(GM)×ML(MU)
在本发明一实施例中,如图4所示,所述步骤S2包括以下步骤:
S21:在一条元路径L内,路径起始节点类型包含的节点定义为目标节点,路径终端节点类型包含的节点定义为目标节点的邻居节点。由目标节点vi通过元路径L连接到其中一个邻居节点vj的条件概率为:
式中,表示节点vi对应的向量表示,表示节点vj对应的向量表示,T(L)为元路径L终端节点类型包含的节点集合。在该条元路径上,对于起始节点集合S(L)中每一个节点vi,在路径终端节点集合T(L)上实际定义了一个条件概率分布,定义为:p(·|vi;L)。
S22:根据元路径L对应的矩阵表示ML,由目标节点vi通过元路径L连接到其中一个邻居节点vj的经验概率为:
式中,是元路径L上路径实例lij的权重,是元路径L上含节点vi的路径实例权重和。在该元路径上,目标节点在整个邻居节点集合上的经验概率分布定义为:
S23:采用KL散度(或相对熵)计算两个概率分布间的距离,KL散度可以计算出两个概率分布的差异性,差异性越大KL散度值越大,差异越小则对应的KL散度值越小。通过最小化两概率分布间的KL散度值,让两个概率分布尽可能接近,从而将一条元路径内节点间的语义信息和结构信息保存在目标节点的向量表示当中:
DKL()代表采用KL散度计算概率分布间距离,S(L)代表元路径起始节点类型包含的节点集合,λi表示节点vi在元路径L中的重要性,设置
在本发明一实施例中,如图5所示,所述步骤S3包括以下步骤:
S31:从异构信息网络中选取多条包含目标节点的元路径构建成一个元路径集合Γ(L);将集合中每条元路径通过步骤S2获得在该元路径下目标节点的向量表示函数;然后将集合中所有元路径整合一起进行联合训练,通过最小化所有元路径节点向量表示函数来获得目标节点在整个异构网络中的向量表示:
S32:对于步骤S31联合训练函数中条件概率p(vj|vi;L)的计算。由于在异构网络图中,元路径内路径实例数量可能非常多,从而使得从目标节点发出的路径终端节点集合T(L)中节点数量非常巨大,造成softmax计算开销很大。为降低计算开销,采用负采样的方法代替softmax计算方法,根据每条元路径的噪声分布,采样多个路径实例负例来降低计算开销,让logp(vj|vi;L)近似等于:
式中,σ为sigmoid函数,K是负采样的个数,是元路径L的噪声分布,设置是元路径L上含节点v的路径实例权重和。
S33:模型初始化过程中,在元路径集合Γ(L)内根据每条元路径上端点节点类型分别构造一张对应类型的负采样表;在模型训练过程中,首先进行边采样,将元路径集合Γ(L)包含的所有路径实例视为边,使用alias表根据边的权重对边进行采样;然后根据采样的路径实例所属元路径类型,选择对应的负采样表;接着根据从负采样表中选取K条路径实例负例参与随机梯度下降运算并更新模型参数。
实施例
下面通过一个实施例对上述方法进行更加详细的介绍。
图1所示,本发明基于元路径的异构网络节点表示学习方法,包括如下步骤:
A:基于异构信息网络图构建网络架构;然后依据网络架构从异构信息网络中获取多条不同类型的元路径;再将元路径进行数学量化,获得每条元路径对应的矩阵表示形式。
具体地,步骤A是通过执行如下步骤实现的:
A1:构建异构信息网络数据集,从现有电影评论网站中爬取电影描述信息,用户评论数据和划分的电影风格体系。将爬取的数据整合成一张关于电影的异构信息网络图,该网络图包含多种类型的节点和多种类型的关系(边);节点之间的关联关系不仅可以表示异构网络图的网络结构,还可以表示节点间的语义信息。
A2:根据所述数据集,抽取出所有节点类型和关系类型构建成网络架构,如图2所示。网络架构中每个节点代表一种节点类型,每一条边代表一种关系类型。该电影数据集包含5种节点类型,分别是:用户,电影,年份,风格,关键词。节点类型之间相互连接构成多种关系类型,比如:用户对电影的评论关系,电影与风格的所属关系,电影与关键字的描述关系,电影与年份的发布关系等。
A3:依据网络架构从异构网络图中抽取元路径并对获取得到的元路径进行数学量化,获得每条元路径的矩阵表示。
具体地,根据用户与电影之间直接连接的评论关系,取出一跳距离元路径L(MU),其中用户对电影的一条评论记录视为一条路径实例l,根据元路径内节点类型包含的节点间的连接构建出邻接矩阵ML(MU),如果矩阵中任意位置元素值为0,代表该用户没有评论过此电影;如果矩阵中任意位置元素不为0,代表该用户对此电影有过评价。表1是本实施例中一跳距离元路径L(MU)邻接矩阵部分信息。
表1元路径L(MU)邻接矩阵ML(MU)
具体地,根据喜欢同一风格电影的用户之间间接连接构成的K跳距离元路径L(UMGMU),可由多条一条距离元路径按照元路径内节点顺序首尾拼接构成,即L(UMGMU)=L(UM)L(MG)L(GM)L(MU);其对应的邻接矩阵ML(UMGMU)=ML(UM)×ML(MG)×ML(GM)×ML(MU)
B:以一条元路径包含的节点信息为基础,根据元路径内目标节点与周围邻居节点的连接关系,获取目标节点向量表示的条件概率分布;再根据该元路径的矩阵表示,获取元路径内目标节点的经验概率分布;通过最小化两分布间距离,从而将一条元路径内节点信息保存在目标节点的向量表示当中。
具体地,步骤B是通过执行如下步骤实现的:
B1:在一条元路径L(MU)内,路径起始节点类型M包含的节点定义为目标节点,路径终端节点类型U包含的节点定义为目标节点的邻居节点。由目标节点通过元路径L(MU)连接到其中一个邻居节点的条件概率为:
B2:根据元路径L(MU)对应的矩阵表示ML(MU),由目标节点通过元路径L(MU)连接到其中一个邻居节点的经验概率为:
B3:采用KL散度(或相对熵)计算两个概率分布间的距离。通过最小化两概率分布间的KL散度值,让两个概率分布尽可能接近,从而将元路径L(MU)内节点间的语义信息和结构信息保存在目标节点的向量表示当中:
C:从电影异构网络图中选取多条元路径构成元路径集合,将集合中所有元路径整合一起进行联合训练来获得节点的向量表示。在模型训练过程中,采用边采样和负采样方法并配合随机梯度下降算法对模型进行优化。
具体地,步骤C是通过执行如下步骤实现的:
C1:从电影异构网络中选取多条包含目标节点的元路径构建成一个元路径集合Γ(L),例如选取以电影(M)为目标节点的多条元路径构建元路径集合Γ(L)={L(MU),L(MK),L(MUM),L(MKM)};将集合中每条元路径通过步骤B获得在该元路径下目标节点的向量表示函数;然后将集合中所有元路径整合一起进行联合训练,通过最小化所有元路径节点向量表示函数来获得目标节点在整个异构网络中的向量表示:
C2:对于联合训练函数中条件概率p(vj|vi;L)的计算,采用负采样代替softmax计算方法,根据每条元路径的噪声分布,采样多个路径实例负例来降低计算开销,让logp(vj|vi;L)近似等于:
C3:模型初始化过程中,在元路径集合Γ(L)内根据每条元路径上端点节点类型分别构造一张对应类型的负采样表;在模型训练过程中,首先进行边采样,将元路径集合Γ(L)包含的所有路径实例视为边,使用alias表根据边的权重对边进行采样;然后根据采样的路径实例所属元路径类型,选择对应的负采样表;接着根据从负采样表中选取K条路径实例负例参与随机梯度下降运算并更新模型参数。
D:从多元路径联合训练模型中获得包涵盖整个异构网络图节点的节点表示矩阵U,矩阵每一行的向量表示对应网络图中的一个节点。将学习得到的电影节点向量与所属风格类别确认关联,然后将电影节点分为两部分,一部分作为训练集训练分类器模型,另一部分作为测试集,通过分类器模型给节点确定所属类别,然后与节点已有类别进行比较以评判学习得到的节点表示向量是否保存了节点在原网络图中的结构特征和语义信息,其中电影节点已有风格类别信息存储在原电影异质信息网络数据集中。
本发明方法考虑到异构网络图中包含多种节点类型和关系类型,采用抽取元路径的方式,让元路径包含不同类型节点和关系,从而将网络图中丰富的语义信息和结构信息存储在多条元路径中;本发明在每条元路径中通过学习节点的向量表示保存节点在元路径中的特征信息,然后将多条元路径整合一起进行共同训练,从而将整个异构网络中的语义信息和结构信息保存在节点向量表示当中。本发明的方法,在节点分类任务上相对于现有的网络表示学习方法具有更高的分类准确率,这也证明了本发明能够更好地将节点在异构网络中的特征信息保存在节点的向量表示当中;另外,由于可以根据具体目标任务对元路径进行自由选取,从而使得方法更具灵活性。
以上实施例仅用于对本发明方法的说明,以便本技术领域内技术人员对本发明的理解,但实施例不能是对本发明的限制,并且本发明不仅限于具体实施例的范围,本技术领域内的普通技术人员应当明白,对本发明的技术方案进行的组合,修改和等效替换,都不会脱离本发明的精神和范围,一切利用本发明构思的发明创造均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于元路径的异构网络节点表示学习方法,其特征在于,基于异构信息网络图中包含的多种节点类型和关系类型,采用抽取元路径的方式,将所述异构信息网络图中的多种的语义信息和结构信息存储在多条元路径中;在每一条元路径中通过学习节点的向量表示保存节点在元路径中的特征信息,然后将多条元路径整合一起进行共同训练,从而将整个异构信息网络图中的语义信息和结构信息保存在节点向量表示当中。
2.如权利要求1所述的基于元路径的异构网络节点表示学习方法,其特征在于,该方法包括以下步骤:
S1:基于异构信息网络图构建网络架构;依据所述网络架构从所述异构信息网络中获取多条多种类型的元路径;再将所述元路径进行数学量化,获得每条元路径对应的矩阵表示;
S2:以一条元路径包含的节点信息为基础,根据元路径内目标节点与周围邻居节点的连接关系,获取目标节点向量表示的条件概率分布;再根据所述元路径的矩阵表示,获取元路径内目标节点的经验概率分布;用KL散度计算两个分布之间的距离,通过最小化分布距离,从而将一条元路径内节点间的语义信息和结构信息保存在目标节点的向量表示当中;
S3:从所述异构信息网络图中选取多条元路径构成元路径集合,将集合中所有元路径整合一起进行联合训练来获得节点的向量表示,学习得到的节点向量保存了所述异构信息网络图中的语义信息和结构信息;
S4:从步骤S3的多元路径联合训练模型中获得包涵盖整个所述异构信息网络图节点的节点表示矩阵,矩阵每一行的向量表示对应网络图中的一个节点;利用学习得到的节点表示向量确定节点所属类别,并与节点已有类别进行比较,以评判学习得到的节点表示向量是否保存了节点在原异构信息网络图中的结构信息和语义信息。
3.根据权利要求2所述的异构网络节点表示学习方法,其特征在于,所述步骤S1包括以下步骤:
S11:构建异构信息网络数据集,其包括多种类型的节点和多种类型的关系;
S12:根据所述异构信息网络数据集,抽取出所有节点类型和关系类型构建成网络架构;
S13:依据所述网络架构从所述异构信息网络图中抽取元路径,并对获取得到的元路径进行数学量化,获得每条元路径的矩阵表示。
4.根据权利要求3所述的方法,其特征在于,所述步骤S13包括以下步骤:
S131:依据所述网络架构中两种节点类型之间直接连接关系获取一跳距离元路径;然后根据所述一跳距离元路径所包含的两种类型的节点以及节点间存在的连接关系即路径实例,构造对应的邻接矩阵;其中,所述邻接矩阵内任意位置值表示元路径内两节点构成的路径实例权重大小;如果所述元素值为0,代表在该元路径内两节点构成的路径实例权重为0,即两节点之间不存在路径实例;如果所述元素值不为0,代表在该元路径下两节点间存在路径实例;
S132:依据所述网络架构中两种节点类型之间间接连接关系获取K跳距离元路径;所述K跳距离元路径的获取采用路径拼接的方法,根据所述K跳距离元路径中节点的排列顺序让多条所述一跳距离元路径首尾相接;对应的K跳距离元路径的邻接矩阵由一跳距离元路径的邻接矩阵通过矩阵乘法获得。
5.根据权利要求2所述的异构网络节点表示学习方法,其特征在于,所述步骤S2包括以下步骤:
S21:在一条元路径L内,由目标节点vi通过元路径L连接到其中一个邻居节点vj的条件概率为:
式中,表示目标节点vi对应的向量表示,表示邻居节点vj对应的向量表示,T(L)为元路径L终端节点类型包含的节点集合;所述目标节点vi在整个邻居节点集合上的条件概率分布定义为:p(·|vi;L);
S22:根据步骤S21中元路径L对应的矩阵表示ML,由目标节点vi通过元路径L连接到其中一个邻居节点vj的经验概率为:
式中,是元路径L上路径实例lij的权重,是元路径L上含目标节点vi的路径实例权重和。在该元路径上,目标节点在整个邻居节点集合上的经验概率分布定义为:
S23:采用KL散度计算所述条件概率和经验概率分布间的距离,通过最小化两分布间的距离,让两个概率分布尽可能接近,从而将一条元路径内节点间的语义信息和结构信息保存在目标节点的向量表示当中:
其中,DKL()代表采用KL散度计算分布距离,S(L)代表元路径起始节点类型包含的节点集合,λi表示节点vi在元路径L中的重要性。
6.根据权利要求2所述的异构网络节点表示学习方法,其特征在于,所述步骤S3包括以下步骤:
S31:从异构信息网络中选取多条包含目标节点的元路径构建成一个元路径集合Γ(L);将集合中每条元路径通过步骤S2获得在该元路径下目标节点的向量表示函数;然后将集合中所有元路径整合一起进行联合训练,通过最小化所有元路径节点向量表示函数来获得目标节点在整个异构网络中的向量表示:
S32:对于步骤S31联合训练函数中条件概率p(vj|vi;L)的计算,采用负采样的方法代替softmax计算方法,根据每条元路径的噪声分布,采样多个路径实例负例来降低计算开销,让logp(vj|vi;L)近似等于:
式中,σ为sigmoid函数,K是负采样的个数,是元路径L的噪声分布,设置 是元路径L上含节点v的路径实例权重和。
S33:模型初始化过程中,在元路径集合Γ(L)内根据每条元路径上端点节点类型分别构造一张对应类型的负采样表;在模型训练过程中,首先进行边采样,将元路径集合Γ(L)包含的所有路径实例视为边,使用alias表根据边的权重对边进行采样;然后根据采样的路径实例所属元路径类型,选择对应的负采样表;接着根据从负采样表中选取路径实例负例参与随机梯度下降运算并更新模型参数。
CN201810294523.XA 2018-03-30 2018-03-30 一种基于元路径的异构网络节点表示学习方法 Active CN110555050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810294523.XA CN110555050B (zh) 2018-03-30 2018-03-30 一种基于元路径的异构网络节点表示学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810294523.XA CN110555050B (zh) 2018-03-30 2018-03-30 一种基于元路径的异构网络节点表示学习方法

Publications (2)

Publication Number Publication Date
CN110555050A true CN110555050A (zh) 2019-12-10
CN110555050B CN110555050B (zh) 2023-03-31

Family

ID=68733619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810294523.XA Active CN110555050B (zh) 2018-03-30 2018-03-30 一种基于元路径的异构网络节点表示学习方法

Country Status (1)

Country Link
CN (1) CN110555050B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111476322A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于特征优化的元路径挖掘方法
CN111476249A (zh) * 2020-03-20 2020-07-31 华东师范大学 多尺度大感受野卷积神经网络的构建方法
CN111737535A (zh) * 2020-06-22 2020-10-02 复旦大学 一种基于元结构和图神经网络的网络表征学习方法
CN112148931A (zh) * 2020-09-29 2020-12-29 河北工业大学 用于高阶异构图分类的元路径学习方法
CN112182511A (zh) * 2020-11-27 2021-01-05 中国人民解放军国防科技大学 复杂语义增强异构信息网络表示学习方法和装置
CN112528275A (zh) * 2020-11-23 2021-03-19 浙江工业大学 基于元路径学习与子图采样的apt网络攻击检测方法
CN112770013A (zh) * 2021-01-15 2021-05-07 电子科技大学 一种基于边采样的异质信息网络嵌入方法
CN112801288A (zh) * 2021-02-05 2021-05-14 厦门市美亚柏科信息股份有限公司 一种图网络的向量表示方法及装置
CN112836050A (zh) * 2021-02-04 2021-05-25 山东大学 针对关系不确定性的引文网络节点分类方法及***
CN112887143A (zh) * 2021-01-27 2021-06-01 武汉理工大学 一种基于元搜索的仿生控制方法
CN113806488A (zh) * 2021-09-24 2021-12-17 石家庄铁道大学 一种基于元结构学习的异构图转换的文本挖掘方法
CN114124729A (zh) * 2021-11-23 2022-03-01 重庆邮电大学 一种基于元路径的动态异质网络表示方法
CN115314398A (zh) * 2022-09-29 2022-11-08 南昌航空大学 一种评估异质信息网络关键节点的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及***
CN105913125A (zh) * 2016-04-12 2016-08-31 北京邮电大学 异质信息网络元路径确定、链路预测方法及装置
CN106354862A (zh) * 2016-09-06 2017-01-25 山东大学 一种异构网络中多维个性化推荐方法
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
US20170286190A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Structural and temporal semantics heterogeneous information network (hin) for process trace clustering
CN107491540A (zh) * 2017-08-24 2017-12-19 济南浚达信息技术有限公司 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955535A (zh) * 2014-05-14 2014-07-30 南京大学镇江高新技术研究院 一种基于元路径的个性化推荐方法及***
CN106897254A (zh) * 2015-12-18 2017-06-27 清华大学 一种网络表示学习方法
US20170286190A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Structural and temporal semantics heterogeneous information network (hin) for process trace clustering
CN105913125A (zh) * 2016-04-12 2016-08-31 北京邮电大学 异质信息网络元路径确定、链路预测方法及装置
CN106354862A (zh) * 2016-09-06 2017-01-25 山东大学 一种异构网络中多维个性化推荐方法
CN107491540A (zh) * 2017-08-24 2017-12-19 济南浚达信息技术有限公司 一种结合深度贝叶斯模型和协同异构信息嵌入的电影推荐方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TAO-YANG FU ET AL.: ""HIN2Vec: Explore Meta-paths in Heterogeneous Information Networks for Representation Learning"", 《ACM》 *
郭振宏,***: ""异质信息网络中演员合作关系的链路预测"", 《计算机工程》 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091005A (zh) * 2019-12-20 2020-05-01 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111091005B (zh) * 2019-12-20 2022-05-13 北京邮电大学 一种基于元结构的无监督异质网络表示学习方法
CN111144577B (zh) * 2019-12-26 2022-04-22 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111144577A (zh) * 2019-12-26 2020-05-12 北京百度网讯科技有限公司 异构图之中节点表示的生成方法、装置和电子设备
CN111476249A (zh) * 2020-03-20 2020-07-31 华东师范大学 多尺度大感受野卷积神经网络的构建方法
CN111476322A (zh) * 2020-05-22 2020-07-31 哈尔滨工程大学 一种基于特征优化的元路径挖掘方法
CN111476322B (zh) * 2020-05-22 2022-05-20 哈尔滨工程大学 一种基于特征优化的元路径挖掘方法
CN111737535A (zh) * 2020-06-22 2020-10-02 复旦大学 一种基于元结构和图神经网络的网络表征学习方法
CN111737535B (zh) * 2020-06-22 2022-10-18 复旦大学 一种基于元结构和图神经网络的网络表征学习方法
CN112148931A (zh) * 2020-09-29 2020-12-29 河北工业大学 用于高阶异构图分类的元路径学习方法
CN112148931B (zh) * 2020-09-29 2022-11-04 河北工业大学 用于高阶异构图分类的元路径学习方法
CN112528275A (zh) * 2020-11-23 2021-03-19 浙江工业大学 基于元路径学习与子图采样的apt网络攻击检测方法
CN112182511A (zh) * 2020-11-27 2021-01-05 中国人民解放军国防科技大学 复杂语义增强异构信息网络表示学习方法和装置
CN112182511B (zh) * 2020-11-27 2021-02-19 中国人民解放军国防科技大学 复杂语义增强异构信息网络表示学习方法和装置
CN112770013A (zh) * 2021-01-15 2021-05-07 电子科技大学 一种基于边采样的异质信息网络嵌入方法
CN112887143A (zh) * 2021-01-27 2021-06-01 武汉理工大学 一种基于元搜索的仿生控制方法
CN112887143B (zh) * 2021-01-27 2023-03-24 武汉理工大学 一种基于元搜索的仿生控制方法
CN112836050A (zh) * 2021-02-04 2021-05-25 山东大学 针对关系不确定性的引文网络节点分类方法及***
CN112836050B (zh) * 2021-02-04 2022-05-17 山东大学 针对关系不确定性的引文网络节点分类方法及***
CN112801288A (zh) * 2021-02-05 2021-05-14 厦门市美亚柏科信息股份有限公司 一种图网络的向量表示方法及装置
CN113806488A (zh) * 2021-09-24 2021-12-17 石家庄铁道大学 一种基于元结构学习的异构图转换的文本挖掘方法
CN113806488B (zh) * 2021-09-24 2024-02-02 石家庄铁道大学 一种基于元结构学习的异构图转换的文本挖掘方法
CN114124729A (zh) * 2021-11-23 2022-03-01 重庆邮电大学 一种基于元路径的动态异质网络表示方法
CN115314398A (zh) * 2022-09-29 2022-11-08 南昌航空大学 一种评估异质信息网络关键节点的方法

Also Published As

Publication number Publication date
CN110555050B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110555050B (zh) 一种基于元路径的异构网络节点表示学习方法
US10176364B2 (en) Media content enrichment using an adapted object detector
US10204090B2 (en) Visual recognition using social links
CN110188210B (zh) 一种基于图正则化与模态独立的跨模态数据检索方法及***
US11640634B2 (en) Deep learning based visual compatibility prediction for bundle recommendations
CN110033097B (zh) 基于多个数据域确定用户与物品的关联关系的方法及装置
CN110598118A (zh) 资源对象的推荐方法、装置及计算机可读介质
WO2019109724A1 (zh) 一种推荐物品的方法和装置
JP6661754B2 (ja) コンテンツ配信方法および装置
Cho et al. Latent space model for multi-modal social data
CN111324773A (zh) 一种背景音乐构建方法、装置、电子设备和存储介质
CN113918834A (zh) 融合社交关系的图卷积协同过滤推荐方法
CN115438225A (zh) 视频文本互检方法及其模型训练方法、装置、设备、介质
CN110020910B (zh) 对象推荐方法和装置
CN113610610B (zh) 基于图神经网络和评论相似度的会话推荐方法和***
CN115237732A (zh) 一种操作预测方法及相关装置
CN114676315A (zh) 基于增强图卷积的属性融合交互推荐模型构建方法及***
CN113868466A (zh) 视频推荐的方法、装置、设备和存储介质
CN110347916B (zh) 跨场景的项目推荐方法、装置、电子设备及存储介质
US20220270155A1 (en) Recommendation with neighbor-aware hyperbolic embedding
CN117688390A (zh) 内容匹配方法、装置、计算机设备、存储介质和程序产品
CN112686339B (zh) 一种基于起诉状的案由确定方法和装置
US11636291B1 (en) Content similarity determination
CN112085279B (zh) 训练交互预测模型、预测交互事件的方法及装置
KR102323424B1 (ko) 관측평점과 유사도 그래프를 활용한 추천 알고리즘의 평점 예측 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant