CN110830291A - 一种基于元路径的异质信息网络的节点分类方法 - Google Patents

一种基于元路径的异质信息网络的节点分类方法 Download PDF

Info

Publication number
CN110830291A
CN110830291A CN201911043848.1A CN201911043848A CN110830291A CN 110830291 A CN110830291 A CN 110830291A CN 201911043848 A CN201911043848 A CN 201911043848A CN 110830291 A CN110830291 A CN 110830291A
Authority
CN
China
Prior art keywords
meta
path
nodes
heterogeneous information
information network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911043848.1A
Other languages
English (en)
Other versions
CN110830291B (zh
Inventor
姜彦吉
郭羽含
张家欣
张琪虹
孙涵莆
胡鑫泽
王嘉宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning Technical University
Original Assignee
Liaoning Technical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning Technical University filed Critical Liaoning Technical University
Priority to CN201911043848.1A priority Critical patent/CN110830291B/zh
Publication of CN110830291A publication Critical patent/CN110830291A/zh
Application granted granted Critical
Publication of CN110830291B publication Critical patent/CN110830291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于元路径的异质信息网络的节点分类方法,涉及深度学习与网络嵌入技术领域。该方法首先获取异质信息网络中的所有元路径,得到元路径集,并在得到的元路径集中增加节点与节点间的元路径数量;然后确定每个元路径的特征向量;最后根据元路径所得到的特征向量,获取到异质信息网络中节点的特征向量表示方式,利用卷积神经网络对元路径中的节点进行分类。本发明方法利用元路径获取到节点与节点间的路径,在一定程度上,简化了异质信息网络训练过程,提高了最终分类结果的准确性。

Description

一种基于元路径的异质信息网络的节点分类方法
技术领域
本发明涉及深度学习与网络嵌入技术领域,尤其涉及一种基于元路径的异质信息网络的节点分类方法。
背景技术
随着社交网络以及知识网络的飞速发展,人们对网络模型结构日益关注。异质信息网络是一种结构更复杂,信息量更丰富,可用更多特征描述问题的新型网络建模和分析方法。现存的异质信息网络主要有会议-论文-作者数据集(DBLP)、商户-商品-购买者数据集等。在异质信息网络中,节点和连接的异质特性和复杂性使得节点分类方法变得更加困难,不能直接使用同质类型网络中的方法查找网络中对节点进行分类,否则会造成网络中一些信息的丢失,无法保证网络的完整性。因此,如何同时考虑并定量分析不同类型的节点和连接,建立更准确的异质信息网络成为研究的难点。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种基于元路径的异质信息网络的节点分类方法,实现对异质信息网络中的节点进行分类。
为解决上述技术问题,本发明所采取的技术方案是:一种基于元路径的异质信息网络的节点分类方法,具体方法为:
获取异质信息网络中的所有元路径,得到元路径集;
在得到的元路径集中增加节点与节点间的元路径数量,得到扩展元路径集;
根据得到的增加元路径数量后的扩展元路径集,确定每个元路径的特征向量;
根据元路径所得到的特征向量,获取到异质信息网络中节点的特征向量表示方式,利用卷积神经网络对元路径中的节点进行分类;
其中,所述获取异质信息网络中的元路径通过广度优先遍历算法获取;
其中,所述广度优先遍历算法获取元路径的方法中还包括:设定固定路径长度,使得元路径中的源节点与末节点为相同类型节点,设定的路径长度为3或者5,得到元路径集;
其中,增加节点与节点之间的元路径数量是通过在相似类型的节点中添加虚拟连边和权值,来确定两个节点的相似度,再将其与阈值进行比较,确定两个节点是否能相连接,形成一条连边,进而增加节点与节点之间的元路径数量。
采用上述技术方案所产生的有益效果在于:本发明提供的一种基于元路径的异质信息网络的节点分类方法,利用元路径这样简单的方式,获取到节点与节点间的路径,在一定程度上,简化了网络训练过程,提高了最终的分类结果的准确性。
附图说明
图1为本发明实施例提供的一种基于元路径的异质信息网络的节点分类方法的流程图;
图2为本发明实施例提供的元路径集中不同类型的元路径示意图;
图3为本发明实施例提供的增加节点与节点之间元路径数量的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种基于元路径的异质信息网络的节点分类方法,如图1所示,包括以下步骤:
步骤1:获取异质信息网络中的所有元路径,得到元路径集;
本实施例中,异质信息网络以现有的DBLP(DataBase systems and LogicProgramming)网络为例,DBLP为计算机领域以研究成果和作者为核心的一个计算机类英文文献集成***,如图2所示,包括期刊和会议节点V、作者节点A以及论文节点P共三类节点,相同类型的节点之间不存在连边;作者通过编写论文,投稿到会议以及期刊,期刊以及会议会对论文发表;本实施例中根据作者投稿的论文以及会议或期刊对作者节点进行分类,实现对作者的划分。
假定异质信息网络G<A,P,V,E,W>,其中A表示为作者集合,P表示论文的集合,V表示会议或者期刊的集合,E表示所有边的集合,W表示异质信息网络中边的权重。在获取元路径时,利用广度优先遍历的方式,源节点为作者集合,末节点也为作者的集合,源节点与末节点之间经过的节点看作是一条路径,采用广度优先遍历算法遍历作者之间的路径。除此之外,还需要设定路径长度,当作者与作者之间的路径长度大于设定的固定长度时,则停止遍历该节点路径。在本实施例中以实际长度为3或者5的元路径为例进行说明,可以得到类似于“A1-P1-V1-P2-A3”、“A3-P2-V2-P3-A5”、“A1-P1-A2”等路径,实际上是建立作者-论文-会议-论文-作者、作者-论文-作者的方式,表示不同作者的不同论文可能会投到同一个会议或者期刊,同一篇论文包含有不同的作者,建立起元路径关系,进而得到元路径集。
步骤2:在得到的元路径集中增加节点与节点间的路径数量;
本步骤是在得到的路径集的基础上,对其进行扩展,这样解决了现有元路径的稀疏问题,丰富了路径信息与可学习的策略。
在本步骤中,在相同类型节点之间增加连边,使得路径数量增多,一般为在相似类型的节点间增加虚拟连边,使得固定长度路径增多,得到增加后的元路径集,如图3所示;在图3中,可以看出是利用人为设定的阈值对两个节点进行相似度匹配,节点中的相似度匹配方法为:
令元路径
Figure BDA0002253587880000031
A,P,V代表不同类型的节点,
Figure BDA0002253587880000032
为连接源节点Pg和末节点Ph的路径,两个节点的相似性由以下两式算得:
Figure BDA0002253587880000033
其中,
Figure BDA0002253587880000035
为路径
Figure BDA0002253587880000036
中节点Pg、Ph的相似度;deg(Pg)为在异质信息网络中节点Pg的度,χ(Pg,Ph)为特征矩阵
Figure BDA0002253587880000037
中的特征向量,
Figure BDA0002253587880000038
为在异质信息网络中通过路径权重或基于深度遍历优先算法的统计信息建立的节点间路径
Figure BDA0002253587880000039
的特征矩阵,如下公式所示:
Figure BDA00022535878800000310
其中,xi,j表示节点i和节点j之间的元路径
Figure BDA00022535878800000311
的数量,i=1、2、…、n,j=1、2、…、n,n为异质信息网络中节点的总数量。
本实施例中利用两个节点之间的相似度与阈值进行比较,阈值选择为0.65;当相似度的值大于阈值时,则将两个节点相连接,形成一条连边;否则,不增加连边。再利用增加的连边,获取到与该边相连的节点所在的元路径,获得到新的元路径集。
步骤3:根据得到的增加元路径数量后的扩展元路径集,确定异质信息网络中每个节点的特征向量;
根据所产生的扩展元路径集对节点间元路径的特征矩阵进行更新,在特征矩阵中找到该节点所在的行,形成该节点的行向量;对与该节点相连的节点添加权值信息,表示节点连接的重要程度。根据异质信息网络中的权重矩阵,得到该节点的权重特征向量,由此得到每个节点基于权重的特征向量,如下公式所示:
Figure BDA00022535878800000312
其中,Xi为异质信息网络中第i个节点基于权重的特征向量,Wi表示与其他节点的连接权重所构成的权重向量,为元路径的特征矩阵中与该节点相关的行向量,将Wi T
Figure BDA00022535878800000314
相乘,得到该节点的特征向量。
步骤4:根据元路径所得到的每个节点的特征向量,将异质信息网络表示为向量的形式,对部分节点特征进行标签处理,将节点分为固定类,含有标签的节点的特征向量作为训练集,其余没有打标签的节点作为测试集,将训练集输入卷积神经网络模型中,利用softmax分类器对异质信息网络的同类节点进行分类,得到训练后的模型,之后将测试集输入进训练后的模型中,得到最终的分类结果;其中,卷积神经网络模型中包含三层卷积层,两个池化层。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种基于元路径的异质信息网络的节点分类方法,其特征在于:具体方法为:
获取异质信息网络中的所有元路径,得到元路径集;
在得到的元路径集中增加节点与节点间的元路径数量,得到扩展元路径集;
根据得到的增加元路径数量后的扩展元路径集,确定每个元路径的特征向量;
根据元路径所得到的特征向量,获取到异质信息网络中节点的特征向量表示方式,利用卷积神经网络对元路径中的节点进行分类。
2.根据权利要求1所述一种基于元路径的异质信息网络的节点分类方法,其特征在于:所述获取异质信息网络中的元路径通过广度优先遍历算法获取。
3.根据权利要求2所述一种基于元路径的异质信息网络的节点分类方法,其特征在于:所述广度优先遍历算法获取元路径的方法中还包括:设定固定路径长度,使得元路径中的源节点与末节点为相同类型节点,设定的路径长度为3或者5,得到元路径集。
4.根据权利要求1所述一种基于元路径的异质信息网络的节点分类方法,其特征在于:所述在得到的元路径集中增加节点与节点之间的元路径数量是通过在相似类型的节点中添加虚拟连边和权值,来确定两个节点的相似度,再将其与阈值进行比较,确定两个节点是否能相连接,形成一条连边,进而增加节点与节点之间的元路径数量。
CN201911043848.1A 2019-10-30 2019-10-30 一种基于元路径的异质信息网络的节点分类方法 Active CN110830291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911043848.1A CN110830291B (zh) 2019-10-30 2019-10-30 一种基于元路径的异质信息网络的节点分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043848.1A CN110830291B (zh) 2019-10-30 2019-10-30 一种基于元路径的异质信息网络的节点分类方法

Publications (2)

Publication Number Publication Date
CN110830291A true CN110830291A (zh) 2020-02-21
CN110830291B CN110830291B (zh) 2023-01-10

Family

ID=69551222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043848.1A Active CN110830291B (zh) 2019-10-30 2019-10-30 一种基于元路径的异质信息网络的节点分类方法

Country Status (1)

Country Link
CN (1) CN110830291B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232492A (zh) * 2020-10-30 2021-01-15 北京邮电大学 一种基于解耦的异质网络嵌入方法、装置及电子设备
CN113869461A (zh) * 2021-07-21 2021-12-31 中国人民解放军国防科技大学 一种用于科学合作异质网络的作者迁移分类方法
CN115314398A (zh) * 2022-09-29 2022-11-08 南昌航空大学 一种评估异质信息网络关键节点的方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
US20170286190A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Structural and temporal semantics heterogeneous information network (hin) for process trace clustering
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170286190A1 (en) * 2016-03-31 2017-10-05 International Business Machines Corporation Structural and temporal semantics heterogeneous information network (hin) for process trace clustering
CN107145527A (zh) * 2017-04-14 2017-09-08 东南大学 对齐异构社交网络中基于元路径的链路预测方法
CN109558494A (zh) * 2018-10-29 2019-04-02 中国科学院计算机网络信息中心 一种基于异质网络嵌入的学者名字消歧方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘京旋: "基于元路径的异质网分类与计算方法研究", 《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232492A (zh) * 2020-10-30 2021-01-15 北京邮电大学 一种基于解耦的异质网络嵌入方法、装置及电子设备
CN113869461A (zh) * 2021-07-21 2021-12-31 中国人民解放军国防科技大学 一种用于科学合作异质网络的作者迁移分类方法
CN113869461B (zh) * 2021-07-21 2024-03-12 中国人民解放军国防科技大学 一种用于科学合作异质网络的作者迁移分类方法
CN115314398A (zh) * 2022-09-29 2022-11-08 南昌航空大学 一种评估异质信息网络关键节点的方法
CN115314398B (zh) * 2022-09-29 2022-12-23 南昌航空大学 一种评估异质信息网络关键节点的方法

Also Published As

Publication number Publication date
CN110830291B (zh) 2023-01-10

Similar Documents

Publication Publication Date Title
CN109615014B (zh) 一种基于kl散度优化的3d物体数据分类***与方法
CN111488734A (zh) 基于全局交互和句法依赖的情感特征表示学习***及方法
CN110830291B (zh) 一种基于元路径的异质信息网络的节点分类方法
CN112685504B (zh) 一种面向生产过程的分布式迁移图学习方法
CN110737805B (zh) 图模型数据的处理方法、装置和终端设备
CN108898166A (zh) 一种图像标注方法
CN114925238B (zh) 一种基于联邦学习的视频片段检索方法及***
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN111984790B (zh) 一种实体关系抽取方法
CN112115993A (zh) 一种基于元学习的零样本和小样本证件照异常检测方法
CN110289987B (zh) 基于表征学习的多智能体***网络抗攻击能力评估方法
WO2020147259A1 (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN112785156B (zh) 一种基于聚类与综合评价的产业领袖识别方法
CN114519107A (zh) 一种联合实体关系表示的知识图谱融合方法
Lonij et al. Open-world visual recognition using knowledge graphs
CN114036308A (zh) 基于图注意力神经网络的知识图谱表示方法
CN113723542A (zh) 一种日志聚类处理方法及***
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
WO2023273171A1 (zh) 图像处理方法、装置、设备和存储介质
CN110264311A (zh) 一种基于深度学习的商业推广信息精准推荐方法及***
Zhang et al. Fabric image retrieval based on multi-modal feature fusion
CN117033997A (zh) 数据切分方法、装置、电子设备和介质
CN114529096A (zh) 基于三元闭包图嵌入的社交网络链路预测方法及***
CN114611668A (zh) 一种基于异质信息网络随机游走的向量表示学习方法及***
CN109829500B (zh) 一种职位构图和自动聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant