CN114564573A - 基于异构图神经网络的学术合作关系预测方法 - Google Patents

基于异构图神经网络的学术合作关系预测方法 Download PDF

Info

Publication number
CN114564573A
CN114564573A CN202210247466.6A CN202210247466A CN114564573A CN 114564573 A CN114564573 A CN 114564573A CN 202210247466 A CN202210247466 A CN 202210247466A CN 114564573 A CN114564573 A CN 114564573A
Authority
CN
China
Prior art keywords
author
node
nodes
academic
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210247466.6A
Other languages
English (en)
Inventor
陈世展
丁燕翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210247466.6A priority Critical patent/CN114564573A/zh
Publication of CN114564573A publication Critical patent/CN114564573A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于异构图神经网络的学术合作关系预测方法,包括:收集作者的作品信息构建作品数据集和学识异构图,图中的节点包括作者节点、作品节点、归属节点和内容节点;利用DeepWalk算法和Text‑CNN模型对学识异构图中的信息进行提取获取作者节点的嵌入向量;利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合,获取每个作者节点的长期兴趣嵌入表示;基于LSTM和注意力机制获取作者的短期兴趣嵌入表示;利用二元分类预测方法构建二分类模型,将作品数据集输入二分类模型进行训练获取学术合作预测模型。本发明可捕捉作者在某一时间内潜在的合作兴趣,得到更好的推荐效果,提高预测准确性。

Description

基于异构图神经网络的学术合作关系预测方法
技术领域
本发明属于信息检索技术领域,具体涉及一种基于异构图神经网络的学术合作关系预测方法。
背景技术
近年来,随着科学技术的飞速发展,科研任务和创新从原来依靠个人的成果转向合作完成的趋势越来越明显。本世纪的90%以上的创新都来源于合作。与此同时,科学技术的发展同样带来了研究问题的多样化和复杂化,多学科之间的交叉融合也越来越普遍。因此导致合作不再像原来那样稀少而单一,而是变得越来越复杂和多样化。学者的研究方向多变和合作关系的增多使得从庞大的学术数字图书馆和网络中找到最有价值的科研合作者成为一个非常大的挑战,技术合作也存在相同的问题,这使得学术/技术合作关系的预测问题也变得越来越重要。
然而,现有的学术/技术合作关系预测主要采用以下几种方法:
一、基于相似度的模型:大部分基于相似度的方法主要采用基于文本相似度的方法和结构相似度的方法,文本相似度的方法一般基于内容。通过对学术网络中的节点属性,包括学者节点和文章节点收集语义特征的相似性来推荐学术合作。例如Tang,Wu等开发了一个主题学习模型CTL来推荐学术合作,该模型使用LDA(Latent Dirichlet Allocation)对论文的主题分布进行建模,然后集成重启随机游走算法进行学术推荐。但文本相似性的计算一方面依赖于作者的相关属性信息,在很多情况下我们实际上是无法获得作者的属性信息的。另一方面,结构相似性一般是利用网站中节点的拓扑信息从而判定作者之间的相似度,从学术网络的结构信息入手,早期研究大多从公共邻居,Jaccard相似稀疏等拓扑特征来构建学术合作预测模型,通常使用逻辑回归等二元算法来实现。例如Zhou等在随机游走算法的基础上进行改良,加上合作时间频率和邻居节点类型的影响,实现对学术合作关系的推荐,但结构相似性存在一定的问题,比如冷启动问题无法解决等。
二、基于混合的方法:有一类方法是混合学术网络的结构和内容特征,一些研究通过不同的顶点邻近算法来计算学者节点的结构相似度,并且通过词汇相似度算法、查询似然语言模型等方法提取论文节点的语义相似度来融合结构相似度和内容相似度,从而得到学者节点的综合相似度。相似度较高的学者更倾向于建立协作关系。这些混合方法累积了大量的信息,但很大程度上取决于特征的选择。
三、基于机器学习的模型:该模型主要利用分类模型尤其是二分类的思想来预测作者之间的合作,Qi,Zhao等将科研合作预测看做二分类问题,在合著网络中将结构相似性指标作为特征,进而训练模型,并且采用逻辑回归和支持向量机(support vectormachines,SVM)作为预测模型,预测作者节点之间的链接。
上述三种方法都是基于同构网络的,虽然计算简单,但是丢失了丰富的语义信息,可能会导致预测结果出现误差。此外,也有少量的研究是基于异构网络的,其中Sun,Rick等率先将基于元路径的拓扑特征应用到异构网络中,并且使用逻辑回归模型来预测合作关系,但这种方法使用的几种拓扑特征计算复杂度较高。近年来随着图神经网络算法的流行,因为学术网络作为一个典型的异构图结构,异构图神经网络的相关算法也被更多的应用到学术网络上,并且取得了较好的表现,如GAT(Graph Attention Networks)模型、HAN(Heterogeneous graph attention network,异质图注意力网络)模型等。但现有的异构图神经网络算法大多为通用模型,关注异构图本身的特征,而缺乏对异构学术网络中学术合作预测问题这一细分问题的关注。
发明内容
针对以上问题,本发明提出了一种基于异构图神经网络的学术合作关系预测方法。为解决以上技术问题,本发明所采用的技术方案如下:
一种基于异构图神经网络的学术合作关系预测方法,包括如下步骤:
S1,收集作者的作品信息构建作品数据集,根据作品数据集构建学识异构图;
所述学识异构图采用G表示,G=(V,E),V表示学识异构图中的节点集合,E表示学识异构图中节点之间所形成的边集合,且节点集合V中的节点包括作者节点、作品节点、归属节点和内容节点;
S2,利用DeepWalk算法和Text-CNN模型对步骤S1所建立的学识异构图中的信息进行提取获取每个作者节点的嵌入向量;
S3,利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合,获取每个作者节点的长期兴趣嵌入表示;
S4,基于LSTM和注意力机制获取表征作者短期合作趋向性的短期兴趣嵌入表示;
S5,利用二元分类预测方法构建二分类模型,将作品数据集输入二分类模型进行训练获取学术合作预测模型。
所述步骤S2包括如下步骤:
S2.1,利用词嵌入将每个作品节点和内容节点的信息向量化表示为对应的文本向量;
S2.2,将步骤S2.1得到的文本向量分别输入Text-CNN模型进行特征向量提取,得到每个作者的标题特征向量和文本特征向量;
S2.3,利用BiLSTM或者全连接层将步骤S2.2得到的标题特征向量和文本特征向量进行融合,得到每个作者的兴趣特征向量;
S2.4,将步骤S1所建立的学识异构图视为同质,利用DeepWalk算法对学识异构图进行预训练得到反映每个作者节点在学识异构图中拓扑关系的向量表示;
S2.5,将步骤S2.3得到的兴趣特征向量和步骤S2.4得到的向量表示进行融合,得到每个作者节点的嵌入向量。
所述步骤S3包括如下步骤:
S3.1,基于作者节点从学识异构图中选择出长度小于N的元路径;
所述元路径包括表示作者与其它作者之间存在合作关系的第一元路径、表示作者与其它作者之间存在引用关系的第二元路径、表示作者的论文与其它作者的论文之间存在同一归属关系的第三元路径、表示作者的论文与其它作者的论文为同一主题关系的第四元路径;
S3.2,同一元路径下利用多头注意力机制对作者节点进行聚合,得到作者节点基于同一元路径的内部嵌入表示;
S3.3,不同元路径下利用多头注意力机制对作者节点进行聚合,获取每个作者节点的长期兴趣嵌入表示。
在步骤S3.2中,所述作者节点基于同一元路径的内部嵌入表示的表达式:
Figure BDA0003545396010000031
式中,
Figure BDA0003545396010000032
表示作者节点Ai在元路径φm下的内部嵌入表示,K表示多头注意力机制的头数,
Figure BDA0003545396010000033
表示作者节点Ai在元路径φm下的所有邻居节点集合,
Figure BDA0003545396010000034
表示作者节点Ai和作者节点Ai′之间的重要性的归一化值,hi′表示作者节点Ai′的嵌入向量。
在步骤S3.3中,所述作者节点的长期兴趣嵌入表示的表达式为:
Figure BDA0003545396010000035
式中,M表示元路径的个数,
Figure BDA0003545396010000036
表示元路径φm的权重,
Figure BDA0003545396010000037
表示元路径φm下所有作者节点的内部嵌入表示的集合。
所述步骤S4包括如下步骤:
S4.1,利用激活函数对作品节点和作者节点进行转换,获取每个作者节点的初始短期兴趣嵌入表示;
S4.2,利用基于注意力机制的LSTM捕捉每个作者短期内发表作品历史的序列特征表示;
S4.3,将步骤S4.1得到的初始短期兴趣嵌入表示和步骤S4.2得到的序列特征表示进行融合得到作者的短期兴趣嵌入表示。
在步骤S4.1中,所述初始短期兴趣嵌入表示的表达式为:
uc=∑jαjdj
式中,uc表示作者节点的初始短期兴趣嵌入表示,αj表示作品节点Pj的权重,dj表示作品节点Pj对应的嵌入向量;
所述作品节点Pj的权重αj的计算公式为:
Figure BDA0003545396010000041
式中,vT表示可学习参数矩阵的转置,ui表示转换后的作者节点Ai的嵌入表示,oj表示转换后的作品节点Pj的嵌入表示,a表示作者节点的个数。
在步骤S4.3中,所述作者的短期兴趣嵌入表示的表达式为:
us=W[uc;S];
式中,us表示作者的短期兴趣嵌入表示,uc表示作者节点的初始短期兴趣嵌入表示,S表示作者最近发表作品历史的序列特征表示。
本发明的有益效果:
本发明融合了节点的结构也即每个作者在学识异构图中拓扑关系和内容信息也即每个作者的研究兴趣,在保留了更多信息的同时,缓解了合作关系预测中存在的冷启动问题;融合了作者的长期兴趣和短期兴趣,考量到了学者/发明人在个人生涯中兴趣的变化,利用长短期兴趣嵌入表示刻画出作者间合作兴趣的改变趋势,可以更为准确的捕捉学者在某一时间段内潜在的合作兴趣;与现有其他的学术合作推荐模型相比,能够得到更好的推荐效果,提高了合作关系预测的准确性;本发明还可以应用在相似的技术合作关系预测任务上,也能得到较好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的模型框架流程图。
图2为长期兴趣嵌入表示和短期兴趣嵌入表示的获取流程图。
图3为学识异构图的部分元路径图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种基于异构图神经网络的学术合作关系预测方法,如图1和图2所示,包括如下步骤:
S1,收集作者的作品信息构建作品数据集,根据作品数据集构建学识异构图,并将作品数据集划分为训练集和测试集;
所述作品数据集包括学术数据集和技术数据集,学术数据集通过收集学术数据库中的数据信息得到,技术数据集通过收集专利数据库中的数据信息得到,利用学术数据集和技术数据集构建学识异构图。所述学术数据集包括学者、论文、会议和主题,所述技术数据集包括发明人、专利、地区和IPC分类号。所述学识异构图采用G表示,G=(V,E),V表示学识异构图中的节点集合,节点集合V中的节点包括作者节点、作品节点、归属节点和内容节点,所有作者节点的集合采用A表示,A={A1...,Ai,...,Aa},其中,Ai表示第i个作者节点;所有作品节点的集合采用P表示,P={P1...,Pj,...,Pp},其中,Pj表示第j个作品节点;所有归属节点的集合采用C表示,C={C1...,Ck,...,Cc},其中,Ck表示第k个归属节点;所有内容节点的集合采用T表示,T={T1...,Tl,...,Tt},其中,Tl表示第l个内容节点。在所建立的学识异构图中,不同的节点可能对应于同一数据集或者不同的数据集,当为学术数据集时,作者节点表示为学者,作品节点表示为论文,即为论文名称,内容节点表示为论文的主题,归属节点表示为论文发表会议的地点,为技术数据集时,作者节点表示为发明人,作品节点表示为专利,即为专利名称,内容节点表示为IPC分类号,归属节点表示为地区,即为专利的国省代码。E表示学识异构图中节点之间所形成的边集合,边集合E中边的类型包括作者-作品的撰写关系、作品-归属的所属关系、作品-内容的对应关系以及作品-作品的引用关系。
本实施例以Aminer数据库所提供的学术数据集和中国国家专利数据库为基础的专利数据集中的数据信息为依据,分别选取1999年-2008年和2009年-2018年两个时间段的数据,按照年份为单位将数据随机划分为10个部分,前8个作为训练集,后2个作为测试集。使用时为每个作者分配唯一的ID,以避免重名导致混淆。
S2,利用DeepWalk算法和Text-CNN模型对步骤S1所建立的学识异构图中的信息进行提取获取每个作者节点的嵌入向量,包括如下步骤:
S2.1,利用词嵌入将作品节点和内容节点的信息向量化表示为对应的文本向量,作为每个作者研究兴趣的内容表示;
由于作者在整个学术生涯可能发表过很多论文或专利,并且不同的作者发表的论文/专利数量可能有所不同,因此把抽取学者的论文或专利的数量固定为5,多于这个数量进行随机选取,少于这个数量的进行重复选取补足。现有技术中使用one-hot进行预先编码再转换为相应维数的词向量,虽然简单高效,但是忽略了作者个人的研究兴趣,且合作关系预测问题中存在冷启动问题。
S2.2,将步骤S2.1得到的文本向量分别输入Text-CNN模型进行特征向量提取,得到每个作者的标题特征向量和文本特征向量;
所述标题特征向量通过对论文名称或专利名称提取得到,文本特征向量通过对IPC分类号和论文主题提取得到,具体地,采用两个并行的Text-CNN模型作为文本信息提取器,将内容表示也即作品节点对应的文本向量和内容节点对应的文本向量分别输入两个Text-CNN模型,文本向量的维度为d,长度为n,这样就分别形成了一个n*d的矩阵,将矩阵输入Text-CNN模型中,即可得到每个作者的标题特征向量和文本特征向量。
S2.3,利用BiLSTM或者全连接层将步骤S2.2得到的标题特征向量和文本特征向量进行融合,得到每个作者的兴趣特征向量;
具体方法就是将两个特征向量相加,经过一个全连接层就能得到作者在研究内容上的特征表示。
S2.4,将步骤S1所建立的学识异构图视为同质,利用DeepWalk算法对学识异构图进行预训练得到反映每个作者节点在学识异构图中拓扑关系的向量表示;
将学识异构图视为同质,并将该网络结构对应的邻接表信息输入DeepWalk,输出结果即为每个节点与其它节点拓扑关系的向量表示,将其中是作者节点的向量表示提出,作为作者在结构上的嵌入向量。
S2.5,将步骤S2.3得到的兴趣特征向量和步骤S2.4得到的向量表示进行融合,得到每个作者节点的嵌入向量,以实现每个作者的研究兴趣也即内容和每个作者在学识异构图中拓扑关系也即结构的提取。
S3,利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合获取表征作者长期合作趋向性的长期兴趣嵌入表示,包括如下步骤:
S3.1,基于作者节点从学识异构图中选择出长度小于N的元路径;
异构图中的元路径很多,但很长的元路径实际上并没有很大的意义,本实施例中,N=5,本申请中的元路径为四个,如图3所示,分别为表示作者与其它作者之间存在合作关系的A-P-A、表示作者与其它作者之间存在引用关系的A-P-P-A、表示作者的论文与其它作者的论文之间存在同一归属关系的A-P-C-P-A、表示作者的论文与其它作者的论文为同一主题关系的A-P-T-P-A。由于元路径在某种程度上表达了作者在学识异构图中与其他作者之间存在的互动关系,因此,采用元路径表示作者之间的长期合作趋势。
S3.2,同一元路径下利用多头注意力机制对作者节点进行聚合,得到作者节点基于同一元路径的内部嵌入表示;
在同一元路径下,不同的邻居节点可能对作者节点产生不同的影响力,在现实中体现在一名作者更倾向于和重要性更大的其它作者进行合作。假设作者节点对A(i,i′)通过元路径φm相连接,作者节点Ai和作者节点Ai′之间的重要性
Figure BDA0003545396010000071
的计算公式为:
Figure BDA0003545396010000072
式中,hi表示通过步骤S2所获得的作者节点Ai的嵌入向量,hi′表示通过步骤S2所获得的作者节点Ai′的嵌入向量,且Ai′∈A。
由于作者节点Ai和作者节点Ai′之间的重要性是不同的,也即
Figure BDA0003545396010000073
是非对称的,得到
Figure BDA0003545396010000074
后,对其进行归一化运算得到
Figure BDA0003545396010000075
根据
Figure BDA0003545396010000076
得到作者节点Ai关于元路径φm的内部嵌入表示
Figure BDA00035453960100000716
内部嵌入表示
Figure BDA0003545396010000078
的计算公式为:
Figure BDA0003545396010000079
式中,
Figure BDA00035453960100000710
表示作者节点Ai在元路径φm下的所有邻居节点集合,hi′表示作者节点Ai′的嵌入向量,σ(·)表示激活函数。使用多头注意力来计算节点级别的注意力,这样效果更好,具体来说,注意力模型独立重复n次。与GAT中的多头连接不同,这里将学***均值作为最终向量,计算公式如下,K表示注意力的头数,本实施例中K=4,表示进行4次重复实验后取平均值即为最终结果。
当采用多头注意力来计算节点级别的注意力时,对应的内部嵌入表示的计算公式为:
Figure BDA00035453960100000711
S3.3,利用多头注意力机制对学识异构图中的不同元路径进行作者节点聚合,得到每个作者节点的长期兴趣嵌入表示;
对于不同元路径,因为其表达的语义不同,因此在预测作者之间的潜在合作关系时,对合作关系的贡献也不同。因此本申请使用语义级别的注意力来学习不同元路径的重要性并融合多个元路径下的节点表示。
Figure BDA00035453960100000712
式中,
Figure BDA00035453960100000713
表示元路径φm的权重,
Figure BDA00035453960100000714
表示元路径φm通过步骤S3.2得到的所有作者节点的内部嵌入表示的集合,
Figure BDA00035453960100000715
M表示元路径的数量。attention(·)表示元路径层面的注意力值计算操作,它的目的是学习每一个边,也就是每个元路径的重要性,把这个重要性记为
Figure BDA0003545396010000081
元路径φm的重要性
Figure BDA0003545396010000082
的计算公式为:
Figure BDA0003545396010000083
式中,a表示作者节点的个数,qT表示学习参数矩阵的转置,W表示权重矩阵,b表示偏置向量。
在得到每个元路径的重要性之后,通过softmax函数将其归一化,进而得到每个元路径对应的注意力权值,元路径φm的权重
Figure BDA0003545396010000084
的计算公式为:
Figure BDA0003545396010000085
式中,exp(·)表示返回对应值的指数。
对得到的各个元路径的权重进行加权求和,即可得到综合每个元路径的作者节点的长期兴趣嵌入表示,其计算公式为:
Figure BDA0003545396010000086
式中,ul表示作者的最终长期兴趣嵌入表示。
S4,基于LSTM(Long Short-Term Memory,长短期记忆网络)和注意力机制获取表征作者短期合作趋向性的短期兴趣嵌入表示,包括如下步骤:
S4.1,利用激活函数对作品节点和作者节点进行转换,获取每个作者节点的初始短期兴趣嵌入表示;
oj=tanh(Wdj+b);(8)
式中,oj表示作品节点Pj转换后的嵌入表示,dj表示作品节点Pj对应的嵌入向量,tanh(·)表示激活函数。
ui=tanh(Wdi+b);(9)
式中,ui表示作者节点Ai的嵌入表示,di表示作者节点Ai的嵌入向量。
Figure BDA0003545396010000087
式中,αj表示作品节点Pj的权重,vT表示可学习参数矩阵的转置。
uc=∑jαjdj;(11)
式中,uc表示作者节点的初始短期兴趣嵌入表示。将作者最近发表的作品集合作为输入,集合的大小统一设置为5,作者节点的嵌入向量作为查询向量,打分函数同样选取加性模型,最终得到作者的初始短期兴趣嵌入表示uc
S4.2,利用基于注意力机制的LSTM捕捉作者短期内发表作品历史的序列特征表示;
LSTM是一种具有重复神经网络模块的链式结构,它的每一个单独模块都存在一个隐藏层的输出,通过这个隐藏层的输出h可以表示作者在当前时刻下的兴趣。LSTM将作者最近发表的作品作为输入,输出作者的短期兴趣序列特征表示。由于每个作者当前发表的作品往往会受到之前发表历史的影响,因此使用注意力机制与LSTM相结合,通过输出的每个隐含状态hr与其之前的隐含状态h1,h2,...,hr-1来获得不同时刻的序列特征表示sr,最后将这些特征(s1,s2,...,sr)通过卷积神经网络(Convolutional Neural Networks,CNN)融合,获得作者最近发表作品历史的序列特征表示S,其中,r表示时刻。
S4.3,将步骤S4.1得到的和步骤S4.2得到的序列特征表示进行拼接得到作者的短期兴趣嵌入表示,对应的表达式为;
us=W[uc;S];(12)
式中,us表示作者的短期兴趣嵌入表示。
S5,利用二元分类预测方法构建二分类模型,根据训练集、测试集、最终长期兴趣嵌入表示ul和最终短期兴趣嵌入表示us获取学术合作预测模型;
S5.1,将步骤S3得到的长期兴趣嵌入表示和步骤S4得到的短期兴趣嵌入表示进行拼接得到作者的最终兴趣嵌入表示,对应的表达式为:
μ=W[ul;us]; (13)
式中,μ表示作者的最终兴趣嵌入表示。
S5.2,利用二元分类预测方法构建二分类模型,将训练集数据和最终兴趣嵌入表示u输入二分类模型进行训练得到学术合作初始预测模型;
所述二元分类预测方法包括全连接层、GRU(Gated Recurrent Unit,门控循环单元)、随机森林以及逻辑回归法。
S5.3,将测试集数据输入学术合作初始预测模型,利用交叉熵作为损失函数对学术合作初始预测模型进行优化得到学术合作预测模型。
所述学术合作预测模型的表达式为:
Figure BDA0003545396010000091
式中,
Figure BDA0003545396010000092
表示学术合作预测模型所预测的两名作者之间产生合作的概率,μi1表示作者节点Ai1的最终兴趣嵌入表示,μi2表示作者节点Ai2的最终兴趣嵌入表示,且Ai2∈A,Ai1∈A,DNN(Deep neural network,深度神经网络)。
在学术数据集和技术数据集上以分批的方式进行训练,输入特征和输出嵌入的维数设置为128,学习率设置为0.001,采用Adam作为优化器,批量大小为200,训练迭代次数为60,随机种子设置为10,注意力头数设置为4。以F1-score和AUC(area under the curve,模型评估指标)作为度量标准,将本申请与其它几种方法进行对比,如下表所示:
表1学术数据集上的实验结果
数据集 学术数据集-1 学术数据集-1 学术数据集-2 学术数据集-2
评价指标 AUC F1 AUC F1
RWR-CR 60.3 51.4 61.9 53.2
Metapath2vec 58.6 31.8 59.6 34.8
GraphSAGE 67.2 57.3 68.5 61.5
HetGNN 70.1 64.2 71.7 66.9
SHNE 67.2 61.2 68.3 63.9
HAN 70.2 69.7 70.1 69.7
Our-model 74.3 71.5 74.1 71.4
表2技术数据集上的实验结果
数据集 技术数据集-1 技术数据集-1 技术数据集-2 技术数据集-2
评价指标 AUC F1 AUC F1
RWR-CR 58.1 50.2 60.2 50.2
Metapath2vec 57.2 45.7 57.6 44.1
GraphSAGE 65.9 54.2 64.1 60.3
HetGNN 69.2 61.2 67.0 63.8
SHNE 66.5 58.7 64.4 59.8
HAN 70.3 65.4 68.2 66.9
Our-model 73.1 69.0 72.6 69.2
其中,RWR-CR基于随机游走和重启算法,它实现了带有元路径的随机游走;Metapath2vec(Scalable Representation Learning for Heterogeneous Networks)在这个模型中,异构邻居集是通过基于元路径的随机游走形成的,并利用异构跳过图来学习节点表示;GraphSAGE(Graph Sample Aggregate)是一个经典的图神经网络模型,节点的特征表示是通过以特定形式(均值、池化或LSTM)聚合相邻节点的信息而获得的;HetGNN(Heterogeneous Graph Neural Network,异构图神经网络)该模型利用随机游走和重启算法来获取邻居集,并通过多层邻居聚合学习节点嵌入;SHNE结合了结构图相似性和语义文本相关性来学习文本关联异构图中的节点表示;HAN这种方法通过元路径连接相同类型的节点,并通过注意力聚合来自不同子图的信息,将异构图转换为同构网络。从表1和表2可以看出,在学术和技术数据集上,相较于表现最好的HAN模型和HetGNN模型,本申请在AUC和F1-score两个指标上都有着2-4%的提升。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于异构图神经网络的学术合作关系预测方法,其特征在于,包括如下步骤:
S1,收集作者的作品信息构建作品数据集,根据作品数据集构建学识异构图;
所述学识异构图采用G表示,G=(V,E),V表示学识异构图中的节点集合,E表示学识异构图中节点之间所形成的边集合,且节点集合V中的节点包括作者节点、作品节点、归属节点和内容节点;
S2,利用DeepWalk算法和Text-CNN模型对步骤S1所建立的学识异构图中的信息进行提取获取每个作者节点的嵌入向量;
S3,利用多头注意力机制基于作者节点对学识异构图中的元路径进行聚合,获取每个作者节点的长期兴趣嵌入表示;
S4,基于LSTM和注意力机制获取表征作者短期合作趋向性的短期兴趣嵌入表示;
S5,利用二元分类预测方法构建二分类模型,将作品数据集输入二分类模型进行训练获取学术合作预测模型。
2.根据权利要求1所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,所述步骤S2包括如下步骤:
S2.1,利用词嵌入将每个作品节点和内容节点的信息向量化表示为对应的文本向量;
S2.2,将步骤S2.1得到的文本向量分别输入Text-CNN模型进行特征向量提取,得到每个作者的标题特征向量和文本特征向量;
S2.3,利用BiLSTM或者全连接层将步骤S2.2得到的标题特征向量和文本特征向量进行融合,得到每个作者的兴趣特征向量;
S2.4,将步骤S1所建立的学识异构图视为同质,利用DeepWalk算法对学识异构图进行预训练得到反映每个作者节点在学识异构图中拓扑关系的向量表示;
S2.5,将步骤S2.3得到的兴趣特征向量和步骤S2.4得到的向量表示进行融合,得到每个作者节点的嵌入向量。
3.根据权利要求1所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,所述步骤S3包括如下步骤:
S3.1,基于作者节点从学识异构图中选择出长度小于N的元路径;
所述元路径包括表示作者与其它作者之间存在合作关系的第一元路径、表示作者与其它作者之间存在引用关系的第二元路径、表示作者的论文与其它作者的论文之间存在同一归属关系的第三元路径、表示作者的论文与其它作者的论文为同一主题关系的第四元路径;
S3.2,同一元路径下利用多头注意力机制对作者节点进行聚合,得到作者节点基于同一元路径的内部嵌入表示;
S3.3,不同元路径下利用多头注意力机制对作者节点进行聚合,获取每个作者节点的长期兴趣嵌入表示。
4.根据权利要求3所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,在步骤S3.2中,所述作者节点基于同一元路径的内部嵌入表示的表达式:
Figure FDA0003545396000000021
式中,
Figure FDA0003545396000000022
表示作者节点Ai在元路径φm下的内部嵌入表示,K表示多头注意力机制的头数,
Figure FDA0003545396000000023
表示作者节点Ai在元路径φm下的所有邻居节点集合,
Figure FDA0003545396000000024
表示作者节点Ai和作者节点Ai′之间的重要性的归一化值,hi′表示作者节点Ai′的嵌入向量。
5.根据权利要求3所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,在步骤S3.3中,所述作者节点的长期兴趣嵌入表示的表达式为:
Figure FDA0003545396000000025
式中,M表示元路径的个数,
Figure FDA0003545396000000026
表示元路径φm的权重,
Figure FDA0003545396000000027
表示元路径φm下所有作者节点的内部嵌入表示的集合。
6.根据权利要求1所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,所述步骤S4包括如下步骤:
S4.1,利用激活函数对作品节点和作者节点进行转换,获取每个作者节点的初始短期兴趣嵌入表示;
S4.2,利用基于注意力机制的LSTM捕捉每个作者短期内发表作品历史的序列特征表示;
S4.3,将步骤S4.1得到的初始短期兴趣嵌入表示和步骤S4.2得到的序列特征表示进行融合得到作者的短期兴趣嵌入表示。
7.根据权利要求6所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,在步骤S4.1中,所述初始短期兴趣嵌入表示的表达式为:
uc=∑jαjdj
式中,uc表示作者节点的初始短期兴趣嵌入表示,αj表示作品节点Pj的权重,dj表示作品节点Pj对应的嵌入向量;
所述作品节点Pj的权重αj的计算公式为:
Figure FDA0003545396000000028
式中,vT表示可学习参数矩阵的转置,ui表示转换后的作者节点Ai的嵌入表示,oj表示转换后的作品节点Pj的嵌入表示,a表示作者节点的个数。
8.根据权利要求6所述的基于异构图神经网络的学术合作关系预测方法,其特征在于,在步骤S4.3中,所述作者的短期兴趣嵌入表示的表达式为:
us=W[uc;S];
式中,us表示作者的短期兴趣嵌入表示,uc表示作者节点的初始短期兴趣嵌入表示,S表示作者最近发表作品历史的序列特征表示。
CN202210247466.6A 2022-03-14 2022-03-14 基于异构图神经网络的学术合作关系预测方法 Pending CN114564573A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210247466.6A CN114564573A (zh) 2022-03-14 2022-03-14 基于异构图神经网络的学术合作关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210247466.6A CN114564573A (zh) 2022-03-14 2022-03-14 基于异构图神经网络的学术合作关系预测方法

Publications (1)

Publication Number Publication Date
CN114564573A true CN114564573A (zh) 2022-05-31

Family

ID=81719288

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210247466.6A Pending CN114564573A (zh) 2022-03-14 2022-03-14 基于异构图神经网络的学术合作关系预测方法

Country Status (1)

Country Link
CN (1) CN114564573A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359870A (zh) * 2022-10-20 2022-11-18 之江实验室 一种基于层次图神经网络的疾病诊疗过程异常识别***
CN116319110A (zh) * 2023-05-24 2023-06-23 保定思齐智科信息科技有限公司 针对工业多源异构时序数据的数据采集与治理方法
CN116383446A (zh) * 2023-04-06 2023-07-04 哈尔滨工程大学 一种基于异构引文网络的作者分类方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN117132218A (zh) * 2023-07-17 2023-11-28 杭州逍邦网络科技有限公司 工作流管理***

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115359870A (zh) * 2022-10-20 2022-11-18 之江实验室 一种基于层次图神经网络的疾病诊疗过程异常识别***
CN116383446A (zh) * 2023-04-06 2023-07-04 哈尔滨工程大学 一种基于异构引文网络的作者分类方法
CN116386895A (zh) * 2023-04-06 2023-07-04 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116386895B (zh) * 2023-04-06 2023-11-28 之江实验室 基于异构图神经网络的流行病舆情实体识别方法与装置
CN116319110A (zh) * 2023-05-24 2023-06-23 保定思齐智科信息科技有限公司 针对工业多源异构时序数据的数据采集与治理方法
CN116319110B (zh) * 2023-05-24 2023-08-11 保定思齐智科信息科技有限公司 针对工业多源异构时序数据的数据采集与治理方法
CN117132218A (zh) * 2023-07-17 2023-11-28 杭州逍邦网络科技有限公司 工作流管理***
CN117132218B (zh) * 2023-07-17 2024-03-19 杭州逍邦网络科技有限公司 工作流管理***

Similar Documents

Publication Publication Date Title
Cai et al. A comprehensive survey of graph embedding: Problems, techniques, and applications
La Gatta et al. Music recommendation via hypergraph embedding
Wang et al. Robust and flexible discrete hashing for cross-modal similarity search
Ji et al. Cross-modality microblog sentiment prediction via bi-layer multimodal hypergraph learning
CN114564573A (zh) 基于异构图神经网络的学术合作关系预测方法
Yang et al. Finding progression stages in time-evolving event sequences
Oloulade et al. Graph neural architecture search: A survey
Wang et al. Convolutional neural networks for expert recommendation in community question answering
Tang et al. Multi-label patent categorization with non-local attention-based graph convolutional network
Li et al. Image sentiment prediction based on textual descriptions with adjective noun pairs
Lu Semi-supervised microblog sentiment analysis using social relation and text similarity
Li et al. Hyperbolic neural collaborative recommender
Alamelu Mangai et al. A novel feature selection framework for automatic web page classification
CN112528136A (zh) 一种观点标签的生成方法、装置、电子设备和存储介质
Wang et al. Many hands make light work: Transferring knowledge from auxiliary tasks for video-text retrieval
Su et al. Semi-supervised knowledge distillation for cross-modal hashing
Wu et al. Heterogeneous manifold ranking for image retrieval
Zhao et al. Learning relevance restricted Boltzmann machine for unstructured group activity and event understanding
Xu et al. Towards annotating media contents through social diffusion analysis
Li et al. Semi-supervised variational user identity linkage via noise-aware self-learning
Chaudhuri et al. Modeling user behaviour in research paper recommendation system
Xia et al. Content-irrelevant tag cleansing via bi-layer clustering and peer cooperation
Chen et al. Deep voice-visual cross-modal retrieval with deep feature similarity learning
Bao et al. HTRM: a hybrid neural network algorithm based on tag-aware
Li et al. Intelligent unsupervised learning method of physical education image resources based on genetic algorithm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination