CN110705709B - 训练图神经网络模型的方法和装置 - Google Patents

训练图神经网络模型的方法和装置 Download PDF

Info

Publication number
CN110705709B
CN110705709B CN201910975012.9A CN201910975012A CN110705709B CN 110705709 B CN110705709 B CN 110705709B CN 201910975012 A CN201910975012 A CN 201910975012A CN 110705709 B CN110705709 B CN 110705709B
Authority
CN
China
Prior art keywords
target
graph
node
nodes
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910975012.9A
Other languages
English (en)
Other versions
CN110705709A (zh
Inventor
葛志邦
黄鑫
王琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910975012.9A priority Critical patent/CN110705709B/zh
Publication of CN110705709A publication Critical patent/CN110705709A/zh
Priority to PCT/CN2020/107612 priority patent/WO2021073211A1/zh
Application granted granted Critical
Publication of CN110705709B publication Critical patent/CN110705709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种训练图神经网络模型的方法和装置。方法包括:从样本集中获取目标训练样本,及对应的目标样本标签;目标训练样本对应目标关系网络图中的目标节点,目标节点具有目标节点编号,目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;根据目标节点编号和预设参数,从预先存储的目标关系网络图的图信息中,查询目标关系网络图的目标子图的图信息;目标子图以目标节点为中心节点,且目标子图中的各节点与目标节点之间的跳数小于或等于预设参数;利用目标子图的图信息和目标样本标签,对图神经网络模型进行训练。能够降低对机器的要求,并且提高训练效率。

Description

训练图神经网络模型的方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及训练图神经网络模型的方法和装置。
背景技术
图数据为表示人或物之间连接关系的数据结构。在生产生活中常常要挖掘图数据中的信息,以便提高生产效率或者改善人的体验。图神经网络(graph neural network,GNN)算法是业界领先的挖掘图数据中的信息的算法。
由于图数据的规模较大,例如可以达到十亿节点、千亿边的规模,常见的机器都无法容纳这么大规模的数据,虽然有机器能够容纳这么大规模的数据,对GNN模型的训练效率也很低。
因此,希望能有改进的方案,能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
发明内容
本说明书一个或多个实施例描述了一种训练图神经网络模型的方法和装置,能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
第一方面,提供了一种训练图神经网络模型的方法,方法包括:
从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;
根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;
利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。
在一种可能的实施方式中,所述图信息包括:
图结构信息、各节点的节点属性信息、各连接边的边属性信息。
在一种可能的实施方式中,所述对图神经网络模型进行训练,包括:
将所述目标子图的图信息输入所述图神经网络模型,得到所述目标节点对应的预测值;
根据所述预测值和所述目标样本标签,调整所述图神经网络模型的模型参数。
进一步地,所述将所述目标子图的图信息输入所述图神经网络模型,包括:
调整所述目标子图中的各节点的节点编号,以得到连续的各节点编号;并且,根据调整后的各节点编号,得到调整后的各连接边各自对应的边编号;根据调整后的节点编号和调整后的边编号,将所述目标子图的图信息表示为矩阵,将矩阵输入所述图神经网络模型。
在一种可能的实施方式中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
根据预设的各节点的邻居节点的数目上限,对选择的各节点进行下采样,使得下采样后得到的各节点的邻居节点的数目均不超过所述数目上限;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含下采样后的各节点的所述目标关系网络图的目标子图的图信息。
在一种可能的实施方式中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
根据预设的各节点的邻居节点的固定数目,对选择的各节点进行上采样或下采样,使得上采样或下采样后得到的各节点的邻居节点的数目均为所述固定数目;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含上采样或下采样后的各节点的所述目标关系网络图的目标子图的图信息。
在一种可能的实施方式中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
确定选择的各节点中的与所述目标节点之间的跳数为预设跳数的各目标节点,在所述目标节点与所述目标节点之间添加连接边;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含添加的连接边的所述目标关系网络图的目标子图的图信息。
在一种可能的实施方式中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
确定选择的各节点中以所述目标节点为起点按照预设规则得到的路径,由所述路径经过的节点和相关的连接边构成所述目标关系网络图的目标子图;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含得到的路径的所述目标关系网络图的目标子图的图信息。
第二方面,提供了一种训练图神经网络模型的装置,装置包括:
获取单元,用于从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;
查询单元,用于根据所述获取单元获取的目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;
训练单元,用于利用所述查询单元查询的目标子图的图信息和所述获取单元获取的目标样本标签,对图神经网络模型进行训练。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;然后根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;最后利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。由上可见,本说明书实施例,只需要查询以训练样本为中心的一个子图,将大规模图深度学习问题简化为小规模图数据问题,从而能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的训练图神经网络模型的方法流程图;
图3示出根据另一个实施例的训练图神经网络模型的方法流程图;
图4示出根据一个实施例的训练图神经网络模型的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及图神经网络模型的训练,具体地,利用预先建立的关系网络图对图神经网络模型进行训练。关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号。以图1中的关系网络图为例,该关系网络图包括节点11、节点21、节点22、节点23、节点31、节点32、节点33、节点34、节点35、节点41,节点11和节点21之间具有连接边,而节点21和节点23之间不具有连接边,连接边的边编号可以由该连接边连接的两个节点的节点编号组合而成。
GNN算法的核心逻辑是节点之间传递信息,由参数K控制总共传递几次,参照图1,对于指定的一个节点,与它相关的图数据只是以它为中心节点,半径为K的一个子图,而其余的图信息对这个节点没有任何影响,例如,对于节点11,当K=2时,节点41对节点11无影响。可以理解的是,上述半径为其他节点与中心节点之间的跳数,也就是,其他节点与中心节点的路径中经过的连接边的个数。本说明书实施例,训练图神经网络模型时,从图存储***中抽取样本点对应的子图,基于该子图进行模型训练,从而能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
图2示出根据一个实施例的训练图神经网络模型的方法流程图,该方法可以基于图1所示的实施场景。如图2所示,该实施例中训练图神经网络模型的方法包括以下步骤:步骤21,从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;步骤22,根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;步骤23,利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。下面描述以上各个步骤的具体执行方式。
首先在步骤21,从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号。可以理解的是,样本集中具有多个训练样本,以及各个训练样本对应的样本标签。训练样本与关系网络图中的节点相对应,该节点可以称为样本点。
在一个示例中,训练样本代表用户,样本标签为用户的类别标签。
然后在步骤22,根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数。可以理解的是,所述图信息至少包括图结构信息,可选地,还包括各节点的节点属性信息、或者各连接边的边属性信息。
参照图1所示的关系网络图,以目标节点为节点11为例,当预设参数K=2时,节点41与节点11之间的跳数大于所述预设参数,节点41对节点11无影响,因此节点41不包含在目标子图中,而节点21、节点22、节点23、节点31、节点32、节点33、节点34、节点35与节点11之间的跳数均小于或等于所述预设参数,因此可以包含在目标子图中。
在一个示例中,从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;根据预设的各节点的邻居节点的数目上限,对选择的各节点进行下采样,使得下采样后得到的各节点的邻居节点的数目均不超过所述数目上限;从预先存储的所述目标关系网络图的全图的图信息中,查询包含下采样后的各节点的所述目标关系网络图的目标子图的图信息。参照图1,假定预设参数为2,数目上限为2,由于节点41与节点11之间的跳数大于所述预设参数,则可以确定节点41不包含在目标子图中,由于节点11的邻居节点为3个超过所述数目上限,因此需要对这三个节点进行下采样,例如从节点21、节点22和节点23中随机删除一个节点,例如删除了节点22,由于节点21的邻居节点为3个超过所述数目上限,因此需要对节点31和节点32进行下采样,删除其中一个节点,例如删除节点31。
在另一个示例中,从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;根据预设的各节点的邻居节点的固定数目,对选择的各节点进行上采样或下采样,使得上采样或下采样后得到的各节点的邻居节点的数目均为所述固定数目;从预先存储的所述目标关系网络图的全图的图信息中,查询包含上采样或下采样后的各节点的所述目标关系网络图的目标子图的图信息。参照图1,假定预设参数为2,固定数目为2,由于节点41与节点11之间的跳数大于所述预设参数,则可以确定节点41不包含在目标子图中,由于节点11的邻居节点为3个超过所述固定数目,因此需要对这三个节点进行下采样,例如从节点21、节点22和节点23中随机删除一个节点,例如删除了节点22,由于节点23的邻居节点为1个低于所述固定数目,因此需要对节点35进行上采样,为节点23增加一个邻居节点即节点35。
在另一个示例中,从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;确定选择的各节点中的与所述目标节点之间的跳数为预设跳数的各目标节点,在所述目标节点与所述目标节点之间添加连接边;从预先存储的所述目标关系网络图的全图的图信息中,查询包含添加的连接边的所述目标关系网络图的目标子图的图信息。该示例,在获取子图时,可以对图结构进行一些改造,例如,在子图中,将中心节点在原图中的2度(或者3度等)邻居作为子图的1度邻居。参照图1,节点21与节点11之间的跳数为1,可以将节点21称为节点11的1度邻居,节点31与节点11之间的跳数为2,可以将节点31称为节点11的2度邻居。
在另一个示例中,从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;确定选择的各节点中以所述目标节点为起点按照预设规则得到的路径,由所述路径经过的节点和相关的连接边构成所述目标关系网络图的目标子图;从预先存储的所述目标关系网络图的全图的图信息中,查询包含得到的路径的所述目标关系网络图的目标子图的图信息。可以理解的是,上述预设规则可以为随机游走。
最后在步骤23,利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。可以理解的是,子图的图信息与原图的图信息相比数据量大大减少,有利于提高运算效率。
在一个示例中,将所述目标子图的图信息输入所述图神经网络模型,得到所述目标节点对应的预测值;根据所述预测值和所述目标样本标签,调整所述图神经网络模型的模型参数。
进一步地,调整所述目标子图中的各节点的节点编号,以得到连续的各节点编号;并且,根据调整后的各节点编号,得到调整后的各连接边各自对应的边编号;根据调整后的节点编号和调整后的边编号,将所述目标子图的图信息表示为矩阵,将矩阵输入所述图神经网络模型。可以理解的是,目标子图包括原目标关系网络图中的部分节点,该部分节点的节点编号未必是连续的,调整编号后有利于采用矩阵表示子图的图信息。
通过本说明书实施例提供的方法,首先从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;然后根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;最后利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。由上可见,本说明书实施例,只需要查询以训练样本为中心的一个子图,将大规模图深度学习问题简化为小规模图数据问题,从而能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
图3示出根据另一个实施例的训练图神经网络模型的方法流程图,该方法包括:首先从样本集中读取训练样本,包括节点编号(ID)和样本标签(Label);然后根据节点编号和模型参数K,从图存储***中查询返回子图信息,包括图结构信息,节点属性信息,边属性信息;接着将子图矩阵化:用矩阵的形式表示出图结构信息,节点属性信息,边属性信息等;最后将矩阵化的子图输入模型中进行模型训练。
本说明书实施例,基于子图训练图模型,并用矩阵的形式表示子图,完整的保留图信息。获得子图后,首先将子图中的节点和连接边重新编号,然后就可以用矩阵表示图中节点之间的连接关系,以及节点和连接边的对应关系,得到这些矩阵就可利用机器学习引擎进行模型训练。
本说明书实施例,机器资源需求少,内存4GB,16核机器就可以进行十亿点,千亿边的大规模图数据的深度学习。图数据处理高效,每一步训练,只需要将子图转化成矩阵,不需要将完整的图数据进行转化。模型训练高效,每一步训练只涉及子图内的节点和边,而不用对完整的图数据进行计算。
根据另一方面的实施例,还提供一种训练图神经网络模型的装置,该装置用于执行本说明书实施例提供的训练图神经网络模型的方法。图4示出根据一个实施例的训练图神经网络模型的装置的示意性框图。如图4所示,该装置400包括:
获取单元41,用于从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;
查询单元42,用于根据所述获取单元41获取的目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;
训练单元43,用于利用所述查询单元42查询的目标子图的图信息和所述获取单元获取的目标样本标签,对图神经网络模型进行训练。
可选地,作为一个实施例,所述图信息包括:
图结构信息、各节点的节点属性信息、各连接边的边属性信息。
可选地,作为一个实施例,所述训练单元43包括:
输入子单元,用于将所述查询单元42查询的目标子图的图信息输入所述图神经网络模型,得到所述目标节点对应的预测值;
调整子单元,用于根据所述输入子单元得到的预测值和所述获取单元41获取的目标样本标签,调整所述图神经网络模型的模型参数。
进一步地,所述输入子单元,具体用于调整所述目标子图中的各节点的节点编号,以得到连续的各节点编号;并且,根据调整后的各节点编号,得到调整后的各连接边各自对应的边编号;根据调整后的节点编号和调整后的边编号,将所述目标子图的图信息表示为矩阵,将矩阵输入所述图神经网络模型。
可选地,作为一个实施例,所述查询单元42包括:
第一选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
第一采样子单元,用于根据预设的各节点的邻居节点的数目上限,对所述第一选择子单元选择的各节点进行下采样,使得下采样后得到的各节点的邻居节点的数目均不超过所述数目上限;
第一查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述第一采样子单元得到的下采样后的各节点的所述目标关系网络图的目标子图的图信息。
可选地,作为一个实施例,所述查询单元42包括:
第二选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
第二采样子单元,用于根据预设的各节点的邻居节点的固定数目,对所述第二选择子单元选择的各节点进行上采样或下采样,使得上采样或下采样后得到的各节点的邻居节点的数目均为所述固定数目;
第二查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述第二采样子单元得到的上采样或下采样后的各节点的所述目标关系网络图的目标子图的图信息。
可选地,作为一个实施例,所述查询单元42包括:
第三选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
添加子单元,用于确定所述第三选择子单元选择的各节点中的与所述目标节点之间的跳数为预设跳数的各目标节点,在所述目标节点与所述目标节点之间添加连接边;
第三查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述添加子单元添加的连接边的所述目标关系网络图的目标子图的图信息。
可选地,作为一个实施例,所述查询单元42包括:
第四选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
路径确定子单元,用于确定所述第四选择子单元选择的各节点中以所述目标节点为起点按照预设规则得到的路径,由所述路径经过的节点和相关的连接边构成所述目标关系网络图的目标子图;
第四查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述路径确定子单元得到的路径的所述目标关系网络图的目标子图的图信息。
通过本说明书实施例提供的装置,只需要查询以训练样本为中心的一个子图,将大规模图深度学习问题简化为小规模图数据问题,从而能够在训练图神经网络模型时降低对机器的要求,并且提高训练效率。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (18)

1.一种训练图神经网络模型的方法,所述方法包括:
从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;
根据所述目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;
利用所述目标子图的图信息和所述目标样本标签,对图神经网络模型进行训练。
2.如权利要求1所述的方法,其中,所述图信息包括:
图结构信息、各节点的节点属性信息、各连接边的边属性信息。
3.如权利要求1所述的方法,其中,所述对图神经网络模型进行训练,包括:
将所述目标子图的图信息输入所述图神经网络模型,得到所述目标节点对应的预测值;
根据所述预测值和所述目标样本标签,调整所述图神经网络模型的模型参数。
4.如权利要求3所述的方法,其中,所述将所述目标子图的图信息输入所述图神经网络模型,包括:
调整所述目标子图中的各节点的节点编号,以得到连续的各节点编号;并且,根据调整后的各节点编号,得到调整后的各连接边各自对应的边编号;根据调整后的节点编号和调整后的边编号,将所述目标子图的图信息表示为矩阵,将矩阵输入所述图神经网络模型。
5.如权利要求1所述的方法,其中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
根据预设的各节点的邻居节点的数目上限,对选择的各节点进行下采样,使得下采样后得到的各节点的邻居节点的数目均不超过所述数目上限;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含下采样后的各节点的所述目标关系网络图的目标子图的图信息。
6.如权利要求1所述的方法,其中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
根据预设的各节点的邻居节点的固定数目,对选择的各节点进行上采样或下采样,使得上采样或下采样后得到的各节点的邻居节点的数目均为所述固定数目;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含上采样或下采样后的各节点的所述目标关系网络图的目标子图的图信息。
7.如权利要求1所述的方法,其中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
确定选择的各节点中的与所述目标节点之间的跳数为预设跳数的各目标节点,在所述目标节点与所述目标节点之间添加连接边;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含添加的连接边的所述目标关系网络图的目标子图的图信息。
8.如权利要求1所述的方法,其中,所述从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息,包括:
从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
确定选择的各节点中以所述目标节点为起点按照预设规则得到的路径,由所述路径经过的节点和相关的连接边构成所述目标关系网络图的目标子图;
从预先存储的所述目标关系网络图的全图的图信息中,查询包含得到的路径的所述目标关系网络图的目标子图的图信息。
9.一种训练图神经网络模型的装置,所述装置包括:
获取单元,用于从样本集中获取目标训练样本,以及所述目标训练样本对应的目标样本标签;其中,所述目标训练样本对应目标关系网络图中的目标节点,所述目标节点具有目标节点编号,所述目标关系网络图包括多个节点以及节点之间的连接边,各节点具有各自对应的节点编号,各连接边具有各自对应的边编号;
查询单元,用于根据所述获取单元获取的目标节点编号和预设参数,从预先存储的所述目标关系网络图的全图的图信息中,查询所述目标关系网络图的目标子图的图信息;其中,所述目标子图以所述目标节点为中心节点,且所述目标子图中的各节点与所述目标节点之间的跳数小于或等于所述预设参数;
训练单元,用于利用所述查询单元查询的目标子图的图信息和所述获取单元获取的目标样本标签,对图神经网络模型进行训练。
10.如权利要求9所述的装置,其中,所述图信息包括:
图结构信息、各节点的节点属性信息、各连接边的边属性信息。
11.如权利要求9所述的装置,其中,所述训练单元包括:
输入子单元,用于将所述查询单元查询的目标子图的图信息输入所述图神经网络模型,得到所述目标节点对应的预测值;
调整子单元,用于根据所述输入子单元得到的预测值和所述获取单元获取的目标样本标签,调整所述图神经网络模型的模型参数。
12.如权利要求11所述的装置,其中,所述输入子单元,具体用于调整所述目标子图中的各节点的节点编号,以得到连续的各节点编号;并且,根据调整后的各节点编号,得到调整后的各连接边各自对应的边编号;根据调整后的节点编号和调整后的边编号,将所述目标子图的图信息表示为矩阵,将矩阵输入所述图神经网络模型。
13.如权利要求9所述的装置,其中,所述查询单元包括:
第一选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
第一采样子单元,用于根据预设的各节点的邻居节点的数目上限,对所述第一选择子单元选择的各节点进行下采样,使得下采样后得到的各节点的邻居节点的数目均不超过所述数目上限;
第一查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述第一采样子单元得到的下采样后的各节点的所述目标关系网络图的目标子图的图信息。
14.如权利要求9所述的装置,其中,所述查询单元包括:
第二选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
第二采样子单元,用于根据预设的各节点的邻居节点的固定数目,对所述第二选择子单元选择的各节点进行上采样或下采样,使得上采样或下采样后得到的各节点的邻居节点的数目均为所述固定数目;
第二查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述第二采样子单元得到的上采样或下采样后的各节点的所述目标关系网络图的目标子图的图信息。
15.如权利要求9所述的装置,其中,所述查询单元包括:
第三选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
添加子单元,用于确定所述第三选择子单元选择的各节点中的与所述目标节点之间的跳数为预设跳数的各目标节点,在所述目标节点与所述目标节点之间添加连接边;
第三查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述添加子单元添加的连接边的所述目标关系网络图的目标子图的图信息。
16.如权利要求9所述的装置,其中,所述查询单元包括:
第四选择子单元,用于从所述目标关系网络图的各节点中,选择与所述目标节点之间的跳数小于或等于所述预设参数的各节点;
路径确定子单元,用于确定所述第四选择子单元选择的各节点中以所述目标节点为起点按照预设规则得到的路径,由所述路径经过的节点和相关的连接边构成所述目标关系网络图的目标子图;
第四查询子单元,用于从预先存储的所述目标关系网络图的全图的图信息中,查询包含所述路径确定子单元得到的路径的所述目标关系网络图的目标子图的图信息。
17.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-8中任一项的所述的方法。
18.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-8中任一项的所述的方法。
CN201910975012.9A 2019-10-14 2019-10-14 训练图神经网络模型的方法和装置 Active CN110705709B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910975012.9A CN110705709B (zh) 2019-10-14 2019-10-14 训练图神经网络模型的方法和装置
PCT/CN2020/107612 WO2021073211A1 (zh) 2019-10-14 2020-08-07 训练图神经网络模型的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910975012.9A CN110705709B (zh) 2019-10-14 2019-10-14 训练图神经网络模型的方法和装置

Publications (2)

Publication Number Publication Date
CN110705709A CN110705709A (zh) 2020-01-17
CN110705709B true CN110705709B (zh) 2021-03-23

Family

ID=69199738

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910975012.9A Active CN110705709B (zh) 2019-10-14 2019-10-14 训练图神经网络模型的方法和装置

Country Status (2)

Country Link
CN (1) CN110705709B (zh)
WO (1) WO2021073211A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705709B (zh) * 2019-10-14 2021-03-23 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置
CN111311714A (zh) * 2020-03-31 2020-06-19 北京慧夜科技有限公司 一种三维动画的姿态预测方法和***
CN112070213A (zh) * 2020-08-28 2020-12-11 Oppo广东移动通信有限公司 神经网络模型的优化方法、装置、设备及存储介质
CN111814921B (zh) * 2020-09-04 2020-12-18 支付宝(杭州)信息技术有限公司 对象特征信息获取、对象分类、信息推送方法及装置
CN114266281A (zh) * 2020-09-15 2022-04-01 华为技术有限公司 一种图神经网络训练的方法、装置及***
CN112734034A (zh) * 2020-12-31 2021-04-30 平安科技(深圳)有限公司 模型训练方法、调用方法、装置、计算机设备和存储介质
CN112862093B (zh) * 2021-01-29 2024-01-12 北京邮电大学 一种图神经网络训练方法及装置
CN113077237B (zh) * 2021-04-16 2021-08-27 广州凯园软件科技有限公司 一种自适应混合算法的排课方法及***
CN113407861B (zh) * 2021-05-19 2022-07-15 中国科学技术大学 基于去中心化图神经网络的社交推荐方法
CN113240089B (zh) * 2021-05-20 2022-11-25 北京百度网讯科技有限公司 基于图检索引擎的图神经网络模型训练方法和装置
CN113392289B (zh) * 2021-06-08 2022-11-01 北京三快在线科技有限公司 搜索推荐方法、装置、电子设备
CN115345291A (zh) * 2022-07-05 2022-11-15 华为技术有限公司 一种图处理方法及相关装置
CN115545189B (zh) * 2022-11-29 2023-04-18 支付宝(杭州)信息技术有限公司 训练图生成网络、训练图神经网络的方法及装置
CN116757262B (zh) * 2023-08-16 2024-01-12 苏州浪潮智能科技有限公司 图神经网络的训练方法、分类方法、装置、设备及介质
CN118134646A (zh) * 2024-05-06 2024-06-04 中科链安(北京)科技有限公司 一种基于调证数据的资金链路辅助调查方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492038A (zh) * 2017-09-18 2017-12-19 济南浚达信息技术有限公司 一种基于神经网络的社区发现方法
CN109146064A (zh) * 2018-09-05 2019-01-04 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质
CN109241309A (zh) * 2018-07-12 2019-01-18 北京邮电大学 一种查询图分解方法、装置、电子设备及存储介质
CN109614975A (zh) * 2018-10-26 2019-04-12 桂林电子科技大学 一种图嵌入方法、装置及存储介质
US20190163691A1 (en) * 2017-11-30 2019-05-30 CrowdCare Corporation Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
CN109948000A (zh) * 2019-01-09 2019-06-28 南方科技大学 异质网络的异常目标检测方法、装置、设备及存储介质
CN109979591A (zh) * 2019-03-12 2019-07-05 众安信息技术服务有限公司 一种基于图神经网络分析斑块进展因子的方法及装置
CN110009093A (zh) * 2018-12-07 2019-07-12 阿里巴巴集团控股有限公司 用于分析关系网络图的神经网络***和方法
CN110119467A (zh) * 2019-05-14 2019-08-13 苏州大学 一种基于会话的项目推荐方法、装置、设备及存储介质
CN110245787A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 一种目标群体预测方法、装置及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11853903B2 (en) * 2017-09-28 2023-12-26 Siemens Aktiengesellschaft SGCNN: structural graph convolutional neural network
US10733385B2 (en) * 2017-12-12 2020-08-04 Institute For Information Industry Behavior inference model building apparatus and behavior inference model building method thereof
CN110008967A (zh) * 2019-04-08 2019-07-12 北京航空航天大学 一种融合结构和语义模态的行为表征方法和***
CN110705709B (zh) * 2019-10-14 2021-03-23 支付宝(杭州)信息技术有限公司 训练图神经网络模型的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107492038A (zh) * 2017-09-18 2017-12-19 济南浚达信息技术有限公司 一种基于神经网络的社区发现方法
US20190163691A1 (en) * 2017-11-30 2019-05-30 CrowdCare Corporation Intent Based Dynamic Generation of Personalized Content from Dynamic Sources
CN109241309A (zh) * 2018-07-12 2019-01-18 北京邮电大学 一种查询图分解方法、装置、电子设备及存储介质
CN109146064A (zh) * 2018-09-05 2019-01-04 腾讯科技(深圳)有限公司 神经网络训练方法、装置、计算机设备和存储介质
CN109614975A (zh) * 2018-10-26 2019-04-12 桂林电子科技大学 一种图嵌入方法、装置及存储介质
CN110009093A (zh) * 2018-12-07 2019-07-12 阿里巴巴集团控股有限公司 用于分析关系网络图的神经网络***和方法
CN109948000A (zh) * 2019-01-09 2019-06-28 南方科技大学 异质网络的异常目标检测方法、装置、设备及存储介质
CN109979591A (zh) * 2019-03-12 2019-07-05 众安信息技术服务有限公司 一种基于图神经网络分析斑块进展因子的方法及装置
CN110119467A (zh) * 2019-05-14 2019-08-13 苏州大学 一种基于会话的项目推荐方法、装置、设备及存储介质
CN110245787A (zh) * 2019-05-24 2019-09-17 阿里巴巴集团控股有限公司 一种目标群体预测方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
图神经网络浅析;王佳;《现代计算机》;20190815(第23期);全文 *

Also Published As

Publication number Publication date
WO2021073211A1 (zh) 2021-04-22
CN110705709A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN110705709B (zh) 训练图神经网络模型的方法和装置
KR102225822B1 (ko) 인공지능 수행을 위한 학습 데이터 생성장치 및 방법
Davis et al. A kriging based method for the solution of mixed-integer nonlinear programs containing black-box functions
JP7098327B2 (ja) 情報処理システム、関数作成方法および関数作成プログラム
US20190056235A1 (en) Path querying method and device, an apparatus and non-volatile computer storage medium
JP2018531379A6 (ja) 経路照会方法、装置、デバイス及び不揮発性コンピューター記憶媒体
CN106462585B (zh) 用于特定列物化调度的***和方法
CN111435367B (zh) 知识图谱的构建方法、***、设备及存储介质
US20230177089A1 (en) Identifying similar content in a multi-item embedding space
CN111813910A (zh) 客服问题的更新方法、***、终端设备及计算机存储介质
JP6325762B1 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
EP4339843A1 (en) Neural network optimization method and apparatus
CN110929173A (zh) 同人识别方法、装置、设备及介质
US20240135323A1 (en) Ticket troubleshooting support system
CN105893445A (zh) 数据处理的方法、服务器和终端设备
JP2020030500A (ja) 施策探索装置、方法およびプログラム
JPWO2011016281A1 (ja) ベイジアンネットワーク構造学習のための情報処理装置及びプログラム
JP6713099B2 (ja) 学習済モデル統合方法、装置、プログラム、icチップ、及びシステム
JP6494679B2 (ja) 解析装置、情報提供装置、解析方法、およびプログラム
JP6733437B2 (ja) データ処理システム及びデータ処理方法
JP6612505B2 (ja) 分かち書き処理システム、プログラム、及び、分かち書き処理方法
CN115049899B (zh) 模型训练方法、指代表达式生成方法及相关设备
CN110309127B (zh) 一种数据处理方法、装置及电子设备
US11431594B2 (en) Part extraction device, part extraction method and recording medium
CN111526054B (zh) 用于获取网络的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant