CN113011282A - 图数据处理方法、装置、电子设备及计算机存储介质 - Google Patents
图数据处理方法、装置、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN113011282A CN113011282A CN202110220724.7A CN202110220724A CN113011282A CN 113011282 A CN113011282 A CN 113011282A CN 202110220724 A CN202110220724 A CN 202110220724A CN 113011282 A CN113011282 A CN 113011282A
- Authority
- CN
- China
- Prior art keywords
- graph
- subgraph
- sample
- sample graph
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图数据处理方法、装置、电子设备及计算机存储介质,涉及人工智能、区块链及云技术领域,该方法包括:将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图。子图预测模型的训练包括:获取包括多个样本图的训练数据集,将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于每个样本图,基于样本图对应的各节点的分类结果和样本图中各节点之间的关联关系,确定子图连通性损失,基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,得到子图预测模型。根据本申请的方法,在没有标注的子图的前提下,训练得到的模型可以准确识别出目标子图。
Description
技术领域
本申请涉及人工智能、区块链及云技术领域,具体而言,本申请涉及一种图数据处理方法、装置、电子设备及计算机存储介质。
背景技术
现有技术中,对于图数据,由于图数据的目标子图可以体现出图数据的主要属性,因此,目标子图的识别在实际应用中有着广泛的应用,比如,通过目标子图可实现对图数据的压缩,去噪等处理。
现有技术中,为了准确识别出图数据的目标子图,通常基于标注的子图所训练的模型实现目标子图的识别,为此,如何在没有标注的子图的情况下准确识别出目标子图是有待解决的问题。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案,以解决在没有子图标注的情况下,准确识别出目标子图的问题。
根据本申请的一个方面,提供了一种图数据处理方法,该方法包括:
获取待处理的图;
将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图,子图预测模型是通过以下方式训练得到的:
获取训练数据集,训练数据集包括多个样本图;
获取每个样本图的各节点之间的关联关系;
将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于一个样本图中的任一节点,分类结果表征了节点为样本图的目标子图的节点的概率;
对于每个样本图,基于样本图的各节点的分类结果和样本图的各节点之间的关联关系,确定样本图对应的子图连通性损失;
基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为子图预测模型。
根据本申请的另一个方面,提供了一种图数据处理装置,该装置包括:
图数据获取模块,用于获取待处理的图;
子图识别模块,用于将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图,子图预测模型是通过以下模型训练模块训练得到的,模型训练模块,用于:
获取训练数据集,训练数据集包括多个样本图;
获取每个样本图的各节点之间的关联关系;
将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于一个样本图中的任一节点,分类结果表征了节点为样本图的目标子图的节点的概率;
对于每个样本图,基于样本图的各节点的分类结果和样本图中各节点之间的关联关系,确定样本图对应的子图连通性损失;
基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为子图预测模型。
在一种可能的实现方式中,每个样本图携带有属性标签,对于每个样本图,该装置还包括:
属性损失确定模块,用于基于样本图的各节点的分类结果,得到样本图的预测目标子图;基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失,属性损失表征了预测目标子图的属性和样本图的属性之间的差异;
模型训练模块在基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练时,具体用于:
基于各样本图对应的子图连通性损失、属性损失以及训练数据集对初始神经网络模型进行训练。
在一种可能的实现方式中,对于每个样本图,该装置还包括:
相关度损失确定模块,用于基于样本图的各节点的分类结果,得到样本图的预测目标子图;确定预测目标子图与样本图之间的相关度损失,相关度损失表征了预测目标子图与样本图之间的相关度;
模型训练模块在基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练时,具体用于:
基于各样本图对应的子图连通性损失、相关度损失以及训练数据集对初始神经网络模型进行训练。
在一种可能的实现方式中,对于每个样本图,关联关系包括样本图对应的邻接矩阵,模型训练模块在基于样本图对应的各节点的分类结果和样本图中各节点之间的关联关系,确定样本图对应的子图连通性损失时,具体用于:
根据样本图的各节点的分类结果,确定样本图对应的节点分类矩阵,节点分类矩阵的每一行的元素对应样本图中一个节点的分类结果;
根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失。
在一种可能的实现方式中,模型训练模块在根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失时,具体用于:
根据节点分类矩阵和邻接矩阵,确定样本图的子图的连通性结果;
基于子图的连通性结果和子图连通性结果约束条件,确定样本图对应的子图连通性损失。
在一种可能的实现方式中,子图连通性损失的表达式为:
Lcon(g(G;θ))=||Norm(STAS-I2)||F
其中,G为样本图,θ为神经网络模型的模型参数,Lcon(g(G;θ))为子图连通性损失,Norm表示矩阵的行归一化,S为节点分类矩阵,A为邻接矩阵,I2为2*2的单位矩阵,ST为S的转置矩阵,||··||F为弗罗贝尼乌斯范数。
在一种可能的实现方式中,属性损失确定模块在基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失时,具体用于:
获取预测目标子图中各节点的节点特征;
通过融合预测目标子图中各节点的节点特征,得到预测目标子图的子图特征;
根据子图特征,确定预测目标子图的属性信息;
根据预测目标子图的属性信息和样本图的属性标签,确定样本图与预测目标子图之间的属性损失。
在一种可能的实现方式中,对于任一样本图,相关度损失确定模块在确定预测目标子图与样本图之间的相关度损失时,具体用于:
提取预测目标子图的子图特征以及样本图的样本图特征;
基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失。
在一种可能的实现方式中,对于任一样本图,相关度损失确定模块在基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失时,具体用于:
将样本图对应的子图特征和样本图特征拼接,基于拼接后的特征确定预测目标子图与样本图之间的第一相关度损失;
获取除该样本图之外的其他各样本图对应的子图特征;
将该样本图的样本图特征和每一其他样本图对应的子图特征拼接,基于拼接后的特征确定该样本图与每一其他样本图之间的第二相关度损失;
根据第一相关度损失和各第二相关度损失,确定预测目标子图与样本图之间的相关度损失。
根据本申请的再一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时实现本申请的图数据处理方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现本申请的图数据处理方法。
本发明实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图数据处理方法的各种可选实现方式中提供的方法。
本申请提供的技术方案带来的有益效果是:
本申请提供的图数据处理方法、装置、电子设备及计算机可读存储介质,对于需要识别出目标子图的待处理的图,可将该待处理的图输入至训练好的子图预测模型,通过子图预测模型识别出该待处理的图的目标子图,由于该子图预测模型在训练时的训练数据集中仅包括样本图,即该子图预测模型可以在没有样本子图(标注的子图)的情况下,识别出待处理的图的目标子图。同时,在模型训练时,基于各节点的节点特征和各节点之间的关联关系确定子图连通性损失,关联关系可以反映出各节点之间的关联性,在确定子图连通性损失时,结合各节点之间的关联关系,可以使基于各样本图的子图连通性损失和训练数据集训练得到的子图预测模型更加准确的识别出目标子图。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一个实施例提供的一种数据结构图的结构示意图;
图2为本申请一个实施例提供的一种子图预测模型的结构示意图;
图3为本申请一个实施例提供的一种图数据处理方法中子图预测模型的训练方法的流程示意图;
图4为本申请一个实施例提供的一种属性预测模型的结构示意图;
图5为本申请一个实施例提供的一种相关度预测模型的结构示意图
图6为本申请一个实施例提供的一种各预测网络间的连接关系及数据流向示意图;
图7为本申请一个实施例提供的又一种各预测网络间的连接关系及数据流向示意图;
图8为本申请一个实施例提供的一种图数据处理方法的流程示意图;
图9为本申请一个实施例提供的一种图数据处理方法的实施环境的示意图;
图10为本申请一个实施例提供的又一种图数据处理方法的实施环境的示意图;
图11为本申请一个实施例提供的一种图数据处理装置的结构示意图;
图12为本申请一个实施例提供的一种电子设备的结构示意图;
图13是本申请一个实施例提供的分布式***应用于区块链***的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
在计算机科学中,一个图(Graph)是由顶点和边两部分组成的一种数据结构,图G可以通过顶点集合V和它包含的边集合E来进行描述,具体可描述为G(V,E)。
如图1所示,图1示出了一种数据结构图,图中的顶点可以用圆圈表示,边就是这些圆圈之间的连线,顶点之间通过边连接。其中,顶点也可称之为节点或者交点,边也可称之为连接。例如,一个数据结构图可以表示一个社交网络,每一个人就是一个顶点,互相认识的人之间通过边联系。图有各种形状和大小,边可以有权重(weight),即每一条边会被分配一个正数或者负数值。对于一个代表航线的数据结构图,各个城市可以是顶点,航线是边,那么边的权重可以是飞行时间,或者机票价格,等等。另外,根据顶点之间是否存在方向依赖关系,边可以是有向的,也可以是无向的;有向的边意味着两个顶点之间只存在单方面的关系,而无向的边(或者说双向边)意味着两个顶点之间存在双方面的关系。
本申请实施例是为了在没有子图标注的情况下,准确识别出目标子图而提出的一种图数据处理方法,通过该方法可以准确识别出待处理的图的目标子图,其中,本申请实施例中的子图预测模型可以基于人工智能技术实现,可选的,本申请可选实施例中所涉及的数据计算可以采用云计算实现,所涉及的数据存储可以采用云存储实现。
具体地,如图2所示,本申请实施例通过将待处理的图(G)输入到训练好的子图预测模型中进行处理,得到待处理的图所对应的目标子图(Gsub)。目标子图Gsub在结构上保留了待处理的图G的部分结构,但是能体现出G的特定的属性Y,或者说Gsub的属性标签与G的属性标签一致,并且,目标子图中的节点之间的连接情况与在样本图中的连接情况保持一致。换言之,在空间结构上,Gsub可以滤除掉待处理的图G中的噪声以及冗余数据,保留了其中的有效的结构信息。
如图2所示,该子图预测模型由图神经网络(Graph Neural Networks,GNN)和多层全连接网络(Multi-Layer Perceptron,MLP)构成。图神经网络GNN是一种直接作用于图结构上的神经网络。多层全连接网络(或者说多层感知器)也叫人工神经网络(ArtificialNeural Network,ANN),除了输入输出层,它中间可以有一个或者多个隐层。神经网络是仿生物神经网络而来的一种技术,通过连接多个特征值,经过线性和非线性的组合,最终达到一个目标(在本示例中,该目标为目标子图)。
本申请实施例的方案中的子图预测模型采用了人工智能技术,即本申请实施例提供了一种基于人工智能的目标子图识别方案(即本申请实施例提供的图数据处理方法)。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,该目标子图识别方案具体涉及人工智能技术中的机器学习(MachineLearning,ML)技术,机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
在本申请的一个实施例中,本申请实施例所提供的方案可以基于云技术实现,各可选实施例中所涉及的数据处理(包括但不限于数据计算等),可以采用云计算实现。云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络***的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台***进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的***后盾支撑,只能通过云计算来实现。
云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用***能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展,按使用付费。
作为云计算的基础能力提供商,会建立云计算资源池(简称云平台,一般称为IaaS(Infrastructure as a Service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作***)、存储设备、网络设备。按照逻辑功能划分,在IaaS(Infrastructure as a Service,基础设施即服务)层上可以部署PaaS(Platform as a Service,平台即服务)层,PaaS层之上再部署SaaS(Software as a Service,软件即服务)层,也可以直接将SaaS部署在IaaS上。PaaS为软件运行的平台,如数据库、web容器等。SaaS为各式各样的业务软件,如web门户网站、***器等。一般来说,SaaS和PaaS相对于IaaS是上层。
下面以具体实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例所提供的方案可以适用于任何需要确定待处理的图中的目标子图的场景中。本申请实施例所提供的方案可以由任一电子设备执行,可以是用户终端设备,也可以是服务器执行,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云计算服务的云服务器。
终端设备可以包括以下至少一项:智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。
本申请实施例提供了一种可能的实现方式,如图3所示,提供了一种图数据处理方法的流程图,该方案可以由任一电子设备执行,例如,可以是终端设备,也可以是服务器,或者由终端设备和服务器共同执行。为描述方便,下面将以服务器作为执行主体为例对本申请实施例提供的方法进行说明。该方法可以包括以下步骤:
步骤S110,获取待处理的图。
其中,待处理的图指的是待处理的数据结构图,也可称为原图,即需要确定其目标子图的图,为计算机科学中的图(Graph)。待处理的图包括M个节点以及M个节点之间的连接情况(即边分布情况),M为大于1的正整数。
步骤S120,将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图,子图预测模型是通过以下方式训练得到的,如图3中所示的流程图,子图预测模型的训练方法可以包括以下步骤:
步骤S1201,获取训练数据集,训练数据集包括多个样本图。
其中,多个样本图是具有相同属性的图。
步骤S1202,获取每个样本图的各节点之间的关联关系。
其中,图中有多个节点,各节点之间各节点之间的关联关系可以体现出节点之间的相关性,相关性越大,表示对应的节点的分类结果越相近。
可选的,获取待处理的图中各节点的关联关系,可以包括:
获取待处理的图的邻接矩阵;
基于邻接矩阵,确定待处理的图中各节点的关联关系。
其中,图可以通过顶点集合V和它包含的边集合E来进行描述,具体可描述为G(V,E)。因此,用一个一维数组存放图中所有顶点数据;用一个二维数组存放顶点间关系(边或弧)的数据,称这个二维数组为邻接矩阵。具体的,邻接矩阵中每个元素表示了两个相邻节点之间的关联关系。
步骤S1203,将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,其中,对于一个样本图中的任一节点,分类结果表征了节点为样本图的目标子图的节点的概率。
其中,对于一个节点,分类结果表征了节点为目标子图中的节点的概率,则对于一个样本图,可以基于该样本图中各节点的分类结果,确定各节点中用于构成目标子图的节点。
步骤S1204,对于每个样本图,基于样本图对应的各节点的分类结果和样本图中各节点之间的关联关系,确定样本图对应的子图连通性损失。
其中,子图连通性损失表征了各节点的分类结果的准确性。
可选的,对于每个样本图,关联关系包括样本图对应的邻接矩阵,基于样本图对应的各节点的分类结果和样本图中各节点之间的关联关系,确定样本图对应的子图连通性损失,包括:
根据样本图的各节点的分类结果,确定样本图对应的节点分类矩阵,节点分类矩阵的每一行的元素对应样本图中一个节点的分类结果;
根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失。
其中,图的邻接矩阵为表示顶点之间相邻关系的矩阵,各节点的关联关系可通过各节点之间的连接关系表示,则可通过图的邻接矩阵表征图中各节点之间的关联关系。
可选的,根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失,包括:
根据节点分类矩阵和邻接矩阵,确定样本图的子图的连通性结果;
基于子图的连通性结果和子图连通性结果约束条件,确定样本图对应的子图连通性损失。
其中,子图的连通性结果表征了作为目标子图的各节点之间的连通性,即属于目标子图的各节点是否是相关联的节点,考虑到各节点之间的离散性,仅基于各节点的分类结果来确定目标子图不够准确,即目标子图在确定时没有考虑到节点之间的关联关系,为此,在模型训练时,通过子图连通性结果约束条件对子图的连通性结果进行约束,一方面可以提高子图分类结果的准确性,另一方面可以约束相邻的节点的分类结果相同。
可选的,子图分类结果的约束条件可以为样本图的邻接矩阵。邻接矩阵可以反应出各节点之间的关联关系,因此,基于邻接矩阵可以对子图的连通性结果起到约束的作用。
作为一个示例,节点分类矩阵为n*2的矩阵,n为样本图中节点的个数,第i行元素表示第i个节点属于目标子图的概率,即第i个节点的分类结果,其中,i为大于等于1小于等于n的整数。
假如,节点分类矩阵可表示为:
其中,第一行元素[1 0]表示该节点为属于目标子图的节点。第二行元素[0 1]表示该节点为不属于目标子图的节点。
其中,对于一个样本图,该样本图中的节点有两种分类结果,一种是节点属于目标子图,一种是目标节点不属于子图。则子图连通性损失可以包括目标子图连通性损失和非目标子图连通性损失,目标子图连通性损失表征了属于目标子图的节点的分类结果的准确性,非目标子图连通性损失表征了不属于目标子图的节点的分类结果的准确性。
可选的,子图连通性损失的表达式为:
Lcon(g(G;θ))=||Norm(STAS-I2)||F
其中,G为样本图,θ为神经网络模型的模型参数,g(G;θ)为预测目标子图,Lcon(g(G;θ))为子图连通性损失,Norm表示矩阵的行归一化,S为节点分类矩阵,A为邻接矩阵,I2为2*2的单位矩阵,ST为S的转置矩阵,||··||F为弗罗贝尼乌斯范数。
其中,对于弗罗贝尼乌斯范数,总存在唯一的实数,使得该范数取得极小值,因此,通过弗罗贝尼乌斯范数来表征子图连通性损失。节点分类矩阵S的每一行的元素对应样本图中一个节点的分类结果。ST为2*n的矩阵,ST的一行元素表示属于目标子图的各节点的分类结果,另外一行元素表示不属于目标子图的各节点的分类结果。矩阵S的列数为2,所以STAS为2*2的矩阵,矩阵STAS中,第一行元素表示属于目标子图的节点的分类结果。第二行元素表示不属于目标子图的节点的分类结果,其中,每一行的两个元素对应的概率之和为1。
其中,STAS矩阵的第一行的第一个元素表示属于目标子图的节点中,各节点属于目标子图的概率之和,第一行的第二个元素表示属于目标节点的节点中,各节点不属于目标子图的概率之和,比如,待处理的图中共有10个节点,属于目标子图的节点有4个,则第一行第一个元素表示这4个节点中每个节点属于目标子图的概率之和,第一行第二个元素表示这4个节点中,每个节点不属于目标子图的概率之和。
同理,第二行的第一个元素表示不属于目标子图的节点中,各节点属于目标子图的概率之和,第二行的第二个元素表示不属于目标子图的节点中,各节点不属于目标子图的概率之和。基于上述示例,第二行第一个元素表示除上述4个节点之外的6个节点中,每个节点属于目标子图的概率之和,第二行的第二个元素表示在这6个节点中,每个节点不属于目标子图的概率之和。
步骤S1205,基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为子图预测模型。
考虑到各节点之间的离散性,会使得仅基于各节点的分类结果所确定目标子图不够准确,即目标子图中包括没有关联关系的节点或者关联关系较弱的节点,从而使得训练得到的子图预测模型不稳定。因此,在模型训练时,基于各节点的分类结果和各节点的关联关系,确定子图连通性损失,基于该损失可提高模型的稳定性,从而使得基于该模型所确定的目标子图更加准确。
实际应用中,如果训练损失不满足训练结束条件,则基于训练损失调整初始神经网络模型的模型参数,并基于训练数据集对调整后的神经网络模型进行训练。
在本申请的一可选方案中,训练结束条件可基于实际需求配置,比如,训练损失通过一个实数表征,训练结束条件可以为训练损失小于设定阈值。则在训练损失小于设定阈值时,表示训练损失值满足训练结束条件,结束训练,得到子图预测模型。在训练损失不小于设定阈值时,表示训练损失值不满足训练结束条件,需要对初始神经网络模型的模型参数进行调整,继续基于训练数据集对调整后的模型继续训练,直到得到的训练损失满足训练结束条件,结束训练。
在本申请的一可选方案中,训练结束条件还可以为损失函数收敛,即训练损失为损失函数。
作为一个可选方案,初始神经网络模型的模型架构本申请实施例不做限定,可以是任一能够用于确定样本图的预测目标子图的初始神经网络模型,如可以为Graph SAGE(Graph SAmple and aggreGatE,图采样聚合)网络,GAT(Graph Attention Network,图注意力网络),GIN(Graph Isomorphism Network,图同构网络)。
本申请的方案,对于需要识别出目标子图的待处理的图,可将该待处理的图输入至训练好的子图预测模型,通过子图预测模型识别出该待处理的图的目标子图,由于该子图预测模型在训练时的训练数据集中仅包括样本图,即该子图预测模型可以在没有样本子图(标注的子图)的情况下,识别出待处理的图的目标子图。同时,在模型训练时,基于各节点的节点特征和各节点之间的关联关系确定子图连通性损失,关联关系可以反映出各节点之间的关联性,在确定子图连通性损失时,结合各节点之间的关联关系,可以使基于各样本图的子图连通性损失和训练数据集训练得到的子图预测模型更加准确的识别出目标子图。
为了使目标子图与待处理的图的属性一致,在模型训练时,需要使预测目标子图与样本图的属性要具有较强的相关性,才可使得训练好的模型所识别出的目标子图与待处理的图的属性一致。因此,在模型训练时,可基于样本图的各节点的分类结果,得到样本图的预测目标子图,基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失,基于属性损失对模型进行训练,以使得训练好的模型在确定目标子图时,约束了目标子图的属性与待处理的图的属性之间的相关性。
本申请的一个实施例中,每个样本图携带有属性标签,对于每个样本图,该方法还包括:
基于样本图的各节点的分类结果,得到样本图的预测目标子图;
基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失,属性损失表征了预测目标子图的属性和样本图的属性之间的差异。
基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练,可以包括:
基于各样本图对应的子图连通性损失、属性损失以及训练数据集对初始神经网络模型进行训练。
属性标签表征了样本图的属性,属性可以反应事物的某方面的特征,在本申请的实施例中,样本图的属性可以为事物的某个功能,某个参数等。作为一个示例,比如,样本图为药物分子,则样本图对应的属性可以为药物属性,比如,退烧,消炎等。
由于目标子图在结构上保留了样本图的部分结构,且可以体现出样本图的属性,为了使模型确定出的目标子图更加准确,可以在模型训练时,将预测目标子图与样本图之间的属性差异作为属性损失,通过属性损失,提高模型的性能,即通过属性损失约束目标子图的属性与对应的样本图的属性一致。作为一个示例,对于药物分子对应的图作为待处理的图,比如,该待处理的图的属性为退烧,由于该待处理的图的目标子图可以体现出该待处理的图的属性,则该待处理的图的目标子图的属性应该也是退烧。为此,在模型训练时,可基于属性损失提高模型的性能,使得模型识别出的目标子图的属性与待处理的图的属性一致。
对于药物分子,通常其分子官能团可以决定药物分子的化学性质,因此,在待处理的图为药物分子对应的图时,目标子图可以是该药物分子的分子官能团对应的子图,因此,基于本申请实施例的方案,在待处理的图为药物分子对应的图时,可以基于训练好的子图预测模型准确识别出药物分子的分子官能团,基于此,为药物研究提供数据支持。
互信息可以衡量不同变量之间的信息包含关系,由此,可通过互信息衡量预测目标子图和样本图的属性之间的信息包含关系,即在确定属性损失时,可基于预测目标子图和样本图的属性标签,确定预测目标子图和样本图的属性标签之间的第一互信息,通过第一互信息约束预测目标子图的属性和样本图的属性之间的关系。
在本申请的一个可选实施例中,由于对于一个节点,分类结果表征了节点为目标子图中的节点的概率,为此,对于一个样本图,基于该样本图的各节点的分类结果,得到样本图的预测目标子图可以包括以下至少一种实现方式:
在一实施方式中,比如,一个样本图中包括M个节点,可以将该M个节点中,概率大于或者等于预设概率阈值的节点,确定为用于构成该样本图的预测目标子图的节点,即将概率大于或者等于预设概率阈值的节点分为一类,将概率小于预设概率阈值的节点分为另一类,该类节点为不属于目标子图中的节点。
在另一实施方式中,可以将各节点的概率从大到小进行排序,即对该M个节点进行排序,并根据该排序结果选取排在前N位的节点作为用于构成样本图的预测目标子图的节点,即将排在前N位的节点分为一类,将其余节点分为另一类。此时N可以是根据M确定的,例如,根据实验数据得出目标子图中的节点数量占原图节点数量的设定比例,则根据M和该设定比例确定N的取值。
可选的,基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失,可以包括:
获取预测目标子图中各节点的节点特征;
通过融合预测目标子图中各节点的节点特征,得到预测目标子图的子图特征;
根据子图特征,确定预测目标子图的属性信息;
根据预测目标子图的属性信息和样本图的属性标签,确定样本图与预测目标子图之间的属性损失。
其中,预测目标子图的属性信息(图4中所示的预测属性)可以通过属性预测模型实现,属性预测模型用于预测图的属性信息,具体的,参见图4所示的属性预测模型的模型结构示意图,针对每一个样本图,将该样本图的预测目标子图(即图4中的预测目标子图Gsub)输入属性预测模型,该模型包括图神经网络GCN和多层全连接网络(图4中所示的q)。首先基于图神经网络提取预测目标子图Gsub的子图特征xsub。子图特征xsub由预测目标子图Gsub中各个节点的节点特征组成。进一步的,基于将预测目标子图Gsub的子图特征xsub输入多层全连接网络中进行处理,得到预测目标子图的属性信息。基于预测目标子图的属性信息和样本图的属性标签,可以确定样本图与预测目标子图之间的属性损失。
在一可选实施例中,该属性预测模型可以是在训练初始子图预测模型之前训练好的,也可以是与子图预测模型同步训练得到的,即在训练子图预测模型的过程中,同时对属性预测模型进行训练。
具体的,可以将多个携带属性标签的样本子图作为训练数据,对属性预测模型进行训练,具体的,将各样本子图输入至初始网络中,提取每个样本子图的子图特征;对于每个样本子图,基于该样本子图的子图特征,得到该样本子图的预测属性;基于各样本子图的预测属性和各自对应的属性标签,确定属性损失,在属性损失满足训练结束条件时,得到属性预测模型,在不满足训练结束条件时,则基于属性损失调整初始网络的模型参数,并基于训练数据对调整后的模型进行训练。
在本申请实施例的方案中,由于图与图之间的信息相关度(相关度)可以反应出两个图之间的信息包含关系,即两个图中共有的信息量大小,两个图之间的相关度越大,所共有的信息量越大,反之,相关度越小,所共有的信息量越小。因此,在模型训练时,可以将样本图与其对应的预测目标子图之间的信息相关度作为相关度损失,基于该损失对模型进行训练,使得训练得到的模型在识别待处理的图的目标子图时,使目标子图尽可能多的包含待处理的图中的有用信息。
基于此,在模型训练时,训练损失中引用了预测目标子图与样本图之间的相关度损失,具体的,相关度损失可通过以下方式确定:
在本申请的一个实施例中,对于每个样本图,该方法还包括:
基于样本图的各节点的分类结果,得到样本图的预测目标子图;
确定预测目标子图与样本图之间的相关度损失,相关度损失表征了预测目标子图与样本图之间的相关度;
基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练,包括:
基于各样本图对应的子图连通性损失、相关度损失以及训练数据集对初始神经网络模型进行训练。
可以理解的是,训练损失可以同时包括子图连通性损失、属性损失和相关度损失,则在基于训练好的模型对待处理的图进行目标子图识别时,目标子图的属性与待处理的图的属性一致,且目标子图中尽可能多的包含待处理的图中的有用信息。
为了使目标子图尽可能多的包含待处理的图中的有用信息,在模型训练时,需要使预测目标子图与样本图之间信息相关度尽可能大,这样才可使得训练好的模型所识别出的目标子图尽可能多的包含待处理的图中的有用信息。
基于前文描述可知,互信息可以衡量不同变量之间的信息包含关系,由此,可通过互信息衡量预测目标子图和样本图之间的信息相关度,即在确定相关度损失时,可基于预测目标子图和样本图之间的第二互信息约束预测目标子图和样本图之间的信息相关度。
可选的,对于任一样本图,确定预测目标子图与样本图之间的相关度损失,可以包括:
提取预测目标子图的子图特征以及样本图的样本图特征;
基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失。
其中,可通过图神经网络提取预测目标子图的子图特征和样本图的样本图特征。
在本申请的一个实施例中,对于任一样本图,基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失,可以包括:
将样本图对应的子图特征和样本图特征拼接,基于拼接后的特征确定预测目标子图与样本图之间的第一相关度损失;
获取除该样本图之外的其他各样本图对应的子图特征;
将该样本图的样本图特征和每一其他样本图对应的子图特征拼接,基于拼接后的特征确定该样本图与每一其他样本图之间的第二相关度损失;
根据第一相关度损失和各第二相关度损失,确定预测目标子图与样本图之间的相关度损失。
其中,对于一个样本图,该样本图与除该样本图之外的其他各样本图对应的第二相关度损失为类间损失,即不同类之间的差异越大表明信息越不相近,第一相关度损失为类内损失,即同类之间损失越小表明信息越相近。基于第一相关度损失和各第二相关度损失所确定的相关度损失可以更加准确的描述出预测目标子图与样本图之间的信息相关度。
可选的,可通过第二互信息描述预测目标子图与样本图之间的信息相关度。
在本申请的实施例中,可以直接基于子图特征和样本图特征确定相关度损失。还可基于训练好的相关度预测模型逼近相关度损失,确定预测目标子图与样本图之间的相关度损失,即基于相关度预测模型确定预测目标子图和样本图之间的信息相关度。具体的,可以先将子图特征和样本图特征进行拼接(或者说聚合),然后对拼接得到的特征向量进行处理,得到信息相关度。
参见图5所示的相关度预测模型的模型结构示意图,针对每一个样本图,将该样本图(即图5中的样本图G)和该样本图的预测目标子图(即图5中的预测目标子图Gsub)输入相关度预测模型,该模型包括图神经网络GCN和全连接网络MLP2。首先基于图神经网络提取样本图G的样本图特征x和预测目标子图Gsub的子图特征xsub。样本图特征x由样本图G中各个节点的节点特征组成,子图特征xsub由预测目标子图Gsub中各个节点的节点特征组成。进一步的,将样本图特征x和预测目标子图Gsub的子图特征xsub输入全连接层MLP2中进行处理,得到样本图和预测目标子图之间的信息相关度。
在一可选实施例中,该相关度预测模型可以是在训练初始子图预测模型之前训练好的,也可以与子图预测模型的同步进行训练得到的,即在训练子图预测模型的过程中,同时对相关度预测模型进行训练。
在一实施例中,相关度预测模型具体可通过以下方式训练得到:
获取训练数据集合,该数据训练集合中包括多个样本图,每个样本图对应的目标子图,每个样本图与其对应的目标子图之间的相关度标注结果;基于训练数据集合,对初始网络模型进行训练,具体针对每个样本图,可提取该样本图的第一特征,该样本图对应的目标子图的第二特征,基于第一特征和第二特征,确定该样本图和其对应的目标子图之间的相关度预测结果,其中,相关度预测结果表征了样本图与其对应的目标子图之间的信息相关度;基于各样本图对应的相关度和预测结果和相关度标注结果,确定相关度训练损失,在相关度训练损失满足训练结束条件时,得到相关度预测模型,在不满足训练结束条件时,则基于相关度训练损失调整该初始网络模型的模型参数,并基于训练数据集合对调整后的模型进行训练。
可选的,训练结束条件可以为相关度预测结果小于信息量阈值,通过信息量阈值对目标子图的信息量进行约束,使得目标子图在尽可能包含样本图中的有用信息的同时,可以过滤掉目标子图中的噪声与冗余信息。
本申请实施例所提供的方案可以适用于任意需要识别出待处理的图的目标子图的应用场景,通过该方案可以将待处理的图输入至子图预测模型中得到待处理的图的目标子图,其中,子图预测模型不是基于标注的子图进行训练的,提高了数据处理效率,另外,通过该模型得到的目标子图的属性与待处理的图的属性一致,尽可能包含了待处理的图中的有用信息,且对目标子图的信息量进行了约束,以过滤掉目标子图中的噪声和冗余信息。为了更好的理解本申请实施例提供的方案,下面结合一个具体的实施示例对该方案中子图预测模型的训练进行进一步说明。
参见图6和图7所示的各预测模型的模型结构示意图,子图预测模型的训练方法包括但不限于如下步骤:
步骤S1,获取训练数据集,训练数据集包括多个样本图。
步骤S2,获取每个样本图的各节点之间的关联关系(图6中所示的邻接矩阵A)。
步骤S3,将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果。
在本示例中,以一个样本图(图6和图7中所示的样本图G)为例,具体说明如何将该样本图输入至初始神经网络模型中,得到该样本图中各节点的分类结果。
初始神经网络模型中包括图神经网络GNN和全连接网络MLP1,图神经网络包括图卷积网络GCN,先通过GCN提取样本图中每个节点的节点特征,每个节点的节点特征可以通过Xl表征。
Xl=GCN(A,Xl-1;θ1) (1)
其中,A为样本图G的邻接矩阵,l为图神经网络的层数,θ1为图神经网络GNN的参数。
然后,将各节点的节点特征输入至多层全连接网络MLP1,得到每个节点的分类结果。
步骤4,根据样本图对应的各节点的分类结果,确定样本图对应的节点分类矩阵(图6中所示的S,图7中所示的select),节点分类矩阵S中的行数表征了样本图中节点的个数m节点分类矩阵的每一行的元素对应样本图中一个节点的分类结果。
本示例中,分类结果为2分类,基于各节点的分类结果确定的节点分类矩阵S表示为:
S=MLP(Xl;θ2) (2)
其中,S为n×2的矩阵,n为样本图中节点的个数,MLP即为图6和图7中所示的全连接网络MLP1,θ2为全连接网络MLP1的参数。该矩阵的第i行元素表示该节点是否属于预测目标子图的概率。
步骤5,基于各节点的分类结果,可确定出该样本图G的预测目标子图Gsub(图7中所示的IB-subgraph)。当矩阵S中的元素为0或1时,预测目标子图的特征可由STXl的第一行元素得到。
可选的,可基于图7中所示的图信息瓶颈模型Bottleneck确定样本图G的预测目标子图Gsub。图信息瓶颈模型将在下文具体说明。
其中,为下文描述方便,将此处确定预测目标子图的方案记为Gsub=g(G;θ)。
步骤6,对于每个样本图,根据样本图对应的节点分类矩阵和样本图中各节点之间的关联关系(在本示例中,通过邻接矩阵表征各节点之间的关联关系),确定样本图G对应的子图连通性损失。
子图连通性损失表征了各节点的分类结果的准确性,即前文中所确定的预测目标子图是否准确。子图连通性损失可表示为:
Lcon(g(G;θ))=||Norm(STAS)-I2||F (3)
其中,G为样本图,θ为神经网络模型的模型参数,g(G;θ)为预测目标子图,Lcon(g(G;θ))为子图连通性损失,Norm表示矩阵的行归一化,S为节点分类矩阵,A为邻接矩阵,I2为2*2的单位矩阵,ST为S的转置矩阵,||··||F为弗罗贝尼乌斯范数。θ为初始神经网络模型的模型参数,包括参数θ1和θ2。
矩阵S的列数为2,所以STAS为2*2的矩阵,矩阵STAS中,第一行元素表示节点属于目标子图的概率。第二行元素表示节点不属于目标子图的概率,其中,每一行的两个元素对应的概率之和为1。
通过矩阵I2可以拉近样本图中属于预测目标子图的各节点之间的关系,拉小样本图中不属于预测目标子图的各节点之间的关系。
最小化Lcon(g(G;θ)),一方面可以促使矩阵S的元素收敛到0或1,另一方面可以约束相邻节点的分类结果相同。
在本申请的实施例中,在子图预测模型训练过程中,需要让样本图的预测目标子图能体现出样本图的特定属性Y,且预测目标子图尽可能多的包含样本图中的有用信息,同时预测目标子图过滤掉样本图中的噪声和冗余信息。为此,在模型训练时,本申请实施例中提出了图信息瓶颈模型来描述上述要求,基于图信息瓶颈模型对子图预测模型不断进行优化,以使得训练得到的子图预测模型达到上述要求。
图信息瓶颈模型表示为:
其中,Gsub为预测目标子图,Y为样本图G的属性,s.t.表示受约束,Ic为信息量阈值,I()为两个变量间的互信息,通过互信息衡量不同变量之间的信息包含关系。
第一目标函数表示预测目标子图要和样本图G的属性Y有较强的相关性,即求(Gsub,Y)的最大值。第二目标函数s.t.I(G,Gsub)作为第一目标函数的约束条件,要想预测目标子图尽可能多的包含样本图中的有用信息的同时,目标预测子图过滤掉样本图中的噪声和冗余信息,I(G,Gsub)≤Ic,即通过I(G,Gsub)约束了预测目标子图与样本图之间的信息相关度,使得预测目标子图尽可能多的包含样本图中的有用信息,同时通过I(G,Gsub)≤Ic约束了预测目标子图中所包含的信息量并不能大于信息量阈值,使得目标预测子图过滤掉样本图中的噪声和冗余信息。
通过拉格朗日乘子法,可将上述的图信息瓶颈模型的有约束优化问题转化为无约束的优化问题,转化后的图信息瓶颈模型表示为:
其中,β为拉格朗日乘数。
通过上述公式可知,该公式分为两个部分,第一部分I(Gsub,Y)是为了约束预测目标子图的属性。由于样本图的目标子图的需要反映该样本图的属性,因此,在模型训练时,可通过优化第一互信息,得到预测目标子图和样本图之间的属性损失,将属性损失作为模型的训练损失,优化子图预测模型,以使得训练得到的子图预测模型所预测得到的待处理的图的目标子图与待处理的图的属性有较强的关联。另外,由于样本图的目标子图需要尽可能多的包含样本图中的有用信息,同时预测目标子图过滤掉样本图中的噪声和冗余信息。因此,在模型训练时,可通过优化第二互信息I(G,Gsub),得到预测目标子图与样本图之间的相关度损失,将相关度损失作为模型的训练损失,优化子图预测模型,以使得训练得到的子图预测模型所预测得到的待处理的图的目标子图,尽可能多的包含待处理的图中的有用信息,同时该目标子图过滤掉待处理的图中的噪声和冗余信息。
步骤7,对于每个样本图,每个样本图携带有属性标签,该属性标签表征了样本图的属性,基于该样本图的预测目标子图和样本图的属性标签,确定样本图对应的属性损失。
由于互信息可以衡量不同变量之间的信息包含关系,由此,可通过互信息衡量预测目标子图和样本图的属性之间的信息包含关系,即在确定属性损失时,可基于预测目标子图和样本图的属性标签,确定预测目标子图和样本图的属性标签之间的第一互信息,通过第一互信息约束预测目标子图的属性和样本图的属性之间的关系。
可选的,基于各样本图的预测目标子图和对应的样本图的属性标签,确定第一互信息I(Gsub,Y),第一互信息表征了预测目标子图和属性标签之间的相关性。
其中,第一互信息具体可表示为:
I(Gsub,Y)=∫p(y,Gsub)logp(y|Gsub)dydGsub+H(Y) (6)
其中,Gsub为预测目标子图,Y为训练数据集中样本图的属性,训练数据集中的各样本图的属性相同,y为训练数据集中某个样本图的属性,p(y,Gsub)为一个样本图的属性与对应的预测目标子图之间的联合分布,通过该联合分布表征了预测目标子图Gsub的属性为y的概率,p(y|Gsub)为后验概率,表征了样本图的属性是y的前提下,其预测目标子图的属性是y的概率。H(Y)是Y的熵,由于H(Y)和预测目标子图的求解无关,因此在计算第一互信息时可以忽略掉。
由于互信息难以计算,为此,需要对第一互信息进行优化,以使得该第一互信息便于计算,在本申请的一个实施例中,通过以下方式对第一互信息进行优化,并基于第一互信息,得到属性损失。
具体的,将样本图和各自对应的目标子图作为正样本,正样本中样本图的属性与目标子图的属性相同,基于正样本来逼近联合分布p(y,Gsub),基于变分估计来逼近p(y|Gsub),即通过对应的网络预测得到预测目标子图的属性信息,基于该属性信息和对应样本图的属性,确定属性损失。
本示例中,通过变分估计,可得到第一互信息对应的下界函数:
其中,N为训练数据集中样本图的数量,ygt为样本图的属性,yi为训练数据集中第i个样本图的属性,Gsub,i表示训练数据集中第i个样本图对应的预测目标子图,为预测目标子图的属性信息,为属性损失(图6和图7中所示的Lcls),为网络q的参数。=:为赋值运算符,属性损失可以为通过=:左边的公式表示。
通过上述下界函数,可将第一互信息的优化转化为传统的分类问题,即将优化互信息的问题转化为优化下届函数的问题。通过最小化子图连通性损失,最大化I(Gsub,Y)。
在本实施例的一可选方案中,上述的处理方式可将看作一个多层的全连接网络,基于该网络所构成的属性预测模型确定属性损失,属性预测模型用于预测图的属性(也可称之为属性信息),以及属性损失。如图6和图7所示,属性预测模型包括聚合模块(图7中所示的聚合模块2)和全连接网络q,其中,可以是一个多层全连接网络(图6和图7中所示的q),需要说明的是,聚合模块所实现的功能也可集成在网络q中。
具体的,将预测目标子图中各节点的节点特征通过图6中所示的聚合模块进行聚合,得到预测目标子图的子图特征(图6和图7中所示的xsub),基于子图特征xsub,通过网络q输出预测目标子图的属性,基于预测目标子图的属性和样本图的属性,可得到属性损失(图6和图7中所示的Lcls)。
可选的,对于离散的图的属性标签,可以采用交叉熵损失来表示属性损失,而对于连续的图的属性值,可以采用平方差损失来表示属性损失。
由于样本图的目标子图需要尽可能多的包含样本图中的有用信息,同时预测目标子图过滤掉样本图中的噪声和冗余信息。因此,在模型训练时,可通过优化第二互信息I(G,Gsub),得到预测目标子图与样本图之间的相关度损失,将相关度损失作为模型的训练损失,优化子图预测模型,以使得训练得到的子图预测模型所预测得到的待处理的图的目标子图,尽可能多的包含待处理的图中的有用信息,同时该目标子图过滤掉待处理的图中的噪声和冗余信息。
步骤8,确定预测目标子图和样本图之间的相关度损失。
具体的,可以直接基于子图特征和样本图特征确定相关度损失。还可基于Donsker-Varadhan大偏差理论形式的图的互信息估计方法,利用训练好的相关度预测模型逼近第二互信息,得到相关度损失,即基于相关度预测模型确定预测目标子图和样本图之间的相关度损失,相关度预测模型用于确定两个图之间的信息相关度以及确定相关度损失。具体的,可以先将子图特征(图6和图7中所示的xsub)和样本图特征(图6和图7中所示的x)进行拼接(或者说聚合,可通过图6中相关度预测模型中的聚合模块1实现),然后对拼接得到的特征向量进行处理,得到相关度损失。
由于第二互信息也难以计算,可通过以下方式对第二互信息进行计算,即对第二互信息进行优化:
将样本图和各自对应的目标子图作为正样本,正样本中样本图的属性与目标子图的属性相同,将样本图与其不对应的目标子图作为负样本,负样本中样本图的属性与目标子图的属性不同。具体的,可通过数据乱采样的方式获取负样本。
基于正样本得到第一相关度损失,基于负样本得到各第二相关度损失,根据第一相关度损失和各第二相关度损失,确定预测目标子图与样本图之间的相关度损失。
具体的,可将样本图对应的子图特征和样本图特征拼接,基于拼接后的特征确定预测目标子图与样本图之间的第一相关度损失,将该样本图的样本图特征和每一其他样本图对应的子图特征拼接,基于拼接后的特征确定该样本图与每一其他样本图之间的第二相关度损失。
基于相关度损失不断调整相关度预测模型的参数,使得训练得到的相关度预测模型可以准确地确定出预测目标子图和对应的样本图之间的信息相关度(第二互信息)。
相关度损失可以表示为:
其中,为相关度损失,N为训练数据集中样本图的数量,为相关度预测模型的模型参数,f表示相关度预测模型。Gi表示训练数据集中第i个样本图,Gsub,i表示Gi对应的预测目标子图,Gsub,j表示训练数据集中除该样本图之外的其他任一样本图对应的预测目标子图。Gi和Gsub,j构成负样本,Gi和Gsub,i构成正样本。为第一相关度损失,为各第二相关度损失。
步骤9,得到上述三个损失(子图连通性损失,属性损失和相关度损失)后,可基于这三个损失,得到训练损失,训练损失可以表示为:
其中,为训练损失,Lcon(g(G;θ))为子图连通性损失,为属性损失,为相关度损失, G为样本图,Gsub为预测目标子图,y为训练数据集中某个样本图的属性,θ为初始神经网络模型的模型参数,包括参数θ1和θ2。ygt为样本图的属性,为网络q的参数,为相关度预测模型的模型参数。
步骤10,基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为子图预测模型。
在可选的实施例中,属性预测模型、相关度预测模型和该子图预测模型的训练过程可以是同步进行的,即在训练子图预测模型的过程中,对属性预测模型和相关度预测模型进行训练,并基于属性预测模型输出得到的属性损失和基于相关度预测模型输出得到的相关度损失对子图预测模型的网络参数进行优化,得到训练后的子图预测模型。此时,属性预测模型、相关度预测模型和子图预测模型之间的连接关系如图7所示。需要说明的是,属性预测模型、相关度预测模型和子图预测模型的结构如前文,此处不再赘述。
在图7中,聚合模块1(Aggregate)和全连接网络MLP2构成相关度预测模型,聚合模块2(Aggregate)和q网络构成属性预测模型。
图7中的内层优化(T-step inner optimiization)指的是给定样本图G和样本图的目标子图,优化相关度预测模型的模型参数从而可使得训练好的相关度预测模型准确的预测出两张图之间的信息相关度。图7中的外层优化(Outerr optimiization)指的是在模型参数和固定的情况下,优化子图预测模型中的其他参数,从而使得训练得到的子图预测模型可准确识别出图的目标子图。
基于与图3中所示的方法相同的原理,本申请实施例还提供了一种图数据处理方法,下面以服务器为执行主体,对该方法进行描述,如图8中所示,该方法可以包括以下步骤:
步骤S210,获取待处理的图。
此步骤与前文步骤S110内容一致,在此不再赘述。
步骤S220,将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图。其中,子图预测模型是基于前文所描述的方法训练得到的。
此步骤与前文步骤S120内容一致,在此不再赘述。
本申请实施例所提供的方案可以由任一电子设备执行,可以是用户终端设备,用户可通过用户终端设备调用训练好的子图预测模型,实现对待处理的图的目标子图的识别。也可以是服务器执行,比如,待处理的图中用户通过用户终端设备发送给服务器图处理请求,图处理请求中包括待处理的图,服务器基于该请求,通过子图预测模型识别出待处理的图中的目标子图,并将该目标子图发送给用户终端,以通过用户终端展示给客户。
在本申请的一个可选实施例中,将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图,可以包括:
将待处理的图输入至训练好的子图预测模型,通过子图预测模型执行以下操作,得到待处理的图的目标子图:
提取待处理的图中各节点的节点特征;
基于各节点的节点特征,得到各节点的分类结果;
基于各节点的分类结果,得到待处理的图的目标子图。
图9为本申请一个实施例提供的图数据处理方法的实施环境的示意图,该示例中的实施环境可以包括但不限于子图识别服务器101、网络102、终端设备103。子图识别服务器101可以通过网络102与终端设备103通信,终端设备103将子图识别请求发送给子图识别服务器101,子图识别服务器101可以通过网络向终端设备103发送识别得到的目标子图。
上述终端设备103中包括人机交互屏幕1031,处理器1032及存储器1033。人机交互屏幕1031用于显示目标子图。存储器1033用于存储检索图像和目标子图等相关数据。子图识别服务器101包括数据库1011和处理引擎1012,处理引擎1012可用于训练得到子图预测模型。数据库1011用于存储训练好的子图预测模型。终端设备103可以将子图识别请求通过网络上传至子图识别服务器101中,子图识别服务器101中的处理引擎1012可调用子图预测模型,识别出待处理的图的目标子图,并将目标子图提供给终端设备103进行展示。
上述子图识别服务器101中处理引擎主要两个功能,第一个功能是用于训练得到子图预测模型,第二个功能是用于基于子图预测模对待处理的图进行处理,得到待处理的图的目标子图。可以理解的是,可将上述两个功能分别由两个服务器实现,参见图10,两个服务器分别为训练服务器201和子图识别服务器202,训练服务器201用于训练得到子图预测模型,子图识别服务器202用于实现目标子图的识别。
在实际应用中,两个服务器之间可以互相通信,训练服务器201训练好子图预测模型后,可将该子图预测模型存储在训练服务器201中,或将子图预测模型发送给子图识别服务器202。或者,在子图识别服务器202需要调用子图预测模型时,向训练服务器201发送模型调用请求,训练服务器201基于该请求将子图预测模型发送给子图识别服务器202。
作为一个示例,终端设备204通过网络203将子图识别请求发送给子图识别服务器202,子图识别服务器202调用训练服务器201中的子图预测模型,基于子图预测模型,子图识别服务器202在完成子图识别后,将识别得到的目标子图通过网络203发送给终端设备204,以使终端设备204显示该目标子图。
本申请所提供的图数据的处理方法可适用于任何需要识别目标子图的应用场景,比如,结构生物学以及医学领域上的药物发现、分子优化、分子生成等领域。为了便于对本方案的理解,比如,将该方案应用于分子官能团的挖掘。对于药物分子,由于其分子官能团可以决定药物分子的化学性质,因此,该待处理的图如果是药物分子对应的图,则目标子图可以是该药物分子的分子官能团对应的子图,因此,基于本申请实施例的方案,在待处理的图为药物分子对应的图时,可基于训练好的子图预测模型准确识别出药物分子的分子官能团,基于此,可以为药物研究提供数据支持。
基于与图3中所示的方法相同的原理,本申请实施例还提供了一种图数据处理装置30,如图11中所示,该图数据处理装置30可以包括图数据获取模块310和子图识别模块320,其中:
图数据获取模块310,用于获取待处理的图;
子图识别模块320,用于将待处理的图输入至训练好的子图预测模型,得到待处理的图的目标子图,子图预测模型是通过以下模型训练模块训练得到的:
获取训练数据集,训练数据集包括多个样本图;
获取每个样本图的各节点之间的关联关系;
将各样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于一个样本图中的任一节点,分类结果表征了节点为样本图的目标子图的节点的概率;
对于每个样本图,基于样本图的各节点的分类结果和样本图的各节点之间的关联关系,确定样本图对应的子图连通性损失;
基于各样本图对应的子图连通性损失和训练数据集对初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为子图预测模型。
本申请的一个实施例中,每个样本图携带有属性标签,对于每个样本图,该装置还包括:
属性损失确定模块,用于基于样本图的各节点的分类结果,得到样本图的预测目标子图;基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失,属性损失表征了预测目标子图的属性和样本图的属性之间的差异;
模型训练模块在基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练时,具体用于:
基于各样本图对应的子图连通性损失、属性损失以及训练数据集对初始神经网络模型进行训练。
本申请的一个实施例中,对于每个样本图,该装置还包括:
相关度损失确定模块,用于基于样本图的各节点的分类结果,得到样本图的预测目标子图;确定预测目标子图与样本图之间的相关度损失,相关度损失表征了预测目标子图与样本图之间的相关度;
模型训练模块在基于各样本图的子图连通性损失和训练数据集对初始神经网络模型进行训练时,具体用于:
基于各样本图对应的子图连通性损失、相关度损失以及训练数据集对初始神经网络模型进行训练。
本申请的一个实施例中,对于每个样本图,关联关系包括样本图对应的邻接矩阵,模型训练模块在基于样本图对应的各节点的分类结果和样本图中各节点之间的关联关系,确定样本图对应的子图连通性损失时,具体用于:
根据样本图的各节点的分类结果,确定样本图对应的节点分类矩阵,节点分类矩阵的每一行的元素对应样本图中一个节点的分类结果;
根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失。
本申请的一个实施例中,模型训练模块在根据样本图对应的节点分类矩阵和邻接矩阵,确定样本图对应的子图连通性损失时,具体用于:
根据节点分类矩阵和邻接矩阵,确定样本图的子图的连通性结果;
基于子图的连通性结果和子图连通性结果约束条件,确定样本图对应的子图连通性损失。
本申请的一个实施例中,子图连通性损失的表达式为:
Lcon(g(G;θ))=||Norm(STAS-I2)||F
其中,G为样本图,θ为神经网络模型的模型参数,Lcon(g(G;θ))为子图连通性损失,Norm表示矩阵的行归一化,S为节点分类矩阵,A为邻接矩阵,I2为2*2的单位矩阵,ST为S的转置矩阵,||··||F为弗罗贝尼乌斯范数。
本申请的一个实施例中,属性损失确定模块在基于预测目标子图和样本图的属性标签,确定样本图与预测目标子图之间的属性损失时,具体用于:
获取预测目标子图中各节点的节点特征;
通过融合预测目标子图中各节点的节点特征,得到预测目标子图的子图特征;
根据子图特征,确定预测目标子图的属性信息;
根据预测目标子图的属性信息和样本图的属性标签,确定样本图与预测目标子图之间的属性损失。
本申请的一个实施例中,对于任一样本图,相关度损失确定模块在确定预测目标子图与样本图之间的相关度损失时,具体用于:
提取预测目标子图的子图特征以及样本图的样本图特征;
基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失。
本申请的一个实施例中,对于任一样本图,相关度损失确定模块在基于子图特征和样本图特征,确定预测目标子图与样本图之间的相关度损失时,具体用于:
将样本图对应的子图特征和样本图特征拼接,基于拼接后的特征确定预测目标子图与样本图之间的第一相关度损失;
获取除该样本图之外的其他各样本图对应的子图特征;
将该样本图的样本图特征和每一其他样本图对应的子图特征拼接,基于拼接后的特征确定该样本图与每一其他样本图之间的第二相关度损失;
根据第一相关度损失和各第二相关度损失,确定预测目标子图与样本图之间的相关度损失。
本申请实施例的图数据处理装置可执行本申请实施例所提供的图数据处理方法,其实现原理相类似,本申请各实施例中的图数据处理装置中的各模块、单元所执行的动作是与本申请各实施例中的图数据处理方法中的步骤相对应的,对于图数据处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图数据处理方法中的描述,此处不再赘述。
其中,图数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该图数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。
在一些实施例中,本发明实施例提供的图数据处理装置可以采用软硬件结合的方式实现,作为示例,本发明实施例提供的图数据处理装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本发明实施例提供的图数据处理方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application SpecificIntegrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
在另一些实施例中,本发明实施例提供的图数据处理装置可以采用软件方式实现,图11示出了存储在存储器中的图数据处理装置,其可以是程序和插件等形式的软件,并包括一系列的模块,包括训练数据获取模块410和模型训练模块420,用于实现本发明实施例提供的图数据处理方法。
基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机程序;处理器,用于通过调用计算机程序执行本申请任一实施例所示的图数据处理方法。
本申请提供的图数据处理方法,对于需要识别出目标子图的待处理的图,可将该待处理的图输入至训练好的子图预测模型,通过子图预测模型识别出该待处理的图的目标子图,由于该子图预测模型在训练时的训练数据集中仅包括样本图,即该子图预测模型可以在没有样本子图(标注的子图)的情况下,识别出待处理的图的目标子图。同时,在模型训练时,基于各节点的节点特征和各节点之间的关联关系确定子图连通性损失,关联关系可以反映出各节点之间的关联性,在确定子图连通性损失时,结合各节点之间的关联关系,可以使基于各样本图的子图连通性损失和训练数据集训练得到的子图预测模型更加准确的识别出目标子图。
在一个可选实施例中提供了一种电子设备,如图12所示,图12所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码(计算机程序),并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备也可以是终端设备,图12示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
其中,本申请提供的图数据处理方法,还可以通过云计算的方式实现,云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(DistributedComputing)、并行计算(ParallelComputing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。
本申请提供的图数据处理方法,该方案还可以通过人工智能云服务实现,人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。本申请中,可以利用平台提供的AI框架和AI基础设施来实现本申请提供的图数据处理方法。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。
本申请实施例涉及的方法可通过由客户端、多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)通过网络通信的形式连接形成的分布式***的实现。
具体的,可将图9中涉及的子图识别服务器101和终端设备103,或者图10中涉及的训练服务器201、子图识别服务器202和终端设备204作为该分布式***中的节点。通过该分布式***实现本申请的图数据处理方法中涉及的数据交互,
以分布式***为区块链***为例,参见图13,图13是本发明实施例提供的分布式***100应用于区块链***的一个可选的结构示意图,由多个节点(接入网络中的任意形式的计算设备,如服务器、用户终端)和客户端形成,节点之间形成组成的点对点(P2P,PeerTo Peer)网络,P2P协议是一个运行在传输控制协议(TCP,Transmission ControlProtocol)协议之上的应用层协议。在分布式***中,任何机器如服务器、终端都可以加入而成为节点,节点包括硬件层、中间层、操作***层和应用层。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本申请实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
根据本申请的另一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种实施例实现方式中提供的图数据处理方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种图数据处理方法,其特征在于,包括:
获取待处理的图;
将所述待处理的图输入至训练好的子图预测模型,得到所述待处理的图的目标子图,所述子图预测模型是通过以下方式训练得到的:
获取训练数据集,所述训练数据集包括多个样本图;
获取每个所述样本图的各节点之间的关联关系;
将各所述样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于一个样本图中的任一节点,所述分类结果表征了所述节点为所述样本图的目标子图的节点的概率;
对于每个所述样本图,基于所述样本图的各节点的分类结果和所述样本图的各节点之间的关联关系,确定所述样本图对应的子图连通性损失;
基于各所述样本图对应的子图连通性损失和所述训练数据集对所述初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为所述子图预测模型。
2.根据权利要求1所述的方法,其特征在于,每个所述样本图携带有属性标签,对于每个所述样本图,所述方法还包括:
基于所述样本图的各节点的分类结果,得到所述样本图的预测目标子图;
基于所述预测目标子图和所述样本图的属性标签,确定所述样本图与所述预测目标子图之间的属性损失,所述属性损失表征了所述预测目标子图的属性和所述样本图的属性之间的差异;
所述基于各所述样本图的子图连通性损失和所述训练数据集对所述初始神经网络模型进行训练,包括:
基于各所述样本图对应的子图连通性损失、属性损失以及所述训练数据集对所述初始神经网络模型进行训练。
3.根据权利要求1所述的方法,其特征在于,对于每个所述样本图,所述方法还包括:
基于所述样本图的各节点的分类结果,得到所述样本图的预测目标子图;
确定所述预测目标子图与所述样本图之间的相关度损失,所述相关度损失表征了所述预测目标子图与所述样本图之间的相关度;
所述基于各所述样本图的子图连通性损失和所述训练数据集对所述初始神经网络模型进行训练,包括:
基于各所述样本图对应的子图连通性损失、相关度损失以及所述训练数据集对所述初始神经网络模型进行训练。
4.根据权利要求1至3中任一项所述的方法,其特征在于,对于每个所述样本图,所述关联关系包括所述样本图对应的邻接矩阵,所述基于所述样本图对应的各节点的分类结果和所述样本图中各节点之间的关联关系,确定所述样本图对应的子图连通性损失,包括:
根据所述样本图的各节点的分类结果,确定所述样本图对应的节点分类矩阵,所述节点分类矩阵的每一行的元素对应所述样本图中一个节点的分类结果;
根据所述样本图对应的节点分类矩阵和所述邻接矩阵,确定所述样本图对应的子图连通性损失。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本图对应的节点分类矩阵和所述邻接矩阵,确定所述样本图对应的子图连通性损失,包括:
根据所述节点分类矩阵和所述邻接矩阵,确定所述样本图的子图的连通性结果;
基于所述子图的连通性结果和子图连通性结果约束条件,确定所述样本图对应的子图连通性损失。
6.根据权利要求5所述的方法,其特征在于,所述子图连通性损失的表达式为:
Lcon(g(G;θ))=||Norm(STAS-I2)||F
其中,G为所述样本图,θ为神经网络模型的模型参数,Lcon(g(G;θ))为所述子图连通性损失,Norm表示矩阵的行归一化,S为所述节点分类矩阵,A为所述邻接矩阵,I2为2*2的单位矩阵,ST为S的转置矩阵,||··||F为弗罗贝尼乌斯范数。
7.根据权利要求2所述的方法,其特征在于,所述基于所述预测目标子图和所述样本图的属性标签,确定所述样本图与所述预测目标子图之间的属性损失,包括:
获取所述预测目标子图中各节点的节点特征;
通过融合所述预测目标子图中各节点的节点特征,得到所述预测目标子图的子图特征;
根据所述子图特征,确定所述预测目标子图的属性信息;
根据所述预测目标子图的属性信息和所述样本图的属性标签,确定所述样本图与所述预测目标子图之间的属性损失。
8.根据权利要求3所述的方法,其特征在于,对于任一所述样本图,所述确定所述预测目标子图与所述样本图之间的相关度损失,包括:
提取所述预测目标子图的子图特征以及所述样本图的样本图特征;
基于所述子图特征和所述样本图特征,确定所述预测目标子图与所述样本图之间的相关度损失。
9.根据权利要求8所述的方法,其特征在于,对于任一所述样本图,所述基于所述子图特征和所述样本图特征,确定所述预测目标子图与所述样本图之间的相关度损失,包括:
将所述样本图对应的子图特征和样本图特征拼接,基于拼接后的特征确定预测目标子图与所述样本图之间的第一相关度损失;
获取除该样本图之外的其他各样本图对应的子图特征;
将该样本图的样本图特征和每一其他样本图对应的子图特征拼接,基于拼接后的特征确定该样本图与所述每一其他样本图之间的第二相关度损失;
根据所述第一相关度损失和各所述第二相关度损失,确定所述预测目标子图与所述样本图之间的相关度损失。
10.一种图数据处理装置,其特征在于,包括:
图数据获取模块,用于获取待处理的图;
子图识别模块,用于将所述待处理的图输入至训练好的子图预测模型,得到所述待处理的图的目标子图,所述子图预测模型是通过以下方式训练得到的:
获取训练数据集,所述训练数据集包括多个样本图;
获取每个所述样本图的各节点之间的关联关系;
将各所述样本图输入至初始神经网络模型中,得到每个样本图中各节点的分类结果,对于一个样本图中的任一节点,所述分类结果表征了所述节点为所述样本图的目标子图的节点的概率;
对于每个所述样本图,基于所述样本图的各节点的分类结果和所述样本图中各节点之间的关联关系,确定所述样本图对应的子图连通性损失;
基于各所述样本图对应的子图连通性损失和所述训练数据集对所述初始神经网络模型进行训练,直至满足预设的训练结束条件,将训练结束时的神经网络模型确定为所述子图预测模型。
11.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-9中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220724.7A CN113011282A (zh) | 2021-02-26 | 2021-02-26 | 图数据处理方法、装置、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110220724.7A CN113011282A (zh) | 2021-02-26 | 2021-02-26 | 图数据处理方法、装置、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113011282A true CN113011282A (zh) | 2021-06-22 |
Family
ID=76386639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110220724.7A Pending CN113011282A (zh) | 2021-02-26 | 2021-02-26 | 图数据处理方法、装置、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011282A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297500A (zh) * | 2021-06-23 | 2021-08-24 | 哈尔滨工程大学 | 一种社交网络孤立节点链接预测方法 |
CN113807370A (zh) * | 2021-09-29 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN113989574A (zh) * | 2021-11-04 | 2022-01-28 | 中国科学技术大学 | 图像解释方法、图像解释装置、电子设备和存储介质 |
CN114155417A (zh) * | 2021-12-13 | 2022-03-08 | 中国科学院空间应用工程与技术中心 | 图像目标的识别方法、装置、电子设备及计算机存储介质 |
CN114814776A (zh) * | 2022-06-24 | 2022-07-29 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN114859300A (zh) * | 2022-07-07 | 2022-08-05 | 中国人民解放军国防科技大学 | 一种基于图连通度的雷达辐射源数据流处理方法 |
WO2023284511A1 (zh) * | 2021-07-15 | 2023-01-19 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的图模型训练方法、装置及设备 |
WO2023029352A1 (zh) * | 2021-08-30 | 2023-03-09 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN115965058A (zh) * | 2022-12-28 | 2023-04-14 | 连连(杭州)信息技术有限公司 | 神经网络训练方法、实体信息分类方法、装置及存储介质 |
CN115984633A (zh) * | 2023-03-20 | 2023-04-18 | 南昌大学 | 门级电路组件识别方法、***、存储介质及设备 |
WO2023115343A1 (zh) * | 2021-12-21 | 2023-06-29 | 深圳晶泰科技有限公司 | 数据处理方法、装置、模型训练方法和预测自由能方法 |
WO2023134061A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的药物特征信息确定方法及装置 |
WO2023174189A1 (zh) * | 2022-03-15 | 2023-09-21 | 上海爱数信息技术股份有限公司 | 图网络模型节点分类方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
CN111985622A (zh) * | 2020-08-25 | 2020-11-24 | 支付宝(杭州)信息技术有限公司 | 一种图神经网络训练方法和*** |
CN112131261A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
CN112231592A (zh) * | 2020-11-09 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于图的网络社团发现方法、装置、设备以及存储介质 |
-
2021
- 2021-02-26 CN CN202110220724.7A patent/CN113011282A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200285944A1 (en) * | 2019-03-08 | 2020-09-10 | Adobe Inc. | Graph convolutional networks with motif-based attention |
CN111816252A (zh) * | 2020-07-21 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种药物筛选方法、装置及电子设备 |
CN111985622A (zh) * | 2020-08-25 | 2020-11-24 | 支付宝(杭州)信息技术有限公司 | 一种图神经网络训练方法和*** |
CN112131261A (zh) * | 2020-10-09 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 基于社区网络的社区查询方法、装置和计算机设备 |
CN112231592A (zh) * | 2020-11-09 | 2021-01-15 | 腾讯科技(深圳)有限公司 | 基于图的网络社团发现方法、装置、设备以及存储介质 |
Non-Patent Citations (1)
Title |
---|
JUNCHI YU 等: "Graph Information Bottleneck for Subgraph Recognition", 《ARXIV》, pages 1 - 13 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113297500B (zh) * | 2021-06-23 | 2023-07-25 | 哈尔滨工程大学 | 一种社交网络孤立节点链接预测方法 |
CN113297500A (zh) * | 2021-06-23 | 2021-08-24 | 哈尔滨工程大学 | 一种社交网络孤立节点链接预测方法 |
WO2023284511A1 (zh) * | 2021-07-15 | 2023-01-19 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私保护的图模型训练方法、装置及设备 |
WO2023029352A1 (zh) * | 2021-08-30 | 2023-03-09 | 平安科技(深圳)有限公司 | 基于图神经网络的药物小分子性质预测方法、装置及设备 |
CN113807370A (zh) * | 2021-09-29 | 2021-12-17 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN113807370B (zh) * | 2021-09-29 | 2024-01-02 | 腾讯科技(深圳)有限公司 | 数据处理方法、装置、设备、存储介质及计算机程序产品 |
CN113989574A (zh) * | 2021-11-04 | 2022-01-28 | 中国科学技术大学 | 图像解释方法、图像解释装置、电子设备和存储介质 |
CN113989574B (zh) * | 2021-11-04 | 2024-04-02 | 中国科学技术大学 | 图像解释方法、图像解释装置、电子设备和存储介质 |
CN114155417A (zh) * | 2021-12-13 | 2022-03-08 | 中国科学院空间应用工程与技术中心 | 图像目标的识别方法、装置、电子设备及计算机存储介质 |
WO2023115343A1 (zh) * | 2021-12-21 | 2023-06-29 | 深圳晶泰科技有限公司 | 数据处理方法、装置、模型训练方法和预测自由能方法 |
WO2023134061A1 (zh) * | 2022-01-11 | 2023-07-20 | 平安科技(深圳)有限公司 | 基于人工智能的药物特征信息确定方法及装置 |
WO2023174189A1 (zh) * | 2022-03-15 | 2023-09-21 | 上海爱数信息技术股份有限公司 | 图网络模型节点分类方法、装置、设备及存储介质 |
CN114814776B (zh) * | 2022-06-24 | 2022-10-14 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN114814776A (zh) * | 2022-06-24 | 2022-07-29 | 中国空气动力研究与发展中心计算空气动力研究所 | 基于图注意力网络和迁移学习的pd雷达目标检测方法 |
CN114859300A (zh) * | 2022-07-07 | 2022-08-05 | 中国人民解放军国防科技大学 | 一种基于图连通度的雷达辐射源数据流处理方法 |
CN115965058A (zh) * | 2022-12-28 | 2023-04-14 | 连连(杭州)信息技术有限公司 | 神经网络训练方法、实体信息分类方法、装置及存储介质 |
CN115965058B (zh) * | 2022-12-28 | 2024-03-29 | 连连(杭州)信息技术有限公司 | 神经网络训练方法、实体信息分类方法、装置及存储介质 |
CN115984633A (zh) * | 2023-03-20 | 2023-04-18 | 南昌大学 | 门级电路组件识别方法、***、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113011282A (zh) | 图数据处理方法、装置、电子设备及计算机存储介质 | |
Zhou et al. | Edge intelligence: Paving the last mile of artificial intelligence with edge computing | |
CN112990211B (zh) | 一种神经网络的训练方法、图像处理方法以及装置 | |
WO2021227726A1 (zh) | 面部检测、图像检测神经网络训练方法、装置和设备 | |
CN109919316A (zh) | 获取网络表示学习向量的方法、装置和设备及存储介质 | |
CN112862874B (zh) | 点云数据匹配方法、装置、电子设备及计算机存储介质 | |
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
CN112382099B (zh) | 交通路况预测方法、装置、电子设备及存储介质 | |
CN111382868A (zh) | 神经网络结构搜索方法和神经网络结构搜索装置 | |
CN113704531A (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
CN113704388A (zh) | 多任务预训练模型的训练方法、装置、电子设备和介质 | |
CN113807399A (zh) | 一种神经网络训练方法、检测方法以及装置 | |
WO2022161387A1 (zh) | 一种神经网络的训练方法及相关设备 | |
CN113191479A (zh) | 联合学习的方法、***、节点及存储介质 | |
WO2021169366A1 (zh) | 数据增强方法和装置 | |
Liu et al. | Research of animals image semantic segmentation based on deep learning | |
WO2022100607A1 (zh) | 一种神经网络结构确定方法及其装置 | |
CN113688814B (zh) | 图像识别方法及装置 | |
WO2023000261A1 (zh) | 一种区域交通的预测方法以及设备 | |
CN112668675B (zh) | 一种图像处理方法、装置、计算机设备及存储介质 | |
CN112069412B (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN113887501A (zh) | 行为识别方法、装置、存储介质及电子设备 | |
WO2023143570A1 (zh) | 一种连接关系预测方法及相关设备 | |
CN113537267A (zh) | 对抗样本的生成方法和装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40047297 Country of ref document: HK |