CN117009613A - 一种图数据分类方法、***、装置及介质 - Google Patents

一种图数据分类方法、***、装置及介质 Download PDF

Info

Publication number
CN117009613A
CN117009613A CN202310945202.2A CN202310945202A CN117009613A CN 117009613 A CN117009613 A CN 117009613A CN 202310945202 A CN202310945202 A CN 202310945202A CN 117009613 A CN117009613 A CN 117009613A
Authority
CN
China
Prior art keywords
preset
nodes
graph
processed
graph data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310945202.2A
Other languages
English (en)
Inventor
朱洪银
张闯
王敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Inspur Smart Computing Technology Co Ltd
Original Assignee
Guangdong Inspur Smart Computing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Inspur Smart Computing Technology Co Ltd filed Critical Guangdong Inspur Smart Computing Technology Co Ltd
Priority to CN202310945202.2A priority Critical patent/CN117009613A/zh
Publication of CN117009613A publication Critical patent/CN117009613A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种图数据分类方法、***、装置及介质,涉及神经网络领域,解决图卷积网络模型的泛化性能低的问题。该方案中,获取待处理图数据,确定待处理图数据的应用场景;提取待处理图数据中与应用场景对应的场景特征;提取待处理图数据的预设特征,预设特征至少包括节点的语义特征和/或结构特征;将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。可见,本申请中同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。

Description

一种图数据分类方法、***、装置及介质
技术领域
本申请涉及神经网络领域,特别涉及一种图数据分类方法、***、装置及介质。
背景技术
图数据是一种常用的抽象数据结构,用于表征随处可见的复杂网络数据,例如社交网络、物联网、集成电路、生物分子网络、通信网络、学术引用网络、电商网络等都构成了图数据。图数据的基本元素是节点和边,其中每个节点代表一个实体,每个边(关系)代表两个实体之间的关联方式。例如,电商场景中,用户和商品可以看作两种类型的节点,它们之间的浏览、加购、购买等关系可以看作不同类型的边。
节点分类任务旨在根据节点的特征及其在图数据中的网络结构对节点进行分类,从而应用于识别关键信息、提升计算性能、故障诊断、分析网络特性等不同方面。目前通常利用图卷积网络模型、图注意力网络模型进行节点分类。此种方式对节点进行分类时通常只利用了神经网络能够学习到的任务特定的图数据特征(例如与图数据的应用场景相关的场景特征),提取到的特征较为单一,导致神经网络模型的泛化性能较差,进而导致对节点进行分类的准确性较低。
发明内容
本申请的目的是提供一种图数据分类方法、***、装置及介质,同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。
为解决上述技术问题,本申请提供了一种图数据分类方法,包括:
获取待处理图数据,确定所述待处理图数据的应用场景;
提取所述待处理图数据中与所述应用场景对应的场景特征;
提取所述待处理图数据的预设特征,所述预设特征至少包括节点的语义特征和/或结构特征;
将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
在一种实施例中,获取待处理图数据之后,还包括:
提取所述待处理图数据中的节点和所述节点间的关系结构;
提取所述待处理图数据中与所述应用场景对应的场景特征,包括:
根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据中与所述应用场景对应的场景特征;
提取所述待处理图数据的预设特征,包括:
根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的预设特征。
在一种实施例中,提取所述待处理图数据中的节点和所述节点间的关系结构之后,还包括:
剔除不满足预设要求的节点和关系结构。
在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:
对所述待处理图数据中的节点和关系结构进行异常检测处理;
剔除检测结果为异常的异常节点和对应的异常关系结构。
在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:
剔除预设质量节点以及与所述预设质量节点对应的关系结构,所述预设质量节点与除自身之外的其它节点之间的关系结构少于预设数量。
在一种实施例中,在所述预设特征包括所述结构特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的结构特征的过程包括:
根据第一公式在所述待处理图数据上进行游走,所述第一公式为:其中,pvx为节点v与节点x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,C为归一化常数,pvx转移概率根据上一个节点与下一个节点的之间的距离确定,(u,v)表示中心节点u和节点v之间的边,E′为任意两个节点之间边的集合;
以中心节点为起点并基于宽度优先搜索策略或者深度优先搜索策略对路径进行采样;
基于第一预设优化目标函数对采样得到的路径进行学习,以得到每个所述节点对应的向量表示;所述第一预设优化目标函数为:
u为中心节点,f(·)为节点到特征表示的映射函数,V为图上的节点集合,Ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于Ns(u)的节点;其中,/>其中,v代表任意节点;
对所述待处理图数据的所述关系结构进行学习,以得到所述关系结构的向量表示;
根据各所述节点及所述关系结构对应的向量表示计算所述待处理图数据的结构特征。
在一种实施例中,在所述预设特征包括所述语义特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的语义特征的过程包括:
对所述待处理图数据的所述节点和所述关系结构表示为随机初始化向量;
对所述随机初始化向量进行采样,得到负样本;
利用第二预设目标函数和预设损失函数对所述负样本进行学习得到所述待处理图数据的语义特征;
所述第二预设目标函数为:h+r≈t,h为所述节点对应的头实体向量,r为所述关系结构对应的向量,t为所述节点对应的尾实体向量;
所述预设损失函数为:
其中γ是一个间隔参数,[·]+代表只取正数部分,(h,r,t)为三元组,S为(h,r,t)的三元组集合,S′代表包含h′、r、t′的负样本集合,h′代表采样得到的头实体,t′代表采样得到的尾实体。
在一种实施例中,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
对所述场景特征和所述预设特征进行融合处理,得到融合后的特征;
将所述融合后特征输入至所述预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
在一种实施例中,在所述预设特征包括所述语义特征和所述结构特征时;
对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:
对所述场景特征、所述语义特征和所述结构特征通过第一关系式进行融合,得到融合后的特征;
所述第一关系式为:
其中,vi为融合后的特征,xi为第i个节点的场景特征,为第i个节点的结构特征,/>为第i个节点的语义特征,/>表示矩阵连接的操作。
在一种实施例中,对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:
通过多层感知器对所述场景特征和所述预设特征进行融合处理,得到所述融合后的特征。
在一种实施例中,所述待处理图数据的特征不包括场景特征时,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
根据所述预设特征及预设图卷积网络模型对所述待处理图数据中的节点进行分类处理。
在一种实施例中,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率;
根据所述类别概率对所述待处理图数据中的节点进行分类处理。
在一种实施例中,根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率,包括:
利用所述预设图卷积网络模型对所述场景特征及所述预设特征进行学习,得到隐状态表示;
将所述隐状态表示通过线性层映射为所述类别概率。
在一种实施例中,根据所述类别概率对所述待处理图数据中的节点进行分类处理,包括:
将所述类别概率最大的类别作为预设图卷积网络模型输出的分类结果。
在一种实施例中,对所述预设图卷积网络模型进行训练的过程包括:
构建预设图卷积网络模型的结构以及为所述预设图卷积网络模型设置初始参数;
根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,得到对节点的预测类别;
在所述预测类别与所述期望类别不同时,对所述初始参数进行优化,直至所述预测图卷积网络模型输出的预测类别与所述期望类别相同时停止训练。
在一种实施例中,对所述初始参数进行优化的过程中,优化的目标函数的表达式为:
其中,Θ表示预设图卷积网络模型的模型参数,|V|表示待处理图数据中的节点数量,p(yi|hi;Θ)为第i个节点对应的每个类别概率,hi为第i个节点对应的隐状态表示。
在一种实施例中,根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,包括:
对所述场景特征和所述预设特征分别设置对应的权重;
根据设置权重后的场景特征和预设特征对所述预设图卷积网络模型进行训练。
在一种实施例中,获取待处理图数据之后,还包括:
提取所述待处理图数据中的节点和所述节点间的关系结构;
选取第一预设比例的节点和第二预设比例的关系结构;
提取所述待处理图数据中与所述应用场景对应的场景特征、提取所述待处理图数据的预设特征,包括:
根据选择的所述第一预设比例的节点和所述第二预设比例的关系结构提取所述场景特征和所述预设特征。
在一种实施例中,选取第一预设比例的节点和第二预设比例的关系结构,包括:
随机选择所述第一预设比例的节点和所述第二预设比例的关系结构。
为解决上述技术问题,本申请还提供了一种图数据分类方法,包括:
图数据获取单元,用于获取待处理图数据,确定所述待处理图数据的应用场景;
第一特征提取单元,用于提取所述待处理图数据中与所述应用场景对应的场景特征;
第二特征提取单元,用于提取所述待处理图数据的预设特征,所述预设特征至少包括节点的语义特征和/或结构特征;
分类处理单元,用于将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
为解决上述技术问题,本申请还提供了一种图数据分类装置,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现如上述所述的图数据分类方法的步骤。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的图数据分类方法的步骤。
本申请提供了一种图数据分类方法,涉及神经网络领域,解决图卷积网络模型的泛化性能低的问题。该方案中,获取待处理图数据,确定待处理图数据的应用场景;提取待处理图数据中与应用场景对应的场景特征;提取待处理图数据的预设特征,预设特征至少包括节点的语义特征和/或结构特征;将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。可见,本申请中同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。
本申请还提供了一种图数据分类***、装置及介质,与上述描述的图数据分类方法具有相同的有益效果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种图数据分类方法的流程示意图;
图2为本申请提供的一种图数据分类方法的工作流程图;
图3为本申请提供的一种减少特征输入的效果示意图;
图4为本申请提供的一种图数据分类***的结构框图;
图5为本申请提供的一种图数据分类装置的结构框图;
图6为本申请提供的一种计算机可读存储介质的结构框图。
具体实施方式
本申请的核心是提供一种图数据分类方法、***、装置及介质,同时考虑节点的场景特征、语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,从而利用预设图卷积网络模型实现节点分类时,可以有效提高图卷积网络模型的泛化性能,进而提高节点分类的准确性。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参照图1,图1为本申请提供的一种图数据分类方法的流程示意图,该方法包括:
S11:获取待处理图数据,确定待处理图数据的应用场景;
在该图数据分类方法中,首先需要获取待处理的图数据,图数据是由节点和边组成的数据结构,代表了事物之间的关系。在确定待处理图数据的应用场景时,可以根据具体的问题领域或任务来选择合适的数据集,并定义好节点和边的含义。应用场景可以是社交网络、生物信息学、推荐***等领域,并根据具体的应用场景来定义分类任务的目标。
例如,可以选择社交网络数据集作为图数据,在这种情况下,节点可以代表用户,边可以代表用户之间的关注关系或好友关系。
S12:提取待处理图数据中与应用场景对应的场景特征;
在本申请中,我们需要提取待处理图数据中与应用场景对应的场景特征。场景特征是指在特定应用场景下具有一定含义的图数据特征。这些特征可以包括节点的属性、节点之间的连接关系、节点的度、节点的聚集性等。这些特征可以用于描述节点在特定场景下的特性和行为。
为了提取场景特征,可以使用各种特征提取方法,如基于图结构的特征提取算法。例如,对于社交网络数据集,可以提取节点的度中心性、聚集系数等特征,这些特征能够反映节点在社交网络中的重要程度和社交关系的紧密程度。还可以针对用户属性、社交关系等因素提取特定的场景特征。例如,可以根据用户的年龄、性别等特征,构建用户属性特征矩阵,并将其作为输入数据。
S13:提取待处理图数据的预设特征,预设特征至少包括节点的语义特征和/或结构特征;
在处理图数据时,节点的语义特征和结构特征往往存在复杂的关联和相互影响,传统的特征提取方法无法充分利用这些特征信息,导致分类准确度较低。
在本申请中,除了场景特征外,还需要提取待处理图数据的预设特征。预设特征用于表示待处理图数据的节点特征。预设特征包括节点的语义特征和/或结构特征。其中,语义特征是指与节点所代表的实体或概念相关的特征,如节点的文本内容、标签或其他表示节点语义的信息等。结构特征是指反映节点在图结构中的位置和连接情况的特征,如节点的度、邻居节点的特征、节点在图中的位置、节点之间的相对位置等。通过提取预设特征,可以将图数据转化为机器学习算法可以处理的向量形式。
本实施例中,同时考虑节点的语义特征和结构特征,通过多源数据的融合和特征提取,得到更加准确的特征信息,可以提高图数据分类的准确度和鲁棒性,为实际应用提供更加准确的预测和分析结果。同时,还可以为不同类型的数据设置不同的权值和参数,以提高分类效果。
S14:将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。
在本申请的图数据分类方法中,我们将场景特征和预设特征作为输入,传递给预设的图卷积网络模型。图卷积网络是一种能够处理图数据的神经网络模型,它可以对节点进行分类处理。通过将场景特征和预设特征输入至图卷积网络模型中,可以利用图卷积网络模型自动学习图数据的特征表示,并将其用于节点分类任务。
由于综合了场景特征和预设特征,该方法具有更好的泛化性能,可以提高对待处理图数据中节点的准确分类。
将提取得到的场景特征和预设特征作为输入,并将其输入至预设的图卷积网络模型中。图卷积网络模型可以是图卷积网络或图注意力网络模型。通过该模型,可以学习到更丰富的特征表示,并提高模型的泛化性能和节点分类准确性。
通过以上方法,对于待处理的图数据,可以根据其应用场景提取相关的特征,并结合预设特征进行分类处理。这样的方法可以提高神经网络模型在节点分类任务上的准确性和泛化性能,从而在实际应用中具有广泛的用途和效果。
在上述实施例的基础上:
在一种实施例中,获取待处理图数据之后,还包括:
提取待处理图数据中的节点和节点间的关系结构;
提取待处理图数据中与应用场景对应的场景特征,包括:
根据待处理图数据的节点和关系结构提取待处理图数据中与应用场景对应的场景特征;
提取待处理图数据的预设特征,包括:
根据待处理图数据的节点和关系结构提取待处理图数据的预设特征。
本实施例中,首先对待处理图数据中的节点和节点间的关系结构进行提取,以便后续根据节点和节点间的关系结构提取图数据的特征。其中,节点和节点间的关系结构可以包括节点之间的连接方式、关系类型和权重等信息。那么相适应的,根据待处理图数据的节点和关系结构,提取待处理图数据中与应用场景对应的场景特征时,可以是通过分析节点的属性和关系的拓扑结构,提取出与应用场景相关的特征,如社区结构、中心性指标等。相适应的,根据待处理图数据的节点和关系结构,进一步再提取待处理图数据的预设特征时。例如,可以根据节点的语义特征抽取关键词、主题等信息,或者利用节点间的关系结构进行图嵌入,获取节点的向量表示。
该实施例中,通过提取节点和关系结构的特征,可以更准确地捕捉待处理图数据的特点,并与应用场景相关的特征进行融合,提高分类的准确性和效果。
在一种实施例中,提取待处理图数据中的节点和节点间的关系结构之后,还包括:
剔除不满足预设要求的节点和关系结构。
在一种实施例中,提取待处理图数据中的节点和节点间的关系结构之后,还包括:进行节点和关系结构质量验证,以剔除不满足预设要求的节点和关系结构。具体来说,可以基于节点的属性进行筛选,仅保留具有有效信息的节点,并剔除无效节点。此外,还可以对节点间的关系进行验证,例如,保证关系的连通性和合理性,剔除存在错误或矛盾的关系结构。通过对节点和关系结构的质量验证,可以提高待处理图数据的准确性和可信度,进而增强分类方法的效果和可靠性。
通过节点和关系结构的质量验证可以避免处理噪声数据和错误的信息,从而提高数据的可靠性和处理结果的准确性。例如,在一个社交网络的图数据中,可能存在部分无效的节点或不完整的关系数据,这些无效信息可能会对分类方法的准确性造成影响。通过进行质量验证,可以剔除这些无效节点和关系,从而得到更高质量的图数据,提高分类准确性。
在实现方面,可以设计相应的算法或规则来进行节点和关系结构的质量验证。例如,可以基于节点属性的阈值设定来判断节点是否具有有效信息,超过阈值的才被认为有效。对于关系结构的验证,可以使用图算法来检测关系的连通性和合理性,例如最短路径算法、最小生成树算法等。
通过剔除不满足预设要求的节点和关系结构,可以减少图数据中的噪声和错误,提高数据的质量,从而提高分类方法的准确性和鲁棒性。同时,该扩展实现方式可以适用于各种图数据分类场景,提供更加可靠和有效的分类结果。
在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:
对待处理图数据中的节点和关系结构进行异常检测处理;
剔除检测结果为异常的异常节点和对应的异常关系结构。
在一种实施例中,剔除不满足预设要求的节点和关系结构,可以采用以下方式:其一,异常节点检测处理:通过分析节点的属性和特征,结合领域知识和先验信息,识别出具有异常特征的节点。可以使用统计方法、聚类分析、离群点检测算法等来进行异常节点检测。例如,在社交网络中,可以通过节点的品牌属性或者行为特征来判断是否存在虚假账号或恶意用户。其二,异常关系结构检测处理:通过分析节点之间的关系结构,判断关系的合理性和准确性。可以利用图论算法、路径分析等方法来检测异常关系结构。例如,在物流网络中,可以通过分析物流路径的长度、传递时间等因素来识别是否存在异常的物流节点或关系。
剔除检测结果为异常的异常节点和对应的异常关系结构可以采用以下方式:其一,删除异常节点:将被识别为异常节点的点从待处理图数据中移除,排除掉可能存在问题的节点。例如,在金融交易网络中,如果某个账户被判定为异常节点,可以将其从待处理图数据中剔除,以避免异常节点对分类结果的影响。其二,删除异常关系结构:将与异常节点相关的异常关系结构从待处理图数据中删除,保持数据的一致性和准确性。例如,在交通网络中,如果某个路段被判定为异常关系结构,可以将该路段及其相关的节点和边从待处理图数据中删除,以确保后续的分类处理不受异常关系结构的影响。
综上,本实施例中,通过剔除检测结果为异常的异常节点和对应的异常关系结构,可以提高图数据分类方法的准确性和可靠性。在分类处理过程中排除掉可能存在问题的节点和关系结构,有助于降低噪声干扰,提升分类模型的性能和效果。这种剔除处理方式有效地提高了图数据分类方法对于复杂图数据的处理能力,提供了更可靠和准确的分类结果。
在一种实施例中,剔除不满足预设要求的节点和关系结构,包括:
剔除预设质量节点以及与预设质量节点对应的关系结构,预设质量节点与除自身之外的其它节点之间的关系结构少于预设数量。
本实施例,基于预设质量节点和与之相关的关系结构的数量判断是否满足预设要求。具体地,假设预设质量节点是指与应用场景对应的关键节点,因此它们的数量应该达到预设的数量要求。通过计算预设质量节点与其他节点之间的关系结构数量,我们可以判断是否满足预设要求。
具体过程可以为:对待处理图数据的每个节点进行遍历,判断其是否为预设质量节点。如果其关系结构数量少于预设数量,在判定是预设质量节点。对于每个预设质量节点,统计其与其他节点之间的关系结构,将预设质量节点以及与之相关的关系结构剔除。
本实施例中,通过对不满足预设要求的节点和关系结构进行剔除,我们可以提高分类模型的准确性和可靠性。剔除这些节点和关系结构可以使我们的分类模型更加关注和利用重要的信息,提高分类的精度和鲁棒性。同时,剔除不满足要求的节点和关系结构还可以减少计算和存储开销,提高算法的效率。
在一种实施例中,在预设特征包括结构特征时,根据待处理图数据的节点和关系结构提取待处理图数据的结构特征的过程包括:
根据第一公式在待处理图数据上进行游走,第一公式为:其中,pvx为节点v与节点x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,C为归一化常数,pvx转移概率根据上一个节点与下一个节点的之间的距离确定,(u,v)表示中心节点u和节点v之间的边,E′为任意两个节点之间边的集合;
以中心节点为起点并基于宽度优先搜索策略或者深度优先搜索策略对路径进行采样;
基于第一预设优化目标函数对采样得到的路径进行学习,以得到每个节点对应的向量表示;第一预设优化目标函数为:
u为中心节点,f(·)为节点到特征表示的映射函数,v为图上的节点集合,Ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于Ns(u)的节点;其中,/>其中,v代表任意节点;
对待处理图数据的关系结构进行学习,以得到关系结构的向量表示;
根据各节点及关系结构对应的向量表示计算待处理图数据的结构特征。
本实施例中,可以利用图嵌入算法提取待处理图数据的结构特征。图嵌入算法可以通过将节点和关系映射到低维向量空间中,从而捕捉节点之间的关系和结构特征。一种常用的图嵌入算法是node2vec算法,该算法通过随机游走获取节点序列,并使用Skip-gram模型进行节点的向量表示学习。通过应用节点2vec算法,可以有效地提取待处理图数据的结构特征,从而为图数据分类方法提供更准确的特征表示。
具体地,图嵌入算法主要用于学习图结构特征,旨在找到一个映射将图中的节点转换为低维稠密的嵌入表示,使得图中相似的节点在低维空间距离相近。本申请采用node2vec算法。通过将Skip-gram的思想用于图数据中,该算法优化的目标是基于中心节点u的嵌入能够最大概率的观察到网络的邻域。在条件独立假设和特征空间对称假设下,其优化的目标函数为:
其中,f(·)为节点到特征表示的映射函数。v为图上的节点集合,Ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于Ns(u)的节点。Zu的计算方式为:其中,u代表中心节点,v代表任意节点。
随机采样过程是在宽度优先搜索和深度优先搜索的基础上设计有偏的随机游走的方式:其中,pvx为节点v与x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,那么相适应的,未归一化转移概率则是指在游走过程中,第i-1时刻指针指向v以及第i时刻指针指向u的概率。C为归一化常数。pvx转移概率可以根据上一个节点与下一个节点的之间的距离进行设计,(u,v)表示中心节点u和节点v之间的边,E′为任意两个节点之间边的集合。
图嵌入算法通过无监督的学习方式,捕获了图数据的结构相关性信息。图卷积网络模型在有监督的学习过程中无法提取随机游走的结构相关性。最终,通过图嵌入算法增强了节点特征的泛化性。
相适应的,本申请对预设图卷积网络模型描述如下:
输入图数据G=(V,E)和节点特征X至预设图卷积网络模型,模型经过学习后,将节点分类到预定义类别Y,其中V代表节点集合,E代表边集合。
通过从图数据中提取语义嵌入和结构嵌入特征来增强图卷积网络模型的节点分类过程,公式表示为:
其中,其中xi代表第i个节点的场景特征,代表第i个节点的结构特征,/>代表第i个节点的语义特征。GCN(·)代表图卷积网络模型,其模型架构会在下面实施例中介绍。hi代表图卷积网络中第i个节点产生的隐状态表示。
对于语义-结构信息的融合可以采用矩阵拼接的方法,矩阵拼接的公式为:其中,/>代表矩阵连接的操作。
最终将得到的隐状态表示通过线性层映射为类别概率,类别概率公式为:p(yi)=softmax(WThi),其中,p(yi)代表第i个节点对应的每个类别的概率。W为参数矩阵,将隐状态表示映射为类别概率。
上述结构特征来源于上述实施例中的图嵌入算法,语义特征来源于上述实施例中的知识图谱嵌入算法。通过融合语义特征-结构特征到GCN中,可以进一步提升图卷积网络模型的泛化性能。
在一种实施例中,在预设特征包括语义特征时,根据待处理图数据的节点和关系结构提取待处理图数据的语义特征的过程包括:
对待处理图数据的节点和关系结构表示为随机初始化向量;
对随机初始化向量进行采样,得到负样本;
利用第二预设目标函数和预设损失函数对负样本进行学习得到待处理图数据的语义特征;
第二预设目标函数为:h+r≈t,h为节点对应的头实体向量,r为关系结构对应的向量,t为节点对应的尾实体向量;
预设损失函数为:
/>
其中γ是一个间隔参数,[·]+代表只取正数部分,(h,r,t)为三元组,S为(h,r,t)的三元组集合,S′代表包含h′、r、t′的负样本集合,h′代表采样得到的头实体,t′代表采样得到的尾实体。
具体的,知识图谱嵌入算法主要用于学习语义嵌入。给定三元组集合S′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E},其中E代表实体集合,R代表关系结构集合,知识图谱嵌入旨在找到一个映射将知识图谱中实体和关系的表示为低维稠密向量。通过这种表示使得知识图谱能够方便下游任务的使用。本实施例中,知识图谱嵌入算法可以采用TransE算法优化,其优化的目标是使得向量表示满足h+r≈t,可以采用基于间隔的排序损失函数(triplet ranking loss)进行学习,损失函数的表达式为:
其中γ是一个间隔参数,[·]+代表只取正数部分,S′代表负样本集合,其包含的元素为:S′={(h′,r,t)|h′∈E}∪{(h,r,t′)|t′∈E}。其中h′和t′代表随机采样得到的头实体和尾实体,但是两者不会同时采样。
本实施例中TransE算法学习过程中包含对关系结构的建模,而许多图数据中没有包含关系结构,仅仅提供了节点之间的邻接关系,因此对于无关系结构的情况,本实施例将其视为默认的关系结构。对于包含多种关系结构的图数据,则可以直接对应于知识图谱中的关系结构。
本实施例中,TransE算法通过无监督的学习算法,获取节点的表示形式。该算法学习了节点之间的语义特征,这种表示形式是原始的模型无法提取的,原始模型主要利用有监督的学习任务,被动地从图数据中提取邻域的信息。最终,通过结合知识图谱嵌入表示,从而提升节点表示的泛化能力。
在一种实施例中,将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理,包括:
对场景特征和预设特征进行融合处理,得到融合后的特征;
将融合后特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。
本实施例中,在预设图卷积网络中,场景特征和预设特征通过融合处理得到融合后的特征。这可以是通过简单的特征连接、加权平均或其他融合方法实现。融合后的特征将被送入预设图卷积网络模型,以对待处理图数据中的节点进行分类处理。
通过本实施例的方式,可以在分类处理过程中更充分地利用待处理图数据中的特征信息。融合场景特征和预设特征可以提供更全面和准确的节点分类结果,从而提高图数据分类方法的性能和效果。
在一种实施例中,在预设特征包括语义特征和结构特征时;
对场景特征和预设特征进行融合处理,得到融合后的特征,包括:
对场景特征、语义特征和结构特征通过第一关系式进行融合,得到融合后的特征;
第一关系式为:
其中,vi为融合后的特征,xi为第i个节点的场景特征,为第i个节点的结构特征,/>为第i个节点的语义特征,/>表示矩阵连接的操作。
本实施例是对待处理图数据中节点的场景特征、语义特征、结构特征进行融合处理的具体方法。具体来说,该方法首先将场景特征的矩阵和预设特征的矩阵进行矩阵拼接处理,得到融合后的特征矩阵。通过矩阵拼接处理,可以将两类特征进行合并,并构成一个新的特征矩阵。这样做的好处是可以同时保留原始场景特征和原始预设特征的信息。
本实施例中的这一方式可以提高预设图卷积网络模型对图数据的分类性能,使其能够更准确地对待处理图数据中的节点进行分类处理。
在一种实施例中,对场景特征和预设特征进行融合处理,得到融合后的特征,包括:
通过多层感知器对场景特征和预设特征进行融合处理,得到融合后的特征。
本实施例中,场景特征和预设特征通过多层感知器进行融合处理。多层感知器是一种前向人工神经网络,由多个层次组成,每个层次由多个节点(神经元)组成。每个节点接收来自上一层节点的输入,并经过一个非线性的激活函数处理后输出。通过多层感知器网络的层与层之间的连接权重,可以对输入特征进行非线性的组合和变换。
具体来说,将场景特征和预设特征分别作为输入传入多层感知器网络。首先,场景特征和预设特征会分别经过各自的输入层,将特征向量的每个维度作为一个输入节点。然后,通过多个隐层来逐渐抽取和学习更高级的特征表示,每个隐层的节点会根据上一层节点的输出和与之相连的权重进行线性组合,并通过激活函数进行非线性变换。最后,通过输出层将融合后的特征提取出来,作为最终的特征表示。
通过多层感知器对场景特征和预设特征进行融合处理后,得到的融合后的特征可以更好地表达待处理图数据中节点的特征信息。这样,可以将融合后的特征输入至预设图卷积网络模型中进行分类处理,提高分类的准确性和效果。
在一种实施例中,待处理图数据的特征不包括场景特征时,将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理,包括:
根据预设特征及预设图卷积网络模型对待处理图数据中的节点进行分类处理。
在一些实施例中,要求待处理图数据中可以提取到与应用场景对应的场景特征进行分类处理。但是在一些情况下,可能无法提取到准确的场景特征。当待处理图数据无法提取到准确的场景特征时,使用本申请所提供的预设图卷积网络模型仍然可以根据预设特征对待处理图数据中的节点进行分类处理。
在一种实施例中,将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理,包括:
根据预设图卷积网络模型、场景特征及预设特征,得到各个节点对应的类别概率;
根据类别概率对待处理图数据中的节点进行分类处理。
本实施例进一步描述了在预设图卷积网络模型中如何对待处理图数据中的节点进行分类处理。具体步骤为:根据预设图卷积网络模型、场景特征和预设特征,得到各个节点对应的类别概率。其中,预设图卷积网络模型会对输入的特征进行处理,输出每个节点属于各个类别的概率。然后根据类别概率对待处理图数据中的节点进行分类处理。可以根据概率的大小将节点分为不同的类别,也可以根据预设的阈值进行决策。
在一种实施例中,根据预设图卷积网络模型、场景特征及预设特征,得到各个节点对应的类别概率,包括:
利用预设图卷积网络模型对场景特征及预设特征进行学习,得到隐状态表示;
将隐状态表示通过线性层映射为类别概率。
本实施例中,描述了如何利用预设图卷积网络模型对场景特征及预设特征进行学习,并将学习到的隐状态表示通过线性层映射为类别概率。
具体地,预设图卷积网络模型是一种用于图数据分类的深度学习模型,它可以捕捉图数据中的节点之间的关系并进行分类。在该模型中,输入的场景特征和预设特征经过卷积和池化等操作,通过学习得到节点的隐状态表示。
首先,场景特征和预设特征被输入到预设图卷积网络模型中。模型使用卷积操作对图数据进行特征提取,以捕捉节点之间的局部关系。对于每个节点,预设图卷积网络模型根据其邻居节点的特征和权重进行聚合,得到节点的邻居表示。接下来,预设图卷积网络模型通过池化操作将节点的邻居表示进行汇总,得到节点的全局表示。该全局表示综合了节点的邻居信息,可用于推断节点的类别。最后,隐状态表示通过线性层映射为类别概率。线性层将隐状态表示映射到一个多类别分类问题的输出空间,输出每个节点属于每个类别的概率。通过比较这些概率,可以对节点进行分类处理。
在一种实施例中,根据类别概率对待处理图数据中的节点进行分类处理,包括:
将类别概率最大的类别作为预设图卷积网络模型输出的分类结果。
本实施例描述了在分类处理待处理图数据中的节点时,如何根据类别概率进行分类。具体的,预设图卷积网络模型根据待处理图数据的场景特征和预设特征,计算每个节点的类别概率。概率值越高,说明节点属于该类别的可能性越大。然后根据节点的类别概率,确定每个节点的分类结果。其中,类别概率最大的类别被认为是预设图卷积网络模型输出的分类结果。最后,将分类结果应用于待处理图数据中的节点,完成节点的分类处理。根据分类结果,可以对节点进行不同的处理,比如标记、筛选、聚类等。
在一种实施例中,对预设图卷积网络模型进行训练的过程包括:
构建预设图卷积网络模型的结构以及为预设图卷积网络模型设置初始参数;
根据场景特征和预设特征对预设图卷积网络模型进行训练,得到对节点的预测类别;
在预测类别与期望类别不同时,对初始参数进行优化,直至预测图卷积网络模型输出的预测类别与期望类别相同时停止训练。
本实施例是对预设图卷积网络模型进行训练的过程进行限定。具体而言,该训练过程包括以下步骤:首先,构建预设图卷积网络模型的结构,如确定模型的层数、每一层的神经元数量以及连接方式。这些参数的选择将直接影响模型的性能和准确性。然后,为预设图卷积网络模型设置初始参数,包括设置每个神经元的权重、偏置和激活函数等。这些参数的设置通常是基于先验知识或经验的,目的是加速模型的收敛和提高分类准确率。接下来,根据场景特征和预设特征对预设图卷积网络模型进行训练。场景特征是从待处理图数据中提取的与应用场景相关的特征,而预设特征是预先设定的节点的语义特征和/或结构特征。训练过程中,通过输入上一步的特征数据,模型将对待处理图数据中的节点进行分类处理。具体而言,对于每个节点,模型将根据其特征数据给出一个预测类别。当预测类别与期望类别不同时,说明模型的预测结果与实际情况不符,需要进行优化。通过优化初始参数,包括调整权重、偏置和激活函数等,直至模型输出的预测类别与期望类别相同时停止训练。
综上,本实施例描述了一种对预设图卷积网络模型进行训练的过程,包括构建模型结构、设置初始参数、输入特征数据进行分类处理以及通过优化参数使模型的预测结果与期望结果一致的步骤,以提高图数据分类模型的准确性和稳定性。
在一种实施例中,对初始参数进行优化的过程中,优化的目标函数的表达式为:
其中,Θ表示预设图卷积网络模型的模型参数,|V|表示待处理图数据中的节点数量,p(yi|hi;Θ)为第i个节点对应的每个类别概率,hi为第i个节点对应的隐状态表示。
本实施例旨在限定,在对初始参数进行优化的过程中,优化的目标函数为负对数似然损失函数。其中,负对数似然损失函数是常用的用于分类模型优化的损失函数之一。在图数据分类方法中,将待处理的图数据输入预设图卷积网络模型后,得到对节点的预测类别。优化的目标是让预测的类别尽可能接近真实的类别。
通过此优化函数优化的目标是使得损失值最小化。通过反向传播算法,根据损失值对预设图卷积网络模型的参数进行梯度更新,从而找到更优的参数值。这个过程会反复进行,直到预测图卷积网络模型输出的预测类别与期望类别相同时停止训练。
本实施例所提供的负对数似然损失函数的优化过程可以推动模型学习有效的特征表示和具有区分性的边界,从而提高图数据分类的准确性和性能。
在一种实施例中,根据场景特征和预设特征对预设图卷积网络模型进行训练,包括:
对场景特征和预设特征分别设置对应的权重;
根据设置权重后的场景特征和预设特征对预设图卷积网络模型进行训练。
具体地,在实际应用中,图数据可能存在不完整的情况,即某些节点或边缺失或不可靠。为了解决这个问题,在训练模型时为场景特征和预设特征的权重以模拟图数据不完整的情况,从而在实际应用中应用训练出来的模型时对图数据不完整的节点也可以进行分类处理。
首先,我们需要为场景特征和预设特征分别设置对应的权重(权重最低可为0,例如场景特征的权重为0时,表示图数据中不包括此场景特征)。然后,根据设置权重后的场景特征和预设特征,我们可以对预设图卷积网络模型进行训练。训练过程中,我们使用带有权重的特征来生成图卷积网络模型中的节点表示。这样,对于缺失或不可靠的特征,其权重较低,不会对节点表示产生较大影响。同时,对于可靠和完整的特征,其权重较高,会对节点表示产生较大影响。
综上,通过设置权重后的特征进行训练,可以使预设图卷积网络模型更好地适应不完整的图数据,提高图数据分类的准确性和鲁棒性。模型可以根据不完整的特征权重来调整节点表示,从而更准确地进行分类处理。
在一种实施例中,获取待处理图数据之后,还包括:
提取待处理图数据中的节点和节点间的关系结构;
选取第一预设比例的节点和第二预设比例的关系结构;
提取待处理图数据中与应用场景对应的场景特征、提取待处理图数据的预设特征,包括:
根据选择的第一预设比例的节点和第二预设比例的关系结构提取场景特征和预设特征。
具体地,在实际应用中,图数据可能存在不完整的情况,即某些节点或边缺失或不可靠。
本实施例则是通过选取第一预设比例的节点和第二预设比例的关系结构来模拟图数据不完整的情况,从而在实际应用中应用训练出来的模型时对图数据不完整的节点也可以进行分类处理。
具体地,在将待处理图数据中的节点和节点间关系结构的提取出来之后,选择一定比例的节点和关系结构作为第一预设比例和第二预设比例。这样的选择可以根据具体的应用场景和需求来确定。继续从第一和第二预设比例的节点和关系结构中提取出相应的特征信息。将提取得到的场景特征和预设特征输入到预设图卷积网络模型中。这个模型可以继续使用上述实施例中提到的训练过程,以对待处理图数据中的节点进行分类处理。
在一种实施例中,选取第一预设比例的节点和第二预设比例的关系结构,包括:随机选择第一预设比例的节点和第二预设比例的关系结构。
综上,通过选取比例后的节点和关系结构进行特征提取,进而进行模型的训练,可以使预设图卷积网络模型更好地适应不完整的图数据,提高图数据分类的准确性和鲁棒性。
在一个具体实施例中,实现方式如图2所示(图2为本申请提供的一种图数据分类方法的工作流程图),给定待处理图数据,将图数据上传到处理器,首先采用图数据节点关系处理算法提取出图数据中的节点和关系结构并索引,然后分为三路,最上面的是提取节点在此应用场景本身具备的一些特征(也即场景特征),例如节点的性别、年龄等,中路是通过图嵌入算法学习节点的结构特征,下路是通过知识图谱嵌入算法学习节点的语义特征,然后将三路特征进行融合,输入本申请中的预设图卷积网络进行学习,然后对模型进行训练并执行节点分类任务。
在一个具体实施例中,图数据的数据集可以为:Cora数据集:由2708个科学文献节点构成,这些节点被分为7大类。文献节点之间的引用关系网络包含5429条边。每个节点的特征由1433维的0/1词袋向量组成,其中每个位置表示词袋中相应词的缺失/存在。CiteSeer数据集:包含3312个科学文献节点,这些节点被分为6类。节点之间的引用网络包含4732条边。节点的特征由3703维的0/1词袋向量组成,其中每个位置表示词袋中相应词的缺失/存在。
在一个最优实施例中,训练过程中的参数设置为:图卷积网络隐状态设为32维,学习率为0.001,dropout为0.2,优化算法为Adam。训练图嵌入的向量维度为128,p=0.25,q=0.25,学习率为0.025,窗口大小为10,随机游走长度为80,优化算法采用SGD。训练知识图谱嵌入的超参数设定为batchsize为2,000,学习率为1.0,epoch为2,000,向量维度为200,优化算法采用Adagrad。采用分类的准确率作为评估指标。
如表1所示,表1列出了在Cora和CiteSeer数据集上的准确率,第一列中的85.24、第二列的81.92、第三列的63.14和第四列的68.07表示最佳结果。
表1不同方法在Cora和CiteSeer上的准确率示意表
在Cora数据集上,向GCN中添加node2vec图嵌入(GE)(也即加入结构特征),结果在开发集上下降了-1.47%,测试集上提升了+1.85%。向GCN中添加TransE知识图谱嵌入(KGE)(也即加语义特征),结果在开发集和测试集上分别提升了+0.37%和+2.22%。本申请提出的SS-GCN(同时加入结构特征和语义特征)在开发集和测试集上分别提升了+0.74%和+1.85%。
在CiteSeer数据集上,向GCN中添加GE(也即加入结构特征),结果在开发集和测试集上都下降了-0.30%。向GCN中添加KGE(也即加入语义特征),结果在开发集和测试集上都下降了-2.11%。单独的语义嵌入或者结构嵌入对于结果带来损伤,这是因为CiteSeer数据集的关系更加稀疏,而且存在离群点和较多的叶子节点,这些特点导致无监督的图嵌入学习过程的局限性。本申请提出的SS-GCN(同时加入结构特征和语义特征)在测试集上提升了+1.5%,这说明通过融合语义嵌入和结构嵌入两个层面,可以缓解关系稀疏的图数据嵌入问题。综上,本申请提出的方法取得了效果的提升。
此外,在实验过程中还从Cora数据集中选取了3类节点,采用知识图谱嵌入算法学习的节点表示形成了3个簇,具有较大的类间散度和较小的类内散度。而采用图嵌入算法学习的嵌入表示没有显示出明显的类内聚集的特性。因此知识图谱嵌入算法学习的节点嵌入能够较好的捕获到类别特征。
此外,在实验过程中还分别测试了去掉0.1、0.2、0.3、0.4、0.5情况下模型在测试集上性能的变化,如表2和图3所示(图3为本申请提供的一种减少特征输入的效果示意图)。“去掉结构特征”代表只去掉一定比例的结构特征,“去掉语义特征”代表只去掉一定比例的语义特征,“去掉结构特征和语义特征”代表同时去掉一定比例的结构嵌入和语义嵌入。
表2降低输入的特征质量的准确率示意表
从图3可以看出去掉越多的结构特征,最终效果下降越大。去掉一定比例的语义特征会造成最终效果的波动。因此可以看出提升结构特征的质量对于最终结果发挥的作用更明显。
此外,还从节点的特征表示和边结构两方面进行分析。对于节点特征的鲁棒性分析,在试验过程中首先将节点的原始特征去掉,仅保留学习的节点嵌入。从表3中可以看出,只使用语义特征能够取得较好的效果,对于节点分类任务更加鲁棒。只使用结构特征分类的准确率下降较大,鲁棒性不高。
表3仅使用语义特征和结构特征进行分类的准确率示意表
通过去掉不同比例的边,可以更好地观测边的影响,实验结果如表4所示,其中0.1、0.2…1.0代表删除的边所占的比例。在实验中随机去掉50%的边造成最终结果下降2.57%,去掉所有的边结果下降7.74%。从中可以看出边结构对于最终结果有较大影响。
表4去掉不同比例的边之后的准确率示意表
综上,通过本申请提供的预设图卷积网络模型,利用整个图数据中自然存在的语义特征和结构提升节点分类性能,其中,利用知识图谱嵌入算法提取语义特征,利用图嵌入算法提取结构特征,从而增强图卷积网络的泛化性能。
此外,本申请中的预设图卷积网络模型可以应用于处理各个垂直领域图数据的节点分类问题(例如金融欺诈识别、安防预警、供应链预警、社交网络分析等),不仅局限于具体的任务,也可以***到其他图数据节点分类的流程之中。
为解决上述技术问题,本申请还提供了一种图数据分类方法,请参照图4,图4为本申请提供的一种图数据分类***的结构框图,该***包括:
图数据获取单元41,用于获取待处理图数据,确定待处理图数据的应用场景;
第一特征提取单元42,用于提取待处理图数据中与应用场景对应的场景特征;
第二特征提取单元43,用于提取待处理图数据的预设特征,预设特征至少包括节点的语义特征和/或结构特征;
分类处理单元44,用于将场景特征和预设特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。
在一种实施例中,还包括:
第三提取单元,用于提取待处理图数据中的节点和节点间的关系结构;
第一特征提取单元,具体用于:根据待处理图数据的节点和关系结构提取待处理图数据中与应用场景对应的场景特征;
第二特征提取单元,具体用于:根据待处理图数据的节点和关系结构提取待处理图数据的预设特征。
在一种实施例中,还包括:
剔除单元,用于剔除不满足预设要求的节点和关系结构。
在一种实施例中,剔除单元,包括:
检测单元,用于对待处理图数据中的节点和关系结构进行异常检测处理;
异常剔除单元,用于剔除检测结果为异常的异常节点和对应的异常关系结构。
在一种实施例中,剔除单元,具体用于:剔除预设质量节点以及与预设质量节点对应的关系结构,预设质量节点与除自身之外的其它节点之间的关系结构少于预设数量。
在一种实施例中,在预设特征包括结构特征时,第二特征提取单元,具体用于
根据第一公式在待处理图数据上进行游走,以中心节点为起点并基于宽度优先搜索策略或者深度优先搜索策略对路径进行采样;基于第一预设优化目标函数对采样得到的路径进行学习,以得到每个节点对应的向量表示;对待处理图数据的关系结构进行学习,以得到关系结构的向量表示;根据各节点及关系结构对应的向量表示计算待处理图数据的结构特征;
第一公式为:其中,pvx为节点v与节点x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,C为归一化常数,pvx转移概率根据上一个节点与下一个节点之间的距离确定,(u,v)表示中心节点u和节点v之间的边,E′为任意两个节点之间边的集合;
第一预设优化目标函数为:u为中心节点,f(·)为节点到特征表示的映射函数,V为图上的节点集合,Ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于Ns(u)的节点;其中,/>其中,v代表任意节点。
在一种实施例中,在预设特征包括语义特征时,第二特征提取单元,具体用于对待处理图数据的节点和关系结构表示为随机初始化向量;
对随机初始化向量进行采样,得到负样本;利用第二预设目标函数和预设损失函数对负样本进行学习得到待处理图数据的语义特征;
第二预设目标函数为:第一预设目标函数为:h+r≈t,h为节点对应的头实体向量,r为关系结构对应的向量,t为节点对应的尾实体向量;
预设损失函数为:
其中γ是一个间隔参数,[·]+代表只取正数部分,(h,r,t)为三元组,S为(h,r,t)的三元组集合,S′代表包含h′、r、t′的负样本集合,h′代表采样得到的头实体,t′代表采样得到的尾实体。
在一种实施例中,分类处理单元,包括:
特征融合单元,用于对场景特征和预设特征进行融合处理,得到融合后的特征;
处理单元,用于将融合后特征输入至预设图卷积网络模型中,以对待处理图数据中的节点进行分类处理。
在一种实施例中,在预设特征包括语义特征和结构特征时;
特征融合单元,具体用于对场景特征、语义特征和结构特征通过第一关系式进行融合,得到融合后的特征;
第一关系式为:
其中,vi为融合后的特征,xi为第i个节点的场景特征,为第i个节点的结构特征,/>为第i个节点的语义特征,/>表示矩阵连接的操作。
在一种实施例中,特征融合单元,具体用于通过多层感知器对场景特征和预设特征进行融合处理,得到融合后的特征。
在一种实施例中,待处理图数据的特征不包括场景特征时,分类处理单元,具体用于根据预设特征及预设图卷积网络模型对待处理图数据中的节点进行分类处理。
在一种实施例中,分类处理单元,包括:
概率单元,用于根据预设图卷积网络模型、场景特征及预设特征,得到各个节点对应的类别概率;
处理单元,用于根据类别概率对待处理图数据中的节点进行分类处理。
在一种实施例中,概率单元,包括:
隐状态表示单元,用于利用预设图卷积网络模型对场景特征及预设特征进行学习,得到隐状态表示;
映射单元,用于将隐状态表示通过线性层映射为类别概率。
在一种实施例中,处理单元,具体用于将类别概率最大的类别作为预设图卷积网络模型输出的分类结果。
在一种实施例中,对预设图卷积网络模型进行训练时,还包括:
构建单元,用于构建预设图卷积网络模型的结构以及为预设图卷积网络模型设置初始参数;
预测单元,用于根据场景特征和预设特征对预设图卷积网络模型进行训练,得到对节点的预测类别;
优化单元,用于在预测类别与期望类别不同时,对初始参数进行优化,直至预测图卷积网络模型输出的预测类别与期望类别相同时停止训练。
在一种实施例中,对初始参数进行优化的过程中,对初始参数进行优化的过程中,优化的目标函数的表达式为:
其中,Θ表示预设图卷积网络模型的模型参数,|V|表示待处理图数据中的节点数量,p(yi|hi;Θ)为第i个节点对应的每个类别概率,hi为第i个节点对应的隐状态表示。
在一种实施例中,预测单元,具体用于对场景特征和预设特征分别设置对应的权重;根据设置权重后的场景特征和预设特征对预设图卷积网络模型进行训练。
在一种实施例中,还包括:
第三提取单元,用于提取待处理图数据中的节点和节点间的关系结构;
选取单元,用于选取第一预设比例的节点和第二预设比例的关系结构;
第一特征提取单元,具体用于根据选择的第一预设比例的节点提取场景特征;
第二特征提取单元,具体用于根据选择的第二预设比例的关系结构提取预设特征。
在一种实施例中,选取单元,具体用于随机选择第一预设比例的节点和第二预设比例的关系结构。
对于图数据分类***的介绍请参照上述实施例,本申请在此不再赘述。
为解决上述技术问题,本申请还提供了一种图数据分类装置,请参照图5,图5为本申请提供的一种图数据分类装置的结构框图,该装置包括:
存储器51,用于存储计算机程序;
处理器52,用于在存储计算机程序时,实现如上述的图数据分类方法的步骤。
对于图数据分类装置的介绍请参照上述实施例,本申请在此不再赘述。
为解决上述技术问题,本申请还提供了一种计算机可读存储介质60,请参照图6,图6为本申请提供的一种计算机可读存储介质的结构框图,该计算机可读存储介质60上存储有计算机程序61,计算机程序61被处理器52执行时实现如上述的图数据分类方法的步骤。对于计算机可读存储介质60的介绍请参照上述实施例,本申请在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其他实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (22)

1.一种图数据分类方法,其特征在于,包括:
获取待处理图数据,确定所述待处理图数据的应用场景;
提取所述待处理图数据中与所述应用场景对应的场景特征;
提取所述待处理图数据的预设特征,所述预设特征至少包括所述待处理图数据的节点的语义特征和/或结构特征;
将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
2.如权利要求1所述的图数据分类方法,其特征在于,获取待处理图数据之后,还包括:
提取所述待处理图数据中的节点和所述节点间的关系结构;
提取所述待处理图数据中与所述应用场景对应的场景特征,包括:
根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据中与所述应用场景对应的场景特征;
提取所述待处理图数据的预设特征,包括:
根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的预设特征。
3.如权利要求2所述的图数据分类方法,其特征在于,提取所述待处理图数据中的节点和所述节点间的关系结构之后,还包括:
剔除不满足预设要求的节点和关系结构。
4.如权利要求3所述的图数据分类方法,其特征在于,剔除不满足预设要求的节点和关系结构,包括:
对所述待处理图数据中的节点和关系结构进行异常检测处理;
剔除检测结果为异常的异常节点和对应的异常关系结构。
5.如权利要求3所述的图数据分类方法,其特征在于,剔除不满足预设要求的节点和关系结构,包括:
剔除预设质量节点以及与所述预设质量节点对应的关系结构,所述预设质量节点与除自身之外的其它节点之间的关系结构少于预设数量。
6.如权利要求2所述的图数据分类方法,其特征在于,在所述预设特征包括所述结构特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的结构特征的过程包括:
根据第一公式在所述待处理图数据上进行游走,所述第一公式为:其中,pvx为节点v与节点x之间的未归一化转移概率,ci=x表示在游走过程中第i时刻指针指向节点x,ci-1=v表示在游走过程中第i-1时刻指针指向节点v,C为归一化常数,pvx转移概率根据上一个节点与下一个节点之间的距离确定,(u,v)表示中心节点u和节点v之间的边,E′为任意两个节点之间边的集合;
以中心节点为起点并基于宽度优先搜索策略或者深度优先搜索策略对路径进行采样;
基于第一预设优化目标函数对采样得到的路径进行学习,以得到每个所述节点对应的向量表示;所述第一预设优化目标函数为:u为中心节点,f(·)为节点到特征表示的映射函数,V为图上的节点集合,Ns(u)为u的邻接节点集合采样得到的节点集合,ni为属于Ns(u)的节点;其中,/>其中,v代表任意节点;
对所述待处理图数据的所述关系结构进行学习,以得到所述关系结构的向量表示;
根据各所述节点及所述关系结构对应的向量表示计算所述待处理图数据的结构特征。
7.如权利要求2所述的图数据分类方法,其特征在于,在所述预设特征包括所述语义特征时,根据所述待处理图数据的所述节点和所述关系结构提取所述待处理图数据的语义特征的过程包括:
对所述待处理图数据的所述节点和所述关系结构表示为随机初始化向量;
对所述随机初始化向量进行采样,得到负样本;
利用第二预设目标函数和预设损失函数对所述负样本进行学习得到所述待处理图数据的语义特征;
所述第二预设目标函数为:h+r≈t,h为所述节点对应的头实体向量,r为所述关系结构对应的向量,t为所述节点对应的尾实体向量;
所述预设损失函数为:
其中γ是一个间隔参数,[·]+代表只取正数部分,(h,r,t)为三元组,S为(h,r,t)的三元组集合,S′代表包含h′、r、t′的负样本集合,h′代表采样得到的头实体,t′代表采样得到的尾实体。
8.如权利要求1所述的图数据分类方法,其特征在于,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
对所述场景特征和所述预设特征进行融合处理,得到融合后的特征;
将所述融合后特征输入至所述预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
9.如权利要求8所述的图数据分类方法,其特征在于,在所述预设特征包括所述语义特征和所述结构特征时;
对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:
对所述场景特征、所述语义特征和所述结构特征通过第一关系式进行融合,得到融合后的特征;
所述第一关系式为:
其中,vi为融合后的特征,xi为第i个节点的场景特征,为第i个节点的结构特征,为第i个节点的语义特征,/>表示矩阵连接的操作。
10.如权利要求8所述的图数据分类方法,其特征在于,对所述场景特征和所述预设特征进行融合处理,得到融合后的特征,包括:
通过多层感知器对所述场景特征和所述预设特征进行融合处理,得到所述融合后的特征。
11.如权利要求1所述的图数据分类方法,其特征在于,所述待处理图数据的特征不包括场景特征时,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
根据所述预设特征及预设图卷积网络模型对所述待处理图数据中的节点进行分类处理。
12.如权利要求1所述的图数据分类方法,其特征在于,将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理,包括:
根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率;
根据所述类别概率对所述待处理图数据中的节点进行分类处理。
13.如权利要求12所述的图数据分类方法,其特征在于,根据所述预设图卷积网络模型、所述场景特征及所述预设特征,得到各个节点对应的类别概率,包括:
利用所述预设图卷积网络模型对所述场景特征及所述预设特征进行学习,得到隐状态表示;
将所述隐状态表示通过线性层映射为所述类别概率。
14.如权利要求12所述的图数据分类方法,其特征在于,根据所述类别概率对所述待处理图数据中的节点进行分类处理,包括:
将所述类别概率最大的类别作为预设图卷积网络模型输出的分类结果。
15.如权利要求1-14任一项所述的图数据分类方法,其特征在于,对所述预设图卷积网络模型进行训练的过程包括:
构建预设图卷积网络模型的结构以及为所述预设图卷积网络模型设置初始参数;
根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,得到对节点的预测类别;
在所述预测类别与期望类别不同时,对所述初始参数进行优化,直至所述预测图卷积网络模型输出的预测类别与所述期望类别相同时停止训练。
16.如权利要求15所述的图数据分类方法,其特征在于,对所述初始参数进行优化的过程中,优化的目标函数的表达式为:
其中,Θ表示预设图卷积网络模型的模型参数,|V|表示待处理图数据中的节点数量,p(yi|hi;Θ)为第i个节点对应的每个类别概率,hi为第i个节点对应的隐状态表示。
17.如权利要求15所述的图数据分类方法,其特征在于,根据所述场景特征和所述预设特征对所述预设图卷积网络模型进行训练,包括:
对所述场景特征和所述预设特征分别设置对应的权重;
根据设置权重后的场景特征和预设特征对所述预设图卷积网络模型进行训练。
18.如权利要求15所述的图数据分类方法,其特征在于,获取待处理图数据之后,还包括:
提取所述待处理图数据中的节点和所述节点间的关系结构;
选取第一预设比例的节点和第二预设比例的关系结构;
提取所述待处理图数据中与所述应用场景对应的场景特征、提取所述待处理图数据的预设特征,包括:
根据选择的所述第一预设比例的节点和所述第二预设比例的关系结构提取所述场景特征和所述预设特征。
19.如权利要求18所述的图数据分类方法,其特征在于,选取第一预设比例的节点和第二预设比例的关系结构,包括:
随机选择所述第一预设比例的节点和所述第二预设比例的关系结构。
20.一种图数据分类***,其特征在于,包括:
图数据获取单元,用于获取待处理图数据,确定所述待处理图数据的应用场景;
第一特征提取单元,用于提取所述待处理图数据中与所述应用场景对应的场景特征;
第二特征提取单元,用于提取所述待处理图数据的预设特征,所述预设特征至少包括节点的语义特征和/或结构特征;
分类处理单元,用于将所述场景特征和所述预设特征输入至预设图卷积网络模型中,以对所述待处理图数据中的节点进行分类处理。
21.一种图数据分类装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现如权利要求1-19任一项所述的图数据分类方法的步骤。
22.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1-19任一项所述的图数据分类方法的步骤。
CN202310945202.2A 2023-07-31 2023-07-31 一种图数据分类方法、***、装置及介质 Pending CN117009613A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310945202.2A CN117009613A (zh) 2023-07-31 2023-07-31 一种图数据分类方法、***、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310945202.2A CN117009613A (zh) 2023-07-31 2023-07-31 一种图数据分类方法、***、装置及介质

Publications (1)

Publication Number Publication Date
CN117009613A true CN117009613A (zh) 2023-11-07

Family

ID=88563100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310945202.2A Pending CN117009613A (zh) 2023-07-31 2023-07-31 一种图数据分类方法、***、装置及介质

Country Status (1)

Country Link
CN (1) CN117009613A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391543A (zh) * 2023-12-07 2024-01-12 武汉理工大学 一种轨迹数据生成的海上航路网络质量评价方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117391543A (zh) * 2023-12-07 2024-01-12 武汉理工大学 一种轨迹数据生成的海上航路网络质量评价方法及***
CN117391543B (zh) * 2023-12-07 2024-03-15 武汉理工大学 一种轨迹数据生成的海上航路网络质量评价方法及***

Similar Documents

Publication Publication Date Title
CN112966074B (zh) 一种情感分析方法、装置、电子设备以及存储介质
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN113887580B (zh) 一种考虑多粒度类相关性的对比式开放集图像识别方法及装置
CN111931505A (zh) 一种基于子图嵌入的跨语言实体对齐方法
CN109471944A (zh) 文本分类模型的训练方法、装置及可读存储介质
CN112287020B (zh) 一种基于图分析的大数据挖掘方法
CN115221325A (zh) 一种基于标签语义学习和注意力调整机制的文本分类方法
CN113506179A (zh) 数字货币交易中异常实体的检测方法、存储介质
CN113269647A (zh) 基于图的交易异常关联用户检测方法
WO2019180310A1 (en) A method, an apparatus and a computer program product for an interpretable neural network representation
CN117009613A (zh) 一种图数据分类方法、***、装置及介质
CN109271546A (zh) 图像检索特征提取模型建立、数据库建立及检索方法
CN112749737A (zh) 图像分类方法及装置、电子设备、存储介质
CN116467666A (zh) 一种基于集成学习和主动学习的图异常检测方法和***
CN116722992A (zh) 一种基于多模态融合的诈骗网站识别方法及装置
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
CN113343123B (zh) 一种生成对抗多关系图网络的训练方法和检测方法
CN108304568B (zh) 一种房地产公众预期大数据处理方法及***
Xing et al. Mining semantic information in rumor detection via a deep visual perception based recurrent neural networks
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
CN114757581A (zh) 一种金融交易风险评估方法、装置、电子设备及计算机可读介质
Pryor et al. Deepfake detection analyzing hybrid dataset utilizing CNN and SVM
Wei et al. Salient object detection based on weighted hypergraph and random walk
CN113361652A (zh) 一种面向个体收入预测的去偏方法及装置
CN112307914A (zh) 一种基于文本信息指导的开放域图像内容识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination