CN115206423A

CN115206423A - 基于标签指导的蛋白质作用关系预测方法

Info

Publication number: CN115206423A
Application number: CN202210828104.6A
Authority: CN
Inventors: 朱小飞; 王新生
Original assignee: Chongqing University of Technology
Current assignee: Chongqing University of Technology
Priority date: 2022-07-13
Filing date: 2022-07-13
Publication date: 2022-10-18

Abstract

本发明具体涉及基于标签指导的蛋白质作用关系预测方法，包括：获取待预测的一对待测蛋白质；将一对待测蛋白质输入经训练的预测模型中，输出对应的预测关系；首先基于待测蛋白质进行图数据增强得到多尺度的图表示；其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示，并引入对比学习来消除不同尺度蛋白质特征表示的差异；然后构造自学习的标签关系图并学习标签之间的关系，得到标签特征表示；最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测；将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果。本发明能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性，从而能够提高蛋白质作用关系的预测效果。

Description

基于标签指导的蛋白质作用关系预测方法

技术领域

本发明涉及生物信息与自然语言处理技术领域，具体涉及基于标签指导的蛋白质作用关系预测方法。

背景技术

蛋白质间的相互作用在广泛的生物过程中起着关键作用，如DNA复制、转录、翻译和跨膜信号转导等。因此，检测蛋白质作用关系(Protein-protein Interactions,PPIs)和蛋白质作用关系的类型对了解正常和疾病状态下的细胞生物学过程至关重要，这类研究也有助于治疗靶点的识别和新药物的设计等。在早期的蛋白质作用关系研究工作中，使用的是基于实验室的方法，主要包括酵母双杂交筛选、蛋白质芯片和质谱蛋白复合物鉴定等。实验室的实验通常耗时且劳动密集，导致蛋白质作用关系的识别效率低下，同时由于实验室实验的限制，基于实验室的方法生成的蛋白质作用关系数据不完整。

现有关于深度学习算法的蛋白质作用关系预测研究工作，主要使用卷积神经网络(Convolution Neural Network,CNN)提取蛋白质的局部特征或使用循环神经网络(Recurrent Neural Network,RNN)用来保存上下文的长距离依赖信息。然而，这类深度学习算法仍存在许多问题，如不能有效地过滤和聚集蛋白质的局部特征，难以同时保留重要的上下文和序列的氨基酸信息，没有利用蛋白质对之间的相互影响等。随着图神经网络(Graph Neural Network,GNN)的发展，现有技术开始通过构造蛋白质作用网络图，并引入图神经网络进行预测。这种方法不仅考虑到了蛋白质对之间的影响，而且能够通过蛋白质对之间的关系增强自身的特征表示，进一步提升了蛋白质作用关系预测的效果。

然而，申请人在实际研究中发现，现有基于图神经网络实现蛋白质作用关系预测的方法仅基于原始的数据集构造蛋白质作用网络图及蛋白质特征表示，未对原始数据集进行充分地探索，导致蛋白质特征表示的泛化能力不足，进而导致蛋白质作用关系预测的效果不好。同时，蛋白质之间往往存在多种作用关系，这些作用关系可能存在相互关联的信息，而现有基于图神经网络实现蛋白质作用关系预测的方法未考虑蛋白质之间相互关联的信息，导致蛋白质作用关系预测模型的分类准确性不足。因此，如何设计一种能够提高蛋白质特征表示泛化能力和预测模型分类准确性的方法是亟需解决的技术问题。

发明内容

针对上述现有技术的不足，本发明所要解决的技术问题是：如何提供一种基于标签指导的蛋白质作用关系预测方法，以能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性，从而能够提高蛋白质作用关系的预测效果，进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。

为了解决上述技术问题，本发明采用了如下的技术方案：

基于标签指导的蛋白质作用关系预测方法，包括以下步骤：

S1：获取待预测的一对待测蛋白质；

S2：将一对待测蛋白质输入经训练的预测模型中，输出对应的预测关系；

所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示；其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示，并引入对比学习来消除不同尺度蛋白质特征表示的差异；然后构造自学习的标签关系图并学习标签之间的关系，得到标签特征表示；最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测，进而输出对应的预测关系；

S3：将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果，进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。

优选的，步骤S2中，预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块，用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块，用于学习标签之间关系的自学习标签关系图模块，以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。

优选的，步骤S2中，通过如下步骤训练预测模型：

S201：获取用于训练的一对蛋白质并输入预测模型中；

S202：通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征，得到具有局部信息和全局信息的蛋白质特征表示；

S203：基于蛋白质特征表示构建蛋白质作用关系的原始图；通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图；然后将原始图和扰动图输入图神经网络中，输出原始节点特征表示和扰动节点特征表示，即多尺度的蛋白质特征表示；再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示；最后通过融合节点特征表示计算得到融合边特征表示；

S204：通过自学习标签关系图模块获取标签名称嵌入表示，并构建标签关系图；然后将标签关系图输入图卷积神经网络中，输出标签节点特征表示；

S205：通过标签节点特征表示修正融合边特征表示，得到蛋白质关系图连边特征表示；

S206：多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习，得到自监督学习损失函数；然后通过蛋白质关系图连边特征表示进行监督学习，得到监督学习损失函数；最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数，进而通过训练损失函数优化和更新预测模型的参数；

S207：重复执行步骤S201至S206，直至预测模型收敛。

优选的，步骤S202中，蛋白质特征编码器模块包括局部特征编码器和全局特征编码器；

局部特征编码器包括卷积神经网络和最大池化层，通过如下公式提取输入的蛋白质

中的局部特征表示h_i；

h_i＝f_GMP(f_CNN(p_i；θ_CNN))；

式中：f_CNN表示卷积操作；f_GMP表示最大池化层操作；

表示蛋白质集合；

表示定义的氨基酸词表；a_j表示氨基酸词表中的氨基酸；θ_CNN表示卷积操作的训练参数；

全局特征编码器包括双向门控循环单元和全局平均池化层，通过如下公式提取输入的局部特征表示h_i中的全局特征表示，得到具有局部信息和全局信息的蛋白质特征表示x_i∈X；

x_i＝f_GAP(f_BiGRU(h_i；θ_BiGRU))；

式中：f_BiGRU表示双向门控循环操作；f_GAP表示全局平均池化层操作；θ_BiGRU表示双向门控循环操作的训练参数；X表示基于蛋白质特征编码器模块得到的蛋白质特征表示。

优选的，步骤S203中，定义原始图G＝(X,A)，节点特征

和邻接矩阵

1)多尺度图神经网络模块首先通过两个不同的视角应用随机图数据增强函数

和

分别对原始图G＝(X,A)的连边和节点特征进行扰动，得到第一扰动图G1＝(X,A₁)和第二扰动图G2＝(X₂,A)；

∈₁～Bernoulli(N,1-δ₁)；

式中：∈₁表示基于超参数δ₁∈(0,1)得到的N伯努利分布结果；

表示基于第一扰动图G1＝(X,A₁)通过图数据增强函数

得到的蛋白质特征表示；

表示原始图的连边集合；Bernoulli表示伯努利分布；δ₁∈(0,1)是超参数，表示删除连边的比率；

表示基于超参数δ₂∈(0,1)得到的均匀分布结果；X₂表示基于第一扰动图G1＝(X,A₁)通过图数据增强函数

得到的蛋白质特征表示；X表示原始图的节点特征；Unifrom表示均匀分布；δ₂∈(0,1)是超参数，表示节点特征置为0的比率；

2)将原始图G＝(X,A)、第一扰动图G1＝(X,A₁)和第二扰动图G2＝(X₂,A)分别输入至图神经网络中，输出原始节点特征表示

第一扰动节点特征表示

和第二扰动节点特征表示

具有k次迭代的图神经网络表示为：

式中：

表示节点v聚合邻居节点特征后得到的表示；AGG表示聚合节点特征的函数；

或

表示节点u基于图卷积网络k-1次迭代的结果；

表示节点v的邻居集合；UPDATE表示节点特征更新函数；

或

表示节点v基于图卷积网络k-1次迭代的结果；

或

表示节点v第k次迭代的特征表示；MLP表示多层感知机神经网络；ω是可学习参数或者常数；

3)通过如下公式融合原始节点特征表示

第一扰动节点特征表示

和第二扰动节点特征表示，得到融合节点特征表示

Z'＝f_Fusion([Z₀,Z₁,Z₂])；

式中：f_Fusion表示融合函数；

4)通过融合节点特征表示Z'得到融合边特征表示

e_ij＝z′_i⊙z′_j，e_ij∈E；

式中：⊙表示哈达玛积；

和

分别表示节点i和节点j的特征表示。

优选的，步骤S204中，自学习标签关系图模块通过预训练模型BERT获取标签名称嵌入表示；

X_L＝BERT(L_NAME)；

式中：

表示标签名称；

表示标签名称的词向量，即标签名称嵌入表示；

通过标签名称嵌入表示X_L和可学习参数矩阵

构建标签关系图G_L＝(A_L,X_L)；

将标签关系图G_L＝(A_L,X_L)输入图卷积神经网络中，输出标签节点特征表示

式中：初始化Z_L ⁽⁰⁾＝X_L；

表示度矩阵；W^(l-1)表示可学习的参数矩阵；σ表示sigmoid激活函数；A_L被初始化为单位矩阵。

优选的，步骤S205中，通过如下公式计算蛋白质关系图连边特征表示；

式中：

表示蛋白质关系图连边特征表示；E表示融合边特征表示；

标签节点特征表示。

优选的，步骤S206中，多标签损失计算模块在自监督学习任务中，通过原始节点特征表示

和第一扰动节点特征表示

计算第一扰动损失函数

通过原始节点特征表示

和第二扰动节点特征表示

计算第二扰动损失函数

第一扰动损失函数

和第二扰动损失函数

即为自监督学习损失函数；

式中：(z_1,i,z_0,i)表示积极样本对；z_0,i∈Z₀，z_1,i∈Z₁；θ(z_0,i,z_1,i)表示计算z_0,i和z_1,i的余弦相似度；τ表示温度参数；N表示所有的节点集合。

优选的，步骤S206中，多标签损失计算模块在监督学习任务中，通过蛋白质关系图连边特征表示计算如下的监督学习损失函数；

p_ij＝Softmax(e_ij)；

式中：

表示监督学习损失；t表示标签类别个数；

表示连边集合的训练集；p_ij表示蛋白质i和j之间的关系概率分布；

表示蛋白质i和j之间关系的预测关系；c表示标签的具体类别；

表示蛋白质i和j在类别c上的真实标签；

表示蛋白质i和j在类别c上的预测结果；argmax表示取集合中最大的下标表示。

优选的，步骤S206中，通过如下公式表示训练损失函数；

式中：

表示训练损失；

表示监督学习损失；

表示第一扰动损失；

表示第二扰动损失；λ₁和λ₂表示设置的超参数。

本发明中基于标签指导的蛋白质作用关系预测方法，具有如下有益效果：

本发明的预测模型通过图数据增强的方式生成多尺度的图表示，通过图神经网络中邻居节点加强自身的特征表示来学习多尺度的蛋白质特征表示，通过引入对比学习来消除不同尺度蛋白质特征表示的差异并进一步提高蛋白质表征能力，即通过图数据增强、图神经网络处理和对比学习来充分探索原始数据集，能够提高蛋白质特征表示的泛化能力，从而能够提高蛋白质作用关系的预测效果，进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。

同时，本发明的预测模型引入标签信息，并通过构造自学习的标签关系图来学习标签之间的关系得到标签特征表示，进而通过标签特征表示指导蛋白质相互作用关系的学习，即能够通过学习标签之间的关系来充分探索蛋白质之间多种作用关系产生的相互关联信息，能够提高预测模型的分类准确性，从而能够进一步提高蛋白质作用关系的预测效果，以更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。

附图说明

为了使发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步的详细描述，其中：

图1为基于标签指导的蛋白质作用关系预测方法的逻辑框图；

图2为预测模型(LGMG-PPI)的网络构架图；

图3为SL-LRG拓扑结构有效性验证示意图；

图4为SL-LRG节点特征有效性验证示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，或者是该发明产品使用时惯常摆放的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。此外，术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂，而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平，并不是表示该结构一定要完全水平，而是可以稍微倾斜。在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

下面通过具体实施方式进一步详细的说明：

实施例：

本实施例中公开了一种基于标签指导的蛋白质作用关系预测方法。

如图1所示，基于标签指导的蛋白质作用关系预测方法，包括以下步骤：

S1：获取待预测的一对待测蛋白质；

本实施例中，如图2所示，预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块，用于进行数据增强且能够得到多尺度蛋白质特征表示的多尺度图数据增强(Multi-Scale Graph Data Augmentation,MS-GDA)模块，用于学习标签之间的关系的自学习标签关系图(Self-Learning Label Relation Graph,SL-LRG)模块，以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。

本实施例中，能够基于目标主体(人或动物)待测蛋白质的蛋白质作用关系预测结果分析目标主体(人或动物)在正常和疾病状态下的细胞生物学过程，进而能够基于分析的数据实现治疗靶点的识别和新药物的设计。其中，细胞生物学过程的分析以及治疗靶点的识别和新药物的设计均采用现有成熟技术，本发明通过获取更好的蛋白质作用关系预测结果来提高细胞生物学过程分析以及治疗靶点识别和新药物设计的效果。

具体实施过程中，通过如下步骤训练预测模型：

S201：获取用于训练的一对蛋白质并输入预测模型中；

S207：重复执行步骤S201至S206，直至预测模型收敛。

本发明在预测模型训练时，通过图数据增强的方式生成多尺度的图表示，通过图神经网络中邻居节点加强自身的特征表示来学习多尺度的蛋白质特征表示，通过引入对比学习来消除不同尺度蛋白质特征表示的差异并进一步提高蛋白质表征能力；同时，引入标签信息，并通过构造自学习的标签关系图来学习标签之间的关系得到标签特征表示，进而通过标签特征表示指导蛋白质相互作用关系的学习，即能够通过图数据增强、图神经网络处理和对比学习来充分探索原始数据，通过学习标签之间的关系来充分探索蛋白质之间多种作用关系产生的相互关联信息，进而能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性，从而能够进一步提高蛋白质作用关系的预测效果。

需要说明的是，本发明的预测模型可以看做一种基于标签指导的多尺度图神经网络的蛋白质作用关系(Label Guided Multi-scale Graph Neural Network PPIs,LGMG-PPI)预测模型。

蛋白质是由氨基酸构成序列，常见的氨基酸有20种。定义氨基酸词表

蛋白质集合

其中

定义

为PPIs(蛋白质作用关系)集合，其中I表示两个蛋白质之间是否存在关系，若I(x_ij)＝1，表示蛋白质p_i和蛋白质p_j之间存在作用关系；若I(x_ij)＝0，表示蛋白质p_i和蛋白质p_j之间不存在作用关系，或者表示在目前的研究工作中未发现二者之间存在作用关系。通过上述定义，将蛋白质作为节点，PPIs作为连边，构造PPIs图

蛋白质作用关系仅仅表示蛋白质之间是否存在相互作用关系，然而蛋白质之间可能存在多种作用关系，本发明的任务就是预测蛋白质之间存在的多种作用关系，是一个多标签分类任务。本发明定义PPIs的标签集合为

其中t表示有t种作用关系。

具体实施过程中，蛋白质特征编码器模块包括局部特征编码器和全局特征编码器；

局部特征编码器包括卷积神经网络(CNN)和最大池化层(Global Max Pooling，GMP)，通过如下公式提取输入的蛋白质

中的局部特征表示h_i；

h_i＝f_GMP(f_CNN(p_i；θ_CNN))；

式中：f_CNN表示卷积操作；f_GMP表示最大池化层操作；

表示蛋白质集合；

全局特征编码器包括双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)和全局平均池化层(Global Avg Pooling，GAP)，通过如下公式提取输入的局部特征表示h_i中的全局特征表示，得到具有局部信息和全局信息的蛋白质特征表示x_i∈X；

x_i＝f_GAP(f_BiGRU(h_i；θ_BiGRU))；

本发明通过特征编码的方式提取蛋白质的局部特征和全局特征，得到具有局部信息和全局信息的蛋白质特征表示，从而能够更好的提高蛋白质的表征能力。

具体实施过程中，多尺度图数据增强(Multi-Scale Graph Data Augmentation,MS-GDA)模块主要包含两种图数据增强函数。

定义原始图G＝(X,A)，节点特征

(将基于蛋白质特征编码器模块得到的蛋白质特征表示作为节点特征)和邻接矩阵

和

对原始图G＝(X,A)的连边进行扰动，随机地删除原始图拓扑结构的连边。

对原始图G＝(X,A)的节点特征进行扰动，随机地将原始图节点特征的某些列置为0。

∈₁～Bernoulli(N,1-δ₁)；

表示基于第一扰动图G1＝(X,A₁)通过图数据增强函数

得到的蛋白质特征表示；

2)将原始图G＝(X,A)、第一扰动图G1＝(X,A₁)和第二扰动图G2＝(X₂,A)分别输入至图卷积网络(本实施例采用GIN)中，输出原始节点特征表示

第一扰动节点特征表示

和第二扰动节点特征表示

GNN是目前最有效的图表示学习方法之一，其主要思想是通过聚合邻居节点的特征，进而更新自身节点的特征表示。通过k次聚合、更新的迭代，节点表示聚合其k跳邻居节点的表示。

具有k次迭代的图神经网络表示为：

式中：

或

表示节点u基于图卷积网络k-1次迭代的结果；

表示节点v的邻居集合；UPDATE表示节点特征更新函数；

或

表示节点v基于图卷积网络k-1次迭代的结果；

或

3)通过如下公式融合原始节点特征表示

第一扰动节点特征表示

和第二扰动节点特征表示，得到融合节点特征表示

Z'＝f_Fusion([Z₀,Z₁,Z₂])；

式中：f_Fusion表示融合函数；

4)通过融合节点特征表示Z'得到融合边特征表示

e_ij＝z′_i⊙z′_j，e_ij∈E；

式中：⊙表示哈达玛积；

和

分别表示节点i和节点j的特征表示。

具体实施过程中，本发明采用一种自学习的方式，得到标签之间的关系表示，构造自学习的标签关系图(Self-Learning Label Relation Graph,SL-LRG)。

首先，设置一个可学习参数

T表示标签的类别个数，初始化AL为单位矩阵，作为标签关系图的初始拓扑结构。

然后通过预训练模型BERT获取标签名称嵌入表示；

X_L＝BERT(L_NAME)；

式中：

表示标签名称；

表示标签名称的词向量，即标签名称嵌入表示；

通过标签名称嵌入表示X_L和可学习参数矩阵

构建标签关系图G_L＝(A_L,X_L)；

将标签关系图G_L＝(A_L,X_L)输入至图卷积神经网络(Graph Convolution Network,GCN)中，输出标签节点特征表示

式中：初始化Z_L ⁽⁰⁾＝X_L；

表示度矩阵；W^(l-1)表示可学习的参数矩阵；σ表示sigmoid激活函数；A_L被初始化为单位矩阵。在模型训练的过程中通过梯度回传更新参数A_L，进而学习到数据中隐含的标签关系，达到自学习标签关系图的目的。

具体实施过程中，通过如下公式计算蛋白质关系图连边特征表示；

式中：

表示蛋白质关系图连边特征表示；E表示融合边特征表示；

标签节点特征表示。

具体实施过程中，在现实生活中，数据中往往包含噪音，而这些噪音会使模型无法准确表示原始数据分布，严重影响模型的学习效果。为了解决这个问题，本发明在预测模型中引入了一个自监督学习任务，它的目的是增加辅助任务来提高主要学习任务的准确性，提高模型的性能。

多标签损失计算模块在自监督学习任务中，通过原始节点特征表示

和第一扰动节点特征表示

计算第一扰动损失函数

通过原始节点特征表示

和第二扰动节点特征表示

计算第二扰动损失函数

第一扰动损失函数

和第二扰动损失函数

即为自监督学习损失函数；

式中：(z_1,i,z_0,i)表示积极样本对；z_0,i∈Z₀，z_1,i∈Z₁；θ(z_0,i,z_1,i)表示计算z_0,i和z_1,i的余弦相似度；τ表示温度参数，温度参数的作用是控制模型对负样本的区分度，值越小表示越关注困难的负样本；N表示所有的节点集合。

具体实施过程中，多标签损失计算模块在监督学习任务中，通过蛋白质关系图连边特征表示计算如下的监督学习损失函数；

式中：

表示监督学习损失；t表示标签类别个数；

表示蛋白质i和j在类别c上的真实标签；

示蛋白质i和j在类别c上的预测结果；argmax表示取集合中最大的下标表示。

具体实施过程中，通过如下公式表示训练损失函数；

式中：

表示训练损失；

表示监督学习损失；

表示第一扰动损失；

表示第二扰动损失；λ₁和λ₂表示设置的超参数。

为了更好的说明本发明技术方案的优势，本实施例中还公开了如下实验。

1、数据集

本实验沿用以往工作(在LV G F,HU Z Q,BI Y G et al.Learning Unknown fromCorrelations：Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)的数据集设置，使用STRING(在SZKLARCZYK D,GABLE A L,LYON D,etal.STRING v11：protein–protein association networks with increased coverage,supporting functional discovery in genome-wide experimental datasets中公开)数据库中的PPIs数据来评估模型。

STRING数据库收集、评分和整合了大多数公开的PPIs数据，并建立了一个全面客观PPIs网络。此外，Chen等人(在CHEN M,JU C J T,ZHOU G,et al.Multifaceted protein–protein interaction prediction based on Siamese residual RCNN中公开)从STRING中抽取了两个子数据集，分别叫做SHS27k和SHS148k。三种数据集的具体信息如表1所示，其中原始数据集是蛋白质网络关系图，节点代表蛋白质，连边代表蛋白质之间存在作用关系；其次，由于蛋白质由氨基酸序列组成，本实验统计了每个数据集中组成蛋白质的氨基酸序列的平均长度如表1所示。

表1数据集统计

2、实验设置和评价指标

本实验从数据集中随机挑选20％的数据作为测试集，其次为了消除数据划分的随机性对PPI方法性能的影响，在3种不同的随机种子下重复实验结果。本实验使用基于氨基酸序列的蛋白质特征，参考Chen等人(在CHEN M,JU C J T,ZHOU G,et al.Multifacetedprotein–protein interaction prediction based on Siamese residual RCNN中公开)使用的氨基酸嵌入方法来表示每个氨基酸。模型采用Adam算法更新所有的可训练参数。本实验沿用以往工作(在LV G F,HU Z Q,BI Y G et al.Learning Unknown fromCorrelations：Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)的实验设置，使用micro-F1作为评价指标。

3、基准方法

3.1、机器学习基准方法

本实验选择三种具有代表性的机器学习(Machine Learning,ML)算法作为基准方法，分别是支持向量机(Support Vector Machine,SVM)(在GUO Y,YU L,WEN Z,etal.Using support vector machine combined with auto covariance to predictprotein–protein interactions from protein sequences中公开)、逻辑回归(LogisticRegression,LR)(在SILBERBERG Y,KUPIEC M,SHARAN R.A method for predictingprotein-protein interaction types中公开)和随机森林(Random Forest,RF)(在WONGL,YOU Z H,LI S,et al.Detection of protein-protein interactions from aminoacid sequences using a rotation forest model with a novel PR-LPQ descriptor中公开)。

3.2、深度学习基准方法

本实验选择四种PPIs预测任务的深度学习(Deep Learning,DL)算法，分别是DPPI(在HASHEMIFAR S,NEYSHABUR B,KHAN A A,et al.Predicting protein–proteininteractions through sequence-based deep learning中公开)、DNN-PPI(在HASHEMIFARS,NEYSHABUR B,KHAN A A,et al.Predicting protein–protein interactions throughsequence-based deep learning中公开)、PIPR(在CHEN M,JU C J T,ZHOU G,etal.Multifaceted protein–protein interaction prediction based on Siameseresidual RCNN中公开)和GNN-PPI(在LV G F,HU Z Q,BI Y G et al.Learning Unknownfrom Correlations：Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)。

4、对比实验

表2展示了不同计算方法在不同数据集上的性能，结果格式为三次不同随机种子下的micro-F1均值±标准差，其中LGMG-PPI是本实验提出的模型方法。

表2实验结果对比研究

通过观察分析有以下结果：

1)深度学习算法的性能总体上优于机器学习算法，这表明基于深度学习的技术在封装蛋白质对的各种类型的信息(如氨基酸组成及其共现情况)，并自动提取适合学习目标的鲁棒信息方面具有优越性。其次，随着数据集大小的增加，各类方法的性能也随之增加。这是因为数据量的增加，使得模型学习地更充分，模型的泛化能力更强。

2)本实验提出的模型方法(LGMG-PPI)与最优的基准方法GNN-PPI相比，在所有类型的数据上具有更好的预测效果，且效果更加稳定。其中micro-F1分数在SHS27k数据集上提升了2.01％，在SHS148k数据集上提升了0.94％，在STRING数据集上提升了0.93％。由于最优基准方法的已经相当可靠，本实验提出的模型方法在其基础上能够进一步提升，足以说明本实验提出的模型方法十分优越。

5、消融实验

为了进一步分析模型中各个模块的作用，通过删减不同的模块进行实验，进而验证各个模块的有效性。因此，本实验设置了以下消融实验：

(1)

表示去除多尺度图神经网络模块中的

类型的数据增强，即不使用扰动图连边的数据增强方法；

(2)

表示去除多尺度图神经网络模块中的

类型的数据增强，即不使用扰动图节点特征的数据增强方法；

(3)w/o MS-GDA：表示完全去除多尺度图神经网络模块，即不使用图数据增强策略；

(4)w/o SL-LRG：表示去除标签关系图模块，即不使用标签信息来进行指导学习。

表3消融实验

实验结果如表3所示。从实验结果来看，扰动图节点特征的数据增强方法略优于扰动图连边的数据增强方法，且两种图数据增强方法都是有益于模型的。这说明图数据增强方法通过扰动原始图数据，能够增强模型的泛化能力。此外，当去除标签关系图模块后，模型在所有数据集上的效果均有降低。说明引入标签关系图模块能够学习到标签之间的隐含关系，进而得到标签的隐藏状态，对最终的预测结果进行指导。总体来讲，本实验提出的模型各个子模块都是有益于整个模型的。

6、自学习标签关系图有效性实验

6.1、拓扑结构有效性实验

自适应标签图通过引入自学习的拓扑结构，进而学习标签特征。为了验证拓扑结构的有效性，将不使用标签图的拓扑结构，用多层感知机(Multi-Layer Perceptron,MLP)替代GCN。具体操作为，将公式

替换为Z_L＝f_MLP(X_L)。

实验结果如图3所示。从实验结果来看，引入标签的拓扑结构的效果明显更好。这说明，PPIs预测任务的标签间存在某些联系，而通过自学习标签关系图能够很好地学习到标签间的隐含关系，进一步证明了本发明提出方法的有效性。

6.2、节点特征有效性实验

自学习标签关系图节点特征的初始表示是词的嵌入表示，本实验使用的是预训练模型BERT(在DEVLIN J,CHANG M W,LEE K,et al.Bert：Pre-training of deepbidirectional transformers for language understanding中公开)得到词的嵌入表示。在这一部分，将评估模型在不同词嵌入表示下的性能。具体来讲，通过实验比较BERT和One-Hot嵌入表示下的模型效果。

实验结果如图4所示。从图中可以看出，当使用不同的词嵌入作为GCN的输入时，多标签识别精度不会受到显著影响。这说明，模型所实现的效果提高并不完全来自于词嵌入所衍生的语意信息。此外，使用强大的词嵌入表示可以带来更好的性能。一个可能的原因是，从大型文本语料库中学习的词嵌入保留了一定的语意信息，而这些词嵌入在嵌入空间中存在一定的联系，模型可以利用这些隐式联系进一步提升模型的预测能力。

7、总结

本发明提出一种标签指导的多尺度图神经网络的蛋白质作用关系预测方法，通过图数据增强得到多种尺度的图表示，并将这些多种尺度的图输入图神经网络，得到多种尺度的蛋白质特征表示，并且引入对比学习，进一步提高蛋白质的表征能力；此外，构造自学习的标签关系图，学习标签之间的关系，进而得到标签的信息表示，对最终的蛋白质关系的预测进行指导学习。在3个公开数据集上的实验结果表明本实验模型在预测蛋白质作用关系任务上的有效性，且预测效果优于最优的基准方法。

最后需要说明的是，以上实施例仅用以说明本发明的技术方案而非限制技术方案，本领域的普通技术人员应当理解，那些对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，均应涵盖在本发明的权利要求范围当中。

Claims

1.基于标签指导的蛋白质作用关系预测方法，其特征在于，包括以下步骤：

S1：获取待预测的一对待测蛋白质；

2.如权利要求1所述的基于标签指导的蛋白质作用关系预测方法，其特征在于：步骤S2中，预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块，用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块，用于学习标签之间关系的自学习标签关系图模块，以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。

3.如权利要求2所述的基于标签指导的蛋白质作用关系预测方法，其特征在于：步骤S2中，通过如下步骤训练预测模型：

S201：获取用于训练的一对蛋白质并输入预测模型中；

S207：重复执行步骤S201至S206，直至预测模型收敛。

4.如权利要求3所述的基于标签指导的蛋白质作用关系预测方法，其特征在于：步骤S202中，蛋白质特征编码器模块包括局部特征编码器和全局特征编码器；