CN115206423A - 基于标签指导的蛋白质作用关系预测方法 - Google Patents

基于标签指导的蛋白质作用关系预测方法 Download PDF

Info

Publication number
CN115206423A
CN115206423A CN202210828104.6A CN202210828104A CN115206423A CN 115206423 A CN115206423 A CN 115206423A CN 202210828104 A CN202210828104 A CN 202210828104A CN 115206423 A CN115206423 A CN 115206423A
Authority
CN
China
Prior art keywords
protein
graph
representation
node
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210828104.6A
Other languages
English (en)
Inventor
朱小飞
王新生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Technology
Original Assignee
Chongqing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Technology filed Critical Chongqing University of Technology
Priority to CN202210828104.6A priority Critical patent/CN115206423A/zh
Publication of CN115206423A publication Critical patent/CN115206423A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明具体涉及基于标签指导的蛋白质作用关系预测方法,包括:获取待预测的一对待测蛋白质;将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测;将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果。本发明能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性,从而能够提高蛋白质作用关系的预测效果。

Description

基于标签指导的蛋白质作用关系预测方法
技术领域
本发明涉及生物信息与自然语言处理技术领域,具体涉及基于标签指导的蛋白质作用关系预测方法。
背景技术
蛋白质间的相互作用在广泛的生物过程中起着关键作用,如DNA复制、转录、翻译和跨膜信号转导等。因此,检测蛋白质作用关系(Protein-protein Interactions,PPIs)和蛋白质作用关系的类型对了解正常和疾病状态下的细胞生物学过程至关重要,这类研究也有助于治疗靶点的识别和新药物的设计等。在早期的蛋白质作用关系研究工作中,使用的是基于实验室的方法,主要包括酵母双杂交筛选、蛋白质芯片和质谱蛋白复合物鉴定等。实验室的实验通常耗时且劳动密集,导致蛋白质作用关系的识别效率低下,同时由于实验室实验的限制,基于实验室的方法生成的蛋白质作用关系数据不完整。
现有关于深度学习算法的蛋白质作用关系预测研究工作,主要使用卷积神经网络(Convolution Neural Network,CNN)提取蛋白质的局部特征或使用循环神经网络(Recurrent Neural Network,RNN)用来保存上下文的长距离依赖信息。然而,这类深度学习算法仍存在许多问题,如不能有效地过滤和聚集蛋白质的局部特征,难以同时保留重要的上下文和序列的氨基酸信息,没有利用蛋白质对之间的相互影响等。随着图神经网络(Graph Neural Network,GNN)的发展,现有技术开始通过构造蛋白质作用网络图,并引入图神经网络进行预测。这种方法不仅考虑到了蛋白质对之间的影响,而且能够通过蛋白质对之间的关系增强自身的特征表示,进一步提升了蛋白质作用关系预测的效果。
然而,申请人在实际研究中发现,现有基于图神经网络实现蛋白质作用关系预测的方法仅基于原始的数据集构造蛋白质作用网络图及蛋白质特征表示,未对原始数据集进行充分地探索,导致蛋白质特征表示的泛化能力不足,进而导致蛋白质作用关系预测的效果不好。同时,蛋白质之间往往存在多种作用关系,这些作用关系可能存在相互关联的信息,而现有基于图神经网络实现蛋白质作用关系预测的方法未考虑蛋白质之间相互关联的信息,导致蛋白质作用关系预测模型的分类准确性不足。因此,如何设计一种能够提高蛋白质特征表示泛化能力和预测模型分类准确性的方法是亟需解决的技术问题。
发明内容
针对上述现有技术的不足,本发明所要解决的技术问题是:如何提供一种基于标签指导的蛋白质作用关系预测方法,以能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性,从而能够提高蛋白质作用关系的预测效果,进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
为了解决上述技术问题,本发明采用了如下的技术方案:
基于标签指导的蛋白质作用关系预测方法,包括以下步骤:
S1:获取待预测的一对待测蛋白质;
S2:将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;
所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测,进而输出对应的预测关系;
S3:将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果,进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
优选的,步骤S2中,预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块,用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块,用于学习标签之间关系的自学习标签关系图模块,以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。
优选的,步骤S2中,通过如下步骤训练预测模型:
S201:获取用于训练的一对蛋白质并输入预测模型中;
S202:通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示;
S203:基于蛋白质特征表示构建蛋白质作用关系的原始图;通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图;然后将原始图和扰动图输入图神经网络中,输出原始节点特征表示和扰动节点特征表示,即多尺度的蛋白质特征表示;再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示;最后通过融合节点特征表示计算得到融合边特征表示;
S204:通过自学习标签关系图模块获取标签名称嵌入表示,并构建标签关系图;然后将标签关系图输入图卷积神经网络中,输出标签节点特征表示;
S205:通过标签节点特征表示修正融合边特征表示,得到蛋白质关系图连边特征表示;
S206:多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习,得到自监督学习损失函数;然后通过蛋白质关系图连边特征表示进行监督学习,得到监督学习损失函数;最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数,进而通过训练损失函数优化和更新预测模型的参数;
S207:重复执行步骤S201至S206,直至预测模型收敛。
优选的,步骤S202中,蛋白质特征编码器模块包括局部特征编码器和全局特征编码器;
局部特征编码器包括卷积神经网络和最大池化层,通过如下公式提取输入的蛋白质
Figure BDA0003744774440000031
中的局部特征表示hi
hi=fGMP(fCNN(pi;θCNN));
Figure BDA0003744774440000032
式中:fCNN表示卷积操作;fGMP表示最大池化层操作;
Figure BDA0003744774440000033
表示蛋白质集合;
Figure BDA0003744774440000034
表示定义的氨基酸词表;aj表示氨基酸词表中的氨基酸;θCNN表示卷积操作的训练参数;
全局特征编码器包括双向门控循环单元和全局平均池化层,通过如下公式提取输入的局部特征表示hi中的全局特征表示,得到具有局部信息和全局信息的蛋白质特征表示xi∈X;
xi=fGAP(fBiGRU(hi;θBiGRU));
式中:fBiGRU表示双向门控循环操作;fGAP表示全局平均池化层操作;θBiGRU表示双向门控循环操作的训练参数;X表示基于蛋白质特征编码器模块得到的蛋白质特征表示。
优选的,步骤S203中,定义原始图G=(X,A),节点特征
Figure BDA0003744774440000035
和邻接矩阵
Figure BDA0003744774440000036
1)多尺度图神经网络模块首先通过两个不同的视角应用随机图数据增强函数
Figure BDA0003744774440000037
Figure BDA0003744774440000038
分别对原始图G=(X,A)的连边和节点特征进行扰动,得到第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A);
Figure BDA0003744774440000039
Figure BDA00037447744400000310
Figure BDA00037447744400000311
1~Bernoulli(N,1-δ1);
Figure BDA00037447744400000312
Figure BDA00037447744400000313
式中:∈1表示基于超参数δ1∈(0,1)得到的N伯努利分布结果;
Figure BDA00037447744400000314
表示基于第一扰动图G1=(X,A1)通过图数据增强函数
Figure BDA00037447744400000315
得到的蛋白质特征表示;
Figure BDA00037447744400000316
表示原始图的连边集合;Bernoulli表示伯努利分布;δ1∈(0,1)是超参数,表示删除连边的比率;
Figure BDA0003744774440000041
表示基于超参数δ2∈(0,1)得到的均匀分布结果;X2表示基于第一扰动图G1=(X,A1)通过图数据增强函数
Figure BDA0003744774440000042
得到的蛋白质特征表示;X表示原始图的节点特征;Unifrom表示均匀分布;δ2∈(0,1)是超参数,表示节点特征置为0的比率;
2)将原始图G=(X,A)、第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A)分别输入至图神经网络中,输出原始节点特征表示
Figure BDA0003744774440000043
第一扰动节点特征表示
Figure BDA0003744774440000044
和第二扰动节点特征表示
Figure BDA0003744774440000045
具有k次迭代的图神经网络表示为:
Figure BDA0003744774440000046
Figure BDA0003744774440000047
式中:
Figure BDA0003744774440000048
表示节点v聚合邻居节点特征后得到的表示;AGG表示聚合节点特征的函数;
Figure BDA0003744774440000049
Figure BDA00037447744400000410
表示节点u基于图卷积网络k-1次迭代的结果;
Figure BDA00037447744400000411
表示节点v的邻居集合;UPDATE表示节点特征更新函数;
Figure BDA00037447744400000412
Figure BDA00037447744400000413
表示节点v基于图卷积网络k-1次迭代的结果;
Figure BDA00037447744400000414
Figure BDA00037447744400000415
表示节点v第k次迭代的特征表示;MLP表示多层感知机神经网络;ω是可学习参数或者常数;
3)通过如下公式融合原始节点特征表示
Figure BDA00037447744400000416
第一扰动节点特征表示
Figure BDA00037447744400000417
和第二扰动节点特征表示,得到融合节点特征表示
Figure BDA00037447744400000418
Z'=fFusion([Z0,Z1,Z2]);
式中:fFusion表示融合函数;
4)通过融合节点特征表示Z'得到融合边特征表示
Figure BDA00037447744400000419
eij=z′i⊙z′j,eij∈E;
式中:⊙表示哈达玛积;
Figure BDA00037447744400000420
Figure BDA00037447744400000421
分别表示节点i和节点j的特征表示。
优选的,步骤S204中,自学习标签关系图模块通过预训练模型BERT获取标签名称嵌入表示;
XL=BERT(LNAME);
式中:
Figure BDA00037447744400000422
表示标签名称;
Figure BDA00037447744400000423
表示标签名称的词向量,即标签名称嵌入表示;
通过标签名称嵌入表示XL和可学习参数矩阵
Figure BDA00037447744400000424
构建标签关系图GL=(AL,XL);
将标签关系图GL=(AL,XL)输入图卷积神经网络中,输出标签节点特征表示
Figure BDA0003744774440000051
Figure BDA0003744774440000052
式中:初始化ZL (0)=XL
Figure BDA0003744774440000053
表示度矩阵;W(l-1)表示可学习的参数矩阵;σ表示sigmoid激活函数;AL被初始化为单位矩阵。
优选的,步骤S205中,通过如下公式计算蛋白质关系图连边特征表示;
Figure BDA0003744774440000054
式中:
Figure BDA0003744774440000055
表示蛋白质关系图连边特征表示;E表示融合边特征表示;
Figure BDA0003744774440000056
标签节点特征表示。
优选的,步骤S206中,多标签损失计算模块在自监督学习任务中,通过原始节点特征表示
Figure BDA0003744774440000057
和第一扰动节点特征表示
Figure BDA0003744774440000058
计算第一扰动损失函数
Figure BDA0003744774440000059
通过原始节点特征表示
Figure BDA00037447744400000510
和第二扰动节点特征表示
Figure BDA00037447744400000511
计算第二扰动损失函数
Figure BDA00037447744400000512
第一扰动损失函数
Figure BDA00037447744400000513
和第二扰动损失函数
Figure BDA00037447744400000514
即为自监督学习损失函数;
Figure BDA00037447744400000515
Figure BDA00037447744400000516
Figure BDA00037447744400000517
Figure BDA00037447744400000518
式中:(z1,i,z0,i)表示积极样本对;z0,i∈Z0,z1,i∈Z1;θ(z0,i,z1,i)表示计算z0,i和z1,i的余弦相似度;τ表示温度参数;N表示所有的节点集合。
优选的,步骤S206中,多标签损失计算模块在监督学习任务中,通过蛋白质关系图连边特征表示计算如下的监督学习损失函数;
Figure BDA00037447744400000519
Figure BDA00037447744400000520
pij=Softmax(eij);
Figure BDA0003744774440000061
式中:
Figure BDA0003744774440000062
表示监督学习损失;t表示标签类别个数;
Figure BDA0003744774440000063
表示连边集合的训练集;pij表示蛋白质i和j之间的关系概率分布;
Figure BDA0003744774440000064
表示蛋白质i和j之间关系的预测关系;c表示标签的具体类别;
Figure BDA0003744774440000065
表示蛋白质i和j在类别c上的真实标签;
Figure BDA0003744774440000066
表示蛋白质i和j在类别c上的预测结果;argmax表示取集合中最大的下标表示。
优选的,步骤S206中,通过如下公式表示训练损失函数;
Figure BDA0003744774440000067
式中:
Figure BDA0003744774440000068
表示训练损失;
Figure BDA0003744774440000069
表示监督学习损失;
Figure BDA00037447744400000610
表示第一扰动损失;
Figure BDA00037447744400000611
表示第二扰动损失;λ1和λ2表示设置的超参数。
本发明中基于标签指导的蛋白质作用关系预测方法,具有如下有益效果:
本发明的预测模型通过图数据增强的方式生成多尺度的图表示,通过图神经网络中邻居节点加强自身的特征表示来学习多尺度的蛋白质特征表示,通过引入对比学习来消除不同尺度蛋白质特征表示的差异并进一步提高蛋白质表征能力,即通过图数据增强、图神经网络处理和对比学习来充分探索原始数据集,能够提高蛋白质特征表示的泛化能力,从而能够提高蛋白质作用关系的预测效果,进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
同时,本发明的预测模型引入标签信息,并通过构造自学习的标签关系图来学习标签之间的关系得到标签特征表示,进而通过标签特征表示指导蛋白质相互作用关系的学习,即能够通过学习标签之间的关系来充分探索蛋白质之间多种作用关系产生的相互关联信息,能够提高预测模型的分类准确性,从而能够进一步提高蛋白质作用关系的预测效果,以更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为基于标签指导的蛋白质作用关系预测方法的逻辑框图;
图2为预测模型(LGMG-PPI)的网络构架图;
图3为SL-LRG拓扑结构有效性验证示意图;
图4为SL-LRG节点特征有效性验证示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
下面通过具体实施方式进一步详细的说明:
实施例:
本实施例中公开了一种基于标签指导的蛋白质作用关系预测方法。
如图1所示,基于标签指导的蛋白质作用关系预测方法,包括以下步骤:
S1:获取待预测的一对待测蛋白质;
S2:将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;
所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测,进而输出对应的预测关系;
本实施例中,如图2所示,预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块,用于进行数据增强且能够得到多尺度蛋白质特征表示的多尺度图数据增强(Multi-Scale Graph Data Augmentation,MS-GDA)模块,用于学习标签之间的关系的自学习标签关系图(Self-Learning Label Relation Graph,SL-LRG)模块,以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。
S3:将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果,进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
本实施例中,能够基于目标主体(人或动物)待测蛋白质的蛋白质作用关系预测结果分析目标主体(人或动物)在正常和疾病状态下的细胞生物学过程,进而能够基于分析的数据实现治疗靶点的识别和新药物的设计。其中,细胞生物学过程的分析以及治疗靶点的识别和新药物的设计均采用现有成熟技术,本发明通过获取更好的蛋白质作用关系预测结果来提高细胞生物学过程分析以及治疗靶点识别和新药物设计的效果。
本发明的预测模型通过图数据增强的方式生成多尺度的图表示,通过图神经网络中邻居节点加强自身的特征表示来学习多尺度的蛋白质特征表示,通过引入对比学习来消除不同尺度蛋白质特征表示的差异并进一步提高蛋白质表征能力,即通过图数据增强、图神经网络处理和对比学习来充分探索原始数据集,能够提高蛋白质特征表示的泛化能力,从而能够提高蛋白质作用关系的预测效果,进而能够更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
同时,本发明的预测模型引入标签信息,并通过构造自学习的标签关系图来学习标签之间的关系得到标签特征表示,进而通过标签特征表示指导蛋白质相互作用关系的学习,即能够通过学习标签之间的关系来充分探索蛋白质之间多种作用关系产生的相互关联信息,能够提高预测模型的分类准确性,从而能够进一步提高蛋白质作用关系的预测效果,以更好的分析蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
具体实施过程中,通过如下步骤训练预测模型:
S201:获取用于训练的一对蛋白质并输入预测模型中;
S202:通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示;
S203:基于蛋白质特征表示构建蛋白质作用关系的原始图;通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图;然后将原始图和扰动图输入图神经网络中,输出原始节点特征表示和扰动节点特征表示,即多尺度的蛋白质特征表示;再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示;最后通过融合节点特征表示计算得到融合边特征表示;
S204:通过自学习标签关系图模块获取标签名称嵌入表示,并构建标签关系图;然后将标签关系图输入图卷积神经网络中,输出标签节点特征表示;
S205:通过标签节点特征表示修正融合边特征表示,得到蛋白质关系图连边特征表示;
S206:多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习,得到自监督学习损失函数;然后通过蛋白质关系图连边特征表示进行监督学习,得到监督学习损失函数;最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数,进而通过训练损失函数优化和更新预测模型的参数;
S207:重复执行步骤S201至S206,直至预测模型收敛。
本发明在预测模型训练时,通过图数据增强的方式生成多尺度的图表示,通过图神经网络中邻居节点加强自身的特征表示来学习多尺度的蛋白质特征表示,通过引入对比学习来消除不同尺度蛋白质特征表示的差异并进一步提高蛋白质表征能力;同时,引入标签信息,并通过构造自学习的标签关系图来学习标签之间的关系得到标签特征表示,进而通过标签特征表示指导蛋白质相互作用关系的学习,即能够通过图数据增强、图神经网络处理和对比学习来充分探索原始数据,通过学习标签之间的关系来充分探索蛋白质之间多种作用关系产生的相互关联信息,进而能够提高蛋白质特征表示的泛化能力和预测模型的分类准确性,从而能够进一步提高蛋白质作用关系的预测效果。
需要说明的是,本发明的预测模型可以看做一种基于标签指导的多尺度图神经网络的蛋白质作用关系(Label Guided Multi-scale Graph Neural Network PPIs,LGMG-PPI)预测模型。
蛋白质是由氨基酸构成序列,常见的氨基酸有20种。定义氨基酸词表
Figure BDA0003744774440000091
蛋白质集合
Figure BDA0003744774440000092
其中
Figure BDA0003744774440000093
定义
Figure BDA0003744774440000094
为PPIs(蛋白质作用关系)集合,其中I表示两个蛋白质之间是否存在关系,若I(xij)=1,表示蛋白质pi和蛋白质pj之间存在作用关系;若I(xij)=0,表示蛋白质pi和蛋白质pj之间不存在作用关系,或者表示在目前的研究工作中未发现二者之间存在作用关系。通过上述定义,将蛋白质作为节点,PPIs作为连边,构造PPIs图
Figure BDA0003744774440000095
蛋白质作用关系仅仅表示蛋白质之间是否存在相互作用关系,然而蛋白质之间可能存在多种作用关系,本发明的任务就是预测蛋白质之间存在的多种作用关系,是一个多标签分类任务。本发明定义PPIs的标签集合为
Figure BDA0003744774440000096
其中t表示有t种作用关系。
具体实施过程中,蛋白质特征编码器模块包括局部特征编码器和全局特征编码器;
局部特征编码器包括卷积神经网络(CNN)和最大池化层(Global Max Pooling,GMP),通过如下公式提取输入的蛋白质
Figure BDA0003744774440000101
中的局部特征表示hi
hi=fGMP(fCNN(pi;θCNN));
Figure BDA0003744774440000102
式中:fCNN表示卷积操作;fGMP表示最大池化层操作;
Figure BDA0003744774440000103
表示蛋白质集合;
Figure BDA0003744774440000104
表示定义的氨基酸词表;aj表示氨基酸词表中的氨基酸;θCNN表示卷积操作的训练参数;
全局特征编码器包括双向门控循环单元(Bidirectional Gate Recurrent Unit,BiGRU)和全局平均池化层(Global Avg Pooling,GAP),通过如下公式提取输入的局部特征表示hi中的全局特征表示,得到具有局部信息和全局信息的蛋白质特征表示xi∈X;
xi=fGAP(fBiGRU(hi;θBiGRU));
式中:fBiGRU表示双向门控循环操作;fGAP表示全局平均池化层操作;θBiGRU表示双向门控循环操作的训练参数;X表示基于蛋白质特征编码器模块得到的蛋白质特征表示。
本发明通过特征编码的方式提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示,从而能够更好的提高蛋白质的表征能力。
具体实施过程中,多尺度图数据增强(Multi-Scale Graph Data Augmentation,MS-GDA)模块主要包含两种图数据增强函数。
定义原始图G=(X,A),节点特征
Figure BDA0003744774440000105
(将基于蛋白质特征编码器模块得到的蛋白质特征表示作为节点特征)和邻接矩阵
Figure BDA0003744774440000106
1)多尺度图神经网络模块首先通过两个不同的视角应用随机图数据增强函数
Figure BDA0003744774440000107
Figure BDA0003744774440000108
分别对原始图G=(X,A)的连边和节点特征进行扰动,得到第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A);
Figure BDA0003744774440000109
对原始图G=(X,A)的连边进行扰动,随机地删除原始图拓扑结构的连边。
Figure BDA00037447744400001010
对原始图G=(X,A)的节点特征进行扰动,随机地将原始图节点特征的某些列置为0。
Figure BDA00037447744400001011
Figure BDA00037447744400001012
Figure BDA00037447744400001013
1~Bernoulli(N,1-δ1);
Figure BDA0003744774440000111
Figure BDA0003744774440000112
式中:∈1表示基于超参数δ1∈(0,1)得到的N伯努利分布结果;
Figure BDA0003744774440000113
表示基于第一扰动图G1=(X,A1)通过图数据增强函数
Figure BDA0003744774440000114
得到的蛋白质特征表示;
Figure BDA0003744774440000115
表示原始图的连边集合;Bernoulli表示伯努利分布;δ1∈(0,1)是超参数,表示删除连边的比率;
Figure BDA0003744774440000116
表示基于超参数δ2∈(0,1)得到的均匀分布结果;X2表示基于第一扰动图G1=(X,A1)通过图数据增强函数
Figure BDA0003744774440000117
得到的蛋白质特征表示;X表示原始图的节点特征;Unifrom表示均匀分布;δ2∈(0,1)是超参数,表示节点特征置为0的比率;
2)将原始图G=(X,A)、第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A)分别输入至图卷积网络(本实施例采用GIN)中,输出原始节点特征表示
Figure BDA0003744774440000118
第一扰动节点特征表示
Figure BDA0003744774440000119
和第二扰动节点特征表示
Figure BDA00037447744400001110
GNN是目前最有效的图表示学习方法之一,其主要思想是通过聚合邻居节点的特征,进而更新自身节点的特征表示。通过k次聚合、更新的迭代,节点表示聚合其k跳邻居节点的表示。
具有k次迭代的图神经网络表示为:
Figure BDA00037447744400001111
Figure BDA00037447744400001112
式中:
Figure BDA00037447744400001113
表示节点v聚合邻居节点特征后得到的表示;AGG表示聚合节点特征的函数;
Figure BDA00037447744400001114
Figure BDA00037447744400001115
表示节点u基于图卷积网络k-1次迭代的结果;
Figure BDA00037447744400001116
表示节点v的邻居集合;UPDATE表示节点特征更新函数;
Figure BDA00037447744400001117
Figure BDA00037447744400001118
表示节点v基于图卷积网络k-1次迭代的结果;
Figure BDA00037447744400001119
Figure BDA00037447744400001120
表示节点v第k次迭代的特征表示;MLP表示多层感知机神经网络;ω是可学习参数或者常数;
3)通过如下公式融合原始节点特征表示
Figure BDA00037447744400001121
第一扰动节点特征表示
Figure BDA00037447744400001122
和第二扰动节点特征表示,得到融合节点特征表示
Figure BDA00037447744400001123
Z'=fFusion([Z0,Z1,Z2]);
式中:fFusion表示融合函数;
4)通过融合节点特征表示Z'得到融合边特征表示
Figure BDA00037447744400001124
eij=z′i⊙z′j,eij∈E;
式中:⊙表示哈达玛积;
Figure BDA0003744774440000121
Figure BDA0003744774440000122
分别表示节点i和节点j的特征表示。
具体实施过程中,本发明采用一种自学习的方式,得到标签之间的关系表示,构造自学习的标签关系图(Self-Learning Label Relation Graph,SL-LRG)。
首先,设置一个可学习参数
Figure BDA0003744774440000123
T表示标签的类别个数,初始化AL为单位矩阵,作为标签关系图的初始拓扑结构。
然后通过预训练模型BERT获取标签名称嵌入表示;
XL=BERT(LNAME);
式中:
Figure BDA0003744774440000124
表示标签名称;
Figure BDA0003744774440000125
表示标签名称的词向量,即标签名称嵌入表示;
通过标签名称嵌入表示XL和可学习参数矩阵
Figure BDA0003744774440000126
构建标签关系图GL=(AL,XL);
将标签关系图GL=(AL,XL)输入至图卷积神经网络(Graph Convolution Network,GCN)中,输出标签节点特征表示
Figure BDA0003744774440000127
Figure BDA0003744774440000128
式中:初始化ZL (0)=XL
Figure BDA0003744774440000129
表示度矩阵;W(l-1)表示可学习的参数矩阵;σ表示sigmoid激活函数;AL被初始化为单位矩阵。在模型训练的过程中通过梯度回传更新参数AL,进而学习到数据中隐含的标签关系,达到自学习标签关系图的目的。
具体实施过程中,通过如下公式计算蛋白质关系图连边特征表示;
Figure BDA00037447744400001210
式中:
Figure BDA00037447744400001211
表示蛋白质关系图连边特征表示;E表示融合边特征表示;
Figure BDA00037447744400001212
标签节点特征表示。
具体实施过程中,在现实生活中,数据中往往包含噪音,而这些噪音会使模型无法准确表示原始数据分布,严重影响模型的学习效果。为了解决这个问题,本发明在预测模型中引入了一个自监督学习任务,它的目的是增加辅助任务来提高主要学习任务的准确性,提高模型的性能。
多标签损失计算模块在自监督学习任务中,通过原始节点特征表示
Figure BDA00037447744400001213
和第一扰动节点特征表示
Figure BDA00037447744400001214
计算第一扰动损失函数
Figure BDA00037447744400001215
通过原始节点特征表示
Figure BDA00037447744400001216
和第二扰动节点特征表示
Figure BDA0003744774440000131
计算第二扰动损失函数
Figure BDA0003744774440000132
第一扰动损失函数
Figure BDA0003744774440000133
和第二扰动损失函数
Figure BDA0003744774440000134
即为自监督学习损失函数;
Figure BDA0003744774440000135
Figure BDA0003744774440000136
Figure BDA0003744774440000137
Figure BDA0003744774440000138
式中:(z1,i,z0,i)表示积极样本对;z0,i∈Z0,z1,i∈Z1;θ(z0,i,z1,i)表示计算z0,i和z1,i的余弦相似度;τ表示温度参数,温度参数的作用是控制模型对负样本的区分度,值越小表示越关注困难的负样本;N表示所有的节点集合。
具体实施过程中,多标签损失计算模块在监督学习任务中,通过蛋白质关系图连边特征表示计算如下的监督学习损失函数;
Figure BDA0003744774440000139
Figure BDA00037447744400001310
Figure BDA00037447744400001311
Figure BDA00037447744400001312
式中:
Figure BDA00037447744400001313
表示监督学习损失;t表示标签类别个数;
Figure BDA00037447744400001314
表示连边集合的训练集;pij表示蛋白质i和j之间的关系概率分布;
Figure BDA00037447744400001315
表示蛋白质i和j之间关系的预测关系;c表示标签的具体类别;
Figure BDA00037447744400001316
表示蛋白质i和j在类别c上的真实标签;
Figure BDA00037447744400001317
示蛋白质i和j在类别c上的预测结果;argmax表示取集合中最大的下标表示。
具体实施过程中,通过如下公式表示训练损失函数;
Figure BDA00037447744400001318
式中:
Figure BDA00037447744400001319
表示训练损失;
Figure BDA00037447744400001320
表示监督学习损失;
Figure BDA00037447744400001321
表示第一扰动损失;
Figure BDA00037447744400001322
表示第二扰动损失;λ1和λ2表示设置的超参数。
为了更好的说明本发明技术方案的优势,本实施例中还公开了如下实验。
1、数据集
本实验沿用以往工作(在LV G F,HU Z Q,BI Y G et al.Learning Unknown fromCorrelations:Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)的数据集设置,使用STRING(在SZKLARCZYK D,GABLE A L,LYON D,etal.STRING v11:protein–protein association networks with increased coverage,supporting functional discovery in genome-wide experimental datasets中公开)数据库中的PPIs数据来评估模型。
STRING数据库收集、评分和整合了大多数公开的PPIs数据,并建立了一个全面客观PPIs网络。此外,Chen等人(在CHEN M,JU C J T,ZHOU G,et al.Multifaceted protein–protein interaction prediction based on Siamese residual RCNN中公开)从STRING中抽取了两个子数据集,分别叫做SHS27k和SHS148k。三种数据集的具体信息如表1所示,其中原始数据集是蛋白质网络关系图,节点代表蛋白质,连边代表蛋白质之间存在作用关系;其次,由于蛋白质由氨基酸序列组成,本实验统计了每个数据集中组成蛋白质的氨基酸序列的平均长度如表1所示。
表1数据集统计
Figure BDA0003744774440000141
2、实验设置和评价指标
本实验从数据集中随机挑选20%的数据作为测试集,其次为了消除数据划分的随机性对PPI方法性能的影响,在3种不同的随机种子下重复实验结果。本实验使用基于氨基酸序列的蛋白质特征,参考Chen等人(在CHEN M,JU C J T,ZHOU G,et al.Multifacetedprotein–protein interaction prediction based on Siamese residual RCNN中公开)使用的氨基酸嵌入方法来表示每个氨基酸。模型采用Adam算法更新所有的可训练参数。本实验沿用以往工作(在LV G F,HU Z Q,BI Y G et al.Learning Unknown fromCorrelations:Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)的实验设置,使用micro-F1作为评价指标。
3、基准方法
3.1、机器学习基准方法
本实验选择三种具有代表性的机器学习(Machine Learning,ML)算法作为基准方法,分别是支持向量机(Support Vector Machine,SVM)(在GUO Y,YU L,WEN Z,etal.Using support vector machine combined with auto covariance to predictprotein–protein interactions from protein sequences中公开)、逻辑回归(LogisticRegression,LR)(在SILBERBERG Y,KUPIEC M,SHARAN R.A method for predictingprotein-protein interaction types中公开)和随机森林(Random Forest,RF)(在WONGL,YOU Z H,LI S,et al.Detection of protein-protein interactions from aminoacid sequences using a rotation forest model with a novel PR-LPQ descriptor中公开)。
3.2、深度学习基准方法
本实验选择四种PPIs预测任务的深度学习(Deep Learning,DL)算法,分别是DPPI(在HASHEMIFAR S,NEYSHABUR B,KHAN A A,et al.Predicting protein–proteininteractions through sequence-based deep learning中公开)、DNN-PPI(在HASHEMIFARS,NEYSHABUR B,KHAN A A,et al.Predicting protein–protein interactions throughsequence-based deep learning中公开)、PIPR(在CHEN M,JU C J T,ZHOU G,etal.Multifaceted protein–protein interaction prediction based on Siameseresidual RCNN中公开)和GNN-PPI(在LV G F,HU Z Q,BI Y G et al.Learning Unknownfrom Correlations:Graph Neural Network for Inter-novel-protein InteractionPrediction中公开)。
4、对比实验
表2展示了不同计算方法在不同数据集上的性能,结果格式为三次不同随机种子下的micro-F1均值±标准差,其中LGMG-PPI是本实验提出的模型方法。
表2实验结果对比研究
Figure BDA0003744774440000151
通过观察分析有以下结果:
1)深度学习算法的性能总体上优于机器学习算法,这表明基于深度学习的技术在封装蛋白质对的各种类型的信息(如氨基酸组成及其共现情况),并自动提取适合学习目标的鲁棒信息方面具有优越性。其次,随着数据集大小的增加,各类方法的性能也随之增加。这是因为数据量的增加,使得模型学习地更充分,模型的泛化能力更强。
2)本实验提出的模型方法(LGMG-PPI)与最优的基准方法GNN-PPI相比,在所有类型的数据上具有更好的预测效果,且效果更加稳定。其中micro-F1分数在SHS27k数据集上提升了2.01%,在SHS148k数据集上提升了0.94%,在STRING数据集上提升了0.93%。由于最优基准方法的已经相当可靠,本实验提出的模型方法在其基础上能够进一步提升,足以说明本实验提出的模型方法十分优越。
5、消融实验
为了进一步分析模型中各个模块的作用,通过删减不同的模块进行实验,进而验证各个模块的有效性。因此,本实验设置了以下消融实验:
(1)
Figure BDA0003744774440000161
表示去除多尺度图神经网络模块中的
Figure BDA0003744774440000162
类型的数据增强,即不使用扰动图连边的数据增强方法;
(2)
Figure BDA0003744774440000163
表示去除多尺度图神经网络模块中的
Figure BDA0003744774440000164
类型的数据增强,即不使用扰动图节点特征的数据增强方法;
(3)w/o MS-GDA:表示完全去除多尺度图神经网络模块,即不使用图数据增强策略;
(4)w/o SL-LRG:表示去除标签关系图模块,即不使用标签信息来进行指导学习。
表3消融实验
Figure BDA0003744774440000165
实验结果如表3所示。从实验结果来看,扰动图节点特征的数据增强方法略优于扰动图连边的数据增强方法,且两种图数据增强方法都是有益于模型的。这说明图数据增强方法通过扰动原始图数据,能够增强模型的泛化能力。此外,当去除标签关系图模块后,模型在所有数据集上的效果均有降低。说明引入标签关系图模块能够学习到标签之间的隐含关系,进而得到标签的隐藏状态,对最终的预测结果进行指导。总体来讲,本实验提出的模型各个子模块都是有益于整个模型的。
6、自学习标签关系图有效性实验
6.1、拓扑结构有效性实验
自适应标签图通过引入自学习的拓扑结构,进而学习标签特征。为了验证拓扑结构的有效性,将不使用标签图的拓扑结构,用多层感知机(Multi-Layer Perceptron,MLP)替代GCN。具体操作为,将公式
Figure BDA0003744774440000171
替换为ZL=fMLP(XL)。
实验结果如图3所示。从实验结果来看,引入标签的拓扑结构的效果明显更好。这说明,PPIs预测任务的标签间存在某些联系,而通过自学习标签关系图能够很好地学习到标签间的隐含关系,进一步证明了本发明提出方法的有效性。
6.2、节点特征有效性实验
自学习标签关系图节点特征的初始表示是词的嵌入表示,本实验使用的是预训练模型BERT(在DEVLIN J,CHANG M W,LEE K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding中公开)得到词的嵌入表示。在这一部分,将评估模型在不同词嵌入表示下的性能。具体来讲,通过实验比较BERT和One-Hot嵌入表示下的模型效果。
实验结果如图4所示。从图中可以看出,当使用不同的词嵌入作为GCN的输入时,多标签识别精度不会受到显著影响。这说明,模型所实现的效果提高并不完全来自于词嵌入所衍生的语意信息。此外,使用强大的词嵌入表示可以带来更好的性能。一个可能的原因是,从大型文本语料库中学习的词嵌入保留了一定的语意信息,而这些词嵌入在嵌入空间中存在一定的联系,模型可以利用这些隐式联系进一步提升模型的预测能力。
7、总结
本发明提出一种标签指导的多尺度图神经网络的蛋白质作用关系预测方法,通过图数据增强得到多种尺度的图表示,并将这些多种尺度的图输入图神经网络,得到多种尺度的蛋白质特征表示,并且引入对比学习,进一步提高蛋白质的表征能力;此外,构造自学习的标签关系图,学习标签之间的关系,进而得到标签的信息表示,对最终的蛋白质关系的预测进行指导学习。在3个公开数据集上的实验结果表明本实验模型在预测蛋白质作用关系任务上的有效性,且预测效果优于最优的基准方法。
最后需要说明的是,以上实施例仅用以说明本发明的技术方案而非限制技术方案,本领域的普通技术人员应当理解,那些对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.基于标签指导的蛋白质作用关系预测方法,其特征在于,包括以下步骤:
S1:获取待预测的一对待测蛋白质;
S2:将一对待测蛋白质输入经训练的预测模型中,输出对应的预测关系;
所述预测模型首先基于待测蛋白质进行图数据增强得到多尺度的图表示;其次将多尺度的图表示输入图神经网络得到多尺度的蛋白质特征表示,并引入对比学习来消除不同尺度蛋白质特征表示的差异;然后构造自学习的标签关系图并学习标签之间的关系,得到标签特征表示;最后通过标签特征表示修正蛋白质特征表示并指导蛋白质作用关系的预测,进而输出对应的预测关系;
S3:将一对待测蛋白质的预测关系作为其蛋白质作用关系预测结果,进而基于蛋白质作用关系预测结果分析待测蛋白质所属主体在正常和疾病状态下的细胞生物学过程。
2.如权利要求1所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S2中,预测模型包括用于提取蛋白质的局部特征和全局特征的蛋白质特征编码器模块,用于进行数据增强、图神经网络处理和对比学习的多尺度图神经网络模块,用于学习标签之间关系的自学习标签关系图模块,以及用于进行自监督学习任务和监督学习任务的多标签损失计算模块。
3.如权利要求2所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S2中,通过如下步骤训练预测模型:
S201:获取用于训练的一对蛋白质并输入预测模型中;
S202:通过蛋白质特征编码器模块提取蛋白质的局部特征和全局特征,得到具有局部信息和全局信息的蛋白质特征表示;
S203:基于蛋白质特征表示构建蛋白质作用关系的原始图;通过多尺度图神经网络模块对原始图进行扰动得到对应的扰动图;然后将原始图和扰动图输入图神经网络中,输出原始节点特征表示和扰动节点特征表示,即多尺度的蛋白质特征表示;再通过对比学习的方式融合原始节点特征表示和扰动节点特征表示得到融合节点特征表示;最后通过融合节点特征表示计算得到融合边特征表示;
S204:通过自学习标签关系图模块获取标签名称嵌入表示,并构建标签关系图;然后将标签关系图输入图卷积神经网络中,输出标签节点特征表示;
S205:通过标签节点特征表示修正融合边特征表示,得到蛋白质关系图连边特征表示;
S206:多标签损失计算模块通过原始节点特征表示和扰动节点特征表示进行自监督学习,得到自监督学习损失函数;然后通过蛋白质关系图连边特征表示进行监督学习,得到监督学习损失函数;最后基于自监督学习损失函数和监督学习损失函数计算得到训练损失函数,进而通过训练损失函数优化和更新预测模型的参数;
S207:重复执行步骤S201至S206,直至预测模型收敛。
4.如权利要求3所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S202中,蛋白质特征编码器模块包括局部特征编码器和全局特征编码器;
局部特征编码器包括卷积神经网络和最大池化层,通过如下公式提取输入的蛋白质
Figure FDA0003744774430000021
中的局部特征表示hi
hi=fGMP(fCNN(pi;θCNN));
Figure FDA0003744774430000022
式中:fCNN表示卷积操作;fGMP表示最大池化层操作;
Figure FDA0003744774430000023
表示蛋白质集合;
Figure FDA00037447744300000214
表示定义的氨基酸词表;aj表示氨基酸词表中的氨基酸;θCNN表示卷积操作的训练参数;
全局特征编码器包括双向门控循环单元和全局平均池化层,通过如下公式提取输入的局部特征表示hi中的全局特征表示,得到具有局部信息和全局信息的蛋白质特征表示xi∈X;
xi=fGAP(fBiGRU(hi;θBiGRU));
式中:fBiGRU表示双向门控循环操作;fGAP表示全局平均池化层操作;θBiGRU表示双向门控循环操作的训练参数;X表示基于蛋白质特征编码器模块得到的蛋白质特征表示。
5.如权利要求3所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S203中,定义原始图G=(X,A),节点特征
Figure FDA0003744774430000024
和邻接矩阵
Figure FDA0003744774430000025
1)多尺度图神经网络模块首先通过两个不同的视角应用随机图数据增强函数
Figure FDA0003744774430000026
Figure FDA0003744774430000027
分别对原始图G=(X,A)的连边和节点特征进行扰动,得到第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A);
Figure FDA0003744774430000028
Figure FDA0003744774430000029
Figure FDA00037447744300000210
v1~Bernoulli(N,1-δ1);
Figure FDA00037447744300000211
Figure FDA00037447744300000212
式中:∈1表示基于超参数δ1∈(0,1)得到的N伯努利分布结果;
Figure FDA00037447744300000213
表示基于第一扰动图G1=(X,A1)通过图数据增强函数
Figure FDA0003744774430000031
得到的蛋白质特征表示;
Figure FDA0003744774430000032
表示原始图的连边集合;Bernoulli表示伯努利分布;δ1∈(0,1)是超参数,表示删除连边的比率;
Figure FDA0003744774430000033
表示基于超参数δ2∈(0,1)得到的均匀分布结果;X2表示基于第一扰动图G1=(X,A1)通过图数据增强函数T2得到的蛋白质特征表示;X表示原始图的节点特征;Unifrom表示均匀分布;δ2∈(0,1)是超参数,表示节点特征置为0的比率;
2)将原始图G=(X,A)、第一扰动图G1=(X,A1)和第二扰动图G2=(X2,A)分别输入至图神经网络中,输出原始节点特征表示
Figure FDA0003744774430000034
第一扰动节点特征表示
Figure FDA0003744774430000035
和第二扰动节点特征表示
Figure FDA0003744774430000036
具有k次迭代的图神经网络表示为:
Figure FDA0003744774430000037
Figure FDA0003744774430000038
式中:
Figure FDA0003744774430000039
表示节点v聚合邻居节点特征后得到的表示;AGG表示聚合节点特征的函数;
Figure FDA00037447744300000310
Figure FDA00037447744300000311
表示节点u基于图卷积网络k-1次迭代的结果;
Figure FDA00037447744300000312
表示节点v的邻居集合;UPDATE表示节点特征更新函数;
Figure FDA00037447744300000313
Figure FDA00037447744300000314
表示节点v基于图卷积网络k-1次迭代的结果;
Figure FDA00037447744300000315
Figure FDA00037447744300000316
表示节点v第k次迭代的特征表示;MLP表示多层感知机神经网络;ω是可学习参数或者常数;
3)通过如下公式融合原始节点特征表示
Figure FDA00037447744300000317
第一扰动节点特征表示
Figure FDA00037447744300000318
和第二扰动节点特征表示,得到融合节点特征表示
Figure FDA00037447744300000319
Z'=fFusion([Z0,Z1,Z2]);
式中:fFusion表示融合函数;
4)通过融合节点特征表示Z'得到融合边特征表示
Figure FDA00037447744300000320
eij=z′i⊙z′j,eij∈E;
式中:⊙表示哈达玛积;
Figure FDA00037447744300000321
Figure FDA00037447744300000322
分别表示节点i和节点j的特征表示。
6.如权利要求5所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S204中,自学习标签关系图模块通过预训练模型BERT获取标签名称嵌入表示;
XL=BERT(LNAME);
式中:
Figure FDA00037447744300000323
表示标签名称;
Figure FDA00037447744300000324
表示标签名称的词向量,即标签名称嵌入表示;
通过标签名称嵌入表示XL和可学习参数矩阵
Figure FDA0003744774430000041
构建标签关系图GL=(AL,XL);
将标签关系图GL=(AL,XL)输入图卷积神经网络中,输出标签节点特征表示
Figure FDA0003744774430000042
Figure FDA0003744774430000043
式中:初始化ZL (0)=XL
Figure FDA0003744774430000044
表示度矩阵;W(l-1)表示可学习的参数矩阵;σ表示sigmoid激活函数;AL被初始化为单位矩阵。
7.如权利要求6所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S205中,通过如下公式计算蛋白质关系图连边特征表示;
Figure FDA0003744774430000045
式中:
Figure FDA0003744774430000046
表示蛋白质关系图连边特征表示;E表示融合边特征表示;
Figure FDA0003744774430000047
标签节点特征表示。
8.如权利要求7所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S206中,多标签损失计算模块在自监督学习任务中,通过原始节点特征表示
Figure FDA0003744774430000048
和第一扰动节点特征表示
Figure FDA0003744774430000049
计算第一扰动损失函数
Figure FDA00037447744300000410
通过原始节点特征表示
Figure FDA00037447744300000411
和第二扰动节点特征表示
Figure FDA00037447744300000412
计算第二扰动损失函数
Figure FDA00037447744300000413
第一扰动损失函数
Figure FDA00037447744300000414
和第二扰动损失函数
Figure FDA00037447744300000415
即为自监督学习损失函数;
Figure FDA00037447744300000416
Figure FDA00037447744300000417
Figure FDA00037447744300000418
Figure FDA00037447744300000419
式中:(z1,i,z0,i)表示积极样本对;z0,i∈Z0,z1,i∈Z1;θ(z0,i,z1,i)表示计算z0,i和z1,i的余弦相似度;τ表示温度参数;N表示所有的节点集合。
9.如权利要求8所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S206中,多标签损失计算模块在监督学习任务中,通过蛋白质关系图连边特征表示计算如下的监督学习损失函数;
Figure FDA0003744774430000051
Figure FDA0003744774430000052
pij=Softmax(eij);
Figure FDA0003744774430000053
式中:
Figure FDA0003744774430000054
表示监督学习损失;t表示标签类别个数;
Figure FDA0003744774430000055
表示连边集合的训练集;pij表示蛋白质i和j之间的关系概率分布;
Figure FDA0003744774430000056
表示蛋白质i和j之间关系的预测关系;c表示标签的具体类别;
Figure FDA0003744774430000057
表示蛋白质i和j在类别c上的真实标签;
Figure FDA0003744774430000058
表示蛋白质i和j在类别c上的预测结果;argmax表示取集合中最大的下标表示。
10.如权利要求9所述的基于标签指导的蛋白质作用关系预测方法,其特征在于:步骤S206中,通过如下公式表示训练损失函数;
Figure FDA0003744774430000059
式中:
Figure FDA00037447744300000510
表示训练损失;
Figure FDA00037447744300000511
表示监督学习损失;
Figure FDA00037447744300000512
表示第一扰动损失;
Figure FDA00037447744300000513
表示第二扰动损失;λ1和λ2表示设置的超参数。
CN202210828104.6A 2022-07-13 2022-07-13 基于标签指导的蛋白质作用关系预测方法 Pending CN115206423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210828104.6A CN115206423A (zh) 2022-07-13 2022-07-13 基于标签指导的蛋白质作用关系预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210828104.6A CN115206423A (zh) 2022-07-13 2022-07-13 基于标签指导的蛋白质作用关系预测方法

Publications (1)

Publication Number Publication Date
CN115206423A true CN115206423A (zh) 2022-10-18

Family

ID=83582218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210828104.6A Pending CN115206423A (zh) 2022-07-13 2022-07-13 基于标签指导的蛋白质作用关系预测方法

Country Status (1)

Country Link
CN (1) CN115206423A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994560A (zh) * 2023-02-20 2023-04-21 思腾合力(天津)科技有限公司 一种基于多尺度图对比学习的图神经网络方法
CN117672353A (zh) * 2023-12-18 2024-03-08 南京医科大学 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994560A (zh) * 2023-02-20 2023-04-21 思腾合力(天津)科技有限公司 一种基于多尺度图对比学习的图神经网络方法
CN117672353A (zh) * 2023-12-18 2024-03-08 南京医科大学 蛋白质亚细胞迁移的时空蛋白质组学深度学习预测方法

Similar Documents

Publication Publication Date Title
Talukder et al. Interpretation of deep learning in genomics and epigenomics
CN115206423A (zh) 基于标签指导的蛋白质作用关系预测方法
Yu Three principles of data science: predictability, computability, and stability (PCS)
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
Yin et al. Coco: A coupled contrastive framework for unsupervised domain adaptive graph classification
CN114743600A (zh) 基于门控注意力机制的靶标-配体结合亲和力的深度学习预测方法
Zhang et al. protein2vec: predicting protein-protein interactions based on LSTM
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
CN114420201A (zh) 一种多源数据高效融合的药物靶标相互作用的预测方法
Wang Neuro-fuzzy modeling for microarray cancer gene expression data
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN112259157A (zh) 一种蛋白质相互作用预测方法
Bai et al. A unified deep learning model for protein structure prediction
Zhao et al. Multi-label node classification on graph-structured data
Sathe et al. Gene expression and protein function: A survey of deep learning methods
Wang et al. Prediction of protein interactions based on CT-DNN
KR102212310B1 (ko) 오류 트리플 검출 시스템 및 방법
Chowdhury et al. Cell type identification from single-cell transcriptomic data via gene embedding
Singh et al. Classification of non-coding rna-a review from machine learning perspective
Fadhil et al. Classification of Cancer Microarray Data Based on Deep Learning: A Review
Sun et al. An enhanced LRMC method for drug repositioning via gcn-based HIN embedding
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Zhang Deep neural networks on genetic motif discovery: the interpretability and identifiability issues
Ahmed et al. Predicting Alzheimer's Disease Using Filter Feature Selection Method
Sridhar et al. Interrelating N-gram based protein sequences using LSTMs with parallel capsule routing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination