CN113327644B - 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法 - Google Patents

一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法 Download PDF

Info

Publication number
CN113327644B
CN113327644B CN202110382488.9A CN202110382488A CN113327644B CN 113327644 B CN113327644 B CN 113327644B CN 202110382488 A CN202110382488 A CN 202110382488A CN 113327644 B CN113327644 B CN 113327644B
Authority
CN
China
Prior art keywords
graph
vector
node
protein
drug
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110382488.9A
Other languages
English (en)
Other versions
CN113327644A (zh
Inventor
陈洧
陈观兴
陈语谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202110382488.9A priority Critical patent/CN113327644B/zh
Publication of CN113327644A publication Critical patent/CN113327644A/zh
Application granted granted Critical
Publication of CN113327644B publication Critical patent/CN113327644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medical Informatics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Medicinal Chemistry (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)

Abstract

本发明提出了一种基于分子图和序列的深度嵌入学习的药物‑靶标相互作用预测模型方法,该方法是建立基于注意力机制的图神经网络和有注意力导向的双向LSTM来预测相互作用,其中,为了更有效的训练,利用预训练模型BERT从蛋白质序列中提取各个子序列的嵌入向量表示,同时设计局部广度优先搜索算法提取药物分子图的子图信息,使得图神经网络学习更高的特征信息。该发明一方面,在药物分子方面,基于分子图可以学习到更好的空间特征;另一方面,蛋白质序列数据量大,可以覆盖更大的蛋白质空间,提高泛化能力。

Description

一种基于图与序列的深度嵌入学习的药物-靶标相互作用预 测方法
技术领域
本发明属于深度嵌入学习药物领域,具体涉及一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法。
背景技术
药物-靶标相互作用(DTIs)的识别是药物发现和化学基因组学研究中的重要任务。尽管通过实验测量化合物与蛋白质之间的结合力是最准确的方法,但它既昂贵又耗时。因此,学者们提出了许多基于大数据集的计算模型来预测DTI。
分子对接方法是基于结构来预测和确定药物-靶标相互作用。在药物设计中,该方法主要用于从小分子数据库中搜索与受体生物大分子具有良好亲和力的小分子,并进行药理试验以发现新的先导化合物。同时,机器学习方法被广泛应用于化学信息学。例如,基于定量构效关系(QSAR)的模型使用各种特征,包括简单的物理和化学性质以及各种生物学活性等,来快速预测大量新化合物。这些 QSAR模型是使用经典的机器学习算法开发的,例如随机森林,支持向量机(SVM),k近邻算法和其他对小分子的化学结构进行建模的分子模型。这些方法是基于特征的,模型利用特征向量进行相互作用的预测。这也导致能用于训练的数据有限,模型的泛化能力有限,覆盖的空间不大。
最近,深度学习在药物开发中的应用迅速发展起来,出现了许多用于预测蛋白质和小分子相互作用的深度学习模型。这些端到端的学习模型提供了不同的策略以及蛋白质与化合物的多种表示形式,例如卷积神经网络(CNN),递归神经网络(RNN)与其变种 (LSTM、GRU等),图卷积网络等等。基于空间结构的深度学习模型需要数据的空间信息,比如蛋白质二维或三维空间信息,药物-靶标相互结合的空间结构等,但是截至2019年12月21日,PDB中总共发布了158787种蛋白质结构。虽然以上方法在实验中取得了不错的效果,但是对于大量蛋白质,基于结构的方法几乎是不现实的。同时,随着测序技术的发展,大量的蛋白质序列被发表,因此专注于蛋白质序列的模型为未知结构蛋白的预测,能学习到更多的特征,当然,基于一维序列数据,如药物小分子的序列表示 SMILES,因为其序列长度较短,提取的特征有限。
综上所述,药物-靶标相互作用预测的模型方法各有千秋,都会受限于自身的特点。因此,为了能更多地覆盖相互作用谱的空间,结合药物-靶标数据各自的特点,结合各自的优势,使模型能学习到更多地特征,迫切需要开发一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,以满足实际使用的需要。
发明内容
本发明的目的在于提供一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,以解决现有的靶标相互作用预测方法用于训练的数据有限,模型的泛化能力有限,覆盖的空间不大的问题。
为实现上述目的,本发明提供如下技术方案:1、一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入。
优选地,所述药物分子在分子图上,基于深度为r的范围内做 Depth FirstSearch,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构。
优选地,所述蛋白质处理模型为蛋白质序列是基于语言模型,构建蛋白质的词,也就是n-gram amino acids。将蛋白质序列作为一长句,采用BERT预训练模型,根据蛋白质序列上下的序列文本信息,提取某一子序列符合当下的embedding,所得到的嵌入向量作为BiLSTM网络的高质量输入,同时再加一层注意力机制,在药物分子的帮助下,考虑蛋白质的哪一个子序列对他们的相互作用的发生起着重要作用。
优选地,药物分子通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构,包括以下步骤:
S1:图神经网络能通过聚合函数等将图G映射成低维稠密向量,对于一个给定的分子图,药物分子的原子,如碳原子、氯原子等等,可以看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;
S2:当给定图G={V,E},V表示节点集合,E表示边集合,就可以对分子图进行建模。鉴于原子类型和分子键的类型较少,基于图的某一个节点,进行Depth First Search(DFS)搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义vi深度为r的子图
其中,表示节点i在子图/>上的邻接节点集合,(vm,vn>代表节点vm和vn相连接的边;
S3:对基于深度为k的子图提取相应的特征,例如原子类型、电荷、多重性和质量等,然后将这些特征作为初始的节点特征向量xi,给定一个子图/>以及初始化的特征向量xi,节点vi就可以通过聚合周围邻居节点的潜入向量表示进行更新,此步骤是针对子图中的所有节点,经过聚合操作后,在子图中的每个节点结合他们各自的邻居节点信息/>以及该节点前k-1步状态的嵌入向量/>更新自身的嵌入向量表示,节点vi新的嵌入向量表示就输入到下一层图神经网络层中继续以同样的方式进行更新节点的向量。最终,可以更新得到第k步的节点vi的隐藏向量/>
其中W是待学习的参数矩阵;
S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征 其中N代表节点数量,而F是节点特征的数量,将这一系列节点特征/>作为注意力层的输入,使用LeakyReLU非线性激活函数(取α=0.2)来计算attention coeffients:
coefij=Leaky_relu(Watten·[hi,hj])
对任意节点j∈N(i,r),令ai为所有注意力系数aij组成的向量;
S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readout operaion来描述图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即:
用矩阵形式表示得到:
其中是注意力矩阵,/>由复合物中的 N个节点的隐藏向量组成的节点特征矩阵。
优选地,所述蛋白质序列,将一个蛋白质的序列看成一条句子,那么这条句子是由20种单词构成,采用自然语言建模的方法进行处理,但是同时考虑到词汇丰富度太少,需要先扩大词库量,因此,基于n-gram的语言模型,可以将蛋白质序列中的词定义为n- gramamino acids,而根据排列组合,将有20n种词,接着就对蛋白质序列切分成若干可重叠的n-gram amino acids,考虑到氨基酸的种类只有20种,且如果n的值取得大些,单词词频可能出现过低的情况,这里,为了保证词库大小合理,使用Trigram语言模型,即n= 3。从数学上来定义Trigram语言模型,当给定一段序列 S=s1s2s3…s|s|,切成Trigram语言模型的形式:
[s1;s2;s3],[s2;s3;s4],…,[s|s|-2;s|s|-1;s|s|]
其中,S|是蛋白质序列的长度,同时定义si:i+2表示蛋白质序列种的词 [si;si+1;si+2]。
优选地,使用BERT模型来提取n-gram amino acids所对应的嵌入向量表示,相比于Word2vec学习固定的嵌入向量表示,BERT能够根据上下文关系,习得更符合此语境下的嵌入向量,利用BERT 模型,根据蛋白质周边的序列信息,提取到当前单词较符合的高质量特征:
ci=BERTpre-training(si:i+2)
对于BERT模型所得到的动态嵌入向量,给定的蛋白质序列就转化成一系列隐藏向量的形式,即C={c1,c2,…,c|s|},而BERT所提取的词向量可以作为下游模型的高质量输入,这里将c={c1,c2,…,c|s|}作为下游模型双向LSTM网络的输入,进一步提取更深层的特征:
同时令P为双向LSTM最终所输出的向量的矩阵表示,即 P=[p1,p2,…,p|s|-2]。
优选地,引入注意力机制来强调蛋白质序列的某一重要位置的关键性作用,给定药物分子的嵌入向量mi和蛋白质子结构的向量表示pi,注意力层能捕捉蛋白药物相互作用的关键结合位点,给定复合物分子的向量表示M和一系列蛋白质子序列的隐藏向量{p1,p2,…,p|s|},用以下公式进行计算:
ai=tanh(W2·ReLU(W1·[M;pi]))
令α为权重向量,且α=[α1,α2,…,α|s|],接着通过计算隐藏向量矩阵P和权重向量α,来得到蛋白质序列的最终表示:
Pro=PαT
优选地,所述SMILES全称为Simplified Molecular Input Line Entry System,是一种用于输入和表示分子反应的线性符号,是一种 ASCII编码。
优选地,所述靶标相互作用预测方法包括分类层,分类层将 GNN图神经网络处理药物分子得到的嵌入向量表示和BiLSTM提取的蛋白质的向量表示并联,一同输入到分类层
r=σ(Woutput[M;Pro]+boutput)
其中,Woutput是待训练的权重矩阵;
给定药物分子与蛋白质对所组成的数据集,以及相应的标签y,模型训练的目标是最小化信息熵函数L:
其中,Θ代表模型中所有的参数矩阵、偏置向量,n表示所用到的蛋白复合物对的数量,λ是正则化系数。
本发明的技术效果和优点:本发明结合基于注意力的图神经网络,动态词向量与双向LSTM,对药物分子和蛋白质序列特征进行学习,实验证明相比于机器学习方法和一些深度学习模型,此模型可显著提高药物-靶标相互作用的预测能力。利用基于注意力机制的图神经网络进行训练,从分子图上学习相关的特征,一方面可以保留原始数据的大部分信息,另一方面,基于图的学习可以学习更高层次的特征。利用BERT模型学习词向量,构建蛋白质子序列在不同空间结构下的特征信息。利用注意力机制,综合药物分子和蛋白质的向量表示,突出药物-靶标相互作用的结合位置的重要性,提高模型的预测能力。模型在一定程度上可以从药物分子数据库中筛选靶标蛋白的潜在药物,且相比于传统的分子对接技术,可大大减少筛选的时间。
附图说明
图1为本发明的方法示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了如图中所示的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入。
进一步地,所述药物分子在分子图上,基于深度为r的范围内做Depth FirstSearch,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构。
进一步地,所述蛋白质处理模型为蛋白质序列是基于语言模型,构建蛋白质的词,也就是n-gram amino acids。将蛋白质序列作为一长句,采用BERT预训练模型,根据蛋白质序列上下的序列文本信息,提取某一子序列符合当下的embedding,所得到的嵌入向量作为BiLSTM网络的高质量输入,同时再加一层注意力机制,在药物分子的帮助下,考虑蛋白质的哪一个子序列对他们的相互作用的发生起着重要作用。
进一步地,药物分子通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention 层来描述药物分子的关键结构,包括以下步骤:
S1:图神经网络能通过聚合函数等将图G映射成低维稠密向量,对于一个给定的分子图,药物分子的原子,如碳原子、氯原子等等,可以看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;
S2:当给定图G={V,E},V表示节点集合,E表示边集合,就可以对分子图进行建模。鉴于原子类型和分子键的类型较少,基于图的某一个节点,进行Depth First Search(DFS)搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义vi深度为r的子图
其中,表示节点i在子图/>上的邻接节点集合,<vm,vn>代表节点vm和vn相连接的边;
S3:对基于深度为k的子图提取相应的特征,例如原子类型、电荷、多重性和质量等,相关的ligand特征如表1所示,
表1.原子特征及其表示
然后将这些特征作为初始的节点特征向量xi,给定一个子图以及初始化的特征向量xi,节点vi就可以通过聚合周围邻居节点的潜入向量表示进行更新,此步骤是针对子图中的所有节点,经过聚合操作后,在子图中的每个节点结合他们各自的邻居节点信息以及该节点前k-1步状态的嵌入向量/>更新自身的嵌入向量表示,节点vi新的嵌入向量表示就输入到下一层图神经网络层中继续以同样的方式进行更新节点的向量。最终,可以更新得到第k步的节点vi的隐藏向量/>
其中W是待学习的参数矩阵;
S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征 其中N代表节点数量,而F是节点特征的数量,将这一系列节点特征/>作为注意力层的输入,使用LeakyReLU非线性激活函数(取α=0.2)来计算attention coeffients:
coefij=Leaky_relu(Watten·[hi,hj])
对任意节点j∈N(i,r),令ai为所有注意力系数aij组成的向量;
S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readout operation来描述图的descriptor,不同于直接简单地对所有节点特征进行求和来获取图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即:
用矩阵形式表示得到:
其中是注意力矩阵,/>由复合物中的 N个节点的隐藏向量组成的节点特征矩阵。
进一步地,所述蛋白质序列,将一个蛋白质的序列看成一条句子,那么这条句子是由20种单词构成,采用自然语言建模的方法进行处理,但是同时考虑到词汇丰富度太少,需要先扩大词库量,因此,基于n-gram的语言模型,可以将蛋白质序列中的词定义为n- gramamino acids,而根据排列组合,将有20n种词,接着就对蛋白质序列切分成若干可重叠的n-gram amino acids,比如,一个蛋白质序列′MSTSSLR…TNPFLL′,切分成n-gram aminoacids的形式,其所得的若干片段如下:
′MST′,′STS′,′TSS′,′SSL′,…,′TNP′,′NPF′,′PFL′,′FLL′
考虑到氨基酸的种类只有20种,且如果n的值取得大些,单词词频可能出现过低的情况,这里,为了保证词库大小合理,使用 Trigram语言模型,即n=3。从数学上来定义Trigram语言模型,当给定一段序列S=s1s2s3…s|s|,切成Trigram语言模型的形式:
[s1;s2;s3],[s2;s3;s4],…,[s|s|-2;s|s|-1;s|s|]
其中,|S|是蛋白质序列的长度,同时定义si:i+2表示蛋白质序列种的词 [si;si+1;si+2]。
进一步地,可能同一个词会在不同蛋白质序列的不同位置出现,而且相应地,虽然都是同一个词,但是其对应的三维空间结构是有差异的,也即词向量不应该是固定的,应该随着不同蛋白质而有所变化的。鉴于此问题,使用BERT模型来提取n-gram amino acids所对应的嵌入向量表示,相比于Word2vec学习固定的嵌入向量表示,BERT能够根据上下文关系,习得更符合此语境下的嵌入向量,利用BERT模型,根据蛋白质周边的序列信息,提取到当前单词较符合的高质量特征:
ci=BERTpre-training(si:i+2)
对于BERT模型所得到的动态嵌入向量,给定的蛋白质序列就转化成一系列隐藏向量的形式,即C={c1,c2,…,c|s|},而BERT所提取的词向量可以作为下游模型的高质量输入,这里将c={c1,c2,…,c|s|}作为下游模型双向LSTM网络的输入,进一步提取更深层的特征:
同时令P为双向LSTM最终所输出的向量的矩阵表示,即 P=[p1,p2,…,p|s|-2]。
进一步地,在蛋白质中,药物分子与蛋白质相结合只是蛋白质上的一小部分位置,也就是说蛋白质序列的某一子序列是关键位点,大部分sites跟该药物分子没有直接的结合趋势,为此,引入注意力机制来强调蛋白质序列的某一重要位置的关键性作用,给定药物分子的嵌入向量mi和蛋白质子结构的向量表示pi,注意力层能捕捉蛋白药物相互作用的关键结合位点,给定复合物分子的向量表示M和一系列蛋白质子序列的隐藏向量{p1,p2,…,p|s|},用以下公式进行计算:
αi=tanh(W2·ReLU(W1·[M;pi]))
令α为权重向量,且α=[α1,α2,…,α|s|],接着通过计算隐藏向量矩阵P和权重向量α,来得到蛋白质序列的最终表示:
Pro=PαT
进一步地,所述SMILES全称为Simplified Molecular Input Line EntrySystem,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。
进一步地,所述靶标相互作用预测方法包括分类层,分类层将 GNN图神经网络处理药物分子得到的嵌入向量表示和BiLSTM提取的蛋白质的向量表示并联,一同输入到分类层
z=σ(Woutput[M;Pro]+boutput)
其中,Woutput是待训练的权重矩阵;
给定药物分子与蛋白质对所组成的数据集,以及相应的标签y,模型训练的目标是最小化信息熵函数L:
其中,θ代表模型中所有的参数矩阵、偏置向量,n表示所用到的蛋白复合物对的数量,λ是正则化系数。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,将药物分子的图表示作为输入,即把分子的原子看作是顶点,原子间的成键视为边,而氨基酸元素组成的文本序列作为蛋白质处理模型的输入;
所述药物分子在分子图上,基于深度为r的范围内做Depth First Search,采样离目标节点的距离小于等于r的节点以及边来构成子图,然后,通过模型训练使得子图经过GNN图神经网络后,学习到目标节点的特征向量,并且再引入一层self-attention层来描述药物分子的关键结构,包括以下步骤:
S1:图神经网络能通过聚合函数将图G映射成低维稠密向量,对于一个给定的分子图,将药物分子的原子看作节点,而原子之间的分子键作为图的边,从而将药物分子表示成图G={V,E}的形式,采用药物分子的SMILES作为模型原始输入,经过Python的开源化学RDKit转化成二维形式的分子图,接着建立基于注意力机制的图神经网络,从所得的二维分子图中药物分子的嵌入向量表示;
S2:当给定图G={V,E},V表示节点集合,E表示边集合,对分子图进行建模,鉴于原子类型和分子键的类型较,基于图的某一个节点,进行Depth First Search(DFS)搜索,其搜索深度为r,不必遍历整个图,即从一个节点出发,遍历深度为r的子图,同时记录节点i所有的邻接节点以及边的信息,定义vi深度为r的子图
其中,表示节点i在子图/>上的邻接节点集合,<vm,vn>代表节点vm和vn相连接的边;
S3:对基于深度为k的子图提取相应的特征,然后将这些特征作为初始的节点特征向量xi,给定一个子图/>以及初始化的特征向量xi,节点vi就可以通过聚合周围邻居节点的潜入向量表示进行更新,此步骤是针对子图中的所有节点,经过聚合操作后,在子图中的每个节点结合他们各自的邻居节点信息/>以及该节点前k-1步状态的嵌入向量/>更新自身的嵌入向量表示,节点vi新的嵌入向量表示就输入到下一层图神经网络层中继续以同样的方式进行更新节点的向量;最终,可以更新得到第k步的节点vi的隐藏向量/>
其中W是待学习的参数矩阵;
S4:基于药物分子的某些官能团对药物分子与蛋白质相结合的贡献度大,为此引入注意力机制来提高模型的表现力,通过对药物分子的GNN网络的学习,可以得到一系列节点特征 其中N代表节点数量,而F是节点特征的数量,将这一系列节点特征/>作为注意力层的输入,使用LeakyReLU非线性激活函数来计算attentioncoeffients:
coefij=Leaky_relu(Watten·[hi,hj])
对任意节点令ai为所有注意力系数aij组成的向量;
S5:在经过多层图神经网络,所学习到的嵌入向量是基于节点信息的,需要一个readout operation来描述图的descriptor,采用基于attention的策略聚合所有节点信息来获得图的descriptor,在得到药物分子的嵌入向量表示后,结合注意力层,用归一化的注意力系数去做线性加权求和,再经过激活函数σ输出药物分子最终的嵌入向量表示,即:
用矩阵形式表示得到:
其中是注意力矩阵,/>由复合物中的N个节点的隐藏向量组成的节点特征矩阵。
2.根据权利要求1所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,所述蛋白质处理模型为蛋白质序列是基于语言模型,构建蛋白质的词,也就是n-gram amino acids;将蛋白质序列作为一长句,采用BERT预训练模型,根据蛋白质序列上下的序列文本信息,提取某一子序列符合当下的embedding,所得到的嵌入向量作为BiLSTM网络的高质量输入,同时再加一层注意力机制,在药物分子的帮助下,考虑蛋白质的哪一个子序列对他们的相互作用的发生起着重要作用。
3.根据权利要求2所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,所述蛋白质序列,将一个蛋白质的序列看成一条句子,那么这条句子是由20种单词构成,采用自然语言建模的方法进行处理,但是同时考虑到词汇丰富度太少,需要先扩大词库量,因此,基于n-gram的语言模型,可以将蛋白质序列中的词定义为n-gramamino acids,而根据排列组合,将有20n种词,接着就对蛋白质序列切分成若干可重叠的n-gram amino acids,考虑到氨基酸的种类只有20种,且如果n的值取得大些,单词词频可能出现过低的情况,这里,为了保证词库大小合理,使用Trigram语言模型,即n=3;从数学上来定义Trigram语言模型,当给定一段序列S=s1s2s3…s|S|,切成Trigram语言模型的形式:
[s1;s2;s3],[s2;s3;s4]·…,[s|S|-2;s|S|-1;s|S|]
其中,|S|是蛋白质序列的长度,同时定义si:i+2表示蛋白质序列种的词[si;si+1;si+2]。
4.根据权利要求3所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,使用BERT模型来提取n-gram amino acids所对应的嵌入向量表示,相比于Word2vec学习固定的嵌入向量表示,BERT能够根据上下文关系,习得更符合此语境下的嵌入向量,利用BERT模型,根据蛋白质周边的序列信息,提取到当前单词较符合的高质量特征:
ci=BERTTpre-training(si:i+2)
对于BERT模型所得到的动态嵌入向量,给定的蛋白质序列就转化成一系列隐藏向量的形式,即C={c1,c2,…,c|S|},而BERT所提取的词向量可以作为下游模型的高质量输入,这里将C={c1,c2,…,c|S|}作为下游模型双向LSTM网络的输入,进一步提取更深层的特征:
同时令P为双向LSTM最终所输出的向量的矩阵表示,即P=[p1,p2,…,p|S|-2]。
5.根据权利要求4所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,引入注意力机制来强调蛋白质序列的某一重要位置的关键性作用,给定药物分子的嵌入向量mi和蛋白质子结构的向量表示pi,注意力层能捕捉蛋白药物相互作用的关键结合位点,给定复合物分子的向量表示M和一系列蛋白质子序列的隐藏向量{p1,p2,…,p|S|},用以下公式进行计算:
αi=tanh(W2·ReLU(W1·[M;pi]))
令α为权重向量,且α=[α1,α2,…,α|S|],接着通过计算隐藏向量矩阵P和权重向量α,来得到蛋白质序列的最终表示:
Pro=PαT
6.根据权利要求1所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,所述SMILES全称为Simplified Molecular Input Line EntrySystem,是一种用于输入和表示分子反应的线性符号,是一种ASCII编码。
7.根据权利要求1所述的一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法,其特征在于,所述靶标相互作用预测方法包括分类层,分类层将GNN图神经网络处理药物分子得到的嵌入向量表示和BiLSTM提取的蛋白质的向量表示并联,一同输入到分类层
z=σ(Woutput[M;Pro]+boutput)
其中,Woutput是待训练的权重矩阵;
给定药物分子与蛋白质对所组成的数据集,以及相应的标签y,模型训练的目标是最小化信息熵函数
其中,θ代表模型中所有的参数矩阵、偏置向量,n表示所用到的蛋白复合物对的数量,λ是正则化系数。
CN202110382488.9A 2021-04-09 2021-04-09 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法 Active CN113327644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110382488.9A CN113327644B (zh) 2021-04-09 2021-04-09 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110382488.9A CN113327644B (zh) 2021-04-09 2021-04-09 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法

Publications (2)

Publication Number Publication Date
CN113327644A CN113327644A (zh) 2021-08-31
CN113327644B true CN113327644B (zh) 2024-05-14

Family

ID=77414640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110382488.9A Active CN113327644B (zh) 2021-04-09 2021-04-09 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法

Country Status (1)

Country Link
CN (1) CN113327644B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113744799B (zh) * 2021-09-06 2023-10-13 中南大学 一种基于端到端学习的化合物和蛋白质相互作用与亲和力预测方法
CN113889183B (zh) * 2021-09-07 2024-03-26 上海科技大学 基于神经网络的protac分子降解率的预测***及其构建方法
CN114420309B (zh) * 2021-09-13 2023-11-21 北京百度网讯科技有限公司 建立药物协同作用预测模型的方法、预测方法及对应装置
CN114446383B (zh) * 2022-01-24 2023-04-21 电子科技大学 一种基于量子计算的配体-蛋白相互作用的预测方法
CN115035956A (zh) * 2022-04-13 2022-09-09 北京大学 一种基于端到端模型的蛋白质序列特征信息学习方法
CN114792573B (zh) * 2022-04-18 2023-02-28 北京百度网讯科技有限公司 药物联用的效果预测方法、模型训练方法、装置及设备
CN114999566B (zh) * 2022-05-26 2024-04-19 西安交通大学 基于词向量表征和注意力机制的药物重定位方法及***
CN115662509B (zh) * 2022-10-09 2023-08-08 北京科技大学 基于图神经网的表观遗传靶点预测的分类方法及装置
CN115630646B (zh) * 2022-12-20 2023-05-16 粤港澳大湾区数字经济研究院(福田) 一种抗体序列预训练模型的训练方法及相关设备
CN116188173A (zh) * 2023-05-04 2023-05-30 北京澜舟科技有限公司 证券市场波动预警方法、***以及存储介质
CN116646001B (zh) * 2023-06-05 2024-05-24 兰州大学 基于联合式跨域注意力模型预测药物靶标结合性的方法
CN116994644B (zh) * 2023-07-28 2024-02-02 天津大学 基于预训练模型的药靶亲和力预测方法
CN116825234B (zh) * 2023-08-30 2023-11-07 江西农业大学 一种多模态信息融合的药物分子活性预测方法及电子设备
CN117423378A (zh) * 2023-10-27 2024-01-19 重庆邮电大学 一种基于图表示学习的药物-靶标智能推荐方法
CN117393036B (zh) * 2023-11-09 2024-07-23 中国海洋大学 一种用于药物-靶点亲和力预测的蛋白多层次语义聚合表征方法
CN117976245A (zh) * 2024-04-02 2024-05-03 云南大学 非对称式的药物相互作用预测方法、***及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别***
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110289050A (zh) * 2019-05-30 2019-09-27 湖南大学 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN110415763A (zh) * 2019-08-06 2019-11-05 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107463878A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别***
CN109887540A (zh) * 2019-01-15 2019-06-14 中南大学 一种基于异构网络嵌入的药物靶标相互作用预测方法
CN110289050A (zh) * 2019-05-30 2019-09-27 湖南大学 一种基于图卷积和词向量的药物-靶标相互作用预测方法
CN110415763A (zh) * 2019-08-06 2019-11-05 腾讯科技(深圳)有限公司 药物与靶标的相互作用预测方法、装置、设备及存储介质
CN110689965A (zh) * 2019-10-10 2020-01-14 电子科技大学 一种基于深度学习的药物靶点亲和力预测方法
CN110957002A (zh) * 2019-12-17 2020-04-03 电子科技大学 一种基于协同矩阵分解的药物靶点相互作用关系预测方法
CN112331273A (zh) * 2020-10-28 2021-02-05 星药科技(北京)有限公司 一种基于多维度信息的药物小分子-蛋白靶点反应预测方法
CN112308326A (zh) * 2020-11-05 2021-02-02 湖南大学 一种基于元路径和双向编码器的生物网络链接预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Graph convolutional networks for computational drug development and discovery;Mengying Sun 等;Briefings in Bioinformatics;21(3);919–935 *
Interpretable Drug Target Prediction Using Deep Neural Representation;Kyle Yingkai Gao 等;Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence;3371-3377 *

Also Published As

Publication number Publication date
CN113327644A (zh) 2021-08-31

Similar Documents

Publication Publication Date Title
CN113327644B (zh) 一种基于图与序列的深度嵌入学习的药物-靶标相互作用预测方法
CN111370073B (zh) 一种基于深度学习的药物互作规则预测方法
CN113571125A (zh) 基于多层网络与图编码的药物靶点相互作用预测方法
Kim et al. Bayesian neural network with pretrained protein embedding enhances prediction accuracy of drug-protein interaction
Sonsare et al. Investigation of machine learning techniques on proteomics: A comprehensive survey
CN116798652A (zh) 一种基于多任务学习的抗癌药物反应预测方法
Ma et al. Heuristics and metaheuristics for biological network alignment: A review
Zhang et al. Prediction of electron ionization mass spectra based on graph convolutional networks
Palmucci et al. Where is your field going? A machine learning approach to study the relative motion of the domains of physics
Hu et al. Saliency-based YOLO for single target detection
CN117524353B (zh) 一种基于多维度分子信息的分子大模型、构建方法及应用
Lu et al. TrGPCR: GPCR-ligand Binding Affinity Predicting based on Dynamic Deep Transfer Learning
CN110400605A (zh) 一种gpcr药物靶标的配体生物活性预测方法及其应用
CN118038995A (zh) 非编码rna中小开放阅读窗编码多肽能力预测方法及***
Hu et al. Cancer gene selection with adaptive optimization spiking neural p systems and hybrid classifiers
Ma et al. Kernel soft-neighborhood network fusion for MiRNA-disease interaction prediction
Tian et al. GTAMP-DTA: Graph transformer combined with attention mechanism for drug-target binding affinity prediction
CN116564555A (zh) 基于深度记忆交互的药物相互作用预测模型构建方法
CN116978464A (zh) 数据处理方法、装置、设备以及介质
CN116130018A (zh) 有机晶体结构预测方法、装置、设备及存储介质
Geethu et al. Improved 3-D protein structure predictions using deep ResNet model
Ma et al. Drug-target binding affinity prediction method based on a deep graph neural network
CN117441209A (zh) 内坐标中用于分子构象空间建模的对抗框架
Zhang et al. A Multi-perspective Model for Protein–Ligand-Binding Affinity Prediction
CN113707234A (zh) 一种基于机器翻译模型的先导化合物成药性优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant