CN116106461A - 一种基于深层图网络的预测液相色谱保留时间的方法和装置 - Google Patents

一种基于深层图网络的预测液相色谱保留时间的方法和装置 Download PDF

Info

Publication number
CN116106461A
CN116106461A CN202211374166.0A CN202211374166A CN116106461A CN 116106461 A CN116106461 A CN 116106461A CN 202211374166 A CN202211374166 A CN 202211374166A CN 116106461 A CN116106461 A CN 116106461A
Authority
CN
China
Prior art keywords
information
graph network
layer
retention time
deep
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211374166.0A
Other languages
English (en)
Other versions
CN116106461B (zh
Inventor
蓝振忠
康启越
刘航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Westlake University
Original Assignee
Westlake University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Westlake University filed Critical Westlake University
Priority to CN202211374166.0A priority Critical patent/CN116106461B/zh
Publication of CN116106461A publication Critical patent/CN116106461A/zh
Application granted granted Critical
Publication of CN116106461B publication Critical patent/CN116106461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Investigating Or Analysing Materials By Optical Means (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于深层图网络的预测液相色谱保留时间的方法和装置。该方法获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果;所述读出层采用基于注意力机制的读出层。本发明提出的基于深层图网络的预测液相色谱保留时间的方法能够提高预测准确率。

Description

一种基于深层图网络的预测液相色谱保留时间的方法和装置
技术领域
本发明属于液相色谱技术、信息处理技术领域,具体涉及一种基于深层图网络的预测液相色谱保留时间的方法和装置。
背景技术
在过去的几十年中,由于具有高灵敏度和高选择性,液相色谱-质谱(LC-MS)已被用作鉴定小分子结构的最有效方法。虽然串联质谱(MS/MS)信息已被证明可用于表征结构,由于串联质谱数据库极其有限,所以仅仅依靠串联质谱不足以确定结构。面对这一挑战,保留时间已经被用来针对化合物进行辅助鉴定。保留时间是样品进入色谱柱到流出色谱柱被质谱检测到所需要的时间。因为保留时间可以提供串联质谱获得的正交信息之外的正交信息,能够在鉴定时,减少可能的结构数量,是排除鉴定假阳性的重要手段。如何能够准确地预测液相色谱的保留时间,以及不同液相条件下的保留时间,是本发明要解决的主要问题。
目前有限的已有研究,多使用传统机器学习方法,如贝叶斯岭回归、随机森林等,基于分子指纹或分子描述符,进行保留时间预测。但是分子指纹或描述符仅仅只能代表化学分子的部分性质,无法利用分子的整体结构信息。
发明内容
本发明针对现有基于分子指纹或分子描述符的传统机器学习预测准确度较低这一问题,提供一种基于深层图网络的预测液相色谱保留时间的方法,以提高预测准确率。
本发明采用的技术方案如下:
一种基于深层图网络的预测液相色谱保留时间的方法,包括以下步骤:
获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
进一步地,所述节点特征包括:原子类型,手性中心类型,手性,原子度,形式电荷,杂化方式,芳香性,氢供体或受体,是否为杂原子,是否在环中,节点的氢原子数量,自由基电子数,价电子数,Crippen LogP贡献率,Crippen摩尔折射贡献率,Gasteiger电荷,质量数,以及拓扑极表面积贡献;所述边特征包括:键类型、是否为共轭、是否是环的一部分、是否可旋转以及该化学键的立体结构信息;所述邻接矩阵根据分子化学键进行构建。
进一步地,所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果。
进一步地,所述图网络层的处理过程包括:
将源节点u、目标节点v之间的边信息和源节点u的信息传递到目标节点v,目标节点v采用softmax函数进行聚合,得到的更新后的信息ml
将更新后的信息ml使用线性层进行处理,之后通过非线性激活函数σ,最后将更新后的分子信息和原分子信息
Figure BDA0003925112210000021
进行加和,即进行残差连接操作。
进一步地,所述读出层采用基于注意力机制的读出层;所述基于注意力机制的读出层包含超级虚拟节点,所述超级虚拟节点和分子中每个原子节点连接,所述超级虚拟节点的编码首先由求和得到,然后使用以下公式进行更新:
ei=concat(c,ni)*W+b
Figure BDA0003925112210000022
Figure BDA0003925112210000023
hk,ck=GRU(hk-1,ck-1)
其中,c为超级虚拟节点的编码,ni代表分子中每个原子节点的编码,ei为经过线性层后的权重,αi为使用softmax进行归一化的重要性代表程度的系数,其总和为一;
Figure BDA0003925112210000024
代表所有分子中的所有原子节点;GRU为门控循环单元,ck为第k次经过图注意力机制计算超级虚拟节点的编码,hk为第k次更新后的分子编码。
进一步地,所述线性层包含2层线性层,其中第一层的隐藏层维度为1024,通过第一层后,经过线性整流函数ReLU,再经过第二层,将维度投射到1,以进行保留时间的预测。
进一步地,所述深层图网络模型的训练过程包括:选择保留时间数据集,将其分为训练集、验证集和测试集,对其进行图网络信息的构建,然后采用SmoothL1损失函数,采用自适应时刻估计算法对所述深层图网络模型进行训练。
一种基于深层图网络的预测液相色谱保留时间的装置,其包括:
图网络信息构建模块,用于获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
保留时间预测模块,用于将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
本发明的有益效果如下:
本发明针对现有基于分子指纹或分子描述符的传统机器学习预测准确度较低这一问题,首次提出引入深层图网络进行保留时间预测,并针对化学物质的保留时间预测这一问题,针对模型进行了多项优化,进而达到提高预测准确率这一效果。相比于传统的机器学习方法,图网络模型可以利用原子级别的描述符,同时利用化学物质的结构信息(图网络信息),从而能够达到更好的预测效果。
本发明开发了一个深层的图卷积网络(DeepGCN-RT)模型,首次在该模型中引入了残差连接,引入了分子的边(化学键)信息,并引入了基于注意力机制的图网络“读出”(readout)模块,在“METLIN保留时间数据集”(SMRT)上,得到了目前预测效果最好的模型。
此外,考虑到不同研究之间通常倾向于使用不同的液相色谱条件,本发明比较了所开发模型在其它液相色谱数据集的效果。结果显示,与文献报道模型的比较表明,本发明所开发的模型显著提高了在SMRT数据集和迁移学习数据集上的预测的准确性。最后,使用RIKEN-PlaSMA数据集进行基于LCMS的分子识别,DeepGCN-RT在减少候选结构数量和提高top-k识别精度方面显示出极大优势。
附图说明
图1.本发明的模型结构。
图2.本发明的训练过程中的损失。
图3.RIKEN-PlaSMA数据集的结构鉴定结果。其中(a)图是使用不同的鉴定方式进行鉴定时候选结构的平均数量,其横坐标分别代表仅使用MSFinder这一软件进行结构鉴定的结果,以及同时使用MSFinder和本研究开发的保留时间预测模型进行结构鉴定的结果,纵坐标代表每个色谱峰的候选结构的平均数量(共100个色谱图候选结构的平均值);(b)图是top k是鉴定准确率,其横坐标代表top-1,top-2,top-5,top-10,top-15,top-20的候选结构中,是否含有真实结构,纵坐标是正确鉴定的分子结构的比例,identification type表示使用不同的鉴定手段(仅使用MSFinder和同时使用MSFinder和DeepGCN-RT)。
图4.本发明模型在METLIN保留时间数据集上的预测效果,其横坐标是实验测定的真实保留时间,纵坐标是本研究开发模型的预测保留时间。
图5.本发明模型在METLIN保留时间数据集上的预测误差的直方图,其横坐标是预测误差,纵坐标代表相应的计数(count)。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明涉及一种基于深层图网络进行保留时间预测的方法,包括化学物质图网络信息构建,包括节点特征、边特征和邻接矩阵的构建。采用的化学物质深度学习模型为深层图网络模型,包括:在信息传递过程中,引入边信息进行信息传递;使用残差连接,以构建深层图网络模型;改进模型的“读出”模块,使用基于注意力机制的“读出”模型以达到更好的预测效果。本模型的架构如图1所示。
本发明的一种基于深层图网络进行保留时间预测的方法的具体方案如下:
一、化学物质图网络信息的构建
化学物质图网络信息的构建包括构建节点特征、边特征和邻接矩阵。
节点特征包括:原子类型,手性中心类型,手性,原子度,形式电荷,杂化方式,芳香性,氢供体或受体,是否为杂原子,是否在环中,节点的氢原子数量,自由基电子数,价电子数,Crippen LogP贡献率,Crippen摩尔折射贡献率,Gasteiger电荷,质量数(除以100),以及拓扑极表面积贡献(Topological polar surface area contribution)。
邻接矩阵使用化学物质的化学键进行构建。此外,本发明还将边特征引入信息传递过程,其中边特征包括:键类型、是否为共轭、是否是环的一部分、是否可旋转以及该化学键的立体结构信息。
使用开源软件RDKit,将以上信息分别构建为节点特征、边特征和邻接矩阵,将这些信息输入图网络进行保留时间预测。
二、深层图网络模型的构建
如图1所示,本发明的DeepGCN-RT模型由图网络层(GNN layer),读出层(GNNReadout),线性层(Dense Layer)组成。
1.图网络层(GNN layer)
图网络为图卷积网络,针对保留时间预测这一问题,本发明在Kensert等人(Kensert,A.;Bouwmeester,R.;Efthymiadis,K.,et al.,Graph convolutional networksfor improved prediction and interpretability of chromatographic retentiondata.Anal Chem.2021,93(47),15633-15641.)提出的GCN的基础上做出如下改进:增加分子的边(化学键)信息进行图网络模型建模;增加残差连接以改进模型结构;增加模型的深度以提高预测效果。
Kensert等人的GCN层如下:
Figure BDA0003925112210000051
其中,u、v分别为源节点和目标节点,N(v)为v的所有源节点。cuv是节点的度的平方根。σ代表非线性函数。
Figure BDA0003925112210000052
为第l+1次更新后的目标节点v的分子编码(embedding),
Figure BDA0003925112210000053
为l次更新后的目标节点v的分子编码,l为更新次数,bl为第l层的偏置参数,Wl为第l层的权重参数。
本发明的GCN层则首先将u、v之间的边信息和源节点u的信息传递到目标节点v,目标节点v采用softmax函数进行聚合,如公式(2)和公式(3)所示:
Figure BDA0003925112210000054
Figure BDA0003925112210000055
其中
Figure BDA0003925112210000056
分别代表源节点的信息和边信息,ml代表更新后的信息。其中,源节点的信息是指前文中的节点特征,边信息是指前文中的边特征,源节点和目标节点由前文中的邻接矩阵确定。
之后,将得到的更新后的信息ml,使用线性层处理(l为更新次数,bl为第l层的偏置参数,Wl为第l层的权重参数),之后通过非线性激活函数σ。最后将更新后的分子信息和原分子信息
Figure BDA0003925112210000057
进行加和(即残差连接操作),如下所示:
Figure BDA0003925112210000058
2.读出层(GNN Readout)
目前基于图的读出多采用“平均”、“求和”等简单的读出操作。为了提高模型的预测准确性,本发明采用了基于注意力机制的读出层。具体来说,在消息传递过程之后,会得到分子中每个原子节点的分子编码。本发明首先创建一个“超级虚拟”节点,并使该节点和每个原子节点连接。“超级虚拟”节点的编码首先由求和得到,然后使用以下公式进行更新,具体如下:
ei=concat(c,ni)*W+b  (5)
Figure BDA0003925112210000059
Figure BDA00039251122100000510
hk,ck=GRU(hk-1,ck-1)  (8)
其中,c为“超级虚拟”节点的编码,ni代表分子中每个原子节点的编码,
Figure BDA00039251122100000511
代表分子中的所有原子节点。ei为经过线性层后的权重。αi为使用softmax进行归一化的重要性代表程度的系数,其总和为一。GRU为门控循环单元。ck为第k次经过图注意力机制计算“超级虚拟”节点的编码,hk为第k次更新后的分子编码。
本发明采用的基于注意力机制的读出,之所以能够达到更好的保留时间预测效果,是因为图注意力机制可以有效的捕获对目标任务有用的信息。此外,门控循环单元在信息的保留和无效信息的过滤方面,具有良好的效果。两者相结合,进而能够在捕获化学分子全局特征方面,达到更好的效果。
3.线性层(Dense Layer)
将上述读出层的编码输入到线性层,线性层的结构为2层线性层,其中第一层的隐藏层维度为1024。通过第一层后,经过线性整流函数(ReLU),再经过第二层,将维度投射到1,以进行保留时间的预测。
三、保留时间预测
训练阶段:采用现有数据集,例如METLIN保留时间数据集,其中含有化学物质的结构信息及实验测定的保留时间,将数据集分为训练集、验证集和测试集,使用前文所述的图网络信息构建部分进行图网络信息的构建,然后采用SmoothL1损失函数,采用自适应时刻估计算法(Adam)算法对本发明提出的DeepGCN-RT模型进行训练。
保留时间预测阶段:获取待测化学物质的简化分子线性输入规范(SMILES),使用开源软件RDKit提取化学物质的描述符和分子结构信息,完成前文所述的图网络信息的构建,将构建的图网络信息(即节点特征、边特征和邻接矩阵)输入训练完成的DeepGCN-RT模型,模型输出保留时间预测结果。
四、实施例
1.模型训练
选择METLIN保留时间数据集进行模型训练,该数据集来源于METLIN实验室,含有80038个化学物质的结构信息及实验测定的保留时间。本发明将该数据集分为训练集,验证集和测试集,基于以上数据,使用前文所述的图网络信息构建部分,进行了图网络信息的构建。
模型的训练过程基于以上数据集,采用SmoothL1损失函数,采用自适应时刻估计算法(Adam)算法进行模型训练。模型的隐藏层维度为200,稠密层的维度为1024,dropout比率为0.1,批量大小为64。训练结果如图2所示,其中train_loss表示训练过程中训练集的损失,valid_MAE表示验证集的平均绝对误差,test_MAE表示测试集的平均绝对误差。
图4是本发明模型在MELIN保留时间数据集上的预测效果。图5是本发明模型在METLIN保留时间数据集上的预测误差。根据图4和图5可以看出,本发明模型的预测误差较小,预测的准确性较高。
2.本发明技术方案带来的有益效果
本发明开发的保留时间预测模型效果远好于文献已报道模型。
2.1)本发明的模型效果和现有技术的模型效果对比
将本发明的模型效果和现有技术的文献模型效果进行对比,如表1所示,本发明的模型的平均绝对误差(MAE)最低,中位数绝对误差(MedAE),平均绝对百分比误差(MAPE)均低于文献已报道模型。
表1.本发明的模型(DeepGCN-RT)和文献模型效果对比
Model MAE(s)↓ MedAE(s)↓ MAPE↓ R2↑ Reference
GCN 29.4 - 0.04 0.89 Kensert et al.,Anal.Chem.2021
DNNpwa 39.62 25.08 0.05 0.85 Ju et al.,Anal.Chem.2021
GNN-RT 39.87 25.24 0.05 0.85 Yang et al.,Anal.Chem.2021
DeepGNN-RT 26.46 12.39 0.03 0.89 -
其中,GCN,DNNpwa,GNN-RT的结果分别引自一下文献:
Kensert,A.;Bouwmeester,R.;Efthymiadis,K.,et al.,Graph convolutionalnetworks for improved prediction and interpretability of chromatographicretention data.Anal Chem.2021,93(47),15633-15641.
Ju,R.;Liu,X.;Zheng,F.,et al.,Deep Neural Network Pretrained byWeighted Autoencoders and Transfer Learning for Retention Time Prediction ofSmall Molecules.Anal Chem.2021,93(47),15651-15658.
Yang,Q.;Ji,H.;Lu,H.,et al.,Prediction of liquid chromatographicretention time with graph neural networks to assist in small moleculeidentification.Anal Chem.2021,93(4),2200-2206.
此外,本发明探究了残差连接和模型深度对于预测效果的影响,如表2所示。总体来说,同层数模型,加入残差连接(residual),效果提升明显;有残差连接情况下,随着模型深度的增加,模型的效果逐渐变好。
表2残差连接和模型深度对模型效果的影响
Figure BDA0003925112210000071
此外,不同readout效果如表3所示。其中DeepGCN-RT使用了基于注意力机制的readout。可以看到,平均readout好于求和readout,而本发明引入的基于注意力机制的readout效果最好。
表3不同的读出层的效果
Figure BDA0003925112210000081
2.2)迁移学习效果
由于不同的课题研究,通常会使用不同条件的液相条件,因此,上述建立在SMRT数据集上的模型,无法直接用于其它液相条件下的数据集。为了测试模型的泛化能力,从PredRet数据库(Stanstrup,J.;Neumann,S.;Vrhovsek,U.,PredRet:prediction ofretention time by direct mapping between multiple chromatographicsystems.Anal Chem.2015,87(18),9421-8.)收集了7个反相液相色谱数据集和2个亲水作用色谱数据集,使用SMRT训练得到的模型进行迁移学习,得到迁移学习模型DeepGCN-RT-TL,模型效果如表4所示:
表4迁移学习效果对比
Figure BDA0003925112210000082
可以发现,本发明的模型效果远好于文献报道模型。其中,DNNpwa-TL和GNN-RT-TL的结果分别引自以下文献:
Ju,R.;Liu,X.;Zheng,F.,et al.,Deep Neural Network Pretrained byWeighted Autoencoders and Transfer Learning for Retention Time Prediction ofSmall Molecules.Anal Chem.2021,93(47),15651-15658.
Yang,Q.;Ji,H.;Lu,H.,et al.,Prediction of liquid chromatographicretention time with graph neural networks to assist in small moleculeidentification.Anal Chem.2021,93(4),2200-2206.
2.3)模型应用于小分子结构鉴定
建立保留时间预测模型,最终是为了进行化合物的结构鉴定。因此,本发明从发MoNA数据库选取了RIKEN-PlaSMA数据集进行化合物结构鉴定。该数据集共434个小分子化合物,取334个化合物建立迁移学***均数目从50降低到了35;top-k准确率也有了显著的提升。
综上,本发明提供了一种基于深层图网络的预测保留时间效果的方法。本方法的效果好于所有文献已报道的已有模型。
本发明的上述方法虽然基于液相色谱进行案例分析,但本发明的应用方案不仅限于液相色谱,如气相色谱法也可以使用本研究的模型进行分析。
基于同一发明构思,本发明的另一个实施例提供一种基于深层图网络的预测液相色谱保留时间的装置,其包括:
图网络信息构建模块,用于获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
保留时间预测模块,用于将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
其中各模块的具体实施过程参见前文对本发明方法的描述。
基于同一发明构思,本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上公开的本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的普通技术人员可以理解,在不脱离本发明的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书的实施例所公开的内容,本发明的保护范围以权利要求书界定的范围为准。

Claims (10)

1.一种基于深层图网络的预测液相色谱保留时间的方法,其特征在于,包括以下步骤:
获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
2.根据权利要求1所述的方法,其特征在于,所述节点特征包括:原子类型,手性中心类型,手性,原子度,形式电荷,杂化方式,芳香性,氢供体或受体,是否为杂原子,是否在环中,节点的氢原子数量,自由基电子数,价电子数,Crippen LogP贡献率,Crippen摩尔折射贡献率,Gasteiger电荷,质量数,以及拓扑极表面积贡献;所述边特征包括:键类型、是否为共轭、是否是环的一部分、是否可旋转以及该化学键的立体结构信息;所述邻接矩阵根据分子化学键进行构建。
3.根据权利要求1所述的方法,其特征在于,所述深层图网络模型包括图网络层、读出层和线性层;所述图网络层将分子边信息引入信息传递过程,并引入残差连接,同时增加模型深度以提高预测效果。
4.根据权利要求3所述的方法,其特征在于,所述图网络层的处理过程包括:
将源节点u、目标节点v之间的边信息和源节点u的信息传递到目标节点v,目标节点v采用softmax函数进行聚合,得到的更新后的信息ml
将更新后的信息ml使用线性层进行处理,之后通过非线性激活函数σ,最后将更新后的分子信息和原分子信息
Figure FDA0003925112200000014
进行加和,即进行残差连接操作。
5.根据权利要求3所述的方法,其特征在于,所述读出层采用基于注意力机制的读出层;所述基于注意力机制的读出层包含超级虚拟节点,所述超级虚拟节点和分子中每个原子节点连接,所述超级虚拟节点的编码首先由求和得到,然后使用以下公式进行更新:
ei=concat(c,ni)*W+b
Figure FDA0003925112200000011
Figure FDA0003925112200000012
hk,ck=GRU(hk-1,ck-1)
其中,c为超级虚拟节点的编码,ni代表分子中每个原子节点的编码,ei为经过线性层后的权重,αi为使用softmax进行归一化的重要性代表程度的系数,其总和为一;
Figure FDA0003925112200000013
代表所有分子中的所有原子节点;GRU为门控循环单元,ck为第k次经过图注意力机制计算超级虚拟节点的编码,hk为第k次更新后的分子编码。
6.根据权利要求3所述的方法,其特征在于,所述线性层包含2层线性层,其中第一层的隐藏层维度为1024,通过第一层后,经过线性整流函数ReLU,再经过第二层,将维度投射到1,以进行保留时间的预测。
7.根据权利要求1所述的方法,其特征在于,所述深层图网络模型的训练过程包括:选择保留时间数据集,将其分为训练集、验证集和测试集,对其进行图网络信息的构建,然后采用SmoothL1损失函数,采用自适应时刻估计算法对所述深层图网络模型进行训练。
8.一种基于深层图网络的预测液相色谱保留时间的装置,其特征在于,包括:
图网络信息构建模块,用于获取待测化学物质的分子结构信息,并根据分子结构信息构建图网络信息,所述图网络信息包括节点特征、边特征和邻接矩阵;
保留时间预测模块,用于将所述图网络信息输入训练完成的用于液相色谱保留时间预测的深层图网络模型,利用所述深层图网络模型预测得到液相色谱保留时间。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
CN202211374166.0A 2022-11-03 2022-11-03 一种基于深层图网络的预测液相色谱保留时间的方法和装置 Active CN116106461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211374166.0A CN116106461B (zh) 2022-11-03 2022-11-03 一种基于深层图网络的预测液相色谱保留时间的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211374166.0A CN116106461B (zh) 2022-11-03 2022-11-03 一种基于深层图网络的预测液相色谱保留时间的方法和装置

Publications (2)

Publication Number Publication Date
CN116106461A true CN116106461A (zh) 2023-05-12
CN116106461B CN116106461B (zh) 2024-02-06

Family

ID=86258567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211374166.0A Active CN116106461B (zh) 2022-11-03 2022-11-03 一种基于深层图网络的预测液相色谱保留时间的方法和装置

Country Status (1)

Country Link
CN (1) CN116106461B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118243842A (zh) * 2024-05-28 2024-06-25 武汉智化科技有限公司 不同色谱条件下的液相色谱保留时间预测方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899510A (zh) * 2020-07-28 2020-11-06 南京工程学院 基于发散卷积和gat的智能交通***流量短期预测方法及***
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113241130A (zh) * 2021-06-08 2021-08-10 西南交通大学 一种基于图卷积网络的分子结构预测方法
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN114121178A (zh) * 2021-12-07 2022-03-01 中国计量科学研究院 一种基于图卷积网络的色谱保留指数预测方法及装置
CN114565187A (zh) * 2022-04-01 2022-05-31 吉林大学 一种基于图时空自编码网络的交通路网数据预测方法
CN114629674A (zh) * 2021-11-11 2022-06-14 北京计算机技术及应用研究所 一种基于注意力机制的工业控制网络安全风险评估方法
CN114818515A (zh) * 2022-06-24 2022-07-29 中国海洋大学 一种基于自注意力机制和图卷积网络的多维时序预测方法
CN115148302A (zh) * 2022-05-18 2022-10-04 上海天鹜科技有限公司 一种基于图神经网络与多任务学习的化合物性质预测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899510A (zh) * 2020-07-28 2020-11-06 南京工程学院 基于发散卷积和gat的智能交通***流量短期预测方法及***
CN113241128A (zh) * 2021-04-29 2021-08-10 天津大学 基于分子空间位置编码注意力神经网络模型的分子性质预测方法
CN113192559A (zh) * 2021-05-08 2021-07-30 中山大学 基于深层图卷积网络的蛋白质-蛋白质相互作用位点预测方法
CN113299354A (zh) * 2021-05-14 2021-08-24 中山大学 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
CN113241130A (zh) * 2021-06-08 2021-08-10 西南交通大学 一种基于图卷积网络的分子结构预测方法
CN114629674A (zh) * 2021-11-11 2022-06-14 北京计算机技术及应用研究所 一种基于注意力机制的工业控制网络安全风险评估方法
CN114121178A (zh) * 2021-12-07 2022-03-01 中国计量科学研究院 一种基于图卷积网络的色谱保留指数预测方法及装置
CN114565187A (zh) * 2022-04-01 2022-05-31 吉林大学 一种基于图时空自编码网络的交通路网数据预测方法
CN115148302A (zh) * 2022-05-18 2022-10-04 上海天鹜科技有限公司 一种基于图神经网络与多任务学习的化合物性质预测方法
CN114818515A (zh) * 2022-06-24 2022-07-29 中国海洋大学 一种基于自注意力机制和图卷积网络的多维时序预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118243842A (zh) * 2024-05-28 2024-06-25 武汉智化科技有限公司 不同色谱条件下的液相色谱保留时间预测方法

Also Published As

Publication number Publication date
CN116106461B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN112087420B (zh) 一种网络杀伤链检测方法、预测方法及***
JP2021524099A (ja) 異なるデータモダリティの統計モデルを統合するためのシステムおよび方法
CN110929080B (zh) 基于注意力和生成对抗网络的光学遥感图像检索方法
Li et al. Protein contact map prediction based on ResNet and DenseNet
CN112733997B (zh) 基于woa-lstm-mc的水文时间序列预测优化方法
CN113257357B (zh) 蛋白质残基接触图预测方法
CN116106461B (zh) 一种基于深层图网络的预测液相色谱保留时间的方法和装置
CN106776729B (zh) 一种大规模知识图谱路径查询预测器构造方法
CN112699941B (zh) 植物病害严重程度图像分类方法、装置、设备和存储介质
Liu et al. A geographical-temporal awareness hierarchical attention network for next point-of-interest recommendation
CN115274007A (zh) 一种用于发现和优化药物先导化合物的可泛化、可解释的深度图学习方法
Chen et al. LOGER: A learned optimizer towards generating efficient and robust query execution plans
Xu et al. Adaptive surrogate models for uncertainty quantification with partially observed information
CN110688150B (zh) 一种基于张量运算的二进制文件代码搜索检测方法及***
CN112270950A (zh) 一种基于网络增强和图正则的融合网络药物靶标关系预测方法
CN117497058A (zh) 基于图神经网络的抗体抗原中和作用预测方法及装置
CN116935964A (zh) 基于深度学习模型预测抗体翻译后修饰位点的方法和***
Craven et al. Learning to represent codons: A challenge problem for constructive induction
CN116208399A (zh) 一种基于元图的网络恶意行为检测方法及设备
Liu et al. TTFNeXt for real-time object detection
Chen et al. Nas-bench-zero: A large scale dataset for understanding zero-shot neural architecture search
Wang et al. GNN-Dom: an unsupervised method for protein domain partition via protein contact map
CN117976047B (zh) 基于深度学习的关键蛋白质预测方法
Wang et al. Lightweight land cover classification via semantic segmentation of remote sensing imagery and analysis of influencing factors
CN117351300B (zh) 一种目标检测模型的小样本训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant