CN114613450A - 药物分子的性质预测方法、装置、存储介质及计算机设备 - Google Patents

药物分子的性质预测方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114613450A
CN114613450A CN202210231663.9A CN202210231663A CN114613450A CN 114613450 A CN114613450 A CN 114613450A CN 202210231663 A CN202210231663 A CN 202210231663A CN 114613450 A CN114613450 A CN 114613450A
Authority
CN
China
Prior art keywords
drug molecule
modal
drug
feature
molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210231663.9A
Other languages
English (en)
Inventor
王俊
高鹏
孙宁
谢国彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210231663.9A priority Critical patent/CN114613450A/zh
Priority to PCT/CN2022/089687 priority patent/WO2023168810A1/zh
Publication of CN114613450A publication Critical patent/CN114613450A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Medical Informatics (AREA)
  • Medicinal Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种药物分子的性质预测方法、装置、存储介质及计算机设备。其中方法包括:获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹;通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。上述方法可以提高药物分子性质预测的准确性。

Description

药物分子的性质预测方法、装置、存储介质及计算机设备
技术领域
本发明涉及人工智能及数字医疗技术领域,尤其是涉及一种药物分子的性质预测方法、装置、存储介质及计算机设备。
背景技术
药物发现是一种确定具有潜在治疗作用的新候选化合物的过程,其中,对药物分子的各类性质的预测,是药物发现过程中必不可少的一步。不良的药代动力学性质(吸收、分布、代谢和***,ADME)和毒性(T)是导致药物开发失败的主要原因之一,因此,在药物研究的早期阶段,对候选药物分子的ADMET性质进行评估是至关重要的。
以往,都是通过实验验证药物分子的性质,但是,这种验证方式耗时长、耗费大,而且特难以做到全面、准确的预测。目前,较为常用的是基于机器学习的方式来学习药物分子的数据分布表征,再使其应用在未知数据上,实现药物分子的性质预测。但是,现有的药物预测模型难以全面的表达药物分子的特征,因此预测的准确性较低。
发明内容
有鉴于此,本申请提供了一种药物分子的性质预测方法、装置、存储介质及计算机设备,主要目的在于解决药物分子性质预测不准确的技术问题。
根据本发明的第一个方面,提供了一种药物分子的性质预测方法,该方法包括:
获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
根据本发明的第二个方面,提供了一种药物分子的性质预测装置,该装置包括:
模态转换模块,用于获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
特征提取模块,用于通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
特征融合模块,用于将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
性质预测模块,用于将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
根据本发明的第三个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述药物分子的性质预测方法。
根据本发明的第四个方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述药物分子的性质预测方法。
本发明提供的一种药物分子的性质预测方法、装置、存储介质及计算机设备,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种药物分子的性质预测方法的流程示意图;
图2示出了本发明实施例提供的一种药物分子的性质预测方法的操作流程示意图;
图3示出了本发明实施例提供的一种药物分子的性质预测装置的结构示意图;
图4示出了本发明实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在一个实施例中,如图1和图2所示,提供了一种药物分子的性质预测方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
101、获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构。
其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种。在本实施例中,药物分子序列指的是通过字符串表示的药物分子结构,如SMILES表达式等,类似于语言序列;药物分子图指的是通过数据结构图表示的药物分子结构;药物分子图像指的是通过平面图片表示的药物分子结构;药物分子指纹指的是通过一系列比特串表示的药物分子结构。
具体的,计算机设备可以通过数据接口或网络等途径获取到待预测的药物分子,然后通过与每个模态的药物分子结构相对应的模态转换方式,对药物分子的分子结构进行多轮次的模态转换处理,得到多模态的药物分子结构。
102、通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量。
其中,针对每个模态的药物分子结构,可以采用与该模态对应的特征提取方式,对每个模态的药物分子结构的进行特征提取,从而得到多模态的药物分子特征向量。在本实施例中,经过特征提取后,可以得到药物分子序列的特征向量、药物分子图的特征向量、药物分子图像的特征向量和药物分子指纹的特征向量中的至少两种特征向量。
103、将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量。
具体的,在得到多模态的药物分子特征向量之后,可以先将不同模态的药物分子特征向量先转化为高维特征表达,再于模型的中间层进行融合。其中,中间融合可以利用神经网络将多模态的药物分子特征向量转化成高维特征表达(例如768维),然后再获取不同模态数据在高维空间上的共性,从而对多个模态的高维特征向量进行融合操作,以得到更加完备、充分的药物分子的融合特征向量。
104、将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
具体的,在得到药物分子的融合特征向量之后,可以将药物分子的融合特征向量输入到预先训练好的药物分子性质预测模型中,以得到药物分子的性质预测结果。其中,药物分子性质预测模型可以通过神经网络等机器学习模型训练得到,本实施例在此不做具体限定。
本实施例提供的药物分子的性质预测方法,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
在一个实施例中,步骤101中对药物分子的分子结构进行模态转换的方法可以通过以下方法实现:首先,按照预定的分子结构转换规则,将药物分子的分子结构转换为字符串格式,得到药物分子序列,例如,可以按照SMILES的转换规则将药物分子的分子结构转换为SMILES表达式。其次,将药物分子的分子结构的原子转换为药物分子图的节点,将药物分子的分子结构的化学键转换为药物分子图的边,得到药物分子图,其中,在药物分子图中,还可以添加原子或化学键的多种属性信息或特征信息,以丰富药物药物分子图的特征信息。进一步的,可以通过拍照、截图、图像转换等方式将药物分子的分子结构转换为二维图像,得到药物分子图像,图像转换的方式较为简单,这里不做过多赘述。最后,可以提取出药物分子的分子结构中的结构特征,并将结构特征编码为比特向量,得到药物分子指纹,其中,药物分子指纹是一种分子的抽象表征,它可以将药物分子转化(编码)为一系列比特串(即比特向量),然后可以很容易地在药物分子之间进行比较,较为常用的方法是将提取出药物分子的结构特征,然后哈希(Hashing)生成比特向量,并以此作为药物分子指纹。可以理解的是,模态转换的方式较为多样,因此,转换的方式可以不限于以上几种,可以根据实际情况进行选择。
在一个实施例中,药物分子指纹具体可以为扩展连通性指纹,在这种情形下,药物分子指纹的提取方法可以包括以下步骤:首先为药物分子的分子结构中的每个原子标记一个标识符,并将每个原子的标识符的哈希值存储在预先建立的标识符集合中,然后为每个原子创建一个键列表,并在每个原子的键列表中存储原子的相邻原子的键级和标识符,进而将每个原子的键列表的哈希值作为原子更新后的标识符,并将每个原子更新后的标识符存储在标识符集合中,最后对标识符集合中的所有标识符进行提取,得到药物分子指纹。
在上述实施例中,扩展连通性指纹是一种环形指纹(Circular fingerprint),其定义需要设定半径n(即迭代次数),然后计算每个原子识别符(identifier),该识别符类似Morgan指纹中的连通性,最终由半径为n的环境决定。其中,扩展连通性指纹的算法如下:首先创建集合S储存所有原子的识别符,然后使用32位的整数标记每个原子,比如可以使用Morgan算法或者CANGEN算法,然后将他们哈希化后加入到S中,进一步的,对于每个原子,创建一个“键列表”储存该原子周边原子的信息,该列表可以先根据键级(如单键、双键、三建等)排序,再根据周边原子识别符大小排序,然后用如下信息填充上述列表:内容为[n,identifier,bo1,aid1,bo2,aid2,…],其中,n为迭代次数,开始为0,bo1为第1根键的键级,aid1是第1根键所连原子的识别符,后面的以此类推,然后计算特征列表的哈希值,作为该原子新的识别符,如果新算出的识别符在结构上与S中的不重复,则加入到S中,如此不断迭代直至循环结束。在本实施例中,药物分子指纹可以作为其他三种模态的药物分子结构的良好补充,更加充分地挖掘和让各个模态之间优势互补,从而更加有效且精准地实现小分子药物性质的预测。
在一个实施例中,步骤102中对各模态的药物分子结构进行特征提取的方法可以通过以下方法实现:通过多模态特征提取模型中的语言模型,对药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;通过多模态特征提取模型中的图神经网络,对药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;通过多模态特征提取模型中的卷积神经网络,对药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;通过多模态特征提取模型中的深度神经网络,对药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
在上述实施例中,语言模型能够提取出药物分子序列中隐藏的结构信息和序列间的关联信息,通过将提取出信息拼接在一起再经过一个全连接层后进行降维,即可得到药物分子序列的低维稠密特征向量表达。图神经网络能够提取出药物分子图的原子节点的特征和原子之间的连边化学键信息,从而抽取出整个分子化合物的分子级别的特征。卷积神经网络能够提取出药物分子图像中不同层级的图像特征,并能够逐层递进,并提取出整个药物分子图像的全部图像特征。深度神经网能够提取出药物分子指纹中深层次的特征,该特征可以作为其他三种模态特征的良好补充,从而实现各模态特征之间的优势互补,最终有助于提升药物分子性质预测的准确性。
在一个实施例中,步骤103中对各模态的药物分子特征向量进行特征融合的方法可以通过以下方法实现:首先将多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量,然后将多模态的高维特征向量输入到预训练的特征增强模型中,得到多模态的高维特征向量的注意力系数,最后根据多模态的高维特征向量的注意力系数,对多模态的高维特征向量进行加权求和,得到药物分子的融合特征向量。
在上述实施例中,在得到多种不同模态的药物分子特征向量之后,可以将不同的模态的特征向量通过常规的操作进行整合,例如通过拼接和加权求和的方式进行整合。但是,常规的整合操作会使得参数之间没有任何联系,因此,本实施例通过网络层自动对特征向量的融合操作进行自适应操作,并通过预训练的特征增强模型来确定各模态的贡献程度。在本实施例中,可以使用注意力机制得到各模态的特征向量的注意力系数,并以此实现多模态信息的融合。具体的,可以将各模态的高维特征向量Fi输入到训练好的注意力网络中,且模态i所占的注意力权重为βi,通过加权累加,即可以得到最后用于药物分子性质预测的融合总特征Fall,其计算的表达式为:
Figure BDA0003538575760000071
βi=softmax(Pi)
Figure BDA0003538575760000072
其中:Pi为隐藏单元状态,
Figure BDA0003538575760000073
Figure BDA0003538575760000074
分别是权重和偏置,βi是经归一化后的权重向量。通过这种方式,可以有效的提成融合特征向量的特征表达准确度,从而提升药物分子性质预测的准确性。
在一个实施例中,多模态特征提取模型和药物分子性质预测模型可以通过以下方法训练得到:
201、获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构。
其中,对药物分子样本的分子结构进行模态转换的方式如上文所述,这里不再赘述。在本实施例中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹,每个药物分子样本均包含一个预定性质的分类标签,即如果药物分子性质预测模型需要预测药物分子的毒性,则预定性质就是毒性,分类标签则为有毒和无毒两种。
202、根据多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络。
其中,语言模型用于提取药物分子序列的特征,图神经网络用于提取药物分子图的特征,卷积神经网络用于提取药物分子图像的特征,深度神经网络用于提取药物分子指纹的特征,注意力网络用于融合各个模态的高维度特征,神经网络用于对融合后的多模态特征进行分类,即对药物分子的性质进行预测。
203、将多个药物分子样本的多模态的药物分子结构分别输入到语言模型、图神经网络、卷积神经网络和深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量。
204、将每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量。
205、以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到多模态特征提取模型和药物分子性质预测模型。
在一个实施例中,上述模型训练过程还可以包括以下步骤:构建一个注意力网络,然后将每个药物分子样本的多模态的高维特征向量输入到注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数,进而根据每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量,最后以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对注意力网络进行迭代训练,得到特征增强模型。
在上述实施例中,多模态特征提取模型和药物分子性质预测模型结合了语言模型、图神经网络、卷积神经网络、深度神经网络、注意力网络和神经网络等多种模型的优势,可以准确的提取出药物分子各模态的特征信息,并可以对各模态的特征向量进行准确的融合和预测,从而有效的提升了药物分子性质预测的准确性和泛化性,提高了药物研发的速度和成功率,降低了药物分子性质预测的成本。
进一步的,作为图1、图2所示方法的具体实现,本实施例提供了一种药物分子的性质预测装置,如图3所示,该装置包括:模态转换模块31、特征提取模块32、特征融合模块33和性质预测模块34,其中:
模态转换模块31,可用于获取待预测的药物分子,并对药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
特征提取模块32,可用于通过预训练的多模态特征提取模型,对多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
特征融合模块33,可用于将多模态的药物分子特征向量转换为多模态的高维特征向量,并对多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
性质预测模块34,可用于将药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
在具体的应用场景中,模态转换模块31,具体可用于按照预定的分子结构转换规则,将药物分子的分子结构转换为字符串格式,得到药物分子序列;将药物分子的分子结构的原子转换为药物分子图的节点,将药物分子的分子结构的化学键转换为药物分子图的边,得到药物分子图;将药物分子的分子结构转换为二维图像,得到药物分子图像;提取出药物分子的分子结构中的结构特征,并将结构特征编码为比特向量,得到药物分子指纹。
在具体的应用场景中,药物分子指纹为扩展连通性指纹;模态转换模块31,具体还可用于为药物分子的分子结构中的每个原子标记一个标识符,并将每个原子的标识符的哈希值存储在预先建立的标识符集合中;为每个原子创建一个键列表,并在每个原子的键列表中存储原子的相邻原子的键级和标识符;将每个原子的键列表的哈希值作为原子更新后的标识符,并将每个原子更新后的标识符存储在标识符集合中;对标识符集合中的所有标识符进行提取,得到药物分子指纹。
在具体的应用场景中,特征提取模块32,具体可用于通过多模态特征提取模型中的语言模型,对药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;通过多模态特征提取模型中的图神经网络,对药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;通过多模态特征提取模型中的卷积神经网络,对药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;通过多模态特征提取模型中的深度神经网络,对药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
在具体的应用场景中,特征融合模块33,具体可用于将多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;将多模态的高维特征向量输入到预训练的特征增强模型中,得到多模态的高维特征向量的注意力系数;根据多模态的高维特征向量的注意力系数,对多模态的高维特征向量进行加权求和,得到药物分子的融合特征向量。
在具体的应用场景中,本装置还包括模型训练模块35,模型训练模块35具体可用于获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个药物分子样本包含一个预定性质的分类标签;根据多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;将多个药物分子样本的多模态的药物分子结构分别输入到语言模型、图神经网络、卷积神经网络和深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量;将每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到多模态特征提取模型和药物分子性质预测模型。
在具体的应用场景中,模型训练模块35具体还可用于构建一个注意力网络;将每个药物分子样本的多模态的高维特征向量输入到注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;根据每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;以每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对注意力网络进行迭代训练,得到特征增强模型。
需要说明的是,本实施例提供的一种药物分子的性质预测装置所涉及各功能单元的其它相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的药物分子的性质预测方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3所示的药物分子的性质预测装置实施例,为了实现上述目的,如图4所示,本实施例还提供了一种药物分子的性质预测的计算机设备,具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序和操作***;处理器,用于执行计算机程序以实现上述如图1、图2所示的方法。
可选的,该计算机设备还可以包括内存储器、通信接口、网络接口、摄像头、射频(Radio Frequency,RF)电路,传感器、音频电路、WI-FI模块、显示屏(Display)、输入装置比如键盘(Keyboard)等,可选的,通信接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种操作动作的识别的计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作***、网络通信模块。操作***是管理上述计算机设备硬件和待识别软件资源的程序,支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理计算机设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,首先将药物分子的分子结构转换为多模态的药物分子结构,然后通过预训练的多模态特征提取模型对药物分子的各个模态的药物分子结构进行特征提取,进而对各个模态的药物分子特征向量进行特征融合,最后基于药物分子的融合特征向量得到药物分子的性质预测结果。与现有技术相比,上述方法可以获得更全面的药物分子特征表示,从而可以更准确、更有效地预测出药物分子的性质,有效的加快了药物研发的速度和成功率,并降低了药物分子性质预测的成本。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种药物分子的性质预测方法,其特征在于,所述方法包括:
获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,包括:
按照预定的分子结构转换规则,将所述药物分子的分子结构转换为字符串格式,得到所述药物分子序列;
将所述药物分子的分子结构的原子转换为药物分子图的节点,将所述药物分子的分子结构的化学键转换为药物分子图的边,得到所述药物分子图;
将所述药物分子的分子结构转换为二维图像,得到所述药物分子图像;
提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹。
3.根据权利要求2所述的方法,其特征在于,所述药物分子指纹为扩展连通性指纹;则所述提取出所述药物分子的分子结构中的结构特征,并将所述结构特征编码为比特向量,得到所述药物分子指纹,包括:
为所述药物分子的分子结构中的每个原子标记一个标识符,并将每个所述原子的标识符的哈希值存储在预先建立的标识符集合中;
为每个所述原子创建一个键列表,并在每个所述原子的键列表中存储所述原子的相邻原子的键级和标识符;
将每个所述原子的键列表的哈希值作为所述原子更新后的标识符,并将每个所述原子更新后的标识符存储在所述标识符集合中;
对所述标识符集合中的所有标识符进行提取,得到所述药物分子指纹。
4.根据权利要求1所述的方法,其特征在于,所述通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量,包括:
通过所述多模态特征提取模型中的语言模型,对所述药物分子序列中的语言结构特征进行提取,得到药物分子序列的特征向量;
通过所述多模态特征提取模型中的图神经网络,对所述药物分子图中的原子特征和化学键特征进行提取,得到药物分子图的特征向量;
通过多模态特征提取模型中的卷积神经网络,对所述药物分子图像中的图像特征进行提取,得到药物分子图像的特征向量;
通过多模态特征提取模型中的深度神经网络,对所述药物分子指纹中的识别符特征进行提取,得到药物分子指纹的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量,包括:
将所述多模态的药物分子特征向量转换为相同维度的多模态的高维特征向量;
将所述多模态的高维特征向量输入到预训练的特征增强模型中,得到所述多模态的高维特征向量的注意力系数;
根据所述多模态的高维特征向量的注意力系数,对所述多模态的高维特征向量进行加权求和,得到所述药物分子的融合特征向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述多模态特征提取模型和所述药物分子性质预测模型的训练方法,包括:
获取多个药物分子样本,并对每个药物分子样本的分子结构进行模态转换,得到每个药物分子样本的多模态的药物分子结构,其中,每个所述药物分子样本包含一个预定性质的分类标签;
根据所述多个药物分子样本的多模态的药物分子结构,分别构建语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络;
将所述多个药物分子样本的多模态的药物分子结构分别输入到所述语言模型、所述图神经网络、所述卷积神经网络和所述深度神经网络中,得到每个药物分子样本的多模态的药物分子特征向量;
将所述每个药物分子样本的多模态的药物分子特征向量转换为多模态的高维特征向量,并对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量;
以所述每个药物分子样本的融合特征向量为输入,以所述每个药物分子样本的分类标签为输出,对所述语言模型、图神经网络、卷积神经网络、深度神经网络和神经网络进行同步迭代训练,得到所述多模态特征提取模型和药物分子性质预测模型。
7.根据权利要求6所述的方法,其特征在于,所述对每个所述药物分子样本的多模态的高维特征向量进行特征融合,得到每个药物分子样本的融合特征向量,包括:
构建一个注意力网络;
将每个药物分子样本的多模态的高维特征向量输入到所述注意力网络中,得到每个药物分子样本的多模态的高维特征向量的注意力系数;
根据所述每个药物分子样本的多模态的高维特征向量的注意力系数,对每个药物分子样本的多模态的高维特征向量进行加权求和,得到每个药物分子样本的融合特征向量;
所述方法还包括:
以所述每个药物分子样本的融合特征向量为输入,以每个药物分子样本的分类标签为输出,对所述注意力网络进行迭代训练,得到特征增强模型。
8.一种药物分子的性质预测装置,其特征在于,所述装置包括:
模态转换模块,用于获取待预测的药物分子,并对所述药物分子的分子结构进行模态转换,得到多模态的药物分子结构,其中,所述多模态的药物分子结构包括药物分子序列、药物分子图、药物分子图像和药物分子指纹中的至少两种;
特征提取模块,用于通过预训练的多模态特征提取模型,对所述多模态的药物分子结构进行特征提取,得到多模态的药物分子特征向量;
特征融合模块,用于将所述多模态的药物分子特征向量转换为多模态的高维特征向量,并对所述多模态的高维特征向量进行特征融合,得到药物分子的融合特征向量;
性质预测模块,用于将所述药物分子的融合特征向量输入到预训练的药物分子性质预测模型中,得到药物分子的性质预测结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202210231663.9A 2022-03-09 2022-03-09 药物分子的性质预测方法、装置、存储介质及计算机设备 Pending CN114613450A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210231663.9A CN114613450A (zh) 2022-03-09 2022-03-09 药物分子的性质预测方法、装置、存储介质及计算机设备
PCT/CN2022/089687 WO2023168810A1 (zh) 2022-03-09 2022-04-27 药物分子的性质预测方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210231663.9A CN114613450A (zh) 2022-03-09 2022-03-09 药物分子的性质预测方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN114613450A true CN114613450A (zh) 2022-06-10

Family

ID=81861920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210231663.9A Pending CN114613450A (zh) 2022-03-09 2022-03-09 药物分子的性质预测方法、装置、存储介质及计算机设备

Country Status (2)

Country Link
CN (1) CN114613450A (zh)
WO (1) WO2023168810A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497576A (zh) * 2022-11-17 2022-12-20 苏州创腾软件有限公司 基于图神经网络的聚合物性质预测方法和***
CN116825234A (zh) * 2023-08-30 2023-09-29 江西农业大学 一种多模态信息融合的药物分子活性预测方法及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7490576B2 (ja) * 2018-05-30 2024-05-27 クアンタム-エスアイ インコーポレイテッド 訓練された統計モデルを使用するマルチモーダル予測のための方法および装置
WO2020243440A1 (en) * 2019-05-31 2020-12-03 D. E. Shaw Research, Llc. Molecular graph generation from structural features using an artificial neural network
CN111755078B (zh) * 2020-07-30 2022-09-23 腾讯科技(深圳)有限公司 药物分子属性确定方法、装置及存储介质
CN115240781A (zh) * 2021-04-23 2022-10-25 中国科学院深圳先进技术研究院 药物分子特征属性的预测方法及预测装置
CN114530211A (zh) * 2022-01-10 2022-05-24 山东师范大学 一种药物分子性质预测分类方法及***

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115497576A (zh) * 2022-11-17 2022-12-20 苏州创腾软件有限公司 基于图神经网络的聚合物性质预测方法和***
CN116825234A (zh) * 2023-08-30 2023-09-29 江西农业大学 一种多模态信息融合的药物分子活性预测方法及电子设备
CN116825234B (zh) * 2023-08-30 2023-11-07 江西农业大学 一种多模态信息融合的药物分子活性预测方法及电子设备

Also Published As

Publication number Publication date
WO2023168810A1 (zh) 2023-09-14

Similar Documents

Publication Publication Date Title
CN113707235B (zh) 基于自监督学习的药物小分子性质预测方法、装置及设备
Ge et al. Low-resolution face recognition in the wild via selective knowledge distillation
US9990558B2 (en) Generating image features based on robust feature-learning
CN106777318B (zh) 基于协同训练的矩阵分解跨模态哈希检索方法
CN113707236B (zh) 基于图神经网络的药物小分子性质预测方法、装置及设备
CN111382555B (zh) 数据处理方法、介质、装置和计算设备
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
CN108304376B (zh) 文本向量的确定方法、装置、存储介质及电子装置
CN115104105A (zh) 用于图到序列模型方法的对抗性自动编码器架构
CN113128622B (zh) 基于语义-标签多粒度注意力的多标签分类方法及***
CN112446888A (zh) 图像分割模型的处理方法和处理装置
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
CN114494809A (zh) 特征提取模型优化方法、装置及电子设备
CN117726884A (zh) 对象类别识别模型的训练方法、对象类别识别方法及装置
CN117349494A (zh) 空间图卷积神经网络的图分类方法、***、介质及设备
CN115730143A (zh) 基于任务对齐元学习和增广图的推荐***、方法、终端及介质
CN117010480A (zh) 模型训练方法、装置、设备、存储介质及程序产品
CN111259176B (zh) 融合有监督信息的基于矩阵分解的跨模态哈希检索方法
CN114528491A (zh) 信息处理方法、装置、计算机设备和存储介质
CN114417982A (zh) 一种模型训练方法、终端设备及计算机可读存储介质
CN115512693A (zh) 音频识别方法、声学模型训练方法、装置和存储介质
CN113239237A (zh) 跨媒体大数据搜索方法及装置
Zhang et al. ProLFA: Representative prototype selection for local feature aggregation
Ahmad et al. Toward cross‐domain object detection in artwork images using improved YoloV5 and XGBoosting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination