CN116978481A - 分子属性预测方法、装置、电子设备及存储介质 - Google Patents

分子属性预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116978481A
CN116978481A CN202310296071.XA CN202310296071A CN116978481A CN 116978481 A CN116978481 A CN 116978481A CN 202310296071 A CN202310296071 A CN 202310296071A CN 116978481 A CN116978481 A CN 116978481A
Authority
CN
China
Prior art keywords
molecular
dimensional
dimensional molecular
predicted
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310296071.XA
Other languages
English (en)
Inventor
张昊
沈雷
张映艺
张睿欣
丁守鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202310296071.XA priority Critical patent/CN116978481A/zh
Publication of CN116978481A publication Critical patent/CN116978481A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种分子属性预测方法、装置、电子设备及存储介质。方法包括:获取待预测分子的二维分子图;利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征;利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果;其中,二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。通过上述的分子属性预测方法,可以提高对待预测分子的属性进行预测的效率。

Description

分子属性预测方法、装置、电子设备及存储介质
技术领域
本申请涉及机器学习技术领域,更具体地,涉及一种分子属性预测方法、装置、电子设备及存储介质。
背景技术
在化学领域,很多情况均需要基于分子属性(如毒性、能量大小、密度等),选取相关的物质来进行相关的研究或应用。例如,在电池材料或者药物材料研发过程中,有一个重要的环节是通过分子的相关的属性选择合适的分子。
由于分子的属性和3D结构关联性强,目前,化学家们常用的预测分子的化学性质的方法是:采用密度泛函理论的量子力学方法来分析预测分子的性质。然而,这种预测分子的化学性质的方式对计算能力的要求很高,且每次进行研究分析的计算量有限,计算时间较长,因此,预测分子的相关属性的效率较低。
发明内容
有鉴于此,本申请实施例提出了一种分子属性方法、装置、电子设备及存储介质,可以有效提升分子属性预测的效率。
第一方面,本申请实施例提供了一种分子属性预测方法,所述方法包括:获取待预测分子的二维分子图,所述二维分子图中包含所述待预测分子中的原子的信息、所述待预测分子中原子间的连接关系以及所述待预测分子中用于连接两个原子的化学键的信息;利用二维分子属性预测模型对所述待预测分子的二维分子图进行特征提取,得到所述待预测分子的分子特征;利用所述二维分子属性预测模型对所述待预测分子的分子特征进行分子属性预测,得到所述待预测分子的属性预测结果;其中,所述二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,所述训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
第二方面,本申请实施例提供了一种分子属性预测装置,所述装置包括:图结构获取模块、特征提取模块以及属性预测模块;图结构获取模块,用于获取待预测分子的二维分子图,所述二维分子图中包含所述待预测分子中的原子的信息、所述待预测分子中原子间的连接关系以及所述待预测分子中用于连接两个原子的化学键的信息;特征提取模块,用于利用二维分子属性预测模型对所述待预测分子的二维分子图进行特征提取,得到所述待预测分子的分子特征;属性预测模块,用于利用所述二维分子属性预测模型对所述待预测分子的分子特征进行分子属性预测,得到所述待预测分子的属性预测结果;其中,所述二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,所述训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
在一种可实施方式中,所述二维分子属性预测模型包括具有N个第一编码层的第一编码器,所述N为大于1的自然数,所述特征提取模块,还用于将所述二维分子图的特征表示输入所述第一编码器中;通过所述第一编码器中每个第一编码层,输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征,其中,第1个第一编码层的输入为所述待预测分子中的原子的信息对应的特征表示,第i个第一编码层的输入为前一个第一编码层输出的原子特征以及所述待预测分子的虚拟分子特征,其中,i为大于1且小于或等于N的整数;将第N个第一编码层输出的所述待预测分子的虚拟分子特征确定为待预测分子的分子特征。
在一种可实施方式中,所述特征提取模块,还用于通过所述第一编码器中每个第一编码层,并基于注意力机制输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征。
在一种可实施方式中,所述特征提取模块包括矩阵获取子模块、矩阵映射子模块、权重获取子模块以及特征获得子模块;矩阵获取子模块,用于基于所述化学键的信息的特征表示获取注意力偏置矩阵,所述注意力偏置项矩阵用于表征所述二维分子图中各原子间的相对位置关系;矩阵映射子模块,用于通过所述第一编码器中每个第一编码层,将第一编码层的输入映射为查询矩阵、键矩阵以及值矩阵;权重获取子模块,用于基于所述查询矩阵、所述键矩阵以及所述注意力偏置项矩阵获取注意力权重;特征获得子模块,用于基于所述注意力权重和所述值矩阵,输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征。
在一种可实施方式中,初始的二维分子属性预测模型的第一编码器具有N个第一编码层,所述三维分子属性预测模型的第二编码器与所述初始的二维分子属性预测模型的第一编码器相同且包括N个第二编码层,所述初始的二维分子属性预测模型的每个所述第一编码层用于输出所述二维分子图样本中的部分原子特征和虚拟分子特征,所述三维分子属性预测模型的每个所述第二编码层用于输出所述三维分子图样本中的部分原子特征和虚拟分子特征;所述装置还包括二维模型训练模块,所述二维模型训练模块,用于基于同一位置的所述第一编码层和所述第二编码层各自输出的所述虚拟分子特征,得到模型损失,并基于所述模型损失调整所述初始的二维分子属性预测模型的模型参数,得到训练后的二维分子属性预测模型。
在一种可实施方式中,所述二维模型训练模块,还用于基于同一位置的所述第一编码层和所述第二编码层各自输出的原子特征以及虚拟分子特征,得到模型损失。
在一种可实施方式中,所述二维模型训练模块包括第一损失获得子模块、权重计算子模块以及第二损失获得子模块;第一损失获得子模块,用于基于同一位置的所述第一编码层和所述第二编码层各自输出的虚拟分子特征得到分子特征损失,基于同一位置的所述第一编码层和所述第二编码层各自输出的原子特征得到原子特征损失;权重计算子模块,用于基于所述二维分子图样本中原子的数量确定所述分子特征损失的分子损失权重和所述原子特征损失的原子损失权重,其中,所述分子损失权重大于所述原子损失权重;第二损失获得子模块,用于根据分子损失权重和所述原子损失权重对分子特征损失和原子特征损失进行加权求和得到模型损失。
在一种可实施方式中,所述二维模型训练模块,还包括第三损失获得子模块,用于获取基于所述二维分子图样本训练所述初始二维分子属性预测模型的过程中的第一模型损失;所述第二损失获得子模块,还用于基于所述第一模型损失、同一位置的所述第一编码层和所述第二编码层各自输出的所述虚拟分子特征,得到模型损失。
在一种可实施方式中,所述装置还包括三维模型训练模块,所述三维模型训练模块,用于利用多个具有属性标签的三维分子图样本训练三维分子属性预测模型,得到所述三维分子属性预测模型在训练过程中的第二损失值,所述三维分子图样本中包含所述三维分子图样本的原子的信息、所述三维分子图样本中原子间的连接关系以及所述三维分子图样本中原子间的位置关系;以及利用所述第二损失值调整所述三维分子属性预测模型的模型参数,得到训练后的三维分子属性预测模型。
在一种可实施方式中,所述三维分子属性预测模型包括具有N个第二编码层的第二编码器,所述N为大于1的自然数,所述三维模型训练模块包括:样本特征输入子模块、样本矩阵获得子模块、样本特征输出子模块以及三维样本损失获得子模块,样本特征输入子模块,用于将所述三维分子图样本的特征表示输入所述第二编码器中;样本矩阵获得子模块,用于基于所述位置关系的信息的特征表示获取三维分子样本偏置矩阵,所述三维分子样本偏置矩阵用于表征所述三维分子图中各原子间的相对位置关系;样本特征输出子模块,用于通过所述第二编码器中每个第二编码层,将第二编码层的输入映射为三维样本查询矩阵、三维样本键矩阵以及三维样本值矩阵;基于所述三维样本查询矩阵、所述三维样本键矩阵以及所述三维分子样本偏置矩阵获取三维样本注意力权重;基于所述三维样本注意力权重和所述三维样本值矩阵,输出所述三维分子图样本中的部分原子的特征以及所述三维分子图样本的虚拟分子特征;三维样本损失获得子模块,用于基于第N个第二编码层输出的原子的特征和虚拟分子特征得到三维分子图样本结构对应的分子属性预测结果,基于该分子属性预测结果和所述属性标签获得所述三维分子属性预测模型在训练过程中的第二损失值。
第三方面,本申请实施例提供了一种电子设备,包括处理器以及存储器;一个或多个程序被存储在所述存储器中并被配置为由所述处理器执行以实现上述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序代码,其中,在所述程序代码被处理器运行时执行上述的方法。
第五方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质获取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
本申请实施例提供的一种分子属性预测方法、装置、电子设备及存储介质,通过在进行分子属性预测时,预测过程中所采用的二维分子属性预测模型是基于训练后的三维分子属性预测模型对初始二维分子属性预测模型进行蒸馏训练得到,由于蒸馏训练阶段三维分子属性预测模型可以将它学到的知识迁移给学习能力相对弱的二维分子属性预测模型,以此来增强二维分子属性预测模型的泛化能力,因此,通过采用蒸馏训练得到的二维属性预测模型进行分子属性预测时可以有效提升分子属性预测结果的准确性,此外,通过采用利用二维分子属性预测模型进行分子属性预测,还可以避免将分子由二维分子图转化为三维分子图时造成的转化过程复杂,且需要占用大量的时长的问题,因此,通过采用上述方法还可以有效提升分子属性预测的效率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种分子属性预测方法的应用场景图;
图2示出了本申请实施例提出的一种分子属性预测方法的流程示意图;
图3示出了本申请实施例提出的一种分子属性预测方法的另一流程示意图;
图4示出了图3中步骤S230的流程示意图;
图5示出了本申请实施例提出的一种分子属性预测方法的又一流程示意图;
图6示出了分子C8N4O2H7的二维分子图结构和三维分子图结构;
图7示出了图5中步骤S320的流程示意图;
图8示出了本申请实施例提出的一种分子属性预测模型的结构示意图;
图9示出了本申请实施例提出的一种分子属性预测方法的又一流程框图;
图10示出了本申请实施例提出的一种分子属性预测方法的再一流程示意图;
图11示出了本申请实施例提供的一种分子属性预测装置的连接框图;
图12示出了用于执行本申请实施例的方法的电子设备的结构框图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本申请的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
需要说明的是:在本文中提及的“多个”是指两个或两个以上。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,并发挥越来越重要的价值。
人工智能(ArtificialIntelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。以人工智能应用在机器学习上为例进行说明:
其中,机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。本申请的方案主要是利用机器学习对分子的属性进行预测。
在进行具体说明之前,对本申请涉及的术语进行如下解释:
分子的属性:其中,分子是由组成的原子按照一定的键合顺序和空间排列而结合在一起的整体,这种键合顺序和空间排列关系称为分子结构。分子的属性可以是分子的转动常数、偶极矩、各向同性极化率、HOMO能量、LUMO能量、能系带、电子空间范围、内能、热容量、毒性以及零点振动能等中的一种或多种。
二维分子图:二维分子图是指分子的平面图,分子的平面图中,连接两个原子的连线用于表示原子之间的化学键。
三维分子图:二维分子图是指分子的立体图,其中,分子的立体图可以准确表达各原子在空间中的三维坐标,且连接两个原子之间的连线用于表征两个原子之间的位置关系,该位置关系可以包括两个原子之间的距离。
下面说明本发明实施例提供的用于执行上述分子属性预测方法的设备的示例性应用,本发明实施例提供的分子属性预测模型训练方法可以应用于如图1所示的应用环境中的服务器中。
图1是根据本申请一实施例示出的应用场景的示意图,如图1所示,该应用场景包括终端设备10和通过网络与终端设备10通信连接的服务器20。
终端设备10,终端设备10具体可以是手机、电脑、平板电脑或者车载终端等,终端设备10可以设有用于展示分子的二维分子图、分子的属性预测结果的客户端。
网络可以是广域网或者局域网,或者是二者的组合。终端设备10可以是智能手机、智能电视、平板电脑、笔记本电脑或者台式计算机等。
服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。
若利用如图1中的终端设备10和服务器20进行分子属性预测,得到待预测分子的属性识别结果,则可以具体执行如下步骤。用户可以通过终端设备10向服务器20上传待预测分子的二维分子图,其中,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息,服务器20在获取到获取待预测分子的二维分子图时;利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征;利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果;其中,二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。服务器20还可以向终端设备10发送待预测分子的属性预测结果。以使终端设备10显示属性预测结果。示例性的,如图1所示,若需要待预测分子为环氧乙烷(C2H4O),且预测的属性为是否具有毒性,则通过采用上述的预测方法步骤,可以得到预测结果为待预测分子(环氧乙烷,C2H4O)具有毒性。
应当理解,上述的方法步骤也可以仅由终端设备10来执行或者仅由服务器20来执行,也即,上述描述的方法步骤仅仅是示意性的,并不作为本方案的限制。
下面将结合附图具体描述本申请的各实施例。
请阅图2,图2所示为本申请还提供一种分子属性预测方法,可以应用于电子设备,该电子设备可以是上述的终端设备10或服务器20,该方法包括:
步骤S110:获取待预测分子的二维分子图。
其中,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息。
其中,化学键是纯净物分子内或晶体内相邻两个或多个原子(或离子)间强烈的相互作用力的统称,使离子相结合或原子相结合的作用力通称为化学键。上述的化学键可以是单键、双键等。
上述的待预测分子的二维分子图可以是基于用户绘制的,也可以是基于分子结构表示转化得到的,还可以是预先存储的二维分子图,此处不作具体限定,根据实际需求进行设置即可。
在一种可实施方式中,上述的二维分子图是基于用户输入的分子信息,获得分子结构表示,分子结构表示是指对待预测分子的分子结构进行描述的表达式。比如,分子结构表示具体可以是指用ASCII(AmericanStandardCodefor InformationInterchange,美国信息交换标准代码)字符串明确描述分子结构的表达式。举例说明,分子结构表示具体可以为SMILES(Simplifiedmolecular inputlineentrysystem,简化分子线性输入规范)表达式。
具体的,在该种实施方式下,若需要预测某一分子式对应的分子属性,则用户可以向终端输入待预测分子的分子式,之后,将分子式用SMILES表示,并基于分子的SMILES表示获得待预测分子的二维分子图。
步骤S120:利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征。
其中,二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
其中,基于训练后的三维分子属性预测模型和具有分子属性标签的分子对应的二维分子图样本和三维分子图样本训练二维分子属性预测模型时,可以是:获取基于二维分子图样本训练初始二维分子属性预测模型的过程中的第一模型损失;获取二维分子属性预测模型对二维分子图样本进行编码得到的二维编码特征,以及获取三维分子属性预测模型三维分子图样本进行编码得到的三维编码特征,根据二维编码特征和三维编码特征得到编码损失,根据第一模型损失和编码损失调整二维分子属性预测模型的模型参数,以得到训练后的二维分子属性预测模型。也可以是:获取二维分子属性预测模型对二维分子图样本进行编码得到的二维编码特征,以及获取三维分子属性预测模型对三维分子图样本进行编码得到的三维编码特征,根据二维编码特征和三维编码特征得到模型损失,根据模型损失调整二维分子属性预测模型的模型参数,以得到训练后的二维分子属性预测模型。
待预测分子的分子特征可以包括待预测分子中各原子自身的特征和连接该原子的化学键的特征;也可以包括基于自注意力机制额外添加的、用于聚合各原子的特征的虚拟分子特征;还可以包括上述的描述的至少一种特征,根据实际需求进行设置即可。
上述的分子属性预测模型可以是能够用于进行分子属性识别的卷积神经网络模型。具体的,上述的卷积神经网络可以是CTC(ConnectionistTemporal Classification,基于联结时序分类的声学模型),也可以是RNN-T(Recurrent NeuralNetworkTransducer),还可以是LAS(Listen,AttendandSpell)等等。
由于知识蒸馏采取Teacher-Student模式:将复杂且大的模型作为Teacher(基础模型),Student模型(蒸馏模型)较为简单,用Teacher来辅助Student模型的训练,Teacher学习能力强,可以将它学到的知识迁移给学习能力相对弱的Student模型,以此来增强Student模型的泛化能力。以在在线预测阶段采用灵活轻巧的Student模型进行预测。
上述的二维分子图样本和三维分子图样本即可可以是基于用户构造的,也可以是基于预设方法生成,如三维分子图可以是基于DFT方法生成。也即,可以基于DFT方法生成少量的分子3D结构和对应的分子属性。
步骤S130:利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果。
具体的,通过采用上述步骤S130,可以实现利用二维分子属性预测模型确定待预测分子对应的属性量化值,以及利用分子属性预测模型基于属性量化值确定待预测分子的属性预测结果。
通过采用本申请的分子属性预测方法,在进行分子属性预测时,由于预测过程中所采用的二维分子属性预测模型是基于训练后的三维分子属性预测模型对初始二维分子属性预测模型进行蒸馏训练得到,由于蒸馏训练阶段三维分子属性预测模型可以将它学到的知识迁移给学习能力相对弱的二维分子属性预测模型,以此来增强二维分子属性预测模型的泛化能力,因此,通过采用蒸馏训练得到的二维属性预测模型进行分子属性预测时可以有效提升分子属性预测结果的准确性,此外,通过采用利用二维分子属性预测模型进行分子属性预测,还可以避免将分子由二维分子图转化为三维分子图时造成的转化过程复杂,且需要占用大量的时长的问题,因此,通过采用上述方法还可以有效提升分子属性预测的效率。
请参阅图3,本申请另一实施例提供了一种分子属性预测方法,该方法包括:
步骤S210:获取待预测分子的二维分子图,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息。
步骤S220:将二维分子图的特征表示输入第一编码器中。
其中,二维分子图的特征表示可以包括二维分子图中的原子特征表示、原子间的连接关系表示以及预配置的虚拟分子特征表示中的一种或多种。
二维分子图的特征表示的获得方式可以有多种,例如,可以是对二维分子图进行特征提取,得到二维分子图的特征表示,也可以是根据预设的原子特征、化学键特征获得二维分子图中各原子的原子特征和各原子间的化学键特征,根据分子结构表示中所有原子的原子特征以及连接原子的化学键特征获得初始虚拟分子特征,将原子的原子特征、连接原子的化学键的化学的键特征以及初始虚拟分子特征构成的集合作为二维分子图的特征表示。上述的二维分子图的特征表示还可以基于预设算法获得,在此处不作具体限定,根据实际需求进行设置即可。
在本申请的一种可实施方式中,二维分子图的特征表示具体可以是利用RDKit将待预测分子的二维分子图结构转化为分子图向量,RDKit是一个用于化学信息学的开源工具包,基于对化合物2D和3D分子操作,利用机器学习方法进行化合物描述符生成、化合物结构相似性计算、2D和3D分子展示等。
其中,上述的原子特征可以根据原子的化学性质确定,具体的,在确定原子特征时所依据的化学性质包括原子在元素周期表的序号、SP杂化方式、原子的价位、原子是不是在环内、连接度数、形式电荷、是否是离子等等。其中,在成键过程中,由于原子间的相互影响,同一原子中几个能量相近的不同类型的原子轨道(即波函数),可以进行线性组合,重新分配能量和确定空间方向,组成数目相等的新的原子轨道,这种轨道重新组合的过程称为杂化,杂化后形成的新轨道称为杂化轨道。同一原子内由1个ns轨道和1个np轨道参与的杂化称为SP杂化。连接度数是指原子所连接的化学键的数目。形式电荷在化学上是指分配给分子中的一个原子的电荷,并假定所有化学键中的电子在原子之间均等共享,而无论相对电负性如何。
类似的,化学键的化学键特征也可以根据化学键的化学性质确定,且化学性质包括键的类型(包括单键、双键等等)、连接氢原子个数、是否为芳香键、是否为共轭键等等。其中,单键,在化合物分子中两个原子间以共用一对电子而构成的共价键。通常用一条短线“-”表示。例如甲烷、乙烷分子中的键。双键是共价键的一种,共价键,就意味着共用电子对的存在。简单的说,就是这一对电子,由键的两方各出一个,彼此共用。因此,一个共价键就可以填补一个最外层电子的空额。例如乙烯中的C=C双键。芳香键是指芳香环中的化学键。共轭键是指共轭双键中的化学键。在有机化合物分子结构中单键与双键相间的情况称为共轭双键。有机化合物分子结构中由一个单键隔开的两个双键。以C=C-C=C表示。含有共轭双键的分子比含孤立双键的分子较为稳定,能量较小,共轭双键中单键与双键的键长趋于平均化。
步骤S230:通过第一编码器中每个第一编码层,输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征。
其中,第1个第一编码层的输入为待预测分子中的原子的信息对应的特征表示,第i个第一编码层的输入为前一个第一编码层输出的原子特征以及待预测分子的虚拟分子特征,其中,i为大于1且小于或等于N的整数。
具体的,当i等于1时,第i编码层基于关系编码矩阵对每个原子的原子特征和虚拟分子特征进行编码,得到编码后的原子特征和编码后的虚拟分子特征,输出待预测分子中部分编码后的原子特征和编码后的虚拟分子特征;当i大于1且不大于N时,第i编码层基于关系编码矩阵对第i-1编码层输出的原子特征和虚拟分子特征进行编码,第N编码层输出的待预测分子中部分编码后的原子特征和编码后的虚拟分子特征。
编码层在进行编码时,可以采用卷积的编码方式,也可以是采用自注意编码的方式。
在本申请的一种可实施方式中,上述步骤S230具体可以是:通过第一编码器中每个第一编码层,并基于注意力机制输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征。
通过基于注意力机制的卷积处理是指在待预测分子内进行基于注意力机制的卷积处理,以使得待预测分子内的原子的特征(也即,各原子的注意力编码特征)中对于分子属性预测更为关键的信息更加突出,并获得融合各原子的特征的虚拟向量。由于虚拟向量是指额外添加的、用于聚合各原子的特征的向量。在进行分子间基于注意力机制的卷积处理时会将额外添加的虚拟向量作为输入。该虚拟向量具体是指待预测分子的分子特征(也即,待预测分子的虚拟分子特征)。
此外,由于注意力机制是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。本实施例中通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。本实施例中,即聚焦于待预测分子中的原子的特征中对分子属性预测更为关键的信息,以提高分子属性预测的效率和准确性。
请参阅图4,在本申请的一种具体实施方式中,通过第一编码器中每个第一编码层,并基于注意力机制输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征的方式具体可以包括:
步骤S232:基于化学键的信息的特征表示获取注意力偏置矩阵,注意力偏置项矩阵用于表征二维分子图中各原子间的相对位置关系。
其中,上述的相对位置关系具体是各原子间的化学键,上述步骤S232具体可以是:基于化学键的信息的特征表示,得到一个(N+1)*(N+1)的注意力偏置矩阵,其中,N表示分子中原子的数量,1表示虚拟分子的数量,上述的偏置矩阵中存储了任意两个原子间的化学键特征。
步骤S234:通过第一编码器中每个第一编码层,将第一编码层的输入映射为查询矩阵、键矩阵以及值矩阵。
其中,上述的映射方式可以是线性映射,在分别对当前层级输入的待预测分子的虚拟分子特征和各原子的原子特征进行线性映射之前,还可以分别对当前层级待预测分子的虚拟分子特征和各原子的原子特征进行层归一化,以使得当前层级待预测分子的虚拟分子特征和各原子的原子特征的分布相对稳定,便于更好的进行基于注意力机制的卷积处理。
步骤S236:基于查询矩阵、键矩阵以及注意力偏置项矩阵获取注意力权重。
上述步骤,具体可以通过缩放点积进行注意力权重计算,即针对虚拟向量和各原子的目标原子特征,先计算其查询向量和所有键向量的相似度,获得点积,再对点积进行缩放,即可得到注意力权重。通过缩放点积进行注意力权重计算可以通过如下公式表示:
其中,attentionweight表示注意力权重,Q表示查询向量,K表示所有键向量,表示缩放因子,d为查询向量和键向量的维度,attn_bias为原子之间的连接信息(化学键)的编码结果,softmax表示归一化指数函数,它是二分类函数sigmoid在多分类上的推广,目的是将多分类的结果以概率的形式展现出来,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解。
步骤S238:基于注意力权重和值矩阵,输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征。
在一个实施例中,上述的上述步骤S237-S238中具体还可以是基于多头注意力的编码方式输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征,相应的编码层在输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征时,可以分别融合注意力编码向量和相应的当前层级待预测分子的虚拟分子特征和各原子的原子特征,具体的,可以将注意力编码向量分别叠加至相应的当前层级待预测分子的虚拟分子特征和各原子的原子特征,获得待预测分子的虚拟分子特征和各原子的原子特征各自相应的中间融合向量;通过全连接层对中间融合向量进行映射,获得中间融合向量相应的映射后向量;分别叠加中间融合向量和相应的映射后向量,获得当前层级待预测分子的虚拟分子特征和各原子的自注意编码特征。
将当前层级待预测分子的虚拟特在具体的应用中,上述获得目标融合向量的过程可以通过如下公式表示:
h`(l)=MHALNhl-1+hl-1
h(l)=FFNLNh`l+h`(l)
其中,LN表示层归一化,hl-1表示当前层级输入的待预测分子的虚拟特征向量和各原子的原子特征,MHA表示多头注意力机制,MHALNhl-1表示注意力编码向量,FFN表示全连接层,h`(l)表示中间融合向量,h(l)表示目标融合向量。
步骤S240:将第N个第一编码层输出的待预测分子的虚拟分子特征确定为待预测分子的分子特征。
步骤S250:利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果。
其中,二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
通过采用上述实施例提供的分子属性预测方法,由于预测过程中所采用的二维分子属性预测模型是基于训练后的三维分子属性预测模型对初始二维分子属性预测模型进行蒸馏训练得到,由于蒸馏训练阶段三维分子属性预测模型可以将它学到的知识迁移给学习能力相对弱的二维分子属性预测模型,以此来增强二维分子属性预测模型的泛化能力,因此,通过采用蒸馏训练得到的二维属性预测模型进行分子属性预测时可以有效提升分子属性预测结果的准确性,此外,通过采用利用二维分子属性预测模型进行分子属性预测,还可以避免将分子由二维分子图转化为三维分子图时造成的转化过程复杂,且需要占用大量的时长的问题,因此,通过采用上述方法还可以有效提升分子属性预测的效率。
进一步地,在进行特征提取阶段,通过基于注意力机制提取分子特征,并在计算注意力权重阶段通过引入分子中各原子间的化学键的特征构成的注意力偏置矩阵,可以在提取特征阶段,基于注意力偏执矩阵平衡各原子的原子特征,从而有效提升编码后的原子特征的准确性和编码后的虚拟分子的准确性,以进一步提升基于虚拟分子特征预测得到的分子属性预测结果的准确性。
请参阅图5,本申请实施例还提供一种分子属性预测方法,该方法包括:
步骤S310:基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练。
其中,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。初始的二维分子属性预测模型的第一编码器具有N个第一编码层,三维分子属性预测模型的第二编码器与初始的二维分子属性预测模型的第一编码器相同且包括N个第二编码层,初始的二维分子属性预测模型的每个第一编码层用于输出二维分子图样本中的部分原子特征和虚拟分子特征,三维分子属性预测模型的每个第二编码层用于输出三维分子图样本中的部分原子特征和虚拟分子特征。
其中,应当理解,由于编码层具体可以是基于多层卷积方式进行编码的编码层(如CNN卷积网络层)。也可以是基于注意力机制的编码层(如Transformer层)。若编码层是基于注意力机制的编码层,则基础模型和蒸馏模型具体可以Transformer模型、graphTransformer模型、SNAIL模型、神经图灵机(Neural TuringMachines)等中的一种或多种。需要说明的是,由于基础模型与蒸馏模型(二维分子属性预测模型与三维分子属性预测模型)的模型结构可以相同,相应的基础模型与蒸馏模型的模型种类也可以相同。在本申请的一种可实施方式中,基础模型和蒸馏模型(二维分子属性预测模型与三维分子属性预测模型)具体可以是graphTransformer模型。
在进行蒸馏训练时,可以将具有分子属性的样本分子的二维分子图和三维分子图分别输入至初始的二维分子属性预测模型和训练后的三维分子属性预测模型中。如,将三维分子图输入至训练后的三维分子属性预测模型,以及将二维分子图输入至二维分子属性预测模型。
如图6所示,示出了一个分子式为C8N4O2H7的二维分子图和三维分子图。图6中的(a)为分子C8N4O2H7的二维分子图,图6中的(b)为分子C8N4O2H7的三维分子图。
步骤S320:基于训练过程中同一位置的第一编码层和第二编码层各自输出的虚拟分子特征,得到模型损失,并基于模型损失调整初始的二维分子属性预测模型的模型参数,得到训练后的二维分子属性预测模型。
其中,同一位置的第一编码层和第二编码层,可以是二维分子属性预测模型和三维分子属性预测模型中的一个或多个具有相同编码层数的编码层。例如,二维分子属性预测模型中的编码器中的第一层编码层(层数为第一层的第一编码层)与三维分子属性预测模型中的编码器的第一层编码层(层数为第二层的第二编码层)为同一位置的编码层。又例如,二维分子属性预测模型的编码器中的第N层编码层和第M层编码层(层数为第N和第M的第一编码层)与三维分子属性预测模型的编码器中的第N层编码层和第M层编码层(层数为第N和第M的第二编码层)也为同一位置的编码层。
其中,基于模型损失调整二维分子属性预测模型的模型参数时,其目的是最小化模型损失,以使二维分子属性预测模型逐渐收敛,当调整模型参数的次数达到预设次数,例如,5000次、10000次等时,则可以认为模型收敛,也可以是当模型损失逐渐趋于一固定值,如零,或者小于某一预设值,如0.05、0.01等时,则可以认为模型收敛,既可以得到训练后的二维分子属性预测模型。
在一种可实施方式中,上述步骤S320还可以是:基于同一位置的第一编码层和第二编码层各自输出的原子特征以及虚拟分子特征,得到模型损失。
上述步骤S320还可以是基于可以是一个或多个具有相同编码层数的第一编码层和第二编码层各自输出的虚拟分子特征,以及基于一个或多个具有相同的编码层数的第一编码层和第二编码层各自输出的原子特征得到模型损失。
其中,不同编码层输出的原子特征对应的原子可以是相同的也可以是不同的。
请参阅图7,在该种实施方式下:上述步骤S320可以包括:
步骤S322:基于同一位置的第一编码层和第二编码层各自输出的虚拟分子特征得到分子特征损失,基于同一位置的第一编码层和第二编码层各自输出的原子特征得到原子特征损失。
步骤S324:基于二维分子图样本中原子的数量确定分子特征损失的分子损失权重和原子特征损失的原子损失权重,其中,分子损失权重大于原子损失权重。
考虑到在进行模型调参时,若直接对分子特征损失、原子特征损失叠加获得模型损失时,分子中通常包括的原子数量较多,因此原子特征损失会对模型参数具有较大影响为了平衡分子特征损失和原子特征损失对模型的影响,可以在对分子特征和原子特征进行分离蒸馏并给予不同的权重,也即给分子特征损失和原子特征损失分别赋予不同的权重。
具体的,由于分子的原子数大小不停地变化,所以导致总损失也不停的变化,此外,由于原子数目远大于分子数,所以也需要配平,本申请经过严格的BP梯度推导证明分子特征对比损失对应的梯度大小和原子数目的平方成正比,所以可以对原子特征对比损失配上1/(N*N)均衡分子特征损失。也即,当一个分子中的原子数量为N时,分子特征损失的权重为1,则原子特征损失的权重f(N)为1/(N*N)。
步骤S326:根据分子损失权重和原子损失权重对分子特征损失和原子特征损失进行加权求和得到模型损失。
具体的,当一个分子中的原子数量为N时,分子特征损失的权重为1,则原子特征损失的权重f(N)为1/(N*N),模型的模型损失为L。
在一种可实施方式中,方法的还包括获取基于二维分子图样本训练初始二维分子属性预测模型的过程中的第一模型损失。在该种实施方式下,上述步骤S320还可以是:基于第一模型损失、同一位置的第一编码层和第二编码层各自输出的虚拟分子特征,得到模型损失。
具体的,如图8所示,以基于二维分子图样本训练初始二维分子属性预测模型的过程中的第一模型损失为L2D,将相同分子对应的二维分子图样本输入至二维分子属性预测模型以及三维分子属性预测模型中,且二维分子属性预测模型的多层编码层分别基于注意力机制对三维分子图样本进行编码得到各编码层输出的虚拟分子特征为e1和二维分子图样本中各原子的原子特征为e2;三维分子属性预测模型的多层编码层分别基于注意力机制对二维分子图样本进行编码得到各编码层输出的虚拟分子特征为e11和三维分子图样本中各原子的原子特征为e22;基于相同编码层数的编码层对应的虚拟分子特征e1和e11得到每个编码层的分子特征损失,基于相同编码层数的编码层对应的原子特征e2和e22得到每个编码层的原子特征损失。基于每个编码层的分子特征损失得到分子特征对比损失Lm,其中,式中M为编码层数,m表示当前层数为m,表示第m层的分子特征损失。其中,基于每个编码层的原子特征损失得到原子特征对比损失La,/>式中,N表示的是分子中分子包括的原子数量,j表示的是分子中的第j个原子。将分子特征对比损失与原子特征对比损失进行加权求和得到基础模型与蒸馏模型之间的对比损失值。基于第一损失和对比损失即可获得模型的总损失L以基于总损失调整模型参数。其中,
在获得模型的目标损失之后,通过调整模型参数,以最小化模型损失即可完成对二维分子属性预测模型的训练。
步骤S330:获取待预测分子的二维分子图,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息。
步骤S340:利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征。
步骤S350:利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果。
在训练过程中,通过基于样本的虚拟分子特征和分子中各原子的原子特征,可以严格推导得到的超参数(权重)平衡二者的损失,以基于推到得到的权重和虚拟分子特征和原子特征获得的模型损失调整二维分子属性预测模型时,使得二维分子属性预测模型的性能显著改善。使得后续在利用训练后的二维分子属性预测模型中对待预测分子进行属性预测时,可以仅在线上部署使用二维分子属性预测模型来识别二维分子图结构对应的分子属性,避免了对二维分子图结构对应的三维分子图结构的3D坐标获取极其耗时,造成难以在大规模分子属性预测中用上的情况,也即,采用本申请的二维分子属性预测模型,可以直接对分子的二维分组图结构进行属性预测,使得该模型可以被广泛的应用,且对分子属性预测效率高,且预测结果准确。
如图9所示,本申请实施例还提供一种分子属性预测方法,该方法包括:
步骤S410:利用多个具有属性标签的三维分子图样本训练三维分子属性预测模型,得到三维分子属性预测模型在训练过程中的第二损失值。
三维分子图样本中包含三维分子图样本的原子的信息、三维分子图样本中原子间的连接关系以及三维分子图样本中原子间的位置关系。
其中,上述步骤S410可以是:将多个具有属性标签的三维分子图样本输入至三维分子属性预测模型,以利用三维分子属性预测模型对三维分子图样本进行特征提取,以基于提取的特征进行属性预测,根据属性预测结果和属性标签获得模型损失,以根据模型损失调整三维分子属性预测模型的模型参数,得到训练后的三维分子属性预测模型。其中,上述提取的特征包括原子特征以及原子间的位置关系的特征。
上述步骤S410也可以具体包括如下步骤:
步骤S412:将三维分子图样本的特征表示输入第二编码器中。
步骤S414:基于位置关系的信息的特征表示获取三维分子样本偏置矩阵,三维分子样本偏置矩阵用于表征三维分子图中各原子间的相对位置关系。
步骤S416:通过第二编码器中每个第二编码层,将第二编码层的输入映射为三维样本查询矩阵、三维样本键矩阵以及三维样本值矩阵;基于三维样本查询矩阵、三维样本键矩阵以及三维分子样本偏置矩阵获取三维样本注意力权重;基于三维样本注意力权重和三维样本值矩阵,输出三维分子图样本中的部分原子的特征以及三维分子图样本的虚拟分子特征。
关于上述步骤S412-S418的具体描述可以参阅前文对步骤S230的具体描述,在本实施例不作一一赘述。
还应当说明的是,上述基于位置关系的信息的特征具体为标识三维分子图中各原子之间的相对位置关系的特征,且原子间的相对位置关系具体可以基于三维分子图中各原子的三维坐标确定。
步骤S418:基于第N个第二编码层输出的原子的特征和虚拟分子特征得到三维分子图样本结构对应的分子属性预测结果,基于该分子属性预测结果和属性标签获得三维分子属性预测模型在训练过程中的第二损失值。
步骤S420:利用第二损失值调整三维分子属性预测模型的模型参数,得到训练后的三维分子属性预测模型。
其中,在利用第二损失值调整调整三维分子属性预测模型的模型参数时,其目的是最小化模型损失,以使三维分子属性预测模型逐渐收敛,当调整模型参数达到预设次数,例如,5000次、10000次等时,则可以认为模型收敛,也可以是当第二损失逐渐趋于一固定值,如零,或者小于某一预设值,如0.05、0.01等时,则可以认为模型收敛,既可以得到训练后的三维分子属性预测模型。
步骤S430:基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到训练后的二维分子属性预测模型。
步骤S440:获取待预测分子的二维分子图,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息。
步骤S450:利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征。
步骤S460:利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果。
通过采用本申请的上述方法,在模型训练过程中可以实现先用graphtransformer的结构构建深度学习模型,通过采用少量的3D分子进行训练,得到高性能的三维分子属性预测模型(基础模型)。接着用三维分子属性识别模型蒸馏一个二维分子属性预测模型(蒸馏模型)。使得后续在利用训练后的二维分子属性预测模型对待预测分子进行属性预测时,可以仅在线上部署使用蒸馏模型来识别二维分子图结构对应的分子属性,避免了对二维分子图结构对应的三维分子图结构的3D坐标获取极其耗时,造成难以在大规模分子属性预测中用上的情况,也即,采用本申请的二维分子属性预测模型,可以直接对分子的二维分组图结构进行属性预测,使得该模型可以被广泛的应用,且对分子属性预测效率高,且预测结果准确。
如图10所示,在获得预训练的分子属性预测模型之后,本申请提供了一种分子属性预测方法,该方法包括:
步骤1:用户在前端输入分子信息,即输入待预测分子的分子信息。
具体的,当需要进行分子属性预测时,用户可以在前端输入分子信息,从而使得前端可以获取到分子信息。其中,前端具体可以是指终端设备或者终端设备中安装的客户端。
步骤2:前端将用户输入的分子信息转化为SMILES化学表达式。
具体的,前端会基于用户输入分子信息,获得该分子信息的SMILES化学表达式,将待预测分子的SMILES化学表达式输出至后端,以使得后端可以进行下一步计算。关于将输入的分子信息转化为SMILES化学表达式的过程可以参阅前文中对步骤S110的具体描述,在此处不作一一赘述。
步骤3:后端将前端上传的SMILES信息转化为二维分子图结构。
具体的,后端在接收到待预测分子的SMILES化学表达式后,会将待预测分子的SMILES化学表达式转化为二维分子图结构。
步骤4:将二维分子图结构输入蒸馏模型。
具体的,后端会二维分子图结构输入上述实施例获得的预训练的分子属性预测模型中的蒸馏模型中,以蒸馏模型进行属性预测,输出待预测分子的属性预测结果。
关于分子属性预测模型的训练过程可以参阅前述实施例的具体描述,在本实施例不作一一赘述。
步骤5:获得待预测分子的属性预测结果。
具体的,在蒸馏模型输出待预测分子的属性预测结果后,后端就已经获得属性预测结果。
步骤6:结果返回到前端。
具体的,后端在获取到属性预测结果后,会将属性预测结果返回到前端,以使得用户可以查看到待预测分子的属性预测结果。
下面提供本申请的分子属性预测方法在仅采用基于二维分子图结构训练的神经网络模型(2D模型)进行分子属性预测的结果和采用上述实施例中的蒸馏模型进行分子属性预测的结果的表现情况,如表1所示,本申请中的采用2D模型进行分子属性预测方法在测试集上的平均绝对值误差为0.0865,采用蒸馏模型进行分子属性预测方法在测试集上的平均绝对值误差为0.0806,两种方式的其准确程度完全达到可用状态,且通过训练时采用蒸馏的方法,将2D分子属性预测误差降低了6.8%,并且在推理时没有增加任何额外的计算。通过采用本申请所提供的分子属性预测方法,能够基于人工智能的溶剂化结构快速预测,且预测的准确率高。
表1
2D模型的平均绝对值误差 蒸馏模型的平均绝对值误差
0.0865 0.0806
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
请参阅图11,本申请另一实施例提供了一种分子属性预测装置500,装置500包括:图结构获取模块510、特征提取模块520以及属性预测模块530;图结构获取模块510,用于获取待预测分子的二维分子图,二维分子图中包含待预测分子中的原子的信息、待预测分子中原子间的连接关系以及待预测分子中用于连接两个原子的化学键的信息;特征提取模块520,用于利用二维分子属性预测模型对待预测分子的二维分子图进行特征提取,得到待预测分子的分子特征;属性预测模块530,用于利用二维分子属性预测模型对待预测分子的分子特征进行分子属性预测,得到待预测分子的属性预测结果;其中,二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
在一种可实施方式中,二维分子属性预测模型包括具有N个第一编码层的第一编码器,N为大于1的自然数,特征提取模块520,还用于将二维分子图的特征表示输入第一编码器中;通过第一编码器中每个第一编码层,输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征,其中,第1个第一编码层的输入为待预测分子中的原子的信息对应的特征表示,第i个第一编码层的输入为前一个第一编码层输出的原子特征以及待预测分子的虚拟分子特征,其中,i为大于1且小于或等于N的整数;将第N个第一编码层输出的待预测分子的虚拟分子特征确定为待预测分子的分子特征。
在一种可实施方式中,特征提取模块520,还用于通过第一编码器中每个第一编码层,并基于注意力机制输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征。
在一种可实施方式中,特征提取模块520包括矩阵获取子模块、矩阵映射子模块、权重获取子模块以及特征获得子模块;矩阵获取子模块,用于基于化学键的信息的特征表示获取注意力偏置矩阵,注意力偏置项矩阵用于表征二维分子图中各原子间的相对位置关系;矩阵映射子模块,用于通过第一编码器中每个第一编码层,将第一编码层的输入映射为查询矩阵、键矩阵以及值矩阵;权重获取子模块,用于基于查询矩阵、键矩阵以及注意力偏置项矩阵获取注意力权重;特征获得子模块,用于基于注意力权重和值矩阵,输出待预测分子中的部分原子的特征以及待预测分子的虚拟分子特征。
在一种可实施方式中,初始的二维分子属性预测模型的第一编码器具有N个第一编码层,三维分子属性预测模型的第二编码器与初始的二维分子属性预测模型的第一编码器相同且包括N个第二编码层,初始的二维分子属性预测模型的每个第一编码层用于输出二维分子图样本中的部分原子特征和虚拟分子特征,三维分子属性预测模型的每个第二编码层用于输出三维分子图样本中的部分原子特征和虚拟分子特征;装置还包括二维模型训练模块,二维模型训练模块,用于基于同一位置的第一编码层和第二编码层各自输出的虚拟分子特征,得到模型损失,并基于模型损失调整初始的二维分子属性预测模型的模型参数,得到训练后的二维分子属性预测模型。
在一种可实施方式中,二维模型训练模块,还用于基于同一位置的第一编码层和第二编码层各自输出的原子特征以及虚拟分子特征,得到模型损失。
在一种可实施方式中,二维模型训练模块包括第一损失获得子模块、权重计算子模块以及第二损失获得子模块;第一损失获得子模块,用于基于同一位置的第一编码层和第二编码层各自输出的虚拟分子特征得到分子特征损失,基于同一位置的第一编码层和第二编码层各自输出的原子特征得到原子特征损失;权重计算子模块,用于基于二维分子图样本中原子的数量确定分子特征损失的分子损失权重和原子特征损失的原子损失权重,其中,分子损失权重大于原子损失权重;第二损失获得子模块,用于根据分子损失权重和原子损失权重对分子特征损失和原子特征损失进行加权求和得到模型损失。
在一种可实施方式中,二维模型训练模块,还包括第三损失获得子模块,用于获取基于二维分子图样本训练初始二维分子属性预测模型的过程中的第一模型损失;第二损失获得子模块,还用于基于第一模型损失、同一位置的第一编码层和第二编码层各自输出的虚拟分子特征,得到模型损失。
在一种可实施方式中,装置还包括三维模型训练模块,三维模型训练模块,用于利用多个具有属性标签的三维分子图样本训练三维分子属性预测模型,得到三维分子属性预测模型在训练过程中的第二损失值,三维分子图样本中包含三维分子图样本的原子的信息、三维分子图样本中原子间的连接关系以及三维分子图样本中原子间的位置关系;以及利用第二损失值调整三维分子属性预测模型的模型参数,得到训练后的三维分子属性预测模型。
在一种可实施方式中,三维分子属性预测模型包括具有N个第二编码层的第二编码器,N为大于1的自然数,三维模型训练模块包括:样本特征输入子模块、样本矩阵获得子模块、样本特征输出子模块以及三维样本损失获得子模块,样本特征输入子模块,用于将三维分子图样本的特征表示输入第二编码器中;样本矩阵获得子模块,用于基于位置关系的信息的特征表示获取三维分子样本偏置矩阵,三维分子样本偏置矩阵用于表征三维分子图中各原子间的相对位置关系;样本特征输出子模块,用于通过第二编码器中每个第二编码层,将第二编码层的输入映射为三维样本查询矩阵、三维样本键矩阵以及三维样本值矩阵;基于三维样本查询矩阵、三维样本键矩阵以及三维分子样本偏置矩阵获取三维样本注意力权重;基于三维样本注意力权重和三维样本值矩阵,输出三维分子图样本中的部分原子的特征以及三维分子图样本的虚拟分子特征;三维样本损失获得子模块,用于基于第N个第二编码层输出的原子的特征和虚拟分子特征得到三维分子图样本结构对应的分子属性预测结果,基于该分子属性预测结果和属性标签获得三维分子属性预测模型在训练过程中的第二损失值。
上述分子属性预测装置300中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。需要说明的是,本申请中装置实施例与前述方法实施例是相互对应的,装置实施例中具体的原理可以参见前述方法实施例中的内容,此处不再赘述。
下面将结合图12对本申请提供的一种电子设备进行说明。
请参阅图12,基于上述实施例提供的分子属性预测模型训练方法,本申请实施例还提供的另一种包括可以执行前述方法的处理器102的电子设备100,该电子设备100可以为服务器或终端设备,终端设备可以是智能手机、平板电脑、计算机或者便携式计算机等设备。
电子设备100还包括存储器104。其中,该存储器104中存储有可以执行前述实施例中内容的程序,而处理器102可以执行该存储器104中存储的程序。
其中,处理器102可以包括一个或者多个用于处理数据的核以及消息矩阵单元。处理器102利用各种接口和线路连接整个电子设备100内的各个部分,通过运行或执行存储在存储器104内的指令、程序、代码集或指令集,以及调用存储在存储器104内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器102可以采用数字信号处理(DigitalSignalProcessing,DSP)、现场可编程门阵列(Field-ProgrammableGateArray,FPGA)、可编程逻辑阵列(ProgrammableLogicArray,PLA)中的至少一种硬件形式来实现。处理器102可集成中央处理器(CentralProcessingUnit,CPU)、图像处理器(GraphicsProcessingUnit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作***、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器102中,单独通过一块通信芯片进行实现。
存储器104可以包括随机存储器(RandomAccessMemory,RAM),也可以包括只读存储器(Read-OnlyMemory)。存储器104可用于存储指令、程序、代码、代码集或指令集。存储器104可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备100在使用中所获取的数据(如,待预测分子的二维分子图结构、第一分子样本和第二分子样本)等。
电子设备100还可以包括网络模块以及屏幕,网络模块用于接收以及发送电磁波,实现电磁波与电信号的相互转换,从而与通讯网络或者其他设备进行通讯,例如和音频播放设备进行通讯。网络模块可包括各种现有的用于执行这些功能的电路元件,例如,天线、射频收发器、数字信号处理器、加密/解密芯片、用户身份模块(SIM)卡、存储器等等。网络模块可与各种网络如互联网、企业内部网、无线网络进行通讯或者通过无线网络与其他设备进行通讯。上述的无线网络可包括蜂窝式电话网、无线局域网或者城域网。屏幕可以进行界面内容的显示以及进行数据交互,如显示对待识别音频的分子属性预测结果,以及通过屏幕录入音频等。
在一些实施例中,电子设备100还可以包括有:外设接口106和至少一个***设备。处理器102、存储器104和外设接口106之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与外设接口连接。具体地,***设备包括:射频组件108、定位组件112、摄像头114、音频组件116、显示屏118以及电源122等中的至少一种
外设接口106可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器102和存储器104。在一些实施例中,处理器102、存储器104和外设接口106被集成在同一芯片或电路板上;在一些其他实施例中,处理器102、存储器104和外设接口106中的任意一个或两个可以在单独的芯片或电路板上实现,本申请实施例对此不加以限定。
射频组件108用于接收和发射RF(RadioFrequency,射频)信号,也称电磁信号。射频组件108通过电磁信号与通信网络以及其他通信设备进行通信。射频组件108将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频组件108包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频组件108可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频组件108还可以包括NFC(NearFieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
定位组件112用于定位电子设备的当前地理位置,以实现导航或LBS(LocationBasedService,基于位置的服务)。定位组件112可以是基于美国的GPS(GlobalPositioningSystem,全球定位***)、北斗***或伽利略***的定位组件。
摄像头114用于采集图像或视频。可选地,摄像头114包括前置摄像头和后置摄像头。通常,前置摄像头设置在电子设备100的前面板,后置摄像头设置在电子设备100的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(VirtualReality,虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中,摄像头114还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合,可以用于不同色温下的光线补偿。
音频组件116可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器102进行处理,或者输入至射频组件108以实现语音通信。出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在电子设备100的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器102或射频组件108的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频组件114还可以包括耳机插孔。
显示屏118用于显示UI(UserInterface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏118是触摸显示屏时,显示屏118还具有采集在显示屏118的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器102进行处理。此时,显示屏118还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏118可以为一个,设置电子设备100的前面板;在另一些实施例中,显示屏118可以为至少两个,分别设置在电子设备100的不同表面或呈折叠设计;在又一些实施例中,显示屏118可以是柔性显示屏,设置在电子设备100的弯曲表面上或折叠面上。甚至,显示屏118还可以设置成非矩形的不规则图形,也即异形屏。显示屏118可以采用LCD(LiquidCrystalDisplay,液晶显示屏)、OLED(OrganicLight-EmittingDiode,机发光二极管)等材质制备。
电源122用于为电子设备100中的各个组件进行供电。电源122可以是交流电、直流电、一次性电池或可充电电池。当电源122包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
本申请实施例还提供一种计算机可读存储介质的结构框图。该计算机可读介质中存储有程序代码,程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质包括非易失性计算机可读介质(non-transitorycomputer-readablestorage medium)。计算机可读存储介质具有执行上述方法中的任何方法步骤的程序代码的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码可以例如以适当形式进行压缩。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中描述的方法。
综上,本申请提供的一种分子属性预测方法、装置、电子设备及存储介质,在分子属性预测模型训练阶段,利用三维分子图结构和二维分子图结构训练分子属性预测模型中的基础模型和蒸馏模型,使得后续在利用训练后的分子属性预测模型中对待预测分子进行属性预测时,可以仅在线上部署使用蒸馏模型来识别二维分子图结构对应的分子属性,避免了对二维分子图结构对应的三维分子图结构的3D坐标获取极其耗时,造成难以在大规模分子属性预测中用上的情况,也即,采用本申请的分子属性预测模型,可以直接对分子的二维分组图结构进行属性预测,使得该模型可以被广泛的应用,且对分子属性预测效率高,且预测结果准确。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种分子属性预测方法,其特征在于,所述方法包括:
获取待预测分子的二维分子图,所述二维分子图中包含所述待预测分子中的原子的信息、所述待预测分子中原子间的连接关系以及所述待预测分子中用于连接两个原子的化学键的信息;
利用二维分子属性预测模型对所述待预测分子的二维分子图进行特征提取,得到所述待预测分子的分子特征;
利用所述二维分子属性预测模型对所述待预测分子的分子特征进行分子属性预测,得到所述待预测分子的属性预测结果;其中,所述二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,所述训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
2.根据权利要求1所述的方法,其特征在于,所述二维分子属性预测模型包括具有N个第一编码层的第一编码器,所述N为大于1的自然数;
所述利用二维分子属性预测模型对所述待预测分子的二维分子图进行特征提取,得到所述待预测分子的分子特征,包括:
将所述二维分子图的特征表示输入所述第一编码器中;
通过所述第一编码器中每个第一编码层,输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征,其中,第1个第一编码层的输入为所述待预测分子中的原子的信息对应的特征表示,第i个第一编码层的输入为前一个第一编码层输出的原子特征以及所述待预测分子的虚拟分子特征,其中,i为大于1且小于或等于N的整数;
将第N个第一编码层输出的所述待预测分子的虚拟分子特征确定为待预测分子的分子特征。
3.根据权利要求2所述的分子属性预测方法,其特征在于,所述通过所述第一编码器中每个第一编码层,输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征包括:
通过所述第一编码器中每个第一编码层,并基于注意力机制输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征。
4.根据权利要求3所述的方法,其特征在于,所述通过所述第一编码器中每个第一编码层,并基于注意力机制输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征包括:
基于所述化学键的信息的特征表示获取注意力偏置矩阵,所述注意力偏置项矩阵用于表征所述二维分子图中各原子间的相对位置关系;
通过所述第一编码器中每个第一编码层,将第一编码层的输入映射为查询矩阵、键矩阵以及值矩阵;
基于所述查询矩阵、所述键矩阵以及所述注意力偏置项矩阵获取注意力权重;
基于所述注意力权重和所述值矩阵,输出所述待预测分子中的部分原子的特征以及所述待预测分子的虚拟分子特征。
5.根据权利要求1所述的方法,其特征在于,初始的二维分子属性预测模型的第一编码器具有N个第一编码层,所述三维分子属性预测模型的第二编码器与所述初始的二维分子属性预测模型的第一编码器相同且包括N个第二编码层,所述初始的二维分子属性预测模型的每个所述第一编码层用于输出所述二维分子图样本中的部分原子特征和虚拟分子特征,所述三维分子属性预测模型的每个所述第二编码层用于输出所述三维分子图样本中的部分原子特征和虚拟分子特征;所述二维分子属性预测模型的训练包括:
基于同一位置的所述第一编码层和所述第二编码层各自输出的所述虚拟分子特征,得到模型损失,并基于所述模型损失调整所述初始的二维分子属性预测模型的模型参数,得到训练后的二维分子属性预测模型。
6.根据权利要求5所述的方法,其特征在于,所述基于同一位置的所述第一编码层和所述第二编码层各自输出的虚拟分子特征,得到模型损失,包括:
基于同一位置的所述第一编码层和所述第二编码层各自输出的原子特征以及虚拟分子特征,得到模型损失。
7.根据权利要求6所述的方法,其特征在于,所述基于同一位置的所述第一编码层和所述第二编码层各自输出的原子特征以及虚拟分子特征,得到模型损失,包括:
基于同一位置的所述第一编码层和所述第二编码层各自输出的虚拟分子特征得到分子特征损失,基于同一位置的所述第一编码层和所述第二编码层各自输出的原子特征得到原子特征损失;
基于所述二维分子图样本中原子的数量确定所述分子特征损失的分子损失权重和所述原子特征损失的原子损失权重,其中,所述分子损失权重大于所述原子损失权重;
根据分子损失权重和所述原子损失权重对分子特征损失和原子特征损失进行加权求和得到模型损失。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取基于所述二维分子图样本训练所述初始二维分子属性预测模型的过程中的第一模型损失;
所述基于同一位置的所述第一编码层和所述第二编码层各自输出的所述虚拟分子特征,得到模型损失,包括:
基于所述第一模型损失、同一位置的所述第一编码层和所述第二编码层各自输出的所述虚拟分子特征,得到模型损失。
9.根据权利要求1所述的方法,其特征在于,所述三维分子属性预测模型的训练包括:
利用多个具有属性标签的三维分子图样本训练三维分子属性预测模型,得到所述三维分子属性预测模型在训练过程中的第二损失值,所述三维分子图样本中包含所述三维分子图样本的原子的信息、所述三维分子图样本中原子间的连接关系以及所述三维分子图样本中原子间的位置关系;
利用所述第二损失值调整所述三维分子属性预测模型的模型参数,得到训练后的三维分子属性预测模型。
10.根据权利要求9所述的方法,其特征在于,所述三维分子属性预测模型包括具有N个第二编码层的第二编码器,所述N为大于1的自然数,所述利用多个具有属性标签的三维分子图结构训练三维分子属性预测模型,获得所述三维分子属性预测模型在训练过程中的第二损失值,包括:
将所述三维分子图样本的特征表示输入所述第二编码器中;
基于所述位置关系的信息的特征表示获取三维分子样本偏置矩阵,所述三维分子样本偏置矩阵用于表征所述三维分子图中各原子间的相对位置关系;
通过所述第二编码器中每个第二编码层,将第二编码层的输入映射为三维样本查询矩阵、三维样本键矩阵以及三维样本值矩阵;基于所述三维样本查询矩阵、所述三维样本键矩阵以及所述三维分子样本偏置矩阵获取三维样本注意力权重;基于所述三维样本注意力权重和所述三维样本值矩阵,输出所述三维分子图样本中的部分原子的特征以及所述三维分子图样本的虚拟分子特征;
基于第N个第二编码层输出的原子的特征和虚拟分子特征得到三维分子图样本结构对应的分子属性预测结果,基于该分子属性预测结果和所述属性标签获得所述三维分子属性预测模型在训练过程中的第二损失值。
11.一种分子属性预测装置,其特征在于,所述装置包括:
图结构获取模块,用于获取待预测分子的二维分子图,所述二维分子图中包含所述待预测分子中的原子的信息、所述待预测分子中原子间的连接关系以及所述待预测分子中用于连接两个原子的化学键的信息;
特征提取模块,用于利用二维分子属性预测模型对所述待预测分子的二维分子图进行特征提取,得到所述待预测分子的分子特征;
属性预测模块,用于利用所述二维分子属性预测模型对所述待预测分子的分子特征进行分子属性预测,得到所述待预测分子的属性预测结果;其中,所述二维分子属性预测模型基于训练后的三维分子属性预测模型以及具有分子属性标签的分子对应的二维分子图样本和三维分子图样本,对初始二维分子属性预测模型进行蒸馏训练得到,所述训练后的三维分子属性预测模型基于具有分子属性标签的三维分子图样本训练得到。
12.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于执行如权利要求1-10中任意一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-10中任意一项所述的方法。
14.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-10中任意一项所述方法的步骤。
CN202310296071.XA 2023-03-23 2023-03-23 分子属性预测方法、装置、电子设备及存储介质 Pending CN116978481A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310296071.XA CN116978481A (zh) 2023-03-23 2023-03-23 分子属性预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310296071.XA CN116978481A (zh) 2023-03-23 2023-03-23 分子属性预测方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116978481A true CN116978481A (zh) 2023-10-31

Family

ID=88478510

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310296071.XA Pending CN116978481A (zh) 2023-03-23 2023-03-23 分子属性预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116978481A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524353A (zh) * 2023-11-23 2024-02-06 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117524353A (zh) * 2023-11-23 2024-02-06 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用
CN117524353B (zh) * 2023-11-23 2024-05-10 大连理工大学 一种基于多维度分子信息的分子大模型、构建方法及应用

Similar Documents

Publication Publication Date Title
CN111897996B (zh) 话题标签推荐方法、装置、设备及存储介质
CN110599557A (zh) 图像描述生成方法、模型训练方法、设备和存储介质
WO2024041479A1 (zh) 一种数据处理方法及其装置
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
CN114332530A (zh) 图像分类方法、装置、计算机设备及存储介质
CN112989767B (zh) 医学词语标注方法、医学词语映射方法、装置及设备
CN111324699A (zh) 语义匹配的方法、装置、电子设备及存储介质
CN113111917B (zh) 一种基于双重自编码器的零样本图像分类方法及装置
US11763204B2 (en) Method and apparatus for training item coding model
CN112328911B (zh) 地点推荐方法、装置、设备及存储介质
WO2021169366A1 (zh) 数据增强方法和装置
CN111581958A (zh) 对话状态确定方法、装置、计算机设备及存储介质
CN116978481A (zh) 分子属性预测方法、装置、电子设备及存储介质
CN117669512B (zh) 答案生成方法、装置、设备及存储介质
CN113763931B (zh) 波形特征提取方法、装置、计算机设备及存储介质
CN114281936A (zh) 分类方法、装置、计算机设备及存储介质
CN111931075B (zh) 一种内容推荐方法、装置、计算机设备及存储介质
CN113822084A (zh) 语句翻译方法、装置、计算机设备及存储介质
CN111414737B (zh) 故事生成模型训练方法、装置、设备及存储介质
CN117218507A (zh) 图像处理模型训练方法、图像处理方法、装置及电子设备
CN112287070A (zh) 词语的上下位关系确定方法、装置、计算机设备及介质
CN116883708A (zh) 图像分类方法、装置、电子设备及存储介质
CN114328948A (zh) 文本标准化模型的训练方法、文本标准化方法及装置
CN114328815A (zh) 文本映射模型的处理方法、装置、计算机设备及存储介质
CN117852624B (zh) 时序信号预测模型的训练方法、预测方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication