CN115497576B - 基于图神经网络的聚合物性质预测方法和*** - Google Patents
基于图神经网络的聚合物性质预测方法和*** Download PDFInfo
- Publication number
- CN115497576B CN115497576B CN202211437101.6A CN202211437101A CN115497576B CN 115497576 B CN115497576 B CN 115497576B CN 202211437101 A CN202211437101 A CN 202211437101A CN 115497576 B CN115497576 B CN 115497576B
- Authority
- CN
- China
- Prior art keywords
- polymer
- molecular
- file
- property prediction
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于图神经网络的聚合物性质预测方法和***,方法包括:获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;将所述SMILES字符串转换为分子特征矩阵;将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;其中,聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。该方法和***能够契合聚合物性质预测的特点,利用预先训练的聚合物性质预测模型,快速准确地输出聚合物性质。解决了现有技术中聚合物性质测试成本较高,效率较低的技术问题。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于图神经网络的聚合物性质预测方法和***。
背景技术
对于分子来讲,分子包含的所有化学键能的总和是判断该分子活性的重要参考依据,原子化能(atomization energy)可以用来表述分子的能量多少。具体来说,原子化能指将处于气态下的一个基态多原子分子,分解成单个原子的状态所对应的能量变化。同时,带隙(band gap)也反映了电子跃迁的难易程度,带隙是导带的最低点和价带的最高点的能量之差,带隙越大,电子由价带被激发到导带越难。对于聚合物来说,基体的带隙(band gapof bulk)和链的带隙(band gap of chain)都会影响材料最终的性质。电子亲和性(electron affinity)也具备类似的功能,其定义为单位原子或分子获得一个电子,变成-1价离子时放出的能量多少的能力。对元素来说,电子亲和性越大,夺取电子的能力(或称“非金属性”)越强。对用作压电智能材料的聚合物来说,介电常数(dielectric constant)至关重要,介电常数是一个描述材料放入电容器中增加电容器存储电荷能力的物理量。而折光指数(refractive index)是有机化合物最重要的物理常数之一,定义为光在真空中的传播速度与在某介质中传播速度之比。它可作为液体物质纯度的标准,比沸点更为可靠,并且能精确而方便地被测定出来。玻璃化转变是非晶态聚合物材料在较宽的温度范围内发生的一种重要的弛豫现象,是非晶态聚合物固有的性质。而玻璃化转变温度(Glass TransitionTemperature,TG)是聚合物材料由玻璃态转变为高弹态所对应的温度,是聚合物材料的特征温度之一,直接影响到材料的使用性能和工艺性能,决定了材料的使用温度。不同的材料用途要求不同的玻璃化转变温度,例如有机发光二极管的衬底需要聚合物具备极高的玻璃化转变温度。
目前实验测试聚合物的上述性质的方法有仪器分析法(DSC、DMA等)和理论计算法(DFT、MD等),但使用实验或理论计算的方法需要耗费大量的人力物力,且制备出的聚合物材料可能不符合使用需求,造成不必要的成本损耗,导致聚合物性质测试的成本较高,效率较低。
发明内容
为此,本发明实施例提供一种基于图神经网络的聚合物性质预测方法和***,以至少部分解决现有技术中聚合物性质测试成本较高,效率较低的技术问题。
为了实现上述目的,本发明实施例提供如下技术方案:
一种基于图神经网络的聚合物性质预测方法,所述方法包括:
获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;
确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;
将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;
其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。
在一些实施例中,获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件,具体包括:
在所述原始文件为数据文件的情况下,提取所述数据文件的结构数据名称,并以所述结构数据名称作为所述预设文件;
在所述原始文件为结构文件的情况下,将所述结构文件作为所述预设文件。
在一些实施例中,利用聚合物样本训练预先搭建的图神经网络,以得到所述聚合物性质预测模型,具体包括:
获取海量聚合物样本,以形成数据样本集,所述聚合物样本至少包括聚合物名称、聚合物对应的SMILES字符串和聚合物性质;
将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有聚合物样本的特征数据,基于所述特征数据对预先搭建完成的图神经网络进行训练,以得到聚合物性质预测模型。
在一些实施例中,将所述数据样本集划分为训练集与测试集,之前还包括:
将聚合物对应的SMILES字符串转换为分子特征矩阵。
在一些实施例中,将SMILES字符串转换为分子特征矩阵,具体包括:
将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵。
在一些实施例中,将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵,具体包括:
将SMILES转变成MOL文件;
基于MOL文件分别生成每个分子图对应的特征矩阵和连接矩阵;
遍历聚合物样本,基于所述分子图中的分子指纹,生成每个聚合物重复单元SMILES字符串分别生成特征矩阵和连接矩阵。
在一些实施例中,所述图神经网络的网络架构包括2个卷积层、3个batchnormalize层、3个dropout层、2个池化层和2个全连接层。
本发明还提供一种基于图神经网络的聚合物性质预测***,所述***包括:
文件获取单元,用于获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;
字符转换单元,用于确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;
矩阵转换单元,用于将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
结果输出单元,用于将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;
其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。
本发明还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明所提供的基于图神经网络的聚合物性质预测方法和***,通过获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。该方法和***能够契合聚合物性质预测的特点,利用预先训练的聚合物性质预测模型,快速准确地输出聚合物性质。解决了现有技术中聚合物性质测试成本较高,效率较低的技术问题。
附图说明
为了更清楚地说明本发明的实施方式或现有技术中的技术方案,下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图引伸获得其它的实施附图。
本说明书所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本发明可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本发明所能产生的功效及所能达成的目的下,均应仍落在本发明所揭示的技术内容得能涵盖的范围内。
图1为本发明所提供的基于图神经网络的聚合物性质预测方法的流程图之一;
图2为本发明所提供的基于图神经网络的聚合物性质预测方法的流程图之二;
图3为本发明所提供的基于图神经网络的聚合物性质预测方法的流程图之三;
图4为本发明所提供的基于图神经网络的聚合物性质预测方法的流程图之四;
图5为本发明所提供的基于图神经网络的聚合物性质预测方法的流程图之五;
图6为本发明所提供的图神经网络的网络架构图;
图7为本发明所提供的基于图神经网络的聚合物性质预测***的结构框图;
图8为本发明所提供的一种计算机设备的结构框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本发明的其他优点及功效,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了克服现有实验技术和模拟技术对聚合物的本征性质、材料性质中测试成本高、计算准确率较低的缺陷,本发明提供了一种基于图神经网络的聚合物性质预测方法和***,仅需向预先训练的聚合物性质预测模型中传入聚合物单体的SMILES字符串或者结构数据文件,便可预测出该聚合物的相关性质,以便能够简便快捷、低成本、泛化性强地实现聚合物性质的预测。
请参考图1,图1为本发明所提供的基于图神经网络的聚合物性质预测方法的流程示意图之一。
在一种具体实施方式中,本发明所提供的基于图神经网络的聚合物性质预测方法包括以下步骤:
S101:获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;其中原始文件可以是数据文件或结构文件,转换而成的预设文件,为满足后续模型输入所需的特定格式的文件。其中,数据文件的格式可以为csv格式、xlsx格式、xls格式及txt格式,结构文件可以为mol文件、mol2文件及sdf文件等。
S102:确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;其中,SMILES字符串为Simplified Molecular Input Line EntrySystem,即简化分子线性输入规范字符串。
S103:将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
S104:将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。其中,能够预测的聚合物性质可以包括聚合物原子化能(atomization energy)、聚合物基体的带隙(band gap of bulk)、聚合物链的带隙(bandgap of chain)、HSE带隙(HSE Band Gap)、介电常数(dielectric constant)、电子亲和性(electron affinity)、折光指数(refractive index)和玻璃化转变温度(glasstransition temperature,TG)等。
在一些实施例中,在所述原始文件为数据文件的情况下,提取所述数据文件的结构数据名称,并以所述结构数据名称作为所述预设文件。具体地,在得到待预测聚合物的SMILES字符串后,将待预测聚合物的SMILES字符串转换为分子特征矩阵。随后,将分子特征矩阵传入预先训练的聚合物性质预测模型,最终输出聚合物的指定性质的预测值。
在一个具体使用场景中,如图2所示,在该使用场景下,本发明所提供的聚合物性质预测方法应用于聚合物性质预测平台,使用平台的读取数据文件单元及获取结构数据名称单元以得到待预测聚合物单体的SMILES字符串,再将获取的聚合物单体的SMILES字符串或结构文件传入平台嵌入的预训练的聚合物性质预测模型,即可快速预测聚合物的相应性质。
具体地,在上述具体使用场景中,使用聚合物性质预测平台的读取数据文件单元上传待预测聚合物的SMILES字符串及名称等信息,这里读取数据文件单元可读取csv格式、xlsx格式、xls格式及txt格式的数据文件,且读取数据文件单元可自动获取数据文件的列名。随后,在获取结构数据名称单元输入SMILES字符串的列名,以提取待预测聚合物的SMILES字符串。将待预测聚合物的SMILES字符串传入预训练的聚合物性质预测模型,即可快速预测聚合物的相应性质。
更具体地,聚合物性质预测平台的聚合物性质预报单元可自动将聚合物单体的SMILES字符串转换为与所述步骤S103具有相同格式的分子特征矩阵。随后,传入图神经网络,使用预训练的图神经网络的参数对输入层的神经元做相同操作,最终从最后一个全连接层输出聚合物的相应性质的预测值。上述聚合物的性质预报单元可直接查看聚合物性质的预测值,其提供聚合物名称、SMILES字符串、聚合物性质预报值及聚合物结构的展示,并支持表格和结构下载功能。
在另一些实施例中,在所述原始文件为结构文件的情况下,将所述结构文件作为所述预设文件。具体地,使用上述聚合物性质预测平台的读取结构文件单元读取待预测聚合物单体的结构文件,这里读取结构文件单元支持读取mol文件、mol2文件及sdf文件,聚合物性质预报单元可直接将结构文件转换为SMILES字符串。对SMILES字符串的处理及模型的预测方式与上述过程相同,不做赘述。
在另一个具体使用场景中,如图3所示,使用上述聚合物性质预测平台的读取结构文件单元读取待预测聚合物单体的结构文件。具体地,读取结构文件单元支持读取mol文件、mol2文件及sdf文件,聚合物性质预报单元可直接将结构文件转换为SMILES字符串,然后运行***,即可获得预测的相应性质。更具体地,聚合物性质预报单元中对SMILES字符串的处理及模型的预测方式与第一种实现方式相同的。更具体地,聚合物的相应性质预报单元同样可直接查看聚合物性质的预测值,其提供聚合物结构名、SMILES字符串、相应性质预报值及聚合物结构的展示,并支持表格文件数据和结构文件数据下载功能。
进一步地,如图4所示,利用聚合物样本训练预先搭建的图神经网络,以得到所述聚合物性质预测模型,具体包括以下步骤:
S401:获取海量聚合物样本,以形成数据样本集,所述聚合物样本至少包括聚合物名称、聚合物对应的SMILES字符串和聚合物性质。例如,将从文献中收集到的10308条聚合物性质样本及其对应的聚合物重复单元SMILES字符串作为数据集样本,数据和学习结果如表1所示。其中,聚合物性质可分为原子化能(atomization energy)、聚合物基体的带隙(band gap of bulk)、聚合物链的带隙(band gap of chain)、HSE带隙(HSE Band Gap)、介电常数(dielectric constant)、电子亲和性(electron affinity)、折光指数(refractiveindex)和玻璃化转变温度(TG)等8种聚合物常见性质。
表1聚合物性质、数据量及训练集、测试集评估指标(R2)
性质 | 数据量 | <![CDATA[训练集R<sup>2</sup>]]> | <![CDATA[测试集R<sup>2</sup>]]> |
原子化能(atomization energy) | 390 | 0.98 | 0.93 |
聚合物基体的带隙(band gap of bulk) | 561 | 0.98 | 0.92 |
聚合物链的带隙-a(band gap of chain-a) | 3380 | 0.97 | 0.90 |
聚合物链的带隙-b(band gap chain-b) | 4209 | 0.95 | 0.87 |
HSE带隙(HSE Band Gap) | 284 | 0.98 | 0.84 |
介电常数(dielectric constant) | 382 | 0.99 | 0.70 |
电子亲和性(electron affinity) | 368 | 0.99 | 0.78 |
折光指数(refractive index) | 382 | 0.95 | 0.83 |
玻璃化转变温度(TG) | 352 | 0.99 | 0.73 |
其中,band gap chain性质来自两个不互斥的数据集band gap chain-a和bandgap chain-b,可根据预测效果综合判断选取更合适的数据集。
S402:将聚合物对应的SMILES字符串转换为分子特征矩阵;
S403:将所述数据样本集划分为训练集与测试集,例如,可将训练集和测试集的划分比例设置为训练集:测试集=0.8:0.2。
S404:提取所述训练集中的所有聚合物样本的特征数据,基于所述特征数据对预先搭建完成的图神经网络进行训练,以得到聚合物性质预测模型。
在一些实施例中,将SMILES字符串转换为分子特征矩阵,具体包括:
将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵。
更为具体地是,将从数据库中收集到的聚合物名称、聚合物单体SMILES字符串及聚合物的相应性质作为数据集样本;而后使用ConvMolFeaturizer方法将聚合物单体SMILES字符串转变成分子图(molecular graph),结合分子指纹形成分子特征矩阵。将数据集划分为训练集与测试集,并对预先构建的图神经网络进行训练,该图神经网络架构包括2个卷积层、3个batch normalize层、3个dropout层、2个池化层和2个全连接层。
而后,以上述数据集样本中的聚合物一种或多种性质为目标变量,以分子特征矩阵为自变量,基于训练集对预先构建的图神经网络进行训练,以得到聚合物性质预测模型。在对模型进行验证时,仍以聚合物性质为目标变量,以分子特征矩阵为自变量,并将20%的原始数据作为训练网络时使用的验证集,以完成模型验证。可将预训练的图神经网络在平台上封装为能够完成聚合物性质预测的上述性质预报单元。
在一些实施例中,将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵,具体包括:
将SMILES转变成MOL文件;
基于MOL文件分别生成每个分子图对应的特征矩阵和连接矩阵;
遍历聚合物样本,基于所述分子图中的分子指纹,生成每个聚合物重复单元SMILES字符串分别生成特征矩阵和连接矩阵。
具体地,如图5所示,使用ConvMolFeaturizer方法生成每个分子对应的特征矩阵和连接矩阵的具体步骤如下:
步骤S501,归纳整理SMILES字符串,使用MolFromSmiles方法将SMILES转变成MOL文件。
步骤S502,将MOL文件传入ConvMolFeaturizer可生成每个分子图对应的特征矩阵和连接矩阵。
步骤S503,遍历数据集样本中的所有聚合物样本,根据分子图表示,最终每个聚合物重复单元SMILES字符串都可返回一个特征矩阵和连接矩阵;
步骤S504,根据所述步骤S503的特征矩阵和连接矩阵,形成模型的输入,完成聚合物重复单元的特征化。
在一些实施例中,所述图神经网络的网络架构包括2个卷积层、3个batchnormalize层、3个dropout层、2个池化层和2个全连接层。网络架构可见图6,具体的每一层结构如下:
Conv1层是卷积层,使用64个卷积核,得到64组大小为相同的特征映射,通过Relu激活函数得到C1特征矩阵;
BN1层是batch normalize(归一化)层,将经过卷积得到的特征矩阵进行归一化,使每一层的值在有效的范围内传递下去;
DP1层是dropout层,其通过阻止特征检测器的共同作用来提高神经网络的性能进而避免模型过拟合;
GP1层是池化层,以特定方式对每个小块内的值进行处理,得到压缩数据和参数的量后的特征矩阵;
Conv2层是卷积层,使用64个卷积核,得到64组大小为相同的特征映射,通过Relu激活函数得到C2特征矩阵;
BN2层是batch normalize层,将经过卷积得到的特征矩阵进行归一化,使每一层的值在有效的范围内传递下去;
DP2层是dropout层,其通过阻止特征检测器的共同作用来提高神经网络的性能进而避免模型过拟合;
GP2层是池化层,以特定方式对每个小块内的值进行处理,得到压缩数据和参数的量后的特征矩阵;
Dense层是全连接层,分别有128个神经元和2个神经元,使用Relu激活函数得到输出值;
Outputs层为具有2个神经元的输出层。
在上述具体实施方式中,本发明所提供的基于图神经网络的聚合物性质预测方法,通过获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。该方法和***能够契合聚合物性质预测的特点,利用预先训练的聚合物性质预测模型,快速准确地输出聚合物性质。解决了现有技术中聚合物性质测试成本较高,效率较低的技术问题。
此外,本发明与现有技术相比,还具有以下实质性特点与优点:
本发明方法预报聚合物性质简单、快捷,把聚合物的SMILES字符串或者结构数据文件传入***,仅需数秒就可以得到计算结果;
本发明方法对聚合物的种类没有限制,预报模型具有普适性;
本发明方法基于图神经网络构建聚合物性质的预测***,相较于分子动力学,预测聚合物性质拥有更高的准确率。
除了上述方法,本发明还提供一种基于图神经网络的聚合物性质预测***,如图7所示,所述***包括:
文件获取单元701,用于获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;
字符转换单元702,用于确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;
矩阵转换单元703,用于将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
结果输出单元704,用于将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;
其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。
在一些实施例中,获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件,具体包括:
在所述原始文件为数据文件的情况下,提取所述数据文件的结构数据名称,并以所述结构数据名称作为所述预设文件;
在所述原始文件为结构文件的情况下,将所述结构文件作为所述预设文件。
在一些实施例中,利用聚合物样本训练预先搭建的图神经网络,以得到所述聚合物性质预测模型,具体包括:
获取海量聚合物样本,以形成数据样本集,所述聚合物样本至少包括聚合物名称、聚合物对应的SMILES字符串和聚合物性质;
将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有聚合物样本的特征数据,基于所述特征数据对预先搭建完成的图神经网络进行训练,以得到聚合物性质预测模型。
在一些实施例中,将所述数据样本集划分为训练集与测试集,之前还包括:
将聚合物对应的SMILES字符串转换为分子特征矩阵。
在一些实施例中,将SMILES字符串转换为分子特征矩阵,具体包括:
将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵。
在一些实施例中,将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵,具体包括:
将SMILES转变成MOL文件;
基于MOL文件分别生成每个分子图对应的特征矩阵和连接矩阵;
遍历聚合物样本,基于所述分子图中的分子指纹,生成每个聚合物重复单元SMILES字符串分别生成特征矩阵和连接矩阵。
在一些实施例中,所述图神经网络的网络架构包括2个卷积层、3个batchnormalize层、3个dropout层、2个池化层和2个全连接层。
在上述具体实施方式中,本发明所提供的基于图神经网络的聚合物性质预测***,通过获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。该方法和***能够契合聚合物性质预测的特点,利用预先训练的聚合物性质预测模型,快速准确地输出聚合物性质。解决了现有技术中聚合物性质测试成本较高,效率较低的技术问题。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和模型预测。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的模型预测用于存储静态信息和动态信息数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述方法实施例中的步骤。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
与上述实施例相对应的,本发明实施例还提供了一种计算机存储介质,该计算机存储介质中包含一个或多个程序指令。其中,所述一个或多个程序指令用于被一种砝码检定***执行如上所述的方法。
本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述方法。
在本发明实施例中,处理器可以是一种集成电路芯片,具有信号的处理能力。处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。处理器读取存储介质中的信息,结合其硬件完成上述方法的步骤。
存储介质可以是存储器,例如可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。
其中,非易失性存储器可以是只读存储器(Read-Only Memory,简称ROM)、可编程只读存储器(Programmable ROM,简称PROM)、可擦除可编程只读存储器(Erasable PROM,简称EPROM)、电可擦除可编程只读存储器(Electrically EPROM,简称EEPROM)或闪存。
易失性存储器可以是随机存取存储器(Random Access Memory,简称RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,简称SRAM)、动态随机存取存储器(Dynamic RAM,简称DRAM)、同步动态随机存取存储器(Synchronous DRAM,简称SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,简称DDRSDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,简称ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,简称SLDRAM)和直接内存总线随机存取存储器(DirectRambus RAM,简称DRRAM)。
本发明实施例描述的存储介质旨在包括但不限于这些和任意其它适合类型的存储器。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件与软件组合来实现。当应用软件时,可以将相应功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (8)
1.一种基于图神经网络的聚合物性质预测方法,其特征在于,所述方法包括:
获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;
确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;
将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;
其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的;
利用聚合物样本训练预先搭建的图神经网络,以得到所述聚合物性质预测模型,具体包括:
获取海量聚合物样本,以形成数据样本集,所述聚合物样本至少包括聚合物名称、聚合物对应的SMILES字符串和聚合物性质;
将所述数据样本集划分为训练集与测试集;
提取所述训练集中的所有聚合物样本的特征数据,基于所述特征数据对预先搭建完成的图神经网络进行训练,以得到聚合物性质预测模型;
在训练过程中,将从数据库中收集到的聚合物名称、聚合物单体SMILES字符串及聚合物的相应性质作为数据集样本;而后将聚合物单体SMILES字符串转变成分子图,结合分子指纹形成分子特征矩阵;将数据集划分为训练集与测试集,并对预先构建的图神经网络进行训练,该图神经网络架构包括2个卷积层、3个batch normalize层、3个dropout层、2个池化层和2个全连接层;而后,以数据集样本中的聚合物一种或多种性质为目标变量,以分子特征矩阵为自变量,基于训练集对预先构建的图神经网络进行训练,以得到聚合物性质预测模型。
2.根据权利要求1所述的基于图神经网络的聚合物性质预测方法,其特征在于,获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件,具体包括:
在所述原始文件为数据文件的情况下,提取所述数据文件的结构数据名称,并以所述结构数据名称作为所述预设文件;
在所述原始文件为结构文件的情况下,将所述结构文件作为所述预设文件。
3.根据权利要求2所述的基于图神经网络的聚合物性质预测方法,其特征在于,将所述数据样本集划分为训练集与测试集,之前还包括:
将聚合物对应的SMILES字符串转换为分子特征矩阵。
4.根据权利要求1-3任一项所述的基于图神经网络的聚合物性质预测方法,其特征在于,将SMILES字符串转换为分子特征矩阵,具体包括:
将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵。
5.根据权利要求4所述的基于图神经网络的聚合物性质预测方法,其特征在于,将所述SMILES字符串转变成分子图,基于所述分子图中的分子指纹生成分子特征矩阵,具体包括:
将SMILES转变成MOL文件;
基于MOL文件分别生成每个分子图对应的特征矩阵和连接矩阵;
遍历聚合物样本,基于所述分子图中的分子指纹,生成每个聚合物重复单元SMILES字符串分别生成特征矩阵和连接矩阵。
6.一种基于图神经网络的聚合物性质预测***,其特征在于,所述***包括:
文件获取单元,用于获取待预测聚合物的原始文件,并将所述原始文件转换为预设文件;
字符转换单元,用于确定所述待预测聚合物中的重复单元,将所述重复单元对应的所述预设文件转换为SMILES字符串;
矩阵转换单元,用于将所述SMILES字符串转换为分子特征矩阵,所述分子特征矩阵包括待预测聚合物中每个分子对应的特征矩阵,以及各分子内的连接矩阵;
结果输出单元,用于将所述分子特征矩阵输入预先训练的聚合物性质预测模型,以得到所述待预测聚合物的性质预测值;
其中,所述聚合物性质预测模型是基于预先搭建的图神经网络利用聚合物样本进行训练得到的。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437101.6A CN115497576B (zh) | 2022-11-17 | 2022-11-17 | 基于图神经网络的聚合物性质预测方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211437101.6A CN115497576B (zh) | 2022-11-17 | 2022-11-17 | 基于图神经网络的聚合物性质预测方法和*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115497576A CN115497576A (zh) | 2022-12-20 |
CN115497576B true CN115497576B (zh) | 2023-04-07 |
Family
ID=85115978
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211437101.6A Active CN115497576B (zh) | 2022-11-17 | 2022-11-17 | 基于图神经网络的聚合物性质预测方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115497576B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117935971B (zh) * | 2024-03-22 | 2024-06-21 | 中国石油大学(华东) | 基于图神经网络的深层钻井液处理剂性能预测评价方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111755078B (zh) * | 2020-07-30 | 2022-09-23 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN114613450A (zh) * | 2022-03-09 | 2022-06-10 | 平安科技(深圳)有限公司 | 药物分子的性质预测方法、装置、存储介质及计算机设备 |
CN114613425A (zh) * | 2022-03-10 | 2022-06-10 | 中国石油大学(华东) | 一种基于图卷积和相似性的药物-靶点相互作用预测算法 |
CN115274008A (zh) * | 2022-08-08 | 2022-11-01 | 苏州创腾软件有限公司 | 基于图神经网络的分子性质预测方法和*** |
-
2022
- 2022-11-17 CN CN202211437101.6A patent/CN115497576B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115497576A (zh) | 2022-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115497576B (zh) | 基于图神经网络的聚合物性质预测方法和*** | |
CN110544155B (zh) | 用户信用评分的获取方法、获取装置、服务器及存储介质 | |
Miró et al. | Multiple imputation of rainfall missing data in the Iberian Mediterranean context | |
Triantis et al. | The island species–area relationship: biology and statistics | |
CN107944610B (zh) | 预测事件流行度方法、服务器及计算机可读存储介质 | |
Distante et al. | Support vector machines for olfactory signals recognition | |
Chen et al. | A computational structure–property relationship study of glass transition temperatures for a diverse set of polymers | |
CN111505740B (zh) | 气象预测方法、装置、计算机设备和存储介质 | |
CN115274008A (zh) | 基于图神经网络的分子性质预测方法和*** | |
Solan et al. | Wave digital emulation of general memristors | |
CN112434216A (zh) | 一种投资项目的智能推介方法、装置、存储介质和计算机设备 | |
CN115062501A (zh) | 一种基于自适应子问题选择策略的芯片封装设计优化方法 | |
CN113360300B (zh) | 接口调用链路生成方法、装置、设备及可读存储介质 | |
CN111552696A (zh) | 基于大数据的数据处理方法、装置、计算机设备和介质 | |
CN110765351A (zh) | 目标用户识别方法、装置、计算机设备和存储介质 | |
CN117175664A (zh) | 基于使用场景的储能充电设备输出功率自适应调节*** | |
CN116486938A (zh) | 一种双钙钛矿化合物形成性的预测方法和装置 | |
CN112883267A (zh) | 基于深度学习的数据热度统计方法及装置 | |
CN114819781A (zh) | 环境容量计算方法、装置、计算机设备及存储介质 | |
CN116304710A (zh) | 补充样本生成方法、装置、设备和存储介质 | |
CN115796382A (zh) | 一种区域供暖负荷预测方法、装置、设备及存储介质 | |
CN114398228A (zh) | 一种设备资源使用情况的预测方法、装置及电子设备 | |
CN115423159A (zh) | 光伏发电预测方法、装置及终端设备 | |
CN115062181A (zh) | 基于卷积神经网络的聚合物玻璃化转变温度预测方法 | |
CN116030911A (zh) | 基于lstm神经网络的硅橡胶材料性能预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |