CN112509644A - 一种分子优化方法、***、终端设备及可读存储介质 - Google Patents
一种分子优化方法、***、终端设备及可读存储介质 Download PDFInfo
- Publication number
- CN112509644A CN112509644A CN202011502775.0A CN202011502775A CN112509644A CN 112509644 A CN112509644 A CN 112509644A CN 202011502775 A CN202011502775 A CN 202011502775A CN 112509644 A CN112509644 A CN 112509644A
- Authority
- CN
- China
- Prior art keywords
- molecule
- source
- branch
- molecular
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000005457 optimization Methods 0.000 title claims abstract description 38
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000005520 cutting process Methods 0.000 claims abstract description 29
- 230000014759 maintenance of location Effects 0.000 claims abstract description 21
- 238000004590 computer program Methods 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 18
- 238000009826 distribution Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 229910052729 chemical element Inorganic materials 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000379 polymerizing effect Effects 0.000 claims description 4
- 239000000126 substance Substances 0.000 abstract description 8
- 230000015572 biosynthetic process Effects 0.000 abstract description 2
- 238000003786 synthesis reaction Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 208000019300 CLIPPERS Diseases 0.000 description 1
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 229910052794 bromium Inorganic materials 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 229910052801 chlorine Inorganic materials 0.000 description 1
- 208000021930 chronic lymphocytic inflammation with pontine perivascular enhancement responsive to steroids Diseases 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000011701 zinc Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/50—Molecular design, e.g. of drugs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/08—Probabilistic or stochastic CAD
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Geometry (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请属于数据合成技术领域,特别是涉及一种分子优化方法、***、终端设备及可读存储介质。当目标分子化学结构较为复杂时,已有***表现较差。本申请提供了一种分子优化方法,所述方法包括:获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;将所述源分子转换为简化分子线性输入规范字符串,所述简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;将所述源分子保留区域与所述简化分子线性输入规范字符串拼接获得所述目标分子。大大降低***错误率。
Description
技术领域
本申请属于数据合成技术领域,特别是涉及一种分子优化方法、***、终端设备及可读存储介质。
背景技术
分子优化任务的定义:给定一个源分子,输入一个分子优化(生成)器,该优化器可将该源分子转换为另一个分子(目标分子),且这个目标分子与源分子化学结构较为相似,但某些其它化学属性却得到了较大提升(如,分子水溶性)。
现有方法将图生成任务转换为了一个序列化的决策过程。在这个序列中每个元素都是一个具体的决策,主要有三种不同的可选决策:1)是否在当前时刻添加一个新节点(不再添加新节点即认为是生成过程结束);2)是否在当前时刻添加一条新的边;3)选取一个节点与当前的新节点相连。完整的生成过程从一个空的分子图开始,每个时刻执行一次以上决策。基于此图生成范式,有人进一步将强化学习的因素加入了进来,定义出了标准强化学习模型所用到的状态空间、动作空间和奖励函数。但是总体的分子生成逻辑并没有变化。
目标分子的解空间过大(对源分子做任何一点修改就能得到一个备选目标分子)。这些方法都以一个源分子为线索,然后优化模型以从无到有的方式,从一个空的分子图开始,每次生成一个节点并与之前已生成节点建立化学键连接,直到获得一个生成结束信号。由于目标分子往往分子规模比较大(包含较多节点),已有优化***既无法保证生成分子和源分子的相似性,也无法保证属性提升;而且计算资源耗费过多。
发明内容
1.要解决的技术问题
基于现有的分子优化方法均可归为一种“从无到有”的分子生成过程,被优化的目标分子的生成是从一个空图开始直到得到完整的目标分子的过程。当目标分子化学结构较为复杂时,已有***表现较差的问题,本申请提供了一种分子优化方法、***、终端设备及可读存储介质。
2.技术方案
为了达到上述的目的,本申请提供了一种分子优化方法,所述方法包括:获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。
本申请提供的另一种实施方式为:所述裁剪包括:解析所述源分子的待裁剪区域,根据所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述源分子保留区域。
本申请提供的另一种实施方式为:所述解析所述源分子的待裁剪区域包括:遍历所述源分子中的节点一,遍历所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同;遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录;取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
本申请提供的另一种实施方式为:所述确定裁剪中心包括:获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
本申请提供的另一种实施方式为:所述确定裁剪分支包括:获取分支三的向量表示三,所述分支三为所述裁剪中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的保留概率,对所述分支三的保留与否做出决策。
本申请提供的另一种实施方式为:将所述源分子转换为简化分子线性输入规范字符串包括:将所述源分子转换为标准的简化分子线性输入规范表示,获取所述源分子的编码表示;对所述源分子的编码表示进行处理获取新的简化分子线性输入规范。
本申请提供的另一种实施方式为:将所述源分子保留区域与所述简化分子线性输入规范字符串拼接获得所述目标分子包括:将所述新的简化分子线性输入规范转换为分子图;将所述分子图与所述源分子保留区域进行合并,生成所述目标分子。
本申请还提供一种分子优化***,所述***包括:分子剪裁单元,用于确定源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;时间序列单元,用于将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;分子拼接单元,用于将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。
可选地,所述分子剪裁单元包括解析模块和分子剪裁器;所述时间序列单元包括第一时间序列模块和第二时间序列模块,所述分子拼接单元包括分子拼接模块;所述解析模块,用于解析源分子的待裁剪区域;所述分子剪裁器,用于预测分子保留区域;所述第一时间序列模块,用于获取整个源分子的编码表示;所述第二时间序列模块,用于获取新的简化分子线性输入规范;所述分子拼接模块,用于生成目标分子。所述分剪裁单元还包括数据库和分子对匹配模块,所述数据库,用于提供分子对数据;所述分子对匹配模块,用于从所述数据库获取符合条件的分子对,每个所述分子对包括一个源分子和一个目标分子。
可选地,所述第一时间序列单元为编码器,所述第二时间序列单元为解码器;所述分子拼接模块包括分子图转换子模块和合并子模块,所述分子图转换子模块将所述新的简化分子线性输入规范转换为分子图,所述合并子模块将所述分子图与所述保留区域合并生成目标分子。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述的方法。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所属计算机程序被处理器执行时实现所述的方法。
3.有益效果
与现有技术相比,本申请提供的一种分子优化方法、***、终端设备及可读存储介质的有益效果在于:
本申请提供的分子优化***,包括分子裁剪器,通过所述分子裁剪器获得保留区域,能够大大降低要生成的余下分子结构的规模,大大降低***错误率。
本申请提供的分子优化方法,通过分子裁剪策略来找到源分子和目标分子中的共用分子子结构,从而提高最终分子生成的准确率和效率。
本申请提供的分子优化方法,基于一个普遍现象:分子优化任务中的源分子和目标分子间往往存在较强的图结构上的关联性,即存在大量相同的子分子结构,因此将这些相同结构保留下来,只对余下的不同部分进行生成,能够大大提高模型优化的精度。
本申请提供的分子优化方法,“从无到有”的分子生成方式还存在一个致命的问题就是巨大的计算量,但如果能够将源分子和目标分子中共同的子分子结构预先保留下来,那么真正需要生成的余下的分子部分就会大大减少,从而降低方法对计算资源的消耗。
附图说明
图1是本申请的分子对示例示意图;
图2是本申请的裁剪过程示意图;
图3是本申请的编码器-解码器框架示意图;
图4是本申请的分子优化***示意图;
图5是本申请的终端设备结构示意图。
具体实施方式
在下文中,将参考附图对本申请的具体实施例进行详细地描述,依照这些详细的描述,所属领域技术人员能够清楚地理解本申请,并能够实施本申请。在不违背本申请原理的情况下,各个不同的实施例中的特征可以进行组合以获得新的实施方式,或者替代某些实施例中的某些特征,获得其它优选的实施方式。
因为整个生成步骤需要在每一步预测新增的节点和化学键,那么执行的步骤数就与目标分子的规模成正比。当目标分子越大,计算资源资源的消耗现象也就越严重。
SMILES(Simplified molecular input line entry specification),简化分子线性输入规范,是一种用ASCII字符串明确描述分子结构的规范。提出了一种针对分子图的字符串表示方法及工具,输入一个分子图结构,SMILES能给出一个对应的字符表示。本申请的目标分子生成过程主要借助了这个分子表示方法,但是需要指出的是SMILES本身不能直接分子生成。本申请只是利用SMILES来对源分子和目标分子进行编码表示。
本申请实施例提供的分子优化方法可以应用于平板电脑、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer,UMPC)、上网本、个人数字助理(personaldigital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
例如,所述终端设备可以是WLAN中的站点(STAION,ST),可以是个人数字处理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、电脑、膝上型计算机、手持式通信设备、手持式计算设备、卫星无线设备、无线调制解调器卡。
参见图1~5,本申请提供一种分子优化方法,所述方法包括:获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构。预测出一个源分子保留区域,并将不处于源分子保留区域的分子子结构全部裁剪移除。通过这个步骤,能够降低生成的余下分子结构的规模,降低错误率。
在训练阶段,获取分子对数据,每个所述分子对包括一个源分子和一个目标分子。选定任意一个分子数据库,该库中包含各种不同的分子,如ZINC数据库。训练阶段的目标分子是已知的;在进行测试时,则目标分子是未知的,采用给定的源分子根据目标分子对该源分子进行处理。
将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分。即生成目标分子的余下部分。
将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。
进一步地,所述裁剪包括:解析所述源分子的待裁剪区域,根据所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述源分子保留区域。
进一步地,所述解析所述源分子的待裁剪区域包括:
遍历所述源分子中的节点一,遍历所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同;该节点一如图2中的源分子C1,该节点二如图2中的目标分子C1。
遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录。
这里的分支一为节点一的所有分支,该分支二为节点二的所有分支。
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
具体的,遍历所述源分子中的所有原子i即节点i(如图1或2中的源分子C1):遍历目标分子中所有原子j即节点j,该原子j与所述原子i的化学元素完全相同(如图1或2中的目标分子C1):遍历该原子i和该原子j的所有分支,得到该原子i分支和该原子j的分支中相同分支,将该相同分支中的原子总数记为si,j。
其中,分支为围绕某节点,与其相连的另一个节点所扩展出的区域。如(C2、H3、H4、H5)、(H6)、(H7)和(C8、H9)分别为图1或2中源分子节点C1的4个分支。
如图1或2所示,所述源分子C1和所述目标分子C1有2个完全相同的分支,即(C2、H3、H4、H5)和(H6),那么所述相同分支中的原子总数si,j=5。
将数值最大的si,j作为si的数值,并记录与所述原子i对应的原子j。
将数值最大的si中的原子i赋予cte,该数值最大的si中的原子i即为裁剪中心,并记录与cte相对应的原子j。
另外,针对所有si,将其转换为归一化后的概率分布,以便于模型学习:
其中VX表示源分子中的所有原子的集合,exp(.)为指数函数。
ste i即为归一化后的分布。所述源分子cte中与所述原子j对应的相同分支(可以是多个)即为保留区域;其它分支则为待裁剪区域。每个分支都用1/0表示保留与删除,整体用变量表示U,例如U={(C2、H3、H4、H5):1,(H6):1,(H7):0,(C8、H9):0},此分布即为模型训练所需要拟合的分布。
另外,将j中存在但cte中不存在的分支标记为“待生成”,如图2中目标分子围绕C1的分支O7,并将该待生成的分支子图转换为SMILES的字符串表示。
综上,本申请提供的分子优化方法通过生成最小的分子子结构即能完成对源分子的优化。
这里的节点选取原子进行表示。
在训练阶段,由于目标分子为已知,则可以匹配分子对,确定分子优化任务目标获取符合条件的分子对。
首先确定分子优化任务目标或者约束,本申请的分子优化任务目标或者约束可以是需要生成的分子水溶性更高、且具有与源分子较为相似的目标分子,但也不限于其他方面的应用。现有的开源工具可提供计算一个分子的相关属性和分子相似性的功能,该开源工具可以是RDKIT。根据该分子优化任务目标或者约束,遍历分子数据库后获取符合条件的分子对。图1即为一个抽取到的分子对。
进一步地,所述确定裁剪中心包括:获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
具体的,采用Graph message-passing networks(MPNs)对所述源分子进行表示学习,例如,可以通过预先设置的公式:
计算得到每个节点(原子)的向量表示,即向量表示一。
其中,xi是节点(原子)i的特征表示,xi,j是节点i和j之间边(化学键)的特征表示,mt i,j表示t时刻节点i向j传递的信息,N(i)表示i的所有邻居节点,N(i)\j表示除j以外的所有i的邻居节点,f1和f2均为神经网络。经过个循环后,得到最终节点i的表示hi。其中原子和化学键的特征表示可以用简单的one-hot编码。
将该向量表示一再进行聚合得到整个源分子的向量表示即向量表示二:
结合该向量表示一和该向量表示二,通过如下公式预测i节点作为裁剪中心的概率:
si=f3([hX,hi])
其中[,]表示向量拼接操作,f3是一个标准的神经网络。
同ste i的获取一样,通过如下公式对si进行归一化:
其中sst i数值最大的节点即为预测的裁剪中心cst。
在模型训练阶段,sst i需要配合损失函数(如KL散度距离)拟合ste i的标记值。测试阶段只需要输出取sst i最大数值对应的节点作为裁剪中心cst即可。
进一步地,所述确定裁剪分支包括:获取分支三的向量表示三,所述分支三为所述裁剪中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的保留概率,对所述分支三的保留与否做出决策。
这里的分支三为裁剪中心的任一分支。
具体的,根据裁剪中心预测围绕裁剪中心的每个分支,决策保留的分支和删除的分支。通过所述向量表示一hi通过如下公式获得任意分支的向量表示:
然后,通过神经网络来预测该分支j的保留概率:
其中,f4是一个标准的神经网络,σ为sigmoid函数,和分别是反应中心的向量表示、当前待决策是否保留的分支向量表示和已确定保留分支的向量表示。输出大于等于0.5表示保留,小于0.5则删除。关于t-1表示上一次迭代序号,每一次迭代模型都需要对一个分支的保留/删除做出决策,如果决定保留下来,则分支就被加入集合Ust t-1,该集合中每个元素都是一个子图。
即可获得完整的裁剪后保留区域。如图2所示,阴影部分为保留部分,方框区域为被删除的。
在测试阶段,只要按照如上过程直接得到输出即可。而在训练阶段,这里的输出需要与所述U拟合,可以采用两者之间的交叉熵作为损失函数。
进一步地,将所述源分子转换为简化分子线性输入规范字符串包括:将所述源分子转换为标准的简化分子线性输入规范表示,获取所述源分子的编码表示;对所述源分子的编码表示进行处理获取新的简化分子线性输入规范。
具体的,将所述源分子转换为标准的简化分子线性输入规范(SMILES)表示,采用第一长短期记忆网络按照字符出现顺序对所述简化分子线性输入规范字符进行编码;所述源分子的编码表示通过第二长短期记忆网络解码出新的简化分子线性输入规范字符串。
进一步地,将所述源分子保留区域与所述简化分子线性输入规范字符串拼接获得所述目标分子包括:将所述新的简化分子线性输入规范转换为分子图;将所述分子图与所述源分子保留区域进行合并,生成所述目标分子。
具体的,将所述SMILES转换为分子图表示形式,再将该SMILES表示中的第一个原子(即裁剪中心)与所述源分子保留区域拼接合并得到最终的完整目标分子。
如图4所示,本申请还提供一种分子优化***,所述***包括:分子剪裁单元1,用于确定源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;所述分子剪裁单元1包括所述分子剪裁单元包括解析模块和分子剪裁器;所述解析模块,用于解析源分子的待裁剪区域;所述分子剪裁器,用于预测分子保留区域。
所述分子剪裁单元1还包括数据库和分子对匹配模块,所述数据库,用于提供分子对数据;所述分子对匹配模块,用于从所述数据库获取符合条件的分子对,每个所述分子对包括一个源分子和一个目标分子;在测试阶段由于目标分子未知不需要调用分子对匹配模块,在训练阶段则需要通过分子对匹配模块来选择分子对。
时间序列单元2,用于将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;所述时间序列单元2所述时间序列单元包括第一时间序列模块和第二时间序列模块,所述第一时间序列模块,用于获取整个源分子的编码表示;所述第二时间序列模块,用于获取新的简化分子线性输入规范。
分子拼接单元3,用于将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。所述分子拼接单元3包括分子拼接模块;所述分子拼接模块,用于生成目标分子。
所述分子拼接模块包括分子图转换子模块和合并子模块,所述分子图转换子模块将所述新的简化分子线性输入规范转换为分子图,所述合并子模块将所述分子图与所述保留区域合并生成目标分子。
所述第一时间序列单元为编码器,所述第二时间序列单元为解码器。
该部分总体采用解码器-编码器框架,如图3所示。
具体的,编码器(Encoder)是将输入分子转换成SMILES表示,然后采用标准的longshort-term memory(LSTMs)网络按照字符出现顺序对该SMILES字符进行编码。将最后一个时刻LSTMs的隐藏状态作为编码器的最终输出C。
解码器(Decoder)是通过与上述编码器不同的LSTMs来解码出一段SMILES字符串,此即为需要生成的剩余部分。
在此LSTMs解码器中,初始隐藏状态为编码器提供的C,其中已经编码了源分子的信息。每个时刻LSTMs的输出是一个具体字符,该字符采样自一个字符集,由SMILES的所有可能的组成字母或符号组成,如Br,Cl,N,O,S,P...等。
在该解码器中,每个当前时刻输出的字符都作为下一个时刻的输入,如,第t-1个时刻模型预测出的字符“C”作为下一个t时刻LSTMs的输入。尤其,第一个时刻的输入固定为之前选中的源分子中的裁剪中心,且生成开始;当输出的字符串为“</s>”时,表示生成结束。其中,解码器的输入和输出可以采用简单的one-hot编码,也即所述字符集构造的编码向量。
训练阶段这部分生成的SMILES字符串需要拟合所述待生成的分子子图的SMILES字符串,可以同样使用交叉熵来作为损失函数。
本申请还提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。
该实施例的终端设备包括:至少一个处理器(图5中仅示出一个)处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现下述任意各个代谢路径预测方法实施例中的步骤。
所述终端设备可以是台式计算机、笔记本、掌上电脑及云端服务器等计算设备。该终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,仅仅是终端设备的举例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述终端设备的内部存储单元,例如终端设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述终端设备的外部存储设备,例如所述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,MC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述存储器还可以既包括所述终端设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作***、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
Claims (10)
1.一种分子优化方法,其特征在于:所述方法包括:
获取源分子,根据目标分子对所述源分子进行裁剪获得源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;
将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;
将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。
2.如权利要求1所述的分子优化方法,其特征在于:所述裁剪包括:
解析所述源分子的待裁剪区域,根据所述带裁剪区域确定裁剪中心,根据所述裁剪中心确定裁剪分支,对所述裁剪分支进行裁剪获得所述源分子保留区域。
3.如权利要求2所述的分子优化方法,其特征在于:所述解析所述源分子的待裁剪区域包括:
遍历所述源分子中的节点一,遍历所述目标分子中的节点二,所述节点一与所述节点二的化学元素相同;
遍历节点一的分支一得到第一分支,遍历节点二的分支二得到第二分支,所述第一分支与所述第二分支相同,将所述第一分支或者第二分支中节点数进行记录;
取节点数中数值最大的所述节点一,所述第一分支为保留区域;所述第一分支以外的分支为待裁剪区域。
4.如权利要求3所述的分子优化方法,其特征在于:所述确定裁剪中心包括:
获取所述节点一的向量表示一;对所述向量表示一进行聚合得到所述源分子的向量表示二;结合所述向量表示一与所述向量表示二预测所述节点一作为所述裁剪中心的概率,对所述节点数进行归一化处理得到节点概率分布,所述节点概率分布数值最大的节点为所述裁剪中心。
5.如权利要4所述的分子优化方法,其特征在于:所述确定裁剪分支包括:
获取分支三的向量表示三,所述分支三为所述裁剪中心的分支,通过所述向量表示一、所述向量表示三和所述第一分支的向量表示预测所述分支三的保留概率,对所述分支三的保留与否做出决策。
6.如权利要1所述的分子优化方法,其特征在于:将所述源分子转换为简化分子线性输入规范字符串包括:
将所述源分子转换为标准的简化分子线性输入规范表示,获取所述源分子的编码表示;
对所述源分子的编码表示进行处理获取新的简化分子线性输入规范。
7.如权利要1所述的分子优化方法,其特征在于:将所述源分子保留区域与所述简化分子线性输入规范字符串拼接获得所述目标分子包括:
将所述新的简化分子线性输入规范转换为分子图;
将所述分子图与所述源分子保留区域进行合并,生成所述目标分子。
8.一种分子优化***,其特征在于:所述***包括:
分子剪裁单元,用于确定源分子保留区域,所述源分子保留区域为所述源分子与所述目标分子的共同分子子结构;
时间序列单元,用于将所述源分子转换为新的简化分子线性输入规范字符串,所述新的简化分子线性输入规范字符串为所述目标分子中非共同分子子结构部分;
分子拼接单元,用于将所述源分子保留区域与所述新的简化分子线性输入规范字符串拼接获得所述目标分子。
9.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所属计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502775.0A CN112509644A (zh) | 2020-12-18 | 2020-12-18 | 一种分子优化方法、***、终端设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011502775.0A CN112509644A (zh) | 2020-12-18 | 2020-12-18 | 一种分子优化方法、***、终端设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112509644A true CN112509644A (zh) | 2021-03-16 |
Family
ID=74922321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011502775.0A Pending CN112509644A (zh) | 2020-12-18 | 2020-12-18 | 一种分子优化方法、***、终端设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112509644A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140261A (zh) * | 2021-04-25 | 2021-07-20 | 清华大学 | 化学分子合成仿真方法及装置 |
CN114171134A (zh) * | 2021-11-26 | 2022-03-11 | 北京晶泰科技有限公司 | 分子生成方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011899A1 (en) * | 2016-07-05 | 2018-01-11 | Zymergen, Inc. | Complex chemical substructure search query building and execution |
CN110277144A (zh) * | 2018-03-15 | 2019-09-24 | 国际商业机器公司 | 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构 |
CN110634539A (zh) * | 2019-09-12 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置及存储介质 |
CN111312340A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市云网拜特科技有限公司 | 一种基于smiles的定量构效方法和装置 |
CN111524557A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的逆合成预测方法、装置、设备及存储介质 |
CN111695702A (zh) * | 2020-06-16 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 分子生成模型的训练方法、装置、设备及存储介质 |
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
WO2020243440A1 (en) * | 2019-05-31 | 2020-12-03 | D. E. Shaw Research, Llc. | Molecular graph generation from structural features using an artificial neural network |
-
2020
- 2020-12-18 CN CN202011502775.0A patent/CN112509644A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180011899A1 (en) * | 2016-07-05 | 2018-01-11 | Zymergen, Inc. | Complex chemical substructure search query building and execution |
CN110277144A (zh) * | 2018-03-15 | 2019-09-24 | 国际商业机器公司 | 使用累积的化学数据创建具有期望性质的新化学化合物以构建用于合成的新化学结构 |
CN111312340A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市云网拜特科技有限公司 | 一种基于smiles的定量构效方法和装置 |
WO2020243440A1 (en) * | 2019-05-31 | 2020-12-03 | D. E. Shaw Research, Llc. | Molecular graph generation from structural features using an artificial neural network |
US20220230713A1 (en) * | 2019-05-31 | 2022-07-21 | D. E. Shaw Research, Llc | Molecular Graph Generation from Structural Features Using an Artificial Neural Network |
CN110634539A (zh) * | 2019-09-12 | 2019-12-31 | 腾讯科技(深圳)有限公司 | 基于人工智能的药物分子处理方法、装置及存储介质 |
CN111524557A (zh) * | 2020-04-24 | 2020-08-11 | 腾讯科技(深圳)有限公司 | 基于人工智能的逆合成预测方法、装置、设备及存储介质 |
CN111695702A (zh) * | 2020-06-16 | 2020-09-22 | 腾讯科技(深圳)有限公司 | 分子生成模型的训练方法、装置、设备及存储介质 |
CN111816265A (zh) * | 2020-06-30 | 2020-10-23 | 北京晶派科技有限公司 | 一种分子生成方法和计算设备 |
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
Non-Patent Citations (2)
Title |
---|
ANDREW DALKE, ET AL.: "mmpdb: An Open-Source Matched Molecular Pair Platform for Large Multiproperty Data Sets", JOURNAL OF CHEMICAL INFORMATION AND MODELING, vol. 58, no. 5, 17 May 2018 (2018-05-17), pages 902 - 910 * |
JIN W, ET AL.: "Learning multimodal graph-to-graph translation for molecule optimization", 7TH INTERNATIONAL CONFERENCE ON LEARNING REPRESENTATIONS, ICLR 2019, NEW ORLEANS, LA, USA, 9 May 2019 (2019-05-09) * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113140261A (zh) * | 2021-04-25 | 2021-07-20 | 清华大学 | 化学分子合成仿真方法及装置 |
CN113140261B (zh) * | 2021-04-25 | 2022-05-06 | 清华大学 | 化学分子合成仿真方法及装置 |
CN114171134A (zh) * | 2021-11-26 | 2022-03-11 | 北京晶泰科技有限公司 | 分子生成方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112084383B (zh) | 基于知识图谱的信息推荐方法、装置、设备及存储介质 | |
CN110162669B (zh) | 视频分类处理方法、装置、计算机设备及存储介质 | |
CN112464641A (zh) | 基于bert的机器阅读理解方法、装置、设备及存储介质 | |
Li et al. | Multi-level network embedding with boosted low-rank matrix approximation | |
Cao et al. | Tempo: Prompt-based generative pre-trained transformer for time series forecasting | |
CN112530516A (zh) | 一种代谢途径预测方法、***、终端设备及可读存储介质 | |
CN112906375B (zh) | 文本数据标注方法、装置、设备及存储介质 | |
CN112509644A (zh) | 一种分子优化方法、***、终端设备及可读存储介质 | |
CN112735540B (zh) | 一种分子优化方法、***、终端设备及可读存储介质 | |
CN114077841A (zh) | 基于人工智能的语义提取方法、装置、电子设备及介质 | |
CN112199884A (zh) | 物品分子生成方法、装置、设备及存储介质 | |
Blier-Wong et al. | Rethinking representations in P&C actuarial science with deep neural networks | |
CN115795038A (zh) | 基于国产化深度学习框架的意图识别方法和装置 | |
CN114613450A (zh) | 药物分子的性质预测方法、装置、存储介质及计算机设备 | |
CN113223502A (zh) | 语音识别***优化方法、装置、设备及可读存储介质 | |
CN115545035B (zh) | 一种文本实体识别模型及其构建方法、装置及应用 | |
CN113485829B (zh) | 用于微服务集群的数据增量步段的标识值生成方法 | |
CN114913008A (zh) | 基于决策树的债券价值分析方法、装置、设备及存储介质 | |
CN111506812B (zh) | 一种推荐词的生成方法、装置、存储介质及计算机设备 | |
CN113469399A (zh) | 业务预测方法及装置 | |
Velikova et al. | Decision trees for monotone price models | |
CN115496175A (zh) | 新建边缘节点接入评估方法、装置、终端设备及产品 | |
CN115345687A (zh) | 一种跨网站商品对齐方法及装置 | |
CN117473170B (zh) | 基于代码表征的智能合约模版推荐方法、装置及电子设备 | |
US20240078290A1 (en) | System and method for generating candidate idea |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |