CN114913931A - 反应间相似度量化方法、***及装置 - Google Patents

反应间相似度量化方法、***及装置 Download PDF

Info

Publication number
CN114913931A
CN114913931A CN202110181610.6A CN202110181610A CN114913931A CN 114913931 A CN114913931 A CN 114913931A CN 202110181610 A CN202110181610 A CN 202110181610A CN 114913931 A CN114913931 A CN 114913931A
Authority
CN
China
Prior art keywords
similarity
reaction
chemical
formula
chemical reaction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110181610.6A
Other languages
English (en)
Inventor
曾琢
杨格鉴
吴海超
易渝富
李科
彭焕庆
陆文洋
王萌
杨鹏
陈全岗
杜太平
谷铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Woshi Technology Co Ltd
PORTON FINE CHEMICALS Ltd
Original Assignee
Hefei Woshi Technology Co Ltd
PORTON FINE CHEMICALS Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Woshi Technology Co Ltd, PORTON FINE CHEMICALS Ltd filed Critical Hefei Woshi Technology Co Ltd
Priority to CN202110181610.6A priority Critical patent/CN114913931A/zh
Publication of CN114913931A publication Critical patent/CN114913931A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/10Analysis or design of chemical reactions, syntheses or processes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种反应间相似度量化方法、***及装置,包括:获取目标化学反应式;计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度;计算***中化学反应式与目标化学反应式的结构式的相似度;计算***中化学反应式与目标化学反应式的化学基团的相似度;基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。本发明用于方便获取目标化学反应式的多个相似反应式,基于相似度进一步精确查找到符合预期的排序结果。

Description

反应间相似度量化方法、***及装置
技术领域
本发明涉及化学反应技术领域,特别是涉及一种反应间相似度量化方法、***及装置。
背景技术
化学反应之间的相似性是化学研究的重要课题,广泛运用于生物制药、材料合成等领域。化学家在设计一个没有做过的实验时,通常会借鉴与目标反应近似反应的反应物质条件、环境条件、等实验要素,再结合溶剂、试剂、催化剂等物质条件本身的化学特性作出适当的反应条件整合,最终完成实验设计。
要实现物质条件和环境条件的查找,首先如何迅速的找到和目标化学反应式近似的一系列其他反应,成为一个亟待解决的问题。目前被广泛使用的途径是使用一些商业化的在线搜索平台。但是这类平台常通过算法找到的相似反应从相似程度仅分为tight、near、medium、 wide、widest五个梯度,每个梯度内的并没有进行进一步排序。在实际运用过程,研究人员不得不花费大量时间对其进行人工二次筛选,严重影响效率。
除此之外,现有技术也没有对目标化学反应式的相似性进行定量评定,导致通过该技术查找出相似结果的可参考性进一步降低。在研究人员之间缺乏量化标准和统一语言,对学术交流、化学研究工作造成了障碍。
目前并没有***化的化学反应式相似度评价标准,而现今较为广泛使用的化学反应式相似度评价是对于传统化学物质之间相似度比较的简单延伸。通过对比化学反应间生成物,产物的结构相似度来简单判断。典型的比较化学物质之间的结构相似度的方法如下:比如对于化合物A和B,先提取出A和B的分子指纹,然后再计算Tanimoto系数,计算所得值越高则越相似。而该种方法仅从反应式中分子整体或反应式整体的角度做相似计算,不能快速准确地帮助用户搜索到数据库中与目标化学反应最为相似的具有化学反应条件性能相似的化学反应,而这种现象随着数据库的增大而愈加明显。比如对于极为复杂的结构,该方法非常容易造成搜索结果中结构相似的物质排在前面,但是他们的反应类型却是大相径庭,因此搜索出来的结构对于实际生产的指导意义有限,还需要研究人员进一步人为筛选。Tanimoto系数: Tanimoto系数用于计算化合物之间的相似度距离。可表示为S_AB=c/(a+b-c),对于两个化合物A和B,a表示A化合物中含有的分子指纹特征,b表示B化合物中含有的分子指纹特征,c表示A与B化合共同含有的分子指纹特征。因此Tanimoto系数的取值空间在0到1之间,计算所得值越高越相似。
为了解决这一问题,还有基于反应类型的反应相似度的评价方法。抓取反应类型来评价相似度主要有两种方法。一是还有基于反应模板(reaction template)的反应相似度的评价方法。反应模板是指发生化学反应的最基本形态,该方法虽然能够推荐出同一类型的反应,但是需要在***内先预存化学反应模板。而随着新的反应被逐渐开发,则需要不断地输入相应模板,容易版本过时。另外一种是先构建反应内原子对应关系,然后通过此关系发现发生反应的部位。
上述两者方法虽然都能够部分地衡量化学反应间的相似度,但是评价体系却很单一,此外一些高活性基团的存在也会导致类似的化学反应的反应条件千差万别,因此对于反应基团的存在性也需要纳入到相似度的评价体系当中去。
目前还有一个类似的描述反应间相似的专利,通过Condensed Graph ofReaction的方法来进行反应间相似度的比较。具体来说,用图论的方法来标注反应,端点(nodes)代表反应物质的原子,而边(edges)则代表反应原子间的化学键。该方法能够有效的识别反应发生的部位。它与本专利相似点在于原理上都含有通过考虑反应点位来衡量反应间的相似度的思路。它与本专利的主要区别在于他侧重于单一维度的反应相似度描述(仅仅反应位点),而本专利考虑了多种维度(反应位点和反应位点附近微环境,反应物质结构式,还有重要的化学基团等)。因此,本专利更完整且准确地描述了反应间的相似度。化学基团:又称为官能团,是决定有机化合物的化学性质的原子和原子团,这些基团一般具有较强的反应活性,在一定条件下能发生化学反应。常见的基团有羧基(-COOH),羟基(-OH),卤素原子(-F,-Cl,-Br, -I)等。
因此,希望能够解决如何进行准确地定量获取与目标化学反应式相似的化学反应式的问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种反应间相似度量化方法、***、装置及反应间相似度量化方法,用于解决现有技术中如何进行准确地定量获取与目标化学反应式相似的化学反应式的问题。
为实现上述目的及其他相关目的,本发明提供一种反应间相似度量化方法,包括以下步骤:获取目标化学反应式;计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度;计算***中化学反应式与目标化学反应式的结构式的相似度;计算***中化学反应式与目标化学反应式的化学基团的相似度;基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
为实现上述目的,本发明还提供一种反应间相似度量化***,包括:获取模块、提取模块、第一计算模块、第二计算模块、第三计算模块和排序模块;所述获取模块用于获取目标化学反应式;所述第一计算模块用于计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度;所述第二计算模块用于计算***中化学反应式与目标化学反应式的结构式的相似度;所述第三计算模块用于计算***中化学反应式与目标化学反应式的化学基团的相似度;所述排序模块用于基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一上述反应间相似度量化方法。
为实现上述目的,本发明还提供一种反应间相似度量化装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述反应间相似度量化装置执行任一上述的反应间相似度量化方法。
如上所述,本发明的一种反应间相似度量化方法、***、装置及反应间相似度量化方法,具有以下有益效果:用于方便获取目标化学反应式的多个相似反应式,基于相似度进一步精确查找到符合预期的排序结果;通过分子图谱的构建以及对反应物,产物中分子的追踪,对该化学反应式中每个原子进行精准定位,识别其在化学反应中的变化,从而提取出准确地化学反应时的原子对应关系;对***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度进行量化,数字化、准确、定量的分析化学反应式与目标化学反应式的反应位点的相似度;对数据库中化学反应式进行相似度排序根据用户偏好或搜索目的进行更加贴合用户的实际需求;相似度得分从反应位点和反应位点附近微环境、结构式、化学基团的相似度三个维度进行评定,可以根据业务需求对每个相似度计算维度的权重进行调节,从而进一步精确查找到符合自己预期的排序结果。
附图说明
图1显示为本发明的反应间相似度量化方法于一实施例中的流程图;
图2显示为本发明的反应间相似度量化方法于又一实施例中的流程图;;
图3显示为本发明的反应间相似度量化方法于再一实施例中的流程图;
图4显示为本发明的反应间相似度量化方法于还一实施例中的流程图;
图5显示为本发明的反应间相似度量化方法与另一实施例中的流程图;
图6显示为本发明的反应间相似度量化方法于一实施例中的原子对应关系示意图;
图7显示为本发明的反应间相似度量化方法与一实施例中的基团相似度示意图;
图8显示为本发明的反应间相似度量化方法于一实施例中的反应位点示意图;
图9显示为本发明的反应间相似度量化方法于一实施例中的结果示意图;
图10显示为本发明的反应间相似度量化***于一实施例中的结构示意图;
图11显示为本发明的反应间相似度量化装置于一实施例中的结构示意图。
元件标号说明
21 获取模块
22 第一计算模块
23 第二计算模块
24 第三计算模块
25 排序模块
31 处理器
32 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的反应间相似度量化方法、***、装置及反应间相似度量化方法,用于方便获取目标化学反应式的多个相似反应式,基于相似度进一步精确查找到符合预期的排序结果。
如图1所示,于一实施例中,本发明的反应间相似度量化方法,包括以下步骤:
步骤S1、获取目标化学反应式。
具体地,通过键盘输入需要查询的目标化学反应式,从而获取目标化学反应式。
步骤S2、计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度。
具体地,所述计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度包括以下步骤:获取目标化学反应式的反应位点;基于所述目标化学反应式的反应位点获取反应位点附近微环境;计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度。
步骤S3、计算***中化学反应式与目标化学反应式的结构式的相似度。
具体地,所述计算***中化学反应式与目标化学反应式的结构式的相似度包括以下步骤:获取目标化学反应式的各个分子的分子指纹;计算***中化学反应式与目标化学反应式的反应物的分子指纹的相似度;计算***中化学反应式与目标化学反应式的产物的分子指纹的相似度;根据反应物的分子指纹的相似度和产物的分子指纹的相似度计算结构式的相似度。
步骤S4、计算***中化学反应式与目标化学反应式的化学基团的相似度。
具体地,计算***中化学反应式与目标化学反应式的化学基团的相似度包括:识别目标化学反应式的化学基团;获取***中含有所述化学基团的***中化学反应式;计算***中化学反应式与目标化学反应式的化学基团的相似度。
步骤S5、基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
具体地,获取所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度,并分别量化***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度;根据量化后的所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
步骤S6、输出数据库中与目标化学反应式相似的化学反应式列表。
具体地,所述化学反应式列表是根据化学反应式进行相似度排序的顺序而展示的列表。
本发明中***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度、计算***中化学反应式与目标化学反应式的结构式的相似度、计算***中化学反应式与目标化学反应式的化学基团的相似度的计算顺序不限于本实施例的顺序。
具体地,如图2所示,所述计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度包括以下步骤:
步骤S21、获取目标化学反应式的反应位点。
具体地,所述反应位点为原子对应关系中发生变化的部分,如产物相对于反应物中原子对应关系中缺失的原子和变化的化学键。
步骤S22、基于所述目标化学反应式的反应位点获取反应位点附近微环境。
具体地,因为化学反应的选择性极易受反应位点附近对的微环境(也就是构成的原子和化学键情况)的影响。从反应位点和反应位点附近微环境这两个角度较为全面地考虑化学反应的选择性。所以找到化学反应位点后,需要往下遍历附近的反应微环境情况。具体地所述反应位点附近微环境是指遍历所述反应位点相连的预设数量的原子。
步骤S23、计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度。
具体地,计算***中化学反应式与目标化学反应式的反应位点的相似度。具体地,当***中化学反应式与目标化学反应式的反应位点完全一致时相似度为1,当***中化学反应式与目标化学反应式的反应位点不完全一致时相似度为介于0到1之间,不完全一致的情况包括属于同类型反应,但是具体地官能团不同,例如,同为卤族元素反应,但是具体地原子不同,那么可以预想先设定此种情况的相似度为0.5。计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度。判断反应位点附近存在的原子(即反应位点附近微环境) 的相似情况的得分;最后判断反应位点附近的原子的化学键的相似情况的得分。
具体地,如图3所示,所述计算***中化学反应式与目标化学反应式的结构式的相似度包括以下步骤:
步骤S31、获取目标化学反应式的各个分子的分子指纹。
具体地,分子指纹:分子指纹是化合物分子的抽象表征,它将分子编码为比特向量,提取出一个化学分子中的整体特征,是对比化合物结构的基础。根据不同的转换标准有多种分子指纹如于基于子结构的指纹,基于拓扑的指纹和圆形指纹。即所述每个分子的结构式包括:分子指纹。基于目标化学反应式的原子对应关系可以相应得到目标化学反应式的各个分子的分子指纹。
步骤S32、计算***中化学反应式与目标化学反应式的反应物的分子指纹的相似度。
具体地,所述化学反应式与目标化学反应式的反应物的分子指纹的相似度基于相似性指标算法计算。相似性指标算法为通过计算***中化学反应式与目标化学反应式的反应物的分子指纹之间的相似性距离来判断相似度。所述相似性指标算法包括:Tanimoto系数算法,欧几里得距离算法和余弦距离算法。这样就从化学反应式的分子的结构式角度分析了相似度。
步骤S33、计算***中化学反应式与目标化学反应式的产物的分子指纹的相似度。
具体地,所述化学反应式与目标化学反应式的产物的分子指纹的相似度基于相似性指标算法计算。相似性指标算法为通过计算***中化学反应式与目标化学反应式的产物的分子指纹之间的相似性距离来判断相似度。
步骤S34、根据反应物的分子指纹的相似度和产物的分子指纹的相似度计算结构式的相似度。
具体地,结合S33和S34计算出的相似度,计算一个区间为[0,1]的结构式的相似度。相似度的计算方法为加权平均,具体方法包含但不限于反应物产物等权重,高反应物权重和高产物权重等。得分越高代表越相似。
具体地,如图4所示,计算***中化学反应式与目标化学反应式的化学基团的相似度包括:
步骤S41、识别目标化学反应式的化学基团。
具体地,识别方法为对比目标化学反应式中是否含有常用化学基团列表中的化学基团。
步骤S42、获取***中含有目标化学反应式的化学基团的化学反应式。
包括但不限于获取***中含有目标化学反应式的一致或相似化学基团的化学反应式,包括但不限于获取***中部分含有化学反应式的一致或相似化学基团的化学反应式。
具体地,识别方法为对比***中的化学反应式中是否含有所述常用化学基团列表中的化学基团。
步骤S43、计算***中化学反应式与目标化学反应式的化学基团的相似度。
包括但不限于计算***中化学反应式与目标化学反应式的本质属性相似度、分子结构位置相似度。本质属性如极性、同族元素原子等。分子结构位置如邻位、间位、对位等。
具体地,对比目标化学反应式中的化学基团和***中含有的化学反应式中的化学基团的集合关系(交集,补集等)来计算基团相似度得分。该得分区别为[0,1],得分越高代表越相似。例如,目标化学反应式中的化学基团占***中含有的化学反应式中的化学基团的比例即为基团相似度得分。
具体地,如图5所示,基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。具体地,基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度和用户偏好对数据库中化学反应式进行相似度排序包括以下步骤:
步骤S51、获取所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度。
步骤S52、根据所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度和用户偏好对数据库中化学反应式进行相似度排序。
具体地,根据用户不同的用户偏好,比如更希望看到该类型的反应,或者更希望看到类似结构的反应产物,想要的产率范围,化学反应式的危险程度,化学反应式的反应条件,化学反应式的总共需要步骤等,基于用户的具体用户偏好情况进行排序,看用户更看重哪一方面或哪几方面,优先选择符合用户偏好的***中化学反应式,***推荐的反应类型相似度排序会有所不同。在本实施例中会根据用户的偏好情况,做出相应的推荐排序,具体来说会对三个相似度计算给予不同的权重配比。所述的权重配比包括但不限于提前设定的固定权重和结合该用户历史搜索计算出的动态权重配比。以及用户偏好对数据库中化学反应式进行相似度排序。
步骤S53、判断是否符合用户需求。步骤S55、若符合用户需求则输出相似度排序结果。若不符合用户需求则进入步骤S54、重新获取用户偏好,对数据库中化学反应式重新进行相似度排序,进行新一轮相似度排序直至用户满意为止。
具体地,还包括以下步骤:获取所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度,并分别量化***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度。根据量化后的所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
具体地,计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度、目标化学反应式的结构式的相似度、目标化学反应式的化学基团的相似度是基于原子对应关系提取规则计算所述目标化学反应式中每个分子对应的原子对应关系。所述原子对应关系获取包括对输入的化学反应式转化为SMILES,然后再构建反应式原子关系。具体地,所述目标化学反应式的反应位点基于原子对应关系获取。具体地,将所述目标化学反应式的每个分子都转化SMILES,然后基于SMILES构建每个分子对应的原子对应关系。简化分子线性输入规划(Simplified molecular input line entry specification,简称SMILES):是一种用 ASCII字符串明确描述分子结构的规范,也就是用一串字符来描述一个三维化学结构,从而将复杂的化学结构式转化成了计算机可识别的字符串形式。比如苯可以表示为c1ccccc1。将所述苯表示为c1ccccc1,即分子都转化SMILES,就可以直接被计算机识别,这样再基于 SMILES构建每个分子对应的原子对应关系。具体地,化学反应式可以用一种分子图谱(Gr,Gp)表示,其中Gr代表反应物,Gp代表产物。而一个具体的分子也可以表示为G=(V,E),其中V=[a1,a2,…,an]是一个代表该分子中包含的原子情况的矩阵,而E=[b1,b2,…,bm]是一个代表该分子包含的化学键(如单键,双键,芳香键等)的情况的矩阵。而通过分子图谱的构建以及对反应物,产物中分子的追踪,对该化学反应式中每个原子进行精准定位,识别其在化学反应中的变化,从而提取出准确地化学反应时的原子对应关系。基于所述分子图谱就可以表示分子的原子对应关系。如图6所示,该反应式的第一反应物的分子表示为G1=(V1,E1),其中,V1=[a1,a2,a3,a4,a5,a6,a7,a8],E1=[b1,b2,b4,b5,b6,b7,b8]。该反应式的第二反应物的分子表示为G2=(V2,E2),其中,V2=[a9,a10,a11,a12,a13,a14,a15,a16,a17],E2=[b1,b2,b4,b5,b6,b7, b8]。该反应式的产物的分子表示为G3=(V3,E3),其中, V3=[a1,a2,a3,a4,a5,a6,a8,a9,a10,a11,a12,a13,a14], E3=[b1,b2,b3,b4,b5,b6,b8,b9,b10,b11,b12,b13,b14]。这样通过分子图谱的构建以及对反应物,产物中分子的追踪,对该化学反应式中每个原子进行精准定位,识别其在化学反应中的变化,从而提取出准确地化学反应时的原子对应关系。
具体地,所述***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度的量化包括***中化学反应式与目标化学反应式的反应位点相似度的量化、反应位点附近原子的相似度的量化、反应位点附近的化学键的相似度的量化中的一种或多种方式进行量化。
***中化学反应式与目标化学反应式的反应位点相似度的量化包括:计算***中化学反应式与目标化学反应式的反应位点的相似度。具体地,当***中化学反应式与目标化学反应式的反应位点完全一致时相似度为1,当***中化学反应式与目标化学反应式的反应位点不完全一致时相似度为介于0到1之间,不完全一致的情况包括属于同类型反应,但是具体地官能团不同,例如,同为卤族元素反应,但是具体地原子不同,那么可以预想先设定此种情况的相似度为0.5。反应位点附近微环境的相似度的量化包括:反应位点附近原子的相似度的量化。判断反应位点附近存在的原子的相似情况的得分。具体地,比较***中化学反应式与目标化学反应式的反应位点附近存在的原子对应的原子矩阵的相似情况的得分。例如,***中化学反应式反应位点附近存在的原子对应的原子矩阵为V4=[a1,a2,a3],而目标化学反应式的反应位点附近存在的原子对应的原子矩阵为V5=[a1,a2,a4],那么比较这两个原子矩阵可得到***中化学反应式与目标化学反应式的反应位点附近存在的原子对应的原子矩阵的相似情况的得分为0.66。反应位点附近微环境的相似度的量化包括:判断反应位点附近的原子的化学键的相似情况的得分,具体地,比较***中化学反应式与目标化学反应式的反应位点附近存在的原子对应的化学键矩阵的相似情况的得分。例如,***中化学反应式的反应位点附近存在的原子对应的化学键矩阵为E4=[b1,b2,b5]。目标化学反应式的反应位点附近存在的原子对应的化学键矩阵为,E5=[b1,b2,b4]。那么比较***中化学反应式与目标化学反应式的反应位点附近存在的原子对应的化学键矩阵的相似情况的得分为0.66。最后,将三者得分按照一定的权重进行组合,具体方法包含但不限于等权重和高反应位点权重。最后给出区间为[0,1] 的化学反应式与目标化学反应式的反应位点的相似度,得分越高代表越相似。从而数字化、准确、定量的分析化学反应式与目标化学反应式的反应位点的相似度。
具体地,所述***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度的量化,对***中化学反应式与目标化学反应式的反应位点相似度的量化、反应位点附近原子的相似度的量化、反应位点附近的化学键的相似度的量化进行权重配比。具体地,权重配比的方法为加权平均,具体方法包含但不限于反应物产物等权重,高反应物权重和高产物权重等。得分越高代表越相似。如图7所示,reactant:0.6059代表反应物结构相似度得分,product:0.5943代表产物结构相似度得分。
具体地,对数据库中化学反应式进行相似度排序根据用户偏好或搜索目的进行。根据用户不同的用户偏好,比如更希望看到该类型的反应,或者更希望看到类似结构的反应产物,想要的产率范围,化学反应式的危险程度,化学反应式的反应条件,所述化学反应式的反应条件是指反应条件获取难度,例如室温、室压的低难度,还是高温、高压的高难度,化学反应式的总共需要步骤等,基于用户的具体用户偏好情况进行排序,看用户更看重哪一方面或哪几方面,优先选择符合用户偏好的***中化学反应式,***推荐的反应类型相似度排序会有所不同。在本实施例中会根据用户的偏好情况,做出相应的推荐排序,具体来说会对三个相似度计算给予不同的权重配比。所述的权重配比包括但不限于提前设定的固定权重和结合该用户历史搜索计算出的动态权重配比。以及用户偏好对数据库中化学反应式进行相似度排序,更加符合用户的实际需求。所述搜索目的包括想要化学式达到的实验效果。
具体地,满足所述用户偏好或搜索目的采用给予***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度不同的权重配比。相似度得分从反应位点和反应位点附近微环境、结构式、化学基团的相似度三个维度进行评定。使用者可以根据业务需求对每个相似度计算维度的权重进行调节,从而进一步精确查找到符合自己预期的排序结果。
具体地,如图8所示,预设数量的原子可以为三个,所述反应位点附近微环境是指遍历所述反应位点相连的三个原子(需要遍历,在三个间隔范围内都属于所述反应位点附近微环境)。原子Br和原子B为反应位点。与Br相连的三个以内的原子需要遍历,在三个间隔范围内都属于所述反应位点附近微环境。与B相连的三个以内的原子需要遍历,在三个间隔范围内都属于所述反应位点附近微环境。当然,三个只是举个例子,具体预设数量的原子也可以根据量化精确度而定。
具体地,如图9所示,在采用发明的反应间相似度量化方法后,本发明显示的结果如图所示,会出来,第一条、第二条、第三条的***中化学反应式,而所述第一条、第二条、第三条的***中化学反应式与目标化学反应式的相似度是依次降低的,这样基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。而在现有技术中,只是会有一致或者不一致的检索结果,并不能如本发明进行反应间相似度量化,并且基于反应间相似度进行排序。
在拿到具有相似度得分的结果之后,研究人员在进行实验设计时首先可以参考结果排序,然后根据排序中的得分断层自行定义相似度梯度。从而缩小人工二次筛选的范围,降低工作量,提高工作效率。
多位研究人员在进行学术交流、项目沟通时,因为有了统一的相似度技术,可以有效的提升交流/沟通效率,避免因交流过程中标准不一造成产生的学术误解。随着本发明的进一步完善和被大众接纳,有望形成新的行业标准。
如图10所示,于一实施例中,本发明的反应间相似度量化***,包括获取模块21、第一计算模块22、第二计算模块23、第三计算模块24和排序模块25;所述获取模块用于获取目标化学反应式;所述第一计算模块用于计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度;所述第二计算模块用于计算***中化学反应式与目标化学反应式的结构式的相似度;所述第三计算模块用于计算***中化学反应式与目标化学反应式的化学基团的相似度;所述排序模块用于基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
需要说明的是,获取模块21、第一计算模块22、第二计算模块23、第三计算模块24和排序模块25的结构和原理与上述反应间相似度量化方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上***的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Micro Processor Uint,简称MPU),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上***(system-on-a-chip,简称SOC)的形式实现。
于本发明一实施例中,本发明还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述反应间相似度量化方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图11所示,于一实施例中,本发明的反应间相似度量化装置包括:处理器31和存储器32;所述存储器32用于存储计算机程序;所述处理器31与所述存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述反应间相似度量化装置执行任一所述的反应间相似度量化方法。
具体地,所述存储器32包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
优选地,所述处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明反应间相似度量化方法、***、装置及反应间相似度量化方法,用于方便获取目标化学反应式的多个相似反应式,基于相似度进一步精确查找到符合预期的排序结果。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (17)

1.一种反应间相似度量化方法,其特征在于,包括以下步骤:
获取目标化学反应式;
计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度;
计算***中化学反应式与目标化学反应式的结构式的相似度;
计算***中化学反应式与目标化学反应式的化学基团的相似度;
基于所述***中化学反应式的反应位点和反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
2.根据权利要求1所述的反应间相似度量化方法,其特征在于,所述计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度包括以下步骤:
获取目标化学反应式的反应位点;
基于所述目标化学反应式的反应位点获取反应位点附近微环境;
计算***中化学反应式与目标化学反应式的反应位点和反应位点附近微环境的相似度。
3.根据权利要求1所述的反应间相似度量化方法,其特征在于,所述计算***中化学反应式与目标化学反应式的结构式的相似度包括以下步骤:
获取目标化学反应式的各个分子的分子指纹;
计算***中化学反应式与目标化学反应式的反应物的分子指纹的相似度;
计算***中化学反应式与目标化学反应式的产物的分子指纹的相似度;
根据反应物的分子指纹的相似度和产物的分子指纹的相似度计算结构式的相似度。
4.根据权利要求1所述的反应间相似度量化方法,其特征在于,计算***中化学反应式与目标化学反应式的化学基团的相似度包括:
识别目标化学反应式的化学基团;
获取***中含有目标化学反应式的化学基团的化学反应式;
计算***中化学反应式与目标化学反应式的化学基团的相似度。
5.根据权利要求3所述的反应间相似度量化方法,其特征在于,还包括:
所述化学反应式与目标化学反应式的反应物的分子指纹的相似度、化学反应式与目标化学反应式的产物的分子指纹的相似度均基于相似性指标算法计算。
6.根据权利要求5所述的反应间相似度量化方法,其特征在于,所述相似性指标算法包括:Tanimoto系数算法,欧几里得距离算法和余弦距离算法。
7.根据权利要求1-6所述的反应间相似度量化方法,其特征在于,还包括以下步骤:
获取所述***中化学反应式的反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度,并分别量化***中化学反应式的反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度;
根据量化后的所述***中化学反应式的反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
8.根据权利要求7所述的反应间相似度量化方法,其特征在于,还包括以下步骤:
计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度、目标化学反应式的结构式的相似度、目标化学反应式的化学基团的相似度是基于原子对应关系提取规则计算所述目标化学反应式中每个分子对应的原子对应关系。
9.根据权利要求8所述的反应间相似度量化方法,其特征在于,还包括以下步骤:
所述原子对应关系获取包括对输入的化学反应式转化为SMILES,然后再构建反应式原子关系。
10.根据权利要求8所述的反应间相似度量化方法,其特征在于,所述目标化学反应式的反应位点基于原子对应关系获取。
11.根据权利要求10所述的反应间相似度量化方法,其特征在于,
所述***中化学反应式与目标化学反应式的反应位点附近微环境的相似度的量化包括***中化学反应式与目标化学反应式的反应位点相似度的量化、反应位点附近原子的相似度的量化、反应位点附近的化学键的相似度的量化中的一种或多种方式进行量化。
12.根据权利要求11所述的反应间相似度量化方法,其特征在于,
所述***中化学反应式与目标化学反应式的反应位点附近微环境的相似度的量化,对***中化学反应式与目标化学反应式的反应位点相似度的量化、反应位点附近原子的相似度的量化、反应位点附近的化学键的相似度的量化进行权重配比。
13.根据权利要求9所述的反应间相似度量化方法,其特征在于,对数据库中化学反应式进行相似度排序根据用户偏好或搜索目的进行。
14.根据权利要求13所述的反应间相似度量化方法,其特征在于,满足所述用户偏好或搜索目的采用给予***中化学反应式的反应位点附近微环境的相似度、结构式的相似度、化学基团的相似度不同的权重配比。
15.一种反应间相似度量化***,其特征在于,包括:获取模块、第一计算模块、第二计算模块、第三计算模块和排序模块;
所述获取模块用于获取目标化学反应式;
所述第一计算模块用于计算***中化学反应式与目标化学反应式的反应位点附近微环境的相似度;
所述第二计算模块用于计算***中化学反应式与目标化学反应式的结构式的相似度;
所述第三计算模块用于计算***中化学反应式与目标化学反应式的化学基团的相似度;
所述排序模块用于基于所述***中化学反应式的反应位点附近微环境的相似度、结构式的相似度和化学基团的相似度对数据库中化学反应式进行相似度排序。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现权利要求1至14中任一项所述反应间相似度量化方法。
17.一种反应间相似度量化装置,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述反应间相似度量化装置执行权利要求1至14中任一项所述的反应间相似度量化方法。
CN202110181610.6A 2021-02-09 2021-02-09 反应间相似度量化方法、***及装置 Pending CN114913931A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110181610.6A CN114913931A (zh) 2021-02-09 2021-02-09 反应间相似度量化方法、***及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110181610.6A CN114913931A (zh) 2021-02-09 2021-02-09 反应间相似度量化方法、***及装置

Publications (1)

Publication Number Publication Date
CN114913931A true CN114913931A (zh) 2022-08-16

Family

ID=82761400

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110181610.6A Pending CN114913931A (zh) 2021-02-09 2021-02-09 反应间相似度量化方法、***及装置

Country Status (1)

Country Link
CN (1) CN114913931A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226472A (zh) * 2022-11-17 2023-06-06 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和***

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182094A1 (en) * 2002-02-14 2003-09-25 Broughton Howard Barff Methods for classifying and searching chemical reactions
TW200627199A (en) * 2005-01-24 2006-08-01 Electronic Knowledge Era Co Ltd Chemical structure comparing system and method
KR20090061445A (ko) * 2007-12-11 2009-06-16 한국과학기술원 대사 네트워크의 신 생합성 경로 탐색 시스템 및 방법
US20100268476A1 (en) * 2002-06-06 2010-10-21 Centre National De La Recherche Scientifique-Cnrs Process for identifying similar 3d substructures onto 3d atomic structures and its applications
US20130306857A1 (en) * 2011-01-31 2013-11-21 Shinichi Yamaguchi Method and system for mass spectrometry
CN111951905A (zh) * 2020-08-14 2020-11-17 中国科学技术大学 一种化学反应搜索方法及***
CN112086136A (zh) * 2020-09-18 2020-12-15 武汉智化科技有限公司 一种数据处理方法、装置及***、图形处理器
CN112133379A (zh) * 2020-09-18 2020-12-25 武汉智化科技有限公司 一种化学反应搜索方法、装置及***、图形处理器

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030182094A1 (en) * 2002-02-14 2003-09-25 Broughton Howard Barff Methods for classifying and searching chemical reactions
US20100268476A1 (en) * 2002-06-06 2010-10-21 Centre National De La Recherche Scientifique-Cnrs Process for identifying similar 3d substructures onto 3d atomic structures and its applications
TW200627199A (en) * 2005-01-24 2006-08-01 Electronic Knowledge Era Co Ltd Chemical structure comparing system and method
KR20090061445A (ko) * 2007-12-11 2009-06-16 한국과학기술원 대사 네트워크의 신 생합성 경로 탐색 시스템 및 방법
US20130306857A1 (en) * 2011-01-31 2013-11-21 Shinichi Yamaguchi Method and system for mass spectrometry
CN111951905A (zh) * 2020-08-14 2020-11-17 中国科学技术大学 一种化学反应搜索方法及***
CN112086136A (zh) * 2020-09-18 2020-12-15 武汉智化科技有限公司 一种数据处理方法、装置及***、图形处理器
CN112133379A (zh) * 2020-09-18 2020-12-25 武汉智化科技有限公司 一种化学反应搜索方法、装置及***、图形处理器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
张泰铭;赵哲;方宣启;乔君喜;向凤琴;朱蓉;梁逸曾;丁峰;: "利用样本成分耗散物的非线性化学指纹图谱原理及相似度计算与评价", 中国科学:化学, no. 10, 15 October 2011 (2011-10-15) *
徐峻;张懋森;: "计算机辅助合成设计的基本原理", 化学通报, no. 08, 29 August 1989 (1989-08-29) *
赵婧;田俊娜;王佳敏;秦楠;王颖莉;: "基于FTIR与HPLC分析的远志散胶囊化学模式识别", 国际药学研究杂志, no. 06, 30 June 2020 (2020-06-30) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226472A (zh) * 2022-11-17 2023-06-06 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和***
CN116226472B (zh) * 2022-11-17 2024-06-21 上海药明康德新药开发有限公司 一种基于向量化的参考反应查询方法和***

Similar Documents

Publication Publication Date Title
Meisner et al. Inferring population structure and admixture proportions in low-depth NGS data
US11574706B2 (en) Systems and methods for visualization of single-cell resolution characteristics
US6625585B1 (en) Method and system for artificial intelligence directed lead discovery though multi-domain agglomerative clustering
Warr Representation of chemical structures
De Coninck et al. Needles: toward large-scale genomic prediction with marker-by-environment interaction
US20150324450A1 (en) Syntactic loci and fields in a functional information system
US20090125248A1 (en) System, Method and computer program product for integrated analysis and visualization of genomic data
JP2002513979A (ja) 多次元空間において近接データを表すシステム、方法、およびコンピュータプログラムプロダクト
JP2009520278A (ja) 科学情報知識管理のためのシステムおよび方法
US20120078853A1 (en) Systems, methods, and apparatus for facilitating chemical analyses
Enki et al. A clustering approach to interpretable principal components
US20220188286A1 (en) Data Catalog Providing Method and System for Providing Recommendation Information Using Artificial Intelligence Recommendation Model
Poulin et al. Ensemble clustering for graphs
Barnett et al. Endnote: Feature-based classification of networks
CN114913931A (zh) 反应间相似度量化方法、***及装置
Zhang et al. CEGSO: boosting essential proteins prediction by integrating protein complex, gene expression, gene ontology, subcellular localization and orthology information
Böcker et al. NIPALSTREE: a new hierarchical clustering approach for large compound libraries and its application to virtual screening
Wei et al. Hodge theory-based biomolecular data analysis
Liu et al. Characteristic gene selection via weighting principal components by singular values
CN115147020B (zh) 装修数据处理方法、装置、设备及存储介质
US20220238191A1 (en) Molecular modeling with machine-learned universal potential functions
CN113095604B (zh) 产品数据的融合方法、装置、设备及存储介质
CN110162704B (zh) 基于多因子遗传算法的多规模关键用户提取方法
CN113610350A (zh) 复杂工况故障诊断方法、设备、存储介质及装置
Rustici et al. Data storage and analysis in ArrayExpress and Expression Profiler

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination