CN114927161B - 分子分析的方法、装置、电子设备和计算机存储介质 - Google Patents
分子分析的方法、装置、电子设备和计算机存储介质 Download PDFInfo
- Publication number
- CN114927161B CN114927161B CN202210527121.6A CN202210527121A CN114927161B CN 114927161 B CN114927161 B CN 114927161B CN 202210527121 A CN202210527121 A CN 202210527121A CN 114927161 B CN114927161 B CN 114927161B
- Authority
- CN
- China
- Prior art keywords
- distribution
- initial
- path
- target
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000007479 molecular analysis Methods 0.000 title claims abstract description 16
- 238000003860 storage Methods 0.000 title claims abstract description 14
- 238000009826 distribution Methods 0.000 claims abstract description 241
- 230000007704 transition Effects 0.000 claims abstract description 60
- 238000012549 training Methods 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 24
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 238000004458 analytical method Methods 0.000 description 21
- 238000010586 diagram Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 210000003311 CFU-EM Anatomy 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000005381 potential energy Methods 0.000 description 3
- 102000004169 proteins and genes Human genes 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 125000004429 atom Chemical group 0.000 description 1
- 239000013626 chemical specie Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 150000002500 ions Chemical class 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 150000003254 radicals Chemical class 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/20—Protein or domain folding
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/48—Biological material, e.g. blood, urine; Haemocytometers
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Theoretical Computer Science (AREA)
- Urology & Nephrology (AREA)
- Pathology (AREA)
- Hematology (AREA)
- Molecular Biology (AREA)
- Crystallography & Structural Chemistry (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
根据本公开的实施例,提供了一种分子分析的方法、装置、电子设备和计算机存储介质。在此描述的方法包括:确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布;利用分析模型确定与第一初始分布对应的第一目标分布和与第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联;以及基于第一初始分布和第二初始分布、并根据分析模型,确定从第一亚稳态到第二亚稳态的过渡路径。基于以上的方式,本公开能够有效地确定在不同分子亚稳态之间的过渡路径。
Description
技术领域
本公开的示例实施例总体涉及计算机领域,特别地涉及用于分子分析的方法、装置、电子设备和计算机可读存储介质。
背景技术
在大型原子和分子***的研究中,重要的宏观统计数据(例如***的总能量、或蛋白质的折叠概率)的计算至关重要。这些统计数据通常基于对所有重要构型的充分观察。然而,枚举这些构型通常是不可行的。
一些方案能够利用机器学习方法来生成不同亚稳态(metastablestate)下的样本。然而,这样的方案却无法提供关于亚稳态之间过渡过程的有效分析。
发明内容
本公开的实施例提供了一种分子分析的方案。
在本公开的第一方面,提供了一种用于分子分析的方法。该方法包括:确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布;利用分析模型确定与第一初始分布对应的第一目标分布和与第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联;以及基于第一初始分布和第二初始分布、并根据分析模型,确定从第一亚稳态到第二亚稳态的过渡路径。
在本公开的第二方面中,提供了一种用于分子分析的装置。该装置包括:分布确定模块,被配置为确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布;分布处理模块,被配置为利用分析模型确定与所述第一初始分布对应的第一目标分布和与所述第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联;以及路径确定模块,被配置为基于所述第一初始分布和所述第二初始分布、并根据所述分析模型,确定从所述第一亚稳态到所述第二亚稳态的过渡路径。
在本公开的第三方面,提供了一种电子设备。该设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令。指令在由至少一个处理单元执行时使设备执行第一方面的方法。
在本公开的第四方面,提供了一种计算机可读存储介质。介质上存储有计算机程序,计算机程序被处理器执行以实现第一方面的方法。
根据本公开的各种实施例,本公开能够利用分析模型来构建分子的不同亚稳态,并同时有效地构建亚稳态之间的过渡路径,以指示分子的不同亚稳态之间的过渡过程。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图;
图2示出了根据本公开的多个实施例的分子分析的过程的流程图;
图3示出了根据本公开的多个实施例的训练分析模型的过程的流程图;
图4示出了根据本公开的多个实施例的示例过渡路径的示意图;
图5示出了根据本公开的一些实施例的用于分子分析的装置的示意性结构框图;以及
图6示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
如本文所使用的,“亚稳态(Metastable state)”也称为“介稳状态”或“亚稳状态”,其通常指物质(包括原子、离子、自由基、化合物等各种化学物种)在某种条件下,介于稳定和不稳定之间的一种化学状态。
如本文所使用的,“过渡路径(transitionpath)”用于表示分子在不同亚稳态之间的过渡过程,其可以通过一个或多个指标来表征。失灵地,过渡路径可以用于描述蛋白质扭转角(torsion angle)的过渡过程。
如上文所讨论的,在大型原子和分子***的研究中,重要的宏观统计数据(例如***的总能量、或蛋白质的折叠概率)的计算至关重要。这些统计数据通常基于对所有重要构型的充分观察。然而,枚举这些构型通常是不可行的。
一些方案能够利用机器学习方法来生成分子在不同亚稳态下的样本。例如,玻尔兹曼生成器能够一次生成在不同亚稳态下的低能量样本。然而,玻尔兹曼生成器难以提供关于亚稳态之间过渡过程的准确分析。
根据本公开的实现,提出了一种用于分子分析的方案。在该方案中,首先,确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布。进一步地,利用分析模型确定与第一初始分布对应的第一目标分布和与第二初始分布对应的第二目标分布,第一目标分布指示分子的第一亚稳态,第二目标分布指示分子的第二亚稳态。分析模型可以进一步基于第一目标分布和第二目标分布来确定从第一亚稳态到第二亚稳态的过渡路径。
根据本公开的各种实施例,本公开能够基于两个基础分布来构建分子在不同亚稳态下的样本,并同时能够提供分子在不同亚稳态之间过渡的过渡路径。
以下进一步结合附图来详细描述该方案的各种示例实现。
示例环境
首先参见图1,其示意性示出了其中可以实施根据本公开的示例性实现方式的环境100的示意图。如图1所示,环境100包括分析设备140。
分析设备140可以确定基础空间110中的第一初始分布120和第二初始分布130。在一些实施例中,第一初始分布120和第二初始分布130可以是第一类型的分布。示例性地,第一类型的分布例如可以包括高斯分布。
分析设备140可以利用所部署的分析模型来将第一初始分布120变换为采样空间150中的第一目标分布160,并将第二初始分布130变换为采样空间150中的第二目标分布170。第一目标分布160例如可以与分子的第一亚稳态相关联,第二目标分布170例如可以与分子的第二亚稳态相关联。在一些实施例中,第一目标分布160和第二目标分布170例如可以为玻尔兹曼分布。
此外,如图1所示,分析设备140还可以确定从第一亚稳态到第二亚稳态的过渡路径175。在一些实施例中,分析设备140例如可以利用分析模型来处理初始路径135,以确定过渡路径175。在一些实施例中,初始路径135例如可以是基于第一初始分布120和第二初始分布130而被确定的。
关于分析模型确定第一目标分布160、第二目标分布170和过渡路径175的具体实现过程,将在下文详细描述。
示例过程
图2示出了根据本公开的一些实施例的分子分析的过程200的流程图。过程200可以由图1的分析设备140来实现。为了方便讨论,将结合图1来描述过程200。
如图2所示,在框202,分析设备140确定各自指示分子中的原子分布状态的第一初始分布120和第二初始分布130。
如下文将结合图3详细描述的,分析模型中的归一化流(NF,normalizingflow)模型能够将初始分布转换为目标分布。这样的归一化流模型本身是可逆的,其例如可以使用玻尔兹曼生成器中的NF组件来实现。示例性地,玻尔兹曼生成器中的NF组件可以将初始的高斯分布转换为目标玻尔兹曼分布。该NF模型例如可以表示为其代表参数为θ的可逆神经网络模型。
在一些实施例中,分析设备140例如可以将高斯分布作为第一初始分布120和第二初始分布130。备选地,第一初始分布120和第二初始分布130也可以是其它类型的分布,例如,均匀分布。
在框204,分析设备140利用分析模型确定与第一初始分布对应120的第一目标分布160和与第二初始分布130对应的第二目标分布170,其中第一目标分布160与分子的第一亚稳态相关联,第二目标分布与分子170的第二亚稳态相关联。
在一些实施例中,与传统的玻尔兹曼生成器将同一个分布映射到两个不同的亚稳态不同,分析设备140可以使用同一个分析模型来将第一初始分布120和第二初始分布130分别映射到第一目标分布160和第二目标分布170。基于这样的方式,本公开的实施例能够更好地构建多模分布。
在框206,分析设备140基于第一初始分布120和第二初始分布140、并根据分析模型,确定从第一亚稳态到第二亚稳态的过渡路径180。
在一些实施例中,分析设备140可以基于第一初始分布120确定起点位置,并基于第二初始分布130确定终点位置。示例性地,分析设备140可以基于第一初始分布120的中心位置来确定起点位置,并基于第二初始分布130的中心位置来确定终点位置。
进一步地,分析设备140可以基于起点位置和终点位置,确定初始路径135。在一些实施例中,分析设备140可以基于起点位置和终点位置之间的线性插值来确定初始路径135。
进一步地,分析设备140可以利用分析模型处理初始路径,以确定过渡路径。如下文将结合图3详细介绍的,分析模型在训练过程中不仅需要考虑与分布有关的分布损失,还需要考虑与过渡路径相关的路径损失。由此,分析模型将能够同时生成多个亚稳态下的样本,并且还能够输出不同亚稳态之间的过渡路径。
基于上文所讨论的过程,本公开的实施例能够一次输出不同亚稳态下的采样样本,还能够确定不同亚稳态之间的过渡路径。
以下将结合图3来详细描述分析模型的训练过程。图3示出了根据本公开实施例的训练分析模型的示例过程300的流程图。应当理解,过程300可以由适当的训练设备来执行,训练设备可以包括与分析设备140相同或者不同的设备。
如图3所示,在框302,训练设备可以利用分析模型的逆模型确定与第三目标分布对应的第三初始分布和与第四目标分布对应的第四初始分布,第三目标分布与分子的第一亚稳态相关联,第四目标分布与分子的第二亚稳态相关联。
示例性地,该过程可以表示为:
其中ZA表示第三初始分布,ZB表示第四初始分布,A表示第一亚稳态,B表示第二亚稳态,rA表示与第一亚稳态相A关联的第三目标分布,rB表示与第二亚稳态B相关联的第四目标分布。
在框304,训练设备可以基于第三初始分布和第三目标分布,确定第一分布损失。在框306,训练设备可以基于第四初始分布和第四目标分布,确定第二分布损失。
示例性地,第一分布损失和第二分布损失的和可以统称为分布损失,其例如可以表示为:
其中(wA,wB)表示第一亚稳态A和第二亚稳态B的权重系数。
在框308,训练设备可以利用分析模型处理训练初始路径,确定训练过渡路径,训练初始路径是基于第一亚稳态和第二亚稳态的位置信息而被确定。
在一些实施例中,第一亚稳态和第二亚稳态的位置信息例如可以是已知的。备选地或附加地,训练设备也可以基于第一亚稳态的样本的均值位置来确定第一亚稳态的位置,并基于第二亚稳态的样本的均值位置来确定第二亚稳态的位置。
进一步地,训练设备可以利用分析模型的逆模型来处理第一亚稳态和第二亚稳态的位置信息,来确定训练过渡路径的起点位置和终点位置。
附加地,训练设备例如可以基于线性差值来确定训练初始路径。该过程例如可以表示为:
在框310,训练设备可以基于训练过渡路径与预定过渡路径之间的差异,确定路径损失。
在一些实施例中,训练设备在训练过程中还可以考虑训练过渡路径与最小能量路径(MEP,Minimum Energy Path)或最小自由能路径(MFEP,Minimum Free Energy Path)之间的差异。
对于MEP而言,其代表经由鞍点(saddlepoint)来连接***的势能V(r)的两个最小点的路径,并且对应于从该鞍点开始在V(r)上的最陡下降路径。更具体地,MEP上的每个点都是与路径相切的超平面上的局部势能最小值。
将MEP表示为曲线r(α),其中α∈[0,1]是该路径的参数化。由此,对于平行于/>其也可以表示为:
其中,表示在r(α)处沿该路径的单位正切向量。
进一步地,基于等式(5),确定MEP的过程可以等价于求解针对梯度***的以下优化问题:
假设路径被划分为S个分段并且弧长为/>令/>为在第i个路径分段处的起点的力,则训练过渡路径P的性能可以基于以下损失函数来评价:
在一些实施例中,确定MEP需要解决***的超高维度所带来的计算问题。训练设备还可以通过确定MFEP来解决这一问题。具体地,训练设备可以引入集体变量(CV,collectivevariables)并将MEP映射到CV空间(表示为χ)来降低计算难度。
N个预定的CV例如可以表示为x(r)=(x1(r),...,xN(r)),则与x(r)相关联的自由能可以表示为:
其中,δ表示狄拉克函数。
在自由能表面上,最小自由能路径MFEP z(α)=x(r(α))需要满足平行于其中
进一步地,与MFEP相关联的路径损失函数可以表示为:
其中,P表示χ中连接第一亚稳态和第二亚稳态的训练过渡路径。
在框312,训练设备可以基于第一分布损失、第二分布损失和路径损失,训练分析模型。
在一些实施例中,路径损失可以表示为:
应当理解,可以根据项目需要而选择与MEP相关联的路径损失或与MFEP相关联的路径损失来作为最终的路径损失。
在一些实施例中,训练设备可以基于第一分布损失、第二分布损失和路径损失,确定用于训练分析模型的目标损失。示例性地,目标损失可以表示为:
L(θ)=wNFLNF(θ)+wpathLpath(θ) (12)
其中,wNF和wpath是用于控制损失函数的超参。
进一步地,训练设备可以基于目标损失的梯度来调整分析模型的参数。示例性地,目标损失的梯度可以表示为:
梯度可以根据反向传播来计算,具体可以参见Abadi等于2016年和Paszke于2019年所提出的计算方法,本公开在此不再详述。
梯度则涉及到潜在平均力、过渡矩阵及其梯度的计算,因此无法自动计算。以下将进一步描述梯度/>的计算过程。
考虑到MEP是一种特殊的MFEP,因此,以下以LMFEP作为Lpath的示例来描述梯度计算的过程。示例性地,在参数θ下,训练过渡路径为P(θ),并且弧长为l(P(θ))。
训练设备可以将P(θ)均匀切分为S个分段,每段的弧长为|dli|=l(P(θ))/S。由此:
在一些实施例中,为了降低模拟次数,训练设备可以使用约束动力学来执行梯度的模拟计算。对于CV空间中的给定点z=(z1,...,zM),训练设备可以为***的势能添加谐波约束(harmonic restraint),以表示构型之间的弹力的影响:
其中,k是用于控制该谐波约束的参数。
通过这样的方式,本公开的实施例可以降低神经网络对于计算资源的需求,提高神经网络的普适性,进而能够被应用到更多的设备中。
进一步地,训练设备可以通过过阻尼朗之万(Langevin)动力学来表征在这种扩展势下CV空间中的粒子运动:
其中,η(t)表示具有单位方差的高斯噪音,由此可见,公式(17)具有以下玻尔兹曼吉布斯密度作为其平稳分布:
Zk(z)=∫exp(-βVk(r,z))dr (19)
进一步地,对于的估计而言,其对应于Vk(r;z)的有效自由能可以表示为:
进一步地,已经知晓当k足够大时,有:
在考虑公式(17)的遍历性时,平均力势的估计可以表示为:
类似地,公式(9)的估计可以表示为:
结合公式(23)和(24),训练设备可以确定的估计为
此外,对于公式(15)中的其可以进一步被表示为:
其中J(·)表示给定函数的雅可比矩阵。该雅克比矩阵可以进一步被分解为:
其中,
进一步地,已经知晓以下公式成立:
由此,估计和/>都可以被归纳为如何使用模拟轨迹r(t)来估计进一步地,可以推算确定:
进一步地,公式(29)可以进一步被近似为:
最终,和/>可以最终表示为:
利用公式(23)、公式(24)和公式(31),可以确定公式(26)中雅克比矩阵的估计。由此,训练设备可以基于多个采样点的平均来确定目标损失的梯度中的至少部分,从而确定分析模型的参数θ。
图4示出了根据本公开的多个实施例的示例过渡路径的示意图400。如图4所示,使用本公开的分子分析方法能够有效地确定从亚稳态A到亚稳态B的过渡路径410。此外,所确定的该过渡路径410经过了已知的过渡状态。具体地,在该实验中,已知的最佳能量位垒的能量约为-40,本公开的分子分析方法所确定的的能量位垒在-38左右,已经非常接近真实情况。
基于以上描述能够看到,本公开的实施例不仅能够同时生成分子在不同亚稳态下的样本,还能够有效地确定不同亚稳态之间过渡的过渡路径。
示例装置和设备
本公开的实施例还提供了用于实现上述方法或过程的相应装置。图5示出了根据本公开的一些实施例的用于分子分析的装置500的示意性结构框图。
如图5所示,装置500可以包括分布确定模块510,被配置为确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布。
装置500可以包括分布处理模块520,被配置为利用分析模型确定与第一初始分布对应的第一目标分布和与第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联。
此外,装置500还可以包括路径确定模块530,被配置为基于第一初始分布和第二初始分布、并根据分析模型,确定从第一亚稳态到第二亚稳态的过渡路径。
在一些实施例中,路径确定模块530包括:第一位置确定模块,被配置为基于所述第一初始分布确定起点位置;第二位置确定模块,被配置为基于所述第二初始分布确定终点位置;路径处理模块,被配置为基于所述起点位置和所述终点位置,确定初始路径;以及路径处理模块,被配置为利用分析模型处理初始路径,以确定过渡路径。
在一些实施例中,路径处理模块包括:插值模块,被配置为基于起点位置和终点位置之间的线性插值,确定初始路径。
在一些实施例中,装置500还包括训练模块,被配置为:利用分析模型的拟模型确定与第三目标分布对应的第三初始分布和与第四目标分布对应的第四初始分布,第三目标分布与分子的第一亚稳态相关联,第四目标分布与分子的第二亚稳态相关联;基于第三初始分布和第三目标分布,确定第一分布损失;基于第四初始分布和第四目标分布,确定第二分布损失;利用分析模型处理训练初始路径,确定训练过渡路径,训练初始路径是基于第三初始分布和第四初始分布而被确定;基于训练过渡路径与预定过渡路径之间的差异,确定路径损失;以及基于第一分布损失、第二分布损失和路径损失,训练分析模型。
在一些实施例中,装置500还包括预定过渡路径确定模块,被配置为通过以下确定预定过渡路径:确定从第一亚稳态到第二亚稳态之间的最小能量路径;或确定从第一亚稳态到第二亚稳态之间的最小自由能路径。
在一些实施例中,训练模块还被配置为:基于第一分布损失、第二分布损失和路径损失,确定用于训练分析模型的目标损失;以及基于目标损失的梯度,调整分析模型的参数。
在一些实施例中,训练模块还被配置为:基于多个采样点的平均来确定目标损失的梯度中的至少部分,其中多个采样点被应用了预定采样约束。
在一些实施例中,第一初始分布和第二初始分布为第一类型的分布,第一目标分布和第二目标分布为第二类型的分布,第一类型不同于第二类型。
在一些实施例中,第一类型为高斯分布,第二类型为玻尔兹曼分布。
装置500中所包括的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。在一些实施例中,一个或多个单元可以使用软件和/或固件来实现,例如存储在存储介质上的机器可执行指令。除了机器可执行指令之外或者作为替代,装置500中的部分或者全部单元可以至少部分地由一个或多个硬件逻辑组件来实现。作为示例而非限制,可以使用的示范类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准品(ASSP)、片上***(SOC)、复杂可编程逻辑器件(CPLD),等等。
图6示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器600的框图。应当理解,图6所示出的计算设备/服务器600仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。
如图6所示,计算设备/服务器600是通用计算设备的形式。计算设备/服务器600的组件可以包括但不限于一个或多个处理器或处理单元610、存储器620、存储设备630、一个或多个通信单元640、一个或多个输入设备660以及一个或多个输出设备660。处理单元610可以是实际或虚拟处理器并且能够根据存储器620中存储的程序来执行各种处理。在多处理器***中,多个处理单元并行执行计算机可执行指令,以提高计算设备/服务器600的并行处理能力。
计算设备/服务器600通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器600可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器620可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备630可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器600内被访问。
计算设备/服务器600可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图6中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器620可以包括计算机程序产品625,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元640实现通过通信介质与其他计算设备进行通信。附加地,计算设备/服务器600的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备/服务器600可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备650可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备660可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备/服务器600还可以根据需要通过通信单元640与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备/服务器600交互的设备进行通信,或者与使得计算设备/服务器600与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有一条或多条计算机指令,其中一条或多条计算机指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置(***)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各实现。
Claims (18)
1.一种用于分子分析的方法,包括:
确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布;
利用分析模型确定与所述第一初始分布对应的第一目标分布和与所述第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联;以及
基于所述第一初始分布和所述第二初始分布、并根据所述分析模型,确定从所述第一亚稳态到所述第二亚稳态的过渡路径;
其中,所述方法还包括训练所述分析模型,所述训练包括:
利用分析模型的逆模型确定与第三目标分布对应的第三初始分布和与第四目标分布对应的第四初始分布,所述第三目标分布与所述分子的所述第一亚稳态相关联,所述第四目标分布与所述分子的所述第二亚稳态相关联;
基于所述第三初始分布和所述第三目标分布,确定第一分布损失;
基于所述第四初始分布和所述第四目标分布,确定第二分布损失;
利用所述分析模型处理训练初始路径,确定训练过渡路径,所述训练初始路径是基于所述第三初始分布和所述第四初始分布而被确定;
基于所述训练过渡路径与预定过渡路径之间的差异,确定路径损失;以及
基于所述第一分布损失、所述第二分布损失和所述路径损失,训练所述分析模型。
2.根据权利要求1所述的方法,其中确定所述过渡路径包括:
基于所述第一初始分布确定起点位置;
基于所述第二初始分布确定终点位置;
基于所述起点位置和所述终点位置,确定初始路径;以及
利用所述分析模型处理所述初始路径,以确定所述过渡路径。
3.根据权利要求2所述的方法,其中基于所述起点位置和所述终点位置确定所述初始路径包括:
基于所述起点位置和所述终点位置之间的线性插值,确定所述初始路径。
4.根据权利要求1所述的方法,还包括通过以下确定所述预定过渡路径:
确定从所述第一亚稳态到所述第二亚稳态之间的最小能量路径;或
确定从所述第一亚稳态到所述第二亚稳态之间的最小自由能路径。
5.根据权利要求1所述的方法,其中基于所述第一分布损失、所述第二分布损失和所述路径损失训练所述分析模型包括:
基于所述第一分布损失、所述第二分布损失和所述路径损失,确定用于训练所述分析模型的目标损失;以及
基于所述目标损失的梯度,调整所述分析模型的参数。
6.根据权利要求5所述的方法,还包括:
基于多个采样点的平均来确定所述目标损失的所述梯度中的至少部分,其中所述多个采样点被应用了预定采样约束。
7.根据权利要求1所述的方法,其中所述第一初始分布和所述第二初始分布为第一类型的分布,所述第一目标分布和所述第二目标分布为第二类型的分布,所述第一类型不同于所述第二类型。
8.根据权利要求7所述的方法,其中所述第一类型为高斯分布,所述第二类型为玻尔兹曼分布。
9.一种用于分子分析的装置,包括:
分布确定模块,被配置为确定各自指示分子中的原子分布状态的第一初始分布和第二初始分布;
分布处理模块,被配置为利用分析模型确定与所述第一初始分布对应的第一目标分布和与所述第二初始分布对应的第二目标分布,所述第一目标分布与所述分子的第一亚稳态相关联,所述第二目标分布与所述分子的第二亚稳态相关联;以及
路径确定模块,被配置为基于所述第一初始分布和所述第二初始分布、并根据所述分析模型,确定从所述第一亚稳态到所述第二亚稳态的过渡路径;
其中,所述装置还包括训练模块,被配置为:
利用分析模型的逆模型确定与第三目标分布对应的第三初始分布和与第四目标分布对应的第四初始分布,所述第三目标分布与所述分子的所述第一亚稳态相关联,所述第四目标分布与所述分子的所述第二亚稳态相关联;
基于所述第三初始分布和所述第三目标分布,确定第一分布损失;
基于所述第四初始分布和所述第四目标分布,确定第二分布损失;
利用所述分析模型处理训练初始路径,确定训练过渡路径,所述训练初始路径是基于所述第三初始分布和所述第四初始分布而被确定;
基于所述训练过渡路径与预定过渡路径之间的差异,确定路径损失;以及
基于所述第一分布损失、所述第二分布损失和所述路径损失,训练所述分析模型。
10.根据权利要求9所述的装置,其中路径确定模块包括:
第一位置确定模块,被配置为基于所述第一初始分布确定起点位置;
第二位置确定模块,被配置为基于所述第二初始分布确定终点位置;
路径处理模块,被配置为基于所述起点位置和所述终点位置,确定初始路径;以及
路径处理模块,被配置为利用所述分析模型处理所述初始路径,以确定所述过渡路径。
11.根据权利要求10所述的装置,其中所述路径处理模块包括:
插值模块,被配置为基于所述起点位置和所述终点位置之间的线性插值,确定所述初始路径。
12.根据权利要求9所述的装置,还包括预定过渡路径确定模块,被配置为通过以下确定所述预定过渡路径:
确定从所述第一亚稳态到所述第二亚稳态之间的最小能量路径;或
确定从所述第一亚稳态到所述第二亚稳态之间的最小自由能路径。
13.根据权利要求9所述的装置,其中所述训练模块还被配置为:
基于所述第一分布损失、所述第二分布损失和所述路径损失,确定用于训练所述分析模型的目标损失;以及
基于所述目标损失的梯度,调整所述分析模型的参数。
14.根据权利要求13所述的装置,其中所述训练模块还被配置为:
基于多个采样点的平均来确定所述目标损失的所述梯度中的至少部分,其中所述多个采样点被应用了预定采样约束。
15.根据权利要求9所述的装置,其中所述第一初始分布和所述第二初始分布为第一类型的分布,所述第一目标分布和所述第二目标分布为第二类型的分布,所述第一类型不同于所述第二类型。
16.根据权利要求15所述的装置,其中所述第一类型为高斯分布,所述第二类型为玻尔兹曼分布。
17.一种电子设备,包括:
至少一个处理单元;以及
至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令在由所述至少一个处理单元执行时使所述设备执行根据权利要求1至8中任一项所述的方法。
18.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现根据权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527121.6A CN114927161B (zh) | 2022-05-16 | 2022-05-16 | 分子分析的方法、装置、电子设备和计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210527121.6A CN114927161B (zh) | 2022-05-16 | 2022-05-16 | 分子分析的方法、装置、电子设备和计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114927161A CN114927161A (zh) | 2022-08-19 |
CN114927161B true CN114927161B (zh) | 2024-06-04 |
Family
ID=82808965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210527121.6A Active CN114927161B (zh) | 2022-05-16 | 2022-05-16 | 分子分析的方法、装置、电子设备和计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114927161B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115116537B (zh) * | 2022-08-29 | 2022-12-06 | 香港中文大学(深圳) | 生物分子功能性动力学多转变路径的计算方法及*** |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0402770D0 (en) * | 2004-01-16 | 2004-03-10 | Univ Sheffield | Data processing system and method, computer progam product |
CN103097897A (zh) * | 2010-07-05 | 2013-05-08 | 韩思梗 | 表征和多维展示蛋白质折叠过程的新方法 |
CN106951713A (zh) * | 2017-03-24 | 2017-07-14 | 中国石油大学(北京) | 一种模拟化学助剂作用下甲烷水合物分解过程的方法 |
CN107633157A (zh) * | 2017-08-29 | 2018-01-26 | 浙江工业大学 | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 |
CN110120249A (zh) * | 2019-05-23 | 2019-08-13 | 复旦大学 | 通过靶向调控动力学路径构造靶向构造目标结构的方法 |
CN111613275A (zh) * | 2020-05-26 | 2020-09-01 | 中国海洋大学 | 一种基于rmsd多特征的药物分子动力学结果分析方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5164111B2 (ja) * | 2008-10-15 | 2013-03-13 | 国立大学法人山口大学 | 化学反応遷移状態探索システムとその方法とそのプログラム |
US20180372726A1 (en) * | 2017-05-16 | 2018-12-27 | The Chinese University Of Hong Kong | Integrative single-cell and cell-free plasma rna analysis |
US20220148685A1 (en) * | 2020-11-09 | 2022-05-12 | X Development Llc | Free energy landscape modeling with parallel paths |
-
2022
- 2022-05-16 CN CN202210527121.6A patent/CN114927161B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0402770D0 (en) * | 2004-01-16 | 2004-03-10 | Univ Sheffield | Data processing system and method, computer progam product |
CN103097897A (zh) * | 2010-07-05 | 2013-05-08 | 韩思梗 | 表征和多维展示蛋白质折叠过程的新方法 |
CN106951713A (zh) * | 2017-03-24 | 2017-07-14 | 中国石油大学(北京) | 一种模拟化学助剂作用下甲烷水合物分解过程的方法 |
CN107633157A (zh) * | 2017-08-29 | 2018-01-26 | 浙江工业大学 | 一种基于分布估计和副本交换策略的蛋白质构象空间优化方法 |
CN110120249A (zh) * | 2019-05-23 | 2019-08-13 | 复旦大学 | 通过靶向调控动力学路径构造靶向构造目标结构的方法 |
CN111613275A (zh) * | 2020-05-26 | 2020-09-01 | 中国海洋大学 | 一种基于rmsd多特征的药物分子动力学结果分析方法 |
Non-Patent Citations (4)
Title |
---|
RNA二级结构折叠动力学;张文炳;;生物物理学报;20090715(S1);第56-57页 * |
Yin, K. et al..An automated predictor for identifying transition states in solids.npj Comput Mater 6.2020,(第16期),第1-10页. * |
经验原子势下铝镁合金中溶质原子向位错芯迁移的最低能量路径;李晓彤等;工程科学学报;20190711;第41卷(第07期);第898-905页 * |
聚酰亚胺高温裂解机理的反应分子动力学模拟;鲁旭;韩帅;李庆民;黄旭炜;王学磊;王高勇;;电工技术学报;20160625(12);第18-27页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114927161A (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Drohmann et al. | Reduced basis approximation for nonlinear parametrized evolution equations based on empirical operator interpolation | |
Winter et al. | Neurofuzzy-model-based unsteady aerodynamic computations across varying freestream conditions | |
WO2018039011A1 (en) | Asychronous training of machine learning model | |
US11494681B1 (en) | Quantum instruction compiler for optimizing hybrid algorithms | |
Li et al. | Robust deviance information criterion for latent variable models | |
Steiner et al. | Convergence of Parareal for the Navier-Stokes equations depending on the Reynolds number | |
CN114927161B (zh) | 分子分析的方法、装置、电子设备和计算机存储介质 | |
WO2020112025A1 (en) | Method and system for generating training data for a machine learning model for predicting performance in electronic design | |
Guo et al. | Concurrent pac rl | |
Griebel et al. | Multiscale simulations of three-dimensional viscoelastic flows in a square–square contraction | |
Bonaccorso et al. | LBsoft: A parallel open-source software for simulation of colloidal systems | |
Gu et al. | Building Markov state models with solvent dynamics | |
Gal et al. | How to catch a lion in the desert: on the solution of the coverage directed generation (CDG) problem | |
US10296671B2 (en) | Method of and apparatus for performing simulation using plurality of processors in parallel | |
Schliecker | Performance analysis of multiprocessor real-time systems with shared resources | |
Quetschlich et al. | Utilizing resource estimation for the development of quantum computing applications | |
CN114944204A (zh) | 用于管理分子预测的方法、装置、设备和介质 | |
Sahoo et al. | A partitioning methodology for BDD-based verification | |
Prabhakar et al. | Formal synthesis of stabilizing controllers for switched systems | |
Wimmer et al. | Correctness issues of symbolic bisimulation computation for Markov chains | |
Mortikov et al. | Direct Numerical Simulation of Stratified Turbulent Flows and Passive Tracer Transport on HPC Systems: Comparison of CPU Architectures | |
CN112989340A (zh) | 模型的后门检测方法、装置、介质和计算设备 | |
Gu et al. | Multiscale gentlest ascent dynamics for saddle point in effective dynamics of slow-fast system | |
Gajger et al. | Modelling and simulation of GPU processing in the MERPSYS environment | |
Buzdalov et al. | A discrete-event simulator for early validation of avionics systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room B-0035, 2nd Floor, Building 3, No. 30 Shixing Street, Shijingshan District, Beijing Applicant after: Douyin Vision Co.,Ltd. Applicant after: Face Meng Ltd. Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing. Applicant before: Tiktok vision (Beijing) Co.,Ltd. Applicant before: Face Meng Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |