CN113039559A - 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化 - Google Patents

使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化 Download PDF

Info

Publication number
CN113039559A
CN113039559A CN201980074420.5A CN201980074420A CN113039559A CN 113039559 A CN113039559 A CN 113039559A CN 201980074420 A CN201980074420 A CN 201980074420A CN 113039559 A CN113039559 A CN 113039559A
Authority
CN
China
Prior art keywords
latent
properties
property
data
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980074420.5A
Other languages
English (en)
Inventor
A·阿利珀
A·扎沃龙科夫什
A·热布拉克
D·波利科夫斯基
M·库兹涅佐夫
Y·伊万年科夫
M·韦谢洛夫
V·阿拉丁斯基
E·普京
Y·沃尔科夫
A·阿萨杜拉伊夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingke Intelligent Co ltd
Original Assignee
Yingke Intelligent Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yingke Intelligent Co ltd filed Critical Yingke Intelligent Co ltd
Publication of CN113039559A publication Critical patent/CN113039559A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/69Microscopic objects, e.g. biological cells or cellular parts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

所提出的模型是一种具有用张量列进行参数化的可学习先验的变分自动编码器VAE‑TTLP。可以使用所述VAE‑TTLP来生成具有特定性质的新对象和具有特定生物活性(当是分子时)的新对象(例如,分子)。可以以某一方式用张量列训练所述VAE‑TTLP,使得所提供的数据可以忽略所述对象的一或多个性质,并且仍然会产生具有期望性质的对象。

Description

使用具有可学习张量列诱导的先验的变分自动编码器的子集 条件化
相关申请的交叉引用
本申请要求于2018年9月18日提交的题为“使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化(SUBSET CONDITIONING USING VARIATIONAL AUTOENCODERWITH A LEARNABLE TENSOR TRAIN INDUCED PRIOR)”的美国专利申请第16/134,624号的优先权,其通过引用整体并入本文。
背景技术
深度神经网络(DNN)是最近为复杂数据处理和人工智能(AI)创建的计算机***架构。DNN是机器学习模型,其采用多于一个隐藏层的非线性计算单元来预测接收输入集合的输出。DNN可以出于各种目的以各种配置提供,并且将继续对其进行开发以改善性能和预测能力。
将是有利的是,具有一种用于使用一或多个DNN生成满足条件的对象的计算机方法,其中一些条件可以是已知的,并且其中一些条件可以不是已知的。
发明内容
在一些实施例中,提供了一种用于训练模型以生成对象的方法。所述方法可以包含以下步骤:提供模型,所述模型被配置为具有张量列的变分自动编码器;提供数据集,所述数据集具有对象的对象数据和所述对象的性质的性质数据;用所述模型的对象编码器处理所述数据集的所述对象数据以获得潜对象数据,其中所述潜对象数据包含具有平均值和方差的潜变量分布;从所获得的潜变量分布采样一或多个潜变量;处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率;通过对象解码器处理所采样的一或多个潜变量以获得重构对象;根据所述对象数据确定所述重构对象相较于原始对象的重构损失;根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒(Kullback-Leibler)散度;使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失;进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质;获得经训练的模型,所述经训练的模型被配置为具有用所述张量列进行参数化的可学习先验的经训练的变分自动编码器;和提供所述经训练的模型。
在一些实施例中,所述方法可以进一步包含用增强学***均值和方差,所述先前获得的潜变量分布限定为可学习先验;从所述编码器产生的所述潜变量之外获得每个维度的探索潜变量;将所述探索潜变量通过所述解码器,以基于所述探索潜变量获得重构对象;基于至少一个限定回报计算所述重构对象的回报;和应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
在一些实施例中,一种生成具有期望性质的对象的方法可以包含:获得根据实施例中的一个的所述经训练的模型;标识期望对象性质;从以所述期望对象性质为条件的张量列分布获得潜代码;用所述解码器生成具有所述期望对象性质的所述对象;和提供具有所述期望对象性质的所述生成对象。
在一些实施例中,所述方法可以包含:基于所述潜代码和期望性质获得可学习先验,和/或将所述潜代码与对象性质进行纠缠来获得所述可学习先验;获得性质集合;在不处于所述期望性质集合中的性质集合上边缘化所述可学习先验;在所述期望性质集合中的性质上条件化所边缘化的可学习先验,以获得潜空间上的分布;从所述潜空间上的分布进行采样;和用解码器处理所采样的潜向量,以获得具有预定性质的生成对象。所述条件化可以包含改变潜变量上的分布以提供具有期望性质的对象。所述分布的所述变化可以通过以下公式完成:p(z|性质)=p(z,性质)/p(性质)。
在一些实施例中,一种计算机程序产品可以包含非暂时性有形存储器装置,其具有计算机可执行指令,所述指令在由处理器执行时会导致方法的进行,所述方法包括:提供模型,所述模型被配置为具有张量列的变分自动编码器,提供数据集,所述数据集具有对象的对象数据和性质的性质数据;用所述模型的对象编码器处理所述数据集的所述对象数据以获得潜对象数据,其中所述潜对象数据包含具有平均值和方差的潜变量分布;从所获得的潜变量分布采样一或多个潜变量;处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率;通过对象解码器处理所采样的一或多个潜变量以获得重构对象;根据所述对象数据确定所述重构对象相较于原始对象的重构损失;根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒散度;使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失;进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质;获得经训练的模型,所述经训练的模型被配置为具有用张量列进行参数化的可学习先验的经训练的变分自动编码器;和提供所述经训练的模型。
在一些实施例中,由所述计算机程序产品进行的所执行的方法进一步包括用增强学***均值和方差;从前一步骤获得的平均值和方差指定的所述分布之外获得每个维度的探索潜变量;将所述探索潜变量通过所述对象解码器,以基于所述探索潜变量获得重构对象;基于至少一个限定回报计算所述重构对象的回报;和应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
前述发明内容仅是说明性的,而并不旨在以任何方式进行限制。除了上述说明性方面、实施例和特征之外,通过参考附图和以下详细描述,另外的方面、实施例和特征将变得显而易见。
附图说明
结合附图,根据以下描述和所附权利要求书,本公开的前述和以下信息以及其它特征将变得更加完全明显。在理解了这些附图仅描绘根据本公开的几个实施例并且因此不应被认为是对其范围的限制之后,将通过使用附图以附加的特异性和细节来描述本公开。
图1包含VAE-TTLP模型的架构的图示。
图2包含用于计算张量列建模分布下的潜变量集合的概率的图示。
图3A包含用于使用VAE-TTLP模型的方案的流程图。
图3B包含描述了用于计算给定对象性质下的样本的概率的步骤的流程图。
图3C包含描述了用于计算对象性质的概率的详细步骤的流程图。
图4A包含描述了使用VAE-TTLP模型生成具有期望性质的对象的流程图。
图4B包含描述了来自VAE-TTLP模型的生成对象的验证和测试的流程图。
图5包含通过张量列分解方法建模的连续和离散潜变量分布的图示。
图6包含描述了使用VAE-TTLP模型生成具有期望性质的对象的细节的流程图。
图7示出了计算装置的一个实施例。
图8示出了在MNIST数据库上训练的VAE-TTLP模型的样本,其中示出了所学习的潜空间。
图9示出了通过处理VAE-TTLP模型获得的数字的样本。
图10示出了生成图像,其指示VAE-TTLP模型学习产生具有多种不同属性的高度多样化图像。
图11示出了一种新型DDR1激酶抑制剂,其嵌入在示出活性与浓度的关系的曲线图中。
附图的元素根据本文描述的实施例中的至少一个进行布置,并且本领域的普通技术人员可以根据本文提供的公开内容修改所述布置。
具体实施方式
在下面的详细描述中,参考了构成其一部分的附图。在附图中,除非上下文另外指出,否则相似的附图标记通常标识相似的组件。在详细描述、附图和权利要求书中描述的说明性实施例并不旨在是限制性的。在不脱离本文提出的主题的精神或范围的情况下,可以利用其它实施例,并且可以进行其它改变。将容易理解的是,可以以各种不同的配置来布置、替代、组合、分离和设计如本文一般地描述的以及在附图中示出的本公开的各个方面,所有这些在本文中被明确考虑。
自动编码器(AE)是一种在无监督学习中用于有效信息编码的深度神经网络(DNN)。AE的目的是学习对象的表示(例如,编码)。AE含有编码器部分,所述编码器部分是将来自输入层的输入信息转换为潜表示(例如,潜代码)的DNN;还包含解码器部分,所述解码器部分使用潜表示并用与编码器的输入具有相同维数的输出层解码原始对象。通常,AE的用途是学习表示或编码数据集合。AE学习将来自输入层的数据压缩为短代码,然后将所述代码解压缩为与原始数据非常匹配的内容。在一个实例中,原始数据可以是与靶蛋白质相互作用的分子,并且由此,AE可以设计不是原始分子集合的一部分的分子,或者从原始分子集合选择分子或靶蛋白质的相互作用(例如,与结合位点结合)的其变体或衍生物。
生成式对抗网络(GAN)是可以用于生成数据的结构化概率模型。GAN可以用于生成与在其上训练GAN的数据集(例如,分子库)相似的数据(例如,分子)。GAN可以包含两个单独的模块,它们是DNN架构,被称为:(1)判别器和(2)生成器。判别器通过工作以将生成产品与原始实例进行比较来估计生成产品来自真实数据集的概率,并被优化以将生成产品与原始实例区分开。生成器基于原始实例输出生成产品。生成器被训练成生成相较于原始实例尽可能真实的产品。生成器尝试以生成产品的形式改善其输出,直到判别器无法将生成产品与真实的原始实例区分开。在一个实例中,原始实例可以是与蛋白质结合的分子的分子库的分子,并且生成产品是也可以与蛋白质结合的分子,无论生成产品是分子库中的分子的变体还是其分子或其衍生物的组合。
对抗自动编码器(AAE)是使用GAN进行变分推断的概率AE。AAE是基于DNN的架构,其中潜表示经由判别器被迫遵循某一先验分布。
条件架构可以被认为是有监督的架构,因为处理是由条件监督的。因此,条件架构可以被配置成用于生成与特定条件(例如,分子的性质)匹配的对象。在一些应用中,即使条件值仅是部分已知的,条件模型也可以考虑条件值。在生成过程期间,条件架构可能仅具有几个指定的条件,并且由此,其余条件可以至少在初始时采用任意值。
子集条件化问题限定为在训练和/或生成(主动使用)期间学习具有部分观察到的条件的生成式模型的问题。可以用于子集条件化问题的本文所述的架构是针对条件生成而扩展的基于变分自动编码器的生成模型,并且包含对其可学习先验进行参数化的张量列分解,其可以被称为VAE-TTLP。通过允许部分指定条件值,VAE-TTLP可以用于解决子集条件化问题。VAE-TTLP可以被用作判别模型,以预测任何缺少和/或未观察到的值,并且可以针对任何编码器/解码器架构进行训练。
通常,本技术涉及条件生成式模型,所述条件生成式模型被配置成在包含化学、文本、图像、视频和音频的许多领域中产生现实的对象(例如,化学品、短语、图片、音频等)。然而,例如化学领域的一些应用(例如,生物医学应用,其中缺少数据(例如,分子的性质)是常见问题)需要被训练成以多种性质(其中一些性质在训练或生成程序期间是未知的)为条件的模型。因此,VAE-TTLP是通过添加可学习先验(LP)来扩展变分自动编码器(VAE)的模型,所述可学习先验已用张量列(TT)进行参数化。本文所述的架构VAE-TTLP还可以用于将任何预训练的自动编码器转变为条件生成式模型。
VAE-TTLP可以被配置成生成具有特定性质集合的对象,其中所述对象可以是图像、视频、音频、分子或其它复杂对象。对象本身的性质可能很复杂,并且一些性质可能是未知的。在条件模型的一些应用中,性质值仅是部分已知的,现在可以与VAE-TTLP一起使用。VAE-TTLP可以被认为是经历两个阶段的模型,即(1)用具有和不具有对象特定性质的对象训练模型,然后使用经训练的模型来(2)生成可与用于训练模型的对象区分开并且还满足性质(无论是已知的还是未知的)的对象。而且,在使用模型的生成过程期间,模型的操作者可以仅指定几种性质,从而允许其余的性质采用任意值。例如,VAE-TTLP对于重构对象的丢失或劣化部分(例如,图像、文本或音频的丢失部分)特别有用。在这种情况下,模型可以被训练成生成以观察到的元素为条件的完整对象(例如,图像)。在训练程序期间,向模型提供了访问完整图像的权限,但是对于生成,操作者可以仅将观察到的像素指定为条件(例如,性质)。类似的问题出现在药物发现中,其中操作者使用所述模型生成具有预定性质(例如,针对特定靶标的活性或特定溶解度)的新分子结构。在大多数情况下,不同研究中的测量参数之间的交集通常很小,因此来自这些研究的组合数据会有很多缺少值。在生成期间,操作者可能仅想将分子的活性指定为性质,因此生成分子的最终溶解度最初可以采用任意值。此处,所述过程将在训练期间以及生成程序中在性质方面具有缺少值。
在训练和/或生成期间用具有部分观察到的性质的生成式模型进行学习的问题(例如,一些性质在训练和/或条件化期间是未知的或未使用的)被称为子集条件化问题。VAE-TTLP对此类子集条件问题的主要贡献概述如下。VAE-TTLP是具有对其可学习先验进行参数化的张量列分解的基于自动编码器的生成式模型。将VAE-TTLP应用于子集条件化问题(例如,具有未知性质),并且由此,用部分标记的数据集训练模型,然后使用所述模型从几种指定性质生成对象。使用已知对象(例如,图像或分子),使所述对象以属性子集(例如,图像中的特征或分子的性质)为条件来估计VAE-TTLP。与先前的条件模型相比,本文提供的VAE-TTLP可以提供具有更低条件违反的合适的生成对象。
基于上述内容,针对条件生成描述了VAE框架。VAE是一种类似自动编码器的生成式模型。Φ参数化的编码器使用分布qφ(z|x)将数据点x∈χ映射到潜空间Z中。然后,使用解码器pθ(x|z)将来自qφ(z|x)的样本重构回初始数据点。所述模型假定潜代码p(z)上存在某一先验分布(其可以是某一复杂的可学习先验或分布某一标准形式,例如标准正态分布N(0,I))。通过最大化证据下限来训练模型:
Figure BDA0003061541890000061
其中zi~qφ(z|x),并且
Figure BDA0003061541890000062
项是库尔贝克-莱布勒散度,其可以通过分析来计算,也可以使用蒙特卡洛采样来估计:
Figure BDA0003061541890000063
为了得到
Figure BDA0003061541890000064
的梯度的无偏估计,通常应用重新参数化,用确定性函数gθ替换
qφ(,|x),其中zi~gθ(x,∈l),∈l~N(0,I)。
具有常态先验p(z)=N(z|0,I)的标准VAE可以通过用更复杂的分布pψ(z)(称为可学习先验)替换p(z)来改善。更灵活的可学习先验产生更严格的证据界限并解决解码器忽略潜代码的问题。在本文提出的模型中,使用张量列分解对复杂的先验分布pψ(z)进行参数化,并使其与对象性质进行纠缠,从而产生pψ(z,y)。对于条件生成的任务,模型被训练成从p(x|y)进行采样,其中y是条件的给定值。可以通过条件化编码器、解码器和关于y的先验来针对此设置修改VAE,这会产生以下ELBO:
Figure BDA0003061541890000071
张量列(TT)分解允许用相对较少数量的参数表示较大的高维张量。这种分解对于存储高维离散分布很有用。例如,n个离散随机变量rk的联合分布p(r1,r2,…rn)采用来自{0,1,….Nk}的值。本分布可以被表示为n维张量P[r1,r2,…rn]=p(r1,r2,…rn)。本张量中的元素的数量随维数n呈指数增长。对于50个二进制变量,张量可以含有250≈1015浮点数。为了减少参数的数量,TT格式使用被称为核的低秩矩阵
Figure BDA0003061541890000072
来近似张量P:
Figure BDA0003061541890000073
其中
Figure BDA0003061541890000074
是全一的列向量。对于随机变量rk的每个值,选择特定矩阵Qk[rk],然后将它们相乘以得到所有随机变量。在这种格式下,参数的数量随维数线性增长。随着核尺寸mk的增加,可以以TT格式表示更复杂的分布。
离散分布的TT分解允许模型计算边缘和条件分布,以及从中进行采样而无需计算整个张量P[r1,r2,…rn]。例如,为了边缘化随机变量rk,所述方案可以对Qk[rk]的所有值求和,从而得到
Figure BDA0003061541890000075
Figure BDA0003061541890000076
类似地,为了得到单个变量上的边缘分布,所述方案可以计算:
Figure BDA0003061541890000077
注意,这些边缘可以在多项式时间内计算,而无需计算完整分布。具有边缘之后,模型还可以计算条件以及归一化常数。最后,可以使用链式法则有效地进行采样。
张量环是扩展TT格式的更高级的模型。直观上,所有张量维度都应该被类似地对待,因为在它们的排序下未覆盖明确的含义。在TT格式中,第一个和最后一个核Q1和Qn乘以全一的向量。在张量环模型中,第一个和最后一个维度以与相邻中间核类似的方式链接在一起。张量环模型将内核相乘,然后计算所得矩阵的迹,从而得到:
P[r1,r2,…,rn]=Tr(Q1[r1]·Q2[rj]……Qn[rn])。
本模型被称为张量环,因为本分解对于其维度的循环移位是不变的(因为迹是循环不变的)。本方法可以用较小核尺寸来近似更复杂的分布。而且,从计算图的角度来看,环张量格式的信息路径变得更短,这可以有助于更快地学习参数Qk[rk]。
为了解决子集条件化问题,可以使用VAE-TTLP来估计张量列格式的潜代码z和条件y的联合分布p(z,y)。具有本分布可以允许模型通过在未观察到的值上边缘化来计算部分标记的数据点的可能性。在生成期间,在给出观察到的条件(例如,性质)的情况下,模型可以从潜代码上的条件分布采样。现在,可以将张量列格式用于离散分布。
所述模型可以假定潜代码z=[z1,…zd]是连续的,而条件(例如,性质)y=[y1,…yn]是离散的。目标是建立联合分布pψ(z,y)的张量列表示,其可以对z和y之间的复杂依赖关系以及z的分量和y的分量之间的依赖关系进行建模。为了建立连续变量的TT,所述方案可以为每个分量zk引入分类随机变量sk∈{1,...,Nk}。联合分布变为:
Figure BDA0003061541890000081
对于条件分布pψ(z|y,s),选择不依赖于y的完全因式化高斯:
Figure BDA0003061541890000082
尽管分布pψ(z|y,s)未对z和y之间的依赖关系进行建模,但总体模型仍捕捉pψ(s,y)项中的依赖关系。分布pψ(s,y)是过离散变量,并且可以被看作是张量pψ(s,y)=W[sl,…,sd,y1,…,yn]。张量W以张量列或张量环格式存储。被用作先验模型的所得分布变为:
Figure BDA0003061541890000083
VAE-TTLP可以用通过张量列或张量环模型参数化的可学习先验pψ(z,y)限定。例如,(x,yob),其中x是对象,而yob是条件(例如,性质)的观察到的值。等式3中示出了具有可学习先验的VAE的证据下限对象(ELBO)。对于VAE-TTLP模型,其变为:
Figure BDA0003061541890000091
为了将模型应用于子集条件化问题,所述方案进行了两个假定。首先,所述方案假定关于y的值的所有信息都含在对象x本身中。这是一个合理的假定——例如,如果要生成手写数字(x),则关于其标记(y)的信息已含在x中。在本假定下,qφ(z|x,yob)=qφ(z|x)。所述模型还假定pθ(z|x,yob)=pθ(x|z)。因此,对象完全由其潜代码限定。这将产生最终的ELBO:
Figure BDA0003061541890000092
其中zi~qφ(z|x)。由于联合分布pψ(z,y)是以TT格式参数化的,因此所述模型可以通过分析来计算给出观察到的条件pψ(z|yob)的潜代码上的后验分布。所述模型还可以通过采样pψ(yun|z)来填充缺少条件。
经训练的VAE-TTLP模型可以用于从o(x|yob)产生条件样本。所述方案可以通过首先采样潜代码x~pψ(z|yob),然后将其馈送给解码器x~pθ(x|z)来从本分布进行采样。可以使用链式法则有效地完成z的采样:p(z|yob)=p(z1|yob)p(z2|yob,z1)...p(zd|yob,z1,…,zd-1)。zk上的条件分布是具有不变的中心
Figure BDA0003061541890000093
和方差
Figure BDA0003061541890000094
但权重不同于w的高斯混合:
Figure BDA0003061541890000095
由于W以张量列或张量环格式表示,因此可以对分量的权重进行效率计算。总体架构在图1中通过图示示出。图1示出了VAE-TTLP模型100的图示。自动编码器被训练成将对象x映射到潜代码z。条件(例如,性质)y和潜代码z的联合分布以张量列格式进行训练。本模型可以用于从所有可能条件的子集生成样本。例如,所述方案可以在性质y1和y3上条件化样本,而无需指定y2。也就是说,y2是未知的或未使用的。如图所示,将图像102提供给编码器104,在所述编码器中,根据条件y1和y3处理图像102的数据,但是条件y2是未知的。图像102可以是一系列图像102,其用于如本文所述训练模型100。潜空间106基于条件y1和y3产生潜代码z1、z2、z3、z4和z5等。然后,通过解码器108处理潜代码,所述解码器然后重构图像102以提供重构图像110。
如图所示,y2是未知的,但是由于张量列分解,所述方案仍然可以工作。可以使对象与性质相关,例如对象中可见的特征的性质。当对象是人的图像时,头发的长度、头发的颜色、性别(戴或不戴眼镜)都可以作为性质。在分子中,结构的不同官能团和三维取向可以是性质,而且物理化学性质(例如,生物活性、熔点、溶解度等)也可以是性质。因此,对于分子,一些性质可能是未知的。然而,可以运行张量列,使得VAE-TTLP模型仍然可以产生具有期望性质的分子,而与期望性质是否具有已知值无关(例如,在生成分子具有期望溶解度的情况下,溶解度是否是已知的)。所产生的对象可以包含所限定的特征(无论存在或是不存在数据集中的特征)。
编码器产生潜代码上的分布,然后我们从潜分布获得样本z,其是一个多分量向量。通过解码器处理向量,以重构对象。图1示出了具有5个分量z1-z5的向量。然而,可以使用任何数量的分量。可以训练模型,使得在编码器104中处理的对象x与来自解码器108的重构对象
Figure BDA0003061541890000101
相同。可以对潜代码z的分布进行整形,使得潜代码z含有关于y或所述性质的一些信息。所述模型可以以张量列格式对z和y的联合分布进行参数化,以允许通过性质的信息给出样本潜代码。如图所示,这就是为什么y2可能未知或未限定的原因。然后,从潜代码的分布采样潜代码,并且将所采样的潜代码通过解码器108,以便生成重构图像
Figure BDA0003061541890000102
在一些实施例中,来自已经被训练的自动编码器的潜代码被增强以用于获得具有期望条件的对象。张量列的使用以及给定对象下的样本的概率以及KL散度的计算改善了具有期望条件的适当对象的生成。
以下信息提供了训练VAE-TTLP模型的技术细节。首先,混合权重w[s1,…,sd,y1,…,yn]应为非负数且总和为一。为了确保非负性,所述方案将核张量Qk的负分量替换为其绝对值。所述方案还存储了非归一化张量,其在多项式时间内飞速计算归一化常数。
高斯混合模型的一个熟知问题是混合分量的崩溃。在训练期间,可以观察到许多分量的权重迅速降为零,从而导致先验分布的表现力降低。据假设,这可能是由于不良的优化程序而发生的。为防止分量崩溃,所述方案使用两步程序在训练过程期间多次重新初始化混合参数
Figure BDA0003061541890000111
Figure BDA0003061541890000112
首先,所述方案从分布z~qφ(z|x)采样潜代码,并且对于每个潜空间维度k,所述方案使用期望最大化算法估计高斯混合
Figure BDA0003061541890000113
的参数平均值
Figure BDA0003061541890000114
和方差
Figure BDA0003061541890000115
对于第二步,所述方案修复了先验pψ(z,y)的平均值和方差并优化了表示为W[s1,…,sd,y1,…,yn]的张量列的核。因此,所获得的先验分布(例如,可学习先验)更有效地使用混合分量,从而提高了整体模型的性能。
现代深度生成式模型通常分为两个主要类别。第一类与生成式对抗网络(GAN)有关,第二类与类似于变分自动编码器(VAE)的模型相对应。生成式对抗网络是由两个网络(生成器和判别器)组成的模型。生成器产生新对象的集合,而判别器尝试将它们与真实的对象区分开。变分和对抗自动编码器用对潜空间进行整形的正则化器来建立自动编码器模型。GAN在特定领域产生最新样本,但是基于自动编码器的方法允许用离散数据训练并防止模式崩溃问题。
在一些实施例中,VAE-TTLP模型可以将自动编码器与可学习先验组合,所述可学习先验是通过张量列或环张量(也被称为张量环)分解进行参数化的。张量列(TT)分解用于表示参数数量有限的大型高维张量。因此,TT分解对于存储高维离散分布特别有用。为了使TT能够处理连续随机变量,每个连续变量上的分布通过高斯混合进行建模。然后,TT分解将存储离散潜变量的离散分布和对连续变量建模的离散数量的分量。所述概念在图5上示出。如图所示,TT格式的离散分布为:(1)用“s”示出的高斯混合中的分量数;和用“d”示出的离散潜变量。然后,高斯混合中的分量数为以“c”示出的离散潜变量。因此,当条件未知时,可以使用高斯混合中的分量数来确定离散潜变量“c”。TT分解广泛应用于机器学习中,以高效地表示带有少量参数的张量。TT分解有时也用于压缩神经网络的完全连接的卷积或递归层。在VAE-TTLP模型中,离散分布的TT分解用于允许计算边缘和条件分布。
与具有可学习先验的其它模型不同,VAE-TTLP模型不仅学习潜变量之间的依赖关系,而且还学习:(a)对象性质和潜空间之间的交叉依赖关系;并且允许(b)算术上有效的边缘化(例如,对某一变量集合的积分)和条件化(例如,修改可学习先验以在具有所述模型以其为条件的性质的对象上具有更高的密度)。性质(a)和(b)都允许对潜变量进行采样,以产生具有预定性质的对象。
在一些实施例中,VAE-TTLP模型的架构使用具有用于编码器的6个卷积层和2个完全连接层的8层神经网络卷积神经网络,以及具有用于解码器的解卷积的对称架构。
在一些实施例中,VAE-TTLP模型架构所使用的训练程序类似于常规VAE架构的训练。然而,由于存在可学习先验,因此存在一些差异,所述先验同时处理潜变量和对象特征(其可能具有一些缺少变量)。在一些方面,可以使用学习速率等于0.0001的Adam优化器以随机梯度下降来进行训练。
对于随机梯度下降(SGD)的每次迭代,进行以下步骤,其在图3A中示出。注意,子步骤d、e和f与标准VAE训练有所不同。步骤1——对小批量对象{x1,…,xn}及其性质{y1,...,yn}进行采样。步骤2——对于来自小批量的具有指数i的对象,执行以下子步骤:a)在对象上运行编码器,并获得潜变量分布N(zi|xi);b)从所获得的分布zi~N(zi|xi)采样潜变量;c)运行解码器,并从所获得的分布获得所采样的潜变量的概率的对数logp(xi|zi)(在图像的情况下,它只是生成对象和原始对象在所有像素和所有颜色通道上的均方误差);d)计算N(zi|xi)的熵;e)计算先验概率的对数logp(zi|yi);f)用所述熵减去所获得的对数概率,以获得KL散度的单点近似值;和g)用子步骤(f)上的值中减去子步骤(c)上获得的值,获得ELBO(证据下限对象)估计值。步骤3——计算整个小批量上的子步骤(g)上获得的所有ELBO的平均值。步骤4——进行梯度下降步骤。
如图3A的方法300中所示,从数据集获得样本小批量(302)。然后考虑对象和对象性质(304)。通过编码器处理对象(306),并且获得
Figure BDA0003061541890000121
Figure BDA0003061541890000122
(308)。然后获得来自分布
Figure BDA0003061541890000123
的样本(310),并且将其与对象性质一起使用以计算在给定对象性质下获得的样本的概率(312)。然后通过解码器处理样本潜代码(314),并且获得重构对象(316)。然后针对重构对象计算重构损失(318)。计算KL散度(320)。计算损失,并且反向传播梯度(322)。
以下步骤可以用于生成重构对象以及训练模型以使其能够生成这种重构对象。步骤1可以是将对象数据提供给编码器。步骤2可以是对潜代码进行采样。步骤3可以是确定具有诸如期望性质或限定性质的性质(指定条件)的潜代码的样本的联合概率。可以训练模型以最大化从步骤3获得的这种概率。因此,模型根据性质优化潜代码。这可以在图3A中看到。
所述方案可以以对数据集进行采样开始,其可以通过从数据集随机选择几个对象。例如,数据集可以包含对象和对象性质。对于图像对象,性质可以是特征。对于分子对象,性质可以是生物活性、结构性质和物理性质。
由编码器(306)处理对象数据以产生mu(μ-分布平均值)和sigma2(σ-方差),它们限定了潜代码z的分布。因此,潜代码z可以具有向量的分布。应当注意,方差是sigma平方(σ2–方差)。这指示了对象在潜空间中的放置位置。
然后从分布采样以得到可以是正态分布的潜代码z(310),然后将其通过解码器(314)以得到重构对象316。在获得重构对象316之后,基于原始对象和重构对象计算重构损失,其中可以确定从原始对象损失的信息(318,图3A)。这确定了原始对象和重构对象之间的差异。训练模型的目的是使差异为零。
而且,元素312示出了潜代码的分布的样本与对象性质一起使用,以计算样给定对象性质下的样本的概率。为了计算给定对象性质下的样本下的概率,使用张量列分解来计算样本符合对象性质的概率。为了确定来自样本的对象是否来自μ(mu)和σ2(σ平方),所述模型使用张量列分解对其进行处理。因此,可以将潜代码z与对象的条件/性质的分布进行比较,然后确定z具有期望性质的概率。如果潜代码的性质分布与来自动编码器的潜代码的分布相匹配,则运行模型,但如果不匹配,则可以对模型进行进一步训练,或者可以针对期望性质修改参数,使得潜代码的分布与具有所述性质的潜代码的分布相匹配。
然后,在元素320下,模型可以计算KL散度以确定联合概率如何表现。在理想情况下,本损失将为0,而较不理想的情况是在潜代码与对象性质不匹配时,将导致0以外的某一数字。KL散度可通过等式11计算。KL散度测量来自编码器和张量列的不同分布。
然后,利用反向传播梯度根据重构损失和KL散度计算损失(322)。
图3B包含描述了用于计算给定对象性质下的样本的概率的步骤的流程图。图3B可以是图3A的元素312的用于计算给定对象性质下的样本的联合概率的方法。因此,图3B示出了一种方法330,其中提供了对象性质(332),并且将其用于计算TT分布下的对象性质的概率(334)。而且,获得(336)来自动编码器的潜代码样本,并且将其与对象性质一起使用以计算TT分布下的对象性质和潜代码的概率(338)。然后,使用334和338的计算概率通过条件概率公式来计算以对象性质为条件的潜代码的概率(340)。
例如,从小批量数据集获得实例,并且从潜代码获得样本。然后使用等式9来计算概率(例如,312)。确定给出性质y的潜代码z的条件概率。
图3C包含描述了用于计算对象性质的概率的方法350的详细步骤的流程图。因此,图3C示出了用于进行图3B的概率的计算的方案,例如在元素338中。方法338包含将缓冲区(buf——存储器中存储的中间向量)设置为眼矩阵,其中j=1(352)。然后,确定yj是离散的还是连续的,以及是否应将其边缘化(354)。如果是离散的,则遵循离散路径,其包含沿中间指数计算与onehot(yj——除yj位置之外的其它所有位置都含有0而yj位置含有1的向量)的点积(356)。如果是连续的,则沿着中间指数计算与[N(yj|mui,stdi),对于所有i]的点积(358)。如果被边缘化,则沿中间指数计算与(1,1,…,1)的点积(360)。然后,如果是离散的、连续的或边缘化的,则对结果进行处理以得出与缓冲区(buf)的相应点积,以获得新缓冲区(buf)(362)。然后,所述过程计算缓冲区(buf)的迹,并将其设置为(y1,…,yn)的概率(364)。然而,在计算缓冲区(buf)的迹之前,如果存在待处理的yj,则所述过程迭代回步骤354并且进行确定,并且如图所示重复所述过程。
而且,图3C示出了用于离散和连续条件或性质的方案。然而,当未限定或指定性质时,则可以进行边缘化方案。
在一些实施例中,可以使用来自元素312的结果来训练模型,使得编码器产生更好的潜代码,所述更好的潜代码可以用于生成具有期望性质的更好的重构对象。在图6中,联合模型对给出某一y的潜代码z进行采样,然后所述方法产生具有期望性质的重构对象。所述性质可能已经嵌入到对象中,并且用这些性质选择对象。在一些情况下,使用重构对象计算重构损失,另一方面,计算KL散度。
图4示出了用于使用VAE-TTLP模型来生成具有期望性质的对象的方法400。如图所示,限定期望对象性质(402)。然后从用期望对象性质条件化的TT分布获得样本潜代码(404)。解码器然后生成具有期望对象性质的重构对象(406)。
鉴于前述内容,描述了用可学习先验计算张量列(TT)中的概率。用张量计算图在图2上示出了用可学习先验计算TT中的概率的程序。本图的节点为张量,而节点之间的边表示张量收缩操作。由于收缩是可交换的操作,因此可以按照任何顺序进行收缩。张量{Qi}是TT分解的核心对象。它们用随机变量的值收缩。离散变量由独热(one-hot)向量表示,其可以被处理为1维张量。连续变量通过正态分布的混合进行建模,并且因此,其被描述为混合分量内部的概率的向量。如果缺少某一变量的值,则其被表示为由一填充的向量。在进行所有收缩之后,只有一个非负值,其等于TT分布内的变量向量的概率。
图2可以被认为是图3C的更详细的描述。存在离散变量和连续变量。可能存在多维张量,诸如例如,向量是一维张量,矩阵是二维向量,并且对于更多维度,其可以被称为张量。如所描述,可以获得联合分布。例如,对于离散随机变量,然后在张量处指定联合分布。如果具有两个变量,例如R1和R2,则R1等于R2的概率可以被写入二维张量中。因此,所述变量可以以用于张量列分解的张量列格式表示。所述方法允许探索具有可能无法存储在存储器中的大量张量的张量。
当用于训练模型的对象可能缺少一些性质时,可以使用VAE-TTLP模型生成具有预定性质的对象。因此,即使在只有一些已知性质而对象的其它性质未知的情况下,也可以运行所述模型。
图6示出了用于在本文描述的原理下生成具有预定性质的对象的方法500。首先,必须制定待从生成对象获得的期望性质(502)。期望性质可以是用于训练的所有性质的子集。在方法500中使用模型的可学习先验(504)以在不包含在期望性质集合中的性质上边缘化可学习先验(506),以获得p(z1,…zk,y1,…yj)(508)。下一步是在所述集合中的性质上进行所边缘化的可学习先验的条件化(510)。本步骤(510)提供了潜空间上的分布p(z1,…,zk|y1=v1,…,yj=vj)(512),其在产生具有给定性质的对象的区域中具有较高的密度。最后,从所条件化的先验采样潜变量(514),以通过在本所采样的潜向量上运行解码器来获得具有预定性质的对象(516)。
因此,图6是图4A的主题的更详细描述,其中如何采样潜代码并获得所得对象。可学习先验是从z和y的一般分布获得的。期望特征集合含有我们希望对象具有的几个值,未呈现的特征可以针对生成对象采用任何值。鉴于不存在的特征,方法500边缘化可学习先验。存在用y指定的潜代码的概率。然后,在给出y的指定值的情况下,使用它来计算潜代码上的条件概率。然后,从潜代码z的分布采样,然后通过解码器对其进行处理以获得重构对象。
尽管已经针对可以是图像的对象描述了VAE-TTLP模型,但是所述模型也可以用于生成具有期望性质的化学结构。因此,分子对象的性质可能会存在一些缺少,并且即使对象的一些性质不可用,也可以使用VAE-TTLP来生成具有期望性质的分子对象。
扩展模型
本文已经描述了VAE-TTLP模型。现在,可以将VAE-TTLP模型与强化学习(RL)一起使用。RL方案可以用于为新对象(例如,新分子结构)的生成引入回报。尽管RL方案可以结合分子结构进行描述,但它们也可以应用于其它类型的对象,例如图像、视频、音频、文本和其它对象。
VAE-TTLP模型也可以与强化学***均值μ和方差σ2,然后从zexploration~U(μ-2σ,μ+2σ)采样探索代码。所述方案可以将这些代码通过解码器xexploration~pθ(x|zexploration),并估计所获得分子的回报{xexploration}。如果新探索区域的回报很高,则潜流形将向其扩展。流形由来自不同对象的潜空间的多维空间中的形状形成。
可以用至少部分训练的VAE-TTLP模型来实施RL,并且RL可以进一步训练模型以改善重构对象的生成。当在化学结构的空间中使用VAE-TTLP时,这可能会有所帮助,因为某些特征可以用回报增强,以改善具有特定性质的分子的设计。潜代码可以在化学结构的一些已知节点附近随机采样,使得可以分析可变特征。例如,分子中的某一基因座可以被各种取代基衍生化。
在一些实施例中,所述方案有助于对来自流形的输出进行整形,所述输出可以是具有如图1中的元素106示出的条件的潜空间。
所述方案可以对可能来自流形外部的结构的zexploration进行采样。因此,样本可以来自作为潜代码的zexploration,然后可以针对这些样本在给定对象性质下的概率来确定概率。然后,可以通过解码器处理这些所采样的zexploration潜代码,以生成探索重构对象。然后,可以计算损失以确定探索重构对象与原始对象的匹配程度。可能存在zexploration潜代码的回报。如果回报很高,则潜流形向zexploration潜代码扩展。否则,则潜流形远离其扩展,或向具有更高回报的不同的zexploration潜代码扩展。
回报函数
在自组织科霍宁(Kohonen)映射(SOM)的基础上开发了回报函数。所述算法由托伊沃·科霍宁(Teuvo Kohonen)提出,是一种独特的无监督机器学习降维技术。它可以以一致且无偏的方式有效地重现隐藏在输入化学空间中的固有拓扑和图案。输入化学空间通常用分子描述符(输入向量)来描述,同时在输出处生成便于视觉检查的2D或3D特征映射。使用三种SOM的集合作为回报函数:第一种SOM被训练成预测化合物对激酶的活性(一般激酶SOM),第二种被开发成选择位于整个激酶映射内的与DDR1抑制剂相关联的神经元中的化合物(特定激酶SOM),最后一种被训练成根据当前药物化学趋势来评估化学结构的新颖性(趋势SOM)。在学习期间,当生成结构被归类为作用于激酶、位于归因于DDR1抑制剂的神经元中以及趋于成为相对新颖的结构的分子时,基本的AI模型即得到回报。
一般激酶SOM
经预处理的训练数据集包含总共41K小分子化合物:24K激酶抑制剂和针对非激酶靶标具有报告活性(浓度<1μM)的17K分子。对于整个数据库,使用RDKit、Mordred库和SmartMining软件计算超过2K的分子描述符。根据双变量学生t值对描述符进行排名,然后选择9个描述符作为最特许且理论上有效的以用于区分激酶和非激酶化学。所述集合包含:MW(分子量,t=-63.4)、Q'(双归一化二次型指数,t=77.3)、SS(公用电拓扑指数,t=-69.3)、S[>C<](部分SS指数,t=-50.3)、1Ka(第1基尔拓扑指数,t=-66.5)、Hy(亲水性指数,t=-55.9)、VDWwvol(加权原子范德华体积,t=-70)、HBA(氢键受体数,t=-34.0)、HBD(氢键供体数,t=-8.5)和RGyr(回转半径,t=-55)。映射大小为15x15 2D表示(随机分布阈值为177个分子/神经元),学***均分类准确率为84%。在学习周期期间以及在优先级排序步骤中,使用本模型对所有生成结构进行评分。随后将分类为具有最低误差(欧几里得度量)的激酶抑制剂的化合物进行特定激酶SOM。
一般激酶SOM可以趋于参与与激酶相互作用的分子中的分子或基因座。
特定激酶SOM
进行了类似的程序来构建科霍宁映射,以标识沿激酶抑制剂化学空间分配给DDR1抑制剂的元素。被一般激酶SOM分类为激酶抑制剂的结构被用作输入化学池。最后的分子描述符集合包含:MW(t=-44)、Q'(t=37)、1Ka(t=-42)、SS(t=-52)、Hy(t=-30)、VDWsumvol(t=-35)、HBA(t=-40)和HBD(t=14)。映射大小为10x10 2D表示(随机分布阈值为245个分子/神经元),学***均分类准确性为68%,并且观察到向DDR1抑制剂的偏倚。然后,在学习程序期间使用“主动”神经元来选择结构,以回报核心GENTRL并进行优先级排序过程。在这种情况下,我们没有使用PF来进行选择决策,以克服过度训练并增强在紧密地形附近运行的生成结构的新颖性。
特定激酶SOM可以类似于一般激酶SOM;然而,特定激酶的SOM趋于特定类型的激酶的化学。也就是说,趋于已知与特定激酶相互作用的基因座或官能团。例如,这可以用于设计新的DDR1抑制剂。回报可以使重构对象具有化学特征,例如已知与DDR1相互作用的化学部分、官能团或基因座。
趋势SOM
作为另外的回报函数,所述方案还可以使用基于分子的训练数据集而开发的科霍宁映射。选择了以下关键分子描述符进行训练:MW、LogP(亲脂性,辛醇-1/水体系中的计算分配系数)、LogSw(水中的溶解度)、PSA(极性表面积,
Figure BDA0003061541890000181
)、HBA、Don、SS、BFL(超出平地函数)。BFL函数与化学演化密切相关,并反映了分子的真实非平面性(相对于简单的sp3速率)。BFL具有足够的敏感性,以根据新颖性遵循现代药物化学中观察到的趋势。映射大小为15x15 2D表示(随机分布阈值为75个分子/神经元),学习轮数:2000,初始学习速率:0.4(线性衰减),初始学习半径:10,使用欧几里得度量确定获胜的神经元,初始权重系数:随机分布。在训练过程完成之后,显示含有在不同时间段内要求的化合物的区域,并且已在相对较新的专利记录(在2015年至2018年之间要求)中描述的分子最终位于映射的单独区域中,而“旧”化学主要位于完全不同的区域,从而提供统计学上相关的分离。在映射内,我们清楚地观察到这些年来的内在趋势,并将其描述为简单向量的集合。与与“旧”化学型相关联的神经元相反,使用归因于新化学的神经元(最近十年)来回报我们的AI-核心。
在一些情况下,趋势SOM尝试预测分子被发明的年份。可以预测,所述分子被确定为在于某一年,如果其是最近的,则其可以是新化学;但是如果其是年久的,则其可以是旧化学。在一些情况下,回报函数可以向上趋于最近的化学,使得探索相对较新的分子。
训练程序
可以使用训练程序来用强化学***均值μ和方差σ。这可以估计流形的形状。步骤4——采样每个维度的zexploration~U(μ-2σ,μ+2σ)。步骤5——将zexploration通过解码器并获得SMILES xexploration(例如,简化分子输入线准入制度或其它)。步骤6——计算一或多个回报:xexploration的rtrend、r(general kinase SOM)、r(specific kinase som)。步骤7——应用单个梯度上升步骤以最大化关于张量列诱导的可学习先验pψ(z)的参数ψ和解码器的第一层的总回报r=有效性*(rtrend+rgeneral kinase SOM+rspecific kinase SOM)。步骤8——重复步骤3至7直到收敛。例如,当回报停止增加时,停止训练。
可以对分子进行采样,然后通过本文描述的管道方案进行过滤。然后,可以合成并验证通过过滤获得的分子。
在一些实施例中,训练程序可以用于进一步训练经训练的VAE-TTLP模型以提供RL。
在一些实施例中,所有三种SOM可以用于训练。
一般描述
在一些实施例中,提供了一种用于训练模型以生成对象的方法。所述方法可以包含以下步骤。所述方法可以使用模型,所述模型被配置为具有用张量列进行参数化的可学***均值和方差的潜变量分布。所述方法可以包含从所获得的潜变量分布采样一或多个潜变量。所述方法可以包含处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率。所述方法可以包含通过对象解码器处理所采样的一或多个潜变量以获得重构对象。所述方法可以包含根据所述对象数据确定所述重构对象相较于原始对象的重构损失。所述方法可以包含根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒散度。所述方法可以包含使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失。所述方法可以包含进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质。所述方法可以包含获得经训练的模型,所述经训练的模型被配置为具有用张量列进行参数化的可学习先验的经训练的变分自动编码器。一旦获得,就可以提供所述经训练的模型以用于存储(例如,计算机存储器)或用于生成具有期望性质的重构对象。
所述方法可以用于处理所述数据集中的多个对象,例如以下:用所述对象编码器处理对象数据以获得潜变量分布;从所获得的潜变量分布采样一或多个潜变量;用解码器处理所采样的一或多个潜变量以获得所述重构对象;获得所采样的一或多个潜变量具有限定性质的概率的对数;计算所获得的潜变量分布的熵;计算所述概率对数的对数,以获得所获得的对数概率;用所述熵减去所获得的对数概率,以获得所述库尔贝克-莱布勒散度的近似值;用所述概率的对数减去所述库尔贝克-莱布勒散度的近似值;和获得变分干扰的估计下限目标。在一些方面,所述方法可以进一步包含:首先,计算所述数据集的所有对象上的所有估计下限目标的平均值;和其次,进行所述梯度下降。
在一些实施例中,所述方法可以包含:为所述对象限定一或多个条件;和允许所述对象的一或多个未限定条件具有任意初始值。
在一些实施例中,所述计算具有所述限定对象性质的所述样本的概率包含:用张量列分布计算所述对象的对象性质的概率;用张量列分布计算对象性质和所述潜代码的概率;和通过条件概率公式计算以对象性质为条件的所述潜代码的概率。
在一些实施例中,所述用张量列分布计算对象性质和所述潜代码的概率包含:将缓冲区设置为眼矩阵;确定对象性质是离散的还是连续的或未限定的;当所述对象性质是离散的时,沿中间指数计算与onehot(yj)的点积,其中yj是所述对象性质;当所述对象性质是离散的时,沿中间指数计算与[N(yj|mui,stdi),针对所有i]的点积,其中mui是i的平均值,并且stdi是i的标准偏差(例如,sigma),其中i是对象;当所述对象性质是离散的时,沿所述中间指数计算与(1,1,…,1)的点积,根据所获得的点积,得出与所述缓冲区的所述点积以获得新缓冲区;和计算新缓冲区的迹并将所述迹设置为(y1,…,yn)的概率。
在一些实施例中,用增强学***均值和方差,所述先前获得的潜变量分布限定为可学习先验;从所述编码器产生的所述潜变量之外获得每个维度的探索潜变量;将所述探索潜变量通过解码器,以基于所述探索潜变量获得重构对象;基于至少一个限定回报计算所述重构对象的回报;和应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
在一些方面,当所述对象是分子时,所述回报包含:一般生物活性自组织科霍宁映射,其为作为具有生物途径中的生物活性的分子的重构对象提供回报;特定生物活性自组织科霍宁映射,其为作为与特定生物物质具有生物活性的分子的重构对象提供回报;和趋势自组织科霍宁映射,其为作为具有在限定时间框架内退化的化学部分的分子的重构对象提供回报。在一些方面,所述一般生物活性自组织科霍宁映射,其为作为具有激酶生物途径中的生物活性的分子的重构对象提供回报。在一些方面,特定生物活性自组织科霍宁映射,其为作为与DDR1蛋白具有生物活性的分子的重构对象提供回报。在一些方面,趋势自组织科霍宁映射,其为作为具有在限定时间框架内退化的化学部分的分子的重构对象提供回报。
在一个实施例中,一种生成具有期望性质的对象的方法可以包含:获得根据所述实施例中的一个所述的经训练的模型;标识期望对象性质;从以所述期望对象性质为条件的张量列分布获得潜代码;用所述解码器生成具有所述期望对象性质的所述对象;和提供具有所述期望对象性质的所述生成对象。在一些方面,所述方法可以包含获得具有所述期望对象性质的多个生成对象;基于一或多个参数过滤所述多个生成对象;和基于所述过滤选择一或多个生成对象。
在一些实施例中,一种获得所述对象的物理形式的方法可以包含:选择所选择的生成对象;获得所选择的生成对象的物理形式;和验证所选择的生成对象的所述物理形式。在一些方面,所述方法可以包含:选择提供的生成对象;获得所选择的生成对象的物理形式;和验证所选择的生成对象的所述物理形式。
在一些实施例中,生成对象可以包含:基于所述潜代码和期望性质获得可学习先验;获得性质集合;在不处于所述性质集合中的期望性质集合上边缘化所述可学习先验和所述性质集合;在所述性质集合中的性质上条件化所边缘化的可学习先验,以获得潜空间上的分布;采样所述潜空间上的分布;和用解码器处理所采样的潜空间上的分布,以获得具有预定性质的生成对象。
在一些实施例中,一种计算机程序产品包含非暂时性有形存储器装置,其具有计算机可执行指令,所述指令在由处理器执行时会导致方法的进行,所述方法包括:提供模型,所述模型被配置为具有用张量列进行参数化的可学***均值和方差的潜变量分布;从所获得的潜变量分布采样一或多个潜变量;处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率;通过对象解码器处理所采样的一或多个潜变量以获得重构对象;根据所述对象数据确定所述重构对象相较于原始对象的重构损失;根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒散度;使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失;进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质;获得经训练的模型,所述经训练的模型被配置为具有用张量列进行参数化的可学习先验的经训练的变分自动编码器;和提供所述经训练的模型。
在所述计算机程序产品的一些实施例中,所执行的方法进一步包括用增强学***均值和方差,所述先前获得的潜变量分布限定为可学习先验;从所述编码器产生的所述潜变量之外获得每个维度的探索潜变量;将所述探索潜变量通过解码器,以基于所述探索潜变量获得重构对象;基于至少一个限定回报计算所述重构对象的回报;和应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
在一个实施例中,通过使生成对象(例如,产品)与对象本身一样复杂来满足VAE-TTLP的强加条件。DNN架构可以用于生成对人类细胞具有期望作用或具有某些物理性质(例如,条件或性质)的特定分子(例如,生成对象或产品),或结合到靶蛋白质或具有某一物理结构(例如,条件或性质)的一或多个分子(例如,生成对象或产品)。这些问题在药物发现领域很常见。在这两种情况下,条件(蛋白质或接受分子前的细胞状态以及接受分子后的细胞状态)或性质(溶解度、分子量、3D构象)至少与对象(药物的候选分子)本身一样复杂。
在一个实例中,针对特定分布分析对象编码器的输出。例如,对象信息(例如,潜对象数据)的分布应当是标准正态分布。例如,通过对象编码器处理所有分子(例如,对象数据)以得到潜对象数据,所述潜对象数据包含作为标准偏差(例如,sigma)分布而分布的生成分子。张量列进行数据处理以确定生成分子数据(例如,潜对象数据)是否在对象数据的标准偏差(例如,sigma)分布内。
在一些实施例中,分析来自解码器的生成对象数据的分子,并且选择符合条件标准的一或多个特定分子。然后,选择并合成所选择的一或多个分子,随后用一或多个细胞进行测试,以确定合成分子是否真正满足条件104。
在一些实施例中,VAE-TTLP架构是可以在计算机或计算***中实施的计算机模型。所述模型被配置成生成具有期望性质的分子。一旦生成了一或多个分子,所述模型可以根据期望的任何特点对分子进行分类。可以对特定物理特性(例如,某些化学部分或3D结构)进行优先级排序,然后选择并合成具有与期望特点相匹配的特点的分子。因此,可以是软件模块的对象选择器(例如,分子选择器)选择用于合成的至少一个分子,这可以通过如本文所述的过滤来完成。然后将所选择的分子提供给对象合成器,然后在其中合成所选择的对象(例如,所选择的分子)。然后将合成对象(例如,分子)提供给对象验证器(例如,分子验证器,所述对象验证器测试对象以查看其是否满足条件或性质,或查看其是否对特定用途具有生物活性。可以用活细胞培养或其它验证技术测试作为分子的合成对象,以验证合成分子满足期望性质。
所述方法可以包含用对象损失模块将生成对象数据与对象数据进行比较。在此比较期间,可以计算从对象数据到生成对象数据的损失。可以将所计算的损失与损失阈值进行比较。然后,可以例如用对象选择器来选择生成对象数据的生成对象,其中所选择的对象是小于阈值的生成对象。这可以包含选择小于生成对象数据和对象数据之间的阈值对象差的所选择的生成对象数据。
一旦选择了生成对象,则所述方法包含验证所选择的对象。可以如本文所述进行所述验证。当对象是分子时,验证可以包含合成,然后用活细胞进行测试。
在一些实施例中,方法700可以包含选择与所选择的生成对象数据相对应或与期望性质相对应的所选择的对象710;和验证所选择的对象712,如图4B中所示。在一些实施例中,方法700可以包含:获得所选择的对象的物理对象714;和测试物理对象是否具有期望性质或生物活性716),如图4B中所示。而且,在任何方法中,所述获得物理对象可以包含合成、购买、提取、提炼、衍生或以其它方式获得物理对象中的至少一种(714a)。物理对象可以是分子或其它。所述方法可以包含涉及在细胞培养物中测定物理对象的测试(716a)。所述方法还可以包含在扰动、初始状态分析、最终状态分析或其组合之前和之后通过基因分型、转录组分型、3-D作图、配体-受体对接来测定物理对象(716b)。当物理对象是新的分子实体时,制备所选择的生成对象的物理对象通常可以包含合成。因此,所述方法可以包含选择不是原始数据集的一部分或先前已知的生成对象。
当本文所述的基于DNN的方法用于任务(例如,新分子设计和分子特征提取)时,可以使用字符串(诸如以例如SMILES(简化分子输入线准入制度)的格式)表示类似于药物的分子结构。
解码器(例如,对象解码器)使用对象编码器产生的潜表示。对象解码器尝试使用给出期望性质的对象的潜表示(潜对象数据)来重构原始对象。
模型的另一部分可以包含一个判别器。本判别器可以用作潜表示的分布(例如,潜对象数据的分布)的正则化器。判别器使潜对象数据的条件分布类似于某一预定先验分布,例如对象数据的标准正态分布。
在一个实施例中,所述架构可以是单个算法(例如,模型),或者每个分量可以是单独的算法。所述算法的输入是含有对象(例如,对象数据)和性质(例如,性质数据)的表示的数据对的数据集。在一个实例中,对象是表示为SMILES格式的字符串的分子。
可以使用训练数据集来训练VAE-TTLP模型,以便能够进行本文所述的操作。训练程序包含交替执行的两个步骤:(1)生成器步骤;和(2)判别器步骤。使用优化方法,在每次更新时针对一个优化步骤优化单独的目标函数。Adam优化器是一个实例。当模型损失收敛或达到可以限定的最大迭代数时,终止训练。因此,迭代可以用于用训练数据集训练神经网络。本训练程序的结果是生成式模型,其能够产生近似匹配特定条件(例如,期望物理性质和/或特定生物活性)的新对象(例如,新分子)。
本文提供的方法可以在计算机上或在任何计算***中进行,例如图7中所示范。
在一些实施例中,所述方法可以包含:将所述生成对象数据与所述对象数据进行比较;和选择小于所述生成对象数据和所述对象数据之间的阈值对象差的所选择的生成对象数据。
在一些实施例中,所述方法可以包含:选择与所选择的生成对象数据相对应或与所选择的生成条件数据相对应的所选择的对象。
在一些实施例中,所述方法可以包含:制备所选择的对象的所述物理形式;和用所述条件测试所述物理对象。
在一些实施例中,所述方法可以包含:所述获得所选择的对象的所述物理形式包含合成、购买、提取、提炼、衍生或以其它方式获得所述物理对象中的至少一种;和/或所述测试包含在细胞培养物中测定所选择的对象的所述物理形式;和/或在扰动、初始状态分析、最终状态分析或其组合之前和之后通过基因分型、转录组分型、3-D作图、配体-受体对接来测定所选择的对象的所述物理形式。
在一些实施例中,所述方法可以包含通过具有期望性质(例如,特定生物活性)来确定所述分子是否满足所述条件。
在一些实施例中,所述方法可以包含确定所述分子与所述对象数据中的一或多个分子类似;和确定所述分子具有与所述条件/性质数据中的一或多个分子类似的活性。
在一些实施例中,所述方法可以包含:确定所述分子与具有其它作用机制的其它分子不同。
在一些实施例中,所述数据集包含分子-蛋白质结合的数据。在一些方面,所述方法可以包含配置对象解码器,所述对象解码器生成与给定蛋白质结合的分子。
VAE-TTLP模型可以用于仅使用部分指定的条件值来解决子集条件化问题。张量列格式允许VAE-TTLP模型捕捉潜代码和标记之间的复杂潜在依赖关系。VAE-TTLP可以用作判别模型,以预测缺少/未观察到的值,并且可以从任何自动编码编码器/解码器对进行训练。如实验中所示,VAE-TTLP提供满足指定条件的各种样本,并且可以用于用训练或生成程序期间未知的一些条件生成新对象的任务。
实例
两个图像数据集上的VAE-TTLP模型的实验估计:MNIST和CelebA。这两个数据集都具有可以用于条件学习和生成的属性。MNIST具有分类类别标记特征,而对于CelebA图像,我们选择10个二进制属性,包含性别、头发颜色、微笑、眼镜等。
所述方案使用具有用于编码器的6个卷积层和2个完全连接层的8层神经网络卷积神经网络,以及具有用于解码器的解卷积的对称架构。MNIST样本是28x28灰度图像。在CelebA中,我们采用64x64分辨率的图像。使用CelebA人脸来在属性子集的条件化图像的生成上对模型进行估计。这两个数据集都具有用于条件学习和生成的属性。这些属性既可以是分类的(例如,人脸上胡须的有无、头发的类型:金色、黑色等),也可以是连续的(例如,人脸旋转角度、数字内联、线粗细)。
一些对象可能具有一些缺少的属性(例如,被称为缺少),而一些对象可能缺少所有属性。缺少可能是由于计算属性的成本/时间负载而发生的,或者可能是由于可能的错误而特别缺少的。这发生在分子化学中,其中计算分子的某一属性非常昂贵。因此,可以使用VAE-TTLP来生成对象,例如本文所述或已知的那些,其中图像和分子是特定实例。
对于第一个实验,所述方案将在MNIST数据上训练的所学习的VAE-TTLP模型的潜空间可视化,用于具有2D潜空间的模型。在图8中,可以看出所述模型在潜空间为每个标记0-9分配了一个单独的群集。每个标记的群集由箭头示出。图8示出了在MNIST数据库上训练的VAE-TTLP模型的样本,其中示出了所学习的潜空间。图9示出了通过处理VAE-TTLP模型获得的数字的样本。
通过视觉和数字比较用三种模型生成的图像的质量来研究VAE-TTLP模型:CelebA数据集上的CVAE(条件变分自动编码器——孙,基赫(Sohn,Kihyuk)、康勒李(Honglak Lee)和新晨闫(Xinchen Yan),“使用深度条件生成式模型学习结构化输出表示(LearningStructured Output Representation using Deep Conditional Generative Models)”,神经信息处理***的进展(Advances in Neural Information Processing Systems),2015年)、VAE-TTLP和具有经预训练的VAE的VAE-TTLP。为了估计样本的视觉质量,所述方案计算弗雷歇起始距离(FID),所述距离被示出为与评估者的意见相关。为了估计生成图像与指定条件的匹配程度,所述方案可以用单独训练的预测器来预测图像的属性。结果与用于视觉分析的样本一起示于表1中。数据表明,VAE-TTLP在创建清晰图像方面表现更出色。这些实验表明,VAE-TTLP在视觉质量和条件匹配方面都优于CVAE或给出与CVAE相当的结果。
而且,经预训练的VAE-TTLP模型的性能相当好,从而指示所述模型可以在未标记的数据集上进行预训练。
表1:来自不同模型的生成图像的数值比较。
Figure BDA0003061541890000261
所分析的VAE-TTLP模型针对不同水平的缺少数据的性能:完全标记的数据以及具有30%和70%随机缺少属性的数据。在生成期间,模型以整个属性集合为条件。数值结果在表2中报告。从结果中可以看出,即使数据集稀疏标记,所述模型也相当稳定。这表明了VAE-TTLP模型和使用方案的改善。
表2:具有不同缺少属性百分比的数据集上的VAE-TTLP的性能。
Figure BDA0003061541890000262
VAE-TTLP模型可以通过从分布pψ(y|x)采样来输入缺少条件。在MNIST数据集上,VAE-TTLP模型产生了95.4%的准确率,而在CelebA上产生了89.21%的准确率。
使用VAE-TTLP模型来生成给出条件子集的图像,以估计生成图像的多样性。例如,如果所述方案指定一个图像来生成“年轻男人”,则其应生成不同的图像来指定不同的头发颜色、眼镜和帽子的有无或其它属性。图10中示出的生成图像指示,所述模型学习产生具有多种不同属性的高度多样化的图像。应当注意,对于给定的属性,生成图像表现出较高的多样性,这可以通过比较同一行中的图像来看出。
尽管前面的实例使用了没有RL的VAE-TTLP,但是下面的实例示出了用于化学设计的具有RL的VAE-TTLP模型。如上所述的具有RL的VAE-TTLP模型用于生成具有纳摩尔活性的先前未知的DDR1激酶抑制剂(图11),从而证明所述模型可以生成新分子结构。为了发现本分子,所述方案从具有RL的VAE-TTLP模型生成30,000个分子,并通过以下所述的过滤管道对其进行过滤而选择40个新分子。
过滤管道
过滤管道可以使用药效团假说、非线性萨蒙映射和/或分子生成和选择程序。
药效团假说
基于PDB数据库中可用的X射线数据(PDB代码:3ZOS、4BKJ、4CKR、5BVN、5BVO、5FDP、5FDX、6GWR),我们开发了描述DDR1抑制剂的三种药效团模型。为了获得配体的叠加,进行了复合物的3D比对。这些3、4和5中心药效团假说包含负责结合到DDR1激酶的活性位点的基本特征,包含:(1)铰链区的氢键受体;(2)芳香/疏水连接子;和(3)位于DFG基序附近的口袋中的疏水中心。本信息可以用于从由具有或不具有RL的VAE-TTLP生成的分子选择一或多个分子。在大多数情况下,它用于将生成分子缩小到可管理的数量。
非线性萨蒙映射
为了进行设计分子的最终选择,我们使用了基于萨蒙的映射技术。本算法的主要目标在于在视觉上可理解的2D或3D维度图上近似输入化学空间中隐藏的局部几何和拓扑关系。本方法的基本思想是将初始数据集的高维数大幅地减少到低维特征空间中,在本方面,它类似于SOM方法和多维缩放。然而,与其它算法相比,经典的基于萨蒙的方法允许科学家构造投影,所述投影将全局地形关系反映为输入向量样本的整个空间内的所有对象之间的成对距离。成功通过上述所有选择程序的结构被用作输入化学空间。对于映射,我们使用了适用于特定激酶SOM的同一分子描述符集合,并添加了在药效团建模期间获得的RMSD(均方根偏差)值作为其它输入。欧几里得距离用作相似性度量,应力阈值:0.01,相互作用数:300,优化步骤:0.3,结构相似性因子:0.5。所得的映射证明,结构在萨蒙图中呈正态分布。
分子生成和选择程序
使用VAE-TTLP模型,我们通过从所学习的流形pψ(z)采样潜代码并从解码器分布pθ(x|z)采样结构生成了30,000个唯一的有效结构。为了选择用于合成和生物学研究的分子批量,我们开发了优先级排序管道。在初始步骤,使用以下分子描述符阈值将数据集缩减为12,147个化合物的大小:-2<logP<7,250<MW<750,HBA+HBD<10,TPSA<150,NRB<10。然后,应用了150种MCF(药用化学过滤器)去除有毒和不稳定的结构。这些包含:1,4-加成物(带有迈克尔的部分)和其它亲电物种(例如,经对位或邻位卤素取代的吡啶、经2-卤素取代的呋喃和噻吩、烷基卤化物、醛和酸酐等)的潜在底物、二硫化物、靛红、巴比妥酸酯、应变杂环、稠合多环芳香烃体系、去污剂、异羟肟酸和重氮化合物、过氧化物、不稳定片段以及磺酰酯衍生物。此外,我们使用了更简单的过滤规则,包含以下:<2NO2基团、<3Cl、<2Br、<6F、<5芳环、不期望的原子(例如,Si、Co或P),以将整个化学空间内扩散的结构的数量合理地减少为更紧凑且类似于药物的有偏集合。本程序产生了7912个结构。然后基于谷本相似性和RDKit中实施的标准摩根指纹进行群集分析。将满足0.6相似性阈值的所有化合物分配给一个群集,每个群集的最小值为5个结构。在每个群集内部,根据内部差异系数对化合物进行分类,以输出结构上具有最大多样性的前5个分子。因此,数据集减少到5542个分子。然后,我们使用供应商集合(MolPort和ZINC)进行相似性搜索,并另外去除900个相似性>0.5的化合物,以增加生成结构的新颖性。使用一般激酶SOM和特定激酶SOM通过其针对DDR1的潜在活性来对化合物进行优先级排序。在被一般激酶SOM归类为激酶抑制剂的2570个分子中,1951个分子被特定激酶SOM归类为DDR1抑制剂,其被用于药效团筛选。对于每个分子,使用UFF(全域力场)的RDKit实施方案,生成10个构象并将其最小化。使用所导出的假设,进行药效团筛选程序,其产生了与至少一种药效团假设相匹配的848个分子的RMSD值集合。在萨蒙映射的基础上,我们进行了随机选择程序,特别注意了针对4和5中心药效团所获得的RMSD值的区域。因此,选择了40个分子进行合成和随后的生物学估计。
对于本文公开的模型、过程和方法,可以以不同的顺序来实施在过程和方法中进行的操作。此外,概述的操作仅作为实例提供,并且一些操作可以是任选的,组合为较少的操作,被消除,补充有另外的操作或扩展为另外的操作,而不脱离所公开的实施例的本质。
本公开不受本申请中描述的特定实施例的限制,其旨在作为各个方面的说明。在不脱离其精神和范围的情况下,可以进行许多修改和变型。除了本文列举的那些之外,根据前面的描述,在本公开的范围内的功能上等同的方法和设备也是可能的。此些修改和变型旨在落入所附权利要求的范围内。本公开仅由所附权利要求的各项以及这些权利要求的等同内容的全部范围来限制。本文所使用的术语仅出于描述特定实施例的目的,而不旨在是限制性的。
在一个实施例中,本方法可以包含在计算***上进行的方面。因此,计算***可以包含具有用于进行所述方法的计算机可执行指令的存储器装置。所述计算机可执行指令可以是计算机程序产品的一部分,所述计算机程序产品包含用于进行根据任何权利要求中任一权利要求所述的任何方法的一或多个算法。
在一个实施例中,可以进行本文所述的任何操作、过程或方法,或使其响应于存储在计算机可读媒体上并且可由一或多个处理器执行的计算机可读指令的执行而进行。可以由来自台式计算***、便携式计算***、平板计算***、手持式计算***以及网络元件和/或任何其它计算装置的各种计算***的处理器执行计算机可读指令。所述计算机可读媒体不是暂时性的。所述计算机可读媒体是其中存储有计算机可读指令的物理媒体,以使得其可被所述计算机/处理器从所述物理媒体物理地读取。
存在可以通过其实现本文描述的过程和/或***和/或其它技术的各种媒介体(例如,硬件、软件和/或固件),并且优选媒介体可以随着过程和/或***和/或其它技术所部署的环境的变化而变化。例如,如果实施者确定速度和准确性是最重要的,则实施者可以选择主要是硬件和/或固件媒介体;如果灵活性是最重要的,则实施者可以选择主要是软件实施方案;或者,也是可替代地,实施者可以选择硬件、软件和/或固件的某种组合。
本文描述的各种操作可以通过各种硬件、软件、固件或其实际上的任何组合来单独地和/或共同地实施。在一个实施例中,可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或其它集成格式来实施本文描述的主题的几个部分。然而,本文公开的实施例的一些方面可以全部或部分等效地实施在集成电路中,作为在一或多个计算机上运行的一或多个计算机程序(例如,作为在一或多个计算机***上运行的一或多个程序),作为在一或多个处理器上运行的一或多个程序(例如,作为在一或多个微处理器上运行的一或多个程序),作为固件或作为其实际上的任何组合,并且根据本公开,针对软件和/或固件设计电路***和/或编写代码是可能的。另外,本文描述的主题的机制能够作为程序产品以各种形式分布,并且本文描述的主题的说明性实施例适用,而与实际上用于进行分布的信号承载媒体的特定类型无关。物理信号承载媒体的实例包含但不限于以下:可记录类型媒体(例如,软盘、硬盘驱动器(HDD)、光盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器)或任何其它非暂时性或传输性的物理媒体。具有计算机可读指令的物理媒体的实例省略了暂时性或传输类型媒体,例如数字和/或模拟通信媒体(例如,光纤电缆、波导、有线通信链路、无线通信链路等)。
通常以本文阐述的方式描述装置和/或过程,然后使用工程实践将此些所描述的装置和/或过程集成到数据处理***中。也就是说,本文描述的装置和/或过程的至少一部分可以经由合理数量的实验集成到数据处理***中。典型的数据处理***通常包含以下中的一或多种:***单元外壳、视频显示装置、存储器(例如,易失性和非易失性存储器)、处理器(例如,微处理器和数字信号处理器)、计算实体(例如,操作***、驱动器、图形用户界面和应用程序)、一或多个交互装置(例如,触摸板或屏幕)和/或控制***(包含反馈环和控制马达)(例如,用于感测位置和/或速度的反馈;用于移动和/或调整组件和/或数量的控制马达)。可以利用任何合适的可商购组件来实施典型的数据处理***,例如通常在数据计算/通信和/或网络计算/通信***中发现的那些。
本文描述的主题有时示出了不同的其它组件内所含有的或与不同的其它组件连接的不同组件。此些描绘架构仅是示范性的,并且事实上,可以实施实现相同功能的许多其它架构。从概念上讲,有效“关联”了实现相同功能的组件的任何布置,使得实现期望功能。因此,本文中组合以实现特定功能的任何两个组件可以被视为彼此“相关联”,使得实现期望功能,而与架构或中间组件无关。同样地,如此关联的任何两个组件也可以被视为彼此“可操作地连接”或“可操作地耦合”以实现期望功能,并且能够如此关联的任何两个组件也可以被视为彼此“可可操作地耦合”以实现期望功能。可可操作地耦合的特定实例包含但不限于:可物理配对和/或物理交互的组件和/或可无线交互和/或无线交互的组件和/或逻辑交互和/或可逻辑交互的组件。
图6示出了示范性计算装置600(例如,计算机),其可以在一些实施例中被布置成进行本文所述的方法(或其部分)。在一个非常基本的配置602中,计算装置600通常包含一或多个处理器604和***存储器606。存储器总线608可以用于在处理器604和***存储器606之间进行通信。
取决于期望配置,处理器604可以是任何类型,包含但不限于:微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任何组合。处理器604可以包含一或多个级别的缓存(例如,一级缓存610和二级缓存612),处理器核614和寄存器616。示范性处理器核614可以包含算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或其任何组合。示范性存储器控制器618也可以与处理器604一起使用,或者在一些实施方案中,存储器控制器618可以是处理器604的内部部分。
取决于期望配置,***存储器606可以是任何类型,包含但不限于:易失性存储器(例如,RAM)、非易失性存储器(例如,ROM、闪速存储器等)或其任何组合。***存储器606可以包含操作***620、一或多个应用622和程序数据624。应用622可以包含确定应用626,其被布置成进行本文所述的操作,包含关于本文所述的方法所描述的那些。确定应用626可以获得诸如压力、流速和/或温度的数据,然后确定对***的改变以改变压力、流速和/或温度。
计算装置600可以具有另外的特征或功能以及另外的接口,以促进基本配置602与任何期望装置和接口之间的通信。例如,总线/接口控制器630可以用于促进基本配置602和一或多个数据存储装置632之间经由存储接口总线634的通信。数据存储装置632可以是可移动存储装置636、不可移动存储装置。638或其组合。可移动存储和不可移动存储装置的实例包含:磁盘装置(例如,软盘驱动器和硬盘驱动器(HDD))、光盘驱动器(例如,光盘(CD)驱动器或数字通用盘(DVD)驱动器)、固态驱动器(SSD)和磁带驱动器等。示范性计算机存储媒体可以包含:以用于存储信息(例如,计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术实施的易失性和非易失性的可移动和不可移动媒体。
***存储器606、可移动存储装置636和不可移动存储装置638是计算机存储媒体的实例。计算机存储媒体包含但不限于:RAM、ROM、EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字通用盘(DVD)或其它光学存储、磁卡带、磁带、磁盘存储或其它磁性存储装置、或可以用于存储期望信息并可以由计算装置600存取的任何其它媒体。任何此类计算机存储媒体可以是计算装置600的一部分。
计算装置600还可以包含接口总线640,用于促进从各个接口装置(例如,输出装置642、***接口644和通信装置646)经由总线/接口控制器630到基本配置602的通信。示范性输出装置642包含图形处理单元648和音频处理单元650,其可以被配置成经由一或多个A/V端口652与诸如显示器或扬声器的各个外部装置通信。示范性***接口644包含串行接口控制器654或并行接口控制器656,其可以被配置成经由一或多个I/O端口658与诸如输入装置(例如,键盘、鼠标、笔、语音输入装置、触摸输入装置等)或其它***装置(例如,打印机、扫描仪等)的外部装置通信。示范性通信装置646包含网络控制器660,其可以被布置成促进经由一或多个通信端口664通过网络通信链路与其它计算装置662的通信。
网络通信链路可以是通信媒体的一个实例。通信媒体通常可以由计算机可读指令、数据结构、程序模块或诸如载波或其它传输机制的调制数据信号中的其它数据体现,并且可以包含任何信息递送媒体。“调制数据信号”可以是其一或多个特性以某一方式设置或改变以编码信号中的信息的信号。作为实例而非限制,通信媒体可以包含有线媒体(例如,有线网络或直接有线连接)和无线媒体(例如,声学、射频(RF)、微波、红外(IR)和其它无线媒体)。如本文所使用的术语计算机可读媒体可以包含存储媒体和通信媒体。
计算装置600可以被实施为小形状因子便携式(或移动)电子装置(例如,手机、个人数据助理(PDA)、个人媒体播放器装置、无线网络观看装置、个人耳机装置、专用装置或包含上述任何功能的混合装置)的一部分。计算装置600也可以被实施为包含膝上型计算机和非膝上型计算机配置的个人计算机。计算装置600也可以是任何类型的网络计算装置。计算装置600也可以是本文所述的自动化***。
本文所述的实施例可以包含包含各个计算机硬件或软件模块的专用或通用计算机的用途。
本发明的范围内的实施例还包含用于携载或具有存储在其上的计算机可执行指令或数据结构的计算机可读媒体。此类计算机可读媒体可以是可由通用或专用计算机存取的任何可用媒体。作为实例而非限制,此类计算机可读媒体可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置、或可以用于以计算机可执行指令或数据结构的形式携载或存储期望程序代码构件并可以由通用或专用计算机存取的任何其它媒体。当通过网络或另一通信连接(硬连线、无线或硬连线或无线的组合)将信息转移或提供给计算机时,计算机会将连接适当地视为计算机可读媒体。因此,任何此类连接被适当地称为计算机可读媒体。上述的组合也应包含在计算机可读媒体的范围内。
计算机可执行指令包括例如使通用计算机、专用计算机或专用处理装置进行某一功能或某一组功能的指令和数据。尽管已经用特定于结构特征和/或方法动作的语言描述了主题,但是应当理解,所附权利要求书中限定的主题不必限于上述特定特征或动作。相反,上述特定特征和动作被公开为实施权利要求的示范性形式。
在一些实施例中,计算机程序产品可以包含具有计算机可执行指令的非暂时性有形存储器装置,所述计算机可执行指令在由处理器执行时引起方法的进行,所述方法可以包含:提供数据集,所述数据集具有对象的对象数据和条件的条件数据;用对象编码器处理所述数据集的所述对象数据,以获得潜对象数据和潜对象-条件数据;用条件编码器处理所述数据集的所述条件数据,以获得潜条件数据和潜条件-对象数据;用对象解码器处理所述潜对象数据和所述潜对象-条件数据,以获得生成对象数据;用条件解码器处理所述潜条件数据和潜条件-对象数据,以获得生成条件数据;将所述潜对象-条件数据与所述潜条件数据进行比较以确定差异;用判别器处理所述潜对象数据和潜条件数据以及所述潜对象-条件数据或潜条件-对象数据中的一个,以获得判别器值;基于所述生成对象数据、生成条件数据以及所述潜对象-条件数据和潜条件-对象数据之间的差异,从所述生成对象数据选择所选择的对象;和在报告中为所选择的对象提供建议,以验证所述对象的物理形式。所述非暂时性有形存储器装置还可以具有用于本文描述的任何方法或方法步骤的其它可执行指令。而且,所述指令可以是进行非计算任务(例如,分子的合成和/或用于验证分子的实验方案)的指令。也可以提供其它可执行指令。
关于本文中基本上任何复数和/或单数术语的使用,本领域技术人员可以环境和/或应用适当地将复数转换为单数和/或将单数转换为复数。为了清楚起见,可以在本文中明确地陈述各种单数/复数置换。
本领域技术人员将理解,一般来说,本文中(尤其在所附权利要求中)使用的术语(例如,所附权利要求的主体)通常旨在作为“开放式”术语(例如,术语“包含”应被解释为“包含但不限于”,术语“具有”应被解释为“至少具有”,术语“包含”应被解释为“包含但不限于”等)。本领域技术人员将进一步理解,如果旨在表示特定数量的引入权利要求叙述,则将在权利要求中明确地陈述这种意图,并且在没有这种叙述的情况下,则不存在这种意图。例如,为了帮助理解,下面的所附权利要求可以含有介绍性短语“至少一个”和“一或多个”的使用以引入权利要求叙述。然而,这种短语的使用不应被解释为暗示由不定冠词“一个(a/an)”引入权利要求叙述将含有这种引入权利要求叙述的任何特定权利要求限制为仅含有一个这种叙述的实施例,即使当同一权利要求包含介绍性短语“一或多个”或“至少一个”以及诸如“一个”的不定冠词(例如,“一个”应被解释为“至少一个”或“一或多个”);对于用于引入权利要求叙述的定冠词的使用也是如此。另外,即使明确叙述了特定数量的引入权利要求叙述,本领域技术人员将认识到,这种叙述应被解释为至少是指所叙述的数量(例如,仅“两个叙述”的叙述,而没有其它修饰词,是指至少两个叙述,或两个或两个以上叙述)。此外,在使用类似于“A、B和C等中的至少一个”的惯例的那些情况下,一般来说,这种结构旨在在本领域技术人员将理解所述惯例的意义上(例如,“具有A、B和C中至少一个的***”将包含但不限于以下***:所述***仅具有A,仅具有B,仅具有C,具有A和B,具有A和C,具有B和C,和/或具有A、B和C等)。本领域技术人员将进一步理解,实际上,无论是在说明书、权利要求书还是附图中,呈现两个或两个以上替代术语的任何转折连词和/或短语都应被理解为考虑了包含所述术语中的一个,包含所述术语中的任一个或包含两个术语的可能性。例如,短语“A或B”将被理解为包含“A”或“B”或“A和B”的可能性。
另外,在根据马库什组描述本公开的特征或方面的情况下,本领域技术人员将认识到,本公开由此也根据马库什组的任何单个成员或成员子组描述。
如本领域技术人员将理解,出于任何和所有目的,例如就提供书面说明而言,本文公开的所有范围还涵盖任何和所有可能的子范围及其子范围的组合。任何列出的范围都可以被容易地识别为充分描述并使相同范围分解为两等份、三等份、四等份、五等份、十等份等。作为一个非限制性实例,本文讨论的每个范围可以被容易地分解为下三分之一、中三分之一和上三分之一等。如本领域技术人员还将理解,所有语言(例如,“多至”、“至少”等)包含所叙述的数字,并且是指随后可以分解为以上讨论的子范围的范围。最后,如本领域技术人员将理解,范围包含每个单个成员。因此,例如,具有1-3个单元的组是指具有1、2或3个单元的组。类似地,具有1-5个单元的组是指具有1、2、3、4或5个单元的组,依此类推。
根据前述内容,将理解,出于说明的目的已经在本文中描述了本公开的各个实施例,并且可以在不脱离本公开的范围和精神的情况下进行各种修改。因此,本文公开的各个实施例不旨在是限制性的,其真实范围和精神由以下权利要求指示。

Claims (22)

1.一种用于训练模型以生成对象的方法,所述方法包括:
提供模型,所述模型被配置为具有张量列诱导的可学习先验的变分自动编码器;
提供数据集,所述数据集具有对象的对象数据和所述对象的性质的性质数据;
用所述模型的对象编码器处理所述数据集的所述对象数据以获得潜对象数据,其中所述潜对象数据包含具有平均值和方差的潜变量分布;
从所获得的潜变量分布采样一或多个潜变量;
处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率;
通过对象解码器处理所采样的一或多个潜变量以获得重构对象;
根据所述对象数据确定所述重构对象相较于原始对象的重构损失;
根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒散度;
使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失;
进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质;
获得经训练的模型,所述经训练的模型被配置为具有用所述张量列进行参数化的可学习先验的经训练的变分自动编码器;和
提供所述经训练的模型。
2.根据权利要求1所述的方法,其进一步包括对于所述数据集中的多个对象:
用所述对象编码器处理对象数据以获得潜变量分布;
从所获得的潜变量分布采样一或多个潜变量;
用解码器处理所采样的一或多个潜变量以获得所述重构对象;
获得所采样的一或多个潜变量具有限定性质的概率的对数;
计算所获得的潜变量分布的熵;
计算所述概率对数的对数,以获得所获得的对数概率;
用所述熵减去所获得的对数概率,以获得所述库尔贝克-莱布勒散度的近似值;
用所述概率的对数减去所述库尔贝克-莱布勒散度的近似值;和
获得变分干扰的估计下限目标。
3.根据权利要求2所述的方法,其进一步包括:
首先,计算所述数据集的所有对象上的所有估计下限目标的平均值;和
其次,进行所述梯度下降。
4.根据权利要求1所述的方法,其进一步包括:
为所述对象限定一或多个条件;和
允许所述对象的一或多个未限定条件具有任意初始值。
5.根据权利要求1所述的方法,其中所述计算具有所述限定对象性质的所述样本的概率包含:
用张量列分布计算所述对象的对象性质的概率;
用张量列分布计算对象性质和所述潜代码的概率;和
通过条件概率公式计算以对象性质为条件的所述潜代码的概率。
6.根据权利要求1所述的方法,其中所述用张量列分布计算对象性质和所述潜代码的概率包含:
将缓冲区设置为单位(眼)矩阵;
确定所述对象性质是离散的还是连续的或未限定的;
当所述对象性质是离散的时,沿中间指数计算与onehot(yj)的点积,其中yj是所述对象性质;
当所述对象性质是连续的时,沿中间指数计算与[N(yj|mui,stdi),针对所有i]的点积,其中mui是i的平均值,并且stdi是沿第j个潜分量的混合的第i个正态分量的标准偏差;
当缺少所述对象性质时,沿所述中间指数计算与(1,1,…,1)的点积(进行边缘化),
根据所获得的矩阵,得出与所述缓冲区的所述点积以获得新缓冲区;和
如果处理了所有分量,则计算新缓冲区的迹并将所述迹设置为(y1,…,yn)的概率。
7.根据权利要求1所述的方法,其进一步包括用增强学习进一步训练所述经训练的模型,其中所述增强学习产生具有限定特性的所述重构对象。
8.根据权利要求7所述的方法,其中所述用所述增强学习训练所述经训练的模型包含:
丢弃所述对象编码器;
固定除所述对象解码器的第一层以外的所述对象解码器的所有层的权重;
进行以下步骤直到收敛:
估计先前获得的潜变量分布的每个维度的平均值和方差,所述先前获得的潜变量分布限定为可学习先验;
从可学习先验产生的所述潜变量之外获得每个维度的探索潜变量;
将所述探索潜变量通过所述解码器,以基于所述探索潜变量获得重构对象;
基于至少一个限定回报计算所述重构对象的回报;和
应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
9.根据权利要求8所述的方法,当所述对象是分子时,所述回报包含:
一般生物活性自组织科霍宁映射,其为作为具有生物途径中的生物活性的分子的重构对象提供回报;
特定生物活性自组织科霍宁映射,其为作为与特定生物物质具有生物活性的分子的重构对象提供回报;和
趋势自组织科霍宁映射,其为作为具有在限定时间框架内退化的化学基序的分子的重构对象提供回报。
10.根据权利要求9所述的方法,其中:
其中所述一般生物活性自组织科霍宁映射,其为作为具有激酶生物途径中的生物活性的分子的重构对象提供回报;
特定生物活性自组织科霍宁映射,其为作为与DDR1激酶具有生物活性的分子的重构对象提供回报;和
趋势自组织科霍宁映射,其为作为具有在限定时间框架内退化的化学部分的分子的重构对象提供回报。
11.一种生成具有期望性质的对象的方法,其包括:
获得根据权利要求1所述的经训练的模型;
标识期望对象性质;
从以所述期望对象性质为条件的张量列诱导的联合分布获得潜代码;
用所述解码器生成具有所述期望对象性质的所述对象;和
提供具有所述期望对象性质的所述生成对象。
12.根据权利要求11所述的方法,其包括:
获得具有所述期望对象性质的多个生成对象;
基于一或多个参数过滤所述多个生成对象;和
基于所述过滤选择一或多个生成对象。
13.根据权利要求12所述的方法,其包括:
选择生成对象;
获得所选择的生成对象的物理形式;和
验证所选择的生成对象的所述物理形式。
14.根据权利要求11所述的方法,其包括:
选择提供的生成对象;
获得所选择的生成对象的物理形式;和
验证所选择的生成对象的所述物理形式。
15.一种生成具有期望性质的对象的方法,其包括:
获得根据权利要求8所述的经训练的模型;
标识期望对象性质;
从以所述期望对象性质为条件的张量列分布获得潜代码;
用所述解码器生成具有所述期望对象性质的所述对象;和
提供具有所述期望对象性质的所述生成对象。
16.根据权利要求15所述的方法,其包括:
获得具有所述期望对象性质的多个生成对象;
基于一或多个参数过滤所述多个生成对象;和
基于所述过滤选择一或多个生成对象。
17.根据权利要求16所述的方法,其包括:
选择生成对象;
获得所选择的生成对象的物理形式;和
验证所选择的生成对象的所述物理形式。
18.根据权利要求15所述的方法,其包括:
选择提供的生成对象;
获得所选择的生成对象的物理形式;和
验证所选择的生成对象的所述物理形式。
19.根据权利要求11所述的方法,其进一步包括:
基于所述潜代码和期望性质获得可学习先验;
获得性质集合;
在不处于所述指定性质集合中的期望性质集合上边缘化所述可学习先验和所述性质集合;
在所述性质集合中的性质上条件化所边缘化的可学习先验,以获得潜空间上的分布;
采样所述潜空间上的分布;和
用解码器处理所采样的潜空间上的分布,以获得具有预定性质的生成对象。
20.根据权利要求15所述的方法,其进一步包括:
基于所述潜代码和期望性质获得可学习先验;
获得性质集合;
在不处于所述性质集合中的期望性质集合上边缘化所述可学习先验和所述性质集合;
在所述性质集合中的性质上条件化所边缘化的可学习先验,以获得潜空间上的分布;
采样所述潜空间上的分布;和
用解码器处理所采样的潜空间上的分布,以获得具有预定性质的生成对象。
21.一种计算机程序产品,其包括:
非暂时性有形存储器装置,其具有计算机可执行指令,所述指令在由处理器执行时会导致方法的进行,所述方法包括:
提供模型,所述模型被配置为具有张量列的变分自动编码器,
提供数据集,所述数据集具有对象的对象数据和条件的条件数据,其中所述条件可以是所述对象的性质;
用所述模型的对象编码器处理所述数据集的所述对象数据以获得潜对象数据,其中所述潜对象数据包含具有平均值和方差的潜变量分布;
从所获得的潜变量分布采样一或多个潜变量;
处理所采样的具有限定对象性质的一或多个潜变量,以计算具有所述限定对象性质的所述样本的概率;
通过对象解码器处理所采样的一或多个潜变量以获得重构对象;
根据所述对象数据确定所述重构对象相较于原始对象的重构损失;
根据具有所述限定对象性质的所述样本的概率计算库尔贝克-莱布勒散度;
使用所确定的重构损失和所计算的库尔贝克-莱布勒散度计算相较于所述数据集的损失;
进行梯度下降,直到所述重构对象足够代表所述原始对象并具有所述限定对象性质;
获得经训练的模型,所述经训练的模型被配置为具有用张量列进行参数化的可学习先验的经训练的变分自动编码器;和
提供所述经训练的模型。
22.根据权利要求21所述的计算机程序产品,其中所执行的方法进一步包括用增强学习进一步训练所述经训练的模型,其中所述增强学习产生具有限定特性的所述重构对象,其中所述用所述增强学习训练所述经训练的模型包含:
丢弃所述对象编码器;
固定除所述对象解码器的第一层以外的所述对象解码器的所有层的权重;
进行以下步骤直到收敛:
估计先前获得的潜变量分布的每个维度的平均值和方差,所述先前获得的潜变量分布限定为可学习先验;
从所述编码器产生的所述潜变量之外获得每个维度的探索潜变量;
将所述探索潜变量通过所述对象解码器,以基于所述探索潜变量获得重构对象;
基于至少一个限定回报计算所述重构对象的回报;和
应用单个梯度上升步骤,以最大化相对于所学习的先验的参数和所述解码器的第一层的总回报。
CN201980074420.5A 2018-09-18 2019-06-19 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化 Pending CN113039559A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/134,624 2018-09-18
US16/134,624 US11593660B2 (en) 2018-09-18 2018-09-18 Subset conditioning using variational autoencoder with a learnable tensor train induced prior
PCT/US2019/037989 WO2020060603A1 (en) 2018-09-18 2019-06-19 Subset conditioning using variational autoencoder with a learnable tensor train induced prior

Publications (1)

Publication Number Publication Date
CN113039559A true CN113039559A (zh) 2021-06-25

Family

ID=69774024

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980074420.5A Pending CN113039559A (zh) 2018-09-18 2019-06-19 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化

Country Status (4)

Country Link
US (1) US11593660B2 (zh)
EP (1) EP3853776A4 (zh)
CN (1) CN113039559A (zh)
WO (1) WO2020060603A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643765A (zh) * 2021-08-27 2021-11-12 西北工业大学 一种基于张量神经网络的药物-药物相互作用预测方法
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11151334B2 (en) * 2018-09-26 2021-10-19 Huawei Technologies Co., Ltd. Systems and methods for multilingual text generation field
US11569056B2 (en) * 2018-11-16 2023-01-31 Fei Company Parameter estimation for metrology of features in an image
US11049308B2 (en) 2019-03-21 2021-06-29 Electronic Arts Inc. Generating facial position data based on audio data
EP3716151A1 (en) * 2019-03-25 2020-09-30 Steffen Wirth Stress monitor and stress-monitoring method
US11915121B2 (en) * 2019-11-04 2024-02-27 International Business Machines Corporation Simulator-assisted training for interpretable generative models
US11710046B2 (en) * 2019-11-29 2023-07-25 42Maru Inc. Method and apparatus for generating Q and A model by using adversarial learning
US12040057B2 (en) 2020-01-27 2024-07-16 Insilico Medicine Ip Limited Scaffold-oriented universal line system
US11481549B2 (en) * 2020-02-21 2022-10-25 Accenture Global Solutions Limited Denovo generation of molecules using manifold traversal
US11436427B2 (en) * 2020-03-02 2022-09-06 Lawrence Livermore National Security, Llc Generative attribute optimization
WO2021202163A1 (en) * 2020-03-31 2021-10-07 Battelle Memorial Institute Method of identifying vulnerable regions in an integrated circuit
CN111563548B (zh) * 2020-04-30 2024-02-02 鹏城实验室 一种基于强化学习的数据预处理方法、***及相关设备
EP3907647A1 (en) * 2020-05-05 2021-11-10 Dassault Systèmes Improving similarity search of industrial component models
CN111612906B (zh) * 2020-05-25 2023-04-18 长江大学 一种三维地质模型的生成方法、***及计算机存储介质
US11669699B2 (en) * 2020-05-31 2023-06-06 Saleforce.com, inc. Systems and methods for composed variational natural language generation
TWI775296B (zh) * 2020-06-09 2022-08-21 國立清華大學 使用環張量之深度神經網路加速方法及其系統
US11756290B2 (en) * 2020-06-10 2023-09-12 Bank Of America Corporation System for intelligent drift matching for unstructured data in a machine learning environment
CN111860507B (zh) * 2020-07-20 2022-09-20 中国科学院重庆绿色智能技术研究院 基于对抗学习的化合物图像分子结构式提取方法
CN111967502B (zh) * 2020-07-23 2021-09-24 电子科技大学 一种基于条件变分自编码器的网络入侵检测方法
CN111859989B (zh) * 2020-07-27 2023-11-14 平安科技(深圳)有限公司 基于属性标签控制的对话回复方法、装置和计算机设备
US20220121926A1 (en) * 2020-10-21 2022-04-21 Baidu Usa Llc Tensor ring decomposition for neural networks
CN112231582B (zh) * 2020-11-10 2023-11-21 南京大学 一种基于变分自编码数据融合的网站推荐方法和设备
CN112231583B (zh) * 2020-11-11 2022-06-28 重庆邮电大学 基于动态兴趣组标识和生成对抗网络的电商推荐方法
US11080607B1 (en) 2020-12-16 2021-08-03 Ro5 Inc. Data platform for automated pharmaceutical research using knowledge graph
US11615324B2 (en) 2020-12-16 2023-03-28 Ro5 Inc. System and method for de novo drug discovery
CN112637210B (zh) * 2020-12-24 2022-03-22 四川虹微技术有限公司 数据检测方法、装置、电子设备及可读存储介质
CN112926505B (zh) * 2021-03-24 2022-11-11 重庆大学 基于dtc-vae神经网络的旋转机械健康指标构建方法
CN112991493B (zh) * 2021-04-09 2023-07-18 华南理工大学 基于vae-gan和混合密度网络的灰度图像着色方法
WO2023059699A1 (en) * 2021-10-05 2023-04-13 Google Llc Vector-quantized image modeling
CN114171125B (zh) * 2021-12-02 2024-04-16 中山大学 基于深度强化学习的蛋白降解靶向嵌合体连接物生成方法
WO2023148684A1 (en) 2022-02-07 2023-08-10 Insilico Medicine Ip Limited Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
CN114866345B (zh) * 2022-07-05 2022-12-09 支付宝(杭州)信息技术有限公司 一种生物识别的处理方法、装置及设备
WO2024054815A1 (en) * 2022-09-06 2024-03-14 University Of Georgia Research Foundation, Inc. Pavement management system using satellite data and machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
US20170371017A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh System and Method For Normalized Reference Database For MR Images Via Autoencoders
CN108140146A (zh) * 2015-08-19 2018-06-08 D-波***公司 用于使用绝热量子计算机进行机器学习的离散变分自动编码器***和方法
CN108431834A (zh) * 2015-12-01 2018-08-21 首选网络株式会社 异常检测***、异常检测方法、异常检测程序及学得模型的生成方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2684117A4 (en) * 2011-03-10 2015-01-07 Textwise Llc METHOD AND SYSTEM FOR UNIFORM INFORMATION REPRESENTATION AND ITS APPLICATION
US9668699B2 (en) 2013-10-17 2017-06-06 Siemens Healthcare Gmbh Method and system for anatomical object detection using marginal space deep neural networks
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US11836746B2 (en) 2014-12-02 2023-12-05 Fair Isaac Corporation Auto-encoder enhanced self-diagnostic components for model monitoring

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108140146A (zh) * 2015-08-19 2018-06-08 D-波***公司 用于使用绝热量子计算机进行机器学习的离散变分自动编码器***和方法
CN108431834A (zh) * 2015-12-01 2018-08-21 首选网络株式会社 异常检测***、异常检测方法、异常检测程序及学得模型的生成方法
US20170161635A1 (en) * 2015-12-02 2017-06-08 Preferred Networks, Inc. Generative machine learning systems for drug design
US20170371017A1 (en) * 2016-06-23 2017-12-28 Siemens Healthcare Gmbh System and Method For Normalized Reference Database For MR Images Via Autoencoders

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
ARTUR KADURIN ET AL.: "《druGAN: An advanced generative adversarial autoencoder model for de novo generation of new molecules with desired molecular properties in silico》", 《MOLECULAR PHARMACEUTICS》 *
DANIIL POLYKOVSKIY ET AL.: "《Entangled Conditional Adversarial Autoencoder for de Novo Drug Discovery》", 《MOLECULAR PHARMACEUTICS》, pages 1 - 8 *
EVGENY PUTIN ET AL.: "《Reinforced Adversarial Neural Computer for de Novo Molecular Design》", 《JCIM》 *
OR SHARIR ET AL.: "《Tensorial Mixture Models》", pages 1 - 24, Retrieved from the Internet <URL:https://arXiv:1610.04167v5> *
RAFAEL GÓMEZ-BOMBARELLI ET AL.: "《Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules》", 《ACS》 *
ZHAO-YU HAN ET AL.: "《Unsupervised Generative Modeling Using Matrix Product States》", 《PHYSICAL REVIEW》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643765A (zh) * 2021-08-27 2021-11-12 西北工业大学 一种基于张量神经网络的药物-药物相互作用预测方法
CN113643765B (zh) * 2021-08-27 2024-03-08 西北工业大学 一种基于张量神经网络的药物-药物相互作用预测方法
CN114913938A (zh) * 2022-05-27 2022-08-16 中南大学 一种基于药效团模型的小分子生成方法、设备及介质

Also Published As

Publication number Publication date
US11593660B2 (en) 2023-02-28
EP3853776A1 (en) 2021-07-28
US20200090049A1 (en) 2020-03-19
WO2020060603A1 (en) 2020-03-26
EP3853776A4 (en) 2022-06-29

Similar Documents

Publication Publication Date Title
CN113039559A (zh) 使用具有可学习张量列诱导的先验的变分自动编码器的子集条件化
JP7247258B2 (ja) コンピュータシステム、方法及びプログラム
Shen A transdisciplinary review of deep learning research and its relevance for water resources scientists
Bao et al. A deep learning framework for financial time series using stacked autoencoders and long-short term memory
US11256994B1 (en) System and method for prediction of protein-ligand bioactivity and pose propriety
Snoek Bayesian optimization and semiparametric models with applications to assistive technology
US11256995B1 (en) System and method for prediction of protein-ligand bioactivity using point-cloud machine learning
Luo et al. Toward structural sparsity: an explicit approach
US11354582B1 (en) System and method for automated retrosynthesis
US11893498B2 (en) Subset conditioning using variational autoencoder with a learnable tensor train induced prior
US11263534B1 (en) System and method for molecular reconstruction and probability distributions using a 3D variational-conditioned generative adversarial network
US20220188654A1 (en) System and method for clinical trial analysis and predictions using machine learning and edge computing
US20230290114A1 (en) System and method for pharmacophore-conditioned generation of molecules
US11610139B2 (en) System and method for the latent space optimization of generative machine learning models
US20240062515A1 (en) Method for classification using deep learning model
Radhakrishnan et al. Simple, fast, and flexible framework for matrix completion with infinite width neural networks
US11710049B2 (en) System and method for the contextualization of molecules
Bonaccorso Hands-on unsupervised learning with Python: implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more
US11568961B2 (en) System and method for accelerating FEP methods using a 3D-restricted variational autoencoder
US20220198286A1 (en) System and method for molecular reconstruction from molecular probability distributions
Hu Deep learning for ranking response surfaces with applications to optimal stopping problems
Huynh et al. Quantum-inspired machine learning: a survey
Conard et al. A spectrum of explainable and interpretable machine learning approaches for genomic studies
US20230253076A1 (en) Local steps in latent space and descriptors-based molecules filtering for conditional molecular generation
Shi et al. Advances in Graph Neural Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 26th floor, phase 3, exchange Plaza, 8 leisure Plaza, central, Hong Kong, China

Applicant after: Yingsi Intelligent Technology Intellectual Property Co.,Ltd.

Address before: 26th floor, phase 3, exchange Plaza, 8 leisure Plaza, central, Hong Kong, China

Applicant before: Yingke intelligent Co.,Ltd.

CB02 Change of applicant information