CN117524353B

CN117524353B - 一种基于多维度分子信息的分子大模型、构建方法及应用

Info

Publication number: CN117524353B
Application number: CN202311574206.0A
Authority: CN
Inventors: 申彦明; 马煜婷
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-11-23
Filing date: 2023-11-23
Publication date: 2024-05-10
Anticipated expiration: 2043-11-23
Also published as: CN117524353A

Abstract

本发明提出一种基于多维度分子信息的分子大模型、构建方法及应用，包括构建无监督预训练数据集，对无监督预训练数据集进行预处理和分子构象生成处理，得到由分子图构成的分子预训练数据集；对分子预训练数据集中的分子图进行结构编码，获得初始化的原子特征，将初始化的原子特征输入Transformer中；在Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码，在训练过程中三维距离对编码与Transformer的自注意力层交互，迭代更新Transformer自注意力层的节点对特征；定义二维空间和三维空间联合分子图自监督学习任务，训练后得到基于多维度分子信息的分子大模型。本发明能够加快药物筛选速度，为药物研发提供帮助。

Description

一种基于多维度分子信息的分子大模型、构建方法及应用

技术领域

本发明属于人工智能领域，具体公开了一种基于多维度分子信息的分子大模型构建方法。

背景技术

传统药物研发是一个复杂而耗时的过程，涉及多个环节，如潜在目标鉴定、化合物优化、生物活性评价等，需要耗费大量人力、物力和财力。而大模型可以利用海量生物医学数据进行挖掘和分析，快速筛选出有潜力的药物分子，从而提高药物研发的速度，降低人力物力以及投入成本，为智能医药行业的创新发展提供强有力的支持。对于现有数据集而言，例如ZINC，其仅包含二维分子信息，限制了模型学***面和三维立体信息的大规模分子数据集。大模型的成功应用离不开Transformer的支持，而现有的Transformer无法充分表征图中的结构信息，从而使得在大规模图数据上进行大模型学习十分困难。2021年，Ying等人提出了Graphormer，通过在Transformer中引入图结构编码信息，从而提高对结构信息的建模能力，但是这种方式缺乏对三维信息的学习，从而限制了模型的适用范围。为此，Luo在Graphormer的基础上，引入了三维信息的学习，通过引入三维位置编码，然而，上述方法仅在注意力矩阵中增添额外信息，并不能提高三维坐标的建模能力，从而限制了模型的适用范围。

现有的预训练模型中，如SMILES字符串，由于本身序列条件的限制，不能很好的捕获结构信息。对于对比式的预训练任务，不恰当的数据增强会导致得到错误的正样本，这种学***衡问题，从这个角度进行分子表征学***衡构象数目的限制，无法广泛推广到大规模数据集上。

综上所述，目前现有方法或多或少存在一定局限性：(1)对于生物医药领域，需要分子大模型来预测分子的生物活性和副作用等性质来加速药物筛选，或生成具有特定性质和结构的分子为药物设计和发现提供候选分子；(2)目前现有模型大都依赖于小规模数据集，并受到现有三维平衡构象数目的限制，缺乏可用于分子大模型训练的大规模图数据集；(3)现有模型对分子信息的表征能力有限，无法充分学习立体空间信息，需要提供具有高表达能力的模型。

发明内容

本发明为解决现有生物医药领域中缺乏可用于分子大模型训练的大规模图数据集且现有模型对分子信息的表征能力有限，无法充分学习立体空间信息的问题提出了一种基于多维度分子信息的分子大模型、构建方法及应用。

本发明提供了一种基于多维度分子信息的分子大模型构建方法，包括如下步骤：

构建无监督预训练数据集，对所述无监督预训练数据集进行预处理和分子构象生成处理，得到由分子图构成的分子预训练数据集；

对所述分子预训练数据集中的分子图进行结构编码，获得初始化的原子特征，将所述初始化的原子特征输入Transformer中；

在所述Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码，在训练过程中所述三维距离对编码与所述Transformer自注意力层交互，迭代更新所述Transformer自注意力层的节点对特征；

定义二维空间和三维空间联合分子图自监督学习任务，训练后得到基于多维度分子信息的分子大模型。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述预处理包括去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体，保留分子的主干结构表示，所述主干结构表示包括分子在原始数据库中的ID编号和一维的分子SMILES表示。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述分子构象生成处理包括通过RDkit工具包，基于如下步骤进行分子构象生成处理：

基于距离几何生成初步的分子构象；

基于ETKDG方法修正分子构象；

基于MMFF力场优化分子构象。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述Transformer包括多个Transformer块，每个Transformer块均由自注意力层和前馈神经网络层组成，所述自注意力层和前馈神经网络层均进行标准的归一化操作。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述分子图如公式(1)所示：

G＝{X^atom,A,E,R} (1)

其中，为原子节点特征矩阵，n表示原子数量，d表示原子特征维度，X^atom包含原子的固有属性，A表示分子图的邻接矩阵，涵盖了分子图的1阶拓扑信息，E表示分子图上边的集合，/>表示分子在三维空间上的几何空间坐标。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述初始化的原子特征包括原子节点特征矩阵、节点度编码、随机游走位置编码和三维距离编码，所述初始化的原子特征如公式(2)所示：

x⁰＝[X^atom|X^degree|X^RW|X^3D] (2)

其中，X^degree表示节点度编码，X^RW表示随机游走位置编码，X^3D表示三维距离编码；

所述节点度编码X^degree如公式(3)所示：

x^degree＝f_α(D) (3)

其中，D代表分子图的度矩阵，f_α是对度信息的映射函数，

所述随机游走位置编码X^RW如公式(4)所示：

其中，表示节点i的随机游走位置编码，m表示随机游走位置编码的维度，RW为随机游走操作结果矩阵，如公式(5)所示：

RW＝AD^-1 (5)

其中，D^-1表示度的逆矩阵，

所述三维距离编码如公式(6)所示：

其中，表示节点i的三维距离编码，U(i)表示节点i的邻居节点集合，|U(i)|表示节点i的邻居数目之和，||r_i-r_j||表示节点i与节点j的距离信息，r_i表示节点i的坐标信息，r_j表示节点j的坐标信息。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述在所述Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码中，通过偏置项的方式将所述最短路径结构编码、边信息编码和三维距离对编码融入到自注意力层中，如公式(7)所示：

其中，Att(X)^l+1表示第l+1层自注意力层，Att(X)^l表示第l层自注意力层，SPD表示最短路径结构编码，Edge表示边信息编码，表示三维距离对编码，

所述最短路径结构编码SPD如公式(8)所示：

其中，F为根据Floyd算法求取的分子图中各点之间的最短路径，为最短路径的映射函数，

所述边信息编码Edge如公式(9)所示：

Edge＝g_θ(E) (9)

其中，g_θ是对边信息的映射函数，

所述三维距离对编码如公式(10)所示：

其中，r_i表示节点i的坐标信息，r_j表示节点j的坐标信息，α_i,j，β_i,j，μ^k，σ^k均为可学习的参数，其中α_i,j，β_i,j受原子节点元素类型的控制，不同元素构成的节点对对应的α_i,j，β_i,j不同，μ^k，σ^k是高斯核映射的参数，k表示高斯核的数量；

三维距离对编码与所述Transformer的自注意力层进行交互，交互及所述Transformer的自注意力层迭代更新过程如公式(11)-公式(12)所示：

其中，表示初始的节点对i-j的特征，/>M表示映射矩阵，/>表示第l自注意力层的节点对i-j的特征，H是注意力的头数，d是隐藏层的维度，/>是第l自注意力层第h个头的查询，/>是第自注意力l层第h个头的键，

更新后的节点对的特征表示作为下一层自注意力层的偏置项。

根据本申请一些实施例的一种基于多维度分子信息的分子大模型构建方法，所述定义二维空间和三维空间联合分子图自监督学习任务包括二维空间遮掩节点属性预测任务和三维空间坐标去噪任务；

所述二维空间遮掩节点属性预测任务采用预测所遮掩的节点属性作为预训练任务，通过在输入中掩蔽部分图节点特征，使模型学习分子结构信息预测遮掩的属性，所述二维空间遮掩节点属性预测任务的损失函数L_2D如公式(13)所示：

L_2D＝-∑_i∈Mlogp(z_i|G^M) (13)

其中，p为条件概率，z_i表示节点i对应的最后一个Transformer块的输出，G^M表示遮掩后的分子图；

所述三维空间坐标去噪任务通过输入时在原子三维坐标信息上添加高斯噪声/> 扰动分子几何结构，使模型预测后的噪声值与输入噪声值之间的差距最小化，模型预测的第k个坐标维度噪声输出/>如公式(13)所示：

其中，att_ij代表节点i和节点j之间的注意力分数，和/>代表可学习参数，/>表示Δij的第k个坐标维度对应的的相对位置信息，Δij表示节点i和节点j的相对位置信息，如公式(15)所示：

三维空间坐标去噪任务的损失函数如公式(16)所示：

其中，V表示图中所有的节点集合，|V|表示节点个数，∈_i表示第i个节点的真实坐标噪声，表示预测的第i个节点的坐标噪声；

所述基于多维度分子信息的分子大模型的损失函数如公式(17)所示：

L＝αL_2p+βL_3D (17)

其中，α表示二维空间遮掩节点属性预测任务的损失权重，β表示三维空间坐标去噪任务的损失权重。

本发明还提供了一种基于多维度分子信息的分子大模型，采用上述的基于多维度分子信息的分子大模型构建方法得到。

本发明还提供了一种上述模型在生物医药领域中的应用，将待进行下游任务的数据集输入到所述多维度分子大模型中进行微调，得到对应下游任务的输出结果。

本发明提出的一种基于多维度分子信息的分子大模型、构建方法及应用，能够从人工智能的角度辅助生物医药领域更好地理解分子结构和化学原理，从而揭示分子内部机理，通过充分利用二维和三维分子信息，可有效学习分子表征，广泛辅助分子性质预测、分子生成等多种下游任务，加快药物研发速度，具体包括：

(1)构建了一个大规模图预训练数据集，包含二维和三维信息，弥补了现有模型挖掘单一信息的不足；

(2)设计了强表达能力的图表示学习方法，充分挖掘图拓扑结构并模拟三维几何空间上的势能变换，与注意力矩阵进行交互，可扩大下游任务的应用范围；

(3)本发明的多维度自监督学习任务，可充分利用二维和三维的图结构信息，进一步提高模型的表征能力。

附图说明

图1是本发明实施例一种基于多维度分子信息的分子大模型构建方法流程示意图；

图2是本发明实施例Transformer的流程示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明，但不能用来限制本发明的范围。

本实施例提供了一种基于多维度分子信息的分子大模型构建方法，如图1所示，包括如下步骤：

步骤1：构建无监督预训练数据集，构建的无监督预训练数据集的数据来源于PubChem数据库和ZINC数据库，无监督预训练数据集中每一条分子数据均包含其在原始数据库中的ID编号以及一维的分子SMILES表示，其中1.1亿条分子数据来源于PubChem数据库，10亿条分子数据来源于ZINC数据库。

SMILES是一种线性符号，其中只包含简单的原子和键，以及少数语法规则，但却能表示出分子信息，SMILES类似于文本信息，借鉴在自然语言处理中的学习方式，可以通过在大语言模型中学习这种序列表征从而构建分子模型，预测分子性质。但是这种方法存在一些问题：首先SMILES并不能充分捕捉分子结构信息，例如两个分子的相似度信息等等，导致模型无法充分利用结构信息，影响最终性能表现；同时，一个分子可被表征为多个SMILES形式，导致学习存在偏差，影响性能表现；最后，由于输入数据只有SMILES形式，极大限制了分子性质预测等下游任务的输入格式，无法直接应用于大规模的药物筛选。

考虑到同一个分子可以有多种不同的SMILES形式，这就导致无法将SMILES形式用作化合物的匹配与去重操作，因此，对无监督预训练数据集进行预处理时，通过去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体，保留分子的主干结构表示，主干结构表示包括分子在原始数据库中的ID编号和一维的分子SMILES表示，保证分子与SMILES序列的一一对应。

对无监督预训练数据集和进行构象生成处理包括通过RDkit工具包，基于如下步骤进行分子构象生成处理：

基于距离几何生成初步的分子构象；

基于ETKDG方法修正分子构象；

基于MMFF力场优化分子构象。

最后，根据标准化的SMILES序列生成分子的2D图表示，将原子特征、化学键特征、分子图的邻接矩阵以及通过分子构象生成处理生成的原子三维坐标统一保存至.pt类型文件中，保证模型直接调用。

在本实施例中，预训练阶段采用构建的无监督预训练数据集，并依据设定的多维度自监督任务进行预训练，使得模型具备一定的分子表征能力，从而可有效泛化到各种下游任务中。

步骤2：对分子预训练数据集中的分子图进行结构编码，获得初始化的原子特征，将初始化的原子特征输入Transformer中，如图2所示；

在分子表示学习中，Transformer可以有效捕获全局信息，并且这种全局信息在分子表征学习中显得尤为重要，为此使用Transformer作为分子大模型框架的骨干网络，Transformer包括多个Transformer块，每个Transformer块均由自注意力层和前馈神经网络层组成，自注意力层和前馈神经网络层均进行标准的归一化操作。

分子图如公式(1)所示：

位置编码是Transformer中必不可少的成分，在节点特征输入时，除了原子节点特征矩阵，还融入节点度编码、随机游走位置编码和三维距离编码，对于图结构而言，没有一个固定的节点顺序，因此对其进行位置编码十分困难，相比于其他的位置编码方式，基于随机游走的位置编码计算复杂度较低，不需要额外考虑特征值符号的问题，其主要借用邻接矩阵和度来计算表征位置信息，可为k跳拓扑邻居不同的节点提供特定的位置编码。

初始化的原子特征包括原子节点特征矩阵、节点度编码、随机游走位置编码和三维距离编码，初始化的原子特征如公式(2)所示：

x⁰＝[X^atom|X^degree|X^RW|X^3D] (2)

节点度编码X^degree如公式(3)所示：

x^degree＝f_α(D) (3)

其中，D代表分子图的度矩阵，f_α是对度信息的映射函数，

随机游走位置编码X^RW如公式(4)所示：

RW＝AD^-1 (5)

其中，D^-1表示度的逆矩阵，

三维距离编码如公式(6)所示：

步骤3：在Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码，在训练过程中三维距离对编码与Transformer自注意力层交互，迭代更新Transformer自注意力层的节点对特征；

在Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码中，通过偏置项的方式将最短路径结构编码、边信息编码和三维距离对编码融入到自注意力层中，如公式(7)所示：

其中，Att(X)^l+1表示第l+1层自注意力层，Att(r)^l表示第l层自注意力层，SPD表示最短路径结构编码，Edge表示边信息编码，表示三维距离对编码，

最短路径结构编码SPD如公式(8)所示：

边信息编码Edge如公式(9)所示：

Edge＝g_θ(E) (9)

其中，g_θ是对边信息的映射函数，

三维距离对编码如公式(10)所示：

三维距离对编码与Transformer的自注意力层进行交互，交互及Transformer的自注意力层迭代更新过程如公式(11)-公式(12)所示：

其中，表示初始的节点对i-j的特征，/>M表示映射矩阵，表示第l自注意力层的节点对i-j的特征，H是注意力的头数，d是隐藏层的维度，/>是第l自注意力层第h个头的查询，/>是第自注意力l层第h个头的键，

更新后的节点对特征作为下一层自注意力层的偏置项。

步骤4：定义二维空间和三维空间联合分子图自监督学习任务，训练后得到基于多维度分子信息的分子大模型。

定义二维空间和三维空间联合分子图自监督学习任务包括二维空间遮掩节点属性预测任务和三维空间坐标去噪任务；

二维空间遮掩节点属性预测任务采用预测所遮掩的节点属性作为预训练任务，通过在输入中掩蔽部分图节点特征，使模型学习分子结构信息预测遮掩的属性，二维空间遮掩节点属性预测任务的损失函数L_2D如公式(13)所示：

L_2D＝-∑_i∈Mlogp(z_i|G^M) (13)

三维空间坐标去噪任务通过输入时在原子三维坐标信息上添加高斯噪声扰动分子几何结构，使模型预测后的噪声值与输入噪声值之间的差距最小化，模型预测的第k个坐标维度噪声输出/>如公式(14)所示：

三维空间坐标去噪任务的损失函数如公式(16)所示：

基于多维度分子信息的分子大模型的损失函数如公式(17)所示：

L＝αL_2D+βL_3D (17)

根据设计二维空间和三维空间联合分子图自监督学习任务进行预训练，使得模型能够融合不同视角的分子信息，并将模型保存为.pt类型文件，方便下游任务进行进一步的微调，提高泛化性能。

本实施例还提供了一种基于多维度分子信息的分子大模型，采用上述基于多维度分子信息的分子大模型构建方法得到。

本实施例还提供了一种基于多维度分子信息的分子大模型在生物医药领域中的应用，将待进行下游任务的数据集，输入到所述基于多维度分子信息的分子大模型中进行微调，得到对应下游任务的输出结果，所述待进行下游任务的数据集包括分子性质预测任务数据集、三维坐标生成任务数据集和药物筛选数据集。本模型是能够充分挖掘生物医药领域的分子信息，通过模拟二维结构信息和三维几何空间上的势能变换，学习分子表征，提升模型在分子性质预测、靶点预测、分子合成等多个下游任务上的性能，加快药物筛选速度，从而为药物研发提供重要的支持和帮助。

本实施例提供了一个一种基于多维度分子信息的分子大模型在生物医药领域中进行微调数据集的应用，通常分子的标签信息能够在性能方面，对训练的模型有正向的引导，本实施例的分子大模型完成预训练任务后，最终可生成图特征向量、节点特征矩阵以及三维坐标矩阵三种类型输出以对接各式下游任务，例如：利用图特征向量完成分子性质预测任务，利用三维坐标矩阵来完成分子位姿预测任务等。

在本实施例中使用的数据集为PCQM4Mv2数据集，利用PCQM4Mv2数据集中提供的HOMO-LUMO值，将监督的下游任务定义回归任务——预测分子图的量子特性，以优化自监督学习过程中的模型参数，包括：

步骤1：构建监督微调数据集，监督微调数据集的数据来源于PCQM4Mv2数据集，PCQM4Mv2数据集包含340万个有机分子，记录了使用密度泛函理论计算的分子平衡状态下的三维构象以及HOMO-LUMO能隙。

步骤2：对监督微调数据集进行预处理，通过去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体，保留分子的主干结构表示，主干结构表示包括分子在原始数据库中的ID编号和一维的分子SMILES表示，保证分子与SMILES序列的一一对应。

步骤3：本实施例中使用MAE作为损失函数，使用Adam优化器对模型可学习参数进行优化。根据验证集调整超参数。

MAE计算如公式(18)所示：

其中，N表示PCQM4Mv2数据集中所有分子图数目，表示第n个分子的输出结果，/>表示第n个分子的真实标签。

本发明的实施例是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

1.一种基于多维度分子信息的分子大模型构建方法，其特征在于，包括如下步骤：

定义二维空间和三维空间联合分子图自监督学习任务，训练后得到基于多维度分子信息的分子大模型；

所述Transformer包括多个Transformer块，每个Transformer块均由自注意力层和前馈神经网络层组成，所述自注意力层和前馈神经网络层均进行标准的归一化操作；

所述分子图如公式(1)所示：

G＝{X^atom,A,E,R} (1)

其中，为原子节点特征矩阵，n表示原子数量，d表示原子特征维度，X^atom包含原子的固有属性，A表示分子图的邻接矩阵，涵盖了分子图的1阶拓扑信息，E表示分子图上边的集合，/>表示分子在三维空间上的几何空间坐标；

所述初始化的原子特征包括原子节点特征矩阵、节点度编码、随机游走位置编码和三维距离编码，所述初始化的原子特征如公式(2)所示：

X⁰＝[X^atom|X^degree|X^RW|X^3D] (2)

所述节点度编码X^degree如公式(3)所示：

X^degree＝f_α(D) (3)

其中，D代表分子图的度矩阵，f_α是对度信息的映射函数，

所述随机游走位置编码X^RW如公式(4)所示：

RW＝AD^-1 (5)

其中，D^-1表示度的逆矩阵，

所述三维距离编码如公式(6)所示：

其中，表示节点i的三维距离编码，U(i)表示节点i的邻居节点集合，|U(i)|表示节点i的邻居数目之和，∣∣r_i-r_j∣∣表示节点i与节点j的距离信息，r_i表示节点i的坐标信息，r_j表示节点j的坐标信息；

所述在所述Transformer的自注意力层中融入最短路径结构编码、边信息编码和三维距离对编码中，通过偏置项的方式将所述最短路径结构编码、边信息编码和三维距离对编码融入到自注意力层中，如公式(7)所示：

所述最短路径结构编码SPD如公式(8)所示：

所述边信息编码Edge如公式(9)所示：

Edge＝g_θ(E) (9)

其中，g_θ是对边信息的映射函数，

所述三维距离对编码如公式(10)所示：

其中，r_i表示节点i的坐标信息，r_j表示节点j的坐标信息，α_i,jj，β_i,j，μ^k，σ^k均为可学习的参数，其中α_i,j，β_i,j受原子节点元素类型的控制，不同元素构成的节点对对应的α_i,j，β_i,j不同，μ^k，σ^k是高斯核映射的参数，k表示高斯核的数量；

三维距离对编码与所述Transformer的自注意力层进行交互，交互及所述Transformer的自注意力层迭代更新边节点对特征矩阵和节点特征更新过程如公式(11)-公式(12)所示：

更新后的节点对特征作为下一层自注意力层的偏置项；

所述定义二维空间和三维空间联合分子图自监督学习任务包括二维空间遮掩节点属性预测任务和三维空间坐标去噪任务；

L_2D＝-∑_i∈Mlogp(z_i∣G^M) (13)

所述三维空间坐标去噪任务通过输入时在原子三维坐标信息上添加高斯噪声扰动分子几何结构，使模型预测后的噪声值与输入噪声值之间的差距最小化，模型预测的第k个坐标维度噪声输出/>如公式(14)所示：

三维空间坐标去噪任务的损失函数如公式(16)所示：

L＝αL_2D+βL_3D (17)

2.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法，其特征在于，所述预处理包括去除氢原子、移除电荷、移除小片段、移除手性和标准化互变异构体，保留分子的主干结构表示，所述主干结构表示包括分子在原始数据库中的ID编号和一维的分子SMILES表示。

3.根据权利要求1所述的一种基于多维度分子信息的分子大模型构建方法，其特征在于，所述分子构象生成处理包括通过RDkit工具包，基于如下步骤进行分子构象生成处理：

基于距离几何生成初步的分子构象；

基于ETKDG方法修正分子构象；

基于MMFF力场优化分子构象。