CN116541785A

CN116541785A - 基于深度集成机器学习模型的毒性预测方法及***

Info

Publication number: CN116541785A
Application number: CN202310815558.4A
Authority: CN
Inventors: 董兆敏; 李育哲; 王蓓丽; 陈丽莉; 李书鹏; 郭丽莉
Original assignee: BCEG Environmental Remediation Co Ltd
Current assignee: BCEG Environmental Remediation Co Ltd
Priority date: 2023-07-05
Filing date: 2023-07-05
Publication date: 2023-08-04
Anticipated expiration: 2043-07-05
Also published as: CN116541785B

Abstract

本发明公开了一种基于深度集成机器学习模型的毒性预测方法及***，包括：基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型搭建Stacking集成模型，利用急性毒性数据构建数据集对Stacking集成模型进行训练及评价，并基于活性悬崖来划分毒性预测模型的适用域，生成毒性预测模型，获取待测毒性数据对应的分子描述符表示及分子同表示，作为毒性预测模型的输入，获取待测毒性数据的毒性预测值。本发明通过Stacking集成模型提高最终的预测结果的准确性和稳定性，并且将不同类型的算法组合在一起提高预测的鲁棒性，为急性毒性的准确预测提供应用工具。

Description

基于深度集成机器学习模型的毒性预测方法及***

技术领域

本发明涉及毒性预测技术领域，更具体的，涉及一种基于深度集成机器学习模型的毒性预测方法及***。

背景技术

化学物质在给人类带来便捷的同时，也给人类和生态***造成了潜在危害。如人类可通过食物、大气、饮用水等途径暴露于大量的化学物质。为了评估不同化学物的风险危害，需要通过毒性测试获取化学物质的毒性数据。通常而言，毒性测试需要进行成本高昂且耗时的体外试验或者体内试验，收集和分析有关化学物质的实验结果进而获得相关的安全阈值。然而，近几十年来化学合成物质的数量呈指数增长，传统实验方法由于实验成本和时间成本过于高昂，已经远远不能满足现代化学品毒性测试的要求。相对而言，以定量结构-活动关系(QSAR模型)为代表的计算毒理学的方法可基于化学物质的结构、物化性质等，实现对化学物质毒性快速而正确的预测，在过去几十年间得到了极大的发展。

近年来，由于算法以及算力的进步，科学家开始将机器学习引入计算毒理学领域，以提高毒性预测的正确性。如利用特定算法，QSAR模型可以首先学习现有数据（即训练数据）中结构特征（即描述符）和化学活性之间的相关规则，然后有效地利用所学规则预测新物质的毒性。而目前缺少毒性预测的集成框架，导致预测稳定性不足。因此，如何建立包含多种机器模型算法的集成模型为急性毒性的准确预测提供应用工具是该领域亟待解决的问题。

发明内容

为了解决上述技术问题，本发明提出了一种基于深度集成机器学习模型的毒性预测方法及***。

本发明第一方面提供了一种基于深度集成机器学习模型的毒性预测方法，包括：

获取急性毒性数据构建数据集，基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练；

对训练后的Stacking集成模型进行模型评价，并基于活性悬崖来划分毒性预测模型的适用域，获取符合预设标准的Stacking集成模型作为毒性预测模型；

获取待测毒性数据，将待测毒性数据进行预处理，获取待测毒性数据对应的分子描述符及分子图，生成分子描述符表示及分子图表示；

将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入，获取待测毒性数据的毒性预测值。

本方案中，获取急性毒性数据构建数据集，具体为：

通过小鼠的急性口服毒性试验获取小鼠口服急性毒性数据，进行数据处理及数据清洗，去除不方便计算分子指纹的聚合物，并对重复出现的化合物进行平均；

以半数致死剂量的形式表示，将所述半数致死剂量/>转化为对数形式；

使用每个化合物的CASR编码和PubChem数据库中的化学信息查询，获取了每个化合物的Smiles编码，将所述每个化合物的Smiles编码转化为ECFP编码；

选取预设数量的化合物作为验证集，其余作为基数据集用于基模型的训练及测试。

本方案中，基于随机森林、支持向量机回归、有向信息传递神经网络及AttentiveFP模型作为Stacking集成模型的基模型利用所述数据集进行训练，具体为：

采用超级学习机方法基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型构建Stacking集成模型，分为三个阶段进行模型训练；

在第一阶段中，在大小为n的基数据集的基础上训练m个基模型，其中m=4，堆叠得到的预测矩阵Z，/>，式中/>为第j种算法，/>为基数据集中第i个数据样本，/>为第一阶段中预测矩阵的表示；

将各基模型对于基数据集的预测堆叠作为特征输入第二阶段中，将预测堆叠对应的预测矩阵作为元数据集训练三个元模型，包括随机森林、支持向量回归及广义线性回归，第二阶段中的随机森林及支持向量回归与第一阶段中的模型不同，其中，，式中/>为第二阶段的第k种算法；

在第三阶段通过非负最小二乘算法计算每个算法的贡献及，生成元模型的权重信息，将元模型的预测与所述权重信息结合生成Stacking集成模型的预测结果，，式中/>为权重信息，/>。

本方案中，采用五折交叉验证对Stacking集成模型进行模型评价，将所述数据集分成五个大小相等的子集，其中四个子集作为训练集，一个子集作为测试集；

利用所述子集进行组合分别进行五次实验，每一次都用不同的子集作为测试集，其余四个子集作为训练集；

使用相关指数，平均相对误差MAE及均方根误差RMSE作为评价指标，将五次实验的评估结果进行平均，作为模型的性能评估结果。

本方案中，基于活性悬崖来划分毒性预测模型的适用域，具体为：

获取训练集中各化合物的MACCS指纹，使用所述MACCS指纹计算谷本系数分析相似度，根据所述谷本系数将所有化合物划分为多个子空间，在所述子空间中化合物的相似度均大于预设阈值；

利用局部不连续性分数检测活性悬崖上的化合物，对于待检测分子m，其局部不连续性分数/>计算公式为：

；

其中，n表示化合物的一个子空间集合，n与m具有大于预设阈值/>的相似度，/>表示m与n的谷本系数，/>表示m和n之间性质的绝对差异，K表示集合元素的数量；

根据待检测分子与训练集中化合物分子的相似度***训练集的子空间，预设局部不连续分数阈值，若待检测分子与训练集中化合物分子之间的局部不连续分数大于等于所述局部不连续分数阈值/>，则证明所述待检测分子位于活性悬崖上，预测结果具有不确定性；

若待检测分子与训练集中化合物分子的相似度小于预设阈值，则证明待检测分子不能被放入训练集的子空间，训练集中没有相似的化合物，不能得出准确的预测结果；

通过预设阈值及预设局部不连续分数阈值/>控制筛选，筛选后测试集中剩下的化合物被认为是位于适用域内的化合物。

本方案中，将待测毒性数据进行预处理，获取待测毒性数据对应的分子描述符及分子图，生成分子描述符表示及分子图表示，具体为：

利用ECFP指纹将待测毒性数据进行分子向量化，选取最佳描述符及参数获取待测毒性数据对应的分子描述符，生成分子描述符表示；

将待测毒性数进行图表示获取对应的分子图，在所述分子图中将原子作为节点，化学键作为边，对所述分子图进行学习，生成分子图表示。

本发明第二方面还提供了一种基于深度集成机器学习模型的毒性预测***，该***包括：存储器、处理器，所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序，所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤：

本发明公开了一种基于深度集成机器学习模型的毒性预测方法及***，包括：基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为基模型搭建Stacking集成模型，利用急性毒性数据构建数据集对Stacking集成模型进行训练及评价，生成毒性预测模型，获取待测毒性数据对应的分子描述符表示及分子同表示，作为毒性预测模型的输入，获取待测毒性数据的毒性预测值。本发明通过Stacking集成模型提高最终的预测结果的准确性和稳定性，并且将不同类型的算法组合在一起提高预测的鲁棒性，为急性毒性的准确预测提供应用工具。再者，基于活性悬崖的适用域定义方法，计算谷本系数来衡量化合物之间的距离，使用阈值控制划分子空间。通过计算局部不连续系数和阈值控制计算活性悬崖。进一步提高了模型预测性能和预测的可靠性。

附图说明

图1示出了本发明一种基于深度集成机器学习模型的毒性预测方法的流程图；

图2示出了五折实验中Stacking集成模型中每层基础模型的结果和真实值的均方根误差；

图3示出了在时以及当/>时，/>的变化对验证集剩余化合物数量以及模型性能的影响；

图4示出了本发明一种基于深度集成机器学习模型的毒性预测***的框图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

图1示出了本发明一种基于深度集成机器学习模型的毒性预测方法的流程图。

如图1所示，本发明第一方面提供了一种基于深度集成机器学习模型的毒性预测方法，包括：

S102，获取急性毒性数据构建数据集，基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练；

S104，对训练后的Stacking集成模型进行模型评价，并基于活性悬崖来划分毒性预测模型的适用域，获取符合预设标准的Stacking集成模型作为毒性预测模型；

S106，获取待测毒性数据，将待测毒性数据进行预处理，获取待测毒性数据对应的分子描述符及分子图，生成分子描述符表示及分子图表示；

S108，将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入，获取待测毒性数据的毒性预测值。

需要说明的是，数据来源于NationalToxicologyProgram(NTP)的小鼠口服急性毒性数据，通过小鼠的急性口服毒性试验获取小鼠口服急性毒性数据，急性口服毒性试验通常是评估化学物质在短时间内口服后对生物体产生的毒性效应。在这些试验中，实验动物通常会在24小时内口服一定剂量的测试物质，然后通过观察其行为、症状、生理参数等指标来评估其毒性效应。结果以半数致死剂量的形式表示，即每千克体重的试验动物所需的化学物质剂量，以使其中50%的实验动物在24小时内死亡，进行数据处理及数据清洗，去除不方便计算分子指纹的聚合物，并对重复出现的化合物的/>进行平均；将所述半数致死剂量/>转化为对数形式/>，以便于模型输入和处理。

使用每个化合物的CASR编码和PubChem数据库中的化学信息查询，获取了每个化合物的Smiles编码，将所述每个化合物的Smiles编码转化为ECFP编码，Smiles编码是一种描述分子结构的字符串，可以方便地用于计算机模拟和机器学习模型的输入。通过分析和比较每个化合物的Smiles编码，更好地了解其分子结构和化学性质，从而更准确地预测其毒性和潜在的环境影响。接下来使用python包RDkit将smiles符转化为ECFP编码。选取预设数量的化合物作为验证集，其余作为基数据集用于基模型的训练及测试。

根据本发明实施例，基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练，具体为：

需要说明的是，超级学习器是集成学习方法 Stacking 思想的一种实现方式，通常涉及多个层级，其中第一层包括多个基线模型，每个模型都被训练和评估，以生成预测结果，这些预测结果被用作第二层的输入，通过使用另一个模型来组合这些预测结果，生成组合预测结果。这个过程可以重复多次，以形成更深层次的模型。

对物质的毒性数据进行预测都需要基于分子的化学结构信息。如果想将化学描述符输入到机器学习模型中进行计算，就需要将它们转化为向量化的分子指纹。分子指纹是将分子结构转换为向量表示的方法，计算分子指纹的方法有很多种，比如MACCS（分子访问***）、RDkit指纹和扩展连通性指纹（ECFP）。采用ECFP指纹将分子向量化作为模型的输入。ECFP也称摩根指纹，是基于分子中原子之间的连通关系。通过对分子的连接图进行扩展，生成一系列不同的子结构片段，并编码这些片段的存在或缺失情况，形成一个二进制向量。

在本发明实施例中，随机森林模型RF使用了181个决策树，每个树的最大深度为14，以进行分子性质的预测。模型使用DeepChem的sklean接口搭建，并且使用DeepChem自带的高斯优化得到超参数。支持向量回归SVR可以处理非线性关系，并且对于离群值的影响较小，支持向量回归SVR使用径向基函数rbf作为核函数，惩罚系数C值为1.0。

图是由节点和连接这些节点的边组成的一种数据结构。将原子作为节点，化学键作为边，任何一个分子都可以表示为分子图的形式。原子和化学键可以带有不同的属性，如原子的元素类型、电荷状态，以及化学键的键级等等。此外，分子图还可以包括其他类型的节点和边，如环、芳香性键等等。将分子图定义为，其中/>表示分子图，/>表示第i个原子的特征，/>表示j原子位于i原子的邻域，/>表示i原子和j原子间的边的特征。

有向信息传递神经网络D-MPNN将原子和键的特征向量转换为分子的潜在表示，嵌入分子随后通过第二个全连接神经网络进行属性预测任务，D-MPNN模型可以分为三个阶段：信息传递、更新阶段和读出阶段。Attentive FP模型使用自我注意力机制来对化学结构进行编码，并将它们映射到预测目标。这种方法能够有效地处理化学结构之间的相互作用，并且可以很好地处理具有不同大小和形状的分子，核心原理是使用自我注意力机制对化学结构进行编码，从而获取化合物的表示。自我注意力机制是指模型学习如何为输入序列中的每个元素分配权重，从而使模型能够在不同的位置对序列进行不同的关注。

根据本发明实施例，采用五折交叉验证对Stacking集成模型进行模型评价，将所述数据集分成五个大小相等的子集，其中四个子集作为训练集，一个子集作为测试集；利用所述子集进行组合分别进行五次实验，每一次都用不同的子集作为测试集，其余四个子集作为训练集；使用相关指数，平均相对误差MAE及均方根误差RMSE作为评价指标，将五次实验的评估结果进行平均，作为模型的性能评估结果。

图2中展示了五折实验中Stacking集成模型中每层基础模型的结果和真实值的均方根误差（RMSE）。图中横轴代表不同的模型，纵轴代表模型输出和真实值的RMSE，RMSE越低代表在这次折叠实验，该模型表现越好。横轴前四种模型AFP,DMPNN,SVR,RF是集成模型的第一层基础模型。MLR(2),SVR(2),RF(2)代表第二层的三种模型。最后Stacking（3）代表Stacking集成模型。可以看出第二层模型平均性能高于大部分的基模型，第三层模型的性能大于所有的第二层模型。另外相比单独的基础模型，结合了多个基础模型的Stacking模型表现出了更高准确性和稳定性。

根据本发明实施例，基于活性悬崖来划分毒性预测模型的适用域，具体为：

；

需要说明的是，使用活性悬崖AC来划分适用域，相似结构但具有相反性质的分子会对它们的结构-活性景观SAL产生“局部不连续”，也称为活性悬崖。基于使用MACCS计算的谷本系数，同时利用局部不连续性分数SLD来检测AC上的化合物。MACCS指纹是一种短而稠密的分子指纹，将分子中常见的结构片段编码为166位的二进制向量。谷本系数为基于两个分子之间共有的结构片段数量与它们各自具有的结构片段总数之比，计算出两个分子之间的相似度，其取值范围在0到1之间，其中1表示两个分子完全相同，0表示两个分子没有共同的结构片段。

图3展示了在时，/>的变化对验证集剩余化合物数量以及模型性能的影响；以及当/>时，/>的变化的影响。

直方图可以看出，随着的增加，与训练组相似的化学物质的判断标准变得更加严格，更多与测试集相似度较低的化学物质被排除在外，验证集中物质减少。随着的增加，检验是否是AC的阈值增加，属于活性悬崖的化合物减少，适用域中残留的化学物质数量增加，从折线图看出，模型的/>随/>变化明显。说明验证集中降低模型性能的化合物在结构上和训练集差异较大。当提高/>，意味着预测的化合物和训练集化合物之间需要有更大相似度才能被预测。当剔除力度过大。能被正确预测的一部分化合物也会被去除，导致模型预测效果下降。/>的增加意味着判断活性悬崖的严格程度增加，一个化合物需要具有更大的SLD才能被判定为是活性悬崖，从而使得剔除的化合物数量减少。

使用了两个阈值来控制筛选的力度，预设阈值控制相似度阈值，其越大，代表新化合物需要有更大的相似度才能被预测；局部不连续分数阈值/>控制位于AC上化合物的筛选力度，其越高，代表认为具有更高SLD的分子被才会被认为是活性悬崖上的分子，从而降低了筛选力度。

需要说明的是，将待测毒性数据进行预处理，利用ECFP指纹将待测毒性数据进行分子向量化，选取最佳描述符及参数获取待测毒性数据对应的分子描述符，生成分子描述符表示；将待测毒性数进行图表示获取对应的分子图，在所述分子图中将原子作为节点，化学键作为边，对所述分子图进行学习，生成分子图表示。将待测毒性数据对应的分子描述符表示及分子同表示导入所述毒性预测模型作为输入，获取待测毒性数据的毒性预测值。

本发明第二方面还提供了一种基于深度集成机器学习模型的毒性预测***4，该***包括：存储器41、处理器42，所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序，所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤：

本发明第三方面还提供一种计算机可读存储介质，所述计算机可读存储介质中包括基于深度集成机器学习模型的毒性预测方法程序，所述基于深度集成机器学习模型的毒性预测方法程序被处理器执行时，实现如上述任一项所述的基于深度集成机器学习模型的毒性预测方法的步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个***，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，RandomAccessMemory）、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机、服务器、或者网络设备等）执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于深度集成机器学习模型的毒性预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法，其特征在于，获取急性毒性数据构建数据集，具体为：

3.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法，其特征在于，基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练，具体为：

4.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法，其特征在于，采用五折交叉验证对Stacking集成模型进行模型评价，将所述数据集分成五个大小相等的子集，其中四个子集作为训练集，一个子集作为测试集；

5.根据权利要求1或4所述的一种基于深度集成机器学习模型的毒性预测方法，其特征在于，基于活性悬崖来划分毒性预测模型的适用域，具体为：

；

6.根据权利要求1所述的一种基于深度集成机器学习模型的毒性预测方法，其特征在于，将待测毒性数据进行预处理，获取待测毒性数据对应的分子描述符及分子图，生成分子描述符表示及分子图表示，具体为：

7.一种基于深度集成机器学习模型的毒性预测***，其特征在于，该***包括：存储器、处理器，所述存储器中包括基于深度集成机器学习模型的毒性预测方法程序，所述基于深度集成机器学习模型的毒性预测方法程序被所述处理器执行时实现如下步骤：

8.根据权利要求7所述的一种基于深度集成机器学习模型的毒性预测***，其特征在于，基于随机森林、支持向量机回归、有向信息传递神经网络及Attentive FP模型作为Stacking集成模型的基模型利用所述数据集进行训练，具体为：

9.根据权利要求7所述的一种基于深度集成机器学习模型的毒性预测***，其特征在于，采用五折交叉验证对Stacking集成模型进行模型评价，将所述数据集分成五个大小相等的子集，其中四个子集作为训练集，一个子集作为测试集；

10.根据权利要求7或9所述的一种基于深度集成机器学习模型的毒性预测***，其特征在于，基于活性悬崖来划分毒性预测模型的适用域，具体为：

；