CN114550842A - 抑制靶标蛋白生物活性的药物化合物分子预测方法及*** - Google Patents

抑制靶标蛋白生物活性的药物化合物分子预测方法及*** Download PDF

Info

Publication number
CN114550842A
CN114550842A CN202210036900.6A CN202210036900A CN114550842A CN 114550842 A CN114550842 A CN 114550842A CN 202210036900 A CN202210036900 A CN 202210036900A CN 114550842 A CN114550842 A CN 114550842A
Authority
CN
China
Prior art keywords
biological activity
molecule
target
descriptors
molecular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210036900.6A
Other languages
English (en)
Inventor
王红
郑子希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Normal University
Original Assignee
Shandong Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Normal University filed Critical Shandong Normal University
Priority to CN202210036900.6A priority Critical patent/CN114550842A/zh
Publication of CN114550842A publication Critical patent/CN114550842A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明属于数据处理技术领域,提供了一种抑制靶标蛋白生物活性的药物化合物分子预测方法及***。其中,该方法包括获取抗癌候选药物的分子描述符;按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;将关键分子描述符进行编码,并转换为相应向量表示;基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。

Description

抑制靶标蛋白生物活性的药物化合物分子预测方法及***
技术领域
本发明属于数据处理技术领域,尤其涉及一种抑制靶标蛋白生物活性的药物化合物分子预测方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在药物研发中,通过建立有效的抑制靶标蛋白活性模型来筛选潜在药物化合物,预测具有更好抑制靶标生物活性的新化合物分子。例如:***受体ERα是治疗乳腺癌的重要靶标之一,拮抗ERα活性的化合物可能是治疗乳腺癌的候选药物。但是由于化合物及其分子描述符的数据维度高、数据量有限和化合物结构的相似等难点,导致建立精准的预测模型具有很大的挑战。因此,致力于实现乳腺癌药物中筛选抗癌分子或者构建新的高活性抑制剂化合物,对研发新型抗乳腺癌药物等工作具有极大的现实意义。
在抗癌候选药物方面,由于传统的抗癌候选药物特征表示具有高维性和稀疏性,特征表达能力较弱,且传统的机器学习算法在特征工程中需要耗费大量的人力物力,并且针对抗癌药物而言,由于其领域性强、数据量大且内容庞杂等特点,采用现有的特征提取方法,精度不高。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种抑制靶标蛋白生物活性的药物化合物分子预测方法及***,其基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示进行最大拮抗靶标生物活性的候选药物抗癌分子预测,能够提高预测结果的准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种抑制靶标蛋白生物活性的药物化合物分子预测方法,其包括:
获取抗癌候选药物的分子描述符;
按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;
将关键分子描述符进行编码,并转换为相应向量表示;
基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
本发明的第二个方面提供一种抑制靶标蛋白生物活性的药物化合物分子预测***,其包括:
候选药物信息获取模块,其用于获取抗癌候选药物的分子描述符;
关键分子描述符筛选模块,其用于按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;
关键分子向量表示模块,其用于将关键分子描述符进行编码,并转换为相应向量表示;
最大拮抗分子确定模块,其用于基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符,其不仅仅考虑的是多个不同的药物化合物分子描述符,还从生物分子学中“物质的结构决定性质”角度出发,利用对靶标生物活性相关性增加了化合物结构相似性分析变量,增加变量矩阵维度,利用预先构建的关键分子描述符特征和靶标生物活性之间的关系模型,提高了最大拮抗靶标生物活性的候选药物抗癌分子的预测结果的准确性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中药物发挥抗癌作用过程图;
图2为本发明实施例中计算药物化合物分子描述符相关系数示意图;
图3为本发明实施例中抑制靶标蛋白生物活性的药物化合物分子预测方法流程图;
图4为本发明实施例中基于机器学习定量预测模型训练测试过程示意图;
图5为本发明实施例中多个预测模型指标比较示意图;
图6为本发明实施例中抑制靶标ERα生物活性预测模型的效果示意图;
图7为本发明实施例中基于机器学习改进随机森林中n_estimators评估示意图;
图8为本发明实施例中抑制靶标蛋白生物活性的药物化合物分子预测***结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
如图1和图3所示,本实施例提供了一种抑制靶标蛋白生物活性的药物化合物分子预测方法,其具体包括如下步骤:
S101:获取抗癌候选药物的分子描述符。
S102:按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符。
在步骤S102中,抗癌候选药物的分子描述符对靶标生物活性相关性采用皮尔逊相关系数表征。
其中,不同样本的分子指标之间的关系是错综复杂的。这样的关系会导致在计算相关性时重复给分使分子衡量失衡。因此,考虑采用皮尔逊相关系数,建立数值独立化计算模型,对原始权重进行调节,可以解决重复性和稳定性问题,客观反映本问题中分子描述符和生物活性影响的真实情况。
所述皮尔逊相关系数(Pearson Correlation Coefficient),其适用场景是呈正态分布的连续变量,当数据集的数量超过500时,可以近似认为数据呈正态分布。
Figure BDA0003468805990000051
其中,xi,yi为实际数据值,x,y为相应模型的对应值。指标相互比较时,以当前指标为模型,观察x,y的变化情况,可以看到当x,y变化趋势相同时,协方差为正;x,y变化趋势相反时,协方差为负。其相关系数取值区间大,因此需要将取值范围映射到[-1,1],利用协方差除以标准差。
Figure BDA0003468805990000052
相关系数很好地反映了相关程度,其取值范围为[-1,1],接近1表示相关性好,0表示不相关,接近-1表示负相关。
总体相关系数用ρ表示:
Figure BDA0003468805990000053
其中,
Figure BDA0003468805990000054
分别为X和Y的总体方差,COV(X,Y)为上面工作中提到的变量x与y的协方差。相关系数能够很好地实现去中心化处理,为了清晰展示出指标间的系数关系,采用相关系数矩阵展示每两个指标的关联性。
所述协方差,是皮尔逊相关系数计算的前提,表示的是两个变量的总体的误差。如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值表示。即其表示两个变量(x,y)间相互关系的数值特征。
具体地,筛选出设定数量的关键分子描述符的过程为:
S1021:采用皮尔逊相关系数计算相关性矩阵,对每项分子描述符进行线性相关分析,得到相关性矩阵;
S1022:选择分子描述符,根据相关性矩阵的变量相关性大小,得到相关性较高的设定数量的分子描述符。
相关系数是变量间相关程度的度量,取值范围介于-1到1之间。正值表示正相关,即变量变化方向是一致的,比如y随着x的变大而变大;当相关系数为1或-1时,两者有严格的线性关系;当相关系数为0时,则称x与y不相关。不相关是指x和y之间没有线性关系,但x与y之间可能有其他的函数关系。
绝对值越接近1,表示两个变量之间关系越密切;越接近0,表示两个变量之间关系越不密切。
S103:将关键分子描述符进行编码,并转换为相应向量表示。
S104:基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
在步骤S104中,根据预先构建的关键分子描述符特征和靶标生物活性之间的关系模型,构建出基于药物化合物结构监督下的随机森林模型,进而结合关键分子描述符向量表示,预测最大拮抗靶标生物活性的候选药物抗癌分子。
其中,所述基于药物化合物结构监督下的随机森林模型中内部包含多个决策树,将多个决策树的预测结果取平均得到最终的结果。
在所述基于药物化合物结构监督下的随机森林模型中,采用二叉树来表示一类变量。
下面以为抑制乳腺癌靶标ERα生物活性,筛选药物中的主要抗癌分子,即筛选出对靶标生物活性最具有显著影响的药物化合物分子描述符为例来详细说明本实施例的具体实施过程:
具体地,在关键分子描述符特征和靶标生物活性之间的关系模型的过程中获取已有标签的待筛选的数据,这些数据由比赛官网提供,共有1974个化合物及其729个分子描述符样本数据,其数据的具体属性列包括化合物结构、nAcid、ALogP、ALogp2、IC50、pIC50等信息,其中分别对应729个分子描述符和药物化合物拮抗靶标ERα生物活性的强度。
本实施例将该过程定义为典型的特征选择问题,分别对各项分子描述符和靶标生物活性相关性分析。首先,根据分子变量类型不同对变量筛选建模,其次,选择直接的皮尔逊相关系数进行相关性分析,该算法能够适应线性和非线性情况,准确找到各变量与活性因子的相关性。然后,对该模型进行求解,从所有变量中筛选出前20个成为模型主要变量。最后,采用相关性分析法对主要变量的独立性和合理性进行验证和探讨。
以提供的1974个化合物的729个分子描述符为例:
为了进一步观察化合物各分子描述符与靶标ERα生物活性之间的联系,在特征间相关性分析的基础之上,建立皮尔逊相关性分析中相关系数对应的相关强度如表1所示:
表1相关程度与系数关系表
相关系数 相关程度
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0.0-0.2 极弱相关或无相关
-1.0-0.0 负相关
利用建立的相关性计算模型,构建药物化合物对靶标ERα生物活性的定量预测模型,对相关性分析可知,描述前20个最有效的生物活性的分子描述符,包括“MDEC-23”,“MLogP”,“LipoaffinityIndex”,“maxsOH”,“minsOH”,“nC”,“nT6Ring”,“n6Ring”,“minsssN”,“BCUTp-1h”,“C2SP2”,“hmin”,AMR”,“SwHBa”,“maxsssN”,“MDEC-22”,“SP-5”,“SaaCH”,“CrippenLogP”,“maxHsOH”。本实施例实验结果如表2所示:
表2前20分子描述符及其相关系数
分子描述符 相关系数 分子描述符 相关系数
MDEC-23 0.538048 C2SP2 0.426632
MLogP 0.529321 hmin 0.426365
LipoaffinityIndex 0.491855 AMR 0.425149
maxsOH 0.466621 SwHBa 0.423176
minsOH 0.466127 maxsssN 0.420674
nC 0.459549 MDEC-22 0.420095
nT6Ring 0.440443 SP-5 0.419318
n6Ring 0.432108 SaaCH 0.418828
minsssN 0.430690 CrippenLogP 0.412300
BCUTp-1h 0.428526 maxHsOH 0.408761
本实施例为了更直观的展现与靶标生物活性因子最相关的20个分子描述符,绘制了相关的柱状图,如图2所示。由表2和图2可以看出,具有显著影响的分子描述符和化合物生物活性之间的相关系数的取值范围在0.4到0.6之间,从而可以得出二者之间存在一定的正相关的趋势。其中,MDEC-23分子描述符和MLogP分子描述符的相关系数较高,均在0.5以上,其余18个分子描述符(如LipoaffinityIndex,maxsOH,minsOH等)的相关系数的数值相差不大,均匀分布在0.4到0.5之间。
对比表2可知,单个分子描述符对靶标ERα生物活性的影响程度为中等程度相关。因而将该类分子描述符适当加入到化合物中,参与药物的进一步研发,有可能有效的抑制ERα的过度表达,进而抑制乳腺癌的进一步发展。
本实施例中,通过对模型的输出数据进行比对,实例中发现大部分化合物分子描述符对化合物生物活性的影响程度,即相关系数的数值取值范围为0.2到0.6之间,从相关性强度的角度来看,也就是大部分分子描述符影响化合物生物活性的程度为中等程度相关或弱相关。但是有部分分子描述符数据的相关系数很小,几乎接近于0,如表3所示,甚至有部分数据的相关系数大小为负数,如表4所示。
表3前20分子描述符弱相关表
分子描述符 相关系数 分子描述符 相关系数
SHBint5 0.005773 SaaaC 0.004102
SHtCH 0.004559 nHBint9 0.004099
maxHtCH 0.004559 nHBint8 0.003545
minHtCH 0.004559 SHBint8 0.003483
nHtCH 0.004372 maxaaaC 0.002753
ntCH 0.004372 nF10Ring 0.002626
nHBint5 0.004299 nT10Ring 0.002626
maxtCH 0.00428 nT12Ring 0.001438
StCH 0.00428 minaaaC 0.001011
mintCH 0.00428 nF12Ring 0.000713
经过相关性分析与表4可知,还有部分分子描述符的相关系数值为负数,从相关性强度角度分析,分子描述符和化合物生物活性之间存在一定的负相关关系,从理论上讲,随着该类分子描述符增多,该化合物的生物活性降低,也就是该类分子描述符抑制化合物活性的强度的表达。因而,在药物研发过程中,应注意该类化合物分子描述符对乳腺癌发展的影响,在抑制癌细胞生长方面有较少的效果,甚至会产生副作用的影响,在药物研发中应该合理使用该类化学分子。
表4前20分子描述符负相关表
分子描述符 相关系数 分子描述符 相关系数
C2SP1 -0.006544 VC-4 -0.074853
ATSc1 -0.028127 ATSc5 -0.075515
nP -0.035941 nBondsT -0.077666
nI -0.044223 C1SP1 -0.078458
VC-6 -0.047296 C4SP3 -0.078581
SC-5 -0.047753 nBr -0.092515
SC-4 -0.051509 SCH-5 -0.136838
BCUTw-1h -0.056019 BCUTp-1l -0.13885
SC-6 -0.056331 BCUTw-1l -0.163833
nCl -0.061131 nN -0.186221
上述内容实现了对药物分子描述符变量的分析和筛选,通过计算相似度筛选出共计20个具有代表性、独立性、对生物活性最具有显著影响的分子描述符(包括“MDEC-23”、“MLogP”、“LipoaffinityIndex”及“maxsOH”等),并对变量加以展示说明其筛选的准确性和优越性。
利用已给定的靶标ERα生物活性值样本数据以及筛选出来的对生物活性最具有显著影响的分子描述符。以一系列药物化合物分子描述符作为自变量,靶标生物活性值作为因变量,根据样本数据以及筛选变量的特点,分析二者之间的相互关系,构造定量结构性质/生物活性关系模型,从而预测多个化合物的IC50值和pIC50值。
由化学知识可知,癌症用药来源于相同药性的化合物之间的结构相似程度较高,化合物的分子结构和生物活性之间有特定的相关关系,从“化合物结构-分子描述符-生物活性”关系进行抗癌药性物质基础的研究具有一定的科学依据。相似的化合物对应的分子描述符必定也是相近的,最终生物活性的影响也是相近的。因此,本实施例中,除了关注靶标ERα的生物活性值和多个分子描述符的信息外,将创造性的将化合物结构相似性信息作为先验知识辅助生物活性预测。
本实例中建立有化合物结构监督下的随机森林模型,并基于原子环境(AE)之间的海灵格距离计算化学结构相似指数,以化学物结构的相似性作为该模型额外的监督信息,该模型在预测流程过程中具有更明显的优势。
将样本数据中提供的1974个化合物的训练样本和数据集进行处理。考虑到不同化合物相关特征不尽相同,且训练数据有限,将不同化合物和其特征作为一个训练样本,产生1974个训练数据。为了能够有效评估不同模型的性能,对于训练集中提供的数据,阶段二中按6:1随机划分训练集和验证集,选择1700作为训练数据,294作为验证集数据。
因为数据集很小,如果直接利用这些数据进行模型分类训练,模型难以真实准确地学***均误差最小的模型(超参数)。选出合适的模型(超参数)后,可以把训练集和验证集合并起来,在上面重新把模型训练一遍,得到最终模型,然后再用测试集测试其泛化能力,详细的模型架构图如图4所示。
在构建简单回归模型过程中,人为设计合适的回归拟合函数表达式,而随机森林算法模型突破了函数形式设置的局限性,同时更加适合于本实施例中的多元分子描述符等多元变量的预测。回归随机森林作为一种机器学习和数据分析领域常用且有效的算法,对构建化合物对靶标ERα生物活性的定量预测的模型是非常必要的。
建立该模型除了利用原始数据中提供的分子描述符信息和活性值信息外,更为关键的是计算化合物结构的相似性作为先验知识。目前化合物结构相似系数的方法包含基于药物化合物分子描述符和基于化合物结构信息的两种方式。
本实施例在计算化合物相似性的过程中,主要以toxmatch作为计算与可视化工具,应用基于结构的相似指数计算模式对不同化合物之间进行结构相似度计算,这种计算模式包括原子环境(Atom Environments,AE)之间的海灵格距离(Hellinger distance),公式如下
Figure BDA0003468805990000121
AE之间的海灵格距离在方程式中,N是分子结构A和B中所有片段的总数,i指的是化合物A中的片段的概率,而Bi指的是在化合物B中发现第一个片段的概率。采用基于AE之间的海灵格距离计算方法,计算化学分子式两两之间相似度,基于原子AE的结构相似性结果在0.6到0.7之间的化学成分对最多,0.7到0.8的也很常见,甚至有部分成分之间的相似性能达到0.9以上。
本实施例采用得到药物化合物相关性矩阵作为监督信息,指导随机森林模型的建立,具体的建立过程如下所示:
Step1:原始训练集中有N个样本,且每个样本有W维特征。从数据集中有放回的随机抽取x个样本组成训练子集,一共进行w次采样,即生成w个训练子集;
Step2:每个训练子集形成一棵决策树,一共形成w棵决策树;
Step3:对于单个决策树,树的每个节点处从M个特征中随机挑选m个特征,按照结点不纯度最小原则进行***。每棵树均按照此方式***下去,直到该节点的所有训练样本均属于同一类。在决策树的***过程中不需要剪枝;
Step4:根据生成的多个决策树分类器对需要进行预测的数据进行预测。对于回归树来说,根据每棵树的投票结果,利用简单的平均值得到最终结果。
本实施例中实现的RFR是将多个二叉决策树(CART),在训练二叉决策树模型的时候需要考虑怎样选择切分变量(特征)。针对于切分变量和切分点的选择,本实现采用穷举法,即遍历每个特征和每个特征的所有取值,最后从中找出最好的切分变量和切分点;针对于切分变量和切分点的好坏,一般以切分后节点的不纯度来衡量,即各个子节点不纯度的加权和G(xi,vij),其计算公式如下:
Figure BDA0003468805990000131
其中,xi为某一个切分变量,vij为切分变量的一个切分值,nleft,nright,Ns分别为切分后左子节点的训练样本个数、右子节点的训练样本个数以及当前节点所有训练样本个数,Xleft,Xright分为左右子节点的训练样本集合,H(X)为衡量结点不纯度的函数(impurityfunction/criterion),分类和回归任务一般采用不同的不纯度函数。在本实施例中实现的回归随机森林中,H(X)选用MSE,即针对某一切分点:
Figure BDA0003468805990000132
其中,Xleft,Xright分为左右子节点的训练样本集合,yi为其中某一样例;
Figure BDA0003468805990000141
为左子节点训练样本集合的均值,
Figure BDA0003468805990000142
为右子节点训练样本结合的均值;Ns为集合片段综述。
RFR从乳腺癌原始数据中有放回地抽取n个样本,形成多个子样本集,再分别针对这些子样本集,利用CART树方法构建决策树,最终组成随机森林,新数据的预测结果由分类树投票决定。新数据的预测结果可如下所示:
Figure BDA0003468805990000143
其中,hi是单棵分类树的基础分类模型,Y是输出变量(TNBC和non-TNBC),I(·)表示示性函数,n为样本的总数量。
本实施例采用有化合物结构监督下的随机森林模型进行靶标生物活性预测,模型分类准确率极大提高。
所述模型求解过程主要包括训练、测试和结果可视化的过程,利用Python求解基于随机森林的生物活性值预测模型,训练阶段如图4所示。
在训练阶段,回归随机森林(RFR)使用bootstrap采样从输入训练数据集中采集多个不同的子训练数据集,来依次训练多个不同决策树,同时将化合物相关权重系数作为列表特征加入到模型的训练中。在预测阶段,随机森林将内部多个决策树的预测结果取平均得到最终的结果。
采用训练得到的乳腺癌靶标生物活性模型进行预测并进行评价:
模型评价指标的选择:
评价回归问题的主流指标包括平均绝对误差(MAE)、平均平方误差(MSE)又称L2、均方根误差(RMSE)、解释变异、拟合度(R-squared)和决定系数等。
针对本实施例提出的化合物结构监督下的随机森林模型,采用评价指标进行评价时,选择MSE、MAE和R-squared三个指标对模型进行评估。
MSE不仅仅能表示分枝质量衡量指标,也是衡量估计量与被估计量回归质量的,随机森林回归模型中的均方误差公式如下:
Figure BDA0003468805990000151
其中,
Figure BDA0003468805990000152
为实际值,yi为预测值,n为样本的总数量。
MAE取了预测值和实际值之间绝对误差的平均,在均方误差的公式中,将求预测值和实际值间差的平方,代替为求差的绝对值。公式如下:
Figure BDA0003468805990000153
其中,
Figure BDA0003468805990000154
为实际值,yi为预测值,n为样本的总数量。
拟合度(R-squared)的拟合度统计的是的回归平方和在总平方和中的占据比例。可以通过以下计算步骤得到R平方的公式:
Figure BDA0003468805990000155
故R平方:
Figure BDA0003468805990000156
其中,
Figure BDA0003468805990000157
表示观测值的平均值,
Figure BDA0003468805990000158
为实际值,yi为预测值。R平方越接近1,则可以认为总平方和中回归平方和的占据比重越大。
模型评估结果分析:
本实施例中,通过对建立的随机森林回归模型的计算,选择回归模型的拟合度(R-squared)、平均绝对误差(MAE)、均方差(MSE)这类指标对预测模型进行评估。得到以上三个指标的结果如表5所示。
表5预测模型评估表
Figure BDA0003468805990000161
所述均方差(MSE),其值越小说明回归模型的效果越差;
所述平均绝对误差(MAE),用于评估预测结果和真实数据集的接近程度,其值越小说明拟合效果越好;
所述拟合度(R_squared),其是表示拟合数据与原始数据对应样本点的误差的平方和的均值,其值越小说明拟合效果越好;由表知,相比于多元线性回归,随机森林在MSE、MAE、R_squared上的表现,因此,随机森林的拟合效果要更好一些。
本实施例使用交叉验证,选择均方误差作为评估标准,在回归预测模型中,若MSE越小,则训练的模型越好。R平方可以为正为负(如果模型的残差平方和远远大于模型的总平方和,模型非常糟糕,R平方就会为负),而均方误差永远为正。它可以描述多元回归方程拟合水平的高低,反映了只由回归关系引起的,因变量y发生变差时的解释程度。
由表5可知,相对于Lasso,随机森林在MSE、MAE、R_squared这三个回归模型的指标上都有好的表现,所以也就意味着随机森林拥有更小的泛化误差,通过结果,本实施例可以猜测数据并非呈严格的线性分布,而是呈现一种随机的非线性的分布。为了更直观的展示模型与测试效果,采用图5柱状图的形式展示。
因此,从直方图5可知,随机森林预测模型的拟合效果最优,效果最差的是多元线性回归。根据样本数量,采用10轮交叉验证方法对预测模型进行验证。从验证结果可以得到,各预测模型均表现出较好的泛化性,且预测稳定性较高。得到测试集合中多个数据采用交叉验证对上述各预测模型进行验证。那么在图像上就反映出回归线与各观测点越靠近的特点,这说明y值的总变差中可以用x的变化来解释的比例值就越多,故回归的拟合效果就越好。
这三个指标具有结果一致性,不会出现某个模型比另一个模型的MSE大但MAE小的情况。性能越好的模型,均方误差和平均绝对误差越小,同时R平方的值越靠近1。
本实施例中,回归预测拟合结果如图6所示,横坐标表示化合物序号,纵坐标表示pIC50值,圆点曲线表示预测值而倒三角曲线表示真实值。
从该图可以看出,采用随机森林这种线性回归的方式能够达到较好的拟合度,预测值的趋势和真实数据是相同的,同时在训练过程中通过10轮交叉验证的方式保证模型的完整性和准确性。
在本实施例中,影响随机森林算法的主要参数为n_estimators:决策树的数量。理论来说决策树的数量越多,模型会具有更好的性能,但随着决策树数量的增多,模型性能提升的边际效用也逐渐趋于0,反而会带来运算资源过拟合。
图7展示了随着参数n_estimators的变化MSE函数值的变化。参数调整过程如下:
第一步,对于调参数据,将数据随机分成两份,一份作为训练数据,在某个即定的n_estimators参数取值下,计算出一个损失函数,同样的测试数据使用该训练好的模型计算出一个损失函数值,然后将两数据调换,重复上述过程。在该n_estimators参数取值下的训练数据损失函数值和测试数据损失函数值即为两次计算的均值。
第二步,对于每个n_estimators取值,重复第一步的过程,从而得到每个n_estimators取值下的训练数据损失函数值和测试数据损失函数值。图7的横坐标是n_estimators的数量,纵坐标是损失函数的值,本实施例损失函数为均方误差(mean_squared_error),随着决策树数量增多,训练数据集的损失函数变化,随着决策树数量增多,模型的预测值与真实值之间的差距。
本实施例设定n_estimators的取值范围从3到14,整体上,随着决策树数量的增多,误差呈上升趋势,当决策树的数目为4、7和8时,模型的泛化误差最小,从8以后,模型的泛化误差增大,本实施例预测,14以后的点可能泛化误差更大,故没有必要一直验证下去,最终选择n_estimators的参数取值为8。
在本实施例中,数据集为官网所给数据,其中附件ERα_activity中含有1974条样本数据,利用所给附件数据集使用化合物结构监督下的随机森林模型完成靶标生物活性预测任务,本实施例旨在药物化合物最大限度抑制靶标ERα生物活性表达。
本实施例的该方法通过收集一系列作用于该靶标的化合物及其生物活性数据,然后以一系列分子结构描述符作为自变量,靶标蛋白的生物活性值作为因变量,构造定量结构性质/活性关系(QSAR)。所述QSAR是指现在普遍应用的通过计算方法预测物质性质的一种理论研究方法,该方法在药物设计、材料化学、环境毒理学等领域都有广泛的应用。QSAR方法是在经过理论计算之后,用统计方法对物质的描述符与其理化性质之间的相关性建模,进而揭示物质某种特征对性质的影响。
关于药物化合物中抗癌分子对乳腺癌靶标ERα生物活性的定量预测模型,在QSAR方法的基础之上建立有效的模型,对乳腺癌相关的靶标蛋白ERα生物活性值、药物化合物结构信息及其相应分子描述符数据信息进行挖掘分析,研究其分子机制,使用该模型预测具有更好生物活性的新化合物分子,或者指导已有活性化合物的结构优化,加快乳腺癌候选药物的研发过程,为乳腺癌临床治疗研究提供理论参考。
实施例二
如图8所示,本实施例提供了一种抑制靶标蛋白生物活性的药物化合物分子预测***,其具体包括如下模块:
候选药物信息获取模块,其用于获取抗癌候选药物的分子描述符;
关键分子描述符筛选模块,其用于按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;
关键分子向量表示模块,其用于将关键分子描述符进行编码,并转换为相应向量表示;
最大拮抗分子确定模块,其用于基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
具体地,在所述最大拮抗分子确定模块中,根据预先构建的关键分子描述符特征和靶标生物活性之间的关系模型,构建出基于药物化合物结构监督下的随机森林模型,进而结合关键分子描述符向量表示,预测最大拮抗靶标生物活性的候选药物抗癌分子。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
实施例四
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
本发明是参照本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,包括:
获取抗癌候选药物的分子描述符;
按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;
将关键分子描述符进行编码,并转换为相应向量表示;
基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
2.如权利要求1所述的抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,根据预先构建的关键分子描述符特征和靶标生物活性之间的关系模型,构建出基于药物化合物结构监督下的随机森林模型,进而结合关键分子描述符向量表示,预测最大拮抗靶标生物活性的候选药物抗癌分子。
3.如权利要求2所述的抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,所述基于药物化合物结构监督下的随机森林模型中内部包含多个决策树,其中,将多个决策树的预测结果取平均得到最终的结果。
4.如权利要求2所述的抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,在所述基于药物化合物结构监督下的随机森林模型中,采用二叉树来表示一类变量。
5.如权利要求1所述的抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,抗癌候选药物的分子描述符对靶标生物活性相关性采用皮尔逊相关系数表征。
6.如权利要求5所述的抑制靶标蛋白生物活性的药物化合物分子预测方法,其特征在于,筛选出设定数量的关键分子描述符的过程为:
采用皮尔逊相关系数计算相关性矩阵,对每项分子描述符进行线性相关分析,得到相关性矩阵;
选择分子描述符,根据相关性矩阵的变量相关性大小,得到相关性较高的设定数量的分子描述符。
7.一种抑制靶标蛋白生物活性的药物化合物分子预测***,其特征在于,包括:
候选药物信息获取模块,其用于获取抗癌候选药物的分子描述符;
关键分子描述符筛选模块,其用于按照对靶标生物活性相关性,从抗癌候选药物的分子描述符中筛选出设定数量的关键分子描述符;
关键分子向量表示模块,其用于将关键分子描述符进行编码,并转换为相应向量表示;
最大拮抗分子确定模块,其用于基于预先构建的关键分子描述符特征和靶标生物活性之间的关系模型以及关键分子描述符向量表示,得到最大拮抗靶标生物活性的候选药物抗癌分子。
8.如权利要求7所述的抑制靶标蛋白生物活性的药物化合物分子预测***,其特征在于,在所述最大拮抗分子确定模块中,根据预先构建的关键分子描述符特征和靶标生物活性之间的关系模型,构建出基于药物化合物结构监督下的随机森林模型,进而结合关键分子描述符向量表示,预测最大拮抗靶标生物活性的候选药物抗癌分子。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的抑制靶标蛋白生物活性的药物化合物分子预测方法中的步骤。
CN202210036900.6A 2022-01-13 2022-01-13 抑制靶标蛋白生物活性的药物化合物分子预测方法及*** Pending CN114550842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210036900.6A CN114550842A (zh) 2022-01-13 2022-01-13 抑制靶标蛋白生物活性的药物化合物分子预测方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210036900.6A CN114550842A (zh) 2022-01-13 2022-01-13 抑制靶标蛋白生物活性的药物化合物分子预测方法及***

Publications (1)

Publication Number Publication Date
CN114550842A true CN114550842A (zh) 2022-05-27

Family

ID=81671643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210036900.6A Pending CN114550842A (zh) 2022-01-13 2022-01-13 抑制靶标蛋白生物活性的药物化合物分子预测方法及***

Country Status (1)

Country Link
CN (1) CN114550842A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999579A (zh) * 2022-06-27 2022-09-02 北京理工大学 一种筛选化合物分子描述符并确定其取值范围的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200030769A (ko) * 2018-09-13 2020-03-23 한국과학기술원 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법
US20200342960A1 (en) * 2017-07-06 2020-10-29 Pukyong National University Industry-University Cooperation Foundation Method for screening of target-based drugs through numerical inversion of quantitative structure-(drug)performance relationships and molecular dynamics simulation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200342960A1 (en) * 2017-07-06 2020-10-29 Pukyong National University Industry-University Cooperation Foundation Method for screening of target-based drugs through numerical inversion of quantitative structure-(drug)performance relationships and molecular dynamics simulation
KR20200030769A (ko) * 2018-09-13 2020-03-23 한국과학기술원 랜덤 포레스트 모델을 활용한 약물의 다중 표적 예측 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114999579A (zh) * 2022-06-27 2022-09-02 北京理工大学 一种筛选化合物分子描述符并确定其取值范围的方法

Similar Documents

Publication Publication Date Title
CN112506990B (zh) 一种基于时空信息的水文数据异常检测方法
CN106815643A (zh) 基于随机森林迁移学习的红外光谱模型传递方法
CN109389145A (zh) 基于计量大数据聚类模型的电能表生产厂商评价方法
De Cáceres et al. Assessing species diagnostic value in large data sets: A comparison between phi‐coefficient and Ochiai index
CN107016416B (zh) 基于邻域粗糙集和pca融合的数据分类预测方法
CN109829494A (zh) 一种基于加权相似性度量的聚类集成方法
Chao et al. Estimation of species richness and shared species richness
Cui et al. A hybrid MCDM model with Monte Carlo simulation to improve decision-making stability and reliability
CN114550842A (zh) 抑制靶标蛋白生物活性的药物化合物分子预测方法及***
US9400868B2 (en) Method computer program and system to analyze mass spectra
CN109448842B (zh) 人体肠道微生态失衡的确定方法、装置及电子设备
CN117078114B (zh) 引水工程影响下受水湖泊水质评价方法和***
CN113887866A (zh) 一种人居环境评价指数的生成方法以及装置
CN116482597A (zh) 电能表运行数据变量筛选方法、电子设备及存储介质
Nikolikj et al. Sensitivity Analysis of RF+ clust for Leave-one-problem-out Performance Prediction
CN101173918A (zh) 物质的生物学、生物化学、生物物理或药理学特性的预测方法
CN114219157A (zh) 一种基于最优决策和动态分析的烷烃气体红外光谱测量方法
CN113888047A (zh) 考虑区域投资能力的技改项目投资规模预测方法及***
CN113255810A (zh) 基于关键决策逻辑设计测试覆盖率的网络模型测试方法
CN114819274B (zh) 一种水库多目标优化调度技术评估方法及***
Zhang Essays on Empirical likelihood for Heaviness Estimation, Outlier Detection and Clustering
Luo Hypothesis testing of Poisson rates in COVID-19 offspring distributions
Chen Economic investment risk prediction model and algorithm based on data mining method
Moya Fernández et al. Rescaled bootstrap confidence intervals for the population variance in the presence of outliers or spikes in the distribution of a variable of interest
CN115659218A (zh) 一种基于最大信息系数的脑自调节机制指标相干性获取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination