CN102930113B - 用于预测化合物活性的两级拟合qsar模型的构建方法 - Google Patents

用于预测化合物活性的两级拟合qsar模型的构建方法 Download PDF

Info

Publication number
CN102930113B
CN102930113B CN201210455239.9A CN201210455239A CN102930113B CN 102930113 B CN102930113 B CN 102930113B CN 201210455239 A CN201210455239 A CN 201210455239A CN 102930113 B CN102930113 B CN 102930113B
Authority
CN
China
Prior art keywords
compound
model
training set
activity
qsar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210455239.9A
Other languages
English (en)
Other versions
CN102930113A (zh
Inventor
刘雅红
贺利民
梁智斌
方炳虎
陈建新
汤有志
陈良柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN201210455239.9A priority Critical patent/CN102930113B/zh
Publication of CN102930113A publication Critical patent/CN102930113A/zh
Application granted granted Critical
Publication of CN102930113B publication Critical patent/CN102930113B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种用于预测化合物活性的两级拟合QSAR模型的构建方法,包括以下步骤:1)取若干个具有相同骨架的化合物作为训练集,将训练集化合物划分取代基,并叠合训练集化合物;2)采用线性回归法计算各取代基产生的局部生理作用,建立前级拟合模型;3)根据步骤2)计算得到的局部生理作用,采用神经网络法计算出化合物的整体生物活性,建立后级拟合模型;4)将前级拟合模型和后级拟合模型结合,构建成前后两级QSAR模型。本发明采用了线性回归法和神经网络法结合的方式建立模型,因神经网络法具有良好的拟合能力,构建的模型能够比传统线性模型更准确地预测化合物的生物活性。

Description

用于预测化合物活性的两级拟合QSAR模型的构建方法
技术领域
本发明涉及一种OSAR模型的构建方法,尤其是一种用于预测化合物活性的两级拟合QSAR模型的构建方法,属于生物医药信息技术领域。
背景技术
定量构效关系(Quantitative Structure-Activity Relationship,简称QSAR)是一种借助数学模型定量预测化合物活性的技术。由于3D QSAR的研究结果具有明确的指导意义,目前已被许多研究广泛采用。但由于3D QSAR的建模过程在商业软件的黑箱中执行,而软件黑箱中的过程又难以人为干预,这无疑增大了其建模优化的难度,至今尚未有一种公开发表、公认方便快捷3D QSAR的建模方法。因此,建立一种方便快捷的3D QSAR建模方法具有重要意义。
目前,在刊物上记载的3D QSAR方法在建模过程中,不仅化合物叠合不整齐,而且运用传统的线性回归方法(如偏最小二乘法等),在拟合模型的过程中仅考虑有机化学理论、不考虑生物受体的复杂性,导致不符合生物化学理论、影响最终的拟合优度和预测能力。
基于最短距离的Topomer叠合技术具有整齐的叠合结果,是一种具有乐观应用前景的化合物叠合方法。如果能考虑生物受体的复杂性,使得基于Topomer叠合方法的QSAR研究结果符合生物化学理论,则可提高QSAR模型的拟合优度和预测能力。
神经网络(Neural Networks)是一种通过模拟哺乳动物大脑的生理功能进行数据拟合的统计建模方法。神经网络模型已经成功地应用于生物大分子的功能预测、有机污染物的毒性预测、高分子聚合材料的性能预测等,在化学药物分子设计中的应用也将日益广泛。由于神经网络逼近任意复杂的映射关系,因此当化合物的作用靶标为比小分子更加复杂的生物受体大分子时,基于神经网络的QSAR模型能比线性模型更准确地预测化合物的生物活性。
基于神经网络的QSAR建模一般需要通过如下三个步骤:1)整理化合物的活性数据作为因变量;2)挑选合适的描述符作为自变量并计算;3)选用合适的神经网络方法构建QSAR模型。
其中,挑选合适的描述符作为自变量是建立具有良好预测能力的神经网络QSAR模型的必要条件。若自变量蕴含的信息增益不足,则所建模型难以具有良好的预测能力,然而增加自变量的数目虽然有可能提高信息增益,但会出现过拟合、不收敛现象而导致模型性能下降、甚至建模失败。因此,寻找一种包含足够信息增益的低维向量作为自变量,对于构建基于神经网络的QSAR模型非常关键。
发明内容
本发明的目的,是为了解决上述现有技术的缺陷,提供一种具有良好拟合优度、准确预测化合物生物活性的用于预测化合物活性的两级拟合QSAR模型的构建方法。
本发明的目的可以通过采取如下技术方案达到:
用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于包括以下步骤:
1)取若干个具有相同骨架的化合物作为训练集,将训练集化合物划分取代基,并叠合训练集化合物;
2)根据训练集化合物的结构与活性,采用线性回归法计算各取代基产生的局部生理作用,建立前级拟合模型;
3)根据训练集化合物的活性与步骤2)计算得到的局部生理作用,采用神经网络法计算出化合物的整体生物活性,建立后级拟合模型;
4)将前级拟合模型和后级拟合模型结合,构建成前后两级QSAR模型。
作为一种优选方案,步骤2)所述训练集化合物的活性为抑制浓度或抑制率。
作为一种优选方案,步骤1)具体如下:
对于已有的化合物,针对特定检验体系进行生物学活性的数据采集,数据指标采用抑制浓度或抑制率的负对数形式[-lg(抑制浓度)或-lg(1/抑制率-1)],以此作为训练集样本;使用Sybyl分析软件检验化合物的二维结构,对通过检验的化合物生成其三维结构;随后,进一步划分化合物的取代基,并进行优化;最后,基于取代基划分,并采用Topomer叠合技术对以上化合物三维结构进行叠合。
作为一种优选方案,步骤2)具体如下:
用探针扫描叠合的训练集化合物周围的分子场,计算MSA、CoMFA或者CoMSIA分子场,对分子场信息进行挑选后,与训练集化合物的实验活性进行线性回归,获得构效关系的前级拟合模型。
作为一种优选方案,步骤3)具体如下:
将步骤2)计算得到的局部生理作用,与训练集化合物的活性进行归一化,得到归一化值,通过神经网络模型去归一化,计算出化合物的整体生物活性,获得后级拟合模型。
作为一种优选方案,所述训练集化合物为具有p38激酶抑制率的吡唑类化合物。
作为一种优选方案,所述训练集化合物的样本量至少有30个。
作为一种优选方案,所述训练集化合物划分的取代基至少有2个,所述划分的取代基中包括有化合物的连接桥。
作为一种优选方案,所述步骤2)采用的线性回归法为偏最小二乘法或主成分分析法。
作为一种优选方案,所述步骤3)采用的神经网络法为BF神经网络法或RBF神经网络法
本发明相对于现有技术具有如下的有益效果:
1、本发明的建模方法是采用了线性回归法和神经网络法结合的方式建立模型,因神经网络法具有良好的拟合能力,构建的模型能够比传统线性模型更准确地预测化合物的生物活性。
2、本发明的建模方法采用线性回归作为前级模型具有两方面有益效果:1)线性模型容易解释,有助于化合物的结构修饰;2)用前级模型的结果作为后级神经网络模型的自变量,可以避免出现不收敛、过拟合的现象;从而防止神经网络建模失败,提高后级模型的预测能力、也就是提高整个前后两级拟合模型的预测能力。
3、本发明的建模方法采用了Topomer叠合技术对训练集化合物进行叠合,有利于建模的效率,同时叠合的结果整齐。
4、本发明的建模方法无需分子对接、无需量子化学计算、神经网络的自变量个数少,这样可以在相同的时间内可以基于大样本的训练集构建得到模型,从而可以进一步提高QSAR模型的预测能力。
5、本发明的建模方法解决了使用传统线性回归作为建模方法的未考虑生物受体复杂性而导致的预测结果不精确的问题,构建的两级拟合QSAR模型对吡唑类化合物的p38激酶抑制活性,相关系数平方大于0.95,呈现出良好的良好的拟合能力和预测性能,作为以p38激酶为作用靶点的吡唑类免疫抑制药、抗炎药、抗真菌药的生物活性预测方法有着广阔的应用前景。
附图说明
图1为本发明两级拟合QSAR模型构建方法的流程示意图。
图2为吡唑类p38激酶抑制剂训练集化合物采用传统单级模型M1的拟合优度散点图。
图3为吡唑类p38激酶抑制剂训练集化合物采用前后两级模型M1-M2的拟合优度散点图。
图4为吡唑类p38激酶抑制剂训练集化合物采用传统单级模型M1的预测性能散点图。
图5为吡唑类p38激酶抑制剂训练集化合物采用前后两级模型M1-M2的预测性能散点图。
具体实施方式
实施例1:
如图1所示,本实施例的线性回归-神经网络前后两级拟合QSAR模型,其构建步骤如下:
1)生物活性的整理
为保证统计效果,取35个具有p38激酶抑制率的吡唑类化合物作为训练集S1,将其抑制率α换算成对数形式:Y1=LgBio=-lg(α-1-1)。Y1=LgBio即为后续建模所用因变量,使用Sybyl分析软件检验化合物的二维结构,对通过检验的化合物生成其三维结构。
2)前级拟合模型的构建
将训练集化合物S1导入Sybyl软件的分子表单S1.tbl,Topomer CoMFA模块中,对训练集S1的化合物划分取代基,取代基划分一方面要保证模型符合理论,另一方面对模型的拟合优度具有一定影响,同时对模型的预测能力也非常相关,而当连接桥只有少数几种结构时,将其作为一个取代基,有利于探讨连接桥对生物活性的影响,所以将训练集化合物S1划分为连接桥和侧链两个取代基,并采用Topomer方法叠合这35个化合物;用探针扫描叠合的训练集化合物周围的分子场,计算MSA、CoMFA或者CoMSIA分子场,对分子场信息进行挑选后,然后将Y1=LgBio指定为因变量建立线性模型(命名为M1),所建模型即为前级拟合模型。建模过程中由Sybyl软件计算出化合物取代基所产生的局部生理作用P1;因化合物有两个取代基,故P1为二维向量,在分子表单中表示为Act_R1和Act_R2
3)后级拟合模型的构建
在SPSS Clementine软件中,将上述由Sybyl软件计算得到的局部生理作用P1作自变量,Y1=LgBio作因变量,与训练集化合物的活性进行归一化,得到归一化值,通过神经网络模型去归一化,计算训练集S1化合物的整体生物活性,建立“彻底修剪”神经网络模型(命名为M2),所建模型即为后级拟合模型,建模过程中将样本设置为100%以提高模型的预测能力,将随机种子设置为0以保证实验的可重复性。
实施例2:
本实施例是对拟合优度进行测定,比较上述实施例1所建的M1-M2两级模型与M1单级模型的拟合优度,具体步骤如下:
1)变量命名
将模型M1对训练集S1化合物的计算活性命名为Y2
将模型M2对训练集S1化合物的计算活性命名为Y3
2)导出电子表格文件
将Sybyl分子表单S1.tbl中的LgBio和Pre_LgBio两列导出为S1_M1.csv文件,再转换为S1_M1.xls文件。上述的LgBio即为Y1,Pre_LgBio即为Y2
采用相同的方法,从SPSS Clementine软件中导出M2对训练集化合物S1的计算活性,保存为S1_M2.xls文件;其中,S1_M2.xls文件包含变量Y1和Y3
3)计算相关系数平方以及绘制散点图
将电子表格S1_M1.xls文件导入Origin软件中,对变量Y1和Y2作线性回归,计算得到相关系数平方R1为0.95。绘制散点图,结果如图1所示。
将电子表格S1_M2.xls文件导入Origin软件中,对变量Y1和Y3作线性回归,计算得到相关系数平方R2为0.96。绘制散点图,结果如图2所示。
由此,可以看到采用前后两级模型M1-M2相比单级模型M1,相关系数平方R2>R1=0.95,从而具有良好的拟合能力。
实施例3:
本实施例是对预测性能进行测定,比较上述实施例1所建的M1-M2两级模型与M1单级模型的预测性能,具体步骤如下:
1)p38激酶抑制活性的整理
取35个非训练集S1元素的吡唑类化合物组建测试集S2,其p38激酶抑制活性记为Y4。将测试集S2的35个吡唑类化合物制作成Sybyl分子表单S2.tbl,将Y4指定为因变量(在S2.tbl分子表单中表示为LgBio)。
2)单级模型M1的预测性能测定
将Sybyl软件的TopomerCoMFA模块中,预测分子表单S2.tbl的p38激酶抑制活性,结果记为Y5(在S2.tbl分子表单中表示为Pre_LgBio)。预测过程中,计算得到化合物两个取代基的局部生理作用P2,在S2.tbl分子表单中表示为Act_R1和Act_R2
在Origin软件中计算得到Y4与Y5的相关系数平方R3为0.95,绘制得到的散点图如图3所示。
3)两级模型M1-M2的预测性能测定
将SPSS Clementine中,以P2为自变量、Y4为因变量,使用后级模型M2预测测试集化合物S2的p38激酶抑制活性,结果记为Y6
在Origin软件中计算得到Y4与Y6的相关系数平方R4为0.96,绘制得到的散点图如图4所示。
由此,可以看到采用前后两级模型M1-M2相比单级模型M1,相关系数平方R4>R3=0.95,从而具有良好的预测性能。
以上所述,仅为本发明优选的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都属于本发明的保护范围。

Claims (8)

1.用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于包括以下步骤:
1)取若干个具有相同骨架的化合物作为训练集,将训练集化合物划分取代基,并叠合训练集化合物;
2)根据训练集化合物的结构与活性,采用线性回归法计算各取代基产生的局部生理作用,建立前级拟合模型,具体为:
用探针扫描叠合的训练集化合物周围的分子场,计算MSA、CoMFA或者CoMSIA分子场,对分子场信息进行挑选后,与训练集化合物的实验活性进行线性回归,获得构效关系的前级拟合模型;
3)根据训练集化合物的活性与步骤2)计算得到的局部生理作用,采用神经网络法计算出化合物的整体生物活性,建立后级拟合模型,具体为:
将步骤2)计算得到的局部生理作用,与训练集化合物的活性进行归一化,得到归一化值,通过神经网络模型去归一化,计算出化合物的整体生物活性,获得后级拟合模型;
4)将前级拟合模型和后级拟合模型结合,构建成前后两级QSAR模型。
2.根据权利要求1所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:步骤2)所述训练集化合物的活性为抑制浓度或抑制率。
3.根据权利要求2所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:步骤1)具体如下:
对于已有的化合物,针对特定检验体系进行生物学活性的数据采集,数据指标采用抑制浓度或抑制率的负对数形式,以此作为训练集样本;使用Sybyl分析软件检验化合物的二维结构,对通过检验的化合物生成其三维结构;随后,进一步划分化合物的取代基,并进行优化;最后,基于取代基划分,并采用Topomer叠合技术对以上化合物三维结构进行叠合。
4.根据权利要求1-3任一项所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:所述训练集化合物为具有p38激酶抑制率的吡唑类化合物。
5.根据权利要求1-3任一项所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:所述训练集化合物的样本量至少有30个。
6.根据权利要求1-3任一项所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:所述训练集化合物划分的取代基至少有2个,所述划分的取代基中包括有化合物的连接桥。
7.根据权利要求1-3任一项所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:所述步骤2)采用的线性回归法为偏最小二乘法或主成分分析法。
8.根据权利要求1-3任一项所述的用于预测化合物活性的两级拟合QSAR模型的构建方法,其特征在于:所述步骤3)采用的神经网络法为BF神经网络法或RBF神经网络法。
CN201210455239.9A 2012-11-14 2012-11-14 用于预测化合物活性的两级拟合qsar模型的构建方法 Expired - Fee Related CN102930113B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210455239.9A CN102930113B (zh) 2012-11-14 2012-11-14 用于预测化合物活性的两级拟合qsar模型的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210455239.9A CN102930113B (zh) 2012-11-14 2012-11-14 用于预测化合物活性的两级拟合qsar模型的构建方法

Publications (2)

Publication Number Publication Date
CN102930113A CN102930113A (zh) 2013-02-13
CN102930113B true CN102930113B (zh) 2015-06-17

Family

ID=47644910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210455239.9A Expired - Fee Related CN102930113B (zh) 2012-11-14 2012-11-14 用于预测化合物活性的两级拟合qsar模型的构建方法

Country Status (1)

Country Link
CN (1) CN102930113B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103646180A (zh) * 2013-12-19 2014-03-19 山东大学 一种通过量子化学方法构建定量构效关系模型来预测有机化合物急性毒性的方法
CN104636619B (zh) * 2015-02-10 2017-11-14 青岛农业大学 一种快速虚拟筛选人体小肠易吸收药物的方法
CN104834831B (zh) * 2015-04-08 2017-06-16 北京工业大学 一种基于三维定量构效关系模型的一致性模型构建方法
CN104866710B (zh) * 2015-05-08 2017-11-10 西北师范大学 预测细胞色素p450 1a2抑制剂抑制浓度的方法
CN105787297A (zh) * 2016-03-12 2016-07-20 云南圣清环境监测科技有限公司 一种微生物修复***活性评价的方法
CN108416184B (zh) * 2017-02-09 2020-06-16 清华大学深圳研究生院 化合物的3d展示方法和***
JP7201981B2 (ja) * 2017-06-30 2023-01-11 学校法人 明治薬科大学 予測装置、予測方法および予測プログラム
CN109360610B (zh) * 2018-11-26 2019-11-15 西南石油大学 一种基于模糊神经网络的化学分子生物毒性预测模型的方法
US11798655B2 (en) 2019-05-15 2023-10-24 International Business Machines Corporation Feature vector feasibility estimation
CN112151111B (zh) * 2020-08-27 2022-10-11 上海大学 基于多元线性回归快速预测黄嘌呤衍生物抑制活性的qsar方法
CN112102900B (zh) * 2020-10-12 2024-02-23 北京晶泰科技有限公司 一种基于TopoMA定量构效关系模型的药物设计方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079263A2 (en) * 1999-06-18 2000-12-28 Synt:Em S.A. Identifying active molecules using physico-chemical parameters

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000079263A2 (en) * 1999-06-18 2000-12-28 Synt:Em S.A. Identifying active molecules using physico-chemical parameters

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HIV_1逆转录酶抑制剂的定量构效关系及分子设计研究;闫宁;《中国优秀硕士学位论文全文数据库医药卫生科技辑》;20120115;第12-14,65-74页 *
几种QSAR建模方法在化学中的应用与研究进展;周喜斌等;《计算机与应用化学》;20110628;第28卷(第6期);第761-764页 *
基于主成分分析_人工神经网络对氯苯酚毒性QSAR研究;肖方竹;《毒理学杂志》;20121025;第26卷(第5期);第336-340页 *
基于交叉验证的逐步回归结合RBF神经网络在QSAR中的应用;王威等;《南京化工大学学报》;20011030;第23卷(第5期);第25-27,40页 *

Also Published As

Publication number Publication date
CN102930113A (zh) 2013-02-13

Similar Documents

Publication Publication Date Title
CN102930113B (zh) 用于预测化合物活性的两级拟合qsar模型的构建方法
Le Bagousse-Pinguet et al. Phylogenetic, functional, and taxonomic richness have both positive and negative effects on ecosystem multifunctionality
Tabak et al. Directed clustering coefficient as a measure of systemic risk in complex banking networks
Long et al. Socio-economic development and land-use change: Analysis of rural housing land transition in the Transect of the Yangtse River, China
Wang et al. Scenario simulation of the tradeoff between ecological land and farmland in black soil region of Northeast China
JP6784780B2 (ja) 大規模再生可能エネルギーのデータについて確率モデルを構築する方法
He et al. Probability density forecasting of wind power based on multi-core parallel quantile regression neural network
WO2011130297A2 (en) Methods of using generalized order differentiation and integration of input variables to forecast trends
Liu et al. Wind power short-term forecasting based on LSTM neural network with dragonfly algorithm
Liu et al. Application of the Fuzzy Neural Network Algorithm in the Exploration of the Agricultural Products E-Commerce Path.
Chen et al. A two-stage method for model parameter identification based on the maximum power matching and improved flow direction algorithm
Yuan et al. Efficiency estimation and reduction potential of the Chinese construction industry via SE-DEA and artificial neural network
Zhang et al. HOMER-based multi-scenario collaborative planning for grid-connected PV-storage microgrids with electric vehicles
CN103150476B (zh) 一种基于数据站场的***效能评估方法
CN116029614A (zh) 配电网台区电能质量评估方法、装置和计算机设备
Geng et al. A new clustering algorithm using message passing and its applications in analyzing microarray data
CN110728403B (zh) 农村中长期电网负荷预测方法
Uttej et al. Prominent Technique for Rainfall Prediction using CatBoost over Light GBM for improving the Accuracy of Prediction
Lu et al. Application of GA optimized wavelet neural networks for carrying capacity of water resources prediction
Engdaw et al. The impact of urbanization on food (in) security in Amhara Regional State Metropolitan cities: Monitoring income generating capacity limitation as a mediating variable
Xiang et al. HDFS efficiency storage strategy for big data in smart city
Song et al. Reconceptualizing beta diversity: a hypervolume geometric approach
Xu et al. Measurement methods and application research of triple Helix model in collaborative innovation management
Gong et al. Correlation and trade-off analysis of ecosystem service value and human activity intensity: a case study of Changsha, China
Yong et al. Multimedia based risk forecasting model for frequent natural disasters

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20201114