CN114496304A - 抗癌候选药物的admet性质预测方法及*** - Google Patents
抗癌候选药物的admet性质预测方法及*** Download PDFInfo
- Publication number
- CN114496304A CN114496304A CN202210038492.8A CN202210038492A CN114496304A CN 114496304 A CN114496304 A CN 114496304A CN 202210038492 A CN202210038492 A CN 202210038492A CN 114496304 A CN114496304 A CN 114496304A
- Authority
- CN
- China
- Prior art keywords
- admet
- compound
- properties
- anticancer
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035495 ADMET Effects 0.000 title claims abstract description 99
- 238000010535 acyclic diene metathesis reaction Methods 0.000 title claims abstract description 99
- 239000003814 drug Substances 0.000 title claims abstract description 49
- 229940079593 drug Drugs 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001093 anti-cancer Effects 0.000 title claims abstract description 32
- 150000001875 compounds Chemical class 0.000 claims abstract description 120
- 238000012216 screening Methods 0.000 claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 229940125648 antineoplastic drug candidate Drugs 0.000 claims description 36
- 238000012706 support-vector machine Methods 0.000 claims description 26
- 238000007637 random forest analysis Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000010354 integration Effects 0.000 claims description 7
- 230000035699 permeability Effects 0.000 claims description 7
- 231100000457 cardiotoxic Toxicity 0.000 claims description 5
- 230000001451 cardiotoxic effect Effects 0.000 claims description 5
- 231100000024 genotoxic Toxicity 0.000 claims description 5
- 230000001738 genotoxic effect Effects 0.000 claims description 5
- 210000002490 intestinal epithelial cell Anatomy 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 16
- 102000004328 Cytochrome P-450 CYP3A Human genes 0.000 description 11
- 108010081668 Cytochrome P-450 CYP3A Proteins 0.000 description 11
- 206010028980 Neoplasm Diseases 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 10
- 230000004071 biological effect Effects 0.000 description 9
- 201000011510 cancer Diseases 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000011159 matrix material Substances 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 239000002246 antineoplastic agent Substances 0.000 description 5
- 229940041181 antineoplastic drug Drugs 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 201000010099 disease Diseases 0.000 description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 210000002919 epithelial cell Anatomy 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- -1 hERG Proteins 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 210000000813 small intestine Anatomy 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000007674 genetic toxicity Effects 0.000 description 3
- 231100000025 genetic toxicology Toxicity 0.000 description 3
- 230000005764 inhibitory process Effects 0.000 description 3
- 238000012800 visualization Methods 0.000 description 3
- 206010006187 Breast cancer Diseases 0.000 description 2
- 208000026310 Breast neoplasm Diseases 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000029142 excretion Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000002401 inhibitory effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000004060 metabolic process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 231100000419 toxicity Toxicity 0.000 description 2
- 230000001988 toxicity Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000035502 ADME Effects 0.000 description 1
- 206010048610 Cardiotoxicity Diseases 0.000 description 1
- 101001047090 Homo sapiens Potassium voltage-gated channel subfamily H member 2 Proteins 0.000 description 1
- 102100022807 Potassium voltage-gated channel subfamily H member 2 Human genes 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 231100000259 cardiotoxicity Toxicity 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 229940126585 therapeutic drug Drugs 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/30—Prediction of properties of chemical compounds, compositions or mixtures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Landscapes
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Crystallography & Structural Chemistry (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Theoretical Computer Science (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Toxicology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明属于抗癌候选药物抗癌分子ADMET性质数据处理技术领域,提供了一种抗癌候选药物的ADMET性质预测方法及***。其中,该方法包括获取抗癌候选药物化合物分子描述符信息;对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
Description
技术领域
本发明属于抗癌候选药物抗癌分子ADMET性质数据处理技术领域,尤其涉及一种抗癌候选药物的ADMET性质预测方法及***。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
在抗癌药物研发中,通过建立有效的抑制癌靶标蛋白生物活性表达模型来筛选潜在药物化合物,预测具有更好抑制靶标生物活性的新化合物分子。同时,除了关注候选药物抗癌分子抑制靶标的生物活性外,在进一步药物研发过程中更需要考虑到组成抗癌药物的化合物ADMET性质对人体健康的影响。所述ADMET性质,主要是指人体内需具备良好的药代动力学性质和安全性。其中,A代表吸收(Absorption)、D代表分布(Distribution)、M代表代谢(Metabolism)、E代表***(Excretion)、T代表毒性(Toxicity)。ADME主要指化合物的药代动力学性质,描述了化合物在生物体内的浓度随时间变化的规律,T主要指化合物可能在人体内产生的毒副作用。
因此,一个成功的治疗药物不仅仅需要依靠其化合物抗癌分子拮抗癌症靶标蛋白生物活性的表达,还需要满足药物的药代动力学性质以及生物毒性等性质,如药物化合物在小肠上皮细胞的渗透性、化合物被代谢的程度、化合物的口服生物利用度、以及化合物是否具有心脏毒性、遗传毒性等。但是由于化合物及其分子描述符的数据维度高、数据量有限和化合物结构的相似等难点,导致建立精准的抗癌候选药物ADMET性质预测模型具有很大的挑战。
发明人发现,在抗癌候选药物性质预测方面,由于传统的抗癌候选药物特征表示具有高维性和稀疏性,特征表达能力较弱,且传统的算法在特征工程中需要耗费大量的人力物力,才能找到一个行之有效的方法预测药物化合物的ADMET性质,因此,药物化合物性质预测是一个复杂而漫长的过程。并且,针对抗癌药物而言,由于其领域性强、数据量大且内容庞杂等特点,采用现有的特征提取方法,精度不高。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种抗癌候选药物的ADMET性质预测方法及***,其对物质的描述符与其理化性质之间的相关性建模,进而揭示物质化合物分子某种特征对性质的影响,进而提高抗癌候选药物的ADMET性质预测结果准确性。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种抗癌候选药物的ADMET性质预测方法,其包括:
获取抗癌候选药物化合物分子描述符信息;
对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;
对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
本发明的第二个方面提供一种抗癌候选药物的ADMET性质预测***,其包括:
数据获取模块,其用于获取抗癌候选药物化合物分子描述符信息;
变量筛选模块,其用于对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;
性质预测模块,其用于对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
本发明的第三个方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抗癌候选药物的ADMET性质预测方法中的步骤。
本发明的第四个方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抗癌候选药物的ADMET性质预测方法中的步骤。
与现有技术相比,本发明的有益效果是:
本发明提供了一种抗癌候选药物的ADMET性质预测方法及***,其通过对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征,进而对筛选出的关键特征进行ADMET性质分类预测,对ADMET性质进行高效可靠的降维处理,结合特征和敏感性参数分析,嵌入到机器学习模型中,进而提高预测模型的准确度,提高了抗癌候选药物的ADMET性质预测结果的准确性;
本发明针对抑制癌候选药物化合物的ADMET性质的分类预测,在传统机器学习的方法的基础之上建立有效的模型,对抗癌候选药物相关化合物及分子描述符信息以及ADMET性质数据进行挖掘分析,研究其分子机制,使用该模型预测抗癌候选药物的ADMET性质,从而研发具有更好药物性质的新化合物分子,或者指导已有活性化合物的结构优化,加快癌候选药物的研发过程,为癌临床治疗研究提供理论参考。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例的抗癌候选药物的ADMET性质预测方法流程图;
图2(a)是本发明实施例中五类药物化合物性质中Caco-2性质与相关系数可视化图;
图2(b)是本发明实施例中五类药物化合物性质中CYP3A4性质与相关系数可视化图;
图3是本发明实施例中支持向量机SVM的ADMET性质预测模型混淆矩阵图;
图4为本发明实施例中随机森林模型中n_estimators评估示意图;
图5为本发明实施例的抗癌候选药物的ADMET性质预测***结构示意图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
成功治疗癌症药物的化合物生物活性是极其重要的,即如果一个组成药物的化合物分子生物活性很弱,则其对应的药物治疗疾病效果会很差,达不到预防或者治疗疾病的目标。但在抗癌药物预测过程中仅仅考虑其抑制靶标生物活性的强弱是远远不够的,还要考虑预测药物分子的化学性质,不同的化合物性质又受到不同关键分子描述符的影响。
参照图1,本实施例提供了一种抗癌候选药物的ADMET性质预测方法,其具体包括如下步骤:
S101:获取抗癌候选药物化合物分子描述符信息。
S102:对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征。
其中,所述ADMET化合物性质包括Caco-2、CYP3A4、hERG、HOB和MN的性质;其中,Caco-2表示化合物小肠上皮细胞的渗透性,‘1’代表该化合物的小肠上皮细胞渗透性好,‘0’代表该化合物的小肠上皮细胞渗透性差。
CYP3A4表示化合物是否能够被CYP3A4代谢,其中‘1’代表该化合物能够被CYP3A4代谢,‘0’代表该化合物不能被CYP3A4代谢。
hERG表示化合物是否具有心脏毒性,‘1’代表该化合物具有心脏毒性,‘0’代表该化合物不具有心脏毒性。
HOB表示化合物的口服生物利用度,其中‘1’代表该化合物的口服生物利用度好,‘0’代表该化合物的口服生物利用度差。
MN表示化合物是否具有遗传毒性,其中‘1’代表该化合物具有遗传毒性,‘0’代表该化合物不具有遗传毒性。
对于化合物ADMET的每个性质,数据变量的选择有可能相同,也有可能不同,且在变量数量的选择上也是如此,根据提供的样本信息,在对化合物的五类ADMET性质进行预测之前,首先进行清洗数据信息筛选关键变量,从而为化合物性质预测提供更精准的服务。
在具体实施过程中,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取。
在医学基因工程的诊断工作、生物学细胞的识别工作等应用中,数据或特征的数量往往比实例类别多几个数量级,大量的特征会增加数据的噪声,从而增加学习算法的误差。因此,使用特征选择技术去除对分类数据无关、有问题的特征,从而降低数据维度。
以随机森林算法为代表的集成算法在对数据进行分类的同时,还可以对各个变量进行重要性评估,而集成学习作为一种有监督的机器学习范式,使用多个模型来解决相同的问题,解决了单个分类器***预测性能有限的问题。
本实施例利用随机森林集成模型拟合化合物样本数据与分子描述符特征筛选后的特征子集,从原始数据集中评估所有特征,保留对数据分类高效可靠的相关特征,生成多样化、高信息量的特征集合是获得良好的集成分类结果的关键,最优特征子集有助于提高分类精度。
随机森林集成模型(RF)拥有可放回抽样和随机进行特征选择的特性,RF由一系列分类器{h(x,θk),k=1,2...n}构成,该分类器中的{θk}属于独立同分布的随机变量,用来控制每一个分类器的增长;变量n代表分类器的数目;自变量x代表输入的数据集样本,综合所有分类器投票最多的分类标签赋值给x。
特征选择算法在选择节点属性时,从全体属性中随机的选择F(F≤N)个属性,比较这F个属性上***规则最优的属性对节点进行***。F的值即为随机特征变量。本实施例的随机变量选择采用封装式选择算法得到比较简化的集合,RF的每一个分类器,在处理特征数据集的时候,会通过Bootstrap方法随机可放回地选择到X个样本训练集,那么剩余未被选择到的则是袋外数据(Out-Of-Bag,OOB)。
具体地,基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出ADMET化合物性质的关键特征。
其中,筛选出决定ADMET化合物性质的关键特征的过程为:
基于设定特征重要性公式来计算每个特征的重要性,并按降序排序;
依据特征重要性剔除预设剔除比例的特征,得到一个新的特征集;
对新的特征集重复上述重要性排序及特征剔除过程,直到剩下预设数量的特征;
根据得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集,以作为决定ADMET化合物性质的关键特征。
设定特征重要性公式为:
随机森林模型在拟合数据后,会对数据属性列,拟合后认为的所给训练属性列的重要程度,变量重要性度量数组中,数值越大的属性列对于预测的准确性更加重要。
需要说明的是,本领域技术人员也可采用其他现有的神经网络模型来对抗癌候选药物化合物分子描述符信息进行多特征提取,此处不再详述。
在训练随机森林集成模型的过程中,获取已有标签的样本数据,其中,一个有效的治疗癌症的药物化合物,既要在一定程度内抑制癌症靶标生物活性的表达还要有较好的ADMET性质。
本实施例要求根据提供的样本数据信息,其中包含1974个化合物样本,每个样本都有729个分子描述符变量,五类ADMET性质数据。本实施例的癌症以乳腺癌为例:图4给出了本实施例中随机森林模型中n_estimators(n估计量)评估。
结合数据样本包含特征量大而样本量少的这一特点,需要使用特征选择技术进行提纯的数据处理。与此同时,数据提供的化合物的729个分子特征对五类ADMET性质是不同的,因此,利用集成学习随机森林的特征选择对分子描述符特征进行自动分析,从原始数据集中评估所有特征,分别保留对ADMET五个性质高效可靠的降低维度的相关特征。
S103:对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
在本实施例中,采用性质预测模型对筛选出的关键特征进行ADMET性质分类预测;其中,所述性质预测模型为支持向量机。
需要说明的是,本领域技术人员也可采用其他现有的神经网络模型来对筛选出的关键特征进行ADMET性质分类预测,此处不再详述。
本实施例中,已知不同的药物分子描述符具有不同的特性,而化合物是由大量不同的分子组成。因此,根据已知的1974个化合物的ADMET性质,从分子描述符的角度出发,构建性质预测模型,训练相应参数,从而分别预测化合物的ADMET性质。
首先,对于药物化合物ADMET五个不同的特性,关键特征不同,即关键变量不同,则模型的输入变量不同。所以,本实施例首先构建随机森林模型,根据ADMET不同性质进行关键特征提取,并得到不同分子描述符的相关系数值,如下表1和表2所示,可视化效果如图2(a)和图2(b)所示,且相关系数值越大,则表明二者之间存在更加明显的正相关。
针对于化合物ADMET数据中所描述的五类Caco-2、CYP3A4、hERG、HOB、MN性质可知,Caco-2、CYP3A4、HOB分别代表该化合物的小肠上皮细胞渗透性能力,代谢能力,口服生物利用度,这三项指标均为1时,代表该化合物性能较好;hERG、MN分别代表该化合物是否具有心脏毒性和是否具有遗传毒性,这两项指标均为0时,代表该化合物性能较好。
分子描述符分别对Caco-2、CYP3A4、HOB的性质呈正相关,对hERG、MN的性质呈负相关,且对模型的训练参数进行优化。
表1Caco-2,CYP3A4,HOB三个性质相关分子描述符
表2MN,hREG两个性质相关分子描述符
对于表1和表2分析可知,对于遗传毒性(MN),相关系数较高的分子描述符从高到底分别为ETA_BetaP_s,ETA_EtaP_F,ETA_EtaP_F_L,ETA_EtaP_L,ETA_Epsilon_1,ETA_BetaP,ETA_dEpsilon_A等,观察分子描述符的结构可知,该类分子描述符均有共同的化合基ETA,因此,可以预测,化合基ETA具有遗传毒性的可能性。
本实施例采用随机森林集成模型特征选择得到与ADMET五个性质不同的相关关键特征,然后针对化合物的Caco-2、CYP3A4、hERG、HOB、MN分别建立预测模型。
本实施例将机器学习支持向量机(SVM)算法应用到药物化合物--ADMET性质分类预测中,分别针对药物化合物的不同性质,提取出各个影响因素的关键变量,构造支持向量机(SVM)的分类器预测模型,克服现有技术存在的主要问题,为药物化合物性质预测提供新思路。
支持向量机(SVM),其基本思想是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。其算法已在图像识别、文本分类等领域得到广泛应用,该算法在药物分子领域内亦得到广泛应用。
采用支持向量机在解决分类问题时,基本的思想是基于训练集D找到一个划分的超平面,从而将不同类别样本分开,二分类支持向量机的训练集为:
D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{-1,,1}
其中xi代表第i个输入的向量,yi代表第i个输出的值,m代表样本的个数。构建模型的目的是提供一个回归的函数y=f(x),通过一组新输入的xi来预测yi。一个支持向量回归用下面的公式来表示:
存在如下划分超平面:
ωTx+b=0
其中,ω=(w1;w2;...;wd)为法向量,d为维度,b为偏置量。此时分类的最大间隔为:
s.t.yi(ωTxi+b)≥1,i=1,2,...,m.
其中,ω和b为需要求解的超平面参数,ω代表系数向量,b代表位移量,xi代表第i个输入的向量,m代表样本的个数。
在实际的应用中,会存在大量线性不可分问题,原始样本空间中并不存在一个合理的超平面,以保证样本的正确划分,然后通过选取适当的核函数K(x,x′)和适当的参数C,搭建并求解最优化问题,
0≤αi≤C,i=1,2,...,m.
式中,α为核超参数,定义了学习样本间相似性的特征长度尺度,即权重空间视角下特征空间映射前后样本间距离的比例,xi代表第i个输入的向量,yi代表第i个输出的值,m代表样本的个数。
构造决策函数:
基于测试数据,采用训练得到药物化合物ADMET性质模型进行预测及评价;
通常采用准确率Accuracy作为分类效果的衡量标准,但正确率并不适用对所有分类情况的评价,不平衡分类中此问题表现明显。以医疗检测为例,医院检测样本中极大一部分人无病,只有少部分人有病,若使用正确率作为检测结果的依据,可能发现检测结果的正确率高达99%以上,但这99%的正确率显示的是病人无病,其中有病的人可能也被检测成无病,这样的检测结果对病人造成不可估量的损失。
本实施例中对药物化合物ADMET特性分类预测一样属于不平衡分类问题,故不采用正确率做分类的评价指标。本实施例利用混淆矩阵、Precision(精确度)、Recall(召回率),F1_scores等指标对化合物的ADMET性质进行评价。
所述准确率ACC指对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。
其中,TP:true positives,正类判定为正类;FP,false positives,负类判定为正类,"存伪";FN,false negatives,正类判定为负类,"去真";TN,true negatives,负类判定为负类。
所述精确度Precision是指以预测结果为基础,指预测正确的化合物特性的样本占所有预测总样本数量的比例。
所述召回率Recall指预测正确的化合物的数据占实际化合物相应性质的样本数量的比例。
所述F1_scores(平衡F分数)指精确率和召回率的调和平均数。
利用本实施例中提供的729个分子描述符和对应1974个化合物的ADMET数据,在得到候选特征后,通过支持向量机SVM计算化合物的Caco-2、CYP3A4、hERG、HOB、MN的分类准确率,给出测试表中的50个化合物进行相应的预测。
利用SVM训练1700个样本数据,验证集为274个化合物数据,依次将ADMET五个性质对应的相关分子特征作为二分类支持向量机的输入训练样本,通过10轮交叉验证提取训练和测试样本点,得到表3的实验结果。
本实施例中,对于五个性质分别采用Accuracy,Precision,Recall和F1_scores这四个评价指标进行评估。
表3分类实验结果
Accuracy | Precision | Recall | F1-score | |
Caco-2 | 94.16% | 98.53% | 93.22% | 96.50% |
CYP3A4 | 92.34% | 78.35% | 86.36% | 84.30% |
hREG | 88.33% | 82.46% | 74.42% | 78.48% |
HOB | 90.88% | 95.34% | 94.14% | 94.73% |
MN | 89.94% | 95.21% | 71.79% | 92.33% |
本实施例中,由表3可知,对于“Caco-2”度量化合物被人体吸收的能力的小肠上皮细胞渗透性在Accuracy这个指标上取得94.16%,在Precision这个指标上取得98.53%,在Recall这个指标上取得93.22%,用于平衡的F1_scores这一指标也取得了96.50%准确率。对于其他四个性质,本实施例采用的分类模型也实现了88%以上的准确率,虽然支持向量机算法相对简单,但是针对特征数量集多和样本数较少的情况可有效解决分类。
本实施例中,除了给出定量的评估指标的分析,进一步给出样本分类正确和错误的详尽情况,因此,利用python等工具绘制混淆矩阵如表4-表8所示,其中positive指预测正确的样本数,negative指预测错误的样本数,由于本实施例对化合物分子描述符的ADMET数据属性进行分类预测,模型的目标旨在尽可能提高预测化合物ADMET属性的准确度。
表4支持向量机的Caco-2性质预测混淆矩阵
表5支持向量机的CYP3A4性质预测混淆矩阵
表6支持向量机的hERG性质预测混淆矩阵
表7支持向量机的HOB性质预测混淆矩阵
表8支持向量机的MN性质预测混淆矩阵
本实施例中,支持向量机SVM核函数是用来解决数据线性不可分而提出的,把数据从源空间映射到目标空间(线性可分空间)。将线性核函数和高斯核函数作为参数分析的两个指标,在表9中给出五个性质分别使用两种核函数的准确率。为了直观的看出两者准确率的区别,依据表9绘制二者比较的柱形图3。
表9支持向量机SVM核函数参数分析
线性核函数 | 高斯核函数 | |
Caco-2 | 94.16% | 86.50% |
CYP3A4 | 92.34% | 86.50% |
hREG | 85.40% | 78.10% |
HOB | 90.88% | 89.42% |
MN | 83.94% | 82.48% |
本实施例中,结合表9和图3的实验数据,得到的结论是采用线性核函数对于解决二分类ADMET性质预测问题是更有效的,五个性质的分类预测中线性核函数的准确率平均比高斯核函数高6%-8%,也更加间接的说明实验给出的分子描述符变量、生物活性以及ADMET性质呈现一种复杂的线性关系,为进一步求解提供了理论和实验支持。
此处需要说明的是,本实施例的该抗癌候选药物的ADMET性质预测方法,除了适用于乳腺癌之外,也可适用于其他癌症,此处不再详述。
实施例二
如图5所示,本实施例提供了一种抗癌候选药物的ADMET性质预测***,其具体包括如下模块:
(1)数据获取模块,其用于获取抗癌候选药物化合物分子描述符信息;
(2)变量筛选模块,其用于对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;
具体地,在所述变量筛选模块中,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取。
基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出ADMET化合物性质的关键特征。
(3)性质预测模块,其用于对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
具体地,在所述性质预测模块中,采用性质预测模型对筛选出的关键特征进行ADMET性质分类预测;其中,所述性质预测模型为支持向量机。
此处需要说明的是,本实施例中的各个模块与实施例一中的各个步骤一一对应,其具体实施过程相同,此处不再累述。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述所述的抗癌候选药物的ADMET性质预测方法中的步骤。
实施例四
本实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的抗癌候选药物的ADMET性质预测方法中的步骤。
本发明是参照本发明实施例的方法、设备(***)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种抗癌候选药物的ADMET性质预测方法,其特征在于,包括:
获取抗癌候选药物化合物分子描述符信息;
对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;
对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
2.如权利要求1所述的抗癌候选药物的ADMET性质预测方法,其特征在于,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取。
3.如权利要求1所述的抗癌候选药物的ADMET性质预测方法,其特征在于,基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出ADMET化合物性质的关键特征。
4.如权利要求3所述的抗癌候选药物的ADMET性质预测方法,其特征在于,筛选出决定ADMET化合物性质的关键特征的过程为:
基于设定特征重要性公式来计算每个特征的重要性,并按降序排序;
依据特征重要性剔除预设剔除比例的特征,得到一个新的特征集;
对新的特征集重复上述重要性排序及特征剔除过程,直到剩下预设数量的特征;
根据得到的各个特征集和特征集对应的袋外误差率,选择袋外误差率最低的特征集,以作为决定ADMET化合物性质的关键特征。
5.如权利要求1所述的抗癌候选药物的ADMET性质预测方法,其特征在于,采用性质预测模型对筛选出的关键特征进行ADMET性质分类预测;其中,所述性质预测模型为支持向量机。
6.如权利要求1所述的抗癌候选药物的ADMET性质预测方法,其特征在于,所述ADMET化合物性质包括Caco-2、CYP3A4、hERG、HOB和MN的性质;其中,Caco-2表示化合物小肠上皮细胞的渗透性,CYP3A4表示化合物是否能够被CYP3A4代谢,hERG表示化合物是否具有心脏毒性,HOB表示化合物的口服生物利用度,MN表示化合物是否具有遗传毒性。
7.一种抗癌候选药物的ADMET性质预测***,其特征在于,包括:
数据获取模块,其用于获取抗癌候选药物化合物分子描述符信息;
变量筛选模块,其用于对抗癌候选药物化合物分子描述符信息进行多特征提取,筛选出决定ADMET化合物性质的关键特征;
性质预测模块,其用于对筛选出的关键特征进行ADMET性质分类预测,得到抗癌候选药物的ADMET性质预测结果。
8.如权利要求7所述的抗癌候选药物的ADMET性质预测***,其特征在于,在所述变量筛选模块中,基于随机森林集成模型对抗癌候选药物化合物分子描述符信息进行多特征提取;
或
在所述变量筛选模块中,基于抗癌候选药物化合物各个分子描述符与提取的各个特征的之间的相关性,来确定出ADMET化合物性质的关键特征;
或
在所述性质预测模块中,采用性质预测模型对筛选出的关键特征进行ADMET性质分类预测;其中,所述性质预测模型为支持向量机。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的抗癌候选药物的ADMET性质预测方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一项所述的抗癌候选药物的ADMET性质预测方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038492.8A CN114496304A (zh) | 2022-01-13 | 2022-01-13 | 抗癌候选药物的admet性质预测方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210038492.8A CN114496304A (zh) | 2022-01-13 | 2022-01-13 | 抗癌候选药物的admet性质预测方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114496304A true CN114496304A (zh) | 2022-05-13 |
Family
ID=81511757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210038492.8A Pending CN114496304A (zh) | 2022-01-13 | 2022-01-13 | 抗癌候选药物的admet性质预测方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114496304A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999579A (zh) * | 2022-06-27 | 2022-09-02 | 北京理工大学 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
CN115862890A (zh) * | 2022-08-31 | 2023-03-28 | 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) | 一种抗癌药物筛选方法及*** |
EP4386765A1 (en) * | 2022-12-16 | 2024-06-19 | Basf Se | Apparatus for determining properties of a substance |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329699A (zh) * | 2008-07-31 | 2008-12-24 | 四川大学 | 基于支持向量机的药物分子药代动力学性质和毒性预测方法 |
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
-
2022
- 2022-01-13 CN CN202210038492.8A patent/CN114496304A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329699A (zh) * | 2008-07-31 | 2008-12-24 | 四川大学 | 基于支持向量机的药物分子药代动力学性质和毒性预测方法 |
CN111755078A (zh) * | 2020-07-30 | 2020-10-09 | 腾讯科技(深圳)有限公司 | 药物分子属性确定方法、装置及存储介质 |
CN112069567A (zh) * | 2020-08-07 | 2020-12-11 | 湖北交投十巫高速公路有限公司 | 基于随机森林和智能算法预测混凝土抗压强度的方法 |
Non-Patent Citations (3)
Title |
---|
TAILONG ET AL: "ADMET Evaluation in Drug Discovery. 18. Reliable Prediction of Chemical-Induced Urinary Tract Toxicity by Boosting Machine Learning Approaches", MOL. PHARMACEUTICS, no. 14, 16 October 2017 (2017-10-16), pages 3935 - 3953 * |
李晓等: "化合物ADMET 性质预测平台的构建", 生物信息学, vol. 15, no. 3, 30 September 2017 (2017-09-30), pages 179 - 185 * |
梁礼;邓成龙;张艳敏;滑艺;刘海春;陆涛;陈亚东;: "人工智能在药物发现中的应用与挑战", 药学进展, no. 01, 25 January 2020 (2020-01-25) * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114999579A (zh) * | 2022-06-27 | 2022-09-02 | 北京理工大学 | 一种筛选化合物分子描述符并确定其取值范围的方法 |
CN115862890A (zh) * | 2022-08-31 | 2023-03-28 | 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) | 一种抗癌药物筛选方法及*** |
CN115862890B (zh) * | 2022-08-31 | 2023-08-11 | 山东第一医科大学附属肿瘤医院(山东省肿瘤防治研究院、山东省肿瘤医院) | 一种抗癌药物筛选方法及*** |
EP4386765A1 (en) * | 2022-12-16 | 2024-06-19 | Basf Se | Apparatus for determining properties of a substance |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114496304A (zh) | 抗癌候选药物的admet性质预测方法及*** | |
US20020095260A1 (en) | Methods for efficiently mining broad data sets for biological markers | |
Kingsmore et al. | An introduction to machine learning and analysis of its use in rheumatic diseases | |
US7660709B2 (en) | Bioinformatics research and analysis system and methods associated therewith | |
Agrawal et al. | Combining clustering and classification ensembles: A novel pipeline to identify breast cancer profiles | |
Singh et al. | DIABLO–an integrative, multi-omics, multivariate method for multi-group classification | |
Zare et al. | Scoring relevancy of features based on combinatorial analysis of Lasso with application to lymphoma diagnosis | |
Shukla et al. | Identification of potential biomarkers on microarray data using distributed gene selection approach | |
Liu et al. | Feature selection based on sensitivity analysis of fuzzy ISODATA | |
Benso et al. | A cDNA microarray gene expression data classifier for clinical diagnostics based on graph theory | |
Hsieh et al. | A faster cDNA microarray gene expression data classifier for diagnosing diseases | |
Chen et al. | DeepMF: Deciphering the latent patterns in omics profiles with a deep learning method | |
Abbas et al. | A comparative study of cell classifiers for image-based high-throughput screening | |
Frasca | Gene2disco: Gene to disease using disease commonalities | |
De Paz et al. | MicroCBR: A case-based reasoning architecture for the classification of microarray data | |
Khalilabad et al. | Fully automatic classification of breast cancer microarray images | |
Arowolo et al. | An ICA-ensemble learning approaches for prediction of RNA-seq malaria vector gene expression data classification | |
Serra et al. | Data integration in genomics and systems biology | |
CN111383717A (zh) | 一种构建生物信息分析参照数据集的方法及*** | |
Sun et al. | An enhanced LRMC method for drug repositioning via gcn-based HIN embedding | |
Ranasinghe | Categorizing high dimensional unlabelled genomic data | |
Kammonah | A Deep Learning Approach for Multi-Omics Data Integration to Diagnose Early-Onset Colorectal Cancer | |
Ali et al. | Evolutionary Hybrid Machine Learning Techniques for DNA Cancer Data Classification. | |
Patel | Prediction of cancer for microarray and DNA methylation data with Non-Negative Matrix Factorization and machine learning methods | |
Naik et al. | Prediction of Genetic Disorders using Machine Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |