CN115274002A - 一种基于机器学习的化合物持久性筛查方法 - Google Patents

一种基于机器学习的化合物持久性筛查方法 Download PDF

Info

Publication number
CN115274002A
CN115274002A CN202210664747.1A CN202210664747A CN115274002A CN 115274002 A CN115274002 A CN 115274002A CN 202210664747 A CN202210664747 A CN 202210664747A CN 115274002 A CN115274002 A CN 115274002A
Authority
CN
China
Prior art keywords
compound
screening
persistence
machine
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210664747.1A
Other languages
English (en)
Other versions
CN115274002B (zh
Inventor
韩民
金彪
张干
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Institute of Geochemistry of CAS
Original Assignee
Guangzhou Institute of Geochemistry of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Institute of Geochemistry of CAS filed Critical Guangzhou Institute of Geochemistry of CAS
Priority to CN202210664747.1A priority Critical patent/CN115274002B/zh
Publication of CN115274002A publication Critical patent/CN115274002A/zh
Application granted granted Critical
Publication of CN115274002B publication Critical patent/CN115274002B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Medicinal Chemistry (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于机器学习的化合物持久性筛查方法,包括:下载化合物的SMILES,并计算化合物的分子描述符;将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;机器学习筛查模型输出化合物的持久性筛查预测结果。本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测,结合多种机器学习算法和采用尽可能多的分子描述符,以期筛选具有较强持久性的化学污染物。

Description

一种基于机器学习的化合物持久性筛查方法
技术领域
本发明涉及化合物性质筛查技术,具体涉及一种基于机器学习的化合物持久性筛查方法。
背景技术
大量的化学品通过排放赋存在自然环境,其中具有高持久性的化学物质难以降解,可以在环境中长久存在,会对生态环境造成严重影响。标准的持久性筛查方法是首先检查目标物是否是REACH高度关注物质中已知的PBT类物质或已存在于POPs清单中,若在,则认为该物质具有持久性。对于不在这些清单中的物质,则首先利用PubChem数据库(https://pubchem.ncbi.nlm.nih.gov/)查找获取该物质的实验半衰期数据;如果实验数据不足确定物质的持久性,将用“PBT-BIOWIN”或QSAR Toolbox中的“P Pridictor”物质半衰期预测模型工具来进行判断。如果使用这两种筛查工具得到的化合物持久性结论有所冲突,上一步从PubChem中获得的物质实验半衰期数据也作为P结论的证据权重。当这些证据仍然不足以得出持久性结论时,Arnot-BIOWIN模型将辅助得到最后的结论。需要特别注意的是“potential P++”结论,如果该化合物在饮用水中被检测出,“vP”将代替“potential P++”成为该物质持久性的结论。现有技术由于需要对化合物逐一手动筛查,因此筛查速度较慢,无法实现对海量化合物的快速高通量筛查。
针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。
发明内容
为了解决上述背景技术所存在的至少一技术问题,本发明提供一种基于机器学习的化合物持久性筛查方法。
为实现上述目的,本发明的技术方案是:
一种基于机器学习的化合物持久性筛查方法,包括:
下载化合物的SMILES,并计算化合物的分子描述符;
将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
机器学习筛查模型输出化合物的持久性筛查预测结果。
进一步地,所述机器学习筛查预测模型通过如下方式构建:
数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;
分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;
数据处理平衡及建模:对所述数据集采用基于集成学***衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型。
进一步地,所述参数调优包括:
将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;
采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;
对超参数“n_estimators”进行调节,候选八个模型的最优目标参数,调优目标为准确率;“n_estimators”为Easy Ensemble模型中基分类器的个数;
在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
进一步地,所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。
进一步地,所述应用域判定的计算方法为:
采用欧几里得距离来判断化合物之间的相似度;计算训练数据集中所有化学物质的分子描述符的平均值作为质心;计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值;当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。
进一步地,目标化合物与质心之间欧氏距离的数学表达式如下所示:
Figure BDA0003691186610000021
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
进一步地,所述反类样本的数量多于正类样本数量。
进一步地,所述化合物的分子描述符通过alvaDesc软件来进行计算。
进一步地,所述有效分子描述符有2630个。
进一步地,采用软投票法将八个Easy Ensemble模型进行集成。
进一步地,所述训练集占比80%,测试集占比20%
本发明与现有技术相比,其有益效果在于:
本申请通过用机器学习筛查预测模型可以实现对海量化学品的持久性进行预测,结合多种机器学习算法和尽可能多的分子描述符,以期准确地筛选具有较强持久性的化学污染物。
附图说明
图1为本发明实施例提供的基于机器学习的化合物持久性筛查方法的流程图;
图2为机器学习筛查预测模型的构建流程图。
具体实施方式
实施例:
下面结合附图和实施例对本发明的技术方案做进一步的说明。
针对化合物的持久性筛查,目前相关实验数据仍匮乏,新型化学污染物层出不穷,标准的筛查方法难以进行快速高通量筛查,此外传统的QSAR方法采用的分子描述符较少,无法实现对化合物信息的准确描述。鉴于这个现状,本实施例提供了基于机器学习的化合物持久性筛查方法。
参阅图1所示,本实施例提供的基于机器学习的化合物持久性筛查方法主要包括如下步骤:
101、下载化合物的SMILES,然后将化合物的SMILES输入到软件alvaDesc中计算化合物的分子描述符;
102、将计算好的分子描述符按顺序排列好,保存为EXCEL文件,然后利用Python程序导入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
103、机器学习筛查模型输出化合物的持久性筛查预测结果。
由此可见,本申请通过用机器学习筛查预测模型对海量化学品的持久性进行预测,在机器学习算法和尽可能多的分子描述符,以期筛选具有较强持久性的化学污染物。
参阅图2所示,机器学习筛查模型通过如下方式构建:
数据库建立:通过阅读文献,共选择了1338种以前研究中具有持久性评估的化学品。其中370个化合物为持久性化合物(正类样本),968个化合物为非持久性化合物(反类样本)。此外,为了保证数据质量,这1339种化合物的持久性评估均基于高质量的实验数据。
分子描述:对于以上每个化合物,在pubchem网站(https://pubchem.ncbi.nlm.nih.gov/)下载了SMILES(i.e.simplifiedmolecular input line-entry system)。使用分子描述符计算软件alvaDesc计算了化合物的二维分子描述符。其中,具有缺失值的描述符以及对所有化合物而言为常数值的描述符被去除。最终,对于每个化合物,保留了2630个分子描述符用以后续的建模。
数据平衡处理及建模:由于数据集中,反类样本的数据要明显多于正类样本,这不利于模型的训练。为此,本实施例采用了基于集成学***衡处理。其中,在Easy Ensemble算法中,基分类器采用AdaBoost算法,其中Adaboost基分类器又由若干个弱分类器组成,本实施例分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机等八种机器学习算法作为弱分类器算法构建了八个EasyEnsemble模型;将以上八个模型进行超参数调优之后,用软投票法将以上八个模型进行集成,得到最终模型。
具体地,上述的超参数调优包括:在模型训练过程中,首先将数据集按相同正反比例划分为训练集(80%)和测试集(20%)。其中训练集用于训练模型,测试集用于测试模型的性能。采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数,对超参数“n_estimators”(即Easy Ensemble模型中基分类器的个数)进行调节,八个模型的最优目标参数分别为5,10,15,20,25,30,35和40,调优目标为准确率。在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
具体地,上述的应用域判定的计算方法为:采用欧几里得距离来判断化合物之间的相似度。计算训练数据集中所有化学物质的分子描述符的平均值作为质心。计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值。当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。目标化合物与质心之间欧氏距离的数学表达式如下所示:
Figure BDA0003691186610000041
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
相比于标准的持久性筛查方法,本实施例提供的机器学习筛查预测模型可以在保证一定计算精度前提下极大缩短计算时间,从导入模型到预测268个化合物的性质,模型只需要4分22秒。而如果采用标椎的手动筛查方法,则需要10天以上的时间。由此可以看出本实施例提供机器学习筛查预测模型大大提高了筛查速度,可以实现海量化合物的快速筛查。此外,本机器学习筛查预测模型采用了2630个分子描述符来建模,这些描述符可以较为全面地反应化合物的结构信息。
此外,本实施例采用基于集成学***衡训练数据集,此方法在解决数据不平衡问题的同时,也避免了信息损失。同时,本申请基于集成学习采用了八种机器学习算法来建立机器学习筛查预测模型,最终的模型在测试集上达到了较好的性能,即整体准确率为83.6%,对于持久性物质的准确率为86.5%
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。

Claims (10)

1.一种基于机器学习的化合物持久性筛查方法,其特征在于,包括:
下载化合物的SMILES,并计算化合物的分子描述符;
将计算好的分子描述符按顺序排列好,输入至机器学习筛查预测模型中进行应用域判定,以对在应用域范围内的化合物进行预测;
机器学习筛查模型输出化合物的持久性筛查预测结果。
2.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述机器学习筛查预测模型通过如下方式构建:
数据库建立:所述数据库包括持久性化合物样本和非持久性化合物样本,持久性化合物样本作为正类样本,非持久性化合物样本作为反类样本;
分子描述:对于所述数据库中的每个化合物都计算其二维分子描述符,并对其中具有缺失值的描述符以及对所有化合物而言为常数值的描述符进行去除,以保留有效分子描述符作为数据集;
数据处理平衡及建模:对所述数据集采用基于集成学***衡处理;在Easy Ensemble算法中基分类器采用Adaboost基分类器,分别采用高斯朴素贝叶斯、伯努利朴素贝叶斯、决策树、随机森林、逻辑回归、线性支持向量机、多项式核函数的支持向量机以及高斯RBF核函数的支持向量机八种机器学习算法作为弱分类器算法构建八个Easy Ensemble模型;将八个Easy Ensemble模型进行超参数调优之后进行集成,得到最终的机器学习筛查预测模型。
3.如权利要求2所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述参数调优包括:
将数据集集按相同正反比例划分为训练集和测试集,训练集用于训练模型,测试集用于测试模型的性能;
采用网格搜索和交叉验证法在训练集上进行超参数调节,其中,训练集又进一步划分为训练集和验证集,通过调节在验证集上的效果获取最优超参数;
对超参数“n_estimators”进行调节,候选八个模型的最优目标参数,调优目标为准确率;“n_estimators”为Easy Ensemble模型中基分类器的个数;
在获取最优超参数之后,在全部训练集上训练模型,然后在测试集上测试模型效果。
4.如权利要求3所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述八个模型的最优目标参数分别为5,10,15,20,25,30,35和40。
5.如权利要求3所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述应用域判定的计算方法为:
采用欧几里得距离来判断化合物之间的相似度;计算训练数据集中所有化学物质的分子描述符的平均值作为质心;计算训练数据集中单个化合物与质心之间的欧氏距离,并以最长距离作为应用域的阈值;当目标化合物与质心之间的欧氏距离小于阈值时,则认为化合物在应用域之内。
6.如权利要求5所述的基于机器学习的化合物持久性筛查方法,其特征在于,目标化合物与质心之间欧氏距离的数学表达式如下所示:
Figure FDA0003691186600000021
其中,di代表第i个化合物与质心之间的欧氏距离,xk,i代表第i个化合物的第k个分子描述符,xk,centroid代表质心的第k个分子描述符。
7.如权利要求2所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述反类样本的数量多于正类样本数量。
8.如权利要求1或2所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述化合物的分子描述符通过alvaDesc软件来进行计算。
9.如权利要求1所述的基于机器学习的化合物持久性筛查方法,其特征在于,所述有效分子描述符有2630个。
10.如权利要求2所述的基于机器学习的化合物持久性筛查方法,其特征在于,采用软投票法将八个Easy Ensemble模型进行集成。
CN202210664747.1A 2022-06-13 2022-06-13 一种基于机器学习的化合物持久性筛查方法 Active CN115274002B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210664747.1A CN115274002B (zh) 2022-06-13 2022-06-13 一种基于机器学习的化合物持久性筛查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210664747.1A CN115274002B (zh) 2022-06-13 2022-06-13 一种基于机器学习的化合物持久性筛查方法

Publications (2)

Publication Number Publication Date
CN115274002A true CN115274002A (zh) 2022-11-01
CN115274002B CN115274002B (zh) 2023-05-23

Family

ID=83759046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210664747.1A Active CN115274002B (zh) 2022-06-13 2022-06-13 一种基于机器学习的化合物持久性筛查方法

Country Status (1)

Country Link
CN (1) CN115274002B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107563133A (zh) * 2017-08-30 2018-01-09 大连理工大学 采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
US20200098450A1 (en) * 2017-06-30 2020-03-26 Meiji Pharmaceutical University Predicting device, predicting method, predicting program, learning model input data generating device, and learning model input data generating program
US20210117869A1 (en) * 2018-03-29 2021-04-22 Benevolentai Technology Limited Ensemble model creation and selection
CN113409899A (zh) * 2021-06-18 2021-09-17 南京大学 一种基于作用模式的人类发育毒性预测的方法
WO2022018253A1 (en) * 2020-07-24 2022-01-27 INSERM (Institut National de la Santé et de la Recherche Médicale) Training method and model for predicting inhibitors of drugs metabolizing enzymes
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
CN114171137A (zh) * 2021-12-10 2022-03-11 浙江大学 一种基于机器学习预测化合物环境危害性的方法
CN114520031A (zh) * 2022-01-24 2022-05-20 浙江大学 一种基于机器学习的化合物胎盘膜透过性的预测方法
CN114548308A (zh) * 2022-02-25 2022-05-27 暨南大学 识别持久性有机污染物的深度学习方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200098450A1 (en) * 2017-06-30 2020-03-26 Meiji Pharmaceutical University Predicting device, predicting method, predicting program, learning model input data generating device, and learning model input data generating program
CN107563133A (zh) * 2017-08-30 2018-01-09 大连理工大学 采用定量结构‑活性关系模型预测有机化学品的氯自由基反应速率常数的方法
US20210117869A1 (en) * 2018-03-29 2021-04-22 Benevolentai Technology Limited Ensemble model creation and selection
CN110890137A (zh) * 2019-11-18 2020-03-17 上海尔云信息科技有限公司 一种化合物毒性预测模型建模方法、装置及其应用
WO2022018253A1 (en) * 2020-07-24 2022-01-27 INSERM (Institut National de la Santé et de la Recherche Médicale) Training method and model for predicting inhibitors of drugs metabolizing enzymes
CN113409899A (zh) * 2021-06-18 2021-09-17 南京大学 一种基于作用模式的人类发育毒性预测的方法
CN114141317A (zh) * 2021-12-07 2022-03-04 北京百度网讯科技有限公司 化合物性质预测模型训练方法、装置、设备以及存储介质
CN114171137A (zh) * 2021-12-10 2022-03-11 浙江大学 一种基于机器学习预测化合物环境危害性的方法
CN114520031A (zh) * 2022-01-24 2022-05-20 浙江大学 一种基于机器学习的化合物胎盘膜透过性的预测方法
CN114548308A (zh) * 2022-02-25 2022-05-27 暨南大学 识别持久性有机污染物的深度学习方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHAO FENG ET AL.: "Evaluation and application of machine learning-based retention time prediction for suspect screening of pesticides and pesticide transformation products in LC-HRMS" *
丁蕊等: "基于集成学习算法构建有机化学品鱼体生物富集因子的QSAR预测模型" *
秦红;陈景文;王莹;王斌;李雪花;李斐;王亚南;: "有机污染物生物富集因子定量预测模型的建立与评价", 科学通报 *

Also Published As

Publication number Publication date
CN115274002B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
Janitza et al. An AUC-based permutation variable importance measure for random forests
CN108960319B (zh) 一种面向全局的机器阅读理解建模中的候选答案筛选方法
Sun et al. Quantifying variable interactions in continuous optimization problems
CN111798921A (zh) 一种基于多尺度注意力卷积神经网络的rna结合蛋白预测方法及装置
Becker et al. CNN architecture comparison for radio galaxy classification
Mock et al. Taxonomic classification of DNA sequences beyond sequence similarity using deep neural networks
CN108009405A (zh) 一种基于机器学习技术预测细菌外膜蛋白质的方法
CN111914090A (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
Carstens et al. A global analysis of bats using automated comparative phylogeography uncovers a surprising impact of Pleistocene glaciation
CN111343147B (zh) 一种基于深度学习的网络攻击检测装置及方法
CN106528417A (zh) 软件缺陷智能检测方法和***
CN105095494A (zh) 一种对分类数据集进行测试的方法
Reyzin Boosting on a budget: Sampling for feature-efficient prediction
Gao et al. BLNN: Multiscale Feature Fusion‐Based Bilinear Fine‐Grained Convolutional Neural Network for Image Classification of Wood Knot Defects
CN111582315A (zh) 样本数据处理方法、装置及电子设备
Mamat et al. Enhancement of water quality index prediction using support vector machine with sensitivity analysis
CN106203520A (zh) 基于深度相关向量机的sar图像分类方法
CN116167336B (zh) 基于云计算的传感器数据加工方法、云服务器及介质
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
CN115274002A (zh) 一种基于机器学习的化合物持久性筛查方法
CN115879039A (zh) 一种支持向量回归结合引力搜索的元素含量定量分析方法
CN115936773A (zh) 一种互联网金融黑产识别方法与***
Parmar et al. A review on data balancing techniques and machine learning methods
CN113127342B (zh) 基于电网信息***特征选择的缺陷预测方法及装置
Nikolikj et al. Sensitivity Analysis of RF+ clust for Leave-one-problem-out Performance Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant