CN112966447A - 一种基于自动机器学习的化学材料吸附性能预测方法及装置 - Google Patents

一种基于自动机器学习的化学材料吸附性能预测方法及装置 Download PDF

Info

Publication number
CN112966447A
CN112966447A CN202110318374.8A CN202110318374A CN112966447A CN 112966447 A CN112966447 A CN 112966447A CN 202110318374 A CN202110318374 A CN 202110318374A CN 112966447 A CN112966447 A CN 112966447A
Authority
CN
China
Prior art keywords
model
module
machine learning
chemical material
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110318374.8A
Other languages
English (en)
Inventor
王坤峰
杨培松
张欢
赖欣
阳庆元
俞度立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Chemical Technology
Original Assignee
Beijing University of Chemical Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Chemical Technology filed Critical Beijing University of Chemical Technology
Priority to CN202110318374.8A priority Critical patent/CN112966447A/zh
Publication of CN112966447A publication Critical patent/CN112966447A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • G06F30/27Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2119/00Details relating to the type or aim of the analysis or the optimisation
    • G06F2119/18Manufacturability analysis or optimisation for manufacturability

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及机器学习技术领域,一个方面提供基于自动机器学习的化学材料吸附性能预测方法,包括:获取化学材料的结构特征构建原始数据集;对原始数据集进行预处理,根据机器学习生成包含超参数的初始模型;利用管道方法初始模型迭代训练生成最佳预测模型;将测试数据集输入到最佳预测模型对化学材料的吸附性能进行预测;本发明所述方法可以快速准确地实现材料吸附性能预测。本发明的另一个方面提供一种基于自动机器学习的化学材料吸附性能预测装置,包括数据集构建模块、模型预训练模块、模型构件模块以及测试模块;用以将上述方法应用在该装置以进行化学材料吸附性能的预测。

Description

一种基于自动机器学习的化学材料吸附性能预测方法及装置
技术领域
本发明涉及机器学习技术领域,尤其涉及一种基于自动机器学习的化学材料吸附性能预测方法及装置。
背景技术
化学材料的筛选与设计对重要化工气体的存储与运输具有重要意义。但是合成的气体存储的材料种类多种多样,数量庞大,将其用于气体吸附工作容量的研究时,需要通过分子动力学模拟的方法实现,这种方法虽然准确,但是十分耗时,要想从海量的存储材料中寻找出合适的存储材料,依靠传统的计算方法显然是不可行的。
机器学习给材料性能计算带来了极大的便利,但同时也存在的一些问题。随着算法的种类的增加与复杂度的提升,工程师需要选择相应的模型架构,训练过程,正则化方法以及超参数等,这些都对算法的性能有很大的影响。构建准确而强大的学习模型的过程需要先进的数据科学技能,为解决问题而选择适当的方法并为特定模型配置最佳参数值也是一项艰巨的任务。因此,如何快速有效地计算材料的吸附性能,筛选出合适的气体存储材料,成为亟需解决的问题。
现有技术存在以下问题。第一,传统材料计算方法速度慢,效率低,无法满足现有需求。第二,普通机器学习算法的调参过程复杂,对非专业人员使用的要求门槛较高。第三,没有关于材料预测内容的管道模型的设计。
发明内容
为此,本发明一个方面提供一种基于自动机器学习的材料吸附性能预测方法。包括通过数据构件模块获取化学材料的特征并建立原始数据,通过模型预训练模块建立初始模型,通过模型构建模块生成最佳预测模型以及通过测试模块预测化学材料的吸附性能。用以克服现有技术中因没有关于材料预测内容的管道模型的设计导致的对材料吸附性能预测速度慢,进一步导致效率低的问题。
为实现上述目的,本发明提供一种基于自动机器学习的化学材料吸附性能预测方法,包括:
获取与化学材料吸附性能具有相关性的多种特征,并结合不同类型的特征建立原始数据集,并对该原始数据集进行预处理;
对所述预处理完成的原始数据集进行特征处理并利用机器学习以根据特征处理完成的原始数据利用机器学习生成多个包含超参数的初始模型;
通过管道方法对多个所述初始模型进行迭代训练以生成最佳预测模型;
将测试数据集输入至所述最佳预测模型以进行化学材料吸附性能预测。
进一步地,针对所述原始数据的预处理的方法包括数据采样、数据清洗、特征压缩、特征转换以及特征提取中的一种或多种;
所述通过机器学习生成多个包含超参数的初始模型的方法包括对所述原始数据进行特征处理以保证数据的合理性,以及选取不同的机器进行学习以根据先验知识生成多个包含超参数的初始模型。
进一步地,所述通过管道方法对多个所述初始模型进行迭代训练获得最佳预测模型的方法包括:根据特征重要性对所述特征处理完成的数据集进行数据筛选和特征处理并通过遗传算法和迭代法地对所述初始模型进行调参。
进一步地,所述数据筛选包括使用SelectKBest方法选择最优的前n%的特征信息并移除不符合最小方差阈值的特征信息,该选择方法通过卡方验证和互信息结合计算得出最优的前n%特征,公式如下所示:
Figure BDA0002992199860000031
Figure BDA0002992199860000032
其中,p(x,y)是x和y的联合分布函数,p(x)和p(y)分别为是x和y的边际概率密度函数,Fi为第i个特征的观测值,Ei为第i个特征的期望值。
进一步地,所述特征重要性包括特征与目标变量之间的相关性以及各个特征之间的相关性,通过对特征与目标变量的相关性以及各个特征之间的相关性进行分析并保留与目标变量相关性强的特征并删除特征间相关性强的特征以生成该所述特征重要性,相关性通过公式计算得出,公式为:
Figure BDA0002992199860000041
其中r(x,y)代表两个变量x和y之间的相关系数,
Figure BDA0002992199860000042
Figure BDA0002992199860000043
分别代表x和y的均值。
进一步地,所述通过遗传算法对所述初始模型的调参方法包括:通过分别对多个初始模型的超参数进行优化生成多个最佳性能的初始模型,并通过选择最佳参数以生成最佳预测模型。
进一步地,所述生成最佳预测模型的方法包括:通过叠加组合将所述多个所述最佳性能的初始模型集成为最佳预测模型集,集成公式如下所示:
Figure BDA0002992199860000044
其中A={A1,...An}为机器学习的集合,各个元素代表数据处理以及机器学习算法,Aj∈A(j=1,...,n)为集合对应的超参数空间Λj
通过在模型选择时对所述数据集进行k个交叉验证,将所述数据集分为k个训练集
Figure BDA0002992199860000045
和k个验证集
Figure BDA0002992199860000046
Figure BDA0002992199860000047
为经训练集
Figure BDA0002992199860000048
训练后带有超参数λ∈Λj的算法Aj在验证集
Figure BDA0002992199860000049
的错误率,生成最佳的预测模型组合以及超参数组合。
进一步地,通过拟合优度R2和RMSE对所述最佳预测模型进行评价:
Figure BDA0002992199860000051
Figure BDA0002992199860000052
其中n代表数据集的总数,
Figure BDA0002992199860000053
和yi分别是第i个数据的最佳模型预测值和真实值,
Figure BDA0002992199860000054
是所有预测值
Figure BDA0002992199860000055
的平均值。
本发明另一个方面提供一种用于执行权利要求1-8任一项权利要求所述的基于自动机器学习的化学材料吸附性能预测方法的基于自动机器学习的化学材料吸附性能预测装置,包括:
数据集构建模块,用以获取化学材料的物理、化学结构特征,对无效数据以及空值进行判断和过滤,并对过滤完成的特征建立原始数据集;
模型预训练模块,其与所述数据构件模块相连,用以根据不同的算法生成多个包含超参数的初始模型;
模型构建模块,其与所述模型的预训练模块相连,用以通过管道方法对多个初始模型迭代训练以生成最佳预测模型;
测试模块,其与所述模型构件模块相连,用以输入测试数据集到所述最佳预测模型进行化学材料吸附性能预测。
进一步地,所述模型构建模块包括:
特征工程模块,其与所述模型的预训练模块相连,用以对原始数据集进行特征处理并根据特征重要性对该原始数据集中的原始数据进行特征选择、压缩、提取;
模型选择模块,其与所述特征工程模块相连,用以结合特征重要性对特征处理后的所述原始数据集进行算法模型选择并以不同的算法搭建初始模型;
参数寻优模块,其与所述模型选择模块相连,用以通过遗传算法优化方法分别对多个初始模型优化超参数生成多个最佳性能的初始模型:
管道模块,其与所述参数寻优模块相连,用以通过叠加组合方法将多个所述最佳性能的初始模型集成为最佳预测模型集;
模型评估模块,其分别与所述管道模块和所述测试模块相连,用以对形成的管道模块中所述最佳预测模型集中模型的性能进行评估,选出最佳预测模型。
与现有技术相比,本发明的有益效果在于,通过获取化学材料的结构特征构建原始数据集,对原始数据集进行预处理,根据机器学习生成包含超参数的初始模型,利用管道方法初始模型迭代训练生成最佳预测模型,输入测试数据集到最佳预测模型对化学材料的吸附性能进行预测,本发明所述方法可以快速准确地实现材料吸附性能预测,实现了材料预测内容的管道模型的设计,并通过改管道模型结合多种机器学习算法自动地对预测模型的参数进行优化调节,不需要人工介入,提高了预测过程中的计算速度,并进一步提高了预测的效率。
进一步地,通过对所述原始数据经采样和/或数据清洗和/或特征压缩和/或特征提取的预处理,并对所述原始数据进行特征处理以及选取不同的机器学习,根据先验知识生成多个包含超参数的初始模型,保证了数据的合理性,进一步简化了调参的过程,从而进一步提高了预测的效率。
进一步地,对经过特征处理的所述数据集根据特征重要性进行数据筛选和特征处理,通过遗传算法迭代地对所述初始模型进行调参,进一步简化了调参的过程,从而进一步提高了预测的效率。
进一步地,通过SelectKBest方法选择最优的前n%的特征信息和移除不符合最小方差阈值的特征,提高了对所述数据的特征选择,从而进一步提高了预测的效率。
进一步地,通过保留与目标变量相关性强的特征并删除特征间相关性强的特征生成该所述特征重要性,提高了对所述数据的特征选择,从而进一步提高了预测的效率。
进一步地,通过遗传算法分别对多个初始模型的超参数进行优化生成多个最佳性能的初始模型,并选择最佳参数生成最佳预测模型,实现了对模型的自动处理,从而进一步提高了预测的效率。
进一步地,通过叠加组合将所述多个最佳性能的初始模型集成为最佳预测模型集,在模型选择时进行k个交叉验证,将所述数据集分为k个训练集和k个验证集,在训练完成后对算法进行验证,以生成最佳的预测模型组合以及超参数组合,实现了对模型的自动处理,从而进一步提高了预测的效率。
进一步地,通过拟合优度R2和RMSE对所述最佳预测模型进行评价,以验证所述最佳预测模型,从而进一步提高了预测的效率。
进一步地,通过将上述基于自动及其学习的化学材料吸附性能预测方法设置在所述基于自动及其学习的化学材料吸附性能预测装置中,实现了对所述化学材料吸附性能的自动预测,从而进一步提高了预测的效率。
附图说明
图1为本发明所述基于自动机器学习的化学材料吸附性能预测方法流程图;
图2是步骤S103的具体流程图;
图3是本发明所述基于自动机器学习的化学材料吸附性能预测装置的结构框图。
图4为本发明所述有机分子对甲烷气体吸附性能的评估模型表现的示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测方法流程图。
本实施例所述一种基于自动机器学习的化学材料吸附性能预测方法包括:
步骤S100,获取化学材料的多种特征,并结合不同类型的特征构建原始数据集;
步骤S200,输入原始数据集进行特征处理,利用基学习器得到多个包含超参数的初始模型;
步骤S300,用管道方法对多个初始模型进行迭代训练以得到最佳预测模型:对输入数据集进行数据筛选和特征处理;通过遗传算法对模型进行调参,通过逐步迭代方法得到最佳预测模型;
步骤S400,输入测试数据集到最佳预测模型进行化学材料吸附性能预测。
所述步骤S100中,通过使用传统的分子模拟方法计算出材料的物理特征和化学特征,包括材料的孔径特征、体积、密度、表面积以及元素含量百分比等物理特征以及吸附热等化学特征,并且对无效数据以及空值的判断以及过滤,并根据所述特征建立原始数据集。
所述步骤S200中,通所述原始数据集进行特征处理,根据先验知识对获取机器学习的初始参数模型,通过机器学习生成多个包含超参数的初始模型。
所述步骤S300中,通过对输入数据集进行数据筛选和特征处理;通过遗传算法对模型进行调参;通过逐步迭代方法得到最佳预测模型。
本实施例中,根据先验知识获取多个包含超参数的初始模型,通过管道方法对所述多个初始模型进行迭代训练以生成最佳预测模型;
具体而言,通过对输入数据集进行数据筛选和特征处理,通过遗传算法对所述初始模型进行调参,通过逐步迭代方法生成最佳预测模型,并将测试数据集输入至所述最佳预测模型对化学材料的吸附性能进行预测。所述管道方法包括使用管道端到端的进行数据预处理、特征工程、模型选择、模型评估等流程,以使预测模型不需人工参与就可以达到最优。通过化学材料性能预测中结合自动机器学习的方法,在保证了预测准确度的同时可以最小化时间及人力成本。
请参阅图2所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测方法中步骤S103的具体流程图。
本发明实施例所述一种基于自动机器学习的化学材料吸附性能预测方法,所述步骤S103包括:
步骤310,特征工程,对所述原始数据进行特征处理和对原始数据集预处理,所述预处理包括数据采样、数据清洗、特征压缩、特征转换、特征提取中的一种或多种以及根据特征的重要性进行特征筛选。
具体而言,通过SelectKBest方法,选择最优前n%的特征信息和移除不符合最小方差阈值的特征,其中选择最优前n%特征的方法是结合卡方验证和互信息进行的:
Figure BDA0002992199860000111
Figure BDA0002992199860000112
其中p(x,y)是x和y的联合分布函数,而p(x)和p(y)是x和y的边际概率密度函数,Fi是第i个特征的观测值,Ei是第i个特征的期望值,所述特征重要性包括特征与目标变量之间的相关性和特征间的相关性,通过保留与目标变量相关性强的特征,并且为了避免模型出现多重共线性,删除特征间相关性强的特征。
具体而言,通过下式进行计算,若两个特征变量相关系数大于0.9,则判定两个特征变量相关性强:
Figure BDA0002992199860000113
其中r(x,y)代表两个变量x和y之间的相关系数,
Figure BDA0002992199860000114
Figure BDA0002992199860000115
分别代表x和y的均值。
步骤320,模型选择,选择所述机器学习中的初始化模型表现优异的模型进行选择。
步骤330,模型调参,通过所述遗传算法分别对多个初始模型优化超参数生成多个最佳性能的初始模型,并选定一批最佳参数,使得模型性能达到最佳。
步骤340,通过管道的方式对步骤330得到的最佳模型进行叠加组合,根据遗传算法生成多个最佳性能初始模型,使用叠加组合方法将多个最佳性能的初始模型集成为最佳预测模型集:
Figure BDA0002992199860000121
其中A={A1,...An}代表了基学习器的集合,每一个元素表示数据处理以及机器学习算法,Aj∈A(j=1,...,n)为所述集合对应的超参数空间Λj
具体而言,模型选择时进行k个交叉验证,将数据集分为k个训练集
Figure BDA0002992199860000122
和k个验证集
Figure BDA0002992199860000123
Figure BDA0002992199860000124
为在训练集
Figure BDA0002992199860000125
上的训练的带有超参数λ∈Λj的算法Aj在验证集
Figure BDA0002992199860000126
的错误率,通过以上算法找到最佳的模型组合以及超参数组合。
具体而言,利用叠加组合方法进行集成得到最佳管道模型,可以避免高性能的模型被丢弃,还形成更加复杂的模型结构,可以得到预测能力更强的模型,避免超参数的单一化以及数据的过拟合化,得到的模型鲁棒性更强;所述管道方法是迭代的,每个步骤都被重复执行,不断提高模型的准确性并获得成功的算法。将所有处理过程的方法模型组合起来,构成一条流水线的预测模型,最终得到一个完成的包含数据预处理、特征工程、模型预测的完成管道预测模型。
步骤350,管道模型评估,通过目标函数拟合优度R2和RMSE对最佳模型叠加组合而成的管道模型进行评估:
Figure BDA0002992199860000131
Figure BDA0002992199860000132
其中n代表数据集的总数,
Figure BDA0002992199860000133
和yi分别是第i个数据的最佳模型预测值和真实值,
Figure BDA0002992199860000134
是所有预测值
Figure BDA0002992199860000135
的平均值。
请参阅图3所示,其为本发明所述一种基于自动机器学习的化学材料吸附性能预测装置的结构框图。
本发明实施例所述一种基于自动机器学习的化学材料吸附性能预测装置,包括:
数据集构建模块10,用以获取化学材料的物理、化学结构特征,对无效数据以及空值的判断以及过滤,并结合这些特征建立原始数据集;
模型预训练模块20,根据不同的算法得到多个包含超参数的初始模型;根据先验知识对每个模型设定一组初始的超参数值,以方便后续迭代寻优操作。
模型构建模块30,用以通过管道方法对多个初始模型迭代训练以得到最佳预测模型,所述训练模块包括:
特征工程模块31,用以对原始数据集进行特征处理,根据特征重要性对其进行特征选择、压缩、提取等;
模型选择模块32,用以结合特征重要性对特征处理后的原始数据集进行算法模型选择,选取不同的算法搭建初始模型;
参数寻优模块33,用以通过遗传算法优化方法分别对多个初始模型优化超参数得到多个最佳性能的初始模型:
管道模块34,用以通过叠加组合方法将多个最佳性能的初始模型集成为最佳预测模型;
模型评估模块35,用以对形成的管道模块中模型的性能评估,选出最佳预测模型;
测试模块36,用以输入测试数据集到佳预测模型进行化学材料吸附性能预测。
请参阅图4所示,其为本发明所述基于自动机器学习的化学材料吸附性能预测方法所述有机分子对甲烷气体吸附性能的评估模型表现的示意图。
本发明实施例所述有机分子对甲烷气体吸附性能的评估模型表现通过管道模型对共价有机化合物对甲烷气体吸附性能的预测值和真实观测值进行比较,从而评估模型表现,与传统的分子模拟计算方法相比在效率上提升了2到3个数量级。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于自动机器学习的化学材料吸附性能预测方法,其特征在于,包括:
获取与化学材料吸附性能具有相关性的多种特征,结合不同类型的特征建立原始数据集并对原始数据集进行预处理;
对所述完成预处理的原始数据集进行特征处理并利用机器学习以根据经过特征处理完成的原始数据生成多个包含超参数的初始模型;
通过管道方法对多个所述初始模型进行迭代训练以生成最佳预测模型;
将测试数据集输入至所述最佳预测模型以进行化学材料吸附性能预测。
2.根据权利要求1所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,针对所述原始数据的预处理的方法包括:数据采样、数据清洗、特征压缩、特征转换以及特征提取中的一种或多种;
所述通过机器学习生成多个包含超参数的初始模型的方法包括:对所述原始数据进行特征处理以保证数据的合理性以及选取不同的机器进行学习以根据先验知识生成多个包含超参数的初始模型。
3.根据权利要求1所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述通过管道方法对多个所述初始模型进行迭代训练获得最佳预测模型的方法包括:根据特征重要性对所述特征处理完成的数据集进行数据筛选和特征处理并通过遗传算法和迭代法对所述初始模型进行调参。
4.根据权利要求3所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述数据筛选包括:使用SelectKBest方法选择最优的前n%的特征信息并移除不符合最小方差阈值的特征信息,该选择方法通过卡方验证和互信息结合计算得出最优的前n%特征,公式如下所示:
Figure FDA0002992199850000021
Figure FDA0002992199850000022
其中,p(x,y)是x和y的联合分布函数,p(x)和p(y)分别为是x和y的边际概率密度函数,Fi为第i个特征的观测值,Ei为第i个特征的期望值。
5.根据权利要求4所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述特征重要性包括特征与目标变量之间的相关性以及各个特征之间的相关性,通过对特征与目标变量的相关性以及各个特征之间的相关性进行分析、保留与目标变量相关性强的特征并删除特征间相关性强的特征以生成该所述特征重要性,若两个特征变量相关系数大于0.9,则判定两个特征变量相关性强,计算公式为:
Figure FDA0002992199850000023
其中r(x,y)代表两个变量x和y之间的相关系数,
Figure FDA0002992199850000031
Figure FDA0002992199850000032
分别代表x和y的均值。
6.根据权利要求3所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述通过遗传算法对所述初始模型的调参方法包括:通过分别对多个初始模型的超参数进行优化以生成多个最佳性能的初始模型并通过选择最佳参数以生成最佳预测模型。
7.根据权利要求6所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,所述生成最佳预测模型的方法包括:通过叠加组合将多个所述最佳性能的初始模型集成为最佳预测模型集,集成公式如下所示,
Figure FDA0002992199850000033
其中,A={A1,...An}为机器学习的集合,各元素分别代表数据处理以及机器学习算法,Aj∈A(j=1,...,n)为集合对应的超参数空间Λj
当进行模型选择时,对所述数据集进行k个交叉验证,将所述数据集分为k个训练集
Figure FDA0002992199850000034
和k个验证集
Figure FDA0002992199850000035
Figure FDA0002992199850000036
为经训练集
Figure FDA0002992199850000037
训练后带有超参数λ∈Λj的算法Aj在验证集
Figure FDA0002992199850000038
的错误率,用以生成最佳的预测模型组合以及超参数组合。
8.根据权利要求7所述的基于自动机器学习的化学材料吸附性能预测方法,其特征在于,通过拟合优度R2和RMSE对所述最佳预测模型进行评价,R2和RMSE的计算公式如下:
Figure FDA0002992199850000041
Figure FDA0002992199850000042
其中n代表数据集的总数,
Figure FDA0002992199850000043
和yi分别是第i个数据的最佳模型预测值和真实值,
Figure FDA0002992199850000044
是所有预测值
Figure FDA0002992199850000045
的平均值。
9.一种用于执行权利要求1-8任一项权利要求所述的基于自动机器学习的化学材料吸附性能预测方法的基于自动机器学习的化学材料吸附性能预测装置,其特征在于,包括:
数据集构建模块,用以获取化学材料的物理、化学结构特征,对无效数据以及空值进行判断和过滤,并对过滤完成的特征建立原始数据集;
模型预训练模块,其与所述数据构件模块相连,用以根据不同的算法生成多个包含超参数的初始模型;
模型构建模块,其与所述模型预训练模块相连,用以通过管道方法对多个初始模型迭代训练以生成最佳预测模型;
测试模块,其与所述模型构件模块相连,用以输入测试数据集到所述最佳预测模型进行化学材料吸附性能预测。
10.根据权利要求9基于自动机器学习的化学材料吸附性能预测装置,其特征在于,所述模型构建模块包括:
特征工程模块,其与所述模型的预训练模块相连,用以对原始数据集进行特征处理并根据特征重要性对该原始数据集中的原始数据进行特征选择、压缩、提取;
模型选择模块,其与所述特征工程模块相连,用以结合特征重要性对特征处理后的所述原始数据集进行算法模型选择并以不同的算法搭建初始模型;
参数寻优模块,其与所述模型选择模块相连,用以通过遗传算法优化方法分别对多个初始模型优化超参数生成多个最佳性能的初始模型:
管道模块,其与所述参数寻优模块相连,用以通过叠加组合方法将多个所述最佳性能的初始模型集成为最佳预测模型集;
模型评估模块,其分别与所述管道模块和所述测试模块相连,用以对形成的管道模块中所述最佳预测模型集中模型的性能进行评估,选出最佳预测模型。
CN202110318374.8A 2021-03-25 2021-03-25 一种基于自动机器学习的化学材料吸附性能预测方法及装置 Pending CN112966447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110318374.8A CN112966447A (zh) 2021-03-25 2021-03-25 一种基于自动机器学习的化学材料吸附性能预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110318374.8A CN112966447A (zh) 2021-03-25 2021-03-25 一种基于自动机器学习的化学材料吸附性能预测方法及装置

Publications (1)

Publication Number Publication Date
CN112966447A true CN112966447A (zh) 2021-06-15

Family

ID=76278499

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110318374.8A Pending CN112966447A (zh) 2021-03-25 2021-03-25 一种基于自动机器学习的化学材料吸附性能预测方法及装置

Country Status (1)

Country Link
CN (1) CN112966447A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505527A (zh) * 2021-06-24 2021-10-15 中国科学院计算机网络信息中心 一种基于数据驱动的材料性质预测方法及***
CN113761802A (zh) * 2021-09-10 2021-12-07 成都材智科技有限公司 一种核电结构材料数据性能预测模型及模型构建方法
CN114530217A (zh) * 2022-02-16 2022-05-24 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
CN115080752A (zh) * 2022-08-18 2022-09-20 湖南大学 基于特征领域知识自动获取的数值特征发现方法及***
CN115366281A (zh) * 2022-08-22 2022-11-22 青岛科技大学 基于机器学习的模温机温度控制方法、装置及可存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325285A (zh) * 2020-03-10 2020-06-23 五邑大学 基于自动机器学习的疲劳驾驶预测方法、装置及存储介质
WO2020249125A1 (zh) * 2019-06-14 2020-12-17 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和***
WO2020253055A1 (zh) * 2019-06-19 2020-12-24 山东大学 一种基于遗传算法和机器学习的并行模拟电路优化方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020249125A1 (zh) * 2019-06-14 2020-12-17 第四范式(北京)技术有限公司 用于自动训练机器学习模型的方法和***
WO2020253055A1 (zh) * 2019-06-19 2020-12-24 山东大学 一种基于遗传算法和机器学习的并行模拟电路优化方法
CN111325285A (zh) * 2020-03-10 2020-06-23 五邑大学 基于自动机器学习的疲劳驾驶预测方法、装置及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
IOANNIS TSAMARDINOS等: "An Automated Machine Learning architecture for the accelerated prediction of Metal-Organic Frameworks performance in energy and environmental applications", 《MICROPOROUS AND MESOPOROUS MATERIALS》, pages 1 - 13 *
涂同珩: "基于自动机器学习的雷达信号识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, no. 10, pages 140 - 71 *
袁慎: "基于属性加权的聚类算法在银行客户细分中的应用研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 2, pages 138 - 704 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113505527A (zh) * 2021-06-24 2021-10-15 中国科学院计算机网络信息中心 一种基于数据驱动的材料性质预测方法及***
CN113761802A (zh) * 2021-09-10 2021-12-07 成都材智科技有限公司 一种核电结构材料数据性能预测模型及模型构建方法
CN114530217A (zh) * 2022-02-16 2022-05-24 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
CN114530217B (zh) * 2022-02-16 2024-06-07 西安建筑科技大学 一种兰炭基多孔碳吸附重金属效率预测方法及相关装置
CN115080752A (zh) * 2022-08-18 2022-09-20 湖南大学 基于特征领域知识自动获取的数值特征发现方法及***
CN115080752B (zh) * 2022-08-18 2022-12-02 湖南大学 基于特征领域知识自动获取的数值特征发现方法及***
CN115366281A (zh) * 2022-08-22 2022-11-22 青岛科技大学 基于机器学习的模温机温度控制方法、装置及可存储介质

Similar Documents

Publication Publication Date Title
CN112966447A (zh) 一种基于自动机器学习的化学材料吸附性能预测方法及装置
Westermann et al. Surrogate modelling for sustainable building design–A review
Mattson et al. Pareto frontier based concept selection under uncertainty, with visualization
Kalidindi et al. Digital twins for materials
CN111210869A (zh) 一种蛋白质冷冻电镜结构解析模型训练方法和解析方法
CN112669899B (zh) 一种16s和宏基因组测序数据关联分析方法、***及设备
McGregor et al. Using machine learning to predict dimensions and qualify diverse part designs across multiple additive machines and materials
CN103226728A (zh) 高密度聚乙烯串级聚合反应过程智能检测与收率优化方法
CN109636006A (zh) 一种多行设施布局方法
Shahzad et al. Accelerating materials discovery: combinatorial synthesis, high-throughput characterization, and computational advances
CN116151107B (zh) 一种岩浆型镍钴成矿潜力的识别方法、***及电子设备
CN117541095A (zh) 一种农用地土壤环境质量类别划分的方法
CN111370055A (zh) 内含子保留预测模型建立方法及其预测方法
Wang et al. A new input variable selection method for soft sensor based on stacked auto-encoders
CN115148307A (zh) 一种材料性能自动预测***
Gomez-Omella et al. Optimizing porosity detection in wire laser metal deposition processes through data-driven AI classification techniques
CN114926075A (zh) 基于工时预测的机械零件生产调度方法
JP7207128B2 (ja) 予測システム、予測方法、および予測プログラム
CN104537167B (zh) 基于鲁棒区间极限学习机的区间型指标预报方法
CN115497573B (zh) 一种炭基生物地质催化材料性质预测与制备方法
CN118298301A (zh) 基于差分进化和多尺度神经网络的湖泊叶绿素反演方法
CN116595889B (zh) 基于peek材料的薄型筋体均布结构加工方法及***
Liu et al. Determining zeolite structures with a domain-dependent genetic algorithm
Worthington Machine learning predictions of crack paths in brittle and ductile media
CN118014155A (zh) 基于提升堆叠学习的碳排放预测***和方法及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination