CN115062750A - 一种动态进化鲸鱼优化算法的化合物水溶性预测方法 - Google Patents
一种动态进化鲸鱼优化算法的化合物水溶性预测方法 Download PDFInfo
- Publication number
- CN115062750A CN115062750A CN202210679711.0A CN202210679711A CN115062750A CN 115062750 A CN115062750 A CN 115062750A CN 202210679711 A CN202210679711 A CN 202210679711A CN 115062750 A CN115062750 A CN 115062750A
- Authority
- CN
- China
- Prior art keywords
- population
- algorithm
- optimization algorithm
- whale
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种动态进化鲸鱼优化算法的化合物水溶性预测方法,具体包括以下步骤:步骤S1:选取化合物水溶性数据集作为实验数据并将数据集划分为训练集和测试集;步骤S2:使用多种群和种群动态进化的策略改进鲸鱼优化算法提高鲸鱼优化算法的寻优能力;步骤S3:将改进后的鲸鱼优化算法用于LSTM神经网络的参数寻优,训练具有较优参数结构的LSTM神经网络;步骤S4:使用改后的LSTM神经网络预测预测化合物水溶性;利用本发明训练的LSTM深度学习模型,能够准确预测化合物水溶性;对传统的鲸鱼优化算法进行优化,提高了寻优精度和算法收敛效率;将深度学习与群体智能优化算法应用于化合物水溶性预测,为化合物相关性质预测的研究工作提供了有价值的参考。
Description
技术领域
本发明属于化合物水溶液预测技术领域,尤其是涉及一种动态进化鲸鱼优化算法的化合物水溶性预测方法。
背景技术
人体80%是由水构成的,因此水溶性在***和其他药物研发过程中非常重要,其对各种药物的毒性和体内功效、生物活性、药代动力学等性质有着重要的影响。在药物研发的每个阶段都应重点关注药物的水溶性,准确高效进行化合物水溶性预测是降低药物研发的成本,保证药物研发成功的关键;化合物水溶性预测在涂料的选材,涂层和电池设计等方面都非常重要,如何测定和预测化合物的水溶性是一个复杂而普遍的难题,逐渐引起人们的关注与重视。
对于化合物水溶性的预测能够有效地推动医药行业的发展,但是目前对于化合物水溶性的预测,主要使用基于传统的动力学和热力学方法,其具有成本高、无法实现大规模化合物筛选的特点。
传统的机器学习方法能够实现化合物的水溶性预测,但是数据的输入特征和数据量较少使得模型准确率不高,而当数据量足够大时,运算效率又会很慢,制约了传统机器学习的准确率。深度学习的出现极好的解决了这一问题,其中LSTM作为深度学习了一种,被广泛用于数据的预测与分析,已成功解决空气污染、交通流量等的预测;然而LSTM神经网络具有很多的参数,这些参数很大程度上影响LSTM神经网络的预测效果。
例如,一种在中国专利文献上公开的“基于WOA-LSTM-MC的水文时间序列预测优化方法”,其公开号为CN112733997A,包括寻优精度较低,算法收敛速度较慢,导致算法计算效率低等问题。
发明内容
本发明是为了克服现有技术中,对化合物的水溶性预测成本高、无法实现大规模化合物筛选,机器学习方法数据的输入特征和数据量较少使得模型准确率不高,而当数据量足够大时,运算效率降低,制约了传统机器学习的准确率等问题,提供一种动态进化鲸鱼优化算法的化合物水溶性预测方法,提高寻优精度、算法收敛速度,提高算法计算效率。
为了实现上述技术目的,本发明采用以下技术方案:
一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,具体包括以下步骤:
步骤S1:采集化合物水溶性数据,形成数据集,并结合数据集将采集数据划分为训练集和试验集。
步骤S2:使用多种群和种群动态进化策略对传统的鲸鱼优化算法进行优化,提高鲸鱼优化算法的寻优精度与收敛速度。
步骤S3:使用多种群动态进化的鲸鱼优化算法对LSTM神经网路模型的迭代次数Max_epochs、批处理量大小Batch_size、隐藏层的神经元个数Hidden_size、神经网络的学习率Lr进行参数优化,确定具有最优参数组合的LSTM神经网络模型。
步骤S4:根据步骤S3所得的LSTM模型,进行化合物水溶性预测分析过程。
对传统的鲸鱼优化算法进行优化,提高了寻优精度和算法收敛效率,再将这种优化后的鲸鱼优化算法用于LSTM神经网络参数的优化,再将优化后的LSTM神经网络应用于化合物水溶性预测,提高了化合物水溶性预测的准确率和神经网络参数寻优的效率。
作为优选,所述步骤S1中对化合物水溶性数据集进行划分后,还包括对数据预处理、对噪音数据的清洗以及数据归一化处理步骤。
作为优选,所述步骤S2中使用多种群和种群动态进化的策略改进鲸鱼优化算法包括以下步骤:
步骤S2-1:进行参数初始化:设置种群数量为N,每个个体的维度为M,M即为所要解决问题的维数,算法的最大迭代次数为T,算法的当前迭代次数t=0,初始化出一个N行M列的矩阵代表初始的种族,每一行代表一个个体,每个个体是一个M维向量,代表M维为题的一个解,种群的初始矩阵为:
步骤S2-2:计算个体的适应度值:根据适应度函数f(x)计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体。
步骤S2-3:多种群的鲸鱼优化算法:根据鲸鱼个体的适应度值将鲸鱼个体划分为三个数量相等的子种群,具有最差适应度值的个体组成探索种群增强全局探索能力;具有最优适应度值的个体组成开发种群增强算法的收敛速度与局部搜索能力并提高算法的求解精度;剩下的个体组成普通种群用于平衡算法的全局探索能力与局部搜索能力。
其中,探索种群位置的更新机制如下所示:
D=|C.X*(t)-X(t))|
A=2a.r-a
C=2.r
X(t+1)=Xrand(t)-A.D
上式中,Xrand为鲸鱼种群中随机选择一头鲸鱼,r为0至1之间的随机数,a随着迭代的增加从2线性递减至0。
开发种群的位置更新机制如下所示:
D=|X*(t)-X(t)
上式中,p为0到1之间满足均匀分布的随机数,b=1,l为-1到1之间的随机数,X*(t)为最佳鲸鱼所在的位置。
普通种群的位置更新机制如下所示:
上式中,p1和p2为0到1之间满足均匀分布的随机数。
步骤S2-4:判定鲸鱼优化算法是否陷入局部最优解,对于群体智能优化算法而言,算法的当前最优解指的是算法运行以来获得到的最好计算结果,如果当前的最优解在一次迭代后没有更新,说明算法暂时没有发现更优解,因此该算法进入局部最优状态,所以当以下公式满足时,则判断为算法进入局部最优状态,公式如下所示:
X*(t)==X*(t+2)
上式中,t为算法的当前迭代次数,上市表面鲸鱼优化算法连续三次迭代都没有更新当前的最优解,则判断为当前算法进入局部最优状态。
步骤S2-5:当鲸鱼优化算法进入局部最优状态,根据适应度函数计算种群中每个个体的适应度值并重新划分为三个种群,此时进行种群的动态进化。
步骤S2-6:探索种群方向扩大自己的当前位置从而扩大种群的搜索范围,并增强算法的全局探索能力,其种群的进化通过以下公式进行:
r=rand[0,1]+1
X(t)=X*(t).r
步骤S2-7:开发种群利用当前的最优解进行深度局部搜索从而加快算法的收敛速度并增强求解精度,其种群的进化通过以下公式进行:
r=rand[0,1]
(t)=X*(t).r
步骤S2-8:普通种群用自己的反向解更新自己的位置,其种群的进化通过以下公式进行:
上式中,lb为问题解空间的下界,ub为问题解空间的上界,fit()为适应度函数。
步骤S2-9:判断算法是否达到了循环结束条件,当t=T时,即算法达到了最大迭代次数,此时结束算法输出最优解,否则,返回步骤S2-2。
作为优选,所述步骤S3中使用多种群动态进化的鲸鱼优化算法对LSTM神经网路模型的迭代次数Max_epochs、批处理量大小Batch_size、隐藏层的神经元个数Hidden_size、神经网络的学习率Lr进行参数优化,确定具有最优参数组合的LSTM神经网络模型的具体过程如下所示:
步骤S3-1:确定LSTM网络模型的结构为单层LSTM网络,包括输入和输出结构,模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr;使用化合物水溶性数据的训练集进行模型训练。
步骤S3-2:多种群动态进化的鲸鱼优化算法的初始化:多种群动态进化的鲸鱼优化算法的位置向量对应步骤S3-1中的LSTM网络的参数,也就是说多种群动态进化的鲸鱼优化算法的位置向量包含四个维度,分别对应LSTM模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr。同时初始化算法的其它参数包括:种群数量为N、算法的最大迭代次数为T、算法的当前迭代次数t=0,鲸鱼个体设为:X=(X1,X2,X3,X4)。
步骤S3-3:计算个体的适应度值,根据适应度函数计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体,这里的适应度函数为LSTM神经网络模型预测值与实际值之间的均方根误差RMSE,计算公式如下所示:
上式中,y(t)表示测试集中第t个化合物水溶性数据的真实值,y′(t)表示第t个化合无水溶性数据的真实值,n为化合物水溶性测试集中的数据总个数。
步骤S3-4:根据适应度值将种群划分为三个数量相等的子种群。
步骤S3-5:当满足步骤S2-4的局部最优判断公式,则判定鲸鱼优化算法进入局部最优状态。
步骤S3-6:当鲸鱼优化算法陷入局部最优解,此时进行种群的动态进化。
步骤S3-7:判断算法是否达到了循环结束条件,当t=T时,即算法达到最大迭代次数,此时结束算法并输出最优解;反之,则返回步骤S3-3继续循环。
作为优选,所述步骤S3-4包括以下步骤:
步骤S3-4-1:对于探索种群,采用步骤S2-3中探索种群位置的更新机制来更新下一代的位置。
步骤S3-4-2:对于开发种群,采用步骤S2-3中开发种群的位置更新机制来更新下一代的位置。
步骤S3-4-3:对于普通种群,采用步骤S2-3中普通种群的位置更新机制来更新下一代的位置。
作为优选,所述步骤S3-6包括以下步骤:
步骤S3-6-1:对于探索种群,根据步骤S2-6的位置更新机制来进行种群的动态进化。
步骤S3-6-2:对于开发种群,根据步骤S2-7的位置更新机制来进行种群的动态进化。
步骤S3-6-3:对于普通种群,根据步骤S2-8的位置更新机制来进行种群的动态进化。
作为优选,所述步骤S4包括以下步骤:
步骤S4-1:当步骤S3-7输出最优解后将最优解位置向量上的值作为LSTM网络的最优参数,构建LSTM网络。
步骤S4-2:将训练好的具有最优参数组合的LSTM神经网络模型在化合物水溶性数据集的测试集上进行预测;输出预测值并进行反归一化得出最终预测结果。
因此,本发明的有益效果如下所示:
1.对传统的鲸鱼优化算法进行优化,提高了寻优精度和算法收敛效率,再将这种优化后的鲸鱼优化算法用于LSTM神经网络参数的优化,再将优化后的LSTM神经网络应用于化合物水溶性预测,提高了化合物水溶性预测的准确率和神经网络参数寻优的效率;
2.将深度学习与群体智能优化算法应用于化合物水溶性预测,为化合物相关性质预测的研究工作提供有价值的样本参考。
附图说明
图1是本发明的整体工作流程图;
图2是本发明中基于多种群动态进化的鲸鱼优化算法流程图;
图3是本发明中基于多种群动态进化的鲸鱼优化算法优化LSTM参数的工作流程图;
图4是本发明中基于多种群动态进化的鲸鱼优化算法与其他优化算法的适应度收敛曲线图;
图5是本发明中基于多种群动态进化鲸鱼优化算法的化合物水溶性预测装置示意图。
具体实施方式
下面将结合附图和实施例对本发明作进一步具体的描述。
实施例一
本实施例的化合物水溶性数据预测,通过一个公开访问的化合物水溶性数据集AqSolDB进行模型的训练与预测;本实施例的目的是通过分析化合物的分子信息从而预测化合物的水溶性。
如图1所示,对化合物水溶性数据集进行预处理与特征提取,然后使用多种群、动态进化策略优化鲸鱼算法,提高提高鲸鱼优化算法的寻优精度与收敛速度;使用改进后的鲸鱼算法对于LSTM进行寻优,构建深度学习模型;使用构建的深度学习对化合物水溶性进行预测;具体包括以下步骤:
步骤S1:对化合物水溶性数据集进行划,分为训练集和测试集,进行数据预处理与特征提取。
步骤S1-1:对化合物水溶性数据集进行划分,70%作为训练集用于模型的训练,30%作为测试集用于模型的预测。
步骤S1-2:对划分的训练集和测试集进行数据的归一化,归一化采用Min-Max方式进行标准化,计算公式如下:
上式中,x表示化合物数据的原始特征,x'表示标准化之后的特征。数据标准化是为了去除数据的单位限制,将数据转化为0到1之间的纯数值,在一定程度上可以提高模型的收敛速度与预测精度。
步骤S2:使用多种群和种群动态进化的策略去优化传统的鲸鱼优化算法,提高鲸鱼优化算法的寻优精度与收敛速度。
步骤S3:使用多种群动态进化的鲸鱼优化算法(MDEWOA)对LSTM神经网络模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr进行参数寻优,从而确定具有最优参数组合的LSTM神经网络模型。
步骤S4:使用步骤S3所得的LSTM模型在化合物水溶性数据集的训练集上进行训练,然后用训练好的模型在测试集上得出模型的预测结果。
上述实施例中,基于多种群动态进化的鲸鱼优化算法的改进过程如图2所示,其中,步骤S2具体包括以下步骤:
步骤S2-1:初始化参数
设置种群数量为N,每个个体的维数为M维即所要解决问题的维数、算法的最大迭代次数为T、算法的当前迭代次数t=0,初始化出一个N行M列的矩阵代表初始的种群,每一行代表一个个体,每个个体是一个M维向量,代表M维为题的一个解。
步骤S2-2:计算个体的适应度值
根据适应度函数f(x)计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体。
步骤S2-3:多种群的鲸鱼优化算法
根据鲸鱼个体的适应度值将鲸鱼个体划分为三个数量相等的子种群,具有最差适应度值的个体组成探索种群增强全局探索能力;具有最优适应度值的个体组成开发种群增强算法的收敛速度与局部搜索能力并提高算法的求解精度;剩下的个体组成普通种群用于平衡算法的全局探索能力与局部搜索能力。
其中,探索种群位置的更新机制如下所示:
D=|C.X*(t)-X(t))|
A=2a.r-a
C=2.r
X(t+1)=Xrand(t)-A.D
上式中,Xrand为鲸鱼种群中随机选择一头鲸鱼,r为0至1之间的随机数,a随着迭代的增加从2线性递减至0。
开发种群的位置更新机制如下所示:
D'=|X*(t)-X(t)|
上式中,p为0到1之间满足均匀分布的随机数,b=1,l为-1到1之间的随机数,X*(t)为最佳鲸鱼所在的位置。
普通种群的位置更新机制如下所示:
上式中,p1和p2为0到1之间满足均匀分布的随机数。
步骤S2-4:判定鲸鱼优化算法是否陷入局部最优
对于群体智能优化算法而言,算法的当前最优解指算法运行以来获得到的最好结果,如果当前最优解在一次迭代后没有更新,说明算法没有发现更好的解,因此算法陷入了局部最优,所以当以下公式满足时我们判定算法陷入局部最优。
X*(t)==X*(t+2)
其中t为算法的当前迭代次数,上面的公式表明鲸鱼优化算法连续三次迭代都没有更新当前的最优解,因此我们判定算法陷入了局部最优。
步骤S2-5:当鲸鱼优化算法进入局部最优状态,根据适应度函数计算种群中每个个体的适应度值并重新划分为三个种群,此时进行种群的动态进化。
步骤S2-6:探索种群方向扩大自己的当前位置从而扩大种群的搜索范围,并增强算法的全局探索能力,其种群的进化通过以下公式进行:
r=rand[0,1]+1
X(t)=X*(t).r
步骤S2-7:开发种群利用当前的最优解进行深度局部搜索从而加快算法的收敛速度并增强求解精度,其种群的进化通过以下公式进行:
r=rand[0,1]
(t)=X*(t).r
步骤S2-8:普通种群用自己的反向解更新自己的位置,其种群的进化通过以下公式进行:
上式中,lb为问题解空间的下界,ub为问题解空间的上界,fit()为适应度函数。
步骤S2-9:判断算法是否达到了循环结束条件,当t=T时,即算法达到了最大迭代次数,此时结束算法输出最优解,否则,返回步骤S2-2。
如图3所示,给出了本实例中基于多种群动态进化的鲸鱼优化算法优化LSTM神经网络参数的过程。
其中,步骤S3包括以下步骤:
步骤S3-1:确定LSTM网络模型的结构为单层LSTM网络,包括输入和输出结构,模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr;使用化合物水溶性数据的训练集进行模型训练。
步骤S3-2:多种群动态进化的鲸鱼优化算法的初始化:多种群动态进化的鲸鱼优化算法的位置向量对应步骤S3-1中的LSTM网络的参数,也就是说多种群动态进化的鲸鱼优化算法的位置向量包含四个维度,分别对应LSTM模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr。同时初始化算法的其它参数包括:种群数量为N、算法的最大迭代次数为T、算法的当前迭代次数t=0,鲸鱼个体设为:X=(X1,X2,X3,X4)。
步骤S3-3:计算个体的适应度值,根据适应度函数计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体,这里的适应度函数为LSTM神经网络模型预测值与实际值之间的均方根误差RMSE,计算公式如下所示:
上式中,y(t)表示测试集中第t个化合物水溶性数据的真实值,y′(t)表示第t个化合无水溶性数据的真实值,n为化合物水溶性测试集中的数据总个数。
步骤S3-4:根据适应度值将种群划分为三个数量相等的子种群,具体包括以下步骤:
步骤S3-4-1:对于探索种群,采用步骤S2-3中探索种群位置的更新机制来更新下一代的位置。
步骤S3-4-2:对于开发种群,采用步骤S2-3中开发种群的位置更新机制来更新下一代的位置。
步骤S3-4-3:对于普通种群,采用步骤S2-3中普通种群的位置更新机制来更新下一代的位置。
步骤S3-5:当满足步骤S2-4的局部最优判断公式,则判定鲸鱼优化算法进入局部最优状态。
步骤S3-6:当鲸鱼优化算法陷入局部最优解,此时进行种群的动态进化,具体包括以下步骤:
步骤S3-6-1:对于探索种群,根据步骤S2-6的位置更新机制来进行种群的动态进化。
步骤S3-6-2:对于开发种群,根据步骤S2-7的位置更新机制来进行种群的动态进化。
步骤S3-6-3:对于普通种群,根据步骤S2-8的位置更新机制来进行种群的动态进化。
步骤S3-7:判断算法是否达到了循环结束条件,当t=T时,即算法达到最大迭代次数,此时结束算法并输出最优解;反之,则返回步骤S3-3继续循环。
对于步骤S4,详细内容包括以下步骤:
步骤S4.1:当步骤S3输出最优解后将最优解位置向量上的值作为LSTM网络的最优参数,构建LSTM网络。
步骤S4.2:将具有最优参数组合的LSTM神经网络模型在化合物水溶性数据集的训练集上训练并在测试集上进行预测;输出预测值并进行反归一化得出最终预测结果。
本发明专利将粒子群优化算法、樽海鞘群优化算法和鲸鱼优化算法与本发明中基于多种群动态进化的鲸鱼优化算法进行比较,分析它们在基准测试函数Schwefel 2.26上的适应度收敛曲线,上述四种算法的适应度收敛曲线如图4所示。
对四种算法的收敛曲线进行分析,本发明使用多种群和种群动态进化的策略改进了鲸鱼优化算法,使得本发明的算法具有更强的全局探索能力和局部搜索能力,同时加快了算法的收敛速度,因此本实施例中的基于多种群动态进化的鲸鱼优化算法无论在收敛速度上还是寻优精度上都明显优于其它算法。
使用该方法进行化合物水溶性预测,表1为本实例中的模型与其它智能优化算法优化LSTM神经网络模型的结果对比,我们通过分析各模型在训练集和测试集上的RMSE来评价模型的性能。
表1
通过分析表1我们可以看出,在化合物水溶性预测方面上,本发明提出的方法无论在训练集还是在测试集上都可以达到更高的预测精度;这是因为基于多种群动态进化的鲸鱼优化算法具有强大的全局探索能力和局部搜索能力,可以有效的对LSTM神经网络模型进行优化,使得LSTM神经网络模型获得一个更好的参数组合,提高了模型的预测精度,因此,得到较优的化合物水溶性预测效果。
如图5所示,根据本发明的上述实施例,为本发明提供了一种基于群体智能算法化合物水溶性预测装置,该装置包括:
数据获取模块,数据预处理模块,数据建模模块,模型预测模块。
数据获取模块,用于获取待预测化合物结构;
数据预处理模块:用于对获取的化合物数据进行标准化处理;
数据建模模块:使用鲸鱼优化算法优化LSTM参数,构建化合物水溶性预测模型;
模型预测模块:使用构建的预测模型对于化合物进行水溶性预测。
以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果,但以上仅为本发明的较佳实施例,需要言明的是,上述实施例及其优选方式所涉及的技术特征,本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下,合理地组合搭配成多种等效方案;因此,本发明不以图面所示限定实施范围,凡是依照本发明的构想所作的改变,或修改为等同变化的等效实施例,仍未超出说明书与图示所涵盖的精神时,均应在本发明的保护范围内。
Claims (7)
1.一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,具体包括以下步骤:
步骤S1:采集化合物水溶性数据,形成数据集,并结合数据集将采集数据划分为训练集和试验集;
步骤S2:使用多种群和种群动态进化策略对传统的鲸鱼优化算法进行优化,提高鲸鱼优化算法的寻优精度与收敛速度;
步骤S3:使用多种群动态进化的鲸鱼优化算法对LSTM神经网路模型的迭代次数Max_epochs、批处理量大小Batch_size、隐藏层的神经元个数Hidden_size、神经网络的学习率Lr进行参数优化,确定具有最优参数组合的LSTM神经网络模型;
步骤S4:根据步骤S3所得的LSTM模型,进行化合物水溶性预测分析过程。
2.根据权利要求1所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S1中对化合物水溶性数据集进行划分后,还包括对数据预处理、对噪音数据的清洗以及数据归一化处理步骤。
3.根据权利要求1或2所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S2中使用多种群和种群动态进化的策略改进鲸鱼优化算法包括以下步骤:
步骤S2-1:进行参数初始化:设置种群数量为N,每个个体的维度为M,M即为所要解决问题的维数,算法的最大迭代次数为T,算法的当前迭代次数t=0,初始化出一个N行M列的矩阵代表初始的种族,每一行代表一个个体,每个个体是一个M维向量,代表M维为题的一个解,种群的初始矩阵为:
步骤S2-2:计算个体的适应度值:根据适应度函数f(x)计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体;
步骤S2-3:多种群的鲸鱼优化算法:根据鲸鱼个体的适应度值将鲸鱼个体划分为三个数量相等的子种群,具有最差适应度值的个体组成探索种群增强全局探索能力;具有最优适应度值的个体组成开发种群增强算法的收敛速度与局部搜索能力并提高算法的求解精度;剩下的个体组成普通种群用于平衡算法的全局探索能力与局部搜索能力,
其中,探索种群位置的更新机制如下所示:
D=|C.X*(t)-X(t))|
A=2a.r-a
C=2.r
X(t+1)=Xrand(t)-A.D
上式中,Xrand为鲸鱼种群中随机选择一头鲸鱼,r为0至1之间的随机数,a随着迭代的增加从2线性递减至0;
开发种群的位置更新机制如下所示:
D’=|X*(t)-X(t)|
上式中,p为0到1之间满足均匀分布的随机数,b=1,l为-1到1之间的随机数,X*(t)为最佳鲸鱼所在的位置;
普通种群的位置更新机制如下所示:
上式中,p1和p2为0到1之间满足均匀分布的随机数;
步骤S2-4:判定鲸鱼优化算法是否陷入局部最优解,对于群体智能优化算法而言,算法的当前最优解指的是算法运行以来获得到的最好计算结果,如果当前的最优解在一次迭代后没有更新,说明算法暂时没有发现更优解,因此该算法进入局部最优状态,所以当以下公式满足时,则判断为算法进入局部最优状态,公式如下所示:
X*(t)==X*(t+2)
上式中,t为算法的当前迭代次数,上市表面鲸鱼优化算法连续三次迭代都没有更新当前的最优解,则判断为当前算法进入局部最优状态;
步骤S2-5:当鲸鱼优化算法进入局部最优状态,根据适应度函数计算种群中每个个体的适应度值并重新划分为三个种群,此时进行种群的动态进化;
步骤S2-6:探索种群方向扩大自己的当前位置从而扩大种群的搜索范围,并增强算法的全局探索能力,其种群的进化通过以下公式进行:
r=rand[0,1]+1
X(t)=X*(t).r
步骤S2-7:开发种群利用当前的最优解进行深度局部搜索从而加快算法的收敛速度并增强求解精度,其种群的进化通过以下公式进行:
r=rand[0,1]
(t)=X*(t).r
步骤S2-8:普通种群用自己的反向解更新自己的位置,其种群的进化通过以下公式进行:
上式中,lb为问题解空间的下界,ub为问题解空间的上界,fit()为适应度函数;
步骤S2-9:判断算法是否达到了循环结束条件,当t=T时,即算法达到了最大迭代次数,此时结束算法输出最优解,否则,返回步骤S2-2。
4.根据权利要求1或3所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S3中使用多种群动态进化的鲸鱼优化算法对LSTM神经网路模型的迭代次数Max_epochs、批处理量大小Batch_size、隐藏层的神经元个数Hidden_size、神经网络的学习率Lr进行参数优化,确定具有最优参数组合的LSTM神经网络模型的具体过程如下所示:
步骤S3-1:确定LSTM网络模型的结构为单层LSTM网络,包括输入和输出结构,模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr;使用化合物水溶性数据的训练集进行模型训练;
步骤S3-2:多种群动态进化的鲸鱼优化算法的初始化:多种群动态进化的鲸鱼优化算法的位置向量对应步骤S3-1中的LSTM网络的参数,也就是说多种群动态进化的鲸鱼优化算法的位置向量包含四个维度,分别对应LSTM模型的迭代次数Max_epochs,批处理量大小Batch_size,隐藏层的神经元个数Hidden_size,网络的学习率Lr;同时初始化算法的其它参数包括:种群数量为N、算法的最大迭代次数为T、算法的当前迭代次数t=0;
步骤S3-3:计算个体的适应度值,根据适应度函数计算初始种群中每个个体的适应度值,并找出当前最优适应度值的个体,这里的适应度函数为LSTM神经网络模型预测值与实际值之间的均方根误差RMSE,计算公式如下所示:
上式中,y(t)表示测试集中第t个化合物水溶性数据的真实值,y′(t)表示第t个化合无水溶性数据的真实值,n为化合物水溶性测试集中的数据总个数;
步骤S3-4:根据适应度值将种群划分为三个数量相等的子种群;
步骤S3-5:当满足步骤S2-4的局部最优判断公式,则判定鲸鱼优化算法进入局部最优状态;
步骤S3-6:当鲸鱼优化算法陷入局部最优解,此时进行种群的动态进化;
步骤S3-7:判断算法是否达到了循环结束条件,当t=T时,即算法达到最大迭代次数,此时结束算法并输出最优解;反之,则返回步骤S3-3继续循环。
5.根据权利要求4所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S3-4包括以下步骤:
步骤S3-4-1:对于探索种群,采用步骤S2-3中探索种群位置的更新机制来更新下一代的位置;
步骤S3-4-2:对于开发种群,采用步骤S2-3中开发种群的位置更新机制来更新下一代的位置;
步骤S3-4-3:对于普通种群,采用步骤S2-3中普通种群的位置更新机制来更新下一代的位置。
6.根据权利要求4所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S3-6包括以下步骤:
步骤S3-6-1:对于探索种群,根据步骤S2-6的位置更新机制来进行种群的动态进化;
步骤S3-6-2:对于开发种群,根据步骤S2-7的位置更新机制来进行种群的动态进化;
步骤S3-6-3:对于普通种群,根据步骤S2-8的位置更新机制来进行种群的动态进化。
7.根据权利要求1或4所述的一种动态进化鲸鱼优化算法的化合物水溶性预测方法,其特征是,所述步骤S4包括以下步骤:
步骤S4-1:当步骤S3-7输出最优解后将最优解位置向量上的值作为LSTM网络的最优参数,构建LSTM网络;
步骤S4-2:将训练好的具有最优参数组合的LSTM神经网络模型在化合物水溶性数据集的测试集上进行预测;输出预测值并进行反归一化得出最终预测结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210679711.0A CN115062750A (zh) | 2022-06-16 | 2022-06-16 | 一种动态进化鲸鱼优化算法的化合物水溶性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210679711.0A CN115062750A (zh) | 2022-06-16 | 2022-06-16 | 一种动态进化鲸鱼优化算法的化合物水溶性预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062750A true CN115062750A (zh) | 2022-09-16 |
Family
ID=83200524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210679711.0A Withdrawn CN115062750A (zh) | 2022-06-16 | 2022-06-16 | 一种动态进化鲸鱼优化算法的化合物水溶性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115062750A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563487A (zh) * | 2022-09-23 | 2023-01-03 | 江苏安控智汇科技股份有限公司 | 一种基于emd和改进lstm的水质监测方法 |
CN116204794A (zh) * | 2023-05-04 | 2023-06-02 | 国网江西省电力有限公司电力科学研究院 | 一种考虑多维数据的变压器油中溶解气体预测方法及*** |
CN116796611A (zh) * | 2023-08-22 | 2023-09-22 | 成都理工大学 | 基于旗鱼算法与人工神经网络调整桥梁扣索索力的方法 |
CN117437063A (zh) * | 2023-12-11 | 2024-01-23 | 交通银行股份有限公司湖南省分行 | 一种金融风险预测方法及*** |
-
2022
- 2022-06-16 CN CN202210679711.0A patent/CN115062750A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563487A (zh) * | 2022-09-23 | 2023-01-03 | 江苏安控智汇科技股份有限公司 | 一种基于emd和改进lstm的水质监测方法 |
CN116204794A (zh) * | 2023-05-04 | 2023-06-02 | 国网江西省电力有限公司电力科学研究院 | 一种考虑多维数据的变压器油中溶解气体预测方法及*** |
CN116204794B (zh) * | 2023-05-04 | 2023-09-12 | 国网江西省电力有限公司电力科学研究院 | 一种考虑多维数据的变压器油中溶解气体预测方法及*** |
CN116796611A (zh) * | 2023-08-22 | 2023-09-22 | 成都理工大学 | 基于旗鱼算法与人工神经网络调整桥梁扣索索力的方法 |
CN116796611B (zh) * | 2023-08-22 | 2023-10-31 | 成都理工大学 | 基于旗鱼算法与人工神经网络调整桥梁扣索索力的方法 |
CN117437063A (zh) * | 2023-12-11 | 2024-01-23 | 交通银行股份有限公司湖南省分行 | 一种金融风险预测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115062750A (zh) | 一种动态进化鲸鱼优化算法的化合物水溶性预测方法 | |
Połap | An adaptive genetic algorithm as a supporting mechanism for microscopy image analysis in a cascade of convolution neural networks | |
Sun et al. | Gene expression data analysis with the clustering method based on an improved quantum-behaved Particle Swarm Optimization | |
Zeng et al. | Accurately clustering single-cell RNA-seq data by capturing structural relations between cells through graph convolutional network | |
Yang et al. | An efficient hybrid data clustering method based on K-harmonic means and Particle Swarm Optimization | |
Huang et al. | A graph neural network-based node classification model on class-imbalanced graph data | |
CN115050477B (zh) | 一种贝叶斯优化的RF与LightGBM疾病预测方法 | |
CN112926640B (zh) | 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质 | |
CN110298434A (zh) | 一种基于模糊划分和模糊加权的集成深度信念网络 | |
Lu et al. | A novel feature selection method based on CFS in cancer recognition | |
Manur et al. | A prediction technique for heart disease based on long Short term memory recurrent neural network | |
CN104573004B (zh) | 一种基于双阶遗传计算的基因表达数据的双聚类方法 | |
CN117520914A (zh) | 一种单细胞分类方法、***、设备及计算机可读存储介质 | |
Chiang et al. | The application of ant colony optimization for gene selection in microarray-based cancer classification | |
Tewolde et al. | Particle swarm optimization for classification of breast cancer data using single and multisurface methods of data separation | |
CN113742204B (zh) | 一种基于模糊测试的深度学习算子测试方法 | |
Zhou et al. | Attribute weight entropy regularization in fuzzy c-means algorithm for feature selection | |
Liu et al. | Reconstruction of gene regulatory networks based on two-stage Bayesian network structure learning algorithm | |
CN115116619A (zh) | 一种脑卒中数据分布规律智能分析方法及*** | |
CN114334168A (zh) | 结合协同学习策略的粒子群混合优化的特征选择算法 | |
Bagyamani et al. | Biological significance of gene expression data using similarity based biclustering algorithm | |
Liu et al. | Fuzzy C-mean algorithm based on “complete” Mahalanobis distances | |
Bhattacharya et al. | DAFHEA: a dynamic approximate fitness-based hybrid EA for optimisation problems | |
Turkey et al. | An empirical tool for analysing the collective behaviour of population-based algorithms | |
Bai et al. | Clustering single-cell rna sequencing data by deep learning algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220916 |