CN111915097B

CN111915097B - 基于改进遗传算法优化lstm神经网络的水质预测方法

Info

Publication number: CN111915097B
Application number: CN202010818549.7A
Authority: CN
Inventors: 施佺; 包银鑫; 曹阳; 茅一波; 陈海龙; 邵叶秦
Original assignee: Nantong University
Current assignee: Nantong University
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2022-11-11
Anticipated expiration: 2040-08-14
Also published as: CN111915097A

Abstract

本发明公开了一种基于改进遗传算法优化LSTM神经网络的水质预测方法，步骤如下：由无人巡航船搭载的水质传感器采集养殖池温度、溶氧、pH三种原始特征数据并存至HBase数据库中，利用CDH大数据集群Spark计算组件对原始数据进行预处理；再进行Max‑min标准化，利用标准化后数据集构建训练集和测试集；构建基于改进遗传算法优化LSTM神经网络的水质预测模型，优化确定LSTM神经网络和改进遗传算法的基本结构参数；利用构造的训练集训练模型预测养殖池未来某一时刻的水质数据。本发明在LSTM神经网络中引入遗传算法对神经网络训练的步长进行动态调整，从而降低LSTM神经网络预测水质时的相对误差，提高预测精度。

Description

基于改进遗传算法优化LSTM神经网络的水质预测方法

技术领域

本发明属于水质预测领域，具体为一种基于改进遗传算法优化LSTM神经网络的水质预测方法。

背景技术

我国是全球水产养殖第一大国，其产量约占全球养殖60％。根据对养殖失败原因分析发现，导致养殖失败的主要原因有水质问题、气候环境问题、养殖模式问题、苗种质量问题、塘口管理问题以及病害问题，集中表现就是虾苗长不大或者死虾。由于目前国内对虾养殖虾苗一代苗基本依赖进口，因此期望从种苗选育上提高养虾成功率效果不大，所以当前养殖户主要通过努力改善水产养殖水质参数、预防病虫害及提升塘口管理水平方面降低养殖失败率。因此，建立合适的水质预测模型，可以有效的解决水质突变问题，提高养殖产量。

目前关于水质预测的方法有很多，通常使用神经网络进行水质预测。常见的BP神经网络能够对水质数据变化趋势进行预测，但容易陷入局部最优的情况；LSTM神经网络具有较强的时间捕获性，较好的适应水质数据的时序特征，因此LSTM相比于传统的BP神经网络更加准确。但LSTM存在一定局限性，忽视不同时刻的水质指标对结果存在一定影响，且网络结构固定化，不适应不同的水质数据集。

发明内容

发明目的：针对上述问题，本发明引入一种基于改进遗传算法优化LSTM神经网络的水质预测方法。该方法在LSTM神经网络的基础上，引入改进遗传算法对神经网络的训练步长进行动态调整，赋予不同时刻的神经网络不同的训练步长，从而降低训练的误差，提高预测的准确度。

技术方案：一种基于改进遗传算法优化LSTM神经网络的水质预测方法，包括如下步骤：

步骤1)由无人巡航船搭载的水质传感器采集养殖池温度、溶氧、pH三种原始特征数据并存放至HBase集群数据库中，利用CDH大数据集群中Spark内存计算组件对原始特征数据集进行数据预处理，降低数据冗余度和复杂性；

步骤2)将处理过后的数据进行Max-min标准化处理，利用处理好的数据集构建训练集和测试集；

步骤3)构建基于改进遗传算法优化LSTM神经网络的水质预测模型，优化确定LSTM神经网络和改进的遗传算法的基本结构参数；

步骤4)利用构造的训练集训练构建的基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据。

进一步地，所述步骤1中，利用无人巡航船在养殖池中监测一定时间，获得按时间排序的养殖池温度、溶氧、pH三种原始特征数据集D，

D＝{(D_temp1，D_ox1，D_ph1)₁，(D_temp2，D_ox2，D_ph2)₂，...，(D_tempi，D_oxi，D_phi)_n}，其中n表示原始数据集D的记录数量，D_{t empi}，D_oxi，D_phi为第i个时间节点的养殖池温度、溶氧、pH数据。

进一步地，所述步骤2中，利用Max-min标准化方法对养殖池温度、溶氧、pH三种原始特征数据集进行标准化处理，通过下式计算E*：

其中，E_{temp，oxy，ph}表示Max-min标准化前第i个时间节点的养殖池温度、溶氧、pH数据，E_{t emp，oxy，ph} ^*表示Max-min标准化后的第i个时间节点的养殖池温度、溶氧、pH数据，D_{temp，oxy，ph}min表示养殖池温度、溶氧、pH数据中的样本最小值，D_{temp，oxy，ph}max表示养殖池温度、溶氧、pH数据中的样本最大值；

通过对采集的养殖池温度、溶氧、pH数据进行Max-min标准化，获得标准化后的数据集为：

D^*＝{(D_temp1，D_ox1，D_ph1)₁ ^*，(D_temp2，D_ox2，D_ph2)₂ ^*，...，(D_tempi，D_oxi，D_phi)_n ^*}，其中n表示原始数据集D在Max-min标准化后的记录数量，D_tempi ^*，D_oxi ^*，D_phi ^*为第i个时间节点在Max-min标准化后的养殖池温度、溶氧、pH数据；

标准化处理完成后将数据集D^*拆分成训练集Train和测试集Test，训练集的数量为a，则测试集的数量为n-a，在三个特征数据后增加一列新的特征值y，y的值代表当前水质的情况，y的值取值为0或1，0代表水质不正常情况，1代表水质正常的情况，对原始数据集进行水质情况的判断补充。

进一步地，所述步骤3中，构造LSTM神经网络模型和改进遗传算法模型，构造改进遗传算法模型用于优化LSTM神经网络的水质预测模型，具体步骤如下：

步骤3-1：构造LSTM神经网络模型，具体步骤如下：

步骤3-1-1：确定LSTM神经网络的初始网络结构、确定隐藏层层数和输出层层数，初始化训练步长η，确定输出层状态矩阵H＝(h₁，h₂，...，h_q)；

步骤3-1-2：设置LSTM神经网络输入层到隐藏层的连接矩阵U、隐藏层到隐藏层的连接矩阵W、隐藏层到输出层的连接权重V均为随机实数；

步骤3-1-3：设置LSTM神经网络的激活函数，规定输入门、遗忘门和输出门的激活函数均为Sigmod函数，单元状态的激活函数为tanh函数；

步骤3-2：构造改进遗传网络模型，具体步骤如下：

步骤3-2-1：采用二进制编码初始化种群，设置各个参数；

步骤3-2-2：设置适应度函数，计算个体的适应度值，保留适应度最大的个体；

步骤3-2-3：判断是否满足算法结束条件，如果满足收敛条件，则输出结果，否则进入步骤3-2-4；

步骤3-2-4：判断

是否成立，如果成立，则先执行变异操作，然后进行交叉操作；反之先执行交叉操作，然后执行变异操作，最后执行选择操作；

步骤3-2-5：判断选择操作的结果是否满足算法结束条件，若满足结果则结束算法，否则回到步骤3-2-2；

步骤3-3：构造改进遗传算法模型用于优化LSTM神经网络的水质预测模型，具体步骤如下：

步骤3-3-1：利用步骤3-1构建的LSTM神经网络模型作为水质预测模型的主要架构，输入层层数设置为3，输出层输出状态矩阵H；

步骤3-3-2：确定RMSE作为误差评价标准，将RMSE同时作为步骤3-2改进遗传算法的评价函数；

步骤3-3-3：利用步骤3-2改进遗传算法动态计算每次LSTM训练的步长的适应值，确定适应值最优的步长作为LSTM神经网络训练步长η。

进一步地，所述步骤4中，利用构造的训练集训练构建的基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据，具体步骤如下：

步骤4-1：将训练集Train中温度、溶氧、pH数据输入到基于改进遗传算法优化LSTM神经网络的水质预测模型，通过模型得到对应的实际输出

步骤4-2：使用均方根误差

计算水质情况实际预测值与预期输出值的误差；利用反向传播算法将每次运算的误差传递给LSTM每一个神经元，随后利用随机梯度下降法更新每一个连接权重，更新权重后利用改进遗传算法进行训练步长的调整，调整为适应值最大的作为步长；

步骤4-3：设置迭代1000次，在迭代中不断更新LSTM神经网络连接权重。

步骤4-4：利用测试集数据Test测试模型训练效果，LSTM前向计算输出为h(t)：

单元状态：g(t)＝tanh(W_gxx(t)+W_ghh(t-1)+b_g)；

输入门：i(t)＝σ(W_ixx(t)+W_ihh(t-1)+b_i)；

遗忘门：f(t)＝σ(W_fxx(t)+W_fhh(t-1)+b_f)；

输出门：o(t)＝σ(W_oxx(t)+W_ohh(t-1)+b_o)；

当前状态：s(t)＝g(t)*i(t)+s(t-1)*f(t)；

输出：h(t)＝tanh(s(t))*o(t)；

其中i(t)表示当前水质数据中的第t个时间节点的需要更新的信息，

f(t)表示该水质数据中的第t个时间节点需要丢弃的信息，o(t)表示该水质数据中第t个时间节点需要输出的信息，g(t)表示该水质数据在第t个时间节点的单元状态，s(t)表示该水质数据在第t个时间节点的当前状态，

h(t)表示该水质数据中第t个时间节点输出的值；

步骤4-5：将作为测试集的水质数据利用LSTM神经网络前向计算模型进行输出，得到预测的水质数据。

有益效果：本发明的水质预测方法，在LSTM神经网络中引入遗传算法对神经网络训练的步长进行动态调整，从而降低LSTM神经网络预测水质时的相对误差，提高预测精度。

本发明针对LSTM神经网络训练过程中网络结构的固定性，提出一种基于改进遗传算法优化LSTM神经网络的水质预测方法，该方法在LSTM神经网络的基础上，引入改进遗传算法对神经网络的训练步长进行动态调整，赋予不同时刻的神经网络不同的训练步长，从而降低训练的误差，提高预测的准确度，使得水质的预测具有更高的实时性和实用性。

附图说明

图1为本发明的基于改进遗传算法优化LSTM神经网络的水质预测方法步骤示意图；

图2为本发明的基于改进遗传算法优化LSTM神经网络的水质预测方法流程图；

图3为本发明的基于改进遗传算法优化LSTM神经网络模型图；

图4为本发明的基于改进遗传算法优化LSTM神经网络模型测试集数据拟合图。

具体实施方式

下面结合说明书附图对本发明的技术方案做进一步的详细说明。

如图1-4所示，一种基于改进遗传算法优化LSTM神经网络的水质预测方法，包括如下步骤：

所述步骤1中，利用无人巡航船在养殖池中监测一定时间，获得按时间排序的养殖池温度、溶氧、pH三种原始特征数据集D，

D＝{(D_temp1，D_ox1，D_ph1)₁，(D_temp2，D_ox2，D_ph2)₂，...，(D_{temp i}，D_oxi，D_phi)_n}，其中n表示原始数据集D的记录数量，D_{t empi}，D_oxi，D_phi为第i个时间节点的养殖池温度、溶氧、pH数据。

步骤2)将处理过后的数据进行Max-min标准化处理，利用处理后的数据集构建训练集和测试集；

所述步骤2中，使用Max-min标准化方法对养殖池温度、溶氧、pH三种原始特征数据集进行标准化处理，通过下式计算E*：

所述步骤3中，构造LSTM神经网络模型和改进遗传算法模型，构造改进遗传算法模型用于优化LSTM神经网络的水质预测模型，具体步骤如下：

步骤3-1：构造LSTM神经网络模型，具体步骤如下：

步骤3-2：构造改进遗传网络模型，具体步骤如下：

步骤3-2-1：采用二进制编码初始化种群，设置各个参数；

步骤3-2-4：判断

步骤3-3-1：利用步骤3-1构建LSTM神经网络模型作为水质预测模型的主要架构，输入层层数设置为3，输出层输出状态矩阵H；

步骤4)利用构造的训练集训练构建基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据；

所述步骤4中，利用构造的训练集训练基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据，具体步骤如下：

步骤4-2：使用均方根误差

单元状态：g(t)＝tanh(W_gxx(t)+W_ghh(t-1)+b_g)；

输入门：i(t)＝σ(W_ixx(f)+W_ihh(t-1)+b_i)；

遗忘门：f(t)＝σ(W_fxx(t)+W_fhh(t-1)+b_f)；

输出门：o(t)＝σ(W_oxx(t)+W_ohh(t-1)+b_o)；

当前状态：s(t)＝g(t)*i(t)+s(t-1)*f(t)；

输出：h(t)＝tanh(s(t))*o(t)；

其中i(t)表示当前水质数据中的第t个时间节点的需要更新的信息，f(t)表示该水质数据中的第t个时间节点需要丢弃的信息，o(t)表示该水质数据中第t个时间节点需要输出的信息，g(t)表示该水质数据在第t个时间节点的单元状态，s(t)表示该水质数据在第t个时间节点的当前状态，

h(t)表示该水质数据中第t个时间节点输出的值；

以上所述仅为本发明的实验室环境下较佳的实施方式，本发明保护范围并不以上述实施方式为限制，但凡本领域普通技术人员根据本发明所揭示内容所作的等效修改和修饰变化，皆应纳入权利要求书记载的保护范围。

Claims

1.一种基于改进遗传算法优化LSTM神经网络的水质预测方法，其特征在于：所述方法包括如下步骤：

步骤4)利用构造的训练集训练构建的基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据；

所述步骤1中，利用无人巡航船在养殖池中监测一定时间，获得按时间排序的养殖池温度、溶氧、pH三种原始特征数据集D，D＝{(D_temp1，D_ox1，D_ph1)₁，(D_temp2，D_ox2，D_ph2)₂，...，(D_tempi，D_oxi，D_phi)_n}，其中n表示原始数据集D的记录数量，D_tempi，D_oxi，D_phi为第i个时间节点的养殖池温度、溶氧、pH数据；

其中，E_{temp，oxy，ph}表示Max-min标准化前第i个时间节点的养殖池温度、溶氧、pH数据，E_{temp，oxy，ph} ^*表示Max-min标准化后的第i个时间节点的养殖池温度、溶氧、pH数据，D_{temp，oxy，} _phmin表示养殖池温度、溶氧、pH数据中的样本最小值，D_{temp，oxy，ph}max表示养殖池温度、溶氧、pH数据中的样本最大值；

D^*＝{(D_temp1，D_ox1，D_ph1)₁ ^*，(D_temp2，D_ox2，D_ph2)₂ ^*，...，(Dt_empi，D_oxi，D_phi)_n ^*}，其中n表示原始数据集D在Max-min标准化后的记录数量，D_tempi ^*，D_oxi ^*，D_phi ^*为第i个时间节点在Max-min标准化后的养殖池温度、溶氧、pH数据；

标准化处理完成后将数据集D^*拆分成训练集Train和测试集Test，训练集的数量为a，则测试集的数量为n-a，在三个特征数据后增加一列新的特征值y，y的值代表当前水质的情况，y的值取值为0或1，0代表水质不正常情况，1代表水质正常的情况，对原始数据集进行水质情况的判断补充；

步骤3-1：构造LSTM神经网络模型，具体步骤如下：

步骤3-2：构造改进遗传网络模型，具体步骤如下：

步骤3-2-1：采用二进制编码初始化种群，设置各个参数；

步骤3-2-2：设置适应度函数，计算个个体的适应度值，保留适应度最大的个体；

步骤3-2-4：判断

步骤3-3-1：使用步骤3-1构建的LSTM神经网络模型作为水质预测模型的主要架构，输入层层数设置为3，输出层输出状态矩阵H；

步骤3-3-3：使用步骤3-2改进遗传算法动态计算每次LSTM训练的步长的适应值，确定适应值最优的步长作为LSTM神经网络训练步长η；

所述步骤4中，利用构造的训练集训练构建的基于改进遗传算法优化LSTM神经网络的水质预测模型预测养殖池未来某一时刻的水质数据，具体步骤如下：

步骤4-2：使用均方根误差

步骤4-3：设置迭代1000次，在迭代中不断更新LSTM神经网络连接权重;

单元状态：g(t)＝tanh(W_gxx(t)+W_ghh(t-1)+b_g)；

输入门：i(t)＝σ(W_ixx(t)+W_ihh(t-1)+b_i)；

遗忘门：f(t)＝σ(W_fxx(t)+W_fhh(t-1)+b_f)；

输出门：o(t)＝σ(W_oxx(t)+W_ohh(t-1)+b_o)；

当前状态：s(t)＝g(t)*i(t)+s(t-1)*f(t)；

输出：h(t)＝tanh(s(t))*o(t)；

其中i(t)表示当前水质数据中的第t个时间节点的需要更新的信息，f(t)表示该水质数据中的第t个时间节点需要丢弃的信息，o(t)表示该水质数据中第t个时间节点需要输出的信息，g(t)表示该水质数据在第t个时间节点的单元状态，s(t)表示该水质数据在第t个时间节点的当前状态，h(t)表示该水质数据中第t个时间节点输出的值；