CN117252285A

CN117252285A - 基于并行cnn-gru网络的多指标污水水质预测方法

Info

Publication number: CN117252285A
Application number: CN202310303449.4A
Authority: CN
Inventors: 史红伟; 陈祺; ***
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-12-19

Abstract

本发明涉及一种基于并行CNN‑GRU网络的多指标污水水质预测方法，包括步骤：对历史入水和出水数据进行数据预处理后，构建入水和出水二维矩阵，形成数据集并进行划分，其中入水和出水二维矩阵分别由多项入水和出水输入指标的值组成；构建多网络组合模型，其包括两路并行的CNN‑GRU网络及DNN网络；对模型进行训练，得到训练好的模型；利用训练好的模型对待预测的历史水质数据进行预测，得到多指标污水水质预测结果，包括未来时间点下的出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量的值。本发明采用多指标输入、多指标输出的预测方法，能够充分利用其他水质指标和预测指标之间的生化关系，从而提高预测准确率。

Description

基于并行CNN-GRU网络的多指标污水水质预测方法

技术领域

本发明涉及污水处理领域和人工智能领域，特别是涉及一种基于并行CNN-GRU网络的多指标污水水质预测方法，该方法采用不同的神经网络组合利用出水、入水历史数据对未来出水的多个指标进行预测。

背景技术

污水处理在水资源的使用中具有重要作用，特别是在一些城镇中，伴随着城镇的发展和城镇人口的快速增加，城市的污水量急剧增加，城镇污水处理的压力大增。城镇污水厂应用最广的是CASS污水处理工艺，但由于CASS工艺采取间歇式处理，其工艺调整更加复杂。出水水质预测算法可以为生产工艺优化提供数据支撑和优化依据，是工艺调整的重要环节。

目前大多数污水水质预测方法采取了单一指标输入预测单一指标的方式，这种方法忽视了污水水质成分复杂，各个成分之间的相互影响，导致水质预测准确率较低。

发明内容

针对传统的单指标预测方法由于忽视了污水水质成分复杂，各个成分之间的相互影响，导致水质预测准确率较低的问题，本发明提供了一种基于并行CNN-GRU网络的多指标污水水质预测方法，该方法采用污水厂实际生产中的历史入水、出水数据对多网络组合模型进行训练，利用训练好的模型对未来出水数据进行预测，实现了对未来出水水质中的多项指标进行预测。

为实现上述目的，本发明采取如下的技术方案：

一种基于并行CNN-GRU网络的多指标污水水质预测方法，包括以下步骤：

步骤1：获取污水处理厂的历史入水数据和历史出水数据，并对所述历史入水数据和所述历史出水数据分别进行数据预处理，包括异常值的检测、残缺值的填充和数据归一化处理；

步骤2：根据处理后的历史入水数据和历史出水数据分别构建入水二维矩阵和出水二维矩阵，形成数据集，并将数据集划分为训练集、测试集和验证集；

在所述入水二维矩阵中，同一行内的各个元素为同一个历史时间点下多项入水输入指标的值，且各行的历史时间点不同，其中多项入水输入指标分别为气温、降水量、入水化学需氧量、入水PH值、入水氨氮量、入水流量、曝气时间、平均曝气溶氧量和平均曝气溶氧量方差；

在所述出水二维矩阵中，各行的历史时间点与所述入水二维矩阵中各行的历史时间点一一对应相同，且同一行内的各个元素为同一个历史时间点下多项出水输入指标的值，其中多项出水输入指标分别为出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量；

步骤3：构建多网络组合模型，所述多网络组合模型包括两路并行的CNN-GRU网络以及与CNN-GRU网络连接的DNN网络，其中CNN网络用于获得数据中的权重并输入到GRU网络，GRU网络用于获取水质时间序列并输入到DNN网络，DNN网络进行出水水质预测，输出未来时间点下的多指标污水水质预测数据，所述多指标污水水质预测数据包括出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量的值；

步骤4：将训练集中的入水二维矩阵和出水二维矩阵分别输入到多网络组合模型的两路并行的CNN-GRU网络中，进行模型训练，找出网络的最佳权重和偏置；每次训练完成后，将测试集中的入水二维矩阵和出水二维矩阵分别输入到多网络组合模型的两路并行的CNN-GRU网络中，找出最佳的超参数、损失函数、优化器和激活函数，其中超参数包括卷积核大小、各个神经网络隐藏层数目、学***均误差，优化器为自适应矩阵估计，激活函数为tanh函数；经过多轮训练及测试后，利用验证集对训练好的模型进行验证，验证过程采用的评估指标为拟合优度、均方误差以及平均百分比误差；

步骤5：利用步骤4中训练好的模型对待预测的历史水质数据进行预测，得到多指标污水水质预测结果。

本发明的主要有益效果如下：

(1)本发明所提出的多指标污水水质预测方法是一种多指标输入、多指标输出的预测方法，相比于传统的单指标预测方法，本发明充分利用其他水质指标和预测指标之间的生化关系，从而提高预测准确率；

(2)本发明中的多网络组合模型中采取的两列CNN-GRU网络并行运算，其中CNN-GRU网络结合了卷积神经网络对数据特征高效提取的能力和递归神经网络对时序关系处理的能力；利用两个CNN-GRU网络的并行运算，可以同时从出水和入水之间的生化关系，以及出水水质本身时间序列内的时间关系这两个维度来预测出水水质；并且本发明提出的模型结构简单，实施高效，误差率小，在污水出水预测上，取得了较为理想的效果；

(3)本发明通过构建组合神经网络，一方面可以构建出水入水之间的生化模型，另一方面可以构建出水内的时序关系，同时在输入输出指标上采取多指标预测，使其能在水质复杂的环境种应用。

附图说明

图1为本发明其中一个实施例所述的基于并行CNN-GRU网络的多指标污水水质预测方法的流程图；

图2为本发明中多网络组合模型的输入输出之间的时序关系图；

图3为本发明中多网络组合模型的输入输出之间的具体指标关系图；

图4为本发明中多网络组合模型的结构示意图；

图5为多网络组合模型使用的CNN网络结构示意图；

图6为多网络组合模型使用的GRU网络结构示意图。

具体实施方式

下面将结合附图及较佳实施例对本发明的技术方案进行详细描述。

在其中一个实施例中，如图1所示，本发明提供一种基于并行CNN-GRU网络的多指标污水水质预测方法，该方法具体包括以下步骤：

步骤1：获取污水处理厂的历史入水数据和历史出水数据，并对历史入水数据和历史出水数据分别进行数据预处理，包括异常值的检测、残缺值的填充和数据归一化处理。

在本步骤中，对污水厂提取的历史数据进行数据预处理，数据预处理的过程具体包括：

异常值的检测：先查询采集到的污水厂实际生产数据中的异常值(超大值、负值)并进行删除，留下删除的异常值对应的空缺；

残缺值的填充：然后利用线性插值法补齐缺失值，线性插值法的计算公式为：

x_k＝x_w+(x_r-x_w)(k-w)/(r-w)

式中：k为缺失数据的序列号，w为缺失数据前面最近的已知数据的序列号，r为缺失数据后面最近的已知数据的序列号，x_k为要补齐的值；x_w为x_k前面最近的已知数据；x_r为x_k后面最近的已知数据；

数据归一化处理：为了加快梯度下降速度，将水质数据按公式进行归一化，使用最大最小标准化将所有数据缩放到[0,1]范围内。归一化的公式为：

x′＝(x-x_min)/(x_max-x_min)

式中，x为待归一化的数据；x′为归一化后的数据；x_max、x_min分别为输入数据的最大值、最小值。

步骤2：根据处理后的历史入水数据和历史出水数据分别构建入水二维矩阵和出水二维矩阵，形成数据集，并将数据集划分为训练集、测试集和验证集。

在入水二维矩阵中，同一行内的各个元素为同一个历史时间点下多项入水输入指标的值，且各行的历史时间点不同，其中多项入水输入指标分别为气温、降水量、入水化学需氧量(入水COD)、入水PH值、入水氨氮量、入水流量、曝气时间、平均曝气溶氧量和平均曝气溶氧量方差，各个指标可根据生产实际情况增删；

在出水二维矩阵中，各行的历史时间点与入水二维矩阵中各行的历史时间点一一对应相同，且同一行内的各个元素为同一个历史时间点下多项出水输入指标的值，其中多项出水输入指标分别为出水化学需氧量(出水COD)、出水PH值、出水氨氮量、出水总磷量和出水总氮量，各个指标可根据生产实际情况增删；

如图2所示，以入水二维矩阵和出水二维矩阵均采用24个历史时间点(t1～t24)下多项入水输入指标的值(入水数据)和多项出水输入指标的值(出水数据)作为输入，预测1个未来时间点(t25)下的多指标污水水质预测数据(出水数据)为例，并且如图3所示，在该实例中多项入水输入指标分别为气温、降水量、入水化学需氧量、入水PH值、入水氨氮量、入水流量、曝气时间、平均曝气溶氧量和平均曝气溶氧量方差，多项出水输入指标分别为出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量，预测的多指标污水水质预测数据分别为出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量的值。具体如下：

多网络组合模型的输入由过去24个点入水、出水数据组成的二维矩阵，具体为：

其中，分别表示第ti个历史时间点下气温、降水量、入水化学需氧量、入水PH值、入水氨氮、入水流量、曝气时间、平均曝气溶氧量和平均曝气溶氧量方差的值；/>分别表示第ti个历史时间点下出水化学需氧量、出水PH值、出水氨氮、出水总磷和出水总氮的值。

多网络组合模型的输出为由第25个时间点出水水质数据组成的一维矩阵具体为：

其中，分别表示第25个历史时间点下出水化学需氧量、出水PH值、出水氨氮、出水总磷和出水总氮的值。

数据集的划分：数据集按照6:2:2划分为训练集、测试集、验证集。训练集用于训练模型，找出最佳的权重和偏置；测试集对训练模型进行筛选，找出最佳的超参数；验证集仅用于对训练好的模型进行性能评估。

步骤3：构建多网络组合模型。

本实施例中的多网络组合模型采取多输入(历史入水数据、历史出水数据)、单输出(未来出水数据)，采用门控循环神经网络(GRU)、卷积神经网络(CNN)、全连接神经网络(DNN)组合的神经网络模型。将划分好的训练集输入到模型中对模型进行训练，同时每次训练后将测试集输入模型，通过对比训练集和测试集输出的模型指标来确定模型具体参数。

如图4所示，多网络组合模型包括两路并行的CNN-GRU网络以及与两路并行的CNN-GRU网络连接的DNN网络，其中CNN网络用于获得数据中的权重并输入到GRU网络，GRU网络用于获取水质时间序列并输入到DNN网络，DNN网络进行出水水质预测，输出未来时间点下的多指标污水水质预测数据，该多指标污水水质预测数据包括出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量的值。

在对多网络组合模型进行训练时，先将入水二维矩阵和出水二维矩阵分别输出到两路并行的CNN(卷积神经网络)以获得数据中的权重后输入到GRU(门控循环神经网络)获取时序关系，最后输入到DNN(全连接神经网络)输出出水预测数据，具体神经网络使用如下：

先将入水二维矩阵和出水二维矩阵输入到CNN网络，每一个CNN网络其中含有两层卷积层，本发明采用两层卷积层均为一维卷积，，只对输入矩阵中单个水质指标内进行卷积，即为矩阵只进行纵向卷积，其卷积核大小为1×N，如图5所示，其中N为输入矩阵的单个序列中一个卷积的时间长度。

将经过卷积层后特征提取数据分别输入到两个GRU中，以此获得水质时间序列。单个GRU如图6所示，其主要组成为重置门和更新门。其中重置门公式为：

r_t＝σ(W_rx_t+U_rh_t-1+b_r)

其中，σ为sigmoid函数，通过这个函数可以将输入数据变化到0和1之间，W_r、U_r均为权重矩阵；b_r为偏置矩阵。

更新门公式为：

z_t＝σ(W_zx_t+U_zh_t-1+b_z)

其中，σ为sigmoid函数，W_z、U_z均为权重矩阵；b_z为偏置矩阵。

首先通过上一个传输下来的状态h_t-1和当前结点的输入x_t来获取两个门控状态。然后通过重置门来确定忘记过去的信息量，并通过更新门确定需要抛弃那些信息以及需要添加的新信息。最后进行状态更新，更新后公式如下所示：

其中，W_h、U_h均为权重矩阵；b_h为偏置矩阵。

将两个GRU输出的水质时间序列输入到一个DNN中进行预测未来水质，DNN输出需要预测的未来水质。

步骤4：对步骤3构建的多网络组合模型进行训练，得到训练好的模型，并对训练好的模型进行验证。

在本步骤中，将训练集中的入水二维矩阵和出水二维矩阵分别输入到多网络组合模型的两路并行的CNN-GRU网络中，进行模型训练，找出网络的最佳权重和偏置；每次训练完成后，将测试集中的入水二维矩阵和出水二维矩阵分别输入到多网络组合模型的两路并行的CNN-GRU网络中，找出最佳的超参数、损失函数、优化器和激活函数，其中超参数包括卷积核大小、各个神经网络隐藏层数目、学***均误差，优化器为自适应矩阵估计，激活函数为tanh函数；经过多轮训练及测试后，利用先前划分好的验证集对训练好的模型进行验证，验证过程采用的评估指标为拟合优度(R²)、均方误差(RMSE)以及平均百分比误差(MAPE)。

R²的值越接近1，说明回归方程对观测值的拟合程度越好；反之则表明回归方程对观测值的拟合程度越差。

RMSE是均方根误差，指预测值与真实值偏差的平方和与观察次数比值的平方根，用来衡量预测值同观察值之间的偏差程度。

MAPE是平均百分比误差，是误差与原始数据值相比较的过程，结果越趋向于0则为完美模型，大于100％则为劣质模型。

按照步骤1至步骤2的方法将待预测的历史水质数据处理成可以输入至多网络组合模型的矩阵，然后将矩阵输入到模型中，模型最终输出多指标污水水质预测结果，该多指标污水水质预测结果包括预测的未来时间点下出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量的值。

下面以本发明在吉林某污水处理厂得到应用为例，结合具体的实例说明本发明的技术方案及预测效果。

步骤一，数据预处理。污水厂的数据包括2020年1月1日～2020年6月30日，共采集了8640个时间点数据，其中包括了出水数据(出水COD、水PH值，出水氨氮，出水总磷和出水总氮)，入水数据(气温、降水量，入水COD，入水PH值，入水氨氮，入水流量，曝气时间，平均曝气溶氧量和平均曝气溶氧量方差)。

对数据中的异常值(超大值、负值)进行删除并留下空缺。

然后利用线性插值法补齐缺失值。

数据归一化：为了加快梯度下降速度，将水质参数按公式进行归一化，使用最大最小标准化将所有输入参数缩放到[0,1]范围内。

步骤二，采取如图2所示的多指标输入、多指标输出，同时采取了历史24个时间点数据为输入，预测未来1个时间点(输出)；采用如图3所示的多项入水输入指标(气温、降水量、入水化学需氧量、入水PH值、入水氨氮量、入水流量、曝气时间、平均曝气溶氧量和平均曝气溶氧量方差)和多项出水输入指标(出水化学需氧量、出水PH值、出水氨氮量、出水总磷量和出水总氮量)。

在本实例中采取的时间间隔为1，生成的输入输出的数据中包括含有两个含有8617个二维矩阵的张量输入和含有8617个一维矩阵的张量输出。

数据集的划分：数据集按照6:2:2划分为训练集、测试集、验证集。对上述张量进行划分得到含有5170个二维矩阵的张量输入和含有5170个一维矩阵的张量输出的训练集。含有1723个二维矩阵的张量输入和含有1723个一维矩阵的张量输出的测试集。含有1724个二维矩阵的张量输入和含有1723个一维矩阵的张量输出的验证集。

步骤三：构建多网络组合模型。

先将两个输入矩阵输出到CNN(卷积神经网络)以获得数据中的权重后输入到GRU(门控循环神经网络)获取时序关系，最后输入到DNN(全连接神经网络)输出出水预测数据，具体神经网络使用如下：

本发明组合模型先将两个输入矩阵输入到CNN，其中含有两层卷积层，本发明采用的一维卷积即只对单个水质指标内进行卷积即为矩阵只进行纵向卷积，其卷积核大小为1×3，单个指标内进行时间区间大小为3的卷积运算如图5所示。

将经过卷积层后特征提取数据分别输入到两个GRU中，以此获得水质时间序列。

损失函数选择MAE(绝对平均误差)公式为：

其中，n为序列长度，f(x)为通过神经网络得出的预测值，y为真实值。

优化器选择Adam(Adaptive Moment Estimation)自适应矩阵估计的公式为：

m_t:＝beta₁*m_t-1+(1-beta₁)*g

v_t:＝beta₂*v_t-1+(1-beta₂)*g*g

其中，beta₁和beta₂为指数衰减率，一般情况接近于1默认为0.9，g是对损失函数θ_t求的偏导，m_t和v_t分别为一阶变量和二阶变量，lr_t为学习率。

各层之间的激活函数选择双曲正切函数(tanh函数)。

步骤四：模型训练：利用先前划分好的训练集输入到模型进行训练，同时每次训练完成后将测试集输入到模型中以便选择合适模型超参数，实验取得超参数参数：卷积核大小1x3、CNN层隐藏层个数为128、GRU层隐藏层个数为128、DNN层隐藏层个数为128、学习率为0.0001，训练轮数为1000次。

利用先前划分好的验证集对模型进行验证，评估指标采用拟合优度(R²)和均方误差(RMSE)以及平均百分比误差(MAPE)。现有方法和本发明提出方法的相关指标对比如表1所示：

表1现有方法和本发明提出方法的相关指标对比

	R²	RMSE	MAPE(％)
				现有方法	0.73	0.43	0.37
本方法	0.85	0.24	0.21

表1对比可知，本发明中的基于并行CNN-GRU网络的多网络组合模型对污水出水预测具有较好效果，通过构建入水、出水数据双输入减少了预测误差，提高了预测准确率。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于并行CNN-GRU网络的多指标污水水质预测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于并行CNN-GRU网络的多指标污水水质预测方法，其特征在于，数据预处理的过程包括以下步骤：

异常值的检测：删除数据中的超大值、负值并留下对应的空缺；

残缺值的填充：利用线性插值法补齐缺失值；

数据归一化处理：使用最大最小标准化将所有数据缩放到[0,1]范围内。

3.根据权利要求1所述的基于并行CNN-GRU网络的多指标污水水质预测方法，其特征在于，每一个CNN网络中含有两层卷积层，两层卷积层均为一维卷积，只对入水二维矩阵或者出水二维矩阵进行纵向卷积，其卷积核大小为1×N_，其中N为入水二维矩阵或者出水二维矩阵的单个序列中一个卷积的时间长度。

4.根据权利要求1所述的基于并行CNN-GRU网络的多指标污水水质预测方法，其特征在于，超参数为卷积核大小1x3、CNN层隐藏层个数为128、GRU层隐藏层个数为128、DNN层隐藏层个数为128、学习率为0.0001、训练轮数为1000次。

5.根据权利要求1所述的基于并行CNN-GRU网络的多指标污水水质预测方法，其特征在于，按照6:2:2的比例划分训练集、测试集和验证集。