CN111367181B

CN111367181B - 一种用于污水处理***的混合驱动智能评判控制方法

Info

Publication number: CN111367181B
Application number: CN202010263147.5A
Authority: CN
Inventors: 王鼎; 赵明明; 乔俊飞
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-07
Filing date: 2020-04-07
Publication date: 2022-06-07
Anticipated expiration: 2040-04-07
Also published as: CN111367181A

Abstract

本发明提出一种用于污水处理***的混合驱动智能评判控制方法，同时考虑基于数据和事件的思想，采用新颖的混合驱动迭代自适应评判控制设计，以解决一类污水处理***的智能优化控制问题；将神经动态规划技术与迭代自适应评判框架相结合，在数据驱动学习机制下，降低优化控制设计过程对于被控对象的动态信息要求；同时设计一个合理的事件驱动阈值，使得控制信号在满足适当的条件时进行更新，从而切实提高复杂动态***的控制效率。采用本发明提出的混合驱动智能评判控制方法，能够使得溶解氧浓度和硝态氮浓度达到期望值，并且显著提高了整个***的控制效率。

Description

一种用于污水处理***的混合驱动智能评判控制方法

技术领域

本发明属于污水处理技术领域，尤其涉及一种用于污水处理***的混合驱动智能评判控制方法。

背景技术

水资源短缺已经成为制约全球经济社会可持续发展的突出问题之一。我国的人均水资源量比较贫乏，仅为世界平均水的四分之一，而且水资源分布不均匀。由于水资源短缺现象日益严重，大力发展污水处理先进自动化技术、实现水资源的循环利用，对于我国经济社会可持续发展具有重要意义。但是，污水处理过程入水环境多变、反应机理复杂，很难建立精确的数学模型，而且实际工况频繁变化和不确定因素的广泛存在，显著增加了其复杂特性。由于具有典型的非线性特征，加上难以建立精确的数学模型，而且考虑到水质、能耗等绿色环保方面的目标，利用传统方法设计的污水处理过程控制器，往往具有自适应能力差、控制效率不高、***能耗较大等缺点。因此，在复杂污水处理领域，亟待设计自适应能力强、控制效率高且优化效果明显的先进控制方法。本发明将提出一种先进的混合驱动智能评判控制方法，用于解决一类污水处理***的优化控制问题。

作为现代控制理论的一个重要部分，线性最优反馈设计已经存在许多经典的结论。然而，对于非线性情况，主要的困难在于求解Hamilton-Jacobi-Bellman(简称HJB)方程。由于非线性HJB方程的精确解难以直接获取，一些数值方法被提出来以获得近似结果，其中包括典型的自适应评判框架，它通常借助于人工神经网络技术来实现。由于强调基于数据的设计，自适应评判方法有利于实现智能建模、控制和优化，因此得到了极大关注，其中，一些离散时间***的迭代自适应评判算法已被提出并用于近似求解最优控制问题。值得注意的是，在一般迭代框架下，智能算法的收敛性可以得到充分的保证，对于合理运用算法具有重要的指导作用。

尽管上述数据驱动自适应评判设计具有良好的自学习和自适应性能，但是这些传统的基于时间机制的算法很少考虑资源利用效率，尤其是针对离散时间迭代环境。这激励我们进一步研究如何提高自适应评判技术的控制效率。在基于事件的控制设计框架中，如何进行信息采样与如何进行合理的触发是密切关联的。基于事件的设计也是网络环境下的热门话题。在过去的十年中，一系列事件驱动方法在先进控制领域得到了广泛关注，如实时反馈镇定、鲁棒优化调节、自适应容错控制等。其中，离散时间事件驱动方法与网络化***的控制设计密切相关。然而，这些事件驱动方法都没有应用到对于水资源循环利用具有重要作用的污水处理方面，更没有关于数据和事件混合驱动迭代自适应评判控制设计的工程应用成果。由于污水处理过程具有非线性、动态未知等复杂特性，如果利用传统控制方法，不仅面临着难以有效应对复杂动态的问题，而且实际控制效率不高。

发明内容

由于污水处理是减少水体污染、缓解水资源短缺的重要手段，但是这一过程的生化反应机理复杂，难以精确建模且相关变量之间还存在着一定的耦合关系，而且不可避免地受到复杂外部情况的干扰，这增加了包含水质、能耗等优化指标的控制器设计的难度。本发明同时考虑基于数据和事件的思想，提供一种新颖的混合驱动迭代自适应评判控制方法，以解决一类污水处理***的智能优化控制问题。将神经动态规划技术与迭代自适应评判框架相结合，在数据驱动学习机制下，降低优化控制设计过程对于被控对象的动态信息要求。设计一个合理的事件驱动阈值，使得控制信号在满足适当的条件时进行更新，从而切实提高复杂动态***的控制效率。实验结果表明，本发明提出的混合驱动智能评判控制方法，能够使得溶解氧浓度和硝态氮浓度达到期望值，并且显著提高了整个***的控制效率。

附图说明

图1混合驱动控制设计示意图；

图2污水处理***混合驱动智能评判控制设计示意图；

图3数据驱动迭代算法的实现结构图；

图***驱动控制设计结构图；

图5污水处理***的迭代代价函数收敛曲线；

图6污水处理***的跟踪误差曲线：(a)第一分量；(b)第二分量；

图7污水处理***的驱动阈值变化曲线；

图8污水处理***的跟踪控制曲线：(a)第一分量；(b)第二分量。

具体实施方式

本发明提出一种针对污水处理的混合驱动迭代自适应评判控制方法，用于求解离散时间非线性动态***的近似最优控制问题。这里，混合驱动控制设计的简单示意图如图1所示，它主要包括复杂动态***的数据驱动学习和网络环境下的事件驱动设计。这是一种新型的离散时间混合驱动框架，并融入了迭代自适应评判算法思想。也就是说，将神经动态规划技术与混合驱动框架相结合，在处理近似最优调节问题时，不需要已知被控对象的动态信息，并且显著减少了控制信号的更新次数。总之，在整体的控制设计过程中，数据资源和通信资源都得到了优化。

有效处理污水是解决日益严重的水资源短缺问题的重要途径。考虑一个典型的污水处理过程，即基准仿真模型1(Benchmark Simulation Model No.1)。经过初级处理过程，污泥直接排入特定的污泥池中，剩余部分则流入具有五个分区的生化反应器中，在生化反应器从左至右分为第一、二、三、四、五区，其中，第一、二为缺氧分区，主要进行污水处理反硝化过程，以及第三、四、五区为好氧分区，主要进行污水处理的硝化过程，然后由二沉池进一步处理，最后上层清水注入河流，下层污泥则经过外循环回流至前期阶段。在本发明中，采用S_O,5表示第5分区的溶解氧浓度，用S_NO,2表示第2分区的硝态氮浓度，用K_La₅表示第5分区的氧气转换系数，用Q_a表示第5分区到第2分区的内回流量。这种基准仿真平台的主要控制目标是确保S_O,5和S_NO,2达到它们的期望值，即2(mg/L)和1(mg/L)。这里，与S_O,5和S_NO,2有关的控制参数分别为K_La₅和Q_a。基于混合驱动机制的污水处理***智能评判控制设计示意图如图2所示。

根据上述示意图2，本发明提供一种关于污水处理***混合驱动智能评判控制方法，包括以下步骤：

步骤1、污水处理问题转化

定义溶解氧浓度和硝态氮浓度相当于与它们期望点的差值为跟踪误差，从而将原始的轨迹跟踪问题转化为最优调节器设计问题。

寻找合适的溶解氧和硝态氮浓度控制器，实际上是求解一类最优轨迹跟踪问题。这里用k表示***运行的时间步。为了使与

相关的测量状态跟踪期望值χ＝[2,1]^T，我们首先需要定义跟踪误差和跟踪控制，分别为

和

其中

是实际控制动作，μ为稳定控制输入且可以通过数值计算求得。这里，假设稳定控制输入满足χ＝f(χ,μ)，其中，f(·,·)是一个经过训练的神经网络表达式，是根据晴天情况下的实际进水数据得到的，它显示了该天气状况下污水处理***的动态信息。由于向量χ是已知的，通过计算得到参数μ的值为[204.8,52940]^T。从这个意义上讲，实际的跟踪控制问题可以看作是基于数据的优化调节设计。

上述优化调节问题所涉及的动态***可以写为如下形式

其中，F(·,·)是一个连续函数，x(k)是状态向量，u(k)是控制向量，

表示由所有非负整数组成的集合，即

令x(0)为***(1)的初始状态，并且是u＝0情况下的唯一平衡点，即有F(0,0)＝0。特别地，对于上述污水处理***，x(k)为溶解氧浓度和硝态氮浓度与其设定值的差，这里称为跟踪误差或者优化调节问题的状态向量；u(k)为氧气转换系数和内回流量与其稳定控制输入的差，这里称为跟踪控制或者优化调节问题的控制向量。

考虑最优控制问题，本发明目标是找到容许控制律集合中的一个合适反馈控制律u，以最小化如下形式的无限时间代价函数

其中，

是效用函数且U(0,0)＝0，而Q和R是适当维数的正定矩阵，即与状态x和控制u的维数有关。代价函数简写为J(x(k))。最优代价函数定义为J^*(x(k))＝min_u J(x(k),u(k))，且使得离散时间HJB方程成立，即

相应的最优控制表达式为

由于直接求解HJB方程(3)和得到精确的最优控制(4)是困难的，需要研究包含智能学习因素的近似最优控制设计，通过智能学习算法得到与理想最优控制u^*(x(k))对应的近似最优控制器

步骤2、建立迭代自适应评判框架

为了近似求解非线性优化问题，引入迭代自适应评判框架，并进行预处理与初始化：获取污水处理平台的实际运行数据，选取神经网络结构参数、学习率参数、终止迭代参数以及驱动条件参数。

迭代自适应算法的提出受到HJB方程公式(3)和最优控制公式(4)两个式子的启发。采用i表示数据驱动算法的迭代指标，其中，

在迭代算法中，预先设置一个小的正数ε，并构造两个序列{J⁽ⁱ⁾(x(k))}和{u⁽ⁱ⁾(x(k))}，进而从J⁽⁰⁾(·)＝0开始执行迭代过程，然后有序求解控制律和更新代价函数。具体地说，通过

求解迭代控制律，然后利用

更新迭代代价函数。当|J⁽ⁱ⁺¹⁾(x(k))-J⁽ⁱ⁾(x(k))|≤ε时，停止迭代过程并输出近似最优控制律；否则，令迭代指标i＝i+1并重复以上的公式(5)和(6)，直到满足收敛性要求。

步骤3、数据驱动迭代神经动态规划算法

构建神经辨识器以充分近似被控***；构建评判网络和执行网络并进行训练，直到迭代算法满足收敛性要求，从而终止执行迭代过程，输出执行网络的最终权值并得到控制律的神经网络表达。

利用神经动态规划技术给出上述迭代算法的详细实现过程，需要构造神经辨识器、评判网络和执行网络。这是一个数据驱动的自学习控制过程，其中包含的

和

分别表示三个不同的神经网络在适当时间和迭代步骤下的输出。利用神经辨识器、评判网络以及执行网络，离散时间***数据驱动迭代算法的实现结构图如图3所示。

步骤3-1、根据污水处理平台的实际运行数据，通过构造动态辨识器并进行训练，建立近似的动态***模型。

利用数据驱动方法构造三层神经网络辨识器，以学***台的实际运行数据，将输入和输出数据分别放在不同的集合中，即分别对应于神经辨识器的输入

和输出

使用MATLAB中的神经网络工具箱进行辨识。首先，将收集好的输入和输出数据集导入神经网络工具箱中；在默认情况下，工具箱会把数据集划分为训练集、验证集和测试集，它们分别占总数据集的70％、15％和15％。然后，开始设置神经网络的隐藏层神经元个数，并具体给出激活函数、迭代次数和学习率α₁参数；隐藏层神经元个数越多，神经网络的辨识性能越好。经过多次尝试，选取“trainlm”作为训练方法，能够达到较好的逼近效果。

通过输入状态信号

和控制信号

神经辨识器的输出表示为

其中，ω₁和ν₁是权值变量，b₁和b₂是阈值向量，σ(·)是激活函数，通常选取tanh(·)作为神经网络的激活函数。定义训练过程中的性能度量为

在神经网络训练完成后，保存训练好的权值和阈值，可以使用神经网络表达式(7)去近似原始的污水处理***。上述操作是针对污水处理平台的辨识，即利用模型网络近似

并得到

而不是直接近似误差向量x(k)。这样，在计算下一时刻的误差时，可以简单地由

得到；而通过

得到的是下一时刻的近似误差，也就是评判网络和执行网络在下一时刻的输入向量。

步骤3-2、构建评判网络以近似迭代过程中的代价函数，并利用梯度下降法训练其权值矩阵。

基于状态变量x(k)以及第i次迭代的权值矩阵

和

设计评判网络来近似代价函数：

结合公式(6)的第i次迭代代价函数，定义训练性能度量为

采用基于梯度的自适应方法来更新评判网络的权值矩阵，即

其中，α₂＞0是评判网络的学习率，

和

是两个连续更新步骤之间的差值。

步骤3-3、构建执行网络以近似迭代过程中的控制函数，并利用梯度下降法训练其权值矩阵

最后，基于状态变量x(k)以及第i-1次迭代的权值矩阵

和

构建用于近似迭代控制函数的执行网络，即

训练执行网络的性能度量为

其中，Υ₀设置为0，采用基于梯度的自适应方法来更新执行网络的权值矩阵，即

其中，α₃＞0是执行网络的学习率，

和

是两个连续更新步骤之间的差值。利用本发明，可以消除对控制矩阵的直接依赖性，这对解决非仿射动态***的最优反馈控制设计具有重要意义。

在执行学习算法之后，得到实用的近似最优控制器

如果直接对原始***应用这一近似最优控制律，控制信号可能会频繁地进行更新。换言之，依赖于传统时间机制往往会带来明显的通信资源浪费。在下面的部分中，本发明着重设计一个有效的触发条件，并研究在事件驱动方式下反馈控制***如何变化。

步骤4、构建事件驱动控制机制

基于控制律的神经网络表达，设计合理的触发阈值并构造相应的驱动条件，在满足驱动条件时，更新实际的控制律；否则，保持控制信号不变，直到驱动条件得到满足，从而减少了控制信号更新次数。

在事件驱动设计中，采用j表示采样时刻，且定义一个单调递增序列

事件驱动控制信号仅仅在采样时刻s₀,s₁,s₂,K处进行更新，而反馈控制律u(x(k))表示为u(x(s_j))，其中，x(s_j)是在时刻k＝s_j,k∈[s_j,s_j+1),

处的采样状态。在本发明中，经过数据驱动学习阶段，具有事件驱动机制的实用控制律

写为

通过引入零阶保持模块，在k＝s_j时刻保持事件驱动控制输入，直到下一个事件发生。

定义事件驱动误差向量为：

设计

为触发条件，其中，阈值的表达式为：

这是本发明事件驱动设计过程中的一个实用触发条件，并且阈值

是关于常数ξ的函数。

图4给出了上述事件驱动控制设计的结构图，这里的触发条件本质上类似一个开关的作用：当满足阈值时，更新执行控制；当不满足阈值时，控制信号保持不变，直到触发条件得到满足。所以在事件驱动设计中就会存在阶梯型的控制响应曲线。

根据图4，当前面的迭代学习过程完成以后，执行网络权值和神经辨识器权值都保持不再变化，随即转向事件驱动设计部分。因此，在整个混合驱动框架中，数据驱动和事件驱动两个设计过程是紧密相关的。

步骤5、污水处理混合驱动控制

利用转化后***的跟踪控制律，得到原始污水处理***中溶解氧浓度和硝态氮浓度的实际跟踪。

根据上述驱动控制过程，实际的控制信号得到更新，作用于转化后的最优调节器设计问题，可以实现状态向量的更新。由于

将转化后的状态向量重新考虑，即可得到污水处理平台的溶解氧浓度和硝态氮浓度相对于期望值的实际跟踪效果。同样地，实际平台中的氧气转换系数和内回流量，则可以通过

最终得到。至此，完成此类污水处理***的混合驱动智能评判控制。

本发明的创新之处：针对一类具有未知动态和复杂非线性特征的污水处理***，利用数据和事件混合驱动的迭代自适应评判方法进行控制器设计。在基于数据的学***台的近似动态模型，并将神经动态规划技术置于迭代自适应评判框架，在评判网络和执行网络的交互训练中得到近似的优化控制结果，从而实现了溶解氧浓度和硝态氮浓度相对于设定值的最优跟踪；在基于事件的设计过程中，仅当控制信号满足适当的驱动条件时进行更新，有效提高了***的控制效率。通过数据驱动思想和事件驱动机制的综合考虑，最终实现所述污水处理***的混合驱动智能评判控制。

实验结果

利用具体数据开展污水处理***的实验验证。选择二次型效用函数，其中，Q＝0.01I₂和R＝0.01I₂，I₂是2×2维的单位矩阵，我们将混合驱动智能评判控制算法应用于上述变换后的优化调节问题。训练结构为4-8-2(输入-隐藏-输出)的辨识器，选取学习率参数为α₁＝0.02，得到收敛的权值并保持其不变。执行迭代自适应算法之后，我们得到图5，它绘制了迭代代价函数的收敛曲线，这也说明所涉及的评判网络和执行网络都得到了充分的训练。这里，评判网络和执行网络的结构分别为2-8-1和2-10-1，而它们的学习率分别为α₂＝0.07和α₃＝0.2。基于收敛的权值矩阵并且选取

为

那么，该污水处理***的轨迹跟踪误差、驱动阈值以及跟踪控制输入分别如图6、7、8所示，其中第一分量反映溶解氧浓度的跟踪效果，第二分量反映硝态氮浓度的跟踪效果。从中可以看出，经过所得控制器的作用，有两个分量组成的跟踪误差趋于零向量，这意味着实际状态成功跟踪上相应的期望点。此外，通过实验对比可以得到：在事件驱动机制和传统时间驱动模式下，上述优化问题的控制信号更新次数分别为T₁＝64和T₂＝400(时间步)，两者具有显著的差别，并且事件驱动机制下的控制轨迹在外观上为阶梯型。从这些结果可以看出，溶解氧浓度和硝态氮浓度的合理变化，验证了本发明建立的混合驱动智能评判控制方法在污水处理过程中具有良好的应用效果：既实现了对设定浓度的最优跟踪，又提高了***的控制效率。

针对实际污水处理***的复杂特性和对于控制目标的要求，合理描述控制过程和定义相关参数，建立溶解氧浓度和硝态氮浓度的混合驱动智能评判控制技术。不仅详细介绍了混合驱动迭代自适应评判算法，而且也给出神经网络实现和驱动阈值设计，最终在保证智能优化控制效果的基础上，显著提高了***的控制效率。

Claims

1.一种用于污水处理***的混合驱动智能评判控制方法，其特征在于，设S_O,5表示第5分区的溶解氧浓度，S_NO,2表示第2分区的硝态氮浓度，K_La₅表示第5分区的氧气转换系数，Q_a表示第5分区到第2分区的内回流量，包括以下步骤：

步骤1、污水处理问题转化与数据驱动迭代自适应评判算法

使与

相关的测量状态跟踪期望值χ＝[2,1]^T，首先需要定义跟踪误差和跟踪控制，分别为

和

其中

是实际控制动作，μ为稳定控制输入，稳定控制输入满足χ＝f(χ,μ)，其中，f(·,·)是经过训练的神经网络表达式，根据晴天情况下的实际进水数据得到，显示该天气状况下污水处理***的动态信息；

该污水处理过程的动态***写为：

其中，

考虑最优控制问题，需要找到容许控制律集合中的一个合适反馈控制律u，以最小化如下形式的无限时间代价函数

其中，

是效用函数且U(0,0)＝0，Q和R是适当维数的正定矩阵，即与状态x和控制u的维数有关，设代价函数简写为J(x(k))，最优代价函数定义为J^*(x(k))＝min_uJ(x(k),u(k))，且使得离散时间HJB方程成立，即

相应的最优控制表达式为

通过智能学习算法得到与理想最优控制u^*(x(k))对应的近似最优控制器

步骤2、构建事件驱动控制机制

基于控制律的神经网络表达，设计最优的触发阈值并构造相应的驱动条件，在满足驱动条件时，更新实际的控制律；否则，保持控制信号不变，直到驱动条件得到满足，

在事件驱动设计中，采用j表示采样时刻，且定义单调递增序列

事件驱动控制信号仅仅在采样时刻s₀,s₁,s₂,K处进行更新，而反馈控制律u(x(k))表示为u(x(s_j))，其中，x(s_j)是在时刻

处的采样状态，，经过数据驱动学习阶段，具有事件驱动机制的实用控制律

写为

通过引入零阶保持模块，在k＝s_j时刻保持事件驱动控制输入，直到下一个事件发生，

定义事件驱动误差向量为：

设计

为触发条件，且其中阈值的表达式为：

步骤3、污水处理混合驱动控制

利用转化后***的跟踪控制律，得到原始污水处理***中溶解氧浓度和硝态氮浓度的实际跟踪；基于上述驱动控制过程，状态向量可以得到更新，根据

将转化后的状态向量重新考虑，即可得到污水处理平台的溶解氧浓度和硝态氮浓度相对于期望值的实际跟踪效果。

2.如权利要求1所述用于污水处理***的混合驱动智能评判控制方法，其特征在于，步骤1具体为：

步骤11、建立迭代自适应评判框架

采用i表示数据驱动算法的迭代指标，且

在迭代算法中，预先设置正数ε，并构造两个序列{J⁽ⁱ⁾(x(k))}和{u⁽ⁱ⁾(x(k))}，进而从J⁽⁰⁾(·)＝0开始执行迭代过程，然后有序求解控制律和更新代价函数，即通过

求解迭代控制律，利用

更新迭代代价函数，当|J⁽ⁱ⁺¹⁾(x(k))-J⁽ⁱ⁾(x(k))|≤ε时，停止迭代过程并输出近似最优控制律；否则，令迭代指标i＝i+1并重复以上的公式(5)和(6)，直到满足收敛性要求；

步骤12、数据驱动迭代神经动态规划

构造神经辨识器、评判网络和执行网络，利用神经动态规划技术实现上述迭代算法过程，所述过程为数据驱动的自学习控制过程，包含

和

分别表示三个不同的神经网络在适当时间和迭代步骤下的输出，具体包含以下步骤：

步骤121、根据污水处理平台的实际运行数据，通过构造动态辨识器并进行训练，建立近似的动态***模型

和输出

通过输入状态信号

和控制信号

神经辨识器的输出表示为

其中，ω₁和ν₁是权值变量，b₁和b₂是阈值向量，σ(·)是激活函数，通常选取tanh(·)作为神经网络的激活函数，定义训练过程中的性能度量为

使用神经网络表达式公式(7)去近似原始的污水处理***，上述操作是针对污水处理平台的辨识，即利用模型网络近似

并得到

在计算下一时刻的误差时，由