CN115611393B

CN115611393B - 一种多端协同的多水厂混凝剂投放方法和***

Info

Publication number: CN115611393B
Application number: CN202211381949.1A
Authority: CN
Inventors: 何友文; 王鹏; 张伟杰; 张�浩; 王丽
Original assignee: Cecep Investment Development Jiangxi Co ltd; Cecep Jinghe Smart City Technology Zhejiang Co ltd
Current assignee: Cecep Investment Development Jiangxi Co ltd; China Energy Saving Jinghe Technology Co ltd
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-04-07
Anticipated expiration: 2042-11-07
Also published as: CN115611393A

Abstract

本发明提供了一种多端协同的多水厂混凝剂投放方法和***，方法包括如下步骤：接收不同水厂侧子***推送的历史样本数据，基于指标种类集合建立不同的样本域，并生成样本域标志；基于不同的样本域对各个水厂的历史样本数据进行合并，并将各样本域对应的样本域标志关联至各个水厂；对历史样本数据进行机器学习，生成对应各个样本域的预测模型；基于每个水厂对应的样本域标志，将预测模型推送至相应水厂侧子***；水厂侧子***基于接收的预测模型和采集的现场实时样本数据进行混凝剂投放量预测和投放；根据混凝剂投放后采集的现场实时样本数据和预设的出水水质目标数据，对混凝剂投放量进行本地调整；基于新接收的样本数据对相应的预测模型进行更新。

Description

一种多端协同的多水厂混凝剂投放方法和***

技术领域

本发明属于污水处理信息化技术领域，涉及一种多端协同的多水厂混凝剂投放方法和***。

背景技术

污水处理厂水质处理流程主要有混凝沉淀、A/O生化反应、氧化消毒等步骤，其中在混凝沉淀池需要投加大量的混凝剂用来絮凝污水中的胶体，一家污水处理量为1万m³/d的水厂一年的药剂添加量在数百吨左右，而药剂投加技术很长一段时间都比较基础，主要由人工经验决定投加量，并且依赖于维护人员手动添加，整个过程粗放。如何实现药剂的自动精准投加已成为许多研究人员的研究热点。

另外当前水厂建设模式多采用BOT模式，一家机构建设多家水厂并同时运营的情况较为普遍，例如在某省，某家厂商同时运营其下34家水厂。因此如何统一建设多水厂下的药剂的精准投放***，充分利用不同水厂的样本数据，并且同时使该***具备兼容性也是一个难题。

公开号为CN112456621A是中国发明专利公开了一种絮凝智能加药控制***及控制方法，通过对絮凝反应池和平流沉淀池中设置多个CCD图像采集设备对矾花颗粒进行观察，通过不同的时期的图像变化对矾花形成过成进行动态分析，预判沉淀池出水的浊度，进行多次修正，并且通过机器识别、机器学习、模型理论等人工智能***自动识别和学习最佳投加的过程。但其主要针对加药后的反馈调节，没有对加药前的混凝剂添加量的进行预测，而且该发明的方案需要对每一个混凝沉淀池设置多个摄像头，成本较高。

公开号为CN113419432A的中国发明专利提供了一种基于动态矩阵控制算法的污水处理***精准加药方法，包括以下步骤：建立传递函数模型，选取采样时间以及建模时域，选取控制时域和优化时域，根据模型向量、优化时域和控制时域来建立一个动态矩阵，建立模型初始预测向量，计算误差，移位计算，计算控制变量的控制增量，计算实际输出量以及计算输出预测向量；返回进行下一次优化运算，如此循环。但该方案只针对加药量进行预测，没有加药后的再调节，其只应用在单个水厂的情况下，不具备多水厂下广泛接入、统一学习并以此提升方案效率和准确度的优点。

发明内容

基于上述背景，本发明的目的在于提供一种多端协同的多水厂混凝剂投放方法和***，利用多水厂的大样本数据优势，提升加药模型的准确度，以达到污水处理厂混凝药剂精准投放的效果。

为实现上述目的，本发明采用了如下技术方案：

一种多端协同的多水厂混凝剂投放方法，包括如下步骤：

S1、接收不同水厂侧子***推送的历史样本数据，基于各历史样本数据中的指标种类集合建立不同的样本域，并生成每个样本域的样本域标志；

S2、基于不同的样本域对各个水厂的历史样本数据进行合并，并将各样本域对应的样本域标志关联至各个水厂；

S3、基于决策树模型，对历史样本数据进行机器学习，生成对应各个样本域的加药决策树预测模型；

S4、基于每个水厂对应的样本域标志，将对应该样本域的加药决策树预测模型推送至相应水厂侧子***；

S5、水厂侧子***基于接收的加药决策树预测模型和采集的现场实时样本数据进行混凝剂投放量预测和投放；

S6、根据混凝剂投放后采集的现场实时样本数据和预设的出水水质目标数据，对混凝剂投放量进行本地调整；

S7、基于新接收的样本数据对相应的加药决策树预测模型进行更新。

进一步的，步骤S1中，所述的历史样本数据中的指标种类包括化学需氧量、氨氮、总磷、总氮、悬浮物、进水浊度、出水浊度、进水流量、生化需氧量、色度、温度、PH、电导率和溶解氧中的几种或全部；基于历史样本数据中的指标种类集合建立的样本域数量为：

其中，N为指标种类的总数量。

进一步的，步骤S1中，生成每个样本域的样本域标志具体包括：

为样本域中的每一个指标种类赋予唯一性编码，然后将每个样本域中包含的指标种类的唯一性编码按照字母升序或降序进行排列并合并成一个字符串，以该字符串作为该样本域的唯一标记，并记录该字符串长度。

进一步的，步骤S3具体包括：

S31、以混凝剂添加量为因变量，样本数据中的其它指标特征为自变量，建立决策树；

S32、先遍历样本数据中的所有指标特征，再计算不同指标特征值的***划分点的收益，以确定指标特征值及其对应的***划分点，完成决策树的节点***；

S33、当节点满足下面两个条件之一时：1）设定阈值，当叶子节点中的y值的平方误差小于阈值时；或者，2）当所有指标特征已经被用完时；判定该节点为叶子节点，不再进行***；

S34、按照上述步骤，生成对应各个样本域的加药决策树预测模型。

进一步的，步骤S3中，对历史样本数据进行机器学习前，还包括对每一个样本域中的历史样本数据进行清洗，具体包括：

对于缺失的指标特征值数据，以该指标特征值周围时间点的临近数据的平均值做近似填补；

对于在某个时间点出现大幅度波动的指标特征值，先判定该指标特征值是否为异常数据，判定方法为先判断该数据当天前后数据是否为线性递增或者递减，如否再判断该指标特征值前一天、前一个月、前一年相同时间点是否同样有突兀升高或者降低，如否则判定该值为异常值；然后利用相邻时间点指标特征数据计算平均值替换异常特征值。

进一步的，步骤S32中，计算不同指标特征值的***划分点的收益，确定指标特征值及其对应的***划分点具体包括：

采用二分法预设划分点，分别计算该指标特征依据不同划分点划分之后的左右节点的y值平方差之和，所述y值平方差之和计算公式为：

其中，为左边节点中样本集合的数量，为右边节点中样本集合的数量，为左边节点中样本集合的平均值，为右边节点中样本集合的平均值；

选取其中最小的y值平方差之和所对应的指标特征与***划分点作为***依据。

进一步的，步骤S6具体包括：

在投加根据加药决策树预测模型预测的混凝剂量后，设采集的现场实时出水水质指标值为V，预设目标值为P，预设偏差阈值为Y，如果则进行混凝剂投加量调整；

投加量的调整采用线性调整，设原投加量为，新投加量为，投加步长为B，则新混凝剂投加量计算步骤为：

当时，计算，以为新一轮混凝剂投放量开始投加药剂，其中上述预设偏差阈值Y与步长B为预设值；投放完成后监测预设间隔时间后混凝沉淀池出水水质，如，则确定此投加量，并标记此时数据，否则重复上述步骤。

进一步的，步骤S7具体包括：

若新接收的样本数据为非标记数据，则将其作为历史样本数据存储，并在存储的数据量达到预设量级后，进行加药决策树预测模型的更新；

若新采集的样本数据为标记数据，则即时对相应的加药决策树预测模型进行更新。

本发明还提供了一种多端协同的多水厂混凝剂投放***，用于执行如上所述的多水厂混凝剂投放方法，包括：

配置于水厂侧的若干子***，包括：

采集模块，其用于通过传感器采集样本数据；

数据存储与通讯模块，其用于存储本地样本数据并推送至中心侧数据处理中心，以及接收中心侧数据处理中心下发的加药决策树预测模型并存储至本地；

混凝剂投放控制模块，其用于根据采集模块采集的现场实时样本数据，基于加药决策树预测模型进行加药量的预测，并进行实际投放和智能再调整；

可视化模块，其用于提供可视化界面，用于导入原有历史样本数据、展示历史加药数据或展示当前传感器数据，以及对混凝沉淀池出水水质数据目标进行预设；

以及配置于中心侧的数据处理中心，其用于接收水厂侧子***推送的样本数据，生成或更新加药决策树预测模型，并下发至水厂侧子***。

进一步的，所述采集模块使用的传感器布设于混凝沉淀池进水口与池中，其中布设于进水口的传感器用于采集进水流量、悬浮物和进水浊度数据，布设于池中的传感器用于采集化学需氧量、氨氮、总磷、总氮、悬浮物、出水浊度、生化需氧量、色度、温度、PH、电导率和溶解氧数据中的几种或全部。

本发明的有益技术效果如下：

1）本发明的多端协同的多水厂混凝剂投放方法和***，能够在一家公司同时运营多个污水处理厂的情况下实现多端协同的混凝剂自动合理投放，解决了当前现实情况存在的实际痛点。在本发明的在多端***下，单个污水处理厂不需要购置算法服务器，能有效降低单个污水处理厂建设混凝剂投放***的成本。

2）本发明的多端协同的多水厂混凝剂投放方法和***，利用多个污水处理厂大样本量的优势提升预测模型的匹配度，有效提高了混凝剂投放量预测的精准度。

3）本发明的多端协同的多水厂混凝剂投放方法和***，提出了一种后反馈补偿机制，有效弥补了因模型过拟合等问题产生混凝剂投放不准确的问题。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种多端协同的多水厂混凝剂投放方法实施例的流程示意简图。

图2为本发明实施例中生成决策树的具体流程。

图3为本发明实施例中存放在中心侧一个完整的决策树及其与样本域、水厂关联关系数据结构示意图。

图4为本发明实施例中中心侧与水厂侧数据交互的示例时序图。

图5为本发明实施例中水厂侧计算混凝剂投放量的流程时序图。

图6本发明实施例中水厂侧自动化混凝剂投放子***具体架构图，包含具体传感器点位布设、模块划分。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

实施例1

参见附图1-附图5，本发明第一个实施例提供了一种多端协同的多水厂混凝剂投放方法，基于中心侧数据处理中心和水厂侧混凝剂投放子***的交互，具体包括如下步骤：

首先，中心侧数据处理中心接收不同水厂侧子***推送的历史样本数据，基于各历史样本数据中的指标种类集合建立不同的样本域，并生成每个样本域的样本域标志。

其中，历史样本数据中的指标种类包括化学需氧量、氨氮、总磷、总氮、悬浮物、进水浊度、出水浊度、进水流量、生化需氧量、色度、温度、PH、电导率和溶解氧中的几种或全部。

不同污水处理厂可能有不同的污水采集指标，而由于后续步骤的决策树模型要求训练样本保持特征值的一致，在此处特征值即为水厂侧采集的指标种类，因此预先将水厂按照不同特征值集合进行划分。举例，假设有如下3个水厂及其采集的指标种类：

甲（进水流量，PH，进水口浊度，COD，出水口浊度）

乙（进水流量，PH，进水口浊度，COD，溶解氧，出水口浊度，温度）

丙（进水流量，PH，进水口浊度，COD，出水口浊度）

则甲水厂与丙水厂归为一个样本域，标记为A，乙水厂为另外一个样本域，标记为B。

上面的例子较为简单，实际上，在指标特征数量增加时，理论上的样本域的数量将会急剧上升，其数量计算公示为：。其中，设一个样本域特征数量最小为2，N为指标特征的总数量。在N=10时，S=1013，即指标特征的数量为10时，理论上可能的样本域数量有1013个。

在具体操作中，为每一个指标特征赋予唯一性编码，然后将每个样本域中包含的指标种类的唯一性编码按照字母升序或降序进行排列并合并成一个字符串，以该字符串作为该样本域的唯一标记，并记录该字符串长度。

然后，中心侧数据处理中心基于不同的样本域对各个水厂的历史样本数据进行合并，并将各样本域对应的样本域标志关联至各个水厂。在一种优选示例中，可以按照时间先后顺序进行合并，即后上传的样本数据放在样本集最后。

当有新水厂进行特征域标定请求时，只需要按照上述同样的方式为此水厂生成标记，先筛选出和这个标记同样长度的样本域集合，再在此集合中进行相同标记的匹配。又因为标记内指标特征唯一性编码顺序是固定的，因此匹配的速度将会很快。如果最终没有找到样本域与该水厂匹配，那么为其创造一个新的样本域并关联该水厂。

接下来，中心侧数据处理中心基于决策树模型，对历史样本数据进行机器学习，生成对应各个样本域的加药决策树预测模型。

决策树是基于机器学习下一种分类/回归模型，其本质为归纳学习，其算法简单且表现形式为树状图，更容易被人理解和实现。这里以混凝剂添加量为因变量，其它特征为自变量，图2示出了决策树构建流程图。

在一个优选示出实例中，生成加药决策树预测模型具体包括：

第一步，以混凝剂添加量为因变量，样本数据中的其它指标特征为自变量，建立决策树。

第二步，决策树的节点***过程。该过程是决策树生成的核心步骤，同时也是最耗费计算资源的过程。先遍历样本数据中的所有指标特征，再计算不同指标特征值的***划分点的收益，以确定指标特征值及其对应的***划分点，完成决策树的节点***。

其中，计算不同指标特征值的***划分点的收益，确定指标特征值及其对应的***划分点具体包括：

先遍历该样本集中所有指标特征，如进水浊度、流量等，再计算不同指标特征值的***划分点。水厂侧利用传感器采集的指标特征数据基本为连续数据，因此需要将这些连续数据按照二分法进行分割，以确定***划分点。

比如，设指标特征进水浊度的所有维度为：

，

先按照从小到大进行排序：

，

再求相邻两个数值的平均值，求得划分点

，

根据上述划分点，分别计算该指标特征依据不同划分点划分之后的左右节点的y值平方差之和。y值平方差之和计算公式为：

其中为左边节点中样本集合的数量，为右边节点中样本集合的数量，为左边节点中样本集合的平均值，为右边节点中样本集合的平均值。该公式的计算结果代表了预测值与目标值之间的误差。

最后选取其中最小的y值平方差之和所对应的指标特征与***划分点作为***依据。

第三步，叶子节点的判定过程。当节点满足下面两个条件之一时：1）设定阈值，当叶子节点中的y值的平方误差小于阈值时；或者，2）当所有指标特征已经被用完时；判定该节点为叶子节点，不再进行***；

最后，按照上述步骤，生成对应各个样本域的加药决策树预测模型。生成的加药决策树预测模型以链表形式存储在中心侧服务器中，并建立其与样本域的关联关系。如该样本域已有决策树，则用新的决策树替换原有决策树。

作为进一步优选的实施方案，为了使建立的加药决策树预测模型更加准确，在对历史样本数据进行机器学***均值做近似填补。针对第二种情况，分为两个步骤，先判定该指标特征值是否为异常数据，判定方法为先判断该数据当天前后数据是否为线性递增或者递减，如否再判断该指标特征值前一天、前一个月、前一年相同时间点是否同样有突兀升高或者降低，如否则判定该值为异常值；然后利用相邻时间点指标特征数据计算平均值替换异常特征值。如果是新建水厂第一次上传指标种类集合，则只对该水厂进行样本域标记。

再然后，中心侧数据处理中心基于每个水厂对应的样本域标志，将对应该样本域的加药决策树预测模型推送至相应水厂侧子***。

一个完整的决策树示例及其与样本域、水厂关联关系见图3。在完成所有的加药决策树预测模型生成后，中心侧根据样本域的区别，统一向所有对应水厂下发加药决策树预测模型。水厂侧子***接收到加药决策树预测模型后，其数据存储与通讯模块将决策树保存在本地，或替换原有决策树，之后将以此决策树进行混凝剂投加量的预测。

之后，水厂侧子***基于接收的加药决策树预测模型和采集的现场实时样本数据进行混凝剂投放量预测和投放。

然后，水厂侧子***同步监测出水水质，并根据混凝剂投放后采集的现场实时样本数据和预设的出水水质目标数据，对混凝剂投放量进行本地调整。

在一个示出实例中，参见附图5，对混凝剂投放量进行本地调整的步骤如下：

1）计算得到混凝剂投放量。在水厂侧，加药决策树预测模型以链表形式保存在通讯与存储模块，混凝剂投放控制模块拿到决策树链表后，根据当前污水指标数据，遍历决策树链表直到叶子节点，得到混凝剂投放量。

2）根据混凝剂投放后的污水指标数据，进行混凝剂投放调整。用户可在可视化模块中对混凝沉淀池出水水质数据目标进行预设。在投加根据加药决策树预测模型预测的混凝剂量后，设采集的现场实时出水水质指标值为V，预设目标值为P，预设偏差阈值为Y，如果则进行混凝剂投加量调整；

最后，中心侧数据处理中心基于新接收的样本数据对相应的加药决策树预测模型进行更新。

在一个优选示出实例中，若新接收的样本数据为非标记数据，则将其作为历史样本数据存储，并在存储的数据量达到预设量级后，进行加药决策树预测模型的更新；

一个示例的中心侧与水厂侧数据交互见图4时序图。如图4所示，水厂侧上传的样本数据分为两类，历史数据或者实时数据。其中特别的，历史数据必然触发决策树的构建，实时数据分为普通数据（非标记数据）和标记数据，普通数据（非标记数据）只有在累加到一定量级之后才会触发重新构建决策树，而标记数据则也必然会触发决策树的重新构建。

实施例2

本发明第一个实施例提供了一种多端协同的多水厂混凝剂投放***，用于执行上述实施例1所述的多水厂混凝剂投放方法，包括：

配置于水厂侧的若干子***，参见附图6，一个示出实例中其具体包括：

采集模块，其用于通过传感器采集样本数据；

混凝剂投放控制模块，其核心为PLC，用于根据采集模块采集的现场实时样本数据，基于加药决策树预测模型进行加药量的预测，并进行实际投放和智能再调整；

可视化模块，提供可视化交互界面，用于导入原有历史样本数据、展示历史加药数据或展示当前传感器数据，以及对混凝沉淀池出水水质数据目标进行预设；

在一个优选示出实例中，因为混凝剂主要在污水处理工艺中的混凝沉淀阶段起作用，因此水质传感器也主要布设在混凝沉淀池进水口与池中。具体传感器点位布设、模块划分见图6。其中布设于进水口的传感器用于采集进水流量、悬浮物和进水浊度数据，布设于池中的传感器用于采集化学需氧量、氨氮、总磷、总氮、悬浮物、出水浊度、生化需氧量、色度、温度、PH、电导率和溶解氧数据中的几种或全部。据不同污水处理厂情况，采集的指标也有所不同。

如上所述，在按照图6搭建好水厂侧水厂自动化混凝剂投放子***后，通过可视化模块导入该水厂历史数据，并将历史数据按照一定格式整理后，通过网络传送至中心侧。如果该水厂为新建，没有历史数据，则通过约定好的协议通知中心侧该水厂为新建，并将该水厂采集指标种类集合上传。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种多端协同的多水厂混凝剂投放方法，其特征在于，包括如下步骤：

S1、接收不同水厂侧子***推送的历史样本数据，基于各历史样本数据中的指标种类集合建立不同的样本域，并生成每个样本域的样本域标志，具体包括：

为各个水厂的历史样本数据构建对应的样本域，为每一个指标种类赋予唯一性编码，然后将每个样本域中包含的指标种类的唯一性编码按照字母升序或降序进行排列并合并成一个字符串，以该字符串作为该样本域的唯一标志，并记录该字符串长度；

S2、基于样本域对各个水厂的历史样本数据进行合并，即将具有相同样本域标志的水厂的历史样本数据进行合并，并将各样本域对应的样本域标志关联至各个水厂；

2.如权利要求1所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S1中，所述的历史样本数据中的指标种类包括化学需氧量、氨氮、总磷、总氮、悬浮物、进水浊度、出水浊度、进水流量、生化需氧量、色度、温度、PH、电导率和溶解氧中的几种或全部；基于历史样本数据中的指标种类集合建立的样本域数量为：其中，N为指标种类的总数量。

3.如权利要求1所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S3具体包括：

4.如权利要求3所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S3中，对历史样本数据进行机器学习前，还包括对每一个样本域中的历史样本数据进行清洗，具体包括：

5.如权利要求3所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S32中，计算不同指标特征值的***划分点的收益，确定指标特征值及其对应的***划分点具体包括：

采用二分法预设划分点，分别计算该指标特征依据不同划分点划分之后的左右节点的y值平方差之和，所述y值平方差之和计算公式为：其中，为左边节点中样本集合的数量，为右边节点中样本集合的数量，为左边节点中样本集合的平均值，为右边节点中样本集合的平均值；

6.如权利要求1-5任一项所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S6具体包括：

7.如权利要求6所述的多端协同的多水厂混凝剂投放方法，其特征在于，步骤S7具体包括：

8.一种多端协同的多水厂混凝剂投放***，用于执行如权利要求1-7任一项所述的多水厂混凝剂投放方法，其特征在于，包括：

配置于水厂侧的若干子***，包括：

采集模块，其用于通过传感器采集样本数据；

9.如权利要求8所述的多端协同的多水厂混凝剂投放***，其特征在于，所述采集模块使用的传感器布设于混凝沉淀池进水口与池中，其中布设于进水口的传感器用于采集进水流量、悬浮物和进水浊度数据，布设于池中的传感器用于采集化学需氧量、氨氮、总磷、总氮、悬浮物、出水浊度、生化需氧量、色度、温度、PH、电导率和溶解氧数据中的几种或全部。