CN115062272A - 一种水质监测数据异常识别及预警方法 - Google Patents
一种水质监测数据异常识别及预警方法 Download PDFInfo
- Publication number
- CN115062272A CN115062272A CN202210797902.7A CN202210797902A CN115062272A CN 115062272 A CN115062272 A CN 115062272A CN 202210797902 A CN202210797902 A CN 202210797902A CN 115062272 A CN115062272 A CN 115062272A
- Authority
- CN
- China
- Prior art keywords
- water quality
- data
- model
- monitoring data
- quality monitoring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Testing And Monitoring For Control Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种水质监测数据异常识别及预警方法,通过划分重组水质监测数据集构建修饰模型,并在修饰模型中加入相关的修正函数,进一步将修正后的修饰模型与基线模型集成,从而实现水质监测数据中异常数据的识别与预警。本方法可以有效捕捉异常预警输出和水质监测数据输入之间精确的长程耦合相关性,更有效地识别和预警水质异常事件的发生,提高对水质异常数据预警的准确性,且不受历史监测数据范围的限制。
Description
技术领域
本发明属于水质数据异常监测预警技术领域,涉及一种水质监测数据异常识别及预警方法。
背景技术
在水质环境监测过程中,通常需要对水质传感器所获取的水质监测数据中的异常值进行识别和预警,传统方法是基于国家水质标准的阈值式简单识别及预警。为减小不确定因素对水质异常识别及预警的负面影响,需要挖掘水质监测数据的内在关联信息,改进对水质异常监测数据的特征提取过程,提出精度更高更稳定的水质异常监测数据识别及预警方法。
为了提高水质异常监测数据识别及预警结果的准确性和稳定性,目前的改进方法主要有自回归模型、机器学***稳的水质监测数据序列,无法同时考虑水质变化长期趋势的信息和较细粒度的波动性,在周期规律模糊的场景下,容易出现幅值差异等问题;传统机器学习方法难以得出超出水质历史监测数据范围的预测值,需要对离群点预测等事件进行后处理;多尺度的循环神经网络采用层次化结构建模,除了参数优化困难,还依赖于水质预测模型的准确性。
综上,现有方法应用于水质监测数据异常识别及预警时,由于其各自的局限性,难以有效地识别水质变化趋势和异常事件的发生,导致水质异常识别预警应用中的精确率和稳定性不足。为了提高水质异常识别及预警的准确性和稳定性,急需一种更具有效性的水质异常识别及预警方法。
发明内容
针对现有技术的不足,本发明提出了一种水质监测数据异常识别及预警方法,通过划分重组水质监测数据集构建修饰模型,并对修饰模型的预测结果进行修正,,进一步集成修正后的修饰模型与基线模型,得到最终的水质异常识别结果,本方法可以有效捕捉异常预警输出和水质监测数据输入之间精确的长程耦合相关性,提高对水质异常识别及预警的准确性和稳定性。
一种水质监测数据异常识别及预警方法,具体包括以下步骤:
步骤一、水质监测数据预处理
作为优选,数据特征提取的方法为时间戳处理或离散变量处理。
步骤二、计算基于基线模型的水质异常识别结果
p0=σ(hn)
其中,hn表示LSTM的输出结果:
步骤三、计算基于修饰模型的水质异常识别结果
将步骤一归一化处理后的数据集按照时间顺序拆分成n份,将前n-a份数据组成新的训练数据集X*,重采样后输入使用树模型构建的修饰模型中,输出水质监测数据在规定时间内出现异常的结果pi,后a份数据归入测试数据集,且a<n/2。
pi=Tree(X*), 1≤i≤n/2-a
作为优选,树模型选用LightGBM、XGBoost或CatBoost模型。
步骤四、引入修正函数
引入修正函数,对步骤三中修饰模型的输出水质异常识别结果进行修正:
作为优选,调制系数α=1。
步骤五、水质异常识别结果修正
集成步骤二中基线模型的预测结果与步骤四中修正后的水质异常识别结果,作为最终的水质监测数据在规定时间内出现异常的结果p:
其中γ、1-γ分别表示基线模型、修饰模型预测结果的重要性程度。
作为优选,本方法还包括步骤六,对识别结果进行评价:
将测试数据集输入集成模型中,分别采用精确率、AUC衡量评价水质异常识别结果的准确性和稳定性。精确率、AUC越高,水质异常识别及预警方法的性能越好。
精确率是指水质中溶解氧、高锰酸盐指数、氨氮、总磷以及总氮等水质指标异常事件的个数被识别为异常的占比:
Precision=TP/(TP+FP)
式中,TP、FP分别表示水质指标异常事件、水质指标正常事件被识别为异常的个数。
计算水质异常识别及预警的AUC值如下:
其中,n1、n0分别是识别为水质异常事件和正常事件的个数;rank(i)表示第i条被识别为异常的序号;概率得分从小到大排序,rank(i)排在第i个位置。
本发明具有以下有益效果:
所提方法采用重采样方法构建基线模型,以尽可能不破坏水质监测数据真实分布,而后划分重组数据集构建修饰模型以有效利用重采样被丢弃的数据信息,接着加入最优修正函数对修饰模型的预测结果进行修正,以有效利用修饰模型预测结果信息,最后将修正后的修饰模型与基线模型集成,不但降低异常值以及缺失值对识别模型的影响,而且能有效学习异常预警输出和水质监测数据输入之间精确的长程耦合相关性,从而提高对水质异常监测数据识别及预警的准确性和稳定性。
附图说明
图1为一种水质监测数据异常识别及预警方法的流程图;
图2是一种水质监测数据异常识别模型结构示意图;
图3为水质监测数据集划分重组示意图;
图4是模型集成方法示意图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1、2所示,一种水质监测数据识别及预警方法,具体包括以下步骤:
步骤一、水质监测数据预处理
通过时间戳处理与离散变量处理对采集到的水质时间序列数据进行特征提取,清洗流域基础数据、水质监测数据、气象数据等原始数据中的缺失值和冗余,Xi为清洗后得到的第i列特征数据。为了消除原始数据的量纲影响,使不同的数据之间具有可比性,对清洗后的特征数据进行归一化处理,实现等比缩放,将结果映射到[0,1]的范围内,再映射到均值为0、标准差为1的分布上,完成零均值归一化:
其中,分别为第i列特征数据的最大值和最小值,是经过线性函数归一化后的第i列特征数据,是的第j行数据,m表示每列特征数据大小,μ、σ2分别为第i列特征数据的均值和方差,是进行零均值归一化后的第i列特征数据。
步骤二、计算基于基线模型的水质异常识别结果
其中,表示逐元素的向量乘法,ct为t时刻RNN的单元状态,ht表示为最终的隐状态,Wc、Uc、bc表示可训练的网络参数,每一时刻的输入也包括上一时刻隐藏层的输出ht-1,为新的备选值向量,tanh(·)为tanh函数,即对每个元素取值在-1~1,it,ot,ft分别为输入门、输出门、遗忘门,通过下式计算:
其中,σ(·)为sigmoid函数,其输出的取值范围在0~1之间;Wi、Ui、bi,Wo、Uo、bo,Wf、Uf、bf依次为关于it、ot、ft等式的可训练网络参数。
将步骤一归一化处理后的特征数据输入基线模型中进行处理,水质异常识别为二分类任务,因此在LSTM模型的最后一个时刻隐变量输入到一个仅有两个输出节点的全连接层中,即可输出得到水质监测数据在规定时间内出现异常的概率p0:
p0=σ(hn)
其中,hn为经LSTM处理后的数据集输入,p0为基线模型的水质异常识别结果。
基线模型输出值的大小是由最小化-y0log p0-(1-y0)log(1-p0)这个二分类交叉熵损失函数求解得到的,其中y0表示p0对应的真实标签。
基线模型中的有效信息是通过隐藏层多次循环传递到输出层的。于是将基线模型的输出值进一步展开为:
步骤三、计算基于修饰模型的水质异常识别结果
使用XGBoost模型构建修饰模型,如图3所示,将步骤一归一化处理后的水质监测数据集训练集(train)部分按照时间顺序拆分成4份,分别将前2、3份数据组成新的训练数据集后2、3份数据归入验证集(test)部分,重采样后输入修饰模型中以获得水质异常识别概率p1、p2:
步骤四、引入修正函数
基于二分类的贝叶斯最优判别函数,并充分利用修饰模型水质异常识别结果信息,以得出修正函数的最优表达式。引入修正函数对步骤三中修饰模型的输出水质异常识别结果进行修正:
步骤五、水质异常识别结果修正
如图4所示,集成步骤二中基线模型的预测结果与步骤四中修正后的修饰模型的水质异常识别结果,获得最终的水质监测数据在规定时间内出现异常的结果p:
p=0.5p0+0.5(w1p1+w2p2)
步骤六、模型评价
分别采用精确率、AUC衡量评价水质异常识别算法准确性和稳定性的性能。精确率、AUC越高,水质异常识别及预警方法性能越好。
精确率是指水质中溶解氧、高锰酸盐指数、氨氮、总磷以及总氮等水质指标异常事件的个数被识别为异常的占比:
Precision=TP/(TP+FP)
式中,TP、FP分别表示水质指标异常事件、水质指标正常事件被识别为异常的个数。
计算水质异常识别及预警的AUC值如下:
其中,n1、n0分别是识别为水质异常事件和正常事件的个数;rank(i)表示第i条被识别为异常的序号;概率得分从小到大排序,rank(i)排在第i个位置。
Claims (8)
1.一种水质监测数据异常识别及预警方法,其特征在于:该方法具体包括以下步骤:
步骤一、水质监测数据预处理
步骤二、计算基于基线模型的水质异常识别结果
p0=σ(hn)
其中,hn表示LSTM的输出结果:
步骤三、计算基于修饰模型的水质异常识别结果
将步骤一归一化处理后的数据集按照时间顺序拆分成n份,将前n-a份数据组成新的训练数据集X*,重采样后输入使用树模型构建的修饰模型中,输出水质监测数据在规定时间内出现异常的结果pi,后a份数据归入测试数据集,且a<n/2;
pi=Tree(X*), 1≤i≤n/2-α
步骤四、引入修正函数
引入修正函数,对步骤三中修饰模型的输出水质异常识别结果进行修正:
步骤五、水质异常识别结果修正
集成步骤二中基线模型的预测结果与步骤四中修正后的水质异常识别结果,作为最终的水质监测数据在规定时间内出现异常的结果p:
其中γ、1-γ分别表示基线模型、修饰模型预测结果的重要性程度。
2.如权利要求1所述一种水质监测数据异常识别及预警方法,其特征在于:数据特征提取的方法为时间戳处理或离散变量处理。
3.如权利要求1所述一种水质监测数据异常识别及预警方法,其特征在于:所述水质数据包括流域基础数据、水质监测数据和气象数据。
5.如权利要求1所述一种基于修饰模型集成的长时间序列预测方法,其特征在于:所述树模型选用LightGBM、XGBoost或CatBoost模型。
6.如权利要求1所述一种基于修饰模型集成的长时间序列预测方法,其特征在于:设定修正模型中的调制系数α=1。
7.如权利要求1~6任一所述一种基于修饰模型集成的长时间序列预测方法,其特征在于:本方法还包括步骤六,对识别结果进行评价:
将测试数据集输入集成模型中,分别采用精确率、AUC衡量评价水质异常识别结果的准确性和稳定性;精确率、AUC越高,水质异常识别及预警方法的性能越好;
精确率是指水质异常事件的个数被识别为异常的占比:
Precision=TP/(TP+FP)
式中,TP、FP分别表示水质指标异常事件、水质指标正常事件被识别为异常的个数;
计算水质异常识别及预警的AUC值如下:
其中,n1、n0分别是识别为水质异常事件和正常事件的个数;rank(i)表示第i条被识别为异常的序号;概率得分从小到大排序,rank(i)排在第i个位置。
8.如权利要求7所述一种基于修饰模型集成的长时间序列预测方法,其特征在于:水质监测数据在规定时间内出现异常的指标包括水质中溶解氧、高锰酸盐指数、氨氮、总磷以及总氮的指标。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021108260384 | 2021-07-21 | ||
CN202110826038.4A CN113486303A (zh) | 2021-07-21 | 2021-07-21 | 一种基于修饰模型集成的长时间序列预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115062272A true CN115062272A (zh) | 2022-09-16 |
Family
ID=77942059
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110826038.4A Pending CN113486303A (zh) | 2021-07-21 | 2021-07-21 | 一种基于修饰模型集成的长时间序列预测方法 |
CN202210797902.7A Pending CN115062272A (zh) | 2021-07-21 | 2022-07-06 | 一种水质监测数据异常识别及预警方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110826038.4A Pending CN113486303A (zh) | 2021-07-21 | 2021-07-21 | 一种基于修饰模型集成的长时间序列预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN113486303A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116182949A (zh) * | 2023-02-23 | 2023-05-30 | 中国人民解放军91977部队 | 一种海洋环境水质监测***及方法 |
CN116451142A (zh) * | 2023-06-09 | 2023-07-18 | 山东云泷水务环境科技有限公司 | 一种基于机器学习算法的水质传感器故障检测方法 |
CN117113264A (zh) * | 2023-10-24 | 2023-11-24 | 上海昊沧***控制技术有限责任公司 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
CN117171604A (zh) * | 2023-11-03 | 2023-12-05 | 城资泰诺(山东)新材料科技有限公司 | 基于传感器的保温板生产线异常监测*** |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114169405A (zh) * | 2021-11-16 | 2022-03-11 | 王树松 | 对象分类方法、装置、设备及存储介质 |
-
2021
- 2021-07-21 CN CN202110826038.4A patent/CN113486303A/zh active Pending
-
2022
- 2022-07-06 CN CN202210797902.7A patent/CN115062272A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116182949A (zh) * | 2023-02-23 | 2023-05-30 | 中国人民解放军91977部队 | 一种海洋环境水质监测***及方法 |
CN116182949B (zh) * | 2023-02-23 | 2024-03-19 | 中国人民解放军91977部队 | 一种海洋环境水质监测***及方法 |
CN116451142A (zh) * | 2023-06-09 | 2023-07-18 | 山东云泷水务环境科技有限公司 | 一种基于机器学习算法的水质传感器故障检测方法 |
CN117113264A (zh) * | 2023-10-24 | 2023-11-24 | 上海昊沧***控制技术有限责任公司 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
CN117113264B (zh) * | 2023-10-24 | 2024-02-09 | 上海昊沧***控制技术有限责任公司 | 一种实时在线的污水厂溶解氧仪表异常检测的方法 |
CN117171604A (zh) * | 2023-11-03 | 2023-12-05 | 城资泰诺(山东)新材料科技有限公司 | 基于传感器的保温板生产线异常监测*** |
CN117171604B (zh) * | 2023-11-03 | 2024-01-19 | 城资泰诺(山东)新材料科技有限公司 | 基于传感器的保温板生产线异常监测*** |
Also Published As
Publication number | Publication date |
---|---|
CN113486303A (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115062272A (zh) | 一种水质监测数据异常识别及预警方法 | |
CN115018021B (zh) | 基于图结构与异常注意力机制的机房异常检测方法及装置 | |
CN112131212A (zh) | 基于集成学习技术面向混合云场景的时序数据异常预测方法 | |
Lee et al. | Studies on the GAN-based anomaly detection methods for the time series data | |
CN108052092B (zh) | 一种基于大数据分析的地铁机电设备状态异常检测方法 | |
CN114386521A (zh) | 时间序列数据的异常检测方法、***、设备和存储介质 | |
Yang et al. | Autoregressive coefficient-invariant control chart pattern recognition in autocorrelated manufacturing processes using neural network ensemble | |
CN113486578A (zh) | 一种工业过程中设备剩余寿命的预测方法 | |
CN110991471B (zh) | 一种高速列车牵引***故障诊断方法 | |
CN114297918A (zh) | 基于全注意力深度网络和动态集成学习的航空发动机剩余寿命预测方法 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN116738868B (zh) | 一种滚动轴承剩余寿命预测方法 | |
CN114385614A (zh) | 基于Informer模型的水质预警方法 | |
CN115290326A (zh) | 一种滚动轴承故障智能诊断方法 | |
CN117312769A (zh) | 一种基于BiLSTM的物联网时序数据异常检测方法 | |
Lei et al. | Fault diagnosis of rotating machinery based on a new hybrid clustering algorithm | |
CN115576981A (zh) | 一种基于有监督算法与无监督算法相结合的异常检测方法 | |
CN112947649B (zh) | 一种基于互信息矩阵投影的多变量过程监控方法 | |
CN116364203A (zh) | 一种基于深度学习的水质预测方法、***和装置 | |
CN116776245A (zh) | 一种基于机器学习的三相逆变器设备故障诊断方法 | |
CN113688773B (zh) | 一种基于深度学习的储罐穹顶位移数据修复方法及其装置 | |
CN115062686A (zh) | 基于多角度特征的多元kpi时序异常检测方法和*** | |
CN114443338A (zh) | 面向稀疏负样本的异常检测方法、模型构建方法及装置 | |
CN115048868B (zh) | 基于时序神经网络的动态测量***不确定度的评定方法 | |
CN113111096A (zh) | 一种面向发电设备高维时序工况数据的异常检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |