CN112288021B - 一种医疗废水监测数据质控方法、装置及*** - Google Patents
一种医疗废水监测数据质控方法、装置及*** Download PDFInfo
- Publication number
- CN112288021B CN112288021B CN202011203309.2A CN202011203309A CN112288021B CN 112288021 B CN112288021 B CN 112288021B CN 202011203309 A CN202011203309 A CN 202011203309A CN 112288021 B CN112288021 B CN 112288021B
- Authority
- CN
- China
- Prior art keywords
- data
- sequence
- algorithm
- abnormal
- monitoring data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N33/00—Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
- G01N33/18—Water
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Food Science & Technology (AREA)
- Medicinal Chemistry (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种医疗废水监测数据质控方法、装置及***,该方法包括采集医疗废水处理全过程的监测数据;对采集得到的监测数据进行分类识别,得到不同的数据类型;根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据。本方法基于已有医疗废水全过程大数据平台的监控数据,实现智能质控。利用算法精准找出异常点位,减少数据质量审核专员的工作量,解决人工审核易出现遗漏的问题,提高数据质量审核效率;较传统人工异常检测相比,基于不同医院独特的废水处理排放模式,进行智能化建模匹配,能够基于每家医院的不同监测指标,实现不同类型监测数据的自动识别与检查,智能高效的实现不同指标的异常检测。
Description
技术领域
本发明涉及医疗废水的监管领域,具体涉及一种医疗废水监测数据质控方法、装置及***。
背景技术
在医疗废水的监管领域当中,目前大部分都是利用人工采样的方式进行水质检查,据生态环境部在2020年2月26发布的全国医疗废物、医疗废水处理处置环境监管情况来看,通过排查,累计发现污水处理能力不足、运行不正常、消毒措施不落实等三大类问题342个。由此可以发现,大部分医疗废水在中间过程处理中存在着严重的不足。
对于目前废水水质检查采样仍处于人工监测阶段的现状,有部分运维机构开始采用自动化监测技术对医疗废水的运维治理进行自动化检测。相比于其他的自动化监测项目,医疗废水自动化监测由于环境特殊,水质变化较大,数据会受到更多的因素的影响,例如医疗废水中的水质较差,废水中含有较多的大颗粒杂质、排放口自然因素干扰以及人为干扰因素等等,这些因素的出现非常容易导致异常数据的产生,对数据质量造成影响。异常数据很可能会对技术人员进行数据挖掘分析的结果造成影响,严重时会产生误判。传统的采样数据,由于采用人工抽样的方式可以较好保证采样过程中的环境稳定,而且人工采样的数据量较少,因此往往通过人工检查确认的方式即可完成检测数据的基本质控。目前纵观国内大部分中小型数据服务型企业,在数据质量把控上还是停留在依靠人工审核及现场排查相结合的手段。若是小样本的异常数据检查,人工审核在短时间可能卓有成效,但随着数据量的增大,人工审核难免会出现疏漏。
传统的医疗废水数据质量检查常依赖于技术人员,因此对技术人员的专业水平、业务熟悉程度有较高的要求。但是很多情况下,企业数据质量审核人员仅经过培训后便上岗,技术人员专业水平的差异对数据的审核结果造成了一定的影响,并不能确保数据质量完全过关。此外,大部分数据服务型企业监测的数据可能存在较多维度,随着时间的增长,数据维度的增加,数值质量审核上需要投入更多的人力物力,成本也会随之增加。然而,人力审核并非万无一失,即便投入较多的人力,很难持续排查出所有异常。
企业面对数据质量审核主要遇到难点有:
一、对相关数据审核人员的专业水平有一定的要求,需要具备专业的知识,数据敏感性高,且对业务较为熟悉,故企业前期需要投入大量精力物力进行专业及业务培训。
二、面对大数据时,需要投入大量的人力时间进行审核,现场复核排查。为追求时效性,数据质量审核需要在短时间内完成。然而,人工在快速审核数据的情况下极其容易出现遗漏。
三、随着时间的增长,数据规模势必会增大,原有的人力物力无法满足数据质量审核的要求,若继续以人工审核方式进行数据质量检查,成本亦会随之增加。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种医疗废水监测数据质控方法、装置及***,以对医疗废水处理全过程的监测数据实现智能质控,准确、高效地发现异常点数据,以使得运维人员及时进行现场维护。
为实现上述目的,本发明的技术方案是:
第一方面,本发明实施例提供了一种医疗废水监测数据质控方法,包括:
采集医疗废水处理全过程的监测数据;
对采集得到的监测数据进行分类识别,得到不同的数据类型;
根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据。
进一步地,所述的医疗废水监测数据质控方法还包括:
将所得到的异常点数据推送至目标对象。
进一步地,所述对采集得到的监测数据进行分类识别,得到不同的数据类型;
对所采集得到的监测数据运用快速傅里叶变换,将不同采集数据信号从时间域变换为频域形式,并从数据变换后的频谱图中获取频率的能量分布情况,以确认采集数据是否具有周期性,并由采集数N/频率得到数据序列的周期,即识别为周期性数据;
对于非周期性数据,通过时间序列数据中的单位根检验,若数据序列通过检验即识别为非周期平稳性数据,未通过检验,即识别为非周期无规律性波动数据。
进一步地,对于非周期性平稳性数据采用孤独森林算法对运维中异常数据进行识别:
在构造孤独森林子树时,先通过***抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;通过基森林异常检测器判断进入滑动窗口数据的异常情况;根据历史待检测数据量与滑动窗口数据异常率是否超过阈值,若超过阈值则为异常点数据。
进一步地,对于周期性数据采用Prophet-AE-LSTM集成算法对运维数据进行异常监测:
运用Prophet算法对于选取的历史依赖数据进行预测,得到预测值;
求出Prophet预测值与实际的残差,以对预测残差序列进行白噪声检验;
如果残差序列通过白噪声检验,表示序列中相关信息已被提取,用Prophet预测值与模型预测置信区间对比,若Prophet预测值超出预测置信区间,该预测点即为异常数据点。
如果残差序列未通过白噪声检验,表示序列中还残留着相关信息未被提取,将预测残差提取出来进行下一阶段的训练,即对上述残差项采用多特征叠加的AE-LSTM算法进行预测;将AE算法编码器中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行残差项的序列预测;采用AE算法对原始序列滞后项变量进行压缩,并将压缩特征与其他采集相关变量、prophet预测值进行拼接重新组成新的输入特征对仍包含信息的残差项进行训练,得到残差项的预测值;
将Prophet预测值与上步得到的残差预测值相加,得到一个最终预测值,如果该预测值超过经验阈值,即为异常点数据。
所述Prophet算法的表达式为:
y(t)=g(t)+s(t)+h(t)+εt
其中g(t)表示时间序列中的趋势项,s(t)表示时间序列中的周期项,h(t)代表着节假日带来的潜在影响,εt代表模型误差项,用来反应未在模型中体现的异常变动。
进一步地,对非周期无规律性波动数据采用EMD-AE-LSTM算法进行异常预测:
首先运用EMD(经验模态分解)对原始序列数据进行分解,得到各个序列的分量IMF;
在EMD经验模态分解基础上,对每个IMF分量分别构建EM-LSTM网络预测,将AE算法编码器从序列滞后变量中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行序列预测;
根据上步预测结果与实际值得到的残差,进一步与阈值进行对比的,若超出阈值,即为异常点数据。
第二方面,本发明实施例提供了一种医疗废水监测数据质控***,包括:
数据采集模块,用于采集医疗废水处理全过程的监测数据;
数据分类模块,用于对采集得到的监测数据进行分类识别,得到不同的数据类型;
数据分析模块,用于根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据;
数据推送模块,用于将所得到的异常点数据推送至目标对象。
第三方面,本发明实施例提供了一种医疗废水监测数据质控装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
本发明与现有技术相比,其有益效果在于:
本实施例提供的医疗废水监测数据质控方法基于已有医疗废水全过程大数据平台的监控数据,实现智能质控。利用算法精准找出异常点位,减少数据质量审核专员的工作量,解决人工审核易出现遗漏的问题,提高数据质量审核效率;较传统人工异常检测相比,基于不同医院独特的废水处理排放模式,进行智能化建模匹配,能够基于每家医院的不同监测指标,实现不同类型监测数据的自动识别与检查,智能高效的实现不同指标的异常检测,从而适应不同类型数据,实现多指标同时检测,同时能够快速发现数据发生异常的情况。
附图说明
图1为本发明实施例1提供的医疗废水监测数据质控方法的流程图;
图2为平稳性数据示意图;
图3为周期性数据示意图;
图4为非周期无规律性数据示意图;
图5为EMD-AE-LSTM算法流程图;
图6为LSTM网络的结构示意图;
图7为本发明实施例2提供的医疗废水监测数据质控***的组成示意图;
图8为本发明实施例3提供的医疗废水监测数据质控装置的组成示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1:
参阅图1-6所示,本实施提供的医疗废水监测数据质控方法具体包括:
101、基于医院废水全过程IOT(Internet ofThings,物联网)监控设备来获取医疗废水处理全过程的监测数据。
102、对采集得到的监测数据进行分类识别,得到不同的数据类型。
103、根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据;也就是说,可以基于每家医院的不同监测指标,实现不同类型监测数据的自动识别与检查,智能高效的实现不同指标的异常检测,从而适应不同类型数据,实现多指标同时检测。
由此可见,本方法基于已有医疗废水全过程大数据平台的监控数据,实现智能质控。利用算法精准找出异常点位,减少数据质量审核专员的工作量,解决人工审核易出现遗漏的问题,提高数据质量审核效率;较传统人工异常检测相比,基于不同医院独特的废水处理排放模式,进行智能化建模匹配,能够基于每家医院的不同监测指标,实现不同类型监测数据的自动识别与检查,智能高效的实现不同指标的异常检测,从而适应不同类型数据,实现多指标同时检测,同时能够快速发现数据发生异常的情况。
作为本实施例的一种优选,上述的医疗废水监测数据质控方法还包括:
104、将所得到的异常点数据推送至相关工程巡检人员;如此,能精准把握异常的开始时间和结束时间,方便技术人员结合业务经验对异常数据进行分析,发现异常的原因,指导运维人员及时进行现场维护。
具体地,在本实施例中,上述步骤101中的监测数据为与待测时段相邻的历史时段的设备监测数据,并生成医院数据的监测数据集;其中,所述待测时段为连续时段,数据集字段主要包括日期、医院类型、排水量、余氯、ph等指标,所述数据集包括历史时段监测数据,其中各参数采样频率均为2小时。
具体地,在本实施例中,上述步骤102包括:
如图2-4所示,由于步骤101所采集到的数据类型复杂众多,针对这一复杂情况下的不同数据,本实例首先运用快速傅里叶变换(fft),将不同采集数据信号从时间域变换为频域形式,并从数据变换后的频谱图中获取频率的能量分布情况,从而确认采集数据是否具有周期性,同时由采集数N/频率(HZ)得到数据序列的周期,即识别为周期性数据;其次,对于非周期类数据,通过时间序列数据中的单位根检验(ADF),若数据序列通过检验即识别为非周期平稳性数据,未通过检验,即识别为非周期无规律性波动数据(即图1中的无规律波动数据)。
具体地,在本实施例中,上述步骤103包括:
对于非周期平稳性数据,本实施例采用通过孤独森林算法对运维中异常数据进行识别。其中在构造孤独森林子树时,先通过***抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;通过基森林异常检测器判断进入滑动窗口数据的异常情况;根据历史待检测数据量与滑动窗口数据异常率是否超过阈值,超过则为异常点数据;选择较小的更新比例的模型更新策略;基于更新数据集计算每个子森林与基森林的异常率差值,去除差值较大的子森林,并构建多个子森林进行补充,组成新的基森林异常检测器,实现孤独森林算法的不断更新。
对于周期性数据,本实施例采用Prophet-AE(-Autoencoder)-LSTM集成算法对运维数据进行异常监测,具体包括如下步骤:
首先运用Prophet算法对于选取的历史依赖数据进行预测,得到预测值;
其次,求出Prophet预测值与实际的残差,进一步对预测残差序列进行白噪声检验。
如果残差通过白噪声检验,即表示序列中相关信息已被提取,即用Prophet预测值与模型预测置信区间对比,若Prophet预测值超出预测置信区间,该预测点即为推送为异常。
如果残差未通过白噪声检验,表示序列中还残留着相关信息未被提取,那么将预测残差提取出来进行下一阶段的训练,即对上述残差项采用多特征叠加的AE-LSTM算法(自编码器-长短期记忆模型)进行预测;其中AE算法是一种典型的特征表示学习方法,此网络中的隐含层则可以准确高效的对序列数据的核心特征进行表示。在本实施例模型中,将编码器中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行残差项的序列预测。在本实施例中主要采用AE算法对原始序列滞后项变量进行压缩,并将压缩特征与其他采集相关变量、prophet预测值进行拼接重新组成新的输入特征对仍包含信息的残差项进行训练,得到残差项的预测值。
最后,将Prophet预测值与上步得到的残差预测值相加,得到一个最终预测值。如果该预测值超过一定模型经验阈值,即推送为异常。
对于非周期无规律性波动数据,本实施例采用基于“分解-集成”的思想采用EMD-AE-LSTM算法首先对待测数据进行预测,并根据预测值与实际值的残差与阈值进行对比的思路对该类型中异常数据进行识别。首先运用EMD对原始序列数据进行分解,得到各个序列的分量IMF;在EMD经验模态分解基础上,对每个IMF分量分别构建EM-LSTM网络预测,将AE算法编码器从序列滞后变量中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行序列预测;根据上步预测结果与实际值得到的残差,进一步与阈值进行对比的,若超出阈值,即为异常点数据。经验模态分解(EMD)的基本思想为通过将原始序列分解成多个复杂度较低的IMF分量,从而来降低序列复杂度,即EMD算法可以将复杂信号分解为多个内涵模态分量(Intrinsic Mode Functions,IMF)和1个Trend趋势序列。其表达式为:
其中,st为原始信号,imfi(t)为第i个IMF分量,rn(t)为趋势项。
如图5所示,本实施例在经验模态分解的基础上,针对相对平稳但仍具有较强波动性的IMF分量,分别构建AE-LSTM网络预测模型。在提高预测模型准确性的同时,也为下一步与残差阈值对比保障了准确性与有效性。
具体地,对于以上表述中时间序列预测Prophet模型,可以捕捉到数据序列中趋势性、周期性、特殊日期的变化等规律,并在基于历史数据的规律变化和假设用户未来会延续这些规律的基础上,对未来进行预测。Prophet模型表达式为:
y(t)=g(t)+s(t)+h(t)+εt
其中g(t)表示时间序列中的趋势项,s(t)表示时间序列中的周期项,h(t)代表着节假日带来的潜在影响,εt代表模型误差项,用来反应未在模型中体现的异常变动。
对于以上表述中自编码器(Autoencoder,AE),是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。自编码器由两部分组成:第一,编码器,这部分能将输入压缩成潜在空间表征,可以用编码函数h=f(x)表示;第二,解码器,这部分能重构来自潜在空间表征的输入,可以用解码函数r=g(h)表示。通过训练输出值等于输入值的自编码器,让潜在表征h将具有价值属性,这些表示也是所期望的内在特征,这也是一种典型的表示学习及特征学习方法,且多应用在实际训练样本没有标签的情况下。
对于以上表述中LSTM模型,即长短期记忆网络模型,该模型是专门针对序列问题的一种特殊的循环神经网络。相比于普通循环神经网络,LSTM网络引入了“门”(gate)的概念代替了传统的神经元,使得其可以控制长期的记忆状态。LSTM网络的结构示意如图6所示。
在LSTM网络中,“门”是一种信息的筛选结构,即一种信息权重。它通过一个权重矩阵对输入信息进行点乘操作,再通过sigmoid函数把输出值控制在[0,1]区间当中,输出“0”代表丢弃所有信息,输出“1”则代表信息完全通过。LSTM模型主要由输入门、遗忘门、输出门和细胞状态组成。其中输入门用来控制当前时刻输入的信息有多少可以加入到细胞状态中;遗忘门决定上一时刻细胞状态中有多少信息可以传递到当前时刻中;输出门基于以上遗忘门和输入门更新的细胞状态,来最终输出结果。其中细胞状态主要记录了当前输入、上一时刻隐藏层状态、上一时刻细胞状态以及门结构中的信息。具体LSTM的算法模型计算步骤如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo·(ht-1,xt)+bo)
ht=ot·tanh(Ct)
其中,ht-1是隐藏层t-1时刻的输出,xt是t时刻的输入,Wf是遗忘门的权重矩阵,bf是遗忘门的偏移量,σ(·)是sigmoid函数;Wi是输入门的权重矩阵,bi是输入门的偏移量;是t时刻从输入层提取到的候选信息,Wc是输入层的权重矩阵,bc是输入门的偏移量;Ct是t时刻的细胞单元状态信息,Ct-1是t-1时刻的细胞单元状态信息;Wo是输出门的权重矩阵,bo是输出门的偏移量;ot是输出门信息权重,ht是最终输出信息。综上,LSTM网络可通过三个“门”来实现对信息的提取,使得长期信息更容易在网络中传递,避免了传统循环神经网络中由于长距离依赖导致的梯度消失问题。
本方法具体应用于异常检测时,具备包括如下步骤:
(1)模型训练,模式识别:基于每家医院独特的监控数据,研究针对医院的治理运维数据进行模型训练,实现数据检查运维从“现场监测”及“人工审核”到“智能识别”的转变;
(2)模型部署,异常识别:通过联网收集数据加载到训练好的智能识别模型,模型将基于数据特征首先进行模式匹配,基于数据的模式再通过偏离程度,进行异常识别告警;
(3)远程查看告警信息:对进行智能运维的医疗数据进行24小时在线自动化智能质检,一线运维人员只需要对告警信息进行查看与判断决策,实现智控全面信息化智能化。
(4)模型再训练:本智能智控算法包括再训练模块,基于设定的再训练阈值(15天、30天、60天)将能够基于新的数据模型进行融合再训练,使得模型能够匹配数据的新模式进行异常识别检测,实现全面的自动化数据质量。
综上,本实施提供的医疗废水监测数据质控方法与现有技术相比,具有如下技术优势:
1、24小时数据质量保障、节约大量的人力物力、提高异常检测率;
2、采用本智能检测算法,能够实现对监测数据的24小时质控保障,通过对自动化监测数据进行模式识别处理,使得质检人员不需要通过现场检查,也不需要通过24小时人工肉眼审核数据,算法能自动推出疑似异常的情况,仅需对异常的推送结果进行排查分析,大大节约了人力物力;
3、采用本智能检测算法,即能对实时数据进行的数据有效性检测,将传统的以天为单位的质检时间缩短为2小时,大大提高了运维的有效率;
4、传统数据异常检测仅针对某一类型的数据用特定算法进行监测,但实际应用中,不同行业,不同数据指标的类型可能不一致,因此,单一特定的算法并不能很好的适用对不同类型数据的异常检测,而医疗废水监测质控智能算法***较好的解决了这一问题,实现对医疗废水数据的自动分类,并自动调用相对应的算法实现智能检测。
实施例2:
参阅图7所示,本实施例提供了一种医疗废水监测数据质控***,所示***包括:
数据采集模块701,基于医院废水全过程IOT(Internet of Things,物联网)监控设备来获取医疗废水处理全过程的监测数据,该监测数据为与待测时段相邻的历史时段的设备监测数据,并生成医院数据的监测数据集;其中,所述待测时段为连续时段,数据集字段主要包括日期、医院类型、排水量、余氯、ph等指标,所述数据集包括历史时段监测数据,其中各参数采样频率均为2小时。
数据分类模块702,用于对采集得到的监测数据进行分类识别,得到不同的数据类型。
数据分析模块703,用于根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据。
数据推送模块704,用于将所得到的异常点数据推送至目标对象。
具体地,上述数据分类模块的工作原理包括:
由于数据采集模块所采集到的数据类型复杂众多,针对这一复杂情况下的不同数据,本实施例数据分类模块首先运用快速傅里叶变换(fft),将不同采集数据信号从时间域变换为频域形式,并从数据变换后的频谱图中频率的能量分布情况,从而确认采集数据是否具有周期性,同时由采集数N/频率(HZ)得到数据序列的周期,即识别为周期性数据;其次,对于非周期类数据,通过时间序列数据中的单位根检验(ADF),若数据序列通过检验即识别为非周期平稳性数据,未通过检验,即识别为非周期无规律性波动数据。
具体地,在本实施例中,上述数据分析模块的的工作原理包括:
对于非周期平稳性数据,本实施例采用通过孤独森林算法对运维中异常数据进行识别。其中在构造孤独森林子树时,先通过***抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;通过基森林异常检测器判断进入滑动窗口数据的异常情况;根据历史待检测数据量与滑动窗口数据异常率是否超过阈值,超过则为异常点数据;选择较小的更新比例的模型更新策略;基于更新数据集计算每个子森林与基森林的异常率差值,去除差值较大的子森林,并构建多个子森林进行补充,组成新的基森林异常检测器,实现孤独森林算法的不断更新。
对于周期性数据,本实施例采用Prophet-AE(-Autoencoder)-LSTM集成算法对运维数据进行异常监测,具体包括如下步骤:
首先运用Prophet算法对于选取的历史依赖数据进行预测,得到预测值;
其次,求出Prophet预测值与实际的残差,进一步对预测残差序列进行白噪声检验。
如果残差序列通过白噪声检验,即表示序列中相关信息已被提取,即用Prophet预测值与模型预测置信区间对比,若Prophet预测值超出预测置信区间,该预测点即为推送为异常。
如果残差未通过白噪声检验,表示序列中还残留着相关信息未被提取,那么将预测残差提取出来进行下一阶段的训练,即对上述残差项采用多特征叠加的AE-LSTM算法(自编码器-长短期记忆模型)进行预测;其中AE算法是一种典型的特征表示学习方法,此网络中的隐含层则可以准确高效的对序列数据的核心特征进行表示。在本发明模型中,将编码器中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行残差项的序列预测。在本发明中主要采用AE算法对原始序列滞后项变量进行压缩,并将压缩特征与其他采集相关变量、prophet预测值进行拼接重新组成新的输入特征对仍包含信息的残差项进行训练,得到残差项的预测值。
最后,将Prophet预测值与上步得到的残差预测值相加,得到一个最终预测值。如果该预测值超过一定模型经验阈值,即推送为异常
对于非周期无规律性波动数据,本实施例采用基于“分解-集成”的思想采用EMD-AE-LSTM算法首先对待测数据进行预测,并根据预测值与实际值的残差与阈值进行对比的思路对该类型中异常数据进行识别。首先运用EMD对原始序列数据进行分解,得到各个序列的分量IMF;在EMD经验模态分解基础上,对每个IMF分量分别构建EM-LSTM网络预测,将AE算法编码器从序列滞后变量中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行序列预测;根据上步预测结果与实际值得到的残差,进一步与阈值进行对比的,若超出阈值,即为异常点数据。经验模态分解(EMD)的基本思想为通过将原始序列分解成多个复杂度较低的IMF分量,从而来降低序列复杂度,即EMD算法可以将复杂信号分解为多个内涵模态分量(Intrinsic Mode Functions,IMF)和1个Trend趋势序列。其表达式为:
其中,st为原始信号,imfi(t)为第i个IMF分量,rn(t)为趋势项。
如图5所示,本实施例在经验模态分解的基础上,针对相对平稳但仍具有较强波动性的IMF分量,分别构建AE-LSTM网络预测模型。在提高预测模型准确性的同时,也为下一步与残差阈值对比保障了准确性与有效性。
对于以上表述中时间序列预测Prophet模型,可以捕捉到数据序列中趋势性、周期性、特殊日期的变化等规律,并在基于历史数据的规律变化和假设用户未来会延续这些规律的基础上,对未来进行预测。Prophet模型表达式为:
y(t)=g(t)+s(t)+h(t)+εt
其中g(t)表示时间序列中的趋势项,s(t)表示时间序列中的周期项,h(t)代表着节假日带来的潜在影响,εt代表模型误差项,用来反应未在模型中体现的异常变动。
对于以上表述中自编码器(Autoencoder,AE),是一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出。自编码器由两部分组成:第一,编码器,这部分能将输入压缩成潜在空间表征,可以用编码函数h=f(x)表示;第二,解码器,这部分能重构来自潜在空间表征的输入,可以用解码函数r=g(h)表示。通过训练输出值等于输入值的自编码器,让潜在表征h将具有价值属性,这些表示也是所期望的内在特征,这也是一种典型的表示学习及特征学习方法,且多应用在实际训练样本没有标签的情况下。
对于以上表述中LSTM模型,即长短期记忆网络模型,其特征在于该模型是专门针对序列问题的一种特殊的循环神经网络。相比于普通循环神经网络,LSTM网络引入了“门”(gate)的概念代替了传统的神经元,使得其可以控制长期的记忆状态。LSTM网络的结构示意如图6所示。
在LSTM网络中,“门”是一种信息的筛选结构,即一种信息权重。它通过一个权重矩阵对输入信息进行点乘操作,再通过sigmoid函数把输出值控制在[0,1]区间当中,输出“0”代表丢弃所有信息,输出“1”则代表信息完全通过。LSTM模型主要由输入门、遗忘门、输出门和细胞状态组成。其中输入门用来控制当前时刻输入的信息有多少可以加入到细胞状态中;遗忘门决定上一时刻细胞状态中有多少信息可以传递到当前时刻中;输出门基于以上遗忘门和输入门更新的细胞状态,来最终输出结果。其中细胞状态主要记录了当前输入、上一时刻隐藏层状态、上一时刻细胞状态以及门结构中的信息。具体LSTM的算法模型计算步骤如下:
ft=σ(Wf·[ht-1,xt]+bf)
it=σ(Wi·[ht-1,xt]+bi)
ot=σ(Wo·(ht-1,xt)+bo)
ht=ot·tanh(Ct)
其中,ht-1是隐藏层t-1时刻的输出,xt是t时刻的输入,Wf是遗忘门的权重矩阵,bf是遗忘门的偏移量,σ(·)是sigmoid函数;Wi是输入门的权重矩阵,bi是输入门的偏移量;是t时刻从输入层提取到的候选信息,Wc是输入层的权重矩阵,bc是输入门的偏移量;Ct是t时刻的细胞单元状态信息,Ct-1是t-1时刻的细胞单元状态信息;Wo是输出门的权重矩阵,bo是输出门的偏移量;ot是输出门信息权重,ht是最终输出信息。综上,LSTM网络可通过三个“门”来实现对信息的提取,使得长期信息更容易在网络中传递,避免了传统循环神经网络中由于长距离依赖导致的梯度消失问题。
实施例3:
参阅图8所示,本实施例提供的医疗废水监测数据质控装置包括处理器801、存储器802以及存储在该存储器801中并可在所述处理器801上运行的计算机程序803,例如医疗废水监测数据质控处理程序。该处理器801执行所述计算机程序803时实现上述实施例1步骤,例如图1所示的步骤。或者,所述处理器801执行该计算机程序803时实现上述实施例2中各模块功能。
示例性的,所述计算机程序803可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器802中,并由所述处理器801执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序803在所述医疗废水监测数据质控装置中的执行过程。例如,所述计算机程序803可以被分割成数据采集和数据分类模块。
所述医疗废水监测数据质控装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述医疗废水监测数据质控装置可包括,但不仅限于,处理器801、存储器802。本领域技术人员可以理解,图5仅仅是医疗废水监测数据质控装置的示例,并不构成医疗废水监测数据质控装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述医疗废水监测数据质控装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器801可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器802可以是所述医疗废水监测数据质控装置的内部存储元,例如医疗废水监测数据质控装置的硬盘或内存。所述存储器802也可以是所述医疗废水监测数据质控装置的外部存储设备,例如所述医疗废水监测数据质控装置上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器802还可以既包括所述医疗废水监测数据质控装置的内部存储单元也包括外部存储设备。所述存储器802用于存储所述计算机程序以及所述医疗废水监测数据质控装置所需的其他程序和数据。所述存储器802还可以用于暂时地存储已经输出或者将要输出的数据。
实施例4:
本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现实施例1所述方法的步骤。
所示计算机可读介质可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理再以电子方式获得所述程序,然后将其存储在计算机存储器中。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (7)
1.一种医疗废水监测数据质控方法,其特征在于,包括:
采集医疗废水处理全过程的监测数据;
对采集得到的监测数据进行分类识别,得到不同的数据类型;
根据所识别得到的数据类型匹配对应的异常检测算法及参数,得到异常点数据;
所述对采集得到的监测数据进行分类识别,得到不同的数据类型包括:
对所采集得到的监测数据运用快速傅里叶变换,将不同采集数据信号从时间域变换为频域形式,并根据数据变换后的频谱图中获取频率的能量分布情况,以确认采集数据是否具有周期性,并由采集数N/频率得到数据序列的周期,即识别为周期性数据;
对于非周期性数据,通过时间序列数据中的单位根检验,若数据序列通过检验即识别为非周期平稳性数据,未通过检验,即识别为非周期无规律性波动数据;
对于周期性数据采用Prophet-AE-LSTM集成算法对运维数据进行异常监测:
运用Prophet算法对于选取的历史依赖数据进行预测,得到预测值;
求出Prophet预测值与实际的残差,以对预测残差序列进行白噪声检验;
如果残差序列通过白噪声检验,表示序列中相关信息已被提取,用Prophet预测值与模型预测置信区间对比,若Prophet预测值超出预测置信区间,预测点即为异常数据点;
如果残差序列未通过白噪声检验,表示序列中还残留着相关信息未被提取,将预测残差提取出来进行下一阶段的训练,即对残差项采用多特征叠加的AE-LSTM算法进行预测;将AE算法编码器中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行残差项的序列预测;其中,采用AE算法对原始序列滞后项变量进行压缩,并将压缩特征与其他采集相关变量、prophet预测值进行拼接重新组成新的输入特征对仍包含信息的残差项进行训练,得到残差项的预测值;
将Prophet预测值与上步得到的残差预测值相加,得到一个最终预测值,如果该预测值超过经验阈值,即为异常点数据。
2.如权利要求1所述的医疗废水监测数据质控方法,其特征在于,还包括:
将所得到的异常点数据推送至目标对象。
3.如权利要求1所述的医疗废水监测数据质控方法,其特征在于,对于非周期性平稳性数据采用孤独森林算法对运维中异常数据进行识别:
在构造孤独森林子树时,先通过***抽样方法对数据集进行抽样,构建子森林,并将其组成基森林异常检测器;通过基森林异常检测器判断进入滑动窗口数据的异常情况;根据历史待检测数据量与滑动窗口数据异常率是否超过阈值,若超过阈值则为异常点数据。
4.如权利要求1所述的医疗废水监测数据质控方法,其特征在于,对非周期无规律性波动数据采用EMD-AE-LSTM算法进行异常预测:
首先运用EMD对原始序列数据进行分解,得到各个序列的分量IMF;
在EMD经验模态分解基础上,对每个IMF分量分别构建EM-LSTM网络预测,将AE算法编码器从序列滞后变量中学到的特征与其他相关采集特征进行拼接,进而输入到LSTM模型中进行序列预测;
根据上步预测结果与实际值得到的残差,进一步与阈值进行对比的,若超出阈值,即为异常点数据。
5.如权利要求1所述的医疗废水监测数据质控方法,其特征在于,所述Prophet算法的表达式为:
y(t)=g(t)+s(t)+h(t)+εt
其中g(t)表示时间序列中的趋势项,s(t)表示时间序列中的周期项,h(t)代表着节假日带来的潜在影响,εt代表模型误差项,用来反应未在模型中体现的异常变动。
6.一种医疗废水监测数据质控装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203309.2A CN112288021B (zh) | 2020-11-02 | 2020-11-02 | 一种医疗废水监测数据质控方法、装置及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203309.2A CN112288021B (zh) | 2020-11-02 | 2020-11-02 | 一种医疗废水监测数据质控方法、装置及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112288021A CN112288021A (zh) | 2021-01-29 |
CN112288021B true CN112288021B (zh) | 2022-04-29 |
Family
ID=74353906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203309.2A Active CN112288021B (zh) | 2020-11-02 | 2020-11-02 | 一种医疗废水监测数据质控方法、装置及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112288021B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113240162B (zh) * | 2021-04-28 | 2022-03-01 | 南京天溯自动化控制***有限公司 | 一种基于EEMD-Prophet算法的医院能耗预测方法 |
CN114722972A (zh) * | 2022-06-01 | 2022-07-08 | 新华三人工智能科技有限公司 | 一种异常检测的方法及装置 |
CN115662588B (zh) * | 2022-10-24 | 2023-08-01 | 南京喜悦科技股份有限公司 | 基于区域性医疗消毒供应全流程信息追溯***及方法 |
CN115495274B (zh) * | 2022-11-15 | 2023-03-07 | 阿里云计算有限公司 | 基于时序数据的异常处理方法、网络设备和可读存储介质 |
CN116384158B (zh) * | 2023-05-26 | 2023-08-18 | 广东合诚环境工程有限公司 | 基于大数据的污水处理设备运行监测方法及*** |
CN116881747B (zh) * | 2023-09-06 | 2023-11-24 | 武汉华康世纪医疗股份有限公司 | 基于医疗废水监测的智能处理方法及*** |
CN117689218B (zh) * | 2024-02-04 | 2024-04-12 | 成都工喜科技有限公司 | 一种适用于工业企业生产现场环境风险智能化管控*** |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN110378392A (zh) * | 2019-06-26 | 2019-10-25 | 华东师范大学 | 一种基于lstm-ae的室内老人状态监测方法 |
CN110865929A (zh) * | 2019-11-26 | 2020-03-06 | 携程旅游信息技术(上海)有限公司 | 异常检测预警方法及*** |
CN110888788A (zh) * | 2019-10-16 | 2020-03-17 | 平安科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
CN111352971A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 银行***监控数据异常检测方法及*** |
CN111353482A (zh) * | 2020-05-25 | 2020-06-30 | 天津开发区精诺瀚海数据科技有限公司 | 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法 |
CN111639798A (zh) * | 2020-05-26 | 2020-09-08 | 华青融天(北京)软件股份有限公司 | 智能的预测模型选择方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11567914B2 (en) * | 2018-09-14 | 2023-01-31 | Verint Americas Inc. | Framework and method for the automated determination of classes and anomaly detection methods for time series |
-
2020
- 2020-11-02 CN CN202011203309.2A patent/CN112288021B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107657288A (zh) * | 2017-10-26 | 2018-02-02 | 国网冀北电力有限公司 | 一种基于孤立森林算法的电力调度流数据异常检测方法 |
CN110378392A (zh) * | 2019-06-26 | 2019-10-25 | 华东师范大学 | 一种基于lstm-ae的室内老人状态监测方法 |
CN110888788A (zh) * | 2019-10-16 | 2020-03-17 | 平安科技(深圳)有限公司 | 异常检测方法、装置、计算机设备及存储介质 |
CN110865929A (zh) * | 2019-11-26 | 2020-03-06 | 携程旅游信息技术(上海)有限公司 | 异常检测预警方法及*** |
CN111352971A (zh) * | 2020-02-28 | 2020-06-30 | 中国工商银行股份有限公司 | 银行***监控数据异常检测方法及*** |
CN111353482A (zh) * | 2020-05-25 | 2020-06-30 | 天津开发区精诺瀚海数据科技有限公司 | 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法 |
CN111639798A (zh) * | 2020-05-26 | 2020-09-08 | 华青融天(北京)软件股份有限公司 | 智能的预测模型选择方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于LSTM-Prophet非线性组合的时间序列预测模型;赵英等;《计算机与现代化》;20200915(第09期);全文 * |
基于长短时记忆―自编码神经网络的风电机组性能评估及异常检测;柳青秀等;《计算机集成制造***》;20191215(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112288021A (zh) | 2021-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112288021B (zh) | 一种医疗废水监测数据质控方法、装置及*** | |
CN113344295B (zh) | 基于工业大数据的设备剩余寿命预测方法、***及介质 | |
Russo et al. | Anomaly detection using deep autoencoders for in-situ wastewater systems monitoring data | |
KR102149495B1 (ko) | 환경 예측 모델의 훈련지표 최적화 장치 및 그 동작방법 | |
CN112414694B (zh) | 基于多元状态估计技术的设备多级异常状态识别方法及装置 | |
CN116451142A (zh) | 一种基于机器学习算法的水质传感器故障检测方法 | |
Son et al. | Deep learning-based anomaly detection to classify inaccurate data and damaged condition of a cable-stayed bridge | |
KR20230021272A (ko) | 인공지능을 이용한 교량 건전성 모니터링 시스템 | |
CN116416884A (zh) | 一种显示器模组的测试装置及其测试方法 | |
CN117933531A (zh) | 一种分布式光伏发电功率预测***及方法 | |
Bond et al. | A hybrid learning approach to prognostics and health management applied to military ground vehicles using time-series and maintenance event data | |
CN117216522A (zh) | 一种基于机器学习的轴承故障类别诊断方法、装置及设备 | |
CN115600695B (zh) | 一种计量设备的故障诊断方法 | |
CN117060353A (zh) | 基于前馈神经网络高压直流输电***故障诊断方法及*** | |
CN116631626A (zh) | 一种患者临床风险评估方法、装置、设备及介质 | |
CN115183963A (zh) | 桥梁异常状态检测方法、***、设备及介质 | |
CN113421643B (zh) | 一种ai模型可靠性判断方法、装置、设备及存储介质 | |
Colace et al. | Unsupervised Learning Techniques for Vibration-Based Structural Health Monitoring Systems Driven by Data: A General Overview | |
CN117390592B (zh) | 一种特色景观预报模型构建方法及*** | |
Kolekar | Prediction of Suspended Particulate Matter Using Machine Learning | |
CN116307712A (zh) | 一种财报风险识别方法、装置、电子设备及存储介质 | |
CN114330515A (zh) | 一种桥梁监测数据异常诊断与修复方法 | |
de Castro Mota | Structural Health Monitoring: A Machine Learning Approach | |
Hagendorfer | Evaluation of the Potential of Deep Learning for Manufacturing Process Analytics | |
CN117609701A (zh) | 一种变电站设备噪声的智能分解及识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |