CN110245880A - 一种污染源在线监控数据作弊识别方法 - Google Patents

一种污染源在线监控数据作弊识别方法 Download PDF

Info

Publication number
CN110245880A
CN110245880A CN201910591968.9A CN201910591968A CN110245880A CN 110245880 A CN110245880 A CN 110245880A CN 201910591968 A CN201910591968 A CN 201910591968A CN 110245880 A CN110245880 A CN 110245880A
Authority
CN
China
Prior art keywords
data
enterprise
exceeded
monitoring
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910591968.9A
Other languages
English (en)
Inventor
张子健
江洁羽
李文
李科峰
梁思源
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZHEJIANG SUCCESS SOFTWARE DEVELOPMENT Co Ltd
Original Assignee
ZHEJIANG SUCCESS SOFTWARE DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHEJIANG SUCCESS SOFTWARE DEVELOPMENT Co Ltd filed Critical ZHEJIANG SUCCESS SOFTWARE DEVELOPMENT Co Ltd
Priority to CN201910591968.9A priority Critical patent/CN110245880A/zh
Publication of CN110245880A publication Critical patent/CN110245880A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • GPHYSICS
    • G07CHECKING-DEVICES
    • G07CTIME OR ATTENDANCE REGISTERS; REGISTERING OR INDICATING THE WORKING OF MACHINES; GENERATING RANDOM NUMBERS; VOTING OR LOTTERY APPARATUS; ARRANGEMENTS, SYSTEMS OR APPARATUS FOR CHECKING NOT PROVIDED FOR ELSEWHERE
    • G07C9/00Individual registration on entry or exit
    • G07C9/00174Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys
    • G07C9/00563Electronically operated locks; Circuits therefor; Nonmechanical keys therefor, e.g. passive or active electrical keys or other data carriers without mechanical keys using personal physical data of the operator, e.g. finger prints, retinal images, voicepatterns

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种污染源在线监控数据作弊识别方法,该方法包含数据预处理、固定规则筛查、视频门禁、现场稽查和基于机器学习的规则优化。其中,固定规则筛查,包括企业作弊规则筛查、企业仪器故障筛查和运维单位异常筛查。视频门禁是一种查找企业是否作弊的工具,视频和门禁报警会在***展现。现场稽查是对固定规则筛查结果数据以及视频门禁的现场核实,可以得出企业是否作弊、是否仪器故障、运维单位是否运维记录作假等结果,机器学习是基于现场稽查的反馈优化规则,使得固定筛查结果可信度更高。本发明提出的一种污染源在线监控数据作弊识别方法,能够解决企业偷排废水废气、在线监控运维不规范等问题,同时可以辅助用户的决策分析。

Description

一种污染源在线监控数据作弊识别方法
技术领域
本发明涉及在线监控防作弊领域,尤其涉及一种污染源在线监控数据作弊识别方法。
背景技术
环境质量是公众关注的焦点,如何更好地利用现有数据管理污染源企业成为相关机构的难题。对于污染源防作弊的现状,主要可归结为三方面:视频监控检测过程,及工作人员凭借观察数据,比如检测值过大或者过小等进行判断。目前,作弊数据只能通过人工审核,经验审核。甚至,更多的情况是接受到了民众的投诉,政府部门按照流程进行督查,效果甚微。对于海量数据,人工成本很高,每天每个污染源企业会产生上百条监测数据,那么人工审核效率低下。使用机器远程实时监控,又不能保证视频监控的可靠性,那么,对于这种人工干预的“异常”数据,往往会存在一定的规律性,找出“异常”数据之间的规律,提供检查机关相应的决策参考,可以大大的提高对不法企业的监管,对环境的有力保护。
发明内容
本发明目的在于针对现有技术的不足,提出一种污染源在线监控数据作弊识别方法,能够解决企业偷排废水废气、在线监控运维不规范等问题,同时可以辅助用户的决策分析。
本发明的目的是通过以下技术方案来实现的:一种污染源在线监控数据作弊识别方法,该方法包括:
1)数据预处理:对在线监控数据做预处理,选择时均值数据作为固定规则筛查的基础数据,并处理无效数据,处理规则是若某一时间段流量仪检测的数据为零,则剔除该时间段所有监测仪器的监测指标数据;判断监测仪器的监测指标数据为零的百分比,若小于阈值,则利用插值法进行数据的填充,否则剔除该项监测指标数据;
2)固定规则筛查:包括企业作弊规则库、企业仪器故障规则库以及运维单位异常规则库;
所述企业作弊规则库用来判断企业是否作弊,并标注出作弊嫌疑企业,包括稀释、同行业排放量分析、监测指标协同分析、超标突降、间断超标突降、组合分析、格拉布斯法;
所述企业仪器故障规则库用于判断企业仪器是否故障,并标注出故障仪器及具有故障仪器的企业,包括零值和恒值;
所述运维单位异常规则库用于判断运维单位质控记录是否作假,并标注出运维单位异常的企业;
固定规则筛查的结果以可视化方式展示;
3)视频门禁:包括视频监控和门禁记录,视频监控包括企业排污口视频监控和站房视频监控,用于监控企业人员的违规行为;门禁记录是指人员出入站房的记录;视频门禁有两种应用形式,第一种是视频门禁结合固定规则筛查结果,进一步确认企业是否存在作弊、仪器故障或运维异常情况;第二种是视频门禁预警,即查看排污口、站房的视频监控,若监控到排污口水质浑浊、排污口有人靠近或站房有非法人员闯入的情况,输出预警信息;
4)现场稽查:现场稽查人员根据固定规则筛查结果和视频门禁信息,结合企业信息进行现场稽查,企业信息包括企业在线监控数据、运维记录等,现场稽查会产生企业在线监控是否存在数据作弊、仪器是否故障、运维单位质控记录是否造假三种结果数据,输出结果并将其作为标记信息用于修正机器学习相关参数,优化固定规则筛查方法,从而获得更高的准确度;
5)基于机器学习的规则优化:根据视频门禁和现场稽查的反馈信息,以机器学习的方式对固定规则筛查不断优化,形成可信度更高的筛查规则,所述机器学习的方式为非监督学习和半监督学习相结合或时间序列分析TSA,在机器学习的过程中根据实际情况设定适合具体需求的阈值。
进一步地,所述无效数据的处理规则具体为,若仅有低于10%的监测指标数据为零,则利用插值法进行数据的填充;若有高于10%的监测指标数据为零则剔除该项数据。
进一步地,企业作弊规则库中,超标突降、间断超标突降、组合分析这三项规则不做监测指标数据是否为零的判断,只进行流量仪检测的数据是否为零的判断。
进一步地,所述的企业作弊规则库中的稀释具体为:
1)稀释的作弊手段有另外设置排放管道、稀释排放、稀释样品;针对这些作弊手段,对有两项及以上监测指标的企业进行在线监控数据同步分析,如果存在两项及以上监测指标同比例增大或者减小的情况则标记为作弊嫌疑企业;具体包括以下步骤:
(1)对除去PH和流量两项检测指标以外还存在两项及以上监测指标的企业在线监控数据做稀释规则筛查。
(2)规则说明:假设某企业含有a,b,c三种因子,N时三个监测指标的数据分别为An,Bn,Cn
时间 a b c
N时 A<sub>n</sub> B<sub>n</sub> C<sub>n</sub>
N+1时 A<sub>n+1</sub> B<sub>n+1</sub> C<sub>n+1</sub>
如果同时满足下列关系:An、Bn、Cn其中一个超过排放标准的70%。
(3)将结果标记为作弊嫌疑企业。
2)所述同行业排放量分析具体为:
把排污企业涉及的行业、排放标准限制、企业产量、以及废水处理工艺的这几个因素作为筛选条件,把同一行业、同一排放标准、产量相同以及废水处理工艺相似的企业归类,这类企业认为是相似企业。根据相似企业的废水排放量,以监测项的浓度类比分析,找出异常于平均水平的企业,将该企业标记为作弊嫌疑企业。
3)所述监测指标协同分析包括:在线监控数据中的总氮与氨氮协同分析和化学需氧量与总有机碳协同分析。
(a)总氮与氨氮协同分析:在线监控数据中有总氮和氨氮的浓度这两项监测指标的情况,对于氨氮浓度大于总氮浓度的情况做进一步分析。
(1)数据剔除:氨氮和总氮任一数值为零,剔除该项数据。
(2)规则说明:假设某企业含有a(氨氮),b(总氮)
时间 a b
N时 A1 B1
其中,a是氨氮,b是总氮,A1和B1是N时氨氮和总氮的浓度,并且B1/A1<70%。
(3)将结果标记为作弊嫌疑企业。
(b)化学需氧量与总有机碳协同分析:化学需氧量和总有机碳有较大相关性。
规则:企业废水的化学需氧量和总有机碳有线性回归关系y=Px+Q,其中P和Q的数据能够在在线监控因子对应的分析仪器中得到,x表示总有机碳,y表示化学需氧量。
所以根据化学需氧量或者总有机碳中的任意一个数值,运用关系式可以推出另一个数值,假设某一时间点仪器分析出总有机碳x1和化学需氧量y1。根据x1计算得出化学需氧量的计算值y2,根据标准规定,企业排放废水中两者的分析值的误差在10%以内是允许的,即|y1-y2|/y2≤10%,超出10%则认为是异常,则标记为作弊嫌疑企业。
4)超标突降和间断超标突降,所述超标突降包括超标分析和邻近超标分析,超标分析或邻近超标分析是指企业在线监控的某项监测指标超标或者即将超标的情况,若该监测指标数值突然下降,则对该项指标做进一步分析;具体包括以下步骤:
规则说明:假设某企业含有a因子,N时监测指标的数据为An
第一种情况是邻近超标分析,An的数值在超标线的80%-100%之间,如果或者那么认为An、An+1、An+2属于异常数据;第二种是超标分析,An的数值超过超标线,如果符合超标突降规则,An、An+1、An+2、An+3也同样属于异常数据。如果符合第一种或第二种的情况,则标记为超标突降。
间断超标突降是对超标突降的第二种情况做进一步分析,超标分析的记录N+2到N+7的数据做是否超标筛查,若存在超标情况,标记为间断超标突降。
将以上结果标记为作弊嫌疑企业。
5)所述组合分析是指组合多项分析规则进行分析,包括:
a)超标突降+监测指标协同分析
对于查找出来的超标突降数据,并且是氨氮大于总氮的情况,或者化学需氧量COD与总有机碳TOC不符合相关关系,对于这种数据同时符合两种作弊数据特征,作弊嫌疑增加,标记为作弊嫌疑企业。
b)超标突降+恒值
对于固定规则筛查中查找出来超标突降的数据,同时超标突降的数据还具有企业仪器故障规则库中的恒值特征,可认为同时符合两种作弊特征,作弊嫌疑增加,标记为作弊嫌疑企业。
6)所述格拉布斯法是分析异常值的一种方法,如果一组数据偏离平均值很远则判定为可疑值,监测指标中的异常值可用格拉布斯准则判别。
规则:将数据按照从大到小排列,则可能出现异常值的数据经常出现在最大值或最小值的数据当中。
(i)对于含有n个时均值的一条数据(每个监测因子为一条数据),计算该条数据每个时均值的统计量G,第i个时均值的统计量Gi可表示为:
其中,i∈{1,2,3,...,n},表示n个时均值的均值,s表示标准差,xi表示时均值;
(ii)查找格拉布斯系数
根据统计量G查找格拉布斯系数表中对应的临界量;
(iii)查找出异常值
当xi的最大值或者最小值对应的统计量G大于临界量时,则认为与之对应的最大值或最小值是疑似异常值;
(iv)将结果标记为作弊嫌疑企业。
进一步地,所述的企业仪器故障规则库的零值和恒值具体为;
a)零值
在线监控监测指标或者流量数值连续24小时之内都是零值,标记为仪器故障嫌疑。
b)恒值
在线监控监测指标或者流量数值连续24小时之内保持不变,标记为仪器故障嫌疑。
进一步地,所述的运维单位异常规则是指运维单位保留的质控记录与数采仪上传数据不一致,对于这种情况按照以下规则做进一步分析;
规则:运维记录中质控样数值用M表示,数采仪采集的历史数据记为N,如果满足|M-N|/N≥30%,标记为运维单位质控记录作假。
进一步地,通过接入视频门禁,与标记为作弊嫌疑企业的在线监控数据结合分析,视频门禁可根据异常数据时间点找出对应时间范围内的视频数据,分析其作弊行为。
进一步地,所述现场稽查是对于通过固定规则筛查和视频门禁结合分析标记出的作弊嫌疑企业,相关人员去企业现场核实情况,并获取证据;基于固定规则筛查查找出来的异常数据,通过现场核查仪器是否正常运行、仪器储存的历史数据、排污单位废水水质情况判定该企业是否作弊。
进一步地,所述非监督学习和半监督学习相结合的基于机器学习的数据作弊识别方式,是指在初始状态下,没有标记信息的情况下,只能采用非监督的聚类方法去区分远离总体的点,当获取小部分可靠的人工检测结果之后可以充分利用这些可靠的检验值得到更好的结果,采用聚类方法与ADOA(Anomaly Detection with partial ObservedAnomalies)相结合的方法,具体步骤包括:
(1)无标记的初期,采用非监督的聚类的方法,该方法可选为基于距离的k-mean算法或者基于密度的DBSCAN。
(2)在获取一定的标记信息之后,使用ADOA算法。ADOA的使用场景是有大量未标记的样本,只有少量的标记为异常的样本,并且默认异常的样本不是单一的而是有多种类型的;ADOA算法分为两个阶段:
阶段一:首先将已观测到的异常样本做一个K聚类,然后基于孤立得分(isolationscore)和相似得分(similarity score)将未标记的样本分为潜在异常样本和可信的正常样本。其中:
(a)孤立得分:基于孤立森林(isolation forest),首先建立样本的孤立森林,在孤立森林中,越靠近根结点的样本越可能是异常点。IS(x)用来描述样本x为异常点的概率大小(孤立得分)。令h(x)表示样本x在孤立森林中路径长度,E(h(x))表示所有样本路径长度的均值。假设有n个样本,则在二叉搜索树中查找失败的平均查找长度c(n)可表示为c(n)=2H(n)-(2(n-1)/n),其中H(n)=ln(n)+0.5772156649(欧拉常数)是调和级数。从而孤立得分IS(x)可以表示为:
IS(x)越接近于1说明这个样本越可能是异常样本;
(b)相似得分:
显然越靠近异常概念中心(由异常样本聚类得到的k个异常中心),越可能是潜在的异常点,从而相似得分SS(x)可以表示为:
其中μi代表第i个异常概念中心,k是异常概念中心的数量;
(c)总得分:为了筛选出潜在的异常点和可信的正常点需要同时考虑孤立得分和相似得分,综合起来总得分TS(x)可以表示为:
TS(x)=θIS(x)+(1-θ)SS(x),θ∈[0,1]
当TS(x)≥α时,能够判定该样本为潜在异常点;
当TS(x)≤β时,能够判定该样本为可信正常点。
此处的阈值α,β可根据实际需求的敏感程度进行设定。
阶段二:
首先给每一个样本设定相应的权重,特别的,人工得到的异常标记样本的权重被设置为1,无标记样本分为两类:对于潜在的异常点,TS(x)越高权重ω(x)应当越大:
而对于可信正常点,TS(x)越低权重应该越大:
将问题变成一个(k+1)-分类问题,最小化优化对象是:
其中wi是样本xi的权重,l(yi,f(xi))是样本xi的损失函数,R(w)是正则项,λ是正则项系数。可以用多分类SVM来解决这个问题。
进一步地,所述时间序列分析TSA分析方法,是指各监测数据均在时序上存在一定的周期性,可以利用往期数据的发展规律,进行预测后继时间点的各项监测数据,从而判定是否为异常数据,具体步骤包括:
采用差分自回归移动平均模型(ARIMA),以AIC(Akaike Information Criterion)作为评价标准寻找最好解释数据并且包含自由参数最少的模型(通过p、d、q参数来确定)。
该模型为:
At=φ1At-12At-2+…+φpAt-p+δ+ut1ut-12ut-2+…+θqut-q
其中At表示序列i时的对象值,φi是自相关系数,δ是常数偏移项,ui是误差,θi是误差系数,t表示时刻,p表示预测模型中采用的时序数据自身的滞后数,q表示预测误差的滞后数;
阶段一:
根据数据,计算ACF(自相关函数)与PACF(偏自相关函数)并绘制成图,根据ACF和PACF图检查序列是否需要进行差分转换,是否是周期性的数据。若得到的序列是非平稳的序列,根据需要将非平稳的序列通过差分得到平稳性的序列。
阶段二:
以AIC作为评价标准,使用网格搜索最佳的模型参数p、d、q;其中:
p:预测模型中采用的时序数据自身的滞后数(lags),又称为自回归项;
d:需要进行的差分次数,又称为差分项;
q:预测误差的滞后数(lags),又称为移动平均项;
然后利用数据训练,获得模型的各项参数即模型中的φi、θi、δ。
阶段三:
利用训练好的ARIMA模型去预测后继时间点的指标值,比对监测值,通过计算监测值到预测值的欧氏距离并与人工设定的阈值进行比较从而判定是否为异常点。
本发明的有益效果:进一步完善优化在线监控业务,有效监管企业废水废气排放,在已有的在线监控检测大数据基础分析之上,对在线监控检测线及检测设备进行数据监测、分析和处理,实现对环保信息的在线监控数据进行防作弊预警、决策辅助分析等应用,大大提高环保部门对在线监控的有力监控,从而实现智慧环保。结合环境监测的实际情况,采用先利用无监督的聚类算法作为冷启动,在具有一定的异常标记信息之后采用半监督的学习调整模型精确度,从而更加准确的发现监测数据中的异常数据,本发明采用ARIMA算法,挖掘数据的周期性,使得***在一定程度上能发现人为制造数据的情况。
附图说明
图1为本发明的流程图。
具体实施方式
以下结合附图对本发明具体实施方式作进一步详细说明。
如图1所示,本发明提供的一种污染源在线监控数据作弊识别方法,该方法包括:
1)数据预处理:对在线监控数据做预处理,选择时均值数据作为固定规则筛查的基础数据,并处理无效数据,处理规则是若某一时间段流量仪检测到的数据为零,则剔除该时间段所有监测指标数据;判断监测指标数据为零的百分比,若小于阈值,则利用插值法(例如牛顿插值法)进行数据的填充,否则剔除该项监测指标数据;
2)固定规则筛查:包括企业作弊规则库、企业仪器故障规则库以及运维单位异常规则库;
所述企业作弊规则库用来判断企业是否作弊,并标注出作弊嫌疑企业,包括稀释、同行业排放量分析、监测指标协同分析、超标突降、间断超标突降、组合分析、格拉布斯法;
所述企业仪器故障规则库用于判断企业仪器是否故障,并标注出故障仪器及具有故障仪器的企业,包括零值和恒值;
所述运维单位异常规则库用于判断运维单位质控记录是否作假,并标注出运维单位异常的企业;
固定规则筛查的结果以可视化方式展示;
3)视频门禁:包括视频监控和门禁记录,视频监控包括企业排污口视频监控和站房视频监控,用于监控企业人员的违规行为;门禁记录是指人员出入站房的记录;视频门禁有两种应用形式,第一种是视频门禁结合固定规则筛查结果,进一步确认企业是否存在作弊、仪器故障或运维异常情况;第二种是视频门禁预警,即查看排污口、站房的视频监控,若监控到排污口水质浑浊、排污口有人靠近或站房有非法人员闯入的情况,输出预警信息;
4)现场稽查:现场稽查人员根据固定规则筛查结果和视频门禁信息,结合企业信息进行现场稽查,企业信息包括企业在线监控数据、运维记录等,现场稽查会产生企业在线监控是否存在数据作弊、仪器是否故障、运维单位质控记录是否造假三种结果数据,输出结果并将其作为标记信息用于修正机器学习相关参数,优化固定规则筛查方法,从而获得更高的准确度;
5)基于机器学习的规则优化:根据视频门禁和现场稽查的反馈信息,以机器学习的方式对固定规则筛查不断优化,形成可信度更高的筛查规则,所述机器学习的方式为非监督学习和半监督学习相结合或时间序列分析TSA,在机器学习的过程中根据实际情况设定适合具体需求的阈值。
进一步地,所述无效数据的处理规则具体为,若仅有低于10%的监测指标数据为零,则利用插值法进行数据的填充;若有高于10%的监测指标数据为零则剔除该项数据。
进一步地,企业作弊规则库中,超标突降、间断超标突降、组合分析这三项规则不做监测指标数据是否为零的判断,只进行流量仪检测的数据是否为零的判断。
进一步地,所述的企业作弊规则库中的稀释具体为:
1)稀释的作弊手段有另外设置排放管道、稀释排放、稀释样品;针对这些作弊手段,对有两项及以上监测指标的企业进行在线监控数据同步分析,如果存在两项及以上监测指标同比例增大或者减小的情况则标记为作弊嫌疑企业;具体包括以下步骤:
(1)对除去PH和流量两项检测指标以外还存在两项及以上监测指标的企业在线监控数据做稀释规则筛查。
(2)规则说明:假设某企业含有a,b,c三种因子,N时三个监测指标的数据分别为An,Bn,Cn
时间 a b c
N时 A<sub>n</sub> B<sub>n</sub> C<sub>n</sub>
N+1时 A<sub>n+1</sub> B<sub>n+1</sub> C<sub>n+1</sub>
如果同时满足下列关系:An、Bn、Cn其中一个超过排放标准的70%。
(3)将结果标记为作弊嫌疑企业。
2)所述同行业排放量分析具体为:
把排污企业涉及的行业、排放标准限制、企业产量、以及废水处理工艺的这几个因素作为筛选条件,把同一行业、同一排放标准、产量相同以及废水处理工艺相似的企业归类,这类企业认为是相似企业。根据相似企业的废水排放量,以监测项的浓度类比分析,找出异常于平均水平的企业,将该企业标记为作弊嫌疑企业。
3)所述监测指标协同分析包括:在线监控数据中的总氮与氨氮协同分析和化学需氧量与总有机碳协同分析。
(a)总氮与氨氮协同分析:在线监控数据中有总氮和氨氮的浓度这两项监测指标的情况,对于氨氮浓度大于总氮浓度的情况做进一步分析。
(1)数据剔除:氨氮和总氮任一数值为零,剔除该项数据。
(2)规则说明:假设某企业含有a(氨氮),b(总氮)
时间 a b
N时 A1 B1
其中,a是氨氮,b是总氮,A1和B1是N时氨氮和总氮的浓度,并且B1/A1<70%。
(3)将结果标记为作弊嫌疑企业。
(b)化学需氧量与总有机碳协同分析:化学需氧量和总有机碳有较大相关性。
规则:企业废水的化学需氧量和总有机碳有线性回归关系y=Px+Q,其中P和Q的数据能够在在线监控因子对应的分析仪器中得到,x表示总有机碳,y表示化学需氧量。
所以根据化学需氧量或者总有机碳中的任意一个数值,运用关系式可以推出另一个数值,假设某一时间点仪器分析出总有机碳x1和化学需氧量y1。根据x1计算得出化学需氧量的计算值y2,根据标准规定,企业排放废水中两者的分析值的误差在10%以内是允许的,即|y1-y2|/y2≤10%,超出10%则认为是异常,则标记为作弊嫌疑企业。
4)超标突降和间断超标突降,所述超标突降包括超标分析和邻近超标分析,超标分析或邻近超标分析是指企业在线监控的某项监测指标超标或者即将超标的情况,若该监测指标数值突然下降,则对该项指标做进一步分析;具体包括以下步骤:
规则说明:假设某企业含有a因子,N时监测指标的数据为An
时间 a
N时 A<sub>n</sub>
N+1时 A<sub>n+1</sub>
N+2时 A<sub>n+2</sub>
N+3时 A<sub>n+3</sub>
第一种情况是邻近超标分析,An的数值在超标线的80%-100%之间,如果或者那么认为An、An+1、An+2属于异常数据;第二种是超标分析,An的数值超过超标线,如果符合超标突降规则,An、An+1、An+2、An+3也同样属于异常数据。如果符合第一种或第二种的情况,则标记为超标突降。
间断超标突降是对超标突降的第二种情况做进一步分析,超标分析的记录N+2到N+7的数据做是否超标筛查,若存在超标情况,标记为间断超标突降。
将以上结果标记为作弊嫌疑企业。
5)所述组合分析是指组合多项分析规则进行分析,包括:
a)超标突降+监测指标协同分析
对于查找出来的超标突降数据,并且是氨氮大于总氮的情况,或者化学需氧量COD与总有机碳TOC不符合相关关系,对于这种数据同时符合两种作弊数据特征,作弊嫌疑增加,标记为作弊嫌疑企业。
b)超标突降+恒值
对于固定规则筛查中查找出来超标突降的数据,同时超标突降的数据还具有企业仪器故障规则库中的恒值特征,可认为同时符合两种作弊特征,作弊嫌疑增加,标记为作弊嫌疑企业。
6)所述格拉布斯法是分析异常值的一种方法,如果一组数据偏离平均值很远则判定为可疑值,监测指标中的异常值可用格拉布斯准则判别。
规则:将数据按照从大到小排列,则可能出现异常值的数据经常出现在最大值或最小值的数据当中。
(i)对于含有n个时均值的一条数据(每个监测因子为一条数据),计算该条数据每个时均值的统计量G,第i个时均值的统计量Gi可表示为:
其中,i∈{1,2,3,...,n},表示n个时均值的均值,s表示标准差,xi表示时均值;
(ii)查找格拉布斯系数
根据统计量G查找格拉布斯系数表中对应的临界量;
(iii)查找出异常值
当xi的最大值或者最小值对应的统计量G大于临界量时,则认为与之对应的最大值或最小值是疑似异常值;
(iv)将结果标记为作弊嫌疑企业。
进一步地,所述的企业仪器故障规则库的零值和恒值具体为;
a)零值
在线监控监测指标或者流量数值连续24小时之内都是零值,标记为仪器故障嫌疑。
b)恒值
在线监控监测指标或者流量数值连续24小时之内保持不变,标记为仪器故障嫌疑。
进一步地,所述的运维单位异常规则是指运维单位保留的质控记录与数采仪上传数据不一致,对于这种情况按照以下规则做进一步分析;
规则:运维记录中质控样数值用M表示,数采仪采集的历史数据记为N,如果满足|M-N|/N≥30%,标记为运维单位质控记录作假。
进一步地,通过接入视频门禁,与标记为作弊嫌疑企业的在线监控数据结合分析,视频门禁可根据异常数据时间点找出对应时间范围内的视频数据,分析其作弊行为。
进一步地,所述现场稽查是对于通过固定规则筛查和视频门禁结合分析标记出的作弊嫌疑企业,相关人员去企业现场核实情况,并获取证据;基于固定规则筛查查找出来的异常数据,通过现场核查仪器是否正常运行、仪器储存的历史数据、排污单位废水水质情况判定该企业是否作弊。
进一步地,所述非监督学习和半监督学习相结合的基于机器学习的数据作弊识别方式,是指在初始状态下,没有标记信息的情况下,只能采用非监督的聚类方法去区分远离总体的点,当获取小部分可靠的人工检测结果之后可以充分利用这些可靠的检验值得到更好的结果,采用聚类方法与ADOA(Anomaly Detection with partial ObservedAnomalies)相结合的方法,具体步骤包括:
(1)无标记的初期,采用非监督的聚类的方法,该方法可选为基于距离的k-mean算法或者基于密度的DBSCAN。
(2)在获取一定的标记信息之后,使用ADOA算法。ADOA的使用场景是有大量未标记的样本,只有少量的标记为异常的样本,并且默认异常的样本不是单一的而是有多种类型的;ADOA算法分为两个阶段:
阶段一:首先将已观测到的异常样本做一个K聚类,然后基于孤立得分(isolationscore)和相似得分(similarity score)将未标记的样本分为潜在异常样本和可信的正常样本。其中:
(a)孤立得分:基于孤立森林(isolation forest),首先建立样本的孤立森林,在孤立森林中,越靠近根结点的样本越可能是异常点。IS(x)用来描述样本x为异常点的概率大小(孤立得分)。令h(x)表示样本x在孤立森林中路径长度,E(h(x))表示所有样本路径长度的均值。假设有n个样本,则在二叉搜索树中查找失败的平均查找长度c(n)可表示为c(n)=2H(n)-(2(n-1)/n),其中H(n)=ln(n)+0.5772156649(欧拉常数)是调和级数。从而孤立得分IS(x)可以表示为:
IS(x)越接近于1说明这个样本越可能是异常样本;
(b)相似得分:
显然越靠近异常概念中心(由异常样本聚类得到的k个异常中心),越可能是潜在的异常点,从而相似得分SS(x)可以表示为:
其中μi代表第i个异常概念中心,k是异常概念中心的数量;
(c)总得分:为了筛选出潜在的异常点和可信的正常点需要同时考虑孤立得分和相似得分,综合起来总得分TS(x)可以表示为:
TS(x)=θIS(x)+(1-θ)SS(x),θ∈[0,1]
当TS(x)≥α时,能够判定该样本为潜在异常点;
当TS(x)≤β时,能够判定该样本为可信正常点。
此处的阈值α,β可根据实际需求的敏感程度进行设定。
阶段二:
首先给每一个样本设定相应的权重,特别的,人工得到的异常标记样本的权重被设置为1,无标记样本分为两类:对于潜在的异常点,TS(x)越高权重ω(x)应当越大:
而对于可信正常点,TS(x)越低权重应该越大:
将问题变成一个(k+1)-分类问题,最小化优化对象是:
其中wi是样本xi的权重,l(yi,f(xi))是样本xi的损失函数,R(w)是正则项,λ是正则项系数。可以用多分类SVM来解决这个问题。
进一步地,所述时间序列分析TSA分析方法,是指各监测数据均在时序上存在一定的周期性,可以利用往期数据的发展规律,进行预测后继时间点的各项监测数据,从而判定是否为异常数据,具体步骤包括:
采用差分自回归移动平均模型(ARIMA),以AIC(Akaike Information Criterion)作为评价标准寻找最好解释数据并且包含自由参数最少的模型(通过p、d、q参数来确定)。
该模型为:
At=φ1At-12At-2+…+φpAt-p+δ+ut1ut-12ut-2+…+θqut-q
其中At表示序列i时的对象值,φi是自相关系数,δ是常数偏移项,ui是误差,θi是误差系数,t表示时刻,p表示预测模型中采用的时序数据自身的滞后数,q表示预测误差的滞后数;
阶段一:
根据数据,计算ACF(自相关函数)与PACF(偏自相关函数)并绘制成图,根据ACF和PACF图检查序列是否需要进行差分转换,是否是周期性的数据。若得到的序列是非平稳的序列,根据需要将非平稳的序列通过差分得到平稳性的序列。
阶段二:
以AIC作为评价标准,使用网格搜索最佳的模型参数p、d、q;其中:
p:预测模型中采用的时序数据自身的滞后数(1ags),又称为自回归项;
d:需要进行的差分次数,又称为差分项;
q:预测误差的滞后数(lags),又称为移动平均项;
然后利用数据训练,获得模型的各项参数即模型中的φi、θi、δ。
阶段三:
利用训练好的ARIMA模型去预测后继时间点的指标值,比对监测值,通过计算监测值到预测值的欧氏距离并与人工设定的阈值进行比较从而判定是否为异常点。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (10)

1.一种污染源在线监控数据作弊识别方法,其特征在于,该方法包括:
1)数据预处理:对在线监控数据做预处理,选择时均值数据作为固定规则筛查的基础数据,并处理无效数据,处理规则是若某一时间段流量仪检测的数据为零,则剔除该时间段所有监测仪器的监测指标数据;判断监测仪器的监测指标数据为零的百分比,若小于阈值,则进行数据的填充,否则剔除该项监测指标数据;
2)固定规则筛查:包括企业作弊规则库、企业仪器故障规则库以及运维单位异常规则库;
所述企业作弊规则库用来判断企业是否作弊,并标注出作弊嫌疑企业,包括稀释、同行业排放量分析、监测指标协同分析、超标突降、间断超标突降、组合分析、格拉布斯法;
所述企业仪器故障规则库用于判断企业仪器是否故障,并标注出故障仪器及具有故障仪器的企业,包括零值和恒值;
所述运维单位异常规则库用于判断运维单位质控记录是否作假,并标注出运维单位异常的企业;
固定规则筛查的结果以可视化方式展示;
3)视频门禁:包括视频监控和门禁记录,视频监控包括企业排污口视频监控和站房视频监控,用于监控企业人员的违规行为;门禁记录是指人员出入站房的记录;视频门禁有两种应用形式,第一种是视频门禁结合固定规则筛查结果,进一步确认企业是否存在作弊、仪器故障或运维异常情况;第二种是视频门禁预警,即查看排污口、站房的视频监控,若监控到排污口水质浑浊、排污口有人靠近或站房有非法人员闯入的情况,输出预警信息;
4)现场稽查:现场稽查人员根据固定规则筛查结果和视频门禁信息,结合企业信息进行现场稽查,企业信息包括企业在线监控数据、运维记录等,现场稽查会产生企业在线监控是否存在数据作弊、仪器是否故障、运维单位质控记录是否造假三种结果数据,输出结果并将其作为标记信息用于修正机器学习相关参数,优化固定规则筛查方法,从而获得更高的准确度;
5)基于机器学习的规则优化:根据视频门禁和现场稽查的反馈信息,以机器学习的方式对固定规则筛查不断优化,形成可信度更高的筛查规则,所述机器学习的方式为非监督学习和半监督学习相结合或时间序列分析TSA,在机器学习的过程中根据实际情况设定适合具体需求的阈值。
2.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述无效数据的处理规则具体为,若仅有低于10%的监测指标数据为零,则利用插值法进行数据的填充;若有高于10%的监测指标数据为零则剔除该项数据。
3.根据权利要求2所述的一种污染源在线监控数据作弊识别方法,其特征在于,企业作弊规则库中,超标突降、间断超标突降、组合分析这三项规则不做监测指标数据是否为零的判断,只进行流量仪检测的数据是否为零的判断。
4.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述的企业作弊规则库中的稀释具体为:
1)稀释的作弊手段有另外设置排放管道、稀释排放、稀释样品;针对这些作弊手段,对有两项及以上监测指标的企业进行在线监控数据同步分析,如果存在两项及以上监测指标同比例增大或者减小的情况则标记为作弊嫌疑企业;具体包括以下步骤:
(1)对除去PH和流量两项检测指标以外还存在两项及以上监测指标的企业在线监控数据做稀释规则筛查。
(2)规则说明:假设某企业含有a,b,c三种因子,N时三个监测指标的数据分别为An,Bn,Cn
时间 a b c N时 A<sub>n</sub> B<sub>n</sub> C<sub>n</sub> N+1时 A<sub>n+1</sub> B<sub>n+1</sub> C<sub>n+1</sub>
如果同时满足下列关系:An、Bn、Cn其中一个超过排放标准的70%。
(3)将结果标记为作弊嫌疑企业。
2)所述同行业排放量分析具体为:
把排污企业涉及的行业、排放标准限制、企业产量、以及废水处理工艺的这几个因素作为筛选条件,把同一行业、同一排放标准、产量相同以及废水处理工艺相似的企业归类,这类企业认为是相似企业。根据相似企业的废水排放量,以监测项的浓度类比分析,找出异常于平均水平的企业,将该企业标记为作弊嫌疑企业。
3)所述监测指标协同分析包括:在线监控数据中的总氮与氨氮协同分析和化学需氧量与总有机碳协同分析。
(a)总氮与氨氮协同分析:在线监控数据中有总氮和氨氮的浓度这两项监测指标的情况,对于氨氮浓度大于总氮浓度的情况做进一步分析。
(1)数据剔除:氨氮和总氮任一数值为零,剔除该项数据。
(2)规则说明:假设某企业含有a(氨氮),b(总氮)
时间 a b N时 A1 B1
其中,a是氨氮,b是总氮,A1和B1是N时氨氮和总氮的浓度,并且B1/A1<70%。
(3)将结果标记为作弊嫌疑企业。
(b)化学需氧量与总有机碳协同分析:化学需氧量和总有机碳有较大相关性。
规则:企业废水的化学需氧量和总有机碳有线性回归关系y=Px+Q,其中P和Q的数据能够在在线监控因子对应的分析仪器中得到,x表示总有机碳,y表示化学需氧量。
所以根据化学需氧量或者总有机碳中的任意一个数值,运用关系式可以推出另一个数值,假设某一时间点仪器分析出总有机碳x1和化学需氧量y1。根据x1计算得出化学需氧量的计算值y2,根据标准规定,企业排放废水中两者的分析值的误差在10%以内是允许的,即|y1-y2|/y2≤10%,超出10%则认为是异常,则标记为作弊嫌疑企业。
4)超标突降和间断超标突降,所述超标突降包括超标分析和邻近超标分析,超标分析或邻近超标分析是指企业在线监控的某项监测指标超标或者即将超标的情况,若该监测指标数值突然下降,则对该项指标做进一步分析;具体包括以下步骤:
规则说明:假设某企业含有a因子,N时监测指标的数据为An
时间 a N时 A<sub>n</sub> N+1时 A<sub>n+1</sub> N+2时 A<sub>n+2</sub> N+3时 A<sub>n+3</sub>
第一种情况是邻近超标分析,An的数值在超标线的80%-100%之间,如果或者那么认为An、An+1、An+2属于异常数据;第二种是超标分析,An的数值超过超标线,如果符合超标突降规则,An、An+1、An+2、An+3也同样属于异常数据。如果符合第一种或第二种的情况,则标记为超标突降。
间断超标突降是对超标突降的第二种情况做进一步分析,超标分析的记录N+2到N+7的数据做是否超标筛查,若存在超标情况,标记为间断超标突降。
将以上结果标记为作弊嫌疑企业。
5)所述组合分析是指组合多项分析规则进行分析,包括:
a)超标突降+监测指标协同分析
对于查找出来的超标突降数据,并且是氨氮大于总氮的情况,或者化学需氧量COD与总有机碳TOC不符合相关关系,对于这种数据同时符合两种作弊数据特征,作弊嫌疑增加,标记为作弊嫌疑企业。
b)超标突降+恒值
对于固定规则筛查中查找出来超标突降的数据,同时超标突降的数据还具有企业仪器故障规则库中的恒值特征,可认为同时符合两种作弊特征,作弊嫌疑增加,标记为作弊嫌疑企业。
6)所述格拉布斯法是分析异常值的一种方法,如果一组数据偏离平均值很远则判定为可疑值,监测指标中的异常值可用格拉布斯准则判别。
规则:将数据按照从大到小排列,则可能出现异常值的数据经常出现在最大值或最小值的数据当中。
(i)对于含有n个时均值的一条数据(每个监测因子为一条数据),计算该条数据每个时均值的统计量G,第i个时均值的统计量Gi可表示为:
其中,i∈{1,2,3,…,n},表示n个时均值的均值,s表示标准差,xi表示时均值;
(ii)查找格拉布斯系数
根据统计量G查找格拉布斯系数表中对应的临界量;
(iii)查找出异常值
当xi的最大值或者最小值对应的统计量G大于临界量时,则认为与之对应的最大值或最小值是疑似异常值;
(iv)将结果标记为作弊嫌疑企业。
5.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述的企业仪器故障规则库的零值和恒值具体为;
a)零值
在线监控监测指标或者流量数值连续24小时之内都是零值,标记为仪器故障嫌疑。
b)恒值
在线监控监测指标或者流量数值连续24小时之内保持不变,标记为仪器故障嫌疑。
6.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述的运维单位异常规则是指运维单位保留的质控记录与数采仪上传数据不一致,对于这种情况按照以下规则做进一步分析;
规则:运维记录中质控样数值用M表示,数采仪采集的历史数据记为N,如果满足|M-N|/N≥30%,标记为运维单位质控记录作假。
7.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,通过接入视频门禁,与标记为作弊嫌疑企业的在线监控数据结合分析,视频门禁可根据异常数据时间点找出对应时间范围内的视频数据,分析其作弊行为。
8.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述现场稽查是对于通过固定规则筛查和视频门禁结合分析标记出的作弊嫌疑企业,相关人员去企业现场核实情况,并获取证据;基于固定规则筛查查找出来的异常数据,通过现场核查仪器是否正常运行、仪器储存的历史数据、排污单位废水水质情况判定该企业是否作弊。
9.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述非监督学习和半监督学习相结合的基于机器学习的数据作弊识别方式,是指在初始状态下,没有标记信息的情况下,只能采用非监督的聚类方法去区分远离总体的点,当获取小部分可靠的人工检测结果之后可以充分利用这些可靠的检验值得到更好的结果,采用聚类方法与ADOA(Anomaly Detection with partial Observed Anomalies)相结合的方法,具体步骤包括:
(1)无标记的初期,采用非监督的聚类的方法,该方法可选为基于距离的k-mean算法或者基于密度的DBSCAN。
(2)在获取一定的标记信息之后,使用ADOA算法。ADOA的使用场景是有大量未标记的样本,只有少量的标记为异常的样本,并且默认异常的样本不是单一的而是有多种类型的;ADOA算法分为两个阶段:
阶段一:首先将已观测到的异常样本做一个K聚类,然后基于孤立得分(isolationscore)和相似得分(similarity score)将未标记的样本分为潜在异常样本和可信的正常样本。其中:
(a)孤立得分:基于孤立森林(isolation forest),首先建立样本的孤立森林,在孤立森林中,越靠近根结点的样本越可能是异常点。IS(x)用来描述样本x为异常点的概率大小(孤立得分)。令h(x)表示样本x在孤立森林中路径长度,E(h(x))表示所有样本路径长度的均值。假设有n个样本,则在二叉搜索树中查找失败的平均查找长度c(n)可表示为c(n)=2H(n)-(2(n-1)/n),其中H(n)=ln(n)+0.5772156649(欧拉常数)是调和级数。从而孤立得分IS(x)可以表示为:
IS(x)越接近于1说明这个样本越可能是异常样本;
(b)相似得分:
显然越靠近异常概念中心(由异常样本聚类得到的k个异常中心),越可能是潜在的异常点,从而相似得分SS(x)可以表示为:
其中μi代表第i个异常概念中心,k是异常概念中心的数量;
(c)总得分:为了筛选出潜在的异常点和可信的正常点需要同时考虑孤立得分和相似得分,综合起来总得分TS(x)可以表示为:
TS(x)=θIS(x)+(1-θ)SS(x),θ∈[0,1]
当TS(x)≥α时,能够判定该样本为潜在异常点;
当TS(x)≤β时,能够判定该样本为可信正常点。
此处的阈值α,β可根据实际需求的敏感程度进行设定。
阶段二:
首先给每一个样本设定相应的权重,特别的,人工得到的异常标记样本的权重被设置为1,无标记样本分为两类:对于潜在的异常点,TS(x)越高权重ω(x)应当越大:
而对于可信正常点,TS(x)越低权重应该越大:
将问题变成一个(k+1)-分类问题,最小化优化对象是:
其中ωi是样本xi的权重,l(yi,f(xi))是样本xi的损失函数,R(w)是正则项,λ是正则项系数。可以用多分类SVM来解决这个问题。
10.根据权利要求1所述的一种污染源在线监控数据作弊识别方法,其特征在于,所述时间序列分析TSA分析方法,是指各监测数据均在时序上存在一定的周期性,可以利用往期数据的发展规律,进行预测后继时间点的各项监测数据,从而判定是否为异常数据,具体步骤包括:
采用差分自回归移动平均模型(ARIMA),以AIC(Akaike Information Criterion)作为评价标准寻找最好解释数据并且包含自由参数最少的模型(通过p、d、q参数来确定)。
该模型为:
At=φ1At-12At-2+…+φpAt-p+δ+ut1ut-12ut-2+…+θqut-q
其中At表示序列i时的对象值,φi是自相关系数,δ是常数偏移项,ui是误差,θi是误差系数,t表示时刻,p表示预测模型中采用的时序数据自身的滞后数,q表示预测误差的滞后数;
阶段一:
根据数据,计算ACF(自相关函数)与PACF(偏自相关函数)并绘制成图,根据ACF和PACF图检查序列是否需要进行差分转换,是否是周期性的数据。若得到的序列是非平稳的序列,根据需要将非平稳的序列通过差分得到平稳性的序列。
阶段二:
以AIC作为评价标准,使用网格搜索最佳的模型参数p、d、q;其中:
p:预测模型中采用的时序数据自身的滞后数(lags),又称为自回归项;
d:需要进行的差分次数,又称为差分项;
q:预测误差的滞后数(lags),又称为移动平均项;
然后利用数据训练,获得模型的各项参数即模型中的φi、θi、δ。
阶段三:
利用训练好的ARIMA模型去预测后继时间点的指标值,比对监测值,通过计算监测值到预测值的欧氏距离并与人工设定的阈值进行比较从而判定是否为异常点。
CN201910591968.9A 2019-07-02 2019-07-02 一种污染源在线监控数据作弊识别方法 Pending CN110245880A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910591968.9A CN110245880A (zh) 2019-07-02 2019-07-02 一种污染源在线监控数据作弊识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910591968.9A CN110245880A (zh) 2019-07-02 2019-07-02 一种污染源在线监控数据作弊识别方法

Publications (1)

Publication Number Publication Date
CN110245880A true CN110245880A (zh) 2019-09-17

Family

ID=67890724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910591968.9A Pending CN110245880A (zh) 2019-07-02 2019-07-02 一种污染源在线监控数据作弊识别方法

Country Status (1)

Country Link
CN (1) CN110245880A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889088A (zh) * 2019-11-04 2020-03-17 国网浙江省电力有限公司信息通信分公司 一种应用电力模型辅助的企业排污监管方法
CN110990393A (zh) * 2019-12-17 2020-04-10 清华苏州环境创新研究院 一种行业企业数据异常行为的大数据识别方法
CN111680856A (zh) * 2020-01-14 2020-09-18 国家电网有限公司 电力监控***用户行为安全预警方法和***
CN112258689A (zh) * 2020-10-26 2021-01-22 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 船舶数据处理方法、装置和船舶数据质量管理平台
CN112381697A (zh) * 2020-11-20 2021-02-19 深圳衡伟环境技术有限公司 一种水污染源在线监测数据弄虚作假行为自动识别方法
CN112699113A (zh) * 2021-01-12 2021-04-23 上海交通大学 时序数据流驱动的工业制造流程运行监测***
CN113012388A (zh) * 2021-02-19 2021-06-22 浙江清之元信息科技有限公司 污染源在线监测***及在线监测数据作假识别分析方法
CN113655189A (zh) * 2021-03-31 2021-11-16 吴超烽 污染源自动监控数据分析判断***
CN113705547A (zh) * 2021-10-28 2021-11-26 北京万维盈创科技发展有限公司 环境弄虚作假行为识别动态管控方法、装置
CN117407661A (zh) * 2023-12-14 2024-01-16 深圳前海慧联科技发展有限公司 一种用于设备状态检测的数据增强方法
CN118313564A (zh) * 2024-06-05 2024-07-09 生态环境部环境工程评估中心 企业排放物监测数据的异常识别方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和***
CN104808622A (zh) * 2015-03-18 2015-07-29 武汉巨正环保科技有限公司 一种智能型一站式污染源在线监控***
CN106156269A (zh) * 2016-06-01 2016-11-23 国网河北省电力公司电力科学研究院 一种反窃电精准定位在线监测方法
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法
CN107758885A (zh) * 2017-11-01 2018-03-06 浙江成功软件开发有限公司 一种实时污水曝气情况监测方法
CN108763966A (zh) * 2018-06-04 2018-11-06 武汉邦拓信息科技有限公司 一种尾气检测作弊监管***及方法
CN109614526A (zh) * 2018-11-09 2019-04-12 环境保护部环境工程评估中心 基于高维异常检测模型的环境监测数据造假手段识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102355381A (zh) * 2011-08-18 2012-02-15 网宿科技股份有限公司 自适应的差分自回归移动平均模型的流量预测方法和***
CN104808622A (zh) * 2015-03-18 2015-07-29 武汉巨正环保科技有限公司 一种智能型一站式污染源在线监控***
CN106156269A (zh) * 2016-06-01 2016-11-23 国网河北省电力公司电力科学研究院 一种反窃电精准定位在线监测方法
CN106709242A (zh) * 2016-12-07 2017-05-24 常州大学 一种鉴别污水监测数据真伪的方法
CN107758885A (zh) * 2017-11-01 2018-03-06 浙江成功软件开发有限公司 一种实时污水曝气情况监测方法
CN108763966A (zh) * 2018-06-04 2018-11-06 武汉邦拓信息科技有限公司 一种尾气检测作弊监管***及方法
CN109614526A (zh) * 2018-11-09 2019-04-12 环境保护部环境工程评估中心 基于高维异常检测模型的环境监测数据造假手段识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YA-LIN ZHANG等: "Anomaly Detection with Partially Observed Anomalies", 《COMPANION OF THE THE WEB CONFERENCE CONFERENCE 2018. INTERNATIONAL WORLD WIDE WEB CONFERENCES 2018 ON THE WEB STEERING COMMITTEE》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110889088A (zh) * 2019-11-04 2020-03-17 国网浙江省电力有限公司信息通信分公司 一种应用电力模型辅助的企业排污监管方法
CN110889088B (zh) * 2019-11-04 2023-10-20 国网浙江省电力有限公司信息通信分公司 一种应用电力模型辅助的企业排污监管方法
CN110990393A (zh) * 2019-12-17 2020-04-10 清华苏州环境创新研究院 一种行业企业数据异常行为的大数据识别方法
CN110990393B (zh) * 2019-12-17 2023-09-08 清华苏州环境创新研究院 一种行业企业数据异常行为的大数据识别方法
CN111680856A (zh) * 2020-01-14 2020-09-18 国家电网有限公司 电力监控***用户行为安全预警方法和***
CN112258689B (zh) * 2020-10-26 2022-12-13 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 船舶数据处理方法、装置和船舶数据质量管理平台
CN112258689A (zh) * 2020-10-26 2021-01-22 上海船舶研究设计院(中国船舶工业集团公司第六0四研究院) 船舶数据处理方法、装置和船舶数据质量管理平台
CN112381697A (zh) * 2020-11-20 2021-02-19 深圳衡伟环境技术有限公司 一种水污染源在线监测数据弄虚作假行为自动识别方法
CN112381697B (zh) * 2020-11-20 2024-02-02 深圳衡伟环境技术有限公司 一种水污染源在线监测数据弄虚作假行为自动识别方法
CN112699113A (zh) * 2021-01-12 2021-04-23 上海交通大学 时序数据流驱动的工业制造流程运行监测***
CN113012388B (zh) * 2021-02-19 2023-02-24 浙江清之元信息科技有限公司 污染源在线监测***及在线监测数据作假识别分析方法
CN113012388A (zh) * 2021-02-19 2021-06-22 浙江清之元信息科技有限公司 污染源在线监测***及在线监测数据作假识别分析方法
CN113655189A (zh) * 2021-03-31 2021-11-16 吴超烽 污染源自动监控数据分析判断***
CN113705547A (zh) * 2021-10-28 2021-11-26 北京万维盈创科技发展有限公司 环境弄虚作假行为识别动态管控方法、装置
CN113705547B (zh) * 2021-10-28 2022-03-25 北京万维盈创科技发展有限公司 环境弄虚作假行为识别动态管控方法、装置
CN117407661A (zh) * 2023-12-14 2024-01-16 深圳前海慧联科技发展有限公司 一种用于设备状态检测的数据增强方法
CN117407661B (zh) * 2023-12-14 2024-02-27 深圳前海慧联科技发展有限公司 一种用于设备状态检测的数据增强方法
CN118313564A (zh) * 2024-06-05 2024-07-09 生态环境部环境工程评估中心 企业排放物监测数据的异常识别方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN110245880A (zh) 一种污染源在线监控数据作弊识别方法
CN110381079B (zh) 结合gru和svdd进行网络日志异常检测方法
CN107949812A (zh) 用于检测配水***中的异常的组合方法
WO2019019709A1 (zh) 一种自来水管漏水检测方法
CN110636066B (zh) 基于无监督生成推理的网络安全威胁态势评估方法
CN112288021A (zh) 一种医疗废水监测数据质控方法、装置及***
CN109034140A (zh) 基于深度学习结构的工业控制网络信号异常检测方法
CN112633779B (zh) 一种对环境监测数据可信度进行评估的方法
CN114422184A (zh) 基于机器学习的网络安全攻击类型和威胁等级预测方法
CN106330949B (zh) 一种基于马尔科夫链的入侵检测方法
CN114049134A (zh) 一种污染源在线监测数据造假识别方法
CN115062851B (zh) 基于多算法融合的排污异常监测方法及***
CN114201374A (zh) 基于混合机器学习的运维时序数据异常检测方法及***
CN110390478A (zh) 基于物联网的金融贷后监管***与监管方法
CN115883163A (zh) 网络安全告警监测方法
CN114970977A (zh) 数字化城市空气质量监测数据的异常数据检测方法及***
CN114997313A (zh) 一种海洋在线监测数据的异常检测方法
CN111340516A (zh) 基于信息熵与变异系数融合算法的满意度评价***及方法
CN111191855A (zh) 一种基于管网多元水质时序数据的水质异常事件识别预警方法
CN110400092A (zh) 基于大数据的食品安全问题的识别方法及***
Yang et al. Teacher–Student Uncertainty Autoencoder for the Process-Relevant and Quality-Relevant Fault Detection in the Industrial Process
CN114295162A (zh) 一种基于数据采集的环境监测***
CN116910662A (zh) 基于随机森林算法的旅客异常识别方法和装置
CN115277159B (zh) 一种基于改进随机森林的工业互联网安全态势评估方法
Salazar et al. Monitoring approaches for security and safety analysis: application to a load position system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190917