CN113205146A - 一种基于片段统计特征比较的时序数据异常波动检测算法 - Google Patents
一种基于片段统计特征比较的时序数据异常波动检测算法 Download PDFInfo
- Publication number
- CN113205146A CN113205146A CN202110545508.XA CN202110545508A CN113205146A CN 113205146 A CN113205146 A CN 113205146A CN 202110545508 A CN202110545508 A CN 202110545508A CN 113205146 A CN113205146 A CN 113205146A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- abnormal fluctuation
- segment
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Operations Research (AREA)
- Evolutionary Computation (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种新的异常波动检测方法,即一种基于片段统计特征比较的时序数据异常波动检测算法。该算法包括五个部分:数据准备;数据片段构建;片段特征计算;检测执行;结果输出。算法满足工业数据流中的对于数据异常波动时效性和准确性的要求。相对于传统的异常检测算法,该算法专为工业时序数据流所设计,结合了基于统计模型以及相似度衡量的检测方法的优点;降低了计算量,使其能够适应于大数据流,对实时数据流中的异常波动进行及时的检测和识别。
Description
技术领域
本发明涉及一种新的数据异常波动检测算法—一种基于片段统计特征比较的时序数据异常波动检测算法。
背景技术
数据异常检测是数据分析挖掘的重要研究内容之一。自工业互联网概念提出以来,工业界积累了大量工业设备运行数据。通过对数据进行分析挖掘异常,进而分析工业设备运行特点,了解设备运行状态成为重要的研究内容。尤其是通过对数据异常的发现,对设备的潜在异常进行及时的诊断在保障设备安全运行方面有着重要的意义。
在传统的设备安全保障工作中,通常通过人工对设备进行定期的维护和检修外。通过数据诊断技术保障工业设备安全首要的任务是发现数据中的异常。近年来,工业界也在尝试利用积累的工业设备运行时以及实时监测的设备数据进行相关研究以实现更高效的设备监控和数据异常诊断功能。
当前,对于数据进行异常检测的算法主要可以分为以下几类:基于统计模型、基于聚类、基于相似性度量、基于约束规则等。而这些常见的异常检测方法往往针对有限的数据集规模,且不具备实时性检测能力,一般较难满足大数据量的实时工业数据流异常检测的需求。尤其是面对复杂的工业场景这些算法在计算量和检测效果上都有待提升。传统的异常检测方法并非针对工业实时大数据而设计,例如基于统计的异常检测方法适用于检测离群值异常和波动异常等情况,但对于工业生产中出现的持续的异常区间不能够有效的识别。基于聚类的异常检测方法,主要量化异常点和正常点之间的距离来判断离群点,很难适用于大数据集和实时数据流上的异常检测。且其计算量普遍较大,检测效果依赖聚类的质量。基于相似性度量的异常检测方法主要通过计算序列之间的相似性,来判断目标检测数据是否异常,但此方法计算时间开销较大且时效性不高。基于规则约束的异常检测方法中主要通过顺序依赖、速度约束技巧有效利用时间序列中的时序特征,对高度异常的数据进行修复,但此方法通常难以满足模式多变的序列异常检测的需求。
发明内容
发明目的:本发明针对工业时序数据流异常波动检测需求,提出一种新的数据异常波动检测算法—一种基于片段统计特征比较的时序数据异常波动检测算法。该算法满足工业数据流中的对于数据异常波动时效性和准确性的要求。相对于传统的异常检测算法,该算法专为工业时序数据流所设计,结合了基于统计模型以及相似度衡量的检测方法的优点。降低了计算量,使其能够适应于大数据流,对实时数据流中的异常波动进行及时的检测和识别。通过实际应用证明了算法具备较高的准确性,该算法能够适应工业数据流中的工况变化,减少误报率,对工业时序数据流的异常波动进行准确识别。
技术方案:一种基于片段统计特征比较的时序数据异常波动检测算法,主要包括以下步骤:
步骤1:数据准备;
步骤2:数据片段构建;
步骤3:数据片段统计特征计算;
步骤4:检测执行;
步骤5:结果输出;
根据本发明的一个方面,所述构建目标数据片段表示为:Ft T:<D,T,t>。
根据本发明的一个方面,所述对数据片段进行统计特征计算包括但不限于如数据本身,时间标记,均值,以及方差,并将目标数据片段特征构建为目标数据片段特征组:
根据本发明的一个方面,根据Gd所包含的数据特征生成个数为N的邻居集数据片段特征组G:
根据本发明的一个方面,在获取了G以及Gd后,对于目标数据片段Gd的检测,主要使用了基于闵式距离来评价Gd与其邻居集G之间的相似性,并获取结果数据集:R=USi。
根据本发明的一个方面,获得了检测结果数据集R,我们要利用该数据集去判断包含检测目标的数据片段Ft T是否存在异常:
设置参数ε(ε>0)与λ(λ∈(0,1)),其中ε表示Gi与Gd允许的距离上限,即当r<ε(r∈R)时,认为数据Gd正常;
在结构数据集R中计算认为数据Gd正常时Gi的个数n,当n/N低于λ时,我们认为数据片段Ft T存在异常。
有益效果:本发明的显著优点是通过构建数据片段统计特征,对检测目标进行异常波动检测。与现有的异常检测相比,可以通过有限邻居集数据片段对目标数据片段进行检测,降低计算时间,提高检测效率,使其满足工业大数据检测的时效性。同时检测目标从传统的单点目标检测,优化为片段检测,提升了对检测目标异常波动识别准确度。
附图说明
图1是本发明的总体结构图。
图2是本发明的异常波动检测流程图。
具体实施方式
如图1所示,在本实施例中,一种基于片段统计特征比较的时序数据异常波动检测算法主要包括五个部分:
数据准备:是为检测任务准备数据,确定检测目标,是算法执行的准备工作;
数据片段构建:包括两部分,其一是检测目标的数据片段构建;其二是检测目标的邻居集数据片段构建;
片段特征计算:是诊断构建的数据片段,进行统计特征计算;
检测执行:是通过计算邻居集数据片段特征与检测目标数据片段的特征相似度,通过相似度衡量进而判断数据是否存在异常波动;
结果输出:进行结果输出,对检测目标进行异常判定。
下面详细进行说明。
步骤1:数据准备。
实时数据流Dt={...,xt-3,xt-2,xt-1,xt}中每一条数据均有一个对应的唯一时间t。数据波动异常检测以实时数据流中的t时刻下的数据为检测目标。
步骤2:数据片段构建。
在实时数据流Dt={...,xt-3,xt-2,xt-1,xt}中以xt为待检测目标,构建时间长度为T的检测目标数据片段。构建目标数据片段方法如下:Ft T:<D,T,t>,其中D为当前是数据流,T为片段大小,t为片段的终止时刻。Ft T为所构建的数据片段:Ft T=xt-T,...,xt。
步骤3:数据片段统计特征计算。
数据片段特征是指算法所构建的数据片段所具备包括统计特征等数据信息,如数据本身,时间标记,均值,以及方差等。
其中数据本身指片段中的原始数据,即Ft T=xt-T,...,xt;
时间标记指片段Ft T=xt-T,...,xt中的时间t;
最大值:反应数据的上限值:maxF;
最小值:反应数据的下限值:minF;
通过构建目标数据片段特征组,将对于数据的异常波动检测转为对数据片段特征组的检测,能够有效的挖掘数据特征,提高检测的准确度。
步骤4:检测执行。
在构建邻居集数据片段特征组G的过程中,主要考虑以下四个方面:
其一:时效性:对于时序性数据,当Gd的时间标记为t时,Gi的时间标记应在有效范围内,不应距离t较远;
其二:周期性:对于时序性数据,应当充分考虑其数据是否存在周期性特征,根据周期性特点构建相对应的Gi;
其三:随机性:在考虑前两个要求的前提下,应尽可能在时间维度上随机地构建Gi;
通过对检测点特征组的数据进行距离计算后,获取结果数据集R=USi。
步骤5:结果输出。
在步骤4中我们获得了检测结果数据集R,我们要利用该数据集去判断包含检测目标的数据片段Ft T是否存在异常:
设置参数ε(ε>0)与λ(λ∈(0,1)),其中ε表示Gi与Gd允许的距离上限,即当r<ε(r∈R)时,认为数据Gd正常;
在结构数据集R中计算认为数据Gd正常时的Gi个数n,当n/N低于λ时,我们认为数据片段Ft T存在异常。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (6)
1.一种基于片段统计特征比较的时序数据异常波动检测算法。其特征在于,主要包括以下步骤:
步骤1:数据准备;
步骤2:数据片段构建;
步骤3:数据片段统计特征计算;
步骤4:检测执行;
步骤5:结果输出。
2.根据权利要求1所述的一种基于片段统计特征比较的时序数据异常波动检测算法,其特征在于,所述构建目标数据片段表示为:
Ft T:<D,T,t>。
5.根据权利要求1所述的一种基于片段统计特征比较的时序数据异常波动检测算法,其特征在于,在获取了G以及Gd后,对于目标数据片段Gd的检测,主要使用了基于闵式距离来评价Gd与其邻居集G之间的相似性,并获取结果数据集:R=USi。
6.根据权利要求1所述的一种基于片段统计特征比较的时序数据异常波动检测算法,其特征在于,获得了检测结果数据集R,我们要利用该数据集去判断包含检测目标的数据片段Ft T是否存在异常:
设置参数ε(ε>0)与λ(λ∈(0,1)),其中ε表示Gi与Gd允许的距离上限,即当r<ε(r∈R)时,认为数据Gd正常;
在结构数据集R中计算认为数据Gd正常时Gi的个数n,当n/N低于λ时,我们认为数据片段Ft T存在异常。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545508.XA CN113205146A (zh) | 2021-05-19 | 2021-05-19 | 一种基于片段统计特征比较的时序数据异常波动检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110545508.XA CN113205146A (zh) | 2021-05-19 | 2021-05-19 | 一种基于片段统计特征比较的时序数据异常波动检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113205146A true CN113205146A (zh) | 2021-08-03 |
Family
ID=77031772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110545508.XA Withdrawn CN113205146A (zh) | 2021-05-19 | 2021-05-19 | 一种基于片段统计特征比较的时序数据异常波动检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113205146A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648232A (zh) * | 2023-12-11 | 2024-03-05 | 武汉天宝莱信息技术有限公司 | 一种应用程序数据监控方法、装置及存储介质 |
-
2021
- 2021-05-19 CN CN202110545508.XA patent/CN113205146A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648232A (zh) * | 2023-12-11 | 2024-03-05 | 武汉天宝莱信息技术有限公司 | 一种应用程序数据监控方法、装置及存储介质 |
CN117648232B (zh) * | 2023-12-11 | 2024-05-24 | 武汉天宝莱信息技术有限公司 | 一种应用程序数据监控方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614576B (zh) | 基于多维高斯分布与趋势分段的变压器异常检测方法 | |
CN110018670B (zh) | 一种基于动态关联规则挖掘的工业过程异常工况预测方法 | |
US8566070B2 (en) | Apparatus abnormality monitoring method and system | |
JP4394286B2 (ja) | 統計的プロセス管理のための多次元的方法及びシステム | |
US10719577B2 (en) | System analyzing device, system analyzing method and storage medium | |
JP6141235B2 (ja) | 時系列データにおける異常を検出する方法 | |
CN110895526A (zh) | 一种大气监测***中数据异常的修正方法 | |
CN111353482A (zh) | 一种基于lstm的疲劳因子隐性异常检测及故障诊断方法 | |
Zhang et al. | Data anomaly detection for structural health monitoring by multi-view representation based on local binary patterns | |
CN109784668B (zh) | 一种用于电力监控***异常行为检测的样本特征降维处理方法 | |
CN110011990B (zh) | 内网安全威胁智能分析方法 | |
Xu et al. | A lof-based method for abnormal segment detection in machinery condition monitoring | |
CN112949735A (zh) | 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法 | |
CN113269327A (zh) | 一种基于机器学习的流量异常预测方法 | |
CN116304957A (zh) | 一种供变电设备监测状态突变在线识别方法 | |
CN114004331A (zh) | 一种基于关键指标和深度学习的故障分析方法 | |
CN113205146A (zh) | 一种基于片段统计特征比较的时序数据异常波动检测算法 | |
CN110308713A (zh) | 一种基于k近邻重构的工业过程故障变量识别方法 | |
CN115935285A (zh) | 基于掩码图神经网络模型的多元时间序列异常检测方法和*** | |
JP7128232B2 (ja) | 要因分析装置および要因分析方法 | |
CN114638039A (zh) | 一种基于低秩矩阵恢复的结构健康监测特征数据解释方法 | |
CN114462636A (zh) | 一种工业时序数据通过数据处理进行在线异常监测方法 | |
CN115249059A (zh) | 模型训练及异常数据分析方法、装置及计算机存储介质 | |
CN111695634A (zh) | 一种基于有限陪审团机制的数据异常突变点检测算法 | |
CN114598627A (zh) | 一种基于知识图谱的异常网络信息检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20210803 |