CN113704323A - 一种基于htm改进的时序异常检测算法 - Google Patents
一种基于htm改进的时序异常检测算法 Download PDFInfo
- Publication number
- CN113704323A CN113704323A CN202110978846.2A CN202110978846A CN113704323A CN 113704323 A CN113704323 A CN 113704323A CN 202110978846 A CN202110978846 A CN 202110978846A CN 113704323 A CN113704323 A CN 113704323A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- htm
- spatial
- value
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 26
- 230000006872 improvement Effects 0.000 title claims abstract description 13
- 230000002159 abnormal effect Effects 0.000 claims abstract description 61
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000005856 abnormality Effects 0.000 claims abstract description 23
- 230000006870 function Effects 0.000 claims description 26
- 239000000203 mixture Substances 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 3
- 238000005096 rolling process Methods 0.000 claims description 3
- 230000002123 temporal effect Effects 0.000 claims 4
- 230000035772 mutation Effects 0.000 abstract description 2
- 230000004913 activation Effects 0.000 description 7
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000002547 anomalous effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Pure & Applied Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Combined Controls Of Internal Combustion Engines (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
Description
技术领域
本发明涉及时间序列数据异常检测领域,具体涉及一种基于HTM改进的时序异常检测算法。
背景技术
时序异常检测:现实生活中很多数据都是不断变化的时间序列数据,比如发动机上温度传感器监测到的温度,则是随着时间变化的时序数据,以及家中每分钟消耗的用电量,使用电脑时CPU的使用率等。这些数据中常常包含了异常点,所谓异常点,即***异常行为且与过去行为明显不同的时间点。不同***中的异常点往往反馈出不同的重要信息,温度传感器数据突然上升到临界值,表示温度过高,提醒操作人员需要及时对发动机降温,新产品网页上的页面点击率突然上升到异常高,表示需求大,消费者对该新产品有很大的兴趣。当然时序数据的异常检测还有很多用例,包括预防性维护,防欺诈,故障检测和监控等。且在许多行业中都有实际和重要的应用,包括金融、IT、安全、能源等。
算法HTM:对于流式时序数据的异常检测,分层时间记忆算法HTM,在各方面都表现出了很好的效果。大多数异常检测算法,需要事先学习批量时序数据,再做检测,而HTM算法可以实现在线学习不断调整模型,以无监督的方式实时输出决策结果。且HTM算法无需手动调整参数。作者们还在NAB项目中测试了多个异常检测的算法,包括著名的EtsySkyline,Twitter ADVec等,HTM最终取得了最高的准确率。
但在生产实践中,发现HTM算法异常检测的效果仍然达不到要求,其在准确率上仍有很大的提升空间,因此本发明基于HTM算法提出了优化方案,并在实际生产环境中测试,优化后的算法准确率得到了很大的提升,减少了很多误报,并发现了很多原HTM未检测出的异常。
现有技术对于空间异常的判定比较简单,即用(历史最大值-历史最小值)*空间容忍系数(通常是10%)得到空间容忍度。然后用历史最大值+空间容忍度得到空间容忍范围上界,用历史最小值-空间容忍度得到空间容忍范围下界。最后用当前值和空间容忍范围上下界比较,如果当前值大于空间容忍范围上界或当前值小于空间容忍范围下界,则判定为异常。该方法没有考虑到时序数据自身的波动性对于空间异常判定的影响,通常,波动较大的数据,应该有更大的空间异常容忍范围,而对于比较稳定的数据,空间异常容忍范围应该更小。因此,本发明在该基础上添加了变异系数和激活函数,来平衡自身数据波动对空间异常范围的影响。
发明内容
本发明提供了一种基于HTM改进的时序异常检测算法,本发明解决HTM算法无法检测出偶发性尖峰突变的异常点。本发明解决HTM算法对于空间异常的判定过于简单,没有考虑到时序数据本身的波动性对异常判定的影响。本发明解决HTM算法有时误报较多,有时检测不出真正异常等准确率低的问题。
本发明主要提出三种空间异常判定方法。第一、第二种判定方法均使用了滑动历史最大值和滑动历史最小值,应用激活函数和变异系数,得到两个异常空间范围,并根据当前值是否同时超出两个异常空间范围来判定是否异常。第三种判定方法通过使用了滑动历史平均值和滑动历史标准差,对当前时间前10个点的平均值应用互补误差函数和对数,得到异常分,并根据异常分是否大于阈值来判定是否异常。
一种基于HTM改进的时序异常检测算法,包括以下步骤:
1)时序数据同时进入HTM算法、第一种空间异常判定方法产生的第一种异常空间范围、第二种空间异常判定方法产生的第二种异常空间范围以及第三种空间异常判定方法中;
2)如果时序数据的当前值同时超出第一种异常空间范围和第二种异常空间范围,会被判定为异常;
对于前两种空间异常判定方法,需要结合使用,只有当前值同时超出两种判定方法得到异常空间范围则判定为异常。
步骤1)中,第一种空间异常判定方法、第二种空间异常判定方法和第三种空间异常判定方法中、、参数建立,具体包括: 对于一条时序数据,随着时间的变化,数据每隔一段时间都在不断产生新的数值,每隔点,计算出当前时间点前个点的滑动历史最大值和滑动历史最小值,不包括当前时间点。=5~100,为1000~10000,其中通常为8640;
步骤1)中,第一种空间异常判定方法,具体包括:
步骤1)中,第二种空间异常判定方法,具体包括:
步骤1)中,第三种空间异常判定方法,具体包括:
与现有技术相比,本发明具有如下优点。
(1)准确率高:本发明提出了三种空间异常判定方法,配合使用,使得准确率大幅提高,在多个真实数据集样例上测试,平均准确率提高达20%以上。
(2)适用范围广:本发明在前两种异常判定方法中,提出用激活函数tanh和变异系数组成的复合函数作为系数,使得该判定方法不仅能识别波动性大的时序数据中的异常点,同时对于波动性小的数据,以及由波动性大变化到波动性小的数据,由波动性小变化到波动性大的数据,都能很好的识别出异常点。
(3)使用范围广:本发明提出的基于HTM改进的异常检测算法,适用于任何时序数据。
附图说明
图1是本发明基于HTM改进的时序异常检测算法的异常检测的原理图。
具体实施方式
如图1所示,一种基于HTM改进的时序异常检测算法,包括以下步骤:
1)时序数据同时进入HTM算法、第一种空间异常判定方法产生的第一种异常空间范围、第二种空间异常判定方法产生的第二种异常空间范围以及第三种空间异常判定方法中;
2)如果时序数据的当前值同时超出第一种异常空间范围和第二种异常空间范围,会被判定为异常;
本发明是为了改进HTM算法在做时序数据异常检测时,对于空间异常的判定过于简单,导致误报较多或准确率较低的问题,通过优化算法提高异常检测的准确率。包括以下方面:
首先,对于一条时序数据,随着时间的变化,数据每隔一段时间都在不断产生新的数值,为了计算性能,每隔10个点,计算出当前时间点前个点的滑动历史最大值和滑动历史最小值,不包括当前时间点,其中通常为8640。,。同时可以得到滑动历史均值和滑动历史标准差。其中函数是求最大值,函数是求最小值,函数是求和。
一、第一种空间异常判定方法:
二、第二种空间异常判定方法:
三、第三种空间异常判定方法:
四、判定当前值是否空间异常:
现有技术中对空间异常的判定,没有考虑到时序数据的波动性会发生较大变化的情况,比如由波动性较大的模式转变成波动性较小的模式,空间容忍范围,即历史最大值和最小值仍由波动性较大时间段的数据所决定。因此,本发明不采用历史最大值和历史最小值去构建空间容忍范围,而是使用近historicWindowSize(通常为8640)个点的数据的滑动历史最大值和滑动历史最小值代替。
现有技术中对空间异常的判定,不能很好地检测出波动性一直较小的数据的空间异常,因为波动性一直较小的数据,空间容忍度较小,因此稍有波动,误报就会增多。本发明提出了第二种空间异常的判定方法,即得到第二种空间容忍范围,由滑动历史最小值和滑动历史最大值各自乘以一个系数组合得到的容忍范围,只有当前值同时超出了两个空间容忍范围时,才会被判定异常。
现有技术中无论是对空间异常的判定还是对时机异常的判定,都无法检出较缓慢出现的尖峰异常值,因此,本发明提出了第三种空间异常的判定方法,即对原始时序数据,求得当前时刻前10个点的平均值作为当前值,并利用近historicWindowSize个点的数据得到滑动历史平均值和滑动历史标准差,最后应用互补误差函数判定当前值是否异常。
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110978846.2A CN113704323A (zh) | 2021-08-25 | 2021-08-25 | 一种基于htm改进的时序异常检测算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110978846.2A CN113704323A (zh) | 2021-08-25 | 2021-08-25 | 一种基于htm改进的时序异常检测算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704323A true CN113704323A (zh) | 2021-11-26 |
Family
ID=78654494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110978846.2A Pending CN113704323A (zh) | 2021-08-25 | 2021-08-25 | 一种基于htm改进的时序异常检测算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704323A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115158399A (zh) * | 2022-06-14 | 2022-10-11 | 通号城市轨道交通技术有限公司 | 时序信号异常检测方法及*** |
-
2021
- 2021-08-25 CN CN202110978846.2A patent/CN113704323A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115158399A (zh) * | 2022-06-14 | 2022-10-11 | 通号城市轨道交通技术有限公司 | 时序信号异常检测方法及*** |
CN115158399B (zh) * | 2022-06-14 | 2023-10-17 | 通号城市轨道交通技术有限公司 | 时序信号异常检测方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117093879B (zh) | 一种数据中心智能化运营管理方法及*** | |
He et al. | Performance assessment of wind turbines: Data-derived quantitative metrics | |
CN112284440B (zh) | 一种传感器数据偏差自适应修正方法 | |
El-Midany et al. | A proposed framework for control chart pattern recognition in multivariate process using artificial neural networks | |
CN103488135B (zh) | 一种用于半导体生产加工过程监控的统计过程控制方法 | |
Ma et al. | Fault detection for dynamic processes based on recursive innovational component statistical analysis | |
CN111582542B (zh) | 一种基于异常修复的电力负荷预测方法及*** | |
CN111931834B (zh) | 基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质 | |
CN111445103A (zh) | 一种基于工业互联网的输电线缆生产质量管理反馈*** | |
Wang et al. | Fault detection and diagnosis for multiple faults of VAV terminals using self-adaptive model and layered random forest | |
CN104537220A (zh) | 基于主元分析和d-s证据理论的故障诊断方法 | |
CN117668684B (zh) | 基于大数据分析的电网电能数据异常检测方法 | |
Zhong et al. | Multimode non‐Gaussian process monitoring based on local entropy independent component analysis | |
CN117783745B (zh) | 用于换电柜的数据在线监测方法及*** | |
CN112598144A (zh) | 基于相关性分析的cnn-lstm突发故障预警方法 | |
CN113704323A (zh) | 一种基于htm改进的时序异常检测算法 | |
CN114004331A (zh) | 一种基于关键指标和深度学习的故障分析方法 | |
CN116235148A (zh) | 干泵宕机的预警方法、装置、电子设备、存储介质及程序 | |
CN114770607A (zh) | 一种基于大数据的机器人健康监控方法及*** | |
CN106325258B (zh) | 一种基于在线监测信息的继电保护装置状态评估方法 | |
CN116151799A (zh) | 一种基于bp神经网络的配电线路多工况故障率快速评估方法 | |
CN114254904B (zh) | 一种风电机组机舱运行健康度评价方法及装置 | |
Mesa-Jiménez et al. | Early warning signals of failures in building management systems | |
Maqbool et al. | An efficient fault-prediction mechanism for improving yield in industry 5.0 | |
Lee et al. | Autoencoder-based detector for distinguishing process anomaly and sensor failure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 310000 Room 401, building 1, 1399 liangmu Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province Applicant after: Hangzhou Chengyun Digital Technology Co.,Ltd. Address before: 310000 Room 401, building 1, 1399 liangmu Road, Cangqian street, Yuhang District, Hangzhou City, Zhejiang Province Applicant before: Hangzhou Dacheng Intelligent Technology Co.,Ltd. |