CN113158716A - 一种基于信号频域分析的智能告警方法和*** - Google Patents

一种基于信号频域分析的智能告警方法和*** Download PDF

Info

Publication number
CN113158716A
CN113158716A CN202011305630.1A CN202011305630A CN113158716A CN 113158716 A CN113158716 A CN 113158716A CN 202011305630 A CN202011305630 A CN 202011305630A CN 113158716 A CN113158716 A CN 113158716A
Authority
CN
China
Prior art keywords
alarm
frequency domain
data
signal frequency
domain analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011305630.1A
Other languages
English (en)
Inventor
闫海崴
严川
王立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202011305630.1A priority Critical patent/CN113158716A/zh
Publication of CN113158716A publication Critical patent/CN113158716A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Human Resources & Organizations (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明涉及一种基于信号频域分析的智能告警方法和***。方法包括步骤:S1、采用基于信号分析的异常检测算法告警引擎对时序数据进行分析处理;S2、根据处理结果与预设的告警规则进行异常状态判断;S3、若发现数据异常符合触发告警事件的状态,则触发相应的告警事件。***包括:基于信号频域分析算法的告警引擎;时序数据指标接入模块,用于向基于信号频域分析算法的告警引擎接入时序数据指标;告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;告警事件触发模块,用于触发告警。借此,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。

Description

一种基于信号频域分析的智能告警方法和***
技术领域
本发明属于智能运维AIOps监控领域,具体涉及一种基于信号频域分析的智能告警方法和***,主要用于处理时间序列异常检测。
背景技术
传统监控***的告警一般采用基于固定阈值的方法,即运维人员根据数据指标来手动设定告警条件,比如当数据指标大于或者小于某个特定值或者超过某个特定的百分比时即产生告警。随后又出现了分时段固定阈值的方法,即把一天分成几个时段,对不同的时段设置不同的告警条件,但这种方法本质上依然属于固定阈值的方法。固定阈值的方法虽然能够满足传统运维中的一部分监控告警需求,但存在以下明显的不足:
第一、告警阈值需要运维人员手工设置,无法智能变更,这就导致:
1、运维人员的经验对阈值设置起关键作用,***风险大;
2、监控对象的特征各不相同,阈值设置难度大;
3、监控对象太多,运维人员工作量大;
第二、无法满足需要根据忙、闲时动态调整告警阈值的需求:
1、固定告警阈值设置较大时,只对流量的波峰有意义,而其他时段的流量处于失控状态;
2、固定告警阈值设置较小时,无法满足波峰状态的告警,且峰值流量长时间处于告警状态,失去了告警意义。
第三、采用分时段阈值法可能无法找到局部峰值异常,这样就造成了算法输出结果的不确定性,而且如何确定时段长度也是问题。
另外,现有的用于异常检测以及分析时间序列的智能算法核心多是基于模型,如深度学习、ARIMA等。模型法的原理大体上是学习时间序列的周期性模式,通过判断预测数值和实际检测数值做对比来检测异常。而这在实际场景会有一种问题,当业务变更带来时间序列周期性模式发生明显变化(突增/突降),根据历史数据训练出的模型就会发生严重误判问题。比如业务在工作日和非工作日周期性模式完全不一样,基于工作日训练的模型就不能用于判断非工作日的数据异常。简单讲就是算法不能自适应数据变化。
最后,目前的大多异常检测不能用于频率异常或者异常模式的检测,模式异常是指异常本身并不属于峰值异常,而是时间序列经过特定分解后内在组成部分发生变化。这类异常有时候出现在局部位置同时幅度仍然在模型法容错范围,所以单纯用阈值判断和模型法不可能正确判断。
综上,为了适应业务不断变化、减少运维对人员经验的依赖,业界希望提出新的模型来分析时间序列并检测异常。
发明内容
为了解决现有技术的上述问题,一方面,本发明提供一种基于信号频域分析的智能告警方法,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于信号频域分析的智能告警方法,其包括如下步骤:
S1、采用基于信号分析的异常检测算法告警引擎对时序数据进行分析处理;
S2、根据处理结果与预设的告警规则进行判断;
S3、若发现数据异常符合触发告警事件的状态,则触发相应的告警事件。
借助上述方案,本发明的基于信号频域分析的智能告警方法,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。信号频域分析告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力,尤其是,在实际运行中,能尽可能地发现所有真实的数据异常(即保证低漏报率),同时结合真实业务场景以及用户使用需求来过滤非业务异常(即减少误报率),最后在实际使用中算法能实现异常检测对于数据的自适应(即完全无人工参与)。
本发明一个实施例的基于信号频域分析的智能告警方法,其中,步骤S1中基于信号频域分析算法的告警引擎实现原理如下:
S11、对于给定的历史时间序列进行信号分析;
S12、赋予每个时间点信号特征向量;
S13、之后在预定空间中进行特征聚类;
S14、大部分数据点会聚集被视为正常,其余孤立点或者孤立簇被视为异常。
借此,本发明采用基于信号分析的异常检测,通过信号分析提取特征和聚类的方式,可以适配更多真实场景的异常检测。其不仅可以检测出更多现有方法无法检测到的异常,而且不需要标签也不需要使用整体都是正常的数据进行训练,可以实现完全无监督,同时使用者又可以根据需求调整敏感度,而不需要人工调节参数,使用更加简便、快速。
本发明一个实施例的基于信号频域分析的智能告警方法,其中,步骤S13中,在频域分解的空间内对数据点进行聚类。
本发明一个实施例的基于信号频域分析的智能告警方法,其中,步骤S14中,根据聚类完毕的结果对空间内的数据点是否异常进行判断。
本发明一个优选实施例的基于信号频域分析的智能告警方法,其中,步骤S1中,把历史数据作为训练数据,聚类完毕后,将训练数据点集分为正常与异常两类,之后再执行步骤S16、构建分类模型,该分类模型可以作为步骤S1的处理结果。
本发明一个实施例的基于信号频域分析的智能告警方法,其还包括步骤S0、数据预处理。其中,数据预处理包括拟合并补充历史训练数据中的缺失点。
通常情况下历史数据的异常点对于模型的拟合有很大影响,而基于信号频域分析的算法,一定程度需要训练数据是等时长间隔的,所以如果历史训练数据中某些时刻有缺失数值,可能会对算法有影响,本发明为了保证算法稳定性,对缺失数值进行拟合填充,使得训练数据中有没有异常对算法的效果没有显著影响,是真正意义上的无监督算法,较佳的,采用线性插值的方法进行拟合填充,以避免引入数据异常。
本发明一个实施例的基于信号频域分析的智能告警方法,其还包括步骤S10、周期性异常处理,用于过滤或说明周期性异常的情况,以便适应需要识别周期性异常的业务环境。
具体的,当数据被判断为异常后,执行步骤S15、判断该异常是否为周期性异常,如果是,则执行步骤S10。
其中,步骤S15中,可以按照如下方式判断该异常是否为周期性异常:检验该异常是否在历史上频繁发生,如果确实检测到该异常在历史同期频繁出现,则说明数据异常属于周期性异常,否则,则不属于周期性异常。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S15可以在步骤S14之后执行。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S10可以在步骤S16之前执行。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中,在判断新数据点的状态时,可以依照下述规则进行:如果距离正常聚类集合近则判定为正常,如果距离异常聚类集合近则判定为异常。
本发明一个实施例的基于信号频域分析的智能告警方法,其还包括步骤S20、敏感度自适应调节,用于自适应调节告警敏感度,以便过滤掉非业务异常,从而达到100%无人工参与,同时模型不会失效的效果。
具体的,可以根据业务数据特性自适应调节敏感度,例如:当业务数据中的时间序列噪声成分占比高时,会出现数据振荡不稳定的情况,这时,就可以通过步骤S20进行敏感度自适应调节,从而选择稳定参数配置,并令算法在聚类过程中假设异常占比少,使得在检测环节会表现得极为稳定,借以不产生异常误报。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中还包括:
步骤S22、周期性异常处理,用于过滤或说明周期性异常的情况,以便适应需要识别周期性异常的业务环境。
具体的,当数据被判断为异常后,执行步骤S23、判断该异常是否为周期性异常,如果是,则执行步骤S22,如果否,则执行步骤S3。
其中,步骤S23中,可以按照如下方式判断该异常是否为周期性异常:检验该异常是否在历史上频繁发生,如果确实检测到该异常在历史同期频繁出现,则说明数据异常属于周期性异常,否则,则不属于周期性异常。本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中还包括:
步骤S21、选择某个时序数据,并针对该数据设置告警规则以及告警分派策略。
其中,告警规则的内容包括:比较规则、聚合方式、时间窗口、时间粒度、告警级别(灾难级别、严重级别、警告级别)
其中,告警的分派包括:定义告警发生后告警通知的接受人,即按照所设定的条件为所设定的告警事件分派告警事件的接受人。
本发明一个实施例的基于信号频域分析的智能告警方法,其也可以基于对历史数据的分析,通过聚类确定异常范围,然后再精确定位得到历史数据的异常。借此,当实际场景需要判断历史数据的异常状态时,可以通过检测精确定位历史数据的异常。
另一方面,本发明还提供一种基于信号频域分析的智能告警***,可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。
为了达到上述目的,本发明采用的主要技术方案包括:
一种基于信号频域分析的智能告警***,其包括:
基于信号频域分析算法的告警引擎;
时序数据指标接入模块,用于向基于信号频域分析算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
借助上述方案,本发明的基于信号频域分析的智能告警***,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。信号频域分析告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力,尤其是,在实际运行中,能尽可能地发现所有真实的数据异常(即保证低漏报率),同时结合真实业务场景以及用户使用需求来过滤非业务异常(即减少误报率),最后在实际使用中算法能实现异常检测对于数据的自适应(即完全无人工参与)。
本发明一个实施例的基于信号频域分析的智能告警***,其中,基于信号频域分析算法的告警引擎包括:
信号分析模块,用于对给定的历史时间序列进行信号分析;
信号特征向量赋予模块,用于赋予每个时间点信号特征向量;
聚类模块,用于在预定空间中进行特征聚类;
异常判断模块,用于判断数据点是正常还是异常。
本发明一个优选实施例的基于信号频域分析的智能告警***,其中,基于信号频域分析算法的告警引擎还包括:分类模型构建模块,用于把历史数据作为训练数据聚类后生成的数据集构建分类模型。
本发明一个实施例的基于信号频域分析的智能告警***,其中,信号特征向量赋予模块包括:
频域分解子模块,用于利用频域分解获得每一个时间点的特征向量。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括数据预处理模块,用于数据预处理,包括拟合并补充历史训练数据中的缺失点。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括,周期性异常处理模块,用于过滤或说明周期性异常的情况。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括,敏感度自适应调节模块,用于自适应调节告警敏感度。
本发明一个较佳实施例的基于信号频域分析的智能告警***,其中,时序数据指标需要满足以下要求中的至少一种:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
本发明的基于信号频域分析的智能告警方法和***,能够通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。特别是能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警告警的有效性和敏锐度,从而提升运维的综合保障能力。
附图说明
图1为本发明一个实施例的基于信号频域分析的智能告警方法的主要流程示意图;
图2为本发明又一个实施例的基于信号频域分析的智能告警方法的告警引擎实现原理示意图;
图3为本发明一个实施例的基于信号频域分析的智能告警***的结构示意图;
图4为本发明又一实施例的基于信号频域分析的智能告警***的结构示意图;
图5为本发明一个实施例的基于信号频域分析的智能告警***的结构示意图;
图6为本发明又一实施例的基于信号频域分析的智能告警***的结构示意图;
图7为本发明一个应用例的基于信号频域分析的智能告警方法的结果示意图(其中,a主要示出训练阶段,b主要示出检测阶段,二者是相接续的);
图8为本发明一个应用例的基于信号频域分析的智能告警方法与现有方法的结果对比示意图(其中,a为现有技术的结果,b为本发明的结果)
图9为本发明一个应用例的基于信号频域分析的智能告警方法与现有方法的结果对比示意图(其中,a为现有技术的结果,b为本发明的结果);
图10为本发明一个应用例的基于信号频域分析的智能告警方法与现有方法的结果对比示意图(其中,a为现有技术的结果,b为本发明的结果)。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
参见图1,本发明一个实施例的基于信号频域分析的智能告警方法,其包括:
S1、采用基于信号分析的异常检测算法告警引擎对时序数据进行分析处理;
S2、根据处理结果与预设的告警规则进行判断;
S3、若发现数据异常符合触发告警事件的状态,则触发相应的告警事件。
借助上述方案,本发明的基于信号频域分析的智能告警方法,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。信号频域分析告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力,尤其是,在实际运行中,能尽可能地发现所有真实的数据异常(即保证低漏报率),同时结合真实业务场景以及用户使用需求来过滤非业务异常(即减少误报率),最后在实际使用中算法能实现异常检测对于数据的自适应(即完全无人工参与)。
本发明的一个较佳实施例中,步骤S1之前还可以包括接入时序数据指标的步骤,所接入的时序数据指标满足以下要求:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
本领域技术人员知道,可以在步骤S2之前执行步骤S4、设定告警触发规则;还可以在步骤S2之前执行步骤S5、设定告警事件发送规则;还可以在步骤S3之后执行步骤S6、展示告警事件;还可以在步骤S3之后执行步骤S7、发送告警信息。
参见图2,本发明的一个较佳实施例中,步骤S1中基于信号频域分析算法的告警引擎实现原理如下:
S11、对于给定的历史时间序列进行信号分析;
S12、赋予每个时间点信号特征向量;
S13、之后在预定空间中进行特征聚类;
S14、大部分数据点会聚集被视为正常,其余孤立点或者孤立簇被视为异常。
其中,步骤S13中,是在频域分解的空间内对数据点进行聚类。
其中,步骤S14中,是根据聚类完毕的结果对空间内的数据点是否异常进行判断。
参见图5,本发明一个优选实施例的基于信号频域分析的智能告警方法,其中,步骤S1中,把历史数据作为训练数据,聚类完毕后,将训练数据点集分为正常与异常两类,之后再执行步骤S16、使用聚类后的数据集构建分类模型,该分类模型可以作为步骤S1的处理结果。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其还包括步骤S0、数据预处理。其中,数据预处理包括拟合并补充历史训练数据中的缺失点。
通常情况下历史数据的异常点对于模型的拟合有很大影响,而基于信号频域分析的算法,一定程度需要训练数据是等时长间隔的,所以如果历史训练数据中某些时刻有缺失数值,可能会对算法有影响,本发明为了保证算法稳定性对缺失数值进行拟合填充,使得训练数据中有没有异常对算法的效果没有显著影响,是真正意义上的无监督算法,较佳的,可以采用线性插值的方法进行拟合填充,以避免引入数据异常。
本发明一个实施例的基于信号频域分析的智能告警方法,其还包括步骤S10、周期性异常处理,用于过滤或说明周期性异常的情况,以便适应需要识别周期性异常的业务环境。
参见图6,当数据被判断为异常后,执行步骤S15、判断该异常是否为周期性异常,如果是,则执行步骤S10。
其中,步骤S15中,可以按照如下方式判断该异常是否为周期性异常:检验该异常是否在历史上频繁发生,如果确实检测到该异常在历史同期频繁出现,则说明数据异常属于周期性异常,否则,则不属于周期性异常。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中,预设的告警规则包括,在判断新数据点的状态时,可以依照下述规则进行:如果距离正常聚类集合近则判定为正常,如果距离异常聚类集合近则判定为异常。
本发明一个实施例的基于信号频域分析的智能告警方法,其还包括步骤S20、敏感度自适应调节,用于自适应调节告警敏感度,以便过滤掉非业务异常,从而达到100%无人工参与,同时模型不会失效的效果。
具体的,可以根据业务数据特性自适应调节敏感度,例如:当业务数据中的时间序列噪声成分占比高时,会出现数据振荡不稳定的情况,这时,就可以通过步骤S20进行敏感度自适应调节,从而选择稳定参数配置,并令算法在聚类过程中假设异常占比少,使得在检测环节会表现得极为稳定,借以不产生异常误报。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中还包括:
步骤S22、周期性异常处理,用于过滤或说明周期性异常的情况,以便适应需要识别周期性异常的业务环境。
具体的,当数据被判断为异常后,执行步骤S23、判断该异常是否为周期性异常,如果是,则执行步骤S22,如果否,则执行步骤S3。
其中,步骤S23中,可以按照如下方式判断该异常是否为周期性异常:检验该异常是否在历史上频繁发生,如果确实检测到该异常在历史同期频繁出现,则说明数据异常属于周期性异常,否则,则不属于周期性异常。
本发明一个较佳实施例的基于信号频域分析的智能告警方法,其中,步骤S2中还包括:
步骤S21、选择某个时序数据,并针对该数据设置告警规则以及告警分派策略。
其中,告警规则的内容包括:比较规则、聚合方式、时间窗口、时间粒度、告警级别(灾难级别、严重级别、警告级别)
其中,告警的分派包括:定义告警发生后告警通知的接受人,即按照所设定的条件为所设定的告警事件分派告警事件的接受人。
参见图3,本发明一个实施例的基于信号频域分析的智能告警***,其包括:
基于信号频域分析算法的告警引擎;
时序数据指标接入模块,用于向基于信号频域分析算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
借助上述方案,本发明的基于信号频域分析的智能告警***,其可以通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。信号频域分析告警能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,减少对运维人员经验的依赖,提升告警的有效性和敏锐度,从而提升运维的综合保障能力,尤其是,在实际运行中,能尽可能地发现所有真实的数据异常(即保证低漏报率),同时结合真实业务场景以及用户使用需求来过滤非业务异常(即减少误报率),最后在实际使用中算法能实现异常检测对于数据的自适应(即完全无人工参与)。
参见图4,本发明一个实施例的基于信号频域分析的智能告警***,其中,,基于信号频域分析算法的告警引擎包括:
信号分析模块,用于对给定的历史时间序列进行信号分析;
信号特征向量赋予模块,用于赋予每个时间点信号特征向量;
聚类模块,用于在预定空间中进行特征聚类;
异常判断模块,用于判断数据点是正常还是异常。
本发明一个优选实施例的基于信号频域分析的智能告警***,其中,基于信号频域分析算法的告警引擎还包括:分类模型构建模块,用于把历史数据作为训练数据聚类后生成的数据集构建分类模型。
本发明一个实施例的基于信号频域分析的智能告警***,其中,信号特征向量赋予模块包括:
频域分解子模块,用于利用频域分解获得每一个时间点的特征向量。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括数据预处理模块,用于数据预处理,包括拟合并补充历史训练数据中的缺失点。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括,周期性异常处理模块,用于过滤或说明周期性异常的情况。
本发明一个实施例的基于信号频域分析的智能告警***,其还包括,敏感度自适应调节模块,用于自适应调节告警敏感度。
本发明一个较佳实施例的基于信号频域分析的智能告警***,其中,时序数据指标需要满足以下要求中的至少一种:
(1)数据指标内容必须包含以下字段:数据的时间、对象名称、对象类型、指标名称、指标标准名称、聚合方式、聚合周期、数据类型、单位。
(2)对象类型:包括host、service、application、business。
(3)指标标准名称:指满足指标命名规范的指标名称。
(4)聚合方式:通过以下聚合函数进行聚合,包括avg、max、min、sum、count。
(5)聚合周期(单位分钟):指数据的时间范围。
(6)数据类型:包括整数数值型、小数数值型、字符型等。
(7)单位:指标数据的单位。
下面还提供一应用实例对本发明进行描述。
参见图7,本发明的一个应用实例,利用本发明的基于信号频域分析的智能告警方法和***,基于历史业务订单数据对历史数据以及未来数据进行异常判断,其中,通过简单分析可以看出本实施例所使用的数据具有如下特点:订单数据在六月呈现明显的周期变化,其中,订单量在六月底之前呈现明显的上升趋势,在七月初整体趋势突然下降。
由图7(a)中所表现的数据变化可以直观地看到本发明智能告警方法中预测算法的运算原理,分割线以左代表用于训练的数据(本对比例中为8天训练数据使用的是2018年6月18日——2018年6月26日,共8天;检测是从2018年6月26日开始的,实际可以根据需求调节),以右代表对未来进入的数据进行判断。其中在2018年06月25日时段,可以看到整体数据中的模式异常(即并非几个单点的幅度异常,而是整个一段数据跟其他周期同一时段数据的模式发生明显差异)被精确定位,即此处的模式异常被计入训练模型。
图7(b)中,分割线以左代表用于训练的数据(本对比例中为8天,参照图7a,实际可以根据需求调节),以右代表对未来进入的数据进行判断。
由图7(b)可以看出,订单数据在六月呈现明显的周期变化,其中,本发明的方法对于2018年07月01日的数据判断中没有产生误报(在一般的模型法中由于训练数据的模式幅度与预测数据的模式幅度差异明显,必然会在此阶段产生大量误报)。其中,由于在训练阶段,2018年06月25日时段整体数据中的模式异常(即并非几个单点的幅度异常,而是整个一段数据跟其他周期同一时段数据的模式发生明显差异)被精确定位,因此,在实际检测中,06月30日附近的检测数据属于模式异常情况,不会被视为异常而报警。
而现有技术中基于预测的异常检测基本原理是分析实际检测数据偏离预测数值的程度,因此,对于时间序列数据中的模式异常、频率组成异常无法检测并识别。此外时间序列随着时间增长,如若因为业务变更等原因发生了分布变化,现有技术中基于预测的方法,其结果会与实际数据产生巨大偏差,进而导致模型失效,短时间很难适应。也就是说,如果采用现有技术对前述两组数据进行分析,其会存在如下问题:不仅会在初始阶段产生大量误报,而且2018年06月25日时段整体数据中的模式异常无法被定位识别,后续会产生大量的误报警。
由此可以看出,因为业务变更导致数据发生分布动态变化的情况下,现有技术的效果会受到很大影响,而本发明的方法能够保证异常检测过程不受干扰。
下面还提供一系列对比实例对本发明进一步描述。
对比例一(与现有的基于统计以及有监督模型的方法比对)
现有技术方法为:把要判断的时间点的数据与其前后一段窗口时间的数据进行环比统计判断,并把要判断的时间点的数据与其历史同期(比如以一天或一周为周期)的数据进行同比统计判断,如果要判断的时间点的数据过于离群,就判断为异常。
参见图8,本对比实例中,图8(a)显示的是使用现有技术中基于统计以及有监督模型的方法对数据进行异常检测的结果。
由图可见,在2018年07月01日的数据中有一个很明显的异常,市场上现有技术有基于同环比的统计方法(如果采用基于时间序列进行基线主成分计算而确定基于偏离度的时序异常法,结果基本相同),其中基于统计的算法完全无法定位,这种情况主要是因为现有技术的统计法极容易受到数据噪音以及巨幅振荡的干扰,一旦数据中有噪声或者动态变化,比如数据整体趋势突然上涨或突然下降,就无法找到局部异常,导致现有技术的统计法不够稳定。
图8(b)显示的是利用本发明的基于信号频域分析的智能告警***进行检测的结果,由图可见,与之相比,本发明则可以很简单的检测到2018年07月01日的那一次异常。也就是说,本发明的方法在有高幅度数据振荡干扰的情况下,也能够准确定位局部异常。换句话说,本发明的方法在具有突变点的数据以及周期不平稳变化的数据上,不会产生误报警。
对比例二(与现有模型法对比)
参见图9(b),利用本发明的方法进行基础监控异常检测,由图可见,基础监控数据的每个周期(天)内,每小时会有一个向上的尖峰。
对于这种情况下的数据,现有技术中的模型法,由于越稳定越不受脉冲数据(例如突升突降以及噪声)干扰,因此越有可能把这些周期性出现的突增突降视为异常,参见图9(a),图中的各圆点表示现有技术方法检测出的异常。
但是从业务角度看,因为每小时都在出现所以不一定是业务上的异常。
而本发明的方法可以通过调整敏感度实现异常的过滤,因此能发现真正的业务异常(图9b圆点处)。
进一步来说,虽然现有技术中的模型法可以通过检测异常后用周期间隔发现周期出现的异常,但是由于这些异常并不能保证出现在同一时刻,因此这种做法是不稳定的。而本发明的方法则可以保证输出的稳定,如图9(b),准确定位了唯一一个向下的尖峰,视为异常(图中圆点处)。
对比例三(与现有的基于预测的方法对比)
参见图10(b),利用本发明的方法进行基础监控异常检测,如图所示,每一个周期内的前一段时间均存在异常峰值,但是由于这个异常峰值频繁出现,从业务角度看并非业务上的异常,这就需要算法能自动过滤或者对异常的状态进行说明(周期性出现)。本发明的方法能根据需求来自动选择过滤或者说明周期性异常的情况,尤其在2018年5月22日,能够在过滤周期异常的同时识别出后半段时间内的非周期出现异常。
而现有技术的方法,结果如图10(a)所示,其无法进行周期性过滤(图中各圆点均被认定为异常)。
由上述三个对比例可以看出,在这两种极端情况下:因为数据大幅度震荡或者全局异常干扰局部异常的判断(对比例一)、数据异常是业务周期性行为所导致的(对比例二、三)。在这些情况下,现有技术的统计算法和基于预测的算法效果会受到很大影响,而本发明的方法能够保证异常检测过程不受干扰。
综上所述,本发明的基于信号频域分析的智能告警方法和***,能够通过实时性能告警算法与大数据技术来发现数据指标的异常波动,从而实现监控告警的功能。特别是能够帮助运维人员及时发现故障并追踪故障的演变过程,提高告警响应的实时性,降低告警的漏报率和误报率,减少对运维人员经验的依赖,提升告警告警的有效性和敏锐度,从而提升运维的综合保障能力。

Claims (10)

1.一种基于信号频域分析的智能告警方法,其包括如下步骤:
S1、采用基于信号分析的异常检测算法告警引擎对时序数据进行分析处理;
S2、根据处理结果与预设的告警规则进行异常状态判断;
S3、若发现数据异常符合触发告警事件的状态,则触发相应的告警事件。
2.如权利要求1所述的基于信号频域分析的智能告警方法,其特征在于,步骤S1中基于信号频域分析算法的告警引擎实现原理如下:
S11、对于给定的历史时间序列进行信号分析;
S12、赋予每个时间点信号特征向量;
S13、之后在预定空间中进行特征聚类;
S14、大部分数据点会聚集被视为正常,其余孤立点或者孤立簇被视为异常。
3.如权利要求2所述的基于信号频域分析的智能告警方法,其特征在于,步骤S12中:利用频域分解获得每一个时间点的特征向量。
4.如权利要求3所述的基于信号频域分析的智能告警方法,其特征在于:
步骤S13中,在频域分解的空间内对数据点进行聚类;或者步骤S14中,根据聚类完毕的结果对空间内的数据点是否异常进行判断。
5.如权利要求1所述的基于信号频域分析的智能告警方法,其特征在于,还包括步骤S0、数据预处理,包括拟合并补充历史训练数据中的缺失点。
6.一种基于信号频域分析的智能告警***,其特征在于,其包括:
基于信号频域分析算法的告警引擎;
时序数据指标接入模块,用于向基于信号频域分析算法的告警引擎接入时序数据指标;
告警事件触发判断模块,用于基于预设的告警规则判断是否触发告警事件;
告警事件触发模块,用于触发告警。
7.如权利要求6所述的基于信号频域分析的智能告警***,其特征在于,基于信号频域分析算法的告警引擎包括下列中的任一或任几:
信号分析模块,用于对给定的历史时间序列进行信号分析;
信号特征向量赋予模块,用于赋予每个时间点信号特征向量;
聚类模块,用于在预定空间中进行特征聚类;
异常判断模块,用于判断数据点是正常还是异常。
8.如权利要求7所述的基于信号频域分析的智能告警***,其特征在于,信号特征向量赋予模块包括:
频域分解子模块,用于利用频域分解获得每一个时间点的特征向量。
9.如权利要求6所述的基于信号频域分析的智能告警***,其特征在于,还包括数据预处理模块,用于数据预处理,包括拟合并补充历史训练数据中的缺失点。
10.如权利要求6所述的基于信号频域分析的智能告警***,其特征在于,还包括下列模块中的任一种或两种:
周期性异常处理模块,用于过滤或说明周期性异常的情况;
敏感度自适应调节模块,用于自适应调节告警敏感度。
CN202011305630.1A 2020-11-20 2020-11-20 一种基于信号频域分析的智能告警方法和*** Pending CN113158716A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011305630.1A CN113158716A (zh) 2020-11-20 2020-11-20 一种基于信号频域分析的智能告警方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011305630.1A CN113158716A (zh) 2020-11-20 2020-11-20 一种基于信号频域分析的智能告警方法和***

Publications (1)

Publication Number Publication Date
CN113158716A true CN113158716A (zh) 2021-07-23

Family

ID=76882349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011305630.1A Pending CN113158716A (zh) 2020-11-20 2020-11-20 一种基于信号频域分析的智能告警方法和***

Country Status (1)

Country Link
CN (1) CN113158716A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116767089A (zh) * 2023-08-25 2023-09-19 深圳联友科技有限公司 一种汽车水温异常识别与告警监控方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597880A (zh) * 2019-09-17 2019-12-20 上海仪电(集团)有限公司中央研究院 一种用水模式挖掘和匹配的方法,***和设备
CN110865929A (zh) * 2019-11-26 2020-03-06 携程旅游信息技术(上海)有限公司 异常检测预警方法及***
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597880A (zh) * 2019-09-17 2019-12-20 上海仪电(集团)有限公司中央研究院 一种用水模式挖掘和匹配的方法,***和设备
CN110865929A (zh) * 2019-11-26 2020-03-06 携程旅游信息技术(上海)有限公司 异常检测预警方法及***
CN111475804A (zh) * 2020-03-05 2020-07-31 浙江省北大信息技术高等研究院 一种告警预测方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116767089A (zh) * 2023-08-25 2023-09-19 深圳联友科技有限公司 一种汽车水温异常识别与告警监控方法及装置
CN116767089B (zh) * 2023-08-25 2023-10-20 深圳联友科技有限公司 一种汽车水温异常识别与告警监控方法及装置

Similar Documents

Publication Publication Date Title
CN110708204B (zh) 一种基于运维知识库的异常处理方法、***、终端及介质
US9535808B2 (en) System and methods for automated plant asset failure detection
CN111309565B (zh) 告警处理方法、装置、电子设备以及计算机可读存储介质
US10904276B2 (en) Systems and methods for anomaly detection
CN112116123A (zh) 一种基于动态基线的智能告警方法和***
CN112188531B (zh) 异常检测方法、装置、电子设备及计算机存储介质
CN103744389A (zh) 一种油气生产设备运行状态的预警方法
CN107239388A (zh) 一种监测告警方法及***
WO2016175845A1 (en) Aggregation based event identification
CN110750429A (zh) 运维管理***的异常检测方法、装置、设备及存储介质
KR100982034B1 (ko) 데이터베이스 성능 모니터링 방법 및 시스템
US11775375B2 (en) Automated incident detection and root cause analysis
CN105808368B (zh) 一种基于随机概率分布的信息安全异常检测的方法及***
CN115328733A (zh) 应用于业务***的告警方法、装置、电子设备及存储介质
CN115061838A (zh) 一种故障检测方法及***
CN110400052A (zh) 关键性能指标的监控方法和装置
EP3187950A1 (en) A method for managing alarms in a control system
CN113158716A (zh) 一种基于信号频域分析的智能告警方法和***
CN105117315A (zh) 基于cep的告警处理***及方法
Lan et al. Some special issues of network security monitoring on big data environments
CN111078503A (zh) 一种异常监控方法及***
EP2882139B1 (en) System and method for IT servers anomaly detection using incident consolidation
CN110399405A (zh) 日志报警方法、装置、***及存储介质
CN113590427A (zh) 一种监控指标异常的告警方法、装置、存储介质和设备
CN110677271B (zh) 基于elk的大数据告警方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination