CN111258859A - 一种服务器告警策略、方法及*** - Google Patents

一种服务器告警策略、方法及*** Download PDF

Info

Publication number
CN111258859A
CN111258859A CN202010046904.3A CN202010046904A CN111258859A CN 111258859 A CN111258859 A CN 111258859A CN 202010046904 A CN202010046904 A CN 202010046904A CN 111258859 A CN111258859 A CN 111258859A
Authority
CN
China
Prior art keywords
alarm
expression
time
result
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010046904.3A
Other languages
English (en)
Other versions
CN111258859B (zh
Inventor
周虹仰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010046904.3A priority Critical patent/CN111258859B/zh
Publication of CN111258859A publication Critical patent/CN111258859A/zh
Application granted granted Critical
Publication of CN111258859B publication Critical patent/CN111258859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Alarm Systems (AREA)

Abstract

本发明提供了一种服务器告警策略、方法及***,方法包括识别告警策略的触发方式;若是定时条件触发,则遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;若是流式条件触发,则将统计表达式的判定结果和流式表达式的判定结果作为返回结果。基于同环比告警,反映指标的变化趋势,以及与过去同期相比的波动情况,同时结合流式告警,利于及时发现指标异常,且充分了解到指标的告警趋势,达到提前推断指标风险的效果。

Description

一种服务器告警策略、方法及***
技术领域
本发明涉及服务器安全技术领域,尤其是一种服务器告警策略、方法及***。
背景技术
在服务器运行过程中,若发生故障或出现异常情况时,及时的发出告警提示是必要的,能够使外界尽快的获取到故障或异常信息,便于尽快做出应对措施,避免造成更严重的损失。
因此,在服务器***中,具有健壮的告警机制是必不可少的。现有的告警方式主要包括统计告警和流式告警两种告警形式。其中统计告警是对指标在固定时间段统计值的告警,通常都是定时进行告警判断;流式告警会对采集到的每一个监控指标数据进行告警判断,达到实时告警的目的。
然而,现有技术中,上述两种告警形式都是独立存在的,结果往往是针对当前服务器状态的显示,无法了解到指标的告警趋势,无法提前推断指标的风险。
发明内容
本发明提供了一种服务器告警策略、方法及***,用于解决现有告警结果往往是针对当前服务器状态的显示,无法了解到指标的告警趋势,无法提前推断指标的风险问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种服务器告警策略,所述告警策略的结构包括告警类型、告警条件、告警表达式、告警表达式的逻辑判断关系、告警实例和告警触发动作,所述告警类型包括统计告警和流式告警,所述统计告警为同环比告警,所述告警条件包括多个,每个告警条件下包含若干告警表达式,所述告警表达式包括统计表达式和流式表达式;在运行所述告警策略时,对当前告警实例中的指标,结合告警类型、告警条件和告警表达式,进行逻辑判断,得到告警结果。
本发明第二方面提供了一种服务器告警方法,基于所述的告警策略,所述方法包括:
识别告警策略的触发方式;
若是定时条件触发,则遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;
若是流式条件触发,则将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
进一步地,所述基于对判定时间的判断结果,返回告警判定结果的具体过程为:
判断当前时间是否为统计表达式的判定时间;
若是,则进行同环比计算判定,返回判定结果;
若否,则从上次的判定结果中,获取未过期的结果作为判定结果返回。
进一步地,所述判定时间包括同比判定时间,判断当前时间是否为同比判断时间的具体过程为:
根据初始时间、终止时间和周期值,判断当前时间是否为同比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且在周期值内,则当前时间为判定时间,否则当前时间不是判定时间;
进一步地,所述判定时间包括环比判定时间,判断当前时间是否为环比判定时间的具体过程为:
根据初始时间、终止时间和环比间隔,判断当前时间是否为环比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且不在环比间隔内,则当前时间为判定时间,否则当前时间不是判定时间。
进一步地,所述进行同环比计算判定,返回判定结果的具体过程为:
分别获取本期值和基期值,计算同环比率;
将同环比率与告警阈值比较,得到判定结果并返回。
进一步地,所述将统计表达式的判定结果和流式表达式的判定结果作为返回结果的具体过程为:
在流式条件触发下,流式表达式给出实时判定结果;
对于统计表达式,判断当前时间是否在统计表达式的判定时间内;
若是,则从缓存中获取未过期的判定结果,最终的返回结果中包括流式表达式的判定结果和统计表达式的判定结果;
若否,则最终的结果中仅包括流式表达式的判定结果。
本发明第三方面提供了一种服务器告警***,所述***包括:
识别模块,用于识别告警策略的触发方式;
统计触发处理模块,用于遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;
流式触发处理模块,将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
进一步地,所述统计触发处理模块包括:
表达式判定单元,用于遍历各告警条件下的表达式类型,若均为统计表达式,则调用时间判定单元,若包含统计表达式和流式表达式,则返回false;
时间判定单元,用于判断当前时间是否为统计表达式的判定时间,若是,则进行同环比计算判定;若否,则从上次的判定结果中获取未过期的结果作为判定结果。
进一步地,所述流式触发处理模块包括:
流式告警处理单元,利用流式表达式给出实时判定结果;
统计告警处理单元,对于统计表达式,判断当前时间是否在统计表达式的判定时间内,若是,则调用第一结果返回单元,若否,则调用第二结果返回单元;
第一结果返回单元,从缓存中获取未过期的判定结果,返回结果包括流式表达式的判定结果和统计表达式的判定结果;
第二结果返回单元,返回流式表达式的判定结果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明运用基于统计告警和流式告警的混合告警,对同一指标分别从统计角度和实时角度分析当前指标的运行情况。在统计告警中引入同环比告警,反映指标的变化趋势,以及与过去同期相比的波动情况,同时结合流式告警,利于及时发现指标异常,且充分了解到指标的告警趋势,达到提前推断指标风险的效果。
在告警逻辑判断过程中,对不同触发方式的告警,给出不同的返回结果,体现出对不同告警类型的侧重保证返回结果的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法的流程示意图;
图2是本发明所述***的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明服务器告警策略,其结构包括告警类型、告警条件、告警表达式、告警表达式的逻辑判断关系、告警实例和告警触发动作,告警类型包括统计告警和流式告警,统计告警为同环比告警。一个告警策略包含多个告警条件,告警条件是最小的告警判定单元,每个告警条件可包含多个表达式,告警表达式包括统计表达式和流式表达式,分别对应统计告警条件与流式告警条件。告警判断逻辑对应个告警条件中告警表达式的逻辑判断关系。
本实施例中的同环比告警归入统计告警范畴,同环比是统计数据的增/降幅度,即某一时间段(本期)的统计结果与之前另一相同长度时间段(基期)的比较结果。同比表示的是本期与上一个同期的比较,比如今年4月与去年4月比较,今天8点到9点与昨天8点到9点比较;环比表示的是本期与上期的比较,如今年4月与今年3月比较,今天8点到9点与7点到8点比较。而同环比告警则是对一段时间内监控指标的统计结果同比上一同期(或环比上期)的增/降幅进行告警,即指标的同/环比计算结果超过了策略指定的增/降幅度则进行告警。
如图1所示,本发明服务器告警方法,基于告警策略中的逻辑判断关系,方法包括:
识别告警策略的触发方式;
若是定时条件触发,则遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;
若是流式条件触发,则将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
定时条件触发时,当只有统计表达式时,遍历判定各统计表达式,基于对判定时间的判断结果,返回告警判定结果。具体为:判定是否为统计表达式的判定时间,根据起始时间、终止时间、环比间隔或同比周期来确定。若不是判定时间,考虑到多个统计表达式的组合判定情况时,各表达式的判定时间可能不一致,则取出缓存中上次的未过期的判定结果返回。若是判定时间,则进行同环比计算判定,构造opentsdb查询语句调用API查询本期值与基期值,计算得出同/环比值(率),并与阈值进行比较得出判定结果,结果会缓存到redis,同时会将此告警条件的判定置为有效,因为如果告警条件里的表达式都未达到判定时间,这次判定其实是无效的。
其中判断当前时间是否为统计表达式的判定时间的具体过程为:
根据初始时间、终止时间和周期值,判断当前时间是否为同比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且在周期值内,则当前时间为判定时间,否则当前时间不是判定时间;
根据初始时间、终止时间和环比间隔,判断当前时间是否为环比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且不在环比间隔内,则当前时间为判定时间,否则当前时间不是判定时间。
进行同环比计算判定,返回判定结果的具体过程为:分别获取本期值和基期值,计算同环比率,同/环比率=(本期数-基期数)÷基期数×100%;将同环比率与告警阈值比较,得到判定结果并返回。其中告警阈值包括增/降幅上限值。告警指标为cpu、内存、硬盘、访问量等。
在流式条件触发下,流式表达式给出实时判定结果;对于统计表达式,判断当前时间是否在统计表达式的判定时间内;若是,则从缓存中获取未过期的判定结果,最终的返回结果中包括流式表达式的判定结果和统计表达式的判定结果;若否,则最终的结果中仅包括流式表达式的判定结果。
如图2所示,本发明服务器告警***,包括识别模块1、统计触发处理模块2和流式触发处理模块3。
识别模块1用于识别告警策略的触发方式;统计触发处理模块2用于遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;流式触发处理模块3将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
统计触发处理模块2包括表达式判定单元21和时间判定单元22。
表达式判定单元21用于遍历各告警条件下的表达式类型,若均为统计表达式,则调用时间判定单元,若包含统计表达式和流式表达式,则返回false;时间判定单元22用于判断当前时间是否为统计表达式的判定时间,若是,则进行同环比计算判定;若否,则从上次的判定结果中获取未过期的结果作为判定结果。
流式触发处理模块3包括流式告警处理单元31、统计告警处理单元32、第一结果返回单元33和第二结果返回单元34。
流式告警处理单元31利用流式表达式给出实时判定结果;统计告警处理单元32对于统计表达式,判断当前时间是否在统计表达式的判定时间内,若是,则调用第一结果返回单元,若否,则调用第二结果返回单元;第一结果返回单元33从缓存中获取未过期的判定结果,返回结果包括流式表达式的判定结果和统计表达式的判定结果;第二结果返回单元34返回流式表达式的判定结果。
另外本发明上述实施例的方法可存储至BMC内,进行告警控制。
本发明同环比告警反映了指标的变化趋势以及与过去同期相比的波动状态。比如***服务访问量异常检测,由于***量可能根据时间有一定的规律性,如周一到周五访问量大,周末访问量小。若采用流式告警只能定义一个告警阈值,不能根据不同时间设置不同的告警阈值,这时可以在业务高峰时间对***访问量指标配置按周同比告警,便可对业务访问量异常做出及时有效的报警。在同环比告警的基础上,结合流式告警,形成混合告警的形式,更有助于对***异常与业务异常的及时精确发现。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种服务器告警策略,其特征是,所述告警策略的结构包括告警类型、告警条件、告警表达式、告警表达式的逻辑判断关系、告警实例和告警触发动作,所述告警类型包括统计告警和流式告警,所述统计告警为同环比告警,所述告警条件包括多个,每个告警条件下包含若干告警表达式,所述告警表达式包括统计表达式和流式表达式;在运行所述告警策略时,对当前告警实例中的指标,结合告警类型、告警条件和告警表达式,进行逻辑判断,得到告警结果。
2.一种服务器告警方法,基于权利要求1所述告警策略的逻辑判断关系,其特征是,所述方法包括:
识别告警策略的触发方式;
若是定时条件触发,则遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;
若是流式条件触发,则将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
3.根据权利要求2所述服务器告警方法,其特征是,所述基于对判定时间的判断结果,返回告警判定结果的具体过程为:
判断当前时间是否为统计表达式的判定时间;
若是,则进行同环比计算判定,返回判定结果;
若否,则从上次的判定结果中,获取未过期的结果作为判定结果返回。
4.根据权利要求3所述服务器告警方法,其特征是,所述判定时间包括同比判定时间,判断当前时间是否为同比判断时间的具体过程为:
根据初始时间、终止时间和周期值,判断当前时间是否为同比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且在周期值内,则当前时间为判定时间,否则当前时间不是判定时间。
5.根据权利要求3所述服务器告警方法,其特征是,所述判定时间包括环比判定时间,判断当前时间是否为环比判定时间的具体过程为:
根据初始时间、终止时间和环比间隔,判断当前时间是否为环比判定时间,若当前时间在初始时间和终止时间所限定的时间段内,且不在环比间隔内,则当前时间为判定时间,否则当前时间不是判定时间。
6.根据权利要求3所述服务器告警方法,其特征是,所述进行同环比计算判定,返回判定结果的具体过程为:
分别获取本期值和基期值,计算同环比率;
将同环比率与告警阈值比较,得到判定结果并返回。
7.根据权利要求2所述服务器告警方法,其特征是,所述将统计表达式的判定结果和流式表达式的判定结果作为返回结果的具体过程为:
在流式条件触发下,流式表达式给出实时判定结果;
对于统计表达式,判断当前时间是否在统计表达式的判定时间内;
若是,则从缓存中获取未过期的判定结果,最终的返回结果中包括流式表达式的判定结果和统计表达式的判定结果;
若否,则最终的结果中仅包括流式表达式的判定结果。
8.一种服务器告警***,其特征是,所述***包括:
识别模块,用于识别告警策略的触发方式;
统计触发处理模块,用于遍历各告警条件下的表达式类型,若均为统计表达式,则基于对判定时间的判断结果,返回告警判定结果;若包含统计表达式和流式表达式,则返回结果为false;
流式触发处理模块,将统计表达式的判定结果和流式表达式的判定结果作为返回结果。
9.根据权利要求8所述服务器告警***,其特征是,所述统计触发处理模块包括:
表达式判定单元,用于遍历各告警条件下的表达式类型,若均为统计表达式,则调用时间判定单元,若包含统计表达式和流式表达式,则返回false;
时间判定单元,用于判断当前时间是否为统计表达式的判定时间,若是,则进行同环比计算判定;若否,则从上次的判定结果中获取未过期的结果作为判定结果。
10.根据权利要求8所述服务器告警***,其特征是,所述流式触发处理模块包括:
流式告警处理单元,利用流式表达式给出实时判定结果;
统计告警处理单元,对于统计表达式,判断当前时间是否在统计表达式的判定时间内,若是,则调用第一结果返回单元,若否,则调用第二结果返回单元;
第一结果返回单元,从缓存中获取未过期的判定结果,返回结果包括流式表达式的判定结果和统计表达式的判定结果;
第二结果返回单元,返回流式表达式的判定结果。
CN202010046904.3A 2020-01-16 2020-01-16 一种服务器告警策略、方法及*** Active CN111258859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010046904.3A CN111258859B (zh) 2020-01-16 2020-01-16 一种服务器告警策略、方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010046904.3A CN111258859B (zh) 2020-01-16 2020-01-16 一种服务器告警策略、方法及***

Publications (2)

Publication Number Publication Date
CN111258859A true CN111258859A (zh) 2020-06-09
CN111258859B CN111258859B (zh) 2022-07-08

Family

ID=70950669

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010046904.3A Active CN111258859B (zh) 2020-01-16 2020-01-16 一种服务器告警策略、方法及***

Country Status (1)

Country Link
CN (1) CN111258859B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107202604A (zh) * 2017-03-02 2017-09-26 湖南工业大学 一种告警处理方法及***
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
CN110633893A (zh) * 2019-08-14 2019-12-31 阿里巴巴集团控股有限公司 一种策略效能监控方法、装置以及计算机设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107202604A (zh) * 2017-03-02 2017-09-26 湖南工业大学 一种告警处理方法及***
CN109688188A (zh) * 2018-09-07 2019-04-26 平安科技(深圳)有限公司 监控告警方法、装置、设备及计算机可读存储介质
CN110633893A (zh) * 2019-08-14 2019-12-31 阿里巴巴集团控股有限公司 一种策略效能监控方法、装置以及计算机设备

Also Published As

Publication number Publication date
CN111258859B (zh) 2022-07-08

Similar Documents

Publication Publication Date Title
US7444263B2 (en) Performance metric collection and automated analysis
KR100982034B1 (ko) 데이터베이스 성능 모니터링 방법 및 시스템
CN108829535A (zh) 数据处理方法、终端及计算机可读存储介质
US7100079B2 (en) Method and apparatus for using pattern-recognition to trigger software rejuvenation
US9027025B2 (en) Real-time database exception monitoring tool using instance eviction data
JP2008021274A (ja) プロセス監視装置及び方法
JP2008191839A (ja) 異常兆候検出システム
US7962692B2 (en) Method and system for managing performance data
CN108599977A (zh) 基于统计方法监控***可用性的***及方法
EP2686770A1 (en) Detection on resource leakage
CN115080356A (zh) 异常告警方法和装置
CN111970168A (zh) 全链路服务节点的监控方法、装置和存储介质
CN113312371A (zh) 执行计划的处理方法、设备及***
CN111258859B (zh) 一种服务器告警策略、方法及***
CN115328733A (zh) 应用于业务***的告警方法、装置、电子设备及存储介质
US11394730B2 (en) Activity detection based on time difference metrics
CN113590427A (zh) 一种监控指标异常的告警方法、装置、存储介质和设备
CN117453480A (zh) 监控数据的预警方法、装置、设备及存储介质
WO2024139333A1 (zh) 存储集群运行状态的预测方法及装置
CN114637656B (zh) 基于Redis的监控方法、装置、存储介质和设备
CN116471174B (zh) 一种日志数据监测***、方法、装置和存储介质
CN115174358B (zh) 存储集群接口的监测处理方法、***、设备及存储介质
CN116302744A (zh) 一种信号冲突验证方法、装置、设备及存储介质
CN112445679B (zh) 一种信息检测方法、装置、服务器及存储介质
CN111626841A (zh) 对联机交易进行监控的方法、***及相关设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant