CN113342623A - 基于动态阈值方法的可视化预警***及方法 - Google Patents

基于动态阈值方法的可视化预警***及方法 Download PDF

Info

Publication number
CN113342623A
CN113342623A CN202110591489.4A CN202110591489A CN113342623A CN 113342623 A CN113342623 A CN 113342623A CN 202110591489 A CN202110591489 A CN 202110591489A CN 113342623 A CN113342623 A CN 113342623A
Authority
CN
China
Prior art keywords
service
alarm
threshold
template
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110591489.4A
Other languages
English (en)
Other versions
CN113342623B (zh
Inventor
王智明
刘宇
胡建金
李建明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Funo Mobile Communication Technology Co ltd
Original Assignee
Fujian Funo Mobile Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujian Funo Mobile Communication Technology Co ltd filed Critical Fujian Funo Mobile Communication Technology Co ltd
Priority to CN202110591489.4A priority Critical patent/CN113342623B/zh
Publication of CN113342623A publication Critical patent/CN113342623A/zh
Application granted granted Critical
Publication of CN113342623B publication Critical patent/CN113342623B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/505Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出一种基于动态阈值方法的可视化预警***及方法,旨在解决现有告警技术没有动态阈值监测、告警可视化展现的问题;包括:python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。可选的,告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常的至少一种。

Description

基于动态阈值方法的可视化预警***及方法
技术领域
本发明涉及告警监控技术领域,尤其涉及一种基于动态阈值方法的可视化预警***及方法。
背景技术
传统的监控告警是通过zabbix、nagios、sql语句、shell脚本等监控工具或手段监测各个组件不同维度的指标信息,并对相应指标设定阈值,配置短信或邮件告警等形式通知运维人员进行处理。告警配置过程中包括指标设定、监测周期设定、监测阈值设定、告警内容设定、告警接收人等,在此过程中每个步骤均依赖运维工程师的经验进行建设。
传统的监控告警手段基于的是单维度的指标监控告警,各个告警结果各自为政,当***出现异常时极易产生海量的告警信息,这些告警信息中可能存在大量的冗余告警甚至形成告警风暴,对运维人员产生极大干扰,降低了运维工作的效率。
在错综复杂的IT***架构中,一旦IT***发生故障,那么就需要非常多的运维工程师们,通过大量的时间对故障进行多重排查,每一个细小问题都有可能带来连锁性的故障,往往解决一个问题需要好几个小时的时间。对于目前日益增速的业务环境,这些是不可容忍的。
发明内容
为了解决现有技术存在的缺陷和不足的问题,本发明提出一种基于动态阈值方法的可视化预警***及方法。其目的在于提供一种服务异常告警方法,旨在解决现有告警技术没有动态阈值监测、告警可视化展现的问题;包括: python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。可选的,告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常的至少一种。
为提升运维效率,汇聚有效告警,本发明提出对告警进行直接的溯源、降噪,SRE运维的告警监控工具, 采用的方案为运用 python 开发语言对 druid、ES等数据源 的接口进行实时调用构建指标数据,并按照业务梳理服务与***的关系模型等特定场景对数据进行分析,以判断***的运行情况,当满足制定的告警规则时,则调用预先配置的大屏监测模型生成的图像,并截图后以附件的形式发送邮件给告警接收人。
邮件截图发送相较于传统的短信通知,能够直观的看到故障发生的趋势,同时可以看到跟该告警相关联的设备性能、应用程序调用量、性能耗时等情况,多维度的查看***运行情况,方便快速进行初步故障诊断,第一时间对运维人员展示出故障的根本原因及定位,减少运维人员的故障处理时间,提高运维工作效率。
本发明具体包括以下内容:
一种基于动态阈值方法的可视化预警***,其特征在于,包括:数据存储模块、负载均衡模块、数据动态阈值模块和可视化模块;
所述数据存储模块用于从多台服务器上收集日志进行实时存储;
所述负载均衡模块用于获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;
所述数据动态阈值模块用于从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;
所述可视化模块用于告警信息的可视化展示。
进一步地,如果某一python服务器状态异常,则所述负载均衡模块将其从python服务器池中剔除。
进一步地,所述数据动态阈值模块中,
触发服务性能异常的条件如下:
Max(WD-SD)>service_duration=[3,n]
触发服务调用量异常的条件如下:
Max(WC-SC)>service_count=[3,n]
触发服务成功率异常的条件如下:
Max(WS-SS)>service_success=[3,n]
触发服务失败量异常的条件如下:
Max(WE-SE)>service_error=[3,n]
其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
进一步地,所述可视化模块的可视化展示内容至少包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
进一步地,所述数据动态阈值模块采用python脚本获取正常服务性能作为阈值模板,并采用动态基线告警方式,分析监控指标的历史时刻值、区间趋势值。
进一步地,所述数据动态阈值模块将实时服务告警值与动态基线阈值模板进行比较,当结果满足预设的告警模板中的告警阈值时,则自动触发可视化模块采用邮件告警的方式可视化展示告警结果。
以及,一种基于动态阈值方法的可视化预警方法,其特征在于,包括以下步骤:
步骤S1:数据存储模块从多台服务器上收集日志进行实时存储;
步骤S2:负载均衡模块获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;
步骤S3:数据阈值模块从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;
步骤4:数据阈值模块根据当比较结果满足预设多告警模板中的告警阈值,调用可视化模块集成接口进行可视化展示,包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
进一步地,在步骤S3中:
触发服务性能异常的条件如下:
Max(WD-SD)>service_duration=[3,n]
触发服务调用量异常的条件如下:
Max(WC-SC)>service_count=[3,n]
触发服务成功率异常的条件如下:
Max(WS-SS)>service_success=[3,n]
触发服务失败量异常的条件如下:
Max(WE-SE)>service_error=[3,n]
其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
以及,一种基于动态阈值方法的可视化预警方法,其特征在于:通过python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。
进一步地,所述告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常之中的一种或多种。
本发明及其优选方案相比于现有技术更加灵活地解决了解决了传统告警呈现单一的缺点,服务异常监控通过可视化展现判断是真告警还是瞬时告警,这样避免了因为盲目登陆服务器造成的人力物力浪费。可视化展现能够通过图像直观的了解服务当前性能、调用量、成功率等实时趋势并能够立刻判断告警是否属实,方便了运维人员的管理,减少了不必要的麻烦,节省了人力物力,具有很大的实用价值。
附图说明
下面结合附图和具体实施方式对本发明进一步详细的说明:
图1为本发明实施例***框架及工作流程示意图;
图2为本发明实施例告警邮件示例图。
具体实施方式
为让本专利的特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下:
如图1所示,本实施例提供一种新的服务异常告警***及方法,包括:数据存储模块(es,druid,mysql),负载均衡模块(nginx)、数据动态阈值模块(python)、可视化模块(kibana、grafana),
其具体工作过程包括以下步骤:
步骤1:数据存储模块(es,druid)从上千台服务器上收集日志进行实时存储。
步骤2:负载均衡模块(nginx)获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器,如果python服务器down掉,能自动剔除。
步骤3:数据阈值模块(python3.6,awx)从负载均衡模块(nginx)上拉取实时数据,可选的,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警,具体包括:触发服务性能异常的条件如下:
Max(WD-SD)>service_duration=[3,n]
触发服务调用量异常的条件如下:
Max(WC-SC)>service_count=[3,n]
触发服务成功率异常的条件如下:
Max(WS-SS)>service_success=[3,n]
触发服务失败量异常的条件如下:
Max(WE-SE)>service_error=[3,n]
其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数(次)。
步骤4:数据阈值模块(python,awx)根据当比较结果满足预设多告警模板中的告警阈值,调用可视化模块(kibana、grafana)集成接口进行可视化展示,包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势可视化Dashboard,帮助运维人员更好判断告警影响面,并能提高服务异常告警效率和准确率,其示例如图2所示。
本实施例以上方案的关键点包括:
1、采用python脚本结构:获取正常服务性能作为阈值模板;
2、动态基线告警:采用动态基线告警方式,分析监控指标的历史时刻值、区间趋势值,弥补了以往人为设置固定阈值的缺陷,提供运维人员作出准确判断。
3、邮件告警可视化展现:将实时服务告警值与动态基线阈值模板进行比较,当结果满足预设的告警模板中的告警阈值;自动触发邮件告警可视化展示告警结果。
本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于动态阈值方法的可视化预警***及方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

Claims (10)

1.一种基于动态阈值方法的可视化预警***,其特征在于,包括:数据存储模块、负载均衡模块、数据动态阈值模块和可视化模块;
所述数据存储模块用于从多台服务器上收集日志进行实时存储;
所述负载均衡模块用于获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;
所述数据动态阈值模块用于从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;
所述可视化模块用于告警信息的可视化展示。
2.根据权利要求1所述基于动态阈值方法的可视化预警***,其特征在于:如果某一python服务器状态异常,则所述负载均衡模块将其从python服务器池中剔除。
3.根据权利要求1所述基于动态阈值方法的可视化预警***,其特征在于:所述数据动态阈值模块中,
触发服务性能异常的条件如下:
Max(WD-SD)>service_duration=[3,n]
触发服务调用量异常的条件如下:
Max(WC-SC)>service_count=[3,n]
触发服务成功率异常的条件如下:
Max(WS-SS)>service_success=[3,n]
触发服务失败量异常的条件如下:
Max(WE-SE)>service_error=[3,n]
其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
4.根据权利要求1所述基于动态阈值方法的可视化预警***,其特征在于:所述可视化模块的可视化展示内容至少包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
5.根据权利要求1所述基于动态阈值方法的可视化预警***,其特征在于:所述数据动态阈值模块采用python脚本获取正常服务性能作为阈值模板,并采用动态基线告警方式,分析监控指标的历史时刻值、区间趋势值。
6.根据权利要求5所述基于动态阈值方法的可视化预警***,其特征在于:所述数据动态阈值模块将实时服务告警值与动态基线阈值模板进行比较,当结果满足预设的告警模板中的告警阈值时,则自动触发可视化模块采用邮件告警的方式可视化展示告警结果。
7.一种基于动态阈值方法的可视化预警方法,其特征在于,包括以下步骤:
步骤S1:数据存储模块从多台服务器上收集日志进行实时存储;
步骤S2:负载均衡模块获取数据存储模块中的日志数据,采用轮询方式对每个请求按时间顺序逐一分配到不同的python服务器;
步骤S3:数据阈值模块从负载均衡模块上拉取实时数据,当比较结果满足预设多告警模板中的告警阈值,则触发相应类别的告警;
步骤4:数据阈值模块根据当比较结果满足预设多告警模板中的告警阈值,调用可视化模块集成接口进行可视化展示,包括:服务异常当前异常值、历史同时段异常值,当前近一个小时数据趋势。
8.根据权利要求5所述基于动态阈值方法的可视化预警***,其特征在于:在步骤S3中:
触发服务性能异常的条件如下:
Max(WD-SD)>service_duration=[3,n]
触发服务调用量异常的条件如下:
Max(WC-SC)>service_count=[3,n]
触发服务成功率异常的条件如下:
Max(WS-SS)>service_success=[3,n]
触发服务失败量异常的条件如下:
Max(WE-SE)>service_error=[3,n]
其中,WD为当前实时服务每分钟性能值,SD为历史同时段服务每分钟性能值,service_duration为服务性能预设阈值模板,WC为当前实时服务每分钟调用量值,SC为历史同时段服务每分钟调用量值,service_count为服务调用量预设阈值模板,WS为当前实时服务每分钟成功率值,SS为历史同时段服务每分钟成功率值,service_success为服务成功率预设阈值模板,WE为当前实时服务每分钟失败量值,SE为历史同时段服务每分钟失败量值,service_error为服务失败量预设阈值模板,n为被监测服务性能总数。
9.一种基于动态阈值方法的可视化预警方法,其特征在于:通过python脚本获取正常服务性能作为动态更新的阈值模板,将实时服务告警值与阈值模板进行比较,当结果满足预设的告警模板中的告警阈值,则自动触发邮件告警可视化展示告警结果。
10.根据权利要求9所述基于动态阈值方法的可视化预警***,其特征在于:所述告警的类别包括:服务调用量异常、服务性能异常、服务成功率异常、服务失败量异常之中的一种或多种。
CN202110591489.4A 2021-05-28 2021-05-28 基于动态阈值方法的可视化预警***及方法 Active CN113342623B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110591489.4A CN113342623B (zh) 2021-05-28 2021-05-28 基于动态阈值方法的可视化预警***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110591489.4A CN113342623B (zh) 2021-05-28 2021-05-28 基于动态阈值方法的可视化预警***及方法

Publications (2)

Publication Number Publication Date
CN113342623A true CN113342623A (zh) 2021-09-03
CN113342623B CN113342623B (zh) 2022-05-17

Family

ID=77472125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110591489.4A Active CN113342623B (zh) 2021-05-28 2021-05-28 基于动态阈值方法的可视化预警***及方法

Country Status (1)

Country Link
CN (1) CN113342623B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132953A1 (en) * 2014-11-10 2016-05-12 0934781 B.C. Ltd Recommendation Engine
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及***
CN111679958A (zh) * 2020-06-11 2020-09-18 上海安畅网络科技股份有限公司 一种服务器监控***
CN112052145A (zh) * 2020-09-09 2020-12-08 中国工商银行股份有限公司 性能告警阈值的确定方法、装置、电子设备和介质
CN112116123A (zh) * 2019-08-05 2020-12-22 云智慧(北京)科技有限公司 一种基于动态基线的智能告警方法和***
CN112260858A (zh) * 2020-09-30 2021-01-22 福建天泉教育科技有限公司 一种可自动化检测的告警方法及终端
CN112486789A (zh) * 2020-11-30 2021-03-12 建信金融科技有限责任公司 一种日志分析***、方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132953A1 (en) * 2014-11-10 2016-05-12 0934781 B.C. Ltd Recommendation Engine
CN108491310A (zh) * 2018-03-26 2018-09-04 北京九章云极科技有限公司 一种日志监测方法及***
CN112116123A (zh) * 2019-08-05 2020-12-22 云智慧(北京)科技有限公司 一种基于动态基线的智能告警方法和***
CN111679958A (zh) * 2020-06-11 2020-09-18 上海安畅网络科技股份有限公司 一种服务器监控***
CN112052145A (zh) * 2020-09-09 2020-12-08 中国工商银行股份有限公司 性能告警阈值的确定方法、装置、电子设备和介质
CN112260858A (zh) * 2020-09-30 2021-01-22 福建天泉教育科技有限公司 一种可自动化检测的告警方法及终端
CN112486789A (zh) * 2020-11-30 2021-03-12 建信金融科技有限责任公司 一种日志分析***、方法及装置

Also Published As

Publication number Publication date
CN113342623B (zh) 2022-05-17

Similar Documents

Publication Publication Date Title
US20220232080A1 (en) Systems and Methods for Operation Management and Monitoring of Bots
CN110505102B (zh) 电力信息通信融合监控与服务标准化管理平台***及方法
CN106649040A (zh) 一种Weblogic中间件性能自动监控方法及装置
CN108599977B (zh) 基于统计方法监控***可用性的***及方法
CN108737170A (zh) 一种批量日志异常数据告警方法及装置
CN116880412A (zh) 一种基于云的可视化生产管理平台
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
CN112508486A (zh) 一种电力***企业二次备品备件库存管理***
CN114996085A (zh) 一种基于Prometheus的实时业务监控方法和***
CN113312200A (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN111807181A (zh) 一种Web电梯监控平台
CN113342623B (zh) 基于动态阈值方法的可视化预警***及方法
CN117992304A (zh) 一种一体化智能运维平台
CN116010190A (zh) 一种esb服务监控管理***及方法
CN117473436A (zh) 一种针对即时数据流的预处理与告警方法及***
CN117220917A (zh) 一种基于云计算的网络实时监控方法
CN117129796A (zh) 基于大数据的电力电网故障识别***
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及***
CN115760053A (zh) 作业机械运行保障方法、***、作业机械及电子设备
CN113900902A (zh) 日志处理方法、装置、电子设备及存储介质
CN113676356A (zh) 报警信息处理方法、装置、电子设备及可读存储介质
CN112506920A (zh) 一种多金融***的信息统一收集监控方法及***
CN113037550B (zh) 一种服务故障监控方法、***及计算机可读存储介质
CN115529230A (zh) 一种负载均衡***中设备信息的收集方法
CN117271265A (zh) 一种it监控装置及监控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant