CN108599977A - 基于统计方法监控***可用性的***及方法 - Google Patents

基于统计方法监控***可用性的***及方法 Download PDF

Info

Publication number
CN108599977A
CN108599977A CN201810150782.5A CN201810150782A CN108599977A CN 108599977 A CN108599977 A CN 108599977A CN 201810150782 A CN201810150782 A CN 201810150782A CN 108599977 A CN108599977 A CN 108599977A
Authority
CN
China
Prior art keywords
abnormal
fnum
alarm
error number
error
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810150782.5A
Other languages
English (en)
Other versions
CN108599977B (zh
Inventor
梅存兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tu Niu Science And Technology Ltd
Original Assignee
Nanjing Tu Niu Science And Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tu Niu Science And Technology Ltd filed Critical Nanjing Tu Niu Science And Technology Ltd
Priority to CN201810150782.5A priority Critical patent/CN108599977B/zh
Publication of CN108599977A publication Critical patent/CN108599977A/zh
Application granted granted Critical
Publication of CN108599977B publication Critical patent/CN108599977B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/22Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks comprising specially adapted graphical user interfaces [GUI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Environmental & Geological Engineering (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提出了基于统计方法监控***可用性的***及方法,***包括:***间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;通过采集***间的调用日志,定期对历史数据进行分析学习,取得每个***的一般表现;对最近一个单位时间t内的数据进行分析,辨别每个***当前的错误数是否反常、***间调用的错误率是否异常、***各服务各实例的可用性是否异常;并在***拓扑图上以告警形式标记出异常的***、异常的***间调用关系。在展示告警信息时,本发明在***拓扑图上显示了***状态、***间调用的状态、***服务和实例的状态,以便在大面积***出现问题时快速定位出问题***。

Description

基于统计方法监控***可用性的***及方法
技术领域
本发明属于软件***监控技术领域,涉及一种基于统计方法监控***可用性的***及方法。
背景技术
互联网企业一般包含了大量的应用***,除了对外开放的网站、APP等,内部也会有很多应用***支撑企业的运营、管理。内部的应用***间一般存在较复杂的调用关系,一个***提供给另一个***调用的功能称之为服务。应用***的可用性监控业界一般采取以下手段:
方法一:使用zabbix等工具,监控***服务器的某一些指标,如:Web***进程数/线程数、CPU负载、可用内存、http异常状态码数量、请求响应时间等。当指标超过设定阈值时进行报警。
方法二:模拟客户端进行周期性调用,检测服务端***响应的内容、速度等指标是否符合设定阈值。当指标超过设定阈值时进行报警。
但现有的监控方式存在多种缺陷:
1.方法一及方法二中的阈值都需要人工设定,不同***的阈值千差万别、同一***不同时期阈值也截然不同,阈值的设定与维护都有很大的工作量。实际操作中,一般采用试错法,即误报后放宽阈值、漏报后收紧阈值,这样误报率、漏报率都很高。
2.方法一的监控只能部分反应可用性,而不能作为实际的可用性指标,检测出来的异常不代表***可用性降低、***不可用时也不都反应在这些监控指标上。
3.方法二的监控直接反应了可用性,但其作为抽检手段样本数量较少、覆盖面较窄,仅能监测读操作而较少用于写操作。
4.当***较多、较复杂时,上述两种监控方法的指标过多、告警数量多、告警噪音大,会影响问题的判断及定位。
5.在新***上线、新的服务上线、***及服务部署发生变更时,上述两种监控方法都需要人工维护监控项,不适用于具有故障自动切换、动态扩充服务能力的***。
6.在进行错误率监测告警时,阈值法常常造成误报,例如当错误率要求不超过1%时,如果只发生了一次操作并且失败了(错误率100%)就会告警,但多数情况下无需告警。
7.复杂***集群多个***同时出现故障时,难以快速定位出真正出现故障的***,只能胡子眉毛一把抓,浪费了宝贵的时间。
发明内容
为解决上述问题,本发明提出了基于统计方法监控***可用性的***及方法,通过采集***间的调用日志,定期对历史数据进行分析学习,取得每个***的一般表现;对最近一个单位时间t内的数据进行分析,辨别每个***当前的错误数是否反常、***间调用的错误率是否异常、***各服务各实例的可用性是否异常;并在***拓扑图上以告警形式标记出异常的***、异常的***间调用关系。
为了达到上述目的,本发明提供如下技术方案:
基于统计方法监控***可用性的***,包括:***间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;
***间服务调用日志模块用于采集记录***间所有调用的日志信息,调用时间、调用方 IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
报警阈值分析模块用于定期对历史数据进行学习,找出每一个***一般情境下的表现,获得了当前***的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤 i;
计算该***的错误数告警线alertNum=u+std*3;
告警分析模块用于定时采集最近一个t时间段内的日志,逐次分析每个***的错误数是否异常、每个***的每个服务错误率是否异常、实例错误率是否异常、任意两个***间的错误数情况,并遍历***列表后具体进行如下判断:
a)如果该***的累计错误数大于该***的告警阈值,则标记该***异常;
b)遍历该***的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该***的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从***拓扑图上反查clientInstance和serverInstance对应的***client和server,统计每一组client***调用server***的累计错误数;
告警展示模块用于基于***拓扑图,在告警数据分析完成后将其展示在***拓扑图上。
进一步的,报警阈值分析模块还用于设置告警阈值,在计算该***的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
进一步的,所述去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
进一步的,告警展示模块还用于:
1、当***异常时,在***图标上添加警告的标志:
2、当***的服务、实例异常时,点击***图标,弹层显示错误信息;
3、当***间调用错误数不为0时,绘制连线和指向性箭头。
进一步的,所述连线的宽度与错误数相关。
基于统计方法监控***可用性的方法,包括如下步骤:
步骤一,采集记录***间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
步骤二,定期对历史数据进行学习,找出每一个***一般情境下的表现,获得了当前***的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤 i;
计算该***的错误数告警线alertNum=u+std*3;
步骤三,定时采集最近一个t时间段内的日志,逐次分析每个***的错误数是否异常、每个***的每个服务错误率是否异常、实例错误率是否异常、任意两个***间的错误数情况,并遍历***列表后具体进行如下判断:
a)如果该***的累计错误数大于该***的告警阈值,则标记该***异常;
b)遍历该***的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该***的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从***拓扑图上反查clientInstance和serverInstance对应的***client和server,统计每一组client***调用server***的累计错误数;
步骤四,基于***拓扑图,在告警数据分析完成后将其展示在***拓扑图上。
进一步的,步骤一还包括:
设置告警阈值,在计算该***的错误数告警线之后,如果alertNum<告警阈值则alertNum 设置为告警阈值。
进一步的,步骤二去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
进一步的,步骤四还包括如下步骤:
1、当***异常时,在***图标上添加警告的标志:
2、当***的服务、实例异常时,点击***图标,弹层显示错误信息;
3、当***间调用错误数不为0时,绘制连线和指向性箭头。
进一步的,所述连线的宽度与错误数相关。
与现有技术相比,本发明具有如下优点和有益效果:
1.本发明能够通过分析实例间服务调用日志来监控***、***的服务、***的实例是否异常,并结合***拓扑图展示告警信息;在展示告警信息时,本发明在***拓扑图上显示了***状态、***间调用的状态、***服务和实例的状态,以便在大面积***出现问题时快速定位出问题***。
2.本发明通过分析过去一段时间***的正常表现,获得了告警阈值;在告警分析时,错误数超过该阈值就告警;对于数量型告警,提供了告警阈值的自动设置方法,减少了人工,提高了告警的准确率,大大降低了误报和漏报这两种情况。新***上线运行一段时间后,本发明可以自动为其设置告警阈值。
3.能够检验分析***的服务、实例是否异常,对于比例型告警,提高了告警的准确率,减少了误报和漏报。
4.监控方法取样的是实际数据,比定期采样覆盖更全面。
附图说明
图1为正态分布示意图。
图2为日志格式示例图。
图3为报警阈值分析流程图。
图4为调用Logstash接口得到的***内样本错误数示意图。
图5为实例间调用数据图。
图6为添加警告标志的***拓扑图。
图7为弹层显示错误信息的***拓扑图。
具体实施方式
以下将结合具体实施例对本发明提供的技术方案进行详细说明,应理解下述具体实施方式仅用于说明本发明而不用于限制本发明的范围。另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
我们认为,一个***单位时间t内的错误数受到许多独立随机因素的因素的影响,一般情况下每个因素的影响都很小,故我们可以将其作为一个服从正态分布的随机变量来研究。正态分布的密度函数为:
通过采集该***过去一段时间一般情况下的表现数据,我们可以计算出单位时间t内错误数的平均值u和标准差std。将最近一个单位时间t内的错误数记为failNum,如图1所示,我们很容易可以计算出概率P(failNum>=u+3*std)远小于0.01,即其是一个极端的小概率事件。所以我们去观测该***最近一个单位时间t内出现的错误数,其值超出均值加上三个标准差的情况一定是极端情况,需要人工关注,应当发出告警信息。
我们在通过观察***的错误数研究***和服务的错误率时,很容易就发现:即便错误率 p0最高可接受的值为0.01,实际观察100次调用时,超过1次调用失败也不能说明***有问题,因为这是发生概率较大的事件。
当调用次数比较少时(这里我们取少于40次),我们来计算当***本质上的错误率p不高于p0,但n次调用中观察到的错误数failNum大于failLevel的条件概率p1:
我们将发生概率低于0.05的事件称作小概率事件。在少量的有限次试验中,小概率事件不应该发生,即当小概率事件发生时,我们不能认为p不高于p0,而应当认为p高于p0,此时***错误率过高、应当发出告警。通过数值运算,我们找到了所有使得p<0.05的failLevel 的临界点:当n<=5时,failLvel的临界点是0,当5<n<=35时,failLevel的临界点是1,当35<n<40时,failLevel的临界点是2。即:观察n次调用,如果错误数高于对应的failLevel,就认为发生了一个小概率事件,需要关注;如果不高于则认为***正常。为便于处理,我们将n<40时的failLevel统一设定为1,实践中其误差在可接受范围内。
当调用次数比较多时(这里我们认为不少于40次),我们观察到的错误率为p1,***本质上的错误率为p,正常情况下不高于p0。根据中心极限定理,我们知道p1近似服从均值为p、方差为p(1-p)/n的正态分布,亦即统计量服从标准正态分布。当p<=p0时,近似服从标准正态分布;由标准正态分布分位数表可知,当时,其概率低于0.05,是小概率事件,应当关注、发出告警。为方便应用,我们将变形为:其中n*p1就是实际观察到的错误数。
相应的异常判断方法包括如下步骤:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<1,返回正常;否则下一步;
c)如果num>=40则下一步,否则当fNum=1时返回正常,否则返回异常;
d)如果fNum/num<0.01,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+0.5,否则k=fNum-0.5(因为是近似正态分布,通过修正可以使统计量更加逼近正态分布);
f)计算
如果z>1.645则返回异常,否则返回正常。
异常判断方法中的各数据均可以根据需要调整。
本发明提供的基于统计方法监控***可用性的***,包括:***间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块。从***拓扑图中可以直接获取各个***的服务列表和实例列表。本司提交的申请号为2017109039551,名称为***部署与依赖关系自动绘制***及方法的发明专利中较为详细地阐述了服务列表、实例列表及有关服务和实例的日志。
***间服务调用日志模块采集和记录了***间所有调用的日志信息。具体来说:我们将***(Application)在服务器上的一个具体部署称之为实例(Instance),实例由所在服务器的 IP和实例占用的端口号唯一标识。一个实例调用另一个实例的某一服务后,调用方会记录下调用日志(如图所示),日志中包含:调用时间(startTime)、调用方IP(consumerIp)和端口号(consumerPort)、被调用方IP(serviceIp)和端口号(servicePort)、调用的服务标识(serviceName)、成功与否(success)。***间服务调用日志模块使用Logstash这一开源工具存储了这些日志,在调用行为结束后2秒内就能将数据保存下来。存储日志如图2所示。
报警阈值分析模块定期对历史数据进行学习,找出每一个***一般情境下的表现,具体实现过程如图3所示,包括以下步骤:
1、遍历***列表:
a)取得当前***的所有服务列表;
b)调用Logstash接口,取最近n*t的时间范围内的该***所有服务的累计错误数,并以t为单位分为n份,即我们获得了当前***的n份样本,每一个样本都描述了单位时间t内错误数,如图4所示;
c)去除样本集中的异常点:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2,本步骤是将历史上的异常情况找出并剔除,避免其影响到对***一般表现的评估;
iii.如果n1=0或者(n-n2)>30或者(n-n2)>n/3,则完成异常点的去除,继续执行步骤d);否则,执行步骤i;
d)计算新样本集的均值u和标准差std;
计算该***的错误数告警线alertNum=u+std*3;如果alertNum<100则alertNum设置为 100。
告警分析模块定时采集(例如每分钟采集一次,采集间隔可根据需要调整)最近一个t时间段内的日志,逐次分析每个***的错误数是否异常、每个***的每个服务错误率是否异常、实例错误率是否异常、任意两个***间的错误数情况,具体方法如下:
1、从Logstash中抽取最近t时间的日志,即穷举出所有存在的a实例调用b实例c服务成功数、失败数这样的关系,如图5所示,将其记作data:
2、整理data,将字段consumerIp和字段consumerPort合并成字段clientInstance,将字段 serviceIp和字段servicePort合并成字段serverInstance;
3、整理数据,计算每一个serverInstance和每一个serviceName的累计正确数、累计错误数;
4、遍历***列表:
a)统计每一个***的累计错误数,即该***下所有服务的错误数之和;
b)如果该***的累计错误数大于该***的告警阈值alertNum,则标记该***异常;
c)遍历该***的每一个服务(serviceName),应用前述异常判断方法,代入serviceName的累计正确数、累计错误数,以判定其是否异常;
d)遍历该***的每一个实例(serverInstance),应用前述异常判断方法,代入serverInstance的累计正确数、累计错误数,以判定其是否异常;
5、整理数据,计算每一组clientInstance调用serverInstance的错误数;
从***拓扑图上反查clientInstance和serverInstance对应的***client和server,统计每一组client***调用server***的累计错误数。
告警展示模块基于***拓扑图,在告警数据分析完成后将其展示在***拓扑图上。
1、当***异常时,在***图标上添加警告的标志,如图6所示;
2、当***的服务、实例异常时,点击***图标,弹层显示错误信息,如图7所示;
3、当***间调用错误数不为0时,绘制连线和指向性箭头,线的宽度为错误数的对数。也可采用其他代入错误数的常规公式来计算线的宽度,只要令线的宽度或者颜色与错误数相关即可满足本发明要求。
当***出现故障时,我们可以很容易的从图上看出:哪些***出现了问题、影响到了哪些***、***的哪些实例和服务出现了问题。
本发明还提供了基于统计方法监控***可用性的方法,包括***间服务调用日志步骤;报警阈值分析步骤;告警分析步骤;监控告警展示步骤;***间服务调用日志步骤执行***间服务调用日志模块实现的内容,报警阈值分析步骤执行报警阈值分析模块实现的内容,告警分析步骤执行告警分析模块实现的内容,监控告警展示步骤执行监控告警展示模块实现的内容。
本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.基于统计方法监控***可用性的***,其特征在于,包括:***间服务调用日志模块、报警阈值分析模块、告警分析模块、监控告警展示模块;
***间服务调用日志模块用于采集记录***间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
报警阈值分析模块用于定期对历史数据进行学习,找出每一个***一般情境下的表现,获得了当前***的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤i;
计算该***的错误数告警线alertNum=u+std*3;
告警分析模块用于定时采集最近一个t时间段内的日志,逐次分析每个***的错误数是否异常、每个***的每个服务错误率是否异常、实例错误率是否异常、任意两个***间的错误数情况,并遍历***列表后具体进行如下判断:
a)如果该***的累计错误数大于该***的告警阈值,则标记该***异常;
b)遍历该***的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该***的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从***拓扑图上反查clientInstance和serverInstance对应的***client和server,统计每一组client***调用server***的累计错误数;
告警展示模块用于基于***拓扑图,在告警数据分析完成后将其展示在***拓扑图上。
2.根据权利要求1所述的基于统计方法监控***可用性的***,其特征在于:报警阈值分析模块还用于设置告警阈值,在计算该***的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
3.根据权利要求1所述的基于统计方法监控***可用性的***,其特征在于:所述去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
4.根据权利要求1所述的基于统计方法监控***可用性的***,其特征在于:告警展示模块还用于:
1、当***异常时,在***图标上添加警告的标志:
2、当***的服务、实例异常时,点击***图标,弹层显示错误信息;
3、当***间调用错误数不为0时,绘制连线和指向性箭头。
5.根据权利要求4所述的基于统计方法监控***可用性的***,其特征在于:所述连线的宽度与错误数相关。
6.基于统计方法监控***可用性的方法,其特征在于,包括如下步骤:
步骤一,采集记录***间所有调用的日志信息,调用时间、调用方IP和端口号、被调用方IP和端口号、调用的服务标识、成功与否;
步骤二,定期对历史数据进行学习,找出每一个***一般情境下的表现,获得了当前***的n份样本,每一个样本描述了单位时间t内错误数,并去除样本集中的异常点,去除异常点的过程包括:
i.计算当前样本集的均值和标准差
ii.找到样本集中所有大于u+3*std的样本点、计算其个数n1,并将这些数据从样本集中去除,计算取出上述样本点后的新样本集的个数n2;
iii.如果满足条件,则完成异常点的去除,继续执行以下步骤;否则,执行步骤i;
计算该***的错误数告警线alertNum=u+std*3;
步骤三,定时采集最近一个t时间段内的日志,逐次分析每个***的错误数是否异常、每个***的每个服务错误率是否异常、实例错误率是否异常、任意两个***间的错误数情况,并遍历***列表后具体进行如下判断:
a)如果该***的累计错误数大于该***的告警阈值,则标记该***异常;
b)遍历该***的每一个服务,应用异常判断方法,判定其错误率是否异常;
c)遍历该***的每一个实例,应用异常判断方法,以判定其错误率是否异常;
所述异常判断方法包括:
a)将正确的次数记为tNum,错误的次数记为fNum,总调用次数num=tNum+fNum;
b)如果fNum<第一阈值,返回正常;否则下一步;
c)如果num>=第二阈值则下一步,否则当fNum=第一阈值时返回正常,否则返回异常;
d)如果fNum/num<第三阈值,返回正常;否则下一步;
e)当fNum<tNum时,k=fNum+第四阈值,否则k=fNum-第五阈值;
f)计算
如果z>第六阈值则返回异常,否则返回正常;
判断完成后整理数据,计算每一组clientInstance调用serverInstance的错误数;
从***拓扑图上反查clientInstance和serverInstance对应的***client和server,统计每一组client***调用server***的累计错误数;
步骤四,基于***拓扑图,在告警数据分析完成后将其展示在***拓扑图上。
7.根据权利要求6所述的基于统计方法监控***可用性的方法,其特征在于,步骤一还包括:
设置告警阈值,在计算该***的错误数告警线之后,如果alertNum<告警阈值则alertNum设置为告警阈值。
8.根据权利要求6所述的基于统计方法监控***可用性的方法,其特征在于,步骤二去除异常点过程中条件如下:
n1=0或者(n-n2)>30或者(n-n2)>n/3。
9.根据权利要求6所述的基于统计方法监控***可用性的方法,其特征在于,步骤四还包括如下步骤:
1、当***异常时,在***图标上添加警告的标志:
2、当***的服务、实例异常时,点击***图标,弹层显示错误信息;
3、当***间调用错误数不为0时,绘制连线和指向性箭头。
10.根据权利要求9所述的基于统计方法监控***可用性的方法,其特征在于:所述连线的宽度与错误数相关。
CN201810150782.5A 2018-02-13 2018-02-13 基于统计方法监控***可用性的***及方法 Active CN108599977B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810150782.5A CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控***可用性的***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810150782.5A CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控***可用性的***及方法

Publications (2)

Publication Number Publication Date
CN108599977A true CN108599977A (zh) 2018-09-28
CN108599977B CN108599977B (zh) 2021-09-28

Family

ID=63608860

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810150782.5A Active CN108599977B (zh) 2018-02-13 2018-02-13 基于统计方法监控***可用性的***及方法

Country Status (1)

Country Link
CN (1) CN108599977B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617740A (zh) * 2018-12-28 2019-04-12 广东亿迅科技有限公司 一种应用故障快速定位的方法及装置
CN110086682A (zh) * 2019-05-22 2019-08-02 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控***的异常检测方法和装置
CN113962273A (zh) * 2021-09-22 2022-01-21 北京必示科技有限公司 一种基于多指标的时间序列异常检测方法、***及存储介质
CN114002233A (zh) * 2021-04-09 2022-02-01 住华科技股份有限公司 监控自动光学检测装置的方法及***
CN114500326A (zh) * 2022-02-25 2022-05-13 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN115037636A (zh) * 2022-06-06 2022-09-09 阿里云计算有限公司 服务质量的感知方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
CN102932466A (zh) * 2012-11-07 2013-02-13 网宿科技股份有限公司 基于内容分发网络的分布式源监控方法和***
CN103514259A (zh) * 2013-08-13 2014-01-15 江苏华大天益电力科技有限公司 一种基于数值关联性模型的异常数据探测及修正方法
US20140115400A1 (en) * 2012-10-23 2014-04-24 Electronics And Telecommunications Research Institute Device and method for fault management of smart device
CN106407082A (zh) * 2016-09-30 2017-02-15 国家电网公司 一种信息***告警方法和装置
CN107612756A (zh) * 2017-10-31 2018-01-19 广西宜州市联森网络科技有限公司 一种具有智能故障分析处理功能的运维管理***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102299897A (zh) * 2010-06-23 2011-12-28 电子科技大学 基于特征关联的对等网络特征分析方法
US20140115400A1 (en) * 2012-10-23 2014-04-24 Electronics And Telecommunications Research Institute Device and method for fault management of smart device
CN102932466A (zh) * 2012-11-07 2013-02-13 网宿科技股份有限公司 基于内容分发网络的分布式源监控方法和***
CN103514259A (zh) * 2013-08-13 2014-01-15 江苏华大天益电力科技有限公司 一种基于数值关联性模型的异常数据探测及修正方法
CN106407082A (zh) * 2016-09-30 2017-02-15 国家电网公司 一种信息***告警方法和装置
CN107612756A (zh) * 2017-10-31 2018-01-19 广西宜州市联森网络科技有限公司 一种具有智能故障分析处理功能的运维管理***

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109617740A (zh) * 2018-12-28 2019-04-12 广东亿迅科技有限公司 一种应用故障快速定位的方法及装置
CN110086682A (zh) * 2019-05-22 2019-08-02 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN110086682B (zh) * 2019-05-22 2022-06-24 四川新网银行股份有限公司 基于tcp的服务链路调用关系视图和故障根因定位方法
CN111510351A (zh) * 2020-04-10 2020-08-07 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控***的异常检测方法和装置
CN111510351B (zh) * 2020-04-10 2021-09-14 星辰天合(北京)数据科技有限公司 基于普罗米修斯监控***的异常检测方法和装置
CN114002233A (zh) * 2021-04-09 2022-02-01 住华科技股份有限公司 监控自动光学检测装置的方法及***
CN113962273A (zh) * 2021-09-22 2022-01-21 北京必示科技有限公司 一种基于多指标的时间序列异常检测方法、***及存储介质
CN114500326A (zh) * 2022-02-25 2022-05-13 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN114500326B (zh) * 2022-02-25 2023-08-11 北京百度网讯科技有限公司 异常检测方法、装置、电子设备以及存储介质
CN115037636A (zh) * 2022-06-06 2022-09-09 阿里云计算有限公司 服务质量的感知方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN108599977B (zh) 2021-09-28

Similar Documents

Publication Publication Date Title
CN108599977A (zh) 基于统计方法监控***可用性的***及方法
CN101470426B (zh) 一种故障检测的方法和***
US11657309B2 (en) Behavior analysis and visualization for a computer infrastructure
CN109412870B (zh) 告警监控方法及平台、服务器、存储介质
JP5077835B2 (ja) プラント解析システム
JP2015028700A (ja) 障害検知装置、障害検知方法、障害検知プログラム及び記録媒体
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
US20120116827A1 (en) Plant analyzing system
CN106940678B (zh) 一种***实时健康度评估分析方法及装置
EP3500896B1 (en) Method of monitoring and controlling an industrial process, and a process control system
CN114550336B (zh) 设备巡检方法、装置、计算机设备和存储介质
EP3187950A1 (en) A method for managing alarms in a control system
CN117240594B (zh) 一种多维度网络安全运维防护管理***及方法
CN110687851A (zh) 一种终端运行监控***及方法
CN111736579B (zh) 基于日志问询留存的工业控制设备安全检测方法
CN111159051B (zh) 死锁检测方法、装置、电子设备及可读存储介质
Zheng et al. Anomaly localization in large-scale clusters
CN111314110A (zh) 一种用于分布式***的故障预警方法
EP1296247A1 (en) Method and apparatus for monitoring the activity of a system
CN114531338A (zh) 一种基于调用链数据的监控告警和溯源方法及***
CN113868094A (zh) 一种大数据异常信息监控***
US11131985B2 (en) Noise generation cause estimation device
CN117493129B (zh) 一种计算机控制设备的运行功率监测***
CN113037550B (zh) 一种服务故障监控方法、***及计算机可读存储介质
CN113992496B (zh) 基于四分位算法的异动告警方法、装置及计算设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant