CN101201786A - 一种故障日志监控方法及装置 - Google Patents

一种故障日志监控方法及装置 Download PDF

Info

Publication number
CN101201786A
CN101201786A CNA2006101651541A CN200610165154A CN101201786A CN 101201786 A CN101201786 A CN 101201786A CN A2006101651541 A CNA2006101651541 A CN A2006101651541A CN 200610165154 A CN200610165154 A CN 200610165154A CN 101201786 A CN101201786 A CN 101201786A
Authority
CN
China
Prior art keywords
failure message
parameter
fault
fault log
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101651541A
Other languages
English (en)
Other versions
CN101201786B (zh
Inventor
田丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN200610165154A priority Critical patent/CN101201786B/zh
Publication of CN101201786A publication Critical patent/CN101201786A/zh
Application granted granted Critical
Publication of CN101201786B publication Critical patent/CN101201786B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种故障日志监控方法,用于一管理主机对一被控机器的监控,包括:配置步骤,对所述被控机器设置故障分析参数;调用步骤,调用生成所述被控机器的故障日志文件;过滤步骤,依照所述故障分析参数对所述故障日志文件中出现的故障信息进行过滤,并对所述过滤出的故障信息依照预设的规则设置告警级别;告警步骤,针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息。采用本发明的监控方法,能实现对故障日志信息自动准确的监控,避免许多运行事故的发生,减少很多重大损失。

Description

一种故障日志监控方法及装置
技术领域
本发明涉及信息设备的故障处理技术,特别是涉及一种故障日志的监控方法。
背景技术
计算机、服务器等信息设备已广泛应用于各行各业,由于信息设备自身软硬件的缺陷或用户的使用操作错误,不可避免地会产生设备故障或故障隐患,如果不能及时发现和排除,往往会造成重大事故损失。对于某些信息设备,利用日志工具记录信息设备运行中产生的大量信息,并通过分析日志信息中的故障信息来查找故障,是比较常用的故障监控方法。然而,信息设备运行所产生的日志信息往往是海量的,而且由于实际应用的多样性和复杂性,故障或疑似故障的类型也种类繁多,这使得一般人员无法从海量的日志信息中准确高效地发现故障。下面以广泛应用的IBM AIX机器,来说明现有日志监控方法的局限性:
随着IBM AIX机器(例如:IBM小型机,或其它运行AIX操作***的机器,例如:IBM OpenPower服务器)的推广应用,在许多场合下,这些机器处于非常重要的位置(例如:可能会运行着重要的数据库***),在实际运行中,IBMAIX机器会发生一些软硬件的故障,对于立即影响业务运行的故障,这可以从业务受影响来发现,但其它有的故障暂时不影响业务正常运行(有的硬件有冗余或备份,例如:两个做了镜象的硬盘中损坏了一个,或硬件故障级别还没有严重到一定程度),对于这些暂时不影响业务正常运行的故障,如果不能被及时地发现和处理,将有可能会导致***继续使用一段时间以后,发生更加严重的故障,甚至于发生***中断的重大事故。
对于上述暂时不影响业务正常运行的故障,虽然维护人员通过登录到IBMAIX机器的操作***上检查(例如:检查errpt日志信息),或者观察设备的告警指示灯,可能也能发现这些故障,但是,实际的情况是:维护人员可能很少登录上去进行检查(而且这对操作者的技术要求也比较高),而且,他们平时主要工作位置可能并不在这些机器的旁边,所以有可能对于机器面板上的告警灯也未能及时加以注意。
errpt监控日志信息是IBM AIX操作***中的一个功能,调用#errpt可以生成errpt监控日志信息,这些监控日志信息中可能会包含有一些软硬件的故障信息,但由于生成的监控日志信息往往比较多,其中有不同的信息种类和不同的严重级别,其中有些确实是故障,有些也有可能并不是故障(只是一些暂时的报错),所以由维护人员直接分析有一定的难度,而且,IBM AIX的errpt监控日志信息并不能自动让维护人员知道有重要的信息产生,即缺乏有效的故障日志监控方法实现故障自动告警。
基于以上分析,需要提供一种故障日志监控方法,能准确高效地发现故障。
发明内容
本发明所要解决的问题在于,提供一种故障日志监控方法,能自动定时进行故障检测,并且能按照故障信息的类别、严重级别、发生的频率,进行故障信息的过滤,从而自动和准确地发现设备中的故障,使得相关维护人员能够及时设法修复这些故障,避免可能会发生的事故。
本发明公开了一种故障日志监控方法,用于一管理主机对一被控机器的监控,包括:
配置步骤,对所述被控机器设置故障分析参数;
调用步骤,调用生成所述被控机器的故障日志文件;
过滤步骤,依照所述故障分析参数对所述故障日志文件中出现的故障信息进行过滤,并对所述过滤出的故障信息依照预设的规则设置告警级别;
告警步骤,针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息。
在所述配置步骤中,所述故障分析参数包括:检测时间间隔参数、统计时间范围参数、故障次数的阈值参数、恢复时间参数和需要屏蔽的报错信息参数。
在执行所述调用步骤之前还包括:
依照所述检测时间间隔参数,设置并激活一监控定时器,用于控制所述调用生成被控机器的故障日志文件的步骤的执行间隔。
在执行所述调用步骤之前还包括:
检测所述管理主机生成故障日志文件的进程是否存在,如果存在,继续执行所述调用生成所述被控机器的故障日志文件的步骤,如果不存在,直接向所述管理主机发送告警信息,流程结束。
所述预设的规则包括:
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型H类故障信息,设置一级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型S类故障信息,设置一级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型O类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型U类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型H类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型S类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型O类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型U类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型H类故障信息,设置二级告警;
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型S类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型O类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型U类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型H类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型S类故障信息,设置三级告警;和/或
对于发生次数不小于所述故障次数的阈值参数的T型O类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型U类故障信息,设置三级告警。
在执行所述告警步骤之后还包括:将所述告警信息所对应的故障信息的标识号,记录在所述被控机器的内存中的步骤。
所述过滤步骤中进一步包括,
检测所述故障日志文件中出现的故障信息,在所述统计时间范围参数所设定的时间内,是否达到所述故障次数的阈值参数设定的次数,如果达到,执行所述依照设定的规则设置告警级别的步骤,如果未达到,继续检测。
所述过滤步骤进一步包括,
检测标识号已记录在所述内存中的所述故障信息,在所述恢复时间参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息,在所述内存中删除所述故障信息的标识号。
所述过滤步骤进一步包括,
检测所述故障日志文件中是否出现由所述需要屏蔽的报错信息参数设定的故障信息,如果出现,将所述故障信息屏蔽,不认为是故障。
在执行所述告警步骤之前进一步包括,
判断在所述内存中是否保存有所述告警信息所对应的故障信息的标识号,如果没有,执行针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息的步骤,如果有,不执行所述针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息的步骤。
本发明还公开了一种故障日志监控装置,用于一管理主机对一被控机器的监控,包括:
一配置模块,用于对所述被控机器设置故障分析参数;
一调用模块,用于调用生成所述被控机器的故障日志文件;
一过滤模块,用于依照所述故障分析参数对所述故障日志文件中出现的故障信息进行过滤,并对所述过滤出的故障信息依照预设的规则设置告警级别;
一告警模块,用于针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息。
所述监控装置还包括一监控定时器,用于依照所述配置装置设定的故障分析参数,控制所述调用模块调用生成所述故障日志文件的执行间隔。
所述过滤模块包括一频率过滤模块,用于检测所述故障日志文件中的故障信息的出现频率是否达到所述故障分析参数所规定的频率值,如果达到,则对所述故障信息依照所述设定的规则设置告警级别。
所述过滤模块包括一故障恢复模块,用于检测标识号已记录在被控机器内存中的所述故障信息,在所述故障分析参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息。
所述过滤模块包括故障屏蔽模块,用于判断所述故障信息中是否存在所述故障分析参数所规定的故障信息,如果存在则将所述故障信息屏蔽。
采用本发明的监控方法,能实现对故障日志信息自动准确的监控,避免许多运行事故的发生,减少很多重大损失。
附图说明
图1所示为本发明故障日志监控方法的流程图;
图2所示为本发明故障日志监控装置的结构图;
图3所示为本发明故障日志监控装置的过滤模块的结构图。
具体实施方式
以下结合附图,以IBM AIX机器为例,对本发明的故障日志监控方法的具体实现过程进行详细说明。
本发明通过在被控机器上运行一监控程序的方式,对被控机器生成的故障日志文件中的故障信息进行监控,对于符合预先设定的监控条件的故障,向与被控机器连接的管理主机发送告警信息,以提示管理员及时对该故障进行排查。该告警信息可在管理主机的界面上显示出来,也可以通过告警箱等其他方式发出警告。
为实现本发明的监控方法,首先需执行一配置步骤,对监控程序设置故障分析参数,该故障分析参数规定了需要进行告警的故障的条件,即监控程序在运行中会依照该故障分析参数对故障日志文件中的故障信息进行过滤,对符合故障分析参数的故障信息发出告警信息。
该故障分析参数包括:
(1)检测时间间隔参数。
即监控程序每两次对故障日志文件中的故障信息发起过滤之间所间隔的时间。以分钟为单位,具体例如可设置为10分钟。
(2)统计时间范围参数和故障次数的阈值参数。
上述两种参数协同代表同一故障信息在故障日志文件中出现的频率。也就是,在同一设定时间(统计时间范围参数所确定)内,具有相同IDENTIFIER、RESOURCE_NAME(IDENTIFIER、RESOURCE_NAME代表一故障的序列号以及来源)的故障出现的次数。该统计时间范围参数例如可设置为30分钟。该故障次数的阈值参数根据故障类型的不同而各不相同。例如,对于故障日志信息中出现的T(Type)为P(永久性或严重故障)的故障,可设置为2次;对于T(Type)为U(未知故障)的故障,可设置为4次;对于T(Type)为T(临时故障)的故障,可设置为6次。在该设定时间内,如果同一故障信息出现的次数达到或超过了设定的故障次数的阈值参数,则监控程序即认为达到了发出告警信号的标准。对于该T(Type)类型的详细描述,可参考IBM AIX的相关技术资料。
(3)恢复时间参数。
先前曾发出过告警信息的故障在设定的一段时间内,没有再次出现在故障日志文件中,则认为该故障已经消除,该设定的一段时间的时间值即通过该恢复时间参数获得。该恢复时间参数例如以分钟为单位,可设定为30分钟。如果先前发出的告警信息所对应的故障的IDENTIFIER、RESOURCE_NAME在恢复时间参数所设定的时间内没有再次出现在故障日志文件中,那么就认为该故障已经恢复了。
(4)需要屏蔽的报错信息参数。
在故障日志文件中,有些频繁出现的报错,实际上没有重大的影响,但修复起来却比较麻烦。例如,IDENTIFIER为864D2CE3,并且RESOURCE_NAME为topsvcs(即,“拓扑结构服务”守护进程)的报错。该报错是由于IBM HACMP的部分版本存在BUG引起的。这个报错会非常频繁,对于在线运行的***,修复这个BUG的操作存在操作风险,而且一般该报错也没有其他的重大影响,所以监控程序在对故障监控日志进行过滤时,可以将该报错屏蔽掉,不再认为是故障。该报错信息参数即针对用于标识某一故障的IDENTIFIER以及RESOURCE_NAME。
以上四种故障分析参数都可以根据实际运行的效果,进行手工修改,以更加准确地认定故障、发现故障、减少不必要的误报。
在对监控程序成功设置故障分析参数后,监控程序继续执行下一步骤,即设置定时器,该监控程序根据检测时间间隔参数设置一定时器并激活。随后,执行一调用步骤,该监控程序调用#errpt生成故障日志文件。
执行过滤步骤,监控程序读取故障日志文件中的故障信息,依照所设定的故障分析参数对所述故障信息进行过滤。监控程序依照定时器的设定,每隔设定的时间对故障日志文件中的故障信息进行过滤,并对过滤结果,按照一既定规则确定告警级别,并发送该级别的告警信息,并将该故障的IDENTIFIER、RESOURCE_NAME记录在监控程序内存中,该监控程序内存即被控机器的内存中。
其中,该过滤的过程包括:
检测所述故障日志文件中出现的故障信息,在所述统计时间范围参数所设定的时间内,是否达到所述故障次数的阈值参数设定的次数,即出现故障的频率是否达到故障分析参数中设定的要求,如果达到则继续进行确定告警级别的步骤。
同时,监控程序还检测标识号已记录在所述内存中的所述故障信息,在所述恢复时间参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息,在所述内存中删除所述故障信息的标识号。
另外,检测所述故障日志文件中是否出现由所述需要屏蔽的报错信息参数设定的故障信息,如果出现,将所述故障信息屏蔽,不认为是故障。
以下参照表1,说明上述的用于确定告警级别的既定规则。
表1
其中,C(Class)为所出现的故障的等级,具体可参考IBM AIX的相关技术资料。C(Class)为H的故障为硬件故障;C(Class)为S的故障为软件故障;C(Class)为U的故障为未确定的故障。其中的次数建议值,即为上述已设定的故障次数的阈值参数,且发生次数是指在所述统计时间范围参数内故障信息出现的次数。
执行告警步骤,该监控程序发送告警信息的步骤进一步包括,当故障信息符合监控程序的已设定的故障分析参数中的故障出现频率,且该故障不是已经发送过告警、未恢复的故障,则发送告警信息。即对于通过过滤的故障信息,判断监控程序内存中是否保存有该故障的IDENTIFIER、RESOURCE_NAME,如果已经保存有该故障的IDENTIFIER、RESOURCE_NAME,代表该故障仍未恢复,不必再次发送告警信息。如果未保存有该故障的IDENTIFIER、RESOURCE_NAME,则发送相应告警等级的告警信息。该告警信息的数据结构中包括该故障的发生时间、设备的IP地址、故障的IDENTIFIER、RESOURCE_NAME、C(Class)、T(Type)、DESCRIPTION、告警级别等等。
对于T(Type)为P,出现频率小于故障分析参数中设置的故障出现频率,如表1所示,发送通知信息。通知信息与告警信息的区别在于:通知信息并未认定当前发生了故障,只是一个一般提示的信息。而监控程序所认定的不同告警等级,可以在管理主机的界面上显示出来。
本发明故障日志监控方法的具体流程例如图1所示。
步骤100,管理员设置配置参数文件以确定故障分析参数。
步骤101,监控程序设置并激活定时器。
该监控程序是根据配置参数文件中的检测时间间隔参数设置该定时器并激活。
步骤102,监控程序检测AIX的errdemon(即,错误日志记录守护进程)进程是否存在,如果存在执行步骤103,如果不存在,直接发送告警信息,提示该进程出错,流程结束,等待管理员的修复。
步骤103,监控程序动态生成SHELL脚本,调用该SHELL脚本生成故障日志文件。
步骤104,监控程序读取故障日志文件中的故障日志信息,按照配置参数文件中设置的故障出现频率、需要屏蔽的报错信息参数以及监控程序内存中已有的故障记录进行过滤,按照预定的规则决定故障告警的级别。
步骤105,根据过滤情况,决定是否需要发送故障告警信息,如果发送,那么将该告警相应的IDENTIFIER、RESOURCE_NAME记录在监控程序内存中。
即如果一故障出现的频率超过配置参数文件中设置的频率阈值,并且该故障先前没有发送过告警,或者发送过告警但是已经恢复,则发送告警信息,并将该故障对应的IDENTIFIER、RESOURCE_NAME记录在监控程序内存中。
步骤106,对于监控程序内存中记录的IDENTIFIER、RESOURCE_NAME,如果监控程序检测到内存中某个IDENTIFIER、RESOURCE_NAME在最近的时间内(即:配置参数文件中的恢复时间参数)没有再次出现在故障日志文件中,那么发送告警恢复消息,然后从监控程序内存中删除该IDENTIFIER、RESOURCE_NAME。
步骤107,定时器设置的时间已到达,监控程序再次设置并激活定时器。
在本发明的另一实施例中,还提供了一种故障日志监控装置,如图2所示为该装置的结构图。其中,该监控装置200分别与被控机器100以及管理主机300连接,该监控装置200用于对被控机器100的故障日志文件进行监控,并对需要进行告警的故障信息设置告警等级,发送告警信息至管理主机。
其中该监控装置200包括配置模块201、调用模块202、过滤模块203、告警模块204、监控定时器205。配置模块201与管理主机300连接,用于接收管理主机300的配置命令,对监控装置200的故障分析参数进行配置。该故障分析参数包括检测时间间隔参数、统计时间范围参数、故障次数的阈值参数、恢复时间参数和需要屏蔽的报错信息参数,如上一实施例中所详述。
调用模块202与被控机器100连接,用于调用被控机器100中产生的监控日志文件,并将该监控日志文件中的故障信息发送到过滤模块203。过滤模块203依据配置模块201中所配置的故障分析参数对所述故障信息进行过滤。
该过滤模块的详细结构请参见图3,其中,过滤模块203进一步包括频率过滤模块2031、故障恢复模块2032、故障屏蔽模块2033、告警设置模块2034。频率过滤模块2031用于根据统计时间范围参数和故障次数的阈值参数确定的故障频率值,判断该故障信息是否达到所述故障频率值规定的标准。如果达到或者超过则由告警设置模块2034对该故障信息设置告警等级,并由告警模块204发送相应告警等级的告警信息。
故障恢复模块2032用于标识号已记录在被控机器内存中的所述故障信息,在所述恢复时间参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息,在所述内存中删除所述故障信息的标识号。
故障屏蔽模块2033用于判断该故障信息中是否存在需要屏蔽的报错信息参数所规定的故障信息,如果存在则将该故障屏蔽,并不认为是故障。
本实施例的故障日志监控装置200中的监控定时器205,用于依照所述配置装置设定的故障分析参数,控制所述调用生成被控机器的故障日志文件的步骤的执行间隔。
综上所述,应用本发明方法的实施例能够实现自动定时检测IBM AIX中的errpt(出错信息)日志中的信息,实现对IBM AIX机器的部件及部分相连设备的部分部件,进行自动定时故障检测,并且按照故障信息的类别、严重级别、发生的频率,进行一定的故障信息的过滤,找出真正可能的故障,从而达到自动和比较准确地发现那些不是导致马上宕机(暂时不影响业务运行)的故障,使得相关维护人员能够及时设法修复这些故障,避免进一步运行可能会发生的事故。本发明还可应用于其他机型中。
当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (15)

1.一种故障日志监控方法,用于一管理主机对一被控机器的监控,其特征在于,包括:
配置步骤,对所述被控机器设置故障分析参数;
调用步骤,调用生成所述被控机器的故障日志文件;
过滤步骤,依照所述故障分析参数对所述故障日志文件中出现的故障信息进行过滤,并对所述过滤出的故障信息依照预设的规则设置告警级别;
告警步骤,针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息。
2.如权利要求1所述的故障日志监控方法,其特征在于,在所述配置步骤中,所述故障分析参数包括:检测时间间隔参数、统计时间范围参数、故障次数的阈值参数、恢复时间参数和需要屏蔽的报错信息参数。
3.如权利要求2所述的故障日志监控方法,其特征在于,在执行所述调用步骤之前还包括:
依照所述检测时间间隔参数,设置并激活一监控定时器,用于控制所述调用生成被控机器的故障日志文件的步骤的执行间隔。
4.如权利要求1或2或3所述的故障日志监控方法,其特征在于,在执行所述调用步骤之前还包括:
检测所述管理主机生成故障日志文件的进程是否存在,如果存在,继续执行所述调用生成所述被控机器的故障日志文件的步骤,如果不存在,直接向所述管理主机发送告警信息,流程结束。
5.如权利要求2或3所述的故障日志监控方法,其特征在于,所述预设的规则包括:
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型H类故障信息,设置一级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型S类故障信息,设置一级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型O类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的P型U类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型H类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型S类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型O类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数小于所述故障次数的阈值参数的P型U类故障信息,设置通知信息;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型H类故障信息,设置二级告警;
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型S类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型O类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的U型U类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型H类故障信息,设置二级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型S类故障信息,设置三级告警;和/或
对于发生次数不小于所述故障次数的阈值参数的T型O类故障信息,设置三级告警;和/或
对于在统计时间范围参数所设定的时间内,发生次数不小于所述故障次数的阈值参数的T型U类故障信息,设置三级告警。
6.如权利要求1或2或3所述的故障日志监控方法,其特征在于,在执行所述告警步骤之后还包括:将所述告警信息所对应的故障信息的标识号,记录在所述被控机器的内存中的步骤。
7.如权利要求2所述的故障日志监控方法,其特征在于,所述过滤步骤中进一步包括,
检测所述故障日志文件中出现的故障信息,在所述统计时间范围参数所设定的时间内,是否达到所述故障次数的阈值参数设定的次数,如果达到,执行所述依照设定的规则设置告警级别的步骤,如果未达到,继续检测。
8.如权利要求6所述的故障日志监控方法,其特征在于,所述过滤步骤进一步包括,
检测标识号已记录在所述内存中的所述故障信息,在所述恢复时间参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息,在所述内存中删除所述故障信息的标识号。
9.如权利要求2或3或7或8所述的故障日志监控方法,其特征在于,所述过滤步骤进一步包括,
检测所述故障日志文件中是否出现由所述需要屏蔽的报错信息参数设定的故障信息,如果出现,将所述故障信息屏蔽,不认为是故障。
10.如权利要求6所述的故障日志监控方法,其特征在于,在执行所述告警步骤之前进一步包括,
判断在所述内存中是否保存有所述告警信息所对应的故障信息的标识号,如果没有,执行针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息的步骤,如果有,不执行所述针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息的步骤。
11.一种故障日志监控装置,用于一管理主机对一被控机器的监控,其特征在于,包括:
一配置模块,用于对所述被控机器设置故障分析参数;
一调用模块,用于调用生成所述被控机器的故障日志文件;
一过滤模块,用于依照所述故障分析参数对所述故障日志文件中出现的故障信息进行过滤,并对所述过滤出的故障信息依照预设的规则设置告警级别;
一告警模块,用于针对所述过滤出的故障信息,向所述管理主机发送所述告警级别的告警信息。
12.如权利要求11所述的故障日志监控装置,其特征在于,所述监控装置还包括一监控定时器,用于依照所述配置装置设定的故障分析参数,控制所述调用模块调用生成所述故障日志文件的执行间隔。
13.如权利要求11所述的故障日志监控装置,其特征在于,所述过滤模块包括一频率过滤模块,用于检测所述故障日志文件中的故障信息的出现频率是否达到所述故障分析参数所规定的频率值,如果达到,则对所述故障信息依照所述设定的规则设置告警级别。
14.如权利要求11所述的故障日志监控装置,其特征在于,所述过滤模块包括一故障恢复模块,用于检测标识号已记录在被控机器内存中的所述故障信息,在所述故障分析参数设定的时间内,是否再次出现在所述故障日志文件中,如果没有出现,向管理主机发送所述故障信息的告警恢复消息。
15.如权利要求11所述的故障日志监控装置,其特征在于,所述过滤模块包括故障屏蔽模块,用于判断所述故障信息中是否存在所述故障分析参数所规定的故障信息,如果存在则将所述故障信息屏蔽。
CN200610165154A 2006-12-13 2006-12-13 一种故障日志监控方法及装置 Expired - Fee Related CN101201786B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200610165154A CN101201786B (zh) 2006-12-13 2006-12-13 一种故障日志监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200610165154A CN101201786B (zh) 2006-12-13 2006-12-13 一种故障日志监控方法及装置

Publications (2)

Publication Number Publication Date
CN101201786A true CN101201786A (zh) 2008-06-18
CN101201786B CN101201786B (zh) 2010-05-19

Family

ID=39516960

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200610165154A Expired - Fee Related CN101201786B (zh) 2006-12-13 2006-12-13 一种故障日志监控方法及装置

Country Status (1)

Country Link
CN (1) CN101201786B (zh)

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314392A (zh) * 2011-08-09 2012-01-11 浪潮(北京)电子信息产业有限公司 一种计算机监控***及监控告警的方法
CN102857365A (zh) * 2012-06-07 2013-01-02 中兴通讯股份有限公司 网管***中故障预防及智能修复方法和装置
CN102932194A (zh) * 2011-08-09 2013-02-13 中国银行股份有限公司 基于贝叶斯方法的互联网应用服务监控***及方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和***
CN103248421A (zh) * 2013-01-09 2013-08-14 上海斐讯数据通信技术有限公司 一种pon***中对onu故障的检测方法
CN103295276A (zh) * 2012-01-20 2013-09-11 海德堡印刷机械股份公司 动态日志文件
CN103546350A (zh) * 2013-11-06 2014-01-29 北京国双科技有限公司 日志生成的检测方法和装置
CN103617109A (zh) * 2013-10-23 2014-03-05 上海华力微电子有限公司 探针机台日志文件的警告处理***和方法
CN104166563A (zh) * 2014-08-11 2014-11-26 Tcl通讯(宁波)有限公司 基于移动终端对重复输出的log进行控制的方法及***
CN104301136A (zh) * 2014-09-11 2015-01-21 青岛海信电器股份有限公司 故障信息上报及处理的方法及设备
CN104378246A (zh) * 2014-12-09 2015-02-25 福建星网锐捷网络有限公司 一种网络设备故障定位***、方法及装置
CN104486106A (zh) * 2014-12-04 2015-04-01 珠海金山网络游戏科技有限公司 一种分级告警服务***
CN104798341A (zh) * 2012-11-15 2015-07-22 微软公司 在电子网络上表征服务水平
CN104932428A (zh) * 2014-03-18 2015-09-23 中芯国际集成电路制造(上海)有限公司 硬件早期故障探测方法和装置
CN104932978A (zh) * 2015-06-29 2015-09-23 北京宇航时代科技发展有限公司 一种***运行故障自检测及自修复的方法和***
CN104991852A (zh) * 2015-06-29 2015-10-21 浪潮(北京)电子信息产业有限公司 一种指示***运行状态的方法和主机***
CN105099762A (zh) * 2015-06-29 2015-11-25 北京宇航时代科技发展有限公司 一种***运维功能的自检方法及自检***
CN105116842A (zh) * 2015-07-13 2015-12-02 华中科技大学 一种基于数控***日志的故障数据可视化解析方法
CN105159964A (zh) * 2015-08-24 2015-12-16 广东欧珀移动通信有限公司 一种日志监控方法及***
CN105528280A (zh) * 2015-11-30 2016-04-27 中电科华云信息技术有限公司 ***日志与健康监控关系决定日志告警等级的方法及***
CN105630647A (zh) * 2014-11-28 2016-06-01 中兴通讯股份有限公司 一种设备检测方法及检测设备
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及***
WO2016101786A1 (zh) * 2014-12-25 2016-06-30 华为技术有限公司 一种预测非易失性存储介质发生故障的方法及装置
CN105739408A (zh) * 2016-01-30 2016-07-06 山东大学 一种电力调度***用业务监控方法及***
CN106161135A (zh) * 2015-04-23 2016-11-23 ***通信集团福建有限公司 业务交易故障分析方法及装置
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
CN106506185A (zh) * 2015-09-08 2017-03-15 小米科技有限责任公司 硬件故障的识别方法及装置
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作***的软硬件故障告警***及方法
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN107220162A (zh) * 2017-07-04 2017-09-29 鹏元征信有限公司 一种业务告警方法、存储介质及装置
CN107358660A (zh) * 2017-07-25 2017-11-17 北京微影时代科技有限公司 打票机异常处理方法和装置
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及***
CN107483268A (zh) * 2017-09-20 2017-12-15 深圳市中润四方信息技术有限公司 一种告警处理方法及***
CN107844110A (zh) * 2016-09-21 2018-03-27 中车株洲电力机车研究所有限公司 一种针对变流器的故障数据记录***
CN108132868A (zh) * 2018-01-15 2018-06-08 政采云有限公司 一种数据监控方法、装置、计算设备及存储介质
CN108268021A (zh) * 2016-12-30 2018-07-10 北京金风科创风电设备有限公司 故障处理方法及装置
US10075347B2 (en) 2012-11-15 2018-09-11 Microsoft Technology Licensing, Llc Network configuration in view of service level considerations
CN108768739A (zh) * 2018-06-08 2018-11-06 山东超越数控电子股份有限公司 一种基于交换机日志的故障报警方法
CN108880907A (zh) * 2018-07-06 2018-11-23 上海财经大学 基于运行日志的网络设备自动化检查维修***
CN108896910A (zh) * 2018-04-13 2018-11-27 湖南小步科技有限公司 一种动力锂电池的故障处理方法、装置及电池管理***
CN109445993A (zh) * 2018-11-02 2019-03-08 郑州云海信息技术有限公司 一种文件***健康状况的检测方法及相关装置
CN109818763A (zh) * 2017-11-20 2019-05-28 北京绪水互联科技有限公司 设备故障的分析统计方法和***及设备实时质控方法和***
CN111124817A (zh) * 2019-12-06 2020-05-08 江苏智臻能源科技有限公司 一种基于缓存机制的多类型告警判断算法
CN113014884A (zh) * 2021-03-10 2021-06-22 中信百信银行股份有限公司 一种告警处理方法及装置
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、***、设备及可读存储介质
CN114302065A (zh) * 2022-03-07 2022-04-08 广东电网有限责任公司东莞供电局 一种变电站视频的自适应运维方法
CN114495316A (zh) * 2022-02-15 2022-05-13 北京半导体专用设备研究所(中国电子科技集团公司第四十五研究所) 一种精密运动台的数据监控方法及装置
CN117370052A (zh) * 2023-09-14 2024-01-09 广州宇中网络科技有限公司 微服务故障分析方法、装置、设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6598179B1 (en) * 2000-03-31 2003-07-22 International Business Machines Corporation Table-based error log analysis
US6925586B1 (en) * 2002-05-09 2005-08-02 Ronald Perrella Methods and systems for centrally-controlled client-side filtering
CN1266881C (zh) * 2002-11-20 2006-07-26 华为技术有限公司 网管***的故障相关性分析及实现方法
CN1490982A (zh) * 2003-08-18 2004-04-21 北京港湾网络有限公司 网络故障分析监测方法及装置
CN100372419C (zh) * 2005-11-29 2008-02-27 华为技术有限公司 一种分析移动通信***中呼叫的***及方法

Cited By (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102932194A (zh) * 2011-08-09 2013-02-13 中国银行股份有限公司 基于贝叶斯方法的互联网应用服务监控***及方法
CN102932194B (zh) * 2011-08-09 2015-08-12 中国银行股份有限公司 基于贝叶斯方法的互联网应用服务监控***及方法
CN102314392A (zh) * 2011-08-09 2012-01-11 浪潮(北京)电子信息产业有限公司 一种计算机监控***及监控告警的方法
CN103295276A (zh) * 2012-01-20 2013-09-11 海德堡印刷机械股份公司 动态日志文件
CN102857365A (zh) * 2012-06-07 2013-01-02 中兴通讯股份有限公司 网管***中故障预防及智能修复方法和装置
CN104798341B (zh) * 2012-11-15 2019-04-16 微软技术许可有限责任公司 在电子网络上表征服务水平
CN104798341A (zh) * 2012-11-15 2015-07-22 微软公司 在电子网络上表征服务水平
US10075347B2 (en) 2012-11-15 2018-09-11 Microsoft Technology Licensing, Llc Network configuration in view of service level considerations
CN103248421A (zh) * 2013-01-09 2013-08-14 上海斐讯数据通信技术有限公司 一种pon***中对onu故障的检测方法
CN103248421B (zh) * 2013-01-09 2016-12-28 上海斐讯数据通信技术有限公司 一种pon***中对onu故障的检测方法
CN103200050A (zh) * 2013-04-12 2013-07-10 北京百度网讯科技有限公司 服务器的硬件状态监控方法和***
CN103617109A (zh) * 2013-10-23 2014-03-05 上海华力微电子有限公司 探针机台日志文件的警告处理***和方法
CN103617109B (zh) * 2013-10-23 2016-04-27 上海华力微电子有限公司 探针机台日志文件的警告处理***和方法
CN103546350B (zh) * 2013-11-06 2018-07-13 北京国双科技有限公司 日志生成的检测方法和装置
CN103546350A (zh) * 2013-11-06 2014-01-29 北京国双科技有限公司 日志生成的检测方法和装置
CN104932428A (zh) * 2014-03-18 2015-09-23 中芯国际集成电路制造(上海)有限公司 硬件早期故障探测方法和装置
CN104166563B (zh) * 2014-08-11 2017-12-12 Tcl通讯(宁波)有限公司 基于移动终端对重复输出的log进行控制的方法及***
CN104166563A (zh) * 2014-08-11 2014-11-26 Tcl通讯(宁波)有限公司 基于移动终端对重复输出的log进行控制的方法及***
CN104301136B (zh) * 2014-09-11 2018-06-19 青岛海信电器股份有限公司 故障信息上报及处理的方法及设备
CN104301136A (zh) * 2014-09-11 2015-01-21 青岛海信电器股份有限公司 故障信息上报及处理的方法及设备
CN105630647A (zh) * 2014-11-28 2016-06-01 中兴通讯股份有限公司 一种设备检测方法及检测设备
WO2016082543A1 (zh) * 2014-11-28 2016-06-02 中兴通讯股份有限公司 一种设备检测方法及检测设备
CN104486106A (zh) * 2014-12-04 2015-04-01 珠海金山网络游戏科技有限公司 一种分级告警服务***
CN104378246B (zh) * 2014-12-09 2018-04-06 福建星网锐捷网络有限公司 一种网络设备故障定位***、方法及装置
CN104378246A (zh) * 2014-12-09 2015-02-25 福建星网锐捷网络有限公司 一种网络设备故障定位***、方法及装置
WO2016101786A1 (zh) * 2014-12-25 2016-06-30 华为技术有限公司 一种预测非易失性存储介质发生故障的方法及装置
CN106161135B (zh) * 2015-04-23 2019-10-18 ***通信集团福建有限公司 业务交易故障分析方法及装置
CN106161135A (zh) * 2015-04-23 2016-11-23 ***通信集团福建有限公司 业务交易故障分析方法及装置
CN104932978A (zh) * 2015-06-29 2015-09-23 北京宇航时代科技发展有限公司 一种***运行故障自检测及自修复的方法和***
CN104991852A (zh) * 2015-06-29 2015-10-21 浪潮(北京)电子信息产业有限公司 一种指示***运行状态的方法和主机***
CN105099762A (zh) * 2015-06-29 2015-11-25 北京宇航时代科技发展有限公司 一种***运维功能的自检方法及自检***
CN105116842A (zh) * 2015-07-13 2015-12-02 华中科技大学 一种基于数控***日志的故障数据可视化解析方法
CN105116842B (zh) * 2015-07-13 2018-05-11 华中科技大学 一种基于数控***日志的故障数据可视化解析方法
CN105159964B (zh) * 2015-08-24 2019-06-21 Oppo广东移动通信有限公司 一种日志监控方法及***
CN105159964A (zh) * 2015-08-24 2015-12-16 广东欧珀移动通信有限公司 一种日志监控方法及***
CN106506185A (zh) * 2015-09-08 2017-03-15 小米科技有限责任公司 硬件故障的识别方法及装置
CN105528280A (zh) * 2015-11-30 2016-04-27 中电科华云信息技术有限公司 ***日志与健康监控关系决定日志告警等级的方法及***
CN106992900A (zh) * 2016-01-20 2017-07-28 北京国双科技有限公司 监控预警的方法及智能预警通知平台
CN105739408A (zh) * 2016-01-30 2016-07-06 山东大学 一种电力调度***用业务监控方法及***
CN105656699B (zh) * 2016-03-29 2018-12-04 网宿科技股份有限公司 内容分发网络的告警管理方法及***
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及***
CN107844110B (zh) * 2016-09-21 2020-05-22 中车株洲电力机车研究所有限公司 一种针对变流器的故障数据记录***
CN107844110A (zh) * 2016-09-21 2018-03-27 中车株洲电力机车研究所有限公司 一种针对变流器的故障数据记录***
CN106338982A (zh) * 2016-09-26 2017-01-18 深圳前海弘稼科技有限公司 故障处理方法、故障处理装置和服务器
CN108268021A (zh) * 2016-12-30 2018-07-10 北京金风科创风电设备有限公司 故障处理方法及装置
CN106649055A (zh) * 2017-01-10 2017-05-10 山东浪潮云服务信息科技有限公司 一种基于国产cpu和操作***的软硬件故障告警***及方法
CN107426005A (zh) * 2017-05-15 2017-12-01 郑州云海信息技术有限公司 一种云平台中节点重启的控制方法及***
CN107220162A (zh) * 2017-07-04 2017-09-29 鹏元征信有限公司 一种业务告警方法、存储介质及装置
CN107358660A (zh) * 2017-07-25 2017-11-17 北京微影时代科技有限公司 打票机异常处理方法和装置
CN107483268A (zh) * 2017-09-20 2017-12-15 深圳市中润四方信息技术有限公司 一种告警处理方法及***
CN109818763B (zh) * 2017-11-20 2022-04-15 北京绪水互联科技有限公司 设备故障的分析统计方法和***及设备实时质控方法和***
CN109818763A (zh) * 2017-11-20 2019-05-28 北京绪水互联科技有限公司 设备故障的分析统计方法和***及设备实时质控方法和***
CN108132868A (zh) * 2018-01-15 2018-06-08 政采云有限公司 一种数据监控方法、装置、计算设备及存储介质
CN108896910A (zh) * 2018-04-13 2018-11-27 湖南小步科技有限公司 一种动力锂电池的故障处理方法、装置及电池管理***
CN108768739A (zh) * 2018-06-08 2018-11-06 山东超越数控电子股份有限公司 一种基于交换机日志的故障报警方法
CN108880907A (zh) * 2018-07-06 2018-11-23 上海财经大学 基于运行日志的网络设备自动化检查维修***
CN108880907B (zh) * 2018-07-06 2022-03-04 上海财经大学 基于运行日志的网络设备自动化检查维修***
CN109445993A (zh) * 2018-11-02 2019-03-08 郑州云海信息技术有限公司 一种文件***健康状况的检测方法及相关装置
CN111124817A (zh) * 2019-12-06 2020-05-08 江苏智臻能源科技有限公司 一种基于缓存机制的多类型告警判断算法
CN113014884A (zh) * 2021-03-10 2021-06-22 中信百信银行股份有限公司 一种告警处理方法及装置
CN113608908A (zh) * 2021-07-28 2021-11-05 烽火超微信息科技有限公司 服务器故障处理方法、***、设备及可读存储介质
CN113608908B (zh) * 2021-07-28 2023-12-22 烽火超微信息科技有限公司 服务器故障处理方法、***、设备及可读存储介质
CN114495316A (zh) * 2022-02-15 2022-05-13 北京半导体专用设备研究所(中国电子科技集团公司第四十五研究所) 一种精密运动台的数据监控方法及装置
CN114302065A (zh) * 2022-03-07 2022-04-08 广东电网有限责任公司东莞供电局 一种变电站视频的自适应运维方法
CN114302065B (zh) * 2022-03-07 2022-06-03 广东电网有限责任公司东莞供电局 一种变电站视频的自适应运维方法
CN117370052A (zh) * 2023-09-14 2024-01-09 广州宇中网络科技有限公司 微服务故障分析方法、装置、设备及存储介质
CN117370052B (zh) * 2023-09-14 2024-04-26 广州宇中网络科技有限公司 微服务故障分析方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN101201786B (zh) 2010-05-19

Similar Documents

Publication Publication Date Title
CN101201786B (zh) 一种故障日志监控方法及装置
KR101856543B1 (ko) 인공지능 기반의 장애 예측 시스템
US10931511B2 (en) Predicting computer network equipment failure
CN111092786B (zh) 网络设备安全认证服务可靠性增强***
CN103490917B (zh) 故障处理情况的检测方法及装置
CN109034423B (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN109062723A (zh) 服务器故障的处理方法和装置
CN106254125A (zh) 基于大数据的安全事件相关性分析的方法及***
KR101444250B1 (ko) 개인정보 접근감시 시스템 및 그 방법
CN109753410A (zh) 基于大数据的运维服务***
CN117240594B (zh) 一种多维度网络安全运维防护管理***及方法
CN107769957A (zh) 一种域名***故障原因分析方法和装置
JP4738155B2 (ja) アラーム管理装置及びアラーム管理方法
CN105955864A (zh) 电源故障处理方法、电源模块、监控管理模块及服务器
CN113285824B (zh) 一种监控网络配置命令安全性的方法及装置
CN114143160A (zh) 一种云平台自动化运维***
CN114915541A (zh) ***故障排除方法及装置、电子设备及存储介质
KR20170127876A (ko) 로그 결함 분석 기반 장애 대응 시스템 및 방법
CN112162906A (zh) 一种探针管理平台架构的服务器行为监测方法
KR100506248B1 (ko) 사설 교환시스템에서 링크를 진단하는 방법
KR101738770B1 (ko) 엔터프라이즈 비즈니스 서비스 레벨의 통합 모니터링 방법 및 시스템
CN116089965B (zh) 一种基于sod风险模型的信息安全应急管理***及方法
CN112163198B (zh) 一种主机登录安全检测方法、***、装置及存储介质
JP2006094155A (ja) ネットワーク障害監視システムおよびそのためのプログラム
CN117670261B (zh) 一种安全运维审计操作一体化终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100519

Termination date: 20171213

CF01 Termination of patent right due to non-payment of annual fee