CN105335262A - 一种批量服务器部件故障自动计算并预警的方法 - Google Patents

一种批量服务器部件故障自动计算并预警的方法 Download PDF

Info

Publication number
CN105335262A
CN105335262A CN201510903877.6A CN201510903877A CN105335262A CN 105335262 A CN105335262 A CN 105335262A CN 201510903877 A CN201510903877 A CN 201510903877A CN 105335262 A CN105335262 A CN 105335262A
Authority
CN
China
Prior art keywords
information
server
critical component
early warning
warning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510903877.6A
Other languages
English (en)
Inventor
任华进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN201510903877.6A priority Critical patent/CN105335262A/zh
Publication of CN105335262A publication Critical patent/CN105335262A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种批量服务器部件故障自动计算并预警的方法,涉及计算机设备故障监控领域,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,便于大量服务器设备的整体运维监控和管理。

Description

一种批量服务器部件故障自动计算并预警的方法
技术领域
本发明涉及计算机设备故障监控领域,具体的说是一种批量服务器部件故障自动计算并预警的方法。
背景技术
随着市场对IT基础服务设施的需求不断增加,大量服务器部署使用,对于使用用户来说,如何整体监控设备运行情况,对需要关注的设备问题进行及时处理,非异常的信息进行低等级处理,对可能产生的批量故障进行提前预处理,这些工作如何能高效的自动完成同时减少运维的压力,是目前急需解决的问题。
发明内容
本发明针对目前需求以及现有技术发展的不足之处,提供一种批量服务器部件故障自动计算并预警的方法。
本发明所述一种批量服务器部件故障自动计算并预警的方法,解决上述技术问题采用的技术方案如下:所述批量服务器部件故障自动计算并预警的方法,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。
优选的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息是指,实时收集服务器中关键部件CPU、内存、硬盘、RAID卡的运行状态;通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片纠正并反馈目前内存运行的稳定状态,通过smart信息反馈硬盘运行情况,通过日志的一些错误记录实时反馈raid卡运行状态。
优选的,所述监控服务器对通知级别和警告级别的信息分别记录处理,以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障。
本发明所述一种批量服务器部件故障自动计算并预警的方法与现有技术相比具有的有益效果是:本发明通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对部件的报错信息进行过滤筛选,并划分关注和警告两个不同的故障紧急等级,设置相应的通知阀值及警告阀值,实时统计是否达到预定阀值,并对需要预警情况及时发出预警信息,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。
附图说明
附图1为所述批量服务器部件故障自动计算并预警的方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明所述一种批量服务器部件故障自动计算并预警的方法进一步详细说明。
本发明提供一种批量服务器部件故障自动计算并预警的方法,通过对批量运行的服务器设备进行自动状态记录和回馈统计,可以实时查看服务器中关键部件的运行状态,对服务器中关键部件的报错信息进行过滤筛选,并划分通知和警告两个不同的故障紧急等级,所有机器的这些信息都会汇总到综合分析的设备记录,***会对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发,便于大量服务器设备的整体运维监控和管理。
实施例:
本实施例所述一种批量服务器部件故障自动计算并预警的方法,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理,避免后续批量问题集中爆发。
附图1为本实施例所述批量服务器部件故障自动计算并预警的方法的流程图,如附图1所示,服务器启动后,自动执行信息采集脚本,对服务器关键部件进行信息采集,并反馈给监控服务器;然后监控服务器进行数据对比,设定通知和警告阀值,并判断是否有警告信息反馈,若有则安排单点保修;并判断故障率是否超通知或警告阀值,若超过则安排批量异常保修;同时继续对服务器设备进行监控。
本实施例所述批量服务器部件故障自动计算并预警的方法,所述服务器关键部件包括CPU、内存、硬盘和RAID卡,相应的,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,是指,通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片可以纠正并反馈目前内存运行的稳定状态,从而判断内存稳定性,硬盘可以通过smart信息反馈其运行情况,raid卡可以通过日志,其中的一些错误记录可以实时反馈raid卡运行状态。
通过使用指定的Linux***下信息采集脚本(jiankong.sh脚本、crontab程序)完成CPU、内存、硬盘及RAID卡运行状态的搜集,可以每间隔一分钟时间自动收集一次。其中,jiankong.sh脚本:
#!/bin/bash
#getcpuinformation;
cd/usr/local/bin
./i2c-test-b4-s0x68-m1-rc16-d0x0>cpu.info---搜集cpu寄存器值
#getmeminformation;
/usr/bin/ipmitoolsdr>/linux/mem.info
mem="'/usr/bin/ipmitoolsdr|grepcorrectable1'"---可纠正的内存报错计数
mem1="'/usr/bin/ipmitoolsdr|grepuncorrectable1'"—不可纠正内存报错计数
#gethardiskinformation
disk="'smartctl-A/dev/sdh|grepCurrent_Pending_Sector'"--搜集硬盘坏道值;
#getraidcardinformation
arcconfsavesupportarchive
raid="'taildevice_log|grepmediumErrors'"---搜集raid卡故障信息;
crontab程序:
*/1****/linux/jiankong.sh
说明:crontab程序为定时执行,每1分钟就自动调用jiankong.sh程序一次。
本实施例所述批量服务器部件故障自动计算并预警的方法,对服务器中关键部件:CPU、内存、硬盘、RAID卡进行监控,每分钟进行一次状态搜集,搜集的信息分为通知和警告两个级别,通知级别指一些简单的知晓级别的信息,如内存的少量可纠正错误、硬盘的个别逻辑性错误、cpu的非关键性错误、raid卡的非关键报错;警告级别指重要的需要紧急处理的设备故障,如CPU的致命错误、内存的不可纠正ECC错误、硬盘的物理坏道、RAID卡的致命错误等。
本实施例所述批量服务器部件故障自动计算并预警的方法,所述监控服务器对通知级别和警告级别的信息分别记录处理,并以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,可以对通知级别阀值设置高一些(因为一般情况下,少量的通知信息不对设备稳定带来影响,只有太多频繁报错才会有影响),对报警级别阀值设置低一些,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障,避免后续批量问题集中爆发。
通过编写的一个自动化脚本(数据比对判断部分脚本pingpan.sh),将收集到服务器关键部件报错信息预设阀值进行比较,自动汇总计算并进行预警;其中,以cpu故障评判为例,数据比对判断部分脚本pingpan.sh
#!/bin/bash
while[true]
do
cat/cpu.info|grep-i"0043">>/var/log/cpu-error.log
if[&?-eq0]
then
mail-s"cpuerrordetectedonServer$HOSTNAME"admindomain.com</var/log/cpu-error.log
fi
sleep86400
cat/mem.info|grep-i"uncorrectable">>/var/log/mem-error.log
if[&?-eq0]
then
mail-s"memoryerrordetectedonServer$HOSTNAME"admindomain.com</var/log/mem-error.log
fi
sleep86400
cat/hardidk.info|grep-i"mediaerrors">>/var/log/hardisk-error.log
if[&?-eq0]
then
mail-s"hardiskerrordetectedonServer$HOSTNAME"admindomain.com</var/log/hardisk-error.log
fi
sleep86400
cat/raid.info|grep-i"error">>/var/log/raid-error.log
if[&?-eq0]
then
mail-s"raiderrordetectedonServer$HOSTNAME"admindomain.com</var/log/raid-error.log
fi
sleep86400
done.。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的权利要求书的且任何所属技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (3)

1.一种批量服务器部件故障自动计算并预警的方法,其特征在于,通过监控服务器对批量运行的服务器设备进行自动状态记录和回馈统计,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息,对关键部件的报错信息进行过滤筛选,并汇总到监控服务器中,将这些信息划分通知和警告两个不同的故障紧急等级,对通知级别和警告级别的信息分别记录处理,对警告级别的故障及时通报处理。
2.根据权利要求1所述一种批量服务器部件故障自动计算并预警的方法,其特征在于,通过运行信息采集脚本实时收集服务器中关键部件的运行状态信息是指,实时收集服务器中关键部件CPU、内存、硬盘、RAID卡的运行状态;通过cpu的寄存器状态位显示其目前cpu工作状态,通过内存的ECC芯片纠正并反馈目前内存运行的稳定状态,通过smart信息反馈硬盘运行情况,通过日志的一些错误记录实时反馈raid卡运行状态。
3.根据权利要求2所述一种批量服务器部件故障自动计算并预警的方法,其特征在于,所述监控服务器对通知级别和警告级别的信息分别记录处理,以两种产生的异常记录分别做分子,服务器设备保有量做分母,计算出关键部件异常的比例,当通知级别和报警级别故障比例超过预定阀值时,触发报警邮件,通知相关技术人员进行分析判断是否存在批量故障。
CN201510903877.6A 2015-12-09 2015-12-09 一种批量服务器部件故障自动计算并预警的方法 Pending CN105335262A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510903877.6A CN105335262A (zh) 2015-12-09 2015-12-09 一种批量服务器部件故障自动计算并预警的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510903877.6A CN105335262A (zh) 2015-12-09 2015-12-09 一种批量服务器部件故障自动计算并预警的方法

Publications (1)

Publication Number Publication Date
CN105335262A true CN105335262A (zh) 2016-02-17

Family

ID=55285817

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510903877.6A Pending CN105335262A (zh) 2015-12-09 2015-12-09 一种批量服务器部件故障自动计算并预警的方法

Country Status (1)

Country Link
CN (1) CN105335262A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656620A (zh) * 2016-12-30 2017-05-10 ***股份有限公司 网络设备监控处理方法及***
CN108280019A (zh) * 2018-01-08 2018-07-13 郑州云海信息技术有限公司 一种评估服务器健康状态的方法
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN109213659A (zh) * 2018-11-01 2019-01-15 郑州云海信息技术有限公司 一种设备内存状态的监测方法、装置及存储介质
CN110198224A (zh) * 2018-02-27 2019-09-03 贵州白山云科技股份有限公司 一种报警处理方法、装置及***
CN110303524A (zh) * 2019-06-06 2019-10-08 上海米开罗那机电技术有限公司 一种手套箱设备的预警方法及***
CN110780646A (zh) * 2019-09-21 2020-02-11 苏州浪潮智能科技有限公司 一种基于mes***的内存质量预警方法
CN112052147A (zh) * 2020-07-27 2020-12-08 网宿科技股份有限公司 监控方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165698A1 (en) * 2002-05-25 2005-07-28 Cho Ku G. User authentication method and system using user's e-mail address and hardware information
CN102291257A (zh) * 2011-07-27 2011-12-21 奇智软件(北京)有限公司 一种基于网络的终端资源管理方法
CN103117879A (zh) * 2013-01-30 2013-05-22 昆明理工大学 一种计算机硬件运行参数网络监测***
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警***及方法
CN104484262A (zh) * 2014-11-27 2015-04-01 国家电网公司 It数据中心服务器***自动化管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050165698A1 (en) * 2002-05-25 2005-07-28 Cho Ku G. User authentication method and system using user's e-mail address and hardware information
CN102291257A (zh) * 2011-07-27 2011-12-21 奇智软件(北京)有限公司 一种基于网络的终端资源管理方法
CN103117879A (zh) * 2013-01-30 2013-05-22 昆明理工大学 一种计算机硬件运行参数网络监测***
CN103905255A (zh) * 2014-04-11 2014-07-02 国家电网公司 服务器内部硬件运行故障远程自动告警***及方法
CN104484262A (zh) * 2014-11-27 2015-04-01 国家电网公司 It数据中心服务器***自动化管理方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106656620A (zh) * 2016-12-30 2017-05-10 ***股份有限公司 网络设备监控处理方法及***
CN108280019A (zh) * 2018-01-08 2018-07-13 郑州云海信息技术有限公司 一种评估服务器健康状态的方法
CN110198224A (zh) * 2018-02-27 2019-09-03 贵州白山云科技股份有限公司 一种报警处理方法、装置及***
CN109002384A (zh) * 2018-06-29 2018-12-14 郑州云海信息技术有限公司 一种服务器故障的报警方法、装置、设备及存储介质
CN108628231A (zh) * 2018-07-05 2018-10-09 郑州云海信息技术有限公司 云数据中心中设备监控方法和装置
CN109034423A (zh) * 2018-08-29 2018-12-18 郑州云海信息技术有限公司 一种故障预警判定的方法、装置、设备及存储介质
CN109213659A (zh) * 2018-11-01 2019-01-15 郑州云海信息技术有限公司 一种设备内存状态的监测方法、装置及存储介质
CN110303524A (zh) * 2019-06-06 2019-10-08 上海米开罗那机电技术有限公司 一种手套箱设备的预警方法及***
CN110780646A (zh) * 2019-09-21 2020-02-11 苏州浪潮智能科技有限公司 一种基于mes***的内存质量预警方法
CN110780646B (zh) * 2019-09-21 2021-11-26 苏州浪潮智能科技有限公司 一种基于mes***的内存质量预警方法
CN112052147A (zh) * 2020-07-27 2020-12-08 网宿科技股份有限公司 监控方法、电子设备及存储介质
CN112052147B (zh) * 2020-07-27 2024-06-11 网宿科技股份有限公司 监控方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105335262A (zh) 一种批量服务器部件故障自动计算并预警的方法
CN109783262B (zh) 故障数据处理方法、装置、服务器及计算机可读存储介质
CN103455395B (zh) 一种硬盘故障的检测方法及装置
CN105117301A (zh) 一种内存预警的方法及装置
US20110320881A1 (en) Isolation of faulty links in a transmission medium
CN106980562A (zh) 一种硬盘监控方法及装置
CN103207820B (zh) 基于raid卡日志的硬盘的故障定位方法及装置
EP3798848B1 (en) Analyzing large-scale data processing jobs
CN103268277A (zh) 一种输出日志信息的方法及***
CN106100884A (zh) 变电站监控设备运行异常的告警方法
WO2018233170A1 (zh) 日志记录方法、装置、计算机设备及存储介质
CN105243004A (zh) 一种故障资源检测方法及装置
CN101136799A (zh) 一种实现通讯设备故障集中告警处理的方法
CN104320308A (zh) 一种服务器异常检测的方法及装置
CN109034423A (zh) 一种故障预警判定的方法、装置、设备及存储介质
CN112699007A (zh) 监控机器性能的方法、***、网络设备及存储介质
CN103049345B (zh) 基于异步通信机制的磁盘状态变迁检测方法及装置
CN102609350A (zh) 一种服务器内存故障报警方法
US20050283686A1 (en) Monitoring VRM-induced memory errors
CN107870843B (zh) Nas服务器性能监控的方法及装置
CN103995759B (zh) 基于核内外协同的高可用计算机***故障处理方法及装置
CN105159817A (zh) 一种日志文件处理***及方法
KR20120093545A (ko) 소프트웨어 오류 실시간 모니터링 시스템
CN110990223A (zh) 一种基于***日志的监控告警方法及装置
CN203825457U (zh) 一种基于k-bus总线的卷接机组控制***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160217

WD01 Invention patent application deemed withdrawn after publication