CN111290918B - 服务器运行状态监控方法、装置及计算机可读存储介质 - Google Patents

服务器运行状态监控方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN111290918B
CN111290918B CN202010121452.0A CN202010121452A CN111290918B CN 111290918 B CN111290918 B CN 111290918B CN 202010121452 A CN202010121452 A CN 202010121452A CN 111290918 B CN111290918 B CN 111290918B
Authority
CN
China
Prior art keywords
server
bmc
running state
error
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010121452.0A
Other languages
English (en)
Other versions
CN111290918A (zh
Inventor
王相宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010121452.0A priority Critical patent/CN111290918B/zh
Publication of CN111290918A publication Critical patent/CN111290918A/zh
Application granted granted Critical
Publication of CN111290918B publication Critical patent/CN111290918B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种服务器运行状态监控方法、装置及计算机可读存储介质。其中,方法包括预先在BMC上设置校验信息查询接口,当检测到服务器的运行状态出错,获取当前网络传输状态;若服务器的运行状态错误为不需要人工主动执行纠错操作便可自动恢复的运行状态错误,且网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与服务器预先绑定的目标邮箱中,使得用户在接收到告警邮件后,基于校验信息和通过校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;从而解决了由于报错信息延迟处理而故障已自动恢复所导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。

Description

服务器运行状态监控方法、装置及计算机可读存储介质
技术领域
本申请涉及BMC管理控制技术领域,特别是涉及一种服务器运行状态监控方法、装置及计算机可读存储介质。
背景技术
BMC(Baseboard Management Controller,基板控制器)作为执行伺服器远端管理控制器,被广泛应用于服务器的大规模集成化管理中。BMC可实时监控***中的各服务器的运行状态,在BMC监控过程中,不可避免的,服务器运行状态会出错。
相关技术中,BMC在监控到服务器的运行状态出错时,会及时进行上报并显示出错。但是,若运维人员或者是其他工作人员没有及时看到上报出错信息或者是没有及时接收到运行状态出错的信息,且某些运行状态出错后已被自动恢复,那么运维人员或其他工作人员在按照上报的出错操作进行操作会造成误操作甚至造成服务器数据丢失。
鉴于此,如何解决由于报错信息延迟处理导致的误操作甚至是服务器数据丢失的现状,是所属技术领域人员需要解决的问题。
发明内容
本申请提供了一种服务器运行状态监控方法、装置及计算机可读存储介质,解决了由于报错信息延迟处理导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
为解决上述技术问题,本发明实施例提供以下技术方案:
本发明实施例一方面提供了一种服务器运行状态监控方法,预先在BMC上设置校验信息查询接口,包括:
当检测到服务器的运行状态出错,获取当前网络传输状态;
若所述服务器的运行状态错误类型为预设目标错误类型,且所述网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中,以使用户基于所述校验信息和通过所述校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;
其中,所述目标错误类型为不需要人工主动执行纠错操作而通过特定***操作便自动恢复的运行状态错误类型;所述校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定。
可选的,所述将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中包括:
将BMC的启动时间和操作***的重新启动次数作为所述校验信息同步通过所述告警邮件发送至所述目标邮箱。
可选的,所述使用户基于所述校验信息和从所述BMC中查询得到的原始校验信息的一致性确定是否执行纠错操作包括:
当接收到所述告警邮件后,获取所述告警邮件中的校验BMC启动时间和校验重新启动次数;
通过所述校验信息查询接口从所述BMC中获取当前BMC启动时间和所述操作***的当前重新启动次数;
若所述当前重新启动次数和所述校验重新启动次数不一致,则不对所述服务器进行纠错操作;
若所述当前BMC启动时间和所述校验BMC启动时间的差值大于预设时间差值,则不对所述服务器进行纠错操作;
若所述当前重新启动次数和所述校验重新启动次数一致、且所述当前BMC启动时间和所述校验BMC启动时间的差值不大于预设时间差值,则基于所述告警邮件中的告警信息对所述服务器进行纠错操作。
可选的,所述当检测到服务器的运行状态出错之后,还包括:
将所述服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包;
将所述故障检测日志包发送至所述目标邮箱,同时为所述故障检测日志包设置时间戳,所述时间戳为所述服务器运行状态出错检测时刻。
可选的,所述预先在BMC上设置校验信息查询接口包括:
在所述BMC上预先定义ipmi接口和/或restful接口作为所述校验信息查询接口。
本发明实施例另一方面提供了一种服务器运行状态监控装置,包括:
查询接口预定义模块,用于在BMC上设置校验信息查询接口;
网络延迟信息获取模块,用于当检测到服务器的运行状态出错,获取当前网络传输状态;
告警模块,用于若所述服务器的运行状态错误类型为预设目标错误类型,且所述网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中,以使用户基于所述校验信息和通过所述校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;所述目标错误类型为不需要人工主动执行纠错操作而通过特定***操作便自动恢复的运行状态错误类型;所述校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定。
可选的,所述告警模块具体用于将BMC的启动时间和操作***的重新启动次数作为所述校验信息同步通过所述告警邮件发送至所述目标邮箱。
可选的,还包括日志打包模块,所述日志打包模块用于将所述服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包;将所述故障检测日志包发送至所述目标邮箱,同时为所述故障检测日志包设置时间戳,所述时间戳为所述服务器运行状态出错检测时刻。
本发明实施例还提供了一种服务器运行状态监控装置,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述服务器运行状态监控方法的步骤。
本发明实施例最后还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有服务器运行状态监控程序,所述服务器运行状态监控程序被处理器执行时实现如前任一项所述服务器运行状态监控方法的步骤。
本申请提供的技术方案的优点在于,在检测到服务器运行状态出错后,兼顾运行状态出错类型及当前网络的数据传输状态进行邮件告警,对于不需要人工主动执行纠错操作会由于其他***操作自动恢复的运行状态出错类型且在网络有延迟的场景中,会在发送告警邮件同时携带校验信息,用户可将邮件中的校验信息和从BMC中查询得到的校验信息的一致性作为对告警邮件中的告警信息采用相应措施的参考标准,从而解决了相关技术中由于报错信息延迟处理而故障已自动恢复所导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
此外,本发明实施例还针对服务器运行状态监控方法提供了相应的实现装置及计算机可读存储介质,进一步使得所述方法更具有实用性,所述装置及计算机可读存储介质具有相应的优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
为了更清楚的说明本发明实施例或相关技术的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种服务器运行状态监控方法的流程示意图;
图2为本发明实施例提供的服务器运行状态监控装置的一种具体实施方式结构图;
图3为本发明实施例提供的服务器运行状态监控装置的另一种具体实施方式结构图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在介绍了本发明实施例的技术方案后,下面详细的说明本申请的各种非限制性实施方式。
首先参见图1,图1为本发明实施例提供的一种服务器运行状态监控方法的流程示意图,本发明实施例可包括以下内容:
S101:预先在BMC上设置校验信息查询接口。
可以理解的是,可预先在BMC中定义一个或多个接口,例如可为ipmi接口或restful接口。该接口作为校验信息查询接口向外界开放,以便用户通过该接口读取BMC内部信息,当然,读取的信息为校验信息。本申请的校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定,举例来说,服务器死机报错,当服务器重启后,该报错就会自动恢复,不需要在采取其他措施了,那么校验信息便可为服务器的重启次数和重启时间。进一步来说,校验信息和服务器运行报错类型相关,同一类型的服务器运行报错对应一组或一个校验信息,所属技术领域人员可预先根据实际应用场景进行预先设置。若对于当前应用场景,对不同类型的服务器运行报错用不同的校验信息,用户在查询校验信息时,需要将服务器运行报错类型输入,以便进行匹配后输出。
S102:当检测到服务器的运行状态出错,获取当前网络传输状态。
在本申请中,例如可通过某些关键字来识别服务器运行出错,当然也可通过其他方式,可参阅任何一种相关技术记载的服务器运行状态出错的检测方式,本申请对此不作任何限定。在获取得到当前网络的传输状态后,基于网络传输状态可得知网络传输延迟情况。
S103:判断服务器的运行状态错误类型是否为预设目标错误类型,且网络传输延迟是否不小于预设延迟阈值;若是,则执行S104;若否,则执行S105。
本申请中的目标错误类型是指目标错误类型为不需要人工主动执行纠错操作而通过特定***操作便可自动恢复的运行状态错误类型,目标错误类型可有多类,也可为一类,这均不影响本申请的实现,预设延迟阈值可根据实际应用场景进行确定,例如200ms,本申请对此不作任何限定。
S104:将携带校验信息的告警邮件发送至与服务器预先绑定的目标邮箱中,以使用户基于校验信息和通过校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作。
在本实施例中,BMC可以监控服务器的运行状态并提供了通过smtp(简单邮件传输协议)对指定的邮箱地址进行告警的功能,当指定邮箱收到告警后由运维人员或者远程自动的采取对应措施。有些告警比如CPU的内部错误或者内存的不可更正错误触发后服务器会宕机重启(也可能不会),若发生重启后有些CPU和内存的故障会自动恢复,若不做校验就根据报警信息做操作可能造成误操作甚至造成服务器数据丢失,若网络波动较大可能造成告警邮件送达延迟,可能运维人员或其他工作人员收到的邮件是几分钟前甚至更久之前的告警,此时若不做校验就采取措施也可能造成严重后果。
通过校验信息查询接口查询得到的原始校验信息,是BMC内部实时更新的校验信息,也即原始校验信息是准确反映当前时刻BMC状态的信息,而告警邮件中携带的校验信息是发告警邮件时刻的BMC状态信息。原始校验信息和校验信息是为了区别不同概念,更加清楚、无歧义的表述本申请的技术方案,进行命名的。可预先基于原始校验信息和校验信息设置执行纠错操作的规则,也就是说,当原始校验信息和校验信息满足预设条件时执行纠错操作,该预设条件为预先设置,例如当原始校验信息和校验信息保持一致时执行纠错操作,或者是原始校验信息中的数值和校验信息中的数值的差值不大于某一数值,则执行纠错操作。
S105:直接将告警邮件发送至目标邮箱。
在本发明实施例提供的技术方案中,在检测到服务器运行状态出错后,兼顾运行状态出错类型及当前网络的数据传输状态进行邮件告警,对于不需要人工主动执行纠错操作会由于其他***操作自动恢复的运行状态出错类型且在网络有延迟的场景中,会在发送告警邮件同时携带校验信息,用户可将邮件中的校验信息和从BMC中查询得到的校验信息的一致性作为对告警邮件中的告警信息采用相应措施的参考标准,从而解决了相关技术中由于报错信息延迟处理而故障已自动恢复导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
在上述实施例中,对于校验信息并不做限定,本实施例中给出一种实现方式,可将BMC的启动时间和操作***的重新启动次数作为校验信息同步通过告警邮件发送至目标邮箱,可包括下述内容:
本发明实施例在BMC中增加了操作***(OS)启动次数和BMC启动时间的校验,BMC记录自身的启动时间和OS的启动/重启的次数,并向外界提供ipmi作为校验信息查询接口,当告警发生时BMC把BMC的启动时间和OS的重启次数同步经过告警邮件发送出去,当客户接收到告警邮件后应当主动通过接口查询当前BMC启动时间和OS启动次数,根据一定策略来制定应对措施,比如查询到的OS启动次数和告警邮件中的不一致(设备已经重启),比如查询到的BMC启动时间和邮件中的BMC启动时间相差较大(证明收到告警邮件的延迟较大)。根据告警邮件中BMC启动时间和OS启动次数和从BMC接口中获取的BMC启动时间和OS启动次数对比后来定制规则,如:若OS启动次数不一致则不再发送重启命令,避免造成重复重启,若两者BMC启动时间相差100秒以上认为延迟过大告警无效。
上述实施例设置操作***(OS)启动次数和BMC启动时间两个校验参数,可以根据这两个校验参数制定一系列规则来鉴别告警邮件是否有效,是否需要采取操作,减少了误操作。对于如何制定规则鉴别告警邮件是否有效并没有进行限制,本申请还提供了一种实现方式,可包括:
当接收到告警邮件后,获取告警邮件中的校验BMC启动时间和校验重新启动次数;
通过校验信息查询接口从BMC中获取当前BMC启动时间和操作***的当前重新启动次数;
若当前重新启动次数和校验重新启动次数不一致,则不对服务器进行纠错操作;
若当前BMC启动时间和校验BMC启动时间的差值大于预设时间差值,则不对服务器进行纠错操作;
若当前重新启动次数和校验重新启动次数一致、且当前BMC启动时间和校验BMC启动时间的差值不大于预设时间差值,则基于告警邮件中的告警信息对服务器进行纠错操作。
作为另外一种可选的实施方式,为了便于运维人员更快定位故障,在检测到服务器运行状态报错后,还可将服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包,避免后续日志信息覆盖有用日志信息,然后将故障检测日志包发送至目标邮箱,同时为故障检测日志包设置时间戳,时间戳为服务器运行状态出错检测时刻。
需要说明的是,本申请中各步骤之间没有严格的先后执行顺序,只要符合逻辑上的顺序,则这些步骤可以同时执行,也可按照某种预设顺序执行,图1只是一种示意方式,并不代表只能是这样的执行顺序。
本发明实施例还针对服务器运行状态监控方法提供了相应的装置,进一步使得所述方法更具有实用性。其中,装置可从功能模块的角度和硬件的角度分别说明。下面对本发明实施例提供的服务器运行状态监控装置进行介绍,下文描述的服务器运行状态监控装置与上文描述的服务器运行状态监控方法可相互对应参照。
基于功能模块的角度,参见图2,图2为本发明实施例提供的服务器运行状态监控装置在一种具体实施方式下的结构图,该装置可包括:
查询接口预定义模块201,用于在BMC上设置校验信息查询接口。
网络延迟信息获取模块202,用于当检测到服务器的运行状态出错,获取当前网络传输状态。
告警模块203,用于若服务器的运行状态错误类型为预设目标错误类型,且网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与服务器预先绑定的目标邮箱中,以使用户基于校验信息和通过校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;目标错误类型为不需要人工主动执行纠错操作而通过特定***操作便自动恢复的运行状态错误类型;校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定。
可选的,在本实施例的一些实施方式中,所述装置例如还可以包括还包括日志打包模块,日志打包模块用于将服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包;将故障检测日志包发送至目标邮箱,同时为故障检测日志包设置时间戳,时间戳为服务器运行状态出错检测时刻。
在本实施例的另一些实施方式中,所述告警模块203具体可用于将BMC的启动时间和操作***的重新启动次数作为校验信息同步通过告警邮件发送至目标邮箱。
作为另外一种可选的实施方式,所述告警模块还可具体用于:
当接收到告警邮件后,获取告警邮件中的校验BMC启动时间和校验重新启动次数;
通过校验信息查询接口从BMC中获取当前BMC启动时间和操作***的当前重新启动次数;
若当前重新启动次数和校验重新启动次数不一致,则不对服务器进行纠错操作;
若当前BMC启动时间和校验BMC启动时间的差值大于预设时间差值,则不对服务器进行纠错操作;
若当前重新启动次数和校验重新启动次数一致、且当前BMC启动时间和校验BMC启动时间的差值不大于预设时间差值,则基于告警邮件中的告警信息对服务器进行纠错操作。
本发明实施例所述服务器运行状态监控装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了由于报错信息延迟处理导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
上文中提到的服务器运行状态监控装置是从功能模块的角度描述,进一步的,本申请还提供一种服务器运行状态监控装置,是从硬件角度描述。图3为本申请实施例提供的另一种服务器运行状态监控装置的结构图。如图3所示,该装置包括存储器30,用于存储计算机程序;
处理器31,用于执行计算机程序时实现如上述实施例提到的服务器运行状态监控方法的步骤。
其中,处理器31可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器31可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器31也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器31可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器31还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器30可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器30还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器30至少用于存储以下计算机程序301,其中,该计算机程序被处理器31加载并执行之后,能够实现前述任一实施例公开的服务器运行状态监控方法的相关步骤。另外,存储器30所存储的资源还可以包括操作***302和数据303等,存储方式可以是短暂存储或者永久存储。其中,操作***302可以包括Windows、Unix、Linux等。数据303可以包括但不限于测试结果对应的数据等。
在一些实施例中,服务器运行状态监控装置还可包括有显示屏32、输入输出接口33、通信接口34、电源35以及通信总线36。
本领域技术人员可以理解,图3中示出的结构并不构成对服务器运行状态监控装置的限定,可以包括比图示更多或更少的组件,例如传感器37。
本发明实施例所述服务器运行状态监控装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了由于报错信息延迟处理导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
可以理解的是,如果上述实施例中的服务器运行状态监控方法以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、磁碟或者光盘等各种可以存储程序代码的介质。
基于此,本发明实施例还提供了一种计算机可读存储介质,存储有服务器运行状态监控程序,所述服务器运行状态监控程序被处理器执行时如上任意一实施例所述服务器运行状态监控方法的步骤。
本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
由上可知,本发明实施例解决了由于报错信息延迟处理导致的误操作甚至是服务器数据丢失的现状,降低了用户误操作概率,提升服务器运行的稳定性和可靠性。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上对本申请所提供的一种服务器运行状态监控方法、装置及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (10)

1.一种服务器运行状态监控方法,其特征在于,预先在BMC上设置校验信息查询接口,包括:
当检测到服务器的运行状态出错,获取当前网络传输状态;
若所述服务器的运行状态错误类型为预设目标错误类型,且所述网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中,以使用户基于所述校验信息和通过所述校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;
其中,所述目标错误类型为不需要人工主动执行纠错操作而通过预设***操作便自动恢复的运行状态错误类型;所述校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定。
2.根据权利要求1所述的服务器运行状态监控方法,其特征在于,所述将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中包括:
将BMC的启动时间和操作***的重新启动次数作为所述校验信息同步通过所述告警邮件发送至所述目标邮箱。
3.根据权利要求2所述的服务器运行状态监控方法,其特征在于,所述使用户基于所述校验信息和从所述BMC中查询得到的原始校验信息的一致性确定是否执行纠错操作包括:
当接收到所述告警邮件后,获取所述告警邮件中的校验BMC启动时间和校验重新启动次数;
通过所述校验信息查询接口从所述BMC中获取当前BMC启动时间和所述操作***的当前重新启动次数;
若所述当前重新启动次数和所述校验重新启动次数不一致,则不对所述服务器进行纠错操作;
若所述当前BMC启动时间和所述校验BMC启动时间的差值大于预设时间差值,则不对所述服务器进行纠错操作;
若所述当前重新启动次数和所述校验重新启动次数一致、且所述当前BMC启动时间和所述校验BMC启动时间的差值不大于预设时间差值,则基于所述告警邮件中的告警信息对所述服务器进行纠错操作。
4.根据权利要求1至3任意一项所述的服务器运行状态监控方法,其特征在于,所述当检测到服务器的运行状态出错之后,还包括:
将所述服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包;
将所述故障检测日志包发送至所述目标邮箱,同时为所述故障检测日志包设置时间戳,所述时间戳为所述服务器运行状态出错检测时刻。
5.根据权利要求4所述的服务器运行状态监控方法,其特征在于,所述预先在BMC上设置校验信息查询接口包括:
在所述BMC上预先定义ipmi接口和/或restful接口作为所述校验信息查询接口。
6.一种服务器运行状态监控装置,其特征在于,包括:
查询接口预定义模块,用于在BMC上设置校验信息查询接口;
网络延迟信息获取模块,用于当检测到服务器的运行状态出错,获取当前网络传输状态;
告警模块,用于若所述服务器的运行状态错误类型为预设目标错误类型,且所述网络传输延迟不小于预设延迟阈值,则将携带校验信息的告警邮件发送至与所述服务器预先绑定的目标邮箱中,以使用户基于所述校验信息和通过所述校验信息查询接口查询得到的原始校验信息的一致性确定是否执行纠错操作;所述目标错误类型为不需要人工主动执行纠错操作而通过预设***操作便自动恢复的运行状态错误类型;所述校验信息为根据使服务器运行状态错误自动恢复的操作参数来确定。
7.根据权利要求6所述的服务器运行状态监控装置,其特征在于,所述告警模块具体用于将BMC的启动时间和操作***的重新启动次数作为所述校验信息同步通过所述告警邮件发送至所述目标邮箱。
8.根据权利要求6或7所述的服务器运行状态监控装置,其特征在于,还包括日志打包模块,所述日志打包模块用于将所述服务器运行状态出错检测时刻的运行状态日志信息打包生成故障检测日志包;将所述故障检测日志包发送至所述目标邮箱,同时为所述故障检测日志包设置时间戳,所述时间戳为所述服务器运行状态出错检测时刻。
9.一种服务器运行状态监控装置,其特征在于,包括处理器,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5任一项所述服务器运行状态监控方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有服务器运行状态监控程序,所述服务器运行状态监控程序被处理器执行时实现如权利要求1至5任一项所述服务器运行状态监控方法的步骤。
CN202010121452.0A 2020-02-26 2020-02-26 服务器运行状态监控方法、装置及计算机可读存储介质 Active CN111290918B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010121452.0A CN111290918B (zh) 2020-02-26 2020-02-26 服务器运行状态监控方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010121452.0A CN111290918B (zh) 2020-02-26 2020-02-26 服务器运行状态监控方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111290918A CN111290918A (zh) 2020-06-16
CN111290918B true CN111290918B (zh) 2022-12-27

Family

ID=71017255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010121452.0A Active CN111290918B (zh) 2020-02-26 2020-02-26 服务器运行状态监控方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111290918B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858239B (zh) * 2020-06-30 2022-06-10 浪潮电子信息产业股份有限公司 一种服务器硬盘监测方法、装置、设备及介质
CN111722954A (zh) * 2020-06-30 2020-09-29 曙光信息产业(北京)有限公司 服务器异常定位方法、装置、存储介质及服务器
CN111994137B (zh) * 2020-09-04 2022-07-12 深圳科安达电子科技股份有限公司 一种基于铁路信号集中监测的报警分析方法
CN111984490B (zh) * 2020-09-28 2023-01-10 苏州浪潮智能科技有限公司 针对非法操作***启动项的告警装置、方法、设备及介质
CN112434904A (zh) * 2020-10-23 2021-03-02 国网山东省电力公司日照供电公司 一种电力网络中电力数据通信验证***
CN113778780B (zh) * 2020-11-27 2024-05-17 北京京东尚科信息技术有限公司 应用稳定性的确定方法、装置、电子设备和存储介质
CN112764991A (zh) * 2021-01-19 2021-05-07 苏州浪潮智能科技有限公司 一种基于影像辨别管理bmc的方法、***、设备及介质
CN113220358B (zh) * 2021-04-25 2023-08-08 山东英信计算机技术有限公司 一种多平台bios信息存储方法、***及介质
CN114328104B (zh) * 2021-12-25 2023-05-16 深圳市锐宝智联信息有限公司 一种工控整机健康状态监测方法、***、设备及存储介质
CN114518972B (zh) * 2022-02-14 2024-06-18 海光信息技术股份有限公司 内存错误处理方法、装置、内存控制器及处理器
CN115114212B (zh) * 2022-06-30 2023-08-04 苏州浪潮智能科技有限公司 一种vpd刷写方法、装置、设备及介质
CN115333970B (zh) * 2022-07-22 2023-08-11 苏州浪潮智能科技有限公司 设备连接稳定性评价方法、装置和计算机设备和存储介质
CN117076212B (zh) * 2023-10-17 2024-02-23 北京卡普拉科技有限公司 Mpi通信数据内容的一致性检查方法、装置、介质及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102981943B (zh) * 2012-10-29 2016-05-11 新浪技术(中国)有限公司 监控应用日志的方法及***
CN109617733A (zh) * 2018-12-24 2019-04-12 浪潮电子信息产业股份有限公司 一种邮件告警方法、装置、服务器及计算机可读存储介质
CN110674005A (zh) * 2019-08-30 2020-01-10 苏州浪潮智能科技有限公司 一种监控服务器内存的方法、设备及可读介质

Also Published As

Publication number Publication date
CN111290918A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111290918B (zh) 服务器运行状态监控方法、装置及计算机可读存储介质
CN110224858B (zh) 基于日志的告警方法及相关装置
US10430260B2 (en) Troubleshooting method, computer system, baseboard management controller, and system
AU2014399227B2 (en) Fault Processing Method, Related Apparatus and Computer
CN106789306B (zh) 通信设备软件故障检测收集恢复方法和***
KR20150033711A (ko) 런타임 오류 복원 방법, 디바이스 및 시스템
CN108845912B (zh) 服务接口调用故障的报警方法及计算设备
CN112506702B (zh) 数据中心容灾方法、装置、设备及存储介质
CN113687969A (zh) 告警信息生成方法、装置、电子设备及可读存储介质
CN109733238B (zh) 故障检测方法、装置、存储介质及处理器
US20200252317A1 (en) Mitigating failure in request handling
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN112529223A (zh) 一种设备故障报修方法、装置、服务器及储存介质
CN114528350B (zh) 集群脑裂的处理方法、装置、设备及可读存储介质
JP2012080181A (ja) 障害情報管理方法および障害情報管理プログラム
CN114461341A (zh) 一种云平台虚拟机防脑裂方法、装置及介质
CN110011854A (zh) Mds故障处理方法、装置、存储***及计算机可读存储介质
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN103731315A (zh) 一种服务器故障检测方法
CN114116282B (zh) 一种网络附加存储故障上报并修复的方法和装置
CN115794486A (zh) 一种机器人信息获取方法、***、装置及可读介质
CN111444032A (zh) 一种计算机***故障修复方法、***及设备
CN111400094A (zh) 一种服务器***恢复出厂设置的方法、装置、设备及介质
CN115048244B (zh) 一种服务器的硬件修复方法、***、计算机设备及介质
CN114513398B (zh) 网络设备告警处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant