CN1917446A - 服务器的故障恢复方法及*** - Google Patents

服务器的故障恢复方法及*** Download PDF

Info

Publication number
CN1917446A
CN1917446A CN 200610037434 CN200610037434A CN1917446A CN 1917446 A CN1917446 A CN 1917446A CN 200610037434 CN200610037434 CN 200610037434 CN 200610037434 A CN200610037434 A CN 200610037434A CN 1917446 A CN1917446 A CN 1917446A
Authority
CN
China
Prior art keywords
house dog
order
management controller
baseboard management
send
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200610037434
Other languages
English (en)
Inventor
周建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN 200610037434 priority Critical patent/CN1917446A/zh
Publication of CN1917446A publication Critical patent/CN1917446A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种服务器的故障恢复方法,包括以下步骤:a.操作***开始加载前,基本输入输出***向基板管理控制器发送设置看门狗命令;b.操作***在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;c.基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;d.基板管理控制器对服务器进行预设的操作。本发明还公开了相应的服务器的故障恢复***。本发明可实现服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对***进行复位,使***从故障状态恢复。

Description

服务器的故障恢复方法及***
技术领域
本发明涉及故障恢复技术,尤其涉及一种服务器的故障恢复方法及***。
背景技术
在智能平台管理接口(Intelligent Platform Management Interface,IPMI)规范中,为服务器提供了看门狗功能。看门狗(Watchdog Timer,WDT)是一种故障恢复技术,其基本原理是:***运行正常时,在一定的时间间隔内向基板管理控制器(Baseboard Management Controller,BMC)发送复位(Reset)WDT命令,BMC检测到该命令之后,执行Reset WDT操作;***发生故障而导致运行异常时,将停止向BMC发送Reset WDT命令而导致WDT溢出,BMC检测到WDT溢出时,则对***进行预设的操作,将***从故障状态恢复。所述预设的操作可包括复位、下电(Power Down)或电循环(Power Cycle)等。
服务器从上电到运行,依次经历三个阶段,即基本输入输出***(BasicInput/Output System,BIOS)上电自检(Power-On-Self Test,POST)阶段、操作***(Operation System,OS)加载(Load)阶段和操作***运行(Run)阶段。
以下是现有技术中两种基于IPMI规范的服务器故障恢复方法:
参考图1,该图是现有技术中服务器故障恢复方法的一级看门狗方案,该方案包括以下步骤:
s01、操作***运行阶段开始时,操作***向BMC发送设置(Set)WDT命令;
s02、操作***在预设的时间间隔内向BMC发送复位WDT命令;
s03、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s04;
s04、BMC对服务器进行预设的操作。
该方案存在以下缺点:
1、由于在操作***运行阶段才启动BMC WDT,如果服务器在BIOS上电自检阶段和操作***加载阶段运行异常,则无法复位***,无法将***从故障状态恢复;
2、服务器在运行中,如果对服务器进行热复位操作,则服务器复位后,BMC WDT仍在运行,由于在BIOS上电自检阶段和操作***加载阶段没有WDT操作,WDT超时溢出后,将导致服务器即使在正常工作状态仍会再次复位。
复位信号发送单元,用于在所述第二看参考图2,该图是现有技术中服务器故障恢复方法的二级看门狗方案,该方案包括以下步骤:
s11、BIOS上电自检阶段开始时,BIOS向BMC发送设置WDT的命令;
s12、BIOS在预设的时间间隔内向BMC发送复位WDT命令;
s13、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s17;
s14、操作***运行阶段开始时,操作***向BMC发送设置WDT的命令;
s15、操作***在预设的时间间隔内向BMC发送复位WDT命令;
s16、BMC根据预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s17;
s17、BMC对服务器进行预设的操作。
该方案虽然克服了方案一所述的缺点,但是存在以下缺点:
1、由于在BIOS上电自检阶段启动了WDT,因此操作***中必须安装WDT驱动程序,否则将由于操作***阶段不能进行复位WDT操作而导致WDT溢出;
2、安装操作***时,BIOS必需关闭WDT,否则操作***安装过程中将由于WDT溢出导致***复位;
3、在服务器从上电到运行的三个阶段,WDT是相互关联的,要启动同时启动,要关闭同时关闭,缺乏灵活性;
4、当服务器在BIOS上电自检阶段或操作***加载阶段出现故障时,无法准确判断故障是出现在BIOS上电自检阶段还是操作***加载阶段。
发明内容
本发明解决的技术问题是提出一种服务器的故障恢复方法及***,以实现在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对***进行复位,使***从故障状态恢复。
为解决上述技术问题,本发明提出了一种服务器的故障恢复方法,包括以下步骤:
a、操作***开始加载前,基本输入输出***向基板管理控制器发送设置看门狗命令;
b、操作***在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
c、基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;
d、基板管理控制器对服务器进行预设的操作。
另外,步骤a之前还包括:
a0、基本输入输出***开始上电自检时,向基板管理控制器发送设置看门狗命令;
a1、基本输入输出***在第二预设时间间隔内向基板管理控制器发送复位看门狗命令;
a2、基板管理控制器根据第二预设时间间隔检测是否收到步骤a1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行预设的操作,否则,执行步骤a3;
a3、基板管理控制器对服务器进行预设的操作。
另外,所述步骤c之后还包括步骤:
c0、操作***开始运行时,向基板管理控制器发送设置看门狗命令;
c1、操作***在第三预设时间间隔内向基板管理控制器发送复位看门狗命令;
c2、基板管理控制器根据第三预设时间间隔检测是否收到步骤c1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤c3;
c3、基板管理控制器对服务器进行预设的操作。
相应地,本发明还提供一种服务器的故障恢复***,包括:
第一看门狗设置单元,用于在操作***加载前,向基板管理控制器发送设置看门狗命令;
第一复位信号发送单元,用于在所述第一看门狗设置单元发送设置看门狗命令之后,在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
复位信号检测单元,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作;
***复位单元,用于当所述复位信号检测单元检测结果为否时,对***进行预设的操作。
还包括:
第二看门狗设置单元,用于在基本输入输出***开始上电自检时,向基板管理控制器发送设置看门狗命令;
第二复位信号发送单元,用于在所述第二看门狗设置单元发送设置看门狗命令之后,在第二预设时间间隔内向基板管理控制器发送复位看门狗命令。
还包括:
第三看门狗设置单元,用于在操作***开始运行时,向基板管理控制器发送设置看门狗命令;
第三复位信号发送单元,用于在所述第三看门狗设置单元发送设置看门狗命令之后,在第三预设时间间隔内向基板管理控制器发送复位看门狗命令。
与现有技术相比,本发明具有以下有益效果:
本发明通过增加了服务器操作***加载阶段的WDT功能,从而使在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对***进行复位,使***从故障状态恢复,且操作***无需安装WDT驱动程序,安装操作***时亦无需关闭WDT,方便灵活,且每个阶段的WDT均为单独设置,互不干扰,当服务器出现异常时,能准确地判断发生异常的时间阶段。
附图说明
图1是现有技术中服务器故障恢复方法一级看门狗方案的过程示意图;
图2是现有技术中服务器故障恢复方法二级看门狗方案的过程示意图;
图3是本发明提供的服务器故障恢复方法的流程图;
图4是本发明提供的服务器故障恢复***的结构示意图。
具体实施方式
本发明的核心在于增加了服务器操作***加载阶段的WDT功能,从而使在服务器从上电到运行三个阶段中任一阶段出现异常,均能及时对***进行复位,使***从故障状态恢复,且OS无需安装驱动程序,方便灵活。
参考图3,该图是本发明提供的服务器故障恢复方法的一个实施例的流程图。
步骤s301中,在BIOS上电自检阶段开始时,BIOS向BMC发送设置WDT的命令,同时,可设置WDT的溢出时长,在BIOS中,提供BIOS上电自检WDT的设置菜单,可以选择禁能(disable)、120秒、180秒、300秒、480秒、900秒等参数,在BIOS上电自检阶段开始时,WDT的默认溢出时长为480秒。需要说明的是,该菜单中提供的时间设置选项可以根据实际需要而灵活设置,但无论设置时长为多少,都不影响本***性能的实现。
步骤s302中,BIOS在步骤s301预设的时间间隔内向BMC发送复位WDT命令。
步骤s303中,BMC根据步骤s301预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s304中,BIOS在完成运行前,向BMC发送设置WDT的命令,同时,可设置WDT的溢出时长,在操作***中,提供操作***加载WDT溢出时长的设置菜单,可以选择禁能、120秒、180秒、300秒、480秒、900秒等参数,在操作***加载阶段开始时,WDT的默认状态为禁能,BIOS完成设置WDT后,结束运行,操作***加载阶段开始。
步骤s305中,操作***在步骤s304预设的时间间隔内向BMC发送复位WDT命令。
步骤s306中,BMC根据步骤s304预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s307中,在操作***运行阶段开始时,操作***向BMC发送设置WDT命令,同时,可设置WDT的溢出时长,在操作***中,提供操作***运行WDT溢出时长的设置菜单,可以选择禁能、120秒、180秒、300秒、480秒、900秒等参数,在操作***运行阶段开始时,WDT的默认状态为禁能。
步骤s308中,操作***在步骤s307预设的时间间隔内向BMC发送复位WDT命令。
步骤s309中,BMC根据步骤s307预设的时间间隔检测是否收到所述复位WDT命令,若是,则进行复位WDT操作,否则,执行步骤s310。
步骤s310中,BMC对服务器进行预设的操作。所述预设的操作可包括复位、下电或电循环等。
下面说明本发明提供的服务器的故障恢复***的实施例。
参考图4,该图为本发明服务器的故障恢复***的实施例的结构示意图。所述服务器故障修复***包括操作***1,BIOS 2,BMC 3,其中:
所述BIOS2包括:
第一看门狗设置单元21,用于在操作***加载阶段开始前,向BMC发送设置WDT命令;
第二看门狗设置单元22,用于在BIOS上电自检阶段开始时,向BMC发送设置WDT命令;
第二复位信号发送单元23,用于在所述第二WDT设置单元发送设置WDT命令之后,在第三预设时间间隔内向BMC发送复位WDT命令。
所述操作***1包括:
第一复位信号发送单元11,用于在所述第一WDT设置单元发送设置WDT命令之后,按照第一预设时间间隔向BMC发送复位WDT命令;
第三看门狗设置单元12,用于在操作***运行阶段开始时,向BMC发送设置WDT命令。
第三复位信号发送单元13,用于在所述第三WDT设置单元发送设置WDT命令之后,按照第三预设时间间隔向BMC发送复位WDT命令。
所述BMC 3包括:
WDT31。
复位信号检测单元32,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位WDT信号,并在检测结果为是时,对WDT进行复位操作。
***复位单元33,用于当所述复位信号检测单元检测结果为否时,对***进行预设的操作。

Claims (6)

1、一种服务器的故障恢复方法,其特征在于,包括以下步骤:
a、操作***开始加载前,基本输入输出***向基板管理控制器发送设置看门狗命令;
b、操作***在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
c、基板管理控制器根据第一预设时间间隔检测是否收到步骤b中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤d;
d、基板管理控制器对服务器进行预设的操作。
2、根据权利要求1所述服务器的故障恢复方法,其特征在于,所述步骤a之前还包括:
a0、基本输入输出***开始上电自检时,向基板管理控制器发送设置看门狗命令;
a1、基本输入输出***在第二预设时间间隔内向基板管理控制器发送复位看门狗命令;
a2、基板管理控制器根据第二预设时间间隔检测是否收到步骤a1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行预设的操作,否则,执行步骤a3;
a3、基板管理控制器对服务器进行预设的操作。
3、根据权利要求1或2所述服务器的故障恢复方法,其特征在于,所述步骤c之后还包括步骤:
c0、操作***开始运行时,向基板管理控制器发送设置看门狗命令;
c1、操作***在第三预设时间间隔内向基板管理控制器发送复位看门狗命令;
c2、基板管理控制器根据第三预设时间间隔检测是否收到步骤c1中所述复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作,否则,执行步骤c3;
c3、基板管理控制器对服务器进行预设的操作。
4、一种服务器的故障恢复***,其特征在于,包括:
第一看门狗设置单元,用于在操作***加载前,向基板管理控制器发送设置看门狗命令;
第一复位信号发送单元,用于在所述第一看门狗设置单元发送设置看门狗命令之后,在第一预设时间间隔内向基板管理控制器发送复位看门狗命令;
复位信号检测单元,用于按照预设的时间间隔检测是否接收到所述复位信号发送单元发送的复位看门狗命令,并在检测结果为是时,对看门狗进行复位操作;
***复位单元,用于当所述复位信号检测单元检测结果为否时,对***进行预设的操作。
5、根据权利要求4所述服务器的故障恢复***,其特征在于,还包括:
第二看门狗设置单元,用于在基本输入输出***开始上电自检时,向基板管理控制器发送设置看门狗命令;
第二复位信号发送单元,用于在所述第二看门狗设置单元发送设置看门狗命令之后,在第二预设时间间隔内向基板管理控制器发送复位看门狗命令。
6、根据权利要求4或5所述服务器的故障恢复***,其特征在于,还包括:
第三看门狗设置单元,用于在操作***开始运行时,向基板管理控制器发送设置看门狗命令;
第三复位信号发送单元,用于在所述第三看门狗设置单元发送设置看门狗命令之后,在第三预设时间间隔内向基板管理控制器发送复位看门狗命令。
CN 200610037434 2006-09-04 2006-09-04 服务器的故障恢复方法及*** Pending CN1917446A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200610037434 CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200610037434 CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及***

Publications (1)

Publication Number Publication Date
CN1917446A true CN1917446A (zh) 2007-02-21

Family

ID=37738344

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200610037434 Pending CN1917446A (zh) 2006-09-04 2006-09-04 服务器的故障恢复方法及***

Country Status (1)

Country Link
CN (1) CN1917446A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741654B (zh) * 2008-11-27 2012-01-18 英业达股份有限公司 操作***的监控装置与方法
CN102567129A (zh) * 2011-12-30 2012-07-11 深圳市大富科技股份有限公司 一种看门狗的启动方法及装置
CN101872247B (zh) * 2009-04-22 2012-11-28 技嘉科技股份有限公司 服务器监控装置及方法
CN104156289A (zh) * 2014-07-09 2014-11-19 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及***
CN105912414A (zh) * 2016-04-01 2016-08-31 浪潮集团有限公司 一种服务器管理的方法及***
CN111124849A (zh) * 2019-11-08 2020-05-08 苏州浪潮智能科技有限公司 一种服务器故障告警的方法、设备及介质
CN113064747A (zh) * 2021-03-26 2021-07-02 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、***及装置
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101741654B (zh) * 2008-11-27 2012-01-18 英业达股份有限公司 操作***的监控装置与方法
CN101872247B (zh) * 2009-04-22 2012-11-28 技嘉科技股份有限公司 服务器监控装置及方法
CN102567129A (zh) * 2011-12-30 2012-07-11 深圳市大富科技股份有限公司 一种看门狗的启动方法及装置
CN104156289A (zh) * 2014-07-09 2014-11-19 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及***
CN104156289B (zh) * 2014-07-09 2017-10-27 中国电子科技集团公司第三十二研究所 基于检测电路的同步控制方法及***
CN105912414A (zh) * 2016-04-01 2016-08-31 浪潮集团有限公司 一种服务器管理的方法及***
CN111124849A (zh) * 2019-11-08 2020-05-08 苏州浪潮智能科技有限公司 一种服务器故障告警的方法、设备及介质
US11226862B1 (en) * 2020-09-03 2022-01-18 Dell Products L.P. System and method for baseboard management controller boot first resiliency
CN113064747A (zh) * 2021-03-26 2021-07-02 山东英信计算机技术有限公司 一种服务器启动过程中的故障定位方法、***及装置

Similar Documents

Publication Publication Date Title
CN1917446A (zh) 服务器的故障恢复方法及***
CN100568191C (zh) 嵌入式***的全程喂狗方法
CN102902563B (zh) Linux操作***及其启动过程中挂载文件***的方法
CN1916858A (zh) 多核***中的监控方法、监控装置以及多核***
CN1874272A (zh) 识别网络故障节点的方法
CN102571498B (zh) 故障注入控制方法和装置
CN1912641A (zh) 一种单板在位检测方法及***
CN1725187A (zh) 在计算机上当软件崩溃时保存用户数据的方法及装置
US20130139005A1 (en) Usb testing apparatus and method
CN106406962A (zh) 基于arm的风力发电控制器远程升级失败可恢复的方法
CN104049702A (zh) 一种基于单片机的cpu复位控制***、方法及装置
CN1570863A (zh) 远程加载或升级程序的***及其方法
CN103077059A (zh) 判断应用程序是否匹配的方法
CN101046748A (zh) 计算机开启***和开启方法
CN1722121A (zh) 通信设备及其控制方法
CN104156289A (zh) 基于检测电路的同步控制方法及***
CN102780578A (zh) 网络设备的操作***的更新***及更新方法
CN1294488C (zh) 多处理器计算机***的开机切换方法
CN101901168A (zh) 一种看门狗复位***及其复位方法
CN1249548C (zh) 主备电路倒换设备及其方法
CN1873586A (zh) 控制计算机***中的能量消耗的计算机***和方法
CN109284137B (zh) 一种基于Hypervisor的QNX操作***启动方法及装置
CN1239974C (zh) 具有开始和停止供应时钟信号功能的半导体集成电路
CN104580135B (zh) 一种基于uefi的终端实时控制***和方法
CN101033579A (zh) 双板结构的洗衣机电脑控制板

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070221