CN107346269A - 一种服务器中管理控制器故障保护的方法及*** - Google Patents

一种服务器中管理控制器故障保护的方法及*** Download PDF

Info

Publication number
CN107346269A
CN107346269A CN201710517705.4A CN201710517705A CN107346269A CN 107346269 A CN107346269 A CN 107346269A CN 201710517705 A CN201710517705 A CN 201710517705A CN 107346269 A CN107346269 A CN 107346269A
Authority
CN
China
Prior art keywords
management controller
protecting device
failure
sent
timing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710517705.4A
Other languages
English (en)
Inventor
程万前
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710517705.4A priority Critical patent/CN107346269A/zh
Publication of CN107346269A publication Critical patent/CN107346269A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Programmable Controllers (AREA)

Abstract

一种服务器中管理控制器故障保护的方法及***,首先将服务器的管理控制器调试信号输出端、复位信号输入端分别与管理控制器连接;然后故障保护装置根据管理控制器发来的数据进行判断,当发来的是管理控制器的初始化信息时,则不做处理;当发来的是管理控制器间隔发送的指定的数据,则故障保护装置开始计时,并在下次收到相同的所述指定的数据时,将故障保护装置计时的值清零;当计时的值达到预设值时,故障保护装置未接收到管理控制器发送的指定的数据,则发送复位信号将管理控制器复位。通过本发明的方法及***可以缩短管理控制器出现故障时,对其进行复位恢复所需要的时间;增加的管理控制器正常工作的时间,提升服务器的可靠性。

Description

一种服务器中管理控制器故障保护的方法及***
技术领域
本发明涉及一种服务器保护***,属于计算机技术领域,尤其涉及一种服务器中管理控制器故障保护的方法及***
背景技术
服务器中的可编程控制器工作时,可能会发生功能异常、无法执行预定程序等问题。遇到这种情况,需要对可编程控制器进行复位。现有技术的处理方式如下所示:将可编程控制器的复位信号连接到看门狗watchdog电路或设备上,可编程控制器不断向watchdog电路发送脉冲信号,当可编程控制器出现故障时,程序无法执行脉冲信号无法发出。Watchdog电路不断进行计时,并在收到脉冲信号后清零计时的值。当计时时间达到预设值时,由于脉冲信号没发出来,计时器没有及时清零导致计时时间到达预定值,watchdog电路向可编程控制器发出复位信号,保证可编程控制器正常工作。
在服务器设计中,经常会用到管理控制器对服务器的风扇、电压、功耗、错误信息等进行监控和控制。管理控制器也是上述可编程控制器的一种,为保证服务器可靠性,也需要在管理控制器出现故障的时候复位管理控制器。
管理控制器在上电启动的时候需要进行初始化,其初始化需要一段时间,一般在1分钟以上。如果采用上述现有技术对管理控制器进行监控和复位,其计时时间一定要超过管理控制器初始化需要的时间,否则会导致管理控制器在上电启动时,未完成初始化,就在watchdog电路控制下进行复位,因而无法启动的现象。而计时时间过长的缺点在于,在管理控制器出现故障的时候,需要等很长时间才能复位恢复正常工作。这会导致管理控制器在很长时间内无法监控服务器的重要信息,对服务器的可靠性来说是不利的。
发明内容
本发明提供一种服务器中管理控制器故障保护的方法及***,用以解决现有技术中管理控制器watchdog的计时时间过长,需要较长时间才能复位恢复正常工作,使管理控制器发生无法监控服务器的安全隐患。
本发明通过以下技术方案予以实现:
一种服务器中管理控制器故障保护的方法,包括以下步骤:
S1.将服务器的管理控制器调试串口信号输出端接到故障保护装置的信号输入端,故障保护装置的复位信号输出端连接管理控制器的复位信号输入端,用以通过故障保护装置控制管理控制器复位。
S2.当管理控制器出现故障进行初始化时,管理控制器通过调试串口信号输出端连续向故障保护装置发送当前的初始化状态信息,用于指示管理控制器初始化程度;当管理控制器初始化正常工作时,管理控制器会间隔通过调试串口信号输出端向故障保护装置发送指定的数据。
S3.故障保护装置根据管理控制器调试串口信号输出端发来的数据进行判断,当调试串口信号输出端发来的是管理控制器的初始化信息时,则不做处理;当调试串口信号输出端发来的是管理控制器间隔发送的指定的数据,则故障保护装置开始计时,并在下次收到相同的所述指定的数据时,将故障保护装置计时的值清零;当计时的值达到预设值时,故障保护装置未接收到管理控制器调试串口信号输出端发送的指定的数据,则发送复位信号将管理控制器复位。
如上所述的一种服务器中管理控制器故障保护的方法,所述步骤S3故障保护装置计时的预设值为20~40秒。
如上所述的一种服务器中管理控制器故障保护的方法,所述故障保护装置为复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA。
如上所述的一种服务器中管理控制器故障保护的方法,所述故障保护装置为watchdog电路。
一种服务器中管理控制器故障保护的***,包括服务器,所述服务器的管理控制器调试串口信号输出端接到故障保护装置的信号输入端,故障保护装置的复位信号输出端连接管理控制器的复位信号输入端,所述故障保护装置设置有比较模块和计时模块,所述比较模块用于对管理控制器调试串口信号输出端发来的数据进行判断,当调试串口信号输出端发来的是管理控制器的初始化信息时,则不做处理;当调试串口信号输出端发来的是管理控制器间隔发送的指定的数据,则将所述计时模块启动计时,并在下次收到所述指定的数据时,将计时模块计时的值清零;当计时的值达到预设值时,故障保护装置未接收到管理控制器调试串口信号输出端发送的指定的数据,则发送复位信号将管理控制器复位。
如上所述的一种服务器中管理控制器故障保护的***,所述故障保护装置为复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA。
如上所述的一种服务器中管理控制器故障保护的***,所述计时模块计时的预设值为20~40秒。
与现有技术相比,本发明的优点是:
本发明针对现有技术中管理控制器watchdog的计时时间过长的缺点,采用管理控制器在初始化过程中和正常工作过程中向CPLD/FPGA发送不同的串口信息,CPLD/FPGA对该信息进行判断,并根据判断结果决定是否复位。通过本发明的方法及***可以缩短管理控制器出现故障时,对其进行复位恢复所需要的时间;增加的管理控制器正常工作的时间,提升服务器的可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍。
图1是本发明***的电气原理图。
图2是本发明方法的流程图。
附图标记:1-管理控制器,2-串口数据线,3-复位数据线,4-故障保护装置,41-比较模块,42-计时模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本实施例一种服务器中管理控制器故障保护的***,包括服务器,服务器的管理控制器1调试信号输出端通过串口数据线2与故障保护装置4的信号输入端连接,故障保护装置4的复位信号输出端通过复位数据线3与管理控制器的复位信号输入端连接,从而可以通过故障保护装置4对管理控制器1进行复位。
管理控制器4设置有比较模块41和计时模块42,比较模块41用于对管理控制器1调试串口发来的数据进行判断,当调试串口发来的是管理控制器1的初始化信息时,则不做处理;当调试串口发来的是管理控制器1初始化完成后间隔发送的指定数据,则将所述计时模块42启动计时,并在下次收到所述指定数据时,将计时模块42计时的值清零;当计时的值达到预设值时,故障保护装置4未接收到管理控制器发送的指定数据,则通过复位信号将管理控制器1复位。进一步的,计时模块42计时的预设值为30秒。
本发明还提供了一种服务器中管理控制器故障保护的方法,包括以下步骤:
首先将服务器的管理控制器1调试信号输出端接到故障保护装置4的信号输入端,故障保护装置4的复位信号输出端连接管理控制器1的复位信号输入端,用以通过故障保护装置4控制管理控制器1复位。
当管理控制器1出现故障进行初始化时,管理控制器1通过调试串口连续向故障保护装置4发送当前的初始化状态信息,用于指示管理控制器1初始化程度;当管理控制器1初始化正常工作时,管理控制器1会间隔通过调试串口向故障保护装置4发送指定的数据。
然后故障保护装置4通过管理控制器1调试串口发来的数据进行判断,当调试串口发来的是管理控制器1的初始化信息时,则不做处理;当调试串口发来的是管理控制器1初始化完成后间隔发送的指定数据,则故障保护装置4开始计时,并在下次收到相同的所述指定数据时,将故障保护装置4计时的值清零;当计时的值达到预设值时,故障保护装置4未接收到管理控制器发送的指定数据,则通过复位信号将管理控制器1复位。
其中故障保护装置4为复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA,CPLD/FPGA中设置有比较模块和计时模块。
具体而言,如图2所示,本实施例在管理控制器1初始化时,通过调试串口不断发送当前的初始化状态信息,指示当前管理控制器1初始化到了哪一步;管理控制器完成初始化而正常工作时,每隔预定时间就通过调试串口向CPLD/FPGA发送指定的数据。
CPLD/FPGA根据调试串口的发来的数据进行判断,如调试串口发来的是管理控制器1的初始化信息,则不做处理;如果调试串口发来的是管理控制器1初始化完成后,定期发送的指定数据,则CPLD/FPGA开始计时,并在再次收到所述指定数据后,清零计时的值。当计时的值达到预设值时,通过复位信号复位管理控制器1。
通过本发明的方法及***可以缩短管理控制器出现故障时,对其进行复位恢复所需要的时间;增加管理控制器1正常工作的时间,提升服务器的可靠性。
本发明未详尽描述的技术内容均为公知技术。

Claims (7)

1.一种服务器中管理控制器故障保护的方法,其特征在于,包括以下步骤:
S1.将服务器的管理控制器调试串口信号输出端接到故障保护装置的信号输入端,故障保护装置的复位信号输出端连接管理控制器的复位信号输入端,用以通过故障保护装置控制管理控制器复位;
S2.当管理控制器出现故障进行初始化时,管理控制器通过调试串口信号输出端连续向故障保护装置发送当前的初始化状态信息,用于指示管理控制器初始化程度;当管理控制器初始化正常工作时,管理控制器会间隔通过调试串口信号输出端向故障保护装置发送指定的数据;
S3.故障保护装置根据管理控制器调试串口信号输出端发来的数据进行判断,当调试串口信号输出端发来的是管理控制器的初始化信息时,则不做处理;当调试串口信号输出端发来的是管理控制器间隔发送的指定的数据,则故障保护装置开始计时,并在下次收到相同的所述指定的数据时,将故障保护装置计时的值清零;当计时的值达到预设值时,故障保护装置未接收到管理控制器调试串口信号输出端发送的指定的数据,则发送复位信号将管理控制器复位。
2.根据权利要求1所述的一种服务器中管理控制器故障保护的方法,其特征在于,所述步骤S3故障保护装置计时的预设值为20~40秒。
3.根据权利要求1所述的一种服务器中管理控制器故障保护的方法,其特征在于,所述故障保护装置为复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA。
4.根据权利要求1所述的一种服务器中管理控制器故障保护的方法,其特征在于,所述故障保护装置为watchdog电路。
5.一种服务器中管理控制器故障保护的***,包括服务器,其特征在于,所述服务器的管理控制器调试串口信号输出端接到故障保护装置的信号输入端,故障保护装置的复位信号输出端连接管理控制器的复位信号输入端,所述故障保护装置设置有比较模块和计时模块,所述比较模块用于对管理控制器调试串口信号输出端发来的数据进行判断,当调试串口信号输出端发来的是管理控制器的初始化信息时,则不做处理;当调试串口信号输出端发来的是管理控制器间隔发送的指定的数据,则将所述计时模块启动计时,并在下次收到所述指定的数据时,将计时模块计时的值清零;当计时的值达到预设值时,故障保护装置未接收到管理控制器调试串口信号输出端发送的指定的数据,则发送复位信号将管理控制器复位。
6.根据权利要求5所述的一种服务器中管理控制器故障保护的***,其特征在于,所述故障保护装置为复杂可编程逻辑器件CPLD或现场可编程门阵列FPGA。
7.根据权利要求5所述的一种服务器中管理控制器故障保护的***,其特征在于,所述计时模块计时的预设值为20~40秒。
CN201710517705.4A 2017-06-29 2017-06-29 一种服务器中管理控制器故障保护的方法及*** Pending CN107346269A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710517705.4A CN107346269A (zh) 2017-06-29 2017-06-29 一种服务器中管理控制器故障保护的方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710517705.4A CN107346269A (zh) 2017-06-29 2017-06-29 一种服务器中管理控制器故障保护的方法及***

Publications (1)

Publication Number Publication Date
CN107346269A true CN107346269A (zh) 2017-11-14

Family

ID=60257204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710517705.4A Pending CN107346269A (zh) 2017-06-29 2017-06-29 一种服务器中管理控制器故障保护的方法及***

Country Status (1)

Country Link
CN (1) CN107346269A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007414A1 (zh) * 2020-07-10 2022-01-13 苏州浪潮智能科技有限公司 一种基于控制芯片的服务器风扇控制装置及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1506825A (zh) * 2002-12-10 2004-06-23 深圳市中兴通讯股份有限公司 一种看门狗实时可调复位方法和装置
US7137036B2 (en) * 2002-02-22 2006-11-14 Oki Electric Industry Co., Ltd. Microcontroller having an error detector detecting errors in itself as well
CN103713916A (zh) * 2012-10-09 2014-04-09 华平信息技术股份有限公司 Windows嵌入式***中自动运行应用程序的方法及***
CN104049702A (zh) * 2014-06-16 2014-09-17 京信通信***(中国)有限公司 一种基于单片机的cpu复位控制***、方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7137036B2 (en) * 2002-02-22 2006-11-14 Oki Electric Industry Co., Ltd. Microcontroller having an error detector detecting errors in itself as well
CN1506825A (zh) * 2002-12-10 2004-06-23 深圳市中兴通讯股份有限公司 一种看门狗实时可调复位方法和装置
CN103713916A (zh) * 2012-10-09 2014-04-09 华平信息技术股份有限公司 Windows嵌入式***中自动运行应用程序的方法及***
CN104049702A (zh) * 2014-06-16 2014-09-17 京信通信***(中国)有限公司 一种基于单片机的cpu复位控制***、方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李观文、衣平、邓英华: "《看门狗技术在改善***可靠性中的应用》", 《机床电器》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007414A1 (zh) * 2020-07-10 2022-01-13 苏州浪潮智能科技有限公司 一种基于控制芯片的服务器风扇控制装置及方法

Similar Documents

Publication Publication Date Title
CN102508755B (zh) 一种模拟接口卡热插拔的装置和方法
CN106610712B (zh) 基板管理控制器复位***及方法
CN104794033A (zh) 一种基于bmc的cpu低频故障的定位方法及装置
CN105388982B (zh) 多处理器上电复位电路
CN104734904B (zh) 旁路设备的自动测试方法及***
CN112099412B (zh) 一种微控制单元的安全冗余架构
CN103645730A (zh) 一种带有自检功能的运动控制卡及检测方法
CN100371901C (zh) 一种基于可编程逻辑器件的故障注入方法和装置
CN111366316A (zh) 一种服务器内部液体检测***,方法及服务器
CN102780207B (zh) 电压保护***及方法
CN103777617B (zh) 上下位机通讯监控方法
CN107346269A (zh) 一种服务器中管理控制器故障保护的方法及***
CN104572331B (zh) 具有电源监视和上电延时使能的监控模块
CN101650702B (zh) 一种usb通信在线维护的装置和方法
CN109726055B (zh) 检测PCIe芯片异常的方法及计算机设备
CN102074274A (zh) 一种加密卡内加密芯片错误检测及自动复位的方法
JP2012068907A (ja) バス接続回路及びバス接続方法
CN106919493A (zh) 一种服务器上电故障监控***及方法
CN202758347U (zh) 重新识别usb设备的控制器
CN102810840B (zh) 电压保护***
CN107918069A (zh) 一种掉电测试***和方法
CN107179911A (zh) 一种重启管理引擎的方法和设备
CN112983932A (zh) 液压试验台设备及其数据采集***、测控***和测控方法
CN106534852A (zh) 一种解码卡的解码方法及装置
CN106873356B (zh) 可自动恢复冗余的冗余控制***及其冗余自动恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20171114

RJ01 Rejection of invention patent application after publication