CN111984464B - 一种可编程逻辑器件监控重启方法、装置及*** - Google Patents

一种可编程逻辑器件监控重启方法、装置及*** Download PDF

Info

Publication number
CN111984464B
CN111984464B CN202010726580.8A CN202010726580A CN111984464B CN 111984464 B CN111984464 B CN 111984464B CN 202010726580 A CN202010726580 A CN 202010726580A CN 111984464 B CN111984464 B CN 111984464B
Authority
CN
China
Prior art keywords
programmable logic
logic device
resistor
circuit
gate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010726580.8A
Other languages
English (en)
Other versions
CN111984464A (zh
Inventor
郭乃慎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010726580.8A priority Critical patent/CN111984464B/zh
Publication of CN111984464A publication Critical patent/CN111984464A/zh
Application granted granted Critical
Publication of CN111984464B publication Critical patent/CN111984464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/1438Restarting or rejuvenating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种可编程逻辑器件监控重启方法、装置及***,实时监测并判断可编程逻辑器件是否异常;若监测到可编程逻辑器件异常,且经第一预设时长后仍未恢复,则控制可编程逻辑器件热重启;持续监测可编程逻辑器件,若经第二预设时长后仍未恢复,则控制可编程逻辑器件冷重启;其中第二预设时长长于第一预设时长。本发明通过自动监控并重启可编程逻辑器件的方法,对可编程逻辑器件进行除错修改,尽量自动恢复正常,缩短故障时间,降低对***的影响。

Description

一种可编程逻辑器件监控重启方法、装置及***
技术领域
本发明涉及可编程逻辑器件,具体涉及一种可编程逻辑器件监控重启方法、装置及***。
背景技术
可编程逻辑器件(Programmable Logic Device,PLD)是服务器中的重要元件,主要负责服务器的开机时序记忆部分平台管理,平台管理表示的是一系列的监视和控制。但可编程逻辑器件对自身没有状态监控或重启方式,一旦发生问题即会导致整个***停滞,等待维修人员修复,无法自我复原。
发明内容
为解决上述问题,本发明提供一种可编程逻辑器件监控重启方法、装置及***,可对可编程逻辑器件进行监控,当可编程逻辑器件异常时,自动尝试对可编程逻辑器件重启。
本发明的技术方案是:一种可编程逻辑器件监控重启方法,包括以下步骤:
实时监测并判断可编程逻辑器件是否异常;
若监测到可编程逻辑器件异常,且经第一预设时长后仍未恢复,则控制可编程逻辑器件热重启;
持续监测可编程逻辑器件,若经第二预设时长后仍未恢复,则控制可编程逻辑器件冷重启。
进一步地,该方法中,通过监测可编程逻辑器件的心跳信号,判断可编程逻辑器件是否异常;通过BMC芯片控制可编程逻辑器件热重启。
进一步地,该方法还包括:经第一预设时长后可编程逻辑器件仍未恢复时,发出报警信号。
本发明的技术方案还包括一种可编程逻辑器件监控重启装置,包括,
监测判断模块:实时监测并判断可编程逻辑器件是否异常;
热重启模块:若可编程逻辑器件异常,且经第一预设时长后仍未恢复,则控制可编程逻辑器件热重启;
冷重启模块:若经第二预设时长后仍未恢复,则控制可编程逻辑器件冷重启。
进一步地,监测判断模块通过监测可编程逻辑器件的心跳信号,判断可编程逻辑器件是否异常;
热重启模块通过BMC芯片控制可编程逻辑器件热重启。
进一步地,该装置还包括报警模块:经第一预设时长后可编程逻辑器件仍未恢复时,发出报警信号。
本发明的技术方案还包括一种可编程逻辑器件监控重启***,可编程逻辑器件与BMC芯片连接,包括:心跳信号判断电路、热重启电路、冷重启电路;
心跳信号判断电路的输入端与可编程逻辑器件连接,输出端分别与热重启电路输入端、冷重启电路输入端连接,热重启电路的输出端与BMC芯片连接,冷重启电路的输出端与可编程逻辑器件的电源连接;当心跳信号判断电路判断可编程逻辑器件的心跳信号异常,且经第一预设时长仍未恢复正常时,通过热重启电路通知BMC芯片对可编程逻辑器件进行热重启;若心跳信号判断电路判断经第二预设时长心跳信号仍未恢复正常时,通过冷重启电路控制可编程逻辑器件的电源掉电重启。
进一步地,心跳信号判断电路包括:电阻R1、电阻R2、电容C1、电容C2、异或门U1、MOS管M1;
可编程逻辑器件的输出端分别与电阻R1的第一端、异或门U1的第一输入端连接;电阻R1的第二端一路连接异或门U1的第二输入端、另一路经电容C1接地;异或门U1的输出端与MOS管M1的栅极连接,MOS管M1的漏极一路经电阻R2连接供电电压、另一路经电容C2接地,MOS管M1的源极接地。
进一步地,热重启电路包括:电阻R3、电容C3、比较器U2、反相器U3、或非门U4;
比较器U2的正向输入端与电阻R2、电容C2之间的节点连接,负向输入端连接第一参考电压;比较器U2输出端一路连接反相器U3输入端、另一路连接电阻R3的第一端;反相器U3的输出端连接或非门U4的第一输入端;电阻R3的第二端一路连接或非门U4的第二输入端、另一路经电容C3接地;或非门U4输出端连接BMC芯片;
冷重启电路包括:电阻R4、电容C4、比较器U5、反相器U6、或非门U7;
比较器U5的正向输入端与电阻R4、电容C4之间的节点连接,负向输入端连接第一参考电压;比较器U5输出端一路连接反相器U6输入端、另一路连接电阻R4的第一端;反相器U6的输出端连接或非门U7的第一输入端;电阻R4的第二端一路连接或非门U7的第二输入端、另一路经电容C4接地;或非门U7输出端连接可编程逻辑器件的电源。
进一步地,该***还包括报警电路,或非门U4输出端还连接报警电路;经第一预设时长心跳信号仍未恢复正常时,报警电路进行报警。
本发明提供的一种可编程逻辑器件监控重启方法、装置及***,对可编程逻辑器件进行监控,当可编程逻辑器件异常时(具体可通过监测可编程逻辑器件的心跳信号判断其是否异常),若经第一段时间没有恢复正常,则对可编程逻辑器件热重启;热重启后,若仍不能恢复正常,即经第二段时间后没有正常心跳信号,则对可编程逻辑器件冷重启。本发明通过自动监控并重启可编程逻辑器件的方法,对可编程逻辑器件进行除错修改,尽量自动恢复正常,缩短故障时间,降低对***的影响。
附图说明
图1是本发明具体实施例一方法流程示意图。
图2是本发明具体实施例二结构示意框图。
图3是本发明具体实施例三电路结构示意图。
具体实施方式
下面结合附图并通过具体实施例对本发明进行详细阐述,以下实施例是对本发明的解释,而本发明并不局限于以下实施方式。
实施例一
本实施例提供一种可编程逻辑器件监控重启方法,实时监测可编程逻辑器件,当可编程逻辑器件异常时,通过重启对可编程逻辑器件进行自动修复。可编程逻辑器件是指FPGA或CPLD。
如图1所示,本方法包括以下步骤:
S1,实时监测并判断可编程逻辑器件是否异常;
S2,若监测到可编程逻辑器件异常,且经第一预设时长后仍未恢复,则控制可编程逻辑器件热重启;
S3,持续监测可编程逻辑器件,若经第二预设时长后仍未恢复,则控制可编程逻辑器件冷重启。
本实施例中,具体可通过监测可编程逻辑器件的心跳信号来判断可编程逻辑器件是否异常。当监测不到心跳信号时,说明可编程逻辑器件异常。
进一步地,当第一预设时长后仍监测不到心跳信号,则对可编程逻辑器件热重启。需要说明的是,可通过BMC芯片控制可编程逻辑器件热重启。另外,在第一预设时长后仍监测不到心跳信号时,发出报警,提醒工作人员注意。避免在监测不到心跳信号的第一时间发出报警,以免增加工作量。
热重启后,可编程逻辑器件可能仍不能恢复正常。需要说明的是,整个过程中会持续监测可编程逻辑器件,即持续监测可编程逻辑器件的心跳信号,若第二预设时长后仍监测不到心跳信号,说明热重启失败,则对可编程逻辑器件冷重启,即发生掉电重启动作。需要说明的是,第二预设时长是指从监测到可编程逻辑器件异常起始开始计时的,与第一预设时长的计时起点相同,第二预设时长长于第一预设时长。
本实施例,通过热重启再冷重启的方式对可编程逻辑器件进行故障修复,可最大程度降低故障对***的影响。
实施例二
如图2所示,在实施例一基础上,本实施例提供一种可编程逻辑器件监控重启装置,包括以下功能模块。
监测判断模块101:实时监测并判断可编程逻辑器件是否异常;
热重启模块102:若可编程逻辑器件异常,且经第一预设时长后仍未恢复,则控制可编程逻辑器件热重启;
冷重启模块103:若经第二预设时长后仍未恢复,则控制可编程逻辑器件冷重启。
本实施例中,监测判断模块101通过监测可编程逻辑器件的心跳信号,判断可编程逻辑器件是否异常。当监测不到心跳信号时,说明可编程逻辑器件异常。
热重启模块102通过BMC芯片控制可编程逻辑器件热重启。
为及时且有效提醒工作人员,该装置还设置报警模块,经第一预设时长后可编程逻辑器件仍未恢复时,发出报警信号。
实施例三
本实施例提供一种可编程逻辑器件监控重启***,用硬件实现可编程逻辑器件的监控与重启修复。需要说明的是,可编程逻辑器件与BMC芯片连接。
如图3所示,该***包括:心跳信号判断电路104、热重启电路105、冷重启电路106。
心跳信号判断电路104的输入端与可编程逻辑器件连接,输出端分别与热重启电路105输入端、冷重启电路106输入端连接,热重启电路105的输出端与BMC芯片连接,冷重启电路106的输出端与可编程逻辑器件的电源连接;当心跳信号判断电路104判断可编程逻辑器件的心跳信号异常,且经第一预设时长仍未恢复正常时,通过热重启电路105通知BMC芯片对可编程逻辑器件进行热重启;若心跳信号判断电路104判断经第二预设时长心跳信号仍未恢复正常时,通过冷重启电路106控制可编程逻辑器件的电源掉电重启。
具体地,本实施例的心跳信号判断电路104包括:电阻R1、电阻R2、电容C1、电容C2、异或门U1、MOS管M1。
可编程逻辑器件的输出端分别与电阻R1的第一端、异或门U1的第一输入端连接;电阻R1的第二端一路连接异或门U1的第二输入端、另一路经电容C1接地;异或门U1的输出端与MOS管M1的栅极连接,MOS管M1的漏极一路经电阻R2连接供电电压、另一路经电容C2接地,MOS管M1的源极接地。
本实施例热重启电路105与冷重启电路106相同。
热重启电路105包括:电阻R3、电容C3、比较器U2、反相器U3、或非门U4。
比较器U2的正向输入端与电阻R2、电容C2之间的节点连接,负向输入端连接第一参考电压;比较器U2输出端一路连接反相器U3输入端、另一路连接电阻R3的第一端;反相器U3的输出端连接或非门U4的第一输入端;电阻R3的第二端一路连接或非门U4的第二输入端、另一路经电容C3接地;或非门U4输出端连接BMC芯片。
冷重启电路106包括:电阻R4、电容C4、比较器U5、反相器U6、或非门U7。
比较器U5的正向输入端与电阻R4、电容C4之间的节点连接,负向输入端连接第一参考电压;比较器U5输出端一路连接反相器U6输入端、另一路连接电阻R4的第一端;反相器U6的输出端连接或非门U7的第一输入端;电阻R4的第二端一路连接或非门U7的第二输入端、另一路经电容C4接地;或非门U7输出端连接可编程逻辑器件的电源。
另外,该***为及时有效提醒工作人员,还设置报警电路,或非门U4输出端还连接报警电路;经第一预设时长心跳信号仍未恢复正常时,报警电路进行报警。
具体实施时,可编程逻辑器件启动,开始载入可编程逻辑器件的固件。固件载入完毕后,可编程逻辑器件通过通用型输入输出引脚,持续送出类似时钟信号的心跳信号给心跳信号判断电路104。若心跳信号判断电路104没有收到心跳信号时,说明可编程逻辑器件宕机,心跳信号判断电路104的RC充放电会持续充电,等电压达到设定的VPH1(热重启电路105重启电压)时,就会启动热重启电路105,去通知BMC做关机动作,热重启可编程逻辑器件,同时通知报警电路报警。若可编程逻辑器件热重启失败,可编程逻辑器件仍然没有送出心跳信号,心跳信号判断电路104的RC充放电会持续充电累积电压,等电压达到设定的VPH2(冷重启电路106重启电压)时,就会启动冷重启电路106,针对可编程逻辑器件的供电做重启,让可编程逻辑器件进行冷重启的动作。
以上公开的仅为本发明的优选实施方式,但本发明并非局限于此,任何本领域的技术人员能思之的没有创造性的变化,以及在不脱离本发明原理前提下所作的若干改进和润饰,都应落在本发明的保护范围内。

Claims (2)

1.一种可编程逻辑器件监控重启***,可编程逻辑器件与BMC芯片连接,其特征在于,包括:心跳信号判断电路、热重启电路、冷重启电路;
心跳信号判断电路的输入端与可编程逻辑器件连接,输出端分别与热重启电路输入端、冷重启电路输入端连接,热重启电路的输出端与BMC芯片连接,冷重启电路的输出端与可编程逻辑器件的电源连接;当心跳信号判断电路判断可编程逻辑器件的心跳信号异常,且经第一预设时长仍未恢复正常时,通过热重启电路通知BMC芯片对可编程逻辑器件进行热重启;若心跳信号判断电路判断经第二预设时长心跳信号仍未恢复正常时,通过冷重启电路控制可编程逻辑器件的电源掉电重启;
心跳信号判断电路包括:电阻R1、电阻R2、电容C1、电容C2、异或门U1、MOS管M1;
可编程逻辑器件的输出端分别与电阻R1的第一端、异或门U1的第一输入端连接;电阻R1的第二端一路连接异或门U1的第二输入端、另一路经电容C1接地;异或门U1的输出端与MOS管M1的栅极连接,MOS管M1的漏极一路经电阻R2连接供电电压、另一路经电容C2接地,MOS管M1的源极接地;
热重启电路包括:电阻R3、电容C3、比较器U2、反相器U3、或非门U4;
比较器U2的正向输入端与电阻R2、电容C2之间的节点连接,负向输入端连接第一参考电压;比较器U2输出端一路连接反相器U3输入端、另一路连接电阻R3的第一端;反相器U3的输出端连接或非门U4的第一输入端;电阻R3的第二端一路连接或非门U4的第二输入端、另一路经电容C3接地;或非门U4输出端连接BMC芯片;
冷重启电路包括:电阻R4、电容C4、比较器U5、反相器U6、或非门U7;
比较器U5的正向输入端与电阻R4、电容C4之间的节点连接,负向输入端连接第一参考电压;比较器U5输出端一路连接反相器U6输入端、另一路连接电阻R4的第一端;反相器U6的输出端连接或非门U7的第一输入端;电阻R4的第二端一路连接或非门U7的第二输入端、另一路经电容C4接地;或非门U7输出端连接可编程逻辑器件的电源。
2.根据权利要求1所述的可编程逻辑器件监控重启***,其特征在于,该***还包括报警电路,或非门U4输出端还连接报警电路;经第一预设时长心跳信号仍未恢复正常时,报警电路进行报警。
CN202010726580.8A 2020-07-25 2020-07-25 一种可编程逻辑器件监控重启方法、装置及*** Active CN111984464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010726580.8A CN111984464B (zh) 2020-07-25 2020-07-25 一种可编程逻辑器件监控重启方法、装置及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010726580.8A CN111984464B (zh) 2020-07-25 2020-07-25 一种可编程逻辑器件监控重启方法、装置及***

Publications (2)

Publication Number Publication Date
CN111984464A CN111984464A (zh) 2020-11-24
CN111984464B true CN111984464B (zh) 2023-01-10

Family

ID=73438188

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010726580.8A Active CN111984464B (zh) 2020-07-25 2020-07-25 一种可编程逻辑器件监控重启方法、装置及***

Country Status (1)

Country Link
CN (1) CN111984464B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038019A (zh) * 2017-12-25 2018-05-15 曙光信息产业(北京)有限公司 一种基板管理控制器的故障自动恢复方法及***
CN209297143U (zh) * 2019-03-14 2019-08-23 杭州海康威视数字技术股份有限公司 一种异常监控***
CN110908839A (zh) * 2019-11-22 2020-03-24 苏州浪潮智能科技有限公司 一种逻辑模块的故障解除方法、装置及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038019A (zh) * 2017-12-25 2018-05-15 曙光信息产业(北京)有限公司 一种基板管理控制器的故障自动恢复方法及***
CN209297143U (zh) * 2019-03-14 2019-08-23 杭州海康威视数字技术股份有限公司 一种异常监控***
CN110908839A (zh) * 2019-11-22 2020-03-24 苏州浪潮智能科技有限公司 一种逻辑模块的故障解除方法、装置及设备

Also Published As

Publication number Publication date
CN111984464A (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN102782603B (zh) 故障安全振荡器监测与报警
JP2012523216A (ja) 電子モジュール形態の無停電電源装置のための回路および方法
CN102903026A (zh) 智能变电站二次设备动态重构***和方法
CN108152746B (zh) 一种检测备用电源组电池活性的方法及***
CN106060859A (zh) Ap故障的检测修复方法以及装置
US9524007B2 (en) Diagnostic systems and methods of finite state machines
JP6138216B2 (ja) 電池キャビネット管理方法、装置及び電池管理システム
CN112035285B (zh) 基于高通平台的硬件看门狗电路***及其监控方法
CN105425932A (zh) 一种整机柜服务器电源的管理方法及***
CN111984464B (zh) 一种可编程逻辑器件监控重启方法、装置及***
CN210899110U (zh) 一种微控制器自动、被动控断电重启电路
CN116820820A (zh) 服务器故障监测方法及***
CN115686935A (zh) 数据备份方法、计算机设备及存储介质
CN115809164A (zh) 嵌入式设备、嵌入式***和分级复位控制方法
CN105426263A (zh) 一种实现金库***安全运行的方法及***
US7017062B2 (en) Method and apparatus for recovering from an overheated microprocessor
GB2105877A (en) Watch-dog timer circuit
CN114415813B (zh) 一种存储阵列的供电方法、装置及服务器
CN115217966B (zh) 差速锁控制器的异常监控方法、装置、设备及存储介质
CN112165246B (zh) 一种电源芯片自重启装置、方法及***
CN107731260A (zh) 一种ssd的供电方法、***及ssd
CN102915258A (zh) 一种看门狗电路的控制方法
CN105391575A (zh) 一种金库控制方法及***
CN214954945U (zh) 升级监控管理电路和嵌入式***
CN117093403B (zh) 看门狗控制电路及其控制方法、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant