CN1632760A - 一种对控制***异常状态信息进行保存的方法 - Google Patents

一种对控制***异常状态信息进行保存的方法 Download PDF

Info

Publication number
CN1632760A
CN1632760A CN 200310121083 CN200310121083A CN1632760A CN 1632760 A CN1632760 A CN 1632760A CN 200310121083 CN200310121083 CN 200310121083 CN 200310121083 A CN200310121083 A CN 200310121083A CN 1632760 A CN1632760 A CN 1632760A
Authority
CN
China
Prior art keywords
control system
information
preserved
reset
watchdog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200310121083
Other languages
English (en)
Other versions
CN100395722C (zh
Inventor
邓兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wang Guozhong
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CNB2003101210831A priority Critical patent/CN100395722C/zh
Publication of CN1632760A publication Critical patent/CN1632760A/zh
Application granted granted Critical
Publication of CN100395722C publication Critical patent/CN100395722C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Debugging And Monitoring (AREA)
  • Retry When Errors Occur (AREA)

Abstract

一种对控制***异常状态信息进行保存的方法,在看门狗***中设置至少两级的计数器,当计数到前一级计数值时,看门狗***触发不可屏蔽中断;控制***利用所述的不可屏蔽中断对该控制***易丢失的信息进行保存;当计数器计数到后一级计数值时,看门狗***触发复位信号对控制***进行复位。本发明提供了一种有效地在控制***软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,利用本发明,***故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要***配置数据的丢失,方便了故障问题的定位分析。

Description

一种对控制***异常状态信息进行保存的方法
技术领域
本发明涉及通信技术领域,尤其涉及一种对控制***异常状态信息进行保存的方法。
背景技术
运营级的通信产品对***的可靠性要求很高,除了对设备平均无故障时间有严格的要求以外,还对设备故障恢复时间要严格要求,一般来说,***设计都使用硬件或者软件看门狗技术来进行***异常监控,能够使***在故障后自动重启,恢复正常运行。
看门狗的原理是使用一个硬件或者软件计数器,设置一个计数器溢出值,在计数器计数到溢出值之前,软件必须定时或者有专门的任务把计数器清零,如果在计数器溢出之前没有被清零,可以认为主控***软件已经异常,计数器会使用溢出指示信号触发***复位。***重新启动后,能够重新加载程序,保证***从故障中自动快速恢复。
现有技术中看门狗电路在触发过程中直接进行***复位重起,这样设备故障时的临时配置数据和硬件中的寄存器数据都因为复位而丢失了,不能对***现场进行保护。***复位重启成为设备网上运行中的一个严重而且难以定位的故障,***一复位,很多保留在数据缓存中的信息会自动清零,CPU的寄存器也会恢复到初始化的值,这样,***故障时的各种软件和硬件状态信息不能被及时记录下来,不利于问题的定位分析,也可能丢失重要的***配置数据,对设备的维护造成较大影响。
发明内容
本发明所要解决的技术问题是:克服现有的看门狗电路在触发过程中直接进行***复位重起所带来的数据丢失、不利于问题的定位分析等缺陷,提供一种对控制***异常状态信息进行保存的方法,从而避免重要信息的丢失,并方便对设备故障的定位分析。
本发明为解决上述技术问题所采用的技术方案为:
这种对控制***异常状态信息进行保存的方法,包括以下步骤:
A、在看门狗***中设置至少两级的计数器,当计数到前一级计数值时,看门狗***触发不可屏蔽中断;
B、控制***利用所述的不可屏蔽中断对该控制***易丢失的信息进行保存;
C、当计数器计数到后一级计数值时,看门狗***触发复位信号对控制***进行复位。
所述的计数器在前、后级计数值之间的时间差大于所述对***信息进行保存所需的时间。
所述的步骤B中,将***信息保存在外部数据存储器中。
所述的外部数据存储器为可擦除可编程只读存储器(EEPROM)。
所述的步骤B中,易丢失的信息是指控制***会因掉电或复位而丢失的数据。
本发明的有益效果为:本发明通过对***看门狗故障原因的分析,扩展了看门狗电路,使用二级或多级计数器,利用CPU的不可屏蔽中断来作为硬件触发信号,提供一种有效地在控制***软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,提高了***的可用性。利用本发明***故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要***配置数据的丢失,方便了故障问题的定位分析。
附图说明
图1为本发明对***异常状态信息进行保存的实现原理示意图。
具体实施方式
下面根据附图和实施例对本发明作进一步详细说明:
经过对大量的看门狗触发问题进行分析,***看门狗被触动,很多情况下并不是CPU死机或者其它硬件问题,而是因为软件设计问题,导致程序在某个模块中等待一个异常条件,形成死循环。由于屏蔽了定时器中断,程序不能去作清狗操作,看门狗溢出造成***复位。
本发明提供一种对控制***异常状态信息进行保存的方法,可以实现在设备进入这种异常状态时提供保存***故障的一个手段,方便设备维护时对难以重现的复位问题的数据收集和对于反复复位重启故障问题的快速分析定位,而且还保持看门狗电路自动快速恢复***正常运行的功能。
如图1所示,本发明利用CPU提供的不可屏蔽外部中断和设计复位电路,给***在复位之前,提供一个保存***故障数据的手段,作为维护的第一手资料,从而提高***故障定位的效率。
在看门狗中设置两级计数器,设当定时器计数到t1时,触发A信号,给主控***一个不可屏蔽中断。主控***可以利用这个不可屏蔽中断程序作***异常状态时各种现场数据的保存,把数据保存在EEPROM(可擦除可编程只读存储器)中,作为将来定位分析使用。再经过一段时间,计数器计数到t2时,看门狗触发B信号作为***复位信号。该信号功能和一般***复位信号功能相同,把***全局复位,这时***重新启动,恢复正常运行。
当计数器计数到t1时,现有技术的看门狗电路直接触发主控***重新启动,而本发明计数器计数到t1时进行***异常状态现场数据的保存,可以保存CPU内部寄存器的数据,也可以保存SDRAM(同步动态随机存储器)上的数据,当计数到t2时再进行***的复位,计数器在t1和t2之间的时间差大于对数据进行保存所需的时间,在计数器计数t1到t2之间时,完成对数据的保存。
不可屏蔽中断触发主控***中断复位程序,中断复位程序可以根据***的不同情况单独考虑,主要是把会因为掉电或复位而丢失的一些重要数据保存到外部数据存储器中,所述外部数据存储器可以是可擦除可编程只读存储器(EEPROM)。
这样,就能够在***启动时通过分析保存的***故障信息,可以作为软件自动诊断的一种手段,判断是否是因为部分硬件或者软件模块错误造成了上次的***故障,一方面可以设计跳过这些软硬件模块的初始化,避免***反复复位;另一方面,自动向网管发送***故障的告警,并提供软件的判断结果,使***维护工程师能够很快的了解***故障并及时升级***,解决故障。
本发明通过对***看门狗故障原因的分析,扩展了看门狗电路,使用二级或多级计数器,利用CPU的不可屏蔽中断作为硬件触发信号,提供了一种有效的在主控***软件异常情况下对现场数据进行保存的方法,并保证了一般看门狗复位电路的功能,提高了***的可用性。利用本发明,***故障时的各种软件和硬件状态信息能被及时记录下来,避免了重要***配置数据的丢失,方便了故障问题的定位分析。
当然,不一定采用两级计数器,也可以采用三级或三级以上的计数器,但只利用其中的一个前面的计数值触发不可屏蔽中断,在计数到这个计数值时,利用该中断去保存控制***易丢失的信息,然后当计数到后面一级的计数值时,看门狗***触发复位信号对控制***进行复位,只要前、后级计数值之间的时间差大于对***信息进行保存所需的时间即可。这样,同样可以实现本发明的目的。本领域技术人员不脱离本发明的实质和精神,还有多种变形方案可以解决本发明所要解决的技术问题,这些变形技术方案同样属于本发明的专利保护范围。

Claims (5)

1、一种对控制***异常状态信息进行保存的方法,其特征在于,包括以下步骤:
A、在看门狗***中设置至少两级的计数器,当计数到前一级计数值时,看门狗***触发不可屏蔽中断;
B、控制***利用所述的不可屏蔽中断对该控制***易丢失的信息进行保存;
C、当计数器计数到后一级计数值时,看门狗***触发复位信号对控制***进行复位。
2、根据权利要求1所述的对控制***异常状态信息进行保存的方法,其特征在于:所述的计数器在前、后级计数值之间的时间差大于所述对***信息进行保存所需的时间。
3、根据权利要求1或2所述的对控制***异常状态信息进行保存的方法,其特征在于:所述的步骤B中,将***信息保存在外部数据存储器中。
4、根据权利要求3所述的对控制***异常状态信息进行保存的方法,其特征在于:所述的外部数据存储器为可擦除可编程只读存储器(EEPROM)。
5、根据权利要求1所述的对控制***异常状态信息进行保存的方法,其特征在于:所述的步骤B中,易丢失的信息是指控制***会因掉电或复位而丢失的数据。
CNB2003101210831A 2003-12-24 2003-12-24 一种对控制***异常状态信息进行保存的方法 Expired - Fee Related CN100395722C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2003101210831A CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制***异常状态信息进行保存的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2003101210831A CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制***异常状态信息进行保存的方法

Publications (2)

Publication Number Publication Date
CN1632760A true CN1632760A (zh) 2005-06-29
CN100395722C CN100395722C (zh) 2008-06-18

Family

ID=34844045

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101210831A Expired - Fee Related CN100395722C (zh) 2003-12-24 2003-12-24 一种对控制***异常状态信息进行保存的方法

Country Status (1)

Country Link
CN (1) CN100395722C (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100365585C (zh) * 2006-10-09 2008-01-30 华为技术有限公司 一种监控硬件狗复位的方法及***
CN100397353C (zh) * 2006-07-26 2008-06-25 华为技术有限公司 一种提高单板异常处理能力的***和方法
CN101895440A (zh) * 2010-07-22 2010-11-24 北京天融信科技有限公司 一种安全网关及其故障检测方法
CN101141510B (zh) * 2007-03-12 2011-05-25 中兴通讯股份有限公司 一种前台单板***失控后的智能复位方法
WO2011091743A1 (en) * 2010-02-01 2011-08-04 Hangzhou H3C Technologies Co., Ltd. Apparatus and method for recording reboot reason of equipment
CN101770404B (zh) * 2008-12-31 2012-08-15 环旭电子股份有限公司 可保存状态的看门狗电路及其保存重启状态方法
CN101751303B (zh) * 2008-12-17 2012-09-19 Tcl集团股份有限公司 一种嵌入式设备中的看门狗***及其控制方法
CN101604265B (zh) * 2008-06-13 2012-11-14 艾默生网络能源***北美公司 一种看门狗电路复位锁定屏蔽电路
CN103036778A (zh) * 2012-12-18 2013-04-10 上海斐讯数据通信技术有限公司 一种家庭网关设备中防止设备僵死的装置和方法
CN103186461A (zh) * 2011-12-30 2013-07-03 重庆重邮信科通信技术有限公司 一种现场数据的保存方法和恢复方法以及相关装置
CN109062718A (zh) * 2018-07-12 2018-12-21 联想(北京)有限公司 一种服务器及数据处理方法
CN109739675A (zh) * 2018-12-24 2019-05-10 深圳航天东方红海特卫星有限公司 一种利用硬件看门狗捕捉程序异常的方法
CN110377350A (zh) * 2019-07-18 2019-10-25 深圳市同泰怡信息技术有限公司 一种初始化服务器设备的方法和装置以及设备
CN110990229A (zh) * 2019-12-17 2020-04-10 北京天融信网络安全技术有限公司 一种***信息采集方法及装置
CN112748791A (zh) * 2021-01-19 2021-05-04 中国科学院微小卫星创新研究院 卫星综合电子计算机自主切机方法
WO2022135429A1 (zh) * 2020-12-23 2022-06-30 华为技术有限公司 快速启动方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521098B (zh) * 2011-11-23 2014-12-10 中兴通讯股份有限公司 Cpu死机监控的处理方法和装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60263235A (ja) * 1984-06-12 1985-12-26 Omron Tateisi Electronics Co マイクロコンピユ−タシステム
KR100206887B1 (ko) * 1995-12-31 1999-07-01 구본준 프로그램 오동작 방지를 위한 씨피유
US6625749B1 (en) * 1999-12-21 2003-09-23 Intel Corporation Firmware mechanism for correcting soft errors
US6526528B1 (en) * 2000-01-19 2003-02-25 Bae Systems Controls, Inc. Ticket punch watchdog monitor
CN1400529A (zh) * 2001-07-30 2003-03-05 华为技术有限公司 一种实时嵌入***的故障定位方法
CN1352427A (zh) * 2001-11-26 2002-06-05 北京实达铭泰计算机应用技术开发有限公司 一种计算机***恢复方法

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100397353C (zh) * 2006-07-26 2008-06-25 华为技术有限公司 一种提高单板异常处理能力的***和方法
CN100365585C (zh) * 2006-10-09 2008-01-30 华为技术有限公司 一种监控硬件狗复位的方法及***
CN101141510B (zh) * 2007-03-12 2011-05-25 中兴通讯股份有限公司 一种前台单板***失控后的智能复位方法
CN101604265B (zh) * 2008-06-13 2012-11-14 艾默生网络能源***北美公司 一种看门狗电路复位锁定屏蔽电路
CN101751303B (zh) * 2008-12-17 2012-09-19 Tcl集团股份有限公司 一种嵌入式设备中的看门狗***及其控制方法
CN101770404B (zh) * 2008-12-31 2012-08-15 环旭电子股份有限公司 可保存状态的看门狗电路及其保存重启状态方法
WO2011091743A1 (en) * 2010-02-01 2011-08-04 Hangzhou H3C Technologies Co., Ltd. Apparatus and method for recording reboot reason of equipment
US8713367B2 (en) 2010-02-01 2014-04-29 Hangzhou H3C Technologies Co., Ltd. Apparatus and method for recording reboot reason of equipment
CN101895440A (zh) * 2010-07-22 2010-11-24 北京天融信科技有限公司 一种安全网关及其故障检测方法
CN101895440B (zh) * 2010-07-22 2012-07-04 北京天融信科技有限公司 一种安全网关及其故障检测方法
CN103186461A (zh) * 2011-12-30 2013-07-03 重庆重邮信科通信技术有限公司 一种现场数据的保存方法和恢复方法以及相关装置
CN103186461B (zh) * 2011-12-30 2016-07-06 重庆重邮信科通信技术有限公司 一种现场数据的保存方法和恢复方法以及相关装置
CN103036778A (zh) * 2012-12-18 2013-04-10 上海斐讯数据通信技术有限公司 一种家庭网关设备中防止设备僵死的装置和方法
CN103036778B (zh) * 2012-12-18 2018-05-01 上海斐讯数据通信技术有限公司 一种家庭网关设备中防止设备僵死的装置和方法
CN109062718A (zh) * 2018-07-12 2018-12-21 联想(北京)有限公司 一种服务器及数据处理方法
CN109739675A (zh) * 2018-12-24 2019-05-10 深圳航天东方红海特卫星有限公司 一种利用硬件看门狗捕捉程序异常的方法
CN110377350A (zh) * 2019-07-18 2019-10-25 深圳市同泰怡信息技术有限公司 一种初始化服务器设备的方法和装置以及设备
CN110990229A (zh) * 2019-12-17 2020-04-10 北京天融信网络安全技术有限公司 一种***信息采集方法及装置
CN110990229B (zh) * 2019-12-17 2023-07-18 北京天融信网络安全技术有限公司 一种***信息采集方法及装置
WO2022135429A1 (zh) * 2020-12-23 2022-06-30 华为技术有限公司 快速启动方法
CN112748791A (zh) * 2021-01-19 2021-05-04 中国科学院微小卫星创新研究院 卫星综合电子计算机自主切机方法

Also Published As

Publication number Publication date
CN100395722C (zh) 2008-06-18

Similar Documents

Publication Publication Date Title
CN100395722C (zh) 一种对控制***异常状态信息进行保存的方法
CN102761439B (zh) Pon接入***中基于看门狗的异常检测记录装置及方法
US8448013B2 (en) Failure-specific data collection and recovery for enterprise storage controllers
CN100359481C (zh) 多任务***的异常监控装置及其方法
US20160055046A1 (en) System fault detection and processing method, device, and computer readable storage medium
US20110072299A1 (en) Leak monitoring system and associated methods
CN105607973B (zh) 一种虚拟机***中设备故障处理的方法、装置及***
CN103268277A (zh) 一种输出日志信息的方法及***
EP3025233B1 (en) Robust hardware/software error recovery system
CN102591591A (zh) 磁盘检测***、磁盘检测方法以及网络存储***
EP3591485B1 (en) Method and device for monitoring for equipment failure
CN104320308A (zh) 一种服务器异常检测的方法及装置
CN101145983B (zh) 一种网管***的自诊断和自恢复子***及方法
CN107168773A (zh) 一种jvm崩溃后问题定位及应用恢复的处理方法及装置
CN105426263B (zh) 一种实现金库***安全运行的方法及***
US9104575B2 (en) Reduced-impact error recovery in multi-core storage-system components
CN1400529A (zh) 一种实时嵌入***的故障定位方法
CN102662787A (zh) 一种保护***盘raid的方法
CN102792278A (zh) 计算环境中的诊断数据捕获
CN111159051B (zh) 死锁检测方法、装置、电子设备及可读存储介质
CN108108259A (zh) 一种内核故障定位方法及装置
CN116680055A (zh) 一种异步任务处理方法、装置、计算机设备及存储介质
JPH02294739A (ja) 障害検出方式
CN116010134A (zh) 应用与***自动恢复的方法、***、设备、介质
CN101369238A (zh) Usb设备中异常监控复位处理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170920

Address after: 253600, Cao village, 228 Ding Ding Town, Dezhou City, Shandong, Leling

Patentee after: Wang Guozhong

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: Huawei Technologies Co., Ltd.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080618

Termination date: 20171224