CN103391207B - 异构的故障管理*** - Google Patents

异构的故障管理*** Download PDF

Info

Publication number
CN103391207B
CN103391207B CN201210139929.3A CN201210139929A CN103391207B CN 103391207 B CN103391207 B CN 103391207B CN 201210139929 A CN201210139929 A CN 201210139929A CN 103391207 B CN103391207 B CN 103391207B
Authority
CN
China
Prior art keywords
fault
management module
fault management
task
isomery
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210139929.3A
Other languages
English (en)
Other versions
CN103391207A (zh
Inventor
姚军
赵磊
袁跃峰
张小林
左德参
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI FITSCO INTELLIGENT TRAFFIC CONTROL CO Ltd
Original Assignee
SHANGHAI FITSCO INTELLIGENT TRAFFIC CONTROL CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI FITSCO INTELLIGENT TRAFFIC CONTROL CO Ltd filed Critical SHANGHAI FITSCO INTELLIGENT TRAFFIC CONTROL CO Ltd
Priority to CN201210139929.3A priority Critical patent/CN103391207B/zh
Publication of CN103391207A publication Critical patent/CN103391207A/zh
Application granted granted Critical
Publication of CN103391207B publication Critical patent/CN103391207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种异构的故障管理***,***故障管理模块是由两个异构的故障管理模块组成,两个故障管理模块分别采取被动接收和主动查询的方式运行,当任何一个故障管理模块启动时,***就进入故障管理模式。本发明的故障管理模块一被动收集故障报警信息,而故障管理模块二主动确认任务的正常工作状态。这两种故障管理模块通过两个不同的渠道来监控任务执行,有效地保障了***故障管理的执行。故障管理模块二对任务的监控可根据任务的特点采用多种方式,灵活性好。故障管理模块一反应迅速,而故障管理模块二判定故障更加严格。两种故障管理模块的组合使用可使***能迅速对故障做出响应,并在任何一个故障管理模块出现问题时,也不会造成***故障管理功能失效。

Description

异构的故障管理***
技术领域
本发明属于软件算法领域,用于执行轨道交通安全产品的故障管理功能。例如,轨道交通安全计算机平台,列车自动防护等。
背景技术
在工业控制***和安全信号***中(应用于航空电子、铁路信号、核电等行业),在故障状态下采取措施尽量避免或者减少故障对人身和财产的损害,故障管理任务的正确执行对于保证***的安全可靠有着极其重要的作用。当故障发生时,故障管理功能如果不能及时响应,***发生安全事故的可能性就大为增加。因此,必须保证故障管理功能在各种情况下都能正常工作。现有的故障管理技术侧重点有所不同,下面列举3个现有的技术。
1.IBM,US patent No.6,654,910,“Intelligent fault management”,阐述了用于汽车电子的智能故障管理方法,能保证***的最短故障恢复时间和高可用性。控制***是由多个逻辑控制单元组成,每个逻辑控制单元都有相应的故障监测方法。当检测到故障时,控制单元会降级***性能,并通知其它控制单元。
2.NEC,US patent 7,003,696,“Fault management system for switchingequipment”,描述了一个交换设备的故障管理***。当一个交换设备的处理器或者电路出现可恢复的故障时,相关的故障终端能够被自动检测到。当一个时钟故障检测装置检测到时钟信号故障时,它会报告给中央故障管理***。中央故障管理***发出处理器和***电路复位信号,并报告给外部显示终端。
3.罗伯特.博世有限公司,CN200780036171.8,“用于故障处理的方法和装置”。描述了在具有多个组件的***中进行故障管理的方法,其核心是能够借助于状态值来表明所述组件的故障状态,而且组件之间的状态值有一定的依赖关系。
以上这3种方法也都是采取组合式的故障管理方法,但区别于本专利中的主动查询和被动响应(一正一反)相结合的运行方式,而且每个故障管理模块的具体处理方式也有较大差异。
发明内容:
本发明要解决的技术问题是提供一种异构的故障管理***,其可以可靠的进行故障管理、预警。
为了解决以上技术问题,本发明提供了一种异构的故障管理***,***故障管理模块是由两个异构的故障管理模块组成,两个故障管理模块分别采取被动接收和主动查询的方式运行,当任何一个故障管理模块启动时,***就进入故障管理模式。
本发明的有益效果在于:故障管理模块一被动收集故障报警信息,而故障管理模块二主动确认任务的正常工作状态。这两种故障管理模块通过两个不同的渠道来监控任务执行,有效地保障了***故障管理的执行。故障管理模块二对任务的监控可根据任务的特点采用多种方式,灵活性好。故障管理模块一反应迅速,而故障管理模块二判定故障更加严格。两种故障管理模块的组合使用可使***能迅速对故障做出响应,并在任何一个故障管理模块出现问题时,也不会造成***故障管理功能失效。
故障管理模块一采取被动接收的方式运行,实时监控任务发送来的故障报警信息。当未收到故障报警信息时,认为***运行正常。如果收到故障报警信息,则立即启动故障反应机制。
故障管理模块一采用实时监控并接收错误信息汇报的方式,运行起来后就一直处于监听的状态;所有软件任务中都有多个故障检查点,当有故障出现时,检测程序确定故障类型和等级,并触发故障报警信号量,把故障信息写入到指定的消息队列;故障管理模块一收到故障报警信号量后,立即启动并从故障消息队列中取出故障报警信息,根据故障类型和等级作出警告、离线运行或者停机等不同的处理。
故障管理模块二采取主动查询的方式运行,周期运行任务监控,当所监控的任务每个周期都能主动地报告各自的工作状态,认为***运行正常,如果有任何任务没有在特定的时间内汇报工作状态,故障管理模块二启动故障反应机制。
故障管理模块二通过多个全局变量来检查被监控任务的正常工作状态;每个任务如果能够正常工作,它们可以正确操作相应的全局变量;故障管理模块二通过全局变量的检查来确定所监控任务的工作状态;如果所有任务都能正确处理全局变量,则故障管理模块二认为***工作正常,不触发故障管理功能;如果此故障管理模块二发现任何监控的任务不能正确操作全局变量,就判断某个任务出现故障,并启动故障管理模块进行处理。
附图说明:
图1是***故障管理功能的结构图。
图2是故障管理模块一的工作流程图。
图3是故障管理模块二的工作流程图。
具体实施方式:
本发明提供一种异构的故障管理***,该算法能够应用于包括但并不局限于安全信号***、工业控制***等领域。具体过程如下:***的故障管理功能依赖于两种异构的故障管理***的协同工作。当任意一种故障管理方法检测到故障时,***就进入故障管理模式。***的故障管理功能架构参见图1。假定两种故障管理方法分别由故障管理模块一和故障管理模块二实现。如图2所示,故障管理模块一采用实时监控并接收错误信息汇报的方式,运行起来后就一直处于监听的状态。所有软件任务中都有多个故障检查点,当有故障出现时,检测程序确定故障类型和等级,并触发故障报警信号量,把故障信息写入到指定的消息队列。故障管理模块一收到故障报警信号量后,立即启动并从故障消息队列中取出故障报警信息,根据故障类型和等级作出警告、离线运行或者停机等不同的处理。
如图3所示,故障管理模块二通过多个全局变量来检查被监控任务的正常工作状态。每个任务如果能够正常工作,它们可以正确操作相应的全局变量。故障管理模块二通过全局变量的检查来确定所监控任务的工作状态。如果所有任务都能正确处理全局变量,则故障管理模块二认为***工作正常,不触发故障管理功能。如果此故障管理模块二发现任何监控的任务不能正确操作全局变量,就判断某个任务出现故障,并启动故障管理模块进行处理。当两种故障管理方法中的任何一个检测到故障并进入故障处理,整个***就进入故障模式,并迫使***进入安全状态。
故障管理模块一的工作过程:
1)首先要确定故障管理模块一所监控的任务,并尽可能详尽地考虑到每个任务会出现的各种故障,并对每个任务的故障进行编号并分类。当检测程序检测到故障发生时,将故障信号量设置为“True”,并将故障编号、故障等级和处理方式等信息打包写入故障消息队列中。为了保证能准确地将严重故障信息报送出来,故障消息在写入队列的时候可以添加校验信息,例如CRC值。并且故障消息的内容之间也会有特定的逻辑关系,例如相应的故障等级会有特定的故障处理方式。如果故障处理中发现故障信息的信息校验不正确或者逻辑不符,直接使设备进入离线状态或者由操作人员决定后续的处理。
2)故障管理模块一必须对所监控任务的故障信息代码划分故障等级,每种故障等级的处理措施也不相同。当故障管理模块一收到故障信息后,可以根据故障信息的代码判断出故障的发生地,故障等级和故障状况。由于故障等级已经预先设定,故障管理模块一可以根据故障信息的代码决定后续的措施。我们目前设计的故障处理通常可以分为报警、离线运行和停机三种状态。
3)故障管理模块一运行后就一直处于监听状态。当检测到故障信号量置位后,会立刻从故障消息队列中获取故障信息,并启动故障处理,使***进入故障管理模式。
故障管理模块二的工作过程:
1)首先要确定故障管理模块二所监控的任务。这里所监控的任务可以与故障管理模块一有所不同,并制定每个任务正常工作时必须与故障管理模块二所进行的交互。例如,每个任务触发故障管理模块二的时间要求(一个周期或者多个周期)和交互形式(函数调用,全局变量的操作,信号量的置位,应答式的交互等)。
2)假定故障管理模块二采用监控全局变量的形式来检查每个任务的状态。在每个周期内,被监控任务都要根据预先设定的算法去操作自己的全局变量。全局变量的初值可以由故障管理模块二在每个周期随机给出。当所有监控任务都能正确地操作自己的全局变量,故障管理模块二就认为监控任务工作正常。如果任意一个任务在规定时间内没有或者错误地操作了相应的全局变量,故障管理模块二就会触发***进入故障处理状态。不同的任务可以产生不同的故障类别和等级。
3)故障管理模块二的启动可以由定时中断触发,周期运行。任务的检查间隔可以分为一个或者多个周期。此参数可以由故障管理模块二从相应的配置文件中读取。
4)如果所有的任务都能在规定的时间内操作全局变量,并且通过故障管理模块二的校验,则故障管理模块二认为***工作正常。如果某个任务未能如期完成与故障管理模块二所规定的动作,故障管理模块二启动,记录相应的故障信息,并使***进入故障处理模式。***的故障处理可以分为报警、离线运行和停机三种。
5)故障管理模块二也可采用直接应答交互的检查方式来判断被监控任务的工作状态。故障管理模块二可以通过信号量发送检查请求,并将请求信息写入到相应的消息队列中。被监控任务如果能够在规定的时间内按照请求信息返回数据,并且通过故障管理模快二的验证,则不触发故障状态。否则将启动故障状态。
故障管理模块二也可以检查的一个总体的全局变量,而这个全局变量的最后结果应该是所有被监控任务的操作集合。也可以采用多个故障管理通道的组合,每个故障管理通道负责不同类型或者等级的故障处理。
本发明故障管理模块一被动收集故障报警信息,而故障管理模块二主动确认任务的正常工作状态。这两种故障管理模块通过两个不同的渠道来监控任务执行,有效地保障了***故障管理的执行。故障管理模块二对任务的监控可根据任务的特点采用多种方式,灵活性好。故障管理模块一反应迅速,而故障管理模块二判定故障更加严格。两种故障管理模块的组合使用可使***能迅速对故障做出响应,并在任何一个故障管理模块出现问题时,也不会造成***故障管理功能失效。
故障管理处理方式一中采用了信号量和消息队列的故障接收和处理方式,故障处理方式二中采用了中断启动和全局变量监控任务轮询的处理方式。从具体技术处理手段上讲,这两种故障处理方式都有自己的特点,是自己发明的技术。并且两种故障组合处理的增强方式在轨道交通领域应该是有独创性的。
本发明并不限于上文讨论的实施方式。以上对具体实施方式的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法,以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。

Claims (5)

1.一种异构的故障管理***,其特征在于,***故障管理模块是由两个异构的故障管理模块组成,用于在工业控制***或安全信号***中实现故障管理,两个故障管理模块分别采取被动接收和主动查询的方式运行,两个异构的故障管理模块协同工作,当任何一个故障管理模块启动时,***就进入故障管理模式。
2.如权利要求1所述的异构的故障管理***,其特征在于,故障管理模块一采取被动接收的方式运行,实时监控任务发送来的故障报警信息;当未收到故障报警信息时,认为***运行正常;如果收到故障报警信息,则立即启动故障反应机制。
3.如权利要求2所述的异构的故障管理***,其特征在于,故障管理模块一采用实时监控并接收错误信息汇报的方式,运行起来后就一直处于监听的状态;所有软件任务中都有多个故障检查点,当有故障出现时,检测程序确定故障类型和等级,并触发故障报警信号量,把故障信息写入到指定的消息队列;故障管理模块一收到故障报警信号量后,立即启动并从故障消息队列中取出故障报警信息,根据故障类型和等级作出警告、离线运行或者停机处理。
4.如权利要求1所述的异构的故障管理***,其特征在于,故障管理模块二采取主动查询的方式运行,周期运行任务监控,当所监控的任务每个周期都能主动地报告各自的工作状态,认为***运行正常,如果有任何任务没有在特定的时间内汇报工作状态,故障管理模块二启动故障反应机制。
5.如权利要求4所述的异构的故障管理***,其特征在于,故障管理模块二通过多个全局变量来检查被监控任务的正常工作状态;每个任务如果能够正常工作,它们可以正确操作相应的全局变量;故障管理模块二通过全局变量的检查来确定所监控任务的工作状态;如果所有任务都能正确处理全局变量,则故障管理模块二认为***工作正常,不触发故障管理功能;如果此故障管理模块二发现任何监控的任务不能正确操作全局变量,就判断某个任务出现故障,并启动故障管理模块进行处理。
CN201210139929.3A 2012-05-08 2012-05-08 异构的故障管理*** Active CN103391207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210139929.3A CN103391207B (zh) 2012-05-08 2012-05-08 异构的故障管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210139929.3A CN103391207B (zh) 2012-05-08 2012-05-08 异构的故障管理***

Publications (2)

Publication Number Publication Date
CN103391207A CN103391207A (zh) 2013-11-13
CN103391207B true CN103391207B (zh) 2016-11-16

Family

ID=49535371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210139929.3A Active CN103391207B (zh) 2012-05-08 2012-05-08 异构的故障管理***

Country Status (1)

Country Link
CN (1) CN103391207B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113043969B (zh) * 2021-03-26 2022-12-16 中汽创智科技有限公司 一种车辆功能安全监控方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1819531A (zh) * 2006-03-21 2006-08-16 南京邮电大学 基于移动代理的部落式大规模网络故障管理办法
CN101114945A (zh) * 2007-09-04 2008-01-30 华为技术有限公司 控制告警流量的方法、管理设备、被管设备和***
CN102017537A (zh) * 2008-04-30 2011-04-13 松下电工株式会社 设备管理***
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1819531A (zh) * 2006-03-21 2006-08-16 南京邮电大学 基于移动代理的部落式大规模网络故障管理办法
CN101114945A (zh) * 2007-09-04 2008-01-30 华为技术有限公司 控制告警流量的方法、管理设备、被管设备和***
CN102017537A (zh) * 2008-04-30 2011-04-13 松下电工株式会社 设备管理***
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于异构网络的分布式故障管理模型;朱永娇;《邵阳师范高等专科学校学报》;20020430;第24卷(第2期);第76~78页 *
一种基于贝叶斯网络的集成的故障定位模型;钟仕群,等;《计算机技术与发展》;20061231;第16卷(第12期);第13~15页,第18页 *

Also Published As

Publication number Publication date
CN103391207A (zh) 2013-11-13

Similar Documents

Publication Publication Date Title
CN110955571B (zh) 面向车规级芯片功能安全的故障管理***
KR20190079809A (ko) 결함 주입 테스트 장치 및 그 방법
CN103699111B (zh) 分布式监控***的故障检测方法和装置
CN102364448A (zh) 一种计算机故障管理***的容错方法
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和***
CN112383457B (zh) 一种基于CANopen协议的安全从站***
CN104283718A (zh) 网络设备及用于网络设备的硬件故障诊断方法
CN106151170A (zh) 一种液压***的故障诊断方法、装置及翻车机
CN104104542A (zh) 一种基于rs485的实时智能排障方法
KR101023533B1 (ko) 고속철도 에이티시의 실시간 원격복구 시스템 및 그 제어방법
CN103391207B (zh) 异构的故障管理***
CN103995759B (zh) 基于核内外协同的高可用计算机***故障处理方法及装置
CN101820317A (zh) 实现保护组保护倒换的方法及***
CN108241355B (zh) 安检机的故障恢复方法、***及安检机
Weber et al. Diagnosis and repair of dependent failures in the control system of a mobile autonomous robot
CN114153189B (zh) 一种自动驾驶控制器安全诊断及保护方法、***及存储装置
CN102867556A (zh) 核电站dcs安注***信号失效的故障处理方法及***
Syrotkina et al. Mathematical Methods for Detecting and Localizing Failures in Complex Hardware/Software Systems
Grunske Transformational patterns for the improvement of safety properties in architectural specification
CN111401760B (zh) 一种安全稳定控制装置异常处置决策方法及装置
CN110991673B (zh) 用于复杂***的故障隔离和定位方法
CN102780576A (zh) 故障产生和消失的上报方法及装置
EP4256354B1 (en) Safety mechanisms for artificial intelligence units used in safety critical applications
US11662764B2 (en) Method for controlling and automatically restarting a technical apparatus

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant