WO2014161373A1

WO2014161373A1 - 一种***故障检测及处理方法、装置和计算机可读存储介质

Info

Publication number: WO2014161373A1
Application number: PCT/CN2014/070187
Authority: WO
Inventors: 于光波; 朱怀云; 邱静
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-04-01
Filing date: 2014-01-06
Publication date: 2014-10-09
Also published as: CN104102572A; EP2983086A1; US20160055046A1; EP2983086A4; US9720761B2

Abstract

公开了一种***故障检测及处理方法、装置和计算机可读存储介质，方法包括：中断服务程序发送一级喂狗信号，并接收***检测任务的二级喂狗信号（S101）；在检测到任务死循环或任务异常时，根据预先设定的处理策略进行***异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则中断服务程序停止发送一级喂狗信号，进行***重启（S102）。

Description

一种***故障检测及处理方法、装置和计算机可读存储介庸技术领域

本发明涉及软件***故障检测处理技术领域，特别是涉及一种***故障检测及处理方法、装置和计算机可读存储介质。背景技术

在软件***启动和运行过程中，常常会发生故障导致***无法工作，如： ***硬件吊死、操作***崩溃、任务异常、任务死循环、中断过频等。对于通信***软件来说，在软件***发生故障时，能够自动识别任务异常状态，并根据用户的配置策略，进行相应的故障异常告警、记录以及*** 恢复，这都是必不可少的功能。特别是对于那些实时性要求较高的支持语音业务的***，在***运行到任何阶段，遇到任何故障，都要求能够完全准确的异常识别、异常信息记录和自恢复处理。

现有的软件***故障检测及自恢复方法，一般采用硬件狗或者软件看门狗技术。硬件狗就是一个简单的定时复位器件，其需要软件来定时为其产生脉冲喂狗信号，一旦超过定时门限（一般 1到 2秒）没有为其产生脉冲喂狗信号，则其会自动产生硬件复位信号，触发***复位。软件看门狗技术其实现原理是为了解决硬件狗时间太短的问题，通过一些简单的心跳消息或者同步监听机制来增加硬件看门狗的复位时间。这些方法虽然简单易行，比较可靠，但是也有其自身缺陷：不能对***所出现的所有异常情况进行检测；不能对***中的特殊应用情况进行监控；不能对***故障类型进行分类日志记录。发明内容

为解决现有存在的技术问题，本发明实施例提供一种***故障检测及处理方法、装置和计算机可读存储介质。

一方面，本发明实施例提供一种***故障检测及处理方法，包括：中断服务程序发送一级喂狗信号，并接收***检测任务的二级喂狗信号；

在检测到任务死循环或任务异常时，根据预先设定的处理策略进行系统异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则中断服务程序停止发送一级喂狗信号，进行***重启。

其中，当***出现操作***崩溃或者硬件异常时，***自动重启恢复。其中，当中断超过设定阈值、比所述***检测任务优先级更高的任务忙、 ***启动期间***异常或所述***检测任务自身异常挂起时，中断服务程序接收不到所述二级喂狗信号。

其中，进行任务死循环检测时，包括：

***检测任务定时二级软件喂狗，低优先级死循环辅助任务定时死循环保活维持；

定时统计中央处理器 CPU占有率；

判断统计得到的 CPU占有率是否高于 CPU死循环判断门限值，如果否，则判定上述任务没有出现任务死循环；如果是，则判断低优先级死循环辅助任务是否保活置位，如果是，则判定没有出现死循环，如果否，则进行告警，通知维护人员分析；

判断***检测任务在采样检测时间段内是否只处理了一个消息，如果否，则进行告警，通知维护人员分析；如果是，则判定该任务处于死循环状态。

其中，进行任务异常检测时，包括：

定时检测所有任务的工作状态；

根据检测到的任务工作状态，以及结合预先配置的任务异常判断策略，进行任务异常检测。另一方面，本发明实施例还提供一种***故障检测及处理装置，包括：信号处理模块，配置为使中断服务程序发送一级喂狗信号，并接收系统检测任务的二级喂狗信号；

异常处理模块，配置为在检测到任务死循环或任务异常时，根据预先设定的处理策略进行***异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则令中断服务程序停止发送一级喂狗信号，进行***重启。

其中，所述装置还包括：

自重启模块，配置为当***出现操作***崩溃或者硬件异常时， *** 自动重启恢复。

其中，当中断超过设定阈值、比所述***检测任务优先级更高的任务忙、 ***启动期间***异常或所述***检测任务自身异常挂起时，中断服务程序接收不到所述二级喂狗信号。

其中，所述装置还包括：

CPU 占有率统计模块，配置为***检测任务定时二级软件喂狗，低优先级死循环辅助任务定时死循环保活维持时，定时统计中央处理器 CPU占有率；

任务死循环检测模块，配置为***检测任务判断统计得到的 CPU占有率是否高于 CPU死循环判断门限值，如果否，则判定上述任务没有出现任务死循环；如果是，则判断低优先级死循环辅助任务是否保活置位，如果是，则判定没有出现死循环，如果否，则进行告警，通知维护人员分析；所述任务死循环检测模块还配置为，判断***检测任务在采样检测时间段内是否只处理了一个消息，如果否，则进行告警，通知维护人员分析，如果是，则判定该任务处于死循环状态。

其中，所述装置还包括：

任务工作状态检测模块，配置为定时检测所有任务的工作状态；任务异常检测模块，配置为根据检测到的任务工作状态，以及结合预先配置的任务异常判断策略，进行任务异常检测。

本发明实施例还提供一种计算机可读存储介质，该存储介质包括一组计算机可执行指令，所述指令用于执行本发明实施例所述的***故障检测及处理方法。

本发明实施例有益效果如下：

本发明实施例可以实现软件***的故障自动检测，并根据用户策略自动恢复***；能够同时检测***启动过程和***运行过程的***异常，并自动恢复；能够对***运行过程中的异常类型分类识别，并根据用户策略进行异常判断和自恢复； ***异常检测和自恢复策略用户可配置，异常原因可以己录，可查询。附图说明

图 1 是本发明实施例中一种***故障检测及处理方法的流程图；图 2 是本发明实施例中一种***故障检测及处理装置的结构示意图。具体实施方式

以下结合附图以及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不限定本发明。

如图 1所示，本发明实施例涉及一种***故障检测及处理方法，包括：步骤 S101，中断服务程序发送一级喂狗信号，并接收***检测任务的二级喂狗信号；

本步骤，中断服务程序正常一级硬件喂狗（发送一级喂狗信），当*** 出现操作***崩溃或者硬件异常，中断服务程序无法工作，硬件狗产生自动复位。

***启动，中断服务程序开始一级硬件喂狗，待高优先级的***检测任务启动， ***检测任务开始二级软件喂狗（发送二级喂狗信号），这段系统启动期间内如果发生***异常，则将导致二级软件喂狗无法及时完成，从而停止一级硬件喂狗， ***将记录日志为启动异常、并同时自动复位。

***启动后，高优先级***检测任务正常运行，如果出现中断超过设定阈值（中断过频），或者比***检测任务更高优先级的任务忙，则将导致二级软件喂狗无法及时完成，从而停止一级硬件喂狗， ***将记录日志并自动复位。另外，如果出现（高优先级） ***检测任务由于自身异常导致挂起，也会造成无法二级软件喂狗，一级硬件喂狗停止， ***将记录日志并自动复位。其中，比***检测任务更高优先级的任务忙，是指比***检测任务更高优先级的任务的 CPU ( Central Processing Unit, 中央处理器 ) 占有率超过预定门限值。

步骤 S102，在检测到任务死循环或任务异常时，根据预先设定的处理策略进行***异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则中断服务程序停止发送一级喂狗信号，进行***重启。

本步骤中，任务死循环检测，包括：定时统计任务的 CPU占有率；并根据预先配置的 CPU死循环判断门限值和死循环判断策略，进行任务死循环判断。任务死循环判断策略是由用户预先配置的，由用户根据任务特性、使用环境等因素进行配置，通常情况，任务的 CPU占有率超过 CPU死循环判断门限值则认为任务死循环，当然，也可以设置例外情况。例如，一个低优先级死循环辅助任务，该任务的存在允许其他任务的 CPU占有率超过 CPU死循环判断门限值（在嵌入式***中允许一些低优先级任务，比如 idle 任务一直很忙，但对***的正常功能没有影响）；位于特殊忙任务列表内的任务，允许这些特殊任务的 CPU占有率超过 CPU死循环判断门限值 (一些关键任务在运行某些功能时在某段时间允许比较忙，不应该被看做任务异常忙）。另外，还需要进行任务死循环确认步骤，即至少在两次采样时间内都判定任务死循环，才可以认定该任务为死循环。

任务异常检测时，包括：定时检测所有任务工作状态；根据任务异常判断策略进行任务异常判断。任务异常判断策略由用户预先配置，用户可以根据实际情况进行不同配置。例如：只有判定任务为关键任务（关键任务指任务异常会影响到***基本功能，必须马上恢复的任务；关键任务可以动态配置）异常时才进行自恢复（重启）操作；也可以当判定每个普通任务异常时，都可进行自恢复操作；也可以认为每个任务异常都不进行自恢复操作。任务异常检测也需要包括任务异常确认步骤，即至少两次采样时间内都判定任务异常才最终判定该任务异常。

***自恢复处理，包括：判断***异常（任务死循环或任务异常）后是否立即复位，如果是，立即复位，如果否，则根据***自恢复等待时间而定，该等待时间可预先配置； ***异常等待时间到之后，复位条件判断，如果满足复位条件则立即复位；如果不满足则在等待默认时间后复位；系统异常不复位，则告警或者日志记录。 ***异常日志记录包括：日志记录到内存或者记录到文件***。

下面给出分别给出具体实施例，以进一步详细说明。

首先，本发明实施例所述防范在***启动或正常运行过程中的流程包括如下步骤：

步骤 S201 : ***启动，中断服务程序开始工作，并设置默认中断计数次数。默认中断计数次数根据***正常启动时间而定，比如***正常启动时间最长为 5 分钟，每次中断时间是 10 毫秒，则中断计数次数为 5*60*1000/10=30000。

步骤 S202: 每次中断到来时，中断计数次数减 1，中断服务程序进行一级硬件喂狗。如果此时***硬件异常、操作***崩溃等导致中断服务程序无法工作，则一级硬件喂狗停止， ***重启。

由于硬件看门狗喂狗门限一般为 1到 2秒，因此为了保证***能够正常工作， ***启动过程中的其它任务在关中断时要特别关注，如果关中断时间比较长（超过喂狗门限）的，需要在代码中添加喂狗点，即在关中断中进行一级喂狗，以防止正常的关中断导致***重启。

另外，每次中断到来时，同时进行中断计数是否大于 0 的判断，如果是，则等待下次中断到来，直至***检测任务启动，转步骤 S203; 如果否，即中断计数等于 0，说明高优先级***检测任务没有正常启动工作，即在系统启动过程中遇到异常，这种情况相当于二级软件喂狗失效，则记录原因为启动异常，停止一级硬件喂狗， ***将重启。

步骤 S203 : 高优先级***检测任务启动，开始定时二级软件喂狗，重新设置中断计数次数，中断计数次数根据***正常运行时任务死循环判断的及时性而定，如果死循环判断要求比较及时，数值则可以设置较小，相反则较大；比如： ***二级软件喂狗时间要求为 3 分钟，每次中断时间是 10毫秒，则中断计数次数为 3 X 60 X 1000/10=18000。

其中，高优先级***检测任务二级软件喂狗定时时间可以根据中断计数次数，得到一个经验值，例如，可以设置成 30秒二级软件喂狗一次。

步骤 S204: 当比高优先级***检测任务优先级更高的任务忙，中断过频，或者高优先级任务异常挂起，即： 3分钟内没有一次二级软件喂狗，则中断计数次数为 0， ***认为高优先级任务忙；此时，记录原因，停止一级硬件喂狗， ***重启。

本发明实施例所述方法在***正常运行过程中的任务死循环检测及自恢复方法流程如下：

步骤 S301 : 高优先级***检测任务和低优先级死循环辅助任务启动，高优先级***检测任务定时二级软件喂狗，低优先级死循环辅助任务定时死循环保活维持。本步骤所述的高优先级和低优先级是相对来说，即*** 检测任务的优先级高于死循环辅助任务的优先级。

步骤 S302: 高优先级***检测任务，每隔 1分钟统计一次任务的 CPU 占有率（统计任务状态为运行状态下的 CPU占有率）。

步骤 S303 :高优先级***检测任务比较已经统计得到的任务 CPU占有率是否高于 CPU死循环判断门限值 ( CPU死循环判断门限值可以根据*** 的情况由用户预先手动配置）；如果否，则判定上述任务没有出现任务死循环；如果是，则转步骤 S304。

步骤 S304:当判定有任务 CPU占有率高于 CPU死循环判断门限值时，则进一步判断低优先级死循环辅助任务是否保活置位，如果是，即低优先级死循环辅助任务有保活置位，说明该任务能够得到***正常调度， *** 死循环统计范围之内；如果否，则转步骤 S305。

步骤 S305: 如果低优先级任务死循环辅助任务没有置保活标志，也并不能说明该任务死循环，这是因为***中存在某些任务在高优先级任务定时检测时间段内就是一直在运行，所以需要排除***中的这些特殊任务，不能把它的正常忙状态当成死循环，但要告警通知维护人员分析。上述特殊任务由用户预先手动配置。

步骤 S306: 以上判断已经确定***包括死循环任务，还需要进一步判断是否是在高优先级***检测任务定时采样检测时间段内只处理了一个消息，如果该任务在定时采样时间段内同时处理了多个消息，说明该任务在 ***中得到调度， ***没有出现死循环，但要告警通知维护人员分析，如果该任务在定时采样时间段内只处理了一个消息，则判定该任务处于死循环状态。

步骤 S307: 当***中有任务死循环时，再次等待一个 1个采样周期（采样时间段）进行死循环确认，确认之后进行日志记录，并准备重启恢复，但是重启之前需要判断***中是否正在运行比较重要的工作（比如文件系统操作），如果***正在运行比较重要工作不能马上重启，则允许延时一段时间之后强制关闭这些重要工作并重启。本发明实施例上述方法在***正常运行过程中的任务异常检测及自恢复方法流程包括：

步骤 S401 : 高优先级***检测任务启动，并定时二级软件喂狗。

步骤 S402: 高优先级***检测任务每隔 1分钟（检测周期 )检测*** 所有任务的工作状态。

步骤 S403 : 高优先级***检测任务发现有任务异常挂起，则识别该任务是关键任务还是普通任务， ***根据用户配置的异常检测处理策略进行自恢复操作。例如，异常检测处理策略为：允许关键任务异常重启；或者普通任务异常重启；或者所有任务异常都不重启。其中，关键任务是由用户预先设置的，如果这些任务不能工作，则将影响***重要功能。

步骤 S404: 当确定***中有任务异常时，则***需要记录异常任务的堆栈信息，同时日志记录，并重启恢复，但是重启之前需要判断***中是否正在运行比较重要的工作（比如文件***操作），如果***正在运行比较重要的工作不能马上重启，则允许延时一段时间之后强制关闭这些重要工作并重启。

另外，如图 2所示，本发明实施例还提供一种实现上述方法的***故障检测及处理装置，包括：

信号处理模块 201，配置为使中断服务程序发送一级喂狗信号，并接收 ***检测任务的二级喂狗信号；当中断超过设定阈值、比所述***检测任务优先级更高的任务忙、 ***启动期间***异常或所述***检测任务自身异常挂起时，中断服务程序接收不到所述二级喂狗信号。

异常处理模块 202，配置为在检测到任务死循环或任务异常时，根据预先设定的处理策略进行***异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则令中断服务程序停止发送一级喂狗信号，进行***重启。

在一种实施方式中，上述装置还包括：自重启模块，配置为当***出现操作***崩溃或者硬件异常时， *** 自动重启恢复；

CPU 占有率统计模块，配置为***检测任务定时二级软件喂狗，低优先级死循环辅助任务定时死循环保活维持时，定时统计 CPU占有率；

任务死循环检测模块，配置为***检测任务判断统计得到的 CPU占有率是否高于 CPU死循环判断门限值，如果否，则判定上述任务没有出现任务死循环；如果是，则判断低优先级死循环辅助任务是否保活置位，如果是，则判定没有出现死循环，如果否，则进行告警，通知维护人员分析；判断***检测任务在采样检测时间段内是否只处理了一个消息，如果否，则进行告警，通知维护人员分析，如果是，则判定该任务处于死循环状态。

在一种实施方式中，上述模块都可由***故障检测及处理装置中的

CPU, 微处理器（MPU， Micro Processing Unit )、数字信号处理器（DSP， Digital Signal Processor )或可编程遝辑阵歹' J ( FPGA, Field - Programmable Gate Array ) 实现。

综上所述，本发明实施例通过定时主动扫描检测和中断、喂狗相结合的方法，即能判断出任务死循环和任务异常等异常情况，也能判断出中断过频和硬件、软件挂死***的情况，同时可以根据这些异常类型分类记录原因，自动延时恢复处理。既考虑了***的特殊运行任务情况，也考虑了不同***的动态配置要求，同时也可以检测***启动过程的软件运行情况，满足了软件***的大部分异常检测及自恢复需求。

本领域内的技术人员应明白，本发明的实施例可提供为方法、 ***、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘存储器和光学存储器等 )上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（***）、和计算机程序产品的流程图和 /或方框图来描述的。应理解可由计算机程序指令实现流程图和 /或方框图中的每一流程和 /或方框、以及流程图和 /或方框图中的流程和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。

为此，本发明实施例还提供了一种计算机可读存储介质，该存储介质包括一组计算机可执行指令，所述指令用于执行本发明实施例所述的*** 故障检测及处理方法。

尽管为示例目的，已经公开了本发明的优选实施例，本领域的技术人员将意识到各种改进、增加和取代也是可能的，因此，本发明的范围应当不限于上述实施例。

Claims

权利要求书

1、一种***故障检测及处理方法，包括：

中断服务程序发送一级喂狗信号，并接收***检测任务的二级喂狗信号；

在检测到任务死循环或任务异常时，根据预先设定的处理策略进行 ***异常处理；其中，当中断服务程序在设定时间内接收不到所述二级喂狗信号时，则中断服务程序停止发送一级喂狗信号，进行***重启。

2、如权利要求 1所述的***故障检测及处理方法，其中，当***出现操作***崩溃或者硬件异常时， ***自动重启恢复。

3、如权利要求 1或 2所述的***故障检测及处理方法，其中，当中断超过设定阈值、比所述***检测任务优先级更高的任务忙、 ***启动期间***异常或所述***检测任务自身异常挂起时，中断服务程序接收不到所述二级喂狗信号。

4、如权利要求 3所述的***故障检测及处理方法，其中，进行任务死循环检测时，包括：

定时统计中央处理器 CPU占有率；

5、如权利要求 1、 2或 4所述的***故障检测及处理方法，其中，进行任务异常检测时，包括：

定时检测所有任务的工作状态；

根据检测到的任务工作状态，以及结合预先配置的任务异常判断策略，进行任务异常检测。

6、一种***故障检测及处理装置，包括：

信号处理模块，配置为使中断服务程序发送一级喂狗信号，并接收 ***检测任务的二级喂狗信号；

7、如权利要求 6所述的***故障检测及处理装置，其中，所述装置还包括：

自重启模块，配置为当***出现操作***崩溃或者硬件异常时，系统自动重启恢复。

8、如权利要求 6或 7所述的***故障检测及处理装置，其中，当中断超过设定阈值、比所述***检测任务优先级更高的任务忙、 ***启动期间***异常或所述***检测任务自身异常挂起时，中断服务程序接收不到所述二级喂狗信号。

9、如权利要求 8所述的***故障检测及处理装置，其中，所述装置还包括：

CPU 占有率统计模块，配置为***检测任务定时二级软件喂狗，低优先级死循环辅助任务定时死循环保活维持时，定时统计 CPU占有率；任务死循环检测模块，配置为***检测任务判断统计得到的 CPU占有率是否高于 CPU死循环判断门限值，如果否，则判定上述任务没有出现任务死循环；如果是，则判断低优先级死循环辅助任务是否保活置位，如果是，则判定没有出现死循环，如果否，则进行告警，通知维护人员分析；所述任务死循环检测模块还配置为，判断***检测任务在采样检测时间段内是否只处理了一个消息，如果否，则进行告警，通知维护人员分析，如果是，则判定该任务处于死循环状态。

10、如权利要求 6、 7或 9所述的***故障检测及处理装置，其中，所述装置还包括：

11、一种计算机可读存储介质，该存储介质包括一组计算机可执行指令，所述指令用于执行权利要求 1至 5任一项所述的方法。