CN109104304B

CN109104304B - 一种分布式实时故障处理方法

Info

Publication number: CN109104304B
Application number: CN201810819362.1A
Authority: CN
Inventors: 秦佳峰; 杨祎; 林颖; 李程启; 白德盟; 冯新岩; 周超; 刘洋; 贾然; 李龙龙; 郑文杰; 孙景文; 韩明明; 乔颖; 王娟娟; 王宏安; 罗雄飞; 郭超平
Original assignee: State Grid Corp of China SGCC; Institute of Software of CAS; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Institute of Software of CAS; Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2021-06-01
Anticipated expiration: 2038-07-24
Also published as: CN109104304A

Abstract

本发明提供一种分布式实时故障处理方法，其特征在于，所述的方法包括：S1：建立实时故障处理的任务集τ＝{τ_i|1≤i≤n}，其中，n表示构成任务集τ的n个任务，每个任务τ_i分别对应着一颗具有混合关键性的故障树TR_i；S2：根据故障的执行状态，确定故障任务的调度方法；S3：利用步骤S1得到的任务集，按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配，完成故障的消除。该方法可在分布式环境下完成实时的故障处理，并考虑到故障潜在蔓延情况下的恢复机制。

Description

一种分布式实时故障处理方法

技术领域

本发明属于实时反应式***和实时技术领域，具体涉及一种分布式实时故障处理方法。

背景技术

为了实现对大型、复杂的分布式***进行实时监视和控制，将功能强大的传感节点部署在***中的关键节点，并直接接入到了互联网，将采集到的信息实时地传递到相应的服务器集群中进行计算，并将其需要执行的指令返回到传感节点或控制节点，完成预定的安全目标。这类由多种类型网络融合协同形成集中式与分布式协调运行的超大规模复杂网络的实时反应式***，称为复杂实时反应式***。智能电网是复杂实时反应式***的一个典型代表。

复杂实时反应式***通常关系到生命财产安全、社会及环境安全，是安全攸关的，有极高的实时性要求，即当需要关注的事件发生后，***必须在给定期限内完成相应的动作对这些事件进行响应，大量甚至海量的智能化操作需要在不同的节点、不同的设备上进行，这些操作的执行次序和时间有着严格的规定；一旦响应超出了其时限或有操作在错误的设备上、错误的时刻执行、执行时间超长、执行次序错误，则会造成灾难性的后果：人员重伤或死亡，或者设备的严重毁损，或者环境的危害。

复杂实时反应式***的网络纵横数千公里、设备千差万别、环境***，在全网范围内通过能够实时采集信息、快速数据运算、及时完成相关的业务操作，对整个***的运行进行监控；一旦出现故障，需要通过实时安全攸关反应式***进行快速排查、诊断等方式减少损失、迅速修复。在正常运行时应以预防故障为目标及时地完成复杂的智能化业务操作；故障发生时及时发现故障，根据当前故障状态、多种网络的融合情况和网络信息状态、分布式的设备状态等多种状态在期限内对出现的故障进行紧急处置和自我修复来消除故障，从而保证***的安全性；其核心问题是研究其分布式故障处理任务的实时调度问题。

复杂实时反应式***中有故障发生时，如果由于***资源有限而得不到及时处理，可能引发其他存在业务或数据关联的新故障，从而出现故障在分布式环境下不断发生蔓延的情况。针对这种故障可能发生的连锁反应，目前的复杂实时反应式***并没有考虑其连锁反应下如何保证故障处理的实时性，从而影响了故障恢复的成功率和安全性。

发明内容

针对复杂实时反应式***现有技术的不足，本发明提供了一种新的分布式实时故障处理方法，该方法可在分布式环境下完成实时的故障处理，并考虑到故障潜在蔓延情况下的恢复机制。

本发明的技术方案是按以下方式实现的：

一种分布式实时故障处理方法，所述的方法包括：

S1：建立实时故障处理的任务集τ＝{τ_i|1≤i≤n}，其中， n表示构成任务集τ的n个任务，每个任务τ_i分别对应着一颗具有混合关键性的故障树TR_i；

S2：根据故障的执行状态，确定故障任务的调度方法；

S3：利用步骤S1得到的任务集，按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配，完成故障的消除。

进一步的，步骤S1的具体实现过程为：

S11：创建任务τ_i对应故障树的初始故障节点τ_i,1；

S12：根据以往的故障数据，推导故障τ_i,1引发的后续故障节点，形成τ_i,1的后继节点，直至所有故障节点τ_i,j全部建立；

S13：建立所有故障节点τ_i,j的集合形成任务τ_i；

S14：利用任务τ_i建立实时故障处理的任务集τ。

进一步的，故障节点τ_i,j与安全操作图之间的对应关系为：

其中，G_i,j代表了处理τ_i,j对应的故障所需执行的安全操作图，包括了n_i,j个进行安全操作的子任务

D_i,j是G_i,j的相对截止期，

是子任务

完成安全操作所需的执行时间。

进一步的，故障节点τ_i,j的集合τ_i(r_i,TR_i)＝{τ_i,j|1≤j≤ n_i}，其中，TR_i表示有向树，r_i是TR_i初始的故障节点的就绪时间，τ_i,j表示TR_i的每个节点。

进一步的，步骤S2的具体实现过程为：

S21：分析故障τi默认的执行状态，根据故障树TR_i源节点所在的关键性，确认关键节点；

S22：根据关键节点形成MCE2E任务簇，其中，每个簇中的普通节点选取根据关键节点的紧迫程度和普通节点所在的关键性状态及其紧迫程度综合决定；若尚未出现关键节点，则根据当前最高关键性状态的节点先形成MCE2E任务簇的候选集；

S23：按照关键节点的轮次，建立每个簇中节点的调度方法。

进一步的，任务τ_i所代表的故障其默认的执行状态是其故障树 TR_i的源节点所在的关键性，即τ_i＝τ_i,1，TR_i的源节点

其中，G_i,1代表处理τ_i,1需执行的安全操作图，G_i,1只有一个源任务和一个终任务，包括n_i,j个进行安全操作的子任务

进一步的，步骤S23中，调度方法的执行方法为：每轮在该簇关键节点的调度窗口内判断簇中普通节点可能出现的三个阶段，

若处于关键性状态保留阶段，所有节点都在当前混合关键性状态下执行，此时，累积的执行时间均未达到该混合关键性状态的上限；

若是处于关键性状态切换阶段，普通节点为关键节点的成功执行而让出处理器资源；

若是处于关键性状态更新阶段，由于第二个阶段产生的关键性状态切换，更新普通节点中，其他簇中的后续节点信息。

进一步的，在关键性状态切换阶段，具体的执行方法为：

根据普通节点所在的关键性状态及其紧迫程度，选取关键性状态较低并且空闲时间相对充裕的普通节点进行降级执行；

若被降级执行的普通节点发生关键性状态转换，则从候选集中选取下一个普通节点进行降级执行。

进一步的，普通节点降级执行的具体步骤为：

1)对最高关键性的任务子集合进行调度，给每个关键节点在偏序图上的子任务找到一种可调度的局部截止期分配方案，

2)根据当前关键性状态下的执行时间需求和截止期，结合局部截止期划分方案来分析能否在多智能体上找到足够长的空闲处理器长度来完成执行；

3)如果任务可被成功调度，则该任务按当前的关键性状态准入并执行；否则，该任务激活下个等级关键性状态的相关任务，并转到 2)继续执行。

本发明的有益效果是：

本发明针对复杂实时反应式***的安全需求，围绕复杂实时反应式***中存在的调度问题，设计了分布式环境下的实时故障处理方法，以增加故障节点安全操作处理的成功率，并减少故障的后续触发率。本发明根据可调度条件来判断现有的***资源能否满足***中推理任务的截止期约束，按照其调度策略为推理任务的确定处理顺序、为实时推理过程分配合理的***资源，并判断新到达的推理任务能否在不影响***中已有推理任务的前提下安全地完成，若能满足则***进入正常运行时的实时推理过程；否则，以总修复时间最短、故障蔓延长度最短为目标，对***中的自愈多智能体进行调度，求解有效的故障修复解决方案，使***在最坏情况下也能尽量避免损失。该方法适用于复杂实时反应式***，既保证多智能体整体的安全运行，又能使故障处理过程出现的后继故障率少、故障扩展程度小，从而提高了复杂实时反应式***的高实时性和高可靠性。

附图说明

图1是本发明的故障树和安全操作图的映射示意图；

图2是本发明的分布式实时故障处理任务模型图；

图3是本发明方法的流程图。

具体实施方式

以下结合附图详细说明本发明的具体实施方式，下文的公开提供了具体实施方式用来实现本发明的装置及方法，使本领域的技术人员更清楚地理解如何实现本发明。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。应当理解，尽管本发明描述了其优选的具体实施方案，然而这些只是对实施方案的阐述，而不是限制本发明的范围。

整个技术方案的原理为：

故障树集合是根据经验总结的可能发生或已经发生的故障状态，每一个故障状态都对应一个时间长度，在此定义为截止期，如果不能在截止期完成，将引发新的故障。

安全操作图包括日常维护和故障处理的全部安全的任务处理序列，以有向图的方式进行存储。

如图1所示，任何一个故障树或正常状态链，至少对应一个安全操作图中的一个完整操作序列子树；当对应的智能代理完成全部操作序列后，则该故障排除；如果不能在规定时间内完成，故障无法排除，并产生新的故障，故障树进入下一环节，需要完成更多的安全操作序列。

如图2和图3所示，本申请的方法主要包括以下步骤：一种分布式实时故障处理方法，所述的方法包括：

S1：建立实时故障处理的任务集τ＝{τ_i|1≤i≤n}，其中， n表示构成任务集τ的n个任务，每个任务τ_i分别对应着一颗具有混合关键性的故障树TR_i，任务的混合关键性是指故障树TR_i上故障τ_i扩展的不同程度τ_i,j。

步骤S1的具体实现原理和过程为：

S11：创建任务τ_i对应故障树的初始故障节点τ_i,1。

S12：根据以往的故障数据，推导故障τ_i,1引发的后续故障节点，形成τ_i,1的后继节点，直至所有故障节点τ_i,j全部建立，形成故障树 TR_i。

TR_i若存在有向边从τ_i,j指向τ_i,l，则τ_i,j是τ_i,l的父节点，τ_i,l是τ_i,j的子节点。τ_i,l只在τ_i,j对应的安全操作图执行超出τ_i,j的截止期时才被触发而就绪，此时，τ_i,j立即终止执行。

没有父节点的子任务是源节点，没有子节点的子任务是终节点。每个节点只有一个父节点和多个子节点，TR_i只有一个源节点和多个终节点。

S13：建立所有故障节点τ_i,j的集合形成任务τ_i。任一故障树上的节点τ_i,j对应着由有向无环图所定义的处理故障τ_i,j所需执行的安全操作图G_i,j。故障τ_i,j消除成功与否取决于能否及时完成其对应的安全操作图中的所有安全操作(即满足截止期约束)。

TR_i有n_i个节点，每个节点τ_i,j是由有向无环图G_i,j所定义的，代表了处理τ_i,j对应的故障所需执行的安全操作图，包括了n_i,j个进行安全操作的子任务

故障节点τ_i,j与安全操作图之间的对应关系为：

D_i,j是G_i,j的相对截止期(也就是TR_i上不同节点之间发生转移而产生关键性变化的最小时间间隔)，

是子任务

完成安全操作所需的执行时间。

G_i,j的有向边表示τ_i,j进行故障处理的安全操作执行流，定义了τ_i,j的安全操作子任务的时序约束。G_i,j中若存在有向边从子任务

指向子任务

则

是

的直接前驱，

是

的直接后继。G_i,j中若存在有向路径从子任务

可达子任务

则

是

的前驱，

是

的后继。

没有前驱的子任务称为源任务，没有后继的子任务称为终任务。

必须等到所有直接前驱完成后才能开始执行，

可能有多个直接前驱和多个直接后继；G_i,j只有一个源任务和一个终任务。

S14：利用任务τ_i建立实时故障处理的任务集τ＝{τ_i|1≤i ≤n}。

若τ_i上第一个节点对应的任务在其截止期内完成执行，则该故障树不向后传播；否则，触发该故障树上的下一个节点对应的任务。τ_i若执行到最后一个子任务，则进入了安全攸关的状态，即变成

否则，其为

所有的

必须在其截止期之前完成执行，

允许错失截止期而进入下一个子任务。

工程师往往根据***的不同功能性、***中有效处理资源的分布、***的既有约束、以及与物理环境中传感器和传动器之间的邻近度等，基于其经验和偏好在***设计阶段已将***中的任务与处理资源之间的映射设置好。

因此，分属不同故障树τ_i的子任务根据操作类型不同，被指定给对应类别的分布式处理器上执行，将某处理器上能执行的子任务集合记为Ψ(h)。

S2：根据故障的执行状态，确定故障任务的调度方法。通过对活动故障树节点所对应的安全操作图中的所有子任务进行调度，既能保证所有MCE2E任务都是可调度的，又可使任务集的故障扩展程度最小 (即平均故障扩展程度最小MIN(AVG(et_i))或最大故障扩展程度最小 MIN(MAX(et_i)))。

步骤S2的具体实现过程为：

首先分析故障τ_i默认的执行状态，任务τ_i所代表的故障其默认的执行状态是其故障树TR_i的源节点所在的关键性，即τ_i＝τ_i,1。

TR_i的源节点

G_i,1代表处理τ_i,1需执行的安全操作图，G_i,1只有一个源任务和一个终任务，包括n_i,j个进行安全操作的子任务

然后，根据关键节点形成MCE2E任务簇，对活动故障树节点进行分簇，由在一个关键节点和若干个普通节点组成，即：

智能体上根据关键节点来形成MCE2E任务簇，每个簇中的普通节点选取根据关键节点的紧迫程度和普通节点所在的关键性状态及其紧迫程度综合决定；若尚未出现关键节点，则根据当前最高关键性状态的节点先形成MCE2E任务簇的候选集。

S23：按照关键节点的轮次，建立每个簇中节点的调度方法，调度方法的执行方法为：每轮在该簇关键节点的调度窗口

内判断簇中普通节点可能出现的三个阶段：

若处于关键性状态保留阶段，所有节点都在当前混合关键性状态下执行，此时，累积的执行时间均未达到该混合关键性状态的上限。

若是处于关键性状态切换阶段，普通节点为关键节点的成功执行而让出处理器资源，潜在地引发某些普通节点向更高的关键性状态转换。

对于关键性状态切换阶段，执行策略为：根据普通节点所在的关键性状态及其紧迫程度，选取关键性状态较低并且空闲时间相对充裕的普通节点进行降级执行；若被降级执行的普通节点发生关键性状态转换，则从候选集中选取下一个普通节点进行降级执行。

需要注意的是，在关键性状态切换阶段，应当确保普通节点由于降级执行带来的关键性转换尽可能少。

对于关键性状态更新阶段，由于第二个阶段产生的关键性状态切换，更新相关普通节点具有时序约束的其他簇中的后续节点信息。

在关键性状态切换和关键性状态更新阶段，如果关键节点完成执行后，可将被中断的普通节点恢复执行，从而减少不必要的关键性状态切换产生，从而降低由更高关键性状态任务所导致的截止期错失传播长度。

对于关键节点中，关键性子任务的调度，下面结合实际例子进行详细说明。

设P^k _i,1是在G_i,1中从τ^k _i,1到终任务之间的所有路径，P^k _i,1中的最长路径称为关键路径P_i,1 ^kcri，其长度为C_i,1 ^kcri；P_i,1 ^kcri上的子任务称为关键子任务。

由于关键路径上的任意任务延迟都会造成整体任务响应时间的延迟，可以利用基于深度优先搜索的关键路径及相关方法，对基于图模型的任务进行调度分析，找出对任务调度关键的执行序列，更好地从整体上分析该任务的执行情况。

关键子任务的松弛时间最少，最好尽快地执行关键子任务以获得其任务的最佳响应时间。通过给子任务τ^k _i,1分配局部截止期d^k _i,1，使所有子任务在各自的智能体上分别完成其执行需求，同时任意子任务的截止期d^k _i,1都不超过其所属任务τ_i,1的截止期d_i,1，从而所有任务τ_i都能在其初始关键性状态下被成功调度。

为此，前驱子任务不能过度使用智能体上的松弛时间而要给后继子任务留出足够的时间完成执行。为此，每个智能体上局部截止期分配方法的优化目标是使得τ^k _i,1的最小路径松弛度最大[4][5]，为这些子任务的后续任务节省尽可能多的松弛时间，来帮助满足其所属任务总截止期的约束(即d^k _i,1)。

同时，也要保证不同任务在该智能体上的所有子任务集合Ψ(h) 也能被成功调度。

优化目标为：max:min{d_i,1-d^k _i,1-C_i,1 ^kcri|τ^k _i,1∈Ψ(h)}。用混合整数线性规划或非线性规划模型来解决该优化问题。

约束条件为：r^k _i，1+C^k _i，1≤d^k _i，1≤d_i，1-C_i，1 ^kcri，

如果对

能够找到该问题的解法，

都在源节点的初始关键性状态下执行成功；否则，调度失败的τ_i,1立即终止其安全操作图上的操作并且进入更高级地关键性，所有τ_i,1的子节点代表的故障都被触发，需对新触发的所有故障进行处理。

当τ_i的当前节点集合中有节点τ_i,j是TR_i上的终结点时，***将τ_i的关键性定义为最高关键性，将τ_i,j定义为关键节点，其他节点是具有不同关键性的普通节点。***定期监测关键节点的触发情况并检查关键节点的执行能否满足其截止期约束；若无法满足，则需在关键节点所在处理器上选择合适的普通节点进行中断并延迟执行，为关键节点的执行让出处理器资源；一旦关键节点满足截止期约束时，即可继续执行被中断的普通节点；将上述方法称为普通节点的降级执行。

普通节点降级执行的具体策略如下：

1)对最高关键性的任务子集合Υ^cri进行调度：对于每个关键节点在偏序图上的子任务，通过为Υ^cri分布式地给找到一种可调度的局部截止期分配方案，来确保多智能体的处理器资源可成功地调度所有关键节点的子任务；同时给其他任务留出尽可能多的空闲处理器资源。

2)对其他任务Υ^non-cri进行调度，任务的默认为τ_i，1的关键性状态；根据当前关键性状态下的执行时间需求和截止期，结合局部截止期划分方案来分析能否在多智能体上找到足够长的空闲处理器长度来完成执行。

不妨设***中有m个处理器，令Ψ(h)为所有被预先分配到某个处理器上安全操作子任务的集合(这些子任务可被互相抢占)，即Ψ＝{Ψ(h)，1≤h≤m}。每个智能体将根据任务在偏序图上子任务所划分的局部截止期，对Ψ(h),

上的子任务进行调度。步骤如下：

为Ψ中的所有子任务分配新的局部截止期，挑选Ψ(h)中局部截止期最小的

去执行，

当Ψ(h)的子任务

完成时，将

的完成信息通知给

其中，

把

从Ψ(h)中丢弃；在Ψ(h)中挑选局部截止期最小的子任务

执行，

Ψ(l)获得

的完成信息后，让

就绪，

计算

的

并为Ψ(l)中的所有子任务分配新的局部截止期。

如果对

划分局部截止期失败，且τ_i，j是Υ^non-cri中的任务，将τ_i，j引发的下个等级关键性状态激活。

重复上述操作直至所有任务执行完毕。

如果τ_i,1在其截止期D_i,1之前完成安全操作图上的所有操作，那么，τ_i也就执行成功，否则，τ_i,1的执行超出了D_i,1，那么，τ_i,1立即终止其安全操作图上的操作并且进入下一级关键性τ_i,2(τ_i,2是τ_i,1的子节点)，并按该关键性状态进行故障处理(即从当前时刻开始τ_i＝τ_i,2，且τ_i的截止期更新为D_i,2，τ_i,2称为当前节点)。

如果τ_i,1有多个子节点，那么，所有的子节点代表的故障都被触发，并成为当前节点，且拥有其各自的截止期约束。

以此类推，由τ_i代表的故障树TR_i可能存在多个相对截止期约束，分别是由所有的当前节点所定义的。

若故障树TR_i上所有当前节点都在其截止期之前完成其安全操作图上的操作，则任务τ_i是可调度的；此时，所有故障树上的任意当前节点，要么不是终结点，要么满足C_{i,SINK_NODE}≤D_{i,SINK_NODE}。故障树 TR_i上任意一个终结点，如果其对应的安全操作图上的操作执行超出了其截止期，那么，τ_i所代表的故障处理被调度失败。

此外，本发明的应用范围不局限于说明书中描述的特定实施例的工艺、机构、制造、物质组成、手段、方法及步骤。从本发明的公开内容，作为本领域的普通技术人员将容易地理解，对于目前已存在或者以后即将开发出的工艺、机构、制造、物质组成、手段、方法或步骤，其中它们执行与本发明描述的对应实施方式大体相同的功能或者获得大体相同的结果，依照本发明可以对它们进行应用。因此，本发明所附权利要求旨在将这些工艺、机构、制造、物质组成、手段、方法或步骤包含在其保护范围内。