CN109104304B - 一种分布式实时故障处理方法 - Google Patents

一种分布式实时故障处理方法 Download PDF

Info

Publication number
CN109104304B
CN109104304B CN201810819362.1A CN201810819362A CN109104304B CN 109104304 B CN109104304 B CN 109104304B CN 201810819362 A CN201810819362 A CN 201810819362A CN 109104304 B CN109104304 B CN 109104304B
Authority
CN
China
Prior art keywords
fault
task
node
tau
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810819362.1A
Other languages
English (en)
Other versions
CN109104304A (zh
Inventor
秦佳峰
杨祎
林颖
李程启
白德盟
冯新岩
周超
刘洋
贾然
李龙龙
郑文杰
孙景文
韩明明
乔颖
王娟娟
王宏安
罗雄飞
郭超平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Institute of Software of CAS
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Institute of Software of CAS
Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Institute of Software of CAS, Electric Power Research Institute of State Grid Shandong Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201810819362.1A priority Critical patent/CN109104304B/zh
Publication of CN109104304A publication Critical patent/CN109104304A/zh
Application granted granted Critical
Publication of CN109104304B publication Critical patent/CN109104304B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明提供一种分布式实时故障处理方法,其特征在于,所述的方法包括:S1:建立实时故障处理的任务集τ={τi|1≤i≤n},其中,n表示构成任务集τ的n个任务,每个任务τi分别对应着一颗具有混合关键性的故障树TRi;S2:根据故障的执行状态,确定故障任务的调度方法;S3:利用步骤S1得到的任务集,按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配,完成故障的消除。该方法可在分布式环境下完成实时的故障处理,并考虑到故障潜在蔓延情况下的恢复机制。

Description

一种分布式实时故障处理方法
技术领域
本发明属于实时反应式***和实时技术领域,具体涉及一种分布式实时故障处理方法。
背景技术
为了实现对大型、复杂的分布式***进行实时监视和控制,将功能强大的传感节点部署在***中的关键节点,并直接接入到了互联网,将采集到的信息实时地传递到相应的服务器集群中进行计算,并将其需要执行的指令返回到传感节点或控制节点,完成预定的安全目标。这类由多种类型网络融合协同形成集中式与分布式协调运行的超大规模复杂网络的实时反应式***,称为复杂实时反应式***。智能电网是复杂实时反应式***的一个典型代表。
复杂实时反应式***通常关系到生命财产安全、社会及环境安全,是安全攸关的,有极高的实时性要求,即当需要关注的事件发生后,***必须在给定期限内完成相应的动作对这些事件进行响应,大量甚至海量的智能化操作需要在不同的节点、不同的设备上进行,这些操作的执行次序和时间有着严格的规定;一旦响应超出了其时限或有操作在错误的设备上、错误的时刻执行、执行时间超长、执行次序错误,则会造成灾难性的后果:人员重伤或死亡,或者设备的严重毁损,或者环境的危害。
复杂实时反应式***的网络纵横数千公里、设备千差万别、环境***,在全网范围内通过能够实时采集信息、快速数据运算、及时完成相关的业务操作,对整个***的运行进行监控;一旦出现故障,需要通过实时安全攸关反应式***进行快速排查、诊断等方式减少损失、迅速修复。在正常运行时应以预防故障为目标及时地完成复杂的智能化业务操作;故障发生时及时发现故障,根据当前故障状态、多种网络的融合情况和网络信息状态、分布式的设备状态等多种状态在期限内对出现的故障进行紧急处置和自我修复来消除故障,从而保证***的安全性;其核心问题是研究其分布式故障处理任务的实时调度问题。
复杂实时反应式***中有故障发生时,如果由于***资源有限而得不到及时处理,可能引发其他存在业务或数据关联的新故障,从而出现故障在分布式环境下不断发生蔓延的情况。针对这种故障可能发生的连锁反应,目前的复杂实时反应式***并没有考虑其连锁反应下如何保证故障处理的实时性,从而影响了故障恢复的成功率和安全性。
发明内容
针对复杂实时反应式***现有技术的不足,本发明提供了一种新的分布式实时故障处理方法,该方法可在分布式环境下完成实时的故障处理,并考虑到故障潜在蔓延情况下的恢复机制。
本发明的技术方案是按以下方式实现的:
一种分布式实时故障处理方法,所述的方法包括:
S1:建立实时故障处理的任务集τ={τi|1≤i≤n},其中, n表示构成任务集τ的n个任务,每个任务τi分别对应着一颗具有混合关键性的故障树TRi
S2:根据故障的执行状态,确定故障任务的调度方法;
S3:利用步骤S1得到的任务集,按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配,完成故障的消除。
进一步的,步骤S1的具体实现过程为:
S11:创建任务τi对应故障树的初始故障节点τi,1
S12:根据以往的故障数据,推导故障τi,1引发的后续故障节点,形成τi,1的后继节点,直至所有故障节点τi,j全部建立;
S13:建立所有故障节点τi,j的集合形成任务τi
S14:利用任务τi建立实时故障处理的任务集τ。
进一步的,故障节点τi,j与安全操作图之间的对应关系为:
Figure BDA0001741027750000031
Figure 1
其中,Gi,j代表了处理τi,j对应的故障所需执行的安全操作图,包括了ni,j个进行安全操作的子任务
Figure BDA0001741027750000033
Di,j是Gi,j的相对截止期,
Figure BDA0001741027750000034
是子任务
Figure BDA0001741027750000035
完成安全操作所需的执行时间。
进一步的,故障节点τi,j的集合τi(ri,TRi)={τi,j|1≤j≤ ni},其中,TRi表示有向树,ri是TRi初始的故障节点的就绪时间,τi,j表示TRi的每个节点。
进一步的,步骤S2的具体实现过程为:
S21:分析故障τi默认的执行状态,根据故障树TRi源节点所在的关键性,确认关键节点;
S22:根据关键节点形成MCE2E任务簇,其中,每个簇中的普通节点选取根据关键节点的紧迫程度和普通节点所在的关键性状态及其紧迫程度综合决定;若尚未出现关键节点,则根据当前最高关键性状态的节点先形成MCE2E任务簇的候选集;
S23:按照关键节点的轮次,建立每个簇中节点的调度方法。
进一步的,任务τi所代表的故障其默认的执行状态是其故障树 TRi的源节点所在的关键性,即τi=τi,1,TRi的源节点
Figure BDA0001741027750000041
Figure BDA0001741027750000042
其中,Gi,1代表处理τi,1需执行的安全操作图,Gi,1只有一个源任务和一个终任务,包括ni,j个进行安全操作的子任务
Figure BDA0001741027750000043
进一步的,步骤S23中,调度方法的执行方法为:每轮在该簇关键节点的调度窗口内判断簇中普通节点可能出现的三个阶段,
若处于关键性状态保留阶段,所有节点都在当前混合关键性状态下执行,此时,累积的执行时间均未达到该混合关键性状态的上限;
若是处于关键性状态切换阶段,普通节点为关键节点的成功执行而让出处理器资源;
若是处于关键性状态更新阶段,由于第二个阶段产生的关键性状态切换,更新普通节点中,其他簇中的后续节点信息。
进一步的,在关键性状态切换阶段,具体的执行方法为:
根据普通节点所在的关键性状态及其紧迫程度,选取关键性状态较低并且空闲时间相对充裕的普通节点进行降级执行;
若被降级执行的普通节点发生关键性状态转换,则从候选集中选取下一个普通节点进行降级执行。
进一步的,普通节点降级执行的具体步骤为:
1)对最高关键性的任务子集合进行调度,给每个关键节点在偏序图上的子任务找到一种可调度的局部截止期分配方案,
2)根据当前关键性状态下的执行时间需求和截止期,结合局部截止期划分方案来分析能否在多智能体上找到足够长的空闲处理器长度来完成执行;
3)如果任务可被成功调度,则该任务按当前的关键性状态准入并执行;否则,该任务激活下个等级关键性状态的相关任务,并转到 2)继续执行。
本发明的有益效果是:
本发明针对复杂实时反应式***的安全需求,围绕复杂实时反应式***中存在的调度问题,设计了分布式环境下的实时故障处理方法,以增加故障节点安全操作处理的成功率,并减少故障的后续触发率。本发明根据可调度条件来判断现有的***资源能否满足***中推理任务的截止期约束,按照其调度策略为推理任务的确定处理顺序、为实时推理过程分配合理的***资源,并判断新到达的推理任务能否在不影响***中已有推理任务的前提下安全地完成,若能满足则***进入正常运行时的实时推理过程;否则,以总修复时间最短、故障蔓延长度最短为目标,对***中的自愈多智能体进行调度,求解有效的故障修复解决方案,使***在最坏情况下也能尽量避免损失。该方法适用于复杂实时反应式***,既保证多智能体整体的安全运行,又能使故障处理过程出现的后继故障率少、故障扩展程度小,从而提高了复杂实时反应式***的高实时性和高可靠性。
附图说明
图1是本发明的故障树和安全操作图的映射示意图;
图2是本发明的分布式实时故障处理任务模型图;
图3是本发明方法的流程图。
具体实施方式
以下结合附图详细说明本发明的具体实施方式,下文的公开提供了具体实施方式用来实现本发明的装置及方法,使本领域的技术人员更清楚地理解如何实现本发明。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。应当理解,尽管本发明描述了其优选的具体实施方案,然而这些只是对实施方案的阐述,而不是限制本发明的范围。
整个技术方案的原理为:
故障树集合是根据经验总结的可能发生或已经发生的故障状态,每一个故障状态都对应一个时间长度,在此定义为截止期,如果不能在截止期完成,将引发新的故障。
安全操作图包括日常维护和故障处理的全部安全的任务处理序列,以有向图的方式进行存储。
如图1所示,任何一个故障树或正常状态链,至少对应一个安全操作图中的一个完整操作序列子树;当对应的智能代理完成全部操作序列后,则该故障排除;如果不能在规定时间内完成,故障无法排除,并产生新的故障,故障树进入下一环节,需要完成更多的安全操作序列。
如图2和图3所示,本申请的方法主要包括以下步骤:一种分布式实时故障处理方法,所述的方法包括:
S1:建立实时故障处理的任务集τ={τi|1≤i≤n},其中, n表示构成任务集τ的n个任务,每个任务τi分别对应着一颗具有混合关键性的故障树TRi,任务的混合关键性是指故障树TRi上故障τi扩展的不同程度τi,j
步骤S1的具体实现原理和过程为:
S11:创建任务τi对应故障树的初始故障节点τi,1
S12:根据以往的故障数据,推导故障τi,1引发的后续故障节点,形成τi,1的后继节点,直至所有故障节点τi,j全部建立,形成故障树 TRi
TRi若存在有向边从τi,j指向τi,l,则τi,j是τi,l的父节点,τi,l是τi,j的子节点。τi,l只在τi,j对应的安全操作图执行超出τi,j的截止期时才被触发而就绪,此时,τi,j立即终止执行。
没有父节点的子任务是源节点,没有子节点的子任务是终节点。每个节点只有一个父节点和多个子节点,TRi只有一个源节点和多个终节点。
S13:建立所有故障节点τi,j的集合形成任务τi。任一故障树上的节点τi,j对应着由有向无环图所定义的处理故障τi,j所需执行的安全操作图Gi,j。故障τi,j消除成功与否取决于能否及时完成其对应的安全操作图中的所有安全操作(即满足截止期约束)。
TRi有ni个节点,每个节点τi,j是由有向无环图Gi,j所定义的,代表了处理τi,j对应的故障所需执行的安全操作图,包括了ni,j个进行安全操作的子任务
Figure BDA0001741027750000081
故障节点τi,j与安全操作图之间的对应关系为:
Figure 2
其中,Gi,j代表了处理τi,j对应的故障所需执行的安全操作图,包括了ni,j个进行安全操作的子任务
Figure BDA0001741027750000083
Di,j是Gi,j的相对截止期(也就是TRi上不同节点之间发生转移而产生关键性变化的最小时间间隔),
Figure 3
是子任务
Figure BDA0001741027750000085
完成安全操作所需的执行时间。
Gi,j的有向边表示τi,j进行故障处理的安全操作执行流,定义了τi,j的安全操作子任务的时序约束。Gi,j中若存在有向边从子任务
Figure BDA0001741027750000086
指向子任务
Figure BDA0001741027750000087
Figure BDA0001741027750000088
Figure BDA0001741027750000089
的直接前驱,
Figure BDA00017410277500000810
Figure BDA00017410277500000811
的直接后继。Gi,j中若存在有向路径从子任务
Figure BDA0001741027750000091
可达子任务
Figure BDA0001741027750000092
Figure BDA0001741027750000093
Figure BDA0001741027750000094
的前驱,
Figure BDA0001741027750000095
Figure BDA0001741027750000096
的后继。
没有前驱的子任务称为源任务,没有后继的子任务称为终任务。
Figure BDA0001741027750000097
必须等到所有直接前驱完成后才能开始执行,
Figure BDA0001741027750000098
可能有多个直接前驱和多个直接后继;Gi,j只有一个源任务和一个终任务。
S14:利用任务τi建立实时故障处理的任务集τ={τi|1≤i ≤n}。
若τi上第一个节点对应的任务在其截止期内完成执行,则该故障树不向后传播;否则,触发该故障树上的下一个节点对应的任务。τi若执行到最后一个子任务,则进入了安全攸关的状态,即变成
Figure BDA0001741027750000099
否则,其为
Figure BDA00017410277500000910
所有的
Figure BDA00017410277500000911
必须在其截止期之前完成执行,
Figure BDA00017410277500000912
允许错失截止期而进入下一个子任务。
工程师往往根据***的不同功能性、***中有效处理资源的分布、***的既有约束、以及与物理环境中传感器和传动器之间的邻近度等,基于其经验和偏好在***设计阶段已将***中的任务与处理资源之间的映射设置好。
因此,分属不同故障树τi的子任务根据操作类型不同,被指定给对应类别的分布式处理器上执行,将某处理器上能执行的子任务集合记为Ψ(h)。
S2:根据故障的执行状态,确定故障任务的调度方法。通过对活动故障树节点所对应的安全操作图中的所有子任务进行调度,既能保证所有MCE2E任务都是可调度的,又可使任务集的故障扩展程度最小 (即平均故障扩展程度最小MIN(AVG(eti))或最大故障扩展程度最小 MIN(MAX(eti)))。
步骤S2的具体实现过程为:
首先分析故障τi默认的执行状态,任务τi所代表的故障其默认的执行状态是其故障树TRi的源节点所在的关键性,即τi=τi,1
TRi的源节点
Figure BDA0001741027750000101
Gi,1代表处理τi,1需执行的安全操作图,Gi,1只有一个源任务和一个终任务,包括ni,j个进行安全操作的子任务
Figure BDA0001741027750000102
然后,根据关键节点形成MCE2E任务簇,对活动故障树节点进行分簇,由在一个关键节点和若干个普通节点组成,即:
Figure BDA0001741027750000103
智能体上根据关键节点来形成MCE2E任务簇,每个簇中的普通节点选取根据关键节点的紧迫程度和普通节点所在的关键性状态及其紧迫程度综合决定;若尚未出现关键节点,则根据当前最高关键性状态的节点先形成MCE2E任务簇的候选集。
S23:按照关键节点的轮次,建立每个簇中节点的调度方法,调度方法的执行方法为:每轮在该簇关键节点的调度窗口
Figure 4
内判断簇中普通节点可能出现的三个阶段:
若处于关键性状态保留阶段,所有节点都在当前混合关键性状态下执行,此时,累积的执行时间均未达到该混合关键性状态的上限。
若是处于关键性状态切换阶段,普通节点为关键节点的成功执行而让出处理器资源,潜在地引发某些普通节点向更高的关键性状态转换。
对于关键性状态切换阶段,执行策略为:根据普通节点所在的关键性状态及其紧迫程度,选取关键性状态较低并且空闲时间相对充裕的普通节点进行降级执行;若被降级执行的普通节点发生关键性状态转换,则从候选集中选取下一个普通节点进行降级执行。
需要注意的是,在关键性状态切换阶段,应当确保普通节点由于降级执行带来的关键性转换尽可能少。
对于关键性状态更新阶段,由于第二个阶段产生的关键性状态切换,更新相关普通节点具有时序约束的其他簇中的后续节点信息。
在关键性状态切换和关键性状态更新阶段,如果关键节点完成执行后,可将被中断的普通节点恢复执行,从而减少不必要的关键性状态切换产生,从而降低由更高关键性状态任务所导致的截止期错失传播长度。
对于关键节点中,关键性子任务的调度,下面结合实际例子进行详细说明。
设Pk i,1是在Gi,1中从τk i,1到终任务之间的所有路径,Pk i,1中的最长路径称为关键路径Pi,1 kcri,其长度为Ci,1 kcri;Pi,1 kcri上的子任务称为关键子任务。
由于关键路径上的任意任务延迟都会造成整体任务响应时间的延迟,可以利用基于深度优先搜索的关键路径及相关方法,对基于图模型的任务进行调度分析,找出对任务调度关键的执行序列,更好地从整体上分析该任务的执行情况。
关键子任务的松弛时间最少,最好尽快地执行关键子任务以获得其任务的最佳响应时间。通过给子任务τk i,1分配局部截止期dk i,1,使所有子任务在各自的智能体上分别完成其执行需求,同时任意子任务的截止期dk i,1都不超过其所属任务τi,1的截止期di,1,从而所有任务τi都能在其初始关键性状态下被成功调度。
为此,前驱子任务不能过度使用智能体上的松弛时间而要给后继子任务留出足够的时间完成执行。为此,每个智能体上局部截止期分配方法的优化目标是使得τk i,1的最小路径松弛度最大[4][5],为这些子任务的后续任务节省尽可能多的松弛时间,来帮助满足其所属任务总截止期的约束(即dk i,1)。
同时,也要保证不同任务在该智能体上的所有子任务集合Ψ(h) 也能被成功调度。
优化目标为:max:min{di,1-dk i,1-Ci,1 kcrik i,1∈Ψ(h)}。用混合整数线性规划或非线性规划模型来解决该优化问题。
约束条件为:rk i,1+Ck i,1≤dk i,1≤di,1-Ci,1 kcri
Figure BDA0001741027750000121
如果对
Figure BDA0001741027750000122
能够找到该问题的解法,
Figure BDA0001741027750000123
Figure BDA0001741027750000124
都在源节点的初始关键性状态下执行成功;否则,调度失败的τi,1立即终止其安全操作图上的操作并且进入更高级地关键性,所有τi,1的子节点代表的故障都被触发,需对新触发的所有故障进行处理。
当τi的当前节点集合中有节点τi,j是TRi上的终结点时,***将τi的关键性定义为最高关键性,将τi,j定义为关键节点,其他节点是具有不同关键性的普通节点。***定期监测关键节点的触发情况并检查关键节点的执行能否满足其截止期约束;若无法满足,则需在关键节点所在处理器上选择合适的普通节点进行中断并延迟执行,为关键节点的执行让出处理器资源;一旦关键节点满足截止期约束时,即可继续执行被中断的普通节点;将上述方法称为普通节点的降级执行。
普通节点降级执行的具体策略如下:
1)对最高关键性的任务子集合Υcri进行调度:对于每个关键节点在偏序图上的子任务,通过为Υcri分布式地给找到一种可调度的局部截止期分配方案,来确保多智能体的处理器资源可成功地调度所有关键节点的子任务;同时给其他任务留出尽可能多的空闲处理器资源。
2)对其他任务Υnon-cri进行调度,任务的默认为τi,1的关键性状态;根据当前关键性状态下的执行时间需求和截止期,结合局部截止期划分方案来分析能否在多智能体上找到足够长的空闲处理器长度来完成执行。
3)如果任务可被成功调度,则该任务按当前的关键性状态准入并执行;否则,该任务激活下个等级关键性状态的相关任务,并转到 2)继续执行。
不妨设***中有m个处理器,令Ψ(h)为所有被预先分配到某个处理器上安全操作子任务的集合(这些子任务可被互相抢占),即Ψ={Ψ(h),1≤h≤m}。每个智能体将根据任务在偏序图上子任务所划分的局部截止期,对Ψ(h),
Figure BDA0001741027750000141
上的子任务进行调度。步骤如下:
为Ψ中的所有子任务分配新的局部截止期,挑选Ψ(h)中局部截止期最小的
Figure BDA0001741027750000142
去执行,
Figure 5
当Ψ(h)的子任务
Figure BDA0001741027750000144
完成时,将
Figure BDA0001741027750000145
的完成信息通知给
Figure BDA0001741027750000146
其中,
Figure 6
Figure BDA0001741027750000148
从Ψ(h)中丢弃;在Ψ(h)中挑选局部截止期最小的子任务
Figure BDA0001741027750000149
执行,
Figure BDA00017410277500001410
Figure BDA00017410277500001411
Ψ(l)获得
Figure BDA00017410277500001412
的完成信息后,让
Figure BDA00017410277500001413
就绪,
Figure BDA00017410277500001414
Figure 7
计算
Figure BDA00017410277500001416
Figure 8
并为Ψ(l)中的所有子任务分配新的局部截止期。
如果对
Figure BDA0001741027750000151
划分局部截止期失败,且τi,j是Υnon-cri中的任务,将τi,j引发的下个等级关键性状态激活。
重复上述操作直至所有任务执行完毕。
S3:利用步骤S1得到的任务集,按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配,完成故障的消除。
如果τi,1在其截止期Di,1之前完成安全操作图上的所有操作,那么,τi也就执行成功,否则,τi,1的执行超出了Di,1,那么,τi,1立即终止其安全操作图上的操作并且进入下一级关键性τi,2i,2是τi,1的子节点),并按该关键性状态进行故障处理(即从当前时刻开始τi=τi,2,且τi的截止期更新为Di,2,τi,2称为当前节点)。
如果τi,1有多个子节点,那么,所有的子节点代表的故障都被触发,并成为当前节点,且拥有其各自的截止期约束。
以此类推,由τi代表的故障树TRi可能存在多个相对截止期约束,分别是由所有的当前节点所定义的。
若故障树TRi上所有当前节点都在其截止期之前完成其安全操作图上的操作,则任务τi是可调度的;此时,所有故障树上的任意当前节点,要么不是终结点,要么满足Ci,SINK_NODE≤Di,SINK_NODE。故障树 TRi上任意一个终结点,如果其对应的安全操作图上的操作执行超出了其截止期,那么,τi所代表的故障处理被调度失败。
此外,本发明的应用范围不局限于说明书中描述的特定实施例的工艺、机构、制造、物质组成、手段、方法及步骤。从本发明的公开内容,作为本领域的普通技术人员将容易地理解,对于目前已存在或者以后即将开发出的工艺、机构、制造、物质组成、手段、方法或步骤,其中它们执行与本发明描述的对应实施方式大体相同的功能或者获得大体相同的结果,依照本发明可以对它们进行应用。因此,本发明所附权利要求旨在将这些工艺、机构、制造、物质组成、手段、方法或步骤包含在其保护范围内。

Claims (4)

1.一种分布式实时故障处理方法,其特征在于,所述的方法包括:
S1:建立实时故障处理的任务集τ={τi|1≤i≤n},其中,n表示构成任务集τ的n个任务,每个任务τi分别对应着一颗具有混合关键性的故障树TRi
步骤S1的具体实现过程为:
S11:创建任务τi对应故障树的初始故障节点τi,1
S12:根据以往的故障数据,推导故障τi,1引发的后续故障节点,形成τi,1的后继节点,直至所有故障节点τi,j全部建立;
S13:建立所有故障节点τi,j的集合形成任务τi
S14:利用任务τi建立实时故障处理的任务集τ;
故障节点τi,j与安全操作图之间的对应关系为:
Figure FDA0002922927910000011
Figure FDA0002922927910000012
其中,Gi,j代表了处理τi,j对应的故障所需执行的安全操作图,包括了ni,j个进行安全操作的子任务
Figure FDA0002922927910000013
Di,j是Gi,j的相对截止期,
Figure FDA0002922927910000014
是子任务
Figure FDA0002922927910000015
完成安全操作所需的执行时间;
故障节点τi,j的集合τi(ri,TRi)={τi,j|1≤j≤ni},其中,TRi表示有向树,ri是TRi初始的故障节点的就绪时间,τi,j表示TRi的每个节点;
S2:根据故障的执行状态,确定故障任务的调度方法;
步骤S2的具体实现过程为:
S21:分析任务τi默认的执行状态,根据故障树TRi源节点所在的关键性,确认关键节点;
任务τi所代表的故障其默认的执行状态是其故障树TRi的源节点所在的关键性,即τi=τi,1,TRi的源节点
Figure FDA0002922927910000021
其中,Gi,1代表处理τi,1需执行的安全操作图,Gi,1只有一个源任务和一个终任务,包括ni,j个进行安全操作的子任务
Figure FDA0002922927910000022
S22:根据关键节点形成MCE2E任务簇,其中,每个簇中的普通节点选取根据关键节点的紧迫程度和普通节点所在的关键性状态及其紧迫程度综合决定;若尚未出现关键节点,则根据当前最高关键性状态的节点先形成MCE2E任务簇的候选集;
S23:按照关键节点的轮次,建立每个簇中节点的调度方法;
S3:利用步骤S1得到的任务集,按照步骤S2的调度方法将***产生的故障与其故障处理的安全操作图进行匹配,完成故障的消除。
2.根据权利要求1所述的一种分布式实时故障处理方法,其特征在于,步骤S23中,调度方法的执行方法为:每轮在该簇关键节点的调度窗口内判断簇中普通节点可能出现的三个阶段,
若处于关键性状态保留阶段,所有节点都在当前混合关键性状态下执行,此时,累积的执行时间均未达到该混合关键性状态的上限;
若是处于关键性状态切换阶段,普通节点为关键节点的成功执行而让出处理器资源;
若是处于关键性状态更新阶段,由于第二个阶段产生的关键性状态切换,更新普通节点中,其他簇中的后续节点信息。
3.根据权利要求2所述的一种分布式实时故障处理方法,其特征在于,在关键性状态切换阶段,具体的执行方法为:
根据普通节点所在的关键性状态及其紧迫程度,选取关键性状态较低并且空闲时间相对充裕的普通节点进行降级执行;
若被降级执行的普通节点发生关键性状态转换,则从候选集中选取下一个普通节点进行降级执行。
4.根据权利要求3所述的一种分布式实时故障处理方法,其特征在于,普通节点降级执行的具体步骤为:
1)对最高关键性的任务子集合进行调度,给每个关键节点在偏序图上的子任务找到一种可调度的局部截止期分配方案,
2)根据当前关键性状态下的执行时间需求和截止期,结合局部截止期划分方案来分析能否在多智能体上找到足够长的空闲处理器长度来完成执行;
3)如果任务可被成功调度,则该任务按当前的关键性状态准入并执行;否则,该任务激活下个等级关键性状态的相关任务,并转到2)继续执行。
CN201810819362.1A 2018-07-24 2018-07-24 一种分布式实时故障处理方法 Active CN109104304B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810819362.1A CN109104304B (zh) 2018-07-24 2018-07-24 一种分布式实时故障处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810819362.1A CN109104304B (zh) 2018-07-24 2018-07-24 一种分布式实时故障处理方法

Publications (2)

Publication Number Publication Date
CN109104304A CN109104304A (zh) 2018-12-28
CN109104304B true CN109104304B (zh) 2021-06-01

Family

ID=64847231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810819362.1A Active CN109104304B (zh) 2018-07-24 2018-07-24 一种分布式实时故障处理方法

Country Status (1)

Country Link
CN (1) CN109104304B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111784246B (zh) * 2020-07-01 2023-04-07 深圳市检验检疫科学研究院 物流路径的估测方法
CN111784248B (zh) * 2020-07-01 2023-04-07 深圳市检验检疫科学研究院 物流溯源方法
CN117453379B (zh) * 2023-12-25 2024-04-05 麒麟软件有限公司 Linux***中AOE网计算任务的调度方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105759171A (zh) * 2016-03-30 2016-07-13 广西电网有限责任公司南宁供电局 基于配电线路状态评价提高配网拉路检查效率的方法
CN106372785A (zh) * 2016-08-29 2017-02-01 陈赛 基于特征指数的***故障数据处理的方法
CN106886667A (zh) * 2017-04-14 2017-06-23 中国人民解放军海军航空工程学院 一种基于事件调度的复杂***可用性分析方法
CN108021435A (zh) * 2017-12-14 2018-05-11 南京邮电大学 一种基于截止时间的具有容错能力的云计算任务流调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10558766B2 (en) * 2015-12-31 2020-02-11 Palo Alto Research Center Incorporated Method for Modelica-based system fault analysis at the design stage

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105759171A (zh) * 2016-03-30 2016-07-13 广西电网有限责任公司南宁供电局 基于配电线路状态评价提高配网拉路检查效率的方法
CN106372785A (zh) * 2016-08-29 2017-02-01 陈赛 基于特征指数的***故障数据处理的方法
CN106886667A (zh) * 2017-04-14 2017-06-23 中国人民解放军海军航空工程学院 一种基于事件调度的复杂***可用性分析方法
CN108021435A (zh) * 2017-12-14 2018-05-11 南京邮电大学 一种基于截止时间的具有容错能力的云计算任务流调度方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Failure Prediction of Data Centers Using Time Series and Fault Tree Analysis;Thanyalak Chalermarrewong等;《 2012 IEEE 18th International Conference on Parallel and Distributed Systems》;20121219;全文 *
智能变电站故障诊断模型和恢复策略的研究;杜洁敏;《中国优秀硕士学位论文全文数据库》;20170228;全文 *

Also Published As

Publication number Publication date
CN109104304A (zh) 2018-12-28

Similar Documents

Publication Publication Date Title
CN109104304B (zh) 一种分布式实时故障处理方法
CN107943555B (zh) 一种云计算环境下的大数据存储和处理平台及处理方法
CN106209482A (zh) 一种数据中心监控方法及***
US20070206611A1 (en) Effective high availability cluster management and effective state propagation for failure recovery in high availability clusters
CN111708627B (zh) 基于分布式调度框架的任务调度方法以及装置
CN104657150B (zh) 一种集群环境下的自动化运维方法
CN106033373A (zh) 一种云计算平台中虚拟机资源调度方法和调度***
CN112559159A (zh) 一种基于分布式部署的任务调度方法
CN101639803A (zh) 多线程应用***的异常处理方法和异常处理装置
CN114153580A (zh) 一种跨多集群的工作调度方法及装置
CN114755984A (zh) 一种自动化流程机器人的调度方法、调度***及自动化流程机器人
CN111767145A (zh) 容器调度***、方法、装置和设备
CN116089027A (zh) 一种基于jvm的非阻塞分布式计划任务调度方法
CN101621404A (zh) 一种故障分层处理方法和***
CN114675956A (zh) 一种基于Kubernetes集群之间Pod配置及调度的方法
CN112395052B (zh) 一种面向混合负载基于容器的集群资源管理方法及***
CN112580816A (zh) 机器学习训练资源管理
CN107528709A (zh) 一种配置状态回退方法和装置
CN115269136A (zh) 一种异构多核平台分区操作***安全调度方法及***
CN108121605A (zh) 一种基于yarn的cgroup内存控制优化方法及***
JP2823520B2 (ja) リアルタイムアプリケーションタスクスケジューリング及び処理システム
CN113010290A (zh) 一种任务管理方法、装置、设备及存储介质
Rongfa Adaptive software test management system based on software agents
CN113010277A (zh) 一种基于自动化运维的多条件触发自动作业***和方法
CN110647440A (zh) 一种基于状态机的大数据任务处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant