CN104698839B

CN104698839B - 一种基于信息交互的多智能体故障检测与补偿控制方法

Info

Publication number: CN104698839B
Application number: CN201410832047.4A
Authority: CN
Inventors: 方浩; 陈杰; 李俨
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2014-12-26
Filing date: 2014-12-26
Publication date: 2016-04-27
Anticipated expiration: 2034-12-26
Also published as: CN104698839A

Abstract

本发明针对目前分布式多智能体***易发生故障，且无简便可行的实时故障处理方案这一问题，提出一种基于信息交互的分布式实时故障检测与补偿控制方法。步骤一、***及故障建模：所述建模包括节点动力学模型，信息交互模型，典型故障模型；步骤二、基于信息交互的多智能体实时故障检测；步骤三、基于Gossip算法的信息整合与处理；步骤四、面向控制量的补偿量计算与施加；步骤五、设计基于二跳信息的连通性保持：从信息交互模型出发，对故障节点间的通信内容进行分析，通过利用其中的二跳信息，建立虚拟的信息传输通路，保证故障处理方案不会影响***的正常工作。

Description

一种基于信息交互的多智能体故障检测与补偿控制方法

技术领域

本发明涉及一种基于信息交互的多智能体故障检测与补偿控制方法，属于多智能体控制技术领域。

背景技术

近些年，随着计算机及网络技术的迅猛发展，多智能体***的规模也在飞速增长。传统的集中式控制方案，因受到中央节点运算速度及感知范围的限制，已经越来越难以满足实际问题的需求。而分布式的控制方案，因其对单个智能体自身的要求较低，且具有良好的可扩展性而逐渐成为多智能体控制研究的主流。但是值得注意的是，由于在分布式的控制方案中，并不存在一个中央节点来统筹规划所有节点的行为，这使得***很容易受到故障节点和恶意节点的攻击，严重时可能导致整个***的瘫痪。因此，对于分布式的多智能体***而言，设计一套安全高效的故障检测方案，使***能自动完成对故障节点的检测与修复，是一项紧迫且拥有广阔应用前景的工作。

针对分布式多智能体***的故障检测，现有的解决方案主要有以下几种：

方案1：文献(I.Shames,A.M.H.Teixeira,H.Sandberg,andK.H.Johansson.Distributedfaultdetectionforinterconnectedsecondordersystem[J].Automatica,Oct.2011,toappear.)和文献(S.SundaramandC.N.Hadjicostis.Distributedfunctioncalculationvialineariterationsinthepresenceofmaliciousagents,parti:Attackingthenetwork[C].AmericanControlConference,june2008.)提出采用未知输入观测器(UIO)，通过长时间观测，积累足够的数据来估计***的初始状态，进而求出***的最终状态，并以此为依据判断当前节点的运动是否满足预期要求。采用观测器对故障进行实时监测是当前多智能体***故障诊断的主流方案。故障信号在***中充当未知输入，驱动观测器产生误差输出，通过利用误差信号对故障进行诊断和补偿。

利用未知输入观测器(UIO)进行故障诊断有着自身的优势，如物理意义明确，易于理解；不依赖于物理模型，适用范围广等。另外，文献(Chung,W.H.,Speyer,J.L.,&Chen,R.H.Adecentralizedfaultdetectionfilter[J].JournalofDynamicSystems,Measurement,andControl,123(2),237–247,2001)指出，与其它观测器，如Beard-Jones故障检测滤波器(Beard-JonesFaultDetectionFilter)相比，未知输入观测器(UIO)结构相对简单，且很容易应用优化算法得到近似的最优解。但另一方面，该方案也存在一些不足：对于拥有N个邻接节点的节点而言，为检测出其所有邻接节点故障所需要的未知输入观测器(UIO)数目为N+1个。当***拓扑结构比较复杂，或是节点数目众多时，该方案所需要的数据及计算量将会十分庞大，这将对节点的硬件提出很高的要求。同时该方案的运行还会占用大量的计算资源，对***的其它控制任务产生不利的影响。

方案2：文献(M.Franceschelli,M.Egerstedt,andA.Giua.Motionprobesforfaultdetectionandrecoveryinnetworkedcontrolsystems[C].AmericanControlConference,pages4358–4363,june2008.)提出采用运动探测器，通过施加额外的激励信号来激励网络化的控制***，根据***的响应判断当前***的运行状态，借此检测出故障节点。与第一种方案不同，该方案采取的是主动检测的方式。对于这一方案，存在的问题主要是实际操作起来比较困难，激励信号的选取，信号施加的时间等都会受到很多条件的制约。

方案3：文献(Guo,M.,Dimarogonas,D.V.,&Johansson,K.H.(2012,June).Distributedreal-timefaultdetectionandisolationforcooperativemulti-agentsystems[C].InAmericanControlConference(ACC),2012(pp.5270-5275).IEEE.)提出利用节点间的数据信息交互，通过接收邻接节点的控制量信息，对其运动状态进行模拟重现，并将其与检测到的邻接节点的实际运动状态进行比较，以此作为依据进行故障检测。该方案最大的优点是计算简便，可操作性强，但也存在一些明显不足，如限制条件过于严苛，适用范围较窄，***的误操作率过高等。

本发明受上述方案3启发，在充分借鉴吸收其优势的同时，针对其自身所存在的不足，提出了一种基于信息交互的分布式故障检测与补偿控制方案。该方案改进了节点的故障判别机制，通过采用流言传播(Gossip)算法，有效改善***误操作率过高的问题。同时，方案中对节点间的信息交互内容做了重新设定，使节点能更有效地利用所接收到的信息。另外，考虑到信息交互协议的复杂性，本发明提出一种面向控制量的故障修复方案，使***对节点信息交互协议的限制大大放宽，扩大了该方案的应用范围。

发明内容

本发明针对目前分布式多智能体***易发生故障，且无简便可行的实时故障处理方案这一问题，提出一种基于信息交互的分布式实时故障检测与补偿控制方法，通过节点间的信息交互，完成对故障节点的检测、隔离与修复，从而实现对***故障的及时处理，减小其带来的损失的目的。

本发明的一种基于信息交互的分布式实时故障检测与补偿控制方法，包括如下步骤：

步骤一、***及故障建模：所述建模包括节点动力学模型，信息交互模型，典型故障模型；其中节点动力学模型采用单积分器模型，通过一阶微分方程描述节点的运动状态；信息交互模型采用无向图描述，即节点间均可以双向通信，各个独立智能体借此进行信息交互，完成***控制任务；典型故障模型包括现实中智能体常出现的故障类型；

步骤二、基于信息交互的多智能体实时故障检测：从步骤一所述的节点动力学模型的表达式中选取相关的状态变量作为对节点运行状态的描述；通过设定门限函数，对节点的运行状态进行划分，区别正常节点与故障节点；同时单个节点借助步骤一所述的信息交互模型获得其邻接节点的状态信息，并通过检测算法检测其是否发生故障，形成单节点的检测结果；

步骤三、基于Gossip算法的信息整合与处理：由于通信丢包，时滞等问题的存在，步骤二中单节点检测结果受环境影响较大，可信度不高；因此利用Gossip算法，将单节点检测结果进行信息整合，获得可靠性更高的综合检测结果，并将此作为对节点运行状态的最终判断依据，用以区分正常节点与故障节点；

步骤四、面向控制量的补偿量计算与施加：若检测到故障节点，则通过相应操作将故障节点隔离，同时从故障节点对其邻接节点控制量的影响出发，设计相关的计算方案，获得补偿量的值，并加至原控制量中，借以抵消故障节点对***产生的影响；

步骤五、设计基于二跳信息的连通性保持：从信息交互模型出发，对故障节点间的通信内容进行分析，通过利用其中的二跳信息，建立虚拟的信息传输通路，保证故障处理方案不会影响***的正常工作。

其中所述的故障类型包括毁坏性故障、失控性故障和干扰型故障。

与现有方案相比，本发明的优势与创新之处主要有以下几点：

(1)针对现有方案大多对***硬件要求较高，需要占用大量计算资源的问题(如方案1、2中所示)，本发明从多智能体***的基本控制规则着手，充分利用其现有的计算结果，在占用极少计算资源的条件下，即实现了对邻接节点的实时监测，大大降低了本发明的应用成本。同时，本发明以少量增加通信内容为代价，通过利用gossip算法，有效克服了随机信号对故障检测结果的干扰问题(如方案3中所示)，这一创新保证了故障检测结果的可靠性，也使得本发明具有实际应用的价值。

(2)现有方案对故障节点的隔离与修复研究不多，大部分都是采用简单的直接终止通信的方式，且故障修复方案也只适用于线性控制协议(如方案3中所示)，应用范围受到限制。本发明从***的控制结果入手，设计了一种基于控制量的故障隔离与补偿算法，该算法充分考虑了***最为常见的饱和特性，可有效解决非线性控制协议下***对故障的修复问题，大大扩展了本发明的适用范围。

(3)对于***在故障节点被隔离后如何进行连通性保持的问题，现有方案对此均没有做深入的研究。本发明通过借助现有的通信内容和利用gossip算法得到的可靠检测信息，设计了一种基于二跳信息的***拓扑结构保持方案，该方案可以保证若故障节点未脱离正常节点的通信范围，即可借助其传递的邻接节点的信息建立虚拟信息传输通路，保证***时刻连通，其正常功能不会因故障节点隔离而被完全破坏。

附图说明

图1—多智能体***拓扑结构图；

图2—故障检测方案示意图；

图3—基于流言传播(Gossip)算法的信息处理方案示意图；

图4—节点期望输出与实际输出关系图；

图5—利用二跳信息后的***拓扑结构图；

图6—故障1有无处理方案结果对比图；

图7—故障2有无处理方案结果对比图；

图8—故障3有无处理方案结果对比图；

图9-基于信息交互的分布式实时故障检测与补偿控制方法流程图。

具体实施方式

下面结合附图和实例对本发明做进一步说明：

首先给出***及检测模型：

在实际的多智能体***中，通常将节点的运动信息作为目标进行控制，以求实现节点的运动状态或是位置分布满足控制要求。对于采用单积分器模型的节点而言，其动力学模型满足如下形式：

{\overset{\cdot}{x}}_{i} (t) = u_{i} (t) - - - (1)

该式表明节点的控制量取决于节点状态的导数，一般而言即为节点的速度信息。式(1)给出的是在连续时间状态下节点的动力学模型，但在实际的控制***中，由于节点需要对状态信息进行采样，且采样周期不可能无限小，因此，需要对节点建立离散时间状态下的动力学模型。由计算机控制***等相关学科的知识可知，对上述模型进行离散化处理后得到的离散时间状态下典型单积分器模型有如下形式：

z_i((k+1)T)＝z_i(kT)+u_i(kT)T,i＝1,…,N(2)

其中T是采样时间。为简便起见，记z_i ^k＝z_i(kT)，u_i ^k＝u_i(kT)，并且满足其中z_i ^k是节点在二维空间中的位置坐标，u_i ^k∈R²是节点i在每个时间步长k内的控制量。该模型代表的实际物理意义是：将***中节点的位置作为控制目标，通过在每个时间步长k内控制节点速度的大小来实现节点位置的调整，最终使节点的分布状况达到控制要求。无论是借助有线还是无线网络进行信息传输，多智能体***都是以节点间信息交流为基础实现协同控制的。整个信息交互网络可用图G＝{V,E}来描述，其中V＝{1，…,N}是图中的顶点，同时也代表***中的各个节点，是图中的道路。我们定义：若节点i能够将自身信息传输给j，则称i为j的邻接节点，即(i,j)∈E。记N_i ^k＝{i₁,…,i_p}为时间步长k内节点i的邻接节点集，|N_i ^k|为其基数。除此之外，我们假定G为无向图，也就是说

(i, j) &Element; E &DoubleLeftRightArrow; (j, i) &Element; E .

另外，假定节点的控制规则有如下结构：

u_i ^k＝P_i(z_i ^k,I_i ^k)(3)

其中P_i:R²→R²为控制协议，由节点的控制目标决定；是时间步长k内节点i邻接节点的状态，其中N_i ^k＝{i₁,…,i_p}，p＝|N_i ^k|。式(3)中所示的结构为多智能体协同控制中常用的结构，即节点的控制量由其当前状态及其所有邻接节点的状态共同决定。P＝{P₁，…P_N}为预先设定的控制协议，若满足则称P为齐次的控制协议，否则称其为非齐次的控制协议。本发明只考虑信息交互协议为齐次的情况。

记***中所有故障节点的集合为F，时间步长k内节点i对节点j的检测结果为满足：

q_{i, j}^{k} = \{\begin{matrix} 0, j &NotElement; F \\ 1, j &Element; F \end{matrix} - - - (4)

在每个时间步长k内，节点会对其所有邻接节点进行故障检测，同时获得检测结果另外，定义***对节点的检测结果为该节点所有邻接节点对其检测结果的综合，其形式如下：

Q_{i}^{k} = Σ_{j = i_{1}}^{i_{p}} q_{j, i}^{k} / p - - - (5)

其中N_i ^k＝{i₁,…,i_p}，p＝|N_i ^k|。通过数据信息交互，每个节点都会获得***对其自身的评价结果，具体的获取方式将在下文中做详细陈述。

下面对节点间的信息交互模型进行分析：

在多智能体***中，各个节点通过感知周围环境来对自身进行控制。若节点对环境的感知是基于节点间的相互信息交互，则这种模型就被称为基于信息交互的模型。在本发明所讨论的***信息交互模型中，节点之间的信息交互内容由以下部分组成：

内容1：节点i∈V在时间步长k内将由式(3)求得的控制量u_i ^k以及自身当前状态z_i ^k传输给其所有的邻接节点j∈N_i ^k。

内容2：节点i∈V在时间步长k内将其邻接节点的状态及由式(5)获得的***对其邻接节点的检测结果{j∈N_i ^k|Q_j ^k}传输给其所有的邻接节点j∈N_i ^k。

内容3：节点i∈V在时间步长k内将其对相应邻接节点的检测结果以及邻接节点对i的检测结果传输给其所有的邻接节点j∈N_i ^k。

值的说明的是，内容3中传输的邻接节点对i的检测结果并不是Q_i ^k的形式，虽然两者在意义上完全等价。此处主要考虑节点i为恶意节点的情况，若直接传输Q_i ^k，该数据可能会被恶意节点刻意修改而使得***无法检测出该恶意节点。采用的形式，由于数据中包含节点自身对恶意节点的检测信息，可用来进行信息校对，或者通过与恶意节点的邻接节点进行数据校对来确认检测结果。这属于信息对抗的研究范畴，本发明对此不作详细讨论。

下面给出典型故障类型：

在对***故障进行定义时，由于不同***的组成及运行方式各不相同，其对故障的定义方式也有所不同。对于功能划分相对独立且结构完全可知的***，可从故障产生的原因着手对其进行定义。例如，对于一辆汽车而言，可从动力***、制动***等方面具体定义发动机损坏、刹车失灵等故障。这样做的好处是针对性强，而且可以最大限度减小对***的破坏，保证其功能不受影响，现实世界中的大部分***都采用这种故障定义方式。但是，对于多智能体***而言，由于其运行方式复杂多样，拓扑结构也各不相同，往往很难确切得知具体的故障原因，因此也就无法从源头出发定义故障。考虑到多智能体***是由多个智能体协同完成控制任务，单个智能体对***并不能产生决定性的影响，因此，可以考虑不具体分析故障产生的原因，而是从节点的实际运行结果着手进行定义，即只要某一节点的运行结果不满足***要求，就认定其发生故障，并将其从***中剔除。这种故障定义方式会对***产生一定的破坏，但相比于为维修某一节点故障使整个***停止运行而言，其损失仍相对较小。另外，这种定义方式能大大简化***检测故障的难度，且可对故障进行实时处理，保证***在有故障存在的情况下仍能最大限度完成预期任务。现结合实际的多智能体***，给出如下几种典型的故障形式：

故障1：毁坏型故障。具体表现为节点在运行过程中非正常地停止运动，或是虽然有运动趋势，但实际的状态却并未按预期发生改变。产生此种故障原因可能是节点受到外部攻击，使得动力***损毁，或者是节点的能量耗尽，失去动力来源。另外，考虑***运行过程中的一种特殊情况，即节点受周围环境或自身程序的影响无法继续运动，例如节点卡在某个无法移动的地形上，或是控制程序存在缺陷，使节点陷入局部极值点等，这种情况下虽然节点本身并未受到损毁，但其已无法正常运动，故仍将其归于毁坏型故障之列。

故障2：失控型故障。具体表现为节点运动不受控制，速度保持不变，或是非常规地发生改变，使得控制效果无法满足***要求。产生的原因可能是控制***发生错误，无法正常生成控制信息，或者节点的动力***与控制***失去联系，执行器无法获得正确的控制量。另外，当***受到恶意攻击时最容易产生此种故障，可将其作为检测***中是否有恶意节点的标志之一，如检测到该故障出现，应及时采取防范措施，防止恶意信息的进一步扩散。

故障3：干扰型故障。具体表现为节点出现大量无规则的运动，实际运行状态与理论运行状态偏差过大，已对***的正常运行产生危害。造成此种故障的原因很多，在实际的多智能体***中也最为常见。具体原因可能是节点受强烈的外部随机干扰影响，如地形过于崎岖，或是节点执行元件的精密程度不足，产生的随机误差太大等。对于此类故障，在处理时应持谨慎态度，因为误差的出现是不可避免的，若检测程序过于严苛，可能会使大量节点被认定发生故障，这将给***带来不必要的损失。为解决此类问题，可考虑采用滤波算法等对其进行补偿处理。

另外，对于基于信息交互的模型而言，节点对周围环境的感知及自身控制量的获取完全依靠与邻接节点的数据信息交互，因此，数据信息交互是节点与***联系的桥梁，对节点的正常运行起着至关重要的作用。针对上述三种故障类型，若节点只是控制器或动力***发生故障，但还保留有正常的信息交互功能，则称其为Ⅰ类故障；若节点信息交互***被破坏，无法正常进行数据信息交互，则称其为Ⅱ类故障。

下面给出基于信息交互的故障检测方案的具体实施办法：

由上文的讨论可知，本发明是针对节点的控制效果进行的故障定义，即一旦节点的实际运行状态不满足控制要求，即认为其发生了故障。由此可以很自然地想到一种故障检测方案：检测***的运行状态，若某一节点理论运行状态与实际运行状态产生误差r，且该误差超出一定范围，即断定节点发生故障。

由于本发明中所考虑的节点模型为单积分器模型，输出反映在节点的连续位移z_i ^k+1-z_i ^k，或者说是节点的速率输出u_i ^k上，所以我们用u_i ^k作为计算***残差信号的性能指标：r_i ^k＝u_i ^r,k-u_i ^a,k，其中u_i ^r,k∈R²是在时间步长k内通过控制协议P求得的***理论运动状态，u_i ^a,k∈R²是通过实时测量得到的***实际运动状态，满足：

u_i ^r,k＝u_i ^k＝P_i(z_i ^k,I_i ^k)(6)

u_i ^a,k＝h(z_i ^k+1,z_i ^k)(7)

若节点i的状态是连续的，则z_i ^k+1和z_i ^k可以通过节点内置的传感器测量得到，而h则可使用简单的一阶微分方程形式(z_i ^k+1-z_i ^k)/[(k+1)T-kT]。

现对故障节点做出如下定义：

定义1：对于采用单积分器模型的节点i，若其满足式(8)所述条件，则称其为故障节点。

||r_i ^k||＝||u_i ^r,k-u_i ^a,k||＞χ(||u_i ^r,k||,δ)(8)

其中，χ(||u_i ^r,k||,δ)称为门限函数，它的值取决于输入信号的大小||u_i ^r,k||和扰动量δ。一般可以取χ(||u_i ^r,k||,δ)＝γ₁+γ₂||u_i ^r,k||，其中常量γ₁取决于扰动量δ，时变量γ₂||u_i ^r,k||取决于节点的瞬时输入。

对于可能包含故障节点的***，我们的控制目标是：***能够完成原定任务，同时检测并隔离故障节点。由于故障节点无法参与原定任务，故规定：若未发生故障的节点都完成了原定的任务，即认为整个***完成了预期目标。

如图2所示，本发明提出如下故障检测方案：

假设此时节点j正在对节点i进行故障检测，在时间步长k内，通过上文所述的信息交互内容1和2，节点j可获得节点i此刻的状态z_i ^k以及其所有邻接节点信息由于信息交互协议是齐次的，故节点j可利用自身的控制协议与I_i ^k求得节点i的理论控制量u_i ^r,k。在下一个时间步长k+1中，类似地，节点j可获得z_i ^k+1和u_i ^r,k+1，并利用式(7)求得u_i ^a,k。此时，节点j就可利用式(8)来判断节点i在时间步长k内是否发生故障。

直观地说，该故障检测方案就是通过获得目标节点邻接节点的信息，借助齐次的信息交互协议求得目标节点的理论运动状态，并将其与探测到的实际运动状态进行比较，若误差超过一定幅值，则判定节点发生故障。

上文所述的故障检测方案得到的是单个节点的检测结果，其受随机因素影响较大，结果的可信度不高。例如，在节点的信息交互过程中常存在时延及数据丢失等现象，若节点并未及时接收到某一邻接节点的信息，或接收到的信息不完整，则很有可能将该邻接节点误判断为故障节点而对其采取隔离等操作，这些操作将被其邻接节点视为故障，导致该节点本身被检测为故障节点。这样下去，***中将会有大量正常节点因误操作而被隔离，造成严重的资源浪费，甚至可能导致全局目标无法实现。考虑到这些情况，本发明提出采用流言传播(Gossip)算法，对各节点的检测结果进行信息处理，借此提高检测结果的准确度。方案示意图如图3所示，具体实现方案如下：

以节点i为例，首先，在时间步长k内，节点i独自进行故障诊断工作，利用式(8)与式(4)得到其对所有邻接节点的诊断结果与此同时，i的所有邻接节点也在进行同样的操作。接着，如信息交互内容3所示，节点i将对邻接节点的诊断结果分别传送给其邻接节点，同时接收到邻接节点对i的诊断结果最后，节点i将邻接节点对自己的综合检测结果传送给其所有邻接节点，同时接收到其邻接节点的综合检测结果。这样，利用式(5)，节点i就可以计算出***对其邻接节点的检测结果通过设立参数Q_con，当时，即可判断节点j发生故障。一般而言，参数Q_con为(0,1]区间上的常数，其取值要受节点执行的精度，环境干扰的强度，节点间的信息交互质量等因素的影响。Q_con的值越大，***对故障的检测结果可靠性越高，但漏检的概率也越大，因此，Q_con的值应根据实际***的不同适当选取。

下面给出故障隔离与修复方案的具体实施办法：

故障检测完成之后，***往往需要对故障节点进行隔离工作，以消除其对剩余正常节点的影响。另外，在分布式多智能体***中，由于各个节点的故障检测任务是独自进行的，很有可能出现故障节点被其邻接节点在不同时刻检测到的情况。而且，由于节点之间需要应用流言传播(Gossip)算法对检测结果进行信息处理，这也将带来一定程度的时延。因此，节点发生故障的时间与节点被***诊断为故障节点的时间通常是不一致的。在这段时间内，故障节点仍然作用于***，使最终的控制结果产生偏差。为了消除该影响，本章将提出一种通过施加外部信号，对***进行控制量补偿的故障修复算法。

通过上文论述可以发现，***中各节点检测到故障节点的时间可能是不一致的，若每个节点在自己检测到故障节点的时刻就进行故障的隔离与修复，则该隔离修复操作很有可能被其邻接节点诊断为故障而对其采取同样的操作。这种情形将会逐级扩散下去，最终导致整个***的崩溃。因此，有必要给各节点规定一个时刻来统一进行对故障的操作。我们引进一个新的参数：故障检测与修复周期，记作T_p＝p*T。其中常数p*∈Z⁺，T是采样时间。在每个周期T_p中，节点在k∈[k^*T_p+T,(k^*+1)T_p-T]时间段内进行故障检测与信息处理，在k＝(k^*+1)T_p,k∈Z⁺时间段内对故障节点进行隔离与修复。值得注意的是，由于故障隔离与修复是一项非常规操作，很有可能被其邻接节点检测为故障，因此，在时间段k＝(k*+1)T_p,k∈Z⁺内，应暂时屏蔽各节点的故障检测功能。

下面给出故障节点的隔离方案：

故障隔离是指将发生故障节点的控制量从其邻接节点中去除，同时阻断故障节点接收邻接节点信息的信息交互渠道，以达到消除故障节点影响的目的。很容易想到，当节点检测到其邻接节点发生故障时，只需将该节点从其邻接节点集中去除，同时停止对该节点发送自身状态信息，即可完成隔离工作。注意这里并未中断对故障节点发送自身邻接节点的信息，因为两者并无直接的联系，发送该信息对***影响不大。终止自身信息发送主要是出于信息的安全性考虑，因为产生故障的原因是未知的，若该节点已被敌对方控制，继续发送数据有可能被节点恶意利用，从而对自身的控制产生影响。但是，终止信息发送也会带来一个问题，即故障节点无法接收到邻接节点的信息，就会将其邻接节点判定为故障节点而同样中断信息发送，这样，当故障节点终止对所有邻接节点发送信息时，它对***而言将是完全不可见的，其运动对***产生的危害也将完全无法规避，这会导致很多对***不利的情形出现，如节点之间发生碰撞，***拓扑结构发生毁灭性破坏等。为避免上述情况，现对节点定义如下操作：

操作1：当节点无法接收到某一邻接节点的信息时，通过已接收到的邻接节点对自身的评价，利用式(5)求出***对自身的诊断结果。若该结果超出一定的幅值Q_con，即可判断自身出现故障，此时屏蔽自身的故障检测功能，但仍仍向邻接节点发送数据信息，只是信息中将不再包含内容3所列举的部分。

通过上述操作，故障节点将不会对剩余正常节点做出评价，但其运动对***而言仍是可见的，以便***及早对其破坏性活动做出反应。另外，保留的信息交互内容1和2将使故障节点成为一个信息传递的中继节点，避免故障隔离操作对***拓扑结构产生毁灭性破坏，此部分内容的具体论述将在下文中给出。

下面给出故障修复方案：

故障修复的目的是：若故障节点发生故障后未能得到及时隔离，仍对***产生了一定的影响，则采取故障修复来消除该部分影响。对于故障修复，一个直观的想法就是将故障节点的控制量分离出来，将其取反并重新加入原控制量中，借以抵消故障节点的影响。但是，这种方案要求节点的控制协议具有线性可叠加的形式，以便能够分离出故障节点的控制量。但对于复杂的多智能体***而言，常常会出现控制协议是非线性不可叠加的情况。因此，本发明将从节点的实际控制效果出发，定义一种新的补偿量计算及故障修复方案，同时对该方案的可行性给出证明。

对于多智能体***中的任意一个节点i，若其未发生故障，则期望输出u_i与节点的实际输出y_i之间必定满足如图4所示的关系。此处忽略执行器自身存在的执行误差。

图中，u_imax代表节点i的最大期望输出，y_imax代表节点实际的输出上限。对于实际的节点而言，当期望输出超出节点所能达到的实际输出上限时，节点只能在最大输出y_imax下运行，这将导致部分控制量无法在输出中表现出来。因此，为了避免节点将此饱和特性诊断为故障，就需要对控制量进行限幅设置，即这样，期望输出与实际输出之间将会存在如下关系：

y_i＝a·u_i(9)

其中常数a∈R⁺为***的输出增益，本发明中假定a＝1。

需要说明的是，此处的u_i只是对节点期望输出的一个数学描述，并不是控制器真正的输出。对于实际的执行器而言，其非线性复杂多样，并不仅仅是饱和特性这样简单，控制器还需采取相应的控制算法，如PID控制、模糊控制等来保证节点能正常执行输出任务。另外，上文中提到的节点实际输出y_i是指节点理想化的稳态响应结果，其动态响应特性并不在本发明的讨论范围之内。

现针对补偿量的计算定义如下操作：

操作2：当节点i在k＝T_i时刻检测到其邻接节点j发生故障时，利用式(3)计算在没有j影响的条件下自身的控制量同时计算的值并将其取反累加起来，直至到达下一个故障隔离与修复时刻k＝T_ip。

由操作2可知，对于节点i而言，为消除故障节点j的影响而需要施加的补偿量为:

u_{i_{comp}, j} = - Σ_{k = T_{i}}^{T_{ip}} ({u_{i}}^{k} - u_{i \ j}^{k}) - - - (10)

由于实际***中存在输出的最大幅值，因此不能将由式(10)求得的补偿量简单地加至原控制量中，需考虑补偿量的加入是否会导致原控制量超过限幅值而出现补偿不充分的情况。为此定义如下操作：

操作3：在k＝(k*+1)T_p,k∈Z⁺时，若节点i已确认节点j发生故障，则将由式(10)求得的补偿量加入至原控制量中，同时检测此时的控制量是否超出限幅值，若是，则将超出限幅值的部分重新赋值给补偿量，待下一个隔离与修复时刻继续进行补偿；若否，则将补偿量清零，修复工作完成。

由操作3可知，在若干个故障检测与修复周期之后，补偿量将会被完全加至控制量当中，此时即完成了对故障节点的修复工作。

下面给出基于二跳信息的网络连通性保持方案：

从上文的分析中可知，对于发生Ⅱ类故障，即信息交互***遭到破坏的节点，其对网络连通性的影响在现有的拓扑结构下将是无法修复的。但是，若节点仍保留有正常的信息交互功能，则可将其视为一个信息传输的中继节点，建立起二跳的信息传输路径，借此修复可能遭到毁灭性破坏的网络拓扑结构。具体实现方案如下：

如图1所示，假设节点3发生故障，若只对其采取隔离修复操作，则节点1、2与节点4、5、6、7之间将没有信息交互，原图的连通性遭到了破坏，该***将无法协同完成控制目标。考虑操作1中对故障节点的规定可知，此时故障节点的邻接节点仍能接收到其传来的信息交互内容1和2的信息，其中内容2中将包含其邻接节点的完整信息。由此可以设想，将该故障节点作为信息传输的中继节点，在其两个不相邻的邻接节点间建立起虚拟的信息传输路径，借以保持原图的连通性。定义如下操作：

操作4：若节点i检测到其邻接节点j发生故障，则在完成故障隔离操作后，检测节点j信息交互内容2中其邻接节点的信息和若且则令

z_{l}^{k} &Element; I_{i}^{k}, Q_{l}^{k} &Element; {m &Element; N_{i}^{k} | Q_{m}^{k}} .

经过操作4后，图1将变成如图5所示的拓扑结构，其中节点3发生故障。虚线代表以节点3为中继节点的二跳信息传输通路。

由操作4可知，若故障节点的两个邻接节点之间并没有直接的信息交互联系，则经过上述操作，将会在两节点之间建立起一条虚拟的信息传输通道，使两节点成为理论意义上的邻接节点，由此即可保证原图的连通性不被破坏。

现针对多智能体控制中的一致性问题来验证本发明所提出的故障检测、隔离与修复方案的可行性。

首先假定对于所有的道路a_ij的值都相等，则此时控制协议P为齐次的，即所有节点的控制量生成方式都完全相同。这样，通过利用信息交互内容1-3，节点接收其邻接节点的信息，并利用自身的控制协议对邻接节点进行诊断，然后利用流言传播(Gossip)算法进行信息处理，即可完成对故障的检测。之后，通过利用操作1-4，可正常完成对故障的隔离修复以及网络连通性保持的任务。整个过程中并无特殊的条件来限制该故障处理方案的应用，因此可以证明，若多智能体网络中道路的权重值相等，则该故障处理方案可以应用于一致性问题中。

但是，实际的多智能体***有可能存在这种情况：在不同的信息交互网络中，不同道路的权重值也各不相同，也就是说控制协议P不再是齐次的。此时，需要对信息交互内容2进行一些修改，节点i不再传送其邻接节点的状态信息I_i ^k，改为传送新的信息其中{i₁,...,i_p}＝N_i ^k。这样，节点间的控制协议就不再包含非齐次项a_ij，仍可将之视为齐次的控制协议，因此，参照上文的分析可知，原方案仍然适用。

下面给出软件仿真结果：

如图6-8所示，这三幅图展示的是利用MATLAB对8个多智能体进行一致性控制仿真的结果。图6(左)、图7(左)、图8(左)分别是对故障1、故障2、故障3进行故障检测隔离与修复后的结果，而对应的图6(右)、图7(右)、图8(右)分别为对应的不采取故障处理操作时的结果。从图中可以发现，若不对故障进行处理，则剩余节点随时间的推移将会被故障节点带离预期目标，从而导致整个***控制目标无法实现。而采取故障处理方案后，故障节点对剩余节点将不再产生影响，剩余的正常节点仍能按预期完成一致性控制。

以上所述的仅为本发明的较佳实施例而已，本发明不仅仅局限于上述实施例，凡在本发明的精神和原则之内所做的局部改动、等同替换、改进等均应包含在本发明的保护范围之内。

Claims

1.一种基于信息交互的分布式实时故障检测与补偿控制方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于信息交互的分布式实时故障检测与补偿控制方法，其特征在于，其中所述的故障类型包括毁坏性故障、失控性故障和干扰型故障。