CN113954069A

CN113954069A - 一种基于深度强化学习的机械臂主动容错控制方法

Info

Publication number: CN113954069A
Application number: CN202111243205.9A
Authority: CN
Inventors: 梁斌; 颜子琛; 徐峰; 王学谦; 刘厚德
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2022-01-21
Anticipated expiration: 2041-10-25
Also published as: CN113954069B

Abstract

一种基于深度强化学***滑的主动容错控制。

Description

一种基于深度强化学习的机械臂主动容错控制方法

技术领域

本发明涉及机械臂及容错控制领域，特别是涉及一种基于深度强化学习的机械臂主动容错控制方法。

背景技术

随着工业技术的发展，现代控制***愈显智能化和复杂化。而在*** 运作时，故障的发生不可避免，为了提高***的安全性以及可靠性，故障检测，故障诊断和容错控制技术受到学者的广泛关注，并逐渐被应用到各种***中。故障检测与诊断FDD(FaultDetection and Diagnosis)旨在尽快判断故障的发生并识别故障的特征，而容错控制的目的是弥补故障带来的性能损失。一个有效的容错控制***能够保证操作的安全运行，并维持故障发生时的控制性能。

当前容错控制的研究方法主要分为两类：主动容错控制AFTC(Active FaultTolerant Control)和被动容错控制PFTC(Passive Fault Tolerant Control)。被动容错控制的研究目标在于提高***在故障状态下的鲁棒性，由此设计出的控制器能够在不改变其结构和参数的情况下容忍外部干扰和故障的发生，但容错性能有限。主动容错控制与被动容错控制相比，增加了一个故障检测和诊断模块，通常情况下控制器的参数或结构将根据诊断信息进行相应的调整，因此具有更好的容错性能。其中，故障检测与诊断方法又可分为两类：基于数据的方法和基于模型的方法。基于模型的方法依赖于***精确的动力学模型，通过设计观测器、构造健康***模型等方法来产生信号残差，从而进行诊断。基于数据的方法则充分利用***的输入输出数据，通过分析信号，深度学习等技术进行故障识别，无需考虑系统的建模和外界扰动。因此，基于数据的方法在实际应用中适用性更强。

近年来深度强化学习DRL(Deep Reinforcement Learning)的兴起为容错控制提供了一个新方法。强化学习的主要思想在于通过环境交互，在试错中主动寻找一个较优的策略，而深度强化学习则是结合了深度神经网络强大的数据拟合能力。基于DRL的容错控制方法，其优点在于能够根据环境反馈去自主估计故障的幅度，并输出对应的控制策略。

在现有的文献中，已存在深度强化学习在容错控制中的应用案例。例如，一种针对无人机的基于深度强化学习的容错控制方法，在原始的无人机控制***中加入了DRL辅助控制器，根据***状态变化输出辅助控制信号，实现了无人机在多种故障攻击下的稳定飞行。然而，当前基于DRL 的容错控制方法仅考虑被动容错，辅助控制***在健康和故障状态下始终保持运行，而在复杂非线性***中，如多自由度机械臂，DRL策略运行的长期稳定性是无法保障的，因此发展基于DRL的主动容错控制方法对提高 ***的稳定性具有实际意义。

在一种基于深度强化学习的被动容错控制方法中，无论***处于健康或故障模态，基于深度强化学习的辅助控制器始终处于工作状态，该方法对于机械臂这类复杂非线性***存在安全隐患，因为强化学习策略具有一定的随机性。

有种基于深度学习的机械臂故障诊断方法只考虑了故障的检测与诊断，而给出没有诊断后机械臂的容错控制方案，在基于数据的框架下，尚没有针对多自由度机械臂的故障诊断与容错控制相结合的方法。

有种基于模型的机械臂容错控制方法，依赖于准确的机械臂模型。而在实践中精密的数据测量往往是困难和昂贵的，且器件的物理属性会随着使用时间的推移而改变，因此该类方法难以在实际中使用。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本发明的主要目的在于克服上述背景技术的缺陷，提供一种基于深度强化学习的机械臂主动容错控制方法。

为实现上述目的，本发明采用以下技术方案：

一种基于深度强化学习的机械臂主动容错控制方法，包括：利用深度学习方法进行实时的故障检测，其中，将训练得到的基于数据的动力学模型作为名义模型来产生机械臂关节速度的残差信号，并根据所述残差信号进行在线的故障检测和诊断；当机械臂发生单或多执行器突变故障时，通过诊断定位发生故障的机械臂关节，为容错控制提供故障信息；根据所述故障信息，针对发生故障的关节，基于深度强化学习的辅助控制器与*** 控制器一起工作，输出补偿控制力矩以弥补关节性能损失，从而实现在机械臂执行器故障情况下维持轨迹跟踪性能；其中，机械臂的每一个关节配置有所述基于深度强化学习的辅助控制器，在健康状态下，所述辅助控制器停止工作，机械臂由本身的名义控制器控制，当发生故障时，所述辅助控制器与所述名义控制器并行工作，自主估计执行器的故障程度并输出补偿力矩。

进一步地：

n自由度的机械臂动力学模型：

其中，

分别表示关节位置，关节速度和关节加速度；

表示惯性矩阵，

表示离心力和哥氏力,

为重力项，

为控制力矩；式(1)表示成

设计状态变量

以及输入向量a＝τ，对式(2)进行离散化得离散时间状态方程

其中

Δt表示离散时间间隔；

机械臂执行器的故障模型：

机械臂***的执行器即为驱动各个关节的伺服电机，执行器故障表示为

τ_i＝δτ_{n_i}+Δr_i (4)

其中τ_i,τ_{n_i}分别表示第i个关节的实际力矩和计算得到的名义力矩， δ∈[0,1]表示执行器的损失系数，Δr_i表示偏置量。

所述执行器故障包括乘性故障、恒偏置故障和完全故障。

所述故障检测为基于多层感知机的故障检测方法：

构建一组名义***模型和真实的故障***模型，在每一时刻k，名义系统输入计算力矩而真实***输入真实力矩，通过比较***输出的残差r_k判断故障的发生，即

其中

表示k时刻名义***的输出，

表示实际***的输出；取各关节速度信号作为判断依据，若任一关节的速度残差值r_k超出提前设定的阈值时，则判断为故障发生；

在数据驱动的框架下，名义的动力学***由多层感知机拟合历史数据得到；由式(4)，在k时刻根据当前的状态s_k和输入a_k预测下一步的状态s_k+1，拟合此非线性函数f(·)：

收集无故障情况下的机械臂运行轨迹数据τ＝(s₀,a₀,…,s_n,a_n)，优化的损失函数定义为

其中D表示历史数据库，每次批量采样状态-动作对(s_k,a_k,s_k+1)对神经网络进行训练，网络参数通过反向传播算法更新；训练好的多层感知机用于信号残差的生成，从而实现机械臂的故障检测，即

所述故障诊断为基于一维卷积网络的故障诊断方法：

通过一维卷积网络对所述残差信号进行分类识别，从而得到发生故障的具体关节位置；其中，所述一维卷积神经网络输入为关节速度残差的时间序列，输出为关节故障的类别数；其中，当残差超出指定阈值时，按设定的截取序列长度n_l，截取故障时间点之后的一段关节速度残差信号用于故障诊断；对于一个n自由度机械臂，每一批数据维度为n×n_l；优选的，训练数据通过仿真环境下模拟各类执行器故障获得。

所述深度强化学习采用深度确定性策略梯度算法，该算法包括策略网络μ^θ和价值网络Q^θ，所述策略网络用于输出一个确定性的连续动作，所述价值网络用于评估状态-动作对的价值；具体包括如下步骤：

初始化价值网络Q(s,a|θ^Q)和策略网络μ(s|θ^μ)的参数θ^Q与θ^μ；

初始化目标价值网络Q′和目标策略网络μ′：θ^Q′←θ^Q,θ^μ′←θ^μ；

初始化记忆库R；

迭代N个回合：

初始化用于探索的高斯噪声N，获得初始状态s₁；

迭代T个时间步：

根据策略选择动作a_t＝μ(s_t|θ^μ)+N_t；

执行动作a_t，并获得奖励r_t，获得新的状态s_t+1；

存储数据组(s_t,a_t,r_t,s_t+1)到记忆库R；

从R中随机抽取M组数据(s_i,a_i,r_i,s_i+1)；

令y_i＝r_i+γQ′(s_i+1,μ′(s_i+1∣θ^μ′)∣θ^Q′)；

通过最小化误差更新价值网络：

通过采样计算得到的策略梯度更新策略网络：

更新目标网络：

θ^Q′←τθ^Q+(1-τ)θ^Q′。

θ^μ′←τθ^μ+(1-τ)θ^μ′

将强化学习问题定义为机械臂末端位置轨迹跟踪任务，

状态空间定义为：

其中θ,

表示实际关节位置和关节速度，θ_d,

表示目标关节位置和关节速度；动作空间定义为：

a＝τ (10)

输出动作为该关节的辅助力矩值，是标量；奖励函数的设计为：

其中p_goal,p_ee表示笛卡尔空间下的目标位置和机械臂末端位置。

将强化学习任务训练设置为：训练开始前首先指定可能发生故障的关节，训练过程中机械臂将执行轨迹跟踪任务，名义控制器和基于强化学习的辅助控制器同时工作，在随机时间步，将对指定关节注入执行器突变故障；在训练过程中辅助控制器始终开启，通过从健康***到故障***的切换让强化学习策略学会对执行器故障进行动态估计和自适应力矩补偿。

训练过程中设置单关节的执行器故障，或者，通过分散式的容错控制结构处理多关节故障的情况。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序由处理器运行时，实现所述的机械臂主动容错控制方法。

本发明具有如下有益效果：

本发明以机械臂为对象，以执行器故障为具体故障类型，针对机械臂单关节至多关节执行器故障，提出了一种基于深度强化学***滑的主动容错控制。

本发明的优点具体而言体现如下方面：

1、利用本发明提出的主动容错控制方法，可以在数据框架下，实现在线的机械臂执行器故障检测与诊断，确定发生故障的关节位置；

2、利用本发明提出的主动容错控制方法，可以对故障关节进行自主估计和补偿，降低***在故障情况下由性能损失带来的影响；

3、利用本发明提出的主动容错控制方法，实现了基于数据的故障诊断与基于深度强化学习的容错控制的结合，形成了一个完整通用的多自由度机械臂主动容错控制框架。同时，对强化学习策略的使用进行了引导和限制，提高了***的安全性。

附图说明

图1为本发明一个实施例的主动容错控制框架示意图；

图2为本发明一个实施例的故障诊断示意图；

图3为本发明一个实施例的一维卷积神经网络结构图；

图4为本发明一个实施例的仿真环境图；

图5为本发明一个实施例的基于数据的动力学模型预测精度图；

图6为本发明一个实施例的在关节A突变故障下的各关节速度残差变化曲线图；

图7为本发明一个实施例的各关节强化学习训练曲线图；

图8为本发明一个实施例的单关节故障下的轨迹跟踪曲线图，其中： (a)三维空间跟踪曲线；(b)二维平面跟踪曲线；

图9为本发明一个实施例的多关节故障下的轨迹跟踪曲线图。

具体实施方式

以下对本发明的实施方式做详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

需要说明的是，当元件被称为“固定于”或“设置于”另一个元件，它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件，它可以是直接连接到另一个元件或间接连接至该另一个元件上。另外，连接既可以是用于固定作用也可以是用于耦合或连通作用。

需要理解的是，术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、 “右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明实施例和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多该特征。在本发明实施例的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

参阅图1，本发明实施例提供一种基于深度强化学习的机械臂主动容错控制方法，包括：在机械臂的控制***中设置故障检测与诊断模块以及容错控制模块，以实现对机械臂输出数据的实时检测和故障发生时的辅助力矩补偿；其中，由所述故障检测与诊断模块利用深度学习方法进行实时的故障检测，其中，将训练得到的基于数据的动力学模型作为名义模型来产生机械臂关节速度的残差信号，并根据所述残差信号进行在线的故障检测和诊断；当机械臂发生单或多执行器突变故障时，通过诊断定位发生故障的机械臂关节，为容错控制提供故障信息；由所述容错控制模块根据所述故障信息，针对发生故障的关节，基于深度强化学习的辅助控制器与系统控制器如PID控制器一起工作，输出补偿控制力矩弥补关节性能损失，从而实现在机械臂执行器故障情况下维持轨迹跟踪性能；其中，机械臂的每一个关节配置有所述基于深度强化学习的辅助控制器，在健康状态下，所述辅助控制器停止工作，机械臂由本身的名义控制器控制，当发生故障时，所述辅助控制器与所述名义控制器并行工作，自主估计执行器的故障程度并输出补偿力矩。

本发明的方法将深度强化学习与主动容错控制应用相结合，具体而言，该方法能够实现：利用深度学习方法进行实时的故障检测；在故障发生后，对残差信号进行故障诊断，得到具体故障信息；在得到故障信息后，利用基于深度强化学习的容错控制模块，对各关节故障进行补偿。

以下进一步描述本发明具体实施例。

***描述

n自由度的机械臂动力学建模：

其中，

分别表示关节位置，关节速度和关节加速度。

表示惯性矩阵，

表示离心力和哥氏力,

为重力项，

为控制力矩。式(1)可表示成

设计状态变量

以及输入向量a＝τ，对式(2)进行离散化，可得离散时间状态方程

其中

Δt表示离散时间间隔。

机械臂执行器故障建模：

对于机械臂***而言，***的执行器即为驱动各个关节的伺服电机。在电机控制器无法完全控制电机的实际输出时即可视为执行器故障。常见的执行器故障可分为：

乘性故障：实际输出力矩为计算力矩乘以折扣系数，即损失了执行器的部分性能。

恒偏置故障：实际输出力矩与计算力矩间存在恒定误差。

完全故障：执行器完全失效，通常表现为关节锁死或自由摆动。

上述故障类型均可统一表示为

τ_i＝δτ_{n_i}+Δr_i (4)

其中τ_i,τ_{n_i}分别表示第i个关节的实际力矩和计算得到的名义力矩，δ∈[0,1] 表示执行器的损失系数，Δr_i表示偏置量。

主动容错控制策略

机械臂的主动容错控制框架：

如图1所示，机械臂的主动容错控制***建立在原控制***的基础上，通过加入故障检测与诊断模块以及容错控制模块，实现对机械臂输出数据的实时检测和故障发生时的辅助力矩补偿。故障检测与诊断模块中，将训练得到的基于数据的动力学模型作为名义模型来产生关节速度残差信号，残差信号被用于进行故障检测和诊断。通过诊断可定位发生故障的关节，为容错控制提供故障信息。容错控制模块中，一旦得到故障信息，基于深度强化学习的辅助控制器将与原***PID控制器一起工作，输出补偿控制力矩弥补性能损失，从而实现在机械臂执行器故障情况下维持轨迹跟踪性能。

主动容错控制***各模块算法实现

主动容错控制***由故障检测与诊断模块和容错控制模块构成。

故障检测与诊断模块实现基于深度学习的机械臂故障检测与诊断，其实时检测故障的发生，并对故障进行诊断，从而为后续的容错控制模块提供有效的故障信息。

优选的实施例中，基于深度学习的机械臂故障检测与诊断包括基于多层感知机的故障检测和基于一维卷积网络的故障诊断。

基于多层感知机的故障检测方法：

故障诊断通过构建一组名义***模型和真实的故障***模型来实现，在每一时刻k，名义***输入计算力矩而真实***输入真实力矩，通过比较 ***输出的残差r_k判断故障的发生，即

其中

表示k时刻名义***的输出，

表示实际***的输出。取各关节速度信号作为判断依据，若任一关节的速度残差值r_k超出提前设定的阈值时，则判断为故障发生。

在数据驱动的框架下，名义的动力学***由多层感知机拟合历史数据得到。由式(4)可知，在k时刻可根据当前的状态s_k和输入a_k预测下一步的状态 s_k+1，神经网络的目标便是拟合此非线性函数f(·)：

首先收集大量无故障情况下的机械臂运行轨迹数据τ＝(s₀,a₀,…,s_n,a_n)，优化的损失函数定义为

其中D表示历史数据库，每次批量采样状态-动作对(s_k,a_k,s_k+1)对神经网络进行训练，网络参数通过反向传播算法更新。训练好的多层感知机便可用于信号残差的生成，从而实现机械臂的故障检测，即

基于一维卷积网络的故障诊断方法：

检测到故障发生之后，需要对故障进行诊断从而得到更加具体的故障信息。这是因为当机械臂发生单个执行器故障时，由于机械臂***的耦合性与非线性，会导致所有的关节位置和关节速度发生突变，这将导致基于多层感知机的故障检测方法只能判断故障发生而无法定位到具体发生故障的关节。由于不同的故障类型会导致不同的故障信号特征，为了提高容错控制模块的性能，优选实施例采用一维卷积网络对残差信号进行分类识别，从而得到发生故障的具体关节位置。

如图2所示，当残差超出指定阈值时，即故障发生。而后截取该时间点之后的一段关节速度残差信号用于故障诊断，即图中灰色方块部分。截取序列长度n_l由人为设定，n_l越大则故障数据越丰富，更利于一维卷积网络的分类识别，但相应的故障诊断时间将越长，容错性能下降。n_l越小则故障诊断时间变短，但数据信息减少，分类识别难度提高。对于一个n自由度机械臂，每一批数据维度为n×n_l，训练数据通过仿真环境下模拟各类执行器故障获得。

一维卷积神经网络结构如图3所示，输入为关节速度残差的时间序列，输出则为关节故障的类别数。

容错控制模块用于进行基于深度强化学习的容错控制。

基于深度强化学习的容错控制方法：

利用前述的故障检测与诊断方法，当机械臂发生单或多执行器突变故障时，便可在固定时间内判断出发生故障的关节位置。在此基础上，容错控制算法只需针对发生故障的关节即可。因此，本发明中针对机械臂的每一个关节都增加了一个基于深度强化学习的辅助控制器，在***的健康状态下，辅助控制器停止工作，机械臂由本身的名义控制器控制。仅当发生故障时，辅助控制器开始与名义***并行工作，自主估计执行器故障程度并输出补偿力矩。

深度强化学习算法：

深度强化学习算法中，强化学习的组成元素包含智能体、环境和奖励三部分。奖励是一个标量的信号反馈，它表明智能体在某个时刻t所采取动作的好坏，智能体的目标即最大化预期累积奖励。一般的，智能体在t 时刻获得环境反馈s_t，根据自身的策略做出决策a_t＝π_θ(s_t)，并得到即时奖励R_t，同时环境更新至下一状态s_t+1，智能体通过与环境交互学习得到一个最优或次优策略。

优选实施例中采用深度确定性策略梯度算法，该算法由策略网络μ^θ和价值网络Q^θ构成。策略网络用于输出一个确定性的连续动作，价值网络用于评估状态-动作对的价值。算法训练流程如表1。

表1.深度确定性策略梯度算法

强化学习问题建模：

本发明中将强化学习问题定义为机械臂末端位置轨迹跟踪任务，由于机械臂各关节的强化学习辅助控制器是相互独立的，因此每次只需对单控制器进行训练。

状态空间定义为：

其中θ,

表示实际关节位置和关节速度，θ_d,

表示目标关节位置和关节速度。动作空间定义为：

a＝τ (10)

因单策略只对应单关节，因此输出动作为该关节的辅助力矩值，是标量。奖励函数的设计为：

其中p_goal,p_ee表示笛卡尔空间下的目标位置和机械臂末端位置。奖励的设计目的是尽可能提高机械臂的轨迹跟踪效果。

强化学习任务训练设置：

训练开始前首先指定可能发生故障的关节，训练过程中机械臂将执行轨迹跟踪任务，名义控制器和基于强化学习的辅助控制器同时工作，在随机时间步，将对指定关节注入执行器突变故障。辅助控制器的目的是在故障情况下维持控制性能，因此在训练过程中辅助控制器始终开启，通过从健康***到故障***的切换能够让强化学习策略学会对执行器故障进行动态估计和自适应力矩补偿。

因机械臂中各关节对于运动性能的力矩贡献不同，因此不同关节所训练得到的强化学习策略亦存在区别，但皆可通过该训练模式进行训练。此外，尽管训练过程中只设置了单关节的执行器故障，但这种分散式的容错控制结构使得本发明能够轻易应对多关节故障的情况。

仿真示例

为了验证算法的有效性，本发明在MuJoCo物理仿真环境下在7自由度Panda机械臂上进行了仿真实验。仿真环境如图4，A，B，C分别对应三个发生故障的旋转关节。

故障检测与诊断算法验证：

在***健康的状态下，通过采集大量的机械臂运行数据进行多层感知机的网络训练，从而得到基于数据的动力学模型。为验证训练模型精度，将真实值(s_t,s_t+1,…,s_t+N)与一步预测值

进行对比，如图5所示，可见模型的训练精度满足故障检测的需求。

在正常状态下，关节速度残差信号始终保持在一定的阈值范围之内，一旦发生突变的执行器故障，残差信号将超出设定阈值，图6即为关节A 在时间步k＝40时发生乘性故障后的各关节速度残差变化曲线图。红色虚线即为预设阈值，任一关节速度残差超出范围即意味着故障发生。

故障诊断算法对检测到故障后的残差时间序列进行分类识别。为训练一维卷积神经网络，本发明通过模拟不同的故障场景制作了训练数据集。详细设置见表(2)。对于每个标签，都有共有1000个样本，包含两种故障类型。每个样本由7条长度为10的时间序列组成。经过训练，在考虑所有故障情形的测试场景下，其预测精度能够达到94.4％。

表2.执行器故障具体设置表

基于深度强化学习的容错控制算法实验结果：

针对图4中的三个机械臂关节A,B,C分别进行了基于深度强化学习的辅助控制器训练。各关节的训练方式与算法参数设置完全相同，共训练100 回合，每回合9000个时间步，因物理仿真时间间隔为0.002秒，即每回合 18秒，控制器控制频率为500Hz。训练曲线如图7所示，不同的关节位置其训练结果存在差异，但总体上它们都快速收敛到了一个定值，大约需要 20个回合来学习到一个次优策略。

完整框架下的主动容错控制策略验证：

在对算法的各模块进行验证之后，对完整的主动容错控制算法进行仿真测试，通过比较原***与主动容错控制***的容错表现来验证算法的有效性。测试中机械臂将在X-Y平面执行圆形参考轨迹跟踪任务，并在随机时刻受到执行器故障攻击。

单关节执行器故障情况：

如图8所示，在时间步k＝300处将乘性故障注入关节A，即红星标记处。故障导致任务所需的扭矩降低至原力矩的76％。力矩损失导致关节速度发生突变，并立即被故障检测模块检测，接下来的10个时间步用于收集故障诊断所需的残差数据。因此在故障发生后的短时间内容错控制模块并未开启，控制精度持续下降。当一旦确定故障发生的位置，将激活对应的辅助控制器进行力矩补偿。图8中红线表示参考轨迹，绿线表示原***的跟踪轨迹，蓝线表示在本发明提出的主动容错控制方法下***的跟踪轨迹。

多关节执行器故障情况：

在多关节执行器故障情况下，不同类型的故障被分别注入到两个关节上。该实验中，关节B受到偏置故障的攻击，即加性常数扰动(3.65N·m)。关节C受到乘性故障的攻击，故障程度为80％。实验结果如图9所示。

通过对比实验可知，本发明提出的主动容错控制方案能够保证实时的故障检测与识别，利用智能化的容错控制方法提高了机械臂***的容错能力。超调量和跟踪误差都大幅降低，提高了故障情况下操作安全性。

本发明基于深度强化学习的机械臂主动容错控制方法具有如下的优点：

本发明将深度学习的故障检测与诊断和基于深度强化学习的容错控制，二者结合的主动容错控制框架，可实现多自由度机械臂执行器故障的主动容错控制的整体***。

本发明的背景部分可以包含关于本发明的问题或环境的背景信息，而不一定是描述现有技术。因此，在背景技术部分中包含的内容并不是申请人对现有技术的承认。

以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，其还可以对这些已描述的实施方式做出若干替代或变型，而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中，参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例” 等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点，但应当理解，在不脱离专利申请的保护范围的情况下，可以在本文中进行各种改变、替换和变更。

Claims

1.一种基于深度强化学习的机械臂主动容错控制方法，其特征在于，包括：利用深度学习方法进行实时的故障检测，其中，将训练得到的基于数据的动力学模型作为名义模型来产生机械臂关节速度的残差信号，并根据所述残差信号进行在线的故障检测和诊断；当机械臂发生单或多执行器突变故障时，通过诊断定位发生故障的机械臂关节，为容错控制提供故障信息；根据所述故障信息，针对发生故障的关节，基于深度强化学习的辅助控制器与***控制器一起工作，输出补偿控制力矩以弥补关节性能损失，从而实现在机械臂执行器故障情况下维持轨迹跟踪性能；其中，机械臂的每一个关节配置有所述基于深度强化学习的辅助控制器，在健康状态下，所述辅助控制器停止工作，机械臂由本身的名义控制器控制，当发生故障时，所述辅助控制器与所述名义控制器并行工作，自主估计执行器的故障程度并输出补偿力矩。

2.如权利要求1所述的机械臂主动容错控制方法，其特征在于，n自由度的机械臂动力学模型：

其中，

分别表示关节位置，关节速度和关节加速度；

表示惯性矩阵，

表示离心力和哥氏力,

为重力项，

为控制力矩；式(1)表示成

设计状态变量

以及输入向量a＝τ，对式(2)进行离散化得离散时间状态方程

其中

Δt表示离散时间间隔；

机械臂执行器的故障模型：

τ_i＝δτ_{n_i}+Δr_i (4)

其中τ_i,τ_{n_i}分别表示第i个关节的实际力矩和计算得到的名义力矩，

δ∈[0,1]表示执行器的损失系数，Δr_i表示偏置量。

3.如权利要求2所述的机械臂主动容错控制方法，其特征在于，所述执行器故障包括乘性故障、恒偏置故障和完全故障。

4.如权利要求2所述的机械臂主动容错控制方法，其特征在于，所述故障检测为基于多层感知机的故障检测方法：

构建一组名义***模型和真实的故障***模型，在每一时刻k，名义***输入计算力矩而真实***输入真实力矩，通过比较***输出的残差r_k判断故障的发生，即

其中

表示k时刻名义***的输出，

5.如权利要求1至4任一项所述的机械臂主动容错控制方法，其特征在于，所述故障诊断为基于一维卷积网络的故障诊断方法：

6.如权利要求2至5任一项所述的机械臂主动容错控制方法，其特征在于，所述深度强化学习采用深度确定性策略梯度算法，该算法包括策略网络μ^θ和价值网络Q^θ，所述策略网络用于输出一个确定性的连续动作，所述价值网络用于评估状态-动作对的价值；具体包括如下步骤：

初始化记忆库R；

迭代N个回合：

初始化用于探索的高斯噪声N，获得初始状态s₁；

迭代T个时间步：

根据策略选择动作a_t＝μ(s_t|θ^μ)+N_t；

执行动作a_t，并获得奖励r_t，获得新的状态s_t+1；

存储数据组(s_t,a_t,r_t,s_t+1)到记忆库R；

从R中随机抽取M组数据(s_i,a_i,r_i,s_i+1)；

令y_i＝r_i+γQ′(s_i+1,μ′(s_i+1∣θ^μ′)∣θ^Q′)；

通过最小化误差更新价值网络：

通过采样计算得到的策略梯度更新策略网络：

更新目标网络：

θ^Q′←τθ^Q+(1-τ)θ^Q′。

θ^μ′←τθ^μ+(1-τ)θ^μ′。

7.如权利要求6所述的机械臂主动容错控制方法，其特征在于，将强化学习问题定义为机械臂末端位置轨迹跟踪任务，

状态空间定义为：

其中

表示实际关节位置和关节速度，

表示目标关节位置和关节速度；动作空间定义为：

a＝τ (10)

8.如权利要求7所述的机械臂主动容错控制方法，其特征在于，将强化学习任务训练设置为：训练开始前首先指定可能发生故障的关节，训练过程中机械臂将执行轨迹跟踪任务，名义控制器和基于强化学习的辅助控制器同时工作，在随机时间步，将对指定关节注入执行器突变故障；在训练过程中辅助控制器始终开启，通过从健康***到故障***的切换让强化学习策略学会对执行器故障进行动态估计和自适应力矩补偿。

9.如权利要求8所述的机械臂主动容错控制方法，其特征在于，训练过程中设置单关节的执行器故障，或者，通过分散式的容错控制结构处理多关节故障的情况。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序由处理器运行时，实现如权利要求1至9任一项所述的机械臂主动容错控制方法。