CN115256401A

CN115256401A - 一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法

Info

Publication number: CN115256401A
Application number: CN202211038250.5A
Authority: CN
Inventors: 詹腾达; 高鼎峰; 余朝宝; 周宇航; 许铭轩; 郭毓
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2022-11-01

Abstract

本发明公开了一种强化学习的空间机械臂轴孔装配变阻抗控制方法，首先分别构建空间机械臂模型以及机械臂关节角状态和末端位姿的转换模型，之后利用双目相机采集装配孔的位置信息，构建基于强化学习的阻抗控制器，并利用神经网络对阻抗控制器进行训练，之后输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。本发明的方案基于强化学习对空间机械臂轴孔装配进行变阻抗控制，其控制可以对动态力进行跟踪，动态误差较传统的定阻抗控制更小，响应速度也更快，可以有效削弱环境中不定因素的影响，与传统的定阻抗控制有着更优的跟踪精度。

Description

一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法

技术领域

本发明属于空间机械臂控制领域，具体涉及一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法。

背景技术

随着空间技术的进步和发展，航天器以及空间站的应用极大地影响着人类生产与生活。由于空间环境中真空、失重等因素的影响，环绕地球的太空中漂浮着大量空间碎片和垃圾，严重威胁着在轨航天器和空间站的安全，同时随着服役时间的增加，各类空间设施不可避免的会面临设备老化、故障等问题，为此空间设施的维护工作十分必要。

空间机械臂在完成在轨装配等服务任务过程中，不可避免地会与外界环境产生力的接触，这对空间机械臂的接触力控制提出了很高的要求，同时在太空环境中，还存在各种各样的外部扰动，如重力梯度力矩，摩擦力等，因此还需克服外界干扰的影响。柔顺控制可以顺应外界环境的变化调整机械臂动作，能够有效地提高装配作业的控制精度与稳定性。

为了协调机械臂与环境的接触力，Hogen N率先提出了阻抗控制，通过建立机械臂末端接触力与期望轨迹与实际轨迹之间的偏差的理想动态关系实现机器人与环境的柔顺接触，但是定阻抗控制在环境几何和刚度参数不确定情况下，难以保持稳定的接触力。空间机械臂在执行任务时的环境复杂多变，环境信息难以准确辨识，同时由于目标环境中存在非线性时变的因素，因此采用固定参数的阻抗控制方法很难实现目标任务。若阻抗控制参数能根据任务和环境的变化实时动态调整，则其控制性能更优。

发明内容

基于以上所述的问题，本发明的目的在于提供一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法，能够在与复杂环境的交互中更新阻抗控制器参数，保证静态力响应的快速性与动态力跟踪的准确性，实现空间机械臂装配作业的柔顺控制。

实现本发明目的的技术方案为：

一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法，包括以下步骤：

步骤1、基于DH参数法构建空间机械臂模型；

步骤2、基于正逆运动学算法构建空间机械臂关节角状态和末端位姿的转换模型；

步骤3、初始化双目相机的内外参数，并利用双目相机采集图像，获取装配孔的位置信息；

步骤4、构建基于强化学习的阻抗控制器，并根据预期目标设置训练过程中的阻抗参数动作表、奖励函数以及中止条件；

步骤5、基于神经网络训练阻抗控制器；

步骤6、输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。

本发明与现有技术相比，其显著优点在于：

(1)本发明的技术方案基于强化学习对空间机械臂轴孔装配进行变阻抗控制，其控制可以对动态力进行跟踪，动态误差较传统的定阻抗控制更小，响应速度也更快，与传统的定阻抗控制有着更优的跟踪精度；

(2)本发明的技术方案基于强化学习实现机械臂轴孔装配中的变阻抗控制，可以有效削弱环境中不定因素的影响，提高空间机械臂对于末端力控制的准确性和快速性。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为本发明的基于强化学习的空间机械臂轴孔装配变阻抗控制方法步骤流程图。

图2为本发明的基于强化学习的阻抗控制器结构示意图。

图3为本发明的基于神经网络训练阻抗控制器流程示意图。

图4为本发明的全连接神经网络结构示意图。

图5为本发明的实施例中的空间机械臂装配示意图。

图6为本发明的实施例中的空间机械臂仿真示意图。

图7为本发明的实施例中的仿真阻抗参数轨迹图。

图8为本发明的实施例中的空间机械臂末端位置轨迹仿真示意图。

图9为本发明的实施例中的空间机械臂末端速度轨迹仿真示意图。

图10为本发明的实施例中的空间机械臂静态力跟踪轨迹仿真示意图。

图11为本发明的实施例中的空间机械臂动态力跟踪轨迹仿真示意图。

具体实施方式

步骤1、基于DH参数法构建空间机械臂模型；

步骤4、构建基于强化学习的阻抗控制器，并根据预期目标设置训练过程中的阻抗参数动作表、奖励函数以及中止条件，具体为：

步骤4-1、构建阻抗控制器：

阻抗控制策略目标是实现空间机器人末端位置和末端接触力的理想动态关系，本专利将机械臂末端工装装置与装配平面之间的关系简化成弹簧-质量块-阻尼模型，其数学模型为：

其中，x，x_d分别表示空间机械臂末端的实际运动轨迹和期望运动轨迹，F_e表示机械臂末端与外部环境的作用力，M_d,K_d,C_d分别对应阻抗控制器的期望惯性矩阵，期望刚度矩阵以及期望阻尼矩阵；

分别表示空间机械臂末端实际加速度、期望加速度、实际速度和期望速度，阻抗控制器中选取K_d,C_d作为控制量，M_d设置为定值1；

步骤4-2、本申请中阻抗控制器的控制目标是快速跟踪期望力，使机械臂末端速度快速趋于0，同时优化静态力的跟踪过程中的超调量(超调量指的是***最大实际的力与期望力之间的偏差，即锋顶与期望力之间的偏差)；

为此需要在训练过程中对机械臂末端的状态给予相应的奖励与惩罚，当机械臂末端的状态达到期望的目标时给予相应的正奖励，寻找最佳的控制参数，设置奖励函数：

其中，T表示单次训练时长，v表示空间机械臂末端速度；

在上式中的E_f为期望力与当前时刻力的误差值，T为当前训练仿真时长，在速度上期望将速度值能够快速接近0-0.2的范围内，设置如上的奖励函数。

该函数对于更小的力稳态误差能够给予更大的奖励，当速度愈发偏离0时给予更大的惩罚。

步骤4-3、考虑到若阻抗参数的单次变化程度过小，机械臂末端位置的阻抗控制难以达到显著的效果，而阻抗参数变化幅度过大则会降低机械臂末端阻抗控制稳定性，故设置强化学习的阻抗参数动作表：

δC_d∈[±2,±1,0],δK_d∈[±5,±4,±3,±2,±1,0]

其中，δ为设置的delta修正量，δC_d为刚度系数变换量，δK_d为阻尼变换量，在每个采样周期内选择相应动作，多次训练后获得最优的动作策略。

另外，所述训练中止条件设置为：训练次数达到设定的阈值。

又或者，当训练中期望力与当前时刻力的误差值大于设定的阈值或者训练中***最大当前时刻力和期望力之间的误差超过设定的阈值，此时说明本次训练的策略往着发散的方向发展，应返回中心设定参数，进行重新训练。

步骤5、基于神经网络训练阻抗控制器，具体为：

Q学习(Q-learning)算法本质上是一种马尔可夫决策过程，在当前状态下执行动作以求取后一状态的奖励值，不断更新Q表格，具体的公式如下：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a)-(s_t,a_t)]

传统的Q学习方法依据后一个状态的Q值更新当前状态，该方法依赖Q值表，而过多的***状态会浪费较大的内存空间，DDQN则采用全连接神经网络“策略网络”实现对于当前状态Q值的预测，将机械臂末端状态信息输入到“策略网络”中得到该时刻的Q值，并且引入“目标网络”对下一时刻的状态进行预测，将两个神经网络预测结果差值的均方误差作为该模型的损失函数，如下式，反向传播网络参数最终实现“策略网络”的更新。

具体来说：首先设置训练的总次数，在单次训练中收集空间机械臂的经验表，并将其放置到经验池((即队列，队列中有最大的存储长度，一旦超过最大长度，会将表现较差的经验弹出)，其中经验池内部的较高奖励的经验也会间隔与经验池中随机抽取的经验一同输入到策略网络中，对策略网络进行更新，通过策略网络中的预测值与目标网络之间的残差更新策略网络，设置更新时间，一旦超过该时间后，将目标网络利用策略网络进行替换，实现目标网络更新，最后通过目标网络更具环境中的反馈输出评分最高的动作，依次循环，直至最终设置的训练总次数大于设定值，结束训练。

进一步的，所述策略网络对基于强化学习的阻抗控制器中的当前时刻的Q值进行预测，基于目标网络对基于强化学习的阻抗控制器中的下一时刻的Q值进行预测，并将两个时刻的差值的均方误差作为损失函数：

L＝Mse(Q(s_t,a)-r-γQ(s_t+1,a)

其中，Mse表示均方误差，Q(s_t,a)表示t时刻的Q值，γ∈(0,1)表示学习过程中的衰减率，α∈(0,1)表示模型的学习率。

进一步的，所述策略网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出当前时刻各动作的Q值。

所述目标网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出下一时刻各动作的Q值。

本发明对经验池的更新过程进行了改进，标记、存储训练过程中产生的最佳状态信息，并将该最佳状态信息每间隔一段训练周期输入到经验池，高收益的状态信息能够提高DDQN模型收敛的快速性。

一种基于强化学习的空间机械臂轴孔装配变阻抗控制***，包括以下模块：

空间机械臂模型构建模块：用于基于DH参数法构建空间机械臂模型；

末端位姿的转换模型构建模块：用于基于正逆运动学算法构建空间机械臂关节角状态和末端位姿的转换模型；

装配孔的位置信息获取模块：用于初始化双目相机的内外参数，并利用双目相机采集图像，获取装配孔的位置信息；

阻抗控制器构建模块：用于构建基于强化学习的阻抗控制器，并根据预期目标设置训练过程中的阻抗参数动作表、奖励函数以及中止条件；

训练模块：基于神经网络训练阻抗控制器；

空间机械臂轴孔装配变阻抗控制模块：用于输入机械臂末端的实时信息，更新阻抗控制器的阻抗参数，输出机械臂末端的位置修正量，完成空间机械臂轴孔装配变阻抗控制。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

步骤1、基于DH参数法构建空间机械臂模型；

步骤5、基于神经网络训练阻抗控制器；

一种计算机可存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

步骤1、基于DH参数法构建空间机械臂模型；

步骤5、基于神经网络训练阻抗控制器；

下面结合实施例对本发明做进一步的说明。

实施例

结合图1，一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法，包括以下步骤：

步骤1、基于DH参数法构建空间机械臂模型；

步骤4-1、构建阻抗控制器：

结合图2和图3，阻抗控制策略目标是实现空间机器人末端位置和末端接触力的理想动态关系，本专利将机械臂末端工装装置与装配平面之间的关系简化成弹簧-质量块-阻尼模型，其数学模型为：

分别表示空间机械臂末端实际加速度、期望加速度、实际速度和期望速度，阻抗控制器中选取K_d,C_d作为控制量，，M_d设置为定值1；

其中，T表示单次训练时长，E_f为期望力与当前时刻力的误差值，T为当前仿真时长，在速度上期望将速度值能够快速接近0-0.2的范围内，设置如上的奖励函数。

δC_d∈[±2,±1,0],δK_d∈[±5,±4,±3,±2,±1,0]

其中，δ为设置的delta修正量，在每个采样周期内选择相应动作，多次训练后获得最优的动作策略。

步骤5、基于神经网络训练阻抗控制器，具体为：

Q(s_t,a_t)←Q(s_t,a_t)+α[r_t+γmaxQ(s_t+1,a)-(s_t,a_t)]

L＝Mse(Q(s_t,a)-r-γQ(s_t+1,a)

进一步的，结合图4，所述策略网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出当前时刻各动作的Q值。

常见的空间机械臂装配示意图如图5所示，本实施例中结合MATLAB中的RoboticToolbox和python tensorflow2.0实现对机械臂末端阻抗控制的仿真，

采用Robotic Toolbox工具箱建立图6的UR5机械臂仿真环境。

机械臂在期望轨迹上运动受到环境阻碍时，由于环境一般具有刚性性质，此时机械臂会与外部环境产生相互作用力F_e，可将机械臂与环境间的力/位置关系视为一个弹簧模型，如下式。

F_e＝K_e(x-x_e) (6)

其中K_e表示环境刚度，x_e表示环境位置偏移量。设K_e为500N/m。

在仿真中设置机械臂沿Z轴向下运动，并设置期望力为[F_x,F_y,F_z]＝[0,0,15N]，即只考虑Z轴方向上的受力信息，机械臂末端的初始状态设置为[x,v,a]＝[0,-0.5m/s,0]。

设仿真时间T∈(0,2)s，仿真周期t＝0.005s，期望位置X_d为0.2m，最终的仿真结果如图7所示，图7是强化学习后选取出来的阻抗控制最优参数表，仿真分为三个阶段，如图7所示，

1)第一个阶段机械臂末端与期望位置之间存在较大的误差，所以选择高刚度高阻尼的策略，使得阻抗控制器快速响应。

2)第二个阶段机械臂达到目标平面后采取降低刚度的策略，通过该方法降低***逐渐减小***的力误差。

3)第三个阶段机械臂末端的超调为0的情况，可以看到这个时候由于机械臂末端的位置以及速度较低，此时则采用低刚度、低阻尼的策略，使得***的静态力误差趋近于0。

图8、图10是机械臂末端位置和静态力的控制效果图，对比两者可以发现本发明提出的变阻抗方法能够在初始时刻对力误差做出较快的响应，同时能够在满足超调较小的前提下实现对目标力的跟踪，静态误差相比传统的定阻抗控制来说更小。

图9是机械臂末端速度的跟踪仿真图，仿真结果中机械臂末端的速度能够较好的稳定在设置的阈值即|v|<0.2内，同时发明方法的速度较传统的方法能够更加快速到达0。

图11是机械臂末端对于动态力的跟踪曲线图，本发明提出的变阻抗控制对于动态力的跟踪，其动态误差较传统的阻抗控制更小，响应速度更快，较传统的定阻抗控制有着更优的跟踪精度。

以上实施例显示和描述了本发明的基本原理、主要特征。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

Claims

1.一种基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，包括以下步骤：

步骤1、基于DH参数法构建空间机械臂模型；

步骤5、基于神经网络训练阻抗控制器；

2.根据权利要求1所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述步骤4中的构建基于强化学习的阻抗控制器，具体为：

步骤4-1、构建阻抗控制器：

分别表示空间机械臂末端实际加速度、期望加速度、实际速度和期望速度，阻抗控制器中选取K_d,C_d作为控制量；

步骤4-2、设置奖励函数：

其中，T表示单次训练时长，E_f为期望力与当前时刻力的误差值；

步骤4-3、设置强化学习的阻抗参数动作表：

δC_d∈[±2,±1,0],δK_d∈[±5,±4,±3,±2,±1,0]

δ为设置的delta修正量。

3.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述训练中止条件设置为：

训练次数达到设定的阈值。

4.根据权利要求2所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述步骤5中的基于神经网络训练阻抗控制器，具体为：

首先设置训练的总次数，在单次训练中收集空间机械臂的经验表，并将其放置到经验池，其中经验池内部的较高奖励的经验也会间隔与经验池中随机抽取的经验一同输入到策略网络中，对策略网络进行更新，通过策略网络中的预测值与目标网络之间的残差更新策略网络，设置更新时间，一旦超过该时间后，将目标网络利用策略网络进行替换，实现目标网络更新，最后通过目标网络更具环境中的反馈输出评分最高的动作，依次循环，直至最终设置的训练总次数大于设定值，结束训练。

5.根据权利要求4所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述策略网络对基于强化学习的阻抗控制器中的当前时刻的Q值进行预测，基于目标网络对基于强化学习的阻抗控制器中的下一时刻的Q值进行预测，并将两个时刻的差值的均方误差作为损失函数：

L＝Mse(Q(s_t,a)-r-γQ(s_t+1,a)

6.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述策略网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出当前时刻各动作的Q值。

7.根据权利要求5所述的基于强化学习的空间机械臂轴孔装配变阻抗控制方法，其特征在于，所述目标网络采用全神经网络结构，将机械臂末端的位置、速度、加速度以及力误差信息作为网络输入，隐藏层神经元数量设置为400，激活函数选择ReLU函数，输出下一时刻各动作的Q值。

8.一种基于强化学习的空间机械臂轴孔装配变阻抗控制***，其特征在于，包括以下模块：

训练模块：基于神经网络训练阻抗控制器；

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述方法的步骤。

10.一种计算机可存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7项所述的方法的步骤。