CN114789444A

CN114789444A - 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Info

Publication number: CN114789444A
Application number: CN202210484043.6A
Authority: CN
Inventors: 舒明雷; 张铁译; 陈超; 王若同; 刘照阳
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-07-26
Anticipated expiration: 2042-05-05
Also published as: CN114789444B

Abstract

一种基于深度强化学习和阻抗控制的柔顺人机接触方法，根据本任务的需求，建立相关的状态空间，动作空间和奖励函数，为实现任务的柔顺性，在身体表面建立虚拟接触面，结合阻抗控制，提前获取执行器到达目标部位的虚拟接触力，并输入状态空间，通过深度强化学习算法对执行器动作的调整，实现力调整，完成任务。实现了深度强化学习和柔顺控制的结合，建立了虚拟接触面，可提前获取执行器的接触力，实现对接触力的调整，来适应复杂多变的柔顺人机接触任务。

Description

一种基于深度强化学习和阻抗控制的柔顺人机接触方法

技术领域

本发明涉及柔顺控制技术领域，具体涉及一种基于深度强化学习和阻抗控制的柔顺人机接触方法。

背景技术

近年来，随着人工智能技术的进步，机器人的感知能力和交互沟通能力越来越强，作为一个模拟人类行为的机器***，智能机器人能够协助人类完成各式各样的任务，相互之间的接触也不可避免的发生，为实现人与机器人的紧密结合，“人机共融”成为了重要的发展趋势。在这种趋势下，对机器人操作水平的要求也越来越高。在机器人的位置控制和力控方面，传统的柔顺控制技术已经发展得非常成熟。但控制***的设计依托于精确的数学模型，而在柔顺人机接触任务中，由于环境的复杂性、时变性以及不确定性，很难得到精确的数学模型。因此，传统控制技术在处理相应任务时仍存在一定的挑战和局限性。

发明内容

本发明为了克服以上技术的不足，提供了一种基于深度强化学习和阻抗控制的柔顺人机接触方法。

本发明克服其技术问题所采用的技术方案是：

一种基于深度强化学习和阻抗控制的柔顺人机接触方法，包括如下步骤：

a)根据柔顺人机接触任务，以机械臂底座建立机械臂坐标系，获得执行器的初始位置坐标{P_x,P_y,P_z}及目标部位在机械臂坐标系下的位置坐标{O_x,O_y,O_z}，P_x为执行器的X轴坐标，P_y为执行器的Y轴坐标，P_z为执行器的Z轴坐标，O_x为目标部位的X轴坐标，O_y为目标部位的Y轴坐标，O_z为目标部位的Z轴坐标；

b)通过深度强化学习算法建立状态空间S和动作空间A，S＝{P′_x,P′_y,P′_z,O_x,O_y,O_z,F_x,F_y,F_z}，式中F_x为执行器的X轴方向上的接触力分力，F_y为执行器的Y轴方向上的接触力分力，F_z为执行器的Z轴方向上的接触力分力，P′_x为执行器的实时位置的X轴坐标，P′_y为执行器的实时位置的Y轴坐标，P′_z为执行器的实时位置的Z轴坐标；

c)对机械臂位姿进行初始化，初始化后执行器的实时位置坐标为{P′_x,P′_y,P′_z}，得到执行器初始位置与目标部位之间的距离d_i及执行器当前位置与目标部位之间的距离d_c；

d)通过公式r₁＝(d_i-d_c)/d_i计算得到基于距离的奖励函数r₁；

e)设定柔顺人机在接触任务中，执行器与目标接触的接触力在m-nN之内；

f)在距离身体距离为γ处设置虚拟接触面；

g)通过公式l＝|P′_z-O_z|计算得到是否接触到虚拟接触面的判定条件值l；

h)当l＞γ时，判定执行器未接触到虚拟接触面，状态空间F_x,F_y,F_z均为0；

i)当0＜l≤γ时，判定执行器接触到虚拟接触面，此时通过阻抗控制得到虚拟接触力F_v，F_v＝(F′_x,F′_y,F′_z)^T，F′_x为执行器的X轴方向上的虚拟接触力分力，F′_y为执行器的Y轴方向上的虚拟接触力分力，F′_z为执行器的Z轴方向上的虚拟接触力分力，T为转置，将F′_x、F′_y及F′_z分别等同于状态空间S中的F_x、F_y及F_z；

j)当执行器与身体发生接触时，真实接触力F_e≠0，此时停止对执行器的控制。

进一步的，步骤a)中通过柔顺人机中的视觉模块获得执行器的位置坐标{P_x,P_y,P_z}和目标部位在机械臂坐标系下的位置坐标{O_x,O_y,O_z}。

进一步的，步骤b)中通过公式A＝{a_x,a_y,a_z}建立动作空间，a_x为执行器在机械臂坐标系下的X轴方向上的偏移量，a_y为执行器在机械臂坐标系下的Y轴方向上的偏移量，a_z为执行器在机械臂坐标系下的Z轴方向上的偏移量。

进一步的，步骤c)中通过公式

计算得到执行器当前位置与目标部位之间的距离d_c，通过公式

计算得到执行器初始位置与目标部位之间的距离d_i。

优选的，步骤e)中m取值为1，n的取值为7。

进一步的，步骤i)中通过公式

计算得到虚拟接触力F_v，式中M_d、B_d、K_d均为阻抗参数，

为执行器的速度，

为执行器的加速度，λ为常数，I为向量，I＝[0,0,1]^T，Δx为执行器与目标部位之间的距离差，Δx＝(|P′_x-O_x|,|P′_y-O_y|,|P′_z-O_z|)^T。

优选的，步骤b)中深度强化学习算法为PPO-clip算法。

进一步的，还包括在步骤j)后执行步骤h)：当真实接触力F_e大于nN时，立即停止执行器运行，并初始化机械臂。

进一步的，还包括利用奖励函数r训练深度强化学习算法。

进一步的，奖励函数r＝r₁+r₂+r₃+r₄，式中当机械臂探索范围为

时r₂＝0，如果机械臂探索范围不为

时r₂＝-1，式中X_min为执行器在机械臂坐标系的X轴方向上所能运行到达的最小值，X_max为执行器在机械臂坐标系的X轴方向上所能运行到达的最大值，Y_min为执行器在机械臂坐标系的Y轴方向上所能运行到达的最小值，Y_max为执行器在机械臂坐标系的Y轴方向上所能运行到达的最大值，Z_min为执行器在机械臂坐标系的Z轴方向上所能运行到达的最小值，Z_max为执行器在机械臂坐标系的Z轴方向上所能运行到达的最大值；设置机械臂最大步数为1500步，当机械臂调整步数大于1500步时，r₃＝-1，停止运行，初始化机械臂；如果真实接触力F_e在Z轴方向上的分力在m-nN之间时，r₄＝1，如果真实接触力F_e在Z轴方向上的分力不在m-nN之间时，r₄＝-1。

本发明的有益效果是：根据本任务的需求，建立相关的状态空间，动作空间和奖励函数，为实现任务的柔顺性，在身体表面建立虚拟接触面，结合阻抗控制，提前获取执行器到达目标部位的虚拟接触力，并输入状态空间，通过深度强化学习算法对执行器动作的调整，实现力调整，完成任务。实现了深度强化学习和柔顺控制的结合，建立了虚拟接触面，可提前获取执行器的接触力，实现对接触力的调整，来适应复杂多变的柔顺人机接触任务。

附图说明

图1为本发明的控制结构示意图。

具体实施方式

下面结合附图1对本发明做进一步说明。

a)根据柔顺人机接触任务，以机械臂底座建立机械臂坐标系，获得执行器的初始位置坐标{P_x,P_y,P_z}及目标部位在机械臂坐标系下的位置坐标{O_x,O_y,O_z}，P_x为执行器的X轴坐标，P_y为执行器的Y轴坐标，P_z为执行器的Z轴坐标，O_x为目标部位的X轴坐标，O_y为目标部位的Y轴坐标，O_z为目标部位的Z轴坐标。

b)通过深度强化学习算法建立状态空间S和动作空间A，S＝{P′_x,P′_y,P′_z,O_x,O_y,O_z,F_x,F_y,F_z}，式中F_x为执行器的X轴方向上的接触力分力，F_y为执行器的Y轴方向上的接触力分力，F_z为执行器的Z轴方向上的接触力分力，P′_x为执行器的实时位置的X轴坐标，P′_y为执行器的实时位置的Y轴坐标，P′_z为执行器的实时位置的Z轴坐标。

c)进行正确的人机接触任务，主要分为两部分进行处理，第一部分为控制执行器到达目标位置，第二部分考虑控制执行器在合适的力范围内接触目标部位，具体步骤为：对机械臂位姿进行初始化，执行器始终保持垂直向下的姿态，初始化后执行器的实时位置坐标为{P′_x,P′_y,P′_z}，得到执行器初始位置与目标部位之间的距离d_i及执行器当前位置与目标部位之间的距离d_c。

d)通过公式r₁＝(d_i-d_c)/d_i计算得到基于距离的奖励函数r₁。该奖励函数是为了完成到达任务进行的设定，执行器与目标部位越接近，奖励值越大。

e)设定柔顺人机在接触任务中，执行器与目标接触的接触力在m-nN之内。此时得到的声音信号较好，同时在该接触力内，可以保证接触力造成的压力在感觉舒适的范围之内。其中mN代表最小接触力，nN代表最大接触力。

f)在距离身体距离为γ处设置虚拟接触面。

g)当执行器在接近目标部位的过程中，判断是否接触到虚拟接触面的条件为：通过公式l＝|P′_z-O_z|计算得到是否接触到虚拟接触面的判定条件值l。

h)当l＞γ时，判定执行器未接触到虚拟接触面，状态空间F_x,F_y,F_z均为0。

i)当0＜l≤γ时，判定执行器接触到虚拟接触面，此时通过阻抗控制得到虚拟接触力F_v，F_v＝(F′_x,F′_y,F′_z)^T，F′_x为执行器的X轴方向上的虚拟接触力分力，F′_y为执行器的Y轴方向上的虚拟接触力分力，F′_z为执行器的Z轴方向上的虚拟接触力分力，T为转置，将F′_x、F′_y及F′_z分别等同于状态空间S中的F_x、F_y及F_z。

j)当执行器与身体发生接触时，真实接触力F_e≠0，此时停止对执行器的控制。根据本任务的需求，建立相关的状态空间，动作空间和奖励函数，为实现任务的柔顺性，在身体表面建立虚拟接触面，结合阻抗控制，提前获取执行器到达目标部位的虚拟接触力，并输入状态空间，通过深度强化学习算法对执行器动作的调整，实现力调整，完成任务。实现了深度强化学习和柔顺控制的结合，建立了虚拟接触面，可提前获取执行器的接触力，实现对接触力的调整，来适应复杂多变的柔顺人机接触任务。

实施例1：

步骤a)中通过柔顺人机中的视觉模块获得执行器的位置坐标{P_x,P_y,P_z}和目标部位在机械臂坐标系下的位置坐标{O_x,O_y,O_z}。

实施例2：

步骤b)中通过公式A＝{a_x,a_y,a_z}建立动作空间，a_x为执行器在机械臂坐标系下的X轴方向上的偏移量，a_y为执行器在机械臂坐标系下的Y轴方向上的偏移量，a_z为执行器在机械臂坐标系下的Z轴方向上的偏移量。

实施例3：

步骤c)中通过公式

计算得到执行器初始位置与目标部位之间的距离d_i。

实施例4：

步骤e)中m取值为1，n的取值为7。由于人体肌肉富有弹性，当有力接触时势必会产生凹陷，但最终控制机械臂的末端力在1-7N的范围之内，所以不会对人体造成不适或损伤。

实施例5：

步骤i)中通过公式

计算得到虚拟接触力F_v，式中M_d、B_d、K_d均为阻抗参数，

为执行器的速度，

实现对F_v的调整。

实施例6：

步骤b)中深度强化学习算法为PPO-clip算法。

实施例7：

由于误差的存在，还包括在步骤j)后执行步骤h)：当真实接触力F_e大于nN时，立即停止执行器运行，并初始化机械臂。

实施例8：

还包括利用奖励函数r训练深度强化学习算法。

实施例9：

具体的，奖励函数r＝r₁+r₂+r₃+r₄，式中当机械臂探索范围为

时r₂＝0，如果机械臂探索范围不为

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度强化学习和阻抗控制的柔顺人机接触方法，其特征在于，包括如下步骤：

f)在距离身体距离为γ处设置虚拟接触面；

i)当0＜l≤γ时，判定执行器接触到虚拟接触面，此时通过阻抗控制得到虚拟接触力F_v，F_v＝(F_x′,F_y′,F_z′)^T，F_x′为执行器的X轴方向上的虚拟接触力分力，F_y′为执行器的Y轴方向上的虚拟接触力分力，F_z′为执行器的Z轴方向上的虚拟接触力分力，T为转置，将F_x′、F_y′及F_z′分别等同于状态空间S中的F_x、F_y及F_z；

2.根据权利要求1所述的基于深度强化学习和阻抗控制的柔顺人机接触方法，其特征在于：步骤a)中通过柔顺人机中的视觉模块获得执行器的位置坐标{P_x,P_y,P_z}和目标部位在机械臂坐标系下的位置坐标{O_x,O_y,O_z}。

3.根据权利要求1所述的基于深度强化学习和阻抗控制的柔顺人机接触方法，其特征在于：步骤b)中通过公式A＝{a_x,a_y,a_z}建立动作空间，a_x为执行器在机械臂坐标系下的X轴方向上的偏移量，a_y为执行器在机械臂坐标系下的Y轴方向上的偏移量，a_z为执行器在机械臂坐标系下的Z轴方向上的偏移量。

4.根据权利要求2所述的基于深度强化学习和阻抗控制的柔顺人机接触方法，其特征在于：步骤c)中通过公式