CN115284276A

CN115284276A - 基于长短期记忆网络的机器人关节力矩控制方法

Info

Publication number: CN115284276A
Application number: CN202210330184.2A
Authority: CN
Inventors: 俞建峰; 汪洋; 刘锐; 廖一; 秦天; 王逸涵; 方成缘; 徐日泰
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-11-04

Abstract

本发明公开了基于长短期记忆网络的机器人关节力矩控制方法，属于机器人控制技术领域。所述方法包括：采集机器人作业时的实际关节状态、期望关节状态等参数，并将参数输入到训练好的长短期记忆网络中，所述长短期记忆网络对机器人关节力矩和末端接触力进行预测和补偿；力位控制器根据预测的关节力矩和末端接触力控制机器人的作业；采集机器人作业的实际关节力矩和末端接触力，与预测的关节力矩和末端接触力进行对比，根据对比结果更新所述长短期记忆网络的权值。本发明通过基于长短期记忆网络的预测值来补偿机器人由于动力学模型和环境模型的不确定性引起的建模误差，并预测机器人末端的接触力，以达到高精度力位控制的目的。

Description

基于长短期记忆网络的机器人关节力矩控制方法

技术领域

本发明涉及基于长短期记忆网络的机器人关节力矩控制方法，属于机器人控制技术领域。

背景技术

机器人以其柔性化、通用性、高精度及低成本等特点，目前已成为工程机械制造领域应用最广泛的设备之一。机械臂在运动过程中可分为***和受力运动。在受力运动中，机械臂需要考虑到与环境进行交互作用的情况(即机械臂在运动的情况下与环境接触从而导致机械臂受到环境给的接触力)，需要对机械臂受到的力和位置同时跟踪，一般应用在打磨、搬运、装配以及钻孔等场合。如在电梯导轨安装校准场合，机械臂如果在运动过程中没有对末端接触力进行控制，会影响导轨校准精度甚至对现场造成破坏从而导致任务失败。因此机械臂的力位混合控制的深入研究随之成为热点。

在机械臂的力位混合控制研究中，常用的方法是将内位置控制环与外力控制环结合设计。但在实际应用过程中，仍然存在以下三个问题：第一，内位置控制环采用机器人计算力矩前馈控制的方法，机器人计算力矩前馈控制依赖于机械臂动力学建模，然而在实际设计过程中，机器人的动力学模型很难精确得出，通过直接采用理论计算的参数来建立动力学模型，会使控制的效果较差。第二，外环采用阻抗控制，但大多数的阻抗控制研究都采用力传感器来测量并反馈机器人末端与接触面的接触力，并将接触力反馈到阻抗控制***中，从而达到力控制的目的。然而，力传感器一般价格高，刚性低，容易损坏，在实际工业应用场合，如果存在高温、高腐蚀、强干扰，将无法应用。第三，阻抗控制还依赖于机器人环境动力学模型，但在实际应用过程中，由于环境的多变性和不确定性，很难得到精确的环境动力学模型。因此，需要提供一种针对上述现有技术中不足的改进技术方案。

专利CN112809666A公开的一种基于神经网络的5-DOF机械臂力位跟踪算法，利用RBF神经网络拟合动力学方程除惯性矩阵的其他项参数，给出了时变输出约束状态的神经网络自适应力位控制方法。此方法虽然能够解决传统的力/位混合控制无法克服未知模型的影响。但由于仍需要在机械手末端引入力矩传感器，存在控制周期长、抗干扰性差等问题。

专利CN109794935A公开了基于神经网络分析的装配过程力与力矩预测***及方法，通过建立精确的数学模型，继而通过收集的数据对参数进行求解，将采集不同条件下的数据对用来训练神经网络模型并建立其映射关系，最终实现精确预测力与力矩。但此方法由于采用的是BP神经网络，面对带有时序特征的力与力矩数据集，预测效果较差，训练难度较高，并且该方法没有考虑装配力对机器人末端位置的影响，会使机器人的位置控制精度较差。

发明内容

为了解决目前采用神经网络对机器人进行力矩控制的方案存在的抗干扰性差、训练难度高、控制精度差的问题，本发明提供了一种基于长短期记忆网络的机器人关节力矩控制方法，所述方法包括：

步骤1：采集机器人作业时的实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、阻抗控制输出的各关节修正误差、经过数学模型获得的末端接触力和关节力矩反馈；

步骤2：将所述步骤1采集的参数输入到训练好的长短期记忆网络中，所述长短期记忆网络通过预测关节力矩和预测末端接触力，补偿机器人的力位控制器的输出，从而间接补偿机器人动力学模型的不确定项；

步骤3：力位控制器根据所述预测节力矩和所述预测末端接触力控制机器人的作业；

步骤4：采集机器人作业的实际关节力矩和实际末端接触力，与所述预测关节力矩和所述预测末端接触力进行对比，根据对比结果重新训练所述长短期记忆网络，并更新所述长短期记忆网络的权值；

步骤5：重复所述步骤1-4实现机器人关节力矩的连续控制。

可选的，所述机器人作业时的实际关节角度、实际角速度、实际角加速度通过机器人关节伺服电机的编码器获取，机器人作业时的期望关节角度、期望角速度、期望角加速度为机器人进行力位控制运动时的运动规划参数，可通过控制器获取。阻抗控制输出的各关节修正误差、经过数学模型获得的末端接触力也可直接通过机器人的力位控制器计算后获取，关节力矩反馈则通过机器人关节驱动器反馈的电流信号计算得出。

可选的，所述机器人动力学模型为：

D(q)为惯性矩阵，

表示离心力矩与哥氏力矩，G(q)表示重力力矩，q、

分别代表关节角度、关节角速度、关节加速度；B为粘性摩擦项，

为动摩擦项；τ为机器人的关节计算力矩。

由于粘性摩擦项和动摩擦项会受到机器人运行状态和实际工况的影响，属于机器人动力学模型中的不确定项，无法精确辨识出粘性摩擦项和动摩擦项，通过本发明设计的长短期记忆网络模型可以精确预测出机器人的关节力矩，从而补偿该不确定项。

可选的，所述力位控制器包括：

内环基于位置环搭建了计算力矩控制器，采用计算力矩控制器，机器人***的输入为：

其中，K_v、K_p、e、

分别为微分系数、比例系数、关节角度误差、关节角速度误差；根据调节经验，微分系数K_v和比例系数K_p的调节范围分别为：[0,50]和[0,300]，在机器人的调试环节，需要将K_p和K_v调节至合适的值，从而保证位置跟踪精度；D(q)为惯性矩阵，

表示离心力矩与哥氏力矩，G(q)表示重力力矩，q、

分别代表关节角度、关节角速度、关节加速度；τ为机器人的关节计算力矩；D(q)、G(q)与

为机器人出厂时参数已知的标称变量；关节角度误差e和关节角速度误差

通过机器人关节伺服电机的电机编码器反馈获取。

外环搭建了阻抗控制器，机器人的阻抗控制方程为：

其中，m_d、b_d、k_d、

x、x_d、f_d、f_e分别为惯性参数、阻尼参数、刚度参数、末端期望加速度、末端实际加速度、末端实际速度、末端期望速度、末端实际位置、末端期望位置、末端期望接触力、末端实际接触力。

基于调节经验确定m_d的调节范围为[1,20]，b_d的调节范围为[200,500]，k_d的调节范围为[40,1000]，根据调节时力位跟踪曲线的变化，初步选定机器人力位控制器的控制参数。

末端期望接触力f_d为控制器在运动规划时，所默认给定的参数。

和x则通过机器人关节伺服电机的电机编码器反馈获取。末端实际接触力f_e通过机器人环境动力学模型获取或者根据具体精度要求通过传感器获取，在网络训练完成后，通过长短期记忆网络预测得到。

和x_d和

和x相减得到阻抗控制的输出参数：各关节修正误差x_e用以输出给位置环修正运动轨迹。

可选的，所述关节力矩反馈为：

T_O＝K_TIηn

其中，K_T为电机的力矩常数，单位为Nm/A；I为电机的工作电流，单位为A；η为减速器的传动效率；n为减速器的减速比。

可选的，所述经过数学模型获得的末端接触力为：

F＝τ_f(J^T(q))^-1

其中，τ_f为关节力矩反馈，(J^T(q))^-1为雅克比矩阵转置的逆矩阵。

可选的，所述长短期记忆网络的训练过程包括：

S1：搭建长短期记忆网络模型，并初始化网络权值；

S2：生成机器人力位作业时的轨迹，并采集机器人在运动时实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、实际关节力矩、计算关节力矩、角度跟随误差、末端接触力以及阻抗控制各关节的修正误差的数值；

S3：将机器人在运动时的运动时实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、实际关节力矩、计算关节力矩、角度跟随误差、末端接触力以及阻抗控制各关节的修正误差的数值经过归一化处理，构建训练集、验证集和测试集；

S4：利用训练集训练所述长短期记忆网络，以设定的损失函数为目标，对网络参数进行迭代优化；

S5：使用测试集测试经过长短期记忆网络补偿后的关节力矩和末端接触力是否满足控制要求，评估补偿效果。

可选的，所述长短期记忆网络输入层的输入参数为：实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、阻抗控制的输出各关节修正误差、经过数学模型获得的末端接触力；

输出层的输出参数为：关节力矩反馈，实际末端接触力。

可选的，所述长短期记忆网络隐藏层的神经元数为：

其中，N_hid为隐藏层神经元个数的估计值，N_in为输入层的神经元个数，N_out为输出层的神经元个数，r为常数，范围为[1,10]。

可选的，所述经过实际末端接触力通过机器人环境动力学模型获取也可根据具体精度要求先通过传感器获取，所述机器人环境动力学模型为：

其中，F_ext表示机器人末端夹持器与环境作业工件接触时的相互作用力；K_e是n×n维的正对角矩阵，分别表示环境各个方向上的阻尼和刚度参数；Z和Z_e都是n×1维的矢量，分别代表机器人末端夹持器的实际位置和环境表面的位置。

可选的，所述S3中归一化处理的过程包括：

其中，z为归一化前参数，z_min为参数最小值，z_max为参数最大值，z'为归一化后的参数。

可选的，所述长短期记忆网络的损失函数为：

其中，f(x)为网络模型预测的关节力矩和末端接触力；y为实际关节力矩和实际末端接触力；n为样本数。利用训练集，以期望的MSE为目标，使用自适应梯度优化算法，对所述长短期记忆网络进行权重和偏置的更新。

本发明有益效果是：

1.本发明通过长短期记忆网络拟合动力学方程的不确定函数对动力学模型进行补偿，简化了动力学建模的步骤。由于机器人本身模型不精确，以及受到各种干扰，采用传统的计算力矩控制往往难以获得满意的控制效果，本发明采用经过训练的长短期记忆网络模型去预测动力学模型的不确定项，即可实时预测并补偿计算力矩，克服了动力学建模复杂，以及实际动力学模型中参数不确定性的问题，实现高精度控制。

2.本发明通过采集机器人运动参数的时序信息并训练长短期记忆网络，实现了预测连续的关节力矩，不会出现关节力矩预测突变的情况，保证了控制的稳定性。

3.本发明可以在机器人运行过程中，不断提高其预测精度。通过控制器采集并反馈机器人各关节的运动参数，实时更新长短期记忆网络的权重参数。长短期记忆网络一般在训练后，就固定了权重系数，预测精度不能实时提高。本发明可以在控制器中不断训练长短期记忆网络，并将训练精度与预测精度进行对比，舍弃较差精度的权重系数，实时更新长短期记忆网络的权重参数，从而不断提高网络的预测精度。

4.本发明简化机器人力位控制流程，机器人末端执行器提供高精度的接触力。通过建立机器人末端接触力与机器人关节力矩的数学模型以及阻抗控制器，并采用长短期记忆网络补偿该数学模型的不确定项，简化机器人力位控制流程。机器人在执行力位控制任务时，末端往往装有力传感器，利用建立的数学模型和高预测精度的长短期记忆网络在网络训练后可以取代力传感器的使用，并提供期望的接触力，避免了采用力传感器导致的控制周期长，抗干扰性差的问题。

5.本发明适用性广，灵活性强，可以应用在各种需要执行力位控制任务的机器人上，并适应各种工作环境。通过建立精准控制并能自适应的控制器模型，可以将控制器应用在不同型号的机器人上。本发明不需要对动力学方程中库伦摩擦力模型等不确定的模型建模，实现操作流程简单，易于操作。利用长短期记忆网络的自学习能力，可适应于各种工作环境。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1所示为本发明实施例的步骤示意图。

图2所示为本发明实施例的机器人控制框架图。

图3所示为本发明实施例的长短期记忆网络自适应迭代流程图。

图4所示为本发明实施例的位置跟踪实验效果图。

图5所示为本发明实施例的力跟踪实验效果图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本发明实施例提供了基于长短期记忆网络的机器人关节力矩控制方法，如图1所示，其为本发明实施例所述的基于长短期记忆网络的机器人关节力矩控制方法的流程示意图，所述方法可包括以下步骤：

步骤1：忽略粘性摩擦项和动摩擦项，建立起机器人的动力学模型：

其中D(q)为惯性矩阵，

表示离心力矩与哥氏力矩，G(q)表示重力力矩，q、

分别代表关节角度、关节角速度、关节加速度，τ为机器人关节计算力矩。

所述机器人的动力学模型中的惯性矩阵、离心力矩与哥氏力矩和重力力矩为机器人出厂时参数已知的标称变量，关节角度、关节角速度、关节加速度可由机器人的关节伺服电机的编码器中获取。所述粘性摩擦项和动摩擦项会受到机器人运行温度和关节磨损情况等因素影响，在机器人控制器的设计过程中，无法精确辨识，所以先进行忽略，在长短期记忆网络训练完成后通过长短期记忆网络进行补偿。

步骤2：设计机器人的力位控制器，机器人的力位控制采用基于位置环的阻抗控制***，设计计算力矩控制器作为机器人位置环的控制器，此时，机器人各关节力矩的控制方程为：

其中K_v、K_p、e、

分别为微分系数、比例系数、关节角度误差、关节角速度误差。

所述机器人的计算力矩控制器中的微分系数K_v和比例系数K_p的调节范围分别为：[0,50]和[0,300]，在机器人的调试环节，需要将K_p和K_v调节至合适的值，从而保证位置跟踪精度。

步骤3：设计阻抗控制器作为机器人力位控制外环的控制器，

首先建立机器人环境动力学模型：

其中，F_ext表示工具(机器人末端夹持器)与环境(作业工件)接触时的相互作用力；K_e是n×n维的正对角矩阵，分别表示环境各个方向上的阻尼和刚度参数；Z和Z_e都是n×1维的矢量，分别代表工具(机器人末端夹持器)的实际位置和环境(作业工件)表面的位置。

最后建立机器人的阻抗控制方程：

其中m_d、b_d、k_d、

所述的K_e可以根据实际环境参数辨识得到，所述环境动力学模型得出的F_ext作为末端实际接触力f_e。

所述的m_d的调节范围为[1,20]，b_d的调节范围为[200,500]，k_d的调节范围为[40,1000]，根据调节时力位跟踪曲线的变化，初步选定机器人力位控制器的控制参数。

所述的末端期望力f_d为控制器在运动规划时，所默认给定的参数。

和x则通过机器人关节伺服电机的电机编码器反馈获取。末端实际接触力f_e前期通过环境动力学模型获取，在网络训练完成后，通过长短期记忆网络预测得到。

和x_d和

步骤4：搭建长短期记忆网络模型，初始化网络模型参数。该网络模型结构包括一层输入层，多层隐含层以及一层输出层。

所述长短期记忆网络输入层的输入参数为实际输出关节状态(角度、角速度和角加速度)、期望关节状态(角度、角速度和角加速度)、阻抗控制的输出各关节修正误差、经过数学模型获得的末端接触力，设定所述长短期记忆网络输出层的输出参数为关节力矩反馈和实际末端接触力。

隐藏层的神经元数根据公式：

式中N_hid为隐藏层神经元个数的估计值，N_in为输入层的神经元个数，N_out为输出层的神经元个数，r为常数，范围为[1,10]，根据训练效果取最佳的隐藏层的神经元个数。

学习率LR设定为0.001，最大训练轮次数MaxEpochs设置为1000，设置每经过250次训练轮次，学习率按照0.5倍速下降学习率，防止模型过拟合。根据网络实际表现情况可以对网络模型参数进行调整。

按照上述步骤搭建了如图2所示的机器人控制框架。

所示图2中，首先根据机器人运动规划的期望关节状态输入(角度、角速度和角加速度)和实际关节状态输入(角度、角速度和角加速度)分别输入到机器人的力位控制器和长短期记忆网络模型中，之后给定末端期望力、实际关节力矩反馈以及经过数学模型获得的末端接触力作为搭建好的阻抗控制器的输入，同时关节力矩反馈、经过数学模型获得的末端接触力和阻抗控制的输出各关节修正误差x_e也作为长短期记忆网络模型的输入参数，最后通过长短期记忆网络输出预测关节力矩作为机器人力位控制器的输出，预测的末端实际接触力作为阻抗控制器的输入达到机器人的力位控制的目的。

步骤5：本实施例以机器人安装校准电梯导轨为例，生成机器人进行力位控制作业时，机器人夹持和移动导轨时的轨迹。

步骤6：采集并记录机器人在运动轨迹中的运动参数：实际输出关节状态(角度、角速度和角加速度)、期望关节状态(角度、角速度和角加速度)、阻抗控制的输出各关节修正误差、经过数学模型获得的末端接触力，关节力矩反馈与实际末端接触力。

将获得的所述关节力矩反馈经过数学模型：F＝τ_f(J^T(q))^-1换算得到经过数学模型获得的末端接触力，式中τ_f为关节力矩反馈，(J^T(q))^-1为雅克比矩阵转置的逆矩阵。

所述关节力矩反馈可根据公式：T_O＝K_TIηn计算得出，式中：K_T为电机的力矩常数，可以通过伺服电机的使用手册获取，单位为Nm/A；I为电机的工作电流，单位为A；η为减速器的传动效率，一般在0.95～0.99；n为减速器的减速比。

步骤7：将所述机器人在运动轨迹中的运动参数构建为样本数据，并采用公式：

进行归一化处理，其中，z为归一化前参数，z_min为参数最小值，z_max为参数最大值，z'为归一化后的参数。

步骤8：随机划分样本数据，并将样本数据的70％用做训练样本，15％的样本数据作为验证样本，15％的样本数据作为测试样本。

如图3所示，对长短期记忆网络自适应迭代训练。

步骤9：以均方误差(MSE，Mean Square Error)作为损失函数：

式中：f(x)为网络模型预测的关节力矩和末端接触力；y为实际关节力矩和实际末端接触力；n为样本数。

利用训练集，以期望的MSE为目标，使用自适应梯度优化算法Adam，对长短期记忆网络进行权重和偏置的更新。

通过测试集验证长短期记忆网络的MSE是否达到期望目标，如果到不到期望目标，则重新训练该网络。

步骤10：将训练好的长短期记忆网络应用至机器人的力位控制器中时，控制器可以将机器人在运动轨迹中的运动参数输入至长短期记忆网络中，先进行预测，根据预测得到的关节力矩结果和关节力矩反馈进行比对，从而对网络重新进行训练，更新权值。

为了验证所提方法的有效性，在五自由度电梯导轨安装校准机器人上进行了力位控制实验，其中长短期记忆网络的最大训练次数为1000次。

以第一个关节为例，如图4所示，利用本发明方法进行机器人的关节力矩控制，有效提高了机器人的关节跟踪精度，收敛速度比无补偿的方法提升了83％，稳定时的跟踪精度提升了85％。如图5所示，设定末端期望力在水平方向上为200N，使用本方法进行的力跟踪误差可以控制在2％以内。

综上所述，本实施例可以显著地提升机器人关节力矩控制的精度，抗干扰性强，可以实现连续、稳定的控制。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于长短期记忆网络的机器人关节力矩控制方法，其特征在于，所述方法包括：

步骤3：所述力位控制器根据所述预测关节力矩和所述预测末端接触力控制机器人的作业；

步骤4：采集机器人作业的实际关节力矩和实际末端接触力，与所述预测关节力矩和所述实际末端接触力进行对比，根据对比结果更新所述长短期记忆网络的权值；

步骤5：重复所述步骤1-4实现机器人关节力矩的连续控制。

2.根据权利要求1所述的机器人关节力矩控制方法，其特征在于，所述力位控制器包括：计算力矩控制器和阻抗控制器；

控制器内环基于位置环搭建了所述计算力矩控制器，输出机器人的计算关节力矩给机器人控制***进行机器人的位置控制，此时机器人***的输入为：

其中，K_v、K_p、e、

分别为微分系数、比例系数、关节角度误差、关节角速度误差；D(q)为惯性矩阵，

表示离心力矩与哥氏力矩，G(q)表示重力力矩，q、

分别代表关节角度、关节角速度、关节加速度；τ为机器人的关节计算力矩；

控制器外环搭建了阻抗控制器，机器人的阻抗控制方程为：

其中，m_d、b_d、k_d、

x、x_d、f_d、f_e分别为惯性参数、阻尼参数、刚度参数、末端期望加速度、末端实际加速度、末端实际速度、末端期望速度、末端实际位置、末端期望位置、末端期望接触力、末端实际接触力；

通过长短期记忆网络预测实际关节力矩和末端实际接触力，其中预测实际关节力矩作为机器人力位控制器的输出，预测的末端实际接触力作为阻抗控制器中末端实际接触力f_e的输入。

3.根据权利要求1所述的机器人关节力矩控制方法，其特征在于，所述关节力矩反馈为：

T_O＝K_TIηn

4.根据权利要求3所述的机器人关节力矩控制方法，其特征在于，所述经过数学模型获得的末端接触力为：

F＝τ_f(J^T(q))^-1

5.根据权利要求4所述的机器人关节力矩控制方法，其特征在于，所述长短期记忆网络的训练过程包括：

S1：搭建长短期记忆网络模型，并初始化网络参数；

S2：生成机器人力位作业时的轨迹，并采集机器人在运动时实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、阻抗控制的输出各关节修正误差、经过数学模型获得的末端接触力，关节力矩反馈与实际末端接触力；

S3：将所述S2采集的参数经过归一化处理，构建训练集、验证集和测试集；

S4：利用所述训练集训练所述长短期记忆网络，以损失函数为目标，对网络参数进行迭代优化；

S5：使用测试集测试经过长短期记忆网络补偿后的关节力矩和末端接触力是否满足控制要求，评估补偿效果，根据补偿效果确定是否重新训练所述长短期记忆网络。

6.根据权利要求5所述的机器人关节力矩控制方法，其特征在于，所述长短期记忆网络输入层的输入参数为：实际关节角度、实际角速度、实际角加速度、期望关节角度、期望角速度、期望角加速度、阻抗控制的输出各关节修正误差、经过数学模型获得的末端接触力；

输出层的输出参数为：关节力矩反馈，实际末端接触力。

7.根据权利要求5所述的机器人关节力矩控制方法，其特征在于，所述长短期记忆网络隐藏层的神经元数为：

8.根据权利要求5所述的机器人关节力矩控制方法，其特征在于，所述实际末端接触力通过机器人环境动力学模型获取或者根据具体精度要求通过传感器获取，所述机器人环境动力学模型为：

其中，F_ext表示机器人末端夹持器与环境作业工件接触时的相互作用力；K_e是n×n维的正对角矩阵，分别表示环境各个方向上的阻尼和刚度参数；Z和Z_e都是n×1维的矢量，分别表示机器人末端夹持器的实际位置和环境表面的位置。

9.根据权利要求5所述的机器人关节力矩控制方法，其特征在于，所述S3中归一化处理的过程包括：

10.根据权利要求5所述的机器人关节力矩控制方法，其特征在于，所述长短期记忆网络的损失函数为：