CN116512256A

CN116512256A - 基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人

Info

Publication number: CN116512256A
Application number: CN202310459253.4A
Authority: CN
Inventors: 王敏; 陈史弘; 戴诗陆
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2023-04-26
Filing date: 2023-04-26
Publication date: 2023-08-01

Abstract

本发明公开了一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人，方法包括如下步骤：构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹，建立人机交互任务空间增广***与对应的评价指标函数；基于积分强化算法在线更新人机交互二阶阻抗模型参数，直至得到最优参数；针对二阶阻抗模型，构建自适应神经网络阻抗控制器；基于确定学习理论获取经验知识，构建常值神经网络阻抗控制器。本方法有效解决了机器人在未知动力学信息与未知人类运动特性条件下人机交互的精确阻抗控制，运用强化学习机制实现在不同任务场景与不同交互对象条件下人机交互参数的在线最优调整。

Description

基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人

技术领域

本发明涉及机器人的人机交互控制的技术领域，具体涉及一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人。

背景技术

随着近年来我国科学技术水平的提高与工业生产制造能力的快速发展，机器人的控制技术也不断提高。机器人除了被用于传统的抛光、打磨、装配等工业生产任务外，也逐步被用于康复医疗、人机协作等领域，如康复机器人、手术机器人、助力外骨骼等。人机交互***既发挥了人类的智能、自主等优点，也充分运用了机器人的重复性高、精度高、定量化评估准确、适用于极端工作环境等优势。在人机交互控制领域中，柔顺交互控制方法的设计尤为关键。阻抗控制是机器人柔顺控制的常用控制方法，不同于传统的力位控制，阻抗控制通过设计机器人控制力矩直接控制人机交互过程，能实现更好的柔顺交互效果。为了达到更高水平的人机交互质量，往往需要根据不同任务需求与不同操作人员的独特运动特性对交互过程中的阻抗参数进行合理设计，而传统的阻抗控制技术难以实现阻抗参数的最优选取。此外，高精度的机器人阻抗控制往往需要精确的动力学模型，但由于机器人自身的非线性因素、零部件磨损以及工作环境参数变化，如温度、湿度等因素变化的影响，对机器人进行精确建模十分困难。现有研究通常采用神经网络对机器人***中存在的非线性未知动态进行精确逼近，但在每次执行任务时，都需要重新调整神经网络权值来实现辨识。这不仅降低了控制方案的实时性，也极大地耗费算力。因此，结合强化学习与确定学习理论，设计具有根据不同任务场景与不同交互对象条件下人机交互参数的在线最优调整，同时针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间的高性能人机交互阻抗控制方法具有重要意义。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种基于联合学习的机器人最优人机交互阻抗控制方法、存储介质及机器人，本发明对人机交互柔顺控制问题，利用阻抗控制思想，结合李雅普诺夫稳定性理论提出了自适应神经网络阻抗控制器；针对不同人机交互任务场景与交互对象运动学特性未知的条件下人机柔顺交互参数的在线调整问题，本发明利用强化学习理论，实现可根据不同任务场景与不同运动特性的交互对象进行阻抗参数的在线最优选取；针对机器人模型中存在的未知非线性动态，本发明利用确定学习理论，实现对未知非线性动态模型的精确拟合，同时对学习收敛后的神经网络权值进行保存，针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间。

为了达到上述目的，本发明采用以下技术方案：

第一方面，本发明提供了一种基于联合学习的机器人最优人机交互阻抗控制方法，包括下述步骤：

S1、基于机器人特性构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹：

所述人机交互二阶阻抗模型如下：

其中，t为时间，M_d(t)为t时刻二阶阻抗模型惯性矩阵，B_d(t)为t时刻二阶阻抗模型阻尼矩阵，K_d(t)为t时刻二阶阻抗模型刚度矩阵，K_f(t)为t时刻人机交互力增益，为机器人末端加速度，/>为机器人末端速度，ξ为机器人末端位置，/>为机器人任务空间参考加速度，/>为机器人任务空间参考速度，ξ_d为机器人任务空间参考位置，f为机器人与人类操作员的交互力，

所述任务空间辅助轨迹如下：

其中，ξ_r1为机器人任务空间辅助位置，ξ_r2为机器人任务空间辅助速度；

S2、建立人机交互任务空间增广***与对应的评价指标函数，并基于积分强化算法在线更新二阶阻抗模型参数，直至得到最优参数，具体如下：

设计人机交互任务空间增广***与对应的评价指标函数：

U＝KX，

其中，为人机交互任务空间增广***状态，/>为任务空间辅助速度，/>为任务空间辅助加速度，k_f1、k_f2、k_f3为未知人机交互力特性参数，U为增广***控制输入，K为增广***控制增益矩阵、V为性能评价指标函数，t为时间，K_q为对称正定矩阵，通过设计K_q矩阵元素可实现对人机交互任务侧重点的调整，K_r为对称正定矩阵，τ为辅助时间变量；

S3、针对二阶阻抗模型，构建自适应神经网络阻抗控制器，基于确定学习理论，将训练收敛后的神经网络权值保存为常值神经网络权值/>具体如下：

定义阻抗误差为：

设计自适应神经网络阻抗控制器：

其中，e为辅助阻抗误差变量，由e收敛可得阻抗误差ε收敛，τ_f为机器人关节空间控制力矩映射到任务空间下的控制输入，为神经网络权值估计值的转置，为高斯径向基函数，θ_k为布点中心点，k＝i,2,…,N，ρ_k为宽度，N为神经网络布点数，/>其中，q＝[q₁,q₂,…,q_n]^T为机器人在关节空间的角位移，q_i为第i个关节的角位移，i＝1,2,…,n，n对应着机器人的关节数，/>为机器人在关节空间的角速度，/>为第i个关节的角速度，K_e是自适应神经网络控制器增益矩阵；

构造神经网络权值估计值的权值更新律为：

其中，Γ为权值更新律的增益项，σ为权值更新律的设计常数；

S4、利用常值神经网络权值构建常值神经网络阻抗控制器：

其中，K_f是最优人机交互力增益，M_d是二阶阻抗模型惯性矩阵，B_d是最优二阶阻抗模型阻尼矩阵，K_d是最优二阶阻抗模型刚度矩阵。

作为优选的技术方案，所述机器人特性是由机器人模型确定的，所述机器人模型设定为n连杆刚性机械臂模型，具体包括：

机器人运动学模型为：

ξ＝g(q)，

其中，g(·)为机器人从关节空间角位移到任务空间坐标的映射，J为机器人***的雅可比矩阵；

机器人关节空间动力学模型为：

其中，为机器人在关节空间的角加速度，M_q(q)为关节空间下机器人的惯性矩阵、/>为关节空间下机器人的向心力矩阵、G_q(q)为关节空间下机器人的重力矩阵，τ_q为关节控制力矩，/>为第i关节的角加速度，i＝1,2,…,n。

作为优选的技术方案，在步骤S1中，所述任务空间参考回归轨迹为：

其中，为给定的连续光滑函数，ξ_d1＝ξ_d为机器人任务空间参考加速度，为机器人任务空间参考速度。

作为优选的技术方案，步骤S2中，所述基于积分强化算法在线更新二阶阻抗模型参数，直至得到最优参数，具体为：

选用积分强化算法如下：

策略评估：

策略更新：

K_i+1＝K_r ^-1B^TP_i

其中，X(t)表示任务空间增广***状态X在时间为t时的值，P_i表示第i步迭代时该算法的解，T为采样时间，τ为辅助时间变量，定义K_i为第i步迭代时任务空间增广***的控制增益矩阵，K_i+1为第i+1步迭代时任务空间增广***的控制增益矩阵，B＝[0I_n×n 0]^T为任务空间增广***矩阵；

通过最小二乘法对上述强化学习算法进行在线实时计算：

其中，为P_i元素向量的转置，/>表示X(t)的克罗内克积二次多项式基向量，为辅助变量，/>为辅助矩阵，/>为辅助矩阵，/>为辅助矩阵；

将使得增广***稳定的初值K₀代入算法，最小二乘法在线计算每一步解后得到P_i，将其代入策略更新公式得到控制增益K_i+1，当||K_i+1-K_i||＜δ时，得到最优反馈增益K^*，δ为设定的误差常数，通常取较小值；

在t时刻，任务空间增广***控制增益K(t)为：

基于以上关系，通过选定合适的M_d(t)矩阵，可得实时人机交互二阶阻抗模型参数K_d(t)，B_d(t)，K_f(t)，当K(t)收敛至K^*时，得到最优人机交互二阶阻抗模型参数K_d，B_d，K_f。

作为优选的技术方案，步骤S3中，所述常值神经网络权值具体为：

其中，t₂＞t₁＞T，T为收敛时间。

第二方面，本发明提供了一种机器人，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的基于联合学习的机器人最优人机交互阻抗控制方法。

第三方面，本发明提供了一种计算机可读存储介质，存储有程序，所述程序被处理器执行时，实现所述的基于联合学习的机器人最优人机交互阻抗控制方法。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明结合强化学习思想，实现不同人机交互任务场景与交互对象运动学特性未知的条件下人机柔顺交互参数的在线最优选取，使得人机交互控制***更具有通用性；

2、本发明在人机交互过程中实现了对机器人模型中未知非线性动态的精确辨识，同时针对相似人机交互任务能复用历史经验知识以节省计算资源、缩短调节时间，使机器人控制更具有实时性；

3、本发明在阻抗控制的思想上结合强化学习、确定学习理论，实现了期望阻抗模型特性，提高了人机交互柔顺控制性能，提高了人机交互体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于联合学习的机器人最优人机交互阻抗控制方法流程图。

图2为本发明实施例双连杆机器人示意图。

图3为本实施例任务空间增广***控制增益矩阵范数收敛图。

图4为本发明实施例自适应控制阶段机器人***人机交互辅助阻抗误差曲线图。

图5为本发明实施例自适应控制阶段机器人***神经网络权值范数收敛曲线图。

图6为本发明实施例自适应控制阶段机器人***神经网络拟合***模型未知动态效果图。

图7为本发明实施例自适应控制阶段机器人***任务空间下控制输入信号变化曲线图。

图8为本发明实施例机器人末端与操作员交互力曲线图。

图9为本发明机器人末端轨迹曲线图。

图10为本发明实施例学习控制阶段机器人***人机交互辅助阻抗误差变量曲线图。

图11为本发明实施例机器人的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本申请所描述的实施例可以与其它实施例相结合。

如图1所示，本实施例提供的一种基于联合学习的机器人最优人机交互阻抗控制方法，选取双连杆刚性机器人为模型，包括以下步骤：

S1、基于机器人特性建立对应的运动学与任务空间动力学模型，并构建任务空间参考回归轨迹、人机交互二阶阻抗模型与任务空间辅助轨迹：

基于机器人特性得到机器人从关节空间到任务空间的映射为：

ξ＝g(q)

其中，ξ为机器人末端位置，为机器人末端速度，g(·)为机器人从关节空间角位移到任务空间坐标的映射，J为机器人***的雅可比矩阵，q＝[q₁,q₂]^T为机器人在关节空间的角位移，q_i(i＝1,2)为第i个关节的角位移，/>为机器人在关节空间的角速度，为第i个关节的角速度。

根据机器人的结构，本实施例选取正运动学模型为：

其中，x,y,z分别为任务空间下三个方向的位置，l₁＝1m和l₂＝1m分别为连杆1和连杆2的长度，如图2所示。

机器人***的雅可比矩阵为：

机器人在关节空间的动力学模型为：

其中，为机器人在关节空间的角加速度，M_q(q)为关节空间下机器人的惯性矩阵、/>为关节空间下机器人的向心力矩阵、G_q(q)为关节空间下机器人的重力矩阵，τ_q为关节控制力矩，/>为第i关节的角加速度，f为机器人与人类操作员的交互力，由力传感器实时测量，K_f(t)为t时刻人机交互力增益。

基于任务空间的机器人动力学模型为：

其中，τ_f为关节力矩映射到机器人末端的控制力矩，M(q)为任务空间下的惯性矩阵、为任务空间下的向心力矩阵，G(q)为任务空间下的重力项，/>为机器人末端加速度，与关节空间的动力学模型参数的转换关系如下：

M(q)＝J^-TM_q(q)J^-1，

G(q)＝J^-TG_q(q)。

本实施例中选取的双连杆刚性机器人模型的相关参数分别为：

本实施例中，选取m₁＝3kg和m₂＝3kg分别是连杆1和连杆2的质量，g＝9.8m/s²为重力加速度。

设计任务空间参考回归轨迹为：

其中，为给定的连续光滑函数，ξ_d2为机器人任务空间参考速度，ξ_d1为机器人任务空间参考位置。本实施例中选取的任务空间参考轨迹为：

ξ_d＝[1+0.2sin(t),1-0.2cos(t)]^T

设计人机交互二阶阻抗模型：

其中，t为时间，M_d(t)为t时刻二阶阻抗模型惯性矩阵，B_d(t)为t时刻二阶阻抗模型阻尼矩阵，K_d(t)为t时刻二阶阻抗模型刚度矩阵，K_f(t)为t时刻人机交互力增益，为机器人末端加速度，/>为机器人末端速度，ξ为机器人末端位置，/>为机器人任务空间参考加速度，/>为机器人任务空间参考速度，ξ_d为机器人任务空间参考位置。本实施例中，选取M_d(t)为常值矩阵，/>

设计任务空间辅助轨迹：

其中，ξ_r1为机器人任务空间辅助位置，ξ_r2为机器人任务空间辅助速度。

S2、建立人机交互任务空间增广***与对应的评价指标函数，并基于积分强化算法在线更新二阶阻抗模型参数，直至得到最优参数：

设计人机交互任务空间增广***与对应的评价指标函数：

U＝KX

其中，为人机交互任务空间增广***状态，ξ_r为机器人任务空间辅助位置，/>为任务空间辅助速度，/>为任务空间辅助加速度，k_f1，k_f2，k_f3为未知人机交互力特性参数，U为增广***控制输入，K为增广***控制增益矩阵、V为性能评价指标函数，t为时间，K_q为对称正定矩阵，通过设计K_q矩阵元素可实现对人机交互任务侧重点的调整，K_r为对称正定矩阵，τ为辅助时间变量。本实施例中，选取/>

基于积分强化算法，对任务空间增广***最优控制问题进行求解：

选用积分强化算法如下：

策略评估：

策略更新：

K_i+1＝K_r ^-1B^TP_i

其中，X(t)表示任务空间增广***状态X在时间为t时的值，P_i表示第i步迭代时该算法的解，T为采样时间，τ为辅助时间变量，定义K_i为第i步迭代时任务空间增广***的控制增益矩阵，K_i+1为第i+1步迭代时任务空间增广***的控制增益矩阵，B＝[0 I_n×n 0]^T为任务空间增广***矩阵。

通过最小二乘法对上述强化学习算法进行在线实时计算：

其中，为P_i元素向量的转置，/>表示X(t)的克罗内克积二次多项式基向量，为辅助变量，/>为辅助矩阵，/>为辅助矩阵，/>为辅助矩阵，N为数据取样数量。将使得增广***稳定的初值K₀代入算法，最小二乘法在线计算每一步解/>后得到P_i，将其代入策略更新公式得到控制增益K_i+1，当||K_i+1-K_i||＜δ时，得到最优反馈增益K^*，δ为设定的误差常数，通常取较小值。

在t时刻，任务空间增广***控制增益K(t)为：

基于以上关系，通过选定合适的M_d(t)矩阵，可得实时人机交互二阶阻抗模型参数K_d(t)，B_d(t)，K_f(t)，当K(t)收敛至K^*时，可得到最优人机交互二阶阻抗模型参数K_d，B_d，K_f。本实施例中，选取采样时间T＝0.05s，δ＝0.1，N＝6。

S3、针对二阶阻抗模型，构建自适应神经网络阻抗控制器，基于确定学习理论，将训练收敛后的神经网络权值保存为常值神经网络权值/>

定义阻抗误差为：

设计自适应神经网络阻抗控制器：

其中，e为辅助阻抗误差变量，由e收敛可得阻抗误差ε收敛，τ_f为机器人关节空间控制力矩映射到任务空间下的控制输入，为神经网络权值估计值的转置，为高斯径向基函数，M为神经网络布点数，/>为布点中心，ρ_k(k＝i,2,…,M)为神经元宽度，/>其中，K_e是自适应神经网络控制器增益矩阵。本实施例中，ξ和/>的初值为ξ＝[0.8,1]^T和神经网络权值/>初值为/>神经网络布点中心为[0.3,0.3,0.4,0.3,0.3,0.4,0.4,0.4,0.4,0.4,0,0]^T，神经网络神经元宽度为[0.375,0.375,0.5,0.375,0.375,0.5,0.5,0.5,0.5,0.5,0,0]^T，自适应神经网络控制器增益/>

构造神经网络权值估计值的权值更新律为：

其中，Γ为权值更新律的增益项，σ为权值更新律的设计常数。本实施例中，σ＝0.00001。

利用确定学习理论将收敛后的神经网络权值保存为常值权值/>具体为：

其中，T＜t₁＜t₂，T为收敛时间。本实施例中，T＝100s，t₁＝180s，t₂＝200s。

S4、利用常值神经网络权值构建常值神经网络阻抗控制器：

其中，

本实施例中，学习控制阶段各状态初值与参数设置值与自适应控制阶段相同。

采用本实施例中的参数，可获得如下结果：

图3为任务空间增广***控制增益矩阵范数收敛图，由图可知，实际增益矩阵范数在4次迭代后收敛至理想最优增益矩阵附近，耗时为0.349s，范数误差为0.16，证明强化学习算法在较短时间内可以收敛得到最优人机交互阻抗参数；图4为自适应控制阶段机器人***人机交互辅助阻抗误差曲线图，可以看出在100s后，辅助阻抗误差基本收敛至零附近，可以得到自适应神经网络控制器可以基本实现人机交互柔顺控制，其暂态控制性能一般；图5为自适应控制阶段机器人***神经网络权值范数收敛曲线图，图6为自适应控制阶段机器人***神经网络拟合***模型未知动态效果图，可以看出神经网络权值在100s后基本实现了收敛，并实现对***内部未知非线性动态的良好逼近；图7为自适应控制阶段机器人***任务空间下控制输入信号变化曲线图，可得控制输入信号光滑连续且暂态震动过程短，可保证***稳定安全运行；图8为机器人末端与操作员交互力曲线图，图9为机器人末端轨迹曲线图，由图可得在机器人与操作员进行人机交互过程中，机器人保持着良好的柔顺特性，且随着人机交互力的减小逐渐收敛于参考轨迹；图10为学习控制阶段机器人***人机交互辅助阻抗误差变量曲线图，由图可得学习控制极大缩短了***调节时间，提高了控制性能，同时节省了计算资源，实现了高精度人机交互柔顺控制。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。

请参阅图11，在一个实施例中，提供了一种基于联合学习的机器人最优人机交互阻抗控制方法的机器人，所述机器人100可以包括第一处理器101、第一存储器102和总线，还可以包括存储在所述第一存储器102中并可在所述第一处理器101上运行的计算机程序，如机器人最优人机交互阻抗控制程序103。

其中，所述第一存储器102至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如：SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器102在一些实施例中可以是机器人100的内部存储单元，例如该机器人100的移动硬盘。所述第一存储器102在另一些实施例中也可以是机器人100的外部存储设备，例如机器人100上配备的插接式移动硬盘、智能存储卡(Smart Media Card，SMC)、安全数字(SecureDigital，SD)卡、闪存卡(Flash Card)等。进一步地，所述第一存储器102还可以既包括机器人100的内部存储单元也包括外部存储设备。所述第一存储器102不仅可以用于存储安装于机器人100的应用软件及各类数据，例如机器人最优人机交互阻抗控制程序103的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述第一处理器101在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(Central Processing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器101是所述机器人的控制核心(ControlUnit)，利用各种接口和线路连接整个机器人的各个部件，通过运行或执行存储在所述第一存储器102内的程序或者模块，以及调用存储在所述第一存储器102内的数据，以执行机器人100的各种功能和处理数据。

图3仅示出了具有部件的机器人，本领域技术人员可以理解的是，图3示出的结构并不构成对所述机器人100的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

所述机器人100中的所述第一存储器102存储的机器人最优人机交互阻抗控制程序103是多个指令的组合，在所述第一处理器101中运行时，可以实现：

所述人机交互二阶阻抗模型如下：

所述任务空间辅助轨迹如下：

设计人机交互任务空间增广***与对应的评价指标函数：

U＝KX，

其中，为人机交互任务空间增广***状态，/>为任务空间辅助速度，/>为任务空间辅助加速度，k_f1、k_f2、k_f3为未知人机交互力特性参数，U为增广***控制输入，K为增广***控制增益矩阵、V为性能评价指标函数，t为时间，K_q为对称正定矩阵，通过设计K_q矩阵元素可实现对人机交互任务侧重点的调整，K_r为对称正定矩阵，τ为辅助时间变量；/>

定义阻抗误差为：

设计自适应神经网络阻抗控制器：

其中，e为辅助阻抗误差变量，由e收敛可得阻抗误差ε收敛，τ_f为机器人关节空间控制力矩映射到任务空间下的控制输入，为神经网络权值估计值的转置，为高斯径向基函数，/>为布点中心点，ρ_k(k＝i,2,…,N)为宽度，N为神经网络布点数，/>其中，q＝[q₁,q₂,…,q_n]^T为机器人在关节空间的角位移，q_i(i＝1,2,…,n)为第i个关节的角位移，n对应着机器人的关节数，/>为机器人在关节空间的角速度，/>为第i个关节的角速度，K_e是自适应神经网络控制器增益矩阵；

构造神经网络权值估计值的权值更新律为：

S4、利用常值神经网络权值构建常值神经网络阻抗控制器：

进一步地，所述机器人100集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.基于联合学习的机器人最优人机交互阻抗控制方法，其特征在于，包括下述步骤：

所述人机交互二阶阻抗模型如下：

所述任务空间辅助轨迹如下：

设计人机交互任务空间增广***与对应的评价指标函数：

U＝KX，

定义阻抗误差为：

设计自适应神经网络阻抗控制器：

构造神经网络权值估计值的权值更新律为：

S4、利用常值神经网络权值构建常值神经网络阻抗控制器：

2.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法，其特征在于，所述机器人特性是由机器人模型确定的，所述机器人模型设定为n连杆刚性机械臂模型，具体包括：

机器人运动学模型为：

ξ＝g(q)，

机器人关节空间动力学模型为：

3.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法，其特征在于，在步骤S1中，所述任务空间参考回归轨迹为：

4.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法，其特征在于，步骤S2中，所述基于积分强化算法在线更新二阶阻抗模型参数，直至得到最优参数，具体为：

选用积分强化算法如下：

策略评估：

策略更新：

K_i+1＝K_r ^-1B^TP_i

其中，X(t)表示任务空间增广***状态X在时间为t时的值，P_i表示第i步迭代时该算法的解，T为采样时间，τ为辅助时间变量，定义K_i为第i步迭代时任务空间增广***的控制增益矩阵，K_i+1为第i+1步迭代时任务空间增广***的控制增益矩阵，B＝[0 I_n×n 0]^T为任务空间增广***矩阵；

通过最小二乘法对上述强化学习算法进行在线实时计算：

在t时刻，任务空间增广***控制增益K(t)为：

5.根据权利要求1所述基于联合学习的机器人最优人机交互阻抗控制方法，其特征在于，步骤S3中，所述常值神经网络权值具体为：

其中，t₂＞t₁＞T，T为收敛时间。

6.一种机器人，其特征在于，所述机器人包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序指令，所述计算机程序指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-5中任意一项所述的基于联合学习的机器人最优人机交互阻抗控制方法。

7.一种计算机可读存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1-5任一项所述的基于联合学习的机器人最优人机交互阻抗控制方法。