CN114406996B - 一种输入受限机械臂的合作博弈最优跟踪控制方法及*** - Google Patents

一种输入受限机械臂的合作博弈最优跟踪控制方法及*** Download PDF

Info

Publication number
CN114406996B
CN114406996B CN202111653984.XA CN202111653984A CN114406996B CN 114406996 B CN114406996 B CN 114406996B CN 202111653984 A CN202111653984 A CN 202111653984A CN 114406996 B CN114406996 B CN 114406996B
Authority
CN
China
Prior art keywords
input
mechanical arm
function
joint
arm system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111653984.XA
Other languages
English (en)
Other versions
CN114406996A (zh
Inventor
董博
韦重阳
安天骄
张振国
马冰
姜虎成
李元春
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changchun University of Technology
Original Assignee
Changchun University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changchun University of Technology filed Critical Changchun University of Technology
Priority to CN202111653984.XA priority Critical patent/CN114406996B/zh
Publication of CN114406996A publication Critical patent/CN114406996A/zh
Application granted granted Critical
Publication of CN114406996B publication Critical patent/CN114406996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/08Programme-controlled manipulators characterised by modular constructions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J17/00Joints
    • B25J17/02Wrist joints
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J18/00Arms
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1602Programme controls characterised by the control system, structure, architecture
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明涉及一种输入受限机械臂的合作博弈最优跟踪控制方法及***,首先,基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;并基于各个关节的状态空间描述构建机械臂***的状态空间方程;然后基于误差融合函数构建输入受限机械臂***的性能指标函数;并基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;其次基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;最后基于***的状态变量误差和触发阈值对所述控制律进行更新。本发明降低了设计过程的复杂性,减少了运行过程中的计算量,不仅使跟踪过程中控制力矩更加连续和平滑,还使机械臂***的综合能耗达到最优。

Description

一种输入受限机械臂的合作博弈最优跟踪控制方法及***
技术领域
本发明涉及机器人控制算法技术领域,特别是涉及一种输入受限机械臂的合作博弈最优跟踪控制方法及***。
背景技术
可重构机械臂由一系列具有标准接口的关节模块组成,是一种能够根据需要任意改变构形的智能化机械臂。与传统构形单一的工业机械臂相比,可重构机械臂具有高度的灵活性和广泛的适应性,在面对不同的工作环境时可以通过增加或减少模块重新配置为适应该环境的构形。随着机械臂技术的进步和机械臂行业的发展,可重构机械臂已经得到越来越多人的认可,现已被广泛应用于太空探险,深海探测、灾难救援和极端环境作业等很多领域。
输入受限是实际工程***中由于物理条件限制而产生的一种饱和现象。例如,电机的输出转矩和转速存在最大值,阀门开度有一定的范围限制。这种饱和现象的发生往往伴随着***性能的下降,甚至失去稳定性。由于输入受限机械臂***的每个模块都包含一个电机,因此研究输入受限机械臂***具有重要的意义。
为了完成输入受限机械臂***的轨迹跟踪任务同时降低***能耗代价,研究其最优控制方案尤为必要。最优控制是现代控制理论的重要组成部分,其包括“动态规划”理论和“极大值原理”两个重要的分支。动态规划是求解最优控制的基本方法,对于线性***的被控对象,通过求解黎卡提方程获得最优控制策略,对于可重构机械臂这类复杂的非线性***,需要求解相应的哈密顿-雅可比-贝尔曼方程,但它是一种非线性偏微分方程,很难得到解析解,而自适应动态规划算法是解决这类非线性***最优控制问题的有效办法。基于自适应动态规划算法,我们可以利用评判神经网络近似哈密顿-雅可比-贝尔曼方程得到其最优跟踪控制策略。但对于输入受限机械臂***来说,由于我们在设计控制器时没有考虑关节与关节之间的信息交流,所以上述的最优跟踪控制策略只是局部最优的。并且,当机械臂***稳定运行时,如果仍采用周期性的采样方式将会增加***的计算负担,造成大量的通信资源浪费。
发明内容
有鉴于此,本发明提供了一种输入受限机械臂的合作博弈最优跟踪控制方法及***,具体为基于事件触发机制的输入受限可重构机械臂***合作博弈最优跟踪控制方法及***,在保证输入受限机械臂***轨迹跟踪性能的同时降低控制器计算负担,并对资源进行了合理的分配。
为实现上述目的,本发明提供了如下方案:
一种输入受限机械臂的合作博弈最优跟踪控制方法,包括:
基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;
基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程;
基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;
基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;
对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
优选地,所述基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述,包括:
基于关节力矩反馈技术构建输入受限机械臂***各个关节的动力学模型;
基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述;
基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新;
基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
优选地,所述基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数,包括:
基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数;
基于所述误差融合函数构建输入受限机械臂***的性能指标函数;
基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
优选地,所述基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律,包括:
基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件;
基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
优选地,所述对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新,包括:
获取输入受限机械臂***的状态变量误差;
基于评判神经网络构建事件触发性能指标函数;
基于所述事件触发性能指标函数构建李雅普诺夫函数;
对所述李雅普诺夫函数进行求导,得到所述触发阈值;
对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述近似哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。
本发明还提供了一种输入受限机械臂的合作博弈最优跟踪控制制***,包括:
关节状态空间构建模块,基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;
***状态空间构建模块,基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程;
哈密顿函数模块,基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;
控制律模块,基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;
判断模块,对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
优选地,所述关节状态空间构建模块包括:
模型构建单元,基于关节力矩反馈技术构建输入受限机械臂***各个关节的动力学模型;
关节状态空间构建单元,基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述;
待确定项更新单元,基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新;
关节状态空间更新单元,基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
优选地,所述哈密顿函数模块包括:
误差函数单元,基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数;
性能指标函数单元,基于所述误差融合函数构建输入受限机械臂***的性能指标函数;
哈密顿函数单元,基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
优选地,所述控制律模块包括:
稳定性单元,基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件;
控制律单元,基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
优选地,所述判断模块包括:
状态变量误差单元,获取输入受限机械臂***的状态变量误差;
事件触发性能函数单元,基于评判神经网络构建事件触发性能指标函数;
李雅普诺夫函数单元,基于所述事件触发性能指标函数构建李雅普诺夫函数;
触发阈值单元,对所述李雅普诺夫函数进行求导,得到所述触发阈值;
判断单元,对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述近似哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明涉及一种输入受限机械臂的合作博弈最优跟踪控制方法及***,首先,基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;并基于各个关节的状态空间描述构建机械臂***的状态空间方程;然后基于误差融合函数构建输入受限机械臂***的性能指标函数;并基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;其次基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;最后基于***的状态变量误差和触发阈值对所述控制律进行更新。本发明降低了设计过程的复杂性,减少了运行过程中的计算量,不仅使跟踪过程中控制力矩更加连续和平滑,还使机械臂***的综合能耗达到最优。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明输入受限机械臂的合作博弈最优跟踪控制方法流程图;
图2为本发明输入受限机械臂的合作博弈最优跟踪控制***结构图。
符号说明:1-关节状态空间构建模块,2-***状态空间构建模块,3-哈密顿函数模块,4-控制律模块,5-判断模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种输入受限机械臂的合作博弈最优跟踪控制方法及***,在保证输入受限机械臂***轨迹跟踪性能的同时降低控制器计算负担,并对资源进行了合理的分配。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明输入受限机械臂的合作博弈最优跟踪控制方法流程图。如图所示,本发明提供了一种输入受限机械臂的合作博弈最优跟踪控制方法,所述方法应用于输入受限机械臂***,所述方法包括:
步骤S1,基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述。
具体地,所述步骤S1包括:
步骤S11,基于关节力矩反馈技术构建输入受限机械臂***中各个关节的动力学模型。如下式:
Figure GDA0003562225930000061
式中:ui为第i个关节中电机的输出力矩,i=1,2,…,n,n为机械臂***中关节的总数量,qi为第i个关节的位置,
Figure GDA0003562225930000062
第i个关节的速度,/>
Figure GDA0003562225930000063
分别为第i个关节的加速度,Imi为第i个关节中电机的转子相对于旋转轴的转动惯量,γi为第i个关节中减速器的减速比,
Figure GDA0003562225930000064
是第i个关节的摩擦力矩,/>
Figure GDA0003562225930000065
为第i个关节及之前的各个关节之间的动态耦合力矩,τsi为第i个关节可测量的关节耦合力矩,di(qi)为第i个关节的扰动力矩,βi为第i个关节中电机的最大输出力矩。
其中,
Figure GDA0003562225930000066
式中:fbi为第i个关节的粘性摩擦系数,fsi为第i个关节的静摩擦系数,fτi为第i个关节的Stribect效应参数,fci为第i个关节的库伦摩擦系数,e为以常数e为底的指数函数,
Figure GDA0003562225930000071
为第i个关节的摩擦力矩的建模误差。/>
Figure GDA0003562225930000072
为符号函数;
Figure GDA0003562225930000073
进一步地,
Figure GDA0003562225930000074
式中:zmi为第i个关节中电机转子旋转方向的单位向量,zlk为第k个关节中电机转子旋转方向的单位向量,zlj为第j个关节中电机转子旋转方向的单位向量,T为转置,
Figure GDA0003562225930000075
为第j个关节的加速度,/>
Figure GDA0003562225930000076
为第j个关节的速度,/>
Figure GDA0003562225930000077
为第k个关节的速度。令/>
Figure GDA0003562225930000078
Figure GDA0003562225930000079
为第i个关节与第j个关节之间的对准算子;令/>
Figure GDA00035622259300000710
Figure GDA00035622259300000711
为第i个关节与第k个关节和第j个关节之间的对准算子;可以得到:
Figure GDA00035622259300000712
其中,
Figure GDA00035622259300000713
为/>
Figure GDA00035622259300000714
的估计值,/>
Figure GDA00035622259300000715
Figure GDA00035622259300000716
为第i个关节与第j个关节之间的对准误差,/>
Figure GDA00035622259300000717
为/>
Figure GDA00035622259300000718
的估计值,/>
Figure GDA00035622259300000719
Figure GDA00035622259300000720
为第i个关节与第k个关节和第j个关节之间的对准误差。
步骤S12,基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述。
定义第i个关节的状态变量
Figure GDA00035622259300000721
根据各个关节的动力学模型,得到各个关节的初始状态空间:
Figure GDA00035622259300000722
式中:·为求导,xi1为第i个关节的位置,xi2为第i个关节的速度,Gi(xi)为第i个关节的待确定项,Bi为惯性项,是第i个关节的的输入矩阵;
Figure GDA0003562225930000081
Figure GDA0003562225930000082
代表正实数,/>
Figure GDA0003562225930000083
代表n维欧几里得空间。
步骤S13,基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新。
将第i个关节的待确定项Gi(xi)重构为如下形式:
Gi(xi)=WGiδGi(xi)+εGi(xi);
其中,
Figure GDA0003562225930000084
为神经网络观测器的理想权值向量,/>
Figure GDA0003562225930000085
为神经网络观测器的激活函数,lGi为神经网络观测器的神经元数量,εGi(xi)为神经网络观测器的的近似残差。
由于理想权值向量未知,利用神经网络观测器的的估计值
Figure GDA0003562225930000086
替代理想值WGi有:
Figure GDA0003562225930000087
定义第i个关节的状态观测值为
Figure GDA0003562225930000088
根据第i个关节的状态空间将神经网络观测器设计为:
Figure GDA0003562225930000089
其中,
Figure GDA00035622259300000810
为第i个关节的观测位置,/>
Figure GDA00035622259300000811
为第i个关节的观测速度,kio1和kio2为参数变量,定义神经网络观测器误差为/>
Figure GDA00035622259300000812
eio1为第i个关节的观测位置误差,eio2为第i个关节的观测速度误差。
对神经网络观测器误差eio求导,得到:
Figure GDA00035622259300000813
为了训练神经网络观测器的权值向量和保证设计的神经网络观测器的稳定性,选取如下的李雅普诺夫函数L:
Figure GDA00035622259300000814
对李雅普诺夫函数求导有:
Figure GDA0003562225930000091
由上式可知,神经网络观测器的权值向量被调整为:
Figure GDA0003562225930000092
式中:αGi为神经网络观测器的学习率,εGim为神经网络观测器近似残差的上界。当
Figure GDA0003562225930000093
并且/>
Figure GDA0003562225930000094
时,所设计的神经网络观测器是稳定的。
步骤S14,基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
步骤S2,基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程。
定义输入受限机械臂***的状态变量
Figure GDA0003562225930000095
得到输入受限机械臂***整体的状态空间方程为:
Figure GDA0003562225930000096
Figure GDA0003562225930000097
其中,
Figure GDA0003562225930000098
表示各个关节的位置,/>
Figure GDA0003562225930000099
表示各个关节的速度,G(x)表示输入受限机械臂***的待确定项,Dii为输入受限机械臂***的惯性项,是输入受限机械臂***的输入矩阵。
步骤S3,基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
具体地,所述步骤S3包括:
步骤S31,基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数。
s(x)=x2-x2ds(x1-x1d);
式中:x1d表示输入受限机械臂***的期望位置,x2d表示输入受限机械臂***的期望速度αs=diag(αs1s2,…,αsn),是一个正定对角矩阵。
步骤S32,基于所述误差融合函数构建输入受限机械臂***的性能指标函数。
Figure GDA0003562225930000101
其中,s=s(x),hm表示输入受限机械臂***受到的内部扰动上界函数,h(x)满足
Figure GDA0003562225930000102
Q是对称正定矩阵。U(ui)是输入受限的正定非二次型函数:
Figure GDA0003562225930000103
其中,tanh-1(·)为tanh(·)的反函数,
Figure GDA0003562225930000104
是一个正定对角矩阵,dw表示微元算子。
对U(ui)积分得到:
Figure GDA0003562225930000105
其中,
Figure GDA0003562225930000106
为一个行向量。
步骤S33,基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
Figure GDA0003562225930000107
Figure GDA0003562225930000108
其中,
Figure GDA0003562225930000109
Figure GDA00035622259300001010
表示性能指标函数的梯度,θ表示误差融合函数的余项,/>
Figure GDA00035622259300001011
表示输入受限机械臂***的期望加速度。
步骤S4,基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律。
进一步地,所述步骤S4包括:
步骤S41,基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件。
由最优控制理论可知,合作博弈帕累托最优解
Figure GDA00035622259300001012
即最优轨迹跟踪控制策略满足下列稳定性条件:
Figure GDA0003562225930000111
步骤S42,基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
步骤S5,对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
优选地,所述步骤S5,包括:
步骤S51,获取r时刻至r+1时刻***的状态变量误差。
er(t)=s(xr)-s(x),t∈[tr,tr+1),r=1,,2,…,∞;
Figure GDA0003562225930000112
s(xr)表示采样状态,s(x)表示实际状态。
步骤S52,基于评判神经网络构建事件触发性能指标函数。
Figure GDA0003562225930000113
式中:
Figure GDA0003562225930000114
是评判神经网络的理想权值向量,l是评判神经网络的神经元数量,δc(sr)是评判神经网络的激活函数,εc(sr)是评判神经网络的的近似残差,其梯度向量为:
Figure GDA0003562225930000115
式中:
Figure GDA0003562225930000116
Figure GDA0003562225930000117
表示评判神经网络的近似残差εc(sr)的梯度。
步骤S53,基于所述事件触发性能指标函数构建李雅普诺夫函数V(t)。
V(t)=J*(s)+J*(sr);
式中:J*(s)表示时间触发下的最优性能指标函数,J*(sr)表示事件触发下的最优性能指标函数。
步骤S54,对所述李雅普诺夫函数进行求导,得到所述触发阈值。
Figure GDA0003562225930000118
其中,λmin(Q)表示以矩阵Q最小特征值组成的对角矩阵,k1和k2表示两个正常数,er(T)为触发阈值。
步骤S55,对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述近似哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。
基于所述控制律,结合事件触发性能指标函数,得到评判神经网络估计的事件触发最优轨迹跟踪控制律
Figure GDA0003562225930000121
Figure GDA0003562225930000122
根据哈密顿函数和事件触发最优轨迹跟踪控制律,哈密顿函数可改写为:
Figure GDA0003562225930000123
/>
其中,ecH是由评判神经网络逼近哈密顿函数导致的残差。
由于评判神经网络的理想权值未知,用估计值
Figure GDA0003562225930000124
替代理想值Wc可以得到/>
Figure GDA0003562225930000125
为:
Figure GDA0003562225930000126
其梯度向量为:
Figure GDA0003562225930000127
类似的,我们可以得到近似哈密顿函数和事件触发近似最优轨迹跟踪控制律为:
Figure GDA0003562225930000128
Figure GDA0003562225930000129
其中,ec表示近似哈密顿函数。
为了训练评判神经网络的权值向量,定义目标函数:
Figure GDA00035622259300001210
通过梯度下降法得到评判神经网络权值向量更新:
Figure GDA0003562225930000131
其中,αc代表神经网络学习率,
Figure GDA0003562225930000132
Figure GDA0003562225930000133
表示神经网络权值误差向量。基于上式对评判神经网络的权值向量的更新,求得事件触发近似最优轨迹跟踪控制律,以保证输入受限机械臂***很好的完成轨迹跟踪任务。
图2为本发明输入受限机械臂的合作博弈最优跟踪控制***结构图。如图所示,本发明提供了一种输入受限机械臂的合作博弈最优跟踪控制***,包括:关节状态空间构建模块1、***状态空间构建模块2、哈密顿函数模块3、控制律模块4和判断模块5。
所述关节状态空间构建模块1基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述。
所述***状态空间构建模块2基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程。
所述哈密顿函数模块3基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
所述控制律模块4基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律。
所述判断模块5对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
作为一种可选的实施方式,本发明所述关节状态空间构建模块1包括:模型构建单元、关节状态空间构建单元、待确定项更新单元和关节状态空间更新单元。
所述模型构建单元基于关节力矩反馈技术构建输入受限机械臂***各个关节的动力学模型。
所述关节状态空间构建单元基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述。
所述待确定项更新单元基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新。
所述关节状态空间更新单元基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
作为一种可选的实施方式,本发明所述哈密顿函数模块3包括:误差函数单元、性能指标函数单元和哈密顿函数单元。
所述误差函数单元基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数。
所述性能指标函数单元基于所述误差融合函数构建输入受限机械臂***的性能指标函数。
所述哈密顿函数单元基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
作为一种可选的实施方式,本发明所述控制律模块4包括:稳定性单元和控制律单元。
所述稳定性单元基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件。
所述控制律单元基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
作为一种可选的实施方式,本发明所述判断模块5包括:状态变量误差单元、事件触发性能函数单元、李雅普诺夫函数单元、触发阈值单元和判断单元。
所述状态变量误差单元获取输入受限机械臂***的状态变量误差。
所述事件触发性能函数单元基于评判神经网络构建事件触发性能指标函数。
所述李雅普诺夫函数单元基于所述事件触发性能指标函数构建李雅普诺夫函数。
所述触发阈值单元对所述李雅普诺夫函数进行求导,得到所述触发阈值。
所述判断单元对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述近似哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种输入受限机械臂的合作博弈最优跟踪控制方法,其特征在于,包括:
基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;
基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程;
基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;
基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;
所述误差融合函数公式为s(x)=x2-x2ds(x1-x1d),式中:s(x)是误差融合函数,x1d是输入受限机械臂***的期望位置,x2d是输入受限机械臂***的期望速度,αs是正定对角矩阵;
所述性能指标函数公式为
Figure FDA0004190110070000011
其中,J(s,u1,u2,…un)是性能指标函数,Q是对称正定矩阵,U(ui)是输入受限的正定非二次型函数;
所述哈密顿函数公式为
Figure FDA0004190110070000012
其中,H(s,u1,…un,▽J(s))是哈密顿函数,▽J(s)是性能指标函数的梯度,U(ui)是输入受限的正定非二次型函数,ui为第i个关节中电机的输出力矩,θ是误差融合函数的余项;
所述稳定性条件公式为
Figure FDA0004190110070000013
其中,H(s,u1,u2,…un,▽J*(s))是哈密顿函数,ui为第i个关节中电机的输出力矩;”以限定“稳定性条件;
对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
2.根据权利要求1所述的输入受限机械臂的合作博弈最优跟踪控制方法,其特征在于,所述基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述,包括:
基于关节力矩反馈技术构建输入受限机械臂***各个关节的动力学模型;
基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述;
基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新;
基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
3.根据权利要求1所述的输入受限机械臂的合作博弈最优跟踪控制方法,其特征在于,所述基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数,包括:
基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数;
基于所述误差融合函数构建输入受限机械臂***的性能指标函数;
基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
4.根据权利要求1所述的输入受限机械臂的合作博弈最优跟踪控制方法,其特征在于,所述基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律,包括:
基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件;
基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
5.根据权利要求1所述的输入受限机械臂的合作博弈最优跟踪控制方法,其特征在于,所述对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新,包括:
获取输入受限机械臂***的状态变量误差;
基于评判神经网络构建事件触发性能指标函数;
基于所述事件触发性能指标函数构建李雅普诺夫函数;
所述事件触发性能指标函数公式为J(sr)=Wc Tδc(sr)+εc(sr);式中:δc(sr)是评判神经网络的激活函数,εc(sr)是评判神经网络的近似残差;
对所述李雅普诺夫函数进行求导,得到所述触发阈值;
对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。
6.一种输入受限机械臂的合作博弈最优跟踪控制***,其特征在于,包括:
关节状态空间构建模块,基于输入受限机械臂***中各个关节的动力学模型构建各个关节的状态空间描述;
***状态空间构建模块,基于各个关节的状态空间构建输入受限机械臂***整体的状态空间方程;
哈密顿函数模块,基于误差融合函数构建输入受限机械臂***的性能指标函数;基于所述性能指标函数得到输入受限机械臂***的哈密顿函数;
控制律模块,基于所述性能指标函数、所述哈密顿函数和稳定性条件构建输入受限机械臂***的控制律;
所述误差融合函数公式为s(x)=x2-x2ds(x1-x1d),式中:s(x)是误差融合函数,x1d是输入受限机械臂***的期望位置,x2d是输入受限机械臂***的期望速度,αs是正定对角矩阵;
所述性能指标函数公式为
Figure FDA0004190110070000041
其中,J(s,u1,u2,…un)是性能指标函数,Q是对称正定矩阵,U(ui)是输入受限的正定非二次型函数;/>
所述哈密顿函数公式为
Figure FDA0004190110070000042
其中,H(s,u1,…un,▽J(s))是哈密顿函数,▽J(s)是性能指标函数的梯度,U(ui)是输入受限的正定非二次型函数,ui为第i个关节中电机的输出力矩,θ是误差融合函数的余项;
所述稳定性条件公式为
Figure FDA0004190110070000043
其中,H(s,u1,u2,…un,▽J*(s))是哈密顿函数,ui为第i个关节中电机的输出力矩;”以限定“稳定性条件;
判断模块,对输入受限机械臂***的状态变量误差进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新,当所述状态变量误差大于或等于所述触发阈值时,基于评判神经网络对所述控制律进行更新。
7.根据权利要求6所述的输入受限机械臂的合作博弈最优跟踪控制***,其特征在于,所述关节状态空间构建模块包括:
模型构建单元,基于关节力矩反馈技术构建输入受限机械臂***各个关节的动力学模型;
关节状态空间构建单元,基于定义的各个关节状态变量,结合各个关节的动力学模型,得到各个关节的初始状态空间描述;
待确定项更新单元,基于神经网络观测器的观测值对各个关节的初始状态空间描述中的待确定项进行更新;
关节状态空间更新单元,基于更新后的各待确定项,对各个关节的初始状态空间描述进行更新,得到各个关节的状态空间描述。
8.根据权利要求6所述的输入受限机械臂的合作博弈最优跟踪控制***,其特征在于,所述哈密顿函数模块包括:
误差函数单元,基于输入受限机械臂***的位置误差和速度误差构建所述误差融合函数;
性能指标函数单元,基于所述误差融合函数构建输入受限机械臂***的性能指标函数;
哈密顿函数单元,基于所述性能指标函数得到输入受限机械臂***的哈密顿函数。
9.根据权利要求6所述的输入受限机械臂的合作博弈最优跟踪控制***,其特征在于,所述控制律模块包括:
稳定性单元,基于最优控制原理和李雅普诺夫理论构建输入受限机械臂***的稳定性条件;
控制律单元,基于所述性能指标函数、所述哈密顿函数和所述稳定性条件,构建输入受限机械臂***的控制律。
10.根据权利要求6所述的输入受限机械臂的合作博弈最优跟踪控制***,其特征在于,所述判断模块包括:
状态变量误差单元,获取输入受限机械臂***的状态变量误差;
事件触发性能函数单元,基于评判神经网络构建事件触发性能指标函数;
所述事件触发性能指标函数公式为
Figure FDA0004190110070000061
式中:δc(sr)是评判神经网络的激活函数,εc(sr)是评判神经网络的近似残差;
李雅普诺夫函数单元,基于所述事件触发性能指标函数构建李雅普诺夫函数;
触发阈值单元,对所述李雅普诺夫函数进行求导,得到所述触发阈值;
判断单元,对所述状态变量误差和所述触发阈值进行判断,当所述状态变量误差小于触发阈值时,不对所述控制律进行更新;当所述状态变量误差大于或等于触发阈值时,基于梯度下降法对所述评判神经网络的权值向量进行更新,并将所述权值向量赋值给所述哈密顿函数,得到近似哈密顿函数,基于所述稳定性条件和所述近似哈密顿函数对所述控制律进行更新。
CN202111653984.XA 2021-12-30 2021-12-30 一种输入受限机械臂的合作博弈最优跟踪控制方法及*** Active CN114406996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111653984.XA CN114406996B (zh) 2021-12-30 2021-12-30 一种输入受限机械臂的合作博弈最优跟踪控制方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111653984.XA CN114406996B (zh) 2021-12-30 2021-12-30 一种输入受限机械臂的合作博弈最优跟踪控制方法及***

Publications (2)

Publication Number Publication Date
CN114406996A CN114406996A (zh) 2022-04-29
CN114406996B true CN114406996B (zh) 2023-05-26

Family

ID=81269444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111653984.XA Active CN114406996B (zh) 2021-12-30 2021-12-30 一种输入受限机械臂的合作博弈最优跟踪控制方法及***

Country Status (1)

Country Link
CN (1) CN114406996B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1624393A1 (en) * 2004-08-06 2006-02-08 Vrije Universiteit Brussel System and method for simulating motion of a multibody system
KR101326957B1 (ko) * 2012-05-15 2013-11-13 현대자동차주식회사 보행 로봇의 발목제어 방법
KR102094004B1 (ko) * 2018-07-13 2020-03-26 동의대학교 산학협력단 탁구 로봇 제어 방법 및 이를 위한 시스템
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人***的非零和博弈神经-最优控制方法
CN113103237B (zh) * 2021-04-25 2022-10-04 长春工业大学 一种面向未知环境约束的可重构机械臂控制方法及***
CN113146640B (zh) * 2021-04-27 2023-06-13 长春工业大学 一种考虑执行器故障的机械臂分散最优容错控制方法
CN113276114B (zh) * 2021-05-20 2022-09-16 北京师范大学 一种基于终端任务指派的可重构机械臂协同力/运动控制***与方法
CN113211446B (zh) * 2021-05-20 2023-12-08 长春工业大学 一种事件触发-神经动态规划的机械臂分散跟踪控制方法
CN113733117B (zh) * 2021-09-09 2023-09-08 长春工业大学 一种可重构机器人人类意图辨识控制方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544261A (zh) * 2017-10-26 2018-01-05 长春工业大学 不确定环境接触下的可重构机器人分散学习最优控制方法

Also Published As

Publication number Publication date
CN114406996A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Mohajerin et al. Multistep prediction of dynamic systems with recurrent neural networks
Abdollahi et al. A stable neural network-based observer with application to flexible-joint manipulators
Yoo et al. Adaptive dynamic surface control of flexible-joint robots using self-recurrent wavelet neural networks
CN109581868B (zh) 基于评判辨识结构的可重构机器人分散神经最优控制方法
CN110806759A (zh) 一种基于深度强化学习的飞行器航线跟踪方法
Zheng et al. Robust control of a silicone soft robot using neural networks
CN109033585B (zh) 不确定网络控制***的pid控制器设计方法
Qi et al. Stable indirect adaptive control based on discrete-time T–S fuzzy model
Lewis et al. Neural networks in feedback control systems
Kamalasadan et al. A neural network parallel adaptive controller for dynamic system control
Mohammed et al. Trajectory tracking control and robustness analysis of a robotic manipulator using advanced control techniques
CN114406996B (zh) 一种输入受限机械臂的合作博弈最优跟踪控制方法及***
Quintal et al. Real-time FPGA decentralized inverse optimal neural control for a Shrimp robot
Johnson et al. Adaptive model-based neural network control
CN115890650A (zh) 一种可重构机械臂事件触发分散最优容错控制方法及***
Fei et al. Adaptive global fast terminal sliding mode control of MEMS gyroscope using fuzzy-neural-network
El-Fakdi et al. Autonomous underwater vehicle control using reinforcement learning policy search methods
Jung et al. On reference trajectory modification approach for Cartesian space neural network control of robot manipulators
Gotov et al. Quadcopter stabilization using neural network model from collected data of pid controller
Heyu et al. Impedance control method with reinforcement learning for dual-arm robot installing slabstone
Hendzel et al. Neural network identifier of a four-wheeled mobile robot subject to wheel slip
Zeinali et al. Fuzzy logic-based inverse dynamic modelling of robot manipulators
Ren et al. Discrete-time parallel robot motion control using adaptive neuro-fuzzy inference system based on improved subtractive clustering
Bat-Erdene et al. Quadcopter Stabilization using Neural Network model from collected data of PID controller
Zhou et al. Identification Modeling Based on RBFNN for an Aerial Inertially Stabilized Platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant