CN113290554B - 一种基于值迭代的Baxter机械臂智能优化控制方法 - Google Patents

一种基于值迭代的Baxter机械臂智能优化控制方法 Download PDF

Info

Publication number
CN113290554B
CN113290554B CN202110464400.8A CN202110464400A CN113290554B CN 113290554 B CN113290554 B CN 113290554B CN 202110464400 A CN202110464400 A CN 202110464400A CN 113290554 B CN113290554 B CN 113290554B
Authority
CN
China
Prior art keywords
strategy
vector
optimal
mechanical arm
baxter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110464400.8A
Other languages
English (en)
Other versions
CN113290554A (zh
Inventor
王波
朱俊威
董子源
张恒
夏振浩
周巧倩
张钧涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202110464400.8A priority Critical patent/CN113290554B/zh
Publication of CN113290554A publication Critical patent/CN113290554A/zh
Application granted granted Critical
Publication of CN113290554B publication Critical patent/CN113290554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于值迭代的Baxter机械臂智能优化控制方法,先初始化Baxter机械臂***,选择基函数;对***状态及输入进行采样,由当前时刻状态计算下一时刻状态,在线计算最优值函数;在得到最优值函数后,利用贪心算法更新策略,策略收敛时达到最优,不再更新,从而实现对***的最优控制。本发明通过值迭代的自适应控制,求解最优控制策略来实现对***进行智能优化控制,在***部分模型参数未知的情况下,不需要对***进行辨识,而是基于值迭代的自适应控制方法,在线对***实现最优控制,同时在机器人平台进行算法调试,在实际层面实现效果。

Description

一种基于值迭代的Baxter机械臂智能优化控制方法
技术领域
本发明属于控制技术领域,具体提供一种基于值迭代的Baxter机械臂智能优化控制方法,实现***模型未知情况下的Baxter机械臂***的最优控制。
背景技术
多轴机械臂因其独特的设计结构,能够在多个领域得到广泛的推广使用,采用工业机械臂代替人力所要完成的任务,可以提升工业生产、加工的自动化水平,因此机械臂技术的突破及产业的拓展意义重大。
控制***传统的开发流程一般以数学仿真为主,数学仿真对于Baxter机械臂这一类非线性强耦合度的被控对象实现起来较为困难,并且此类仿真的结果置信度较低,往往难以达到预期效果。同时,目前对于多轴机械臂的控制研究,多采用传统的基于模型的控制方法,未能利用数据驱动思想在线实现对***的控制,需要完全已知***模型。而Baxter机械臂由于模型参数未知,可使用的传统的基于模型的控制方法更加有限,通过***辨识对Baxter机械臂进行建模,工作量巨大且需要耗费大量时间和精力,同时可能存在模型不匹配、未建模动态等问题。
发明内容
为了克服现有方法存在不足,本发明提供一种基于值迭代的Baxter机械臂智能优化控制方法,该方法提出一种基于自适应值迭代算法,将ADP和智能优化控制***理论的概念结合起来,提出了一种在线ADP技术,它能以时间向前的方式解决具有未知动力学参数的***的连续时间无限时域最优控制问题;据测量控制器性能的信号序列更新控制器参数,通过更新控制策略和值函数估计的迭代过程,使它们接近最优控制策略和相应的最优值函数;每个迭代步骤包括基于当前控制策略的值函数更新,以及基于新的值函数估计值更新控制策略。
本发明解决其技术问题所采用的技术方案是:
一种基于值迭代的Baxter机械臂智能优化控制方法,考虑Baxter机械臂***动力学方程如下:
Figure BDA0003043114290000011
其中q,
Figure BDA0003043114290000012
分别表示机械臂位置,角速度,角加速度向量,Mj(q)表示机械臂惯性矩阵,Cj
Figure BDA0003043114290000013
表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量,τ表示机械臂控制力矩向量,τd表示外部环境的未知扰动力矩向量;
***状态向量由下式表示:
Figure BDA0003043114290000021
Baxter机械臂的状态空间方程给出如下:
Figure BDA0003043114290000022
其中,u=τ为***力矩输入,
Figure BDA0003043114290000023
为状态向量,y为输出,矩阵Ac,Bc,hc定义如下:
Figure BDA0003043114290000024
其中,On为(n×n)的零矩阵,In为(n×n)的单位矩阵;
Figure BDA0003043114290000025
其中,0n为(n×1)的零矩阵,n(x1,x2)收集科式力矩、重力矩相关信息;
对于Q-learning值迭代最优控制问题:
Figure BDA0003043114290000026
有限域最优控制问题为:
Figure BDA0003043114290000027
选取Q=1,R=1,(A,B)能控,控制器的求解由贝尔曼最优原理确认,由u=-Kx,其中K=R-1BTH,且H满足代数黎卡提方程:
ATH+HA-HBR-1BTH+Q=0 (8)
所述智能优化控制方法包括以下步骤:
步骤1)对***进行初始化处理,步骤如下:
1.1)选取基函数:对连续时间LQR,其值函数在状态下是二次的,
Figure BDA0003043114290000028
因此,选择(9)式中的actor神经网络的基函数
Figure BDA0003043114290000029
Figure BDA0003043114290000031
作为状态分量的二次多项式向量,该向量状态个数为n,则该基函数含有n(n+1)/2个分量,同时,权重向量W由矩阵H中的元素组成;
Figure BDA0003043114290000032
1.2)初始化***:选择初始状态x0,计算基函数初始值,确定初始策略K0
步骤2)对***进行采样,并进行最小二乘法的计算,求得最优值函数,即策略评估过程;为了得到在策略Ki下每一步的Q函数,使用参数矩阵Hi计算,记
Figure BDA0003043114290000033
上述公式变为:
Figure BDA0003043114290000034
其中
Figure BDA0003043114290000035
为Kronecker内积二次多项式基向量,元素为{zi(t)zj(t)}i=1,n;j=i,n
Figure BDA0003043114290000036
为向量值矩阵函数,作用于n×n矩阵,通过将对称矩阵的元素叠加成一个向量,非对角元素求和为Hij+Hji,从而得到列向量;
在每个迭代步骤中,在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后,用最小二乘法求解Q函数参数
Figure BDA0003043114290000037
从而得到Hi+1,在最小平方意义下,通过最小化目标函数之间的误差来找到参数向量H的最小值,在状态空间中N>N(N+1)个点Zi求值,得到最小二乘解为:
Figure BDA0003043114290000038
其中,
Figure BDA0003043114290000039
Figure BDA00030431142900000310
测量时间t和t+T离散时刻的状态,以及在采样时间间隔内观察到的奖励:
Figure BDA00030431142900000311
Hi+1=f(hi+1) (15)
步骤3)根据得到的最优值函数,通过贪心算法更新最优参数:
Figure BDA00030431142900000312
当最小二乘法收敛时,策略不再更新,得到最优策略,连续时间ADP算法由(14)和(6)之间的迭代组成,然而,使用(15)更新控制策略不需要包含动力学知识的***矩阵,这使得算法在无模型的情况下实现。
本发明的工作原理如下:初始化***,确定***能控;对***进行采样,使用最小二乘法在线计算值函数进行策略评估,当取得最优值函数时使用贪心算法更新策略,最终得到最优策略。
所用机器人平台为Baxter机器人,Baxter机器人是美国Rethink robotics公司研发的一款双臂机器人,其单机械臂是一种具有七自由度的冗余柔性关节机械臂。通过移动底座支撑机器人本体,机器人手臂采用旋转关节连接刚性连杆,关节处采用弹性制动器连接,即通过电机、减速器串联弹簧带动负载,在人机协作或外部冲击下起到保护人或机器人本体的作用。柔性关节还可通过霍尔效应检测角度偏差。在Baxter关节处都具有力矩传感器。手臂前后端通过26W和63W伺服电机驱动,通过14bit编码器实现关节角度的读取。Baxter机器人为基于ROS(Robot operating system)操作***的开源机器人,通过Linux平台运行,用户可通过网络与机器人内部计算机互联读取信息或发送指令,或通SSH(Secureshell)远程控制在内部计算机运行相关程序。利用Baxter相关的SDK(Softwaredevelopment kit),通过ROS的API(Application programming interface)可以实现对Baxter机器人的信息读取与实时控制。Baxter中的SDK可以提供相关函数接口与重要工具:如Gazebo仿真器及Moveit移动软件包等。
本发明的有益效果为:通过值迭代的自适应控制,求解最优控制策略来实现对***进行智能优化控制,在***部分模型参数未知的情况下,不需要对***进行辨识,而是基于值迭代的自适应控制方法,在线对***实现最优控制,同时在机器人平台进行算法调试,在实际层面实现效果。
附图说明
图1是一种基于值迭代的Baxter机械臂智能优化控制方法的流程图;
图2是基于值迭代自适应控制的***位置和角度变化图;
图3是基于值迭代和任意给定策略控制下的性能指标对比图;
图4是基于策略迭代下的***输入变化图。
具体实施方式
为了让本方案的技术特点、目的和优点更加清晰、明朗,下面结合附图和实际实验对本发明的技术方案作进一步描述。
参照图1~图4,一种基于值迭代的Baxter机械臂智能优化控制方法,先初始化Baxter机械臂***,选择基函数;对***状态及输入进行采样,由当前时刻状态计算下一时刻状态,在线计算最优值函数;在得到最优值函数后,利用贪心算法更新策略,策略收敛时达到最优,不再更新,从而实现对***的最优控制。
本发明为一种基于值迭代的Baxter机械臂智能最优控制方法,包括以下步骤:
1)初始化***,选择基函数;
2)对***进行采样,收集输入输出数据;使用最小二乘法计算值函数最优值,进行策略评估;
3)使用贪心算法更新策略。
进一步,所述步骤1)中,考虑三关节Baxter机械臂***如下:
Figure BDA0003043114290000051
其中
Figure BDA0003043114290000052
Bcc未知,
Figure BDA0003043114290000053
取Q=1,R=1。
实验基于值迭代的自适应控制算法,通过获取采集机械臂位置和角速度,控制算法中策略的评估与更新中不涉及包含动力学知识的矩阵的使用,q1指机械臂一关节位置,
Figure BDA0003043114290000054
指机械臂一关节角速度。对***进行初始化,取初始状态x0=[1 1 1 1 1 1]T,选择基函数
Figure BDA0003043114290000055
再进一步,所述步骤2)中,任意给定某个策略,对***进行策略评估和策略提升:
2.1)策略评估:在给定初始策略K0=O3×6的情况下,取采样时间T=0.004s,在有限区间[t,t+T]上对***进行采样,利用当前时刻机械臂的位置和角速度x(t),更新下一时刻位置和角速度x(t+T),使用最小二乘法进行值函数计算,机械臂位置和角速度变化、价值函数变化如图2、图3所示;2.2)策略提升:经过策略评估后,得到最优值函数,利用贪心算法进行策略更新,当策略不随时间而变化时,得到最优策略。
从实验结果图3来看,策略更新60次后策略收敛不再更新,机械臂关节速度最终收敛接近于0,其控制效果可以达到预期要求。
在与已知动力学模型,任意给定策略
Figure BDA0003043114290000056
的情况下的对比中,图3说明本方法***状态收敛平缓快速,且过程中未出现过大超调量,可以实现预期控制效果在图4中的性能指标对比中可以发现,本方法可以更好更快地取得最佳性能指标。
本发明提供了一种基于值迭代的多轴机械臂智能优化控制方法,使用值迭代的自适应控制方法,经过策略评估和策略提升两个步骤实现在线解决***最优控制问题,与现有技术相比,本发明的实用性在于:不需要***模型参数进行辨识,可以通过采集***轨迹数据获取***信息,从而获得最优控制策略;通过Baxter机器人平台调试,实现本方法在实际平台的良好控制。
以上结合附图详细阐述了本发明的技术方案但并不局限于此,在本领域的技术人员所具备的知识范围内,只要以本发明的构思为基础,还可以做出多种变化和改进。

Claims (1)

1.一种基于值迭代的Baxter机械臂智能优化控制方法,其特征在于,所述方法考虑Baxter机械臂***动力学方程如下:
Figure FDA0003565185620000011
其中q,
Figure FDA0003565185620000012
分别表示机械臂位置,角速度,角加速度向量,Mj(q)表示机械臂惯性矩阵,
Figure FDA0003565185620000013
表示机械臂科氏力矩向量,Gj(q)表示机械臂重力矩向量,τ表示机械臂控制力矩向量,τd表示外部环境的未知扰动力矩向量;
***状态向量由下式表示:
Figure FDA0003565185620000014
Baxter机械臂的状态空间方程给出如下:
Figure FDA0003565185620000015
其中,u=τ为***力矩输入,
Figure FDA0003565185620000016
为状态向量,y为输出,矩阵Ac,Bc,hc定义如下:
Figure FDA0003565185620000017
其中,On为(n×n)的零矩阵,In为(n×n)的单位矩阵;
Figure FDA0003565185620000018
其中,0n为(n×1)的零矩阵,n(x1,x2)收集科式力矩、重力矩相关信息;
对于Q-learning值迭代最优控制问题:
Figure FDA0003565185620000019
有限域最优控制问题为:
Figure FDA00035651856200000110
选取Q=1,R=1,(A,B)能控,控制器的求解由贝尔曼最优原理确认,由u=-Kx,其中K=R-1BTH,且H满足代数黎卡提方程:
ATH+HA-HBR-1BTH+Q=0 (8);
所述智能优化控制方法包括以下步骤:
步骤1)对***进行初始化处理,步骤如下:
1.1)选取基函数:对连续时间LQR,其值函数在状态下是二次的,
Figure FDA0003565185620000021
因此,选择(9)式中的actor神经网络的基函数
Figure FDA0003565185620000022
Rn→RL作为状态分量的二次多项式向量,该向量状态个数为n,则该基函数含有n(n+1)/2个分量,同时,权重向量W由矩阵H中的元素组成;
Figure FDA0003565185620000023
1.2)初始化***:选择初始状态x0,计算基函数初始值,确定初始策略K0
步骤2)对***进行采样,并进行最小二乘法的计算,求得最优值函数,即策略评估过程;为了得到在策略Ki下每一步的Q函数,使用参数矩阵Hi计算,记z=[xT uT]T,上述公式变为:
Figure FDA0003565185620000024
其中
Figure FDA0003565185620000025
为Kronecker内积二次多项式基向量,元素为{zi(t)zj(t)}i=1,n;j=i,n
在每个迭代步骤中,在使用相同的控制策略Ki收集足够数量的位置和角速度轨迹点后,用最小二乘法求解Q函数参数
Figure FDA0003565185620000026
从而得到Hi+1,在最小平方意义下,通过最小化目标函数之间的误差来找到参数向量H的最小值,在状态空间中N个点Zi求值,得到最小二乘解为:
Figure FDA0003565185620000027
其中,
Figure FDA0003565185620000028
Figure FDA0003565185620000029
测量时间t和t+T离散时刻的状态,以及在采样时间间隔内观察到的奖励:
Figure FDA00035651856200000210
Hi+1=f(hi+1) (15)
步骤3)根据得到的最优值函数,通过贪心算法更新最优参数:
Figure FDA00035651856200000211
当最小二乘法收敛时,策略不再更新,得到最优策略,连续时间ADP算法由(14)和(6)之间的迭代组成,然而,使用(15)更新控制策略不需要包含动力学知识的***矩阵,这使得算法在无模型的情况下实现。
CN202110464400.8A 2021-04-28 2021-04-28 一种基于值迭代的Baxter机械臂智能优化控制方法 Active CN113290554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110464400.8A CN113290554B (zh) 2021-04-28 2021-04-28 一种基于值迭代的Baxter机械臂智能优化控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110464400.8A CN113290554B (zh) 2021-04-28 2021-04-28 一种基于值迭代的Baxter机械臂智能优化控制方法

Publications (2)

Publication Number Publication Date
CN113290554A CN113290554A (zh) 2021-08-24
CN113290554B true CN113290554B (zh) 2022-06-17

Family

ID=77320428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110464400.8A Active CN113290554B (zh) 2021-04-28 2021-04-28 一种基于值迭代的Baxter机械臂智能优化控制方法

Country Status (1)

Country Link
CN (1) CN113290554B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415435B (zh) * 2018-04-04 2021-08-31 上海华测导航技术股份有限公司 一种农业机械圆曲线自动驾驶控制方法
CN108406773A (zh) * 2018-04-27 2018-08-17 佛山科学技术学院 一种耗能最少的2r欠驱动平面机械臂控制方法
CN109919359B (zh) * 2019-02-01 2024-06-04 武汉天之然知识产权运营有限公司 一种基于adp算法的车辆路径规划方法
CN111722531B (zh) * 2020-05-12 2022-02-22 天津大学 一种切换线性***在线无模型最优控制方法
CN112084645B (zh) * 2020-09-02 2023-06-09 沈阳工程学院 一种基于混合迭代adp方法的锂离子电池储能***能量管理方法

Also Published As

Publication number Publication date
CN113290554A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN110275436B (zh) 一种多单臂机械手的rbf神经网络自适应控制方法
CN110238839B (zh) 一种利用环境预测优化非模型机器人多轴孔装配控制方法
CN108621158B (zh) 一种关于机械臂的时间最优轨迹规划控制方法及装置
CN113103237B (zh) 一种面向未知环境约束的可重构机械臂控制方法及***
WO2009027673A1 (en) Inverse kinematics
CN111702767A (zh) 一种基于反演模糊自适应的机械手阻抗控制方法
CN116460860B (zh) 一种基于模型的机器人离线强化学习控制方法
KR20220155921A (ko) 로봇 디바이스를 제어하기 위한 방법
CN115157238A (zh) 一种多自由度机器人动力学建模和轨迹跟踪方法
CN110941183A (zh) 一种基于神经网络的工业机器人动力学辨识方法
CN115890735B (zh) 机械臂***、机械臂及其控制方法、控制器和存储介质
Mazare et al. Adaptive variable impedance control for a modular soft robot manipulator in configuration space
CN113954077B (zh) 带有能量优化的水下游动机械臂轨迹跟踪控制方法及装置
Shang et al. Vibration suppression method for flexible link underwater manipulator considering torsional flexibility based on adaptive PI controller with nonlinear disturbance observer
Zhu et al. A new reinforcement learning fault-tolerant tracking control method with application to baxter robot
CN113290554B (zh) 一种基于值迭代的Baxter机械臂智能优化控制方法
Tan et al. Controlling robot manipulators using gradient-based recursive neural networks
Al-Shuka et al. Adaptive hybrid regressor and approximation control of robotic manipulators in constrained space
CN113352320B (zh) 一种基于Q学习的Baxter机械臂智能优化控制方法
Nawrocka et al. Neural network control for robot manipulator
Khoukhi Data-driven multi-stage motion planning of parallel kinematic machines
Van Khang et al. On the sliding mode control of redundant parallel robots using neural networks
CN111775142A (zh) 一种液压机械臂的模型辨识与自适应控制方法
CN113325711B (zh) 一种用于柔性机械臂预定精度定位的智能控制方法
Mokri et al. Real time implementation of NARMA L2 feedback linearization and smoothed NARMA L2 controls of a single link manipulator

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant