CN115890744A - 一种基于td3的机械手臂6-dof物体操纵训练方法及*** - Google Patents

一种基于td3的机械手臂6-dof物体操纵训练方法及*** Download PDF

Info

Publication number
CN115890744A
CN115890744A CN202211612997.7A CN202211612997A CN115890744A CN 115890744 A CN115890744 A CN 115890744A CN 202211612997 A CN202211612997 A CN 202211612997A CN 115890744 A CN115890744 A CN 115890744A
Authority
CN
China
Prior art keywords
robot
state
strategy
pose
mechanical arm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211612997.7A
Other languages
English (en)
Inventor
周勇
贺辉腾
李卫东
胡楷雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202211612997.7A priority Critical patent/CN115890744A/zh
Publication of CN115890744A publication Critical patent/CN115890744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Manipulator (AREA)

Abstract

本发明涉及基于TD3的机械手臂6‑DOF物体操纵训练方法及***,包括:建立机器人抓取的马尔可夫决策过程模型,确定抓取过程的状态、动作和回报;通过获取场景中的深度信息和力反馈;基于设计的模仿学习算法在仿真环境中收集数据,并进行基于TD3算法的深度强化学习策略和价值网络的预训练;预训练好的深度强化学习策略网络根据获取的环境状态参数输出机器人运动策略,机械臂根据运动策略执行抓取动作,并在交互中不断更新策略,从而以更合适的位姿和轨迹进行不同形状目标物体的抓取。本发明能有效地避免单视角下机械臂和其他部件对物体的遮挡带来的环境信息缺失问题,能对不同大小形状和摆放姿态下的物体选取合适的抓取姿态。

Description

一种基于TD3的机械手臂6-DOF物体操纵训练方法及***
技术领域
本发明涉及一种协作机械手臂的物体操纵的模型训练***,尤其是一种针对复杂环境下机械手臂六自由度操纵以及路径生成模型的训练***。
背景技术
工业4.0”的提出以后,现代制造业逐渐从大规模生产转向大规模定制,增加产品个性化,缩短产品生命周期。其中协作机器人因为其轻型、体积小其安全的特点,开始大规模应用于装配、拆解、轻量化加工(3C、汽车、包装等)、检测等任务,这些任务对机械手臂的灵活性和智能化程度提出了更高的要求,而机械手臂灵活地操纵物体是实现机器人智能化不可或缺的一环。
自主抓取要求机械手臂能够根据所处地环境自主选择抓取策略,为了实现这一目标,机械手臂需要与环境进行交互,根据交互中传感器采集到的信息进行决策并操纵物体,是一个涉及感知、规划和控制的挑战性问题。过去机械手臂物体应用大多数采用机器视觉的技术,在物体形状、大小相对固定、无明显遮挡的以及夹持器保持垂直工作平面的姿态进行物体操纵,且通常是对单视角下的图像信息提取特征来检测目标物***置。
过去机械手臂操纵应用大多数集中精力于工业零件的搬运和分拣等,当操纵相对于形状更加复杂的物体,传统的机械手臂操纵方法显然无法满足要求,而神经网络模型学习的方法需要在实际环境中大量采集数据,成本很高。当面临复杂的操纵任务时,自上而下的操纵方式一定程度上限制了操纵的多样性,当碰到物体上方有遮挡物或者任务施加额外约束的情况,操纵对象几乎是不可能。
传统的工业零件操纵通常采用利用手工设计的特征进行目标物体检测,这种几何驱动的方法面对物体形状较为复杂的家用物体效果不好。但是基于深度学习还是机器学习的策略,都需要人为地提供大量的数据或样本,扩展到新对象时既困难又耗时,灵活性有所欠缺。
发明内容
本发明的目的在于针对现有方法的不足,提出一种基于TD3的机械手臂6-DOF物体操纵训练方法及***。
为解决上述技术问题,本发明采用如下技术方案:
基于TD3的机械手臂6-DOF物体操纵训练方法包括以下步骤:
步骤S1,建立机械手臂操纵任务的马尔可夫决策过程模型,确定操纵过程中的环境状态、动作以及回报;
步骤S2,机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;
步骤S3,操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;
步骤S4,路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;
步骤S5,训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。
进一步地,步骤S1中利用马尔可夫决策过程对抓取过程进行建模,其步骤如下:
步骤1.1,利用目标抓取过程满足马尔可夫性,用下式来表示马尔可夫决策过程:
M=(S,A,P,R,γ)
式中,s代表环境中所有可能状态的集合,在此抓取模型中状态为相机采集三维点云和机器人末端姿态的融合数据;A表示智能体所有可能执行的动作集合,在此抓取模型中行为为执行器末端六个自由度的位姿X;P为状态转移概率,即状态s下采取行为A后到达状态s′的概率;在此抓取模型中用采取动作A后观测到的环境状态参数来表示s′;R为奖励,采用稀疏的奖励函数,状态s下执行抓取动作A后,如果抓取成功,则根据抓取姿态和稳定性给予一个奖励,如未完成抓取则奖励为0,γ为折扣因子,γ∈[0,1];
步骤1.2,机器人和环境会在一系列离散的时间步(t=0,1,2,3,...)中进行交互,用一条轨迹表示:
τ=(S0,A0,R0,s1,A1,R1,S2,A2,R2,…St,At,Rt)
式中,St,At,Rt分别代表t时刻下马尔可夫决策过程中的状态、动作和奖励;
步骤1.3,抓取强化学习的任务是找到一个控制策略μ;S→A,最大化期望抓取回报Gt
Figure BDA0004000838030000031
利用动作值函数Qμ(st,at)来描述策略μ下抓取的预期回报:
Figure BDA0004000838030000032
式中,Qμ(st,at)代表策略μ下的动作值函数,Eμ[Gt|St=st,At=at]表示状态st下当采取动作at时,在策略μ下预期回报Gt的数学期望;
步骤1.4,为了找寻最优策略μ*,需要找到最优动作值函数Q*(st,at),然后对最优动作值函数求解获取最优策略μ*,用贝尔曼方程处理:
Figure BDA0004000838030000033
式中,st+1~P表示t+1时刻的观测量是从环境中观测到的,μ(st+1)表示t+1时刻策略μ下状态st+1映射的动作at+1;r(st,at)为状态状态st下当采取动作at时的奖励,E(*)表示策略μ下预期回报Gt的数学期望。
进一步地,所述环境中所有可能状态的集合s包括环境状态点云C、机器人末端位姿X和关节角
Figure BDA0004000838030000034
以及夹持器的反馈信息d,其中n表示机器人第n个关节,θi表示机器人第i个关节的角度。
进一步地,所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S,其步骤如下:
步骤2.1,根据相机厂家提供的相机内参数,获取相机Ci的焦距(fx,fy)和光心(Cx,Cy),通过通过张正友标定法对相机Ci和机器人基坐标系进行标定,获取其相对于机器人基坐标系的外参矩阵P,相机Ci采集的一帧深度图像
Figure BDA0004000838030000041
中任意一像素点(u,v,1)T和该点相对于机器人基坐标系的位置(xc,yc,Zc)T,二者之间存在映射关系:
Figure BDA0004000838030000042
式中,
Figure BDA0004000838030000043
为外参矩阵P,,通过上式可求得工作场景中N个相机Ci,i∈N采集的一帧图像
Figure BDA0004000838030000044
对应的三维点云数据
Figure BDA0004000838030000045
步骤2.2,将不同深度相机获取的三维点云数据
Figure BDA0004000838030000046
进行拼接,完成场景的稠密建图,并通过体素网络下采样算法进行滤波,高斯滤波进行降噪处理,从而获取环境状态点云C;
步骤2.3,获取机器人末端位姿X和关节角
Figure BDA0004000838030000047
以及夹持器的反馈信息d,与环境点云C融合作为环境状态S。
进一步地,步骤S3中所述的策略和价值网络其结构是基于PointNet架构的,其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成,首先通过一个仿射变换模块对输入状态点云C进行旋转,随后由多层感知机点提取特征,再经过一个仿射变换模块提取特征并进行最大池化操作,得到的向量和机械手臂当前位姿、夹持器状态信息拼接,通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。
进一步地,步骤S4中操纵路点生成具体为:
首先人示教n条抓取轨迹
Figure BDA0004000838030000048
每个数据点包含时间步t、机器人夹持器的瞬时三维笛卡尔位置和姿态ξ=[t T]T,以及待抓取物体参考系
Figure BDA0004000838030000051
并训练高斯混合模型μ0,得到物体当前物体参考系P下时间步t到机器人末端的位姿X的映射关系μ0:t→XT,并根据操纵位姿X和路点参数ω对应的参考系P进行操纵路径生成,其中Ap,bp为抓取物体参考系相对于机器人基坐标系的旋转矩阵3x3和平移矩阵3x1,
Figure BDA0004000838030000052
表示p个物体参考系的集合。
进一步地,步骤S5所述的基于TD3算法的深度强化学习抓取策略,其具体为:用一个策略网络μ(·|θμ)来拟合抓取策略μ:S→A,和两个价值网络
Figure BDA0004000838030000053
Figure BDA0004000838030000054
来拟合动作值函数Qμ(st,at),并且这些网络还具备目标网络μ′(·|θμ′)、
Figure BDA0004000838030000055
来解决自举问题,其中μ(·|θμ)代表网络参数为θu的策略网络。
进一步地,其学***台并利用权利要求1所述训练过程进行抓取模型训练。实际操纵阶段,由于模拟环境与现实环境存在一定地差异性,需要利用域迁移模块利用Gan网络将模拟阶段学习地模型迁移到现实环境中。
本发明还提供一种基于TD3的机械手臂6-DOF物体操纵训练***,包括一台协作机械手臂和固定于其末端法兰盘的六轴力传感器)以及末端电动夹爪,工作台两侧搭载了能采集三维信息的第一相机和第二相机以及中间的工业CCD相机,操纵任务中协作机械手臂根据六轴力传感器和机器人控制箱反馈信息获取的信息从起点区域中操纵物体并搬运至终点区域(8);还包括数据采集与预处理模块、操纵位姿评估模块、路径优化模块和训练模块。
进一步地,所述机械手臂数据采集与预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;
所述操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;
所述路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;
所述训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。与现有技术相比,本申请具有如下有益效果:
1)该方法采用了多种类型的信息作为操纵过程中的状态,并且同时考虑了位姿和移动路点对物体操纵成功率的影响,有效提升了操纵质量。
2)相对于传统的数据驱动的物体操纵算法(模仿学习、深度学习等),采用基于TD3和PointNet架构的强化学习算法,通过调整其奖励函数就可以学习到不同的操纵模式,而且是自监督的算法,不需要人为收集带标签的数据。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为硬件组成示意图;
图2为整体结构图;
图3为整体流程示意图;
图4为算法马尔可夫决策过程模型图;
图5为数据采集和预处理模块流程图;
图6为操纵评估模块结构示意图;
图7为基于任务参数化高斯混合模型路径优化模块结构图;
图8为基于TD3的机械手臂6-DOF物体操纵训练***的训练模块结构图。
具体实施方式
以下结合附图和实施例详细说明本发明的技术方案。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合附图,对本发明进行详细说明,基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:一种基于TD3的机械手臂物体操纵模拟训练方法,如图1所示,采用的机械手臂模拟实验平台的硬件组成包括一台协作机械手臂1和固定于其末端法兰盘的六轴力传感器2以及末端电动夹爪3,工作台两侧搭载了能采集三维信息的相机4和5和中间的工业CCD相机6。操纵任务中协作机械手臂1根据六轴力传感器2和机器人控制箱反馈信息获取的信息从区域7中操纵物体并搬运至区域8。
基于TD3的机械手臂6-DOF物体操纵训练***,其整体***如图2所示,由数据采集和预处理模块、操纵位姿评估模块、路径优化模块和训练模块组成。
如图3所示,基于TD3的机械手臂6-DOF物体操纵训练***包括如下步骤:
步骤S1,建立机械手臂操纵任务的马尔可夫决策过程模型,确定操纵过程中的环境状态、动作以及回报。
步骤S2,机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S。
步骤S3,操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报。
步骤S4,路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成。
步骤S5,训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。
在本实施例中,步骤S1中利用马尔可夫决策过程对操纵过程进行建模,其整体架构如图4所示,且其步骤如下:
步骤S11,利用目标操纵过程满足马尔可夫性,用一个式(1)来表示马尔可夫决策过程:
M=(S,A,P,R,γ)    (1)
式(1)中,S代表环境中所有可能状态的集合,在此操纵模型中状态包括点云C、机械手臂末端方向x和关节角
Figure BDA0004000838030000081
以及夹持器的反馈信息d,其中夹持器反馈的信息为夹爪是否闭合,如果在抓取动作执行时,夹爪未完全闭合则说明抓取成功,完全闭合则代表抓取失败;
A表示智能体所有可能执行的动作集合,在此操纵模型中行为为执行器的估计操纵位姿x和路点参数ω(在本实施例中路点参数为操纵中间位姿);在本实施例中,为了防止运动过程中机械手臂与平台发生碰撞,从而导致损伤,对机械手臂的运动范围进行限制。
P为状态转移概率,即状态S下采取行为A后到达状态S′的概率;在此操纵模型中用采取动作A后观测到的环境状态参数来表示S′;
R为奖励,本发明采用稀疏的奖励函数,状态s下执行操纵动作A后,如果操纵任务成功,则根据操纵位姿和稳定性给予一个奖励,如未完成操纵任务则奖励为0。机械手臂的奖励同时考虑了机械手臂的可操纵度指标以及机械手臂操纵稳定性指标,以使机械手臂以更好的方向以及更高的操纵质量操纵物体。
γ为折扣因子,γ∈[0,1]。
步骤S12,机械手臂和环境会在一系列离散的时间步(t=0,1,2,3,…)中进行交互,用一条轨迹表示:
τ=(S0,A0,R1,S1,A1,R1,S2,A2,R2,…)      (2)
步骤S13,马尔可夫决策过程的任务是找到一个控制策略μ:S→A,最大化期望操纵回报Gt
Figure BDA0004000838030000091
利用动作值函数Qμ(st,at)来描述策略μ下操纵的预期回报:
Figure BDA0004000838030000092
步骤S14,为了找寻最优策略μ*,需要找到最优动作值函数Q*(st,at),然后对最优动作值函数求解获取最优策略μ*,用贝尔曼方程处理式(4)有:
Figure BDA0004000838030000093
式(5)中,st+1~P表示t+1时刻的观测量是从环境中观测到的,μ(st+1)表示t+1时刻策略μ下状态st+1映射的动作at+1,r(st,at)为状态状态st下当采取动作at时的奖励,E(*)表示策略μ下预期回报Gt的数学期望。
在实施例中,所述数据采集和预处理模块包括位于模拟中工作台两侧的深度相机、机械手臂控制柜以及六轴力传感器。通过数据采集和预处理模块获取环境状态的流程如图5所示:
步骤S21,根据相机厂家提供的相机内参数,获取相机Ci的焦距(fx,fy)和光心(Cx,Cy),通过张正友标定法对相机Ci和机械手臂基坐标系进行标定,获取其相对于基坐标系的外参矩阵P。相机Ci采集的一帧深度图像
Figure BDA0004000838030000094
中任意一像素点(u,v,1)T和该点相对于机器人基坐标系的位置(xc,yc,Zc)T,二者之间存在映射关系:
Figure BDA0004000838030000095
式(1)中,
Figure BDA0004000838030000096
为外参矩阵P,通过式(6)可求得工作场景中N个相机Ci,i∈N采集的一帧图像
Figure BDA0004000838030000097
对应的三维点云
Figure BDA0004000838030000098
步骤S22,将不同深度相机获取的点云数据
Figure BDA0004000838030000099
进行拼接,完成场景的稠密建图,并通过体素网络下采样算法进行滤波,高斯滤波进行降噪处理,从而获取状态点云C,其中深度相机包括第一相机4和第二相机5以及中间的工业CCD相机6。
步骤S23,获取机器人末端位姿X和关节角
Figure BDA0004000838030000101
以及夹持器的反馈信息d,与点云C融合作为环境状态S。,其中n表示机器人第n个关节,θi表示机器人第i个关节的角度。
在本实施例中,深度相机和力传感器通过串口与计算机连接;机器手臂控制柜与计算机通过TCP/IP通信连接,控制柜作为服务端一定的频率向作为客户端地计算机发送关节角度以及末端位姿等信号。为了方便管理和信息交互,可以通过ROS将不同传感器以及机械臂通过节点地形式创建并进行控制。
本实例中,对拼接后的点云进行体素下采样的目的是得到更加均匀的数据,因为不同视角下采集的点云经过拼接后会存在重叠现象,其密度不均匀对后续网络参数的学习会造成影响。随后进行点云的高斯滤波去除离群点,并结合机器人关节角、末端位姿和受力以及夹持器反馈信息形成环境状态参数。
在本实施例中,步骤S3所述的操纵评估模块为一个基于TD3算法的操纵策略,该策略包含一个策略网络μ(·|θμ)来拟合操纵策略μ:S→A,和两个价值网络
Figure BDA0004000838030000102
来拟合动作值函数Qμ(st,at),并且这些网络还具备目标网络μ′(·|θμ′)、
Figure BDA0004000838030000103
来解决自举问题。
进一步地,步骤S3所述的策略和价值网络,其网络结构如图6所示,其结构是基于PointNet架构的。其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成,首先通过一个仿射变换模块对输入状态点云C进行旋转,随后由多层感知机逐点提取特征,再经过一个仿射变换模块提取特征并进行最大池化操作。得到的向量和机械手臂当前位姿、夹持器状态等信息拼接,通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。
在本实施例中,步骤S4所述的路径优化模块利用设计的基于任务参数化高斯混合模型的模仿学习算法在根据步骤S3中获取的操纵位姿X以及路点参数ω进行操纵路点生成,并控制机械手臂按指定路点进行操纵任务。其相对于其他路点生成算法的优势在于机械手臂可以从人的示教中学习到更加符合人操纵习惯的运动方式,通过改变路点参数ω和操纵方向X就可以灵活地优化出不同的路点。其实现流程如图7所示:
步骤S41,首先人示教n条操纵轨迹
Figure BDA0004000838030000111
每个数据点包含时间步t、机械手臂夹持器的瞬时三维笛卡尔方向ξ=[t XT]T。任务参数P可以表示为操纵方向X以及中间位姿w对应于机械手臂基座表系的参考系
Figure BDA0004000838030000112
其中Ap为参考系p相对于机械手臂基座表系的旋转矩阵,bp为参考系p相对于机械手臂基座表系的齐次矩阵。
步骤S42,利用采集操纵轨迹对应的参考系P对采集的操纵轨迹数据进行解码,得到解码后的轨迹
Figure BDA0004000838030000113
Figure BDA0004000838030000114
Figure BDA0004000838030000115
步骤S43,利用EM算法学习高斯混合模型μ0,通过若干个正态分布来拟合解码后时间步t到机械手臂笛卡尔方向的映射关系μ0:t→X′T,高斯混合模型的表达式如下:
Figure BDA0004000838030000116
其中,
Figure BDA0004000838030000117
表示相对于p参考系的第m个正态分布,
Figure BDA0004000838030000118
Figure BDA0004000838030000119
表示正态分布的均值和方差。
步骤S44,根据操纵评估模块输出的机械手臂操纵位姿X以及路点参数ω对学习好的高斯混合模型进行转换,得到对应机械手臂操纵位姿X以及路点参数ω的参考系P下时间步t到机械手臂笛卡尔方向的映射关系μp:t→XT,转换关系可由下式表示:
Figure BDA00040008380300001110
Figure BDA00040008380300001111
步骤S45,利用解码之后的高斯混合模型对时间步t进行高斯混合回归,得到回归路点点
Figure BDA0004000838030000121
在本实施例中步骤S5,训练模块根据优化的操纵路点驱动机械手臂进行移动,到达路点终点时进行操纵尝试,记录该次行动中获取的式(2)中所述轨迹(St,at,rt,St+1),并利用随机梯度下降法对基于TD3的操纵强化学习模型的策略网络和价值网络进行训练,其步骤如下:
步骤S51,首先从与仿真环境交互中采集的轨迹τ中采样数据为(s,a,r,s′),利用目标策略网络μ′(·|θμ′)计算出状态s′下的动作:
a′=μ′((s′|θμ′))                  (12)
步骤S52,基于类似式(6)中贝尔曼方程的思想,计算目标值y
y=r+γminQ′i(s′,a′|θQ′)              (13)
步骤S53,利用梯度下降算法最小化价值网络对预期回报的估计值
Figure BDA0004000838030000122
和目标值y之间的误差Lci,从而更新价值网络参数
Figure BDA0004000838030000123
Figure BDA0004000838030000124
步骤S54,利用策略μ(·|θμ)计算状态s下采取动作的anew,并利用价值网络计算
Figure BDA0004000838030000125
并用梯度上升算法最大化
Figure BDA0004000838030000126
从而更新策略网络参数θμ
步骤S55,采用软更新方式对目标网络进行更新。引入一个学***均,然后赋值给目标网络:
Figure BDA0004000838030000127
θμ′=τθμ+(1-τ)θμ′                 (16)
基于TD3算法的6-DOF物体操纵训练***,其学习过程分为两个阶段:模拟阶段和实际操纵阶段,其实现流程如图8所示:
模拟阶段,在机械手臂模拟软件中搭建操纵模拟平台,其布置形式如图1所述,并通过python编写代码实现模拟环境中视觉传感器采集的图像、机械手臂方向及关节角还有力传感器和夹爪反馈数据的获取。在模拟环境中机械手臂利用所述位姿评估模块估计操纵方向X以及路点参数ω,并用所述路径优化模块生成机械手臂运动路点进行操纵尝试,并在与环境交互的过程中采集大量交互数据,并完成物体操纵强化学习模型的训练。
本实施例中的模拟环境是在V-REP中搭建的。在模拟环境中进行数据的收集的一个重要原因是,TD3算法的策略和价值网络需要与环境进行大量交互才能取得较好的效果,然而在现实环境中进行交互的时间成本是高昂的,相比之下,在模拟环境中进行数据的收集和学习更加高效。
实际操纵阶段,由于模拟环境与现实环境存在一定的差异性,需用利用域迁移模块将模拟阶段学习的模型迁移到现实环境中,首先在现实环境中利用模拟环境中学习的模型执行操纵任务,采集少量真实环境训练数据;随后利用Gan网络进行模拟数据到真实环境数据的域迁移,获取大量生成的数据。
需要指出的是以上实施例仅用于说明本发明而不用于限制本发明的范围。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下获得的所有其他实施例,均落入本发明的保护范围之内。
以上是对本发明技术方案所做的具体实施例与所运用的技术原理。本发明所属领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换,都在本发明的权利要求所要求保护的范围内。

Claims (10)

1.基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,包括以下步骤:
步骤S1,建立机械手臂操纵任务的马尔可夫决策过程模型,确定操纵过程中的环境状态、动作以及回报;
步骤S2,机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;
步骤S3,操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;
步骤S4,路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;
步骤S5,训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。
2.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,步骤S1中利用马尔可夫决策过程对抓取过程进行建模,其步骤如下:
步骤1.1,利用目标抓取过程满足马尔可夫性,用下式来表示马尔可夫决策过程:
M=(S,A,P,R,γ)
式中,S代表环境中所有可能状态的集合,在此抓取模型中状态为相机采集三维点云和机器人末端姿态的融合数据;A表示智能体所有可能执行的动作集合,在此抓取模型中行为为执行器末端六个自由度的位姿X;P为状态转移概率,即状态s下采取行为A后到达状态s′的概率;在此抓取模型中用采取动作A后观测到的环境状态参数来表示s′;R为奖励,采用稀疏的奖励函数,状态s下执行抓取动作A后,如果抓取成功,则根据抓取姿态和稳定性给予一个奖励,如未完成抓取则奖励为0,γ为折扣因子,γ∈[0,1];
步骤1.2,机器人和环境会在一系列离散的时间步(t=0,1,2,3,...)中进行交互,用一条轨迹表示:
τ=(S0,A0,R0,S1,A1,R1,S2,A2,R2,…St,At,Rt)
式中,St,At,Rt分别代表t时刻下马尔可夫决策过程中的状态、动作和奖励;
步骤1.3,抓取强化学习的任务是找到一个控制策略μ;S→A,最大化期望抓取回报Gt
利用动作值函数Qμ(st,at)来描述策略μ下抓取的预期回报:
式中,Qμ(st,at)代表策略μ下的动作值函数,Eμ[Gt|St=st,At=at]表示状态st下当采取动作at时,在策略μ下预期回报Gt的数学期望;
步骤1.4,为了找寻最优策略μ*,需要找到最优动作值函数Q*(st,at),然后对最优动作值函数求解获取最优策略μ*,用贝尔曼方程处理:
式中,st+1~P表示t+1时刻的观测量是从环境中观测到的,μ(st+1)表示t+1时刻策略μ下状态st+1映射的动作at+1;r(st,at)为状态状态st下当采取动作at时的奖励,E(*)表示策略μ下预期回报Gt的数学期望。
3.根据权利要求书2所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,所述环境中所有可能状态的集合S包括环境状态点云C、机器人末端位姿X和关节角以及夹持器的反馈信息d,其中n表示机器人第n个关节,θi表示机器人第i个关节的角度。
4.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S,其步骤如下:
步骤2.1,根据相机厂家提供的相机内参数,获取相机Ci的焦距(fx,fy)和光心(Cx,Cy),通过通过张正友标定法对相机Ci和机器人基坐标系进行标定,获取其相对于机器人基坐标系的外参矩阵P,相机Ci采集的一帧深度图像中任意一像素点(u,v,1)T和该点相对于机器人基坐标系的位置(xc,yc,Zc)T,二者之间存在映射关系:
式中,为外参矩阵P,通过上式可求得工作场景中N个相机Ci,i∈N采集的一帧图像对应的三维点云数据
步骤2.2,将不同深度相机获取的三维点云数据进行拼接,完成场景的稠密建图,并通过体素网络下采样算法进行滤波,高斯滤波进行降噪处理,从而获取环境状态点云C;
步骤2.3,取机器人末端位姿X和关节角以及夹持器的反馈信息d,与环境点云C融合作为环境状态S。
5.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,步骤S3中所述的策略和价值网络其结构是基于PointNet架构的,其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成,首先通过一个仿射变换模块对输入状态点云C进行旋转,随后由多层感知机点提取特征,再经过一个仿射变换模块提取特征并进行最大池化操作,得到的向量和机械手臂当前位姿、夹持器状态信息拼接,通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。
6.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,步骤S4中操纵路点生成具体为:
首先人示教n条抓取轨迹每个数据点包含时间步t、机器人夹持器的瞬时三维笛卡尔位置和姿态ξ=[t XT]T,以及待抓取物体参考系并训练高斯混合模型μ0,得到物体当前物体参考系P下时间步t到机器人末端的位姿X的映射关系μ0:t→XT,并根据操纵位姿X和路点参数ω对应的参考系P进行操纵路径生成,其中Ap,bp为抓取物体参考系相对于机器人基坐标系的旋转矩阵3x3和平移矩阵3x1,表示p个物体参考系的集合。
7.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,步骤S5所述的基于TD3算法的深度强化学习抓取策略,其具体为:用一个策略网络μ(·|θμ)来拟合抓取策略μ:S→A,和两个价值网络 来拟合动作值函数Qμ(st,at),并且这些网络还具备目标网络μ′(·|θμ′)、来解决自举问题,其中μ(·|θμ)代表网络参数为θu的策略网络。
8.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法,其特征在于,其学***台并利用权利要求1所述训练过程进行抓取模型训练。实际操纵阶段,由于模拟环境与现实环境存在一定地差异性,需要利用域迁移模块利用Gan网络将模拟阶段学习地模型迁移到现实环境中。
9.基于TD3的机械手臂6-DOF物体操纵训练***,其特征在于,包括一台协作机械手臂(1)和固定于其末端法兰盘的六轴力传感器(2)以及末端电动夹爪(3),工作台两侧搭载了能采集三维信息的第一相机(4)和第二相机(5)以及中间的工业CCD相机(6),操纵任务中协作机械手臂(1)根据六轴力传感器(2)和机器人控制箱反馈信息获取的信息从起点区域(7)中操纵物体并搬运至终点区域(8);还包括数据采集与预处理模块、操纵位姿评估模块、路径优化模块和训练模块。
10.根据权利要求9所述的基于TD3的机械手臂6-DOF物体操纵训练***,其特征在于:所述机械手臂数据采集与预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理,并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S;
所述操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω,并估计预期回报;
所述路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成;
所述训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵,并在交互中储存得到的数据并更新网络,从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。
CN202211612997.7A 2022-12-15 2022-12-15 一种基于td3的机械手臂6-dof物体操纵训练方法及*** Pending CN115890744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211612997.7A CN115890744A (zh) 2022-12-15 2022-12-15 一种基于td3的机械手臂6-dof物体操纵训练方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211612997.7A CN115890744A (zh) 2022-12-15 2022-12-15 一种基于td3的机械手臂6-dof物体操纵训练方法及***

Publications (1)

Publication Number Publication Date
CN115890744A true CN115890744A (zh) 2023-04-04

Family

ID=86494711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211612997.7A Pending CN115890744A (zh) 2022-12-15 2022-12-15 一种基于td3的机械手臂6-dof物体操纵训练方法及***

Country Status (1)

Country Link
CN (1) CN115890744A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313546A (zh) * 2023-10-26 2023-12-29 北京大学 可信赖灵巧手***仿真方法及仿真***

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117313546A (zh) * 2023-10-26 2023-12-29 北京大学 可信赖灵巧手***仿真方法及仿真***

Similar Documents

Publication Publication Date Title
CN110000785B (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
CN111251294A (zh) 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN111421554B (zh) 基于边缘计算的机械臂智能控制***、方法、装置
CN114912287A (zh) 基于目标6d位姿估计的机器人自主抓取仿真***及方法
CN111331607B (zh) 一种基于机械臂的自主抓取与码垛方法及***
CN113172629A (zh) 一种基于时序触觉数据处理的物体抓取方法
Tang et al. Learning collaborative pushing and grasping policies in dense clutter
CN115890744A (zh) 一种基于td3的机械手臂6-dof物体操纵训练方法及***
CN115464659A (zh) 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
Iqbal et al. Toward sim-to-real directional semantic grasping
CN116276998A (zh) 基于强化学习的免手眼标定的机械臂抓取方法及***
CN116460843A (zh) 一种基于元启发式算法的多机器人协作抓取方法及***
Eppner et al. Imitation learning with generalized task descriptions
Song et al. On-line stable evolutionary recognition based on unit quaternion representation by motion-feedforward compensation
CN113681552B (zh) 一种基于级联神经网络的机器人混杂物体五维抓取方法
CN112734823B (zh) 一种基于图像的视觉伺服的雅可比矩阵深度估计方法
CN117001675B (zh) 一种双臂协作操控非合作目标避障轨迹规划方法
Leite et al. Adaptive 3D visual servoing without image velocity measurement for uncertain manipulators
Tosun et al. Pixels to plans: Learning non-prehensile manipulation by imitating a planner
CN109542094B (zh) 无期望图像的移动机器人视觉镇定控制
CN115194774A (zh) 一种基于多目视觉的双机械臂抓握***控制方法
CN114998573A (zh) 一种基于rgb-d特征深度融合的抓取位姿检测方法
CN112857373B (zh) 一种最小化无用动作的节能性无人车路径导航方法
CN114888768A (zh) 一种基于多传感器融合的移动双工业机器人协同抓取***及方法
Su et al. Nonlinear visual mapping model for 3-D visual tracking with uncalibrated eye-in-hand robotic system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination