CN115890744A

CN115890744A - 一种基于td3的机械手臂6-dof物体操纵训练方法及***

Info

Publication number: CN115890744A
Application number: CN202211612997.7A
Authority: CN
Inventors: 周勇; 贺辉腾; 李卫东; 胡楷雄
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2022-12-15
Filing date: 2022-12-15
Publication date: 2023-04-04

Abstract

本发明涉及基于TD3的机械手臂6‑DOF物体操纵训练方法及***，包括：建立机器人抓取的马尔可夫决策过程模型，确定抓取过程的状态、动作和回报；通过获取场景中的深度信息和力反馈；基于设计的模仿学习算法在仿真环境中收集数据，并进行基于TD3算法的深度强化学习策略和价值网络的预训练；预训练好的深度强化学习策略网络根据获取的环境状态参数输出机器人运动策略，机械臂根据运动策略执行抓取动作，并在交互中不断更新策略，从而以更合适的位姿和轨迹进行不同形状目标物体的抓取。本发明能有效地避免单视角下机械臂和其他部件对物体的遮挡带来的环境信息缺失问题，能对不同大小形状和摆放姿态下的物体选取合适的抓取姿态。

Description

一种基于TD3的机械手臂6-DOF物体操纵训练方法及***

技术领域

本发明涉及一种协作机械手臂的物体操纵的模型训练***，尤其是一种针对复杂环境下机械手臂六自由度操纵以及路径生成模型的训练***。

背景技术

工业4.0”的提出以后，现代制造业逐渐从大规模生产转向大规模定制，增加产品个性化，缩短产品生命周期。其中协作机器人因为其轻型、体积小其安全的特点，开始大规模应用于装配、拆解、轻量化加工(3C、汽车、包装等)、检测等任务，这些任务对机械手臂的灵活性和智能化程度提出了更高的要求，而机械手臂灵活地操纵物体是实现机器人智能化不可或缺的一环。

自主抓取要求机械手臂能够根据所处地环境自主选择抓取策略，为了实现这一目标，机械手臂需要与环境进行交互，根据交互中传感器采集到的信息进行决策并操纵物体，是一个涉及感知、规划和控制的挑战性问题。过去机械手臂物体应用大多数采用机器视觉的技术，在物体形状、大小相对固定、无明显遮挡的以及夹持器保持垂直工作平面的姿态进行物体操纵，且通常是对单视角下的图像信息提取特征来检测目标物***置。

过去机械手臂操纵应用大多数集中精力于工业零件的搬运和分拣等，当操纵相对于形状更加复杂的物体，传统的机械手臂操纵方法显然无法满足要求，而神经网络模型学习的方法需要在实际环境中大量采集数据，成本很高。当面临复杂的操纵任务时，自上而下的操纵方式一定程度上限制了操纵的多样性，当碰到物体上方有遮挡物或者任务施加额外约束的情况，操纵对象几乎是不可能。

传统的工业零件操纵通常采用利用手工设计的特征进行目标物体检测，这种几何驱动的方法面对物体形状较为复杂的家用物体效果不好。但是基于深度学习还是机器学习的策略，都需要人为地提供大量的数据或样本，扩展到新对象时既困难又耗时，灵活性有所欠缺。

发明内容

本发明的目的在于针对现有方法的不足，提出一种基于TD3的机械手臂6-DOF物体操纵训练方法及***。

为解决上述技术问题，本发明采用如下技术方案：

基于TD3的机械手臂6-DOF物体操纵训练方法包括以下步骤：

步骤S1，建立机械手臂操纵任务的马尔可夫决策过程模型，确定操纵过程中的环境状态、动作以及回报；

步骤S2，机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理，并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S；

步骤S3，操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω，并估计预期回报；

步骤S4，路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成；

步骤S5，训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵，并在交互中储存得到的数据并更新网络，从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。

进一步地，步骤S1中利用马尔可夫决策过程对抓取过程进行建模，其步骤如下：

步骤1.1，利用目标抓取过程满足马尔可夫性，用下式来表示马尔可夫决策过程：

M＝(S,A,P,R,γ)

式中，s代表环境中所有可能状态的集合，在此抓取模型中状态为相机采集三维点云和机器人末端姿态的融合数据；A表示智能体所有可能执行的动作集合，在此抓取模型中行为为执行器末端六个自由度的位姿X；P为状态转移概率，即状态s下采取行为A后到达状态s′的概率；在此抓取模型中用采取动作A后观测到的环境状态参数来表示s′；R为奖励，采用稀疏的奖励函数，状态s下执行抓取动作A后，如果抓取成功，则根据抓取姿态和稳定性给予一个奖励，如未完成抓取则奖励为0，γ为折扣因子，γ∈[0，1]；

步骤1.2，机器人和环境会在一系列离散的时间步(t＝0，1，2，3，...)中进行交互，用一条轨迹表示：

τ＝(S₀，A₀，R₀，s₁，A₁，R₁，S₂，A₂，R₂，…S_t，A_t，R_t)

式中，S_t，A_t，R_t分别代表t时刻下马尔可夫决策过程中的状态、动作和奖励；

步骤1.3，抓取强化学习的任务是找到一个控制策略μ；S→A，最大化期望抓取回报G_t：

利用动作值函数Q^μ(s_t，a_t)来描述策略μ下抓取的预期回报：

式中，Q^μ(s_t，a_t)代表策略μ下的动作值函数，E_μ[G_t|S_t＝s_t，A_t＝a_t]表示状态s_t下当采取动作a_t时，在策略μ下预期回报G_t的数学期望；

步骤1.4，为了找寻最优策略μ^*，需要找到最优动作值函数Q^*(s_t，a_t)，然后对最优动作值函数求解获取最优策略μ^*，用贝尔曼方程处理：

式中，s_t+1～P表示t+1时刻的观测量是从环境中观测到的，μ(s_t+1)表示t+1时刻策略μ下状态s_t+1映射的动作a_t+1；r(s_t，a_t)为状态状态s_t下当采取动作a_t时的奖励，E(*)表示策略μ下预期回报G_t的数学期望。

进一步地，所述环境中所有可能状态的集合s包括环境状态点云C、机器人末端位姿X和关节角

以及夹持器的反馈信息d，其中n表示机器人第n个关节，θ_i表示机器人第i个关节的角度。

进一步地，所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S，其步骤如下：

步骤2.1，根据相机厂家提供的相机内参数，获取相机C_i的焦距(f_x,f_y)和光心(C_x,C_y)，通过通过张正友标定法对相机C_i和机器人基坐标系进行标定，获取其相对于机器人基坐标系的外参矩阵P，相机C_i采集的一帧深度图像

中任意一像素点(u,v,1)^T和该点相对于机器人基坐标系的位置(x_c,y_c,Z_c)^T，二者之间存在映射关系：

式中，

为外参矩阵P,，通过上式可求得工作场景中N个相机C_i,i∈N采集的一帧图像

对应的三维点云数据

步骤2.2，将不同深度相机获取的三维点云数据

进行拼接，完成场景的稠密建图，并通过体素网络下采样算法进行滤波，高斯滤波进行降噪处理，从而获取环境状态点云C；

步骤2.3，获取机器人末端位姿X和关节角

以及夹持器的反馈信息d，与环境点云C融合作为环境状态S。

进一步地，步骤S3中所述的策略和价值网络其结构是基于PointNet架构的，其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成，首先通过一个仿射变换模块对输入状态点云C进行旋转，随后由多层感知机点提取特征，再经过一个仿射变换模块提取特征并进行最大池化操作,得到的向量和机械手臂当前位姿、夹持器状态信息拼接，通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。

进一步地，步骤S4中操纵路点生成具体为：

首先人示教n条抓取轨迹

每个数据点包含时间步t、机器人夹持器的瞬时三维笛卡尔位置和姿态ξ＝[t ^T]^T，以及待抓取物体参考系

并训练高斯混合模型μ₀，得到物体当前物体参考系P下时间步t到机器人末端的位姿X的映射关系μ₀:t→X^T，并根据操纵位姿X和路点参数ω对应的参考系P进行操纵路径生成，其中A_p，b_p为抓取物体参考系相对于机器人基坐标系的旋转矩阵3x3和平移矩阵3x1，

表示p个物体参考系的集合。

进一步地，步骤S5所述的基于TD3算法的深度强化学习抓取策略，其具体为：用一个策略网络μ(·|θ^μ)来拟合抓取策略μ：S→A，和两个价值网络

来拟合动作值函数Q^μ(s_t,a_t)，并且这些网络还具备目标网络μ′(·|θ^μ′)、

来解决自举问题，其中μ(·|θ^μ)代表网络参数为θ^u的策略网络。

进一步地，其学***台并利用权利要求1所述训练过程进行抓取模型训练。实际操纵阶段，由于模拟环境与现实环境存在一定地差异性，需要利用域迁移模块利用Gan网络将模拟阶段学习地模型迁移到现实环境中。

本发明还提供一种基于TD3的机械手臂6-DOF物体操纵训练***，包括一台协作机械手臂和固定于其末端法兰盘的六轴力传感器)以及末端电动夹爪，工作台两侧搭载了能采集三维信息的第一相机和第二相机以及中间的工业CCD相机，操纵任务中协作机械手臂根据六轴力传感器和机器人控制箱反馈信息获取的信息从起点区域中操纵物体并搬运至终点区域(8)；还包括数据采集与预处理模块、操纵位姿评估模块、路径优化模块和训练模块。

进一步地，所述机械手臂数据采集与预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理，并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S；

所述操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω，并估计预期回报；

所述路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成；

所述训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵，并在交互中储存得到的数据并更新网络，从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。与现有技术相比，本申请具有如下有益效果：

1)该方法采用了多种类型的信息作为操纵过程中的状态，并且同时考虑了位姿和移动路点对物体操纵成功率的影响，有效提升了操纵质量。

2)相对于传统的数据驱动的物体操纵算法(模仿学习、深度学习等)，采用基于TD3和PointNet架构的强化学习算法，通过调整其奖励函数就可以学习到不同的操纵模式，而且是自监督的算法，不需要人为收集带标签的数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为硬件组成示意图；

图2为整体结构图；

图3为整体流程示意图；

图4为算法马尔可夫决策过程模型图；

图5为数据采集和预处理模块流程图；

图6为操纵评估模块结构示意图；

图7为基于任务参数化高斯混合模型路径优化模块结构图；

图8为基于TD3的机械手臂6-DOF物体操纵训练***的训练模块结构图。

具体实施方式

以下结合附图和实施例详细说明本发明的技术方案。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将结合附图，对本发明进行详细说明，基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例：一种基于TD3的机械手臂物体操纵模拟训练方法，如图1所示，采用的机械手臂模拟实验平台的硬件组成包括一台协作机械手臂1和固定于其末端法兰盘的六轴力传感器2以及末端电动夹爪3，工作台两侧搭载了能采集三维信息的相机4和5和中间的工业CCD相机6。操纵任务中协作机械手臂1根据六轴力传感器2和机器人控制箱反馈信息获取的信息从区域7中操纵物体并搬运至区域8。

基于TD3的机械手臂6-DOF物体操纵训练***,其整体***如图2所示，由数据采集和预处理模块、操纵位姿评估模块、路径优化模块和训练模块组成。

如图3所示，基于TD3的机械手臂6-DOF物体操纵训练***包括如下步骤：

步骤S1，建立机械手臂操纵任务的马尔可夫决策过程模型，确定操纵过程中的环境状态、动作以及回报。

步骤S2，机械手臂数据采集和预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理，并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S。

步骤S3，操纵位姿评估模块根据数据采集和预处理模块获得的环境状态S利用基于PointNet架构的策略和价值网络输出合适的操纵位姿X和路点参数ω，并估计预期回报。

步骤S4，路径优化模块根据操纵位姿评估模块输出的操纵位姿X和路点参数ω利用任务参数化高斯混合模型进行操纵路点生成。

在本实施例中，步骤S1中利用马尔可夫决策过程对操纵过程进行建模，其整体架构如图4所示，且其步骤如下：

步骤S11，利用目标操纵过程满足马尔可夫性，用一个式(1)来表示马尔可夫决策过程：

M＝(S，A，P，R，γ) (1)

式(1)中，S代表环境中所有可能状态的集合，在此操纵模型中状态包括点云C、机械手臂末端方向x和关节角

以及夹持器的反馈信息d，其中夹持器反馈的信息为夹爪是否闭合，如果在抓取动作执行时，夹爪未完全闭合则说明抓取成功，完全闭合则代表抓取失败；

A表示智能体所有可能执行的动作集合，在此操纵模型中行为为执行器的估计操纵位姿x和路点参数ω(在本实施例中路点参数为操纵中间位姿)；在本实施例中，为了防止运动过程中机械手臂与平台发生碰撞，从而导致损伤，对机械手臂的运动范围进行限制。

P为状态转移概率，即状态S下采取行为A后到达状态S′的概率；在此操纵模型中用采取动作A后观测到的环境状态参数来表示S′；

R为奖励，本发明采用稀疏的奖励函数，状态s下执行操纵动作A后，如果操纵任务成功，则根据操纵位姿和稳定性给予一个奖励，如未完成操纵任务则奖励为0。机械手臂的奖励同时考虑了机械手臂的可操纵度指标以及机械手臂操纵稳定性指标，以使机械手臂以更好的方向以及更高的操纵质量操纵物体。

γ为折扣因子，γ∈[0,1]。

步骤S12，机械手臂和环境会在一系列离散的时间步(t＝0,1,2,3,…)中进行交互，用一条轨迹表示：

τ＝(S₀,A₀,R₁,S₁,A₁,R₁,S₂,A₂,R₂,…) (2)

步骤S13，马尔可夫决策过程的任务是找到一个控制策略μ：S→A，最大化期望操纵回报G_t：

利用动作值函数Q^μ(s_t,a_t)来描述策略μ下操纵的预期回报：

步骤S14，为了找寻最优策略μ^*，需要找到最优动作值函数Q^*(s_t,a_t)，然后对最优动作值函数求解获取最优策略μ^*，用贝尔曼方程处理式(4)有：

式(5)中，s_t+1～P表示t+1时刻的观测量是从环境中观测到的，μ(s_t+1)表示t+1时刻策略μ下状态s_t+1映射的动作a_t+1，r(s_t,a_t)为状态状态s_t下当采取动作a_t时的奖励，E(*)表示策略μ下预期回报G_t的数学期望。

在实施例中，所述数据采集和预处理模块包括位于模拟中工作台两侧的深度相机、机械手臂控制柜以及六轴力传感器。通过数据采集和预处理模块获取环境状态的流程如图5所示：

步骤S21，根据相机厂家提供的相机内参数，获取相机C_i的焦距(f_x,f_y)和光心(C_x,C_y)，通过张正友标定法对相机C_i和机械手臂基坐标系进行标定，获取其相对于基坐标系的外参矩阵P。相机C_i采集的一帧深度图像

式(1)中，

为外参矩阵P,通过式(6)可求得工作场景中N个相机C_i,i∈N采集的一帧图像

对应的三维点云

步骤S22，将不同深度相机获取的点云数据

进行拼接，完成场景的稠密建图，并通过体素网络下采样算法进行滤波，高斯滤波进行降噪处理，从而获取状态点云C，其中深度相机包括第一相机4和第二相机5以及中间的工业CCD相机6。

步骤S23，获取机器人末端位姿X和关节角

以及夹持器的反馈信息d，与点云C融合作为环境状态S。，其中n表示机器人第n个关节，θ_i表示机器人第i个关节的角度。

在本实施例中，深度相机和力传感器通过串口与计算机连接；机器手臂控制柜与计算机通过TCP/IP通信连接，控制柜作为服务端一定的频率向作为客户端地计算机发送关节角度以及末端位姿等信号。为了方便管理和信息交互，可以通过ROS将不同传感器以及机械臂通过节点地形式创建并进行控制。

本实例中，对拼接后的点云进行体素下采样的目的是得到更加均匀的数据，因为不同视角下采集的点云经过拼接后会存在重叠现象，其密度不均匀对后续网络参数的学习会造成影响。随后进行点云的高斯滤波去除离群点，并结合机器人关节角、末端位姿和受力以及夹持器反馈信息形成环境状态参数。

在本实施例中，步骤S3所述的操纵评估模块为一个基于TD3算法的操纵策略，该策略包含一个策略网络μ(·|θ^μ)来拟合操纵策略μ：S→A，和两个价值网络

来解决自举问题。

进一步地，步骤S3所述的策略和价值网络，其网络结构如图6所示，其结构是基于PointNet架构的。其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成，首先通过一个仿射变换模块对输入状态点云C进行旋转，随后由多层感知机逐点提取特征，再经过一个仿射变换模块提取特征并进行最大池化操作。得到的向量和机械手臂当前位姿、夹持器状态等信息拼接，通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。

在本实施例中，步骤S4所述的路径优化模块利用设计的基于任务参数化高斯混合模型的模仿学习算法在根据步骤S3中获取的操纵位姿X以及路点参数ω进行操纵路点生成，并控制机械手臂按指定路点进行操纵任务。其相对于其他路点生成算法的优势在于机械手臂可以从人的示教中学习到更加符合人操纵习惯的运动方式，通过改变路点参数ω和操纵方向X就可以灵活地优化出不同的路点。其实现流程如图7所示：

步骤S41，首先人示教n条操纵轨迹

每个数据点包含时间步t、机械手臂夹持器的瞬时三维笛卡尔方向ξ＝[t X^T]^T。任务参数P可以表示为操纵方向X以及中间位姿w对应于机械手臂基座表系的参考系

其中A_p为参考系p相对于机械手臂基座表系的旋转矩阵，b_p为参考系p相对于机械手臂基座表系的齐次矩阵。

步骤S42,利用采集操纵轨迹对应的参考系P对采集的操纵轨迹数据进行解码，得到解码后的轨迹

步骤S43，利用EM算法学习高斯混合模型μ₀，通过若干个正态分布来拟合解码后时间步t到机械手臂笛卡尔方向的映射关系μ₀:t→X′^T，高斯混合模型的表达式如下：

其中，

表示相对于p参考系的第m个正态分布，

和

表示正态分布的均值和方差。

步骤S44，根据操纵评估模块输出的机械手臂操纵位姿X以及路点参数ω对学习好的高斯混合模型进行转换，得到对应机械手臂操纵位姿X以及路点参数ω的参考系P下时间步t到机械手臂笛卡尔方向的映射关系μ_p:t→X^T,转换关系可由下式表示：

步骤S45，利用解码之后的高斯混合模型对时间步t进行高斯混合回归，得到回归路点点

在本实施例中步骤S5，训练模块根据优化的操纵路点驱动机械手臂进行移动，到达路点终点时进行操纵尝试，记录该次行动中获取的式(2)中所述轨迹(S_t,a_t,r_t,S_t+1)，并利用随机梯度下降法对基于TD3的操纵强化学习模型的策略网络和价值网络进行训练，其步骤如下：

步骤S51，首先从与仿真环境交互中采集的轨迹τ中采样数据为(s,a,r,s′),利用目标策略网络μ′(·|θ^μ′)计算出状态s′下的动作：

a′＝μ′((s′|θ^μ′)) (12)

步骤S52，基于类似式(6)中贝尔曼方程的思想，计算目标值y

y＝r+γminQ′_i(s′,a′|θ^Q′) (13)

步骤S53，利用梯度下降算法最小化价值网络对预期回报的估计值

和目标值y之间的误差L_ci，从而更新价值网络参数

步骤S54，利用策略μ(·|θ^μ)计算状态s下采取动作的a_new，并利用价值网络计算

并用梯度上升算法最大化

从而更新策略网络参数θ^μ。

步骤S55，采用软更新方式对目标网络进行更新。引入一个学***均，然后赋值给目标网络：

θ^μ′＝τθ^μ+(1-τ)θ^μ′ (16)

基于TD3算法的6-DOF物体操纵训练***，其学习过程分为两个阶段：模拟阶段和实际操纵阶段，其实现流程如图8所示：

模拟阶段，在机械手臂模拟软件中搭建操纵模拟平台，其布置形式如图1所述，并通过python编写代码实现模拟环境中视觉传感器采集的图像、机械手臂方向及关节角还有力传感器和夹爪反馈数据的获取。在模拟环境中机械手臂利用所述位姿评估模块估计操纵方向X以及路点参数ω，并用所述路径优化模块生成机械手臂运动路点进行操纵尝试，并在与环境交互的过程中采集大量交互数据，并完成物体操纵强化学习模型的训练。

本实施例中的模拟环境是在V-REP中搭建的。在模拟环境中进行数据的收集的一个重要原因是，TD3算法的策略和价值网络需要与环境进行大量交互才能取得较好的效果，然而在现实环境中进行交互的时间成本是高昂的，相比之下，在模拟环境中进行数据的收集和学习更加高效。

实际操纵阶段，由于模拟环境与现实环境存在一定的差异性，需用利用域迁移模块将模拟阶段学习的模型迁移到现实环境中，首先在现实环境中利用模拟环境中学习的模型执行操纵任务，采集少量真实环境训练数据；随后利用Gan网络进行模拟数据到真实环境数据的域迁移，获取大量生成的数据。

需要指出的是以上实施例仅用于说明本发明而不用于限制本发明的范围。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下获得的所有其他实施例，均落入本发明的保护范围之内。

以上是对本发明技术方案所做的具体实施例与所运用的技术原理。本发明所属领域技术人员在该实施例的基础上所做的任何修改或补充或等效替换，都在本发明的权利要求所要求保护的范围内。

Claims

1.基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，包括以下步骤：

2.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，步骤S1中利用马尔可夫决策过程对抓取过程进行建模，其步骤如下：

M＝(S,A,P,R,γ)

式中，Q^μ(s_t，a_t)代表策略_μ下的动作值函数，E_μ[G_t|S_t＝s_t，A_t＝a_t]表示状态s_t下当采取动作a_t时，在策略μ下预期回报G_t的数学期望；

3.根据权利要求书2所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，所述环境中所有可能状态的集合S包括环境状态点云C、机器人末端位姿X和关节角以及夹持器的反馈信息d，其中n表示机器人第n个关节，θ_i表示机器人第i个关节的角度。

4.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，所述步骤S2中采用数据采集与预处理模块对多个深度相机采集的点云进行拼接、降噪和滤波处理并融合多传感器信息得到环境状态参数S，其步骤如下：

步骤2.1，根据相机厂家提供的相机内参数，获取相机C_i的焦距(f_x，f_y)和光心(C_x，C_y)，通过通过张正友标定法对相机C_i和机器人基坐标系进行标定，获取其相对于机器人基坐标系的外参矩阵P，相机C_i采集的一帧深度图像中任意一像素点(u，v，1)^T和该点相对于机器人基坐标系的位置(x_c，y_c，Z_c)^T，二者之间存在映射关系：

式中，为外参矩阵P，通过上式可求得工作场景中N个相机C_i，i∈N采集的一帧图像对应的三维点云数据

步骤2.2，将不同深度相机获取的三维点云数据进行拼接，完成场景的稠密建图，并通过体素网络下采样算法进行滤波，高斯滤波进行降噪处理，从而获取环境状态点云C；

步骤2.3，取机器人末端位姿X和关节角以及夹持器的反馈信息d，与环境点云C融合作为环境状态S。

5.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，步骤S3中所述的策略和价值网络其结构是基于PointNet架构的，其策略网络由一个点云输入层、两个仿射变换模块以及若干层共享权值的多层感知机组成，首先通过一个仿射变换模块对输入状态点云C进行旋转，随后由多层感知机点提取特征，再经过一个仿射变换模块提取特征并进行最大池化操作，得到的向量和机械手臂当前位姿、夹持器状态信息拼接，通过若干全连接层后输出机械手臂末端的运动指令和预期回报的估计。

6.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，步骤S4中操纵路点生成具体为：

首先人示教n条抓取轨迹每个数据点包含时间步t、机器人夹持器的瞬时三维笛卡尔位置和姿态ξ＝[t X^T]^T，以及待抓取物体参考系并训练高斯混合模型μ₀，得到物体当前物体参考系P下时间步t到机器人末端的位姿X的映射关系μ₀:t→X^T，并根据操纵位姿X和路点参数ω对应的参考系P进行操纵路径生成，其中A_p，b_p为抓取物体参考系相对于机器人基坐标系的旋转矩阵3x3和平移矩阵3x1，表示p个物体参考系的集合。

7.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，步骤S5所述的基于TD3算法的深度强化学习抓取策略，其具体为：用一个策略网络μ(·|θ^μ)来拟合抓取策略μ：S→A，和两个价值网络来拟合动作值函数Q^μ(s_t,a_t)，并且这些网络还具备目标网络μ′(·|θ^μ′)、来解决自举问题，其中μ(·|θ^μ)代表网络参数为θ^u的策略网络。

8.根据权利要求书1所述的基于TD3的机械手臂6-DOF物体操纵训练方法，其特征在于，其学***台并利用权利要求1所述训练过程进行抓取模型训练。实际操纵阶段，由于模拟环境与现实环境存在一定地差异性，需要利用域迁移模块利用Gan网络将模拟阶段学习地模型迁移到现实环境中。

9.基于TD3的机械手臂6-DOF物体操纵训练***，其特征在于，包括一台协作机械手臂(1)和固定于其末端法兰盘的六轴力传感器(2)以及末端电动夹爪(3)，工作台两侧搭载了能采集三维信息的第一相机(4)和第二相机(5)以及中间的工业CCD相机(6)，操纵任务中协作机械手臂(1)根据六轴力传感器(2)和机器人控制箱反馈信息获取的信息从起点区域(7)中操纵物体并搬运至终点区域(8)；还包括数据采集与预处理模块、操纵位姿评估模块、路径优化模块和训练模块。

10.根据权利要求9所述的基于TD3的机械手臂6-DOF物体操纵训练***，其特征在于：所述机械手臂数据采集与预处理模块根据位于工作台两侧的多个相机采集的点云进行预处理，并融合机械手臂末端力传感器采集的受力数据、机械手臂的关节角得到环境状态S；

所述训练模块根据路径优化模块生成的操纵路点控制机械手臂以合适的方向和轨迹进行目标物体的操纵，并在交互中储存得到的数据并更新网络，从而训练出神经网络模型根据输入的环境状态以合适的方向对不同形状物体的操纵。