CN115464659A - 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 - Google Patents

一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 Download PDF

Info

Publication number
CN115464659A
CN115464659A CN202211218404.9A CN202211218404A CN115464659A CN 115464659 A CN115464659 A CN 115464659A CN 202211218404 A CN202211218404 A CN 202211218404A CN 115464659 A CN115464659 A CN 115464659A
Authority
CN
China
Prior art keywords
mechanical arm
network
reinforcement learning
training
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211218404.9A
Other languages
English (en)
Other versions
CN115464659B (zh
Inventor
尤波
武江博
李佳钰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin University of Science and Technology
Original Assignee
Harbin University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin University of Science and Technology filed Critical Harbin University of Science and Technology
Priority to CN202211218404.9A priority Critical patent/CN115464659B/zh
Publication of CN115464659A publication Critical patent/CN115464659A/zh
Application granted granted Critical
Publication of CN115464659B publication Critical patent/CN115464659B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1628Programme controls characterised by the control loop
    • B25J9/163Programme controls characterised by the control loop learning, adaptive, model based, rule based expert control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/0081Programme-controlled manipulators with master teach-in means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1664Programme controls characterised by programming, planning systems for manipulators characterised by motion, path, trajectory planning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Manipulator (AREA)

Abstract

本发明公开了一种基于视觉信息的深度强化学***面3D位姿信息。设计一种基于末端执行器速度平滑约束的示教机制,解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少,算法效率低的问题;并设计基于能量约束归一化非线性奖励函数,把输入到深度强化学习网络的数据解算至相同的区间,并且对变量进行非线性的函数映射,使得网络梯度下降的时候速率更快,提高训练效率和机械臂在靠近目标物体附近时产生的抖动问题;基于仿真环境对强化学习网络进行预训练,并对待抓取物***姿进行显示表达,使得该算法在新对象和环境中具有更强的泛化能力,将快速迁移到真实世界的机械臂上面。

Description

一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控 制方法
技术领域
本发明涉及机器人应用技术领域,特别涉及一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法。
背景技术
伴随着深度强化学习与机器人技术的不断发展,智能机器人已经向生产生活的各个领域不断渗透,随着智能机器人应用领域的扩大,机械臂的工业应用场景愈加丰富,市场期望机械臂更加智能化成为机械臂技术发展的一个重要方向。传统机械臂的应用场景大多只能依照既定的程序,完成机械化的操作流程,在特定的流水线上使用人工示教的方式执行任务,虽然拥有很高的重复精度,但操作灵活性特别差,为此引入机器视觉和深度强化学习模块,使机械臂的工作场景更加灵活,控制方式从原来的示教控制转变为可以与环境进行交互,进而不断改进,获得更好的控制效果。
机器视觉和深度强化学习是人工智能主要的研究方向,计算机视觉的发展,为机器人的智能视觉感知提供了技术支持,而深度强化学习在机械臂中的应用使得智能体在与环境的交互过程中,可以不断迭代学习最优策略,从而更好完成特定工作。
目前基于视觉的深度强化学习的机械臂抓取研究中,面临两个重要问题:
1、视觉检测信息直接作为强化学习的状态导致的信息维度太高,从而导致强化学习网络难以训练且不稳定,并且可解释性差的问题;
2、深度强化学习算法在真实机械臂上应用时,其训练样本采集困难,训练成本太高,且机械臂在目标物附近时抖动严重等缺点。
发明内容
针对现有技术存在的问题,本申请提供了一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法,主要包括以下步骤:
步骤1:基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪,获得目标平面上的3D(x,y,θz)信息。
步骤1-1:使用coco数据集对深度学习网络进行预训练,根据待抓取物体,收集照片并按照voc数据集格式制作自己的数据集。在预训练模型基础上,根据制作的数据集继续训练网络模型使网络收敛。
步骤1-2:对目标检测的结果,融合卡尔曼滤波算法,实现目标检测与跟踪。
步骤1-3:根据目标检测框和待检测对象的颜色、形状等特征,计算待测物体的最小外接矩形,然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θz,得到目标的3D(x,y,θz)信息。
步骤1-4:获得目标物体的3D位姿基础上,根据机械臂实际工作场景的中的物理约束,令绕x,y轴的转角θx=θy=0,测量获取摄像头到机械臂底座的垂直位置关系补全z轴坐标,根据坐标变换关系,将物体在图像坐标系下的坐标转换为基于机械臂底座的6D(x,y,z,θxyz)姿态信息。
步骤2:设计一种能量约束的归一化非线性奖励函数Reward,通过在仿真中训练网络,使模型快速收敛,进而对模型迁移训练控制现实中机械臂实现抓取。
步骤2-1深度强化学习的算法使用DDPG算法,采用Actor-Critic框架,由4个神经网络组成,两两结构相同,Actor网络,输入状态,输出动作;Critic网络是动作评价网络,输入状态,输出估计值Q。使用均方差损失函数通过神经网络的反向传播来更新Critic当前网络的所有参数;使用采样策略梯度通过神经网络的反向传播来更新Actor当前网络的所有参数。
步骤2-2:将视觉检测模块获得的物***姿信息作为强化学习输入信息的一部分。设置状态空间
Figure BDA0003876890160000021
包括目标的位姿(6维)和微分变量,机械臂关节转角(6维)和微分变量,末端执行器的位姿(6维)和微分变量,这样的状态空间设置避免了直接把图像信息作为状态空间引起的信息冗余,有利于深度强化学习模型的训练,并且由于状态信息具有实际的物理意义,增加了算法的可解释性。
步骤2-3:作为本发明的优选技术方案,设计基于能量约束的归一化非线性奖励函数,计算在最小转角约束下机械臂的抓取控制的最优解。
Reward=-(α1RT2Rθ)
Figure BDA0003876890160000022
Figure BDA0003876890160000023
其中α是权重因子;RT是距离奖励,其中d是机械臂末端执行器到目标位置的距离,ds是机械臂工作空间的距离大小,δ是一个人为的阈值;Rθ是控制机械臂花费的能量奖励,θ是机械臂各个关节的转角,θs是关节的转动范围。
步骤2-4:通过对距离状态和机械臂转角状态进行归一化处理,把输入到深度强化学习网络的数据解算至相同的区间,统一了输入到神经网络中数据的运算范围,并且对变量进行非线性的变量映射,使得网络梯度下降的时候速率更快,从而加快训练,并改善了机械臂在目标附近时抖动严重等缺点。
步骤3:提出一种末端执行器速度平滑约束的示教机制,解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少,算法效率低的问题。
步骤3-1:基于Ros+Gazebo平台搭建UR3e机械臂的抓取仿真环境,使用Ros中提供的moveit机械臂功能包,并设置末端执行器以恒定速度移动为约束条件,实现UR3e机械臂的运动控制。
步骤3-2:在使用moveit控制机械臂的运动过程中,通过订阅Action消息,获得机械臂T(t1,t2,,t3…tn)时刻的位置、速度等状态信息。使用距离奖励
Figure BDA0003876890160000031
对所有获得的T时刻状态计算奖励。
步骤3-3:把基于机械臂模型控制产生的稳定的原始数据,打包为{St,At,Rt,St+1}格式,保存到经验库中,用于深度强化学习的参数训练。
步骤3-4:经验库的容量为M,当数据超过容量上限时候,停止基于示教模式的机械臂的运动控制,开始DDPG网络训练,并用最新的数据覆盖掉原来的数据。
步骤4:开始DDPG网络训练后,奖励函数采用定义的Reward公式进行计算。
步骤5:与现有技术相比,本发明的有益效果是:
(1)该方法将视觉感知和控制策略分开训练,而不是端对端训练。视觉感知模块计算被抓对象的3D位姿信息,然后根据平面操作台的约束条件补全并测量其它三维信息,最后根据坐标转换关系获得物体的6D位置信息,整个过程可以单独训练实现。使得该算法在新对象和环境中具有更强的泛化能力,将快速迁移到真实世界的机械臂上面。
(2)提出一种基于末端执行器速度平滑约束的示教机制,通过生成足量的有效初始数据解决了经典DDPG网络在最初训练时因为随机动作导致的有效数据少问题,提高数据的采样效率;设计基于能量约束的归一化非线性奖励函数,计算在最小转角约束下机械臂的抓取控制的最优解,不仅使得神经网络梯度下降的时候速率更快,加快训练,并且改善机械臂在目标附近的抖动问题。
附图说明
图1为本发明方法实施的整体示意图。
图2为本发明方法实施的流程示意图。
图3为本发明方法实例中图像检测跟踪模块示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供了一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法,如图3所示,是本发明方法实施的流程示意图,包括如下步骤。
(1)基于深度学习的图像检测跟踪模块。本实施例中采用的是YOLOv4网络框架融合卡尔曼滤波实现目标跟踪。具体步骤如下:
(1-1)根据待抓取物体,收集照片并按照voc数据集格式制作自己的数据集。使用coco数据集对YOLOv4网络进行预训练,在预训练模型基础上,根据制作的数据集继续训练网络模型使网络收敛。
(1-2)根据目标检测框的结果,使用卡尔曼滤波算法,实现目标跟踪。
(1-3)定义***状态X=[x,y,w,h,dx,dy],x,y,为目标检测框的左上角像素坐标w,h为检测框的长宽,其中dx和dy是当前时刻与上一时刻x,y的差值。
(1-4)状态方程xK=Axk-1+Buk-1+wk-1,状态转移矩阵
Figure BDA0003876890160000041
控制输入矩阵B为零矩阵,过程的噪声主要来自于目标移动的不确定性(如突然加减速,转弯等),p(w)~N(0,Q)。
(1-5)观测方程为zk=Hxk+vk,使用t时刻的最优估计值与t+1时刻的检测框,取IOU最大的作为t+1时刻的观测值,如果IOU匹配失败则使用上一次的最优估计值直接作为观测值,每帧更新一次状态,直到找到匹配框。观测噪声主要来自于检测框丢失,重叠、不准确等,p(w)~N(0,R),且观测噪声远大于过程噪声。
(1-6)根据目标检测跟踪框的信息,结合待检测对象的颜色、形状等特征,计算待测物体的最小外接矩形,然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θz,得到目标的3D(x,y,θz)信息。
(1-7)在获得目标物体的3D位姿基础上,根据机械臂实际工作场景的中的物理约束,令绕x,y轴的转角θx=θy=0,测量获取摄像头到机械臂底座的垂直位置关系补全z轴坐标,根据坐标变换关系,将物体在图像坐标系下的坐标转换为基于机械臂底座的6D(x,y,z,θxyz)姿态信息。
(2)基于Ros+Gazebo仿真环境搭建机械臂的仿真环境。本实施例中使用的是UR3e机械臂,末端执行器为RG2,深度强化学习网络框架为DDPG网络进行机械臂的运动控制。具体步骤如下:
(2-1)搭建Ros环境,在Gazebo中导入UR3e机械臂、末端执行器和待抓取物体的模型。
(2-2)使用Ros中提供的moveit机械臂功能包,并设置末端执行器以恒定速度移动为约束条件,实现UR3e机械臂的运动控制。
(2-3)在机械臂的运动过程中,通过订阅Action消息,获得机械臂T(t1,t2,,t3…tn)时刻的位置、速度等状态信息。使用距离奖励
Figure BDA0003876890160000042
对所有获得的T时刻状态计算奖励。
(2-4)把基于机械臂模型控制产生的稳定的原始数据,打包为{St,At,Rt,St+1}格式,保存到经验库中,用于深度强化学习参数训练。
(2-5)经验库的容量为M,当数据超过容量上限时候,停止基于示教模式的机械臂的运动控制,开始DDPG网络训练,并用最新的数据覆盖掉原来的数据。
(2-6)实施实例中采用DDPG算法,搭建Actor-Critic神经网络框架,由4个神经网络组成,两两结构相同,分别是Actor网络和Critic网络。
(2-7)设置状态空间,
Figure BDA0003876890160000043
包括目标的位姿(6维),机械臂关节转角(6维)和微分变量,末端执行器的位姿(6维)和微分变量。
(2-8)设置归一化非线性奖励函数,计算在最小转角约束下机械臂的抓取控制的最优解。
Reward=-(α1RT2Rθ)
Figure BDA0003876890160000051
Figure BDA0003876890160000052
其中α是权重影子;RT是距离奖励,其中d是机械臂末端执行器到目标位置的距离,ds是机械臂工作空间的大小,δ是一个人为的阈值;Rθ是控制机械臂花费的能量奖励,θ是机械臂各个关节的转角,θs是关节的转动范围,Rθ的大小为机械臂转角θ的范数平方。
(2-9)通过对距离状态和机械臂转角状态进行归一化处理,把输入到深度强化学习网络的数据解算至相同的区间,统一了输入到神经网络中数据的运算范围,并且对变量进行非线性的函数映射,使得网络梯度下降的时候速率更快,从而加快训练。
(3)DDPG算法的详细流程描述如下:
输入:Actor1当前网络,Actor2目标网络,Critic1当前网络,Critic2目标网络,参数分别为θμ,θμ’,θQ,θQ’,折扣因子γ,软更新系数τ,批量梯度下降的样本数N,目标网络参数更新频率C,最大迭代次数T,随机噪声函数Nt
输出:最优Actor当前网络参数θμ,Critic当前网络参数θQ
1、随机初始化权重为θQ和θμ的Critic当前网络Q(s,a|θQ)和Actor当前网络μ(s|θμ)
2、使用权重θQ′←θQ,θμ′←θμ,初始化目标网络Q’μ’
3、初始化经验回放池R
对于训练集数从1到M循环:
4、初始化随机过程tN以进行动作探索
5、接收初始观测状态1s
对于迭代步数t从1到T循环:
6、根据当前策略和探索噪声选择动作
7、执行动作at,获得奖励rt,新状态St+1,判断是否到达终止状态
8、将状态转移过程元组(st,at,rt,st+1)存储到R中
9、从R中随机采样批量大小为N的状态转移过程元组(si,ai,ri,si+1)
10、令yi=ri+γQ(si+1,μ′(si+1μ′)|θQ′)
11、使用均方差损失函数通过神经网络的梯度反向传播来更新Critic当前网络的所有参数:
Figure BDA0003876890160000053
12、使用采样策略梯度通过神经网络的梯度反向传播来更新Actor当前网络的所有参数:
Figure BDA0003876890160000054
13、如果迭代总数ttotal%c=1,则更新Critic目标网络和Actor目标网络参数:
θQ′←τθQ+(1-τ)θQ′
θμ′←τθμ+(1-τ)θμ′
14、如果st+1是终止状态,则当前训练集的迭代完毕,否则继续迭代
结束以训练步数t为基准的循环
结束以训练集数为基准的循环
(4)迁移训练的详细流程描述如下:
(4-1)在仿真中按照DDPG的算法流程训练模型并保存,然后加载模型参数,在真实机械臂上进行迁移训练,在真实世界中控制机械臂训练网络的过程步骤和仿真中网络的训练流程相同,直到在真实机械臂控制中的模型从新收敛训练,保存模型。
(4-2)在真实世界中加载训练好的模型进行机械臂的控制与抓取。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (4)

1.一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法,该算法包括以下步骤:
步骤1:基于YOLOv4网络融合卡尔曼滤波实现待抓取目标的检测与跟踪,获得目标平面上的3D(x,y,θz)信息。
步骤2:设计一种能量约束的归一化非线性奖励函数Reward,在Ros+Gazebo中搭建UR3e仿真环境,通过在仿真中训练网络,使模型快速收敛,进而对模型迁移训练控制现实中机械臂实现抓取。
步骤3:提出一种末端执行器速度平滑约束的示教机制,解决经典DDPG网络在初始化训练初由于动作随机导致的有效数据少,算法效率低的问题。
2.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法,步骤1具体步骤如下:
(1)使用coco数据集对深度学习网络进行预训练,收集待抓取物体照片,并按照voc数据集格式制作自己的数据集。在预训练模型基础上,根据制作的数据集继续训练网络模型使网络收敛。
(2)对目标检测的结果,融合卡尔曼滤波算法,实现目标检测与跟踪。
(3)根据目标检测框和待检测对象的颜色、形状等特征,计算待测物体的最小外接矩形,然后提取最小外接矩形的重心坐标(x,y)与绕z轴的转角θz,得到目标的3D(x,y,θz)信息。
3.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂控制抓取方法,步骤2具体步骤如下:
(1)在步骤1中获得目标物体的3D位姿基础上,令绕x,y轴的转角θx=θy=0,测量获取摄像头到机械臂底座的垂直距离补全z轴坐标,根据坐标变换关系,得到目标物体基于机械臂底座坐标系的6D(x,y,z,θxyz)位姿信息。
(2)定义状态空间
Figure FDA0003876890150000011
包括目标的位姿(6维)和微分变量,机械臂关节转角(6维)和微分变量,末端执行器的位姿(6维)和微分变量。
(3)为了解决(多关节)机械臂因多解导致的机械臂抖动问题,设计基于能量约束的归一化非线性奖励函数,计算在最小转角约束下机械臂的抓取控制的最优解。
Reward=-(α1RT2Rθ)
Figure FDA0003876890150000012
Figure FDA0003876890150000013
其中α是权重因子;RT是距离奖励,其中d是机械臂末端执行器到目标位置的距离,ds是机械臂工作空间的距离大小,δ是一个人为的阈值;Rθ是控制机械臂花费的能量奖励,θ是机械臂各个关节的转角,θs是关节的转动范围。
通过对距离状态和机械臂转角状态进行归一化处理,把输入到深度强化学习网络的数据解算至相同的区间,统一输入到神经网络中数据的运算范围,并且对变量进行二次函数关系的非线性的函数映射,使得网络梯度下降的时候速率更快,从而加快训练。并且,通过设计能量约束函数,对机械臂的转角进行约束,改善机械臂因多解问题而抖动的缺点,计算在最小转角约束下机械臂的抓取控制的最优解。
4.如权利要求1所述的一种基于视觉信息的深度强化学习DDPG算法的机械臂抓取控制方法,步骤3具体步骤如下:
(1)使用ROS的moveit机械臂功能包,并设置末端执行器以恒定速度移动为约束条件,实现UR3e臂的运动控制。
(2)在机械臂的运动过程中,订阅UR3e过程中的action消息,获得机械臂T时刻的位置、速度等状态信息。使用距离奖励
Figure FDA0003876890150000021
对所有获得的T时刻状态计算奖励。
(3)把基于机械臂模型控制产生的稳定的原始数据序列,打包为{St,At,Rt,St+1}格式,保存到经验库中,经验库的容量为M。
(4)在强化学习最初训练的阶段,使用基于示教方式保存的数据作为初始数据,解决DDPG网络在最初训练时,因为随机动作导致的有效数据少、训练效率低等问题。
CN202211218404.9A 2022-10-05 2022-10-05 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法 Active CN115464659B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211218404.9A CN115464659B (zh) 2022-10-05 2022-10-05 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211218404.9A CN115464659B (zh) 2022-10-05 2022-10-05 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法

Publications (2)

Publication Number Publication Date
CN115464659A true CN115464659A (zh) 2022-12-13
CN115464659B CN115464659B (zh) 2023-10-24

Family

ID=84334496

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211218404.9A Active CN115464659B (zh) 2022-10-05 2022-10-05 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法

Country Status (1)

Country Link
CN (1) CN115464659B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168062A (zh) * 2023-04-21 2023-05-26 深圳佑驾创新科技有限公司 一种3d目标跟踪方法及装置
CN117182930A (zh) * 2023-11-07 2023-12-08 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、***、设备及介质
CN117193020A (zh) * 2023-10-12 2023-12-08 武汉科技大学 一种基于全自动液体样本处理工作站的目标识别和路径规划方法
CN117313546A (zh) * 2023-10-26 2023-12-29 北京大学 可信赖灵巧手***仿真方法及仿真***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
CN112102405A (zh) * 2020-08-26 2020-12-18 东南大学 基于深度强化学习的机器人搅动-抓取组合方法
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
WO2021164276A1 (zh) * 2020-07-31 2021-08-26 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质
CN113470076A (zh) * 2021-07-13 2021-10-01 南京农业大学 一种平养鸡舍黄羽鸡多目标跟踪方法
KR102391593B1 (ko) * 2020-10-30 2022-04-29 주식회사 써로마인드 로봇 시뮬레이터 장치 및 그를 이용한 시뮬레이션 방법
CN114596340A (zh) * 2022-03-08 2022-06-07 南京航空航天大学 一种监控视频的多目标跟踪方法及***

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109948642A (zh) * 2019-01-18 2019-06-28 中山大学 基于图像输入的多智能体跨模态深度确定性策略梯度训练方法
CN110989576A (zh) * 2019-11-14 2020-04-10 北京理工大学 速差滑移转向车辆的目标跟随及动态障碍物避障控制方法
WO2021164276A1 (zh) * 2020-07-31 2021-08-26 平安科技(深圳)有限公司 目标跟踪方法、装置、计算机设备及存储介质
CN112102405A (zh) * 2020-08-26 2020-12-18 东南大学 基于深度强化学习的机器人搅动-抓取组合方法
CN112528552A (zh) * 2020-10-23 2021-03-19 洛阳银杏科技有限公司 一种基于深度强化学习的机械臂控制模型构建方法
KR102391593B1 (ko) * 2020-10-30 2022-04-29 주식회사 써로마인드 로봇 시뮬레이터 장치 및 그를 이용한 시뮬레이션 방법
CN112338921A (zh) * 2020-11-16 2021-02-09 西华师范大学 一种基于深度强化学习的机械臂智能控制快速训练方法
CN113470076A (zh) * 2021-07-13 2021-10-01 南京农业大学 一种平养鸡舍黄羽鸡多目标跟踪方法
CN114596340A (zh) * 2022-03-08 2022-06-07 南京航空航天大学 一种监控视频的多目标跟踪方法及***

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116168062A (zh) * 2023-04-21 2023-05-26 深圳佑驾创新科技有限公司 一种3d目标跟踪方法及装置
CN116168062B (zh) * 2023-04-21 2023-09-29 深圳佑驾创新科技股份有限公司 一种3d目标跟踪方法及装置
CN117193020A (zh) * 2023-10-12 2023-12-08 武汉科技大学 一种基于全自动液体样本处理工作站的目标识别和路径规划方法
CN117193020B (zh) * 2023-10-12 2024-05-07 武汉科技大学 一种基于全自动液体样本处理工作站的目标识别和路径规划方法
CN117313546A (zh) * 2023-10-26 2023-12-29 北京大学 可信赖灵巧手***仿真方法及仿真***
CN117182930A (zh) * 2023-11-07 2023-12-08 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、***、设备及介质
CN117182930B (zh) * 2023-11-07 2024-02-13 山东捷瑞数字科技股份有限公司 基于数字孪生的四轴机械臂绑定方法、***、设备及介质

Also Published As

Publication number Publication date
CN115464659B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN115464659A (zh) 一种基于视觉信息的深度强化学习ddpg算法的机械臂抓取控制方法
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
US11529733B2 (en) Method and system for robot action imitation learning in three-dimensional space
Breyer et al. Comparing task simplifications to learn closed-loop object picking using deep reinforcement learning
WO2020207017A1 (zh) 农业场景无标定机器人运动视觉协同伺服控制方法与设备
CN111872934B (zh) 一种基于隐半马尔可夫模型的机械臂控制方法及***
CN107363813A (zh) 一种基于可穿戴设备的桌面工业机器人示教***和方法
CN111260649B (zh) 一种近距离机械臂感知与校准方法
CN109483534A (zh) 一种物体抓取方法、装置和***
CN113821045A (zh) 一种腿足机器人强化学习动作生成***
CN113076615A (zh) 基于对抗式深度强化学习的高鲁棒性机械臂操作方法及***
Li et al. Intelligent control strategy for robotic arm by using adaptive inertia weight and acceleration coefficients particle swarm optimization
Luo et al. Calibration-free monocular vision-based robot manipulations with occlusion awareness
CN111152220A (zh) 一种基于人机融合的机械臂控制方法
CN114536351B (zh) 冗余双臂机器人示教方法、装置、电子设备及***
CN116852347A (zh) 一种面向非合作目标自主抓取的状态估计与决策控制方法
Lin et al. The arm planning with dynamic movement primitive for humanoid service robot
Yu et al. Real-time multitask multihuman–robot interaction based on context awareness
Zhou et al. Intelligent Control of Manipulator Based on Deep Reinforcement Learning
Fang et al. Learning from wearable-based teleoperation demonstration
Ruud Reinforcement learning with the TIAGo research robot: manipulator arm control with actor-critic reinforcement learning
CN116901084A (zh) 腿臂协作机器人跳舞的轨迹生成与跟踪控制方法及***
Zhou et al. The path trajectory planning of swinging legs for humanoid robot
Phiri et al. Enhanced robot learning using fuzzy q-learning & context-aware middleware
Yagi et al. Unsupervised Neural Motion Retargeting for Humanoid Teleoperation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant