CN106094516A - 一种基于深度强化学习的机器人自适应抓取方法 - Google Patents

一种基于深度强化学习的机器人自适应抓取方法 Download PDF

Info

Publication number
CN106094516A
CN106094516A CN201610402319.6A CN201610402319A CN106094516A CN 106094516 A CN106094516 A CN 106094516A CN 201610402319 A CN201610402319 A CN 201610402319A CN 106094516 A CN106094516 A CN 106094516A
Authority
CN
China
Prior art keywords
robot
target
network
photo
deeply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610402319.6A
Other languages
English (en)
Inventor
陈春林
侯跃南
刘力锋
魏青
徐旭东
朱张青
辛博
马海兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201610402319.6A priority Critical patent/CN106094516A/zh
Publication of CN106094516A publication Critical patent/CN106094516A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Image Analysis (AREA)
  • Manipulator (AREA)

Abstract

本发明提供了一种基于深度强化学习的机器人自适应抓取方法,步骤包括:在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导航;当目标进入机械手臂抓范围内时,再通过前部的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取;根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。该抓取方法能够对大小形状不同、位置不固定的物体实现自适应抓取,具有良好的市场应用前景。

Description

一种基于深度强化学习的机器人自适应抓取方法
技术领域
本发明涉及一种机器人抓取物体的方法,尤其是一种基于深度强化学习的机器人自适应抓取方法。
背景技术
自主机器人是高度智能化的服务型机器人,具有对外界环境的学习功能。为了实现各种基本活动(如定位、移动、抓取)的功能,需要机器人配有机械手臂和机械手爪并融合多传感器的信息来进行机器学习(如深度学习和强化学习),与外界环境进行交互,实现其感知、决策和行动等各项功能。现在绝大多数抓取型机器人工作在待抓取物件大小、形状和位置相对固定的情况,并且抓取技术主要是基于超声波、红外和激光测距等传感器,因此使用范围很受限制,无法适应抓取环境更为复杂、抓取物件大小、形状和位置不固定的情况;目前,现有的视觉型机器人技术很难解决输入的视觉信息维度高、数据量大的“维数灾难”问题;并且,利用机器学习训练的神经网络也很难收敛,无法直接处理输入的图像信息。总体来说,现在的视觉型抓取服务机器人的控制技术尚未达到令人满意的结果,尤其在实用中还需要进一步优化。
发明内容
本发明要解决的技术问题是现有的无法适应抓取环境更为复杂、抓取物件大小、形状和位置不固定的情况。
为了解决上述技术问题,本发明提供了一种基于深度强化学习的机器人自适应抓取方法,包括如下步骤:
步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导航;
步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取;
步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。
作为本发明的进一步限定方案,步骤1中根据照片利用双目测距方法计算出目标的位置信息的具体步骤为:
步骤1.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及目标点在左右两个摄像头的像平面的投影点到各自像平面最左侧的物理距离xl和xr,左右两个摄像头对应的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头的光心投影分别位于相应像平面的中心处,则视差d为:
d=xl-xr (1)
步骤1.2,利用三角形相似原理建立Q矩阵为:
Q = 1 0 0 - c x 0 1 0 - c y 0 0 0 f 0 0 - 1 T x c x - c x ′ T x - - - ( 2 )
Q x y d 1 = x - c x y - c y f - d + c x - c x ′ T x = X Y Z W - - - ( 3 )
式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,cx和cy分别为左侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,cx'为cx的修正值;
步骤1.3,计算得到目标点到成像平面的空间距离为:
Z = - T x f d - ( c x - c x ′ ) - - - ( 4 )
将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X,Y,Z)作为导航目的地进行机器人导航。
作为本发明的进一步限定方案,步骤2中利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取的具体步骤为:
步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时刻之前的观察量和动作的集合为:
st=(x1,a1,...,at-1,xt)=xt (5)
式(5)中,xt和at分别为t时刻的观察量以及所采取的动作;
步骤2.2,利用策略值函数来描述抓取过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (6)
式(6)中,为时刻t获得的打过折扣以后的未来收益总和,γ∈[0,1]为折扣因子,r(st,at)为时刻t的收益函数,T为抓取结束的时刻,π为抓取策略;
由于抓取的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为N维度的动作空间,同时利用贝尔曼方程处理式(6)有:
Q μ ( s t , a t ) = E s t + 1 ~ E [ r ( s t , a t ) + γQ μ ( s t + 1 , μ ( s t + 1 ) ) ] - - - ( 7 )
式(7)中,st+1~E表示t+1时刻的观察量是从环境E中获得的,μ(st+1)表示t+1时刻从观察量通过函数μ所映射到的动作;
步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为θQ的策略评估网络Q(s,a|θQ),所采用的损失函数为:
L(θQ)=Eμ'[(Q(st,atQ)-yt)2] (8)
式(8)中,yt=r(st,at)+γQ(st+1,μ(st+1)|θQ)为目标策略评估网络,μ'为目标策略;
步骤2.4,对于实际的参数为θμ的策略函数μ(s|θμ),利用链式法得到的梯度为:
▿ θ μ μ ≈ E μ ′ [ ▿ θ μ Q ( s , a | θ Q ) | s = s t , a = μ ( s t | θ μ ) ] = E μ ′ [ ▿ a Q ( s , a | θ Q ) | s = s t , a = μ ( s t ) ▿ θ μ ( s | θ μ ) | s = s t ] - - - ( 9 )
由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数μ(s|θμ);
步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本缓冲区中得到,以最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即采用经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:
θQ'←τθQ+(1-τ)θQ' (10)
θμ'←τθμ+(1-τ)θμ' (11)
式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学习网络,且为收敛的神经网络;
步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机器人的控制策略。
作为本发明的进一步限定方案,步骤2.6中的深度强化学习网络由一个图像输入层、两个卷积层、两个全连接层以及一个输出层构成,图像输入层用于输入包含待抓取物体的图像;卷积层用于提取特征,即一个图像的深层表现形式;全连接层和输出层用于构成一个深层网络,通过训练以后,输入特征信息到该深层网络即可输出控制指令,即控制机器人的机械手臂舵机角度和控制搭载小车的直流电机转速。将所选择的卷积层和全连接层的数量为两个的目的是既可以有效提取图像特征,又可以使得神经网络在训练时便于收敛。
本发明的有益效果在于:(1)预训练神经网络时采用经验回放机制和随机采样确定输入的图像信息可以有效解决照片前后相关度较大不满足神经网络对于输入数据彼此独立要求的问题;(2)通过深度学习实现数据降维,采用目标Q值网络法来不断调整神经网络的权重矩阵,可以尽可能地保证训练的神经网络收敛;(3)已经训练好的基于DDPG的深度强化学习神经网络可以实现数据降维和物件特征提取,并直接给出机器人的运动控制策略,有效解决“维数灾难”问题。
附图说明
图1为本发明的***结构示意图;
图2为本发明的方法流程图;
图3为本发明的双目测距方法平面示意图;
图4为本发明的双目测距技术立体示意图;
图5为本发明的基于DDPG的深度强化学习网络的构成示意图。
具体实施方式
如图1所示,本发明的一种基于深度强化学习方法的机器人自适应抓取的***包括:图像处理***、无线通讯***和机器人运动***。
其中,图像处理***主要有安装在机器人前部的摄像头和matlab软件构成;无线通讯***主要由WIFI模块构成;机器人运动***主要由底座小车和机械手臂构成;首先需要借助动力学仿真平台预训练基于DDPG(深度确定性策略梯度)的深度强化学习网络,在此过程中通常采用经验回放机制和目标Q值网络这两种方法来确保基于DDPG的深度强化学习网络在预训练过程中能收敛,接着图像处理***获取目标物体的图像,通过无线通讯***将图像信息传给电脑,在机器人距离待抓取物体较远时,采用双目测距技术,以得到目标物体的位置信息并将其用于机器人的导航。
当机器人移动至机械手臂可以抓到物体时,此时再拍摄物体照片并利用已经训练好的基于DDPG的深度强化学习网络实现数据降维提取特征并给出机器人的控制策略,最后将控制策略通过无线通讯***传送给机器人运动***来控制机器人的运动状态,实现目标物体的准确抓取。
预训练时首先利用matlab软件将目标物体的RGB图像转化为灰度图像,再采用经验回放机制,使得照片前后相关度尽可能小以满足神经网络对于输入数据彼此独立的要求,最后通过随机采样来获得输入神经网络的图像;通过深度学习实现数据降维,采用目标Q值网络法来不断调整神经网络的权重矩阵,最终得到收敛的神经网络。
机器人的控制用Arduino板实现,板上自带了WIFI模块,机械手臂由4个舵机构成,共实现4个自由度,底座小车由直流电机驱动;图像处理***主要由摄像头及其图像传输软件和matlab为主;摄像头拍摄到的目标物体的照片将由Arduino板上的WIFI模块传输到电脑,并交由matlab处理。
***在工作时,步骤如下:
步骤1,首先需要借助动力学仿真平台预训练基于DDPG(深度确定性策略梯度)的深度强化学习网络,在此过程中通常采用经验回放机制和目标Q值网络这两种方法来确保基于DDPG的深度强化学习网络在预训练过程中能收敛;
步骤2,用安装在机器人前部的摄像头获取目标物体的图像,利用WIFI模块将图像信息传给电脑;
步骤3,在机器人距离待抓取物体较远时,采用双目测距技术,以得到目标物体的位置信息并将其用于机器人的导航;
步骤4,当机器人移动至机械手臂可以抓到物体时,此时再拍摄物体照片并利用已经训练好的基于DDPG的深度强化学习网络实现数据降维提取特征并给出机器人的控制策略;
步骤5,利用WIFI模块将控制信息传送给机器人运动***,实现目标物体的准确抓取;
如图3和图4所示,双目测距技术主要利用了目标点在左右两幅视图上成像的横向坐标直接存在的差异(即视差)与目标点到成像平面的距离存在着反比例的关系。一般情况下,焦距的量纲是像素点,摄像头中心距的量纲由定标板棋盘格的实际尺寸和我们的输入值确定,一般是以毫米为单位(为了提高精度我们设置为0.1毫米量级),视差的量纲也是像素点。因此分子分母约去,目标点到成像平面的距离的量纲与摄像头中心距的相同。
如图5所示,基于DDPG的深度强化学习网络主要由一个图像输入层、两个卷积层、两个全连接层、一个输出层构成。深度网络架构用于实现数据降维,卷积层用于提取特征,输出层输出控制信息。
如图2所示,本发明提供了一种基于深度强化学习的机器人自适应抓取方法,包括如下步骤:
步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导航;
步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取;
步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。
其中,步骤1中根据照片利用双目测距方法计算出目标的位置信息的具体步骤为:
步骤1.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及目标点在左右两个摄像头的像平面的投影点到各自像平面最左侧的物理距离xl和xr,左右两个摄像头对应的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头的光心投影分别位于相应像平面的中心处,即Ol、Or在成像平面的投影点,则视差d为:
d=xl-xr (1)
步骤1.2,利用三角形相似原理建立Q矩阵为:
Q = 1 0 0 - c x 0 1 0 - c y 0 0 0 f 0 0 - 1 T x c x - c x ′ T x - - - ( 2 )
Q x y d 1 = x - c x y - c y f - d + c x - c x ′ T x = X Y Z W - - - ( 3 )
式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,cx和cy分别为左侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,cx'为cx的修正值(两者数值一般相差不大,在本发明中可以认为两者近似相等);
步骤1.3,计算得到目标点到成像平面的空间距离为:
Z = - T x f d - ( c x - c x ′ ) - - - ( 4 )
将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X,Y,Z)作为导航目的地进行机器人导航。
步骤2中利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取的具体步骤为:
步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时刻之前的观察量和动作的集合为:
st=(x1,a1,...,at-1,xt)=xt (5)
式(5)中,xt和at分别为t时刻的观察量以及所采取的动作;
步骤2.2,利用策略值函数来描述抓取过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (6)
式(6)中,为时刻t获得的打过折扣以后的未来收益总和,γ∈[0,1]为折扣因子,r(st,at)为时刻t的收益函数,T为抓取结束的时刻,π为抓取策略;
由于抓取的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为N维度的动作空间,同时利用贝尔曼方程处理式(6)有:
Q μ ( s t , a t ) = E s t + 1 ~ E [ r ( s t , a t ) + γQ μ ( s t + 1 , μ ( s t + 1 ) ) ] - - - ( 7 )
式(7)中,st+1~E表示t+1时刻的观察量是从环境E中获得的,μ(st+1)表示t+1
时刻从观察量通过函数μ所映射到的动作;
步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为θQ的策略评估网络Q(s,a|θQ),所采用的损失函数为:
L(θQ)=Eμ'[(Q(st,atQ)-yt)2] (8)
式(8)中,yt=r(st,at)+γQ(st+1,μ(st+1)|θQ)为目标策略评估网络,μ'为目标策略;
步骤2.4,对于实际的参数为θμ的策略函数μ(s|θμ),利用链式法得到的梯度为:
▿ θ μ μ ≈ E μ ′ [ ▿ θ μ Q ( s , a | θ Q ) | s = s t , a = μ ( s t | θ μ ) ] = E μ ′ [ ▿ a Q ( s , a | θ Q ) | s = s t , a = μ ( s t ) ▿ θ μ ( s | θ μ ) | s = s t ] - - - ( 9 )
由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数μ(s|θμ);
步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本缓冲区中得到,以最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即采用经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:
θQ'←τθQ+(1-τ)θQ' (10)
θμ'←τθμ+(1-τ)θμ' (11)
式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学习网络,且为收敛的神经网络;
步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机器人的控制策略;深度强化学习网络由一个图像输入层、两个卷积层、两个全连接层以及一个输出层构成,其中,所选择的卷积层和全连接层的数量为两个的目的是既可以有效提取图像特征,又可以使得神经网络在训练时便于收敛;图像输入层用于输入包含待抓取物体的图像;卷积层用于提取特征,即一个图像的深层表现形式,如一些线条、边、弧线等;全连接层和输出层用于构成一个深层网络,通过训练以后,输入特征信息到该网络可以输出控制指令,即控制机器人的机械手臂舵机角度和控制搭载小车的直流电机转速。
本发明预训练神经网络时采用经验回放机制和随机采样确定输入的图像信息可以有效解决照片前后相关度较大不满足神经网络对于输入数据彼此独立要求的问题;通过深度学习实现数据降维,采用目标Q值网络法来不断调整神经网络的权重矩阵,可以尽可能地保证训练的神经网络收敛;已经训练好的基于DDPG的深度强化学习神经网络可以实现数据降维和物件特征提取,并直接给出机器人的运动控制策略,有效解决“维数灾难”问题。

Claims (4)

1.一种基于深度强化学习的机器人自适应抓取方法,其特征在于,包括如下步骤:
步骤1,在距离待抓取目标一定距离时,机器人通过前部的摄像头获取目标的照片,再根据照片利用双目测距方法计算出目标的位置信息,并将计算出的位置信息用于机器人导航;
步骤2,机器人根据导航进行移动,当目标进入机械手臂抓范围内时,再通过前部的摄像头拍摄目标的照片,并利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取;
步骤3,根据特征提取结果得出机器人的控制策略,机器人利用控制策略来控制运动路径和机械手臂的位姿,从而实现目标的自适应抓取。
2.根据权利要求1所述的基于深度强化学习的机器人自适应抓取方法,其特征在于,步骤1中根据照片利用双目测距方法计算出目标的位置信息的具体步骤为:
步骤1.1,获取摄像头的焦距f、左右两个摄像头的中心距Tx以及目标点在左右两个摄像头的像平面的投影点到各自像平面最左侧的物理距离xl和xr,左右两个摄像头对应的左侧的像平面和右侧的像平面均为矩形平面,且位于同一成像平面上,左右两个摄像头的光心投影分别位于相应像平面的中心处,则视差d为:
d=xl-xr (1)
步骤1.2,利用三角形相似原理建立Q矩阵为:
Q = 1 0 0 - c x 0 1 0 - c y 0 0 0 f 0 0 - 1 T x c x - c x ′ T x - - - ( 2 )
Q x y d 1 = x - c x y - c y f - d + c x - c x ′ T x = X Y Z W - - - ( 3 )
式(2)和(3)中,(X,Y,Z)为目标点在以左摄像头光心为原点的立体坐标系中的坐标,W为旋转平移变换比例系数,(x,y)为目标点在左侧的像平面中的坐标,cx和cy分别为左侧的像平面和右侧的像平面的坐标系与立体坐标系中原点的偏移量,cx'为cx的修正值;
步骤1.3,计算得到目标点到成像平面的空间距离为:
Z = - T x f d - ( c x - c x ′ ) - - - ( 4 )
将左摄像头的光心所在位置作为机器人所在位置,将目标点的坐标位置信息(X,Y,Z)作为导航目的地进行机器人导航。
3.根据权利要求1或2所述的基于深度强化学习的机器人自适应抓取方法,其特征在于,步骤2中利用预先训练过的基于DDPG的深度强化学习网络对照片进行数据降维特征提取的具体步骤为:
步骤2.1,利用目标抓取过程符合强化学习且满足马尔科夫性质的条件,计算t时刻之前的观察量和动作的集合为:
st=(x1,a1,...,at-1,xt)=xt (5)
式(5)中,xt和at分别为t时刻的观察量以及所采取的动作;
步骤2.2,利用策略值函数来描述抓取过程的预期收益为:
Qπ(st,at)=E[Rt|st,at] (6)
式(6)中,为时刻t获得的打过折扣以后的未来收益总和,γ∈[0,1]为折扣因子,r(st,at)为时刻t的收益函数,T为抓取结束的时刻,π为抓取策略;
由于抓取的目标策略π是预设确定的,记为函数μ:S←A,S为状态空间,A为N维度的动作空间,同时利用贝尔曼方程处理式(6)有:
Q μ ( s t , a t ) = E s t + 1 ~ E [ r ( s t , a t ) + γQ μ ( s t + 1 , μ ( s t + 1 ) ) ] - - - ( 7 )
式(7)中,st+1~E表示t+1时刻的观察量是从环境E中获得的,μ(st+1)表示t+1时刻从观察量通过函数μ所映射到的动作;
步骤2.3,利用最大似然估计的原则,通过最小化损失函数来更新网络权重参数为θQ的策略评估网络Q(s,a|θQ),所采用的损失函数为:
L(θQ)=Eμ'[(Q(st,atQ)-yt)2] (8)
式(8)中,yt=r(st,at)+γQ(st+1,μ(st+1)|θQ)为目标策略评估网络,μ'为目标策略;
步骤2.4,对于实际的参数为θμ的策略函数μ(s|θμ),利用链式法得到的梯度为:
▿ θ μ μ ≈ E μ ′ [ ▿ θ μ Q ( s , a | θ Q ) | s = s t , a = μ ( s t | θ μ ) ] = E μ ′ [ ▿ a Q ( s , a | θ Q ) | s = s t , a = μ ( s t ) ▿ θ μ μ ( s | θ μ ) | s = s t ] - - - ( 9 )
由式(9)计算得到的梯度即为策略梯度,再利用策略梯度来更新策略函数μ(s|θμ);
步骤2.5,利用离策略算法来训练网络,网络训练中用到的样本数据从同一个样本缓冲区中得到,以最小化样本之间的关联性,同时用一个目标Q值网络来训练神经网络,即采用经验回放机制和目标Q值网络方法对于目标网络的更新,所采用的缓慢更新策略为:
θQ'←τθQ+(1-τ)θQ' (10)
θμ'←τθμ+(1-τ)θμ' (11)
式(10)和(11)中,τ为更新率,τ<<1,由此便构建了一个基于DDPG的深度强化学习网络,且为收敛的神经网络;
步骤2.6,利用构建好的深度强化学习网络对照片进行数据降维特征提取,获得机器人的控制策略。
4.根据权利要求3所述的基于深度强化学习的机器人自适应抓取方法,其特征在于,步骤2.6中的深度强化学习网络由一个图像输入层、两个卷积层、两个全连接层以及一个输出层构成,图像输入层用于输入包含待抓取物体的图像;卷积层用于提取特征,即一个图像的深层表现形式;全连接层和输出层用于构成一个深层网络,通过训练以后,输入特征信息到该深层网络即可输出控制指令,即控制机器人的机械手臂舵机角度和控制搭载小车的直流电机转速。
CN201610402319.6A 2016-06-08 2016-06-08 一种基于深度强化学习的机器人自适应抓取方法 Pending CN106094516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610402319.6A CN106094516A (zh) 2016-06-08 2016-06-08 一种基于深度强化学习的机器人自适应抓取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610402319.6A CN106094516A (zh) 2016-06-08 2016-06-08 一种基于深度强化学习的机器人自适应抓取方法

Publications (1)

Publication Number Publication Date
CN106094516A true CN106094516A (zh) 2016-11-09

Family

ID=57228280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610402319.6A Pending CN106094516A (zh) 2016-06-08 2016-06-08 一种基于深度强化学习的机器人自适应抓取方法

Country Status (1)

Country Link
CN (1) CN106094516A (zh)

Cited By (53)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106600650A (zh) * 2016-12-12 2017-04-26 杭州蓝芯科技有限公司 一种基于深度学习的双目视觉深度信息获取方法
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN106780605A (zh) * 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及***
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107139179A (zh) * 2017-05-26 2017-09-08 西安电子科技大学 一种智能服务机器人及工作方法
CN107168110A (zh) * 2016-12-09 2017-09-15 陈胜辉 一种物料抓取方法与***
CN107186708A (zh) * 2017-04-25 2017-09-22 江苏安格尔机器人有限公司 基于深度学习图像分割技术的手眼伺服机器人抓取***及方法
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和***
CN107479501A (zh) * 2017-09-28 2017-12-15 广州智能装备研究院有限公司 基于深度学习的3d零部件吸取方法
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及***
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及***
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108305275A (zh) * 2017-08-25 2018-07-20 深圳市腾讯计算机***有限公司 主动跟踪方法、装置及***
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及***
CN108415254A (zh) * 2018-03-12 2018-08-17 苏州大学 基于深度q网络的废品回收机器人控制方法及其装置
CN108536011A (zh) * 2018-03-19 2018-09-14 中山大学 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法
CN108594804A (zh) * 2018-03-12 2018-09-28 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109063827A (zh) * 2018-10-25 2018-12-21 电子科技大学 有限空间内自动拿取特定行李的方法、***、存储介质和终端
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制***
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109358628A (zh) * 2018-11-06 2019-02-19 江苏木盟智能科技有限公司 一种货箱对位方法及机器人
CN109407603A (zh) * 2017-08-16 2019-03-01 北京猎户星空科技有限公司 一种控制机械臂抓取物体的方法及装置
CN109483534A (zh) * 2018-11-08 2019-03-19 腾讯科技(深圳)有限公司 一种物体抓取方法、装置和***
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN109807882A (zh) * 2017-11-20 2019-05-28 株式会社安川电机 把持***、学习装置和把持方法
CN109909998A (zh) * 2017-12-12 2019-06-21 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
WO2019155061A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Distributional reinforcement learning using quantile function neural networks
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制***及其控制方法
CN110293549A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置及神经网络模型训练方法、装置
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及***
CN110328668A (zh) * 2019-07-27 2019-10-15 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法
CN110400345A (zh) * 2019-07-24 2019-11-01 西南科技大学 基于深度强化学习的放射性废物推抓协同分拣方法
CN110394804A (zh) * 2019-08-26 2019-11-01 山东大学 一种基于分层线程框架的机器人控制方法、控制器及***
CN110427021A (zh) * 2018-05-01 2019-11-08 本田技研工业株式会社 用于生成自动驾驶车辆交叉路口导航指令的***和方法
CN110691676A (zh) * 2017-06-19 2020-01-14 谷歌有限责任公司 使用神经网络和几何感知对象表示的机器人抓取预测
CN110722556A (zh) * 2019-10-17 2020-01-24 苏州恒辉科技有限公司 一种基于强化学习的可移动机械臂控制***及方法
CN111347411A (zh) * 2018-12-20 2020-06-30 中国科学院沈阳自动化研究所 基于深度学习的双臂协作机器人三维视觉识别抓取方法
WO2020134254A1 (zh) * 2018-12-27 2020-07-02 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112347900A (zh) * 2020-11-04 2021-02-09 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
US10926416B2 (en) 2018-11-21 2021-02-23 Ford Global Technologies, Llc Robotic manipulation using an independently actuated vision system, an adversarial control scheme, and a multi-tasking deep learning architecture
CN112734759A (zh) * 2021-03-30 2021-04-30 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置
CN112757284A (zh) * 2019-10-21 2021-05-07 佳能株式会社 机器人控制装置、方法和存储介质
CN113836788A (zh) * 2021-08-24 2021-12-24 浙江大学 基于局部数据增强的流程工业强化学习控制的加速方法
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133053A1 (en) * 2006-11-29 2008-06-05 Honda Motor Co., Ltd. Determination of Foot Placement for Humanoid Push Recovery
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索***
CN102902271A (zh) * 2012-10-23 2013-01-30 上海大学 基于双目视觉的机器人目标识别与抓取***及方法
CN203390936U (zh) * 2013-04-26 2014-01-15 上海锡明光电科技有限公司 实现动态实时抓取功能的自适应自动化机器人***
CN104778721A (zh) * 2015-05-08 2015-07-15 哈尔滨工业大学 一种双目图像中显著性目标的距离测量方法
CN105115497A (zh) * 2015-09-17 2015-12-02 南京大学 一种可靠的室内移动机器人精确导航定位***及方法
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105425828A (zh) * 2015-11-11 2016-03-23 山东建筑大学 基于传感器融合技术的机器人防碰撞冲击双臂协调控制***
CN105459136A (zh) * 2015-12-29 2016-04-06 上海帆声图像科技有限公司 机器人视觉抓取方法
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133053A1 (en) * 2006-11-29 2008-06-05 Honda Motor Co., Ltd. Determination of Foot Placement for Humanoid Push Recovery
CN102521205A (zh) * 2011-11-23 2012-06-27 河海大学常州校区 基于多Agent强化学习的机器人联合搜索***
CN102902271A (zh) * 2012-10-23 2013-01-30 上海大学 基于双目视觉的机器人目标识别与抓取***及方法
CN203390936U (zh) * 2013-04-26 2014-01-15 上海锡明光电科技有限公司 实现动态实时抓取功能的自适应自动化机器人***
CN105637540A (zh) * 2013-10-08 2016-06-01 谷歌公司 用于强化学习的方法和设备
CN104778721A (zh) * 2015-05-08 2015-07-15 哈尔滨工业大学 一种双目图像中显著性目标的距离测量方法
CN105137967A (zh) * 2015-07-16 2015-12-09 北京工业大学 一种深度自动编码器与q学习算法相结合的移动机器人路径规划方法
CN105115497A (zh) * 2015-09-17 2015-12-02 南京大学 一种可靠的室内移动机器人精确导航定位***及方法
CN105425828A (zh) * 2015-11-11 2016-03-23 山东建筑大学 基于传感器融合技术的机器人防碰撞冲击双臂协调控制***
CN105459136A (zh) * 2015-12-29 2016-04-06 上海帆声图像科技有限公司 机器人视觉抓取方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
TIMOTHY P. LILLICRAP 等: "Continuous Control with Deep Reinforcement Learning", 《GOOGLE DEEPMIND,ICLR 2016》 *
史忠植: "《心智计算》", 31 August 2015, 清华大学出版社 *
陈强: "基于双目立体视觉的三维重建", 《图形图像》 *

Cited By (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107168110A (zh) * 2016-12-09 2017-09-15 陈胜辉 一种物料抓取方法与***
CN106600650A (zh) * 2016-12-12 2017-04-26 杭州蓝芯科技有限公司 一种基于深度学习的双目视觉深度信息获取方法
CN106780605A (zh) * 2016-12-20 2017-05-31 芜湖哈特机器人产业技术研究院有限公司 一种基于深度学习机器人的目标物抓取位置的检测方法
CN106737673A (zh) * 2016-12-23 2017-05-31 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN106737673B (zh) * 2016-12-23 2019-06-18 浙江大学 一种基于深度学习的端到端的机械臂控制的方法
CN106873585A (zh) * 2017-01-18 2017-06-20 无锡辰星机器人科技有限公司 一种导航寻路方法、机器人及***
CN107186708B (zh) * 2017-04-25 2020-05-12 珠海智卓投资管理有限公司 基于深度学习图像分割技术的手眼伺服机器人抓取***及方法
CN107186708A (zh) * 2017-04-25 2017-09-22 江苏安格尔机器人有限公司 基于深度学习图像分割技术的手眼伺服机器人抓取***及方法
CN107092254B (zh) * 2017-04-27 2019-11-29 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN107092254A (zh) * 2017-04-27 2017-08-25 北京航空航天大学 一种基于深度增强学习的家用扫地机器人的设计方法
CN106970594B (zh) * 2017-05-09 2019-02-12 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN106970594A (zh) * 2017-05-09 2017-07-21 京东方科技集团股份有限公司 一种柔性机械臂的轨迹规划方法
CN107139179B (zh) * 2017-05-26 2020-05-29 西安电子科技大学 一种智能服务机器人及工作方法
CN107139179A (zh) * 2017-05-26 2017-09-08 西安电子科技大学 一种智能服务机器人及工作方法
US11554483B2 (en) 2017-06-19 2023-01-17 Google Llc Robotic grasping prediction using neural networks and geometry aware object representation
CN110691676A (zh) * 2017-06-19 2020-01-14 谷歌有限责任公司 使用神经网络和几何感知对象表示的机器人抓取预测
CN107479368A (zh) * 2017-06-30 2017-12-15 北京百度网讯科技有限公司 一种基于人工智能的训练无人机控制模型的方法及***
US11150655B2 (en) 2017-06-30 2021-10-19 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and system for training unmanned aerial vehicle control model based on artificial intelligence
CN107367929A (zh) * 2017-07-19 2017-11-21 北京上格云技术有限公司 更新q值矩阵的方法、存储介质和终端设备
CN109407603B (zh) * 2017-08-16 2020-03-06 北京猎户星空科技有限公司 一种控制机械臂抓取物体的方法及装置
CN109407603A (zh) * 2017-08-16 2019-03-01 北京猎户星空科技有限公司 一种控制机械臂抓取物体的方法及装置
CN108305275A (zh) * 2017-08-25 2018-07-20 深圳市腾讯计算机***有限公司 主动跟踪方法、装置及***
CN107450593A (zh) * 2017-08-30 2017-12-08 清华大学 一种无人机自主导航方法和***
CN107450593B (zh) * 2017-08-30 2020-06-12 清华大学 一种无人机自主导航方法和***
CN107562052A (zh) * 2017-08-30 2018-01-09 唐开强 一种基于深度强化学习的六足机器人步态规划方法
CN107450555A (zh) * 2017-08-30 2017-12-08 唐开强 一种基于深度强化学习的六足机器人实时步态规划方法
CN107748566B (zh) * 2017-09-20 2020-04-24 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN107748566A (zh) * 2017-09-20 2018-03-02 清华大学 一种基于强化学习的水下自主机器人固定深度控制方法
CN107479501A (zh) * 2017-09-28 2017-12-15 广州智能装备研究院有限公司 基于深度学习的3d零部件吸取方法
CN108051999A (zh) * 2017-10-31 2018-05-18 中国科学技术大学 基于深度强化学习的加速器束流轨道控制方法及***
CN109807882A (zh) * 2017-11-20 2019-05-28 株式会社安川电机 把持***、学习装置和把持方法
US11338435B2 (en) 2017-11-20 2022-05-24 Kabushiki Kaisha Yaskawa Denki Gripping system with machine learning
CN109807882B (zh) * 2017-11-20 2022-09-16 株式会社安川电机 把持***、学习装置和把持方法
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN108052004B (zh) * 2017-12-06 2020-11-10 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109909998A (zh) * 2017-12-12 2019-06-21 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
CN109909998B (zh) * 2017-12-12 2020-10-02 北京猎户星空科技有限公司 一种控制机械臂运动的方法及装置
CN108321795A (zh) * 2018-01-19 2018-07-24 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及***
CN108321795B (zh) * 2018-01-19 2021-01-22 上海交通大学 基于深度确定性策略算法的发电机组启停配置方法及***
US11887000B2 (en) 2018-02-09 2024-01-30 Deepmind Technologies Limited Distributional reinforcement learning using quantile function neural networks
WO2019155061A1 (en) * 2018-02-09 2019-08-15 Deepmind Technologies Limited Distributional reinforcement learning using quantile function neural networks
EP3701432A1 (en) * 2018-02-09 2020-09-02 DeepMind Technologies Limited Distributional reinforcement learning using quantile function neural networks
US11610118B2 (en) 2018-02-09 2023-03-21 Deepmind Technologies Limited Distributional reinforcement learning using quantile function neural networks
CN108415254B (zh) * 2018-03-12 2020-12-11 苏州大学 基于深度q网络的废品回收机器人控制方法
CN108594804A (zh) * 2018-03-12 2018-09-28 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108415254A (zh) * 2018-03-12 2018-08-17 苏州大学 基于深度q网络的废品回收机器人控制方法及其装置
CN108594804B (zh) * 2018-03-12 2021-06-18 苏州大学 基于深度q网络配送小车的自动行驶控制方法
CN108536011A (zh) * 2018-03-19 2018-09-14 中山大学 一种基于深度强化学习的六足机器人复杂地形自适应运动控制方法
CN110293549A (zh) * 2018-03-21 2019-10-01 北京猎户星空科技有限公司 机械臂控制方法、装置及神经网络模型训练方法、装置
CN110293549B (zh) * 2018-03-21 2021-06-22 北京猎户星空科技有限公司 机械臂控制方法、装置及神经网络模型训练方法、装置
CN110427021A (zh) * 2018-05-01 2019-11-08 本田技研工业株式会社 用于生成自动驾驶车辆交叉路口导航指令的***和方法
CN110427021B (zh) * 2018-05-01 2024-04-12 本田技研工业株式会社 用于生成自动驾驶车辆交叉路口导航指令的***和方法
CN108873687A (zh) * 2018-07-11 2018-11-23 哈尔滨工程大学 一种基于深度q学习的智能水下机器人行为体系结规划方法
CN109344877B (zh) * 2018-08-31 2020-12-11 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109344877A (zh) * 2018-08-31 2019-02-15 深圳先进技术研究院 一种样本数据处理方法、样本数据处理装置及电子设备
CN109116854A (zh) * 2018-09-16 2019-01-01 南京大学 一种基于强化学习的多组机器人协作控制方法及控制***
CN109523029B (zh) * 2018-09-28 2020-11-03 清华大学深圳研究生院 自适应双自驱动深度确定性策略梯度强化学习方法
CN109523029A (zh) * 2018-09-28 2019-03-26 清华大学深圳研究生院 用于训练智能体的自适应双自驱动深度确定性策略梯度强化学习方法
CN109063827A (zh) * 2018-10-25 2018-12-21 电子科技大学 有限空间内自动拿取特定行李的方法、***、存储介质和终端
CN109063827B (zh) * 2018-10-25 2022-03-04 电子科技大学 有限空间内自动拿取特定行李的方法、***、存储介质和终端
CN109358628A (zh) * 2018-11-06 2019-02-19 江苏木盟智能科技有限公司 一种货箱对位方法及机器人
CN109483534A (zh) * 2018-11-08 2019-03-19 腾讯科技(深圳)有限公司 一种物体抓取方法、装置和***
US10926416B2 (en) 2018-11-21 2021-02-23 Ford Global Technologies, Llc Robotic manipulation using an independently actuated vision system, an adversarial control scheme, and a multi-tasking deep learning architecture
CN111347411B (zh) * 2018-12-20 2023-01-24 中国科学院沈阳自动化研究所 基于深度学习的双臂协作机器人三维视觉识别抓取方法
CN111347411A (zh) * 2018-12-20 2020-06-30 中国科学院沈阳自动化研究所 基于深度学习的双臂协作机器人三维视觉识别抓取方法
WO2020134254A1 (zh) * 2018-12-27 2020-07-02 南京芊玥机器人科技有限公司 一种基于强化学习的喷涂机器人轨迹优化方法
CN109760046A (zh) * 2018-12-27 2019-05-17 西北工业大学 基于强化学习的空间机器人捕获翻滚目标运动规划方法
CN110323981A (zh) * 2019-05-14 2019-10-11 广东省智能制造研究所 一种控制永磁同步直线电机的方法及***
CN110202583A (zh) * 2019-07-09 2019-09-06 华南理工大学 一种基于深度学习的仿人机械手控制***及其控制方法
CN110400345A (zh) * 2019-07-24 2019-11-01 西南科技大学 基于深度强化学习的放射性废物推抓协同分拣方法
CN110400345B (zh) * 2019-07-24 2021-06-15 西南科技大学 基于深度强化学习的放射性废物推抓协同分拣方法
CN110328668B (zh) * 2019-07-27 2022-03-22 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法
CN110328668A (zh) * 2019-07-27 2019-10-15 南京理工大学 基于速度平滑确定性策略梯度的机械臂路径规划方法
CN110394804B (zh) * 2019-08-26 2022-08-12 山东大学 一种基于分层线程框架的机器人控制方法、控制器及***
CN110394804A (zh) * 2019-08-26 2019-11-01 山东大学 一种基于分层线程框架的机器人控制方法、控制器及***
CN110722556A (zh) * 2019-10-17 2020-01-24 苏州恒辉科技有限公司 一种基于强化学习的可移动机械臂控制***及方法
CN112757284A (zh) * 2019-10-21 2021-05-07 佳能株式会社 机器人控制装置、方法和存储介质
CN112757284B (zh) * 2019-10-21 2024-03-22 佳能株式会社 机器人控制装置、方法和存储介质
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111618847B (zh) * 2020-04-22 2022-06-21 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN112347900B (zh) * 2020-11-04 2022-10-14 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
CN112347900A (zh) * 2020-11-04 2021-02-09 中国海洋大学 基于距离估计的单目视觉水下目标自动抓取方法
CN112734759A (zh) * 2021-03-30 2021-04-30 常州微亿智造科技有限公司 飞拍拍摄触发点的确定方法和装置
CN113836788B (zh) * 2021-08-24 2023-10-27 浙江大学 基于局部数据增强的流程工业强化学习控制的加速方法
CN113836788A (zh) * 2021-08-24 2021-12-24 浙江大学 基于局部数据增强的流程工业强化学习控制的加速方法
CN114454160A (zh) * 2021-12-31 2022-05-10 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***
CN114454160B (zh) * 2021-12-31 2024-04-16 中国人民解放军国防科技大学 基于核最小二乘软贝尔曼残差强化学习的机械臂抓取控制方法及***

Similar Documents

Publication Publication Date Title
CN106094516A (zh) 一种基于深度强化学习的机器人自适应抓取方法
WO2021160184A1 (en) Target detection method, training method, electronic device, and computer-readable medium
JP6987508B2 (ja) 形状推定装置及び方法
CN105787439B (zh) 一种基于卷积神经网络的深度图像人体关节定位方法
Fan et al. Learning collision-free space detection from stereo images: Homography matrix brings better data augmentation
CN107909061B (zh) 一种基于不完备特征的头部姿态跟踪装置及方法
CN106444780B (zh) 一种基于视觉定位算法的机器人的自主导航方法及***
CN107450555A (zh) 一种基于深度强化学习的六足机器人实时步态规划方法
US20170221226A1 (en) Camera calibration
CN110175566A (zh) 一种基于rgbd融合网络的手部姿态估计***及方法
CN105631861B (zh) 结合高度图从无标记单目图像中恢复三维人体姿态的方法
CN108986136A (zh) 一种基于语义分割的双目场景流确定方法及***
WO2019230339A1 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
US20220153298A1 (en) Generating Motion Scenarios for Self-Driving Vehicles
CN107397658B (zh) 一种多尺度全卷积网络及视觉导盲方法和装置
CN109901572A (zh) 自动驾驶方法、训练方法及相关装置
CN104777839B (zh) 基于bp神经网络和距离信息的机器人自主避障方法
CN103150728A (zh) 一种动态环境中的视觉定位方法
US20220137647A1 (en) System and method for operating a movable object based on human body indications
CN105760894A (zh) 一种基于机器视觉及机器学习的机器人导航方法
CN106625673A (zh) 狭小空间装配***及装配方法
CN110334701A (zh) 数字孪生环境下基于深度学习和多目视觉的数据采集方法
CN114851201B (zh) 一种基于tsdf三维重建的机械臂六自由度视觉闭环抓取方法
CN106056633A (zh) 运动控制方法、装置及***
CN110969064A (zh) 一种基于单目视觉的图像检测方法、装置及存储设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20161109

RJ01 Rejection of invention patent application after publication