CN112506044A - 一种基于视觉反馈和强化学习的柔性臂控制与规划方法 - Google Patents

一种基于视觉反馈和强化学习的柔性臂控制与规划方法 Download PDF

Info

Publication number
CN112506044A
CN112506044A CN202010944332.0A CN202010944332A CN112506044A CN 112506044 A CN112506044 A CN 112506044A CN 202010944332 A CN202010944332 A CN 202010944332A CN 112506044 A CN112506044 A CN 112506044A
Authority
CN
China
Prior art keywords
reinforcement learning
flexible arm
target
control
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010944332.0A
Other languages
English (en)
Inventor
敬忠良
刘物己
乔凌峰
潘汉
陈务军
滕亚军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202010944332.0A priority Critical patent/CN112506044A/zh
Publication of CN112506044A publication Critical patent/CN112506044A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Manipulator (AREA)
  • Feedback Control In General (AREA)

Abstract

一种基于视觉反馈和强化学习的柔性臂控制与规划方法,包括:采集目标定位训练样本;对目标定位深度神经网络进行训练;设计针对所述柔性臂的基于Q‑learning的强化学习算法;通过训练好的所述目标定位深度神经网络进行目标检测,检测的输出作为强化学习的输入量,进行强化学习;根据强化学习结果,驱动所述柔性臂完成指定操控任务。本发明的有益效果是:适应范围广,由于强化学习不依赖模型的控制特性,可以适用于解决多种复杂结构的柔性机器人的控制问题,可以在柔性机器人操控领域广泛应用,为目前缺乏有效控制手段的柔性机器人领域提供重要的技术支持。

Description

一种基于视觉反馈和强化学习的柔性臂控制与规划方法
技术领域
本发明涉及空间在轨服务、无人监控***等领域,特别涉及空间柔性臂强化学习智能控制与规划方法。
背景技术
近年来,随着人工智能和机器人技术的发展,智能机器人已经在各行各业得到广泛普及和应用。随着空间任务要求的不断提高和航天科技的持续发展,空间机器人技 术正成为近年来智能机器人领域的研究热点。传统空间操控臂具有可靠性强、成本低、 连续作业能力强等优势,精准的电机控制技术使其能够高效地完成多种特定的任务。
然而在空间非结构化环境中,刚性机械臂普遍缺乏环境适应性,很难满足受限区域、外界冲击下的非合作目标精细柔性操控需求。随着仿生学和人工智能的发展,机 器人领域研究人员把目光聚焦于生物界,以探索新的空间机器人仿生构型与操控方式。 近年来,受生物启发的柔性机器人逐渐进入人们的视野。与刚性机器臂相比,柔性机 器臂的部件全部或部分由弹性模量较小的柔性智能材料构成。柔性机器臂具有柔性程 度与自由度高,抗冲击能力强等特点,能够较好地适应包括空间环境在内的多种复杂 环境。
柔性机器臂具有自由度高等优点的同时,其操控和规划问题一直以来是该领域的研究难点。由于构型的复杂性和智能驱动材料的非线性驱动特性,针对刚性机器人基 于正逆运动学模型的传统控制方法,如PID,模型预测控制等控制方法不再适用。目 前,针对柔性机器臂的控制方法相关研究工作中,没有一套公认的较好的通用控制方 案,人为设置运动指令来控制柔性机器臂运动的开环控制方法仍为主流。但是这样的 操控方法在实际应用中具有局限性,在空间在轨环境等非结构复杂环境中对柔性臂操 控的自主性和智能性要求较高,如何针对特定仿生构型的柔性机器臂来设计操控方案 是值得探索的一个问题。
发明内容
针对上述问题,为了使柔性机器臂能够准确自主地完成目标对准任务,本发明以空间柔性机器臂为操控对象,提供了一种基于视觉反馈和强化学习的柔性臂控制与规 划方法。
方法包括:
步骤1,采集目标定位训练样本;
步骤2,对目标定位深度神经网络进行训练;
步骤3,设计针对柔性臂的基于Q-learning的强化学习算法;
步骤4,通过训练好的深度神经网络进行目标检测,检测的输出作为强化学习 的输入量,进行强化学习;
步骤5,根据强化学习结果,驱动柔性臂完成指定操控任务。
进一步地,所述步骤1中,通过摄像头对各种环境中、各个姿态的目标进行 图像采集,采集到图像之后,对训练样本标记,标签为目标在图像中的位置坐标。
进一步地,所述步骤2中,目标定位深度神经网络采用基于YOLOv3框架的 卷积神经网络。
进一步地,所述步骤2中,训练所选用的损失函数由三部分组成,分别为: 坐标误差、交并比误差和分类误差,该联合损失函数可表示为:
loss=λcoord·coordErr+λiou·iouErr+λcls·clsErr
其中λcoord,λiou与λcls分别为三个损失的权重。
进一步地,所述步骤2中,首先使用ImageNet数据集对网络参数进行预训练, 随后使用所述步骤1所采集的数据集中训练,得到最终的感知网络。
进一步地,所述步骤3中,将时刻t目标物在视野坐标系中的位置与视野中心 点间的距离视作当前状态st,将规划控制信号即柔性臂每节中的3根SMA驱动器 的驱动定义为动作at,Q-learning的目标函数可定义为:
Figure BDA0002674727300000021
at=[a1,a2,a3]
st=F(d|x,y,h,w)
进一步地,所述步骤3中,奖励函数为:
Figure BDA0002674727300000022
其中x和y表示目标物***于视野坐标系中左上角的坐标,w和h表示目标 物***于视野坐标系中的宽和高。
进一步地,所述步骤3中,强化学习的目标为使得目标函数取得最大值, Q-learning采用时间差分法对目标函数进行迭代更新,完成柔性臂在一步的状态更 新和动作输出,其迭代关系式可表示为
Figure BDA0002674727300000023
式中,α表示学习率,γ为衰减因子,通过设置合理的超参数能够使得目标函 数得到最优收敛。
进一步地,所述步骤3中,定义柔性臂每节中的驱动SMA驱动弹簧为i=1,2,3, 并定义l为SMA驱动器长度。该柔性臂单节的运动学模型可以表示为:
Figure BDA0002674727300000031
该方程组包含6个方程和9个未知数,无法得到解析解。我们通过先验与后 验测得SMA驱动弹簧的长度,得到l1,l2,l3的数值,该方程组则变为包含6个方程 和6个未知数,此时运动学方程可解。由于驱动器驱动特性具有连续性,通过解 出运动学方程组,可以得到柔性臂末端的工作空间。
进一步地,所述步骤4中,***头采集图片后,将图片作为输入,使用 训练好的感知网络获取目标在视野坐标系中的位置。检测输出主要包括目标物体 位于视野坐标系中的坐标及边界框(bounding-box)的大小,将bounding-box中心到 视野中心点的距离作为强化学习的输入量。
本发明具有如下技术效果:适应范围广,由于强化学习不依赖模型的控制特性,可以适用于解决多种复杂结构的柔性机器人的控制问题,只需采集足够的训练样 本并进行足够的训练,便可使用本方法进行训练与应用。同时,在应用中只需采 用已训练好的神经网络,就能够满足实际工程的移植性需求。本方法可以在柔性 机器人操控领域广泛应用,为目前缺乏有效控制手段的柔性机器人领域提供重要 的技术支持。
附图说明
图1本申请一个实施例的柔性臂结构图;
图2本申请一个实施例的柔性臂单元结构与运动学模型示意图;
图3本申请一个实施例的目标定位深度神经网络结构参数示意图;
图4本申请一个实施例的控制与规划***框图;
图5本申请一个实施例的视觉反馈示意图;
图6本申请一个实施例的柔性臂末端执行器工作空间示意图;
图7本申请一个实施例的训练效果图。
具体实施方式
以下参考说明书附图介绍本申请的优选实施例,使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现,本申请的保护范围并非仅限 于文中提到的实施例。
以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明,以充 分地了解本发明的目的、特征和效果,但本发明的保护不仅限于此。
首先介绍该实例的研究对象,研究对象为一套自主设计的柔性机器臂原型机 ***,其主体部分柔性臂结构如图1所示。***由上位机、单片机(MCU)、硬 件电路和柔性臂构成。柔性臂躯干由光敏树脂材料经3D打印制成,驱动器为镍钛 形状记忆合金(SMA)弹簧。
图2所示为柔性臂单元体结构示意图与运动学模型坐标系定义,单元体上下 两部分由球铰结构连接,球铰可在一定范围内自由旋转,并用空心橡胶软管包裹 以加强连接稳定性。每个单元体具有六根SMA弹簧,其中三根作为执行机构,排 列如图2最左图所示。该执行机构通过通电加热控制,当温度升高,SMA弹簧丝 将缩短。由上述单元体结构设计以及执行机构的驱动特性可知,该柔性臂具备弯 曲、扭转以及两种运动耦合的运动能力。在柔性臂末端装有一个***头供采 集环境信息,并在末节装有一个惯性测量单元(IMU)用于实时测量三轴角速度信 息。该机器人的感知与控制目标为实现目标对准任务,具体为,根据所设计的方 案操控柔性臂,使柔性臂末端对准目标物体(即摄像头视野中心指向目标物体), 以供后续末端执行器(如机械手)操作。
本方法所涉及的***框图如图4所示,根据上述所描述的机器人***和目标 任务,本方法设计了图4所示的基于Q-learning的控制规划方法。先由***头 采集图像数据,处理后得到距离标量并作为状态量,再通过强化学习网络得到输 出的动作量,驱动相应的SMA弹簧,直至完成目标对准任务。实施步骤如下:
步骤1,采集目标定位训练样本,其样本数据为***头采集的图片,标签 为目标在图像中的位置坐标。利用摄像头对各种环境中、各个姿态的目标进行图 像采集,采集到图像之后,对训练样本标记目标的真值框。
步骤2,对目标定位深度神经网络进行训练,该网络输入是图像数据,输出是 目标在图像内边界框。该感知网络采用基于YOLOv3框架的卷积神经网络,具体 网络结构参数如图3。训练所选用的损失函数由三部分组成,分别为:坐标误差、 交并比误差和分类误差,该联合损失函数表示为
loss=λcoord·coordErr+λiou·iouErr+λcls·clsErr
其中λcoord,λiou与λcls分别为三个损失的权重。
在训练过程中,首先使用ImageNet数据集对网络参数进行预训练,随后在步 骤1所采集的数据集中训练,得到最终的感知网络。
步骤3,设计针对柔性臂的基于Q-learning的强化学习算法。首先定义动作和 状态空间,将时刻t目标物在视野坐标系中的位置与视野中心点间的距离视作当前 状态st,将规划控制信号即柔性臂每节中的3根SMA驱动器的驱动定义为动作at, 则Q-learning的目标函数可定义为
Figure BDA0002674727300000041
at=[a1,a2,a3]
st=F(d|x,y,h,w)
设计“阈值”奖励函数,通过奖励函数激励柔性臂不断学习,得到最优动作序列。
步骤4,通过训练好的深度神经网络进行目标检测。***头采集图片后, 将图片作为输入,使用训练好的感知网络获取目标在视野坐标系中的位置。检测 输出主要包括目标物***于视野坐标系中的坐标及边界框(bounding-box)的大小, 以向量(x,y,w,h)表示,其中x和y表示bounding-box左上角的坐标,w和h表示 对应bounding-box的宽和高,如图5所示。在本方法中,将bounding-box中心到 视野中心点的距离作为强化学习的输入量,通过以下所设计的奖励函数不断纠正 输出的动作量,使得柔性臂能够学习到最优的动作策略。
Figure BDA0002674727300000051
步骤5,强化学习的目标为使得目标函数取得最大,Q-learning采用时间差分 法对目标函数进行迭代更新,完成柔性臂在一步的状态更新和动作输出,其迭代 关系式可表示为
Figure BDA0002674727300000052
式中,α表示学习率,γ为衰减因子,通过设置合理的超参数能够使得目标函 数得到最优收敛。
步骤6,根据柔性臂运动学模型和先验与后验SMA长度测量值计算负载和空 载情况下末端执行器的工作空间。定义柔性臂每节中的驱动SMA驱动弹簧为 i=1,2,3,并定义l为SMA驱动器长度。该柔性臂单节的运动学模型可以表示为
Figure BDA0002674727300000053
该方程组包含6个方程和9个未知数,无法得到解析解。我们通过先验与后 验测得SMA驱动弹簧的长度,得到l1,l2,l3的数值,该方程组则变为包含6个方程 和6个未知数,此时运动学方程可解。由于驱动器驱动特性具有连续性,通过解 出运动学方程组,可以得到柔性臂末端的工作空间,如图6所示,并且此情形可 以扩展到负载情况下。
步骤7,通过实验建立SMA驱动弹簧在室温时电流、时间、缩短量的关系曲 线。根据强化学习结果对动作空间内指定的SMA通电,依据驱动器SMA电流、 时间、长度三个量的非线性关系曲线,施加驱动电流操控SMA在相应时间内达到 指定长度,驱动柔性臂完成指定操控任务,并得到如图7所示学习效果曲线。
步骤8,通过内部传感器IMU测量末端执行器耦合运动的角速度跟踪值,来 保证柔性臂在执行耦合运动时角速度保持在安全值范围内,避免机构损坏等风险。
本实施例提供了基于深度神经网络和强化学习的柔性臂智能控制与规划方法。针对自主设计的柔性智能材料形状记忆合金(SMA)驱动的空间仿生柔性臂,采 用深度神经网络对复杂环境进行感知,并采用Q-learning对具有强非线性模型的柔 性臂进行操控,通过内部传感器获取运动信息,并根据运动学模型建立工作空间, 实现目标对准任务。通过学习的方法,能够有效构建出反馈和输出的映射关系, 实现被控对象的智能自主化运动。所提出的算法适应范围广,由于强化学习不依 赖模型的控制特性,可以适用于解决多种复杂结构的柔性机器人的控制问题,只 需采集足够的训练样本并进行足够的训练,便可使用本方法进行训练与应用。同 时,在应用中只需采用已训练好的神经网络,就能够满足实际工程的移植性需求。 本方法可以在柔性机器人操控领域广泛应用,为目前缺乏有效控制手段的柔性机 器人领域提供重要的技术支持。
以上详细描述了本申请的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此,凡本技术领域中技术 人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得 到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,包括:
步骤1,采集目标定位训练样本;
步骤2,对目标定位深度神经网络进行训练;
步骤3,设计针对所述柔性臂的基于Q-learning的强化学习算法;
步骤4,通过训练好的所述目标定位深度神经网络进行目标检测,检测的输出作为强化学习的输入量,进行强化学习;
步骤5,根据强化学习结果,驱动所述柔性臂完成指定操控任务。
2.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤1中,通过摄像头对目标进行图像采集,采集到图像之后,对训练样本标记,标签为所述目标在所述图像中的位置坐标。
3.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,所述目标定位深度神经网络采用基于YOLOv3框架的卷积神经网络。
4.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,训练所选用的损失函数由三部分组成,分别为:坐标误差、交并比误差和分类误差,联合损失函数表示为:
loss=λcoord·coordErr+λiou·iouErr+λcls·clsErr
其中λcoord,λiou与λcls分别为三个损失的权重。
5.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤2中,首先使用ImageNet数据集对网络参数进行预训练,随后使用所述步骤1所采集的数据集中训练,得到最终的感知网络。
6.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,将时刻t目标物体在视野坐标系中的位置与视野中心点间的距离视作当前状态st,将规划控制信号即所述柔性臂每节中的3根SMA驱动器的驱动定义为动作at,Q-learning的目标函数定义为:
Figure FDA0002674727290000011
at=[a1,a2,a3]
st=F(d|x,y,h,w)。
7.如权利要求6所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,奖励函数为:
Figure FDA0002674727290000021
其中x和y表示所述目标物***于所述视野坐标系中左上角的坐标,w和h表示所述目标物***于所述视野坐标系中的宽和高。
8.如权利要求7所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,强化学习的目标为使得目标函数取得最大值,Q-learning采用时间差分法对所述目标函数进行迭代更新,完成所述柔性臂在一步的状态更新和动作输出,其迭代关系式表示为:
Figure FDA0002674727290000022
式中,α表示学习率,γ为衰减因子。
9.如权利要求8所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤3中,定义所述柔性臂每节中的驱动SMA驱动弹簧为i=1,2,3,并定义l为SMA驱动器长度,所述柔性臂单节的运动学模型表示为:
Figure FDA0002674727290000023
通过先验与后验测得SMA驱动弹簧的长度,得到l1,l2,l3的数值,解出运动学方程组,得到所述柔性臂末端的工作空间。
10.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法,其特征在于,所述步骤4中,***头采集图片后,将所述图片作为输入,使用训练好的所述目标定位深度神经网络检测目标物体在视野坐标系中的位置,检测输出包括所述目标物***于所述视野坐标系中的坐标及边界框的大小,将所述边界框中心到视野中心点的距离作为强化学习的输入量。
CN202010944332.0A 2020-09-10 2020-09-10 一种基于视觉反馈和强化学习的柔性臂控制与规划方法 Pending CN112506044A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010944332.0A CN112506044A (zh) 2020-09-10 2020-09-10 一种基于视觉反馈和强化学习的柔性臂控制与规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010944332.0A CN112506044A (zh) 2020-09-10 2020-09-10 一种基于视觉反馈和强化学习的柔性臂控制与规划方法

Publications (1)

Publication Number Publication Date
CN112506044A true CN112506044A (zh) 2021-03-16

Family

ID=74953429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010944332.0A Pending CN112506044A (zh) 2020-09-10 2020-09-10 一种基于视觉反馈和强化学习的柔性臂控制与规划方法

Country Status (1)

Country Link
CN (1) CN112506044A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113858187A (zh) * 2021-10-21 2021-12-31 上海交通大学 基于sma弹簧驱动的柔性机器臂切换控制方法及***
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109605365A (zh) * 2018-10-30 2019-04-12 大连理工大学 一种空间机器人抓捕控制***、强化学习方法及动力学建模方法
CN109807887A (zh) * 2019-01-18 2019-05-28 上海交通大学 基于深度神经网络的柔性臂智能感知与控制方法和***
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108052004A (zh) * 2017-12-06 2018-05-18 湖北工业大学 基于深度增强学习的工业机械臂自动控制方法
CN109605365A (zh) * 2018-10-30 2019-04-12 大连理工大学 一种空间机器人抓捕控制***、强化学习方法及动力学建模方法
CN109807887A (zh) * 2019-01-18 2019-05-28 上海交通大学 基于深度神经网络的柔性臂智能感知与控制方法和***
CN111251294A (zh) * 2020-01-14 2020-06-09 北京航空航天大学 一种基于视觉位姿感知和深度强化学习的机器人抓取方法
CN111618847A (zh) * 2020-04-22 2020-09-04 南通大学 基于深度强化学习与动态运动基元的机械臂自主抓取方法
CN111515961A (zh) * 2020-06-02 2020-08-11 南京大学 一种适用于移动机械臂的强化学习奖励方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
WUJI LIU: "Distance-directed Target Searching for a Deep Visual Servo SMA Driven Soft Robot Using Reinforcement Learning", 《JOURNAL OF BIONIC ENGINEERING》 *
WUJI LIU: "Shape Memory Alloy Driven Soft Robot Design and Position Control Using Continuous Reinforcement Learning", 《2019 2ND INTERNATIONAL CONFERENCE ON INTELLIGENT AUTONOMOUS SYSTEMS (ICOIAS)》 *
李鹤宇: "基于深度强化学习的机械臂控制方法", 《***仿真学报》 *
黄叶: "基于深度强化学习的机器人视觉控制技术研究", 《中国优秀硕士学位论文全文数据库》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113858187A (zh) * 2021-10-21 2021-12-31 上海交通大学 基于sma弹簧驱动的柔性机器臂切换控制方法及***
CN114789444A (zh) * 2022-05-05 2022-07-26 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法
CN114789444B (zh) * 2022-05-05 2022-12-16 山东省人工智能研究院 一种基于深度强化学习和阻抗控制的柔顺人机接触方法

Similar Documents

Publication Publication Date Title
CN111515961B (zh) 一种适用于移动机械臂的强化学习奖励方法
Wang et al. Visual servoing of soft robot manipulator in constrained environments with an adaptive controller
Slotine et al. On the adaptive control of robot manipulators
CN109807887B (zh) 基于深度神经网络的柔性臂智能感知与控制方法和***
Liu et al. Distance-directed target searching for a deep visual servo sma driven soft robot using reinforcement learning
CN111695562A (zh) 一种基于卷积神经网络的机器人自主抓取方法
Chalodhorn et al. Learning to Walk through Imitation.
CN112506044A (zh) 一种基于视觉反馈和强化学习的柔性臂控制与规划方法
Coronado et al. Vision-based control of a delta parallel robot via linear camera-space manipulation
Jiang et al. The state of the art of search strategies in robotic assembly
US20230086122A1 (en) Human-Robot Collaborative Flexible Manufacturing System and Method
Zeller et al. Motion planning of a pneumatic robot using a neural network
Li et al. Vision-based imitation learning of needle reaching skill for robotic precision manipulation
Boutchouang et al. Forward kinematic modeling of conical-shaped continuum manipulators
CN112809675B (zh) 基于强化学习算法的超冗余机械臂自主抓捕空间碎片方法
Li et al. Learning tool morphology for contact-rich manipulation tasks with differentiable simulation
CN113119073A (zh) 面向3c装配场景基于计算机视觉及机器学习的机械臂***
Chalodhorn et al. Learning humanoid motion dynamics through sensory-motor mapping in reduced dimensional spaces
Wu et al. Intelligent explosive ordnance disposal UAV system based on manipulator and real-time object detection
Graefe et al. The sensor-control Jacobian as a basis for controlling calibration-free robots
Verma et al. A comparison of robotic fish speed control based on analytical and empirical models
Qian et al. Octopus-inspired microgripper for deformation-controlled biological sample manipulation
Walęcki et al. Control system of a service robot's active head exemplified on visual servoing
Xiao et al. One-shot sim-to-real transfer policy for robotic assembly via reinforcement learning with visual demonstration
Konidaris et al. Sensorimotor abstraction selection for efficient, autonomous robot skill acquisition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination