CN112506044A

CN112506044A - 一种基于视觉反馈和强化学习的柔性臂控制与规划方法

Info

Publication number: CN112506044A
Application number: CN202010944332.0A
Authority: CN
Inventors: 敬忠良; 刘物己; 乔凌峰; 潘汉; 陈务军; 滕亚军
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-09-10
Filing date: 2020-09-10
Publication date: 2021-03-16

Abstract

一种基于视觉反馈和强化学习的柔性臂控制与规划方法，包括：采集目标定位训练样本；对目标定位深度神经网络进行训练；设计针对所述柔性臂的基于Q‑learning的强化学习算法；通过训练好的所述目标定位深度神经网络进行目标检测，检测的输出作为强化学习的输入量，进行强化学习；根据强化学习结果，驱动所述柔性臂完成指定操控任务。本发明的有益效果是：适应范围广，由于强化学习不依赖模型的控制特性，可以适用于解决多种复杂结构的柔性机器人的控制问题，可以在柔性机器人操控领域广泛应用，为目前缺乏有效控制手段的柔性机器人领域提供重要的技术支持。

Description

一种基于视觉反馈和强化学习的柔性臂控制与规划方法

技术领域

本发明涉及空间在轨服务、无人监控***等领域，特别涉及空间柔性臂强化学习智能控制与规划方法。

背景技术

近年来，随着人工智能和机器人技术的发展，智能机器人已经在各行各业得到广泛普及和应用。随着空间任务要求的不断提高和航天科技的持续发展，空间机器人技术正成为近年来智能机器人领域的研究热点。传统空间操控臂具有可靠性强、成本低、连续作业能力强等优势，精准的电机控制技术使其能够高效地完成多种特定的任务。

然而在空间非结构化环境中，刚性机械臂普遍缺乏环境适应性，很难满足受限区域、外界冲击下的非合作目标精细柔性操控需求。随着仿生学和人工智能的发展，机器人领域研究人员把目光聚焦于生物界，以探索新的空间机器人仿生构型与操控方式。近年来，受生物启发的柔性机器人逐渐进入人们的视野。与刚性机器臂相比，柔性机器臂的部件全部或部分由弹性模量较小的柔性智能材料构成。柔性机器臂具有柔性程度与自由度高，抗冲击能力强等特点，能够较好地适应包括空间环境在内的多种复杂环境。

柔性机器臂具有自由度高等优点的同时，其操控和规划问题一直以来是该领域的研究难点。由于构型的复杂性和智能驱动材料的非线性驱动特性，针对刚性机器人基于正逆运动学模型的传统控制方法，如PID，模型预测控制等控制方法不再适用。目前，针对柔性机器臂的控制方法相关研究工作中，没有一套公认的较好的通用控制方案，人为设置运动指令来控制柔性机器臂运动的开环控制方法仍为主流。但是这样的操控方法在实际应用中具有局限性，在空间在轨环境等非结构复杂环境中对柔性臂操控的自主性和智能性要求较高，如何针对特定仿生构型的柔性机器臂来设计操控方案是值得探索的一个问题。

发明内容

针对上述问题，为了使柔性机器臂能够准确自主地完成目标对准任务，本发明以空间柔性机器臂为操控对象，提供了一种基于视觉反馈和强化学习的柔性臂控制与规划方法。

方法包括：

步骤1，采集目标定位训练样本；

步骤2，对目标定位深度神经网络进行训练；

步骤3，设计针对柔性臂的基于Q-learning的强化学习算法；

步骤4，通过训练好的深度神经网络进行目标检测，检测的输出作为强化学习的输入量，进行强化学习；

步骤5，根据强化学习结果，驱动柔性臂完成指定操控任务。

进一步地，所述步骤1中，通过摄像头对各种环境中、各个姿态的目标进行图像采集，采集到图像之后，对训练样本标记，标签为目标在图像中的位置坐标。

进一步地，所述步骤2中，目标定位深度神经网络采用基于YOLOv3框架的卷积神经网络。

进一步地，所述步骤2中，训练所选用的损失函数由三部分组成，分别为：坐标误差、交并比误差和分类误差，该联合损失函数可表示为：

loss＝λ_coord·coordErr+λ_iou·iouErr+λ_cls·clsErr

其中λ_coord，λ_iou与λ_cls分别为三个损失的权重。

进一步地，所述步骤2中，首先使用ImageNet数据集对网络参数进行预训练，随后使用所述步骤1所采集的数据集中训练，得到最终的感知网络。

进一步地，所述步骤3中，将时刻t目标物在视野坐标系中的位置与视野中心点间的距离视作当前状态s_t，将规划控制信号即柔性臂每节中的3根SMA驱动器的驱动定义为动作a_t，Q-learning的目标函数可定义为：

a_t＝[a₁，a₂，a₃]

s_t＝F(d|x，y，h，w)

进一步地，所述步骤3中，奖励函数为：

其中x和y表示目标物***于视野坐标系中左上角的坐标，w和h表示目标物***于视野坐标系中的宽和高。

进一步地，所述步骤3中，强化学习的目标为使得目标函数取得最大值， Q-learning采用时间差分法对目标函数进行迭代更新，完成柔性臂在一步的状态更新和动作输出，其迭代关系式可表示为

式中，α表示学习率，γ为衰减因子，通过设置合理的超参数能够使得目标函数得到最优收敛。

进一步地，所述步骤3中，定义柔性臂每节中的驱动SMA驱动弹簧为i＝1，2，3，并定义l为SMA驱动器长度。该柔性臂单节的运动学模型可以表示为：

该方程组包含6个方程和9个未知数，无法得到解析解。我们通过先验与后验测得SMA驱动弹簧的长度，得到l₁，l₂，l₃的数值，该方程组则变为包含6个方程和6个未知数，此时运动学方程可解。由于驱动器驱动特性具有连续性，通过解出运动学方程组，可以得到柔性臂末端的工作空间。

进一步地，所述步骤4中，***头采集图片后，将图片作为输入，使用训练好的感知网络获取目标在视野坐标系中的位置。检测输出主要包括目标物体位于视野坐标系中的坐标及边界框(bounding-box)的大小，将bounding-box中心到视野中心点的距离作为强化学习的输入量。

本发明具有如下技术效果：适应范围广，由于强化学习不依赖模型的控制特性，可以适用于解决多种复杂结构的柔性机器人的控制问题，只需采集足够的训练样本并进行足够的训练，便可使用本方法进行训练与应用。同时，在应用中只需采用已训练好的神经网络，就能够满足实际工程的移植性需求。本方法可以在柔性机器人操控领域广泛应用，为目前缺乏有效控制手段的柔性机器人领域提供重要的技术支持。

附图说明

图1本申请一个实施例的柔性臂结构图；

图2本申请一个实施例的柔性臂单元结构与运动学模型示意图；

图3本申请一个实施例的目标定位深度神经网络结构参数示意图；

图4本申请一个实施例的控制与规划***框图；

图5本申请一个实施例的视觉反馈示意图；

图6本申请一个实施例的柔性臂末端执行器工作空间示意图；

图7本申请一个实施例的训练效果图。

具体实施方式

以下参考说明书附图介绍本申请的优选实施例，使其技术内容更加清楚和便于理解。本申请可以通过许多不同形式的实施例来得以体现，本申请的保护范围并非仅限于文中提到的实施例。

以下将对本发明的构思、具体结构及产生的技术效果作进一步的说明，以充分地了解本发明的目的、特征和效果，但本发明的保护不仅限于此。

首先介绍该实例的研究对象，研究对象为一套自主设计的柔性机器臂原型机 ***，其主体部分柔性臂结构如图1所示。***由上位机、单片机(MCU)、硬件电路和柔性臂构成。柔性臂躯干由光敏树脂材料经3D打印制成，驱动器为镍钛形状记忆合金(SMA)弹簧。

图2所示为柔性臂单元体结构示意图与运动学模型坐标系定义，单元体上下两部分由球铰结构连接，球铰可在一定范围内自由旋转，并用空心橡胶软管包裹以加强连接稳定性。每个单元体具有六根SMA弹簧，其中三根作为执行机构，排列如图2最左图所示。该执行机构通过通电加热控制，当温度升高，SMA弹簧丝将缩短。由上述单元体结构设计以及执行机构的驱动特性可知，该柔性臂具备弯曲、扭转以及两种运动耦合的运动能力。在柔性臂末端装有一个***头供采集环境信息，并在末节装有一个惯性测量单元(IMU)用于实时测量三轴角速度信息。该机器人的感知与控制目标为实现目标对准任务，具体为，根据所设计的方案操控柔性臂，使柔性臂末端对准目标物体(即摄像头视野中心指向目标物体)，以供后续末端执行器(如机械手)操作。

本方法所涉及的***框图如图4所示，根据上述所描述的机器人***和目标任务，本方法设计了图4所示的基于Q-learning的控制规划方法。先由***头采集图像数据，处理后得到距离标量并作为状态量，再通过强化学习网络得到输出的动作量，驱动相应的SMA弹簧，直至完成目标对准任务。实施步骤如下：

步骤1，采集目标定位训练样本，其样本数据为***头采集的图片，标签为目标在图像中的位置坐标。利用摄像头对各种环境中、各个姿态的目标进行图像采集，采集到图像之后，对训练样本标记目标的真值框。

步骤2，对目标定位深度神经网络进行训练，该网络输入是图像数据，输出是目标在图像内边界框。该感知网络采用基于YOLOv3框架的卷积神经网络，具体网络结构参数如图3。训练所选用的损失函数由三部分组成，分别为：坐标误差、交并比误差和分类误差，该联合损失函数表示为

loss＝λ_coord·coordErr+λ_iou·iouErr+λ_cls·clsErr

其中λ_coord，λ_iou与λ_cls分别为三个损失的权重。

在训练过程中，首先使用ImageNet数据集对网络参数进行预训练，随后在步骤1所采集的数据集中训练，得到最终的感知网络。

步骤3，设计针对柔性臂的基于Q-learning的强化学习算法。首先定义动作和状态空间，将时刻t目标物在视野坐标系中的位置与视野中心点间的距离视作当前状态s_t，将规划控制信号即柔性臂每节中的3根SMA驱动器的驱动定义为动作a_t，则Q-learning的目标函数可定义为

a_t＝[a₁，a₂，a₃]

s_t＝F(d|x，y，h，w)

设计“阈值”奖励函数，通过奖励函数激励柔性臂不断学习，得到最优动作序列。

步骤4，通过训练好的深度神经网络进行目标检测。***头采集图片后，将图片作为输入，使用训练好的感知网络获取目标在视野坐标系中的位置。检测输出主要包括目标物***于视野坐标系中的坐标及边界框(bounding-box)的大小，以向量(x，y，w，h)表示，其中x和y表示bounding-box左上角的坐标，w和h表示对应bounding-box的宽和高，如图5所示。在本方法中，将bounding-box中心到视野中心点的距离作为强化学习的输入量，通过以下所设计的奖励函数不断纠正输出的动作量，使得柔性臂能够学习到最优的动作策略。

步骤5，强化学习的目标为使得目标函数取得最大，Q-learning采用时间差分法对目标函数进行迭代更新，完成柔性臂在一步的状态更新和动作输出，其迭代关系式可表示为

步骤6，根据柔性臂运动学模型和先验与后验SMA长度测量值计算负载和空载情况下末端执行器的工作空间。定义柔性臂每节中的驱动SMA驱动弹簧为 i＝1，2，3，并定义l为SMA驱动器长度。该柔性臂单节的运动学模型可以表示为

该方程组包含6个方程和9个未知数，无法得到解析解。我们通过先验与后验测得SMA驱动弹簧的长度，得到l₁，l₂，l₃的数值，该方程组则变为包含6个方程和6个未知数，此时运动学方程可解。由于驱动器驱动特性具有连续性，通过解出运动学方程组，可以得到柔性臂末端的工作空间，如图6所示，并且此情形可以扩展到负载情况下。

步骤7，通过实验建立SMA驱动弹簧在室温时电流、时间、缩短量的关系曲线。根据强化学习结果对动作空间内指定的SMA通电，依据驱动器SMA电流、时间、长度三个量的非线性关系曲线，施加驱动电流操控SMA在相应时间内达到指定长度，驱动柔性臂完成指定操控任务，并得到如图7所示学习效果曲线。

步骤8，通过内部传感器IMU测量末端执行器耦合运动的角速度跟踪值，来保证柔性臂在执行耦合运动时角速度保持在安全值范围内，避免机构损坏等风险。

本实施例提供了基于深度神经网络和强化学习的柔性臂智能控制与规划方法。针对自主设计的柔性智能材料形状记忆合金(SMA)驱动的空间仿生柔性臂，采用深度神经网络对复杂环境进行感知，并采用Q-learning对具有强非线性模型的柔性臂进行操控，通过内部传感器获取运动信息，并根据运动学模型建立工作空间，实现目标对准任务。通过学习的方法，能够有效构建出反馈和输出的映射关系，实现被控对象的智能自主化运动。所提出的算法适应范围广，由于强化学习不依赖模型的控制特性，可以适用于解决多种复杂结构的柔性机器人的控制问题，只需采集足够的训练样本并进行足够的训练，便可使用本方法进行训练与应用。同时，在应用中只需采用已训练好的神经网络，就能够满足实际工程的移植性需求。本方法可以在柔性机器人操控领域广泛应用，为目前缺乏有效控制手段的柔性机器人领域提供重要的技术支持。

以上详细描述了本申请的较佳具体实施例。应当理解，本领域的普通技术无需创造性劳动就可以根据本申请的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本申请的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，包括：

步骤1，采集目标定位训练样本；

步骤2，对目标定位深度神经网络进行训练；

步骤3，设计针对所述柔性臂的基于Q-learning的强化学习算法；

步骤4，通过训练好的所述目标定位深度神经网络进行目标检测，检测的输出作为强化学习的输入量，进行强化学习；

步骤5，根据强化学习结果，驱动所述柔性臂完成指定操控任务。

2.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤1中，通过摄像头对目标进行图像采集，采集到图像之后，对训练样本标记，标签为所述目标在所述图像中的位置坐标。

3.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤2中，所述目标定位深度神经网络采用基于YOLOv3框架的卷积神经网络。

4.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤2中，训练所选用的损失函数由三部分组成，分别为：坐标误差、交并比误差和分类误差，联合损失函数表示为：

loss＝λ_coord·coordErr+λ_iou·iouErr+λ_cls·clsErr

其中λ_coord，λ_iou与λ_cls分别为三个损失的权重。

5.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤2中，首先使用ImageNet数据集对网络参数进行预训练，随后使用所述步骤1所采集的数据集中训练，得到最终的感知网络。

6.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤3中，将时刻t目标物体在视野坐标系中的位置与视野中心点间的距离视作当前状态s_t，将规划控制信号即所述柔性臂每节中的3根SMA驱动器的驱动定义为动作a_t，Q-learning的目标函数定义为：

a_t＝[a₁,a₂,a₃]

s_t＝F(d|x,y,h,w)。

7.如权利要求6所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤3中，奖励函数为：

其中x和y表示所述目标物***于所述视野坐标系中左上角的坐标，w和h表示所述目标物***于所述视野坐标系中的宽和高。

8.如权利要求7所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤3中，强化学习的目标为使得目标函数取得最大值，Q-learning采用时间差分法对所述目标函数进行迭代更新，完成所述柔性臂在一步的状态更新和动作输出，其迭代关系式表示为：

式中，α表示学习率，γ为衰减因子。

9.如权利要求8所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤3中，定义所述柔性臂每节中的驱动SMA驱动弹簧为i＝1,2,3，并定义l为SMA驱动器长度，所述柔性臂单节的运动学模型表示为：

通过先验与后验测得SMA驱动弹簧的长度，得到l₁,l₂,l₃的数值，解出运动学方程组，得到所述柔性臂末端的工作空间。

10.如权利要求1所述的基于视觉反馈和强化学习的柔性臂控制与规划方法，其特征在于，所述步骤4中，***头采集图片后，将所述图片作为输入，使用训练好的所述目标定位深度神经网络检测目标物体在视野坐标系中的位置，检测输出包括所述目标物***于所述视野坐标系中的坐标及边界框的大小，将所述边界框中心到视野中心点的距离作为强化学习的输入量。