CN110275432A

CN110275432A - 基于强化学习的无人机悬挂负载控制***

Info

Publication number: CN110275432A
Application number: CN201910384948.4A
Authority: CN
Inventors: 薄中; 冯策; 孟庆鑫; 刘立辉
Original assignee: China Electronics Technology Group Corp CETC
Current assignee: Cetc Yizhihang Chongqing Technology Co ltd
Priority date: 2019-05-09
Filing date: 2019-05-09
Publication date: 2019-09-24

Abstract

本发明公开了一种基于强化学习的无人机悬挂负载控制***，包括：建立模块，用于建立无人机‑悬挂负载***的运动学模型及动力学模型；轨迹***，用于基于强化学习算法，根据所述无人机‑悬挂负载***的运动学模型进行无人机的轨迹规划；多闭环PID轨迹跟踪控制器，用于根据所述无人机‑悬挂负载的动力学模型，同时跟踪无人机同负载的运动轨迹并进行无人机同负载的控制。

Description

基于强化学习的无人机悬挂负载控制***

技术领域

本发明涉及无人机领域，尤其涉及一种基于强化学习的无人机悬挂负载控制***。

背景技术

随着大载荷长航时无人机的出现，无人物流领域的日渐兴起，对其研究热点已从基本的悬停及轨迹跟踪发展到无人机抓取、无人机运输等。在无人运输投递业务中，悬挂负载运输是其中最为关键的环节，是无人运输机的至关重要的组成部分。无人运输机将物资实现定点空投，机身下所挂重物在摆动时会对飞机产生一定的力与扭矩，这些力会导致飞行不稳定，严重时会导致飞机失事坠毁，因此对于无人机悬挂负载动力学模型的构建及其控制算法的研究是非常重要的。

对于无人机悬挂负载的研究主要关注点在于无人机悬挂负载的稳定控制上，负载的摆幅控制对于安全飞行和任务的完成是非常必要的。无人机悬绳搬运研究领域中，现阶段常用的轨迹规划算法及控制策略，如LQR、非线性控制和最优控制等，很大程度上依赖***模型建立的准确性。而无人机-悬挂负载为高度非线性欠驱动***，想要建立精确的模型非常困难，简化的***模型会大大减弱控制效果。因此，无人机悬挂负载自主追踪参考轨迹的控制算法的探索与研究是很有价值的，是一个很大的难点。

发明内容

本发明实施例提供一种基于强化学习的无人机悬挂负载控制***，用以解决现有技术中的上述问题。

本发明实施例提供一种基于强化学习的无人机悬挂负载控制系，包括：

建立模块，用于建立无人机-悬挂负载***的运动学模型及动力学模型；

轨迹***，用于基于强化学习算法，根据所述无人机-悬挂负载***的运动学模型进行无人机的轨迹规划；

多闭环PID轨迹跟踪控制器，用于根据所述无人机-悬挂负载的动力学模型，同时跟踪无人机同负载的运动轨迹并进行无人机同负载的控制。

优选地，所述建立模块具体用于：

假设在飞行过程中悬绳始终存在拉力，将悬挂负载的运动简化为圆锥摆运动，推导出***运动方程；利用拉格朗日方程及拉格朗日达朗伯原理建立无人机-悬挂负载的动力学模型。

优选地，所述建立模块具体用于：用旋转矩阵表示无人机姿态，用二维球表示悬挂负载姿态。

优选地，所述轨迹***具体用于：

在所述无人机-悬挂负载***的运动学模型的基础上设置状态转移函数，根据规划要求设置报酬函数，并采用下采样的训练方式进行训练，从而进行无人机的轨迹规划。

优选地，所述多闭环PID轨迹跟踪控制器具体用于：

进行悬挂负载位置控制、悬挂负载姿态控制及无人机姿态控制。

采用本发明实施例，，结合基于强化学习算法的轨迹***，利用***数学模型，设计出多闭环PID控制器，包括无人机-悬挂负载位置控制环、悬挂负载姿态控制环及无人机姿态控制环三部分，使***同时跟踪无人机和负载的运动轨迹，在无人机运输过程中控制负载摆动，保持***稳定性及搬运快速性。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例基于强化学习的无人机悬挂负载控制***的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本发明实施例的基于强化学习的无人机悬挂负载控制系，如图1所示，具体包括：

建立模块，用于建立无人机-悬挂负载***的运动学模型及动力学模型。假设在飞行过程中悬绳始终存在拉力，将悬挂负载的运动简化为圆锥摆运动，推导出***运动方程。利用拉格朗日方程及拉格朗日达朗伯原理建立无人机-悬挂负载的动力学模型。***的运动模型及动力学模型分别作为轨迹规划器及跟踪控制器的设计基础。

具体地，在实际应用中，用旋转矩阵来表示无人机姿态，用二维球来表示悬挂负载姿态。***的姿态定义为悬挂负载惯性系下的位置、悬挂负载姿态及无人机的姿态。当绳中弹力不为零时，***有8个自由度四个欠驱动。

基于强化学习算法的轨迹***，与以往轨迹规划方法相比，该轨迹***的算法具有***模型依赖性小，鲁棒性强的优点。利用特殊向量近似估计价值函数，建立无人机-悬挂负载的运动模型，在此基础上设计状态转移函数，根据规划要求设计报酬函数，提出了下采样的训练方式，并通过仿真验证了该算法的有效性及鲁棒性。

基于悬挂负载的多闭环PID轨迹跟踪控制器，该控制器结合所建立的无人机-悬挂负载的动力学模型，将悬挂负载的跟踪误差加入到设计当中，分为悬挂负载位置控制环、悬挂负载姿态控制环及无人机姿态控制环三个部分，充分利用了悬挂负载的动力学模型及位姿信息，使***同时跟踪无人机同负载的运动轨迹，并且通过仿真实验验证了控制器的有效性。

本发明实施例的技术关键点在于：

1、建立无人机-悬挂负载的运动学模型。利用拉格朗日方程及拉格朗日达朗伯原理建立无人机-悬挂负载***三维动力学模型；

2、设计一种基于强化学习算法的轨迹规划器。该轨迹规划器无需***模型，通过采样训练的方式得到价值函数的近似，进而推导出贪婪准侧，利用贪婪准则便可获取符合规划要求的三维空间上的无人机-悬挂负载***的搬运轨迹；

3、设计基于悬挂负载的多闭环PID控制器。主要包括悬挂负载位置控制环、悬挂负载姿态控制环及无人机姿态控制环三个部分，充分利用悬挂负载的动力学模型及位姿信息，从而实现无人机的位姿跟踪及悬挂负载的位姿跟踪。

与现有的技术比较，本发明的优点如下：

1、基于强化学习等学习方法在无人机-悬挂负载的方法对模型的依赖很小，具有很好的鲁棒性，便于应用于实际操作。

2、在仿真程序中获取无人机-悬挂负载***的期望轨迹，再将期望轨迹发布在仿真平台上，轨迹跟踪控制器通过订阅话题及位姿估计的话题，作为控制器的输入，执行控制算法，就可以实现对期望轨迹的跟踪控制。通过里程计信息获取无人机及悬挂负载的实际飞行曲线，与期望轨迹作比较，从悬挂负载轨迹跟踪的结果图可看出，跟踪误差较小，且很快收敛为零。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于强化学习的无人机悬挂负载控制***，其特征在于，包括：

2.如权利要求1所述的***，其特征在于，所述建立模块具体用于：

3.如权利要求1所述的***，其特征在于，所述建立模块具体用于：用旋转矩阵表示无人机姿态，用二维球表示悬挂负载姿态。

4.如权利要求1所述的***，其特征在于，所述轨迹***具体用于：

5.如权利要求1所述的***，其特征在于，所述多闭环PID轨迹跟踪控制器具体用于：