CN114326438B - 基于控制障碍函数的安全强化学习四旋翼控制***及方法 - Google Patents

基于控制障碍函数的安全强化学习四旋翼控制***及方法 Download PDF

Info

Publication number
CN114326438B
CN114326438B CN202111660133.8A CN202111660133A CN114326438B CN 114326438 B CN114326438 B CN 114326438B CN 202111660133 A CN202111660133 A CN 202111660133A CN 114326438 B CN114326438 B CN 114326438B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
control
reinforcement learning
controller
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111660133.8A
Other languages
English (en)
Other versions
CN114326438A (zh
Inventor
张福彪
周天泽
林德福
莫雳
宋韬
王亚凯
陈祺
刘明成
郎帅鹏
孙之问
王昭舜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN202111660133.8A priority Critical patent/CN114326438B/zh
Publication of CN114326438A publication Critical patent/CN114326438A/zh
Application granted granted Critical
Publication of CN114326438B publication Critical patent/CN114326438B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于控制障碍函数的安全强化学***台和控制器,所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令,所述控制器包括强化学习子控制器和控制障碍函数子控制器,通过控制障碍函数与近端策略优化法结合的方式,解决了强化学习类的控制器安全性低的问题,提高了***的稳定性。

Description

基于控制障碍函数的安全强化学习四旋翼控制***及方法
技术领域
本发明涉及一种基于控制障碍函数的安全强化学习四旋翼控制方法,属于无人机控制技术领域。
背景技术
四旋翼作为一个典型的多输入多输出的非线性***,具有强耦合,欠驱动等等一系列控制难点。随着人工智能的发展,基于强化学习的四旋翼控制被广为研究。
强化学习(Reinforcement Learning,RL)是一种专注于寻找最大化长期奖励的智能体策略算法。强化学习通过不断观测环境状态,并基于环境采用相应的策略以获得环境反馈得到的奖励。随着时间的不断推移,强化学习方法利用与环境交互获得到的数据训练自身策略以最大化长期累计汇报。
但是,现有的基于强化学习的四旋翼控制方法往往只侧重于最大化长期回报,导致智能体在探索过程中出现不安全的策略行为,这使得现有强化学习方法在很难应用于实际的硬件部署。
现有技术中还具有基于安全的强化学习方法,基于安全的强化学习方法在尝试学习一个能最大化预期回报的同时,其策略需满足某些特定的安全约束。然而,这些方法都是基于model-free的方法,很难保证在没有模型借鉴的情况下智能体学习过程的安全性,该类方法只实现在足够的学习时间后,智能体策略的近似安全。
因此,有必要研究一种能够解决上述问题的基于强化学习的四旋翼控制方法。
发明内容
为了克服上述问题,本发明人进行了深入研究,一方面,设计出一种基于控制障碍函数的安全强化学***台和控制器,
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,
所述接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
优选地,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
所述电机执行器表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数;
所述电机转矩分配用于分配无人机不同电机的功率;
所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离。
优选地,所述控制器包括强化学习子控制器和控制障碍函数子控制器,
所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
无人机的状态量x表示为:
其中,pxy,pz表示无人机的三轴位置信息,表示滚转角,θ表示俯仰角,ψ表示偏航角。
优选地,在强化学习子控制器中采用近端策略优化法。
优选地,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
优选地,所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令url进行修正,通过设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内,
所述安全性条件为:φ,θ的角度在[-∈,∈]之间,
所述约束为:
α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
优选地,所述控制障碍函数子控制器设置为:
另一方面,本发明还提供了一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器。
优选地,在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器;
在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为
动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
优选地,在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
本发明所具有的有益效果包括:
(1)将强化学习方法与控制障碍函数结合在一起,共同解决了强化学习类的控制器安全性低的问题;
(2)强化学习的效果更好,奖励梯度异常率降低,提高了稳定性。
附图说明
图1示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学习四旋翼控制***整体结构示意图;
图2示出根据本发明一种优选实施方式的基于控制障碍函数的安全强化学***台结构示意图;
图3示出根据本发明实验例1中强化学习奖励曲线对比图;
图4示出根据本发明实验例1中无人机安全性百分比对比图;
图5示出根据本发明实验例1中无人机到达目标点百分比对比图。
具体实施方式
下面通过附图和实施例对本发明进一步详细说明。通过这些说明,本发明的特点和优点将变得更为清楚明确。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
本发明公开了一种基于控制障碍函数的安全强化学***台和控制器,如图1所示。
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令u,输出无人机的状态量。
所述控制器用于生成无人机控制指令,其内设置有神经网络,接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令。
所述无人机的状态量x表示为:
其中,px,py,pz表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角。
根据本发明,所述仿真平台可以采用任意一种无人机仿真平台,优选为数字模拟平台,更优选地,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,如图2所示。
所述电机执行器接收控制指令u,输出电机升力T和电机力矩M,
在一个优选的实施方式中,选择电机为线性表达的电机执行器,该电机执行器结构简单,运算量小,能够快速获得仿真结果,虽然该模型与真实无人机运行结果具有一定的误差,但实际检测此误差对控制器的训练过程影响较小。
所述电机执行器可以表示为:
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数。
所述电机转矩分配用于分配无人机不同电机的功率,可按照实际需要进行设置,例如,采用十字无人机电机排布时,所述电机转矩分配为:
其中,τ0表示无人机的总升力,τ1、τ2、τ3表示无人机的三轴力矩。
进一步地,所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离。
根据式一和式四,无人机的状态量x可以表示为:
在本发明中,所述控制器包括强化学习子控制器和控制障碍函数子控制器。
与传统的强化学习神经网络相同,所述强化学习子控制器包括一个神经网络,其通过给定的初始策略π(a|s)的条件下,通过不断的优化策略π(a|s),对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url
在本发明中,对所述神经网络的具体结构不做特别限定,可以采用任意一种在强化学习中常用的神经网络。
优选地,在强化学习子控制器中采用近端策略优化法(Proximal PolicyOptimization,PPO),以增强对数据的利用效率,提高算法的稳定性。
所述近端策略优化法为一种经典的深度强化学习方法,可以从Open AI项目获取,其具体在本发明中不做赘述。
传统的强化学习四旋翼控制***,仅具有强化学习子控制器,通过强化学习子控制器生成无人机的控制指令,此种方式只侧重于最大化长期回报,常导致控制指令超出无人机的硬件承载能力。
在本发明中,通过设置控制障碍函数子控制器,保证仿真平台在执行最终动作时,仍是有安全性保障。
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
根据本发明,所述控制障碍函数子控制器采用控制障碍函数法(Control BarrierFunction,CBF)对强化学习后的动作指令url进行修正。
所述控制障碍函数法为ECC 2019年的tutorial paper中Control BarrierFunctions:Theory and Application介绍的方法,该方法通过定义安全集合,采用约束将***状态维持在安全集合中。
进一步地,在控制障碍函数子控制器中,设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内。
具体地,所述安全性条件为:φ,θ的角度在[-∈,∈]之间,对应的边界函数h为:
即:
边界函数的微分为:
进一步地,在本发明中,将所述控制障碍函数子控制器的约束限制为:
即:
根据式八及式十,可获得控制障碍函数子控制器最终可表示为:
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
所述hurwitz矩阵是由Adolf Hurwitz在1895年建立的一种矩阵形式,为稳定控制中常用的矩阵之一。
根据本发明一个优选的实施方式,在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值,表示为:
r=(dl-dc)-β|ucbf-url|
其中,r表示奖励,dl为无人机上一时刻距离目标位置的距离,dc为当前无人机距离目标的位置,β|ucbf-url|为对控制障碍函数子控制器的惩罚项,β为标量参数,本领域技术人员可根据经验设置。
本发明还公开了一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器。
根据本发明,S1、S2的执行顺序可以相互更换。
在S1中,所述仿真平台可以采用任意一种无人机仿真平台,优选为数字模拟平台,更优选地,所述仿真平台为上述包括电机执行器、电机转矩分配和四旋翼动力学模型的仿真平台。
在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器。
在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为
动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值,表示为:
r=(dl-dc)-β|ucbf-url|
其中,r表示奖励,dl为无人机上一时刻距离目标位置的距离,dc为当前无人机距离目标的位置,α|ucbf-url|为对控制障碍函数子控制器的惩罚项,β为标量参数。。
控制障碍函数子控制器采用控制障碍函数法,设置安全性条件为φ,θ的角度在[-∈,∈]之间,设置对应的约束限制为:
则所述控制障碍函数子控制器设置为:
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
实施例
实施例1
进行四旋翼无人机的位置控制实验,四旋翼无人机从x=0,y=[-1.5,1.5],z=0位置出发,到x=0,y=0,z=1位置,其中四旋翼的俯仰滚转姿态为[-10°,10°]。
所述仿真平台如图2所示,包括电机执行器、电机转矩分配和四旋翼动力学模型。
所述电机执行器可以表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
电机采用十字排布,电机转矩分配为:
τ0=T0+T1+T2+T3
τ1=T1-T0
τ2=T3-T2
τ3=M3+M2-M1-M0
所述四旋翼动力学模型表示为:
所述控制器包括强化学习子控制器和控制障碍函数子控制器,在强化学习子控制器中采用近端策略优化法,其中,状态设置为无人机的状态量x和目标位置,状态量表示为 动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的RL动作和CBF动作的绝对值,表示为:
r=(dl-dc)-α|ucbf-url|
控制障碍函数子控制器采用控制障碍函数法,设置安全性条件为φ,θ的角度在[-∈,∈]之间,设置对应的约束限制为:
则所述控制障碍函数子控制器设置为:
其中,
Jxx=0.0175
Jyy=0.0175
Jzz=0.0318
JR=9.9e-5
m=1.50
L=0.450
其中,α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
在本实施例中,∈设置为45度,即∈=π/4。
对设置的控制器结构进行训练,获得最终的控制器。
实施例2
进行与实施例1相同的实验,区别在于,∈设置为60度,即∈=π/3。
对比例1
进行与实施例1相同的实验,区别在于,不设置控制障碍函数子控制器,近端策略优化中的奖励为:
r=(dl-dc)
对比例2
进行与对比例1相同的实验,区别在于,∈设置为60度,即∈=π/3。
实验例
对比实施例1、实施例2、对比例1、对比例2的获得的控制器的性能,
其中强化学习奖励曲线对比图如图3所示,无人机安全性百分比对比图如图4所示,无人机到达目标点百分比对比图如图5所示,从图3~5上可以看出,实施例1、实施例2能够在整个训练阶段都保证四旋翼的安全性,在对其动作进行限制后其实际的效果也达到了较为安全的效果。
在本发明的描述中,需要说明的是,术语“上”、“下”、“内”、“外”、“前”、“后”等指示的方位或位置关系为基于本发明工作状态下的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”“相连”“连接”应作广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体的连接普通;可以是机械连接,也可以是电连接;可以是直接连接,也可以通过中间媒介间接连接,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
以上结合了优选的实施方式对本发明进行了说明,不过这些实施方式仅是范例性的,仅起到说明性的作用。在此基础上,可以对本发明进行多种替换和改进,这些均落入本发明的保护范围内。

Claims (6)

1.一种基于控制障碍函数的安全强化学***台和控制器,
所述仿真平台用于对无人机运动状态进行仿真,其接收控制指令,输出无人机的状态量,
所述控制器接收仿真模型输出的状态量,向无人机或仿真模型输出控制指令;
所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
所述电机执行器表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数,u为控制指令,T为电机升力,M为电机力矩;
所述电机转矩分配用于分配无人机不同电机的功率;
所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离;
所述控制器包括强化学习子控制器和控制障碍函数子控制器,
所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url
所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
无人机的状态量x表示为:
其中,px,py,pz表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角;
所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令yrl进行修正,通过设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内,
所述安全性条件为:φ,θ的角度在[-∈,∈]之间,
所述约束为:
α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
2.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制***,其特征在于,
在强化学习子控制器中采用近端策略优化法。
3.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制***,其特征在于,
在强化学习子控制器中,将近端策略优化法的奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值。
4.根据权利要求1所述的基于控制障碍函数的安全强化学习四旋翼控制***,其特征在于,
所述控制障碍函数子控制器设置为:
5.一种基于控制障碍函数的安全强化学习四旋翼控制方法,包括以下步骤:
S1、建立仿真平台;
S2、设置控制器结构;
S3、对设置的控制器结构进行训练,获得最终的控制器;
S1中,所述仿真平台包括电机执行器、电机转矩分配和四旋翼动力学模型,
所述电机执行器表示为:
r=Cr*u+Wb
T=Ct*r2
M=Cm*r2
其中,Cr为电机转速比例参数,Wb为电机转速偏置参数,Ct为螺旋桨推力系数,Cm为螺旋桨扭力系数,u为控制指令,T为电机升力,M为电机力矩;
所述电机转矩分配用于分配无人机不同电机的功率;
所述四旋翼动力学模型表示为:
其中,u0表示升力,u1表示滚转力矩,u2表示俯仰力矩,u3表示偏航力矩,m表示无人机质量,g表示重力加速度,Jyy,Jzz,Jxx表示无人机三轴的转动惯量,JR表示电机转子和螺旋桨绕机体转轴的总转动惯量,ΩR表示电机转速,L表示电机到无人机质心的距离;
在S2中,所述控制器包括强化学习子控制器和控制障碍函数子控制器;
在强化学习子控制器中采用近端策略优化法,近端策略优化法中状态设置为无人机的状态量x和目标位置,状态量表示为动作设置为无人机不同电机对应的占空比,奖励设置为当前时刻和上一时刻的距离差,减去加权后的动作指令url和控制指令ucbf的绝对值;
所述强化学习子控制器包括一个神经网络,其通过给定的初始策略的条件下,通过不断的优化策略,对神经网络进行训练,使得训练后的神经网络实现最大化累计奖励,其输入为无人机的状态量x,输出为强化学习后的动作指令url;所述控制障碍函数子控制器,基于无人机的状态量x,对强化学习后的动作指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
无人机的状态量x表示为:
其中,px,py,pz表示无人机的三轴位置信息,φ表示滚转角,θ表示俯仰角,ψ表示偏航角;
所述控制障碍函数子控制器中采用控制障碍函数法对强化学习后的动作指令yrl进行修正,通过设置安全性条件,采用约束使得无人机的姿态稳定到一个固定的范围内,
所述安全性条件为:φ,θ的角度在[-∈,∈]之间,
所述约束为:
α11、α10、α21、α20、α31、α30、α41、α40为参数,每个参数均满足:Fb-Gbα属于hurwitz矩阵,
其中,α∈[α11,α10,α21,α20,α31,α30,α41,α40];
6.根据权利要求5所述的基于控制障碍函数的安全强化学习四旋翼控制方法,其特征在于,
在S3中,进行强化学习训练,训练过程按照如下步骤迭代进行:
强化学习子控制器基于无人机状态信息、目标位置信息,生成相应的强化学习控制指令url
控制障碍函数子控制器基于无人机状态信息,对强化学习控制指令url进行修正,使其满足安全性保证,输出修正后的控制指令ucbf
仿真平台接收修正后的控制指令ucbf,根据指令进行仿真,输出无人机的无人机状态信息。
CN202111660133.8A 2021-12-30 2021-12-30 基于控制障碍函数的安全强化学习四旋翼控制***及方法 Active CN114326438B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111660133.8A CN114326438B (zh) 2021-12-30 2021-12-30 基于控制障碍函数的安全强化学习四旋翼控制***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111660133.8A CN114326438B (zh) 2021-12-30 2021-12-30 基于控制障碍函数的安全强化学习四旋翼控制***及方法

Publications (2)

Publication Number Publication Date
CN114326438A CN114326438A (zh) 2022-04-12
CN114326438B true CN114326438B (zh) 2023-12-19

Family

ID=81018671

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111660133.8A Active CN114326438B (zh) 2021-12-30 2021-12-30 基于控制障碍函数的安全强化学习四旋翼控制***及方法

Country Status (1)

Country Link
CN (1) CN114326438B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115098941B (zh) * 2022-05-31 2023-08-04 复旦大学 面向智能算法敏捷部署的无人机数字孪生控制方法和平台
CN116483107A (zh) * 2023-05-11 2023-07-25 哈尔滨工业大学(深圳) 一种四旋翼无人机的非级联控制障碍函数
CN116880213B (zh) * 2023-08-16 2024-02-13 北京航空航天大学 无人机抗干扰安全控制方法及相关产品

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104950695A (zh) * 2015-07-15 2015-09-30 浙江工业大学 一种通用的无人机视觉仿真平台
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN110470306A (zh) * 2019-08-27 2019-11-19 中山大学 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
CN110879595A (zh) * 2019-11-29 2020-03-13 江苏徐工工程机械研究院有限公司 一种基于深度强化学习的无人矿卡循迹控制***及方法
CN112818463A (zh) * 2021-01-21 2021-05-18 清华大学 一种多模态陆空两栖车辆平台仿真***
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN113703319A (zh) * 2021-08-26 2021-11-26 合肥工业大学 基于强化学习的关节模组不等式约束最优鲁棒控制方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策***
CN113759751A (zh) * 2020-10-30 2021-12-07 北京京东乾石科技有限公司 一种基于仿真***的强化学习方法、装置和***
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021133547A1 (en) * 2019-12-23 2021-07-01 Hrl Laboratories, Llc An automated system for generating approximate safety conditions for monitoring and verification

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104950695A (zh) * 2015-07-15 2015-09-30 浙江工业大学 一种通用的无人机视觉仿真平台
CN109696830A (zh) * 2019-01-31 2019-04-30 天津大学 小型无人直升机的强化学习自适应控制方法
CN110470306A (zh) * 2019-08-27 2019-11-19 中山大学 一种可保证连通性约束的基于深度强化学习的多机器人编队导航方法
CN110879595A (zh) * 2019-11-29 2020-03-13 江苏徐工工程机械研究院有限公司 一种基于深度强化学习的无人矿卡循迹控制***及方法
CN113759751A (zh) * 2020-10-30 2021-12-07 北京京东乾石科技有限公司 一种基于仿真***的强化学习方法、装置和***
CN112818463A (zh) * 2021-01-21 2021-05-18 清华大学 一种多模态陆空两栖车辆平台仿真***
CN112936290A (zh) * 2021-03-25 2021-06-11 西湖大学 一种基于分层强化学习的四足机器人运动规划方法
CN113485443A (zh) * 2021-08-10 2021-10-08 北京宇系航通科技有限公司 基于深度学习的无人机控制方法、存储介质及设备
CN113625757A (zh) * 2021-08-12 2021-11-09 中国电子科技集团公司第二十八研究所 一种基于强化学习和注意力机制的无人机群调度方法
CN113534668A (zh) * 2021-08-13 2021-10-22 哈尔滨工程大学 基于最大熵的演员-评论家框架的auv运动规划方法
CN113703319A (zh) * 2021-08-26 2021-11-26 合肥工业大学 基于强化学习的关节模组不等式约束最优鲁棒控制方法
CN113741533A (zh) * 2021-09-16 2021-12-03 中国电子科技集团公司第五十四研究所 一种基于模仿学习与强化学习的无人机智能决策***
CN113805483A (zh) * 2021-09-17 2021-12-17 中国人民解放军国防科技大学 基于模型预测的机器人控制方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Drone Navigation and Avoidance of Obstacles Through Deep Reinforcement Learning;Ender Çetin 等;2019 IEEE/AIAA 38th Digital Avionics Systems Conference (DASC);全文 *
一种深度强化学习制导控制一体化算法;裴培 等;宇航学报;第42卷(第10期);全文 *

Also Published As

Publication number Publication date
CN114326438A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
CN114326438B (zh) 基于控制障碍函数的安全强化学习四旋翼控制***及方法
CN108445766B (zh) 基于rpd-smc和rise的无模型四旋翼无人机轨迹跟踪控制器及方法
CN109062237B (zh) 一种无人倾转旋翼机自抗扰姿态控制方法
CN110531778B (zh) 一种多旋翼无人机自驾仪桨叶损伤的估计与自愈控制方法
CN108445895B (zh) 用于倾转式三旋翼无人机位置控制的鲁棒控制方法
CN106647781A (zh) 基于重复控制补偿神经模糊pid四旋翼飞行器的控制方法
CN111273688B (zh) 基于事件触发的四旋翼无人机一致性编队控制方法
CN114578691A (zh) 考虑舵面故障的飞翼无人机主动抗扰容错姿态控制方法
CN112859913B (zh) 考虑输出约束的多四旋翼无人机姿态一致最优控制方法
CN114237267B (zh) 基于强化学习的飞行机动决策的辅助方法
CN110727198B (zh) 一种导弹多驱动状态执行机构故障的容错控制方法
CN113777932B (zh) 一种基于Delta算子的四旋翼自适应滑模容错控制方法
Chen et al. Modeling and neuro-fuzzy adaptive attitude control for eight-Rotor MAV
CN111746633A (zh) 一种基于强化学习的车辆分布式转向驱动***控制方法
CN116027809B (zh) 一种DoS攻击下的多四旋翼无人机编队控制方法
CN112230670A (zh) 一种含预估器的多四旋翼飞行器的编队控制方法
Lopez-Sanchez et al. Trajectory tracking double two-loop adaptive neural network control for a Quadrotor
CN113885548B (zh) 一种多四旋翼无人机输出约束状态一致博弈控制器
CN113867374A (zh) 基于滑模控制的四旋翼无人机参数预测和扰动的自适应轨迹跟踪控制器及其设计方法
Prasad et al. Hierarchical control coordination strategy of six wheeled independent drive (6WID) skid steering vehicle
Boudjedir et al. Dual neural network for adaptive sliding mode control of quadrotor helicopter stabilization
CN114995163B (zh) 一种无人机免疫控制方法
CN114578696B (zh) 2-dof直升机***自适应神经网络量化容错控制方法
CN113885549B (zh) 基于维度裁剪的ppo算法的四旋翼姿态轨迹控制方法
CN114063447B (zh) 基于动力学分析的双倾转旋翼无人机模式过渡控制方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant