CN115877871B - 一种基于强化学习的非零和博弈无人机编队控制方法 - Google Patents

一种基于强化学习的非零和博弈无人机编队控制方法 Download PDF

Info

Publication number
CN115877871B
CN115877871B CN202310193021.9A CN202310193021A CN115877871B CN 115877871 B CN115877871 B CN 115877871B CN 202310193021 A CN202310193021 A CN 202310193021A CN 115877871 B CN115877871 B CN 115877871B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
zero
subsystem
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310193021.9A
Other languages
English (en)
Other versions
CN115877871A (zh
Inventor
刘昊
吕金虎
马子豪
高庆
刘德元
王薇
钟森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Academy of Mathematics and Systems Science of CAS
Original Assignee
Beihang University
Academy of Mathematics and Systems Science of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Academy of Mathematics and Systems Science of CAS filed Critical Beihang University
Priority to CN202310193021.9A priority Critical patent/CN115877871B/zh
Publication of CN115877871A publication Critical patent/CN115877871A/zh
Application granted granted Critical
Publication of CN115877871B publication Critical patent/CN115877871B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明属于无人飞行器控制技术领域,提出了一种基于强化学***稳且快速。同时,误差***采用基于博弈的控制方法比采用传统控制方法收敛速度更快且超调量更小。因此,所提出的非零和博弈控制器能够较好地解决编队轨迹跟踪问题。

Description

一种基于强化学习的非零和博弈无人机编队控制方法
技术领域
本发明属于无人飞行器控制技术领域。具体讲,涉及一种基于强化学习的非零和博弈无人机编队控制方法。
背景技术
无人机(UAV)在许多典型应用中,如重型运输、广域搜索任务和大规模科学观测中,与单一无人机相比,具有成本低、机动性强和适应性好等诸多优势,因此受到各个研究领域的重视。传统的编队***控制方法有如领航者—跟随者法、基于行为法、虚拟结构法和人工势场法等。其中领航者—跟随者法在编队飞行中只用定义领航者的行为,其他跟随者通过信息交互,自动保持与领航者的相对位置,这样就能完成整个编队的队形保持任务。分布式领航者—跟随者法在实际应用过程中控制结构简单清晰,每架无人机只需要其邻居和自身的状态信息,因此对导弹通信硬件要求不高,大大简化了编队成员中的合作问题,因此被广泛应用在机器人编队、无人机编队及导弹编队中。近年来,博弈论在机器人编队领域引起了广泛的关注,例如利用微分博弈均衡解作为编队控制策略来有效地解决编队控制问题。事实上,无人机编队控制问题可表述为一个多人微分博弈问题。
当飞行器的动力学参数无法准确获得或编队内部存在常值干扰时,很难求解博弈编队问题的纳什均衡解,进而获得纳什均衡最优编队控制律以实现无人机团队所需的队形。该问题可以利用强化学习自适应学习的能力,智能辨识出无人机编队***的一些未知参数并利用状态数据学习出最优的控制器。
发明内容
为克服现有技术中的问题,本发明提出一种基于强化学习的非零和博弈无人机编队控制方法,可以利用强化学习自适应学习的能力,智能辨识出无人机编队***的一些未知参数并利用状态数据学习出最优的控制器。
本发明的技术方案如下:
一种基于强化学习的非零和博弈无人机编队控制方法,具体步骤如下:
S1:建立无人机动力学模型;
S2:建立非零和博弈编队模型,包括纵向子***非零和博弈编队模型、横向子***非零和博弈编队模型、垂直子***非零和博弈编队模型和偏航子***非零和博弈编队模型;
S3:利用强化学习方法对步骤S2建立的非零和博弈编队模型进行求解;
S4:设计非零和博弈编队控制器。
优选地,步骤S1具体步骤如下:
对于第i架无人机,建立六自由度无人机动力学***,所述六自由度无人机动力***是多输入和多输出***,由四个子***组成,其中纵向子***的输入和输出分别定义为
Figure SMS_2
,/>
Figure SMS_5
、横向子***的输入和输出分别定义为/>
Figure SMS_7
,/>
Figure SMS_3
、垂直子***的输入和输出分别定义为/>
Figure SMS_4
,/>
Figure SMS_6
、偏航子***的输入和输出分别定义为/>
Figure SMS_8
,/>
Figure SMS_1
Figure SMS_10
表示无人机在地球固定惯性系中的位置,
Figure SMS_14
表示无人机的欧拉姿态角,其中/>
Figure SMS_17
分别表示滚转角、俯仰角和偏航角;/>
Figure SMS_11
表示无人机的控制输入,分为局部控制输入/>
Figure SMS_16
,以及全局控制输入/>
Figure SMS_20
,即/>
Figure SMS_22
;局部输入/>
Figure SMS_9
是无人机由自身输出量/>
Figure SMS_13
产生的控制输入,全局输入/>
Figure SMS_18
是由其他无人机的输出量/>
Figure SMS_21
产生的控制输入;分别定义纵向子***、横向子***、垂直子***和偏航子***的状态向量为,
Figure SMS_12
,/>
Figure SMS_15
Figure SMS_19
以及/>
Figure SMS_23
建立无人机纵向子***动力学模型和横向子***动力学模型如下:
Figure SMS_24
(1)
其中
Figure SMS_25
Figure SMS_26
是常数反馈系数,/>
Figure SMS_27
和/>
Figure SMS_28
是纵向子***和横向子***的标称参数,j表示其他无人机的编号,n表示其他无人机的总和;/>
Figure SMS_29
时,
Figure SMS_30
分别表示第i架无人机的纵向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;/>
Figure SMS_31
时,
Figure SMS_32
分别表示第i架无人机的横向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;
建立无人机垂直子***动力学模型和偏航子***动力学模型如下:
Figure SMS_33
(2)
其中
Figure SMS_34
Figure SMS_35
是常数反馈系数,/>
Figure SMS_36
和/>
Figure SMS_37
是垂直子***和偏航子***的标称参数,
Figure SMS_38
时,/>
Figure SMS_39
分别表示第i架无人机的垂直子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;/>
Figure SMS_40
时,
Figure SMS_41
分别表示第i架无人机的偏航子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量。
优选地,步骤S2中建立纵向子***非零和博弈编队模型过程如下:
Figure SMS_42
,根据无人机纵向子***动力学模型,建立纵向子***的非零和博弈编队模型,步骤如下:
无人机集合
Figure SMS_43
,一共有n架无人机,且令
Figure SMS_44
表示非零和博弈编队模型的状态,得到全局动力学模型如下:/>
Figure SMS_45
(3)
其中
Figure SMS_46
是/>
Figure SMS_47
单位矩阵,/>
Figure SMS_48
是克罗内克积,/>
Figure SMS_49
是第i个元素为1其他元素为0的列向量;已知
Figure SMS_50
所以将上式代入得
Figure SMS_51
(4)
Figure SMS_52
考虑虚拟领导者为编队中的每个追随者提供所需的相对位置,定义如下零输入的理想***:
Figure SMS_53
(5)
其中
Figure SMS_54
,/>
Figure SMS_55
;令/>
Figure SMS_56
,/>
Figure SMS_57
,则令式(4)和式(5)作差获得如下误差***:
Figure SMS_58
(6)
采用相同的方法建立横向子***、垂直子***和偏航子***的非零和博弈编队模型。
优选地,步骤S3具体步骤如下:
每架无人机的代价函数定义如下:
Figure SMS_59
(7)
其中,权重参数
Figure SMS_60
和权重参数/>
Figure SMS_61
是对称矩阵,/>
Figure SMS_62
为非零和博弈编队模型的初始状态,t表示起始时间,τ表示积分时间;
为每架无人机设计一个非零和博弈编队控制器以跟踪预定轨迹,即
Figure SMS_63
Figure SMS_64
,同时最小化第i架无人机的代价函数/>
Figure SMS_65
将博弈最优控制器设计为
Figure SMS_66
(8)
其中,
Figure SMS_67
表示最优反馈控制增益;
在满足式(6)的条件下,
Figure SMS_68
通过最小化代价函数求得:
Figure SMS_69
当每架无人机都满足以下所有不等式时,博弈反馈控制器式(8)确立了非零和博弈编队控制问题的纳什均衡,即纳什控制策略:
Figure SMS_70
(9)
优选地,步骤S4具体步骤如下:
对于未知矩阵
Figure SMS_71
和/>
Figure SMS_72
,利用强化学习算法近似求解耦合代数Riccati方程组和纳什均衡解;无人机的最优反馈控制增益通过/>
Figure SMS_73
获得;其中K i 为反馈控制增益,对称矩阵/>
Figure SMS_74
由以下耦合AREs求解:
Figure SMS_75
(10)
式中v表示计数变量,
Figure SMS_76
,如果***的动力学已知,使用基于模型的策略迭代算法获得数值解;如果***的动力学未知,则利用以下策略迭代强化学习算法近似求解;
Figure SMS_77
(11)
其中,k表示迭代次数,
Figure SMS_78
(12)
由克罗内克积运算法则得:
Figure SMS_79
(13)
Figure SMS_80
(14)
其中
Figure SMS_81
为任意列向量,MN表示任意两个矩阵;
利用式(13)和式(14)得,
Figure SMS_82
(15)
Figure SMS_83
(16)
Figure SMS_84
(17)
其中,vec()的通式如下:
Figure SMS_85
,/>
Figure SMS_86
是/>
Figure SMS_87
的每一列元素构成的列向量;定义列向量/>
Figure SMS_88
,/>
Figure SMS_89
以及/>
Figure SMS_90
s是正整数,如下:
Figure SMS_91
(18)
其中,
Figure SMS_92
Figure SMS_93
结合式(11),(15),(16),(17)和(18),推出
Figure SMS_94
(19)/>
其中,
Figure SMS_95
从式(11)中导出以下线性迭代方程:
Figure SMS_96
(20)
其中
Figure SMS_97
如果
Figure SMS_98
是满列秩,则得到式(20)的唯一解;通过在学习过程中引入适当的随机谐波探测噪声,使/>
Figure SMS_99
满列秩;当/>
Figure SMS_100
时,其中ε表示收敛阈值,从式(20)中求得第i架无人机的反馈控制增益/>
Figure SMS_101
同时求解最优反馈控制增益
Figure SMS_102
与对称矩阵/>
Figure SMS_103
,而不需要式(4)中的***动态矩阵/>
Figure SMS_104
和/>
Figure SMS_105
;基于博弈的控制协议通过***的状态信息和控制输入信息获得。
优选地,步骤S4中:所述策略迭代算法是一种不依赖于无人机***先验知识的无模型算法,具体算法如下:
Step1.选择
Figure SMS_106
;为每架无人机选择一个稳定的初始反馈控制增益/>
Figure SMS_107
Step2.在
Figure SMS_108
期间,无人机的控制输入为/>
Figure SMS_109
,其中/>
Figure SMS_110
是一个有界的探索噪声;
Step3.通过式(20)求解每架无人机的
Figure SMS_111
Step4.令
Figure SMS_112
,并返回Step 3直到实现/>
Figure SMS_113
,/>
Figure SMS_114
代表矩阵的谱范数;
Step5.获得纳什均衡解的近似解
Figure SMS_115
本发明提供的一种基于强化学习的非零和博弈无人机编队控制方法,其优势在于以下几点:
本发明所涉及的控制方法可以让无人机集群子***状态快速收敛到期望值,即能在短时间内让无人机集群形成所需的编队样式,过程平稳且快速。同时,误差***采用基于博弈的控制方法比采用传统控制方法收敛速度更快且超调量更小。因此,所提出的非零和博弈控制器能够较好地解决编队轨迹跟踪问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1是
Figure SMS_116
学习过程收敛图;
图2是无人机位置图;
图3是无人机位置响应图(3D);
图4是无人机位置误差图;
图5是无人机姿态角响应图;
图6是无人机位置响应图(LQR)。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
一种基于强化学习的非零和博弈无人机编队控制方法,具体步骤如下:
S1:建立无人机动力学模型;
S2:建立非零和博弈编队模型,包括纵向子***非零和博弈编队模型、横向子***非零和博弈编队模型、垂直子***非零和博弈编队模型和偏航子***非零和博弈编队模型;
S3:利用强化学习方法对步骤S2建立的非零和博弈编队模型进行求解;
S4:设计非零和博弈编队控制器。
1.无人机模型
六自由度无人机动力学***可分为四个子***,即纵向子***、横向子***、垂直子***和偏航子***。
Figure SMS_119
表示第i架无人机在地球固定惯性系中的位置,/>
Figure SMS_123
表示无人机的欧拉姿态角,其中/>
Figure SMS_128
分别表示滚转角、俯仰角和偏航角。令/>
Figure SMS_120
表示第i架无人机的控制输入,四个分量代表四个子***的控制输入。控制输入可以分为局部控制输入/>
Figure SMS_124
,以及全局控制输入
Figure SMS_127
,即/>
Figure SMS_131
。局部输入/>
Figure SMS_117
是无人机由自身输出量/>
Figure SMS_121
产生的控制输入,全局输入/>
Figure SMS_125
是由其他无人机的输出量/>
Figure SMS_129
产生的控制输入。故分别定义纵向子***、横向子***、垂直子***和偏航子***的状态向量为,/>
Figure SMS_118
Figure SMS_122
,/>
Figure SMS_126
以及/>
Figure SMS_130
。纵向子***动力学模型和横向子***动力学模型如下:
Figure SMS_132
(1)
其中
Figure SMS_133
Figure SMS_134
是常数反馈系数,/>
Figure SMS_135
和/>
Figure SMS_136
是纵向子***和横向子***的标称参数,j表示其他无人机的编号,n表示其他无人机的总和;/>
Figure SMS_137
时,
Figure SMS_138
分别表示第i架无人机的纵向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;/>
Figure SMS_139
时,
Figure SMS_140
分别表示第i架无人机的横向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量。/>
垂直子***动力学模型和偏航子***动力学模型如下:
Figure SMS_141
(2)
其中
Figure SMS_142
Figure SMS_143
是常数反馈系数,/>
Figure SMS_144
和/>
Figure SMS_145
是垂直子***和偏航子***的标称参数。从式(1)和式(2)可以看出,UVA***是多输入和多输出***,由四个子***组成,具有四个控制输入/>
Figure SMS_146
和四个输出/>
Figure SMS_147
2.非零和博弈编队模型
将以纵向子***为例建立非零和博弈编队模型,其他子***的模型也可以采用相同的方法建立。设无人机集合
Figure SMS_148
,且令/>
Figure SMS_149
表示非零和博弈编队模型的状态。然后,可以得到全局动力学模型如下:
Figure SMS_150
(3)
其中,
Figure SMS_151
是/>
Figure SMS_152
单位矩阵,/>
Figure SMS_153
是克罗内克积,/>
Figure SMS_154
是第i个元素为1其他元素为0的列向量。已知
Figure SMS_155
所以将上式代入可得
Figure SMS_156
(4)/>
Figure SMS_157
将考虑到虚拟领导者为编队中的每个追随者提供所需的相对位置,那么定义如下零输入的理想***:
Figure SMS_158
(5)
其中
Figure SMS_159
,/>
Figure SMS_160
;令/>
Figure SMS_161
,/>
Figure SMS_162
,则令式(4)和式(5)作差获得如下误差***:
Figure SMS_163
(6)
从式(6)可以看出,编队纵向子***的状态受所有无人机控制输入
Figure SMS_164
的影响;这意味着多无人机***内存在合作和冲突,因此可以在微分博弈论的范围内研究全局***。
3.非零和博弈编队控制问题求解
每架无人机的代价函数定义如下:
Figure SMS_165
(7)
其中,权重参数
Figure SMS_166
和/>
Figure SMS_167
是对称权重矩阵,/>
Figure SMS_168
为非零和博弈编队模型的初始状态,t表示起始时间,τ表示积分时间。本发明的目标是为每架无人机设计一个非零和博弈编队控制器,以跟踪预定轨迹,即/>
Figure SMS_169
和/>
Figure SMS_170
,同时最小化第i架无人机的代价函数/>
Figure SMS_171
。将博弈控制器设计为
Figure SMS_172
(8)
在满足式(6)的条件下,通过最小化代价函数求得:
Figure SMS_173
当每架无人机都满足以下所有不等式时,博弈反馈控制器式(8)确立了非零和博弈编队控制问题的纳什均衡,即纳什控制策略:
Figure SMS_174
(9)
从式(9)可以看出,当其他无人机保持纳什控制策略时,没有一个参与者能够通过偏离纳什均衡来降低成本;这意味着纳什均衡可以迫使每个参与者保持纳什控制策略。
4.控制器设计:
在这一部分中,基于博弈论和强化学习理论,设计了一种非零和博弈编队控制器。对于未知矩阵
Figure SMS_175
和/>
Figure SMS_176
,利用强化学习算法近似求解了耦合代数Riccati方程组(AREs)和纳什均衡解。从最优控制理论和博弈论可知,无人机的稳定反馈控制增益可通过
Figure SMS_177
获得。其中对称矩阵/>
Figure SMS_178
可由以下耦合AREs求解:
Figure SMS_179
(10)
式中
Figure SMS_180
。非线性方程式(10)的解析解难以直接求出的。因此,如果***的动力学已知,可以使用基于模型的策略迭代算法来获得式(10)的数值解;如果***的动力学未知,则可以利用以下策略迭代强化学习算法来近似求解式(10)。
Figure SMS_181
(11)
Figure SMS_182
(12)
由克罗内克积可得:
Figure SMS_183
(13)
Figure SMS_184
(14)/>
利用式(13)和式(14)得,
Figure SMS_185
(15)
Figure SMS_186
(16)
Figure SMS_187
(17)
其中,vec()的通式如下:
Figure SMS_188
,/>
Figure SMS_189
是/>
Figure SMS_190
的每一列元素构成的列向量;定义列向量/>
Figure SMS_191
,/>
Figure SMS_192
以及/>
Figure SMS_193
s是正整数,如下:
Figure SMS_194
(18)/>
其中,
Figure SMS_195
Figure SMS_196
结合式(11),(15),(16),(17)和(18),推出
Figure SMS_197
(19)
其中,
Figure SMS_198
可以从式(11)中导出以下线性迭代方程:
Figure SMS_199
(20)
其中
Figure SMS_200
注1:如果
Figure SMS_201
是满列秩,则可以得到式(20)的唯一解。通过在学习过程中引入适当的随机谐波探测噪声,可以使/>
Figure SMS_202
满列秩。当/>
Figure SMS_203
时,第i架无人机的反馈控制矩阵/>
Figure SMS_204
可以从式(20)中求得。
注2:通过式(20)可以同时求解最优反馈控制增益
Figure SMS_205
与对称矩阵/>
Figure SMS_206
,而不需要式(4)中的***动态矩阵/>
Figure SMS_207
和/>
Figure SMS_208
。基于博弈的控制协议可以通过***的状态信息和控制输入信息获得。因此,所提出的策略迭代算法是一种不依赖于无人机***先验知识的无模型算法。具体算法如下:
Step1.选择
Figure SMS_209
;为每架无人机选择一个稳定的初始反馈控制增益/>
Figure SMS_210
Step2.在
Figure SMS_211
期间,无人机的控制输入为/>
Figure SMS_212
,其中/>
Figure SMS_213
是一个有界的探索噪声;
Step3.通过式(20)求解每架无人机的
Figure SMS_214
Step4.令
Figure SMS_215
,并返回Step 3直到实现/>
Figure SMS_216
,/>
Figure SMS_217
代表矩阵的谱范数;
Step5.获得纳什均衡解的近似解
Figure SMS_218
在仿真中,博弈编队***包括三架无人机,均根据单架无人机***建模,参数如表1所示。无人机***参数的有效性通过实时实验结果验证。而矩阵A,B和C对于编队控制器是未知的。此外,还与传统的最优控制方法(LQR)进行了比较。权重矩阵选择为:
Figure SMS_226
,/>
Figure SMS_230
Figure SMS_238
。理想***的初始状态选择为
Figure SMS_220
,/>
Figure SMS_227
Figure SMS_235
和/>
Figure SMS_243
。而非零和博弈编队***的初始状态选择为/>
Figure SMS_223
,/>
Figure SMS_231
,/>
Figure SMS_239
和/>
Figure SMS_246
。稳定反馈控制增益选择为/>
Figure SMS_221
Figure SMS_229
,/>
Figure SMS_236
Figure SMS_244
,/>
Figure SMS_222
和/>
Figure SMS_232
Figure SMS_240
,/>
Figure SMS_247
,/>
Figure SMS_219
,/>
Figure SMS_228
,/>
Figure SMS_237
,/>
Figure SMS_245
。强化学习算法的设计参数选择为:/>
Figure SMS_225
和/>
Figure SMS_234
s。探索噪声选择为:
Figure SMS_241
,/>
Figure SMS_248
和/>
Figure SMS_224
,其中
Figure SMS_233
为区间/>
Figure SMS_242
内的随机数。最后选择收敛阈值/>
Figure SMS_249
来检验所提出的博弈编队控制器的有效性。
表1 各子***参数
Figure SMS_250
在学***稳且快速。对比图4和图6可以看出,误差***采用基于博弈的控制方法比采用传统控制方法收敛速度更快且超调量更小。因此,所提出的非零和博弈控制器能够较好地解决编队轨迹跟踪问题。
以上所述仅为本发明的实施按例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于强化学习的非零和博弈无人机编队控制方法,其特征在于,具体步骤如下:
S1:建立无人机动力学模型;
S2:建立非零和博弈编队模型,包括纵向子***非零和博弈编队模型、横向子***非零和博弈编队模型、垂直子***非零和博弈编队模型和偏航子***非零和博弈编队模型;
S3:利用强化学习方法对步骤S2建立的非零和博弈编队模型进行求解;
S4:设计非零和博弈编队控制器;
步骤S1具体步骤如下:
对于第i架无人机,建立六自由度无人机动力学***,所述六自由度无人机动力***是多输入和多输出***,由四个子***组成,其中纵向子***的输入和输出分别定义为
Figure QLYQS_1
,/>
Figure QLYQS_5
、横向子***的输入和输出分别定义为/>
Figure QLYQS_7
,/>
Figure QLYQS_3
、垂直子***的输入和输出分别定义为/>
Figure QLYQS_4
,/>
Figure QLYQS_6
、偏航子***的输入和输出分别定义为/>
Figure QLYQS_8
,/>
Figure QLYQS_2
Figure QLYQS_10
表示无人机在地球固定惯性系中的位置,
Figure QLYQS_14
表示无人机的欧拉姿态角,其中/>
Figure QLYQS_18
分别表示滚转角、俯仰角和偏航角;/>
Figure QLYQS_11
表示无人机的控制输入,分为局部控制输入/>
Figure QLYQS_16
和全局控制输入/>
Figure QLYQS_20
,即/>
Figure QLYQS_23
;局部输入/>
Figure QLYQS_9
是无人机由自身输出量/>
Figure QLYQS_15
产生的控制输入,全局输入/>
Figure QLYQS_19
是由其他无人机输出量/>
Figure QLYQS_22
产生的控制输入;分别定义纵向子***、横向子***、垂直子***和偏航子***的状态向量为,/>
Figure QLYQS_12
Figure QLYQS_13
,/>
Figure QLYQS_17
以及/>
Figure QLYQS_21
建立无人机纵向子***动力学模型和横向子***动力学模型如下:
Figure QLYQS_24
(1)
其中
Figure QLYQS_25
Figure QLYQS_26
是常数反馈系数,/>
Figure QLYQS_27
和/>
Figure QLYQS_28
是纵向子***和横向子***的标称参数,j表示其他无人机的编号,n表示其他无人机的总和;/>
Figure QLYQS_29
时,
Figure QLYQS_30
分别表示第i架无人机的纵向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;/>
Figure QLYQS_31
时,
Figure QLYQS_32
分别表示第i架无人机的横向子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;
建立无人机垂直子***动力学模型和偏航子***动力学模型如下:
Figure QLYQS_33
(2)
其中
Figure QLYQS_34
/>
Figure QLYQS_35
是常数反馈系数,/>
Figure QLYQS_36
和/>
Figure QLYQS_37
是垂直子***和偏航子***的标称参数,
Figure QLYQS_38
时,/>
Figure QLYQS_39
分别表示第i架无人机的垂直子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量;/>
Figure QLYQS_40
时,
Figure QLYQS_41
分别表示第i架无人机的偏航子***的状态向量、局部控制输入、全局控制输入、自身输出量、其他无人机输出量。
2.根据权利要求1所述的一种基于强化学习的非零和博弈无人机编队控制方法,其特征在于,步骤S2中建立纵向子***非零和博弈编队模型过程如下:
Figure QLYQS_42
,根据无人机纵向子***动力学模型,建立纵向子***的非零和博弈编队模型,步骤如下:
无人机集合
Figure QLYQS_43
,一共有n架无人机,且令/>
Figure QLYQS_44
表示非零和博弈编队模型的状态,得到全局动力学模型如下:
Figure QLYQS_45
(3)
其中
Figure QLYQS_46
是/>
Figure QLYQS_47
单位矩阵,/>
Figure QLYQS_48
是克罗内克积,/>
Figure QLYQS_49
是第i个元素为1其他元素为0的列向量;已知
Figure QLYQS_50
代入式(3)得
Figure QLYQS_51
(4)
Figure QLYQS_52
考虑虚拟领导者为编队中的每个追随者提供所需的相对位置,定义如下零输入的理想***:
Figure QLYQS_53
(5)
其中
Figure QLYQS_54
,/>
Figure QLYQS_55
;令
Figure QLYQS_56
,/>
Figure QLYQS_57
,则令式(4)和式(5)作差获得如下误差***:
Figure QLYQS_58
(6)。
3.根据权利要求2所述的一种基于强化学习的非零和博弈无人机编队控制方法,其特征在于,步骤S3具体步骤如下:
每架无人机的代价函数定义如下:
Figure QLYQS_59
(7)
其中,权重参数
Figure QLYQS_60
和权重参数/>
Figure QLYQS_61
是对称矩阵,/>
Figure QLYQS_62
为非零和博弈编队模型的初始状态,t表示起始时间,τ表示积分时间;
为每架无人机设计一个非零和博弈编队控制器以跟踪预定轨迹,即
Figure QLYQS_63
Figure QLYQS_64
,同时最小化第i架无人机的代价函数/>
Figure QLYQS_65
将博弈反馈控制器设计为
Figure QLYQS_66
(8)
其中,
Figure QLYQS_67
表示最优反馈控制增益;
在满足式(6)的条件下,
Figure QLYQS_68
通过最小化代价函数求得:
Figure QLYQS_69
当每架无人机都满足以下所有不等式时,博弈反馈控制器式(8)确立了非零和博弈编队控制问题的纳什均衡,即纳什控制策略:
Figure QLYQS_70
(9)。
4.根据权利要求3所述的一种基于强化学习的非零和博弈无人机编队控制方法,其特征在于,步骤S4具体步骤如下:
对于未知矩阵
Figure QLYQS_71
和/>
Figure QLYQS_72
,利用强化学习算法近似求解耦合代数Riccati方程组和纳什均衡解;无人机的最优反馈控制增益通过/>
Figure QLYQS_73
获得;其中K i 为反馈控制增益,对称矩阵/>
Figure QLYQS_74
由以下耦合AREs求解:
Figure QLYQS_75
(10)
式中v表示计数变量,
Figure QLYQS_76
,如果***的动力学已知,使用基于模型的策略迭代算法获得(10)数值解;如果***的动力学未知,则利用以下策略迭代强化学习算法近似求解;
Figure QLYQS_77
(11)
其中,k表示迭代次数,
Figure QLYQS_78
(12)
由克罗内克积运算法则得:
Figure QLYQS_79
(13)
Figure QLYQS_80
(14)
其中
Figure QLYQS_81
为任意列向量,MN表示任意两个矩阵;
利用式(13)和式(14)得,
Figure QLYQS_82
(15)/>
Figure QLYQS_83
(16)
Figure QLYQS_84
(17)
其中,vec()的通式如下:
Figure QLYQS_85
,/>
Figure QLYQS_86
是/>
Figure QLYQS_87
的每一列元素构成的列向量;定义列向量/>
Figure QLYQS_88
,/>
Figure QLYQS_89
以及/>
Figure QLYQS_90
s是正整数,如下:
Figure QLYQS_91
(18)
其中,
Figure QLYQS_92
,/>
Figure QLYQS_93
结合式(11),(15),(16),(17)和(18),推出
Figure QLYQS_94
(19)
其中,
Figure QLYQS_95
从式(11)中导出以下线性迭代方程:
Figure QLYQS_96
(20)
其中
Figure QLYQS_97
如果
Figure QLYQS_98
是满列秩,则得到式(20)的唯一解;通过在学习过程中引入适当的随机谐波探测噪声,使/>
Figure QLYQS_99
满列秩;当/>
Figure QLYQS_100
时,其中ε表示收敛阈值,从式(20)中求得第i架无人机的反馈控制增益/>
Figure QLYQS_101
同时求解最优反馈控制增益
Figure QLYQS_102
与对称矩阵/>
Figure QLYQS_103
,而不需要式(4)中的***动态矩阵/>
Figure QLYQS_104
和/>
Figure QLYQS_105
;基于博弈的控制协议通过***的状态信息和控制输入信息获得。
5.根据权利要求4所述的一种基于强化学习的非零和博弈无人机编队控制方法,其特征在于,步骤S4中:所述策略迭代算法是一种不依赖于无人机***先验知识的无模型算法,具体算法如下:
Step1.选择
Figure QLYQS_106
;为每架无人机选择一个稳定的初始反馈控制增益/>
Figure QLYQS_107
Step2.在
Figure QLYQS_108
期间,无人机的控制输入为/>
Figure QLYQS_109
,其中
Figure QLYQS_110
是一个有界的探索噪声;
Step3.通过式(20)求解每架无人机的
Figure QLYQS_111
Step4.令
Figure QLYQS_112
,并返回Step 3直到实现/>
Figure QLYQS_113
,/>
Figure QLYQS_114
代表矩阵的谱范数;
Step5.获得纳什均衡解的近似解
Figure QLYQS_115
。/>
CN202310193021.9A 2023-03-03 2023-03-03 一种基于强化学习的非零和博弈无人机编队控制方法 Active CN115877871B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310193021.9A CN115877871B (zh) 2023-03-03 2023-03-03 一种基于强化学习的非零和博弈无人机编队控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310193021.9A CN115877871B (zh) 2023-03-03 2023-03-03 一种基于强化学习的非零和博弈无人机编队控制方法

Publications (2)

Publication Number Publication Date
CN115877871A CN115877871A (zh) 2023-03-31
CN115877871B true CN115877871B (zh) 2023-05-26

Family

ID=85761836

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310193021.9A Active CN115877871B (zh) 2023-03-03 2023-03-03 一种基于强化学习的非零和博弈无人机编队控制方法

Country Status (1)

Country Link
CN (1) CN115877871B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116880551B (zh) * 2023-07-13 2024-06-14 之江实验室 基于随机事件捕获的飞行轨迹规划方法,***及存储介质
CN117420849B (zh) * 2023-12-18 2024-03-08 山东科技大学 一种基于强化学习的海上无人机编队变粒度协同搜救方法
CN118243132B (zh) * 2024-05-28 2024-07-19 山东理工大学 基于Astar算法与非零和博弈的动态路径规划方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210403159A1 (en) * 2018-10-18 2021-12-30 Telefonaktiebolaget Lm Ericsson (Publ) Formation Flight of Unmanned Aerial Vehicles
CN109375514B (zh) * 2018-11-30 2021-11-05 沈阳航空航天大学 一种存在假数据注入攻击时的最优跟踪控制器设计方法
CN111694365B (zh) * 2020-07-01 2021-04-20 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN113093538A (zh) * 2021-03-18 2021-07-09 长春工业大学 一种模块化机器人***的非零和博弈神经-最优控制方法
CN114047758B (zh) * 2021-11-08 2024-06-14 东南大学 基于Q-learning的多移动机器人编队方法
CN114460959A (zh) * 2021-12-15 2022-05-10 北京机电工程研究所 一种基于多体博弈的无人机群协同自主决策方法及装置
CN115562342A (zh) * 2022-10-24 2023-01-03 南京航空航天大学 多飞行器任务分配、航迹规划和编队控制一体化博弈方法

Also Published As

Publication number Publication date
CN115877871A (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN115877871B (zh) 一种基于强化学习的非零和博弈无人机编队控制方法
Mofid et al. Adaptive finite-time backstepping global sliding mode tracker of quad-rotor UAVs under model uncertainty, wind perturbation, and input saturation
Ansari et al. Quadrotor control via robust generalized dynamic inversion and adaptive non‐singular terminal sliding mode
CN108845590B (zh) 一种时延环境下的多无人机协同编队控制方法
Zhang et al. Distributed control of coordinated path tracking for networked nonholonomic mobile vehicles
CN110442020B (zh) 一种新型的基于鲸鱼优化算法的容错控制方法
CN112631335B (zh) 一种基于事件触发的多四旋翼无人机固定时间编队方法
CN114020042A (zh) 一种异构无人集群编队合围跟踪控制方法及***
CN106444368A (zh) 具有输入非线性的近空间飞行器预设性能姿态跟踪控制方法
CN107203138B (zh) 一种输入输出饱和的飞行器鲁棒控制方法
Abdessameud et al. Motion coordination of thrust-propelled underactuated vehicles with intermittent and delayed communications
CN115639830B (zh) 一种空地智能体协同编队控制***及其编队控制方法
CN113031446A (zh) 不确定时滞非线性***非奇异性神经自适应跟踪控制方法
Jiang et al. Composite adaptive finite-time control for quadrotors via prescribed performance
Cong et al. Formation control for multiquadrotor aircraft: Connectivity preserving and collision avoidance
CN112947086B (zh) 一种无人机和无人车组成的异构多智能体***编队控制中执行器故障的自适应补偿方法
Jiang et al. Novel integral sliding mode control for small-scale unmanned helicopters
CN111781827A (zh) 基于神经网络和滑模控制的卫星编队控制方法
CN112631316B (zh) 变负载四旋翼无人机的有限时间控制方法
CN112650299A (zh) 一种考虑时变编队的分组一致性无人机编队控制方法
Sun et al. Fuzzy model‐based multi‐objective dynamic programming with modified particle swarm optimization approach for the balance control of bicycle robot
CN114935943A (zh) 一种无人机与无人车集群编队跟踪控制方法及***
Nayak et al. Stabilizing a spherical pendulum on a quadrotor
Oh et al. Design of a control system for an organic flight array based on a neural network controller
Yang et al. Cooperative group formation control for multiple quadrotors system with finite-and fixed-time convergence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant