CN112068549A - 一种基于深度强化学习的无人***集群控制方法 - Google Patents

一种基于深度强化学习的无人***集群控制方法 Download PDF

Info

Publication number
CN112068549A
CN112068549A CN202010789469.3A CN202010789469A CN112068549A CN 112068549 A CN112068549 A CN 112068549A CN 202010789469 A CN202010789469 A CN 202010789469A CN 112068549 A CN112068549 A CN 112068549A
Authority
CN
China
Prior art keywords
unmanned system
unmanned
information
environment
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010789469.3A
Other languages
English (en)
Other versions
CN112068549B (zh
Inventor
白成超
贾涛
何炬恒
郭继峰
颜鹏
郑红星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Institute of Technology
Original Assignee
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Institute of Technology filed Critical Harbin Institute of Technology
Priority to CN202010789469.3A priority Critical patent/CN112068549B/zh
Publication of CN112068549A publication Critical patent/CN112068549A/zh
Application granted granted Critical
Publication of CN112068549B publication Critical patent/CN112068549B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0223Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving speed control of the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0212Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory
    • G05D1/0221Control of position or course in two dimensions specially adapted to land vehicles with means for defining a desired trajectory involving a learning process
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/021Control of position or course in two dimensions specially adapted to land vehicles
    • G05D1/0276Control of position or course in two dimensions specially adapted to land vehicles using signals provided by a source external to the vehicle

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Feedback Control In General (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明是一种基于深度强化学习的无人***集群控制方法。本发明涉及无人***集群控制技术领域,本发明为了解决现有无人***集群控制方法环境适应性差的问题。本发明包括:在无人***集群中,每个无人***分别探测环境信息;将环境信息分为目标信息、障碍信息以及其他无人***状态信息;对获得的信息分别进行标准化处理;将标准化处理的信息通过深度神经网络处理,得到选择动作的概率值;根据得到的概率值选择动作,观测新的环境信息并获得动作评价值;收集所有无人***与环境交互的数据训练深度神经网络;利用训练好的深度神经网络进行无人***集群控制。本发明用于无人***集群控制技术领域。

Description

一种基于深度强化学习的无人***集群控制方法
技术领域
本发明涉及无人***集群控制技术领域,是一种基于深度强化学习的无人***集群控制方法。
背景技术
深度学习DL(Deep Learning)即深度学习,是机器学习方法中的一类方法。其中深度表示深度神经网络,其由大量的、简单的处理单元广泛的相互连接形成模拟人脑神经网络功能的复杂网络***,是一个高度复杂的非线性动力学习***。神经网络模型是以神经元的数学模型为基础来描述的,可以逼近任意复杂的非线性函数。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。典型的神经网络模型包括BP神经网络,卷积神经网络以及循环神经网络等。
强化学习RL(Reinforcement Learning)即强化学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习是智能体以“试错”的方式进行学习,通过与环境进行交互获得奖赏以指导行为,目标是使智能体获得最大的奖赏,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)。由于外部环境提供的信息很少,强化学习智能体必须靠自身的经历进行学习。通过这种方式,强化学习智能体在行动-评价的环境中获得知识,改进行动方案以适应环境。
发明内容
本发明为解决现有无人***集群控制方法环境适应性差的问题,本发明提供了一种基于深度强化学习的无人***集群控制方法,本发明提供了以下技术方案:
一种基于深度强化学习的无人***集群控制方法,包括以下步骤:
步骤1:通过N个无人***组成无人***集群,通过每个无人***的传感器探测周围环境的信息,所述周围环境的信息包括目标信息、障碍物信息以及周围无人***信息;
步骤2:根据无人***的周围环境的信息,通过深度神经网络进行处理,得到选择每个无人***动作的概率值;根据无人***动作的概率值,选择无人***的动作,并观测周围环境得到当前执行动作的评价值,得到无人***与环境交互的数据;
步骤3:收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;
步骤4:根据训练后的深度神经网络,进行无人***集群控制。
优选地,所述步骤1具体为:
通过每个无人***的通信设备和感知传感器探测周围环境的信息,得到目标信息、障碍物信息以及周围无人***信息,通过下式表示目标信息
Figure BDA0002623241990000021
Figure BDA0002623241990000022
其中,
Figure BDA0002623241990000023
为无人***航向坐标系下的距离,
Figure BDA0002623241990000024
为无人***航向坐标系下的角度;
所述障碍物信息包括无人***周围三个障碍物的位置信息,通过下式表示障碍物信息
Figure BDA0002623241990000025
Figure BDA0002623241990000026
Figure BDA0002623241990000027
其中,
Figure BDA0002623241990000028
为无人***航向坐标系下的距离,
Figure BDA0002623241990000029
为无人***航向坐标系下的角度;
通过下式表示周围无人***信息
Figure BDA00026232419900000210
Figure BDA00026232419900000211
Figure BDA00026232419900000212
其中,
Figure BDA00026232419900000213
为周围无人***在航向坐标系下的距离,
Figure BDA00026232419900000214
为周围无人***在航向坐标系下的角度,
Figure BDA00026232419900000215
为周围无人***在航向坐标系下的航向角。
优选地,所述步骤2具体为:
根据无人***的周围环境的信息,进行标准化处理,使得每个信息值在[-1,1]之间,将标准化处理后的周围环境信息通过深度神经网络处理,得到选择每个无人***动作的概率值,根据每个无人***动作的概率值进行采样选择,在执行完所选择的动作后,再一次观测无人***的周围环境信息,获得无人***与环境交互的数据。
优选地,在无人***与环境的交互过程中,所执行的动作的评价值由3部分构成:目标到达奖励,障碍避碰奖励与集群保持奖励;其中,目标到达奖励促使无人***到达目标;障碍避碰奖励惩罚无人***与障碍物发生碰撞的行为;集群保持奖励促使无人***形成一个集群。
优选地,所述深度神经网络包括:BP神经网络,卷积神经网络以及循环神经网络。
优选地,选择的动作为连续动作。
优选地,所述步骤3中收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;具体为:
步骤3.1:初始化策略网络πθ,
Figure BDA0002623241990000031
值网络Vφ,使得
Figure BDA0002623241990000032
值网络和策略网络相同,值网络输出层只有一个单元;
步骤3.2:收集无人***集群中所有无人***与环境交互的数据,对于N个无人***,分别运行策略
Figure BDA0002623241990000033
得到与环境的交互经验
Figure BDA0002623241990000034
其中,
Figure BDA0002623241990000035
为无人机i在t时刻观测到的环境信息,ri t为无人机i在t时刻接收到的奖励值,
Figure BDA0002623241990000036
为无人机i在t时刻执行的动作;i为无人***的下标,t为当前时刻;使用收集到的经验估计优势函数,通过下式表示估计优势函数
Figure BDA0002623241990000037
Figure BDA0002623241990000038
其中,rt为无人***在t时刻接收到的奖励值,V为状态值函数,st为在t时刻的环境状态,γ为折扣因子,Tmax为无人***与环境交互的最大步长,
Figure BDA0002623241990000039
为γ在Tmax-t+1时间步长上的乘积;
步骤3.3:根据得到的估计优势函数,对策略网络πθ进行更新,得到策略网络的损失,通过下式表示策略网络的损失LCLIP(θ):
Figure BDA00026232419900000310
Figure BDA00026232419900000311
其中,ε为截断误差,ri t(θ)为策略πθ与策略
Figure BDA00026232419900000312
选择动作概率的比值;
步骤3.4:根据更新后的策略πθ,更新策略
Figure BDA00026232419900000313
步骤3.5:根据收集无人***集群中所有无人***与环境交互的数据更新值网络Vφ,得到Vφ网络损失函数,通过下式表示所述网络损失函数LV(φ):
Figure BDA00026232419900000314
其中,γt′-t为折扣因子γ在t′-t时间步上的累计乘积,ri t′为无人机i在t′时刻收到的奖励值,
Figure BDA0002623241990000041
为环境状态
Figure BDA0002623241990000042
的值函数;
步骤3.6:重复上述步骤3.2到步骤3.5,直到达到最大的训练周期;
完成上述训练后,实现对无人***集群进行集群控制。
优选地,进行无人***集群控制采用分布式控制策略。
本发明具有以下有益效果:
本发明采用集中式训练,分布式执行的策略学习无人***的集群控制方法。其中,在对环境信息的探测过程中,考虑了传感器的探测范围,每个无人***只能探测到周围的环境信息以及周围其他无人***的状态信息。对所探测到的信息分成了三类信息:目标信息、障碍物信息以及周围其他无人***信息。同时对各信息分别进行了标准化处理,使得各信息值在[-1,1]之间。然后将标准化的信息通过深度神经网络处理得到选择每个执行动作的概率值,按照此概率选择需要执行的动作,之后观测新的环境信息以及获得评价所执行动作的评价值。为了对所执行动作做出全面的评价,评价考虑了整个无人***集群的信息。在训练过程中利用集群中所有的无人***与环境交互的数据对神经网络进行训练,最后利用训练好的深度神经网络对无人***进行集群控制。
本发明使用仿真环境训练深度神经网络,训练速度相比于现实世界可以有很大的提升,加快了深度神经网络的训练速度,同时降低了硬件实验平台的使用成本。无人***集群控制方法有两个阶段:集中式训练阶段和分布式执行阶段。集中式训练阶段在仿真环境中进行,得到训练好的深度神经网络模型。在分布式执行阶段调用训练好的模型对无人***进行集群控制。
本发明的目的在于提供一种在传感探测范围有限情况下可以在复杂环境中使无人***形成一个集群的鲁棒的集群控制方法,该方法使用深度神经网络近似集群控制策略,使用强化学习方法通过与环境交互进行有效学习,得到的集群控制策略泛化能力强,可在复杂的环境中对无人***进行有效的集群控制,具有很高的实用价值。
在不同个数的无人***集群中,均可实现对无人***的集群控制,可以拓展到大规模无人***集群控制应用中。
附图说明
图1为基于深度强化学习的无人***集群控制方法控制框架图;
图2为深度神经网络示意图;
图3为无人***通信范围及感知范围示意图;
图4为无人***环境信息示意图;
图5为对由5个无人***组成的集群进行集群控制的结果示意图;
图6为对由10个无人***组成的集群进行集群控制的结果示意图。
具体实施方式
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1所示,本发明提供一种基于深度强化学习的无人***集群控制方法,具体为:
一种基于深度强化学习的无人***集群控制方法,包括以下步骤:
步骤1:通过N个无人***组成无人***集群,根据图1所示,通过每个无人***的传感器探测周围环境的信息,所述周围环境的信息包括目标信息、障碍物信息以及周围无人***信息;其通信范围与感知范围如图3所示。
所述步骤1具体为:
通过每个无人***的通信设备和感知传感器探测周围环境的信息,得到目标信息、障碍物信息以及周围无人***信息,通过下式表示目标信息
Figure BDA0002623241990000051
Figure BDA0002623241990000052
其中,
Figure BDA0002623241990000053
为无人***航向坐标系下的距离,
Figure BDA0002623241990000054
为无人***航向坐标系下的角度;
根据图4所示,所述障碍物信息包括无人***周围三个障碍物的位置信息,通过下式表示障碍物信息
Figure BDA0002623241990000055
Figure BDA0002623241990000056
Figure BDA0002623241990000057
其中,
Figure BDA0002623241990000058
为单个障碍物的位置信息,
Figure BDA0002623241990000059
为无人***与单个障碍物的距离信息,
Figure BDA00026232419900000510
为为无人***与单个障碍物的角度信息;
通过下式表示周围无人***信息
Figure BDA00026232419900000511
Figure BDA00026232419900000512
Figure BDA00026232419900000513
其中,
Figure BDA00026232419900000514
为周围无人***在航向坐标系下的距离,
Figure BDA00026232419900000515
为周围无人***在航向坐标系下的角度,
Figure BDA00026232419900000516
为周围无人***在航向坐标系下的航向角。所感知到的障碍物个数为n,可通信的其他无人***个数为m(n,m任意正整数)。
步骤2:根据无人***的周围环境的信息,通过深度神经网络进行处理,得到选择每个无人***动作的概率值;根据无人***动作的概率值,选择无人***的动作,并观测周围环境得到当前执行动作的评价值,得到无人***与环境交互的数据;
所述步骤2具体为:
根据无人***的周围环境的信息,进行标准化处理,使得每个信息值在[-1,1]之间,将标准化处理后的周围环境信息通过深度神经网络处理,得到选择每个无人***动作的概率值,根据每个无人***动作的概率值进行采样选择,在执行完所选择的动作后,再一次观测无人***的周围环境信息,获得无人***与环境交互的数据。将标准化处理的数据经过如图2所示的深度神经网络处理
在无人***与环境的交互过程中,所执行的动作的评价值由3部分构成:目标到达奖励,障碍避碰奖励与集群保持奖励;其中,目标到达奖励促使无人***到达目标;障碍避碰奖励惩罚无人***与障碍物发生碰撞的行为;集群保持奖励促使无人***形成一个集群。实验表明集群奖励可以使无人***集群在复杂障碍环境中保持为一个整体。
所述深度神经网络包括:BP神经网络,卷积神经网络以及循环神经网络。选择的动作为连续动作。
步骤3:收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;
所述步骤3中收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;具体为:
步骤3.1:初始化策略网络πθ,
Figure BDA0002623241990000061
值网络Vφ,使得
Figure BDA0002623241990000062
值网络和策略网络相同,值网络输出层只有一个单元;
步骤3.2:收集无人***集群中所有无人***与环境交互的数据,对于N个无人***,分别运行策略
Figure BDA0002623241990000063
得到与环境的交互经验
Figure BDA0002623241990000064
其中,
Figure BDA0002623241990000065
为无人机i在t时刻观测到的环境信息,ri t为无人机i在t时刻接收到的奖励值,
Figure BDA0002623241990000066
为无人机i在t时刻执行的动作;i为无人***的下标,t为当前时刻;使用收集到的经验估计优势函数,通过下式表示估计优势函数
Figure BDA0002623241990000067
Figure BDA0002623241990000068
其中,rt为无人***在t时刻接收到的奖励值,V为状态值函数,st为在t时刻的环境状态,γ为折扣因子,Tmax为无人***与环境交互的最大步长,
Figure BDA0002623241990000071
为γ在Tmax-t+1时间步长上的乘积;
步骤3.3:根据得到的估计优势函数,对策略网络πθ进行更新,得到策略网络的损失,通过下式表示策略网络的损失LCLIP(θ):
Figure BDA0002623241990000072
Figure BDA0002623241990000073
其中,ε为截断误差,ri t(θ)为策略πθ与策略
Figure BDA0002623241990000074
选择动作概率的比值;
步骤3.4:根据更新后的策略πθ,更新策略
Figure BDA0002623241990000075
步骤3.5:根据收集无人***集群中所有无人***与环境交互的数据更新值网络Vφ,得到Vφ网络损失函数,通过下式表示所述网络损失函数LV(φ):
Figure BDA0002623241990000076
其中,γt′-t为折扣因子γ在t′-t时间步上的累计乘积,ri t′为无人机i在t′时刻收到的奖励值,
Figure BDA0002623241990000077
为环境状态
Figure BDA0002623241990000078
的值函数;
步骤3.6:重复上述步骤3.2到步骤3.5,直到达到最大的训练周期;
完成上述训练后,实现对无人***集群进行集群控制。
进行无人***集群控制采用分布式控制策略。
步骤4:根据训练后的深度神经网络,进行无人***集群控制。
具体实施例二:
本发明实验采用旋翼无人机的数字模型进行仿真验证。
实验结果及分析
本发明实验分别对由5个旋翼无人机和10个旋翼无人机组成的集群进行集群控制仿真验证,旋翼无人机的飞行速度固定为2m/s,控制指令为无人机的航向角改变值,离散化处理为
Figure BDA0002623241990000079
验证环境中具有15个随机分布的障碍物。仿真结果如图5,图6所示。由结果可知,本发明的集群控制方法可以使无人***集群在穿越复杂障碍环境时保持为一个集群整体,同时避免与环境中的障碍物发生碰撞。此外,该方法可以使10个旋翼无人机组成的集群成功穿越障碍区域,并避开障碍物,说明本发明的集群控制方法具有较好的泛化能力。
以上所述仅是一种基于深度强化学习的无人***集群控制方法的优选实施方式,一种基于深度强化学习的无人***集群控制方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (8)

1.一种基于深度强化学习的无人***集群控制方法,其特征是:包括以下步骤:
步骤1:通过N个无人***组成无人***集群,通过每个无人***的传感器探测周围环境的信息,所述周围环境的信息包括目标信息、障碍物信息以及周围无人***信息;
步骤2:根据无人***的周围环境的信息,通过深度神经网络进行处理,得到选择每个无人***动作的概率值;根据无人***动作的概率值,选择无人***的动作,并观测周围环境得到当前执行动作的评价值,得到无人***与环境交互的数据;
步骤3:收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;
步骤4:根据训练后的深度神经网络,进行无人***集群控制。
2.根据权利要求1所述的一种基于深度强化学习的无人***集群控制方法,其特征是:所述步骤1具体为:
通过每个无人***的通信设备和感知传感器探测周围环境的信息,得到目标信息、障碍物信息以及周围无人***信息,通过下式表示目标信息
Figure FDA0002623241980000011
Figure FDA0002623241980000012
其中,
Figure FDA0002623241980000013
为无人***航向坐标系下的距离,
Figure FDA0002623241980000014
为无人***航向坐标系下的角度;
所述障碍物信息包括无人***周围三个障碍物的位置信息,通过下式表示障碍物信息
Figure FDA0002623241980000015
Figure FDA0002623241980000016
Figure FDA0002623241980000017
其中,
Figure FDA0002623241980000018
为单个障碍物的位置信息,
Figure FDA0002623241980000019
为无人***与单个障碍物的距离信息,
Figure FDA00026232419800000110
为为无人***与单个障碍物的角度信息;
通过下式表示周围无人***信息
Figure FDA00026232419800000111
Figure FDA00026232419800000112
Figure FDA00026232419800000113
其中,
Figure FDA00026232419800000114
为周围无人***在航向坐标系下的距离,
Figure FDA00026232419800000115
为周围无人***在航向坐标系下的角度,
Figure FDA00026232419800000116
为周围无人***在航向坐标系下的航向角。
3.根据权利要求1所述的一种基于深度强化学习的无人***集群控制方法,其特征是:所述步骤2具体为:
根据无人***的周围环境的信息,进行标准化处理,使得每个信息值在[-1,1]之间,将标准化处理后的周围环境信息通过深度神经网络处理,得到选择每个无人***动作的概率值,根据每个无人***动作的概率值进行采样选择,在执行完所选择的动作后,再一次观测无人***的周围环境信息,获得无人***与环境交互的数据。
4.根据权利要求3所述的一种基于深度强化学习的无人***集群控制方法,其特征是:在无人***与环境的交互过程中,所执行的动作的评价值由3部分构成:目标到达奖励,障碍避碰奖励与集群保持奖励;其中,目标到达奖励促使无人***到达目标;障碍避碰奖励惩罚无人***与障碍物发生碰撞的行为;集群保持奖励促使无人***形成一个集群。
5.根据权利要求3所述的一种基于深度强化学习的无人***集群控制方法,其特征是:所述深度神经网络包括:BP神经网络,卷积神经网络以及循环神经网络。
6.根据权利要求3所述的一种基于深度强化学习的无人***集群控制方法,其特征是:选择的动作为连续动作。
7.根据权利要求1所述的一种基于深度强化学习的无人***集群控制方法,其特征是:所述步骤3中收集无人***集群中所有无人***与环境交互的数据,根据所述交互数据训练深度神经网络;具体为:
步骤3.1:初始化策略网络πθ,
Figure FDA0002623241980000021
值网络Vφ,使得
Figure FDA0002623241980000022
值网络和策略网络相同,值网络输出层只有一个单元;
步骤3.2:收集无人***集群中所有无人***与环境交互的数据,对于N个无人***,分别运行策略
Figure FDA0002623241980000023
得到与环境的交互经验
Figure FDA0002623241980000024
其中,
Figure FDA0002623241980000025
为无人机i在t时刻观测到的环境信息,ri t为无人机i在t时刻接收到的奖励值,
Figure FDA0002623241980000026
为无人机i在t时刻执行的动作;i为无人***的下标,t为当前时刻;使用收集到的经验估计优势函数,通过下式表示估计优势函数
Figure FDA0002623241980000027
Figure FDA0002623241980000028
其中,rt为无人***在t时刻接收到的奖励值,V为状态值函数,st为在t时刻的环境状态,γ为折扣因子,Tmax为无人***与环境交互的最大步长,
Figure FDA0002623241980000029
为γ在Tmax-t+1时间步长上的乘积;
步骤3.3:根据得到的估计优势函数,对策略网络πθ进行更新,得到策略网络的损失,通过下式表示策略网络的损失LCLIP(θ):
Figure FDA0002623241980000031
Figure FDA0002623241980000032
其中,ε为截断误差,ri t(θ)为策略πθ与策略
Figure FDA0002623241980000033
选择动作概率的比值;
步骤3.4:根据更新后的策略πθ,更新策略
Figure FDA0002623241980000034
Figure FDA0002623241980000035
步骤3.5:根据收集无人***集群中所有无人***与环境交互的数据更新值网络Vφ,得到Vφ网络损失函数,通过下式表示所述网络损失函数LV(φ):
Figure FDA0002623241980000036
其中,γt′-t为折扣因子γ在t′-t时间步上的累计乘积,ri t′为无人机i在t′时刻收到的奖励值,
Figure FDA0002623241980000037
为环境状态
Figure FDA0002623241980000038
的值函数;
步骤3.6:重复上述步骤3.2到步骤3.5,直到达到最大的训练周期;
完成上述训练后,实现对无人***集群进行集群控制。
8.根据权利要求1所述的一种基于深度强化学习的无人***集群控制方法,其特征是:进行无人***集群控制采用分布式控制策略。
CN202010789469.3A 2020-08-07 2020-08-07 一种基于深度强化学习的无人***集群控制方法 Active CN112068549B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010789469.3A CN112068549B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的无人***集群控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010789469.3A CN112068549B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的无人***集群控制方法

Publications (2)

Publication Number Publication Date
CN112068549A true CN112068549A (zh) 2020-12-11
CN112068549B CN112068549B (zh) 2022-12-16

Family

ID=73662469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010789469.3A Active CN112068549B (zh) 2020-08-07 2020-08-07 一种基于深度强化学习的无人***集群控制方法

Country Status (1)

Country Link
CN (1) CN112068549B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能***控制方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及***
CN113848984A (zh) * 2021-10-29 2021-12-28 哈尔滨工业大学 一种无人机集群控制方法及***
CN114020016A (zh) * 2021-10-29 2022-02-08 哈尔滨工业大学 一种基于机器学习的空地协同通信服务方法及***
CN114118400A (zh) * 2021-10-11 2022-03-01 中国科学院自动化研究所 一种基于专注网络的集群对抗方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190217476A1 (en) * 2018-01-12 2019-07-18 Futurewei Technologies, Inc. Robot navigation and object tracking
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和***
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学***台无地图自主导航方法
CN111191728A (zh) * 2019-12-31 2020-05-22 中国电子科技集团公司信息科学研究院 基于异步或同步的深度强化学习分布式训练方法及***
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、***及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190217476A1 (en) * 2018-01-12 2019-07-18 Futurewei Technologies, Inc. Robot navigation and object tracking
CN110147101A (zh) * 2019-05-13 2019-08-20 中山大学 一种基于深度强化学习的端到端分布式多机器人编队导航方法
CN110442129A (zh) * 2019-07-26 2019-11-12 中南大学 一种多智能体编队的控制方法和***
CN110852448A (zh) * 2019-11-15 2020-02-28 中山大学 一种基于多智能体强化学习的合作型智能体的学习方法
CN111141300A (zh) * 2019-12-18 2020-05-12 南京理工大学 基于深度强化学***台无地图自主导航方法
CN111191728A (zh) * 2019-12-31 2020-05-22 中国电子科技集团公司信息科学研究院 基于异步或同步的深度强化学习分布式训练方法及***
CN111240356A (zh) * 2020-01-14 2020-06-05 西北工业大学 一种基于深度强化学习的无人机集群会合方法
CN111291890A (zh) * 2020-05-13 2020-06-16 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种博弈策略优化方法、***及存储介质

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
HERNANDEZ-LEAL P 等: "A survey and critique of multiagent deep reinforcement learning", 《AUTONOMOUS AGENTS AND MULTI-AGENT SYSTEMS》 *
SIYU ZHOU 等: "A Deep Q-network (DQN) Based Path Planning Method for Mobile Robots", 《2018 IEEE INTERNATIONAL CONFERENCE ON INFORMATION AND AUTOMATION》 *
WENQI LI 等: "Robot Patrol Path Planning Based on Combined Deep Reinforcement Learning", 《2018 IEEE INTL CONF ON PARALLEL & DISTRIBUTED PROCESSING WITH APPLICATIONS》 *
YU WANXIA 等: "Fuzzy neural network model for controlling traffic signal based on particle swarm optimization", 《MICROCOMPUTER INFORMATION》 *
刘全 等: "深度强化学习综述", 《计算机学报》 *
刘庆杰等: "面向智能避障场景的深度强化学习研究", 《智能物联技术》 *
刘强等: "基于深度强化学习的群体对抗策略研究", 《智能计算机与应用》 *
赵毓 等: "于多智能体强化学习的空间机械臂轨迹规划", 《航空学报》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112711271A (zh) * 2020-12-16 2021-04-27 中山大学 基于深度强化学习的自主导航无人机功率优化方法
CN113110582A (zh) * 2021-04-22 2021-07-13 中国科学院重庆绿色智能技术研究院 无人机集群智能***控制方法
CN113110582B (zh) * 2021-04-22 2023-06-02 中国科学院重庆绿色智能技术研究院 无人机集群智能***控制方法
CN113110509A (zh) * 2021-05-17 2021-07-13 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
CN113110509B (zh) * 2021-05-17 2023-02-28 哈尔滨工业大学(深圳) 一种基于深度强化学习的仓储***多机器人路径规划方法
CN113553934A (zh) * 2021-07-19 2021-10-26 吉林大学 基于深度强化学习的地面无人车智能决策方法及***
CN113553934B (zh) * 2021-07-19 2024-02-20 吉林大学 基于深度强化学习的地面无人车智能决策方法及***
CN114118400A (zh) * 2021-10-11 2022-03-01 中国科学院自动化研究所 一种基于专注网络的集群对抗方法及装置
CN114118400B (zh) * 2021-10-11 2023-01-03 中国科学院自动化研究所 一种基于专注网络的集群对抗方法及装置
CN113848984A (zh) * 2021-10-29 2021-12-28 哈尔滨工业大学 一种无人机集群控制方法及***
CN114020016A (zh) * 2021-10-29 2022-02-08 哈尔滨工业大学 一种基于机器学习的空地协同通信服务方法及***
CN113848984B (zh) * 2021-10-29 2022-06-10 哈尔滨工业大学 一种无人机集群控制方法及***

Also Published As

Publication number Publication date
CN112068549B (zh) 2022-12-16

Similar Documents

Publication Publication Date Title
CN112068549B (zh) 一种基于深度强化学习的无人***集群控制方法
CN112965499B (zh) 基于注意力模型和深度强化学习的无人车行驶决策方法
CN112232490B (zh) 一种基于视觉的深度模仿强化学习驾驶策略训练方法
CN112356841B (zh) 一种基于脑机交互的车辆控制方法及装置
CN102722714B (zh) 基于目标跟踪的人工神经网络扩张式学习方法
CN108537197A (zh) 一种基于深度学习的车道线检测预警装置及预警方法
CN102945554B (zh) 基于学习和加速鲁棒surf特征的目标跟踪方法
CN110188683B (zh) 一种基于cnn-lstm的自动驾驶控制方法
CN111483468A (zh) 基于对抗模仿学习的无人驾驶车辆换道决策方法和***
CN109727490B (zh) 一种基于行车预测场的周边车辆行为自适应矫正预测方法
CN110119714B (zh) 一种基于卷积神经网络的驾驶员疲劳检测方法及装置
CN113255936A (zh) 基于模仿学习和注意力机制的深度强化学习策略保护防御方法和装置
CN109583508A (zh) 一种基于深度学习的车辆异常加减速行为识别方法
DE102019105363B4 (de) Verfahren für ein Messsystem im Fahrzeug zur Erkennung und Klassifizierung von Objekten im Umfeld des Fahrzeugs mit Hilfe eines Deep-Learning Verfahrens mit einem selbstlernenden Entscheider
CN111338385A (zh) 一种基于GRU网络模型与Gipps模型融合的车辆跟驰方法
CN110320883A (zh) 一种基于强化学习算法的车辆自动驾驶控制方法及装置
CN108320051B (zh) 一种基于gru网络模型的移动机器人动态避碰规划方法
EP4216098A1 (en) Methods and apparatuses for constructing vehicle dynamics model and for predicting vehicle state information
CN112651374B (zh) 一种基于社会信息的未来轨迹预测方法及自动驾驶***
CN111016901A (zh) 基于深度学习的智能驾驶决策方法及***
CN107480597A (zh) 一种基于神经网络模型的机器人避障方法
CN110663042A (zh) 交通参与者朝着自动化驾驶的车辆的方向的通信流
CN116331221A (zh) 辅助驾驶方法、装置、电子设备及存储介质
CN116433957A (zh) 一种基于半监督学习的智能驾驶感知方法
CN110478911A (zh) 基于机器学习的智能游戏车无人驾驶方法及智能车、设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant