CN115268494B - 基于分层强化学习的无人机路径规划方法 - Google Patents

基于分层强化学习的无人机路径规划方法 Download PDF

Info

Publication number
CN115268494B
CN115268494B CN202210883240.5A CN202210883240A CN115268494B CN 115268494 B CN115268494 B CN 115268494B CN 202210883240 A CN202210883240 A CN 202210883240A CN 115268494 B CN115268494 B CN 115268494B
Authority
CN
China
Prior art keywords
algorithm
aerial vehicle
unmanned aerial
path
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210883240.5A
Other languages
English (en)
Other versions
CN115268494A (zh
Inventor
王�琦
潘德民
王栋
高尚
于化龙
崔弘杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu University of Science and Technology
Original Assignee
Jiangsu University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu University of Science and Technology filed Critical Jiangsu University of Science and Technology
Priority to CN202210883240.5A priority Critical patent/CN115268494B/zh
Publication of CN115268494A publication Critical patent/CN115268494A/zh
Application granted granted Critical
Publication of CN115268494B publication Critical patent/CN115268494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了基于分层强化学习的无人机路径规划方法,包括:步骤1:初始化深度Q网络算法、Q学习算法;步骤2:驱动无人机从起始点移动至目标点,对深度Q网络算法、Q学习算法进行训练;移动过程中当无人机未检测到动态障碍物时,则使用深度Q网络算法对路径进行规划;移动过程中当无人机检测到动态障碍物时,则使用Q学习算法对路径进行规划;步骤3:重复步骤2直至深度Q网络算法、Q学习算法训练完成,设置无人机实际坐标、起点坐标、目标点坐标,通过训练完成的深度Q网络算法、Q学习算法对路径进行规划。本发明克服单个算法应用于动态环境时,存在的网络拟合易受动态障碍物影响的问题,提升了算法路径规划的性能。

Description

基于分层强化学习的无人机路径规划方法
技术领域
本发明涉及无人机路径规划技术领域,具体涉及一种基于分层强化学习的无人机路径规划方法。
背景技术
近年来无人机在军用、民用的许多领域的广泛应用,使得对其具有自主化的需求更加强烈,其中无人机自主路径规划又是研究的重点。现阶段无人机路径规划的研究,大多集中在静态环境中的路径规划,对于动态环境研究比较少。目前在路径规划的诸方法中,强化学习因其独特的奖惩机制,并通过与环境交互自主学习最优策略的特点,成为路径规划的热点方法。作为强化学习最经典算法的Q学习(Q-learning)被广泛的应用于无人机的路径规划问题。但Q学习因其表格学习的特质无法适用于环境复杂或是状态空间维度大的场景。所以结合深度学习的深度强化学习被提出并应用于各种复杂的无人机路径规划问题中,这其中应用最广泛的就是深度Q网络(DQN)算法。
然而,本发明发明人在实现基于深度Q网络算法的无人机动态路径规划问题中发现,强化学习算法因采用随机选择动作的探索策略,会导致训练初期的效率低下、迭代次数过长且规划的路径并非最优。这种情况在动态、静态障碍物并存的复杂环境更加的严重。此外,还发现单个深度Q网络算法在面对动态环境时,由于动态障碍物的位置不固定,导致其训练过程中网络的拟合不好,也就导致最终训练出的网络性能不好。
可见,现有技术中存在训练效率低与网络拟合易受影响的技术问题。
发明内容
本发明提供了一种基于分层强化学习的无人机路径规划方法,以解决现有技术中训练效率低与网络拟合易受影响的问题。
本发明提供了一种基于分层强化学习的无人机路径规划方法,包括如下步骤:
步骤1:初始化深度Q网络算法、Q学习算法;
步骤2:驱动无人机从起始点移动至目标点,对深度Q网络算法、Q学习算法进行训练;
移动过程中当无人机未检测到动态障碍物时,则使用深度Q网络算法对路径进行规划;
移动过程中当无人机检测到动态障碍物时,则使用Q学习算法对路径进行规划;
步骤3:重复步骤2直至深度Q网络算法、Q学习算法训练完成,设置无人机实际坐标、起点坐标、目标点坐标,通过训练完成的深度Q网络算法、Q学习算法对路径进行规划。
进一步地,当无人机未检测到动态障碍物,深度Q网络算法对路径进行规划后,还包括通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新。此时,更新深度Q网络算法使用的奖励函数与其正常更新的保持一致;
当无人机检测到动态障碍物,Q学习算法对路径进行规划后,还包括通过当前规划路径后Q学习算法中产生的经验元组对深度Q网络算法进行更新。
进一步地,通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新时,Q学习算法使用的奖励函数公式如下:
reward=η(ds-1-ds)
其中,η为常数;ds-1为上一时刻无人机离目标点的距离;ds为当前时刻无人机离目标点的距离。
进一步地,所述步骤2中,在深度Q网络算法、Q学习算法对路径进行规划之前,还包括:通过启发式鱼算法作为深度Q网络算法、Q学习算法在路径规划中的动作指导;其中,所述启发式鱼算法包括:行进行为过程、觅食行为过程,其中,行进行为过程为获取无人机会与周围障碍物碰撞的方向;觅食行为过程为获取无人机朝向目标点行进的数个优先级高的方向,启发式鱼算法在数个优先级高的方向中去掉碰撞方向作为动作指导。
进一步地,在获取无人机会与周围障碍物碰撞的方向时,且当障碍物为动态时,通过障碍物的运动方向和运动速度判断无人机是否会与障碍物发生碰撞。
本发明的有益效果:
本发明通过在基础的深度Q网络算法和Q学习算法的动作选择策略中加入了启发式鱼算法的动作指导策略。在快速到达目标点和动静态障碍物的躲避两个方面上进行动作指导,这种动作指导在算法训练的初期大大减少不必要的探索从而降低原始算法探索的盲目性。
本发明利用分层强化学习,在面对动态的复杂环境时,使用两种算法分别处理静态和动态障碍物。这种设计克服单个算法应用于动态环境时,存在的网络拟合易受动态障碍物影响的问题,提升了算法路径规划的性能。
上述两种效果分别解决了现有技术中算法训练效率低,规划路径缺乏安全性考虑的问题。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1为本发明具体实施例的流程示意图;
图2为本发明具体实施例所描述无人机传感器在环境中的探测示意图;
图3为本发明具体实施例启发式鱼算法流程示意图;
图4为本发明具体实施例所描述启发式鱼算法的觅食行为某一种情况的示意图;
图5为本发明具体实施例所描述启发式鱼算法的行进行为某一种情况的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于分层强化学习的无人机路径规划方法,本方法流程结构如图1所示,包括如下步骤:
步骤1:初始化深度Q网络算法的网络参数θ,经验回放区以及Q学习的Q表格;初始化训练回合数Nepisode,设定无人机飞行任务的起点PO和目标点PT
步骤2:当训练回合数小于设定的最大回合数时,重置状态和环境,开始本次回合的训练。根据传感器探测环境,并判断探测范围内是否有动态障碍物,传感器探测范围如图2所示;
移动过程中当无人机未检测到动态障碍物时,则使用深度Q网络算法对路径进行规划;
深度Q网络算法根据无人机当前的位置以及静态障碍物的位置信息,利用启发式鱼算法作为算法的动作指导选择动作并执行,然后到达下一状态。对于当前动作的奖励可由奖励函数得到,本发明实施例将静态路径规划部分奖励函数设置为:
α,β为常数,决定了两个奖励计算单元在总奖励函数的权重。根据实验调试,本实例将α,β分别设置为1.1,2。ds表示上一个状态中无人机与目标点的距离;ds-1表示下一个状态中无人机与目标点之间的距离。为无人机到各个静态障碍物的距离。
将本次交互得到的由当前状态、动作、奖励和下一状态四部分构成的经验元组[S,A,R,S′]存放至经验回放区中。然后算法按照设定好的批次数m从经验回放区/>中采样数据来对深度Q网络算法的Q网络进行更新。
同时,在深度Q网络算法和Q学习算法在切换使用时,如果一方完全脱离另一方停止工作,会导致两个算法训练完成后,会存在部分状态动作对的Q值缺失。为了避免这一问题,在深度Q网络算法工作时,也要利用其在上一步中交互产生的经验元组对Q学习算法的Q表进行更新,此时,由于Q学习算法在非工作时期无人机传感器范围内没有动态障碍物,故将奖励函数定义为:
reward=η(ds-1-ds)
最后,如果无人机这一次采取的动作导致了碰撞,就结束并开始新的训练回合;如果没有导致碰撞,则继续当前回合的训练。
移动过程中当无人机检测到动态障碍物时,则使用Q学习算法对路径进行规划;
Q学习算法根据无人机当前位置以及检测到的动态障碍物的信息,利用启发式鱼算法作为算法的动作指导选择动作并执行,到达下一状态。对于动态路径规划部分的奖励函数,本发明实施例将其设置为:
γ,δ为权重常数,根据实验调试,本实例将γ,δ的分别设置为1.1,1;d′u→t,du→t分别表示上一时刻和当前时刻无人机与目标点的距离;d′u→o,du→o分别表示上一时刻和当前时刻无人机离所躲避的动态障碍物的距离。
然后,根据本次交互得到的信息元组[S,A,R,S′],对Q学习算法的Q表进行更新。
同样,利用上一步交互得到的经验元组,对深度Q网络算法的网络进行更新。此时,奖励函数与深度Q网络算法实际进行静态路径规划时的奖励函数保持一致。
最后,如果无人机这一次采取的动作导致了碰撞,就结束并开始新的训练回合;如果没有导致碰撞,则继续当前回合的训练。
步骤3:重复步骤2,若无人机到达目标点就结束当前回合;如果无人机当前的训练回合数达到设置的最大回合数Nepisode,则深度Q网络算法、Q学习算法训练完成。此时,设置无人机实际坐标、起点坐标、目标点坐标,通过训练完成的深度Q网络算法、Q学习算法对路径进行规划。
步骤2中,在深度Q网络算法、Q学习算法对路径进行规划之前,还包括:通过启发式鱼算法作为深度Q网络算法、Q学习算法在路径规划中的动作指导;其中,启发式鱼算法是受自然界中鱼能够在黑暗环境利用侧线器官进行觅食这一现象所启发,算法包括:行进行为过程、觅食行为过程,其中,行进行为过程为获取无人机会与周围障碍物碰撞的方向;觅食行为过程为获取无人机朝向目标点行进的数个优先级高的方向,启发式鱼算法在数个优先级高的方向中去掉碰撞方向作为动作指导。本算法流程如图3所示,包括如下步骤:
步骤21:当深度Q网络算法或是Q学习算法调用启发式鱼算法选择动作时,将当前状态、目标点位置、以及包含动、静态障碍物的信息输入启发式鱼算法。本发明采用的实验环境为栅格环境,无人机可采取八个方向上的动作,启发式鱼算法负责从其中选出当前状态下的最优动作。
步骤22:觅食行为根据当前状态以及目标点位置,计算可选动作集合,如图4所示。设无人机当前位置和目标点构成的方向向量为Lu→t,Lhorizontal为无人机forward方向的一个单位向量,则两向量的夹角为:
其次,Laction,action∈A分别为动作空间某动作上的一个单位方向向量,各动作与Lhorizontal之间的夹角为:
则θt与各个θaction的差值为:
最后,根据差值从小到大赋予各动作从高到低的优先级,并返回优先级前五的动作集合。
步骤23:行进行为根据当前状态以及动、静态障碍物信息,计算不会导致碰撞的可选动作集合,如图5所示,灰色方块表示静态障碍物,斜线方块表示动态障碍物。
对于静态障碍物的躲避,就利用静态障碍物的位置信息,当无人机执行某一动作会进入静态障碍物的区域,就将此动作设置为当前状态的禁止动作,并返回可用动作。
对于动态障碍物的躲避,根据传感器探测得到的动态障碍物的信息集合[speed,direction,position],预测该动态障碍物下一时刻的威胁区域,当无人机执行某一动作会进入此威胁区域,就将此动作设置为当前状态的禁止动作,并返回可用动作。
步骤24:综合步骤22、步骤23返回的动作,向深度Q网络算法或是Q学习返回数个有高优先级且不会导致碰撞的动作。本次调用结束。
以模拟方式对具体实施例过程进行举例,具体如下:
例1:分层强化学习
步骤1:初始化深度Q网络算法的网络参数,经验回放区大小为1000000;初始化Q学习算法的Q表格。设置训练总回合数为500回合,无人机飞行任务的起点PO=[0,0]和目标点PT=[29,29];
步骤2:设置传感器探测范围为3,如图2所示。
若无人机当前探测范围内没有动态障碍物就调用深度Q算法进行静态路径规划,然后算法调用启发式鱼算法进行动作选择。无人机执行选取的动作进入下一状态,同时获得执行这一动作的奖励。算法将经验元组存放至经验回放区。同时从经验回放区中按照设定好的批次m=16采样信息进行网络参数的更新,并利用此经验元组更新Q学习算法的Q表。
若探测范围内存在动态障碍物如图2情况,则调用Q学习算法进行动态路径规划。同样调用启发式鱼算法选择动作,然后无人机执行选取的动作进入下一状态并获得此动作的奖励。最后Q学习算法利用经验元组更新Q表格,同时,利用经验元组更新深度Q网络算法的网络。
步骤3:无人机与环境交互过程中不断循环:检测动态障碍物→切换算法→选择动作→执行动作→计算奖励→更新Q网络/Q表格,直至与障碍物发生碰撞或是到达目标点,就结束当前回合。当总训练回合数到达设定的Nepisode时,结束整个训练。
例2:启发式鱼算法
步骤1:启发式被深度Q网络算法或是Q学习算法调用,并输入包含当前状态,目标点位置,以及包含动、静态障碍物的信息。启发式算法分别执行觅食、行进行为选择可用动作集合。
步骤2:觅食行为根据当前状态以及目标点位置,计算θt,θaction,再计算θt与各个θaction的差值,然后根据此差值赋予八个动作不同优先级,并返回优先级前五的动作。请参考图4,这种情况下返回的优先级动作集合为[左前,前,左,右前,左后]。
步骤3:行进行为根据静态、动态障碍物的信息,返回不会导致碰撞的动作。对于静态障碍物,因其位置固定,就禁止选择进入该区域的动作;对于动态障碍物,利用集合[speed,direction,position],预测下一时刻此障碍物的位置,然后禁止选择进入该区域的动作。如图5所示的一种行进行为的场景,灰色方框为静态障碍物,斜线为动态障碍物,动态障碍物的信息为[1,左,当前位置],故其下一时刻为图中所标注区域。最后去掉会导致碰撞的动作[左,右后],则剩余6个动作为可选动作。
步骤4:综合步骤2、步骤3返回的动作,返回可选动作集合为[左前,前,右前,左后],本次调用结束。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (4)

1.一种基于分层强化学习的无人机路径规划方法,其特征在于,包括如下步骤:
步骤1:初始化深度Q网络算法、Q学习算法;
步骤2:驱动无人机从起始点移动至目标点,对深度Q网络算法、Q学习算法进行训练;
移动过程中当无人机未检测到动态障碍物时,则使用深度Q网络算法对路径进行规划,通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新;
移动过程中当无人机检测到动态障碍物时,则使用Q学习算法对路径进行规划,通过当前规划路径后Q学习算法中产生的经验元组对深度Q网络算法进行更新;
步骤3:重复步骤2直至深度Q网络算法、Q学习算法训练完成,设置无人机实际坐标、起点坐标、目标点坐标,通过训练完成的深度Q网络算法、Q学习算法对路径进行规划。
2.如权利要求1所述的基于分层强化学习的无人机路径规划方法,其特征在于,通过当前规划路径后深度Q网络算法中产生的经验元组对Q学习算法进行更新时,Q学习算法使用的奖励函数公式如下:
reward=η(ds-1-ds)
其中,η为常数;ds-1为上一时刻无人机离目标点的距离;ds为当前时刻无人机离目标点的距离。
3.如权利要求1所述的基于分层强化学习的无人机路径规划方法,其特征在于,所述步骤2中,在深度Q网络算法、Q学习算法对路径进行规划之前,还包括:通过启发式鱼算法作为深度Q网络算法、Q学习算法在路径规划中的动作指导;其中,所述启发式鱼算法包括:行进行为过程、觅食行为过程,其中,行进行为过程为获取无人机会与周围障碍物碰撞的方向;觅食行为过程为获取无人机朝向目标点行进的数个优先级高的方向,启发式鱼算法在数个优先级高的方向中去掉碰撞方向作为动作指导。
4.如权利要求3所述的基于分层强化学习的无人机路径规划方法,其特征在于,在获取无人机会与周围障碍物碰撞的方向时,且当障碍物为动态时,通过障碍物的运动方向和运动速度判断无人机是否会与障碍物发生碰撞。
CN202210883240.5A 2022-07-26 2022-07-26 基于分层强化学习的无人机路径规划方法 Active CN115268494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210883240.5A CN115268494B (zh) 2022-07-26 2022-07-26 基于分层强化学习的无人机路径规划方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210883240.5A CN115268494B (zh) 2022-07-26 2022-07-26 基于分层强化学习的无人机路径规划方法

Publications (2)

Publication Number Publication Date
CN115268494A CN115268494A (zh) 2022-11-01
CN115268494B true CN115268494B (zh) 2024-05-28

Family

ID=83769868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210883240.5A Active CN115268494B (zh) 2022-07-26 2022-07-26 基于分层强化学习的无人机路径规划方法

Country Status (1)

Country Link
CN (1) CN115268494B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
WO2019147235A1 (en) * 2018-01-24 2019-08-01 Ford Global Technologies, Llc Path planning for autonomous moving devices
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN114003059A (zh) * 2021-11-01 2022-02-01 河海大学常州校区 运动学约束条件下基于深度强化学习的uav路径规划方法
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法
CN114529061A (zh) * 2022-01-26 2022-05-24 江苏科技大学 一种自动预测垃圾产出分布及规划最优运输路线的方法
CN114527759A (zh) * 2022-02-25 2022-05-24 重庆大学 一种基于分层强化学习的端到端驾驶方法
CN114625151A (zh) * 2022-03-10 2022-06-14 大连理工大学 一种基于强化学习的水下机器人避障路径规划方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019147235A1 (en) * 2018-01-24 2019-08-01 Ford Global Technologies, Llc Path planning for autonomous moving devices
CN109992000A (zh) * 2019-04-04 2019-07-09 北京航空航天大学 一种基于分层强化学习的多无人机路径协同规划方法及装置
CN113821041A (zh) * 2021-10-09 2021-12-21 中山大学 一种多机器人协同导航与避障的方法
CN114003059A (zh) * 2021-11-01 2022-02-01 河海大学常州校区 运动学约束条件下基于深度强化学习的uav路径规划方法
CN114529061A (zh) * 2022-01-26 2022-05-24 江苏科技大学 一种自动预测垃圾产出分布及规划最优运输路线的方法
CN114527759A (zh) * 2022-02-25 2022-05-24 重庆大学 一种基于分层强化学习的端到端驾驶方法
CN114518770A (zh) * 2022-03-01 2022-05-20 西安交通大学 一种电势场和深度强化学习融合的无人机路径规划方法
CN114625151A (zh) * 2022-03-10 2022-06-14 大连理工大学 一种基于强化学习的水下机器人避障路径规划方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
D3QHF: A Hybrid Double-deck Heuristic Reinforcement Learning Approach for UAV Path Planning;Demin Pan,等;IEEE;20221231;1221-1226 *
Study on interface temperature control of laser direct joining of CFRTP and aluminum alloy based on staged laser path planning;Qi Wang, 等;Optics and Laser Technology;20220609;第154卷;1-13 *
基于MAXQ分层强化学习的有人机/无人机协同路径规划研究;程先峰,严勇杰;信息化研究;20200229;第46卷(第1期);13-19 *
基于事件驱动的无人机强化学习避障研究;唐博文,等;广西科技大学学报;20190331(第1期);96-102 *
基于分数阶MRAC 的四旋翼姿态控制;陈开元,等;电光与控制;20211231;第28卷(第12期);1-5 *
王曌,胡立生.基于深度Q 学习的工业机械臂路径规划方法.化工自动化及仪表.(第2期),141-145. *

Also Published As

Publication number Publication date
CN115268494A (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
CN109765893B (zh) 基于鲸鱼优化算法的移动机器人路径规划方法
CN111260027B (zh) 一种基于强化学习的智能体自动决策方法
CN107229287A (zh) 一种基于遗传蚂蚁算法的无人机全局路径规划方法
CN113741525B (zh) 基于策略集合maddpg多无人机协同攻防对抗方法
CN112269382B (zh) 一种机器人多目标路径规划方法
CN113561986A (zh) 自动驾驶汽车决策方法及装置
CN114089776B (zh) 一种基于深度强化学习的无人机避障方法
CN111723931B (zh) 一种多智能体对抗动作预测方法及装置
CN114967721B (zh) 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法
CN112651486A (zh) 一种提高maddpg算法收敛速度的方法及其应用
CN112469050A (zh) 一种基于改进灰狼优化器的wsn三维覆盖增强方法
CN115268494B (zh) 基于分层强化学习的无人机路径规划方法
CN113467481B (zh) 一种基于改进Sarsa算法的路径规划方法
Han et al. Multi-uav automatic dynamic obstacle avoidance with experience-shared a2c
CN117705113A (zh) 一种改进ppo的无人机视觉避障及自主导航方法
CN117109574A (zh) 一种农用运输机械覆盖路径规划方法
CN114326720A (zh) 一种无人艇实时避障方法及***
CN111562740B (zh) 基于利用梯度的多目标强化学习算法的自动控制方法
CN115373415A (zh) 一种基于深度强化学习的无人机智能导航方法
Xiao et al. Design of reward functions based on The DDQN Algorithm
CN113589810B (zh) 智能体动态自主避障运动方法、装置、服务器及存储介质
CN110955239B (zh) 一种基于逆强化学习的无人船多目标轨迹规划方法及***
Miyashita et al. Flexible Exploration Strategies in Multi-Agent Reinforcement Learning for Instability by Mutual Learning
Bamal Collision-free path finding for dynamic gaming and real time robot navigation
US20230126696A1 (en) Lane change method and system, storage medium, and vehicle

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant