CN110955239B - 一种基于逆强化学习的无人船多目标轨迹规划方法及*** - Google Patents

一种基于逆强化学习的无人船多目标轨迹规划方法及*** Download PDF

Info

Publication number
CN110955239B
CN110955239B CN201911102540.XA CN201911102540A CN110955239B CN 110955239 B CN110955239 B CN 110955239B CN 201911102540 A CN201911102540 A CN 201911102540A CN 110955239 B CN110955239 B CN 110955239B
Authority
CN
China
Prior art keywords
behavior
state
value
strategy
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201911102540.XA
Other languages
English (en)
Other versions
CN110955239A (zh
Inventor
刘峰
陈畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201911102540.XA priority Critical patent/CN110955239B/zh
Publication of CN110955239A publication Critical patent/CN110955239A/zh
Application granted granted Critical
Publication of CN110955239B publication Critical patent/CN110955239B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明提供一种基于逆强化学习的无人船多目标轨迹规划方法及***,所述方法包括:利用强化学习得到最优策略池,输入最终的目标状态的信息,得到到达最终目标点的最优路径,控制无人船按照所述最优路径前行;当前方出现障碍物,基于多目标点利用逆强化学习获取能避开障碍物的路径,控制无人船达到阶段性的新目标点,实现紧急避障。所述***包括初始化模块、策略估计模块、策略优化模块、以及多目标点模块。本发明的有益效果:不仅能够实现全局路径规划,而且在复杂海域情况下,使用训练出来的策略池以及多目标点能够减少计算时间,实现紧急动态避障。

Description

一种基于逆强化学习的无人船多目标轨迹规划方法及***
技术领域
本发明涉及无人船路径规划领域,尤其涉及一种基于逆强化学习的无人船多目标轨迹规划方法及***。
背景技术
人类对于地球的探索从来没有停止过,随着人工智能的兴起,各种无人设备相继被投入应用,例如无人车、无人机,这些无人设备的使用便于人类探索更多未知领域。海洋占据了地球70%的表面积,如何探索海洋、开发海洋资源已成为各国关注的焦点。在人工智能的大环境下,无人船的研究被提上日程。
相比于陆地上无人车的使用,复杂的海洋环境给无人船的研究带来了许多新的挑战,比如海底漩涡、海底生物,这些动静态障碍物形成复杂交错的海洋环境,给无人船的行驶造成了困难。无人船运动路径规划是无人船安全行驶的关键技术,在一些较为复杂的海洋环境中,传统的路径规划算法很难应对这些问题。
专利号为CN201810229544、CN201811612058、CN201910494894的中国专利申请涉及到无人船的轨迹规划问题,但总的来说,存在以下几方面的问题:第一、现有技术需要提前知道地图上的障碍物信息,对于突然出现的动态障碍物没办法规避;第二、现有技术设置的是单个目标点,一旦碰到海底漩涡、暗流这种大型目标点,无法解决下一步规划问题;第三、现有技术主要针对全局路径规划,容易陷入局部最优点,无法应对紧急情况。
发明内容
有鉴于此,本发明提供了一种基于逆强化学习的无人船多目标轨迹规划方法及***,根据复杂海域动静态障碍物情况,利用提前运算好的路径规划模型,在遇到紧急情况时及时更换目标点,不需通过再运算,直接启动其他路径,达到规避风险的效果。
本发明提供一种基于逆强化学习的无人船多目标轨迹规划方法,包括以下步骤:
S1、初始化正、逆强化学习模型:初始化状态Q值、初始化行为Q值函数、初始化行为空间、以及初始化策略;
S2、利用正强化学习模型进行路径规划,建立最优策略池;
S3、根据最优策略池,输入最终目标点的状态信息,得到到达最终目标点的最优路径,控制无人船按照所述最优路径前行;
S4、根据实时环境判断前方是否出现障碍物,若是,则执行步骤S5,否则回到步骤S3;
S5、基于多目标点,采用逆强化学习获取能避开障碍物的路径,控制无人船达到阶段性的新目标点,然后执行步骤S6;
S6、判断无人船是否达到最终目标点,若是,则结束本流程,否则回到步骤S3。
进一步地,所述步骤S1,其中:
所述初始化状态Q值的过程为:根据海图信息以及探测到的环境信息,构建栅格化后的状态点,初始化每个状态点的状态Q值,所述状态Q值是指对于海图上的每个状态点设置的Q值,其中,对于障碍物,设置一个负的Q 值,对于可行路径上的状态点,设置为0的Q值,对于目标状态,设置一个正的Q值;
所述初始化行为空间的过程为:对于构建的所有状态点,根据其周围是否存在障碍物以及临界点,确定所述状态点可以进行的行为的集合;
所述初始化行为Q值函数的过程为:所述行为Q值函数为Q(s,a),其中s 表示状态点,a表示所述状态点s的行为空间中的任一行为,行为Q值函数 Q(s,a)表示当前状态s进行行为a后得到的行为Q值,对于可行性路径上的状态点,该状态的每一个行为均给定一个初始的行为Q值,对于障碍物以及目标状态,其初始行为Q值为空;
所述初始化策略的过程为,对于可行路径上的状态点,确定该状态点的行为空间中的第一个行为。
进一步地,所述步骤S2的具体过程为:
S201、策略估计:对每一个可行路径上的状态点的行为Q值函数进行更新,具体过程为:对于当前状态的行为空间中的任一行为,首先获取执行所述行为后到达的下一状态,并利用贪心算法得到所述下一状态的最大行为Q 值,然后根据下一状态的状态Q值、当前状态的行为Q值以及下一状态的最大行为Q值对当前状态的行为Q值函数进行更新;
S202、策略优化:对于完成一次策略估计后的状态,利用贪心算法选取具有最大行为Q值的行为作为最优策略,对策略池进行更新,所述策略池保存所有可行路径上的状态点的最大行为Q值对应的行为;
S203、判断迭代是否达到迭代次数限制,若是,则进行步骤S204,否则回到步骤S201,继续执行迭代;
S204、根据迭代完成后步骤S202中的策略池,形成强化学习后的最优策略池。
进一步地,所述步骤S201中,对当前状态的行为Q值函数进行更新的具体过程为:若下一状态为目标状态或者障碍物,则按照公式(a)更新当前状态的行为Q值函数;若下一状态为可行路径上的状态,则按照公式(b) 更新当前状态的行为Q值函数
Figure RE-GDA0002364636400000041
Figure RE-GDA0002364636400000042
其中,ai表示进行更新的当前状态的任一行为,i=1,…,n,n表示当前状态的行为空间中的行为数量,s1表示当前状态,Q(s1,ai)表示更新前当前状态s1的行为Q值函数在行为ai下的取值;
Figure RE-GDA0002364636400000043
表示更新后的当前状态s1的行为Q 值函数在行为ai下的取值;s2表示当前状态s1进行行为ai后到达的下一状态; Q(s2)表示状态s2下的状态Q值;max(Q(s2,a))表示利用贪心算法得到的状态s2的最大行为Q值;r表示选择行为获得的回报,α为学习率,表示更新行为 Q值的速率,γ表示损失因子。
进一步地,所述步骤S5中,根据步骤S3中获取的最优路径,将无人船未来短时间内行驶到的状态点设置为逆强化学习中的目标状态,利用步骤 S2生成的最优策略池可以获取到达其他任意多个局部目标点的最优路径集合;利用所述最优路径集合,确定能够避开紧急情况的局部路径,并控制无人船沿局部路径前进,达到阶段性的新目标点。
本发明还提供一种基于逆强化学习的无人船多目标轨迹规划***,包括初始化模块、策略估计模块、策略优化模块、以及多目标点模块,其中:
所述初始化模块用于初始化正、逆强化学习模型,包括初始化状态Q值、初始化行为Q值函数、初始化行为空间、以及初始化策略;
所述策略估计模块用于对当前状态的行为Q值函数进行更新;
所述策略优化模块利用策略估计模块的更新结果,生成最优策略池;
所述多目标点模块用于提前设置多个局部目标点,当出现紧急情况时,将所述多个局部目标点设置为起始点,将无人船未来短时间内行驶到的状态点设置为目标状态,利用最优策略池进行逆强化学习。
进一步地,所述基于逆强化学习的无人船多目标轨迹规划***还包括贪心算法模块以及步进模块,其中,所述贪心算法模块用于选择使得状态的行为Q值最大的行为;所述步进模块用于获取执行某一行为后所到达的下一个状态;所述策略估计模块对当前状态的行为Q值函数进行更新时,对于当前状态的行为空间中的任一行为,首先利用所述步进模块获取执行所述行为后到达的下一状态,然后利用所述贪心算法模块得到所述下一状态的最大行为 Q值,所述策略估计模块利用所述下一状态的状态Q值、当前状态的行为Q 值以及下一状态的最大行为Q值对当前状态的行为Q值函数进行更新。
进一步地,所述策略优化模块根据策略估计模块更新后的行为Q值函数,利用贪心算法选取最大行为Q值对应的行为,并存储为最优策略,进一步获取可行路径上的所有状态点的最优策略,生成最优策略池。
本发明提供的技术方案带来的有益效果是:
(1)利用逆强化学习思想设置未来短时间内无人船行驶到的坐标为强化学习算法的目标点,获取避障的局部最优路径;
(2)利用强化学习实现全局路径规划,使用逆强化学习实现动态避障;
(3)利用贪心算法迭代行为Q值计算出来的策略模型可以避免算法再运算且不易陷入局部最优点。
附图说明
图1是本发明实施例提供的基于逆强化学习的无人船多目标轨迹规划***的结构图;
图2是本发明实施例提供的基于逆强化学习的无人船多目标轨迹规划方法的流程图;
图3是本发明实施例提供的初始化状态Q值的示意图;
图4是本发明实施例提供的强化学习进行路径规划的流程图;
图5是本发明实施例提供的最优策略池的示意图;
图6是本发明实施例提供的最优路径示意图;
图7是本发明实施例提供的阶段性新目标点的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地描述。
请参考图1,本发明实施例提供一种基于逆强化学习的无人船多目标轨迹规划***,包括初始化模块1、策略估计模块2、策略优化模块3、以及多目标点模块4,其中:
初始化模块1用于初始化正、逆强化学习模型,对状态Q值、行为Q值函数、行为空间、以及策略进行初始化;策略估计模块2用于对当前状态的行为Q值函数进行更新;策略优化模块3利用策略估计模块2的更新结果,生成最优策略池;多目标点模块4用于提前设置多个局部目标点,当出现紧急情况时,将所述多个局部目标点设置为起始点,将无人船未来短时间内行驶到的状态点设置为目标状态,利用最优策略池进行逆强化学习。
所述***还包括贪心算法模块5和步进模块6,其中,贪心算法模块5 用于选择使得状态的行为Q值最大的行为,步进模块6用于获取执行某一行为后所达到的下一状态。
请参考图2,本发明实施例提供一种基于逆强化学习的无人船多目标轨迹规划方法,包括以下步骤:
S1、初始化正、逆强化学习模型:初始化状态Q值、初始化行为Q值函数、初始化行为空间、以及初始化策略。
根据海图信息以及探测到的环境信息,构建栅格化后的状态点,初始化每个状态点的状态Q值,所述状态Q值是指对于海图上的每个状态点设置的 Q值,其中,对于障碍物,设置一个负的Q值,对于可行路径上的状态点,设置为0的Q值,对于目标状态,设置一个正的Q值。优选地,请参考图3 及表1,障碍物设置为-100,目标点设置为10,可行路径设置为0。
表1初始化状态Q值、可行为状态以及回报值
Figure RE-GDA0002364636400000071
初始化行为空间,所述行为空间是指,对于构建的所有状态点,根据其周围是否存在障碍物以及临界点,确定所述状态点可以进行的行为的集合,对于无人船,本实施例将行为分为前、后、左、右、左前、右前、左后、右后8种。
初始化行为Q值函数,所述行为Q值函数为Q(s,a),其中s表示状态点, a表示所述状态点s的行为空间中的任一行为,行为Q值函数Q(s,a)表示当前状态s进行行为a后得到的行为Q值。对于可行性路径上的状态点,该状态的每一个行为均给定一个初始的行为Q值,优选地,初始值设置为0;对于障碍物以及目标状态,其初始行为Q值为空。
初始化策略,对于可行路径上的状态点,确定该状态点的行为空间中的第一个行为,优选地,按照前、后、左、右、左前、右前、左后、右后的顺序进行选择。
S2、利用正强化学习模型进行路径规划,建立最优策略池。
具体地,请参阅图4,所述步骤S2的具体过程为:
S201、利用策略估计模块2进行策略估计:对每一个可行路径上的状态点的行为Q值函数进行更新,具体地,对于当前状态的行为空间中的任一行为,首先利用步进模块6获取执行所述行为后到达的下一状态,然后利用贪心算法模块5得到下一状态的最大行为Q值,策略估计模块2根据下一状态的状态Q值、当前状态的行为Q值以及下一状态的最大行为Q值对当前状态的行为Q值函数进行更新;
若下一状态为目标状态或者障碍物,则按照公式(1)更新当前状态的行为Q值函数;若下一状态为可行路径上的状态,则按照公式(2)更新当前状态的行为Q值函数
Figure RE-GDA0002364636400000081
Figure RE-GDA0002364636400000082
其中,ai表示进行更新的当前状态的任一行为,i=1,...,n,n表示当前状态的行为空间中的行为数量,s1表示当前状态,Q(s1,ai)表示更新前当前状态s1的行为Q值函数在行为ai下的取值;
Figure RE-GDA0002364636400000083
表示更新后的当前状态s1的行为Q 值函数在行为ai下的取值;s2表示当前状态s1进行行为ai后到达的下一状态; Q(s2)表示状态s2下的状态Q值;max(Q(s2,ai))表示利用贪心算法模块5得到的状态s2的最大行为Q值;r表示选择行为获得的回报,即表1中设定的回报值;α为学习率,表示更新行为Q值的速率,若α选择太大会造成误差较大,若太小则计算效率较低,本实施例选取α=0.1;γ表示损失因子,优选地,γ=0.9。
S202、利用策略优化模块3进行策略优化:根据策略估计模块2更新后的行为Q值函数,利用贪心算法模块5选取具有最大行为Q值的行为作为最优策略,对策略池进行更新,所述策略池保存所有可行路径上的状态点的最大行为Q值对应的行为。
S203、判断迭代是否达到迭代次数限制,若是则进行步骤204,否则回到步骤S201,继续执行迭代。
S204、根据迭代完成后,步骤S202中的策略池,形成强化学习后的最优策略池,对于图3显示的数据,迭代完成后形成的最优策略池如图5所示。
S3、根据最优策略池,输入最终的目标状态的信息,即可得到到达最终目标点的最优路径,控制无人船按照所述最优路径前行;利用图3显示的数据最终得到的最优路径如图6所示,其中状态点S表示最终目标点。
S4、根据实时环境判断前方是否出现紧急情况,若是则执行步骤S5,否则回到步骤S3。
S5、基于多目标点,采用逆强化学习获取能避开紧急情况的路径,控制无人船达到阶段性的新目标点,然后执行步骤S6。首先利用多目标模块4 提前设置多个局部目标点,将所述多个局部目标点设置为起始点,根据步骤 S3中获取的最优路径,将无人船未来短时间内行驶到的状态点设置为逆强化学习中的目标状态;采用逆向强化学习,利用步骤S2生成的最优策略池可以获取达到所述多个局部目标点的最优路径集合;筛选这些最优路径集合,确定能够避开紧急情况的局部路径,并控制无人船沿局部路径前进,达到阶段性的新目标点。
具体地,请参考图7,当无人船行驶到状态点A时,按照图6中的最优路径下一步将会行驶到状态点B处,此时检测到点C处出现障碍物,需进行避障;多目标点模块2提前设置多个局部目标点1、点2、以及点3,然后将三个局部目标点1、2、3设置为逆强化学习的起始点,将点B设置为逆强化学习的目标状态,输入到步骤S2形成的最优策略池中,获取到达所述局部目标点1、2、3的最优路径B1、B2、B3,其中路径B1能够避开障碍物,故而将状态点1作为阶段性目标点,控制无人船按照局部最优路径B1到达所述阶段性目标点。
S6、判断无人船是否达到最终目标点,若是则结束本流程,否则回到步骤S3。
在本文中,所涉及的前、后、上、下等方位词是以附图中零部件位于图中以及零部件相互之间的位置来定义的,只是为了表达技术方案的清楚及方便。应当理解,所述方位词的使用不应限制本申请请求保护的范围。
在不冲突的情况下,本文中上述实施例及实施例中的特征可以相互结合。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于逆强化学习的无人船多目标轨迹规划方法,其特征在于,包括以下步骤:
S1、初始化正、逆强化学习模型:初始化状态Q值、初始化行为Q值函数、初始化行为空间、以及初始化策略;
S2、利用正强化学习模型进行路径规划,建立最优策略池;
所述步骤S2的具体过程为:
S201、策略估计:对每一个可行路径上的状态点的行为Q值函数进行更新,具体过程为:对于当前状态的行为空间中的任一行为,首先获取执行所述行为后到达的下一状态,并利用贪心算法得到所述下一状态的最大行为Q值,然后根据下一状态的状态Q值、当前状态的行为Q值以及下一状态的最大行为Q值对当前状态的行为Q值函数进行更新;
S202、策略优化:对于完成一次策略估计后的状态,利用贪心算法选取具有最大行为Q值的行为作为最优策略,对策略池进行更新,所述策略池保存所有可行路径上的状态点的最大行为Q值对应的行为;
S203、判断迭代是否达到迭代次数限制,若是,则进行步骤S204,否则回到步骤S201,继续执行迭代;
S204、根据迭代完成后步骤S202中的策略池,形成强化学习后的最优策略池;
S3、根据最优策略池,输入最终目标点的状态信息,得到到达最终目标点的最优路径,控制无人船按照所述最优路径前行;
S4、根据实时环境判断前方是否出现障碍物,若是,则执行步骤S5,否则回到步骤S3;
S5、基于多目标点,根据步骤S3中获取的最优路径,将无人船未来短时间内行驶到的状态点设置为逆强化学习中的目标状态,利用步骤S2生成的最优策略池获取到达其他任意多个局部目标点的最优路径集合;利用所述最优路径集合,确定能够避开紧急情况的局部路径,并控制无人船沿局部路径前进,达到阶段性的新目标点,然后执行步骤S6;
S6、判断无人船是否达到最终目标点,若是,则结束本流程,否则回到步骤S3。
2.根据权利要求1所述的基于逆强化学习的无人船多目标轨迹规划方法,其特征在于,所述步骤S1,其中:
所述初始化状态Q值的过程为:根据海图信息以及探测到的环境信息,构建栅格化后的状态点,初始化每个状态点的状态Q值,所述状态Q值是指对于海图上的每个状态点设置的Q值,其中,对于障碍物,设置一个负的Q值,对于可行路径上的状态点,设置为0的Q值,对于目标状态,设置一个正的Q值;
所述初始化行为空间的过程为:对于构建的所有状态点,根据其周围是否存在障碍物以及临界点,确定所述状态点可以进行的行为的集合;
所述初始化行为Q值函数的过程为:所述行为Q值函数为Q(s,a),其中s表示状态点,a表示所述状态点s的行为空间中的任一行为,行为Q值函数Q(s,a)表示当前状态s进行行为a后得到的行为Q值,对于可行性路径上的状态点,该状态的每一个行为均给定一个初始的行为Q值,对于障碍物以及目标状态,其初始行为Q值为空;
所述初始化策略的过程为,对于可行路径上的状态点,确定该状态点的行为空间中的第一个行为。
3.根据权利要求1所述的基于逆强化学习的无人船多目标轨迹规划方法,其特征在于,所述步骤S201中,对当前状态的行为Q值函数进行更新的具体过程为:若下一状态为目标状态或者障碍物,则按照公式(a)更新当前状态的行为Q值函数;若下一状态为可行路径上的状态,则按照公式(b)更新当前状态的行为Q值函数
Figure FDA0002819464250000031
Figure FDA0002819464250000032
其中,ai表示进行更新的当前状态的任一行为,i=1,…,n,n表示当前状态的行为空间中的行为数量,s1表示当前状态,Q(s1,ai)表示更新前当前状态s1的行为Q值函数在行为ai下的取值;
Figure FDA0002819464250000033
表示更新后的当前状态s1的行为Q值函数在行为ai下的取值;s2表示当前状态s1进行行为ai后到达的下一状态;Q(s2)表示状态s2下的状态Q值;max(Q(s2,a))表示利用贪心算法得到的状态s2的最大行为Q值;r表示选择行为获得的回报,α为学习率,表示更新行为Q值的速率,γ表示损失因子。
4.一种基于逆强化学习的无人船多目标轨迹规划***,其特征在于,包括初始化模块、策略估计模块、策略优化模块、以及多目标点模块,其中:
所述初始化模块用于初始化正、逆强化学习模型,包括初始化状态Q值、初始化行为Q值函数、初始化行为空间、以及初始化策略;
所述策略估计模块用于对当前状态的行为Q值函数进行更新;
所述策略优化模块利用策略估计模块的更新结果,生成最优策略池;
所述多目标点模块用于提前设置多个局部目标点,当出现紧急情况时,将所述多个局部目标点设置为起始点,将无人船未来短时间内行驶到的状态点设置为目标状态,利用最优策略池进行逆强化学习;
还包括贪心算法模块以及步进模块,其中,所述贪心算法模块用于选择使得状态的行为Q值最大的行为;所述步进模块用于获取执行某一行为后所到达的下一状态;所述策略估计模块对当前状态的行为Q值函数进行更新时,对于当前状态的行为空间中的任一行为,首先利用所述步进模块获取执行所述行为后到达的下一状态,然后利用所述贪心算法模块得到所述下一状态的最大行为Q值,所述策略估计模块利用所述下一状态的状态Q值、当前状态的行为Q值以及下一状态的最大行为Q值对当前状态的行为Q值函数进行更新;
所述策略优化模块根据策略估计模块更新后的行为Q值函数,利用贪心算法选取最大行为Q值对应的行为,并存储为最优策略,进一步获取可行路径上的所有状态点的最优策略,生成最优策略池。
CN201911102540.XA 2019-11-12 2019-11-12 一种基于逆强化学习的无人船多目标轨迹规划方法及*** Expired - Fee Related CN110955239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911102540.XA CN110955239B (zh) 2019-11-12 2019-11-12 一种基于逆强化学习的无人船多目标轨迹规划方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911102540.XA CN110955239B (zh) 2019-11-12 2019-11-12 一种基于逆强化学习的无人船多目标轨迹规划方法及***

Publications (2)

Publication Number Publication Date
CN110955239A CN110955239A (zh) 2020-04-03
CN110955239B true CN110955239B (zh) 2021-03-02

Family

ID=69977440

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911102540.XA Expired - Fee Related CN110955239B (zh) 2019-11-12 2019-11-12 一种基于逆强化学习的无人船多目标轨迹规划方法及***

Country Status (1)

Country Link
CN (1) CN110955239B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN109799820A (zh) * 2019-01-22 2019-05-24 智慧航海(青岛)科技有限公司 基于比较式随机路标图法的无人船舶局部路径规划方法
CN110174118A (zh) * 2019-05-29 2019-08-27 北京洛必德科技有限公司 基于强化学习的机器人多目标搜索路径规划方法和装置

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9051043B1 (en) * 2012-12-28 2015-06-09 Google Inc. Providing emergency medical services using unmanned aerial vehicles
CN104298239B (zh) * 2014-09-29 2016-08-24 湖南大学 一种室内移动机器人增强地图学习路径规划方法
US10902347B2 (en) * 2017-04-11 2021-01-26 International Business Machines Corporation Rule creation using MDP and inverse reinforcement learning
US10235881B2 (en) * 2017-07-28 2019-03-19 Toyota Motor Engineering & Manufacturing North America, Inc. Autonomous operation capability configuration for a vehicle
US10678241B2 (en) * 2017-09-06 2020-06-09 GM Global Technology Operations LLC Unsupervised learning agents for autonomous driving applications
CN107544516A (zh) * 2017-10-11 2018-01-05 苏州大学 基于相对熵深度逆强化学习的自动驾驶***及方法
CN108724182B (zh) * 2018-05-23 2020-03-17 苏州大学 基于多类别模仿学习的端到端游戏机器人生成方法及***
CN108921873B (zh) * 2018-05-29 2021-08-31 福州大学 基于核相关滤波优化的马尔科夫决策在线多目标跟踪方法
CN109405843B (zh) * 2018-09-21 2020-01-03 北京三快在线科技有限公司 一种路径规划方法及装置和移动设备
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN109726866A (zh) * 2018-12-27 2019-05-07 浙江农林大学 基于q学习神经网络的无人船路径规划方法
CN110321811B (zh) * 2019-06-17 2023-05-02 中国工程物理研究院电子工程研究所 深度逆强化学习的无人机航拍视频中的目标检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241552A (zh) * 2018-07-12 2019-01-18 哈尔滨工程大学 一种基于多约束目标的水下机器人运动规划方法
CN109799820A (zh) * 2019-01-22 2019-05-24 智慧航海(青岛)科技有限公司 基于比较式随机路标图法的无人船舶局部路径规划方法
CN110174118A (zh) * 2019-05-29 2019-08-27 北京洛必德科技有限公司 基于强化学习的机器人多目标搜索路径规划方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《基于生态策略的动态多目标优化算法》;张世文 等;《计算机研究与发展》;20140615;第1313-1330页 *
《支持强化学习RNSGA-II 算法在航迹规划中应用》;封硕 等;《计算机工程与应用》;20190904;第246-251页 *

Also Published As

Publication number Publication date
CN110955239A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
US10466058B2 (en) Navigation for vehicles
CN110058613B (zh) 一种多无人机多蚁群协同搜索目标方法
CN113110509B (zh) 一种基于深度强化学习的仓储***多机器人路径规划方法
Chen et al. Optimal time-consuming path planning for autonomous underwater vehicles based on a dynamic neural network model in ocean current environments
CN111381600B (zh) 一种基于粒子群算法的uuv路径规划方法
CN110546653A (zh) 使用神经网络的用于强化学习的动作选择
Zhao et al. Route planning for autonomous vessels based on improved artificial fish swarm algorithm
CN104850009A (zh) 一种基于捕食逃逸鸽群优化的多无人飞行器编队协调控制方法
CN109657863A (zh) 一种基于萤火虫算法的无人船全局路径动态优化方法
CN112577507A (zh) 基于哈里斯鹰优化算法的电动汽车路径规划方法
Bai et al. USV path planning algorithm based on plant growth
Wang et al. Research on dynamic path planning of wheeled robot based on deep reinforcement learning on the slope ground
Zhao et al. Path planning for autonomous surface vessels based on improved artificial fish swarm algorithm: a further study
Xia et al. Research on collision avoidance algorithm of unmanned surface vehicle based on deep reinforcement learning
CN115129064A (zh) 基于改进萤火虫算法与动态窗口法融合的路径规划方法
CN112000126A (zh) 一种基于鲸鱼算法的多无人机协同搜索多动态目标方法
CN110955239B (zh) 一种基于逆强化学习的无人船多目标轨迹规划方法及***
CN117787517A (zh) 一种基于改进鲸鱼算法的uuv搜索路径设计方法
Mishra et al. A review on vision based control of autonomous vehicles using artificial intelligence techniques
CN116048126A (zh) 一种基于abc快速收敛的无人机实时路径规划方法
CN115655279A (zh) 一种基于改进鲸鱼算法的海上无人救援飞艇路径规划方法
CN114237303A (zh) 一种基于蒙特卡洛树搜索的无人机路径规划方法及装置
CN112595333A (zh) 道路导航数据的处理方法、装置、电子设备及存储介质
Tran et al. Mobile robot planner with low-cost cameras using deep reinforcement learning
CN116991179B (zh) 无人机搜索航迹的优化方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210302

Termination date: 20211112

CF01 Termination of patent right due to non-payment of annual fee