CN110658829A - 一种基于深度强化学习的群无人艇智能避碰方法 - Google Patents

一种基于深度强化学习的群无人艇智能避碰方法 Download PDF

Info

Publication number
CN110658829A
CN110658829A CN201911043840.5A CN201911043840A CN110658829A CN 110658829 A CN110658829 A CN 110658829A CN 201911043840 A CN201911043840 A CN 201911043840A CN 110658829 A CN110658829 A CN 110658829A
Authority
CN
China
Prior art keywords
usv
collision avoidance
coordinate system
representing
unmanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911043840.5A
Other languages
English (en)
Other versions
CN110658829B (zh
Inventor
马勇
赵玉蛟
王玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201911043840.5A priority Critical patent/CN110658829B/zh
Publication of CN110658829A publication Critical patent/CN110658829A/zh
Priority to PCT/CN2020/119188 priority patent/WO2021082864A1/zh
Priority to US17/292,601 priority patent/US11990044B2/en
Application granted granted Critical
Publication of CN110658829B publication Critical patent/CN110658829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/02Control of position or course in two dimensions
    • G05D1/0206Control of position or course in two dimensions specially adapted to water vehicles
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B11/00Automatic controllers
    • G05B11/01Automatic controllers electric
    • G05B11/36Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential
    • G05B11/42Automatic controllers electric with provision for obtaining particular characteristics, e.g. proportional, integral, differential for obtaining a characteristic which is both proportional and time-dependent, e.g. P. I., P. I. D.
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/0265Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion
    • G05B13/027Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric the criterion being a learning criterion using neural networks only
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/40Control within particular dimensions
    • G05D1/43Control of position or course in two dimensions
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/80Arrangements for reacting to or preventing system or operator failure
    • G05D1/81Handing over between on-board automatic and on-board manual control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G3/00Traffic control systems for marine craft
    • G08G3/02Anti-collision systems
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems
    • G08G1/166Anti-collision systems for active traffic, e.g. moving vehicles, pedestrians, bikes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Automation & Control Theory (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Ocean & Marine Engineering (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Robotics (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明公开了一种基于深度强化学习的群无人艇智能避碰方法,属于深度强化学习***、无人艇智能避碰技术领域,为智能无人艇***提供一种智能化避碰方法。首先,提出了一种基于深度强化学习的群无人艇自主学习避碰的理论框架,并融合LSTM神经网络记忆能力实现避碰动作的连续性。然后,针对框架中USV环境获取设计表征方法,即环境观察值,并提出USV避碰奖惩函数评判避碰效果。最后,形成一套群无人艇智能避碰深度强化学习训练***。本发明通过仿真模拟和验证表明,经过本发明训练的USV能够在群无人艇避碰环境下安全航行并实现智能避碰。

Description

一种基于深度强化学习的群无人艇智能避碰方法
技术领域
本发明属于深度强化学习训练***、无人艇智能避碰技术领域,更具体地,涉及一种无人艇避碰***存在深度强化学习情况下,提出了一种能够有效训练群无人艇自主避碰的智能避碰方法。
背景技术
随着船舶工业、人工智能等领域新型技术的发展,无人艇在海洋开发、海事管理等领域发挥出了巨大的作用。在某些复杂应用场景中,单一无人艇无法完成任务,需要多艘无人艇协同作业,即群无人艇(swarm of USVs,USVs)协同作业以完成任务需求。群无人艇避碰要求无人艇之间安全避让,如采用现有的无人艇避碰方法,会造成计算分析量庞大、计算效率低、方案效果差,难以实现快速的避碰决策。因此,亟需设计一种适用于群无人艇的新型避碰方法。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提出了一种基于深度强化学习的群无人艇智能避碰方法,由此解决现有无人艇避碰方法存在的计算分析量庞大、计算效率低、方案效果差及难以实现快速的避碰决策的技术问题。
为实现上述目的,本发明提供了一种基于深度强化学习的群无人艇智能避碰方法,包括:
S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;
S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;
S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;
S4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。
优选地,在步骤S1中,所述建立艇体坐标系,包括:
Figure BDA0002253589080000021
将周边无人艇转换成艇体坐标系下的属性表示,其中,(Xj,Yj)表示艇体坐标系下USVj的位置,(Px_i,Py_i)表示全局坐标系下USVi的位置,Ci表示全局坐标系下USVi的航向,Vi表示全局坐标系下USVi的航速,cj表示艇体坐标系下USVj的航向,vj表示艇体坐标系下USVj的航速,θj表示艇体坐标系下USVj的舷角,ψj表示艇体坐标系下USVj的舵角,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角,下标i和j用于区分不同的无人艇。
优选地,在步骤S1中,所述基于所述艇体坐标系设计USV运动模型,包括:
在运动仿真中使用野本谦作方程作为无人艇运动方程,并嵌入PID模拟自主航向控制以构成所述USV运动模型,使得无人艇具有通过控制舵角快速调整航向的能力。
优选地,由
Figure BDA0002253589080000031
模拟自主航向控制,其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。
优选地,在步骤S2中,所述基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,包括:
根据国际海上避碰规则COLREGS,按照障碍物USVj舷角划分为n个领域,并得到每个领域的USV环境观察值,其中,所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度;
将每个领域的环境观察值组合形成四维矩阵,并在每一领域对应的四维矩阵添加权重,得到最终的环境观察值。
优选地,由得到每个领域的USV环境观察值,其中,θmax和θmin表示本划分领域中障碍物所在的最大舷角和最小舷角;Cj表示障碍物运动方向;CRIj表示USVj危险度;dj表示USVi距离障碍物USVj的距离,Vj_x和Vj_y分别表示障碍物USVj速度x水平分量和y垂直分量。
优选地,由
Figure BDA0002253589080000041
形成各领域的四维矩阵,u=(1,2,...,n),由st=[Vi Ci χ1S1 χ2S2 χ3S3 ... χnSn]T得到最终的环境观察值,其中,χ1、χ2、χ3、…、χn分别为对应领域的权重。
优选地,由
Figure BDA0002253589080000042
设计奖惩函数,其中,CRIt′表示t时刻领域危险度,表示t时刻领域障碍物平均距离,at(C)表示决策集合中航向变化,at(V)表示决策集合航速变化,Rdanger考虑会遇态势奖惩计算,表示危险程度的变化趋势,Rrule计算当前的决策与COLREGS规则的偏差度,若违反规则得到一个惩罚性负值,Raction表示操纵决策动作连贯性,计算避碰中决策震荡的影响,rt表示综合以上因素形成奖惩值,DCPAi表示本船与USVi间最小会遇距离,Ds表示两船之间避免发生碰撞的安全距离,kCRI表示碰撞危险度影响系数,DLMA表示船舶实施满舵旋回避碰行动、另一船直航条件下两船能避免碰撞的最近距离,V0表示本船初始航速,Vs表示在考虑船舶航速、船间安全距离及通航环境影响下计算出了船舶的安全航速,kaction表示动作影响系数,δt表示本船舵角。
优选地,步骤S3包括:
由MainNet和TargetNet构成所述群无人艇避碰训练模型,其中,所述MainNet和所述TargetNet均包括一套Actor神经网络和一套Critic Q神经网络,所述Actor神经网络根据无人艇观察值输出避碰动作,其为具有若干层计算单元的LSTM神经网络,以达到记忆避碰动作的效果;所述Critic Q神经网络根据动作和动作结果评判出当前次计算的优劣程度;所述Actor神经网络和所述Critic Q神经网络独立计算,并且所述Critic Q神经网络能够根据评判结果计算梯度,进而更新神经网络的权重参数。
优选地,步骤S4包括:
设计仿真环境,其中,所述仿真环境中的仿真对象是USV,USV收到避碰决策后,改变舵角和航速,完成一次避碰动作;
设定所述仿真环境中障碍物均为USVs,用来产生训练样本,其中,每一艘USV都由所述群无人艇避碰训练模型决策避碰动作,产生的(st,at,rt,st+1)都将存储入所述群无人艇避碰训练模型的经验池中,供神经网络训练参数,下标t和t+1表示时刻;
USV在所述仿真环境中与所述群无人艇避碰训练模型不断交互和迭代,直至所有无人艇都能够安全驶过让清并完成避碰。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
1、本发明能够有效解决群无人艇智能避碰问题,通过在虚拟环境中训练群无人艇避碰,并保存经验数据,应用于实际的USV群无人艇避碰中。采用基于深度强化学习理论的训练方法,可以提高群无人艇避碰在不同避碰环境下的适应性,得到驶过让清的群无人艇避碰效果。
2、提出一种表示USV周边环境和会遇态势的特征提取方法,使用可量化的计算方法实现对动态避碰环境的描述,并使用固定维度的矩阵表示。同时,设计了一种判断USV避碰效果的奖惩函数,能够对USV当前状态下的避碰效果做出评判并反馈于避碰训练模型。
3、利用LSTM神经网络的记忆能力,实现对无人艇避碰过程的连续动作存储,能够在多次训练过程中保存经验数据潜在关联,同时学习避碰动作之间的关联性,形成USV避碰训练经验池。
4、深度强化学习原理能够使USV与训练环境交互并学习避碰动作,自主更新网络参数,最终实现指挥USV在群无人艇避碰环境下的安全避让。
5、应用群无人艇避碰模型在设计的训练场景中训练,最终训练的网络能够指导USV在群无人艇环境下避碰,且USV对多种避碰环境均有一定的适应性。
附图说明
图1是本发明实施例提供的一种群无人艇智能避碰模型构建及训练过程示意图;
图2是本发明实施例提供的一种全局坐标系下USV艇体坐标系模型图;
图3是本发明实施例提供的一种环境观察值设计标准图;
图4是本发明实施例提供的一种LSTM网络序列计算结构图;
图5是本发明实施例提供的一种群无人艇智能避碰训练模型框架图;
图6是本发明实施例提供的一种群无人艇避碰环境与模型交互训练示意图;
图7是本发明实施例提供的一种应用群无人艇避碰模型训练架构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明针对群无人艇避碰问题,提供一种基于深度强化学习理论的群无人艇智能避碰训练方法,解决群无人艇智能避碰问题,提供一种实现群无人艇在开阔水域环境下遵守国际海上避碰规则(International Regulations for Preventing Collisions atSea,COLREGS)的避碰方法,通过此方法实现群无人艇避碰训练,并可在实际的群无人艇避碰中指挥USVs避碰。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1是本发明实施例提供的一种群无人艇智能避碰模型构建及训练过程示意图,在图1所示的方法中,包括以下步骤:
S1:建立艇体坐标系和USV运动模型
如图2所示为全局坐标系X0O0Y0下的艇体坐标系XOY模型。在设计的艇体坐标系中,融合笛卡尔二维坐标系和极坐标系,可表征在艇体坐标系下的障碍物相对方位和运动关系。其中,全局坐标系下USVi运动属性包括:航向Ci、航速Vi、舵角δi、位置(Px_i,Py_i),艇体坐标系下USVj运动属性为:航向cj、航速vj、舷角θj、舵角ψj、位置(Xj,Yj)。为方便转换USVs之间的运动态势关系,设计全局到艇体坐标系的转换公式,假设将周边无人艇转换成USVi艇体坐标系下的属性表示形式。
Figure BDA0002253589080000071
其中,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角。
基于艇体坐标系设计USV运动模型,在运动仿真中使用野本谦作(Nomoto)方程作为无人艇运动方程,并嵌入PID模拟自主航向控制,使得无人艇具有通过控制舵角快速调整航向的能力。
Ek=Ctarget-Ck
Δu(k)=(Kp+Ki*1/f+Kd*f)Ek-(Kp+2Kd*f*Ek-1+Kd*f*Ek-2)
δk=δk-1+Δu(k)
其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次执行动作后的舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。
S2:设计环境观察值及避碰效果奖惩函数
障碍物USVj相对于无人艇USVi的距离dj、舷角θj、运动方向ci、速度vi等变量都会随着会遇态势的变化而变化,同时,USVi也会根据当前会遇态势做出任意避碰动作,即存在连续动作空间。为了表示USV连续动作空间,需要将在USVi艇体坐标系中的环境特征表示为固定维度的环境观察值st,其直接决定了最终做出何种速度变化和舵角操纵。
如图3所示为USV环境观察值设计标准。根据国际海上避碰规则(InternationalRegulations for Preventing Collisions at Sea,COLREGS),按照障碍物USVj舷角划分为4个领域:对遇态势Uhead-on∈(350°,360°]∩(0°,10°],交叉相遇态势Ustarboard∈(10°,112.5°]&Uport∈(247.5°,350°]和追越态势Uastern∈(112.5°,247.5°]。对于每个领域的USV环境信息包括危险度CRIj、操纵进距Ad、DCPAj、舷角θj以及距离dj等,环境特征会随着避碰动作呈现不可预测状态,因此从舷角、群组运动特征、运动趋势及危险度等方面形成领域环境观察值。
Figure BDA0002253589080000081
其中,θmax和θmin表示本划分领域中障碍物所在的最大舷角和最小舷角;Cj表示障碍物运动方向;CRIj表示USVj危险度;dj表示USVi距离障碍物USVj的距离,Vj_x和Vj_y分别表示障碍物USVj速度x水平分量和y垂直分量,n表示划分领域数量,在本发明实施例中,对应上述领域划分方法,n=4。
将每个领域的环境观察值组合形成四维矩阵,并在每一领域添加权重χu,最终得到环境观察值st
Figure BDA0002253589080000091
st=[Vi Ci χ1S1 χ2S2 χ3S3 χ4S4]T
在USV避碰过程中,为了保证USV不与障碍物发生碰撞,需要USV与障碍物距离满足di≥2L,L表示船体长度,并设置如下避碰目标作为避碰效果判断依据:(1)USV与障碍物的平均距离变大,即
Figure BDA0002253589080000092
(2)USV与障碍物碰撞危险度降低,即CRI′t-1>CRI′t;(3)USV避碰动作不存在大幅度的突变,即at(C)≈at-1(C)。在达成USV避碰目标的基础上,为使无人艇能够遵守COLREGS规则,矫正无人艇违反规则的避碰动作。基于以上分析,设计一种奖惩函数来判断无人艇避碰决策的优劣程度:
Figure BDA0002253589080000093
Raction=1/1+exp(-kactionδt×(at(C)-at-1(C)))
rt=Rdanger+Rrule+Raction
其中,CRI′t表示t时刻领域危险度,
Figure BDA0002253589080000095
表示t时刻领域障碍物平均距离,at(C)表示决策集合中航向变化,at(V)表示决策集合航速变化。Rdanger考虑会遇态势奖惩计算,表示危险程度的变化趋势;Rrule计算当前的决策与COLREGS规则的偏差度,若违反规则得到一个惩罚性负值;Raction表示操纵决策动作连贯性,计算避碰中决策震荡的影响;rt表示综合以上因素形成奖惩值,DCPAi表示本船与USVi间最小会遇距离,Ds表示两船之间避免发生碰撞的安全距离,kCRI表示碰撞危险度影响系数,DLMA表示船舶实施满舵旋回避碰行动、另一船直航条件下两船能避免碰撞的最近距离,V0表示本船初始航速,Vs表示在考虑船舶航速、船间安全距离及通航环境影响下计算出了船舶的安全航速,kaction表示动作影响系数,δt表示本船舵角。
通过设计奖惩函数,评判当前的操纵决策是否有利于无人艇避碰,同时,在奖惩函数中考虑群无人艇避碰规则标准的约束,从而引导无人艇在下一次的避碰动作中选择更符合预期的避碰动作。
S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰模型
本发明中群无人艇避碰问题具有很强的时间依赖性,避碰动作前后是和时间相关的动作序列,为了使设计的群无人艇避碰训练模型具有关联记忆能力,引入LSTM(LongShort Term Memory)神经网络,神经网络结构如图4所示。
其中,将LSTM网络结构中的节点替换为LSTM Cell结构的节点,网络的输入为状态s,输出是动作a,其中,在本发明实施例中:
ActorNet的网络结构为:22*300*400*2;
输入为:22=2+4*5,(自身属性(航速和目标距离)+4个领域*每个领域属性);
输出为:2(推力与舵角);
CriticNet的网络结构为:(22*400+2)*300*1;
输入分为两部分,分别为:状态22、动作2;
首先将状态输入第一层400个节点的隐藏层,然后将第一层的输出与动作一起作为第二层300个节点的隐藏层的输入;
输出为评价值:Q。
本发明实施例基于DDPG(Deep Deterministic Policy Gradient)模型,将LSTM融入而形成本发明实施例中的群无人艇智能避碰模型,改进的DDPG模型框架如图5所示。在群无人艇避碰训练模型中存在两套Actor网络和Critic网络,分别称为MainNet和TargetNet。其中Actor神经网络根据无人艇观察值输出避碰动作,本发明实施例模型中其为具有20层计算单元的LSTM神经网络,达到记忆避碰动作的效果;Critic Q神经网络根据动作和动作结果评判出本次计算的优劣程度,两个网络独立计算,并且Q神经网络会根据评判结果计算梯度,进而更新μ决策神经网络的权重参数。
如图6所示,将LSTM神经网络用于强化学习模型的Actor网络,可以改良现有学习模型中避碰动作使避碰过程更流场。USV避碰动作在时间序列上存在关联,时刻t的避碰动作可能会对t+1时刻的避碰决策产生影响,应用LSTM网络识别避碰过程中前后动作的潜在关联性,从而使得模型生成的动作更具有连贯性。
S4:应用群无人艇避碰模型训练USV在群无人艇环境下的避碰在构建群无人艇避碰模型后,需要搭建一种能够模拟群无人艇避碰的仿真环境,通过仿真环境与模型的交互,产生大量训练样本并逐步更新模型网络参数,如图7所示。首先,仿真环境中仿真对象是USV,USV智能体有运动控制***,USV收到避碰决策后,改变舵角和航速,完成一次避碰动作,其中,V0表示变速前航速,μ为USV变速系数,f为采样频率,ΔV为当前航速与目标航速偏差;其次,设定仿真环境中障碍物均为USVs,用来产生训练样本,即每一艘USV都由模型决策避碰动作,产生的(st,at,rt,st+1)都将存储入模型的经验池中,供神经网络训练参数;最终,USV在仿真环境中与训练模型不断交互和迭代,直至所有无人艇都能够安全驶过让清并完成避碰。
在设计的仿真环境下需要配合设计的仿真场景才能达到训练效果。因此,在模型训练的每一次仿真回合中,训练进程会在一定区域范围内随机生成10艘USVs;每艘USV会初始化随机位置、航速和航向,其初始位置限定在训练界面内,初始航速限定在[2kn,30kn]范围,初始航向则限定在[0°,360°]范围。USV在航行中会遇到不同的复杂会遇态势,在此条件下训练群无人艇避碰模型,最终得到模型网络参数并应用USV避碰。
本发明提供的基于深度强化学习原理的群无人艇智能避碰训练方法,设计了一种群无人艇避碰训练模型,训练后的USV能够有效地实现群无人艇避碰。同时,在保证训练效果良好的情况下,采用本发明设计的环境观察值和奖惩函数能够训练模型中神经网络,指挥USV在多种群无人艇避碰环境下安全避让,同时对不同的会遇态势具有一定的适应性。
需要指出,根据实施的需要,可将本申请中描述的各个步骤/部件拆分为更多步骤/部件,也可将两个或多个步骤/部件或者步骤/部件的部分操作组合成新的步骤/部件,以实现本发明的目的。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于深度强化学习的群无人艇智能避碰方法,其特征在于,包括:
S1:建立艇体坐标系,并基于所述艇体坐标系设计USV运动模型,其中,所述USV运动模型用于反映无人艇的运动状态;
S2:基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,并基于所述环境观察值设计避碰效果奖惩函数,其中,所述避碰效果奖惩函数用于判断无人艇避碰决策的优劣程度;
S3:融合LSTM神经网络和深度强化学习原理构建群无人艇避碰训练模型;
S4:基于所述群无人艇避碰训练模型训练USV在群无人艇环境下的避碰。
2.根据权利要求1所述的方法,其特征在于,在步骤S1中,所述建立艇体坐标系,包括:
Figure FDA0002253589070000011
将周边无人艇转换成艇体坐标系下的属性表示,其中,(Xj,Yj)表示艇体坐标系下USVj的位置,(Px_i,Py_i)表示全局坐标系下USVi的位置,Ci表示全局坐标系下USVi的航向,Vi表示全局坐标系下USVi的航速,cj表示艇体坐标系下USVj的航向,vj表示艇体坐标系下USVj的航速,θj表示艇体坐标系下USVj的舷角,ψj表示艇体坐标系下USVj的舵角,(Px_j,Py_j)表示全局坐标系下USVj的位置,Cj表示全局坐标系下USVj的航向,Vj表示全局坐标系下USVj的航速,δj表示全局坐标系下USVj的舵角,下标i和j用于区分不同的无人艇。
3.根据权利要求2所述的方法,其特征在于,在步骤S1中,所述基于所述艇体坐标系设计USV运动模型,包括:
在运动仿真中使用野本谦作方程作为无人艇运动方程,并嵌入PID模拟自主航向控制以构成所述USV运动模型,使得无人艇具有通过控制舵角快速调整航向的能力。
4.根据权利要求3所述的方法,其特征在于,由模拟自主航向控制,其中,k表示执行第k次决策的动作,Ek表示第k次航向偏差值,Ctraget表示目标航向,Ck表示第k次航向角,δk和δk-1分别表示第k和第k-1次舵角,Kp表示比例系数,Ki表示积分系数,Kd表示微分系数,f表示扫描频率,Δu(k)表示第k次舵角增量,Ek-1表示第k-1次航向角,Ek-2表示第k-2次航向角。
5.根据权利要求2所述的方法,其特征在于,在步骤S2中,所述基于所述USV运动模型,将所述艇体坐标系中的环境特征表示为固定维度的环境观察值,包括:
根据国际海上避碰规则COLREGS,按照障碍物USVj舷角划分为n个领域,并得到每个领域的USV环境观察值,其中,所述每个领域的USV环境观察值均包括舷角、群组运动特征、运动趋势及危险度;
将每个领域的环境观察值组合形成四维矩阵,并在每一领域对应的四维矩阵添加权重,得到最终的环境观察值。
6.根据权利要求5所述的方法,其特征在于,由
Figure FDA0002253589070000031
得到每个领域的USV环境观察值,其中,θmax和θmin表示本划分领域中障碍物所在的最大舷角和最小舷角;Cj表示障碍物运动方向;CRIj表示USVj危险度;dj表示USVi距离障碍物USVj的距离,Vj_x和Vj_y分别表示障碍物USVj速度x水平分量和y垂直分量。
7.根据权利要求6所述的方法,其特征在于,由
Figure FDA0002253589070000032
形成各领域的四维矩阵,u=(1,2,...,n),由st=[Vi Ci χ1S1 χ2S2 χ3S3 ... χnSn]T得到最终的环境观察值,其中,χ1、χ2、χ3、…、χn分别为对应领域的权重。
8.根据权利要求7所述的方法,其特征在于,由
Figure FDA0002253589070000033
设计奖惩函数,其中,CRIt′表示t时刻领域危险度,
Figure FDA0002253589070000034
表示t时刻领域障碍物平均距离,at(C)表示决策集合中航向变化,at(V)表示决策集合航速变化,Rdanger考虑会遇态势奖惩计算,表示危险程度的变化趋势,Rrule计算当前的决策与COLREGS规则的偏差度,若违反规则得到一个惩罚性负值,Raction表示操纵决策动作连贯性,计算避碰中决策震荡的影响,rt表示综合以上因素形成奖惩值,DCPAi表示本船与USVi间最小会遇距离,Ds表示两船之间避免发生碰撞的安全距离,kCRI表示碰撞危险度影响系数,DLMA表示船舶实施满舵旋回避碰行动、另一船直航条件下两船能避免碰撞的最近距离,V0表示本船初始航速,Vs表示在考虑船舶航速、船间安全距离及通航环境影响下计算出了船舶的安全航速,kaction表示动作影响系数,δt表示本船舵角。
9.根据权利要求8所述的方法,其特征在于,步骤S3包括:
由MainNet和TargetNet构成所述群无人艇避碰训练模型,其中,所述MainNet和所述TargetNet均包括一套Actor神经网络和一套Critic Q神经网络,所述Actor神经网络根据无人艇观察值输出避碰动作,其为具有若干层计算单元的LSTM神经网络,以达到记忆避碰动作的效果;所述Critic Q神经网络根据动作和动作结果评判出当前次计算的优劣程度;所述Actor神经网络和所述Critic Q神经网络独立计算,并且所述Critic Q神经网络能够根据评判结果计算梯度,进而更新神经网络的权重参数。
10.根据权利要求9所述的方法,其特征在于,步骤S4包括:
设计仿真环境,其中,所述仿真环境中的仿真对象是USV,USV收到避碰决策后,改变舵角和航速,完成一次避碰动作;
设定所述仿真环境中障碍物均为USVs,用来产生训练样本,其中,每一艘USV都由所述群无人艇避碰训练模型决策避碰动作,产生的(st,at,rt,st+1)都将存储入所述群无人艇避碰训练模型的经验池中,供神经网络训练参数,下标t和t+1表示时刻;
USV在所述仿真环境中与所述群无人艇避碰训练模型不断交互和迭代,直至所有无人艇都能够安全驶过让清并完成避碰。
CN201911043840.5A 2019-10-30 2019-10-30 一种基于深度强化学习的群无人艇智能避碰方法 Active CN110658829B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911043840.5A CN110658829B (zh) 2019-10-30 2019-10-30 一种基于深度强化学习的群无人艇智能避碰方法
PCT/CN2020/119188 WO2021082864A1 (zh) 2019-10-30 2020-09-30 一种基于深度强化学习的群无人艇智能避碰方法
US17/292,601 US11990044B2 (en) 2019-10-30 2020-09-30 Intelligent collision avoidance method for a swarm of unmanned surface vehicles based on deep reinforcement learning

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911043840.5A CN110658829B (zh) 2019-10-30 2019-10-30 一种基于深度强化学习的群无人艇智能避碰方法

Publications (2)

Publication Number Publication Date
CN110658829A true CN110658829A (zh) 2020-01-07
CN110658829B CN110658829B (zh) 2021-03-30

Family

ID=69042259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911043840.5A Active CN110658829B (zh) 2019-10-30 2019-10-30 一种基于深度强化学习的群无人艇智能避碰方法

Country Status (3)

Country Link
US (1) US11990044B2 (zh)
CN (1) CN110658829B (zh)
WO (1) WO2021082864A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制***
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111582441A (zh) * 2020-04-16 2020-08-25 清华大学 共享循环神经网络的高效值函数迭代强化学习方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111923039A (zh) * 2020-07-14 2020-11-13 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法
CN111948937A (zh) * 2020-07-20 2020-11-17 电子科技大学 多智能体***的多梯度递归强化学习模糊控制方法及***
CN111984006A (zh) * 2020-07-24 2020-11-24 哈尔滨工程大学 融合海流及尺度差异影响的无人艇多目标会遇避碰方法
CN112540614A (zh) * 2020-11-26 2021-03-23 江苏科技大学 一种基于深度强化学习的无人艇航迹控制方法
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN112967528A (zh) * 2021-03-17 2021-06-15 广州海事科技有限公司 水位通航管理方法、***、计算机设备及存储介质
CN113460090A (zh) * 2021-08-18 2021-10-01 清华大学 自动驾驶车辆t型紧急避撞控制方法、***、介质及设备
CN113759939A (zh) * 2021-11-11 2021-12-07 武汉理工大学 一种受限水域智能航行方法及装置
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN115453914A (zh) * 2022-10-19 2022-12-09 哈尔滨理工大学 一种考虑海浪干扰的无人艇回收分布式决策仿真***
CN117111594A (zh) * 2023-05-12 2023-11-24 海南大学 一种无人水面艇的自适应航迹控制方法
CN117647981A (zh) * 2023-11-23 2024-03-05 中船(北京)智能装备科技有限公司 一种无人艇智能航行控制方法、装置及设备

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11731652B2 (en) * 2020-12-15 2023-08-22 Woven Planet North America, Inc. Systems and methods for reactive agent simulation
CN113467248A (zh) * 2021-07-22 2021-10-01 南京大学 基于强化学习的无人机传感器故障时容错控制方法
CN113741528B (zh) * 2021-09-13 2023-05-23 中国人民解放军国防科技大学 一种面向多无人机碰撞规避的深度强化学习训练加速方法
CN114527642B (zh) * 2022-03-03 2024-04-02 东北大学 一种基于深度强化学习的agv自动调整pid参数的方法
CN115185190B (zh) * 2022-09-13 2023-06-20 清华大学 基于多智能体强化学习的城市排水***控制方法和装置
CN115470710B (zh) * 2022-09-26 2023-06-06 北京鼎成智造科技有限公司 一种空中博弈仿真方法及装置
CN115454136B (zh) * 2022-10-09 2024-04-30 北京航空航天大学 一种无人机集群协同攻防对抗决策方法
CN115544898B (zh) * 2022-11-09 2023-08-29 哈尔滨工业大学 基于深度强化学习的多智能体攻防决策方法
CN116187748B (zh) * 2022-12-16 2023-12-29 清华大学 风险域确定方法、装置、计算机设备、介质和程序产品
CN115981369B (zh) * 2023-01-09 2023-12-01 南京航空航天大学 有限通信下面向多无人机联合任务分配和航迹规划的方法
CN116047909B (zh) * 2023-01-13 2023-09-05 大连海事大学 面向海事平行搜寻的无人机-船协同鲁棒自适应控制方法
CN115993781B (zh) * 2023-03-22 2023-06-30 合肥工业大学 抗网络攻击无人集群***协同控制方法、终端及存储介质
CN116679742B (zh) * 2023-04-11 2024-04-02 中国人民解放军海军航空大学 一种多六自由度飞行器协同作战决策方法
CN116736883B (zh) * 2023-05-23 2024-03-08 天津大学 一种无人飞行集群智能协同运动规划的方法
CN116339130B (zh) * 2023-05-25 2023-09-15 中国人民解放军国防科技大学 基于模糊规则的飞行任务数据获取方法、装置及设备
CN116700276B (zh) * 2023-06-30 2023-11-07 苏州优世达智能科技有限公司 一种基于ai强化学习的无人艇对抗辅助方法及***
CN117434967B (zh) * 2023-12-18 2024-03-15 成都正扬博创电子技术有限公司 一种无人机防撞检测方法、***、介质及设备
CN117572893B (zh) * 2024-01-15 2024-03-19 白杨时代(北京)科技有限公司 基于强化学习的无人机集群对抗策略获取方法及相关设备
CN118034355A (zh) * 2024-04-15 2024-05-14 中国科学院数学与***科学研究院 网络训练方法、无人机避障方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346138A (zh) * 2017-06-16 2017-11-14 武汉理工大学 一种基于增强学习算法的无人船侧向控制方法
CN108710372B (zh) * 2018-05-29 2019-09-10 武汉理工大学 一种用于群水面无人艇的自主避碰***及方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3075496B1 (en) * 2015-04-02 2022-05-04 Honda Research Institute Europe GmbH Method for improving operation of a robot
US20170227470A1 (en) * 2016-02-04 2017-08-10 Proxy Technologies, Inc. Autonomous vehicle, system and method for structural object assessment and manufacture thereof
US10372143B2 (en) * 2017-03-20 2019-08-06 Apium Inc. Automated air traffic control of unmanned air vehicles
CN109540151B (zh) * 2018-03-25 2020-01-17 哈尔滨工程大学 一种基于强化学习的auv三维路径规划方法
CN108820157B (zh) * 2018-04-25 2020-03-10 武汉理工大学 一种基于强化学习的船舶智能避碰方法
CN109540136A (zh) * 2018-10-25 2019-03-29 广东华中科技大学工业技术研究院 一种多无人艇协同路径规划方法
CN110196605B (zh) * 2019-04-26 2022-03-22 大连海事大学 一种强化学习的无人机群在未知海域内协同搜索多动态目标方法
CN110658829B (zh) * 2019-10-30 2021-03-30 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346138A (zh) * 2017-06-16 2017-11-14 武汉理工大学 一种基于增强学习算法的无人船侧向控制方法
CN108710372B (zh) * 2018-05-29 2019-09-10 武汉理工大学 一种用于群水面无人艇的自主避碰***及方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHEEKUANG TAM 等: "Cooperative path planning algorithm for marine surface vessels", 《OCEAN ENGINEERING》 *
ZVONIMIR LUŠIC 等: "Models for Estimating the Potential Number of Ship Collisions", 《THE JOURNAL OF NAVIGATION》 *
李丽娜 等: "单船避碰智能决策的生成与优化方法", 《中国航海》 *
王玉龙 等: "一种用于群无人艇避碰的动态分组策略", 《中国航海》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082864A1 (zh) * 2019-10-30 2021-05-06 武汉理工大学 一种基于深度强化学习的群无人艇智能避碰方法
CN111308890A (zh) * 2020-02-27 2020-06-19 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111308890B (zh) * 2020-02-27 2022-08-26 大连海事大学 一种带有指定性能的无人船数据驱动强化学习控制方法
CN111300390A (zh) * 2020-03-20 2020-06-19 苏州大学 基于蓄水池采样和双经验池的机械臂智能控制***
CN111300390B (zh) * 2020-03-20 2021-03-23 南栖仙策(南京)科技有限公司 基于蓄水池采样和双经验池的机械臂智能控制***
CN111582441B (zh) * 2020-04-16 2021-07-30 清华大学 共享循环神经网络的高效值函数迭代强化学习方法
CN111582441A (zh) * 2020-04-16 2020-08-25 清华大学 共享循环神经网络的高效值函数迭代强化学习方法
CN111694365A (zh) * 2020-07-01 2020-09-22 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111694365B (zh) * 2020-07-01 2021-04-20 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法
CN111923039A (zh) * 2020-07-14 2020-11-13 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法
CN111923039B (zh) * 2020-07-14 2022-07-05 西北工业大学 一种基于强化学习的冗余机械臂路径规划方法
CN111948937A (zh) * 2020-07-20 2020-11-17 电子科技大学 多智能体***的多梯度递归强化学习模糊控制方法及***
CN111984006A (zh) * 2020-07-24 2020-11-24 哈尔滨工程大学 融合海流及尺度差异影响的无人艇多目标会遇避碰方法
CN111984006B (zh) * 2020-07-24 2021-07-06 哈尔滨工程大学 融合海流及尺度差异影响的无人艇多目标会遇避碰方法
CN112540614B (zh) * 2020-11-26 2022-10-25 江苏科技大学 一种基于深度强化学习的无人艇航迹控制方法
CN112540614A (zh) * 2020-11-26 2021-03-23 江苏科技大学 一种基于深度强化学习的无人艇航迹控制方法
CN112967528A (zh) * 2021-03-17 2021-06-15 广州海事科技有限公司 水位通航管理方法、***、计算机设备及存储介质
CN113460090A (zh) * 2021-08-18 2021-10-01 清华大学 自动驾驶车辆t型紧急避撞控制方法、***、介质及设备
CN113460090B (zh) * 2021-08-18 2023-09-12 清华大学 自动驾驶车辆t型紧急避撞控制方法、***、介质及设备
CN113759939A (zh) * 2021-11-11 2021-12-07 武汉理工大学 一种受限水域智能航行方法及装置
CN114840928A (zh) * 2022-05-07 2022-08-02 西北工业大学 一种基于深度学习的水下航行器集群运动仿真方法
CN115453914A (zh) * 2022-10-19 2022-12-09 哈尔滨理工大学 一种考虑海浪干扰的无人艇回收分布式决策仿真***
CN115453914B (zh) * 2022-10-19 2023-05-16 哈尔滨理工大学 一种考虑海浪干扰的无人艇回收分布式决策仿真***
CN117111594A (zh) * 2023-05-12 2023-11-24 海南大学 一种无人水面艇的自适应航迹控制方法
CN117111594B (zh) * 2023-05-12 2024-04-12 海南大学 一种无人水面艇的自适应航迹控制方法
CN117647981A (zh) * 2023-11-23 2024-03-05 中船(北京)智能装备科技有限公司 一种无人艇智能航行控制方法、装置及设备

Also Published As

Publication number Publication date
US20220189312A1 (en) 2022-06-16
WO2021082864A1 (zh) 2021-05-06
US11990044B2 (en) 2024-05-21
CN110658829B (zh) 2021-03-30

Similar Documents

Publication Publication Date Title
CN110658829B (zh) 一种基于深度强化学习的群无人艇智能避碰方法
Chun et al. Deep reinforcement learning-based collision avoidance for an autonomous ship
Chen et al. A knowledge-free path planning approach for smart ships based on reinforcement learning
CN108803321B (zh) 基于深度强化学习的自主水下航行器轨迹跟踪控制方法
Sun et al. Mapless motion planning system for an autonomous underwater vehicle using policy gradient-based deep reinforcement learning
Tam et al. Cooperative path planning algorithm for marine surface vessels
CN111780777A (zh) 一种基于改进a*算法和深度强化学习的无人车路径规划方法
Tan et al. Fast marching square method based intelligent navigation of the unmanned surface vehicle swarm in restricted waters
CN115016496A (zh) 基于深度强化学习的水面无人艇路径跟踪方法
Zhang et al. AUV path tracking with real-time obstacle avoidance via reinforcement learning under adaptive constraints
Song et al. Guidance and control of autonomous surface underwater vehicles for target tracking in ocean environment by deep reinforcement learning
Rongcai et al. Autonomous collision avoidance system in a multi-ship environment based on proximal policy optimization method
Wang et al. Multi-ship encounter situation adaptive understanding by individual navigation intention inference
Lan et al. Path planning for underwater gliders in time-varying ocean current using deep reinforcement learning
Jin et al. Soft formation control for unmanned surface vehicles under environmental disturbance using multi-task reinforcement learning
Amendola et al. Navigation in restricted channels under environmental conditions: Fast-time simulation by asynchronous deep reinforcement learning
Wang et al. A greedy navigation and subtle obstacle avoidance algorithm for USV using reinforcement learning
Guo et al. Mission-driven path planning and design of submersible unmanned ship with multiple navigation states
Higo et al. Development of trajectory-tracking maneuvering system for automatic berthing/unberthing based on double deep Q-network and experimental validation with an actual large ferry
CN112835368A (zh) 一种多无人艇协同编队控制方法及***
CN115107948B (zh) 一种高效强化学习自主船舶避碰方法
CN114943168B (zh) 一种水上浮桥组合方法及***
CN114578819B (zh) 一种基于人工势场法的多水面船分布式编队的控制方法
Yuan et al. EMPMR berthing scheme: A novel event-triggered motion planning and motion replanning scheme for unmanned surface vessels
Jose et al. Navigating the Ocean with DRL: Path following for marine vessels

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant