CN112540614B - 一种基于深度强化学习的无人艇航迹控制方法 - Google Patents
一种基于深度强化学习的无人艇航迹控制方法 Download PDFInfo
- Publication number
- CN112540614B CN112540614B CN202011353012.4A CN202011353012A CN112540614B CN 112540614 B CN112540614 B CN 112540614B CN 202011353012 A CN202011353012 A CN 202011353012A CN 112540614 B CN112540614 B CN 112540614B
- Authority
- CN
- China
- Prior art keywords
- unmanned
- reward
- unmanned ship
- network
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002787 reinforcement Effects 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 21
- 238000005070 sampling Methods 0.000 claims description 17
- 230000009471 action Effects 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000009191 jumping Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 6
- 230000007613 environmental effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05D—SYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
- G05D1/00—Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
- G05D1/02—Control of position or course in two dimensions
- G05D1/0206—Control of position or course in two dimensions specially adapted to water vehicles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Aviation & Aerospace Engineering (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Automation & Control Theory (AREA)
- Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)
Abstract
本发明属于无人艇航迹控制领域,公开了一种基于深度强化学习的无人艇航迹控制方法。包括如下步骤:用于具有大迟滞性***的无人艇航迹控制的深度强化学习框架,通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫***也可通过深度强化学习取得良好的训练效果。
Description
技术领域
本发明属于无人艇航迹控制领域,具体涉及一种基于深度强化学习的无人艇航迹控制方法。
背景技术
近年来深度神经网络有了长足的发展,强化学习在结合了深度神经网络后在下棋,游戏,推荐***等方面取得了显著成就。深度强化学习之所以能在这些领域取得良好的训练效果是因为这些领域的规则都是比较明确的,其状态的转移严格符合马尔科夫性,智能体在这些环境下受到的影响因素是较少而且可控的。而深度强化学习运用到无人艇时,无人艇受到的各种环境因素的影响很多,无人艇在不同环境下完成不同任务时我们考虑的环境因素有一定差别。无人艇能否获得足够多且足够精确的环境信息是影响深度强化学习学习效果好坏的重要因素。而无人艇的航迹控制是无人艇完成其他许多任务的基础,将深度强化学习运用到无人艇的航迹控制是无人艇自动控制迈向人工智能的重要一步。
发明内容
本发明设计了一种用于具有大迟滞性***的无人艇航迹控制的深度强化学习框架,通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫***也可通过深度强化学习取得良好的训练效果。
本发明通过如下技术方案实现:一种基于深度强化学习的无人艇航迹控制方法,包括如下步骤:
步骤一:初始化一个决策网络Q和一个目标网络Q′的网络参数;
步骤二:获得无人艇当前状态St,包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据,以及之前时刻舵角位置和螺旋桨输出动力的信息;
步骤三:对无人艇的状态信息进行预处理,对于船的大惯性我们将长度和角度信息的微分量引入到无人艇的状态信息;对于计算板卡延迟我们将状态信息的积分量引入到状态信息;
步骤四:将状态St′代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r;
步骤五:执行动作并进入下一状态St+1并预处理得到状态S′t+1;
步骤六:将(St′,S′t+1,ac,r)作为一条数据连同采样优先级存储到经验池中;
步骤七:以采样优先级作为采样概率的依据采样m条数据,投入目标网络得到损失函数ω;
步骤八:用ω更新决策网络Q;
步骤九:若i>=n,则用决策网络Q的参数更新一次目标网络Q′,且令i=0;
步骤十:观察是否达到训练结束条件,达到了就结束训练,否则跳转到步骤二。
进一步,所述步骤二中,将舵角,螺旋桨输出动力这些动作信息也作为状态信息,作为状态信息的一部分。
进一步,所述步骤三中,将状态输入到决策网络中时,会对状态S的数据进行预处理,使不满足马尔科夫性的大迟滞***也可一定程度上满足马尔科夫性。
进一步,详细设置了无人艇获取的奖励,防止由于奖励稀疏问题导致的强化学习训练效率低下。
进一步,所述步骤二中,动态调整训练神经网络的数据被采样的概率,促进最新的数据能被尽早被利用,保证所有数据被均匀地使用。提高了数据的整体利用率。
本发明相对于现有技术,具有以下有益效果:本发明设计了一种用于具有大迟滞性***的无人艇航迹控制的深度强化学习框架,通过该深度强化学习框架使无人艇这类大迟滞性的非马尔科夫***也可通过深度强化学习取得良好的训练效果。通过对状态信息的差分预处理使无人艇状态的转移一定程度上符合马尔科夫性,通过延时预处理使深度神经网络可以自适应地降低无人艇执行动作的延迟对训练效果的影响。以航迹控制为主要目标设置了详细的奖励函数,且分析了各奖励函数之间的关系,考虑到无人艇在训练过程中可能遇到的一些意外情况,在奖励函数的设置中避免无人艇的训练陷入这些意外情况。
附图说明
图1为本发明一种基于深度强化学习的无人艇航迹控制方法的算法流程框图;
图2为本发明一种基于深度强化学习的无人艇航迹控制方法的数据流向图;
图3为本发明一种基于深度强化学习的无人艇航迹控制方法的无人艇硬件分布和连接图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
并且,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参附图对具体的实施过程进行讲述:
(1)初始化网络参数中,若是第一次训练则随机初始化网络的权值参数,若不是第一次实验则将网络初始化为上一次试验结束时保存的网络参数。其中参数i用于评价网络的更新计数,评价网络更新n次后目标网络才更新一次。无人艇对环境数据采样间隔为Ts,每Ts决策网络更新一次,每n·Ts秒目标网络更新一次。
(2)获取的当前状态信息中包括无人艇的位置信息,由于目标航迹点的位置已知,因此以当前目标航迹点为原点,目标航迹方向为x轴正方向建立坐标系,可以计算出无人艇的坐标为Gt=(xt,yt);目标航迹方向到下一目标航迹的方向,方向变化的角度为△θt,-180°<△θt≤180°;无人艇避障传感器的数据为Dt。
由于计算板卡的计算耗时,电机响应延迟都是不可忽略的,且舵角和螺旋桨动力输出对无人艇的状态的影响是连续的,前一时刻的动作会对下一时刻的状态造成影响,因此要纳入状态信息。无人艇螺旋桨输出动力为Put,输出的舵角为Angt。当前总的动力输出为Ft=(Put,Angt)。则将Ft-1纳入动作空间。
最终获得的当前状态信息为St=(Gt,△θt,Dt,Ft-1)
(3)引入状态信息的微分量和积分量来消除无人艇的大迟滞性的影响。实际运用时我们离散地在时间轴上对数据进行采样。在离散***中我们用差分量和延时量来代替微分量和积分量。预处理前的状态信息为St,预处理后的状态信息为St′。
差分用来消除无人艇的大惯性的影响,舵角及螺旋桨的动作直接影响无人艇的加速度。无人艇速度的变化符合马尔科夫性,而位置的变化不符合马尔科夫性。下一时刻位置不但受当前输出动力的影响,还受当前速度的影响,因此将速度也列为状态信息的一部分。无人艇与距离或航向相关的信息及其差分量都应引入到状态信息。
延时用来消除做出决策到动作响应到位的时间差带来的影响,将前λ时刻的状态的延时量都引入到状态空间。设实际延时为τ,T为无人艇***采样间隔,λ的设置需满足关系式λt>τ。训练时与实际延时量最相近的时刻的状态信息对应网络的权值随着训练很快上升,没有对应上的数据在网络中的权值会由于其动作和行为不具有相关性或相关性很低很快就会衰减并接近于0。这样就自适应地解决了无人艇决策到动作有延时的问题。
考虑到差分量可以由延时量线性表示,其对无人艇状态转移的影响都体现在神经网络的权值上,为简化深度神经网络,状态预处理最终简化为:
St′=(St,St-1,St-2…St-λ)
(4)动作空间的设置,本***运用于双桨单舵的水面无人艇上。两个螺旋桨由一个信号控制,动力输出相同。为了方便控制板卡对无人艇进行控制,设置了离散的动作空间。对于螺旋桨输出的推力Put,从推力为0到最大推力,设置10个档位。对于舵角Angt从-60度到60度分辨力为5度,设置25个角度。动作At=(Put,Angt)。
(5)奖励的设置,为了达到训练目标,详细设置了其奖励函数:
r=k·rv·ry+rs+rz
下面对各分量进行单独解释,下式中单独的字母a,b,c,d,g,h,k都为常数。
ry为航迹控制奖励,无人艇航行贴线精度越高奖励越大,无人艇与目标航迹的垂直距离为yt(yt≥0)。
无人艇只要到达目标航迹点的范围阈值d内,无人艇的当前航迹点就会更新为下一航迹点。因此上式中c/dt不会趋于无穷大。但考虑到无人艇开始航行,结束航行时可能会有非常靠近航迹点的情况,为了防止无人艇获得不合理的大奖励,设置上式中的分段函数来限制位置奖励的最大值。
最终奖励函数为R=k·rv·ry+rs+rz。其中rv·ry项设置为相乘而不是相加,是因为无人艇靠近航迹点和航迹保持必须是同时进行的,如果两项奖励相加,会导致无人艇在保持航迹且停止向前运动时仍然可以得到不合理的中等大小的正奖励。
(6)设立两个结构相同的深度神经网络,决策网络Q和目标网络Q′。具体更新过程如图1所示,数据流向如图2所示。决策网络Q用于当采集到环境信息后无人艇执行动作的选择。每进行一次动作的选择决策网络更新一次,更新的误差函数来源于目标网络Q′。而目标网络Q′不能每次都更新,否则目标一直在改变不利于参数的收敛。因此设置常量n,每当决策网络Q更新n次目标网络Q′更新一次。
(7)经验池数据的格式包括预处理后的状态信息和奖励,动作信息和下一状态的信息,即(St′,St+1,R′t,At)。其中奖励函数也是预处理后的数据,预处理的理由与状态预处理一样不再赘述。
经验池实际存储的数据还应该包括该条数据的唯一编号N,采样概率等级P以及该数据被采样的次数M。
经验池中每一条数据的格式为(N,P,M,St′,St+1,R′t,At)。
(8)经验池中数据的采样等级分为三级,采样等级高的数据被采样的概率更高。
初始最新存储的数据采样等级为三级。以确保最新的数据投入经验池后可以尽快被利用。采样等级为三级的数据被抽样过三次后采样等级将为二级。采样等级为二级的数据被采样五次后被降低为一级。每次更新产生一条都会有十条数据被抽样。这样设置可以保证经验池里大部分数据抽样等级保持在一级。采样等级的设置可以提高数据使用效率,加快收敛。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (4)
1.一种基于深度强化学习的无人艇航迹控制方法,其特征在于:包括如下步骤:
步骤一:初始化一个决策网络Q和一个目标网络Q′的网络参数;
步骤二:获得无人艇当前状态St,包括当前时刻的位置信息、速度信息、无人艇搭载的避障传感器的数据,以及之前时刻舵角位置和螺旋桨输出动力的信息;
步骤三:对无人艇的状态信息进行预处理,对于船的大惯性将长度和角度信息的微分量引入到无人艇的状态信息;对于船的迟滞性将状态信息的积分量引入到状态信息,形成状态S′t,其中S′t=(St,St-1,St-2…St-λ);
步骤四:将状态S′t代入决策网络Q并根据策略π(ac|s)得到动作ac和奖励r,
奖励函数为:
r=k·rv·ry+rs+rz
ry为航迹控制奖励,无人艇航行贴线精度越高奖励越大,无人艇与目标航迹的垂直距离为yt,且yt≥0
无人艇到达目标航迹点的范围阈值d内,无人艇的当前航迹点更新为下一航迹点;
以上公式中字母a,b,c,d,g,h,k均为常数;
步骤五:执行动作并进入下一状态St+1并预处理得到状态S′t+1;
步骤六:将(St′,S′t+1,ac,r)作为一条数据连同采样优先级存储到经验池中;
步骤七:以采样优先级作为采样概率的依据采样m条数据,投入目标网络得到损失函数ω;
步骤八:用损失函数ω更新决策网络Q;
步骤九:若i>=n,则用决策网络Q的参数更新一次目标网络Q′,且令i=0,
i为决策网络Q的更新次数,n为预设常量;
步骤十:观察是否达到训练结束条件,达到了就结束训练,否则跳转到步骤二。
2.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,将之前时刻舵角,螺旋桨输出动力这些动作信息也作为状态信息,作为当前状态信息的一部分。
3.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤三中,将状态S′t输入到状态动作值函数网络中,使不满足马尔科夫性的大迟滞***也可一定程度上满足马尔科夫性。
4.根据权利要求1所述的一种基于深度强化学习的无人艇航迹控制方法,其特征在于:所述步骤二中,动态调整训练神经网络的数据被采样的概率,促进最新的数据能被尽早被利用,保证所有数据被均匀地使用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353012.4A CN112540614B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度强化学习的无人艇航迹控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011353012.4A CN112540614B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度强化学习的无人艇航迹控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112540614A CN112540614A (zh) | 2021-03-23 |
CN112540614B true CN112540614B (zh) | 2022-10-25 |
Family
ID=75016863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011353012.4A Active CN112540614B (zh) | 2020-11-26 | 2020-11-26 | 一种基于深度强化学习的无人艇航迹控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112540614B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114839884B (zh) * | 2022-07-05 | 2022-09-30 | 山东大学 | 一种基于深度强化学习的水下航行器底层控制方法及*** |
CN115657683B (zh) * | 2022-11-14 | 2023-05-02 | 中国电子科技集团公司第十研究所 | 一种可用于巡检作业任务的无人无缆潜水器实时避障方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109765916A (zh) * | 2019-03-26 | 2019-05-17 | 武汉欣海远航科技研发有限公司 | 一种水面无人艇路径跟踪控制器设计方法 |
CN110109355A (zh) * | 2019-04-29 | 2019-08-09 | 山东科技大学 | 一种基于强化学习的无人艇异常工况自愈控制方法 |
CN110658829A (zh) * | 2019-10-30 | 2020-01-07 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
WO2020056299A1 (en) * | 2018-09-14 | 2020-03-19 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CN111880535A (zh) * | 2020-07-23 | 2020-11-03 | 上海交通大学 | 一种基于强化学习的无人艇混合感知自主避障方法及*** |
-
2020
- 2020-11-26 CN CN202011353012.4A patent/CN112540614B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020056299A1 (en) * | 2018-09-14 | 2020-03-19 | Google Llc | Deep reinforcement learning-based techniques for end to end robot navigation |
CN109765916A (zh) * | 2019-03-26 | 2019-05-17 | 武汉欣海远航科技研发有限公司 | 一种水面无人艇路径跟踪控制器设计方法 |
CN110109355A (zh) * | 2019-04-29 | 2019-08-09 | 山东科技大学 | 一种基于强化学习的无人艇异常工况自愈控制方法 |
CN110658829A (zh) * | 2019-10-30 | 2020-01-07 | 武汉理工大学 | 一种基于深度强化学习的群无人艇智能避碰方法 |
CN111880535A (zh) * | 2020-07-23 | 2020-11-03 | 上海交通大学 | 一种基于强化学习的无人艇混合感知自主避障方法及*** |
Also Published As
Publication number | Publication date |
---|---|
CN112540614A (zh) | 2021-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694365B (zh) | 一种基于深度强化学习的无人船艇编队路径跟踪方法 | |
CN111667513B (zh) | 一种基于ddpg迁移学习的无人机机动目标跟踪方法 | |
WO2021135554A1 (zh) | 一种无人车全局路径规划方法和装置 | |
CN108820157B (zh) | 一种基于强化学习的船舶智能避碰方法 | |
CN113095481B (zh) | 一种基于并行自我博弈的空战机动方法 | |
CN112540614B (zh) | 一种基于深度强化学习的无人艇航迹控制方法 | |
CN112100917B (zh) | 一种基于专家对抗***的智能船舶避碰仿真测试***与方法 | |
CN110658829A (zh) | 一种基于深度强化学习的群无人艇智能避碰方法 | |
CN112286218B (zh) | 基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法 | |
CN112180950B (zh) | 一种基于强化学习的智能船舶自主避碰及路径规划方法 | |
CN111260027A (zh) | 一种基于强化学习的智能体自动决策方法 | |
CN109145451B (zh) | 一种高速滑翔飞行器的运动行为识别与航迹估计方法 | |
CN114089776B (zh) | 一种基于深度强化学习的无人机避障方法 | |
CN113110546B (zh) | 一种基于离线强化学习的无人机自主飞行控制方法 | |
CN115033022A (zh) | 面向移动平台基于专家经验的ddpg无人机降落方法 | |
CN114967721B (zh) | 一种基于DQ-CapsNet的无人机自助路径规划和避障策略方法 | |
CN113741533A (zh) | 一种基于模仿学习与强化学习的无人机智能决策*** | |
CN116736729B (zh) | 一种抗感知误差的视距内空战机动策略生成方法 | |
CN109766569A (zh) | 潜艇运动模型简化方法及装置 | |
CN116300944A (zh) | 基于改进Double DQN的自动驾驶决策方法及*** | |
CN115373415A (zh) | 一种基于深度强化学习的无人机智能导航方法 | |
CN115933712A (zh) | 基于深度强化学习的仿生鱼领导者—跟随者编队控制方法 | |
CN114997048A (zh) | 基于探索策略改进的td3算法的自动驾驶车辆车道保持方法 | |
Zhang et al. | Gliding control of underwater gliding snake-like robot based on reinforcement learning | |
CN113419522B (zh) | 一种无人艇路径规划算法的仿真方法和*** |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20210323 Assignee: CSIC PRIDE (NANJING) ATMOSPHERE MARINE INFORMATION SYSTEM Co.,Ltd. Assignor: JIANGSU University OF SCIENCE AND TECHNOLOGY Contract record no.: X2022320000094 Denomination of invention: A path control method for unmanned craft based on deep reinforcement learning License type: Common License Record date: 20220609 |
|
EE01 | Entry into force of recordation of patent licensing contract | ||
GR01 | Patent grant | ||
GR01 | Patent grant |