CN109933086B - 基于深度q学习的无人机环境感知与自主避障方法 - Google Patents

基于深度q学习的无人机环境感知与自主避障方法 Download PDF

Info

Publication number
CN109933086B
CN109933086B CN201910195250.8A CN201910195250A CN109933086B CN 109933086 B CN109933086 B CN 109933086B CN 201910195250 A CN201910195250 A CN 201910195250A CN 109933086 B CN109933086 B CN 109933086B
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
action
state
obstacle avoidance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910195250.8A
Other languages
English (en)
Other versions
CN109933086A (zh
Inventor
田栢苓
刘丽红
崔婕
宗群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN201910195250.8A priority Critical patent/CN109933086B/zh
Publication of CN109933086A publication Critical patent/CN109933086A/zh
Application granted granted Critical
Publication of CN109933086B publication Critical patent/CN109933086B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Control Of Position, Course, Altitude, Or Attitude Of Moving Bodies (AREA)

Abstract

本发明涉及四旋翼无人机环境感知与自主避障领域,为降低资源损耗、成本开支;适应无人机自主避障的实时性、鲁棒性和安全性要求,本发明采取的技术方案是,基于深度Q学习的无人机环境感知与自主避障方法,首先利用雷达对无人机前方一定距离内的路径进行探测,得到自身与障碍物、目标点间的距离作为无人机当前所处的状态;其次,训练过程中,利用神经网络模拟无人机每一个状态‑动作对所对应的深度学习Q值;最后,当训练结果逐渐收敛时,采用贪心算法,为每一个特定状态下的无人机选择出最佳的动作,从而实现无人机的自主避障。本发明主要应用于无人机环境感知与自主避障控制场合。

Description

基于深度Q学习的无人机环境感知与自主避障方法
技术领域
本发明涉及四旋翼无人机环境感知与自主避障领域,尤其设计无人机智能化路径规划研究领域。具体涉及基于深度Q学习的无人机环境感知与自主避障方法。
背景技术
近年来,无人机(Unmanned Aerial Vehicle,UAV)逐渐走入大众的视野,在商业、农业、娱乐甚至军事领域大放异彩。近十年来,我国无人机数量相较之前实现了从无到有、再到繁荣发展的局面。数据显示,截止到2018年,我国仅民用无人机消费额已接近百亿,且消费数额呈快速上升趋势。无人机市场的繁荣,对无人机控制技术的安全与发展提出了更高的要求。现阶段,我国尚未形成完备的无人机空域管理条规,无人机在各领域的应用,乃至“黑飞”现象等,极易在无人机飞行的过程中造成安全隐患,形成不必要的财产损失和人员伤亡。因此,无人机的感知与避障技术成为国内外学者共同关注的课题。无人机的碰撞通常是指飞行过程中,与路径中的建筑、山川、鸟类甚至其他飞行物体间的距离小于安全阈值,甚至直接产生碰撞的现象。与有人驾驶无人机不同,无人机航行过程中不能依靠驾驶员改变飞行速度和航向,以达到避障的目的。因此,无人***中的感知与避障装置成为了无人***必不可少的组件。目前无人机的感知技术与自主避障技术主要有以下几种:
1.基于视觉的避障技术:该技术主要利用无人机在飞行过程中获取到的前方路径中的环境图像,利用图像处理技术对潜在的碰撞进行预测,并实时进行路径规划以实现无人机的安全飞行;该方案主要依赖于成熟的图像感知与处理技术,易受天气、雾霾等环境因素影响。
2.基于探测物的避障技术:该技术涵盖面较广,主要包括利用无人机上安装的雷达、超声波、红外线的感知装置探测自身与障碍物之间的距离,在此基础上对无人机的路径加以修改,实现避障的目的。该方案的缺点在于超声波等距离探测技术依赖于物体反射面的要求过高,易受环境因素影响等。
3.基于电子地图的避障技术:该技术主要利用无人机内置的电子地图与自身的GPS定位技术,能够精确判断无人机自身所处的位置并进行路径选择。该方案的缺陷在于不能适用于地图未知,空域中的移动障碍物等突发情况,鲁棒性差。
4.基于人工势场法的避障技术:该技术主要应用于无人机的路径规划层面,沿用电场中同性电荷之间相互排斥、异性电荷之间相互吸引的原理,为无人机、障碍物、目标点分配合适的电荷属性,最终使无人机能够避开障碍物,到达指定的目标点。
5.基于遗传算法、神经网络、模糊控制等的自主避障技术:该技术主要应用于无人机的路径规划层面,针对探测到的距离等信息,设计非线性优化模型或者模糊控制器,控制无人机的飞行速度与航向。
由上述无人机环境感知与自主避障技术的研究现状可知,目前绝大部分的无人机避障技术采用感知与路径规划分离开的方案。即把感知技术与路径规划技术作为***中的两个模块,通过数据间的传递实现无人机的避障。这种方案的缺陷在于:1)数据在两个模块间的传递可能存在延时,造成路径规划算法规划出的安全路径出现滞后现象,影响无人机的安全航行;2)数据传递出现丢失、失真现象,造成路径规划部分失去可靠的数据支撑,不能对障碍物做出及时反应;3)大部分路径规划算法容易陷入局部最优解,难以高效解决较为复杂的飞行环境中的路径规划问题。4)距离感知技术易受天气等环境因素影响,当天气情况恶劣,或者出现反制干扰时,无法进行准确的障碍物距离探测。总之,目前传统的无人机自主避障方案大多采用感知与路径规划互为衔接的方式,需要保证各自技术的成熟与两者间的数据高效传递;在受到外界干扰或不确定等因素影响时,可能导致算法失效,鲁棒性较差。
发明内容
为克服现有技术的不足,本发明旨在提出一种基于深度Q学习算法的四旋翼无人机环境感知与自主避障方法。一方面,现存的无人机自主避障路径规划方案容易陷入局部最优解,造成无人机执行任务过程中不必要的资源损耗、成本开支;另一方面,无人机作业环境较为多变和复杂,飞行过程中各种不确定对无人机自主避障的实时性、鲁棒性和安全性提出了较高的要求。为此,本发明采取的技术方案是,基于深度Q学习的无人机环境感知与自主避障方法,首先利用雷达对无人机前方一定距离内的路径进行探测,得到自身与障碍物、目标点间的距离作为无人机当前所处的状态;其次,训练过程中,利用神经网络模拟无人机每一个状态-动作对所对应的深度学习Q值;最后,当训练结果逐渐收敛时,采用贪心算法,为每一个特定状态下的无人机选择出最佳的动作,从而实现无人机的自主避障。
具体地,通过无人机与环境的感知,获取与目的地、障碍物之间的距离,作为深度Q学习算法的状态信息;
神经网络拟合模块负责Q值的计算:利用神经网络的逼近能力,拟合出针对某一状态所可能的所有状态-动作对的Q值;
动作选择模块负责无人机执行动作的选取,利用贪心算法,以ε概率选择无人机执行最优动作,最优动作对应的Q值最大,以1-ε概率随机选择动作,无人机接收到动作信息之后,执行相应的动作,到达一个新的位置;
无人机在状态获取-Q值拟合-动作选取-执行动作-新的状态获取将逐步到达指定的目的地。
具体步骤细化如下:
第一步,建立无人机环境感知与自主避障算法的马尔科夫模型,根据无人机自主避障的动作决策过程,对马尔科夫决策过程MDP的五元组(s,a,r,p,γ)进行建模:
(1)状态集s,定义无人机在飞行场景中的位置坐标(x,y)以及航向角度θ表示无人机的确定位置,(xg,yg)表示无人机飞行任务的目的地,则无人机对目的地的距离定义如下:
△x=x-xg,△y=y-yg (1)
为了对无人机前方路径的环境进行探测,在无人机行驶前方-45度到45度之间,每隔5度架设一条长为4m的雷达探测线,共16条,每条雷达探测线的探测距离定义如下:
Figure BDA0001995607310000031
其中,i=1,……,16,j=1,……,n,(obs_xj,obs_yj),表示n个障碍物的坐标位置,detected表示无人机的雷达探测线探测到了障碍物,同时为了便于数据处理,将无人机每条雷达探测线侦测到的距离disi,(i=1,...,16)归一化处理为norm_disi,如下:
Figure BDA0001995607310000032
最后无人机的状态确定为
s=[△x,△y,θ,norm_disi] (4)
(2)动作集a,动作集指无人机在接受到外界环境的反馈值之后,针对自身所处的位置,所可能采取的所有动作的集合,在无人机环境感知与自主避障算法中,给定无人机的运动速度v,而可选择的动作集定义为
Figure BDA0001995607310000033
即无人机始终以速度v向前方飞行,通过选择不同的动作,改变航向角θ,从而改变在x,y方向的速度分量,实现航迹的规划;
(3)立即回报函数r,立即回报函数指无人机在某一状态下,选择某一动作后,得到的瞬时反馈,表示对某一状态-动作对的奖赏,定义△dis用于衡量时刻t时,当前状态较前一时刻t-1,无人机朝向目标点行进的距离:
Figure BDA0001995607310000034
△θ用于衡量当前无人机的航校角度与无人机朝向目标点的角度差值:
Figure BDA0001995607310000035
(norm_dis8-1)表示无人机航向前方第8条雷达探测线是否探测到障碍物以及与障碍物之间的距离:
Figure BDA0001995607310000036
综上,立即回报函数定义如下
Figure BDA0001995607310000037
其中,hit表示无人机与障碍物发生碰撞,at target表示无人机到达目标点;
(4)状态转移概率函数,状态转移概率函数用以描述四旋翼无人机在飞行场景中,由当前时刻状态选择某一动作转移到下一时刻状态的概率;
(5)折扣因子γ,折扣因子用于描述在无人机自主避障决策过程中,当前时刻飞行决策对未来立即回报函数的“重视程度”;
第二步,根据建模出的马尔科夫决策过程,选择深度Q学习算法,并确定算法流程,找到无人机环境感知与自主避障的最优解;
第三步,无人机环境感知与自主避障算法的复杂飞行场景设计,包括构建无人机模型,设计无人机对周围环境感知模型,然后将步骤一、二应用于无人机控制,实现无人机环境感知与自主避障。
深度Q学习算法流程如下:首先,进行无人机状态与神经网络参数的随机初始化;其次,根据神经网络对当前状态拟合出的多个Q值,以ε概率选择使Q值最大的动作,0<ε<1,以1-ε概率随机选择动作,执行完成动作之后,得到一个反馈值,到达一个新的状态,并把“当前状态-动作-反馈值-下一时刻状态”经验片段存储到经验池中;最后,循环该过程直到无人机到达目的地,过程中每隔一定次数的步骤之后对神经网络进行训练;
神经网络的训练过程如下:首先,神经网络从经验池中随机抽取经验片段并根据其中下一时刻状态,选择使其Q值最大的动作;其次,计算反馈值、下一时刻状态对应最大Q值与当前状态Q值差值的平方作为神经网络的反向误差;最后,为使反向传递误差最小,神经网络采用梯度下降算法对参数进行调整。
本发明的特点及有益效果是:
为了验证本发明提出的基于深度Q学习算法的无人机环境感知与自主避障方法的有效性,设计了无人机自主避障虚拟仿真***,并在该***上进行了仿真实验。在虚拟仿真环境中,设定如下仿真参数:
(1)无人机飞行场景:如图6所示正方形飞行范围l=20m,其中所有障碍物的总面积对正方形飞行范围的占比为d=0.01,障碍物半径radius随机产生,但满足0.1m≤radius≤0.3m。为了增加无人机飞行环境的复杂性,所有障碍物中,移动障碍物对所有障碍物的占比为r=0.2,移动速度vobs随机产生,但满足-3.0m/s≤vobs≤3.0m/s,飞行场景的刷新频率为30Hz。
(2)神经网络参数:神经网络梯度下降优化器的学习率为0.01,神经网络训练模型如图3所示,包括19神经元的输入层,10神经元的隐含层和3神经元的输出层。其中输入层、隐含层的激活函数均采用线性修正单元。
(3)深度Q学习算法:探索率ε=0.9,折扣因子γ=0.9,深度Q学习的记忆池存储容量为500,每运行300次进行更新。
(4)雷达探测器:无人机行驶前方-45度到45度之间,每隔5度架设一条长为4m的雷达探测线,共16条。
(5)无人机模型:无人机的飞行速度v=2.5m/s,图像绘制数据来自3D打印模型3DBuilder,其中部分数据如表2所示。
本发明提出的无人机环境感知与自主避障方法是基于深度Q学习算法展开的,由于深度学习的拟合能力和强化学习的决策能力,在无人机飞行场景极为复杂的情况下,该方法仍有很好的鲁棒性。为了进一步证明本发明基于深度Q学习算法的无人机环境感知与自主避障方法的有效性,对于飞行场景进行仿真验证,其中障碍物位置、半径、移动速度,无人机起始位置与目标点位置均随机设定。
无人机自主避障流程图如图4所示,无人机在每个飞行回合内均需朝向目标点飞行,当到达目的地时,目标点的位置会进行更新,无人机继续追踪;当无人机与障碍物进行撞击时,无人机与目标点的位置同时进行更新;为了提高效率无人机在每个飞行回合内,在较长一段时间内既未到达目标点,又未与障碍物进行撞击时,会同时对无人机与目标点的位置进行更新。
仿真结果如图5所示,无人机在每个飞行回合内,均能够实现损失函数由高到低的收敛,由于无人机的运动速度加快,神经网络训练值收敛后很快到达目标点。随后无人机到达终点后,目标点会立即进行更新。因此,随后损失函数又会产生较高的跳变,直到神经网络重新收敛,在此到达终点,如此循环。
无人机避障的运动过程仿真如图6所示,上下两组图像均可看出,无人机在较为复杂的环境下,安全到达终点。结果表明无人机自主避障算法能够在复杂的飞行场景中完成从起始点到目标点的避障飞行。
表2无人机模型3D打印数据(部分)
Figure BDA0001995607310000051
在设计好的无人机复杂飞行场景中,采用所提出的基于深度Q学习算法的无人机环境感知与自主避障算法,分别实现了在不同障碍物分布情况下的避障测试,把下面将结合测试结果,从不同角度对控制性能进行分析,以进一步明确本制导算法的有效性。
(1)鲁棒性分析:本发明提出的在无人机航向前方-45到45度角范围内,架设雷达探测线方法,能够排除天气、气候等因素影响,有效探测到无人机行进前方的障碍物、飞行边界等信息,为自主避障提供了可靠的信息;同时采用的深度Q学习算法针对不同的无人机飞行状态能够根据Q值做出最优的决策,为无人机提供了避障指令。综上,无人机在避障飞行过程中,针对不同的飞行场景、气候、天气等影响因素具有较强的鲁棒性。
(2)实时性分析:本发明提出的算法,以雷达侦测到的前方路径信息作为决策依据,通过深度神经网络、Q学习算法的处理,直接产生无人机避障的最优指令,与传统避障方法相比,避免了无人机飞行环境感知与无人机自主避障两个模块间数据的整合与传递,显著提高了无人机自主避障算法的实时性。
(3)安全性分析:通过图6所示可以看出,本发明提出的算法能够准确对飞行场景中的障碍物进行有效识别,并且做出最优的动作决策,避免无人机与障碍物、运动边界发生碰撞,保证了无人机在复杂场景中飞行的安全性。
综上所述,本研究提出的提出的基于深度学习的无人机环境感知与自主避障算法对于无人机在复杂飞行场景中的避障问题具有相当高的适用性。
附图说明:
附图1四旋翼无人机环境感知与自主避障***结构图。
附图2无人机环境感知与自主避障算法设计思路框图。
附图3神经网络训练模型示意图。
附图4无人机自主避障流程图。
附图5神经网络损失函数变化曲线。
附图6环境感知与自主避障仿真过程示意图。
具体实施方式
为了克服传统无人机自主避障算法鲁棒性差的缺点,本发明在研究中,依靠目前引起各方关注的人工智能领域的深度强化学习算法,建立起无人机与障碍物的感知距离与无人机避障策略间的映射,通过深度强化学习网络,提出一种基于深度Q学习算法的四旋翼无人机感知与避障方法。本方法利用无人机前方的雷达探测器对前方一定范围内的飞行环境进行探测,可以最大程度避免气候、距离等因素等影响,提高算法的鲁棒性;同时,利用探测信息作为原始数据,采用深度Q学习网络可以直接产生无人机的避障策略,可以显著提高无人机避障的实时性;而且,基于深度Q学习的避障策略在训练过程中,可以有效拟合无人机每一个状态-动作对所对应的Q值,利用贪心算法产生的策略能够有效保证无人机飞行的安全性。将此基于深度Q学习的无人机感知与避障策略用于无人机在复杂环境下的路径规划,不仅对无人机自主避障研究领域具有重要的理论意义,而且具有较高的战略价值。
针对传统的基于环境感知与路径规划的无人机自主避障方案存在的缺点,本发明提出一种基于深度Q学习的无人机自主避障方法,首先利用雷达对无人机前方一定距离内的路径进行探测,得到自身与障碍物、目标点间的距离作为无人机当前所处的状态;其次,训练过程中,利用神经网络模拟无人机每一个状态-动作对所对应的Q值;最后,当训练结果逐渐收敛时,采用贪心算法,为每一个特定状态下的无人机选择出最佳的动作,从而实现无人机的自主避障。
由此可知,本发明提出的基于深度Q学习算法的无人机环境感知与自主避障方法是一种闭环的智能化实时控制方案,其安全性高、快速性好;该方法可以解决在复杂场景下的四旋翼无人机自主避障问题,鲁棒性强;该方案的有效性及可靠性高,有利于提高无人机执行任务过程中的自主决策能力,可以应用于多种民事、军事领域;可将该智能化路径规划方案应用于实际无人机的自主避障,在线快速生成行动指令,实现安全避障飞行。
本发明以控制理论方法和虚拟仿真技术相结合为主要研究手段,发明一种基于深度Q学习的四旋翼无人机环境感知与自主避障方法,在python2.7环境下进行仿真实验,验证了本方法的有效性。
第一步,建立无人机环境感知与自主避障算法的马尔科夫模型。根据无人机自主避障的动作决策过程,对马尔科夫决策过程(MDP)的五元组(s,a,r,p,γ)进行建模。
(1)状态集s。定义无人机在飞行场景中的位置坐标(x,y)以及航向角度θ表示无人机的确定位置,(xg,yg)表示无人机飞行任务的目的地,则无人机对目的地的距离定义如下:
△x=x-xg,△y=y-yg (1)
为了对无人机前方路径的环境进行探测,在无人机行驶前方-45度到45度之间,每隔5度架设一条长为4m的雷达探测线,共16条,每条雷达探测线的探测距离定义如下:
Figure BDA0001995607310000071
其中,(obs_xj,obs_yj),(j=1,...,n)表示n个障碍物的坐标位置,detected表示无人机的雷达探测线探测到了障碍物(如图2模块1所示)。同时为了便于数据处理,将无人机每条雷达探测线侦测到的距离disi,(i=1,...,16)归一化处理为norm_disi,(i=1,...,16),如下:
Figure BDA0001995607310000072
最后无人机的状态确定为
s=[△x,△y,θ,norm_disi] (4)
(2)动作集a。动作集指无人机在接受到外界环境的反馈值之后,针对自身所处的位置,所可能采取的所有动作的集合。在无人机环境感知与自主避障算法中,给定无人机的运动速度v,而可选择的动作集定义为
Figure BDA0001995607310000081
即无人机始终以速度v向前方飞行,通过选择不同的动作,改变航向角θ,从而改变在x,y方向的速度分量,实现航迹的规划。
(3)立即回报函数r。立即回报函数指无人机在某一状态下,选择某一动作后,得到的瞬时反馈,表示对某一状态-动作对的奖赏。定义△dis用于衡量时刻t时,当前状态较前一时刻t-1,无人机朝向目标点行进的距离:
Figure BDA0001995607310000082
△θ用于衡量当前无人机的航校角度与无人机朝向目标点的角度差值:
Figure BDA0001995607310000083
(norm_dis8-1)表示无人机航向前方第8条雷达探测线是否探测到障碍物以及与障碍物之间的距离:
Figure BDA0001995607310000084
综上,立即回报函数定义如下
Figure BDA0001995607310000085
其中,hit表示无人机与障碍物发生碰撞,at target表示无人机到达目标点。
(4)状态转移概率函数p。在本课题中,状态转移概率函数用以描述四旋翼无人机在飞行场景中,由当前时刻状态选择某一动作转移到下一时刻状态的概率。
本课题中飞行环境复杂,因此建模成一个状态转移概率p未知的马尔科夫过程。强化学习领域针对状态转移概率是否已知分为基于环境模型和不基于环境模型的问题,在各自情况下均存在有效的解决算法。深度Q学习算法作为强化学习算法的一种,能够在p未知的情况下有效解决不基于环境模型的问题。
(5)折扣因子γ。折扣因子用于描述在无人机自主避障决策过程中,当前时刻飞行决策对未来立即回报函数的“重视程度”。
第二步,根据建模出的马尔科夫决策过程,选择深度Q学习算法,并确定算法流程,找到无人机环境感知与自主避障的最优解。确定算法流程如表1所示:
表1:无人机环境感知与自主避障算法
Figure BDA0001995607310000086
Figure BDA0001995607310000091
算法流程如下:首先,进行无人机状态与神经网络参数参数的随机初始化;其次,根据神经网络对当前状态拟合出的多个Q值,以ε概率(0<ε<1)选择使Q值最大的动作,以1-ε概率随机选择动作,执行完成动作之后,得到一个反馈值,到达一个新的状态,并把“当前状态-动作-反馈值-下一时刻状态”经验片段存储到经验池中;最后,循环该过程直到无人机到达目的地,过程中每隔一定次数的步骤对神经网络进行训练。
神经网络的训练过程如下:首先,神经网络从经验池中随机抽取经验片段并根据其中下一时刻状态,选择使其Q值最大的动作;其次,计算当前状态反馈值、下一时刻状态对应最大Q值与当前状态Q值差值的平方作为神经网络的反向误差;最后,为使反向传递误差最小,神经网络采用梯度下降算法对参数进行调整。
第三步,设置无人机环境感知与自主避障的环境。在无人机环境感知与自主避障的过程中,无人机作为智能体,需要不断与周围存在障碍物的环境进行交互,得到足够的数据,才能够收集足够的信息,作为决策的依据。同时,无人机作为被控对象,无人机的模型也是仿真验证过程中不可缺少的一部分。
无人机飞行环境假设为在的正方形范围内,分布有大小不一致的圆柱体作为障碍物,同时绿色标识表示无人机飞行的目的地。四旋翼无人机的模型通过3D打印数据得出,将3D打印数据输入到环境Director中,可以再现四旋翼无人机的模型。
基于以上三步,可实现无人机在复杂运动场景下,通过自身的雷达探测装置,进行障碍物检测并实现自主避障,到达目的地。
四旋翼无人机环境感知与自主避障***结构图如图1所示。通过对飞行环境中障碍物、目标点等状态信息的获取,选择当前状态下最优的动作,可以控制四旋翼无人机,实现到达目的地的目标要求。其中Q值的拟合是算法的核心环节,只有通过Q值的准确拟合,才能为无人机选择合适的动作,完成既定的飞行任务。如果没有Q值的拟合部分,无人机无法得到飞行指令,无法完成复杂环境下的飞行任务。
图2所示为本发明提出的无人机环境感知与自主避障算法设计思路框图。状态检测模块负责信息的获取,通过无人机与环境的感知,获取与目的地、障碍物之间的距离,作为深度Q学习算法的状态信息。神经网络拟合模块负责Q值的计算,利用神经网络的逼近能力,拟合出针对某一状态所可能的所有状态-动作对的Q值。动作选择模块负责无人机执行动作的选取,利用贪心算法,在当前状态所对应的多个Q值中,以ε概率(0<ε<1)选择使Q值最大的动作,以1-ε概率随机选择动作。执行动作模块负责具体动作的执行,无人机接收到动作信息之后,执行相应的动作,到达一个新的位置。无人机在状态获取-Q值拟合-动作选取-执行动作-新的状态获取将逐步到达指定的目的地。
第一步,无人机环境感知与自主避障算法的马尔科夫过程建模。根据无人机自主避障的动作决策过程,对马尔科夫决策过程(MDP)的五元组(s,a,r,p,γ)进行建模。
(1)状态集s,状态集指能确定表示无人机当前飞行信息的状态量。
定义无人机在飞行场景中的当前位置(x,y)以及航向角度θ表示无人机的确定位置,(xg,yg)表示无人机飞行任务的目的地,则无人机距离目的地的距离定义如下:
△x=x-xg,△y=y-yg (10)
为了对无人机前方路径的环境进行探测,在无人机行驶前方-45度到45度之间,每隔5度架设一条长为4m的雷达探测线,共16条,每条雷达探测线的探测距离定义如下:
Figure BDA0001995607310000101
其中,(obs_xj,obs_yj),(j=1,...,n)表示n个障碍物的坐标位置,detected表示无人机的雷达探测线探测到了障碍物(如图2模块1所示)。同时为了便于数据处理,将无人机每条雷达探测线侦测到的距离disi,(i=1,...,16)归一化处理为norm_disi,(i=1,...,16),如下:
Figure BDA0001995607310000102
最后无人机的状态确定为
s=[△x,△y,θ,norm_disi] (13)
在该状态信息中,既可以表示无人机当前飞行位置与目的地之间的距离;同时可以表示无人机与飞行场景中存在的障碍物之间的距离,由此选择是否需要进行避障操作。
(2)动作集a,动作集指无人机在接受到外界环境的反馈值之后,针对自身所处的位置,所可能采取的所有动作的集合。
在无人机环境感知与自主避障算法中,给定无人机的运动速度v,而可选择的动作集定义为
Figure BDA0001995607310000103
即无人机始终以速度v向前方飞行,通过选择不同的动作,改变航向角θ,从而改变在x,y方向的速度分量,实现航迹的规划。由此表示,无人机在到达终点前,始终以速度v在航向角θ的作用下沿着轨迹运动,对着航向角度的变化,无人机的轨迹会随之变化,直到到达目的地。
(3)立即汇报函数r,立即回报函数指无人机在某一状态下,选择某一动作后,得到的瞬时反馈,表示对某一状态-动作对的奖赏。
无人机飞行过程中的状态-动作对主要分三种情况:到达目标点,撞击障碍物,安全飞行状态。针对每一种情况,都需要合理设计立即回报函数。其中到达目标点与撞击障碍物场景简单,立即回报函数分别定义为15的奖励值与-20的惩罚值,安全飞行状态较为复杂,需要综合考虑无人机飞行较前一时刻的行进距离、朝向目标点的角度差,以及与障碍物间的距离。
定义△dis用于衡量时刻t时,当前状态较前一时刻状态朝向目标点行进的距离:
Figure BDA0001995607310000111
△θ用于衡量当前无人机的航校角度与无人机朝向目标点的角度差值:
Figure BDA0001995607310000112
(norm_dis8-1)表示无人机航向前方第8条雷达探测线是否探测到障碍物以及与障碍物之间的距离。
Figure BDA0001995607310000113
综上,立即回报函数定义如下
Figure BDA0001995607310000114
其中,hit表示无人机与障碍物发生碰撞,at target表示无人机到达目标点。
(4)状态转移概率函数p。在本课题中,状态转移概率函数用以描述四旋翼无人机在飞行场景中,由当前时刻状态选择某一动作转移到下一时刻状态的概率。
本课题中飞行环境复杂,因此建模成一个状态转移概率p未知的马尔科夫过程。强化学习领域针对状态转移概率是否已知分为基于环境模型和不基于环境模型的问题,在各自情况下均存在有效的解决算法。深度Q学习算法作为强化学习算法的一种,能够在p未知的情况下有效解决不基于环境模型的问题。
(5)折扣因子γ,折扣因子用于描述在无人机自主避障决策过程中,当前时刻飞行决策对未来立即回报函数的“重视程度”。
在无人机环境感知与自主避障飞行过程中,为使无人机能够智能化避障,需要实现无人机在当前状态下,直到未来终端状态的累计回报值
Figure BDA0001995607310000115
最大。
当累计回报函数最大时,无人机能够找到最优的路径。其中γ表示无人机在当前状态st时刻,对未来回报的“重视程度”,γ=1表示无人机足够的“远视”,平等地看待当前与未来的立即回报值;γ=0表示无人机十分“短视”,只看重当前的立即回报值,而忽略了未来的影响。
第二步,无人机环境感知与自主避障算法的深度Q学习算法搭建。为使神经网络能够准确拟合出每一个状态-动作对的Q值,利用深度Q学习算法对神经网络进行训练,目的在于利用梯度下降算法调整各个神经网络层中的权重与偏差。
同时,在神经网络拟合Q值的过程中,利用深度Q学习算法选择每个状态下的飞行指令。在飞行动作的选择过程中,为了避免算法陷入局部最优解,需要考虑无人机在飞行场景中“利用”与“探索”之间的关系。采用贪心算法,无人机以ε的概率(0<ε<1)利用已经搜集得到的飞行场景的数据,以1-ε的概率对飞行场景进行探索。
最后,无人机环境感知与自主避障的深度Q学习算法如表2所示
表2:无人机环境感知与自主避障算法
Figure BDA0001995607310000121
算法流程如下:首先,进行无人机状态与神经网络参数的随机初始化;其次,根据神经网络对当前状态拟合出的多个Q值,以ε概率(0<ε<1)选择使Q值最大的动作,以1-ε概率随机选择动作,执行完成动作之后,得到一个反馈值,到达一个新的状态,并把“当前状态-动作-反馈值-下一时刻状态”经验片段存储到经验池中;最后,循环该过程直到无人机到达目的地,过程中每隔一定次数的步骤之后对神经网络进行训练。
神经网络的训练过程如下:首先,神经网络从经验池中随机抽取经验片段并根据其中下一时刻状态,选择使其Q值最大的动作;其次,计算反馈值、下一时刻状态对应最大Q值与当前状态Q值差值的平方作为神经网络的反向误差;最后,为使反向传递误差最小,神经网络采用梯度下降算法对参数进行调整。
第三步,无人机环境感知与自主避障算法的复杂飞行场景设计。搭建一个复杂的飞行场景对无人机自主避障算法的有效性进行实验验证。在无人机感知与避障的过程中,需要不断与飞行场景进行交互,收集尽可能多的数据作为决策依据,才能够充分训练神经网络,同时在避障过程中做出最正确的决策行为。同时,无人机作为被控对象,无人机的模型也是仿真验证过程中不可缺少的一部分。
无人机飞行场景假设为在一个正方形飞行范围内,边界内分布有大小不一致的圆柱体作为障碍物。为了增强飞行场景的复杂性,每个飞行回合内,无人机飞行的目的地随机产生。同时,边界内的所有障碍物的位置、半径以及障碍物的移动速度均随机产生,无人机飞行场景内障碍物的设置算法如表3所示
表3无人机飞行场景设置算法
Figure BDA0001995607310000131
算法流程如下:首先,确定飞行环境中障碍物的总面积,以及移动障碍物占其总面积的比值;其次,随机生成障碍物的半径、位置(均在允许范围内),以移动障碍物面积占比为概率,选择移动速度为0,或者随机产生(允许范围内);最后,根据障碍物的半径、位置与移动速度在飞行环境中绘制障碍物,直到面积和到达障碍物的总面积。
同时,飞行场景中四旋翼无人机的模型通过3D打印数据得出,将3D打印数据输入到开源环境Director中,可以再现四旋翼无人机的飞行场景。
基于以上三步,可实现无人机在复杂飞行场景下,通过自身的雷达探测装置,进行障碍物检测并实现自主避障,到达目的地。

Claims (2)

1.一种基于深度Q学习的无人机环境感知与自主避障方法,其特征是,首先利用雷达对无人机前方一定距离内的路径进行探测,得到自身与障碍物、目标点间的距离作为无人机当前所处的状态;其次,训练过程中,利用神经网络模拟无人机每一个状态-动作对所对应的深度学习Q值;最后,当训练结果逐渐收敛时,采用贪心算法,为每一个特定状态下的无人机选择出最佳的动作,从而实现无人机的自主避障;
具体地,通过无人机与环境的感知,获取与目的地、障碍物之间的距离,作为深度Q学习算法的状态信息;
神经网络拟合模块负责Q值的计算:利用神经网络的逼近能力,拟合出针对某一状态所可能的所有状态-动作对的Q值;
动作选择模块负责无人机执行动作的选取,利用贪心算法,以ε概率选择无人机执行最优动作,最优动作对应的Q值最大,以1-ε概率随机选择动作,无人机接收到动作信息之后,执行相应的动作,到达一个新的位置;
无人机在状态获取-Q值拟合-动作选取-执行动作-新的状态获取将逐步到达指定的目的地;
具体步骤细化如下:
第一步,建立无人机环境感知与自主避障算法的马尔科夫模型,根据无人机自主避障的动作决策过程,对马尔科夫决策过程MDP的五元组(s,a,r,p,γ)进行建模,p状态转移概率函数:
(1)状态集s,定义无人机在飞行场景中的位置坐标(x,y)以及航向角度θ表示无人机的确定位置,(xg,yg)表示无人机飞行任务的目的地,则无人机对目的地的距离定义如下:
Δx=x-xg,Δy=y-yg (1)
为了对无人机前方路径的环境进行探测,在无人机行驶前方-45度到45度之间,每隔5度架设一条长为4m的雷达探测线,共16条,每条雷达探测线的探测距离定义如下:
Figure FDA0003690022010000011
其中,i=1,……,16,j=1,……,n,(obs_xj,obs_yj)表示n个障碍物的坐标位置,detected表示无人机的雷达探测线探测到了障碍物,同时为了便于数据处理,将无人机每条雷达探测线侦测到的距离disi,(i=1,...,16)归一化处理为norm_disi,,如下:
Figure FDA0003690022010000012
最后无人机的状态确定为
s=[Δx,Δy,θ,norm_disi] (4)
(2)动作集a,动作集指无人机在接受到外界环境的反馈值之后,针对自身所处的位置,所可能采取的所有动作的集合,在无人机环境感知与自主避障算法中,给定无人机的运动速度v,而可选择的动作集定义为
Figure FDA0003690022010000021
即无人机始终以速度v向前方飞行,通过选择不同的动作,改变航向角θ,从而改变在x,y方向的速度分量,实现航迹的规划;
(3)立即回报函数r,立即回报函数指无人机在某一状态下,选择某一动作后,得到的瞬时反馈,表示对某一状态-动作对的奖赏,定义Δdis用于衡量时刻t时,当前状态较前一时刻t-1,无人机朝向目标点行进的距离:
Figure FDA0003690022010000022
Δθ用于衡量当前无人机的航校角度与无人机朝向目标点的角度差值:
Figure FDA0003690022010000023
(norm_dis8-1)表示无人机航向前方第8条雷达探测线是否探测到障碍物以及与障碍物之间的距离:
Figure FDA0003690022010000024
其中radius表示障碍物半径,综上,立即回报函数定义如下
Figure FDA0003690022010000025
其中,hit表示无人机与障碍物发生碰撞,at target表示无人机到达目标点;
(4)状态转移概率函数,状态转移概率函数用以描述四旋翼无人机在飞行场景中,由当前时刻状态选择某一动作转移到下一时刻状态的概率;
(5)折扣因子γ,折扣因子用于描述在无人机自主避障决策过程中,当前时刻飞行决策对未来立即回报函数的“重视程度”;
第二步,根据建模出的马尔科夫决策过程,选择深度Q学习算法,并确定算法流程,找到无人机环境感知与自主避障的最优解;
第三步,无人机环境感知与自主避障算法的复杂飞行场景设计,包括构建无人机模型,设计无人机对周围环境感知模型,然后将步骤一、二应用于无人机控制,实现无人机环境感知与自主避障。
2.如权利要求1所述的基于深度Q学习的无人机环境感知与自主避障方法,其特征是,深度Q学习算法流程如下:首先,进行无人机状态与神经网络参数的随机初始化;其次,根据神经网络对当前状态拟合出的多个Q值,以ε概率选择使Q值最大的动作,0<ε<1,以1-ε概率随机选择动作,执行完成动作之后,得到一个反馈值,到达一个新的状态,并把“当前状态-动作-反馈值-下一时刻状态”经验片段存储到经验池中;最后,循环该过程直到无人机到达目的地,过程中每隔一定次数的步骤之后对神经网络进行训练;
神经网络的训练过程如下:首先,神经网络从经验池中随机抽取经验片段并根据其中下一时刻状态,选择使其Q值最大的动作;其次,计算反馈值、下一时刻状态对应最大Q值与当前状态Q值差值的平方作为神经网络的反向误差;最后,为使反向传递误差最小,神经网络采用梯度下降算法对参数进行调整。
CN201910195250.8A 2019-03-14 2019-03-14 基于深度q学习的无人机环境感知与自主避障方法 Active CN109933086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910195250.8A CN109933086B (zh) 2019-03-14 2019-03-14 基于深度q学习的无人机环境感知与自主避障方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910195250.8A CN109933086B (zh) 2019-03-14 2019-03-14 基于深度q学习的无人机环境感知与自主避障方法

Publications (2)

Publication Number Publication Date
CN109933086A CN109933086A (zh) 2019-06-25
CN109933086B true CN109933086B (zh) 2022-08-30

Family

ID=66987310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910195250.8A Active CN109933086B (zh) 2019-03-14 2019-03-14 基于深度q学习的无人机环境感知与自主避障方法

Country Status (1)

Country Link
CN (1) CN109933086B (zh)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110488859B (zh) * 2019-07-15 2020-08-21 北京航空航天大学 一种基于改进Q-learning算法的无人机航路规划方法
CN110488861B (zh) * 2019-07-30 2020-08-28 北京邮电大学 基于深度强化学习的无人机轨迹优化方法、装置和无人机
CN110378439B (zh) * 2019-08-09 2021-03-30 重庆理工大学 基于Q-Learning算法的单机器人路径规划方法
CN110345948A (zh) * 2019-08-16 2019-10-18 重庆邮智机器人研究院有限公司 基于神经网络与q学习算法结合的动态避障方法
CN110806756B (zh) * 2019-09-10 2022-08-02 西北工业大学 基于ddpg的无人机自主引导控制方法
CN110596734B (zh) * 2019-09-17 2020-12-01 南京航空航天大学 一种基于多模态q学习的无人机定位干扰源***及方法
CN110716575A (zh) * 2019-09-29 2020-01-21 哈尔滨工程大学 基于深度双q网络强化学习的uuv实时避碰规划方法
CN110554707B (zh) * 2019-10-17 2022-09-30 陕西师范大学 一种飞行器姿态控制回路的q学习自动调参方法
CN110879610B (zh) * 2019-10-24 2021-08-13 北京航空航天大学 太阳能无人机自主寻优航迹规划的强化学习方法
CN112764423A (zh) * 2019-11-05 2021-05-07 上海为彪汽配制造有限公司 一种多旋翼无人机飞行轨迹的构建方法及***
CN110703766B (zh) * 2019-11-07 2022-01-11 南京航空航天大学 一种基于迁移学习策略深度q网络的无人机路径规划方法
CN112937564B (zh) * 2019-11-27 2022-09-02 魔门塔(苏州)科技有限公司 换道决策模型生成方法和无人车换道决策方法及装置
CN111123963B (zh) * 2019-12-19 2021-06-08 南京航空航天大学 基于强化学习的未知环境自主导航***及方法
CN111198568A (zh) * 2019-12-23 2020-05-26 燕山大学 一种基于q学习的水下机器人避障控制方法
CN110968102B (zh) * 2019-12-27 2022-08-26 东南大学 一种基于深度强化学习的多agent避碰方法
CN111260658B (zh) * 2020-01-10 2023-10-17 厦门大学 一种用于图像分割的深度强化学习方法
CN111473794B (zh) * 2020-04-01 2022-02-11 北京理工大学 一种基于强化学习的结构化道路无人驾驶决策规划方法
CN111487992A (zh) * 2020-04-22 2020-08-04 北京航空航天大学 基于深度强化学习的无人机感知与避障一体化方法及设备
US20220308598A1 (en) * 2020-04-30 2022-09-29 Rakuten Group, Inc. Learning device, information processing device, and learned control model
WO2021220467A1 (ja) * 2020-04-30 2021-11-04 楽天株式会社 学習装置、情報処理装置、及び学習済の制御モデル
CN111667513B (zh) * 2020-06-01 2022-02-18 西北工业大学 一种基于ddpg迁移学习的无人机机动目标跟踪方法
CN112036261A (zh) * 2020-08-11 2020-12-04 海尔优家智能科技(北京)有限公司 手势识别方法、装置、存储介质、电子装置
CN112148008B (zh) * 2020-09-18 2023-05-02 中国航空无线电电子研究所 一种基于深度强化学习的实时无人机路径预测方法
US11866070B2 (en) 2020-09-28 2024-01-09 Guangzhou Automobile Group Co., Ltd. Vehicle control method and apparatus, storage medium, and electronic device
CN112947562B (zh) * 2021-02-10 2021-11-30 西北工业大学 一种基于人工势场法和maddpg的多无人机运动规划方法
CN113232016A (zh) * 2021-04-13 2021-08-10 哈尔滨工业大学(威海) 一种强化学习与模糊避障融合的机械臂路径规划方法
CN113110547B (zh) * 2021-04-21 2022-06-07 吉林大学 一种微型航空飞行器的飞行控制方法、装置及设备
CN113298368B (zh) * 2021-05-14 2023-11-10 南京航空航天大学 一种基于深度强化学习的多无人机任务规划方法
CN114371720B (zh) * 2021-12-29 2023-09-29 国家电投集团贵州金元威宁能源股份有限公司 无人机实现跟踪目标的控制方法和控制装置
CN114578834B (zh) * 2022-05-09 2022-07-26 北京大学 基于目标分层双感知域的强化学习的无人车路径规划方法
CN115574816B (zh) * 2022-11-24 2023-03-14 东南大学 仿生视觉多源信息智能感知无人平台

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及***
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108388270A (zh) * 2018-03-21 2018-08-10 天津大学 面向安全域的集群无人机轨迹姿态协同控制方法
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017189859A1 (en) * 2016-04-27 2017-11-02 Neurala, Inc. Methods and apparatus for pruning experience memories for deep neural network-based q-learning
CN106970648B (zh) * 2017-04-19 2019-05-14 北京航空航天大学 城市低空环境下无人机多目标路径规划联合搜索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106595671A (zh) * 2017-02-22 2017-04-26 南方科技大学 一种基于强化学习的无人机路径规划方法和装置
CN107065890A (zh) * 2017-06-02 2017-08-18 北京航空航天大学 一种无人车智能避障方法及***
CN108255182A (zh) * 2018-01-30 2018-07-06 上海交通大学 一种基于深度强化学习的服务机器人行人感知避障方法
CN108388270A (zh) * 2018-03-21 2018-08-10 天津大学 面向安全域的集群无人机轨迹姿态协同控制方法
CN109032168A (zh) * 2018-05-07 2018-12-18 西安电子科技大学 一种基于dqn的多无人机协同区域监视的航路规划方法
CN109443366A (zh) * 2018-12-20 2019-03-08 北京航空航天大学 一种基于改进q学习算法的无人机群路径规划方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于深度Q值网络的自动小车控制方法;王立群 等;《电子测量技术》;20171130;第40卷(第11期);第226-229页 *
基于马尔可夫网络排队论的电梯交通建模及应用;宗群 等;《天津大学学报》;20050131;第38卷(第1期);第9-13页 *
王立群 等.基于深度Q值网络的自动小车控制方法.《电子测量技术》.2017,第40卷(第11期), *
面向智能避障场景的深度强化学习研究;刘庆杰 等;《智能物联技术》;20180930;第1卷(第2期);第18-22页 *

Also Published As

Publication number Publication date
CN109933086A (zh) 2019-06-25

Similar Documents

Publication Publication Date Title
CN109933086B (zh) 基于深度q学习的无人机环境感知与自主避障方法
CN110673637B (zh) 一种基于深度强化学习的无人机伪路径规划的方法
CN105892489B (zh) 一种基于多传感器融合的自主避障无人机***及控制方法
CN108897312B (zh) 多无人飞行器对大规模环境的持续监控路径规划方法
CN112684807A (zh) 无人机集群三维编队方法
CN109521794A (zh) 一种多无人机航路规划及动态避障方法
CN111950873B (zh) 基于深度强化学习的卫星实时引导任务规划方法及***
CN106094569A (zh) 多传感器融合无人机感知与规避仿真***及其仿真方法
CN105759829A (zh) 基于激光雷达的微型无人机操控方法及***
CN110362083A (zh) 一种基于多目标跟踪预测的时空地图下自主导航方法
CN109358638A (zh) 基于分布式地图的无人机视觉避障方法
CN107065929A (zh) 一种无人机环绕飞行方法及***
CN112378397B (zh) 无人机跟踪目标的方法、装置及无人机
CN111665508B (zh) 直升机载地形跟随与回避可视化导航***以及导航方法
US20210325891A1 (en) Graph construction and execution ml techniques
CN112379681A (zh) 无人机避障飞行方法、装置及无人机
CN112596071A (zh) 无人机自主定位方法、装置及无人机
Lawrance et al. Long endurance autonomous flight for unmanned aerial vehicles
CN110793522B (zh) 一种基于蚁群算法的航迹规划方法
Fragoso et al. Dynamically feasible motion planning for micro air vehicles using an egocylinder
CN112380933B (zh) 无人机识别目标的方法、装置及无人机
Zhao et al. Autonomous exploration method for fast unknown environment mapping by using UAV equipped with limited FOV sensor
CN110907945A (zh) 一种兼顾无人机室内外飞行的定位方法
Yang et al. Optimization of dynamic obstacle avoidance path of multirotor UAV based on ant colony algorithm
Fei et al. Deep-reinforcement-learning-based UAV autonomous navigation and collision avoidance in unknown environments

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant