CN115494732A - 一种基于近端策略优化的无人机轨迹设计和功率分配方法 - Google Patents

一种基于近端策略优化的无人机轨迹设计和功率分配方法 Download PDF

Info

Publication number
CN115494732A
CN115494732A CN202211194735.3A CN202211194735A CN115494732A CN 115494732 A CN115494732 A CN 115494732A CN 202211194735 A CN202211194735 A CN 202211194735A CN 115494732 A CN115494732 A CN 115494732A
Authority
CN
China
Prior art keywords
unmanned aerial
aerial vehicle
preset
network
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211194735.3A
Other languages
English (en)
Other versions
CN115494732B (zh
Inventor
陆元媛
颜志
欧阳博
刘经纶
毛建旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202211194735.3A priority Critical patent/CN115494732B/zh
Publication of CN115494732A publication Critical patent/CN115494732A/zh
Application granted granted Critical
Publication of CN115494732B publication Critical patent/CN115494732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于近端策略优化的无人机轨迹设计和功率分配方法,包括获取当前环境状态;根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的随机变量,选择动作并保存动作选取概率,当动作超过预设的加速度上限时,作出相应调整;当执行更新后的动作违反约束条件时,则作出相应调整;各用户随机移动至新的位置,计算***中断概率和当前无人机消耗的能量,进而获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当数据足够时,对算法网络进行训练并更新网络的参数;当无人机的能量耗尽时累加迭代次数,当迭代次数超过预设的迭代次数阈值,算法结束,完成无人机轨迹设计和功率分配。

Description

一种基于近端策略优化的无人机轨迹设计和功率分配方法
技术领域
本发明属于无人机通信技术领域,特别是涉及一种基于近端策略优化的无人机轨迹设计和功率分配方法。
背景技术
无人机(UAV,UnmannedAerial Vehicle)以其可控性高,灵活性强的特点,在各个领域都能代替人类完成一些特定的任务。在无线通信领域,UAV可以作为空中基站和飞行中继,为地面用户提供快速可靠的通信连接。在偏远地区,可能因为尚未建造通信设施,或者在城市地区因为通信设施受损,地面用户难以与其他地区的基站建立直连通信链路。此时,UAV可以作为中继以维持基站与地面移动用户的通信。而为了向动态地面用户提供无处不在的服务,UAV需要稳健的策略来优化其飞行轨迹。
UAV辅助通信受到越来越多的关注。在UAV作为空中中继时,有研究者提出UAV作为中继维持移动源节点和远程目标节点之间的通信,提出主动优化算法来联合优化功率分配和三维轨迹。在UAV作为空中基站时,有研究者提出UAV空中基站布局策略,找到空中基站的最佳位置以提供更可靠的连接和服务质量。在规划UAV轨迹方面,有研究者使用凸优化,逐次凸逼近等非机器学习方法得出UAV的最优轨迹。考虑到无人机轨迹设计和资源分配联合优化问题的非凸性,有研究者使用DQN(Deep Q-Network)、深度确定性策略梯度(DDPG,DeepDeterministic Policy Gradient)算法和DDQN(Double Deep Q-Network)算法等机器学习方法,解决在多用户的场景下,无人机轨迹设计和资源分配的联合优化问题。
然而,目前大部分研究关注与UAV向单用户、静止的多用户或轨迹固定的移动用户服务,并且未考虑到无法获取用户准确位置信息的情形。而在实际情况中,UAV向单用户提供服务会造成巨大开销,且地面用户移动时随机性很强,在某些地区全球定位***信号较弱时,UAV也可能会无法获取用户的准确位置信息。
发明内容
针对以上技术问题,本发明提供一种基于近端策略优化的无人机轨迹设计和功率分配方法。
本发明解决其技术问题采用的技术方案是:
一种基于近端策略优化的无人机轨迹设计和功率分配方法,方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态;
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从随机变量中采样出一个动作,保存动作选取概率,动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作;
S300:判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行;
S400:更新各用户位置,进入新的环境状态,根据新的环境状态和无人机的发射功率计算***中断概率和当前无人机消耗的能量;
S500:根据***的中断概率和当前无人机消耗的能量获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空预设的缓冲区中的数据;
S600:根据当前无人机消耗的能量和无人机电池总能量判断无人机能量是否耗尽,当无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
优选地,S200中当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
Figure BDA0003870531080000021
Figure BDA0003870531080000022
其中,
Figure BDA0003870531080000023
表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
优选地,当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据无人机的当前时隙速度和无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
Figure BDA0003870531080000031
S320:根据无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
Figure BDA0003870531080000032
Figure BDA0003870531080000033
其中,
Figure BDA0003870531080000034
Figure BDA0003870531080000035
分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且
Figure BDA0003870531080000036
δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
优选地,S400包括:
S410:更新各用户位置,进入新的环境状态,新的环境状态包括更新后的用户位置、基站的位置、无人机的更新后的位置和无人机更新后的速度,根据更新后的用户位置、基站的位置、无人机的更新后的位置和无人机的发射功率使用如下公式计算***的中断概率:
Figure BDA0003870531080000037
n=1,2,3,…,N
其中,
Figure BDA0003870531080000038
表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;
Figure BDA0003870531080000039
Figure BDA00038705310800000310
分别表示基站到无人机、无人机到用户n的距离;
Figure BDA00038705310800000311
Figure BDA00038705310800000312
分别表示基站和无人机的发射功率;
Figure BDA00038705310800000313
Figure BDA00038705310800000314
分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
Figure BDA0003870531080000041
Figure BDA0003870531080000042
其中,
Figure BDA0003870531080000043
表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且
Figure BDA0003870531080000044
Cblade表示与转子叶片几何形状相关的阻力系数。
优选地,S500中根据***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据***的中断概率计算与中断概率最小化相关的奖励
Figure BDA0003870531080000045
Figure BDA0003870531080000046
Figure BDA0003870531080000047
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励
Figure BDA0003870531080000048
在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据当前无人机消耗的能量计算与能耗最小化相关的奖励
Figure BDA0003870531080000049
Figure BDA00038705310800000410
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励
Figure BDA00038705310800000411
在总的奖励中所占比例;
S530:根据无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
Figure BDA00038705310800000412
Figure BDA0003870531080000051
其中,
Figure BDA0003870531080000052
是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,
Figure BDA0003870531080000053
否则,
Figure BDA0003870531080000054
ξacc是一个负系数,用于调整奖励
Figure BDA0003870531080000055
在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
Figure BDA0003870531080000056
Figure BDA0003870531080000057
其中,
Figure BDA0003870531080000058
是一个二进制数,当无人机超出预设的移动区域边界时,
Figure BDA0003870531080000059
否则,
Figure BDA00038705310800000510
ξbd是一个负系数,用于调整奖励
Figure BDA00038705310800000511
在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
优选地,S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
Figure BDA00038705310800000512
Figure BDA00038705310800000513
其中,
Figure BDA00038705310800000514
表示第k个时隙的奖励期望;
Figure BDA00038705310800000515
表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
Figure BDA00038705310800000516
其中,Se是策略模型的熵,
Figure BDA00038705310800000517
是策略梯度目标函数,
Figure BDA00038705310800000518
是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,
Figure BDA00038705310800000519
Figure BDA00038705310800000520
可用如下公式计算:
Figure BDA0003870531080000061
Figure BDA0003870531080000062
Figure BDA0003870531080000063
其中,
Figure BDA0003870531080000064
表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化
Figure BDA0003870531080000065
更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
优选地,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
优选地,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
优选地,S100之前还包括:
创建无人机和N个用户的移动范围,设立基站;
创建预设的PPO算法网络,预设的PPO算法网络包括策略网络和评估网络,初始化预设的PPO算法网络参数和预设的缓冲区。
上述一种基于近端策略优化的无人机轨迹设计和功率分配方法,支持多个地面用户随机移动,支持无人机无法获取用户准确位置的情形,预设的PPO算法网络中的策略相比其他算法收敛更快,稳定性更高,且有更好的节能效果和更高的通信可靠性,大大提升了无人机应急通信***的稳定性和通信可靠性,可以降低无人机能耗,大大降低了应急***中的能源开销。
附图说明
图1为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的流程图;
图2为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的完整的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
在一个实施例中,如图1所示,一种基于近端策略优化的无人机轨迹设计和功率分配方法,方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态。
进一步地,如图2所示,S100之前还包括:创建无人机和N个用户的移动范围,设立基站;创建预设的PPO算法网络,预设的PPO算法网络包括策略网络和评估网络,初始化预设的PPO算法网络参数和预设的缓冲区。
具体地,各部分的位置用在笛卡尔坐标系中的坐标表示。策略网络用于输出动作的均值,评估网络用于计算状态的价值。当前环境状态包括基站位置,各用户的位置,无人机的位置和速度,即:
Figure BDA0003870531080000071
其中k表示第k个时隙。
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从随机变量中采样出一个动作,保存动作选取概率,动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作。
具体地,以策略网络输出值为均值,标准差
Figure BDA0003870531080000074
人为设定,构建一个服从高斯分布的动作值作为随机变量,从该随机变量中采样出一个值ak,作用到环境中,选取动作ak的概率为
Figure BDA0003870531080000072
其中,动作包括无人机三个方向上的加速度和无人机的发射功率,即
Figure BDA0003870531080000073
Figure BDA0003870531080000075
随网络更新频率衰减,从最大值
Figure BDA0003870531080000076
衰减至最小值
Figure BDA0003870531080000081
衰减因子为
Figure BDA0003870531080000082
Figure BDA0003870531080000083
在一个实施例中,S200中当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
Figure BDA0003870531080000084
Figure BDA0003870531080000085
其中,
Figure BDA0003870531080000086
表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
S300:判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行。
在一个实施例中,当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据无人机的当前时隙速度和无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
Figure BDA0003870531080000087
S320:根据无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
Figure BDA0003870531080000088
Figure BDA0003870531080000089
其中,
Figure BDA00038705310800000810
Figure BDA00038705310800000811
分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且
Figure BDA00038705310800000812
δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
S400:更新各用户位置,进入新的环境状态,根据新的环境状态和无人机的发射功率计算***中断概率和当前无人机消耗的能量。
具体地,各用户随机移动至新的位置,计算***中断概率(使用中断概率评估通信可靠性,中断概率越小,可靠性越高)和第k个时隙中无人机消耗的能量。
在一个实施例中,S400包括:
S410:更新各用户位置,进入新的环境状态,新的环境状态包括更新后的用户位置、基站的位置、无人机的更新后的位置和无人机更新后的速度,根据更新后的用户位置、基站的位置、无人机的更新后的位置和无人机的发射功率使用如下公式计算***的中断概率:
Figure BDA0003870531080000091
n=1,2,3,…,N
其中,
Figure BDA0003870531080000092
表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;
Figure BDA0003870531080000093
Figure BDA0003870531080000094
分别表示基站到无人机、无人机到用户n的距离;
Figure BDA0003870531080000095
Figure BDA0003870531080000096
分别表示基站和无人机的发射功率;
Figure BDA0003870531080000097
Figure BDA0003870531080000098
分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
Figure BDA0003870531080000099
Figure BDA00038705310800000910
其中,
Figure BDA00038705310800000911
表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且
Figure BDA00038705310800000912
Cblade表示与转子叶片几何形状相关的阻力系数。
S500:根据***的中断概率和当前无人机消耗的能量获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空预设的缓冲区中的数据。
在一个实施例中,S500中根据***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据***的中断概率计算与中断概率最小化相关的奖励
Figure BDA0003870531080000101
Figure BDA0003870531080000102
Figure BDA0003870531080000103
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励
Figure BDA0003870531080000104
在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据当前无人机消耗的能量计算与能耗最小化相关的奖励
Figure BDA0003870531080000105
Figure BDA0003870531080000106
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励
Figure BDA0003870531080000107
在总的奖励中所占比例;
S530:根据无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
Figure BDA0003870531080000108
Figure BDA0003870531080000109
其中,
Figure BDA00038705310800001010
是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,
Figure BDA00038705310800001011
否则,
Figure BDA00038705310800001012
ξacc是一个负系数,用于调整奖励
Figure BDA00038705310800001013
在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
Figure BDA00038705310800001014
Figure BDA00038705310800001015
其中,
Figure BDA0003870531080000111
是一个二进制数,当无人机超出预设的移动区域边界时,
Figure BDA0003870531080000112
否则,
Figure BDA0003870531080000113
ξbd是一个负系数,用于调整奖励
Figure BDA0003870531080000114
在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
具体地,根据无人机上一时隙的位置和加速度算出无人机当前时隙的位置,从而得到无人机的实时位置。
在一个实施例中,S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
Figure BDA0003870531080000115
Figure BDA0003870531080000116
其中,
Figure BDA0003870531080000117
表示第k个时隙的奖励期望;
Figure BDA0003870531080000118
表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
Figure BDA0003870531080000119
其中,Se是策略模型的熵,
Figure BDA00038705310800001110
是策略梯度目标函数,
Figure BDA00038705310800001111
是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,
Figure BDA00038705310800001112
Figure BDA00038705310800001113
可用如下公式计算:
Figure BDA00038705310800001114
Figure BDA00038705310800001115
Figure BDA00038705310800001116
其中,
Figure BDA00038705310800001117
表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化
Figure BDA0003870531080000121
更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
在一个实施例中,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
S600:根据当前无人机消耗的能量和无人机电池总能量判断无人机能量是否耗尽,当无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
在一个实施例中,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
S600得到无人机轨迹设计和功率分配方案后,在尚未建立通信设施的偏远地区或者通信设施损坏的城市地区完成应急通信。
区别于现有的无人机轨迹设计和功率分配策略,本发明最有收益的效果在于:支持多个地面用户随机移动,支持无人机无法获取用户准确位置的情形。且该策略以PPO算法为基础,经其他研究者证明,PPO算法相比于DDPG,Actor-Critic等算法更易于实现且更加稳定。该策略相比其他算法收敛更快,稳定性更高,且有更好的节能效果和更高的通信可靠性。大大提升了无人机应急通信***的稳定性和通信可靠性。该策略可以降低无人机能耗,大大降低了应急***中的能源开销。
以上对本发明所提供的一种基于近端策略优化的无人机轨迹设计和功率分配方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种基于近端策略优化的无人机轨迹设计和功率分配方法,其特征在于,所述方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态;
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从所述随机变量中采样出一个动作,保存动作选取概率,所述动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断所述动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作;
S300:判断所述无人机执行所述更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行;
S400:更新各用户位置,进入新的环境状态,根据所述新的环境状态和所述无人机的发射功率计算***中断概率和当前无人机消耗的能量;
S500:根据所述***的中断概率和当前无人机消耗的能量获取奖励,将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空所述预设的缓冲区中的数据;
S600:根据所述当前无人机消耗的能量和所述无人机电池总能量判断无人机能量是否耗尽,当所述无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
2.根据权利要求1中所述的方法,其特征在于,S200中当判断所述动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
Figure FDA0003870531070000011
Figure FDA0003870531070000012
其中,
Figure FDA0003870531070000013
表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
3.根据权利要求2中所述的方法,其特征在于,所述当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据所述无人机的当前时隙速度和所述无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
Figure FDA0003870531070000021
S320:根据所述无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行所述更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
Figure FDA0003870531070000022
Figure FDA0003870531070000023
其中,
Figure FDA0003870531070000024
Figure FDA0003870531070000025
分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且
Figure FDA0003870531070000026
δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行所述再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
4.根据权利要求3中所述的方法,其特征在于,S400包括:
S410:更新各用户位置,进入新的环境状态,所述新的环境状态包括更新后的用户位置、所述基站的位置、无人机的更新后的位置和无人机更新后的速度,根据所述更新后的用户位置、所述基站的位置、所述无人机的更新后的位置和所述无人机的发射功率使用如下公式计算***的中断概率:
Figure FDA0003870531070000027
其中,
Figure FDA0003870531070000028
表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;
Figure FDA0003870531070000029
Figure FDA00038705310700000210
分别表示基站到无人机、无人机到用户n的距离;
Figure FDA00038705310700000211
Figure FDA00038705310700000212
分别表示基站和无人机的发射功率;
Figure FDA00038705310700000213
Figure FDA00038705310700000214
分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据所述无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
Figure FDA0003870531070000031
Figure FDA0003870531070000032
其中,
Figure FDA0003870531070000033
表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且
Figure FDA0003870531070000034
Cblade表示与转子叶片几何形状相关的阻力系数。
5.根据权利要求4所述的方法,其特征在于,S500中根据所述***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据所述***的中断概率计算与中断概率最小化相关的奖励
Figure FDA0003870531070000035
Figure FDA0003870531070000036
Figure FDA0003870531070000037
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励
Figure FDA0003870531070000038
在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据所述当前无人机消耗的能量计算与能耗最小化相关的奖励
Figure FDA0003870531070000039
Figure FDA00038705310700000310
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励
Figure FDA00038705310700000311
在总的奖励中所占比例;
S530:根据所述无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
Figure FDA0003870531070000041
Figure FDA0003870531070000042
其中,
Figure FDA0003870531070000043
是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,
Figure FDA0003870531070000044
否则,
Figure FDA0003870531070000045
ξacc是一个负系数,用于调整奖励
Figure FDA0003870531070000046
在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
Figure FDA0003870531070000047
Figure FDA0003870531070000048
其中,
Figure FDA0003870531070000049
是一个二进制数,当无人机超出预设的移动区域边界时,
Figure FDA00038705310700000410
否则,
Figure FDA00038705310700000411
ξbd是一个负系数,用于调整奖励
Figure FDA00038705310700000412
在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
6.根据权利要求5所述的方法,其特征在于,S500中将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
Figure FDA00038705310700000413
Figure FDA00038705310700000414
其中,
Figure FDA00038705310700000415
表示第k个时隙的奖励期望;
Figure FDA00038705310700000416
表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
Figure FDA00038705310700000417
其中,Se是策略模型的熵,
Figure FDA00038705310700000418
是策略梯度目标函数,
Figure FDA00038705310700000419
是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,
Figure FDA0003870531070000051
Figure FDA0003870531070000052
可用如下公式计算:
Figure FDA0003870531070000053
Figure FDA0003870531070000054
Figure FDA0003870531070000055
其中,
Figure FDA0003870531070000056
表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化
Figure FDA0003870531070000057
更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
7.根据权利要求1所述的方法,其特征在于,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
8.根据权利要求1所述的方法,其特征在于,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
9.根据权利要求1所述的方法,其特征在于,S100之前还包括:
创建无人机和N个用户的移动范围,设立基站;
创建预设的PPO算法网络,所述预设的PPO算法网络包括策略网络和评估网络,初始化所述预设的PPO算法网络参数和预设的缓冲区。
CN202211194735.3A 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法 Active CN115494732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211194735.3A CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211194735.3A CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Publications (2)

Publication Number Publication Date
CN115494732A true CN115494732A (zh) 2022-12-20
CN115494732B CN115494732B (zh) 2024-04-12

Family

ID=84471828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211194735.3A Active CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Country Status (1)

Country Link
CN (1) CN115494732B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116009590A (zh) * 2023-02-01 2023-04-25 中山大学 无人机网络分布式轨迹规划方法、***、设备及介质
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
JP2020035159A (ja) * 2018-08-29 2020-03-05 ファナック株式会社 パラメータ調整装置
CN111123953A (zh) * 2020-01-09 2020-05-08 哈尔滨工程大学 人工智能大数据下粒子化移动机器人组及其控制方法
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN113189875A (zh) * 2021-04-29 2021-07-30 湖南大学 一种基于圆形特征的无人机在移动平台上鲁棒着陆方法
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
JP2020035159A (ja) * 2018-08-29 2020-03-05 ファナック株式会社 パラメータ調整装置
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment
US20210165405A1 (en) * 2019-12-03 2021-06-03 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN111123953A (zh) * 2020-01-09 2020-05-08 哈尔滨工程大学 人工智能大数据下粒子化移动机器人组及其控制方法
US20220004191A1 (en) * 2020-07-01 2022-01-06 Wuhan University Of Technology Usv formation path-following method based on deep reinforcement learning
CN113189875A (zh) * 2021-04-29 2021-07-30 湖南大学 一种基于圆形特征的无人机在移动平台上鲁棒着陆方法
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YAN, Z.; HAN, L.; LI, X.; LI, J.; REN, Z.: "Event-Triggered Optimal Formation Tracking Control Using Reinforcement Learning for Large-Scale UAV Systems", IEEE INTERNATIONAL CONFERENCE ON ROBOTICS AND AUTOMATION (ICRA), 20 July 2023 (2023-07-20) *
顾江涛;胡新平;: "基于深度强化学习的无人机飞行路线规划", 计算机与数字工程, no. 06, 20 June 2020 (2020-06-20) *
颜志,易正伦,欧阳博,王耀南: "无人机集群联合拓扑控制的智能路由规划方法", 通信学报, 26 February 2024 (2024-02-26) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116009590A (zh) * 2023-02-01 2023-04-25 中山大学 无人机网络分布式轨迹规划方法、***、设备及介质
CN116009590B (zh) * 2023-02-01 2023-11-17 中山大学 无人机网络分布式轨迹规划方法、***、设备及介质
CN116736729A (zh) * 2023-08-14 2023-09-12 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法
CN116736729B (zh) * 2023-08-14 2023-10-27 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Also Published As

Publication number Publication date
CN115494732B (zh) 2024-04-12

Similar Documents

Publication Publication Date Title
CN115494732A (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN113162679B (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
Bayerlein et al. Trajectory optimization for autonomous flying base station via reinforcement learning
WO2020015214A1 (zh) 一种基于无人机的无线信息和能量传输的优化方法
CN112902969B (zh) 一种无人机在数据收集过程中的路径规划方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN113255218A (zh) 无线自供电通信网络的无人机自主导航及资源调度方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN115037751B (zh) 一种无人机辅助的异构车联网任务迁移与资源分配方法
Zhou et al. QoE-driven adaptive deployment strategy of multi-UAV networks based on hybrid deep reinforcement learning
CN113377131B (zh) 一种使用强化学习获得无人机收集数据轨迹的方法
CN113034981B (zh) 一种不确定信道环境中多中继无人机航迹规划方法、***及存储介质
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN117499867A (zh) 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法
CN113382060B (zh) 一种物联网数据收集中的无人机轨迹优化方法及***
Cui et al. Joint trajectory and power optimization for energy efficient UAV communication using deep reinforcement learning
CN116704823B (zh) 基于强化学习的无人机智能轨迹规划和通感资源分配方法
CN117580105A (zh) 一种面向电网巡检的无人机任务卸载优化方法
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN117858015A (zh) 基于深度强化学习的空中边缘计算数据安全传输及资源分配方法
Gao et al. Multi-UAV assisted offloading optimization: A game combined reinforcement learning approach
CN112566209A (zh) 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN116009590B (zh) 无人机网络分布式轨迹规划方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant