CN115494732B - 一种基于近端策略优化的无人机轨迹设计和功率分配方法 - Google Patents

一种基于近端策略优化的无人机轨迹设计和功率分配方法 Download PDF

Info

Publication number
CN115494732B
CN115494732B CN202211194735.3A CN202211194735A CN115494732B CN 115494732 B CN115494732 B CN 115494732B CN 202211194735 A CN202211194735 A CN 202211194735A CN 115494732 B CN115494732 B CN 115494732B
Authority
CN
China
Prior art keywords
aerial vehicle
unmanned aerial
preset
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211194735.3A
Other languages
English (en)
Other versions
CN115494732A (zh
Inventor
陆元媛
颜志
欧阳博
刘经纶
毛建旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202211194735.3A priority Critical patent/CN115494732B/zh
Publication of CN115494732A publication Critical patent/CN115494732A/zh
Application granted granted Critical
Publication of CN115494732B publication Critical patent/CN115494732B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B13/00Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
    • G05B13/02Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
    • G05B13/04Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
    • G05B13/042Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于近端策略优化的无人机轨迹设计和功率分配方法,包括获取当前环境状态;根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的随机变量,选择动作并保存动作选取概率,当动作超过预设的加速度上限时,作出相应调整;当执行更新后的动作违反约束条件时,则作出相应调整;各用户随机移动至新的位置,计算***中断概率和当前无人机消耗的能量,进而获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当数据足够时,对算法网络进行训练并更新网络的参数;当无人机的能量耗尽时累加迭代次数,当迭代次数超过预设的迭代次数阈值,算法结束,完成无人机轨迹设计和功率分配。

Description

一种基于近端策略优化的无人机轨迹设计和功率分配方法
技术领域
本发明属于无人机通信技术领域,特别是涉及一种基于近端策略优化的无人机轨迹设计和功率分配方法。
背景技术
无人机(UAV,UnmannedAerial Vehicle)以其可控性高,灵活性强的特点,在各个领域都能代替人类完成一些特定的任务。在无线通信领域,UAV可以作为空中基站和飞行中继,为地面用户提供快速可靠的通信连接。在偏远地区,可能因为尚未建造通信设施,或者在城市地区因为通信设施受损,地面用户难以与其他地区的基站建立直连通信链路。此时,UAV可以作为中继以维持基站与地面移动用户的通信。而为了向动态地面用户提供无处不在的服务,UAV需要稳健的策略来优化其飞行轨迹。
UAV辅助通信受到越来越多的关注。在UAV作为空中中继时,有研究者提出UAV作为中继维持移动源节点和远程目标节点之间的通信,提出主动优化算法来联合优化功率分配和三维轨迹。在UAV作为空中基站时,有研究者提出UAV空中基站布局策略,找到空中基站的最佳位置以提供更可靠的连接和服务质量。在规划UAV轨迹方面,有研究者使用凸优化,逐次凸逼近等非机器学习方法得出UAV的最优轨迹。考虑到无人机轨迹设计和资源分配联合优化问题的非凸性,有研究者使用DQN(Deep Q-Network)、深度确定性策略梯度(DDPG,DeepDeterministic Policy Gradient)算法和DDQN(Double Deep Q-Network)算法等机器学习方法,解决在多用户的场景下,无人机轨迹设计和资源分配的联合优化问题。
然而,目前大部分研究关注与UAV向单用户、静止的多用户或轨迹固定的移动用户服务,并且未考虑到无法获取用户准确位置信息的情形。而在实际情况中,UAV向单用户提供服务会造成巨大开销,且地面用户移动时随机性很强,在某些地区全球定位***信号较弱时,UAV也可能会无法获取用户的准确位置信息。
发明内容
针对以上技术问题,本发明提供一种基于近端策略优化的无人机轨迹设计和功率分配方法。
本发明解决其技术问题采用的技术方案是:
一种基于近端策略优化的无人机轨迹设计和功率分配方法,方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态;
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从随机变量中采样出一个动作,保存动作选取概率,动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作;
S300:判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行;
S400:更新各用户位置,进入新的环境状态,根据新的环境状态和无人机的发射功率计算***中断概率和当前无人机消耗的能量;
S500:根据***的中断概率和当前无人机消耗的能量获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空预设的缓冲区中的数据;
S600:根据当前无人机消耗的能量和无人机电池总能量判断无人机能量是否耗尽,当无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
优选地,S200中当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
则/>
其中,表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
优选地,当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据无人机的当前时隙速度和无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
S320:根据无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
则/>
其中,和/>分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
优选地,S400包括:
S410:更新各用户位置,进入新的环境状态,新的环境状态包括更新后的用户位置、基站的位置、无人机的更新后的位置和无人机更新后的速度,根据更新后的用户位置、基站的位置、无人机的更新后的位置和无人机的发射功率使用如下公式计算***的中断概率:
n=1,2,3,…,N
其中,表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;/>和/>分别表示基站到无人机、无人机到用户n的距离;/>和/>分别表示基站和无人机的发射功率;/>分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
其中,表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且/>Cblade表示与转子叶片几何形状相关的阻力系数。
优选地,S500中根据***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据***的中断概率计算与中断概率最小化相关的奖励
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据当前无人机消耗的能量计算与能耗最小化相关的奖励
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励在总的奖励中所占比例;
S530:根据无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
其中,是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,/>否则,/>ξacc是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
其中,是一个二进制数,当无人机超出预设的移动区域边界时,/>否则,/>ξbd是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
优选地,S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
其中,表示第k个时隙的奖励期望;/>表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
其中,Se是策略模型的熵,是策略梯度目标函数,/>是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,/>和/>可用如下公式计算:
其中,表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
优选地,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
优选地,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
优选地,S100之前还包括:
创建无人机和N个用户的移动范围,设立基站;
创建预设的PPO算法网络,预设的PPO算法网络包括策略网络和评估网络,初始化预设的PPO算法网络参数和预设的缓冲区。
上述一种基于近端策略优化的无人机轨迹设计和功率分配方法,支持多个地面用户随机移动,支持无人机无法获取用户准确位置的情形,预设的PPO算法网络中的策略相比其他算法收敛更快,稳定性更高,且有更好的节能效果和更高的通信可靠性,大大提升了无人机应急通信***的稳定性和通信可靠性,可以降低无人机能耗,大大降低了应急***中的能源开销。
附图说明
图1为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的流程图;
图2为本发明一实施例中一种基于近端策略优化的无人机轨迹设计和功率分配方法的完整的流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明的技术方案,下面结合附图对本发明作进一步的详细说明。
在一个实施例中,如图1所示,一种基于近端策略优化的无人机轨迹设计和功率分配方法,方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态。
进一步地,如图2所示,S100之前还包括:创建无人机和N个用户的移动范围,设立基站;创建预设的PPO算法网络,预设的PPO算法网络包括策略网络和评估网络,初始化预设的PPO算法网络参数和预设的缓冲区。
具体地,各部分的位置用在笛卡尔坐标系中的坐标表示。策略网络用于输出动作的均值,评估网络用于计算状态的价值。当前环境状态包括基站位置,各用户的位置,无人机的位置和速度,即:
其中k表示第k个时隙。
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从随机变量中采样出一个动作,保存动作选取概率,动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作。
具体地,以策略网络输出值为均值,标准差人为设定,构建一个服从高斯分布的动作值作为随机变量,从该随机变量中采样出一个值ak,作用到环境中,选取动作ak的概率为/>其中,动作包括无人机三个方向上的加速度和无人机的发射功率,即 随网络更新频率衰减,从最大值/>衰减至最小值衰减因子为/>即/>
在一个实施例中,S200中当判断动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
则/>
其中,表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
S300:判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行。
在一个实施例中,当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据无人机的当前时隙速度和无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
S320:根据无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
则/>
其中,和/>分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
S400:更新各用户位置,进入新的环境状态,根据新的环境状态和无人机的发射功率计算***中断概率和当前无人机消耗的能量。
具体地,各用户随机移动至新的位置,计算***中断概率(使用中断概率评估通信可靠性,中断概率越小,可靠性越高)和第k个时隙中无人机消耗的能量。
在一个实施例中,S400包括:
S410:更新各用户位置,进入新的环境状态,新的环境状态包括更新后的用户位置、基站的位置、无人机的更新后的位置和无人机更新后的速度,根据更新后的用户位置、基站的位置、无人机的更新后的位置和无人机的发射功率使用如下公式计算***的中断概率:
n=1,2,3,…,N
其中,表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;/>和/>分别表示基站到无人机、无人机到用户n的距离;/>和/>分别表示基站和无人机的发射功率;/>分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
其中,表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且/>Cblade表示与转子叶片几何形状相关的阻力系数。
S500:根据***的中断概率和当前无人机消耗的能量获取奖励,将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空预设的缓冲区中的数据。
在一个实施例中,S500中根据***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据***的中断概率计算与中断概率最小化相关的奖励
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据当前无人机消耗的能量计算与能耗最小化相关的奖励
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励在总的奖励中所占比例;
S530:根据无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
其中,是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,/>否则,/>ξacc是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
其中,是一个二进制数,当无人机超出预设的移动区域边界时,/>否则,/>ξbd是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
具体地,根据无人机上一时隙的位置和加速度算出无人机当前时隙的位置,从而得到无人机的实时位置。
在一个实施例中,S500中将当前环境状态、动作、动作选取概率和奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
其中,表示第k个时隙的奖励期望;/>表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
其中,Se是策略模型的熵,是策略梯度目标函数,/>是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,/>和/>可用如下公式计算:
其中,表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
在一个实施例中,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
S600:根据当前无人机消耗的能量和无人机电池总能量判断无人机能量是否耗尽,当无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
在一个实施例中,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
S600得到无人机轨迹设计和功率分配方案后,在尚未建立通信设施的偏远地区或者通信设施损坏的城市地区完成应急通信。
区别于现有的无人机轨迹设计和功率分配策略,本发明最有收益的效果在于:支持多个地面用户随机移动,支持无人机无法获取用户准确位置的情形。且该策略以PPO算法为基础,经其他研究者证明,PPO算法相比于DDPG,Actor-Critic等算法更易于实现且更加稳定。该策略相比其他算法收敛更快,稳定性更高,且有更好的节能效果和更高的通信可靠性。大大提升了无人机应急通信***的稳定性和通信可靠性。该策略可以降低无人机能耗,大大降低了应急***中的能源开销。
以上对本发明所提供的一种基于近端策略优化的无人机轨迹设计和功率分配方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种基于近端策略优化的无人机轨迹设计和功率分配方法,其特征在于,所述方法包括以下步骤:
S100:初始化无人机、基站、各用户的初始位置、无人机的初始速度和无人机电池总能量;获取当前环境状态;
S200:根据标准差以及预设的PPO算法网络中策略网络输出的均值构建服从高斯分布的动作值作为随机变量,通过采样函数从所述随机变量中采样出一个动作,保存动作选取概率,所述动作中包括无人机在三个方向上的加速度矢量和无人机的发射功率,当判断所述动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作;
S300:判断所述无人机执行所述更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作并执行;
S400:更新各用户位置,进入新的环境状态,根据所述新的环境状态和所述无人机的发射功率计算***中断概率和当前无人机消耗的能量;
S500:根据所述***的中断概率和当前无人机消耗的能量获取奖励,将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据达到预设的数据阈值时,对预设的PPO算法网络进行训练并更新网络的参数,并清空所述预设的缓冲区中的数据;
S600:根据所述当前无人机消耗的能量和所述无人机电池总能量判断无人机能量是否耗尽,当所述无人机的能量耗尽时,累加迭代次数,判断是否超过预设的迭代次数阈值,若是,则达到预设的结束条件,完成无人机中继***中的轨迹设计和功率分配。
2.根据权利要求1中所述的方法,其特征在于,S200中当判断所述动作中加速度超过预设的加速度上限时,根据预设的第一动作更新函数调整得到更新后的动作,具体为:
则/>
其中,表示无人机在三个方向上的加速度,amax表示预设的加速度上限。
3.根据权利要求2中所述的方法,其特征在于,所述当前环境状态中包括无人机的当前时隙的速度,S300包括:
S310:根据所述无人机的当前时隙速度和所述无人机在三个方向上的当前时隙的加速度计算无人机的下一时隙的速度:
S320:根据所述无人机的下一时隙的速度和预设的无人机速度最大值判断无人机执行所述更新后的动作是否违反约束条件,若违反,则根据预设的第二动作更新函数调整得到再次更新后的动作:
则/>
其中,和/>分别表示无人机在第k+1个时隙和第k个时隙的速度矢量,且δt表示时隙长度,vmax表示无人机速度最大值;
若不违反,则执行S400;
S330:若无人机执行所述再次更新后的动作后在任一方向上超出预设的移动区域边界,则将该方向的位置分量调整为区域边界值,且令该方向上的速度分量为0。
4.根据权利要求3中所述的方法,其特征在于,S400包括:
S410:更新各用户位置,进入新的环境状态,所述新的环境状态包括更新后的用户位置、所述基站的位置、无人机的更新后的位置和无人机更新后的速度,根据所述更新后的用户位置、所述基站的位置、所述无人机的更新后的位置和所述无人机的发射功率使用如下公式计算***的中断概率:
其中,表示基站到无人机、无人机到用户n整条链路的中断概率;σ2表示信道噪声功率;Γth表示信噪比阈值;α表示单位路径损耗;/>和/>分别表示基站到无人机、无人机到用户n的距离;/>和/>分别表示基站和无人机的发射功率;/>和/>分别表示视距和非视距概率;a0表示非视距链路的衰减因子;
S420:根据所述无人机更新后的速度使用如下公式计算当前无人机消耗的能量:
其中,表示第k个时隙中无人机消耗的能量;G表示无人机的重量;ρ表示空气密度;S表示转盘的面积;p0表示无人机悬停时所需的功率,且/>Cblade表示与转子叶片几何形状相关的阻力系数。
5.根据权利要求4所述的方法,其特征在于,S500中根据所述***的中断概率和当前无人机消耗的能量获取奖励包括:
S510:根据所述***的中断概率计算与中断概率最小化相关的奖励
其中,N表示用户数量,ξout1是一个负的系数,用于调整奖励在总的奖励中所占比例;nout表示中断概率大于ζ的用户数量;ξout2是一个负的常系数,平均中断概率无法凸显部分用户中断概率过大的情形;
S520:根据所述当前无人机消耗的能量计算与能耗最小化相关的奖励
其中,εec是一个常数,表示每时隙的平均能耗阈值,在当前时隙中的能耗如果比εec大,奖励为负,反之,奖励为正,ξec是一个正系数,用于调整奖励在总的奖励中所占比例;
S530:根据所述无人机加速度和预设加速度上限得到与是否超过无人机加速度上限相关的奖励
其中,是一个二进制数,当无人机加速度矢量和模长大于预设的加速度上限amax时,/>否则,/>ξacc是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S540:根据无人机的实时位置确定与是否超出无人机预设的移动区域相关的奖励
其中,是一个二进制数,当无人机超出预设的移动区域边界时,/>否则,ξbd是一个负系数,用于调整奖励/>在总的奖励中所占比例;
S550:计算总奖励rk
rk=rout,k+rec,k+rbd,k+racc,k
6.根据权利要求5所述的方法,其特征在于,S500中将所述当前环境状态、所述动作、所述动作选取概率和所述奖励作为一组数据存入预设的缓冲区,当确定预设的缓冲区中数据足够时,对预设的PPO算法网络进行训练并更新网络的参数,包括:
S560:按照折扣率γ计算这批数据中每个时隙对应的奖励期望和优势估计:
其中,表示第k个时隙的奖励期望;/>表示第k个时隙的优势估计;V(sk)表示利用预设的评估网络获得的sk状态的价值;
S570:根据如下公式计算预设的PPO算法网络的目标函数:
其中,Se是策略模型的熵,是策略梯度目标函数,/>是评估网络目标函数,c1,c2是常系数,用于调整网络目标函数中各部分的权重,/>和/>可用如下公式计算:
其中,表示新旧网络参数下的动作选择概率比率;ε表示剪切系数,以限制网络更新幅度;Vθ(sk)表示在使用新的网络参数时的状态价值;
S580:通过最大化更新网络参数θ,使用采集的数据对网络参数连续更新nupdate次后,将参数θold更新为θ。
7.根据权利要求1所述的方法,其特征在于,S500还包括:当预设的缓冲区中数据未达到预设的数据阈值时时,执行S600。
8.根据权利要求1所述的方法,其特征在于,S600还包括:当无人机能量未耗尽时,返回S100中获取当前环境状态;当迭代次数未超过预设的迭代次数阈值时,返回S100。
9.根据权利要求1所述的方法,其特征在于,S100之前还包括:
创建无人机和N个用户的移动范围,设立基站;
创建预设的PPO算法网络,所述预设的PPO算法网络包括策略网络和评估网络,初始化所述预设的PPO算法网络参数和预设的缓冲区。
CN202211194735.3A 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法 Active CN115494732B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211194735.3A CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211194735.3A CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Publications (2)

Publication Number Publication Date
CN115494732A CN115494732A (zh) 2022-12-20
CN115494732B true CN115494732B (zh) 2024-04-12

Family

ID=84471828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211194735.3A Active CN115494732B (zh) 2022-09-29 2022-09-29 一种基于近端策略优化的无人机轨迹设计和功率分配方法

Country Status (1)

Country Link
CN (1) CN115494732B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116009590B (zh) * 2023-02-01 2023-11-17 中山大学 无人机网络分布式轨迹规划方法、***、设备及介质
CN116736729B (zh) * 2023-08-14 2023-10-27 成都蓉奥科技有限公司 一种抗感知误差的视距内空战机动策略生成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
JP2020035159A (ja) * 2018-08-29 2020-03-05 ファナック株式会社 パラメータ調整装置
CN111123953A (zh) * 2020-01-09 2020-05-08 哈尔滨工程大学 人工智能大数据下粒子化移动机器人组及其控制方法
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment
CN113189875A (zh) * 2021-04-29 2021-07-30 湖南大学 一种基于圆形特征的无人机在移动平台上鲁棒着陆方法
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11703853B2 (en) * 2019-12-03 2023-07-18 University-Industry Cooperation Group Of Kyung Hee University Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same
CN111694365B (zh) * 2020-07-01 2021-04-20 武汉理工大学 一种基于深度强化学习的无人船艇编队路径跟踪方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104298239A (zh) * 2014-09-29 2015-01-21 湖南大学 一种室内移动机器人增强地图学习路径规划方法
JP2020035159A (ja) * 2018-08-29 2020-03-05 ファナック株式会社 パラメータ調整装置
EP3725471A1 (en) * 2019-04-16 2020-10-21 Robert Bosch GmbH Configuring a system which interacts with an environment
CN111123953A (zh) * 2020-01-09 2020-05-08 哈尔滨工程大学 人工智能大数据下粒子化移动机器人组及其控制方法
CN113189875A (zh) * 2021-04-29 2021-07-30 湖南大学 一种基于圆形特征的无人机在移动平台上鲁棒着陆方法
CN113382060A (zh) * 2021-06-07 2021-09-10 北京理工大学 一种物联网数据收集中的无人机轨迹优化方法及***
CN113359480A (zh) * 2021-07-16 2021-09-07 中国人民解放***箭军工程大学 基于mappo算法多无人机与用户协同通信优化方法
CN113885329A (zh) * 2021-10-20 2022-01-04 沈阳化工大学 一种基于深度强化学习的移动机器人路径规划方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Yan, Z. ; Han, L. ; Li, X. ; Li, J. ; Ren, Z..Event-Triggered Optimal Formation Tracking Control Using Reinforcement Learning for Large-Scale UAV Systems.IEEE International Conference on Robotics and Automation (ICRA).2023,全文. *
基于深度强化学***;;计算机与数字工程;20200620(第06期);全文 *
无人机集群联合拓扑控制的智能路由规划方法;颜志,易正伦,欧阳博,王耀南;通信学报;20240226;全文 *

Also Published As

Publication number Publication date
CN115494732A (zh) 2022-12-20

Similar Documents

Publication Publication Date Title
CN115494732B (zh) 一种基于近端策略优化的无人机轨迹设计和功率分配方法
CN110531617B (zh) 多无人机3d悬停位置联合优化方法、装置和无人机基站
CN113162679A (zh) 基于ddpg算法的irs辅助无人机通信联合优化方法
CN110809306A (zh) 一种基于深度强化学习的终端接入选择方法
WO2020015214A1 (zh) 一种基于无人机的无线信息和能量传输的优化方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN114826380B (zh) 一种基于深度强化学习算法的无人机辅助空地通信优化算法
CN113255218A (zh) 无线自供电通信网络的无人机自主导航及资源调度方法
CN113206701A (zh) 一种无人机飞行基站的三维部署和功率分配联合优化方法
CN108834049A (zh) 无线供能通信网络及确定其工作状态的方法、装置
Chen et al. An actor-critic-based UAV-BSs deployment method for dynamic environments
CN116113025A (zh) 一种无人机协能通信网络中轨迹设计和功率分配方法
CN116700343A (zh) 一种无人机路径规划方法、设备和存储介质
Gendia et al. UAV positioning with joint NOMA power allocation and receiver node activation
Cao et al. Deep reinforcement learning for user access control in UAV networks
CN112566209A (zh) 一种基于双Q学习的UAV-BSs能量和服务优先级轨迹设计方法
CN116847293A (zh) 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法
CN117119489A (zh) 一种基于多无人机辅助的无线供能网络的部署和资源优化方法
Gao et al. Multi-UAV assisted offloading optimization: A game combined reinforcement learning approach
CN116684852A (zh) 一种山地茂林环境无人机通信资源与定位的联合优化方法
CN116882270A (zh) 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及***
Zhang et al. SREC: Proactive self-remedy of energy-constrained UAV-based networks via deep reinforcement learning
Hamden et al. Reinforcement learning based technique for interference management in UAV aided HetNets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant