CN116249202A - 一种物联网设备的联合定位与计算支持方法 - Google Patents
一种物联网设备的联合定位与计算支持方法 Download PDFInfo
- Publication number
- CN116249202A CN116249202A CN202310237384.8A CN202310237384A CN116249202A CN 116249202 A CN116249202 A CN 116249202A CN 202310237384 A CN202310237384 A CN 202310237384A CN 116249202 A CN116249202 A CN 116249202A
- Authority
- CN
- China
- Prior art keywords
- iot device
- uav
- positioning
- computing
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000005265 energy consumption Methods 0.000 claims abstract description 43
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 238000013468 resource allocation Methods 0.000 claims abstract description 17
- 230000002787 reinforcement Effects 0.000 claims abstract description 15
- 238000005457 optimization Methods 0.000 claims abstract description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 239000003795 chemical substances by application Substances 0.000 claims description 31
- 230000005540 biological transmission Effects 0.000 claims description 28
- 230000009471 action Effects 0.000 claims description 25
- 238000012549 training Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 13
- 238000009826 distribution Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 230000007613 environmental effect Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000005259 measurement Methods 0.000 claims description 3
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000001934 delay Effects 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 description 5
- 230000033001 locomotion Effects 0.000 description 5
- 230000007423 decrease Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000006641 stabilisation Effects 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W64/00—Locating users or terminals or network equipment for network management purposes, e.g. mobility management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0975—Quality of Service [QoS] parameters for reducing delays
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W28/00—Network traffic management; Network resource management
- H04W28/02—Traffic management, e.g. flow control or congestion control
- H04W28/08—Load balancing or load distribution
- H04W28/09—Management thereof
- H04W28/0958—Management thereof based on metrics or performance parameters
- H04W28/0967—Quality of Service [QoS] parameters
- H04W28/0983—Quality of Service [QoS] parameters for optimizing bandwidth or throughput
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W52/00—Power management, e.g. TPC [Transmission Power Control], power saving or power classes
- H04W52/04—TPC
- H04W52/06—TPC algorithms
- H04W52/14—Separate analysis of uplink or downlink
- H04W52/143—Downlink power control
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Operations Research (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明的一种物联网设备的联合定位与计算支持方法,包括收集IoT设备与锚节点的距离信息和剩余电量信息,获得IoT设备的可用锚节点集合;可用锚节点数小于3时,收集IoT设备与其他IoT设备的距离信息;UAV根据收集的信息构建定位模型,通过加权最小二乘和半正定松弛将定位问题转为半正定规划问题,求解IoT设备的坐标;UAV以最小化***总能耗和延迟为优化目标,采用深度强化学习法得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策;通过逐次凸逼近法得到最优下行功率分配决策,目标是最大化最小下行吞吐量;UAV执行最优联合决策以支持IoT设备的卸载请求,执行最优下行功率分配决策提升***的下行吞吐量。
Description
技术领域
本发明属于物联网技术领域,涉及一种物联网设备的联合定位与计算支持方法。
背景技术
物联网(Internet of Things,IoT)技术的快速发展推动了IoT设备数量的指数级增长,催生了大量的计算密集型和延迟敏感型应用。在某些场景下,IoT设备被广泛部署在具有挑战性或者地面基站稀疏的区域,如森林、山区、沙漠以及水下位置,需要不断移动并执行一些计算密集型工作,包括灾害预警、长管道基础设施检测、水下基础设施检测和军事行动等,这些工作大多需要对监测目标进行跟踪,这涉及到定位功能。然而,由于高昂的成本,IoT设备无法通过搭载卫星定位模块持续稳定地获得实时位置。IoT设备的移动性、隐私性、电量有限性以及所处环境的复杂性(例如,不在视线范围内)使得IoT设备定位具有极大的挑战性。为了降低IoT设备的成本,保护IoT设备的隐私性,同时为IoT设备提供稳定实时的计算支持,需要构建一种基于半正定松弛(SemiDefinite Relaxation,SDR)的多设备协同到达时间(Time of Arrival,TOA)定位方案。
另一方面,IoT设备的电池电量、计算资源和存储资源十分有限,无法处理海量的计算密集型和延迟敏感型任务。由于硬件条件和所处环境的限制,IoT设备的电池寿命有限且很难获得实时供电。此外,IoT设备自身拥有的计算和存储资源可能不足以处理某些大型任务,需要具有较强处理能力的设备提供计算支持。针对上述问题,研究者提出了一种新兴的计算范式,即移动边缘计算(Mobile Edge Computing,MEC),以扩展IoT设备的计算能力。在所考虑的挑战性环境中,地面基础设施分布稀疏,无法为IoT设备提供稳定可靠的计算支持,需要研究基于灵活部署的无人机(Unmanned Aerial Vehicle,UAV)的计算卸载。
中国专利“CN114745389A移动边缘计算***的计算卸载方法”设计了一种面向移动边缘计算***的计算卸载方案。此专利为了减少物联网***中的平均信息年龄,首先分析在物联网设备端的状态更新任务,获取计算任务对边缘设备的计算资源需求和空间需求,计算在本地以及在边缘服务器端的时延,再进一步得到每个设备的信息年龄以及整个***的信息年龄;根据每个设备本身的任务需求和环境条件,选择信息年龄最优计算卸载策略;提出基于博弈论信息年龄最优的计算卸载方案,每一轮迭代所有设备竞争更新卸载策略的机会,直到所有设备的卸载策略达到收敛,得到最终的计算卸载方法,有效减少***的平均信息年龄,以满足不同类型物联网设备的信息新鲜度需求。但该技术方案在具有挑战性或者地面基站稀疏的区域,如森林、山区以及水下位置,面对大量计算密集型和延迟敏感型任务时,该方案倾向于将任务交于本地处理,无法通过稀疏部署的边缘服务器为相关IoT设备提供足够的计算支持,这将增加电量有限的IoT设备的能耗;此外,考虑到IoT设备的移动性,该方案也无法提供稳定实时的计算支持。
中国专利“CN114124955A一种基于多智能体博弈的计算卸载方法”设计了一种基于二阶段多智能体博弈的计算卸载方法。此专利针对5G混合双网模式,建立网络信道模型,根据香农定理计算用户的信道传输速率,根据所述信道传输速率,计算用户进行任务卸载的时延和能耗;根据Stackelberg博弈建立边缘卸载模型,将所述专网用户视为领导者,将所述公网用户视为跟随者,以卸载量为策略,设定所述专网用户的效用函数和所述公网用户的效用函数;在完全信息博弈情况下,验证Stackelberg均衡的存在,并求解所述专网用户和所述公网用户的第一最优卸载策略;在不完全信息博弈情况下,采用TSDRL算法求得第二最优卸载策略,并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。该技术方案在地面基站分布稀疏的场景中,考虑优化任务卸载量,忽略了整体的***延迟和能耗,所以此方案方法无法为一些挑战性场景中的用户提供高体验质量。
发明内容
为解决上述技术问题,本发明的目的是提供一种物联网设备的联合定位与计算支持方法,在地面基站分布稀疏和具有挑战性的环境中,降低物联网设备的定位能耗,保护物联网设备的隐私性,并为物联网设备提供稳定可靠的计算支持。
本发明提供一种物联网设备的联合定位与计算支持方法,包括如下步骤:
步骤1:收集IoT设备与通信范围内锚节点的距离信息和锚节点的剩余电量信息,获得每个IoT设备的可用锚节点集合;
步骤2:针对可用锚节点数量小于3的情况,根据目标IoT设备的通信范围构建其辅助IoT设备集合,并计算目标IoT设备和所有辅助IoT设备之间的距离信息;
步骤3:IoT设备将收集到的信息发送给UAV,UAV根据位置和距离信息构建定位模型,通过加权最小二乘和半正定松弛将定位问题转换为半正定规划问题,最后采用凸优化工具求解目标IoT设备的位置坐标;
步骤4:UAV边缘服务器动态规划飞行轨迹和分配计算资源以处理卸载的任务请求,目标是最小化***总能耗和延迟,采用深度强化学习方法来得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策;
步骤5:UAV边缘服务器通过逐次凸逼近的方法得到最优下行功率分配决策,目标是最大化最小下行吞吐量;
步骤6:UAV执行最优联合决策以支持IoT设备的卸载请求,同时执行最优下行功率分配决策以提升***的下行吞吐量。
一种物联网设备的联合定位与计算支持方法,至少具有以下有益效果:
1、本发明利用移动边缘计算技术,将边缘服务器部署在UAV上,构建可移动的边缘服务器,能够主动规划运动轨迹以更好地支持IoT设备的卸载任务、增加计算支持***的灵活性、提升UAV的计算资源利用率。解决了IoT设备因成本限制无法搭载高成本的全球定位***、以及因地面基站分布稀疏和挑战性环境无法获得稳定可靠的通信与计算支持的难题。
2、本发明提出的物联网设备的联合定位和计算支持技术方案中的联合定位方法可获得较准确的实时定位信息,其计算支持方法加速了网络训练速度、提高了任务完成率、提升了***的资源利用率。本发明在实验中同时对算法收敛性能、***总时延和能耗、任务未完成比例、平均卸载任务数据量大小、无人机计算资源利用率等性能指标进行了评价,均达到了很好的效果,可大大提高***的实用性。
附图说明
图1为***架构图;
图2为物联网设备的联合定位流程图;
图3为物联网设备的联合定位与计算支持流程图;
图4为均方定位误差随平均锚节点数量的变化图;
图5为定位能耗随平均锚节点数量的变化图;
图6为不同算法的收敛性能对比图;
图7为不同算法的总时延和能耗随网络训练进程的变化图;
图8为不同算法的未完成任务比例随网络训练进程的变化图;
图9a为训练轮数为50时平均卸载任务数据量随任务数据大小的变化图;
图9b为训练轮数为6000时平均卸载任务数据量随任务数据大小的变化图;
图10为状态协调后任务未卸载比例随网络训练进程的变化图;
图11为UAV的计算资源利用率随IoT设备数量的变化图。
具体实施方式
本发明提供一种物联网设备的联合定位与计算支持方法。
首先,根据IoT设备与通信范围内的锚节点的距离信息和锚节点的剩余电量信息,获得可用锚节点集合,针对可用锚节点数量稀少的情况,根据IoT设备与通信范围内其他IoT设备的距离信息,获得辅助IoT设备集合。此外,IoT设备根据可用锚节点和辅助IoT设备中的位置与距离信息通过几何方法求解自身位置坐标。
然后,利用移动边缘计算技术和部署了搭载边缘服务器的UAV执行飞行轨迹规划、任务卸载和计算资源分配,为IoT设备提供计算支持并最小化***总能耗和延迟的加权和。UAV智能体以分布式方式进行训练,通过协调归一化方法解决状态冲突问题,加速训练过程。
最后,执行UAV智能体训练得到的联合轨迹规划、任务卸载和计算资源分配动作,同时利用逐次凸逼近技术得到最优下行功率分配决策并执行。
本发明的物联网设备的联合定位与计算支持方法,能够为物联网设备提供较强的计算资源扩展,增加计算支持***的灵活性,提升***的资源利用效率。
如图1所示,本发明的网络模型分为设备层和服务器层两层。其中,设备层包括大量具有计算密集型和延迟敏感型任务的IoT设备,这些任务包括灾害预警、长管道基础设施检测、水下基础设施检测和军事行动等。IoT设备按照高斯马尔科夫随机运动模式移动并以一定的概率随机产生任务请求。IoT设备的计算资源十分有限,可以将复杂的任务尽可能卸载到边缘服务器进行处理。此外,IoT设备附近固定部署有一定数量的锚节点用于定位。服务器层包括多个部署有边缘服务器的UAV,每个UAV接收来自IoT设备的卸载请求,同时规划飞行轨迹以更好地为IoT设备提供计算支持。
本发明方案主要包括物联网设备的联合定位和计算支持两大部分。其中,如图2所示,物联网设备的联合定位主要包括收集锚节点能耗信息、获得IoT设备与锚节点之间的距离信息、形成可用锚节点集合与辅助IoT设备集合、采用几何方法获得定位坐标等步骤。如图3所示,计算支持包括确定联合任务卸载、UAV轨迹规划和计算资源分配决策,以及确定最优下行功率分配决策等步骤。具体包括:
步骤1:收集IoT设备与通信范围内锚节点的距离信息和锚节点的剩余电量信息,获得每个IoT设备的可用锚节点集合,步骤1具体为:
步骤1.2:IoT设备ui向候选锚节点发送定位请求信号qi,其中包含IoT设备的唯一标识和定位请求信息;
步骤1.3:定位请求信号到达候选锚节点后,锚节点nk根据请求的发送时间戳和到达时间戳,计算对应的IoT设备ui与锚节点nk之间的欧氏距离dik,并将自身标识信息、请求到达的时间戳信息、与IoT设备的距离信息、自身的位置信息以及剩余电量信息返回给IoT设备;
步骤2:针对可用锚节点数量小于3的情况,根据目标IoT设备的通信范围构建其辅助IoT设备集合,并计算目标IoT设备和所有辅助IoT设备之间的距离信息,步骤2具体为:
步骤2.2:IoT设备ui向辅助IoT设备发送定位请求信号qi,其中包含IoT设备ui的唯一标识和定位请求信息;
步骤2.3:定位请求信号到达辅助IoT设备后,辅助IoT设备uj根据请求的发送时间戳和到达时间戳,计算自身与对应的IoT设备ui之间的欧氏距离dij,并将自身标识信息、请求到达的时间戳信息、与IoT设备ui的距离信息等信息返回给目标IoT设备ui。
步骤3:IoT设备将收集到的信息发送给UAV,UAV根据位置和距离信息构建定位模型,通过加权最小二乘和半正定松弛(SDR)将定位问题转换为半正定规划(SDP)问题,最后采用凸优化工具求解目标IoT设备的位置坐标,步骤3具体为:
步骤3.1:对于每个IoT设备,定位问题被定义为在给定可用锚节点和辅助IoT设备位置的情况下,根据含有测量噪声和NLOS场景噪声的测量距离来估计目标IoT设备的位置,构建IoT设备的定位模型如下:
其中,dik表示IoT设备ui到锚节点nk或辅助IoT设备uk的观测距离,表示IoT设备ui到锚节点nk或辅助IoT设备uk的真实距离,nik是服从均值为0,方差为σ2的高斯分布的测量噪声,mik是NLOS场景噪声,且mik>>nik;/>为可用锚节点集合,/>为辅助IoT设备集合;用集合/>存放IoT设备彼此之间的距离信息,集合/>存放IoT设备和锚节点之间的距离信息。
步骤3.3:设IoT设备坐标为锚节点坐标为/>其中/>为IoT设备集合,/>为锚节点集合,根据步骤3.2得到的定位模型,对未知参数Si和pik利用加权最小二乘法来估计,转换成如下非线性的加权最小二乘问题:
步骤3.5:利用SDR放松约束,结合舒尔补定理,将步骤3.4中的非凸问题转化为SDP问题,并通过凸优化工具,如CVX求解,经过不断迭代获得值较为稳定的IoT设备定位坐标Si。
至此,IoT设备的定位过程结束。接下来,在每个时隙t,IoT设备在卸载任务的同时将自身位置发送给UAV,使UAV能够更好地为其提供计算支持。
步骤4:UAV边缘服务器动态规划飞行轨迹和分配计算资源以处理卸载的任务请求,目标是最小化***总能耗和延迟,采用深度强化学习方法来得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策,步骤4具体为:
步骤4.1:定义UAV计算支持***的总延迟和能耗加权和,然后以最小化***总能耗和延迟为目标联合优化卸载决策、UAV路径规划决策和UAV计算资源分配决策;
本发明提出了基于深度强化学习的联合优化方案,优化目标为***总能耗和延迟的加权和,包括IoT设备产生的传输和计算能耗、传输和计算延迟,以及UAV边缘服务器产生的飞行和计算能耗、计算延迟:
其中,t用于指示时隙,m用于指示UAV,n为总时隙长度,M为无人机数量,α为计算卸载比例变量,U为UAV位置坐标,f为计算资源分配变量,是为了让时延t与能耗E保持在同一个量级;Tt m表示UAVvm的计算延迟及其所处理任务请求对应的传输与计算延迟总和,即任务总时延,/>表示UAV飞行能耗与计算能耗及其所处理任务请求对应的传输与计算能耗总和。
其中,UAV具有如下关于飞行速度的限制:
步骤4.2:每个UAV边缘服务器部署深度强化学习模块作为智能体,定义对应于联合优化问题的马尔可夫决策过程,包括智能体Agent、环境状态State、动作Action、奖励Reward,为UAV边缘服务器端的神经网络学习与训练提供基础;
Agent:每个UAV边缘服务器被视为一个Agent,考虑环境对Agent而言是完全可观测的,观测值与状态等价。每个Agent都包含Actor和Critic网络,分别充当动作策略者和策略评论者。其中,Critic价值网络的参数为μ,其目标网络对应的参数为μ-;Actor策略网络的参数为θ,其目标网络对应的参数为θ-。
State:包括IoT设备信息和UAV边缘服务器信息,将UAV边缘服务器vm在时隙t观测到的状态定义为其中,ft m是UAV在时隙t的空闲计算资源,是UAV在时隙t的位置坐标,Rt,u是IoT设备的上行传输速率向量,Ct是IoT设备的任务信息集合,Reqt是IoT设备的卸载请求集合且该集合中的元素满足/>其中0表示不发送卸载请求,1表示发送请求,-1表示状态协调后的请求。
Action:包括卸载比例决策、计算资源分配决策以及UAV的下一时隙位置坐标,将UAV边缘服务器vm在时隙t执行的动作定义为其中/>通过UAV飞行过程中的速度夹角改变量/>和速度大小/>来表示,将at重新定义为
Reward:Agent执行动作时,***将从一个环境状态转移到另一个环境状态并获得奖励,奖励会引导每个Agent到达其最优策略。奖励函数的定义通常和***的优化目标相关,因此,将奖励函数定义为能耗和时延加权和的相反数:
步骤4.3:每个UAV边缘服务器的Agent通过Actor策略网络选择一个动作at;
步骤4.4:Agent执行步骤4.3得到的动作at,并观察奖励rt和下一个状态st+1;
步骤4.5:Agent将经验元组R(st,at,rt,st+1)存放到经验缓冲区中,并采样经验缓冲区中的小批量经验来更新神经网络以加速训练过程,通过最小化策略目标函数来更新主Actor网络,通过最小化损失函数更新主Critic网络;
步骤4.6:Agent在每个时隙通过软更新策略更新目标Actor网络和目标Critic网络;
步骤4.7:针对IoT设备处于多个UAV覆盖区域,相关Agent状态冲突导致的动作冲突问题和输入状态元素之间的幅度差异问题,每个Agent产生动作后进行通信,对于产生冲突动作的情况,在其奖励中加入相应的惩罚,以实现状态的协调归一化;
步骤4.8:Agent不断重复步骤4.3-4.6进行试错与学习,最终得出最优的任务卸载、UAV轨迹规划和计算资源分配的联合决策{α,U,f}。
步骤5:UAV边缘服务器通过逐次凸逼近的方法得到最优下行功率分配决策,目标是最大化最小下行吞吐量,步骤5具体为:
步骤5.1:定义UAV计算支持***的最小平均下行传输速率,以优化下行功率分配,从而提高下行吞吐量;
通过引入辅助变量Rdmin,将问题重新定义为最大化最小平均下行传输速率问题:
其中,UAV边缘服务器的下行传输功率不能超过其规定的最大下行传输功率:
步骤5.2:利用下行传输功率中对数函数的性质和一阶泰勒展开式将最大化最小平均下行传输速率问题转化为凸问题,利用逐次凸逼近算法SCA,在每次迭代中求出最优功率值,直到连续两次迭代的最优值之差小于某个阈值,实现最大下行吞吐量的优化,进而优化下行传输功率分配。
步骤6:UAV执行最优联合决策以支持IoT设备的卸载请求,同时执行最优下行功率分配决策以提升***的下行吞吐量,步骤6具体为:
步骤6.1:UAV根据步骤4中得到的飞行轨迹规划决策调整自身的飞行轨迹,并根据步骤4中的任务卸载决策和计算资源分配决策处理IoT设备的卸载任务请求。
步骤6.2:UAV根据步骤5中得到的最优下行功率分配决策将任务结果传回IoT设备,通过最大化最小下行传输功率来提高***的下行吞吐量。
下面结合具体实验平台和实验结果详细阐述本发明的技术方案。
本发明仿真实现基于Matlab和PyCharm平台,考虑1000m×1000m的IoT设备工作区域,其中,部署了3架无人机边缘服务器,100个IoT设备的初始位置服从均匀分布,30个锚节点采用均匀随机分布的方式固定在所考虑的区域中,采用节点的高斯马尔科夫随机运动模型模拟IoT设备的移动性,无人机在固定高度飞行并为IoT设备提供计算支持。IoT设备的计算频率大小在[0.1,0.5]GHz内均匀分布,任务的数据量大小Ik在[100,1000]KB内均匀分布,单位任务数据量所需的计算资源γk在[500,1000]cycles/bit内均匀分布,无人机的最大计算资源容量设置为20GHz,飞行速度均匀分布在[10,15]m/s。实验模拟了6000个时隙,在每个时间段内,IoT设备以0.99的概率产生计算任务,UAV将根据上一时间段产生的动作悬停到指定位置,接收卸载任务后继续飞行,同时处理计算任务,因此,IoT设备和UAV的位置在不同时间段内是动态变化的。参数列表如表1所示:
表1参数设置
其中,K是IoT设备数量,M是UAV数量,N是锚节点数量,φ1和φ3都是与IoT设备硬件有关的常量参数,η是奖励的折扣率,θ是Actor网络参数,μ是Critic网络参数,是无人机vm的最大计算资源,/>表示UAVvm的最大下行传输功率,/>表示噪声功率。
同时本发明在仿真实现时设置了对比算法。针对定位算法,为了评价定位位置和实际位置的均方定位误差(Root Mean Squared Error,RMSE)和IoT设备的定位能耗,分别对最小二乘法、基于SDR的单设备定位法、基于SDR的多设备定位法以及本专利提出的联合定位法在Matlab平台上进行对比实验。
图4显示了测量噪声σ2=1时,定位位置和实际位置的均方定位误差随IoT设备周围平均锚节点数的变化情况。联合定位法得到的RMSE低于其他对比算法,这是因为联合定位法同时具备基于SDR的单设备定位法和基于SDR的多设备定位法的优势,可以根据锚节点的分布情况自适应调整算法。
图5显示了IoT设备的平均定位能耗随IoT设备周围平均锚节点数的变化情况。我们的定位能耗与最小二乘法相近,远低于其它对比算法,原因是联合定位方法运用了最小二乘原理,并且当锚节点数量增多时,联合定位方法会逐渐偏向使用基于SDR的单设备的定位方法,从而实现节能。
针对任务卸载、UAV计算资源分配和轨迹规划的联合优化算法,为了评价算法收敛性、总能耗和时延的加权和、任务未完成比例、平均卸载任务数据量大小、状态协调后未卸载的任务占协调任务的比例、以及UAV计算资源利用率,分别对采用惩罚机制的深度确定性策略梯度算法(PF-DDPG)、采用惩罚机制的深度Q网络算法(PF-DQN)、贪婪算法(Greedy)以及本专利提出的基于状态协调归一化的多代理深度强化学***台上进行对比实验。
图6显示了各算法的收敛性能,用UAV智能体总奖励的变化情况来表征。从图中可以看出,随着时隙的增加,Greedy方法的奖励没有太大的幅度变化,其他深度强化学习方法的奖励逐渐变大最终趋于稳定,并且训练稳定后的奖励大于Greedy方法获得的奖励。此外,相较于其他两种深度强化学习算法,我们的算法收敛速度更快且获得的总奖励高,因为MASC-DDPG方法考虑了多个UAV智能体的状态协调归一化,以及DQN方法的速度在产生的动作量化个数增加时收敛速度下降明显。
图7显示了总能耗和时延的加权和随训练时间的变化。可以看出,随着时隙的增加,Greedy方法的总能耗和时延的加权和没有太大的幅度变化,其他深度强化学习方法的总能耗和时延的加权和逐渐下降最终趋于稳定,并且在训练稳定后小于Greedy方法的总能耗和时延的加权和。此外,相较于其他两种深度强化学习算法,我们的算法总能耗和时延的加权和更小。
图8显示了任务的未完成比例的变化情况。从图中可以看出,随着时隙的增加,任务未完成比例逐渐减小,收敛后达到最小值。MASC-DDPG算法相比其他算法能够达到更少的未完成比例,并且幅度波动较小,性能比较稳定。
图9a和9b显示了在不同的训练轮数、不同的任务数据量下IoT设备到UAV的平均卸载任务数据量大小。由图9a可以得出,在训练轮数为50时,Greedy算法的平均卸载任务数据量最高,其他基于深度强化学习的算法卸载比例较小。由图9b可以得出,当训练轮数达到6000时,基于深度强化学习的算法的卸载任务量高于Greedy算法。这是因为在初始阶段,训练效果还未显现,当训练达到稳定状态时基于深度强化学习的算法将根据奖励选择尽可能地卸载任务。
图10显示了在协调状态后,MASC-DDPG算法产生的动作中未卸载的任务占协调任务的比例。可以得到,初始的未卸载比例在0.47左右,随着训练的进行逐渐减少,最终收敛到了0.05左右。经过分析可知,在奖励函数中添加针对未卸载动作的惩罚因子后,网络在训练时将不断趋向于卸载任务,使得状态协调后动作中任务未卸载的情况显著减少。
图11显示了UAV计算资源利用率随IoT设备数量的变化情况。从图中可以看出,随着IoT设备数量的增加,计算资源利用率逐渐增加并趋于稳定。因为UAV的计算资源有限,当IoT设备数量增加时,总任务数量随之增加,UAV分配给任务的计算资源最终将接近其最大计算资源容量,此时资源利用率无法继续升高。从图中还可以看出,我们的计算资源利用率最高。
考虑到IoT设备的硬件限制和移动性,我们首先提出了基于半正定松弛和到达时间的联合定位算法。然后,针对多IoT设备数量和多UAV的复杂物联网场景,提出了MASC-DDPG算法,考虑多个UAV智能体的状态协调归一化以减少状态冲突与动作冲突,提高网络训练的收敛速度。实验结果表明,本专利提出的方案可以对IoT设备进行较精确的实时定位,与对比算法相比实现了最低的定位误差和最低的定位能耗。本专利提出的方案缩短了网络训练的收敛时间,有效降低了***总能耗和时延的加权和,提高了平均卸载任务数据量,提升了UAV的计算资源利用率,为IoT设备提供了动态、可靠的计算支持。
以上所述仅为本发明的较佳实施例,并不用以限制本发明的思想,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种物联网设备的联合定位与计算支持方法,其特征在于,包括如下步骤:
步骤1:收集IoT设备与通信范围内锚节点的距离信息和锚节点的剩余电量信息,获得每个IoT设备的可用锚节点集合;
步骤2:针对可用锚节点数量小于3的情况,根据目标IoT设备的通信范围构建其辅助IoT设备集合,并计算目标IoT设备和所有辅助IoT设备之间的距离信息;
步骤3:IoT设备将收集到的信息发送给UAV,UAV根据位置和距离信息构建定位模型,通过加权最小二乘和半正定松弛将定位问题转换为半正定规划问题,最后采用凸优化工具求解目标IoT设备的位置坐标;
步骤4:UAV边缘服务器动态规划飞行轨迹和分配计算资源以处理卸载的任务请求,目标是最小化***总能耗和延迟,采用深度强化学习方法来得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策;
步骤5:UAV边缘服务器通过逐次凸逼近的方法得到最优下行功率分配决策,目标是最大化最小下行吞吐量;
步骤6:UAV执行最优联合决策以支持IoT设备的卸载请求,同时执行最优下行功率分配决策以提升***的下行吞吐量。
2.如权利要求1所述的物联网设备的联合定位与计算支持方法,其特征在于,步骤1具体为:
步骤1.1:为IoT设备构建用于定位的候选锚节点集合,其中包括通信范围内的所有锚节点;
步骤1.2:IoT设备向候选锚节点发送定位请求信号,其中包含IoT设备的唯一标识和定位请求信息;
步骤1.3:定位请求信号到达候选锚节点后,锚节点根据请求的发送时间戳和到达时间戳,计算对应的IoT设备与锚节点之间的欧氏距离,并将自身标识信息、请求到达的时间戳信息、与IoT设备的距离信息、自身的位置信息以及剩余电量信息返回给IoT设备;
步骤1.4:针对集合中的候选锚节点,IoT设备根据收集到的锚节点剩余电量信息筛选其中剩余电量大于阈值的锚节点,形成可用锚节点集合,并计算可用锚节点集合中锚节点的个数。
3.如权利要求1所述的物联网设备的联合定位与计算支持方法,其特征在于,步骤2具体为:
步骤2.1:为IoT设备构建辅助IoT设备集合,其中包括通信范围内的所有IoT设备;
步骤2.2:IoT设备向辅助IoT设备发送定位请求信号,其中包含IoT设备的唯一标识和定位请求信息;
步骤2.3:定位请求信号到达辅助IoT设备后,辅助IoT设备根据请求的发送时间戳和到达时间戳,计算自身与对应的IoT设备之间的欧氏距离,并将自身标识信息、请求到达的时间戳信息、与IoT设备ui的距离信息等信息返回给目标IoT设备。
4.如权利要求1所述的物联网设备的联合定位与计算支持方法,其特征在于,步骤3具体为:
步骤3.1:对于每个IoT设备,定位问题被定义为在给定可用锚节点和辅助IoT设备位置的情况下,根据含有测量噪声和NLOS场景噪声的测量距离来估计目标IoT设备的位置,构建IoT设备的定位模型如下:
其中,dik表示IoT设备ui到锚节点nk或辅助IoT设备uk的观测距离,表示IoT设备ui到锚节点nk或辅助IoT设备uk的真实距离,nik是服从均值为0,方差为σ2的高斯分布的测量噪声,mik是NLOS场景噪声,且mik>>nik;/>为可用锚节点集合,/>为辅助IoT设备集合;用集合存放IoT设备彼此之间的距离信息,集合/>存放IoT设备和锚节点之间的距离信息;
步骤3.3:设IoT设备坐标为锚节点坐标为/>其中为IoT设备集合,/>为锚节点集合,根据步骤3.2得到的定位模型,对未知参数Si和pik利用加权最小二乘法来估计,转换成如下非线性的加权最小二乘问题:
步骤3.5:利用SDR放松约束,结合舒尔补定理,将步骤3.4中的非凸问题转化为SDP问题,并通过凸优化工具求解,经过不断迭代获得值较为稳定的IoT设备定位坐标Si。
5.如权利要求1所述的物联网设备的联合定位与计算支持方法,其特征在于,步骤4具体为:
步骤4.1:定义UAV计算支持***的总延迟和能耗加权和,然后以最小化***总能耗和延迟为目标联合优化卸载决策、UAV路径规划决策和UAV计算资源分配决策;
步骤4.2:每个UAV边缘服务器部署深度强化学习模块作为智能体,定义对应于联合优化问题的马尔可夫决策过程,包括智能体Agent、环境状态State、动作Action、奖励Reward,为UAV边缘服务器端的神经网络学习与训练提供基础;
步骤4.3:每个UAV边缘服务器的Agent通过Actor策略网络选择一个动作at;
步骤4.4:Agent执行步骤4.3得到的动作at,并观察奖励rt和下一个状态st+1;
步骤4.5:Agent将经验元组R(st,at,rt,st+1)存放到经验缓冲区中,并采样经验缓冲区中的小批量经验来更新神经网络以加速训练过程,通过最小化策略目标函数来更新主Actor网络,通过最小化损失函数更新主Critic网络;
步骤4.6:Agent在每个时隙通过软更新策略更新目标Actor网络和目标Critic网络;
步骤4.7:针对IoT设备处于多个UAV覆盖区域,相关Agent状态冲突导致的动作冲突问题和输入状态元素之间的幅度差异问题,每个Agent产生动作后进行通信,对于产生冲突动作的情况,在其奖励中加入相应的惩罚,以实现状态的协调归一化;
步骤4.8:Agent不断重复步骤4.3-4.6进行试错与学习,最终得出最优的任务卸载、UAV轨迹规划和计算资源分配的联合决策。
8.如权利要求1所述的物联网设备的联合定位与计算支持方法,其特征在于,步骤6具体为:
步骤6.1:UAV根据步骤4中得到的飞行轨迹规划决策调整自身的飞行轨迹,并根据步骤4中的任务卸载决策和计算资源分配决策处理IoT设备的卸载任务请求。
步骤6.2:UAV根据步骤5中得到的最优下行功率分配决策将任务结果传回IoT设备,通过最大化最小下行传输功率来提高***的下行吞吐量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237384.8A CN116249202A (zh) | 2023-03-13 | 2023-03-13 | 一种物联网设备的联合定位与计算支持方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310237384.8A CN116249202A (zh) | 2023-03-13 | 2023-03-13 | 一种物联网设备的联合定位与计算支持方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116249202A true CN116249202A (zh) | 2023-06-09 |
Family
ID=86633002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310237384.8A Pending CN116249202A (zh) | 2023-03-13 | 2023-03-13 | 一种物联网设备的联合定位与计算支持方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116249202A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117915481A (zh) * | 2024-01-18 | 2024-04-19 | 重庆理工大学 | 超密集工业物联网的资源分配方法及*** |
-
2023
- 2023-03-13 CN CN202310237384.8A patent/CN116249202A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117915481A (zh) * | 2024-01-18 | 2024-04-19 | 重庆理工大学 | 超密集工业物联网的资源分配方法及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112351503B (zh) | 基于任务预测的多无人机辅助边缘计算资源分配方法 | |
CN111800828B (zh) | 一种超密集网络的移动边缘计算资源分配方法 | |
CN113543176B (zh) | 基于智能反射面辅助的移动边缘计算***的卸载决策方法 | |
Li et al. | Downlink transmit power control in ultra-dense UAV network based on mean field game and deep reinforcement learning | |
Chen et al. | Deep reinforcement learning based resource allocation in multi-UAV-aided MEC networks | |
CN113359480B (zh) | 基于mappo算法多无人机与用户协同通信优化方法 | |
CN113254188B (zh) | 调度优化方法和装置、电子设备及存储介质 | |
WO2022242468A1 (zh) | 任务卸载方法、调度优化方法和装置、电子设备及存储介质 | |
Chen et al. | Learning-based computation offloading for IoRT through Ka/Q-band satellite–terrestrial integrated networks | |
CN114567888A (zh) | 一种多无人机动态部署方法 | |
CN116546559B (zh) | 分布式多目标空地联合轨迹规划和卸载调度方法及*** | |
CN113507492A (zh) | 物联网三维空间智能定位与分布式边缘计算支援方法 | |
CN113919483A (zh) | 一种无线通信网络中无线电地图的构造和定位方法及其*** | |
CN116249202A (zh) | 一种物联网设备的联合定位与计算支持方法 | |
Nasr-Azadani et al. | Single-and multiagent actor–critic for initial UAV’s deployment and 3-D trajectory design | |
CN117528649A (zh) | 建立端边云***架构的方法、任务卸载和资源分配优化方法及端边云***架构 | |
Parvaresh et al. | A continuous actor–critic deep Q-learning-enabled deployment of UAV base stations: Toward 6G small cells in the skies of smart cities | |
CN117499867A (zh) | 一种多无人机辅助移动边缘计算中通过策略梯度算法实现高能效计算卸载的方法 | |
Xue et al. | Deep learning based channel prediction for massive MIMO systems in high-speed railway scenarios | |
CN116882270A (zh) | 一种基于深度强化学习的多无人机无线充电与边缘计算联合优化方法及*** | |
CN115766478A (zh) | 一种空地协同边缘计算服务器的卸载方法 | |
CN114916013A (zh) | 基于车辆轨迹预测的边缘任务卸载时延优化方法、***及介质 | |
CN114520991A (zh) | 基于无人机集群的边缘网络自适应部署方法 | |
CN114513814A (zh) | 基于无人机辅助节点的边缘网络计算资源动态优化方法 | |
Gao et al. | MO-AVC: Deep Reinforcement Learning Based Trajectory Control and Task Offloading in Multi-UAV Enabled MEC Systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |