CN116249202A

CN116249202A - 一种物联网设备的联合定位与计算支持方法

Info

Publication number: CN116249202A
Application number: CN202310237384.8A
Authority: CN
Inventors: 陈香伊; 肖嘉池; 张娟; 李鑫磊; 李鑫; 柳明晗; 赵海; 余浩
Original assignee: 东北大学
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-06-09

Abstract

本发明的一种物联网设备的联合定位与计算支持方法，包括收集IoT设备与锚节点的距离信息和剩余电量信息，获得IoT设备的可用锚节点集合；可用锚节点数小于3时，收集IoT设备与其他IoT设备的距离信息；UAV根据收集的信息构建定位模型，通过加权最小二乘和半正定松弛将定位问题转为半正定规划问题，求解IoT设备的坐标；UAV以最小化***总能耗和延迟为优化目标，采用深度强化学习法得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策；通过逐次凸逼近法得到最优下行功率分配决策，目标是最大化最小下行吞吐量；UAV执行最优联合决策以支持IoT设备的卸载请求，执行最优下行功率分配决策提升***的下行吞吐量。

Description

一种物联网设备的联合定位与计算支持方法

技术领域

本发明属于物联网技术领域，涉及一种物联网设备的联合定位与计算支持方法。

背景技术

物联网(Internet of Things，IoT)技术的快速发展推动了IoT设备数量的指数级增长，催生了大量的计算密集型和延迟敏感型应用。在某些场景下，IoT设备被广泛部署在具有挑战性或者地面基站稀疏的区域，如森林、山区、沙漠以及水下位置，需要不断移动并执行一些计算密集型工作，包括灾害预警、长管道基础设施检测、水下基础设施检测和军事行动等，这些工作大多需要对监测目标进行跟踪，这涉及到定位功能。然而，由于高昂的成本，IoT设备无法通过搭载卫星定位模块持续稳定地获得实时位置。IoT设备的移动性、隐私性、电量有限性以及所处环境的复杂性(例如，不在视线范围内)使得IoT设备定位具有极大的挑战性。为了降低IoT设备的成本，保护IoT设备的隐私性，同时为IoT设备提供稳定实时的计算支持，需要构建一种基于半正定松弛(SemiDefinite Relaxation，SDR)的多设备协同到达时间(Time of Arrival，TOA)定位方案。

另一方面，IoT设备的电池电量、计算资源和存储资源十分有限，无法处理海量的计算密集型和延迟敏感型任务。由于硬件条件和所处环境的限制，IoT设备的电池寿命有限且很难获得实时供电。此外，IoT设备自身拥有的计算和存储资源可能不足以处理某些大型任务，需要具有较强处理能力的设备提供计算支持。针对上述问题，研究者提出了一种新兴的计算范式，即移动边缘计算(Mobile Edge Computing，MEC)，以扩展IoT设备的计算能力。在所考虑的挑战性环境中，地面基础设施分布稀疏，无法为IoT设备提供稳定可靠的计算支持，需要研究基于灵活部署的无人机(Unmanned Aerial Vehicle，UAV)的计算卸载。

中国专利“CN114745389A移动边缘计算***的计算卸载方法”设计了一种面向移动边缘计算***的计算卸载方案。此专利为了减少物联网***中的平均信息年龄，首先分析在物联网设备端的状态更新任务，获取计算任务对边缘设备的计算资源需求和空间需求，计算在本地以及在边缘服务器端的时延，再进一步得到每个设备的信息年龄以及整个***的信息年龄；根据每个设备本身的任务需求和环境条件，选择信息年龄最优计算卸载策略；提出基于博弈论信息年龄最优的计算卸载方案，每一轮迭代所有设备竞争更新卸载策略的机会，直到所有设备的卸载策略达到收敛，得到最终的计算卸载方法，有效减少***的平均信息年龄，以满足不同类型物联网设备的信息新鲜度需求。但该技术方案在具有挑战性或者地面基站稀疏的区域，如森林、山区以及水下位置，面对大量计算密集型和延迟敏感型任务时，该方案倾向于将任务交于本地处理，无法通过稀疏部署的边缘服务器为相关IoT设备提供足够的计算支持，这将增加电量有限的IoT设备的能耗；此外，考虑到IoT设备的移动性，该方案也无法提供稳定实时的计算支持。

中国专利“CN114124955A一种基于多智能体博弈的计算卸载方法”设计了一种基于二阶段多智能体博弈的计算卸载方法。此专利针对5G混合双网模式，建立网络信道模型，根据香农定理计算用户的信道传输速率，根据所述信道传输速率，计算用户进行任务卸载的时延和能耗；根据Stackelberg博弈建立边缘卸载模型，将所述专网用户视为领导者，将所述公网用户视为跟随者，以卸载量为策略，设定所述专网用户的效用函数和所述公网用户的效用函数；在完全信息博弈情况下，验证Stackelberg均衡的存在，并求解所述专网用户和所述公网用户的第一最优卸载策略；在不完全信息博弈情况下，采用TSDRL算法求得第二最优卸载策略，并利用所述第一最优卸载策略评估所述第二最优卸载策略的收敛性。该技术方案在地面基站分布稀疏的场景中，考虑优化任务卸载量，忽略了整体的***延迟和能耗，所以此方案方法无法为一些挑战性场景中的用户提供高体验质量。

发明内容

为解决上述技术问题，本发明的目的是提供一种物联网设备的联合定位与计算支持方法，在地面基站分布稀疏和具有挑战性的环境中，降低物联网设备的定位能耗，保护物联网设备的隐私性，并为物联网设备提供稳定可靠的计算支持。

本发明提供一种物联网设备的联合定位与计算支持方法，包括如下步骤：

步骤1：收集IoT设备与通信范围内锚节点的距离信息和锚节点的剩余电量信息，获得每个IoT设备的可用锚节点集合；

步骤2：针对可用锚节点数量小于3的情况，根据目标IoT设备的通信范围构建其辅助IoT设备集合，并计算目标IoT设备和所有辅助IoT设备之间的距离信息；

步骤3：IoT设备将收集到的信息发送给UAV，UAV根据位置和距离信息构建定位模型，通过加权最小二乘和半正定松弛将定位问题转换为半正定规划问题，最后采用凸优化工具求解目标IoT设备的位置坐标；

步骤4：UAV边缘服务器动态规划飞行轨迹和分配计算资源以处理卸载的任务请求，目标是最小化***总能耗和延迟，采用深度强化学习方法来得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策；

步骤5：UAV边缘服务器通过逐次凸逼近的方法得到最优下行功率分配决策，目标是最大化最小下行吞吐量；

步骤6：UAV执行最优联合决策以支持IoT设备的卸载请求，同时执行最优下行功率分配决策以提升***的下行吞吐量。

一种物联网设备的联合定位与计算支持方法，至少具有以下有益效果：

1、本发明利用移动边缘计算技术，将边缘服务器部署在UAV上，构建可移动的边缘服务器，能够主动规划运动轨迹以更好地支持IoT设备的卸载任务、增加计算支持***的灵活性、提升UAV的计算资源利用率。解决了IoT设备因成本限制无法搭载高成本的全球定位***、以及因地面基站分布稀疏和挑战性环境无法获得稳定可靠的通信与计算支持的难题。

2、本发明提出的物联网设备的联合定位和计算支持技术方案中的联合定位方法可获得较准确的实时定位信息，其计算支持方法加速了网络训练速度、提高了任务完成率、提升了***的资源利用率。本发明在实验中同时对算法收敛性能、***总时延和能耗、任务未完成比例、平均卸载任务数据量大小、无人机计算资源利用率等性能指标进行了评价，均达到了很好的效果，可大大提高***的实用性。

附图说明

图1为***架构图；

图2为物联网设备的联合定位流程图；

图3为物联网设备的联合定位与计算支持流程图；

图4为均方定位误差随平均锚节点数量的变化图；

图5为定位能耗随平均锚节点数量的变化图；

图6为不同算法的收敛性能对比图；

图7为不同算法的总时延和能耗随网络训练进程的变化图；

图8为不同算法的未完成任务比例随网络训练进程的变化图；

图9a为训练轮数为50时平均卸载任务数据量随任务数据大小的变化图；

图9b为训练轮数为6000时平均卸载任务数据量随任务数据大小的变化图；

图10为状态协调后任务未卸载比例随网络训练进程的变化图；

图11为UAV的计算资源利用率随IoT设备数量的变化图。

具体实施方式

本发明提供一种物联网设备的联合定位与计算支持方法。

首先，根据IoT设备与通信范围内的锚节点的距离信息和锚节点的剩余电量信息，获得可用锚节点集合，针对可用锚节点数量稀少的情况，根据IoT设备与通信范围内其他IoT设备的距离信息，获得辅助IoT设备集合。此外，IoT设备根据可用锚节点和辅助IoT设备中的位置与距离信息通过几何方法求解自身位置坐标。

然后，利用移动边缘计算技术和部署了搭载边缘服务器的UAV执行飞行轨迹规划、任务卸载和计算资源分配，为IoT设备提供计算支持并最小化***总能耗和延迟的加权和。UAV智能体以分布式方式进行训练，通过协调归一化方法解决状态冲突问题，加速训练过程。

最后，执行UAV智能体训练得到的联合轨迹规划、任务卸载和计算资源分配动作，同时利用逐次凸逼近技术得到最优下行功率分配决策并执行。

本发明的物联网设备的联合定位与计算支持方法，能够为物联网设备提供较强的计算资源扩展，增加计算支持***的灵活性，提升***的资源利用效率。

如图1所示，本发明的网络模型分为设备层和服务器层两层。其中，设备层包括大量具有计算密集型和延迟敏感型任务的IoT设备，这些任务包括灾害预警、长管道基础设施检测、水下基础设施检测和军事行动等。IoT设备按照高斯马尔科夫随机运动模式移动并以一定的概率随机产生任务请求。IoT设备的计算资源十分有限，可以将复杂的任务尽可能卸载到边缘服务器进行处理。此外，IoT设备附近固定部署有一定数量的锚节点用于定位。服务器层包括多个部署有边缘服务器的UAV，每个UAV接收来自IoT设备的卸载请求，同时规划飞行轨迹以更好地为IoT设备提供计算支持。

本发明方案主要包括物联网设备的联合定位和计算支持两大部分。其中，如图2所示，物联网设备的联合定位主要包括收集锚节点能耗信息、获得IoT设备与锚节点之间的距离信息、形成可用锚节点集合与辅助IoT设备集合、采用几何方法获得定位坐标等步骤。如图3所示，计算支持包括确定联合任务卸载、UAV轨迹规划和计算资源分配决策，以及确定最优下行功率分配决策等步骤。具体包括：

步骤1：收集IoT设备与通信范围内锚节点的距离信息和锚节点的剩余电量信息，获得每个IoT设备的可用锚节点集合，步骤1具体为：

步骤1.1：为IoT设备u_i构建用于定位的候选锚节点集合

其中包括u_i通信范围内的所有锚节点；

步骤1.2：IoT设备u_i向候选锚节点发送定位请求信号q_i，其中包含IoT设备的唯一标识和定位请求信息；

步骤1.3：定位请求信号到达候选锚节点后，锚节点n_k根据请求的发送时间戳和到达时间戳，计算对应的IoT设备u_i与锚节点n_k之间的欧氏距离d_ik，并将自身标识信息、请求到达的时间戳信息、与IoT设备的距离信息、自身的位置信息以及剩余电量信息返回给IoT设备；

步骤1.4：针对集合

中的候选锚节点，IoT设备u_i根据收集到的锚节点剩余电量信息筛选其中剩余电量大于阈值e的锚节点，形成可用锚节点集合/>

并计算可用锚节点集合中锚节点的个数c_i。

步骤2：针对可用锚节点数量小于3的情况，根据目标IoT设备的通信范围构建其辅助IoT设备集合，并计算目标IoT设备和所有辅助IoT设备之间的距离信息，步骤2具体为：

步骤2.1：为IoT设备u_i构建辅助IoT设备集合

其中包括u_i通信范围内的所有IoT设备；

步骤2.2：IoT设备u_i向辅助IoT设备发送定位请求信号q_i，其中包含IoT设备u_i的唯一标识和定位请求信息；

步骤2.3：定位请求信号到达辅助IoT设备后，辅助IoT设备u_j根据请求的发送时间戳和到达时间戳，计算自身与对应的IoT设备u_i之间的欧氏距离d_ij，并将自身标识信息、请求到达的时间戳信息、与IoT设备u_i的距离信息等信息返回给目标IoT设备u_i。

步骤3：IoT设备将收集到的信息发送给UAV，UAV根据位置和距离信息构建定位模型，通过加权最小二乘和半正定松弛(SDR)将定位问题转换为半正定规划(SDP)问题，最后采用凸优化工具求解目标IoT设备的位置坐标，步骤3具体为：

步骤3.1：对于每个IoT设备，定位问题被定义为在给定可用锚节点和辅助IoT设备位置的情况下，根据含有测量噪声和NLOS场景噪声的测量距离来估计目标IoT设备的位置，构建IoT设备的定位模型如下：

其中，d_ik表示IoT设备u_i到锚节点n_k或辅助IoT设备u_k的观测距离，

表示IoT设备u_i到锚节点n_k或辅助IoT设备u_k的真实距离，n_ik是服从均值为0，方差为σ²的高斯分布的测量噪声，m_ik是NLOS场景噪声，且m_ik＞＞n_ik；/>

为可用锚节点集合，/>

为辅助IoT设备集合；用集合/>

存放IoT设备彼此之间的距离信息，集合/>

存放IoT设备和锚节点之间的距离信息。

步骤3.2：定位模型的两边平方，省略远小于剩余项的

同时令

上述定位模型可转化为：/>

步骤3.3：设IoT设备坐标为

锚节点坐标为/>

其中/>

为IoT设备集合，/>

为锚节点集合，根据步骤3.2得到的定位模型，对未知参数S_i和p_ik利用加权最小二乘法来估计，转换成如下非线性的加权最小二乘问题：

其中，权值参数w_ik＝1/(d_ik·σ_ik)²，σ_ik表示测量噪声对应的方差，当

来自集合/>

时，/>

当/>

来自集合/>

时，/>

步骤3.4：引入辅助变量

即/>

且/>

可将定位问题转换如下：

步骤3.5：利用SDR放松约束，结合舒尔补定理，将步骤3.4中的非凸问题转化为SDP问题，并通过凸优化工具，如CVX求解，经过不断迭代获得值较为稳定的IoT设备定位坐标S_i。

至此，IoT设备的定位过程结束。接下来，在每个时隙t，IoT设备在卸载任务的同时将自身位置发送给UAV，使UAV能够更好地为其提供计算支持。

步骤4：UAV边缘服务器动态规划飞行轨迹和分配计算资源以处理卸载的任务请求，目标是最小化***总能耗和延迟，采用深度强化学习方法来得到计算任务卸载、UAV轨迹规划和UAV计算资源分配的联合决策，步骤4具体为：

步骤4.1：定义UAV计算支持***的总延迟和能耗加权和，然后以最小化***总能耗和延迟为目标联合优化卸载决策、UAV路径规划决策和UAV计算资源分配决策；

本发明提出了基于深度强化学习的联合优化方案，优化目标为***总能耗和延迟的加权和，包括IoT设备产生的传输和计算能耗、传输和计算延迟，以及UAV边缘服务器产生的飞行和计算能耗、计算延迟：

其中，t用于指示时隙，m用于指示UAV，n为总时隙长度，M为无人机数量，α为计算卸载比例变量，U为UAV位置坐标，f为计算资源分配变量，

是为了让时延t与能耗E保持在同一个量级；T_t ^m表示UAVv_m的计算延迟及其所处理任务请求对应的传输与计算延迟总和，即任务总时延，/>

表示UAV飞行能耗与计算能耗及其所处理任务请求对应的传输与计算能耗总和。

UAV分配给IoT设备的计算资源f_t ^i，m能超过自身的最大计算资源

其中，任务的总时延T_t ^m不能超过其最大容忍时间

其中，UAV具有如下关于飞行速度的限制：

为UAV飞行速度，v_min和v_max为UAV飞行速度下限值和上限值。

步骤4.2：每个UAV边缘服务器部署深度强化学习模块作为智能体，定义对应于联合优化问题的马尔可夫决策过程，包括智能体Agent、环境状态State、动作Action、奖励Reward，为UAV边缘服务器端的神经网络学习与训练提供基础；

Agent：每个UAV边缘服务器被视为一个Agent，考虑环境对Agent而言是完全可观测的，观测值与状态等价。每个Agent都包含Actor和Critic网络，分别充当动作策略者和策略评论者。其中，Critic价值网络的参数为μ，其目标网络对应的参数为μ^-；Actor策略网络的参数为θ，其目标网络对应的参数为θ^-。

State：包括IoT设备信息和UAV边缘服务器信息，将UAV边缘服务器v_m在时隙t观测到的状态定义为

其中，f_t ^m是UAV在时隙t的空闲计算资源，

是UAV在时隙t的位置坐标，R_t,u是IoT设备的上行传输速率向量，C_t是IoT设备的任务信息集合，Req_t是IoT设备的卸载请求集合且该集合中的元素满足/>

其中0表示不发送卸载请求，1表示发送请求，-1表示状态协调后的请求。

Action：包括卸载比例决策、计算资源分配决策以及UAV的下一时隙位置坐标，将UAV边缘服务器v_m在时隙t执行的动作定义为

其中/>

通过UAV飞行过程中的速度夹角改变量/>

和速度大小/>

来表示，将a_t重新定义为

Reward：Agent执行动作时，***将从一个环境状态转移到另一个环境状态并获得奖励，奖励会引导每个Agent到达其最优策略。奖励函数的定义通常和***的优化目标相关，因此，将奖励函数定义为能耗和时延加权和的相反数：

其中，取相反数是为了将成本转换成奖励，使用log(·)函数是为了平滑奖励，

是当多个Agent针对同一IoT设备产生不同的卸载动作从而出现状态冲突的惩罚。

步骤4.3：每个UAV边缘服务器的Agent通过Actor策略网络选择一个动作a_t；

步骤4.4：Agent执行步骤4.3得到的动作a_t，并观察奖励r_t和下一个状态s_t+1；

步骤4.5：Agent将经验元组R(s_t,a_t,r_t,s_t+1)存放到经验缓冲区中，并采样经验缓冲区中的小批量经验来更新神经网络以加速训练过程，通过最小化策略目标函数来更新主Actor网络，通过最小化损失函数更新主Critic网络；

步骤4.6：Agent在每个时隙通过软更新策略更新目标Actor网络和目标Critic网络；

步骤4.7：针对IoT设备处于多个UAV覆盖区域，相关Agent状态冲突导致的动作冲突问题和输入状态元素之间的幅度差异问题，每个Agent产生动作后进行通信，对于产生冲突动作的情况，在其奖励中加入相应的惩罚，以实现状态的协调归一化；

步骤4.8：Agent不断重复步骤4.3-4.6进行试错与学习，最终得出最优的任务卸载、UAV轨迹规划和计算资源分配的联合决策{α,U,f}。

步骤5：UAV边缘服务器通过逐次凸逼近的方法得到最优下行功率分配决策，目标是最大化最小下行吞吐量，步骤5具体为：

步骤5.1：定义UAV计算支持***的最小平均下行传输速率，以优化下行功率分配，从而提高下行吞吐量；

其中，P_d为下行传输功率分配变量，

表示IoT设备任务被卸载到UAV边缘服务器处理的比例，/>

为IoT设备u_k与UAV边缘服务器v_m之间的下行传输速率，定义如下：

其中，W表示带宽，

表示噪声功率，/>

表示信道增益，/>

表示UAVv_m的传输功率，有/>

表示其它的UAV在时隙t造成的同信道干扰。

通过引入辅助变量R_dmin，将问题重新定义为最大化最小平均下行传输速率问题：

其中，UAV边缘服务器的下行传输功率不能超过其规定的最大下行传输功率：

步骤5.2：利用下行传输功率中对数函数的性质和一阶泰勒展开式将最大化最小平均下行传输速率问题转化为凸问题，利用逐次凸逼近算法SCA，在每次迭代中求出最优功率值，直到连续两次迭代的最优值之差小于某个阈值，实现最大下行吞吐量的优化，进而优化下行传输功率分配。

步骤6：UAV执行最优联合决策以支持IoT设备的卸载请求，同时执行最优下行功率分配决策以提升***的下行吞吐量，步骤6具体为：

步骤6.1：UAV根据步骤4中得到的飞行轨迹规划决策调整自身的飞行轨迹，并根据步骤4中的任务卸载决策和计算资源分配决策处理IoT设备的卸载任务请求。

步骤6.2：UAV根据步骤5中得到的最优下行功率分配决策将任务结果传回IoT设备，通过最大化最小下行传输功率来提高***的下行吞吐量。

下面结合具体实验平台和实验结果详细阐述本发明的技术方案。

本发明仿真实现基于Matlab和PyCharm平台，考虑1000m×1000m的IoT设备工作区域，其中，部署了3架无人机边缘服务器，100个IoT设备的初始位置服从均匀分布，30个锚节点采用均匀随机分布的方式固定在所考虑的区域中，采用节点的高斯马尔科夫随机运动模型模拟IoT设备的移动性，无人机在固定高度飞行并为IoT设备提供计算支持。IoT设备的计算频率大小在[0.1,0.5]GHz内均匀分布，任务的数据量大小I^k在[100,1000]KB内均匀分布，单位任务数据量所需的计算资源γ^k在[500,1000]cycles/bit内均匀分布，无人机的最大计算资源容量设置为20GHz，飞行速度均匀分布在[10,15]m/s。实验模拟了6000个时隙，在每个时间段内，IoT设备以0.99的概率产生计算任务，UAV将根据上一时间段产生的动作悬停到指定位置，接收卸载任务后继续飞行，同时处理计算任务，因此，IoT设备和UAV的位置在不同时间段内是动态变化的。参数列表如表1所示：

表1参数设置

其中，K是IoT设备数量，M是UAV数量，N是锚节点数量，φ₁和φ₃都是与IoT设备硬件有关的常量参数，η是奖励的折扣率，θ是Actor网络参数，μ是Critic网络参数，

是无人机v_m的最大计算资源，/>

表示UAVv_m的最大下行传输功率，/>

表示噪声功率。

同时本发明在仿真实现时设置了对比算法。针对定位算法，为了评价定位位置和实际位置的均方定位误差(Root Mean Squared Error，RMSE)和IoT设备的定位能耗，分别对最小二乘法、基于SDR的单设备定位法、基于SDR的多设备定位法以及本专利提出的联合定位法在Matlab平台上进行对比实验。

图4显示了测量噪声σ²＝1时，定位位置和实际位置的均方定位误差随IoT设备周围平均锚节点数的变化情况。联合定位法得到的RMSE低于其他对比算法，这是因为联合定位法同时具备基于SDR的单设备定位法和基于SDR的多设备定位法的优势，可以根据锚节点的分布情况自适应调整算法。

图5显示了IoT设备的平均定位能耗随IoT设备周围平均锚节点数的变化情况。我们的定位能耗与最小二乘法相近，远低于其它对比算法，原因是联合定位方法运用了最小二乘原理，并且当锚节点数量增多时，联合定位方法会逐渐偏向使用基于SDR的单设备的定位方法，从而实现节能。

针对任务卸载、UAV计算资源分配和轨迹规划的联合优化算法，为了评价算法收敛性、总能耗和时延的加权和、任务未完成比例、平均卸载任务数据量大小、状态协调后未卸载的任务占协调任务的比例、以及UAV计算资源利用率，分别对采用惩罚机制的深度确定性策略梯度算法(PF-DDPG)、采用惩罚机制的深度Q网络算法(PF-DQN)、贪婪算法(Greedy)以及本专利提出的基于状态协调归一化的多代理深度强化学***台上进行对比实验。

图6显示了各算法的收敛性能，用UAV智能体总奖励的变化情况来表征。从图中可以看出，随着时隙的增加，Greedy方法的奖励没有太大的幅度变化，其他深度强化学习方法的奖励逐渐变大最终趋于稳定，并且训练稳定后的奖励大于Greedy方法获得的奖励。此外，相较于其他两种深度强化学习算法，我们的算法收敛速度更快且获得的总奖励高，因为MASC-DDPG方法考虑了多个UAV智能体的状态协调归一化，以及DQN方法的速度在产生的动作量化个数增加时收敛速度下降明显。

图7显示了总能耗和时延的加权和随训练时间的变化。可以看出，随着时隙的增加，Greedy方法的总能耗和时延的加权和没有太大的幅度变化，其他深度强化学习方法的总能耗和时延的加权和逐渐下降最终趋于稳定，并且在训练稳定后小于Greedy方法的总能耗和时延的加权和。此外，相较于其他两种深度强化学习算法，我们的算法总能耗和时延的加权和更小。

图8显示了任务的未完成比例的变化情况。从图中可以看出，随着时隙的增加，任务未完成比例逐渐减小，收敛后达到最小值。MASC-DDPG算法相比其他算法能够达到更少的未完成比例，并且幅度波动较小，性能比较稳定。

图9a和9b显示了在不同的训练轮数、不同的任务数据量下IoT设备到UAV的平均卸载任务数据量大小。由图9a可以得出，在训练轮数为50时，Greedy算法的平均卸载任务数据量最高，其他基于深度强化学习的算法卸载比例较小。由图9b可以得出，当训练轮数达到6000时，基于深度强化学习的算法的卸载任务量高于Greedy算法。这是因为在初始阶段，训练效果还未显现，当训练达到稳定状态时基于深度强化学习的算法将根据奖励选择尽可能地卸载任务。

图10显示了在协调状态后，MASC-DDPG算法产生的动作中未卸载的任务占协调任务的比例。可以得到，初始的未卸载比例在0.47左右，随着训练的进行逐渐减少，最终收敛到了0.05左右。经过分析可知，在奖励函数中添加针对未卸载动作的惩罚因子后，网络在训练时将不断趋向于卸载任务，使得状态协调后动作中任务未卸载的情况显著减少。

图11显示了UAV计算资源利用率随IoT设备数量的变化情况。从图中可以看出，随着IoT设备数量的增加，计算资源利用率逐渐增加并趋于稳定。因为UAV的计算资源有限，当IoT设备数量增加时，总任务数量随之增加，UAV分配给任务的计算资源最终将接近其最大计算资源容量，此时资源利用率无法继续升高。从图中还可以看出，我们的计算资源利用率最高。

考虑到IoT设备的硬件限制和移动性，我们首先提出了基于半正定松弛和到达时间的联合定位算法。然后，针对多IoT设备数量和多UAV的复杂物联网场景，提出了MASC-DDPG算法，考虑多个UAV智能体的状态协调归一化以减少状态冲突与动作冲突，提高网络训练的收敛速度。实验结果表明，本专利提出的方案可以对IoT设备进行较精确的实时定位，与对比算法相比实现了最低的定位误差和最低的定位能耗。本专利提出的方案缩短了网络训练的收敛时间，有效降低了***总能耗和时延的加权和，提高了平均卸载任务数据量，提升了UAV的计算资源利用率，为IoT设备提供了动态、可靠的计算支持。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。