CN115866787A

CN115866787A - 融合终端直传通信和多接入边缘计算的网络资源分配方法

Info

Publication number: CN115866787A
Application number: CN202211334660.4A
Authority: CN
Inventors: 姜华; 窦增; 丛犁; 黄成斌; 隋吉生; 李佳; 葛晓楠; 苏丛哲
Original assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Current assignee: State Grid Jilin Electric Power Corp; Information and Telecommunication Branch of State Grid Jilin Electric Power Co Ltd
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-03-28

Abstract

本发明提供一种融合终端直传通信和多接入边缘计算的网络资源分配方法，属于电网***数据传输和设备巡检技术领域，包括：迭代选择终端直传通信的设备；根据选择的设备，利用预先训练好的基于DDQN的深度强化学习框架的资源分配策略进行卸载位置和频谱资源的选择。本发明通过MEC实现多级卸载，同时利用D2D通信技术实现通信资源的复用和分布式调度；建立了联合网络吞吐量、功耗和计算时延等指标的***效益函数，提出了在链路干扰和功率约束条件下的效益最大化问题，实现最优的卸载选择和资源分配；采用基于DDQN的深度强化学习框架实现5G资源块分配和计算卸载的联合优化，实现网络吞吐量最大化，降低了计算时延。

Description

融合终端直传通信和多接入边缘计算的网络资源分配方法

技术领域

本发明涉及电网***数据传输和设备巡检技术领域，具体涉及一种基于深度强化学习的融合终端直传通信和多接入边缘计算的分布式网络资源分配方法。

背景技术

第五代移动通信技术(5th Generation Mobile Communication Technology,5G)高可靠、大连接和低延迟特性将赋能电力行业快速发展。随着智能电网的发展，利用5G和机器学习算法实现变电站智能化、高效巡检具有重要的实际意义。其中，终端直传通信(Device to Device,D2D)和多接入边缘计算(Mobile edge computing，MEC)等关键技术可有效提升5G服务智能电网的能力，但是需要解决D2D频谱复用和干扰条件下的通信资源优化分配问题。

MEC可在靠近终端设备的无线接入网内提供下沉的云计算能力。应用程序和服务在移动网络的边缘运行，减少了服务延迟和移动核心网络其他部分的拥塞。Wenhe Li等人基于云计算和边缘计算，提出带电作业机器人智能管控方法。通过设置变电站带电作业机器人工作的典型场景，实例验证了提出的智能控制方法可以满足变电站任务的计算能力要求。D.Han等人使用无人机作为边缘节点辅助进行物联网设备任务卸载和中继，通过联合优化无人机位置、任务卸载率和卸载用户分配获得最大***安全容量，提出基于深度强化学习对智能巡检任务分配机制进行训练，降低任务卸载的时延和能耗。然而以上的MEC策略卸载只针对卸载位置和计算能力对卸载时延和能耗进行了优化，没有考虑通信资源的分配和优化问题。针对变电站传输环境的复杂性、数据及其卸载方式的多样化问题，需要研究高效的无线资源分配和调度机制，以满足数据卸载时互不干扰、稳定可靠的传输需要。

D2D通信与无线网络结合形成的新型基于认知的D2D网络，通过频谱资源复用，获得临近增益和信道复用增益，从而提高5G通信网路的数据传输效率，满足设备并发接入的需要。与MEC***不同，分布式计算的D2D网络具有更复杂的拓扑管理需求，需要高效的资源调度策略。针对上行链路蜂窝网络中的协作D2D通信资源优化问题，在能耗约束条件下，以网络平均吞吐量最大化为目标，对频谱和功率资源进行优化分配。Emna Fakhfakh等人提出了一种基于新标准的D2D模式选择方案，通过引入与资源分配相关的噪声参数，最大限度地提高***吞吐量和蜂窝流量卸载效率。此外研究者采用博弈论，分析认知D2D网络能效最大化的资源分配问题，在用户通信干扰门限约束下实现能效和谱效的均衡。还有以进化理论为基础研究D2D用户接入蜂窝网络的模式和资源分配问题，实现了D2D总用户数据速率最大。以上资源优化方法在数据量较小时可以获得最优解，当***资源数量较多时，算法求解复杂度加大，深度强化学习在解决资源优化问题中展示了良好的性能。在信道干扰条件下，利用D2D技术实现频谱复用，完成巡检设备数据的可靠性传输和MEC网络资源的高效利用是亟待解决的关键性问题，也是本实施例研究的重点。

发明内容

本发明的目的在于提供一种基于深度强化学习的融合终端直传通信和多级边缘卸载的网络资源分配方法，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

本发明提供一种融合终端直传通信和多接入边缘计算的网络资源分配方法，包括：

迭代选择终端直传通信的设备；

根据选择的设备，利用预先训练好的基于DDQN的深度强化学习框架的资源分配策略进行卸载位置、频谱资源和功率资源的选择；

其中，资源分配模型的训练包括：

随机初始化策略，启动环境模拟器，生成终端直传通信的设备、巡检目标和集成多接入边缘计算的基站；初始化Q-network和Target Q-network，生成初始权重；

迭代选择终端直传通信的设备，根据资源优化策略选择卸载位置，确定要传输的功率和频谱；

环境模拟器根据ε-greedy从Q-network选择动作，进入新的状态，根据当前的频谱占用计算网络吞吐量和能耗，根据设定的奖励函数生成奖励并计算新的Q值，将计算的网络吞吐量、能耗以及更新的Q值保存在Experience Replay；

从Experience Replay中取样数据进行网络训练；每隔一段时间更新Target Q-network的权重，直至LOSS函数收敛，得到最终训练好的资源分配模型。

优选的，资源优化策略包括综合考虑吞吐量、能耗和计算时延指标要求，建立基于综合效益函数最大化的资源优化分配模型为：

s.t.C1:

C2:

其中，变电站内M个巡检设备配合完成巡检工作，Μ∈{1,2,…M}表示M个巡检设备构成的集合，对应有M条设备到基站的传输链路；C_m表示第m个设备到基站传输链路的容量；

表示第m个设备的第i个接收机的容量；τ_m表示计算时延；α_k,m表示信道复用系数，当第k个设备到设备的传输链路重复使用第m个设备到基站传输链路的频谱时，则α_k,m＝1，否则α_k,m＝0；χ_{[j,m′][m,i]}＝1表示第j个巡检设备的第m′个接收机和第m个巡检设备的第i个接收机使用相同的频谱资源，否则χ_{[j,m′][m,i]}＝0；P_m表示第m条设备到基站传输链路的传输功率；

表示第k条设备到设备传输链路的传输功耗；/>

表示第m个设备任务卸载时的功耗；P′表示设备到设备传输链路的电路功耗；/>

表示第m个设备能提供的最大发射功率；/>

表示第m个设备到第m′个设备的传输链路的传输功率；/>

是第j个巡检设备到第m′个巡检设备的D2D链路传输功率；/>

表示信道所能容忍的峰值干扰功率；/>

表示第j个巡检设备到第m′个巡检设备的D2D链路的干扰功率增益。。

优选的，在已知发射功率p_m和噪声功率σ²的条件下，第m个设备到基站传输链路的信干噪比γ_m与设备到设备传输链路的频谱资源分配相关：

其中κ＝{1,2,…,K＝M·(M-1)/2}表示所有可能的链路集合；P_m和

分别是第m条设备到基站(D2B)链路和第k条设备到设备(D2D)传输链路的传输功率，h_m是对应第m个设备到基站传输链路信道的功率增益，h_k表示第k条D2D传输链路的干扰功率增益；当第k个D2D链路重复使用第m个D2B链路的频谱时，则α_k,m＝1，否则α_k,m＝0。

根据信干噪比表达式，第m个设备到基站传输链路容量C_m为：

C_m＝w·log₂(1+γ_m)

其中w为子信道带宽。

优选的，对于第m个巡检设备的第i个接收机，其信干噪比

表示为：

其中，

是第m个巡检设备的第i个接收机的传输功率，g_m,i是第m个巡检设备的第i个接收机的功率增益；/>

是接收到信号中的噪声功率，ρ是复用同一资源块的设备到基站传输链路的干扰功率，ρ_D是所有设备到设备传输链路共享相同资源块的总干扰功率；

其中

表示频谱复用系数，/>

表示第n个设备到基站传输链路和第m个巡检设备的第i个接收机共享同一频谱，否则/>

是第n个设备到基站传输链路的干扰功率增益；P_n为设备到基站传输链路的传输功率；

其中

是第j个巡检设备到第m′个巡检设备的传输链路传输功率；/>

是第j个巡检设备到第m′个巡检设备的D2D链路干扰功率增益。χ_[j,m'],[m,i]＝1表示第j个巡检设备的第m′个接收机和第m个巡检设备的第i个接收机使用相同的频谱资源，否则χ_[j,m'],[m,i]＝0。

最终，第m个巡检设备的第i个接收机的容量为：

优选的，在满足设备到基站传输链路的速率和时延约束条件下，综合考虑设备到设备传输链路和设备到基站传输链路，网络吞吐量为：

则***的总耗E为：

其中，τ_m为计算时延，

为计算功耗，则当任务在本地进行计算时，处理时延为：

其中u_m为本地计算数据量；ξ_m为D2D设备的计算复杂度，即处理1bit数据所需中央处理器周期数；f_m表示设备的CPU频率。

根据本地计算量和巡检设备的CPU参数，可计算设备任务卸载时的功耗

为：

其中，κ_m表示开关电容因子，η_m是系数因子。

优选的，由于功耗会对网络吞吐量产生影响，在奖励函数中需要对功耗和吞吐量做出一个均衡调整，计算时延条件作为一种惩罚来减少对奖励的影响，奖励函数为：

令

表示***的能效，则***奖励函数可简化为：

利进行归一化处理之后为：

其中，采用均衡因子λ均衡功耗和吞吐量，得到加权的效益函数。

优选的，定义DDQN的状态空间S＝V_t×C_t×G_t×H_t-1；其中，V_t＝{v₁,v₂}表示卸载位置，v₁表示本地卸载，v₂表示集成MEC服务器卸载；C_t＝{c₁,c₂,……c_g}表示g个子信道的信息集合，c_g＝0表示当前子信道未被占用，c_g＝x表示子信道在当前时刻被重复占用x次；G_t＝{g₁,g₂,……,g_v}表示v个链路功率增益的集合；前一时隙中接收到的干扰信号强度H_t-1，表示在每个子频道本地观察结果。

优选的，DDQN的动作选择包括卸载位置、频谱和功率信息；定义动作A＝{a₁，A₂，a₃}，其中a₁∈{0，1}，a₁＝0表示选择本地卸载，a₁＝1表示选择集成MEC服务器卸载；A₂表示信道选择向量，是被分配的子信道的集合；a₁∈{p₁,...p_i,...p_l}，a₁＝p_i表示为第i个分配功率为p_i，l为子信道数量；代理选择动作后与环境交互生成奖励并更新状态。

优选的，Loss函数采用均值平方误差函数：

本发明有益效果：通过MEC实现多级卸载，同时利用D2D通信技术实现通信资源的复用和分布式调度，建立了联合网络吞吐量、功耗和计算时延等指标的***效益函数，提出了在链路干扰和功率约束条件下的效益最大化问题，实现最优的卸载选择和资源分配；采用基于DDQN的深度强化学习框架实现5G资源块分配和计算卸载的联合优化，实现网络吞吐量最大化，降低了计算时延。

本发明附加方面的优点，将在下述的描述部分中更加明显的给出，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的D2D辅助MEC网络的***模型示意图。

图2为本发明实施例所述的巡检设备数量对效益函数的影响示意图。

图3为本发明实施例所述的巡检设备数量对***吞吐量的影响示意图。

图4为本发明实施例所述的子载波数量对***吞吐量的影响示意图。

图5为本发明实施例所述的巡检设备和子载波数量对MEC卸载概率的影响示意图。

图6为本发明实施例所述的奖励函数随episode的变化示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例

本实施例中，针对5G技术在变电站巡检设备应用中存在的问题，考虑MEC和D2D技术的各自特点，提出了一种D2D辅助的MEC网络卸载算法，通过MEC实现多级卸载，同时利用D2D通信技术实现通信资源的复用和分布式调度。为了实现最优的卸载选择和资源分配，建立了联合网络吞吐量、功耗和计算时延等指标的***效益函数，提出了在链路干扰和功率约束条件下的效益最大化问题。最后采用基于DDQN的深度强化学习框架实现5G资源块分配和计算卸载的联合优化，实现网络吞吐量最大化，尽可能降低计算时延。

基于D2D的MEC***资源分配模型如图1所示，考虑带有集成MEC服务器的基站范围内存在某变电站，变电站内M个巡检设备配合完成巡检工作，对应有M条D2B链路。设备集合和设备到基站(Device to Base Station,D2B)链路集合定义为

巡检设备可通过D2D通信方式获取其他巡检设备的位置信息。巡检设备采集传感数据，可以选择在本地设备上或者卸载至基站(D2B链路)进行处理。在基站处的干扰更可控，上行链路资源使用更少，因此假设每条消息都有一组接收机机进行处理，可分别与其他设备进行通信(接收机的总数不超过M个)。D2B链路的上行链路频谱与D2D链路进行复用。

无线资源的分配分为时域和频域两个维度。时域维度主要是每个传输时间间隔(Transmission Time Interval,TTI)上的资源分配。频域维度上将总带宽划分为若干个等带宽子信道，需要进行子频道的分配。单个TTI与单个子信道构成***资源块(ResourceBlock,RB)，是设备数据传输时需要的最小无线资源单元。因此，对D2B链路的干扰来自背景噪声和来自共享同一子带的D2D链路信号。

在已知发射功率和噪声功率σ²的条件下，第m个D2B链路的信干噪比γ_m与D2D链路的频谱资源分配密切相关，可以表示为：

其中κ＝{1,2,…,M·(M-1)/2}表示所有可能的链路集合；P_m和

分别表示第m条D2B链路和第k条D2D链路的传输功率；h_m是对应第m个D2B信道的功率增益，h_k表示第k条D2D链路的干扰功率增益；α_k,m表示信道复用系数，当第k个D2D链路重复使用第m个D2B链路的频谱时，则α_k,m＝1，否则α_k,m＝0。

根据信干噪比表达式，第m个D2B链路容量C_m为：

C_m＝w·log₂(1+γ_m) (2)

其中w为子信道带宽。

同理，对于第m个巡检设备的第i个接收机，其信干噪比

表示为：

式(3)中，

是接收到的噪声功率，ρ是复用同一RB的D2B链路的干扰功率，ρ_D是所有D2D链路共享相同RB的总干扰功率。

式(3)中的ρ如(4)所示：

其中

表示频谱复用系数，/>

表示第n个D2B链路和第m个巡检设备的第i个接收机共享同一频谱，否则/>

是第n个D2B链路的干扰功率增益；_Pn为D2B链路传输功率。

式(3)中的ρ_D如(5)所示：

其中

是第j个巡检设备到第m′个巡检设备的D2D链路传输功率；/>

是第j个巡检设备到第m′个巡检设备的D2D链路干扰功率增益；χ_{[j,m′][m,i]}也表示频谱复用系数，χ_{[j,m′][m,i]}＝1表示第j个巡检设备的第m′个接收机和第m个巡检设备的第i个接收机使用相同的频谱资源，否则χ_{[j,m′][m,i]}＝0。

最终，第m个巡检设备的第i个接收机的容量为：

根据网络数学模型，D2D技术通过频谱复用提高了资源的利用率，但是也不可避免带来链路干扰。因此，在满足D2B链路的速率和时延约束条件下，要尽可能提升D2D链路的质量。综合考虑D2D和D2B链路，D2D辅助的MEC网络吞吐量可以表示为：

本实施例中，***能耗和计算模型如下：

巡检设备大多是功率受限的，因此需要考虑MEC任务计算和卸载的功耗。由于集成MEC服务器部署在网管中心、是有源的，可忽略MEC服务器的功耗限制，本实施例重点计算巡检设备的功耗。

定义D2D设备电路功耗为P′，D2D设备的传输功耗为

计算功耗为/>

则MEC***的总耗E与D2D巡检设备的各种功耗直接相关，表示为：

计算时延是任务处理另一个关键指标，与巡检设备或服务器的计算资源密切相关，计算资源越多，处理时延越小。任务卸载主要分为两个层次，D2D设备本地卸载和集成MEC服务器卸载。对比本地卸载，集成服务器端的供能和计算能力较强，本实施例算法优化时重点考虑本地卸载产生的计算时延和功耗。

定义τ_m为计算时延，

为计算功耗，则当任务在本地进行计算时，处理时延为：

其中u_m为本地计算数据量；ξ_m为D2D设备的计算复杂度，即处理1bit数据所需中央处理器周期数；f_m表示D2D巡检设备的CPU频率。

为/>

式中κ_m表示开关电容因子，η_m是系数因子。

本实施例中，资源优化分配模型具体如下：

考虑到D2D巡检设备电池容量的限制，其发射功率不能无限大，因此传输功率满足如下约束：

其中

为第m个D2D巡检设备能提供的最大发射功率。

此外，由于干扰功率会对D2D设备造成影响导致传输中断，影响通信质量，在资源分配的过程中还需要满足干扰功率的约束：

其中

表示信道所能容忍的峰值干扰功率，其它变量的定义与式(5)相同。

从智能巡检数据传输和任务执行角度考虑，本实施例中的资源优化算法需要在功率和干扰等基本约束条件下，提升D2D辅助的MEC网络吞吐量，并通过合理的任务卸载和资源分配算法保证传感数据的计算时延最小。因此，综合考虑吞吐量、能耗和时延等指标要求，建立了基于综合效益函数最大化的资源优化分配模型，如下所示：

s.t.C1:

C2:

由于容量、功耗和时延等指标的取值范围不同，度量存在差异，在优化求解的过程中需要进行归一化处理。对原始数据x进行归一化后得到结果

具体方法为：

其中x_max为数据最大值，x_mid为数据最大值的一半。

上述优化问题是一个混合整数非线性规划问题，同时多个优化变量互相耦合，即使在所有统计分布下也很难使用传统的凸优化方案进行求解。此外，观测值与最优资源分配解之间的关系往往是隐式的，难以用解析方法建立。因此，提出一种基于深度强化学习(Deep Reinforcement Learning,DRL)框架的卸载决策优化和资源分配算法，利用观测值与最优资源分配之间的隐式关系，实现状态和***进行在线交互。

DDQN算法具体如下：

深度强化学习综合强化学习的决策能力和深度神经网络强大的数据分析能力^[16]，可以解决Q-Learning算法中当状态空间较大时所带来的维度***问题。更新的数学表达式为：

其中，R_t+1是奖励，s_t+1是下一状态，a是选择的动作，γ是对R的衰减因子，

是Q网络的参数。

DQN算法在更新

时选取最大值，这种max操作使得值函数被过高估计。因此可以采用双网络来选择动作和评估当前状态价值^[10]，即DDQN算法。算法更新过程如下：

其中θ_t和

分别为Q网络和Target Q网络的参数。DDQN从Q网络以贪婪方式选择动作，在Target Q网络中评估Q值。

本实施例中，提供的基于DDQN的优化策略具体为：

D2B链路存在严格的延迟和可靠性要求，在DDQN中，这些约束直接表示为奖励函数。本实施例所提出的资源管理方案的目标是确保满足D2B链路的延迟约束，同时最小化D2D链路对D2B链路的干扰。

由于功耗会对网络吞吐量产生影响，在奖励函数中需要对功耗和吞吐量做出一个均衡调整。计算时延条件作为一种惩罚来减少对奖励的影响。奖励函数可以表示为：

令

表示***的能效，则***奖励函数可简化为如下形式：

进行归一化处理之后为：

可以看出，奖励函数与效益函数相似但不完全相同，我们用一个均衡因子λ均衡功耗和吞吐量，得到一个加权的效益函数。同样的，数据需要进行归一化处理，处理规则与公式(14)相同。

与资源分配相关的观测是信道和干扰信息。定义DDQN的状态空间S＝V_t×C_t×G_t×H_t-1，其中:

1)V_t＝{v₁,v₂}表示卸载位置，v₁表示本地卸载，v₂表示集成MEC服务器卸载；2)C_t＝{c₁,c₂,……c_g}表示g个子信道的信息集合，c_g＝0表示当前子信道未被占用，c_g＝x表示子信道在当前时刻被重复占用x次；3)G_t＝{g₁,g₂,……,g_v}表示表示v个链路功率增益的集合；4)前一时隙中接收到的干扰信号强度H_t-1，表示在每个子频道本地观察结果，还包括邻居共享的信息，例如上一时隙中邻居选择的信道索引。

DDQN的动作选择包括卸载位置，频谱和功率信息。定义动作A＝{a₁，A₂，a₃}，其中a₁∈{0，1}，a₁＝0表示选择本地卸载，a₁＝1表示选择集成MEC服务器卸载。A₂表示信道选择向量，是被分配的子信道的集合。a₁∈{p₁,…p_i,…p_l}，a₁＝p_i表示为第i个分配功率为p_i，l为子信道数量。代理选择动作后与环境交互生成奖励并更新状态。根据设定的奖励函数、状态空间和动作来进行DDQN算法的实践，具体的环境设置和参数在下文进行介绍。

本实施例提供的资源优化分配方法如下：

分为两个阶段，培训和测试阶段。通过环境模拟器和代理之间的交互生成训练和测试数据，用于优化Q-network和Target Q-network。开始阶段每个训练样本包括s_t、s_t+1、a_t和r_t，生成经验池Experience Replay，动作选择采用ε-greedy，以10％的概率随机选择动作，90％的概率选择Q值最大的动作。

环境模拟器包括D2D设备和集成MEC服务器及其通道，其中D2D设备位置是随机生成的。通过选择D2D链路的频谱和功率，模拟器可以向代理提供s_t+1和R_t。训练阶段的每次迭代中，从Experience Replay中采样50个数据，这样可以抑制生成数据的时间相关性。然后通过Q-network选择动作，利用Target Q-network进行评估并更新权值，Loss函数采用均值平方误差函数：

每个D2D链路的频谱和功率选择策略的初始化是随机的，效用函数利用Q-network进行迭代计算。在测试阶段，根据训练后的网络选择D2D链路中的动作，并据此进行评估。

资源优化分配的主要步骤包括以下几个部分：

1)***建模：共M个D2D设备，巡检目标和一处带有集成MEC服务器的基站。

2)参数定义：定义信道、衰落和噪声等参数(具体数值见表1)，定义***资源参数或变量(优化目标)。

3)指标计算：根据模型和参数，计算第m个D2B的信干噪比；D2B链路容量；计算第m个D2D设备的第i个接收机的信干噪比和容量；网络吞吐量和功耗等指标。

4)算法描述：然后利用双网络DQN进行信道和功率分配，具体流程总结如下：

/>

本实施例中，提供了对上述资源分配方法的仿真与分析：

仿真配置为：仿真基于python的Tensorflow 1.0框架。考虑500m×500m的变电站环境，M个D2D巡检设备随机生成，带有集成MEC服务器的基站在距离变电站中央2km的位置。信道采用莱斯模型，仿真参数如表1所示。

网络模型采用BP神经网络，包括一个输入层、三个隐藏层和一个输出层。三个隐藏层的神经元个数分别为64、128和128，激活函数为Rule函数。

表1 D2D辅助MEC网络参数

将本实施例提出的DDQN算法与MEC-U算法和随机算法Random进行比较，其中MEC-U算法表示任务均在集成MEC服务器进行卸载，其余部分与本实施例算法保持一致；Random算法表示通信资源和卸载位置随机选择。结果如图2所示，显示本实施例所采用的算法具有良好的性能。

在巡检设备数量较小时，***所提供的资源数量可以满足通信需求，此时两种算法带来的***效益函数接近。随着巡检设备数量的增加，通信需求增加导致资源数量紧缺，频谱资源的复用导致效用函数较小，但是相对于MEC-U算法和Random算法，本实施例提出的DDQN框架通过深度挖掘干扰与分配策略之间的隐形关系，优化资源分配策略来减少信道干扰，同时通过卸载决策来减少计算延迟，使效益函数保持在较高水平。数据仿真结果表明，本实施例提出的DDQN算法具有一定的可靠性和有效性。

图3显示了***吞吐量和巡检设备数量之间的关系，并与MEC-U和Random选择进行比较。结果显示，***吞吐量随巡检设备数量的增加先增加后减少，这是由于巡检设备数量较少时，***资源得不到充分利用，网络中待传输的数据量有限。***吞吐量在巡检设备数量达到一定数量后减少是因为网络资源有限导致信道干扰增加。DDQN算法得到的卸载和资源分配策略明显优于MEC-U和Random分配，通过合理选择卸载位置和高效的调度策略，可以更好的对抗信道干扰，具有优良的性能。

随后本实施例研究了***吞吐量随子载波个数的变化，并与Random和AFSA算法进行了比较。结果如图4所示，子载波数量越多，***吞吐量越大。这是因为当资源足够时，信道之间的干扰较少，数据更多的选择在集成MEC服务器进行卸载计算，***吞吐量增加。而本实施例提出的DDQN算法相对于AFSA算法和Random算法的资源分配策略更优，***的信道干扰更少，吞吐量更大。

本实施例研究了巡检设备数量和子载波数量d对卸载策略的影响，结果如图5所示。选择在集成MEC服务器卸载的概率随子载波数量的增加而增加，随巡检设备数量的增加而减小。这是因为资源相对于通信需求较宽松时，选择集成MEC服务器卸载可以减少计算时延，当资源相对紧缺时，***间的干扰增加，任务更多的选择本地卸载来减少干扰保证***的可靠性和有效性。

图6研究了不同算法的奖励的训练结果，可以看出DDQN算法可以在训练集中进行动作的选择，从而提高奖励，可以挖掘资源分配和奖励之间的隐性关系，比随机分配具有更高的奖励，展现了良好的性能。

在电力智能巡检过程中，通过MEC将资源下沉可以缓解核心网的压力，提供快捷的计算服务。本实施例针对巡检设备之间互联互通的需求，将MEC和D2D技术相结合，建立D2D辅助的MEC网络，为了减少不同链路之间的干扰，建立了以吞吐量、功耗和计算时延为指标的5G资源优化问题，通过DDQN框架进行了求解并仿真验证了算法的有效性。在之后的工作中，我们会对不同巡检设备的数据传输进行博弈计算，并对行驶轨迹进行优化设计。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，包括：

迭代选择终端直传通信的设备；

根据选择的设备，利用预先训练好的基于DDQN的深度强化学习框架的资源分配策略进行卸载位置和频谱资源的选择；

其中，资源分配策略的训练包括：

环境模拟器根据ε-greedy方法从Q-network选择动作，进入新的状态，根据当前的频谱占用计算网络吞吐量和能耗，根据设定的奖励函数生成奖励并计算新的Q值，将计算的网络吞吐量、能耗以及更新的Q值保存在Experience Replay；

2.根据权利要求1所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，资源优化策略包括综合考虑吞吐量、能耗和时延指标要求，建立基于综合效益函数最大化的资源优化分配模型为：

s.t.C1:

C2:

其中，变电站内M个巡检设备配合完成巡检工作，对应有M条设备到基站的传输链路；C_m表示第m个设备到基站传输链路的容量；

表示第m个设备的第i个接收机的容量；τ_m表示计算时延；α_k,m表示信道复用系数，当第k个设备到设备的传输链路重复使用第m个设备到基站传输链路的频谱时，则α_k,m＝1，否则α_k,m＝0；χ_{[j,m′][m,i]}＝1表示第j个巡检设备的第m′个接收机和第m个巡检设备的第i个接收机使用相同的频谱资源，否则χ_{[j,m′][m,i]}＝0；P_m表示第m条设备到基站传输链路的传输功率；/>

表示第k条设备到设备传输链路的传输功耗；/>

表示第m个设备能提供的最大发射功率；/>

表示第m个设备到第m′个设备的传输链路的传输功率；

是第j个巡检设备到第m′个巡检设备的D2D链路传输功率；/>

表示信道所能容忍的峰值干扰功率；/>

表示第j个巡检设备到第m′个巡检设备的D2D链路的干扰功率增益。

3.根据权利要求2所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，在已知发射功率和噪声功率σ²的条件下，第m个设备到基站传输链路的信干噪比γ_m与设备到设备传输链路的频谱资源分配相关：

其中κ＝{1,2,…,K＝M·(M-1)/2}表示所有可能的链路集合；h_m是对应第m个设备到基站传输链路信道的功率增益，h_k表示第k条设备到设备传输链路的干扰功率增益；

根据信干噪比表达式，第m个设备到基站传输链路容量C_m为：

C_m＝w·log₂(1+γ_m)

其中w为子信道带宽。

4.根据权利要求3所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，对于第m个巡检设备的第i个接收机，其信干噪比

表示为：

其中，

是接收到的噪声功率，ρ是复用同一资源块的设备到基站传输链路的干扰功率，ρ_D是所有设备到设备传输链路共享相同资源块的总干扰功率；

其中

表示频谱复用系数，/>

是第n个设备到基站传输链路的干扰功率增益；P_n为设备到基站传输链路传输功率；

其中

是第j个巡检设备到第m′个巡检设备的传输链路传输功率；/>

是第j个巡检设备到第m′个巡检设备的D2D链路干扰功率增益。

最终，第m个巡检设备的第i个接收机的容量为：

5.根据权利要求4所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，在满足设备到基站传输链路的速率和时延约束条件下，综合考虑设备到设备传输链路和设备到基站传输链路，网络吞吐量为：

则***的总耗E为：

其中，τ_m为计算时延，

为计算功耗，则当任务在本地进行计算时，处理时延为：

/>

为：

其中，κ_m表示开关电容因子，η_m是系数因子。

6.根据权利要求5所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，由于功耗会对网络吞吐量产生影响，在奖励函数中需要对功耗和吞吐量做出一个均衡调整，计算时延条件作为一种惩罚来减少对奖励的影响，奖励函数为：

令

表示***的能效，则***奖励函数可简化为：

利进行归一化处理之后为：

7.根据权利要求6所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，定义DDQN的状态空间S＝V_t×C_t×G_t×H_t-1；其中，V_t＝{v₁,v₂}表示卸载位置，v₁表示本地卸载，v₂表示集成MEC服务器卸载；C_t＝{c₁,c₂,……c_g}表示g个子信道的信息集合，c_g＝0表示当前子信道未被占用，c_g＝x表示子信道在当前时刻被重复占用x次；G_t＝{g₁,g₂,……,g_v}表示v个链路功率增益的集合；前一时隙中接收到的干扰信号强度H_t-1，表示在每个子频道本地观察结果。

8.根据权利要求7所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，DDQN的动作选择包括卸载位置，频谱和功率信息；定义动作A＝{a₁，A₂，a₃}，其中a₁∈{0，1}，a₁＝0表示选择本地卸载，a₁＝1表示选择集成MEC服务器卸载；A₂表示信道选择向量，是被分配的子信道的集合；a₁∈{p₁,…p_i,…p_l}，a₁＝p_i表示分配功率为p_i，l为子信道数量；代理选择动作后与环境交互生成奖励并更新状态。

9.根据权利要求8所述的融合终端直传通信和多接入边缘计算的网络资源分配方法，其特征在于，Loss函数采用均值平方误差函数：

/>