CN113873022A

CN113873022A - 一种可划分任务的移动边缘网络智能资源分配方法

Info

Publication number: CN113873022A
Application number: CN202111112170.5A
Authority: CN
Inventors: 沈斐; 唐亮; 卜智勇; 赵宇; 其他发明人请求不公开姓名
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2021-09-23
Filing date: 2021-09-23
Publication date: 2021-12-31

Abstract

本发明涉及一种可划分任务的移动边缘网络智能资源分配方法，包括：对终端产生的串行任务进行划分得到多个子任务，并建立卸载任务模型；根据本地或卸载两种执行方式，为所述子任务分别建立时延和能耗模型，定义基于多用户串行依赖型任务的卸载联合目标优化函数；在多服务器场景下，根据多用户对无线通信和计算资源的合作竞争关系建立马尔科夫博弈模型，优化所述卸载联合目标优化函数；在时变环境中，每位终端基于部分***状态信息作为单独的智能体执行强化学习算法对所述马尔科夫博弈模型求解，确定卸载策略、子信道选择、发射功率以及资源分配量。本发明有利于合理分配服务器资源并充分使用碎片化资源，保证终端用户体验，提升网络运行的稳定性。

Description

一种可划分任务的移动边缘网络智能资源分配方法

技术领域

本发明涉及边缘计算和人工智能技术领域，特别是涉及一种可划分任务的移动边缘网络智能资源分配方法。

背景技术

随着通信技术的不断发展，新兴的互联网交互式应用大量涌现，这些应用程序对于数据传输、移动设备的计算能力以及时延的要求不断提高，因而不适宜在算力较差、电池容量有限的智能设备上执行。此外，单一的云架构要求数据进行长距离传输，难以满足下一代通信框架下超密集无线网络中终端侧对于低时延、大宽带的需求。为此，移动边缘计算技术作为边缘计算中的一种具体实现模式，成为解决上述问题的重要方案。移动边缘计算(MEC,Mobile Edge Computing)将云的部分服务能力下沉到用户附近的边缘节点，为用户提供计算、缓存等资源服务。用户可以将部分计算密集型任务卸载到边缘节点的服务器上执行，降低数据传输过程中产生的时间延迟，缓解骨干网络的传输压力，保证任务的有效执行。

由于MEC服务器资源有限，进行边缘计算任务卸载的众多设备间存在计算和通信资源的竞争，目前，已有不少针对任务卸载与资源分配问题的研究工作，如申请号为202010171454.0的专利文件公开了一种基于移动边缘计算场景下的任务卸载方法，其根据待处理的任务信息和***实时参数信息确定***开销最小化的优化目标方程；将优化目标方程分解为两个子问题：任务卸载和信道分配子问题以及传输功率和边缘服务器资源分配子问题；并对子问题进行求解得到最终的任务卸载方案，实现***整体开销最小化。但这种方法面向单服务器卸载场景，问题求解维度较高，无法满足密集网络中的多终端需求，算法扩展性较差。

现有技术的不足主要体现在四方面，一是场景过于简单，多数研究面向单/多终端单服务器场景，考虑了设备之间的计算与通信资源竞争问题，但忽略卸载服务器的选择、服务器间负载均衡、资源调度分配等问题；二是卸载任务不可划分，现有研究局限于不可拆分的原子型任务0-1卸载，忽略可划分任务间潜在的并行性，无法有效利用服务器的碎片化资源。三是优化目标过于单一，仅考虑时延和能耗两方面，忽略了影响***性能的其他因素，如不同紧急程度的任务需要被区别处理；最后，中央式卸载策略对动态环境的适应性较差，基于收集到的全局信息作出统一的决策，中央控制节点需要承受巨大的计算和流量压力，容易成为整个***的瓶颈。

发明内容

本发明所要解决的技术问题是提供一种可划分任务的移动边缘网络智能资源分配方法，有利于合理分配服务器资源并充分使用碎片化资源，而且有利于提高任务卸载执行性能，保证终端用户体验，提升网络运行的稳定性。

本发明考虑并解决如下技术难题：

1)多终端多服务器的任务卸载场景既存在用户之间的计算与通信资源竞争，也存在卸载服务器的选择、服务器间负载均衡、资源调度分配等问题，相比单/多终端单服务器场景，复杂度较高；

2)串行任务间有严格的约束关系，需要依次执行，不能打乱执行顺序。需要为每个选择卸载策略的子任务确定合适的子信道、发射功率以及计算资源量；

3)优化目标函数的设计需要满足不同任务的时延需求、紧急程度。在***状态时变的环境中，分布式自组织地解决多终端的卸载问题，减少多终端环境的不稳定性，同时确保每位终端用户的长期奖励。

本发明解决其技术问题所采用的技术方案是：提供一种可划分任务的移动边缘网络智能资源分配方法，包括以下步骤：

(1)对终端产生的串行任务进行划分得到多个子任务，并建立卸载任务模型；

(2)根据本地或卸载两种执行方式，为所述子任务分别建立时延和能耗模型，定义基于多用户串行依赖型任务的卸载联合目标优化函数；

(3)在多服务器场景下，根据多用户对无线通信和计算资源的合作竞争关系建立马尔科夫博弈模型，优化所述卸载联合目标优化函数；

(4)在时变环境中，每位终端基于部分***状态信息作为单独的智能体执行强化学习算法对所述马尔科夫博弈模型求解，确定卸载策略、子信道选择、发射功率以及资源分配量。

所述步骤(1)中的多个子任务之间具有相互依赖关系，且所述多个子任务之间存在数据交互。

所述步骤(1)中建立卸载任务模型时，规定每个子任务只能卸载到某一个MEC服务器上执行，但一个应用中的不同子任务能够卸载到不同的MEC服务器上；当相邻子任务卸载到相同或者不同MEC服务器上时，前一个子任务的输出数据通过有线连接传递到下一个子任务所卸载的MEC服务器。

所述步骤(2)中的卸载联合目标优化函数为P:

其中，T_i表示完成第i个子任务的时延，E_i表示完成第i个子任务的终端能耗，δ_i表示第i个子任务的优先级，χ₁,χ₂表示时延和能耗所占的权重，且χ₁,χ₂∈[0,1]，χ₁+χ₂＝1，所述卸载联合目标优化函数满足以下约束条件：约束条件1，应用子任务的执行位置为本地或边缘服务器；约束条件2，任务的入口子任务和出口子任务只能在本地执行；约束条件3，子任务只有等待其前驱子任务执行完成才能开始执行；约束条件4，每个子任务只能选择一种子信道频率向服务器传输数据；约束条件5，所有选择向边缘服务器卸载的子任务所能分配的计算资源总量不得超过其最大资源拥有量；约束条件6，终端设备向边缘服务器输入数据时的发射功率不得超过其最大发射功率。

所述步骤(3)具体为：确定可知状态空间、动作空间以及奖赏函数；将多终端的任务卸载和资源分配决策过程建模为马尔科夫决策过程，即在每个时隙，终端观察其本地环境状态，然后根据本地环境状态采用的不同策略独立采取行动；根据任务执行情况，每个智能体都会得到环境反馈的奖励，根据所有相关智能体的行动，转移到新状态；将所有耦合终端的决策过程建模为马尔科夫博弈过程，即在任何时隙处，每个终端的目标是采取最佳行动，同时最大化长期奖励。

所述步骤(4)具体为：每个终端作为单独的智能体，将除自身外的所有变化作为环境；每个终端独立运行Actor-Critic强化学习框架；所有终端基于当前部分环境数据训练，通过强化学习算法选择最佳卸载和资源分配策略，从而达到收敛状态；终端根据卸载策略将子任务分发至卸载策略指定的服务器节点，并基于资源分配策略获得合适的资源量。

所述Actor-Critic强化学***方值，损失函数指导参数的更新过程；所述Actor网络的训练基于策略函数Policy-based函数，根据输入的状态来输出动作或者动作的概率，所述Actor网络采用Monte-Carlo更新模式，即每执行一次动作后，进行一次更新；所述Actor网络的损失函数基于所述Critic网络计算出的时间差分误差设计。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明考虑多终端同时提交卸载请求的竞争关系和任务卸载与服务器资源分配之间的相互影响，以任务优先级、应用的平均完成时间和移动终端的平均能量消耗作为评价指标，本发明将边缘网络中多个自私且耦合的用户间联合任务卸载与资源分配机制公式化为一个随机博弈。每个用户通过观察其本地网络环境，分布式地学习最佳卸载决策，其目标是通过选择子信道、发射功率以及所分配的计算资源量，在无需了解全部状态信息的情况下，提高任务执行性能。设计一种多智能体强化学习框架来解决随机博弈问题。该策略遵循先来先服务原则，合理分配边缘服务器的资源，减少任务在服务器上的等待时间，从而使用户得到更好的任务卸载结果，提高用户体验和应用性能。

附图说明

图1是本发明实施方式中面向多终端多服务器的超密集网络任务卸载场景图；

图2是本发明实施方式的流程图；

图3是本发明实施方式中的多终端多服务器场景下的串行任务卸载模型图；

图4是本发明实施方式中基于多智能体强化学习算法的Actor-Critic架构图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的实施方式涉及一种可划分任务的移动边缘网络智能资源分配方法，包括以下步骤：对终端产生的串行任务进行划分得到多个子任务，并建立卸载任务模型；根据本地或卸载两种执行方式，为所述子任务分别建立时延和能耗模型，定义基于多用户串行依赖型任务的卸载联合目标优化函数；在多服务器场景下，根据多用户对无线通信和计算资源的合作竞争关系建立马尔科夫博弈模型，优化所述卸载联合目标优化函数；在时变环境中，每位终端基于部分***状态信息作为单独的智能体执行强化学习算法对所述马尔科夫博弈模型求解，确定卸载策略、子信道选择、发射功率以及资源分配量。

本发明在满足子任务间依赖关系的前提下，合理调度子任务，充分利用用户本地和服务器碎片化资源，提高应用程序性能和终端用户体验，解决边缘服务器通信和计算资源受限时的多终端任务卸载问题。将网络中多个自私用户的任务卸载机制公式化为随机博弈过程。设计一种多智能体强化学***均完成时延和终端平均能耗。

下面结合图2对这一过程做详细具体的说明。

S1，移动终端产生的串行任务划分与卸载模型建立

应用程序可自动划分为多个具有相互依赖关系的子任务，子任务之间存在数据交互，本发明以存在依赖约束关系的串行移动应用程序为研究对象。移动终端集合表示为MDs＝{1,2,…,N}，其中N表示提交卸载请求的数量。假设每位终端用户所产生的应用程序任务统一可划分为n个子任务，任务集合表示为Task＝{1,2,…,n}。假设子任务0和子任务n+1为虚拟子任务，表示数据输入和结果输出的子任务，且固定在本地执行。假设每个应用程序由四元组表示＜MD_i,d_i,c_i,δ_i＞,i∈MDs，其中MD_i代表应用程序由终端i产生，d_i＝{d_i,1,d_i,2,...,d_i,n}表示终端i的每个子任务输入数据的大小，c_i＝{c_i,1,c_i,2,...,c_i,n}表示为计算该子任务所需要的CPU周期，δ_i表示该终端产生应用程序的任务优先级。本发明采用线性链表L＝{V,ED}来表示子任务之间的依赖关系，每个节点j∈V示移动应用程序的一个子任务，每条有向边e(j-1，j)∈ED表示子任务j-1和子任务j之间的依赖关系。第j个子任务能够开始执行，除了要分配有足够的计算、存储和网络资源外，还需其前驱子任务j-1已执行完成，子任务卸载模型如图3所示。

假设该***在时隙结构上运行，将时间范围分成多个时隙。在每个时隙k，每位最终用户使用各自的本地观察信息来分布式选择任务执行决策。

边缘服务器部署在靠近移动终端的网络边缘，为任务卸载提供计算、网络和存储等服务。考虑图1所示的超密集网络中部署在不同位置的多边缘服务器场景，服务器集合表示为S＝{1,2,...,|S|]。每个服务器可以表示为一个三元组:＜s,F_s,B_s＞,s∈S，其中，s表示服务器的编号；F_s为服务器s的最大计算能力，表示每秒执行的指令数；B_s表示当前时刻移动终端与边缘服务器通信的网络带宽；上行信道资源被平均划分为K_s个子信道，卸载子任务根据策略选择第k个子信道上传卸载数据。假设所有服务器的处理能力和传输能力均一致，并不会随着任务量的上升而改变。

终端不断地收集数据并执行计算密集型任务，对于每个终端运行的应用程序，其卸载策略可以表示为一个n维向量:X_i＝{x_i,1,x_i,2,...,x_i,n}，其中，x_i,j＝0表示应用i的子任务j在本地执行，x_i,j＝s,s∈S表示子任务卸载到边缘服务器s执行。

对于每个终端运行的应用程序，其信道资源分配策略可以表示为一个n维向量:

其中

代表应用i的子任务j是否通过第k个子信道将卸载数据传输到边缘服务器x_i,j上。当x_i,j＝0时，任务在本地执行，此时

对于每个终端运行的应用程序，其计算资源分配策略可以表示为一个n维向量：

其中

x_i,j＝s代表边缘服务器s为应用i的子任务j分配ψF_s的计算资源，其中F_s表示边缘服务器s的最大计算资源拥有量。x_i,j＝0时有

规定每个子任务只能卸载到某一个MEC服务器上执行，但一个应用中的不同子任务可以卸载到不同的MEC服务器上。当相邻子任务卸载到相同或者不同MEC服务器上时，前一个子任务的输出数据通过有线连接传递到下一个子任务所卸载的MEC服务器，传输能耗为0。

S2，根据本地或卸载两种执行方式，为子任务分别建立时延和能耗模型，定义联合目标优化函数

S21，本地执行时间模型建立

本地执行表示子任务(i,j)在移动终端上执行，ST_i,j,FT_i,j分别表示子任务(i,j)的开始执行时间和结束时间。其中，ST_i,j表示为：

ST_i,j＝FT_i,j-1+T_i,j-1,j,others，

其中，T_i,j-1,j表示子任务(i，j-1)和(i，j)之间的数据传输时间:

其中，d_i,j-1表示子任务(i,j-1)和(i,j)之间数据传输的大小。

采用正交频分多址技术作为上行接入方案，对于服务器s，其工作频段B_s被划分为K_s个等分频段。为了确保与同一个服务器相关联的用户应用之间的上行链路传输的正交性，每个用户被分配到一个子频段，以将数据传输到边缘服务器。因此服务器s可以同时服务最多K_s个用户。每个用户和服务器都有一个用于上行链路传输的天线。令

表示子带k,k∈[1,K_s]上用户i和服务器s之间的上行链路信道增益，捕获路径损耗、阴影和天线增益的影响。p_i,j代表用户i将子任务j请求上传到服务器时的无线传输功率，有0≤p_i,j≤p_max，当x_i,j≠s时，p_i,j＝0。由于传输到同一服务器的用户使用不同的子频段，因此可以忽略上行小区内干扰，但这些用户仍然受到小区间干扰的影响。在这种情况下，子带k上用户i到服务器s的信噪比表示为：

其中，σ²为背景噪声方差；

表示子带k上与其他服务器相关联的所有用户在小区内的累积干扰。由于用户i的每个子任务j仅在单个子带上传输数据，所以用户i的子任务j向服务器s发送数据时的速率为：

其中，B_i,j,s表示由环境干扰和用户冲突削减后的实际通信带宽。

当用户在本地执行其任务时，假设此时用户可以将全部的计算资源用于子任务执行。f_i ^l表示终端用户i的总计算能力，用

表示子任务(i,j)在本地执行的时间，则：

其中c_i,j表示应用i的第j个子任务所需的CPU周期。

因此，子任务(i,j)在用户本地完成时间为

S22，卸载执行时间模型建立

卸载执行包括三个阶段：通过上行链路将请求传输到MEC服务器的时间，在MEC服务器上执行任务的时间以及通过下行链路将任务执行结果从MEC服务器返回用户的时间。由于结果的大小通常比请求小得多，而下行数据速率比上行数据速率高得多，这里省略结果传输的延迟。

子任务(i,j)在边缘服务器上的开始执行时间同样用ST_i,j表示。每个MEC服务器能够同时为多个子任务提供计算卸载服务。每个MEC服务器提供给关联子任务共享的计算资源由

量化。一个可行的计算资源分配策略必须满足计算资源约束：

用

表示子任务(i,j)在边缘服务器s执行的时间：

因此，子任务(i,j)卸载执行时间为：

对于用户i产生的整个任务来说，其完成时间可以表示为：

T_i＝FT_i,n+1-ST_i,0，

其中0，n+1分别表示任务的入口子任务和出口子任务。

S23，计算能耗模型建立

本发明的建模仅考虑边缘用户的能量消耗，因为终端用户设备通常由能量有限的电池供电，对耗能较为敏感；而边缘服务器通常与基站等边缘网关相连，由电网交流电供电，对计算及通信的能耗要求较为宽松。

在整个串行任务边缘卸载的过程中，终端用户设备的能量消耗来源于两部分：计算能量消耗和无线通信能量消耗，可表示为：

其中E_i是用户i在边缘卸载过程中的总能量消耗，

是子任务本地计算导致的能量消耗，

表示用户与边缘服务器无线通信导致的能量消耗。

采用计算周期的能耗模型

表示。其中τ是依赖芯片结构的能量系数，设置

f表示当前CPU频率。因此，应用i在本地执行子任务j时的计算能耗

计算为：

于是，移动用户i完成整个任务的总计算能耗等于所有本地执行子任务的计算能耗之和，即：

S24，传输能耗模型建立

传输能耗主要是移动终端用户和边缘服务器之间进行数据传输产生的，对于某用户i产生的应用程序，当存在两个相邻子任务都在移动本地或边缘服务器上执行时，传输能耗为零；只有当两个相邻子任务在不同的位置执行时，才存在数据传输能耗。移动终端用户i发送子任务j时将数据传输到边缘服务器上产生的能耗表示为：

因此，移动终端用户i完成整个任务的总传输能耗表示为：

因此，***中所有终端用户总的能量消耗可表示为：

S25，联合任务执行时间模型和能耗模型，定义基于多终端串行任务的卸载目标优化函数

时延和能耗是任务执行的两个关键。如果最终用户选择卸载其计算任务，则它必须从网关要求频谱和计算资源，从而减少了其他用户可以分配的资源。而且较大的发射功率意味着较高的传输速率，较小的传输延迟，但对其他终端用户的干扰更大。上述基于串行任务卸载场景下建立的时间模型和能耗模型都受到卸载策略的影响，不能通过独立计算同时达到最小值。本发明设计最佳的联合计算卸载方案，并在最终用户之间提供有效的资源分配解决方案。

联合执行时延、能耗约束和新引入的任务优先级δ，并将这三个维度量化统一成***效用评价卸载性能，同时作为奖励机制来反馈训练神经网络。根据上述计算模型和通信模型的分析，考虑到卸载策略、信道选择策略、传输功率和计算资源分配，将用户i的卸载优化目标函数定义为：

其中***成本函数包含某时刻执行所有任务的时延成本和能耗成本；χ₁，χ₂分别代表任务完成时延和终端能耗所占的权重，有χ₁,χ₂∈[0,1]，χ₁+χ₂＝1。在训练过程中通过调整该参数来确定子效用的倾向性，例如在时延敏感的场景下更关注执行时延，而在能量受限的设备下更关注能量消耗。目标优化函数P满足以下约束条件：

C2:x_i,0＝0,x_i,n+1＝0

其中约束条件C1表示应用子任务的执行位置可以是0或s；C2表明任务的入口子任务和出口子任务只能在本地执行；约束条件C3保证了子任务(i,j)只有等待其前驱子任务(i,j-1)执行完成才能开始执行；约束条件C4限制了每个子任务只能选择一种子信道频率向服务器传输数据；约束条件C5表示所有选择向边缘服务器s卸载的子任务所能分配的计算资源总量不得超过起最大资源拥有量；约束条件C6表示终端设备向边缘服务器输入数据时的发射功率不得超过其最大发射功率。

从以上的优化问题可以确切看出，在多用户多服务器的复杂场景下，优化问题不仅要考虑设备的实际卸载决策，还要考虑边缘服务器对子任务的资源分配方案，而两者又相互耦合、相互影响，同时，由于任务本身的依赖约束，卸载问题变得非常困难。

S3，多服务器场景下，根据多终端对无线通信和计算资源的合作竞争关系建立马尔科夫博弈模型

根据步骤S2中定义的目标优化函数，本发明致力于求解最佳的卸载策略、子信道选择策略、传输功率以及计算资源分配策略，以最小化任务执行过程中的***成本。每个最终用户只能观察本地信息，通过服务器的反馈了解信道状态信息，这形成多智能体马尔科夫博弈模型，也称随机博弈。

随机博弈理论很适合应用在多终端多服务器边缘卸载场景中。多个有兴趣的自私终端在不共享信息的情况下，分布式地选择卸载策略。终端执行相应动作之后，会得到来自***环境反馈的奖赏值，并进入下一状态，下一状态取决于所有终端做出的联合动作。在时变环境下，不断重复上述过程，最终期望收敛到纳什均衡状态。在纳什均衡状态下，任何终端网络中都不可能通过改变策略获得更高的收益，此时网络参数和***长期折扣奖赏达到最优。在考虑的多终端场景中，当多个终端根据策略自主选择卸载行为时，它们会竞争有限的信道和服务器资源，为自身争取到最大收益。根据定义，该场景下的多终端之间的决策形成非合作博弈过程。每个终端都将除自身外的所有变化作为环境的一部分，不考虑其他终端的利益。非合作博弈中，每个终端的卸载行为相互制约，彼此影响。

将每个终端用户的任务卸载和资源分配决策过程都建模为马尔科夫决策过程(MDP,MarkovDecision Process)，以准确描述每个终端用户决策过程。在每个时隙θ，终端用户观察其本地环境状态st_i(θ)∈ST_i，然后根据算法所采用的不同策略独立采取行动a_i(θ)∈A_i。根据任务执行情况，每个智能体都会得到环境反馈的奖励r_i(θ)＝r_i(st_i(θ),a₁(θ),...,a_N(θ))，根据所有相关智能体的行动，转移到新状态st_i(θ+1)∈ST_i。MDP中未来的状态只依赖于当前状态，而与历史状态无关。在任何时隙θ处，每个终端用户的目标是采取最佳行动，同时最大化长期奖励。

下面给出马尔科夫博弈中状态空间、动作空间和奖励函数的确切定义：

1)状态空间：将用户i的状态空间定义为st_i(θ)，包括用户i，其他用户以及MEC服务器的状态信息，如剩余信道资源和计算资源等。因此，***的状态空间定义为：

ST(θ)＝{st₁(θ),...,st_i(θ),...,st_N(θ)}，

其中，st_i(θ)＝{st_i,1(θ),...,st_i,j(θ),...,st_i,n(θ)},i∈MDs,j∈Task_i。

2)动作空间：对于用户i，动作空间a_i,j(k)包含子任务j的卸载决策、发射功率、由MEC服务器分配的上行链路通道以及由MEC服务器分配的计算资源。因此***的动作空间定义为:

A(θ)＝{a₁(θ),...,a_i(θ),...,a_N(θ)}，

其中，a_i(θ)＝{a_i,1(θ),...,a_i,j(θ),...,a_i,n(θ)},i∈MDs,j∈Task_i。

在考虑的多终端IoT边缘计算网络中，每个最终用户i被视为智能体，在每个时隙θ处，其采取的动作包括卸载决策X_i，子信道选择CH_i，发射功率水平选择P_i以及分配到的计算资源F_i，即a_i(θ)∈A_i＝X_i×CH_i×P_i×F_i。因此，计算卸载博弈的动作空间为：

3)奖赏函数：智能体采取行动后，奖励就是环境对智能体的反馈。奖励函数r_i(θ)的设计直接指导学习过程。本发明的目的是根据服务器资源限制和任务执行延迟阈值，将每个用户终端的任务执行成本降至最低。具体来说，***成本被视为问题中的负奖励函数，因此必须在此处最小化长期奖励。奖励是根据任务的约束和目标来设置的，包括优先任务完成，延迟约束和能量消耗，算法确保分配的资源使具有较高优先级的终端应用程序能够较早地完全执行；任务时延和能源消耗越低，奖励越高。

接下来通过在每个时隙选择适当的操作，考虑最小化长期奖励v_i(θ):

其中，λ∈[0,1]表示折扣因子，v_i(θ)表示长期折扣奖励的总和，可用于衡量最终用户i采取的行动，τ是从时隙θ开始的时隙索引。

于是，最终用户i的优化计算卸载问题表示为:

多终端边缘计算网络的计算分流方案的设计包含上述N个子问题，这对应于N个最终用户的所有子任务。每位终端用户都不具有其他终端用户的状态和卸载信息，因此本发明首先使用非合作型随机博弈对该优化问题进行建模，然后提出一种多智能体强化学习框架来解决该问题。

S4，基于已知部分***状态信息，每位终端用户独立执行强化学习算法确定任务卸载策略以及资源分配量，解决博弈难题

利用多智能体深度确定性策略梯度(MADDPG)来找到MDP的最佳策略。MADDPG的核心为Actor-Critic架构，如图4所示。每个智能体的Critic部分能够获取其余所有智能体的动作信息，进行中心化训练和非中心化执行，即在训练的时候引入可以观察全局的Critic来指导Actor训练，而测试的时候只使用有局部观测的Actor采取行动。off-line进行中心化训练，on-line进行非中心化执行。

Critic网络：Critic网络基于Value-based函数，即Q函数。Critic网络的输入包括当前状态、选定动作以及下一步状态。Critic是一个多层全连接的神经网络结构。Critic网络采用Temporal-Difference更新模式，即新的一轮训练开始后,要等待回合结束之后更新参数。Critic估计每一个状态-动作的价值，将时间差分值反馈给Actor。考虑时间差分的计算：td_error＝r+λ*Q(st',a)-Q(st,a)。Critic网络的损失函数定义为时间差分的平方值，损失函数指导参数的更新过程。

Actor网络：Actor网络的训练基于策略函数Policy-based函数，根据输入的状态来输出动作或者动作的概率。Actor同样是一个多层全连接神经网络。网络采用Monte-Carlo更新模式，也就是每执行一次动作后，进行一次更新，而不需要等到回合结束。Actor的损失函数基于Critic计算出的时间差分误差设计。Actor根据softmax函数输出的值选择动作，并根据Critic的评分更新参数和修改动作选择概率。

Actor根据当前state，选择并执行动作。Critic根据当前状态和由动作所产生的环境反馈奖赏值，对Actor的表现打分。在学习初始阶段，Actor随机选择动作，Critic为动作随机打分。由于环境反馈，即奖赏函数的存在，Critic评分越来越准，Actor表现越来越好。在参数更新阶段，Actor依据Critic的打分，更新自己的动作策略，即Actor网络参数。Critic通过计算Q值，根据***给出的奖赏函数来调整自己的打分策略和网络参数。Actor-Critic涉及到两个神经网络，这两个网络相互作用，循环迭代，在连续状态中更新参数，提高网络性能。

本发明中，每个最终用户运行一个独立的Actor-Critic算法，学***均收益率可近似表示预期的累积奖励。通过使用蒙特卡洛学习方法，并通过不同策略对相同的Q函数进行采样来实现。但是，通过抽样完整交互片段来计算均值回报，蒙特卡洛学习变得很复杂。所以时间差分用于在其他估计值的基础上通过学习其估计值来递归更新Q值函数，表示为：

其中，

表示下一时隙的最佳累积收益。α表示学习率，为了保证Q学习的收敛性，将学习率α_k设置为：

其中，α_ini,α_end分别是给定α的初始值和最终值，episodes是学习算法的最大迭代次数。

为了避免出现梯度消失和梯度***的情况，导致模型退化，本发明采取经验重放策略。将智能体放在环境探索过程中获得的经验数据存放在经验池中，在后续训练深度神经网络过程中，随机采样更新网络参数。用户i的经验池可以用M_i＝m^i-M+1,...,mⁱ表示，其中M表示经验池的大小，存放的经验数据元组表示为：

采用ε-贪心法作为动作选择策略，重点解决强化学习中探索与利用的问题，智能体以概率1-ε选择最大Q函数所对应的最优动作，以概率ε∈[0,1]选择随机动作。

不难发现，本发明采用分布式智能强化学习算法来动态地确定多终端可划分串行任务的卸载策略、子信道选择、发射功率和多服务器计算资源分配方案，从而优化任务执行时延和终端能量消耗，提升***效率。

本发明面向多终端多服务器场景，充分考虑多终端的竞争关系和任务卸载与资源分配决策的耦合关系，解决边缘服务器通信和计算资源受限时的多终端任务卸载问题，通过建立计算模型和能耗模型旨在降低任务平均完成时间和终端平均能耗。

本发明建立可划分串行任务模型，设计智能化卸载策略。该策略在满足子任务间依赖关系的前提下，合理调度子任务，充分利用用户本地和服务器碎片化资源，提高性能和用户体验。

本发明定义任务优先级表示任务不同的时效紧急程度，联合任务优先级、任务执行时延与任务执行能耗三个因素定位***成本，通过线性加权的方式将多目标优化归一为单目标优化，建模为一个混合整数非线性规划问题。

本发明设计一种基于多智能体强化学***衡状态。每位用户作为单独的智能体学习并适应环境数据，将其他用户视为环境的一部分。

实验表明，相比于传统的原子型任务0-1卸载策略和中央式任务卸载算法，在不同数目的用户任务、不同数目的边缘服务器场景下，本发明方法能够实现更低的任务执行成本，即有效降低时延和能耗。此外，为任务设置不同的优先级和最大忍耐时间，可以发现，优先级更高的任务能够被更早地调度执行，并且在一定的时间约束下，该算法的任务完成率最高。

Claims

1.一种可划分任务的移动边缘网络智能资源分配方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述步骤(1)中的多个子任务之间具有相互依赖关系，且所述多个子任务之间存在数据交互。

3.根据权利要求1所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述步骤(1)中建立卸载任务模型时，规定每个子任务只能卸载到某一个MEC服务器上执行，但一个应用中的不同子任务能够卸载到不同的MEC服务器上；当相邻子任务卸载到相同或者不同MEC服务器上时，前一个子任务的输出数据通过有线连接传递到下一个子任务所卸载的MEC服务器。

4.根据权利要求1所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述步骤(2)中的卸载联合目标优化函数为P:

5.根据权利要求1所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述步骤(3)具体为：确定可知状态空间、动作空间以及奖赏函数；将多终端的任务卸载和资源分配决策过程建模为马尔科夫决策过程，即在每个时隙，终端观察其本地环境状态，然后根据本地环境状态采用的不同策略独立采取行动；根据任务执行情况，每个智能体都会得到环境反馈的奖励，根据所有相关智能体的行动，转移到新状态；将所有耦合终端的决策过程建模为马尔科夫博弈过程，即在任何时隙处，每个终端的目标是采取最佳行动，同时最大化长期奖励。

6.根据权利要求1所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述步骤(4)具体为：每个终端作为单独的智能体，将除自身外的所有变化作为环境；每个终端独立运行Actor-Critic强化学习框架；所有终端基于当前部分环境数据训练，通过强化学习算法选择最佳卸载和资源分配策略，从而达到收敛状态；终端根据卸载策略将子任务分发至卸载策略指定的服务器节点，并基于资源分配策略获得合适的资源量。

7.根据权利要求6所述的可划分任务的移动边缘网络智能资源分配方法，其特征在于，所述Actor-Critic强化学***方值，损失函数指导参数的更新过程；所述Actor网络的训练基于策略函数Policy-based函数，根据输入的状态来输出动作或者动作的概率，所述Actor网络采用Monte-Carlo更新模式，即每执行一次动作后，进行一次更新；所述Actor网络的损失函数基于所述Critic网络计算出的时间差分误差设计。