CN112422644B

CN112422644B - 计算任务卸载方法及***、电子设备和存储介质

Info

Publication number: CN112422644B
Application number: CN202011205980.0A
Authority: CN
Inventors: 许长桥; 肖寒; 杨树杰; 马云霄
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-08-31
Anticipated expiration: 2040-11-02
Also published as: CN112422644A

Abstract

本发明实施例提供一种计算任务卸载方法及***、电子设备和存储介质，方法包括：发送计算任务卸载请求，以供候选执行者接收到计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；获取当前移动网络的状态信息；基于当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；基于卸载决策，进行计算任务卸载；其中，卸载决策算法模型是基于移动网络的状态信息训练得到的；当前移动网络的状态信息包括：卸载任务信息、与请求者关联的边缘服务器信息以及候选执行者资源分配信息。本发明提供的计算任务卸载方法，能够提高计算任务卸载的灵活性和决策的精准性，有效降低通信节点在任务的卸载与执行过程中的额外开销。

Description

计算任务卸载方法及***、电子设备和存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种计算任务卸载方法及***、电子设备和存储介质。

背景技术

随着科技的快速发展，虚拟现实、直播服务、无人驾驶等具有计算密集、时延敏感需求的新兴应用服务的兴起，移动终端有限的计算能力受到了极大挑战。由于移动设备的计算能力和电池容量有限，而当前应用对计算资源的需求则呈现不断增长的趋势(例如，实时视频文件的转码需求和用于安全驾驶的实时计算等)给云服务平台带来了巨大的服务压力。同时，这种趋势也已成为当前移动用户追求高服务质量的新瓶颈。

为此，计算卸载应运而生。任务产生端借助通信链路将复杂的计算任务交付到位于边缘的服务器或周围的空闲计算设备上。功能强大的新执行者将取代任务产生者执行该计算任务。一方面，用户可以享受足够的计算资源，并就近更快地获取计算结果。另一方面，计算压力可以从集中式的云服务器转移到本地网络。这种卸载方案，可以充分利用当前网络的空闲资源，也使得用户和服务平台都能够从中受益。

现有的移动计算卸载优化策略是根据单一确定的优化目标设计的，但由于计算卸载的过程中会受到如用户的使用习惯、无线电信道的通信情况、回程连接的质量、移动设备的性能和云服务器的可用性等不同因素的影响。现有技术中的计算卸载算法难以适应基于用户为中心或者网络优化为中心的多种计算卸载优化需求以及控制的可扩展性和灵活性要求。

因此，如何提供一种计算任务卸载方法及***、电子设备和存储介质，提高该计算任务卸载方法的灵活性和决策的精准性，有效降低通信节点在任务的卸载与执行过程中的额外开销，成为亟待解决的问题。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种计算任务卸载方法及***、电子设备和存储介质。

第一方面，本发明实施例提供一种计算任务卸载方法，该方法针对请求者，包括：

发送计算任务卸载请求，以供候选执行者接收到所述计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；

获取当前移动网络的状态信息；

基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；

基于所述卸载决策，进行计算任务卸载；

其中，所述卸载决策算法模型是基于移动网络的状态信息训练得到的；所述当前移动网络的状态信息包括：卸载任务信息、与请求者关联的边缘服务器信息以及候选执行者资源分配信息。

可选的，在所述计算任务卸载方法中，所述基于所述卸载决策，进行计算任务卸载，包括：

基于所述卸载决策，确定目标卸载模式、目标计算资源分配以及执行所述卸载任务的节点位置；

根据所述目标卸载模式、目标计算资源分配以及执行所述卸载任务的节点位置，进行计算任务卸载。

可选的，在所述计算任务卸载方法中，所述卸载决策算法模型，包括：策略网络和价值网络；

所述策略网络包括：当前策略网络和目标策略网络；

所述价值网络包括：当前价值网络和目标价值网络；

其中，所述策略网络的输入为移动网络的状态信息，输出为对应的卸载决策；所述价值网络的输入为所述移动网络的状态信息以及所述对应的卸载决策，输出为做出所述对应的卸载决策后期望获取的长期奖励。

可选的，在所述计算任务卸载方法中，所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策，包括：

根据损失函数算法，基于状态效用在预设时间段内的值，计算获得所述当前移动网络在所述预设时间段内的损失梯度；

基于所述当前移动网络在所述预设时间段内的损失梯度，更新所述当前策略网络和当前价值网络；

基于更新后的当前策略网络和当前价值网络，实现所述目标策略网络和所述目标价值网络的渐进式更新；

根据更新后的决策算法模型，基于所述当前移动网络的状态信息，进行卸载决策。

可选的，在所述计算任务卸载方法中，在所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策步骤之前，还包括：

比较所述当前移动网络的状态信息的向量维度与卸载决策算法模型输入向量维度；

若所述当前移动网络的状态信息的向量维度大于卸载决策算法模型输入向量维度，对所述候选执行者资源分配信息进行过滤和/或采样处理；

若所述当前移动网络的状态信息的向量维度小于卸载决策算法模型输入向量维度，向所述候选执行者资源分配信息中填充虚拟节点的资源分配信息。

第二方面，本发明实施例提供一种计算任务卸载方法，该方法针对候选执行者，包括：

接收计算任务卸载请求；

利用进化算法计算得到候选执行者资源分配信息；

将所述候选执行者资源分配信息反馈给请求者，以供所述请求者获取当前移动网络的状态信息，基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策，基于所述卸载决策，进行计算任务卸载；

其中，所述请求者为发送所述计算任务卸载请求的节点；所述候选执行者资源分配信息信息满足所述候选执行者执行所述卸载任务在预设时延阈值范围内卸载开销达到最小的条件；所述资源分配信息包括：传输功率、通信带宽和分配用于执行卸载任务的计算资源。

可选的，在所述计算任务卸载方法中，所述候选执行者利用进化算法计算得到候选执行者资源分配信息，包括：

所述候选执行者利用粒子群算法计算得到资源分配信息。

第三方面，本发明实施例提供一种计算任务卸载***，包括：

至少一个请求者和至少一个候选执行者；

所述请求者执行上述请求者侧的计算任务卸载方法；

所述候选执行者执行上述候选执行者侧的计算任务卸载方法。

第四方面，本发明实施例提供一种电子设备，包括存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述计算任务卸载方法的各个步骤。

第五方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述计算任务卸载方法的各个步骤。

本发明实施例提供的计算任务卸载方法及***、电子设备和存储介质，通过构造移动网络环境的抽象表征，设计节点卸载开销模型，准确刻画网络通信服务过程，实现对移动网络状态性能的准确表达，使任务产生端的网络通信节点在执行卸载决策的过程中能够利用网络环境中得到的服务质量反馈学习有效、最优化的卸载策略，提高该计算任务卸载方法的灵活性和决策的精准性，有效降低通信节点在任务的卸载与执行过程中的额外开销，解决了移动设备在处理计算密集型和时间敏感型应用时可能面临着能力不足的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的计算任务卸载方法流程图；

图2为本发明实施例提供的移动网络下任务卸载执行场景示意图；

图3为本发明实施例提供的卸载算法模型应用示意图；

图4为本发明另一实施例提供的计算任务卸载方法流程图；

图5为本发明实施例提供的计算任务卸载***结构示意图；

图6是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

强化学习技术作为当前人工智能领域的重要分支，其将网络通信节点建模为决策智能体(Agent)，使节点可以通过与网络环境进行交互来自主学习并制订行动策略(ActionStrategy)，从而获取最大化的奖励收益(Reward)。在学习过程中，强化学习通常需要一个奖励效用函数来表示行动的好坏。然而，由于环境的未知性和时变性，智能体通常难以直接获知效用函数表达式，其一般采用数学模型对效用函数进行拟合，以使其能够描述在不同环境与智能体状态的情况下所能够获取的收益状况。而多层神经网络通过逐层处理输入数据，层次化分析表示数据的内在逻辑规律，进而动态优化各层神经元参数，使其对数据关系具有强大的拟合能力，理论上随着神经网络层数及神经元个数的增加，神经网络的拟合能力能够随之不断提升。

强化学习与深度学习具有良好的结合性与重大的研究价值。借助深度学习神经网络不断拟合行动收益函数，智能体得以灵活适应连续多元的状态变化，从而能够极大提高决策的精准性。

图2为本发明实施例提供的移动网络下任务卸载执行场景示意图，如图2所示，在本发明实施例中，根据当前时刻下移动网络中各节点的作用和目的，为各节点分配角色，构建通信网络节点卸载开销模型。

将发送计算任务卸载请求的节点确定为请求者(通常是由于没有足够资源的移动设备无法在可容忍的延迟内完成计算任务而不得不担任的通信角色。它需要以消息的形式向周围可能的执行设备发送请求数据以寻求帮助)。

将接收到计算任务卸载请求的节点确定为候选执行者(具有强大计算能力或当前处于空闲状态的设备、具有足够资源的边缘服务器，一旦候选执行者接收到请求者的任务卸载数据，它便成为正式执行者)。

需要说明的是，在当前网络下，请求者和候选执行者的数量不做限定。任意移动通信节点可以同时担任请求者和执行者的角色，并在不同时刻根据需要进行角色切换。

图1为本发明实施例提供的计算任务卸载方法流程图，如图1所示，该方法针对请求者，包括：

步骤S101，发送计算任务卸载请求，以供候选执行者接收到所述计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；

步骤S102，获取当前移动网络的状态信息；

步骤S103，基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；

步骤S104，基于所述卸载决策，进行计算任务卸载。

具体的，移动用户的位置分布具有一定的随机特性，其可以被建模为遵循独立同分布的密度为λ_m的齐次泊松点过程(homogeneous Poisson point process，简称HPPP)，节点集合被表示为M＝{1,2,…,m,…}。

卸载模式包括边缘卸载和D2D(Device-to-Device)卸载两种模式。

1、边缘卸载

由于其强大的计算功能，边缘服务器是执行计算任务的合适人选。当请求者中的任务调度智能体决定将任务卸载到边缘服务器时，该任务将被排到边缘服务器的待处理任务队列的末尾。我们将该队列的长度设为Q_n，在等待过程中需要花费部分等待时间

与之相对的，由于边缘服务器强大的计算资源，请求者可以在短时间内获得计算结果。

2、D2D卸载

与边缘服务器中需要等待过程不同，通过基站的辅助和引导，请求者可以通过建立D2D链路的方式将请求者的任务卸载到通信范围内最合适的相邻移动设备上。在这种模式下，移动网络中大量的空闲资源被积极调动了起来。需要注意的是，当周围没有发现合适的计算设备时，请求者不得不需要自己完成计算任务。

考虑信号在传输过程中遵循瑞利衰落信道模型，其在D2D通信和基站通信的衰落过程被表示为

与

且二者分别遵循参数为μ_b和μ_d的指数分布。而无线链路传输损耗则分别被表示为

与

其中r是传输距离，α_b与α_d为路径损耗指数。

为了简化表示，路径的衰减情况被统一表示为

同时，移动网络通信中有限的频谱资源极易导致通信受到同信道接入设备的干扰。令N＝(1,…n,…)表示基站通信中可选信道的集合，并令s_m表示用户m所选择的信道。那么，信道s_m＝n上用户m的传输速率R_b的表达式如下：

其中w_m为通信带宽，ω₀是噪声，p_m为传输功率。

相似的，D2D通信过程中的传输速率R_d可以被表示为

将从请求者m产生的卸载任务表示为T_m＝(q_m,o_m,v_m,τ_m)。

其中，q_m和o_m是任务的输入文件大小和输出文件大小。v_m是任务T_m所需的计算资源。τ_m是服务质量方面的要求，反映在服务延迟上。

与之相对的，计算服务将随之产生部分开销。开销主要包括时间延迟和能量消耗。前者将决定请求者对服务的满意程度，而后者则表明服务成本。

卸载开销按顺序呈现为两个过程：计算和传输，以下说明计算开销和传输开销的计算方法。

1、计算开销：

将请求者m任务的卸载决策表示为d_m＝[0,|M|]，即执行任务的位置。

d_m＝0表示该任务在基站处执行，而d_m＝m意味着请求者智能体没有找到比其自身更合适的执行者。当d_m＝n时，将执行者n的可用计算能力表示为C_n(单位：CPU周期/秒)，分配给执行任务的计算资源则被表示为c_n，0≤c_n≤C_n。值得注意的是，C₀代表边缘服务器的计算能力。

综上，可以将执行任务T_m的能耗表示如下：

e_m,c＝κ(c_n)²

其中，κ表示能耗常数因子，与计算节点的处理器架构相关。对应的，计算的时延开销被表示为：

t_m,c＝v_m/c_n

2、传输开销：

任务卸载和结果返回的过程都伴随着传输。当发送方m的数据被传输到接收方n，n∈M∪0，传输过程的能量消耗可以被表示为：

其中，p表示传输功率，且在卸载和结果返回的过程中分别有p＝p_m和p＝p_n。

此外，上式中的

和

分别为蜂窝链路和D2D链路下的传输时延，被表示为：

其中，z在卸载和返回的过程中分别表示输入和结果的数据大小，R_d为D2D通信过程中的传输速率，R_b为信道s_m＝n上用户m的传输速率。

因此，将服务过程的能量开销表示为E_m，那么在开销模型中整体的卸载开销则被表示为如下最小化问题：

argmin(min E_m)

本发明实施例提供的计算任务卸载方法，从节点耗能与时延均衡优化以及深度学习神经网络模型两个角度进行优化，使节点能够在时延约束下优化通信能耗，确定一定时延要求内最优的计算任务卸载决策，具体包括以下四个步骤。

在步骤S101中，请求者以消息的形式向候选执行者发送计算任务卸载请求以寻求帮助，以供候选执行者接收到所述计算任务卸载请求后使用进化算法计算并反馈候选执行者资源分配信息。

所述资源分配信息包括：传输功率、通信带宽和分配用于执行卸载任务的计算资源。

当前移动网络中每一个候选执行者均会计算并向请求者反馈的资源信息，候选执行者反馈的资源信息为经过进化算法处理后获得的能耗和时延资源分配均衡的最优解。

需要说明的是，在本实施例中，进化算法可以为粒子群算法、蚁群算法、差分进化算法或麻雀搜索算法等，其目的在于实现对候选执行节点本身资源分配的均衡优化，使用的具体算法和实现的手段，本实施例对此不做限定。

在步骤S102中，请求者获取候选执行者反馈的候选执行者资源分配信息，并联合卸载任务信息以及与请求者关联的边缘服务器信息，获取当前移动网络的状态信息。

在本实施例中，卸载任务信息包括：请求者卸载任务输入文件大小、输出文件大小、计算所需的计算资源以及服务质量方面的要求(服务时延要求)。与请求者关联的边缘服务器信息包括：等待队列的长度，传输功率，边缘服务器计算能力以及信道信息。

进一步的，还可根据实际情况对当前移动网络的状态信息中需要包含的信息进行调整，本实施例对此不做限定。

需要说明的是，由于在当前移动网络中，候选执行者的数量是不确定的，上述候选执行者资源分配信息为当前移动网络中所有候选执行者资源分配信息的集合。

在步骤S103中，基于步骤S102中获取的当前移动网络的状态信息，根据事先基于移动网络的状态信息训练得到的卸载决策算法模型，进行卸载决策。

在步骤S104中，基于步骤S103中确定的卸载决策，将计算任务卸载到选定的候选执行者上，一旦候选执行者接收到请求者的任务卸载数据，它便成为正式执行者，满足请求者的计算卸载任务需求。

本发明实施例提供一种计算任务卸载方法，通过构造移动网络环境的抽象表征，设计节点卸载开销模型，准确刻画网络通信服务过程，实现对移动网络状态性能的准确表达，使任务产生端的网络通信节点在执行卸载决策的过程中能够利用网络环境中得到的服务质量反馈学习有效、最优化的卸载策略，提高该计算任务卸载方法的灵活性和决策的精准性，有效降低通信节点在任务的卸载与执行过程中的额外开销，解决了移动设备在处理计算密集型和时间敏感型应用时可能面临着能力不足的问题。

基于上述实施例，可选的，在所述计算任务卸载方法中，所述基于所述卸载决策，进行计算任务卸载，具体包括：

具体的，可以将请求者m的卸载方式表示为u_m∈(0,1)，0对应于边缘卸载模式、1对应于D2D卸载模式。除此之外，还可以使用其他表示方式，本实施例对此不做限定。

根据卸载决策确定目标卸载模式、目标计算资源分配以及执行所述卸载任务的节点位置，将计算任务卸载到选定的候选执行者(卸载任务的节点位置)上，一旦候选执行者接收到请求者的任务卸载数据，它便成为正式执行者，满足请求者的计算卸载任务需求。

其中，目标计算资源分配为选定的候选执行者向请求者反馈的资源分配信息。

基于上述实施例，可选的，图2为本发明实施例提供的特征融合时序分割网络结构示意图，如图2所示，在所述计算任务卸载方法中，

所述卸载决策算法模型包括：策略网络和价值网络；

所述策略网络包括：当前策略网络和目标策略网络；

所述价值网络包括：当前价值网络和目标价值网络；

具体的，以向量的形式表示当前移动网络的状态信息S，在时隙t的节点状态向量S_t＝{T_t,B_t,D_t}。其中，T_t包含即将到来任务的相关信息(请求者的卸载任务信息)；B_t＝{Q_t,P_t,C_t,N_t}，包含与请求者所关联的边缘服务器的详细信息，其中Q_t是等待队列的长度，P_t表示传输功率，C_t表示其计算能力，N_t表示信道信息；D_t＝{D₁,…,D_M}，是候选执行者的资源分配集合，可以通过请求者与候选者的消息交互获取。

需要说明的是，为了方便计算，本发明实施例中，信息数据大多使用向量的形式进行表示，除此之外，还可使用数组、矩阵等其他形式，本实施例对此不做限定。

请求者将基于时隙t的当前移动网络状态信息以决策算法模型推导出一个卸载决策A，以作为当前所要采取的行动，时隙t的节点决策A_t＝{u_t,d_t,s_t}。

其中u_t表示为卸载模式选择。d_t表示D2D卸载的决策向量。s_t表示蜂窝通信的接入信道集合。其中，u_t＝1时，与d_t相关的神经元将被激活。当u_t＝0时，与s_t相关的神经元将被激活。

奖励R是请求者在做出卸载决策后从环境中获得的反馈。令IR表示请求者在当前时隙所能获取的即时奖励。该奖励由外部环境的反馈(如时间延迟、能量消耗等)所决定：

其中，E_m为卸载的能量开销；

为请求者m在当前时刻卸载任务所花费的时间延迟；τ_m是服务质量方面的要求(服务时延)；η∝(t_m,t-τ_m)是针对超时的惩罚因子；ε是训练的控制参数；

是由clip函数操控的关于惩罚的上限。

由于即时奖励IR只来自当前的行动。这种聚焦于当下利益的决定无法考虑到未来任务执行的需求，难以实现长期的效用优化。

在本发明实施例中，引入策略π和状态作用值Q概念，策略π指导请求者(智能体)选择合适的行动(π：S→A)；状态作用值Q用于在某种状态下所采取行为的效用进行评价(Q：(S,A)→R)。该评估过程不仅聚焦于当前所获得的即时收益，还将关注当前动作导致状态变化后所带来的未来收益，从而能够到卸载效用的长期优化。

图3为本发明实施例提供的卸载决策算法模型应用示意图，如图3所示，深度强化学习算法(卸载决策算法模型)主要由两个神经网络结构组成，分别被称为策略网络(Actor)与价值网络(Critic)。

策略网络被表示为ψ，负责与外部环境(即移动网络)交互，接收请求者(智能体)获取的当前移动网络的状态信息S_t作为输入，并根据当前策略π输出一个卸载决策(行动)。

策略网络训练时采用当前策略网络和目标策略网络双网结构。当前策略网络以参数ψ_θ执行特定的探索-利用机制，采取行动A_t＝ψ_θ(S_t)，并以此从环境中获得回报R_t。

这样过程中所得到的一个转移元组U＝{S_t,A_t,R_t,S_t+1}，包括所采用的卸载决策和转移到的下一个状态，将被存储在经验缓冲区中以供下一步的学习。

目标策略网络利用参数ψ_θ‘的转移经验，并利用贪婪策略(贪心算法)决定下一个行为A_t+1＝argmaxQ_π(S_t+1,A_t+1)。

价值网络包括被表示为σ，负责评估智能体卸载行动策略的质量。将从策略网络经验缓冲区采样x个转移条目{…,U_j,…},j∈(1,x)，作为一个批次来计算期望的均方误差(损失函数)。

价值网络也同样部署了当前价值网络和目标价值网络双网络结构。其中，当前价值网络以参数σ_θ评估当前Q_t值和目标Q值。相应地，目标价值网络以参数σ_θ‘的目标网络负责评估下一状态S_t+1和操作A_t+1。

基于上述实施例，可选的，在所述计算任务卸载方法中，所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策，具体包括：

具体的，策略π下的长期效用可以表示为：

其中，R_t是当前时隙的奖励；γ∈[0,1]是长期收益的折扣因子，表明当前行为对未来的影响。

目标Q(targetQ)和损失函数(Loss)定义如下：

根据损失函数算法，基于状态效用在预设时间段内的值，计算获得所述当前移动网络在所述预设时间段内的损失梯度，根据损失梯度对当前策略网络与当前价格网络进行更新，从而实现价格网络的评估能力与策略网络的决策能力的联合优化。

目标策略网络和目标价格网络根据当前策略网络的当前价格网络的参数实现渐进式的软更新，具体公式如下：

其中，δ_ψ与δ_σ分别为预先设置的策略网络和价格网络用来更新的平滑系数。

获取更新后的决策算法模型，基于所述当前移动网络的状态信息，进行卸载决策，进一步进行计算任务卸载。

在上述实施例的基础上，本发明实施例通过在决策算法模型中引入策略π和状态作用值Q概念，设计行动与收益函数，使任务产生端的网络通信节点在执行卸载决策的过程中能够利用网络环境中得到的服务质量反馈学习有效、最优化的卸载策略，帮助任务产生端在动态时变的移动网络环境下自主执行高质量的任务迁移策略，以改善移动网络中用户的服务体验质量。

基于上述实施例，可选的，在所述计算任务卸载方法中，在所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策步骤之前，还包括：

具体的，由于移动网络是动态时变的，这导致在实际情况下候选执行者数量是不断变化的。但在对移动网络进行模拟以实现对决策算法模型的训练和测试过程中，决策算法模型的输入和输出向量的维数是固定的。

因此，图3为本发明实施例提供的卸载决策算法模型应用示意图，如图3所示，为了使决策算法模型能够动态、灵活的适用于不同数量节点的移动网络中，在将数据输入决策算法模型之前，先进行输入端向量维数的处理问题。

将当前移动网络的状态信息的向量维度(当前输入维)定义为|S_o|。原始卸载决策算法模型输入向量维度为I，比较当前移动网络的状态信息的向量维度|S_o|与原始卸载决策算法模型输入向量维度I；

由于|S_o|随时间变化的性质，存在三种情况：

若当前移动网络的状态信息的向量维度|S_o|恰好等于卸载决策算法模型输入向量维度I，无需进行处理。但刚好向量维度相同的概率较小，大多时候仍需要进行一定的处理。

若当前移动网络的状态信息的向量维度|S_o|大于卸载决策算法模型输入向量维度I，对候选执行者资源分配信息进行过滤和/或采样处理。

例如，在过滤阶段中，请求者将不可能被选择的候选执行者(例如，低计算能力的设备)使用过滤联合采样方法进行裁剪。先进行过滤，譬如设置计算资源的阈值，将计算资源低于该阈值的候选执行者滤除，若过滤后的向量维度仍然很大，将进入采样阶段。请求者随机抽取部分候选执行者样本以满足固定维度。

需要说明的是，上述对候选执行者进行过滤、采样处理的具体方法，仅作为一个具体的例子对本实施例进行说明，除此之外，还可以根据实际情况进行过滤和或采样处理的具体实现方式的选择，本实施例对此不做限定。

若当前移动网络的状态信息的向量维度|S_o|小于卸载决策算法模型输入向量维度I，向候选执行者资源分配信息中填充虚拟节点的资源分配信息。

填充一些性能极低的虚拟节点能够确保维度的完整性。经过训练卸载决策模型得到的卸载策略将不会选择这些虚拟节点。因此，即使在最坏的情况下(当前移动网络中候选执行者非常少，并不符合需求)，请求者(智能体)仍然可以选择在本地执行任务。

在上述实施例的基础上，本发明实施例通过设计输入卸载决策算法模型的输入端向量固化方案(控制输入端的维度)，确保输入卸载算法模型中的当前网络状态信息的向量维度与原始卸载决策算法模型的向量维度相同，使得卸载决策算法模型能够广泛适用于不同时刻不同网络状态下的移动网络，实现动态和灵活卸载决策，以改善移动网络中用户的服务体验质量。

图4为本发明另一实施例提供的计算任务卸载方法流程图，如图4所示，该方法针对候选执行者，具体包括：

步骤S401，接收计算任务卸载请求；

步骤S402，利用进化算法计算得到候选执行者资源分配信息；

步骤S403，将所述候选执行者资源分配信息反馈给请求者，以供所述请求者获取当前移动网络的状态信息，基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策，基于所述卸载决策，进行计算任务卸载；

具体的，在步骤S401中，候选执行者接收到请求者以消息的形式向候选执行者发送的以寻求帮助的计算任务卸载请求。

在步骤S402中，候选执行者接收到所述计算任务卸载请求后使用进化算法计算候选执行者资源分配信息。

在步骤S402中，候选执行者将计算得到的资源分配信息反馈给请求者，以供请求者联合卸载任务信息以及与请求者关联的边缘服务器信息，获取当前移动网络的状态信息。

以供请求者基于获取的当前移动网络的状态信息，根据事先基于移动网络的状态信息训练得到的卸载决策算法模型，进行卸载决策。

以供请求者基于确定的卸载决策，将计算任务卸载到选定的候选执行者上，一旦候选执行者接收到请求者的任务卸载数据，它便成为正式执行者，满足请求者的计算卸载任务需求。

基于上述实施例，可选的，在所述计算任务卸载方法中，所述候选执行者利用进化算法计算得到候选执行者资源分配信息，具体包括：

所述候选执行者利用粒子群算法计算得到资源分配信息。

具体的，在本实施例中使用粒子群算法计算得到资源分配信息。

将节点资源均衡优化的求解过程表示为粒子在连续求解空间的搜寻过程，则每一个问题的可行解将被映射为一个搜寻粒子(候选执行者资源分配信息)F_i＝(p_i,w_i,c_i)(第i个粒子的资源分配信息)。

其中，p_i为传输功率，w_i为通信带宽，c_i为分配用于执行卸载任务的计算资源。

为了提高最优解的搜索效率，生成一个粒子群F，其中包含多个解向量，参数连续且均遵循参数为节点资源上下限的均匀分布。

粒子在搜索过程收获搜索经验与收益，并将其与其他粒子共享，从而能够迭代性学习，并完成解模式的自我调整。这里将每个粒子的效用表示为ρ_i。

同时，粒子在每一时隙始终维护本地最优解与群体全局最优解，分别表示为

与

其定义如下：

在每一时隙，可行解F_i调整其策略，其更新策略如下：

其中f_i ^t表示步长，α表示惯性因子，β₁和β₂初始随机生成用于探索和学习的自适应参数。

经过有限轮迭代后，可行解F_i的更新幅度小于实现设置的阈值ζ，并围绕当前的最优解

上下浮动。此时，确定算法完成收敛，取当前最优解

为候选执行者资源分配信息。

其详细的算法如下：

需要说明的是，上述具体详细的粒子群算法流程仅作为一个具体的例子对本发明进行解释，在具体应用过程中，可根据实际情况对粒子群算法进行优化调整，本实施例对此不做限定。

在上述实施例的基础上，本发明实施例使用粒子群算法实现对移动网络中候选执行者耗和时延的资源分配均衡优化，使节点能够在时延约束下优化通信能耗，用来降低通信节点在任务的卸载与执行过程中的额外开销。将优化后的候选执行者资源分配信息反馈给请求者进行卸载任务决策，能够有效地帮助任务产生端在动态时变的移动网络环境下自主执行高质量的任务迁移策略，降低由于卸载决策结果在当前网络下选择的不够准确导致的资源浪费。

图5为本发明实施例提供的计算任务卸载***结构示意图，如图5所示，计算任务卸载***，包括：

至少一个请求者和至少一个候选执行者；

所述请求者501执行上述请求者侧的计算任务卸载方法；

所述候选执行者502执行上述候选执行者侧的计算任务卸载方法。

具体的，计算任务卸载***包括至少一个请求者501和至少一个候选执行者502，需要说明的是，由于移动网络是时变的，移动网络中有计算任务卸载需求的节点(请求者501)的数量是不确定的，某时刻下请求者501的数量需要根据当前时刻移动网络节点的状态确定，候选执行者502的数量的确定与之相同。因此在移动网络中，请求者501和候选执行者502的数量不定，根据实际情况确定。

上述对计算任务卸载方法的介绍包含请求者和候选执行者两个角度。在计算任务卸载***中，请求者用于执行上述请求者侧的计算任务卸载方法，候选执行者用于执行上述候选执行者侧的计算任务卸载方法，其具体的实施方式与方法实施方式一致，在此不再赘述。

图6为本发明实施例提供的电子设备的实体结构示意图，如图6所示，所述电子设备可以包括：处理器(processor)601、通信接口(communication interface)602、存储器(memory)603和通信总线(bus)604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令，以执行上述计算任务卸载方法，包括：发送计算任务卸载请求，以供候选执行者接收到所述计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；获取当前移动网络的状态信息；基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；基于所述卸载决策，进行计算任务卸载；其中，所述卸载决策算法模型是基于移动网络的状态信息训练得到的；所述当前移动网络的状态信息包括：卸载任务信息、与请求者关联的边缘服务器信息以及候选执行者资源分配信息。

此外，上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的计算任务卸载方法，包括：发送计算任务卸载请求，以供候选执行者接收到所述计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；获取当前移动网络的状态信息；基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；基于所述卸载决策，进行计算任务卸载；其中，所述卸载决策算法模型是基于移动网络的状态信息训练得到的；所述当前移动网络的状态信息包括：卸载任务信息、与请求者关联的边缘服务器信息以及候选执行者资源分配信息。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的以执行计算任务卸载方法，包括：发送计算任务卸载请求，以供候选执行者接收到所述计算任务卸载请求后利用进化算法计算得到目标的候选执行者资源分配信息；获取当前移动网络的状态信息；基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策；基于所述卸载决策，进行计算任务卸载；其中，所述卸载决策算法模型是基于移动网络的状态信息训练得到的；所述当前移动网络的状态信息包括：卸载任务信息、与请求者关联的边缘服务器信息以及候选执行者资源分配信息。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种计算任务卸载方法，其特征在于，包括：

获取当前移动网络的状态信息；

基于所述卸载决策，进行计算任务卸载；

2.根据权利要求1所述的计算任务卸载方法，其特征在于，所述基于所述卸载决策，进行计算任务卸载，包括：

3.根据权利要求1所述的计算任务卸载方法，其特征在于，所述卸载决策算法模型，包括：策略网络和价值网络；

所述策略网络包括：当前策略网络和目标策略网络；

所述价值网络包括：当前价值网络和目标价值网络；

4.根据权利要求3所述的计算任务卸载方法，其特征在于，所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策，包括：

5.根据权利要求1-4任一项所述的计算任务卸载方法，其特征在于，在所述基于所述当前移动网络的状态信息，根据卸载决策算法模型，进行卸载决策步骤之前，还包括：

6.一种计算任务卸载方法，其特征在于，包括：

接收计算任务卸载请求；

利用进化算法计算得到候选执行者资源分配信息；

7.根据权利要求6所述的计算任务卸载方法，其特征在于，所述候选执行者利用进化算法计算得到候选执行者资源分配信息，包括：

所述候选执行者利用粒子群算法计算得到资源分配信息。

8.一种计算任务卸载***，其特征在于，包括：

至少一个请求者和至少一个候选执行者；

所述请求者执行如权利要求1至5任一项所述的计算任务卸载方法；

所述候选执行者执行如权利要求6或7所述的计算任务卸载方法。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的计算任务卸载方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述的计算任务卸载方法的步骤。