CN115686779A

CN115686779A - 基于dqn的自适应边缘计算任务调度方法

Info

Publication number: CN115686779A
Application number: CN202211261147.7A
Authority: CN
Inventors: 巨涛; 王志强; 刘帅; 火久元; 张学军
Original assignee: Lanzhou Jiaotong University
Current assignee: Lanzhou Jiaotong University
Priority date: 2022-10-14
Filing date: 2022-10-14
Publication date: 2023-02-03
Anticipated expiration: 2042-10-14
Also published as: CN115686779B

Abstract

本发明公开了一种用于边缘计算***的基于DQN的自适应边缘计算任务调度方法，该方法中代理分别获取任务配置信息、计算节点配置信息并以此作为输入神经网络的环境状态信息；根据以往训练的损失值进行神经网络最终输出的计算，再根据最终输出和近几次训练的损失值为任务选择计算节点，最后基于损失值进行学习经验的存储。最终实现任务与计算节点的最优匹配，本发明为充分利用边缘计算资源，提升任务处理的实时性，降低***开销提供了一个有效的解决方法。

Description

基于DQN的自适应边缘计算任务调度方法

技术领域

本发明属于计算机***结构领域，涉及自适应任务调度方法，尤其涉及一种用于边缘计算***的基于DQN的自适应任务调度方法。

背景技术

如何充分利用边缘计算***中的计算资源，提高任务处理的实时性，降低***开销是边缘计算***面临的关键问题。随着机器学习技术的发展，越来越多的深度强化学习算法（如DQN、DDPG、Actor-Critic等）被用于解决边缘计算下的任务调度问题。但任务调度问题属于连续性问题，这一特性要求在算法中进行动作空间与状态空间的离散化或选择适用于处理该类问题的算法。能够进行更细划分的任务被作为整体进行调度时不利于计算资源的有效利用。如果运用DQN等适用于连续问题的算法时，如何进行更加有效的离散化和在降低由此算法自身引起的“过估计”问题的影响同时兼顾神经网络的收敛速度。如果无法在神经网络的训练过程中有效地调整动作空间的探索度不利于神经网络的收敛和稳定。将深度强化学习算法运用到边缘计算解决任务调度问题时，同时考虑有限的计算资源、任务内部特性、算法收敛速度与稳定，选择相对计算量小的算法，对任务进行合理划分，提高算法对解空间的探索效率，减小算法收敛后的波动，实现任务与计算节点的最优匹配，才能提高***计算资源的利用率，任务处理的实时性，降低***开销。

已有的研究工作，大多数均将任务视为一个整体进行调度这不能有效利用计算资源且计算节点的选择策略中的概率值为固定值这不利于动作空间的有效探索从而造成算法收敛速度慢和不稳定。在使用DQN等计算量较小但适用于离散空间问题算法的工作中必须进行离散化否则将会降低准确度，又离散化处理即取出经验池中部分学习经验进行回放的抽样策略多数为随机抽样这不能有效提高样本效率。由于DQN等算法持续选取与任务适配度值最大的计算节点将会导致“过估计”问题即估计值比实际值偏大。尽管使用DDPG等算法适用于任务调度这类连续问题，但其过大的计算量是计算资源相对有限的边缘计算***所无法忍受的。

发明内容

本发明的目的在于克服上述现有技术中的问题，提供一种基于DQN的自适应边缘计算任务调度方法，该调度方法以任务配置信息和计算节点配置信息为基础，实现任务和计算节点的最优匹配，以充分利用计算资源，提升任务处理的实时性，降低***开销。

为达到上述目的，本发明采用以下技术方案予以实现：

一种基于DQN的自适应边缘计算任务调度方法，包括如下步骤：

1）当神经网络的训练步数为指定复制参数步数的倍数，则将DQN中评估网络参数复制到目标网络；当神经网络的训练步数为指定回放经验步数的倍数，则回放经验池中的学习经验且清空经验池；

2）获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息，正规化后作为深度强化学习神经网络的输入；所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成，即：

其中，state_i表示计算任务与第i个计算节点的状态信息；ds，tc，ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数；nc，ns分别为计算节点可用计算资源数、可用存储资源数。

3）分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值；综合性Q值具体计算公式如下：

其中，TNet、ENet分别为目标网络和评估网络，OT、OE分别为目标网络和评估网络的输出，Loss为上一次迭代的损失。

4）基于自适应动态动作空间探索度调整策略，以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点，否则随机选择计算节点；所述自适应动态动作空间探索度调整策略具体如下：

其中，rd为随机数生成函数，用于生成[0,1]范围内的随机数；F值为True，则为当前待处理任务选择非最大值对应的卸载动作，为False，则选择最大值对应的卸载动作；

3）计算当前所有任务的损失值；

具体计算方法如下：

其中，output为评估网络的输出，action为动作选择；

6）基于损失值利用自适应轻量级回放机制对当前任务进行优先级排序并将优先级最高的学习经验存储到经验池中；

7）更新评估网络参数；

8）直到满足结束条件。

进一步的：

步骤2）中，以在任务下划分的子任务配置信息和每个计算节点配置信息作为环境状态信息。

步骤3）中，所述综合性Q值计算方法中上一次训练的损失值用来衡量评估网络和目标网络在最终输出中占比，神经网络的训练初期将以目标网络的输出为主，随着训练的进行则转为评估网络的输出为主。

步骤4）中，所述自适应动态动作空间探索度调整策略中对近几次训练的损失值计算平均值并作为计算节点选择概率的设计基础。

步骤5）中，计算当前所有任务的损失值时采用交叉熵损失函数。

步骤6）中，所述自适应轻量级回放机制是将基于当前学习经验的损失值进行排序，又因为损失值小的学习经验容易将神经网络引导向局部最优，损失值大则远离最优解，故将中间部分的学习经验存储至经验池。

与现有技术相比，本发明具有以下有益效果：

本发明针对边缘计算下任务调度问题，将任务视为由互不相关的子任务组成，以子任务与每个计算节点配置信息作为神经网络输入，基于上次训练中获得的损失值计算神经网络的最终输出，再基于最终输出和近几次训练的损失值为任务进行计算节点的选择，最后根据所有任务的损失值进行优先级排序并将中间部分的学习样本存储至经验池，当满足指定条件时进行参数复制或者经验回放，以实现任务和计算节点的最优匹配，充分利用计算资源，提升任务处理实时性，降低***开销。

附图说明

图1为本发明的总体框架：

图2为本发明的处理流程：

图3为本发明的损失值曲线：

图4为DQN的损失值曲线：

图5为D3DQN的损失值曲线：

图6为损失值曲线的总体对比：

图7为本发明与多种基准算法的累计能耗对比：

图8为本发明与多种基准算法的累计加权开销对比。

具体实施方式

下面结合附图对本发明做进一步详细描述。

参见图1，本发明的应用场景可以为：

在边缘计算***中，存在一组位于边缘端的计算节点、一组终端设备和一个决策代理。当代理接收到来自终端设备的任务调度请求时代理通过无线网络收集终端设备提交的任务信息和计算节点信息并进行任务卸载决策，若卸载任务则将任务数据上传至边缘端的计算节点进行处理，并将处理结果返回至终端设备；若本地处理则在终端设备上处理任务。

参见图2，一种基于DQN的自适应边缘计算任务调度方法包括以下步骤：

1）当神经网络的训练步数为指定复制参数步数的倍数，则将DQN中评估网络参数复制到目标网络；当神经网络的训练步数为指定回放经验步数的倍数，则回放经验池中的学习经验且清空经验池。具体的：处理开始时，初始化各项参数；若训练步数itr达到最大值则结束，否则继续处理；若训练步数itr满足条件1：达到指定复制参数的训练步数的倍数,则复制参数到目标网络；若训练步数itr满足条件2：达到指定回放经验的训练步数的倍数,则回放经验池中的学习经验；

2）获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息，正规化后作为深度强化学习神经网络的输入。其中以在任务下划分的子任务配置信息和每个计算节点配置信息作为环境状态信息。具体处理如下：

在处理终端设备发来的调度请求时，代理需要综合考虑当前待处理任务和所有计算节点的状态信息，以做出最优的调度决策。向下，代理接收终端设备发送的调度请求中包含待处理任务的状态信息与终端设备的状态信息；向上，代理向边缘服务器请求所有边缘端计算节点的状态信息。代理在获取以上所需的环境状态信息后即可开始调度决策。

环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成，即：

3）分别获得评估网络和目标网络的输出并结合上一次训练的损失值通过综合性Q值计算方法计算神经网络的最终输出并以此作为任务与计算节点的适配度值；所述综合性Q值计算方法中上一次训练的损失值用来衡量评估网络和目标网络在最终输出中占比，神经网络的训练初期将以目标网络的输出为主，随着训练的进行则转为评估网络的输出为主。

具体计算方法的设计思想如下：

在传统DQN算法中，根据环境状态信息输出所有可能卸载动作的Q值，其大小表示了卸载动作被选择的概率大小。然后选择其中Q值最大值所对应的卸载动作，作为当前待处理任务的调度决策。但在神经网络训练初期，选择最大Q值会导致神经网络在进行参数更新时实际Q值将向着比真实Q值大的方向更新从而引起“过估计”问题。在已有工作中，在对评估网络和目标网络两个神经网络进行参数更新时，评估网络参数实时更新，目标网络参数延迟更新，并以目标网络输出作为动作选择的依据。虽然这样降低了“过估计”的影响，但这不利于评估网络的参数更新，并且将评估网络的参数复制到目标网络后会容易引起神经网络的波动。为解决上述问题，将基于上一次训练的损失值和评估网络、目标网络的输出进行神经网络的最终输出计算，综合性Q值具体计算公式如下：

其中，TNet、ENet分别为目标网络和评估网络，OT、OE分别为目标网络和评估网络的输出，Loss为上一次迭代的损失。损失值可以反映神经网络的学习程度，损失值越大说明神经网络距离收敛越远，越难以对当前环境状态做出准确评估，受“过估计”影响越大；反之距离收敛越近，受“过估计”影响越小。在学习初期，神经网络的损失值较大，根据以上公式可知整个神经网络的输出将以目标神经网络的输出为主，以降低“过估计”的影响；越接近收敛，则转变为以评估网络的输出为主。从而让目标网络和评估网络共同决定最终网络输出，以降低“过估计”的影响，保证神经网络的稳定性。

4）基于自适应动态动作空间探索度调整策略，以神经网络的最终输出和近几次训练的损失值以一定概率为任务选择最大适配度值所对应的计算节点，否则随机选择计算节点。且所述自适应动态动作空间探索度调整策略中对近几次训练的损失值计算平均值并作为计算节点选择概率的设计基础。

具体计算节点的选择方法设计思想如下：

为了增加动作空间的探索度,已有的工作常常在动作选择上采用ε-greedy策略。以固定概率选择其他动作，反之选择最大Q值对应动作。但在神经网络的学***方作为设计动作选择策略概率值的基础，实现对神经网络动作空间探索程度的动态调整。计算方法如下：

其中，rd为随机数生成函数，用于生成[0,1]范围内的随机数。F值为True，则为当前待处理任务选择非最大值对应的卸载动作，为False，则选择最大值对应的卸载动作。

5）计算当前所有任务的损失值；

具体计算方法如下：

其中，output为评估网络的输出，action为动作选择。

6）基于损失值利用自适应轻量级回放机制对当前任务进行优先级排序并将优先级最高的学习经验存储到经验池中；所述自适应轻量级回放机制是将基于当前学习经验的损失值进行排序，又因为损失值小的学习经验容易将神经网络引导向局部最优，损失值大则远离最优解，故将中间部分的学习经验存储至经验池。

具体设计思想如下：

随着状态空间维度的增加，将会导致“维度诅咒”，即需要更多的学习样本才能使神经网络达到满意的效果。但实际样本的数量往往是有限的，这时就需要考虑如何提高有限数量样本效率。经验回放机制不仅可以解决学习样本效率低的问题，还能打破动作空间的连续性，常常配合DQN算法一起解决复杂高维问题。然而，在有限计算资源的边缘环境下，传统经验回放机制保存所有历史经验的做法将消耗大量的存储资源，且从历史经验中随机抽取一定数目的样本进行回放不能有效利用更高效的样本。

因最近的学习经验才最有利于神经网络的学习，同时与其关联性也最大，所以本文回放机制仅保存最近m次迭代的学习经验。本文以损失值为基础对学习经验进行排序，又损失值小容易将神经网络引导向局部最优，损失值大则远离最优解，所以将中间部分x个的历史经验抽取进行回放。而x值在神经网络学习的不同阶段取值也不同，学习初期神经网络需要注重新知识的学习，此时x值应取一个较小值；随着学习的深入，神经网络应当注重历史经验的回放，以稳定性能，此时x值应取一个较大值。

7）基于当前任务的损失值、动作选择和学习率在指定的优化器中对评估网络的参数进行更新。

8）直到满足结束条件。

本发明能够对变化的环境状态进行感知并获取所需要的环境状态信息，并据此进行任务与计算节点的最优匹配，从而在计算资源有限的边缘计算***中实现高效的、实时的、低能耗的任务调度。具体的处理流程如图2所示。

本发明针对边缘计算***下任务调度问题，利用计算量相对小的DQN算法，结合基于损失值进行设计的各种改进方法和策略；在任务和计算节点组成的环境状态信息的基础上，将任务与计算节点进行匹配。本发明可以根据变化的环境状态信息，实现任务与计算节点的最优匹配，充分利用计算资源、提升任务处理的实时性、降低***开销，为边缘计算***提供一种自适应任务调度方法。

为验证本发明的有效性，将本发明与多种基准算法进行各项性能对比，如图3-图8所示。简要分析如下：

D3DQN-CAA为在Dueling Double DQN（D3DQN）基础上结合本发明中设计的三种方法和机制所得到的本发明，其余算法皆为已有算法，在此用于和本发明进行性能对比。

图3-图6为D3DQN-CAA、DQN和D3DQN的损失值综合对比，横坐标为训练步数，纵坐标为损失值。可以看出，D3DQN-CAA的曲线最为平滑且收敛后波动幅度最小，说明综合性Q值计算方法、自适应轻量级回放机制能够起到稳定模型的作用。通过比较图3、图4和图5可知，D3DQN-CAA、DQN、D3DQN损失值曲线的变化趋势相似，但DQN损失值曲线下降过快，又DQN和D3DQN均无法达到D3DQN-CAA的收敛值。同时图4和图5损失值曲线尽管已经收敛，但处在一个相对更高的收敛值且波动幅度较大，这说明自适应动态动作空间探索度调整策略机制可以有效控制模型在动作空间上探索度、提高模型的稳定性；另从对比中可以看到DQN、D3DQN的损失值曲线容易在1200、1400、1600处出现较大幅度的波动且相比D3DQN-CAA达到收敛需要更多的训练步数，这说明综合性Q值计算方法在提高神经网络收敛速度和降低参数复制后神经网络波动幅度上具有显著作用。以上实验对比结果说明，本发明所设计方法的损失值曲线达到收敛所需的训练步数最少、不易出现波动、性能更稳定。

图7为D3DQN-CAA、DQN、D3DQN、Only Local、Only Edge和Random的累计能耗对比，横坐标为训练步数，纵坐标为累计能耗值。本发明方法D3DQN-CAA由于采用了综合性Q值计算方法、自适应动态动作空间探索度调整策略和自适应轻量级回放机制，在保证算法稳定性的同时，能够有效地降低神经网络的训练步数和充分利用计算资源，使得本发明方法的累计能耗曲线低于DQN、D3DQN和其他算法。

图8为D3DQN-CAA、DQN、D3DQN、Only Local、Only Edge和Random的累计加权开销（由***计算时延、传输时延和总能耗的加权和计算得到）对比，横坐标为训练步数，纵坐标为累计加权开销值。从图中可以看出，性能最差即累计加权开销曲线高于其他算法的是Only Local，性能最优的是本文调度算法D3DQN-CAA，中间部分由高到低依次为Random、DQN、Only Edge、D3DQN。

以上内容仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明权利要求书的保护范围之内。

Claims

1.一种基于DQN的自适应边缘计算任务调度方法，其特征在于，包括如下步骤：

2）获取计算节点配置信息、终端设备配置信息和任务配置信息作为环境状态信息，正规化后作为深度强化学习神经网络的输入；所述环境状态信息由计算任务数据大小、所需计算资源数、所需存储资源数和所有计算节点可用计算资源数、可用存储资源数信息组成，即

其中，state_i表示计算任务与第i个计算节点的状态信息；ds，tc，ts分别为计算任务的数据大小、所需计算资源数、所需存储资源数；nc，ns分别为计算节点可用计算资源数、可用存储资源数；

其中，TNet、ENet分别为目标网络和评估网络，OT、OE分别为目标网络和评估网络的输出，Loss为上一次迭代的损失；

5）计算当前所有任务的损失值；

具体计算方法如下：

其中，output为评估网络的输出，action为动作选择；

7）更新评估网络参数；

8）直到满足结束条件。

2.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法，其特征在于：步骤2）中，以在任务下划分的子任务配置信息和每个计算节点配置信息作为环境状态信息。

3.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法，其特征在于：步骤3）中，所述综合性Q值计算方法中上一次训练的损失值用来衡量评估网络和目标网络在最终输出中占比，神经网络的训练初期将以目标网络的输出为主，随着训练的进行则转为评估网络的输出为主。

4.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法，其特征在于：步骤4）中，所述自适应动态动作空间探索度调整策略中对近几次训练的损失值计算平均值并作为计算节点选择概率的设计基础。

5.根据权利要求1所述的一种基于DQN的自适应边缘计算任务调度方法，其特征在于：步骤5）中，计算当前所有任务的损失值时采用交叉熵损失函数。

6.根据权利要求1所述的基于DQN的自适应边缘计算任务调度方法，其特征在于：步骤6）中，所述自适应轻量级回放机制是将基于当前学习经验的损失值进行排序，又因为损失值小的学习经验容易将神经网络引导向局部最优，损失值大则远离最优解，故将中间部分的学习经验存储至经验池。