CN113360245A

CN113360245A - 基于移动云计算深度强化学习的物联网设备任务下载方法

Info

Publication number: CN113360245A
Application number: CN202110553074.8A
Authority: CN
Inventors: 亓慧; 史颖; 穆晓芳; 吴晨旭; 王笑斌
Original assignee: Taiyuan Normal University
Current assignee: Taiyuan Normal University
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-09-07

Abstract

基于移动云计算深度强化学***台中的服务器集群进行聚类，然后利用深度强化学习算法从中选择最佳的服务器集群，在此集群上，采用PSO算法选择最优服务器路径，并用帕雷托算法来提高收敛速度，从而达到优化物联网设备的任务下载问题。实验结果表明，每个具有相似带宽和任务等待时间的服务器集群，使用算法改进后，在增加服务器资源利用率、减少任务延迟等方面，都有良好的效果。

Description

基于移动云计算深度强化学习的物联网设备任务下载方法

技术领域

本发明涉及移动云计算领域，针对云计算环境下的任务下载模式提出了一种采用深度强化学习的物联网设备任务下载方法。

背景技术

移动设备中存在许多需要大量计算的资源和消耗大量能量的任务。将这些任务下载到远程云计算中心，可以有效降低移动设备的能耗，达到扩大移动设备容量的目的。在相关研究中，许多学者提出了许多不同的任务下载方法。这些任务下载方法考虑的因素包括：移动设备能耗、网络通信带宽、延迟、云服务器容量等。通过考虑这些因素，现有的任务下载策略将在移动设备上执行的总成本与在云端执行的总成本进行比较，从而决定是否将任务下载到云端。

云计算为移动云计算环境下的任务下载提供了技术基础。虚拟化是云计算的核心技术之一，通过虚拟化，云中的服务器器可以同时运行多个操作***，在每个操作***中运行的程序相互隔离。对于那些对计算资源要求高、能耗高的任务，将其下载到云上可以有效降低移动设备的能耗。下载到云中的任务将分配给相应的虚拟机执行。由于服务器的地理位置或网络位置不同，分配给不同服务器器的任务将有不同的延迟，这是影响任务执行的一个重要因素，特别是对于实时性要求高的任务。不仅如此，在将任务下载到云上执行的过程中，还需要考虑云服务器的资源利用率，以避免由于云服务器利用率低而造成的云资源的浪费。通过理论分析可以看出，减少下载任务的时间延迟和提高云中心服务器的资源利用率通常是相互冲突的。因此，本发明将重点解决此问题。

发明内容

本发明提供了基于移动云计算深度强化学习的物联网设备任务下载方法，用以解决现有技术中存在的问题。

选择不同的服务器器来运行下载任务将直接影响任务下载到云上所造成的延迟。在任务下载过程中，保持较高的云资源利用率，减少任务下载造成的延迟是本发明的重点内容，寻找下载的最优策略，以平衡提高云资源的利用率和最小化任务下载的延迟。

为了有效地平衡资源利用和任务延迟这两个因素，采用了强化学习方法对问题进行建模。然后，基于改进的k-means聚类算法和强化学习算法，从当前下载任务中选择最优的服务器集群。利用改进的粒子群算法，从最优聚类中选择最优服务器完成下载任务。

本发明通过以下技术方案予以实现。

基于移动云计算深度强化学习的物联网设备任务下载方法，其特征在于使每个任务在下载过程中都可以选择最佳的服务器线路，提高云资源的利用率和最小化任务下载延迟。基于改进的k-means聚类算法和强化学习算法，从当前下载任务中选择最优的服务器集群，再利用改进的粒子群算法，从最优聚类中选择最优服务器完成下载任务。

具体步骤如下：

(1)采用k-means聚类算法对服务器集群进行聚类

根据服务器的分布密度和最小距离指标确定初始聚类中心和聚类数量，然后对服务器进行聚类；服务器越接近，它们就越有可能相互干扰。因此，应该将邻近的服务器器划分为一个集群，并分配正交资源块，以避免集群内的干扰。因此，本发明引入一种由服务器分布密度和服务器最小距离指标共同定义的新指标来评价服务器之间的接近度。

定义1:服务器PM_p的分布密度ρ_p是服务器PM_p到其他服务器的总距离与任意两个服务器距离之和的比值，见式(1)；

式中d_m,n为PM_m与PM_n之间的欧氏距离；N为服务器总数；

定义2:服务器PM_p到分布密度较大的服务器的最小距离为服务器PM_p的最小距离指标ρ_p，见式(2)；

δ_p＝min{d_p,q|p,q∈{1,N},q≠p,ρ_q＞ρ_p} (2)

式中d_p,q为PM_p与PM_q之间的欧氏距离，对于分布密度最大的服务器，定义最小距离指标为其与其他服务器的最近距离；

定义3:服务器PM_p的加权密度θ_p是其分布密度与最小距离指标的乘积，即θ_p＝ρ_pδ_p,p∈[1,N]；所有服务器的平均加权密度见式(3):

基于上述定义，采用改进的k-means聚类算法，以实现对服务器器的高效聚类，算法描述如下：

1)选择初始集群中心，计算每台服务器的加权密度θ_p和1≤p≤N，以及所有服务器的平均加权密度

选取

的服务器作为初始聚类中心；

2)确定最终的集群中心，检查是否任意两个服务器器的初始聚类中心集的欧几里得距离d_m,n小于给定的阈值距离，如果是，它表明服务器器之间的距离在两个初始簇中相对较近，很容易产生干扰，此时，从初始集群的中心集中删除一个服务器器；当比较所有初始集群的中心时，最终的集群中心集

Q是最终集群中心数量，Q<T，采用加权聚类覆盖半径G 作为距离阈值，见式(4)：

形成最终的聚类结果，根据步骤2得到的聚类中心，使用标准的k-means算法将剩余的服务器聚类到不同的集群中，从而得到最终的聚类结果；

(2)选择最优的服务器集群

利用深度强化学习从当前下载任务中选择最优的服务器集群，根据当前***状态和下载任务，选择最优的服务器集群，定义k个集群的等待时间见式(5)：

其中

表示集群中第P_k服务器的最大等待时间，在决策步骤t中，运行在第k个服务器集群上的虚拟机总数为

则云中心服务器集群状态见式(6)，行动见式(7)：

然后定义执行动作

后的返回值，即将当前的卸载任务分配给第k个服务器集群，见式(8):

第k个服务器集群的通信带宽用

表示，“带宽”的值为集群中心的服务器带宽，服务器集群的带宽是根据该带宽值估算的；

(3)选择最优服务器并通过pareto算法提高收敛速度

利用改进的粒子群算法从最优聚类中选择最优服务器，并利用Pareto算法提高收敛速度，粒子群优化算法(PSO)是一种随机的全局优化算法，通常能得到较好的结果，但随着问题规模的增加，计算量和资源使用量也迅速增加；本发明重新定义了经典粒子群算法中粒子速度和位置的更新，并引入了利用该算法求解问题的帕累托方法。

定义1位置L＝[a_i,p_i]的粒子i在算法中表明，最优服务器器a_i在聚类中心 p_i上，

定义2在算法中，粒子i的速度v_i＝[w(a),a]，权重w(a)表示任务分配的概率。

定义3粒子i的速度和位置的更新见式(9)、(10):

式中：

是粒子i的速度在k+1次的迭代；

为粒子i在第k次迭代中的位置；Δ∈(0,1)是具体实例的惯性阈值；c₁和c₂是学习因子；L_best和L′_best分别是个体最优值和全局最优值；

是粒子位置L的互补运算；

是w(a)获得a 的加权操作；⊙是

和

的同或操作；

在粒子群优化算法中，粒子的种群就是应用解中的所有粒子。在每一代粒子优化过程中，通过适应度函数来评估粒子的适应度，使粒子获得其最优位置L_best和整个种群的最优位置L′_best，因此粒子在搜索过程中总是倾向于向更好的搜索区域移动，在每次迭代中，粒子通过跟踪上述两个位置来更新自己，并根据公式更新速度和位置；

在有目标约束的调度策略中，任务延迟和资源利用率的目标函数为，见式 (11)、见式(12)：

obj_t(TD)＝t_total(TD) (11)

obj_C(UR)＝C_total(UR) (12)

因此，优化算法中的适应度函数表示，见式(13)：

F(Q)＝βt_total(TD)+(1-β)C_total(UR)。 (13)

求解粒子群优化算法与客观限制，在尽可能找到由其他解主导的最优解的前提下，该算法比较了帕累托最优解集中的解，但是为了防止陷入局部最优和影响全球解决方案，最优解通常是随机选择的，以提高粒子的全局搜索能力。

本发明具有以下有益效果：

1.根据服务器的分布密度和最小距离指标，采用改进的k-means聚类算法确定初始聚类中心和聚类数量，然后对服务器进行聚类；

2.采用深度强化学习方法，选择最佳的服务器集群；

3.采用改进的粒子群算法从最优聚类中选择最优服务器，采用Pareto算法提高收敛速度。

附图说明

为了更清楚地说明本发明的实施或现有技术中的技术方案，下面将对实施过程或现有技术描述中所需要使用的附图作简单地介绍。

图1服务器资源分配示意图；

图2等待下载任务的时间示意图；

图3任务下载至云示意图；

图4任务下载算法结构示意图；

图5调整权重因子的服务器利用率的变化过程；

图6调整权重因子下载任务延迟的变化过程；

图7本算法与其他算法的服务器利用率与下载任务延迟的比较图1；

图8本算法与其他算法的服务器利用率与下载任务延迟的比较图2；

图9算法收敛速度比较图。

具体实施方式

在任务下载过程中，需要保持较高的云资源利用率，减少任务下载造成的延迟。如图1所示，PM_i代表云中心的第i台服务器(PM)，用于运行下载任务的虚拟机(VM)将在其上运行。假定每个服务器器可以运行的虚拟机的最大数量是相同的，但在不同的服务器器上运行的虚拟机在同一时间是不同的，而且相应的资源利用率将会由于不同的下载任务分配方法而改变。定义当前云中心中运行的服务器数为N_cp，对应的N_cp服务器中可以运行的最大虚拟机数为N_tv。当前N_cp服务器上实际运行的虚拟机数为N_cv，每台服务器上可运行的最大虚拟机数为N_v，因此本发明云资源利用率见式(1)、最大虚拟机数见式(2):

N_tv＝N_v*N_cp (2)

根据公式(1)和公式(2)，当移动设备的任务下载到云中心执行时，为了获得更高的资源利用率UR，下载任务的方法应使N_cp最小化，N_cv增加。因此，应该将下载任务分配给已经运行该虚拟机的服务器，以尽量减少新服务器的激活。但是，这种方法可能会增加下载任务的延迟。任务下载造成的延迟见式(3)：

其中T_c为下载任务在云中心的执行时间，S为移动设备与云中心之间需要传输的总数据量。T_w表示下载任务在云中心开始执行前的等待时间，与当前虚拟机上正在运行的任务有关。

如图2所示，任务1运行在虚拟机VM₁上，对应的运行时间从0到t₁开始，在此期间只有当前虚拟机运行在服务器上。所以task 1的执行时间为T_c＝T₁。如果t₀中有一个新的下载任务task2，则有两种方式运行该任务。一种是将task 2 分配给虚拟机VM₁运行，然后task2将等待到task 1完成执行的t₁时刻。因此，task 2的等待时间为T_w＝t₁-t₀。另一种方法是将task 2分配给新启动的虚拟机 VM₂，使task2可以立即执行，无需等待，T_w＝0。此外，运行在不同服务器上的虚拟机可能处于不同的运行状态，这些虚拟机的选择也会影响下载任务的等待时间。同时，移动设备与不同服务器器之间的通信带宽通常是不同的，这将影响它们之间传输数据所需的时间S/BW。任务下载算法为下载任务选择最优的策略，由服务器执行任务，以减少任务下载造成的延迟。

所提出的算法将部署到云上运行，一个任务将下载到远程云上，如图3所示。首先，图中步骤1下载任务的详细信息将发送到算法运行模块。根据这些信息，提出的算法将给出一个最优的服务器作为下载任务的运行环境。因此，在步骤2 中，算法获得的最优服务器ID将作为回复消息返回给请求的移动设备。然后，在步骤3中，将需要下载到云上的任务和获取到的服务器ID发送到云资源管理模块。最后，资源管理模块将任务安排到相应的云服务器。

采用强化学习的方法，将云中心的服务器集作为动作空间。这些服务器器通常分布在不同的位置，数量较多，以满足大规模设备的接入，这使得强化学习任务具有较大的动作空间。状态空间由服务器的等待时间和运行在服务器上的虚拟机数量来定义。假设在云中心有P台服务器来执行下载任务，P台服务器被记录为PM_p。在当前的决策步骤t中，运行在p服务器上的虚拟机数量被记录为

表示准备在第p台服务器器上运行的任务引起的等待时间。因此，使用以下公式来定义强化学习任务的状态，见式(4)；

所提问题的状态维数为2*P，在实际的云中心中，P的值通常非常大。因此，该问题具有高维的状态空间。

在进行深度强化学习的在线学习过程之前，第一步是根据相关训练数据建立DNN，或者随机初始化DNN的相关参数。DNN的建立或更新是基于经验回放的过程。对于每个决策步骤，经验库m包含四个状态转换数据元组。DNN的输入为云中心服务器的运行状态，状态的定义如式(4)所示，DNN的输出为每台服务器被选中时对应的Q值。因此DNN的输入维数为2*P，输出维数为P。

具体步骤如下:

(1)根据服务器的分布密度和最小距离指标确定初始聚类中心和聚类数量，然后对服务器进行聚类。服务器越接近，它们就越有可能相互干扰。因此，应该将邻近的服务器器划分为一个集群，并分配正交资源块，以避免集群内的干扰。因此，本发明引入一种由服务器分布密度和服务器最小距离指标共同定义的新指标来评价服务器之间的接近度。

定义1:服务器PM_p的分布密度ρ_p是服务器PM_p到其他服务器的总距离与任意两个服务器距离之和的比值，见式(5)；

式中d_m,n为PM_m与PM_n之间的欧氏距离；N为服务器总数。

定义2:服务器PM_p到分布密度较大的服务器的最小距离为服务器PM_p的最小距离指标ρ_p，见式(6)；

δ_p＝min{d_p,q|p,q∈{1,N},q≠p,ρ_q＞ρ_p} (6)

式中d_p,q为PM_p与PM_q之间的欧氏距离。对于分布密度最大的服务器，定义最小距离指标为其与其他服务器的最近距离。

定义3:服务器PM_p的加权密度θ_p是其分布密度与最小距离指标的乘积，即θ_p＝ρ_pδ_p,p∈[1,N]。所有服务器的平均加权密度见式(7):

基于上述定义，采用改进的k-means聚类算法，以实现对服务器器的高效聚类。算法描述如下：

选取

的服务器作为初始聚类中心。

2)确定最终的集群中心。检查是否任意两个服务器器的初始聚类中心集的欧几里得距离d_m,n小于给定的阈值距离。如果是，它表明服务器器之间的距离在两个初始簇中相对较近，很容易产生干扰。此时，从初始集群的中心集中删除一个服务器器。当比较所有初始集群的中心时，最终的集群中心集

Q是最终集群中心数量，Q<T。本发明采用加权聚类覆盖半径G作为距离阈值，见式(8)：

形成最终的聚类结果，根据步骤2得到的聚类中心，使用标准的k-means算法将剩余的服务器聚类到不同的集群中，从而得到最终的聚类结果。

(2)利用深度强化学习从当前下载任务中选择最优的服务器集群。根据当前***状态和下载任务，选择最优的服务器集群。因此，定义k个集群的等待时间见式(9)：

其中

表示集群中第P_k服务器的最大等待时间。在决策步骤t中，运行在第k个服务器集群上的虚拟机总数为

则云中心服务器集群状态见式(10)，行动见式(11)：

然后定义执行动作

后的返回值，即将当前的卸载任务分配给第k个服务器集群，见式(12):

第k个服务器集群的通信带宽用

表示。“带宽”的值为集群中心的服务器带宽，服务器集群的带宽是根据该带宽值估算的。

(3)利用改进的粒子群算法从最优聚类中选择最优服务器，并利用Pareto算法提高收敛速度。粒子群优化算法(PSO)是一种随机的全局优化算法，通常能得到较好的结果，但随着问题规模的增加，计算量和资源使用量也迅速增加。本发明重新定义了经典粒子群算法中粒子速度和位置的更新，并引入了利用该算法求解问题的帕累托方法。

定义1位置L＝[a_i,p_i]的粒子i在算法中表明，最优服务器器a_i在聚类中心 p_i上。

定义3粒子i的速度和位置的更新见式(13)、(14):

这里：

是粒子i的速度在k+1次的迭代；

是粒子位置L的互补运算；

是w(a)获得a 的加权操作；⊙是

和

的同或操作。

在粒子群优化算法中，粒子的种群就是应用解中的所有粒子。在每一代粒子优化过程中，通过适应度函数来评估粒子的适应度，使粒子获得其最优位置L_best和整个种群的最优位置L′_best。因此，粒子在搜索过程中总是倾向于向更好的搜索区域移动。在每次迭代中，粒子通过跟踪上述两个位置来更新自己，并根据公式更新速度和位置。

在有目标约束的调度策略中，任务延迟和资源利用率的目标函数为，见式 (15)、见式(16)：

obj_t(TD)＝t_total(TD) (15)

obj_C(UR)＝C_total(UR) (16)

因此，优化算法中的适应度函数表示，见式(17)：

F(Q)＝βt_total(TD)+(1-β)C_total(UR) (17)