CN110351754B

CN110351754B - 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法

Info

Publication number: CN110351754B
Application number: CN201910633257.3A
Authority: CN
Inventors: 李萌; 杨乐; ***; 吴文君; 杨睿哲; 孙阳
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2022-05-24
Anticipated expiration: 2039-07-15
Also published as: CN110351754A

Abstract

本发明公开了基于Q‑learning的工业互联网机器设备用户数据计算卸载决策方法，通过构造小区内用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型，并根据小区内用户数，设置Q‑learning模型中的环境状态、卸载动作和奖励函数，从而依据Q‑learning迭代学习后所获得的Q表执行卸载动作，获得最优的卸载策略，完成小区内用户计算任务的分配处理。本发明克服了传统数据计算卸载***无法应对复杂多变的网络环境和服务器状态以及局限于对单一开销优化等问题。仿真实验表明，本发明提出的基于Q‑learning的工业互联网设备用户数据计算卸载决策方法在减少用户总体和局部计算卸载开销方面具有一定的优势。

Description

基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法

技术领域

本发明涉及一种基于Q-learning的工业互联网设备用户数据计算卸载决策方法，通过Q-learning算法，设计一种有利于降低工业互联网中的机器设备***开销的决策方案，属于数据计算与执行决策的相关领域。

背景技术

当前，第五代(the fifth generation,5G)移动通信网络技术已经从概念逐渐步入商用，并将对智能生活产生重大而深远的意义，5G的普及将为各类以网络为支撑的移动互联网应用带来广阔的发展前景和机遇。与此同时，5G高速率、低时延、广连接的特点也将会为用户提供更优质、更高效的服务，从而满足用户不同的网络需求和服务质量(qualityof service,QoS)。

与传统的无线通信网络相比，网络中包含有数量庞大的机器类型通信设备(machine-type communication devices,MTCDs)将是5G网络场景中最显著的特征。作为工业互联网(Industrial Internet)的重要载体，多功能、多种类、多QoS需求的MTCD将成为5G网络中的重要组成部分，它们在承载、提供各种网络应用的同时，也将带来海量的网络资源占用、数据计算与传输以及***能耗开销等。与此同时，5G的网络通信成本也是一个不可忽视的问题。面对5G等数据网络可能产生高昂的使用费用，WiFi仍是网络接入的重要选择之一。在大量机器类通信设备网络接入的背景下，网络连接的成本问题也成为需要考虑的因素之一。

为应对工业互联网机器设备计算能力有限、网络拥塞等问题，移动边缘计算(mobile edge computing,MEC)技术在5G与工业互联网场景中将扮演重要的角色。移动边缘计算可实现在网络边缘为用户提供计算服务，其服务器的计算能力远大于机器设备。同时，相比于传统的云计算，移动边缘计算虽在计算能力方面稍显不足，但可大幅度减少网络传输时延，并有效缓解网络拥塞等问题，也降低了网络负载开销。

然而，在一定范围内，工业互联网机器设备数量极其庞大，当这些设备同时发送计算服务请求时，将超出MEC服务器的计算负载。另一方面，由于地理位置的限制，一些偏远位置的机器设备不易更换电池，导致此类设备自身能量有限，无法承受计算能耗过大的任务，存在大量计算任务卸载到其他数据计算服务器协助执行的需求。并且，庞大的设备数量决定了网络连接以及计算成本也是必然要考虑的要素。因此，在不超出MEC服务器负载的前提下，以尽可能小的能耗、经济等开销处理工业互联网机器设备产生的计算任务，成为当下的热门研究问题。针对以上问题，北京交通大学的Li等人主要研究了工业互联网场景中云计算与移动边缘计算协作的计算卸载策略，提出一种节能型计算卸载和资源分配框架，可有效减少***能耗达到50％。西安电子科技大学的Guo等人针对工业互联网机器设备计算密集型与计算资源受限相冲突的问题，提出了一种基于博弈论的联合计算卸载框架，实现MEC和Cloud的合作卸载，可使机器设备充分利用分布式MEC服务器和中心云服务器的计算资源，有效减少运行成本和能耗。然而，传统方法在应对工业互联网机器设备计算卸载的问题时还存在一些局限性，例如，无法适应复杂多变的网络环境以及无法支持工业互联网庞大的设备数量。

与此同时，针对这类状态变化频繁、不易建模的动态***，强化学习(reinforcement learning,RL)逐渐成为一类热门的解决方法。强化学习中agent通过对环境施加动作，并得到环境返回的动作评价，逐渐学习到在复杂环境中一些问题的最佳解决方案。基于强化学习无模型学习的优势，并针对任务卸载中复杂、时变的网络环境，近年来结合强化学习算法优化卸载策略的研究逐渐增加。MEDIATRON实验室的Emna等人基于Q-learning算法，依据用户的位置，获得最佳的WiFi连接策略。此外，新加坡国立大学的Le等人基于强化学习实现对用户多任务卸载的决策优化，有效减少用户设备能耗。尽管上述研究基于强化学习算法优化了网络连接或多任务卸载等策略，但仍存在只考虑信道、服务器状态等单一环境因素或只局限于对能耗、时延等单一因素优化的问题，并未深入考虑多种环境因素的影响或是对多种开销的联合优化。

综上所述，本发明将面向工业互联网场景中机器设备的计算任务卸载问题，提出一种基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法，综合考虑工业互联网机器设备卸载过程中的网络环境和服务器状态，并联合优化设备卸载过程产生的时延、能耗和经济开销，也可根据实际需求调整加权参数，对三者之一进行补偿优化。

发明内容

本发明的主要目的是在小区内用户计算任务卸载最优分配处理的角度上，考虑小区中存在1个部署MEC服务器的基站、多个WiFi节点和多个用户的情况下，以一段时间内小区中用户处理计算任务产生的总开销或单一开销达到最低为优化目标，通过Q-learning模型迭代学习，完成小区用户计算任务卸载的最优分配策略。本方法解决了在小区中有部署MEC服务器的基站、多个WiFi节点和多个用户的情况下，如何选择确定最优的用户计算任务处理分配策略的问题，并通过执行最优卸载策略获得一段时间内小区用户计算任务处理的最低总开销。

本发明所适应的小区环境场景模型见图1。

本发明技术方案中的***运行原理流程图见图2。

本发明***总开销与任务数据量关系图见图3。

本发明***总开销与任务复杂度关系图见图4。

本发明***经济开销与权值系数关系图见图5。

本发明的小区场景环境模型如图1所示，基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法，其特点在于：在某个通信小区中，存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站，当已知小区内用户数、WiFi节点数和优化目标(全局优化或补偿优化)后，根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数，并构造Q-learning中的状态、卸载动作和奖励函数，随后依据优化目标设置权值参数进行Q-learning迭代，学习到不同网络和服务器环境下用户计算任务的最佳处理方式(本地处理或多种卸载处理)，获得相应优化目标的Q表，最后根据优化目标选择对应的训练完成的Q表，以此为指导执行最优策略，从而达到此环境下用户计算任务处理的最低总开销，具体依次按以下步骤实现：

步骤(1)，***初始化，根据实际情况有：

小区内包含有N个有卸载需求的用户，用户每隔时间t产生计算任务，且任务的数据量为d，复杂度为c，小区内还存在1个部署了MEC服务器的基站，和M个WiFi节点供连接，MEC服务器的最大负载为L，用户从移动网络获得的带宽和传输功率分别为B_b和p_b，从WiFi网络获得的带宽和传输功率分别为B_w和p_w；

步骤(2)，根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型，结合实际情况，设置各模型中的参数，并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销，具体步骤如下：

步骤(2.1)，当用户数为m时，计算用户与基站间的网络传输速率r_b和用户与WiFi节点间的网络传输速r_w率，分别表示为：

其中，h_b和h_w分别为移动网络和WiFi网络的信道增益，N_b和N_w分别为移动网络和WiFi网络中噪声的功率谱密度；

步骤(2.2)，分别计算用户在本地处理任务和卸载处理任务产生的时延，当用户选择在本地处理任务时，任务时延D_l表示为：

F_l为用户本地CPU的计算速度；

当用户选择卸载处理任务时，分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器，任务时延分别表示为：

其中，F_l为用户本地CPU的计算速度，

为MEC服务器的计算速度，

为云服务器的计算速度，t_c任务上传至云服务器的额外等待时间，

为用户连接基站上传任务至MEC服务器处理产生的时延，

为用户连接基站上传任务至云服务器处理产生的时延，

为用户连接WiFi节点上传任务至MEC服务器处理产生的时延，

为用户连接WiFi节点上传任务至云服务器处理产生的时延；

步骤(2.3)，分别计算用户在本地处理任务和卸载处理任务产生的能耗，当用户选择在本地处理任务时，总能耗E_l表示为：

E_l＝z_n·c

其中，z_n为CPU每轮处理过程消耗的能量，z_n表示为：

z_n＝10^-27·(F_l)²

当用户择卸载处理任务时，分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器，其总能耗分别表示为：

其中，p_s为用户待机时延；

为用户连接基站上传任务至MEC服务器处理产生的能耗，

为用户连接基站上传任务至云服务器处理产生的能耗，

为用户连接WiFi节点上传任务至MEC服务器处理产生的能耗，

为用户连接WiFi节点上传任务至云服务器处理产生的能耗；

步骤(2.4)，分别计算用户在本地处理任务和卸载处理任务产生的经济开销，当用户选择在本地处理任务时，其经济开销M_l为0，当用户选择卸载任务时，分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器，其经济开销分别表示为：

其中，M_b为运营商收取的单位移动数据流量费用，

为MEC服务器收取的单位数据量存储费用，

为MEC服务器收取的单位计算费用，

为云服务器收取的单位数据量存储费用，

是云服务器收取的单位计算费用，

为用户连接基站上传任务至MEC服务器处理产生的经济开销，

为用户连接基站上传任务至云服务器处理产生的经济开销，

为用户连接WiFi节点上传任务至MEC服务器处理产生的经济开销，

为用户连接WiFi节点上传任务至云服务器处理产生的经济开销；

步骤(3)，根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型，并结合优化场景，设置Q-learning中的状态、动作和奖励函数，具体步骤如下：

步骤(3.1)，根据小区内用户数，设置状态集合：

其中，

为用户n与选定WiFi节点间的网络传输速率，

为用户n与基站间的网络传输速率，L为MEC服务器的计算资源占有情况；

步骤(3.2)，根据小区内用户数，设置动作集合：

其中，

表示用户n的任务是否上传，

表示用户n与WiFi节点或是基站连接，

表示用户n的计算任务上传至MEC服务器或是云服务器进行处理；

步骤(3.3)，根据步骤(2)中网络模型、时延模型、能耗模型和经济开销模型，获得每一时刻小区内用户任务处理的总开销，分为任务本地处理总开销和通过移动网络/WiFi上传任务至MEC服务器/云服务器的总开销，分别表示为：

A_l＝W_d·D_l+W_e·E_l+W_m·M_l

其中，W_d、W_e、W_m分别为用户处理任务时对应于时延、能耗和经济开销的权值，且服从0≤W_d≤1、0≤W_e≤1、0≤W_m≤1和W_d+W_e+W_m＝1，A_l为用户在本地处理任务产生的加权总开销，

为用户连接基站上传任务至MEC服务器处理产生的加权总开，

为用户连接基站上传任务至云服务器处理产生的加权总开销，

为用户连接WiFi节点上传任务至MEC服务器处理产生的加权总开销，

为用户连接WiFi节点上传任务至云服务器处理产生的加权总开销；

奖励函数r_t表示为：

其中，A_local(t)为时刻t下所有用户任务都置于本地处理的总开销，A(s_t,a_t)为时刻t时状态s_t下做出动作a_t产生的总开销；

步骤(4)，根据优化目标(全局优化或补偿优化)和权值参数范围(0≤W_d≤1、0≤W_e≤1、0≤W_m≤1、W_d+W_e+W_m＝1)设置权值参数，若进行全局优化，权值参数W_d、W_e、W_m均设为

若进行补偿优化，补偿目标的权值参数设为0.8，其余权值参数均设为0.1；

步骤(5)，根据步骤(4)中设置的权值参数和Q-learning迭代公式，训练不同优化目标的Q表，Q表是一张负责记录Q-learning中状态-动作值(简称Q值)的表格，其结构如下：

Q表

其中，(a₁,a₂...a_m...a_M)为所有可选择的卸载动作，(s₁,s₂...s_n...s_N)为所有可能出现的状态，以Q(s₁,a₁)为例，其表示在状态s₁下执行动作a₁的数值，在初始状态下，Q表中的Q值均为0，当***执行卸载动作时，致使环境跳变至下一状态，并从环境中获得奖励，随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代，其迭代公式表示为：

Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]

其中，Q(s,a)表示在状态s下做动作a时的Q值。α为学习效率，影响Q表的更新速度。r为即时奖励，γ为奖励延迟，maxQ(s’,a’)表示下一状态中可选动作中的最大Q值；

步骤(6)，根据不同的优化目标选择步骤(5)中对应的训练完成的Q表，并按照选定Q表执行该场景下的最优卸载策略，在按照Q表执行策略时，***将会选择每个状态下Q值最大的动作作为该状态下的最优动作，直至执行指令结束。

本发明的优势在于在具有多用户、多WiFi节点的通信小区中，通过考虑一段时间内不同时刻小区网络环境和服务器状态的变化，基于Q-learning并结合全局优化和补偿优化的优化目标，使一段时间内小区中所有用户处理计算任务而产生的时延、能耗和经济开销的加权总开销达到最低。通过仿真实验考察所提出的基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法对小区内用户处理计算任务产生开销的影响。

附图说明

图1，通信小区模型包含基站、WiFi节点和用户的结构示意图。

图2，基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法设计流程图。

图3，小区内用户任务处理总开销与任务数据量关系图，图中

表示本发明所述方法，

表示任务全部本地处理，

表示任务全部经WiFi网络卸载至云服务器，

表示任务全部经基站卸载至云服务器，

表示任务全部经WiFi网络卸载至MEC服务器，

表示任务全部经基站卸载至MEC服务器。

图4，小区内用户任务处理总开销与任务复杂度关系图，图中

表示本发明所述方法，

表示任务全部本地处理，

表示任务全部经WiFi网络卸载至云服务器，

表示任务全部经基站卸载至云服务器，

表示任务全部经WiFi网络卸载至MEC服务器，

表示任务全部经基站卸载至MEC服务器。

图5，小区内用户任务处理经济开销与权值系数关系图，图中

表示本发明所述方法经济开销权值参数为0.33时情况，

表示本发明所述方法经济开销权值参数为0.5时情况，

表示本发明所述方法经济开销权值参数为0.8时情况。

具体实施方式

下面结合附图和实例对基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法的技术方案做进一步说明。

本发明所述方法流程图如图2所示，包括以下步骤：

步骤1，***初始化，设定小区内用户数和WiFi节点数、基站和WiFi的带宽、发射功率及信噪比；

步骤2，根据实际情况，设置网络模型、时延模型、能耗模型和经济开销模型中各环境参数，并计算每种卸载决策产生的时延D、能耗E和经济开销M；

步骤3，根据小区内用户数和已计算的卸载时延D、能耗E和经济开销M，设置Q-learning算法的状态s_t、动作a_t和奖励r_t；

步骤4，根据实际需求，设置每种开销的权值参数W_d、W_e、W_m；

步骤5，进行Q-learning迭代学习，得到目标Q表；

步骤6，根据优化目标，按照对应Q表执行最优决策。

图3为小区内用户任务处理总开销与任务数据量关系图。由图3可知，本发明所述方法在不同任务数据量的条件下，处理任务产生的总开销始终低于其他5种已有方法。在任务数据量为500kb时，本发明所述方法对应的任务总开销仅为24，而其余方法产生的任务总开销至少为27。可以得出，随着任务数据量的提升，卸载策略产生的总开销均有所增加，而本地处理因不存在数据上传，***总开销不变，且本发明所述方法产生的总开销始终低于其他策略对应的总开销。

图4为小区内用户任务处理总开销与任务数据量关系图。由图4可知，随着任务复杂度增加，每种策略在处理任务时产生的***总开销均有所增加，但本发明所述方法产生的总开销始终低于其他已有方法对应的总开销。在任务复杂度为1300兆轮时，本发明所述方法对应总开销仅为23，而其余方法产生的任务总开销至少为28。从另一个角度，本发明所述方法在处理复杂度为1300兆轮的任务时，产生的开销大约与其他方法处理复杂度为900兆轮任务对应的开销相同。

图5为小区内用户任务处理经济开销与权值系数关系图。由图5可知，以***经济开销受权值系数影响为例，三条曲线均为本发明所述方法处理任务时产生的经济开销。当经济开销权值W_m分别设置为0.33、0.5和0.8时，***经济开销的优化程度有显著差异，权值越高，经济开销的优化程度越显著。当任务数据量为500kb时，权值为0.33的优化策略产生的经济开销为4.8，权值为0.5的优化策略产生的经济开销仅为0.2，而权值为0.8的优化策略产生的经济开销甚至为0，说明此时全部任务均置于本地处理以节省经济开销。进一步说明了本发明所述方法可选择对三种任务开销之一进行补偿优化。

Claims

1.基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法，其特点在于：在某个通信小区中，存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站，当已知小区内用户数、WiFi节点数和优化目标后，根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数，并构造Q-learning中的状态、卸载动作和奖励函数，随后依据优化目标设置权值参数进行Q-learning迭代，学习到不同网络和服务器环境下用户计算任务的最佳处理方式，获得相应优化目标的Q表，最后根据优化目标选择对应的训练完成的Q表，以此为指导执行最优策略，从而达到此环境下用户计算任务处理的最低总开销，具体依次按以下步骤实现：

步骤(1)，***初始化，根据实际情况有：

步骤(2)，根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型，结合实际情况，设置各模型中的参数，并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销；

步骤(3)，根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型，并结合优化场景，设置Q-learning中的状态、动作和奖励函数；

步骤(4)，根据优化目标和权值参数范围设置权值参数，若进行全局优化，权值参数W_d、W_e、W_m均设为

若进行补偿优化，补偿目标的权值参数设为0.8，其余权值参数均设为0.1；0≤W_d≤1、0≤W_e≤1、0≤W_m≤1、W_d+W_e+W_m＝1；

步骤(5)，根据步骤(4)中设置的权值参数和Q-learning迭代公式，训练不同优化目标的Q表，Q表是一张负责记录Q-learning中状态-动作值简称Q值的表格，其结构如下：

其中，(a₁,a₂...a_m...a_M)为所有可选择的卸载动作，(s₁,s₂...s_n...s_N)为所有可能出现的状态，Q(s₁,a₁)表示在状态s₁下执行动作a₁的数值，在初始状态下，Q表中的Q值均为0，当***执行卸载动作时，致使环境跳变至下一状态，并从环境中获得奖励，随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代，其迭代公式表示为：

Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]

其中，Q(s,a)表示在状态s下做动作a时的Q值；α为学习效率，影响Q表的更新速度；r为即时奖励，γ为奖励延迟，maxQ(s’,a’)表示下一状态中可选动作中的最大Q值；

步骤(6)，根据不同的优化目标选择步骤(5)中对应的训练完成的Q表，并按照选定Q表执行该场景下的最优卸载策略，在按照Q表执行策略时，***将会选择每个状态下Q值最大的动作作为该状态下的最优动作，直至执行指令结束；

步骤(2) 的实施过程如下，