CN110351754B - 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 - Google Patents

基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 Download PDF

Info

Publication number
CN110351754B
CN110351754B CN201910633257.3A CN201910633257A CN110351754B CN 110351754 B CN110351754 B CN 110351754B CN 201910633257 A CN201910633257 A CN 201910633257A CN 110351754 B CN110351754 B CN 110351754B
Authority
CN
China
Prior art keywords
user
task
uploading
model
unloading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910633257.3A
Other languages
English (en)
Other versions
CN110351754A (zh
Inventor
李萌
杨乐
***
吴文君
杨睿哲
孙阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910633257.3A priority Critical patent/CN110351754B/zh
Publication of CN110351754A publication Critical patent/CN110351754A/zh
Application granted granted Critical
Publication of CN110351754B publication Critical patent/CN110351754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/02Arrangements for optimising operational condition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/06Testing, supervising or monitoring using simulated traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了基于Q‑learning的工业互联网机器设备用户数据计算卸载决策方法,通过构造小区内用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,并根据小区内用户数,设置Q‑learning模型中的环境状态、卸载动作和奖励函数,从而依据Q‑learning迭代学习后所获得的Q表执行卸载动作,获得最优的卸载策略,完成小区内用户计算任务的分配处理。本发明克服了传统数据计算卸载***无法应对复杂多变的网络环境和服务器状态以及局限于对单一开销优化等问题。仿真实验表明,本发明提出的基于Q‑learning的工业互联网设备用户数据计算卸载决策方法在减少用户总体和局部计算卸载开销方面具有一定的优势。

Description

基于Q-learning的工业互联网机器设备用户数据计算卸载决 策方法
技术领域
本发明涉及一种基于Q-learning的工业互联网设备用户数据计算卸载决策方法,通过Q-learning算法,设计一种有利于降低工业互联网中的机器设备***开销的决策方案,属于数据计算与执行决策的相关领域。
背景技术
当前,第五代(the fifth generation,5G)移动通信网络技术已经从概念逐渐步入商用,并将对智能生活产生重大而深远的意义,5G的普及将为各类以网络为支撑的移动互联网应用带来广阔的发展前景和机遇。与此同时,5G高速率、低时延、广连接的特点也将会为用户提供更优质、更高效的服务,从而满足用户不同的网络需求和服务质量(qualityof service,QoS)。
与传统的无线通信网络相比,网络中包含有数量庞大的机器类型通信设备(machine-type communication devices,MTCDs)将是5G网络场景中最显著的特征。作为工业互联网(Industrial Internet)的重要载体,多功能、多种类、多QoS需求的MTCD将成为5G网络中的重要组成部分,它们在承载、提供各种网络应用的同时,也将带来海量的网络资源占用、数据计算与传输以及***能耗开销等。与此同时,5G的网络通信成本也是一个不可忽视的问题。面对5G等数据网络可能产生高昂的使用费用,WiFi仍是网络接入的重要选择之一。在大量机器类通信设备网络接入的背景下,网络连接的成本问题也成为需要考虑的因素之一。
为应对工业互联网机器设备计算能力有限、网络拥塞等问题,移动边缘计算(mobile edge computing,MEC)技术在5G与工业互联网场景中将扮演重要的角色。移动边缘计算可实现在网络边缘为用户提供计算服务,其服务器的计算能力远大于机器设备。同时,相比于传统的云计算,移动边缘计算虽在计算能力方面稍显不足,但可大幅度减少网络传输时延,并有效缓解网络拥塞等问题,也降低了网络负载开销。
然而,在一定范围内,工业互联网机器设备数量极其庞大,当这些设备同时发送计算服务请求时,将超出MEC服务器的计算负载。另一方面,由于地理位置的限制,一些偏远位置的机器设备不易更换电池,导致此类设备自身能量有限,无法承受计算能耗过大的任务,存在大量计算任务卸载到其他数据计算服务器协助执行的需求。并且,庞大的设备数量决定了网络连接以及计算成本也是必然要考虑的要素。因此,在不超出MEC服务器负载的前提下,以尽可能小的能耗、经济等开销处理工业互联网机器设备产生的计算任务,成为当下的热门研究问题。针对以上问题,北京交通大学的Li等人主要研究了工业互联网场景中云计算与移动边缘计算协作的计算卸载策略,提出一种节能型计算卸载和资源分配框架,可有效减少***能耗达到50%。西安电子科技大学的Guo等人针对工业互联网机器设备计算密集型与计算资源受限相冲突的问题,提出了一种基于博弈论的联合计算卸载框架,实现MEC和Cloud的合作卸载,可使机器设备充分利用分布式MEC服务器和中心云服务器的计算资源,有效减少运行成本和能耗。然而,传统方法在应对工业互联网机器设备计算卸载的问题时还存在一些局限性,例如,无法适应复杂多变的网络环境以及无法支持工业互联网庞大的设备数量。
与此同时,针对这类状态变化频繁、不易建模的动态***,强化学习(reinforcement learning,RL)逐渐成为一类热门的解决方法。强化学习中agent通过对环境施加动作,并得到环境返回的动作评价,逐渐学习到在复杂环境中一些问题的最佳解决方案。基于强化学习无模型学习的优势,并针对任务卸载中复杂、时变的网络环境,近年来结合强化学习算法优化卸载策略的研究逐渐增加。MEDIATRON实验室的Emna等人基于Q-learning算法,依据用户的位置,获得最佳的WiFi连接策略。此外,新加坡国立大学的Le等人基于强化学习实现对用户多任务卸载的决策优化,有效减少用户设备能耗。尽管上述研究基于强化学习算法优化了网络连接或多任务卸载等策略,但仍存在只考虑信道、服务器状态等单一环境因素或只局限于对能耗、时延等单一因素优化的问题,并未深入考虑多种环境因素的影响或是对多种开销的联合优化。
综上所述,本发明将面向工业互联网场景中机器设备的计算任务卸载问题,提出一种基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,综合考虑工业互联网机器设备卸载过程中的网络环境和服务器状态,并联合优化设备卸载过程产生的时延、能耗和经济开销,也可根据实际需求调整加权参数,对三者之一进行补偿优化。
发明内容
本发明的主要目的是在小区内用户计算任务卸载最优分配处理的角度上,考虑小区中存在1个部署MEC服务器的基站、多个WiFi节点和多个用户的情况下,以一段时间内小区中用户处理计算任务产生的总开销或单一开销达到最低为优化目标,通过Q-learning模型迭代学习,完成小区用户计算任务卸载的最优分配策略。本方法解决了在小区中有部署MEC服务器的基站、多个WiFi节点和多个用户的情况下,如何选择确定最优的用户计算任务处理分配策略的问题,并通过执行最优卸载策略获得一段时间内小区用户计算任务处理的最低总开销。
本发明所适应的小区环境场景模型见图1。
本发明技术方案中的***运行原理流程图见图2。
本发明***总开销与任务数据量关系图见图3。
本发明***总开销与任务复杂度关系图见图4。
本发明***经济开销与权值系数关系图见图5。
本发明的小区场景环境模型如图1所示,基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标(全局优化或补偿优化)后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q-learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q-learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式(本地处理或多种卸载处理),获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:
步骤(1),***初始化,根据实际情况有:
小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw
步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销,具体步骤如下:
步骤(2.1),当用户数为m时,计算用户与基站间的网络传输速率rb和用户与WiFi节点间的网络传输速rw率,分别表示为:
Figure BDA0002129352410000041
Figure BDA0002129352410000042
其中,hb和hw分别为移动网络和WiFi网络的信道增益,Nb和Nw分别为移动网络和WiFi网络中噪声的功率谱密度;
步骤(2.2),分别计算用户在本地处理任务和卸载处理任务产生的时延,当用户选择在本地处理任务时,任务时延Dl表示为:
Figure BDA0002129352410000043
Fl为用户本地CPU的计算速度;
当用户选择卸载处理任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,任务时延分别表示为:
Figure BDA0002129352410000044
Figure BDA0002129352410000045
Figure BDA0002129352410000046
Figure BDA0002129352410000047
其中,Fl为用户本地CPU的计算速度,
Figure BDA0002129352410000048
为MEC服务器的计算速度,
Figure BDA0002129352410000049
为云服务器的计算速度,tc任务上传至云服务器的额外等待时间,
Figure BDA00021293524100000410
为用户连接基站上传任务至MEC服务器处理产生的时延,
Figure BDA0002129352410000051
为用户连接基站上传任务至云服务器处理产生的时延,
Figure BDA0002129352410000052
为用户连接WiFi节点上传任务至MEC服务器处理产生的时延,
Figure BDA0002129352410000053
为用户连接WiFi节点上传任务至云服务器处理产生的时延;
步骤(2.3),分别计算用户在本地处理任务和卸载处理任务产生的能耗,当用户选择在本地处理任务时,总能耗El表示为:
El=zn·c
其中,zn为CPU每轮处理过程消耗的能量,zn表示为:
zn=10-27·(Fl)2
当用户择卸载处理任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,其总能耗分别表示为:
Figure BDA0002129352410000054
Figure BDA0002129352410000055
Figure BDA0002129352410000056
Figure BDA0002129352410000057
其中,ps为用户待机时延;
Figure BDA0002129352410000058
为用户连接基站上传任务至MEC服务器处理产生的能耗,
Figure BDA0002129352410000059
为用户连接基站上传任务至云服务器处理产生的能耗,
Figure BDA00021293524100000510
为用户连接WiFi节点上传任务至MEC服务器处理产生的能耗,
Figure BDA00021293524100000511
为用户连接WiFi节点上传任务至云服务器处理产生的能耗;
步骤(2.4),分别计算用户在本地处理任务和卸载处理任务产生的经济开销,当用户选择在本地处理任务时,其经济开销Ml为0,当用户选择卸载任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,其经济开销分别表示为:
Figure BDA0002129352410000061
Figure BDA0002129352410000062
Figure BDA0002129352410000063
Figure BDA0002129352410000064
其中,Mb为运营商收取的单位移动数据流量费用,
Figure BDA0002129352410000065
为MEC服务器收取的单位数据量存储费用,
Figure BDA0002129352410000066
为MEC服务器收取的单位计算费用,
Figure BDA0002129352410000067
为云服务器收取的单位数据量存储费用,
Figure BDA0002129352410000068
是云服务器收取的单位计算费用,
Figure BDA0002129352410000069
为用户连接基站上传任务至MEC服务器处理产生的经济开销,
Figure BDA00021293524100000610
为用户连接基站上传任务至云服务器处理产生的经济开销,
Figure BDA00021293524100000611
为用户连接WiFi节点上传任务至MEC服务器处理产生的经济开销,
Figure BDA00021293524100000612
为用户连接WiFi节点上传任务至云服务器处理产生的经济开销;
步骤(3),根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型,并结合优化场景,设置Q-learning中的状态、动作和奖励函数,具体步骤如下:
步骤(3.1),根据小区内用户数,设置状态集合:
Figure BDA00021293524100000613
其中,
Figure BDA00021293524100000614
为用户n与选定WiFi节点间的网络传输速率,
Figure BDA00021293524100000615
为用户n与基站间的网络传输速率,L为MEC服务器的计算资源占有情况;
步骤(3.2),根据小区内用户数,设置动作集合:
Figure BDA00021293524100000616
其中,
Figure BDA00021293524100000617
表示用户n的任务是否上传,
Figure BDA00021293524100000618
表示用户n与WiFi节点或是基站连接,
Figure BDA00021293524100000619
表示用户n的计算任务上传至MEC服务器或是云服务器进行处理;
步骤(3.3),根据步骤(2)中网络模型、时延模型、能耗模型和经济开销模型,获得每一时刻小区内用户任务处理的总开销,分为任务本地处理总开销和通过移动网络/WiFi上传任务至MEC服务器/云服务器的总开销,分别表示为:
Al=Wd·Dl+We·El+Wm·Ml
Figure BDA0002129352410000071
Figure BDA0002129352410000072
Figure BDA0002129352410000073
Figure BDA0002129352410000074
其中,Wd、We、Wm分别为用户处理任务时对应于时延、能耗和经济开销的权值,且服从0≤Wd≤1、0≤We≤1、0≤Wm≤1和Wd+We+Wm=1,Al为用户在本地处理任务产生的加权总开销,
Figure BDA0002129352410000075
为用户连接基站上传任务至MEC服务器处理产生的加权总开,
Figure BDA0002129352410000076
为用户连接基站上传任务至云服务器处理产生的加权总开销,
Figure BDA0002129352410000077
为用户连接WiFi节点上传任务至MEC服务器处理产生的加权总开销,
Figure BDA0002129352410000078
为用户连接WiFi节点上传任务至云服务器处理产生的加权总开销;
奖励函数rt表示为:
Figure BDA0002129352410000079
其中,Alocal(t)为时刻t下所有用户任务都置于本地处理的总开销,A(st,at)为时刻t时状态st下做出动作at产生的总开销;
步骤(4),根据优化目标(全局优化或补偿优化)和权值参数范围(0≤Wd≤1、0≤We≤1、0≤Wm≤1、Wd+We+Wm=1)设置权值参数,若进行全局优化,权值参数Wd、We、Wm均设为
Figure BDA00021293524100000710
若进行补偿优化,补偿目标的权值参数设为0.8,其余权值参数均设为0.1;
步骤(5),根据步骤(4)中设置的权值参数和Q-learning迭代公式,训练不同优化目标的Q表,Q表是一张负责记录Q-learning中状态-动作值(简称Q值)的表格,其结构如下:
Q表
Figure BDA0002129352410000081
其中,(a1,a2...am...aM)为所有可选择的卸载动作,(s1,s2...sn...sN)为所有可能出现的状态,以Q(s1,a1)为例,其表示在状态s1下执行动作a1的数值,在初始状态下,Q表中的Q值均为0,当***执行卸载动作时,致使环境跳变至下一状态,并从环境中获得奖励,随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代,其迭代公式表示为:
Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]
其中,Q(s,a)表示在状态s下做动作a时的Q值。α为学习效率,影响Q表的更新速度。r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态中可选动作中的最大Q值;
步骤(6),根据不同的优化目标选择步骤(5)中对应的训练完成的Q表,并按照选定Q表执行该场景下的最优卸载策略,在按照Q表执行策略时,***将会选择每个状态下Q值最大的动作作为该状态下的最优动作,直至执行指令结束。
本发明的优势在于在具有多用户、多WiFi节点的通信小区中,通过考虑一段时间内不同时刻小区网络环境和服务器状态的变化,基于Q-learning并结合全局优化和补偿优化的优化目标,使一段时间内小区中所有用户处理计算任务而产生的时延、能耗和经济开销的加权总开销达到最低。通过仿真实验考察所提出的基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法对小区内用户处理计算任务产生开销的影响。
附图说明
图1,通信小区模型包含基站、WiFi节点和用户的结构示意图。
图2,基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法设计流程图。
图3,小区内用户任务处理总开销与任务数据量关系图,图中
Figure BDA0002129352410000091
表示本发明所述方法,
Figure BDA0002129352410000095
表示任务全部本地处理,
Figure BDA0002129352410000092
表示任务全部经WiFi网络卸载至云服务器,
Figure BDA0002129352410000094
表示任务全部经基站卸载至云服务器,
Figure BDA0002129352410000093
表示任务全部经WiFi网络卸载至MEC服务器,
Figure BDA0002129352410000096
表示任务全部经基站卸载至MEC服务器。
图4,小区内用户任务处理总开销与任务复杂度关系图,图中
Figure BDA0002129352410000097
表示本发明所述方法,
Figure BDA00021293524100000912
表示任务全部本地处理,
Figure BDA0002129352410000098
表示任务全部经WiFi网络卸载至云服务器,
Figure BDA00021293524100000911
表示任务全部经基站卸载至云服务器,
Figure BDA0002129352410000099
表示任务全部经WiFi网络卸载至MEC服务器,
Figure BDA00021293524100000910
表示任务全部经基站卸载至MEC服务器。
图5,小区内用户任务处理经济开销与权值系数关系图,图中
Figure BDA00021293524100000913
表示本发明所述方法经济开销权值参数为0.33时情况,
Figure BDA00021293524100000914
表示本发明所述方法经济开销权值参数为0.5时情况,
Figure BDA00021293524100000915
表示本发明所述方法经济开销权值参数为0.8时情况。
具体实施方式
下面结合附图和实例对基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法的技术方案做进一步说明。
本发明所述方法流程图如图2所示,包括以下步骤:
步骤1,***初始化,设定小区内用户数和WiFi节点数、基站和WiFi的带宽、发射功率及信噪比;
步骤2,根据实际情况,设置网络模型、时延模型、能耗模型和经济开销模型中各环境参数,并计算每种卸载决策产生的时延D、能耗E和经济开销M;
步骤3,根据小区内用户数和已计算的卸载时延D、能耗E和经济开销M,设置Q-learning算法的状态st、动作at和奖励rt
步骤4,根据实际需求,设置每种开销的权值参数Wd、We、Wm
步骤5,进行Q-learning迭代学习,得到目标Q表;
步骤6,根据优化目标,按照对应Q表执行最优决策。
图3为小区内用户任务处理总开销与任务数据量关系图。由图3可知,本发明所述方法在不同任务数据量的条件下,处理任务产生的总开销始终低于其他5种已有方法。在任务数据量为500kb时,本发明所述方法对应的任务总开销仅为24,而其余方法产生的任务总开销至少为27。可以得出,随着任务数据量的提升,卸载策略产生的总开销均有所增加,而本地处理因不存在数据上传,***总开销不变,且本发明所述方法产生的总开销始终低于其他策略对应的总开销。
图4为小区内用户任务处理总开销与任务数据量关系图。由图4可知,随着任务复杂度增加,每种策略在处理任务时产生的***总开销均有所增加,但本发明所述方法产生的总开销始终低于其他已有方法对应的总开销。在任务复杂度为1300兆轮时,本发明所述方法对应总开销仅为23,而其余方法产生的任务总开销至少为28。从另一个角度,本发明所述方法在处理复杂度为1300兆轮的任务时,产生的开销大约与其他方法处理复杂度为900兆轮任务对应的开销相同。
图5为小区内用户任务处理经济开销与权值系数关系图。由图5可知,以***经济开销受权值系数影响为例,三条曲线均为本发明所述方法处理任务时产生的经济开销。当经济开销权值Wm分别设置为0.33、0.5和0.8时,***经济开销的优化程度有显著差异,权值越高,经济开销的优化程度越显著。当任务数据量为500kb时,权值为0.33的优化策略产生的经济开销为4.8,权值为0.5的优化策略产生的经济开销仅为0.2,而权值为0.8的优化策略产生的经济开销甚至为0,说明此时全部任务均置于本地处理以节省经济开销。进一步说明了本发明所述方法可选择对三种任务开销之一进行补偿优化。

Claims (1)

1.基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法,其特点在于:在某个通信小区中,存在N个用户、M个WiFi节点和1个部署了MEC服务器的基站,当已知小区内用户数、WiFi节点数和优化目标后,根据实际情况配置网络模型、时延模型、能耗模型和经济开销模型中的环境参数,并构造Q-learning中的状态、卸载动作和奖励函数,随后依据优化目标设置权值参数进行Q-learning迭代,学习到不同网络和服务器环境下用户计算任务的最佳处理方式,获得相应优化目标的Q表,最后根据优化目标选择对应的训练完成的Q表,以此为指导执行最优策略,从而达到此环境下用户计算任务处理的最低总开销,具体依次按以下步骤实现:
步骤(1),***初始化,根据实际情况有:
小区内包含有N个有卸载需求的用户,用户每隔时间t产生计算任务,且任务的数据量为d,复杂度为c,小区内还存在1个部署了MEC服务器的基站,和M个WiFi节点供连接,MEC服务器的最大负载为L,用户从移动网络获得的带宽和传输功率分别为Bb和pb,从WiFi网络获得的带宽和传输功率分别为Bw和pw
步骤(2),根据用户计算卸载的网络模型、时延模型、能耗模型和经济开销模型,结合实际情况,设置各模型中的参数,并计算在卸载过程中每种卸载决策产生的时延、能耗和经济开销;
步骤(3),根据步骤(2)中构造完成的网络模型、时延模型、能耗模型和经济开销模型,并结合优化场景,设置Q-learning中的状态、动作和奖励函数;
步骤(4),根据优化目标和权值参数范围设置权值参数,若进行全局优化,权值参数Wd、We、Wm均设为
Figure FDA0003555061300000011
若进行补偿优化,补偿目标的权值参数设为0.8,其余权值参数均设为0.1;0≤Wd≤1、0≤We≤1、0≤Wm≤1、Wd+We+Wm=1;
步骤(5),根据步骤(4)中设置的权值参数和Q-learning迭代公式,训练不同优化目标的Q表,Q表是一张负责记录Q-learning中状态-动作值简称Q值的表格,其结构如下:
Figure FDA0003555061300000021
其中,(a1,a2...am...aM)为所有可选择的卸载动作,(s1,s2...sn...sN)为所有可能出现的状态,Q(s1,a1)表示在状态s1下执行动作a1的数值,在初始状态下,Q表中的Q值均为0,当***执行卸载动作时,致使环境跳变至下一状态,并从环境中获得奖励,随后将根据获得的即时奖励和跳变状态对Q值进行数值迭代,其迭代公式表示为:
Q(s,a)←Q(s,a)+α[r+γmaxQ(s’,a’)-Q(s,a)]
其中,Q(s,a)表示在状态s下做动作a时的Q值;α为学习效率,影响Q表的更新速度;r为即时奖励,γ为奖励延迟,maxQ(s’,a’)表示下一状态中可选动作中的最大Q值;
步骤(6),根据不同的优化目标选择步骤(5)中对应的训练完成的Q表,并按照选定Q表执行该场景下的最优卸载策略,在按照Q表执行策略时,***将会选择每个状态下Q值最大的动作作为该状态下的最优动作,直至执行指令结束;
步骤(2) 的实施过程如下,
步骤(2.1),当用户数为m时,计算用户与基站间的网络传输速率rb和用户与WiFi节点间的网络传输速rw率,分别表示为:
Figure FDA0003555061300000022
Figure FDA0003555061300000023
其中,hb和hw分别为移动网络和WiFi网络的信道增益,Nb和Nw分别为移动网络和WiFi网络中噪声的功率谱密度;
步骤(2.2),分别计算用户在本地处理任务和卸载处理任务产生的时延,当用户选择在本地处理任务时,任务时延Dl表示为:
Figure FDA0003555061300000031
Fl为用户本地CPU的计算速度;
当用户选择卸载处理任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,任务时延分别表示为:
Figure FDA0003555061300000032
Figure FDA0003555061300000033
Figure FDA0003555061300000034
Figure FDA0003555061300000035
其中,Fl为用户本地CPU的计算速度,Fo m为MEC服务器的计算速度,
Figure FDA0003555061300000036
为云服务器的计算速度,tc任务上传至云服务器的额外等待时间,
Figure FDA0003555061300000037
为用户连接基站上传任务至MEC服务器处理产生的时延,
Figure FDA0003555061300000038
为用户连接基站上传任务至云服务器处理产生的时延,
Figure FDA0003555061300000039
为用户连接WiFi节点上传任务至MEC服务器处理产生的时延,
Figure FDA00035550613000000310
为用户连接WiFi节点上传任务至云服务器处理产生的时延;
步骤(2.3),分别计算用户在本地处理任务和卸载处理任务产生的能耗,当用户选择在本地处理任务时,总能耗El表示为:
El=zn·c
其中,zn为CPU每轮处理过程消耗的能量,zn表示为:
zn=10-27·(Fl)2
当用户择卸载处理任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,其总能耗分别表示为:
Figure FDA0003555061300000041
Figure FDA0003555061300000042
Figure FDA0003555061300000043
Figure FDA0003555061300000044
其中,ps为用户待机时延;
Figure FDA0003555061300000045
为用户连接基站上传任务至MEC服务器处理产生的能耗,
Figure FDA0003555061300000046
为用户连接基站上传任务至云服务器处理产生的能耗,
Figure FDA0003555061300000047
为用户连接WiFi节点上传任务至MEC服务器处理产生的能耗,
Figure FDA0003555061300000048
为用户连接WiFi节点上传任务至云服务器处理产生的能耗;
步骤(2.4),分别计算用户在本地处理任务和卸载处理任务产生的经济开销,当用户选择在本地处理任务时,其经济开销Ml为0,当用户选择卸载任务时,分为通过移动网络/WiFi网络上传任务至MEC服务器/云服务器,其经济开销分别表示为:
Figure FDA0003555061300000049
Figure FDA00035550613000000410
Figure FDA00035550613000000411
Figure FDA00035550613000000412
其中,Mb为运营商收取的单位移动数据流量费用,
Figure FDA00035550613000000413
为MEC服务器收取的单位数据量存储费用,
Figure FDA00035550613000000414
为MEC服务器收取的单位计算费用,
Figure FDA00035550613000000415
为云服务器收取的单位数据量存储费用,
Figure FDA00035550613000000416
是云服务器收取的单位计算费用,
Figure FDA00035550613000000417
为用户连接基站上传任务至MEC服务器处理产生的经济开销,
Figure FDA0003555061300000051
为用户连接基站上传任务至云服务器处理产生的经济开销,
Figure FDA0003555061300000052
为用户连接WiFi节点上传任务至MEC服务器处理产生的经济开销,
Figure FDA0003555061300000053
为用户连接WiFi节点上传任务至云服务器处理产生的经济开销;
步骤(3) 的实施过程如下,
步骤(3.1),根据小区内用户数,设置状态集合:
Figure FDA0003555061300000054
其中,
Figure FDA0003555061300000055
为用户n与选定WiFi节点间的网络传输速率,
Figure FDA0003555061300000056
为用户n与基站间的网络传输速率,L为MEC服务器的计算资源占有情况;
步骤(3.2),根据小区内用户数,设置动作集合:
Figure FDA0003555061300000057
其中,
Figure FDA0003555061300000058
表示用户n的任务是否上传,
Figure FDA0003555061300000059
表示用户n与WiFi节点或是基站连接,
Figure FDA00035550613000000510
表示用户n的计算任务上传至MEC服务器或是云服务器进行处理;
步骤(3.3),根据步骤(2)中网络模型、时延模型、能耗模型和经济开销模型,获得每一时刻小区内用户任务处理的总开销,分为任务本地处理总开销和通过移动网络/WiFi上传任务至MEC服务器/云服务器的总开销,分别表示为:
Al=Wd·Dl+We·El+Wm·Ml
Figure FDA00035550613000000511
Figure FDA00035550613000000512
Figure FDA00035550613000000513
Figure FDA00035550613000000514
其中,Wd、We、Wm分别为用户处理任务时对应于时延、能耗和经济开销的权值,且服从0≤Wd≤1、0≤We≤1、0≤Wm≤1和Wd+We+Wm=1,Al为用户在本地处理任务产生的加权总开销,
Figure FDA00035550613000000515
为用户连接基站上传任务至MEC服务器处理产生的加权总开,
Figure FDA0003555061300000061
为用户连接基站上传任务至云服务器处理产生的加权总开销,
Figure FDA0003555061300000062
为用户连接WiFi节点上传任务至MEC服务器处理产生的加权总开销,
Figure FDA0003555061300000063
为用户连接WiFi节点上传任务至云服务器处理产生的加权总开销;
奖励函数rt表示为:
Figure FDA0003555061300000064
其中,Alocal(t)为时刻t下所有用户任务都置于本地处理的总开销,A(st,at)为时刻t时状态st下做出动作at产生的总开销。
CN201910633257.3A 2019-07-15 2019-07-15 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 Active CN110351754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910633257.3A CN110351754B (zh) 2019-07-15 2019-07-15 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910633257.3A CN110351754B (zh) 2019-07-15 2019-07-15 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法

Publications (2)

Publication Number Publication Date
CN110351754A CN110351754A (zh) 2019-10-18
CN110351754B true CN110351754B (zh) 2022-05-24

Family

ID=68176158

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910633257.3A Active CN110351754B (zh) 2019-07-15 2019-07-15 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法

Country Status (1)

Country Link
CN (1) CN110351754B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160525B (zh) * 2019-12-17 2023-06-20 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN111200831B (zh) * 2020-01-08 2021-08-24 中国科学院计算技术研究所 一种融合移动边缘计算的蜂窝网络计算卸载方法
CN111414252B (zh) * 2020-03-18 2022-10-18 重庆邮电大学 一种基于深度强化学习的任务卸载方法
CN111405568B (zh) * 2020-03-19 2023-01-17 三峡大学 基于q学习的计算卸载和资源分配方法及装置
CN111507601B (zh) * 2020-04-12 2022-06-07 北京工业大学 基于深度强化学习与区块链共识的资源优化分配决策方法
CN112115505A (zh) * 2020-08-07 2020-12-22 北京工业大学 基于移动边缘计算和区块链技术的新能源汽车充电站计费数据传输方法
CN112860350B (zh) * 2021-03-15 2022-06-03 广西师范大学 一种边缘计算中基于任务缓存的计算卸载方法
CN113115072A (zh) * 2021-04-09 2021-07-13 中山大学 一种基于端云协同的视频目标检测跟踪调度方法及***
CN113572804B (zh) * 2021-04-29 2023-06-30 重庆工程职业技术学院 一种基于边缘协作的任务卸载***、方法及装置
US20230029920A1 (en) * 2021-08-02 2023-02-02 Dell Products L.P. Optimizing performance of a computing device in a mixed workload environment
CN115174566B (zh) * 2022-06-08 2024-03-15 之江实验室 一种基于深度强化学习的边缘计算任务卸载方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109462858A (zh) * 2017-11-08 2019-03-12 北京邮电大学 一种无线传感器网络参数自适应调节方法
CN108924897A (zh) * 2018-06-30 2018-11-30 北京工业大学 一种基于深度强化学习算法的移动sink路径规划方法
CN109302709B (zh) * 2018-09-14 2022-04-05 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN109753751B (zh) * 2019-01-20 2023-04-18 北京工业大学 一种基于机器学习的mec随机任务迁移方法
CN109951897A (zh) * 2019-03-08 2019-06-28 东华大学 一种能耗与延迟约束下的mec卸载方法

Also Published As

Publication number Publication date
CN110351754A (zh) 2019-10-18

Similar Documents

Publication Publication Date Title
CN110351754B (zh) 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法
CN113810233B (zh) 一种在随机网络中基于算网协同的分布式计算卸载方法
CN112689303B (zh) 一种边云协同资源联合分配方法、***及应用
CN107766135A (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN109829332A (zh) 一种基于能量收集技术的联合计算卸载方法及装置
CN113918240B (zh) 任务卸载方法及装置
Zhu et al. Computation offloading for workflow in mobile edge computing based on deep Q-learning
CN111163143B (zh) 一种面向移动边缘计算的低时延任务卸载方法
CN110519849B (zh) 一种针对移动边缘计算的通信和计算资源联合分配方法
CN109639833A (zh) 一种基于无线城域网微云负载均衡的任务调度方法
CN113573363B (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN113992677A (zh) 一种延迟与能耗联合优化的mec计算卸载方法
Li et al. DQN-enabled content caching and quantum ant colony-based computation offloading in MEC
CN116489708A (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN113747450B (zh) 一种移动网络中业务部署方法、装置及电子设备
Gao et al. Multi-armed bandits scheme for tasks offloading in MEC-enabled maritime communication networks
CN111158893B (zh) 应用于雾计算网络的任务卸载方法、***、设备及介质
CN112231117B (zh) 基于动态向量混合遗传算法的云机器人服务选择方法及***
CN113821346A (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN111580943B (zh) 一种面向低时延边缘计算中多跳卸载的任务调度方法
CN111611069B (zh) 多数据中心间多类型任务迁移方法
CN110768827B (zh) 一种基于群智能算法的任务卸载方法
CN117201408A (zh) 一种基于群体博弈的大规模物联网设备负载均衡解决方法
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
CN111148155A (zh) 一种基于移动边缘计算的任务卸载方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant