CN111405569A - 基于深度强化学习的计算卸载和资源分配方法及装置 - Google Patents

基于深度强化学习的计算卸载和资源分配方法及装置 Download PDF

Info

Publication number
CN111405569A
CN111405569A CN202010197729.8A CN202010197729A CN111405569A CN 111405569 A CN111405569 A CN 111405569A CN 202010197729 A CN202010197729 A CN 202010197729A CN 111405569 A CN111405569 A CN 111405569A
Authority
CN
China
Prior art keywords
reinforcement learning
resource allocation
deep reinforcement
computing
resources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010197729.8A
Other languages
English (en)
Inventor
周欢
江恺
冯阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202010197729.8A priority Critical patent/CN111405569A/zh
Publication of CN111405569A publication Critical patent/CN111405569A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/02Resource partitioning among network components, e.g. reuse partitioning
    • H04W16/10Dynamic resource partitioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W16/00Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
    • H04W16/22Traffic simulation tools or models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明提供一种基于深度强化学习的计算卸载和资源分配方法及装置,所述方法包括:基于UE的计算任务参数、UE的性能参数、UE与AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;基于深度强化学习确定优化问题模型的最优解,确定UE的卸载决策,分别给UE所分配的计算资源的百分比数和频谱资源的百分比数。本发明提供的基于深度强化学习的计算卸载和资源分配方法及装置,同时考虑到时变的MEC***中实际的计算卸载和资源分配特性,任务的时延阈值与***有限的资源容量约束,基于深度强化学习,利用DNN来有效地逼近强化学习中的值函数,以确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。

Description

基于深度强化学习的计算卸载和资源分配方法及装置
技术领域
本发明涉及移动通信技术领域,尤其涉及一种基于深度强化学习的计算卸载和资源分配方法及装置。
背景技术
为了缓解应用需求与资源受限的用户设备(User Equipment,UE)之间日益严重的冲突,考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE,这促使MCC作为一种有效的解决方案应运而生。但是,MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题,这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外,远距离传输也无法保证时延敏感型应用的服务质量(Quality of Service,QoS)。
现有技术中,提出了移动边缘计算(Mobile Edge Computing,MEC)技术,将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分,与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器,此举可提高移动应用程序的QoS,并显著降低任务的执行延迟和功耗。
现有方案只关注准静态***的性能,并且,忽略了不同的资源需求和有限的资源容量对MEC***性能的影响,实际的网络应用中,依然存在UE能耗过大的技术问题。
发明内容
本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法及装置,用于解决现有技术中的上述技术问题。
为了解决上述技术问题,一方面,本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法,包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
进一步地,所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。
进一步地,所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。
进一步地,所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。
进一步地,所述优化问题模型的目标为:最小化***中所有UE的长期能耗。
6、根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述优化问题模型的约束条件为:
a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务;
b、本地或卸载计算的执行时间均不能超过某一计算任务的最大可容忍时延;
c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源;
d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源;
e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源;
f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。
进一步地,所述基于深度强化学习确定所述优化问题模型的最优解,具体包括:
根据所述优化问题模型,确定状态空间、动作空间和回报函数;
构建马尔科夫决策问题;
基于深度强化学习计算所述马尔科夫决策问题,利用深度神经网络DNN来估计出动作价值函数值,确定所述优化问题模型的最优解。
另一方面,本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置,包括:
构建模块,用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
确定模块,用于基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
再一方面,本发明实施例提供一种电子设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述第一方面提供的方法的步骤。
又一方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述第一方面提供的方法的步骤。
本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法及装置,同时考虑到时变的MEC***中实际的计算卸载和资源分配特性,任务的时延阈值与***有限的资源容量约束,基于深度强化学习,利用DNN来有效地逼近强化学习中的值函数,确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。
附图说明
图1为本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法示意图;
图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图;
图3为本发明实施例提供的基于深度强化学习的收敛性分析图;
图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图;
图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图;
图6为本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置示意图;
图7为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
随着5G网络中许多新兴的无线服务的出现,移动应用,尤其是越来越多的计算密集型任务,如在线互动游戏、人脸识别和增强/虚拟现实(AR/VR)等,导致了数据流量前所未有的***性增长。一般来说,这些新兴的应用程序对服务质量(QoS)和延迟敏感性都有很高的要求,这导致了这类应用比传统应用程序消耗更多的能耗。然而,考虑到用户设备(UserEquipments,UE)的物理尺寸大小和生产成本约束,目前的UE在计算、资源、能源等方面都存在着一定的局限性,这可能会成为处理大规模的应用或提供持久的能源供应等挑战时所面临的新瓶颈。
为了缓解应用需求与资源受限的UE之间日益严重的冲突,考虑到移动云计算(Mobile Cloud Computing,MCC)中所部署的云服务器的计算能力和存储能力都明显高于UE,这促使MCC作为一种有效的解决方案应运而生。MCC技术可以方便地访问集中式“云”中的共享资源池,通过将工作负载从UE卸载到云服务器,从而为UE提供存储、计算和能源资源。然而,MCC技术不可避免地面临着部署的云服务器距离用户设备距离较远的问题,这可能导致用户设备向云服务器传输数据时产生额外的传输能量开销。此外,远距离传输也无法保证时延敏感型应用的QoS。
因此,一些学者提出了移动边缘计算(Mobile Edge Computing,MEC)技术,将部分网络功能引入到网络边缘来执行。MEC是新兴的5G架构中处理计算密集型任务的重要组成部分,与MCC相比,它通过将云计算服务从集中式云扩展到网络边缘来延伸MCC的能力。具体来说,MEC支持用户设备通过利用基站(BS)或接入点(AP)将工作负载卸载到临近的MEC服务器,此举可提高移动应用程序的QoS,并显著降低任务的执行延迟和功耗。
考虑到时变的MEC***中实际的计算卸载和资源分配特性,强化学习一直被认为是获得最优计算策略的适合方法。具体来说,在没有任何关于***环境的先验信息的情况下,智能体可以通过观测环境来学习其未来回报的反馈值,从而实现最佳长期目标的策略。这一特点使强化学习用于设计动态***中卸载决策和资源分配方案时具有极佳的潜力。但是实际的网络应用中,以往的研究大多只关注准静态***的性能,很少考虑到***在时域中的时延敏感特性和时变条件,也常常忽略了不同的资源需求和有限的资源容量对MEC***性能的影响。另外,在此类复杂的动态的计算卸载场景中,强化学习中的状态空间和动作空间可能会随着UEs数量的增加呈指数级增长,从而导致传统的强化学习方法由于维数灾难或内存限制而无法维持Q表,并且在如此巨大的表格中搜索对应的值也会花费大量的时延。
为了解决这些问题,需要考虑和解决异构的计算任务的延迟阈值以及不同任务中不确定的动态的资源需求,同时需要考虑利用深度神经网络(DNN)来替代Q表。因此,本专利致力于研究MEC中任务执行的卸载决策和资源分配的联合优化问题,从能耗的角度将相应问题建模为非线性整数问题,旨在最小化所有UEs的总能量消耗,并同时考虑了优化问题中不同计算任务的时延约束与资源需求。具体地,为解决所规划的能耗最小化问题,首先定义了状态空间、动作空间和奖励函数,并引入了马尔可夫决策过程。在此基础上,提出了一种基于深度强化学习(DRL)的方法,利用DNN来有效地逼近强化学习中的值函数,以确定计算卸载和资源分配的联合最优方案。
图1为本发明实施例提供的基于深度强化学习的计算卸载和资源分配方法示意图,如图1所示,本发明实施例提供一种基于深度强化学习的计算卸载和资源分配方法,其执行主体为基于深度强化学习的计算卸载和资源分配装置。该方法包括:
步骤S101、基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型。
具体来说,图2为本发明实施例提供的多用户移动边缘网络模型的场景示意图,如图2所示,在移动边缘计算网络中,考虑一个单小区场景,该场景中包含了一个接入点(AP)和n个用户,其中,用户数可用集合I={1,2,…,n}来表示。为了给UE提供MEC服务,在AP上部署了一组MEC服务器以进行计算卸载,小区内的多个UE可以通过无线链路将自己的工作负载卸载到MEC服务器以协助计算。假设***在固定长度的时间片t={0,1,2,…,T}内运行,且在任意时间片t内每个UE都有一个计算密集型任务需要进行处理。与此同时,所有到达的计算任务都被认为是原子性的,即不能分割成多个部分以进行处理,这意味着UE的计算任务无法在不同的设备上执行,它们只能依靠UE自身的计算资源在本地设备上执行,或者通过无线链路卸载到AP上的MEC服务器中执行计算。当不同设备上的多个任务同时需要进行卸载时,MEC服务器运营商需根据时变的***条件、任务的异构性以及不同情况下所有UE的能量开销情况来决定如何将频谱资源和计算资源最优地分配给每个UE。
在不失一般性的前提下,本发明实施例采用一种广泛使用的任务模型来描述UE上所到达的任务。对于每一时间片内UEi上对应的任意计算任务,它可以由三个参数来进行定义:
Figure BDA0002418221630000071
其中,si表示计算任务Hi的数据大小,ci表示完成计算任务Hi时所需的计算资源量。变量ci和si在每一时间片内都是独立且同分布的,它们之间可能存在一个无需了解的任意概率分布。
Figure BDA0002418221630000072
表示执行任务Hi的最大可容忍时延,这意味着无论任务是选择在本地设备上执行还是通过计算卸载,任意UE上任务的执行时间都不应超过时延阈值
Figure BDA0002418221630000073
此外,假设在计算卸载期间,UE始终处于AP的通信覆盖范围内。本发明实施例专注于在本地设备上执行任务或将任务卸载到部署于AP上的MEC服务以协助执行的情况,没有进一步地考虑将任务卸载到远程云端或其他宏基站。用整型变量
Figure BDA0002418221630000074
来表示某一时间片t内UEi的卸载决策,其中,xi=0表示任务Hi直接在本地设备UEi的CPU上执行计算,xi=1表示UEi决定将其计算任务卸载到MEC服务器以执行计算。因此,可以将整个MEC***中所有用户的卸载决策向量定义为η,η={x1,x2,x3,...,xn}。
1)通信模型:当计算任务在有限的约束条件下难以在本地设备上执行时,UE可以通过无线链路将计算任务卸载给部署于AP上的MEC服务器。假设UE在与AP间进行通信时采用正交频分技术,并且忽略了MEC服务器和AP间的通信开销。同时,由于此时蜂窝小区内只有一个AP,且不考虑相邻小区间的重叠覆盖问题,因此用户间的通信干扰也可以被忽略掉。现在假设有多个UE同时上传其计算任务给AP时,MEC***可以通过使用动态频谱接入来根据UE的实时需求分配带宽。将θi∈[0,1]定义为AP给单个用户UEi所分配的频谱资源占总资源的百分比数,因此,当用户UEi卸载计算任务给AP时,UEi与AP之间的信道上传速率Ri可表示如下:
Figure BDA0002418221630000075
其中,W表示UEi与AP间可利用的频谱的信道带宽,pi为上传数据时UEi的传输功率,gi是UEi与AP之间无线传输信道的信道增益,σ是信道内部复杂的高斯白噪声的功率。
2)计算模型:计算任务Hi既可以依靠UEi自身的计算资源选择在本地执行,也可以通过计算卸载在MEC服务器上执行。下面介绍这两种计算模型:
本地执行模型:对于xi=0时,任务Hi将由UEi进行本地计算处理。分别用
Figure BDA0002418221630000081
Figure BDA0002418221630000082
来表示用户UEi的本地计算能力(CPU轮数/秒)和本地执行计算任务时CPU每一轮数所消耗的能量。因此,在这种情况下,计算任务Hi的所需的计算处理时间为:
Figure BDA0002418221630000083
并且,此时UEi相应的能量消耗可由下式计算得出:
Figure BDA0002418221630000084
其中,
Figure BDA0002418221630000085
这一取值取决于实际的CPU芯片架构。
移动边缘执行模型:对于xi=1时,UEi选择将计算任务Hi卸载到与AP相连的MEC服务器上执行,MEC服务器处理完计算任务后会将其计算结果返回给UE。此处需要注意的是,由于返回结果的数据量很小,且大多数情况下从AP到UE的下行传输速率较高,因此可以忽略返回结果时花费的传输时间和能量消耗。综上,任务Hi的总处理时间主要包含两个部分,第一部分是通过无线链路将任务Hi从UE传输到MEC服务器消耗的时间,第二部分则是任务Hi在MEC服务器上的执行计算所消耗的时间。
其中,将任务Hi从UEi传输到MEC服务器所花费的时间与计算输入的数据大小si以及UEi的上行传输速率直接相关,因此有:
Figure BDA0002418221630000086
相应地,将任务Hi从UEi传输到MEC服务器所花费的传输能耗可以计算为:
Figure BDA0002418221630000087
其中,pi为UEi与AP之间的传输功率。
将βi∈[0,1]定义为MEC服务器给单个UEi所分配的计算资源占MEC服务器总资源的百分比数,同时定义fmec为MEC服务器所拥有的计算资源总数,因此,βifmec则代表任意时间片内MEC服务器分配给UEi的计算资源数。当较高比例的计算资源量分配给某一UE时,其上任务的执行时间会变短,但这一过程所消耗的能量也可能会相应增加。与此同时,变量βi必须满足总资源分配的约束
Figure BDA0002418221630000091
因此,MEC服务器来处理任务Hi所花费的时间可以由下式得出:
Figure BDA0002418221630000092
当MEC服务器为UEi执行计算任务时,UEi此时应等待任务执行完成后的返回结果。在此期间,假设UEi处于待机模式,并定义该待机状态下UEi的功耗为
Figure BDA0002418221630000093
因此,可以得出UEi处于此状态下相应的能量消耗为:
Figure BDA0002418221630000094
因此,结合上述计算过程,计算卸载过程中,UEi上任务的总执行时间和相应能量消耗都由通信过程和计算过程两部分组成,其分别表示如下:
Figure BDA0002418221630000095
Figure BDA0002418221630000096
3)能量消耗模型:在MEC***中,UEi必须要选择一种计算模式以执行计算任务Hi,因此对于某一时间片中任意UEi来说,其执行时延可表示为:
Figure BDA0002418221630000097
同样地,在某一时间片内,单个UEi为了完成所到达的计算任务Hi消耗的能量可表示为:
Figure BDA0002418221630000098
最终,可以得出此MEC***中所有UE的总能量消耗,其表达式为:
Figure BDA0002418221630000099
本发明实施例所提出的MEC***中有关计算卸载和资源分配的联合优化问题,其目标是最小化所有UE的长期能量消耗。考虑到任务的最大可容忍时延约束,则相应的约束性优化问题可规划如下:
Figure BDA0002418221630000101
Figure BDA0002418221630000102
Figure BDA0002418221630000103
Figure BDA0002418221630000104
Figure BDA0002418221630000107
Figure BDA0002418221630000105
Figure BDA0002418221630000106
上述公式中约束条件的含义如下:
约束(14)表示任意UE仅能选择本地执行模型或边缘执行模型来处理其计算任务。
约束(15)保证本地或卸载计算模型的执行时间均不能超过任务的最大可容忍时延。
约束(16)表示分配给所有UE的计算资源不能超过MEC服务器所能提供的计算资源总量。
约束(17)保证分配给单个UEi的计算资源须小于MEC服务器所能提供的计算资源总量。
约束(18)保证所有UE使用的频谱资源应小于AP的总可用频谱资源。
约束(19)保证单个用户UEi所使用的频谱资源不能超过AP的总可用频谱资源。
步骤S102、基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
具体来说,要解决上述的优化问题,就必须得到卸载决策变量{xi|i∈I},计算资源分配变量{βi|i∈I}和通信资源分配变量{θi|i∈I}的最优取值,这些变量的取值可以用于在给定的延迟约束下最小化总的计算能量消耗。然而,卸载决策变量xi是二进制变量,与此同时通信资源分配变量βi以及计算资源分配变量θi都是动态变化的,所以***需要收集大量的网络状态信息,并根据网络的当前状态对每个UE执行全局性的卸载选择和资源分配决策。此时目标函数是一个混合整数非线性规划问题(MINLP),该问题的可行解集是非凸的,并且该方法的复杂度总是随UE数目的增加而呈现指数级增长。为了解决这一NP-hard问题,本发明实施例提出了一种基于强化学习的方法以此来代替传统的优化方法。
首先定义了强化学习中的状态空间、动作空间和回报函数,并为所要提出的解决方案建立了一个马尔科夫决策过程。然后,提出了一种基于深度强化学习的方法来解决上述优化问题,并降低计算复杂度。
1)状态空间,动作空间和回报函数的定义:
在基于强化学习的方法中需要去确定了三个关键要素:状态、动作和回报,在本问题背景下它们可定义为:
状态空间:在某一时间片t内,可利用的计算资源以及可利用的频谱资源都是由***状态
Figure BDA0002418221630000111
Figure BDA0002418221630000112
的实现所确定的,其中前者为当前MEC服务器中空闲的计算资源的百分比,后者为当前无线信道中可用的频谱资源的百分比,观察它们的作用是为了保持计算资源容量和通信信道资源容量的约束。此外,还需要观察每个时间片内所有用户的能量消耗情况E(t),以比较是否达到了最优状态。因此,在某一时间片t内的状态向量可表示为:
Figure BDA0002418221630000113
动作空间:在本发明实施例提出的MEC***中,MEC服务器需要去确定计算任务的卸载策略,以选择局部执行或边缘执行模式。此外,还需确定在某一时间片t内分配给UEi的通信和计算资源的所占的相应的百分比。因此,在某一时间片t内,动作向量应包含三部分:分别为UE的卸载决策向量η={x1,x2,...,xn},计算资源分配向量{β1,β2,...,βi}和通信资源分配向量{θ1,θ2,...,θi},因此,当前的动作向量可由这三部分中一些可能的取值结合而成,具体可表示为:di(t)={x1,x2,...,xn12,...,θi,β1,β2,...,βi}。
回报函数:一般来说,即时的网络回报函数都应与目标函数有关。本发明实施例的优化目标是获得所有用户最小的总能量消耗,而强化学习的目标是去达到最大的回报。因此,回报值需要与总能量消耗值转化为负相关。现在某一时间片t内,当状态
Figure BDA0002418221630000121
下执行某一动作di(t)后,智能体获得的即时回报可表示为
Figure BDA0002418221630000122
为了使所有用户的能量消耗最小化,统一将即时回报定义为
Figure BDA0002418221630000123
其中
Figure BDA0002418221630000124
给出了当前状态下实际的总能量消耗。
2)马尔科夫决策过程:
马尔科夫决策过程是强化学习的基础。一般来说,在强化学习中几乎所有的规划问题都可以用MDP来描述。本发明实施例将计算卸载优化问题近似为一个MDP,其中智能体通过离散时间步长内与未知环境的反复迭代交互来不断学习和作出决策。具体来说,在每一时间步长内智能体观察到环境的当前状态为
Figure BDA0002418221630000125
然后根据策略π选择并执行一个可容许的动作
Figure BDA0002418221630000126
Figure BDA0002418221630000127
策略π被认为是从当前状态到相应动作的一个映射,某一特定的策略π可以在不同的当前状态
Figure BDA0002418221630000128
下引导出决策动作
Figure BDA0002418221630000129
在此之后,智能体将获得一个即时回报
Figure BDA00024182216300001210
同时***将转移到下一新状态。
出于长期考虑,智能体处于状态
Figure BDA00024182216300001211
下执行策略π时的状态价值函数
Figure BDA00024182216300001212
由期望的长期折扣回报值和某一折扣因子所决定,这一状态价值函数可以用来评估在当前状态下执行策略π时所产生的长期影响(度量某一状态或某一可用的状态-动作对的价值)。因此,在任何初始状态
Figure BDA00024182216300001213
下的状态价值函数都可以被定义为如下形式:
Figure BDA00024182216300001214
其中
Figure BDA0002418221630000131
表示其期望,
Figure BDA0002418221630000132
是折扣因子,用来表明未来回报相对于当前回报的重要性。
现在用
Figure BDA0002418221630000133
来表示在任意当前状态
Figure BDA0002418221630000134
下执行某一动作dt后的下一新状态,并且从状态
Figure BDA0002418221630000135
到状态
Figure BDA0002418221630000136
的转移概率为
Figure BDA0002418221630000137
当将***环境规划为一个MDP时,状态价值函数
Figure BDA0002418221630000138
可以由贝尔曼方程(Bellman Equation)转化为时间差分形式。具体如下:
Figure BDA0002418221630000139
通过以上过程可知,强化学习智能体的目的是在当前状态
Figure BDA00024182216300001310
下,作出能使期望的长期折扣回报最大化的最优控制策略
Figure BDA00024182216300001311
因此,在最优策略π*下本发明实施例中的优化问题可以转化为递归的最优状态价值函数
Figure BDA00024182216300001312
具体如下:
Figure BDA00024182216300001313
s.t.constraints in(C1)-(C6)
则在策略
Figure BDA00024182216300001314
下,对于状态
Figure BDA00024182216300001315
的最优动作决策
Figure BDA00024182216300001316
可表示为:
Figure BDA00024182216300001317
3)基于深度强化学习的解决方法:
传统强化学习方法可以估计出每个时间步长内状态-所允许的动作对的最优动作值
Figure BDA00024182216300001318
并将其存储或更新在Q表中。针对网络模型的动态环境,传统的强化学习会算法试图使智能体在每个时间步长内特定的上下环境中分别自动学习最优行为决策。其算法可以直接逼近任意状态-动作对的最优Q值,而不是对MDP中的动态信息进行建模,然后在每次迭代后都会在维护好的二维Q表中更新Q值。最后,可以通过选择每个状态下使Q值最大的动作来得出相应的策略。此处将状态
Figure BDA0002418221630000141
下某一可采取的动作dt的Q值定义为状态-动作Q函数,则在执行某一动作dt后期望的累积回报为:
Figure BDA0002418221630000142
此时很容易可得出最优状态价值函数
Figure BDA0002418221630000143
与状态-动作Q函数之间的关系为:
Figure BDA0002418221630000144
结合公式(24)和公式(25),可以把公式(24)重新写作如下形式:
Figure BDA0002418221630000145
在传统的强化学习方法中,虽然智能体可以通过在一张Q表中连续不断地记录和更新Q值来获得最优策略,但是由于在实际的动态计算卸载场景中可能的动作-状态空间会非常大,因此传统强化学习方法很容易被困入维度灾难的麻烦中。另一方面,如果用某一表格来记录每一状态-动作对所对应的Q值,那么在这么大的表格中搜索某对应的值也会花费大量的时间,并且内存可能并不足以维护这个表格。为了进一步地避免传统强化学习方法上的瓶颈,本发明采用基于深度强化学习的方法来解决所提出的马尔科夫决策问题,利用深度神经网络(DNN)来估计出动作价值函数值。基于DRL的方法可以成功地利用更新后的深度神经网参数θ来近似的得出最优Q值。
在DRL中Q值可表示如下:
Figure BDA0002418221630000146
其中θ是主神经网络的权重。此时还存在着另一个目标神经网络,将在下文介绍。
与传统的强化学习方法不同的是,基于DRL的方法中利用了一个经验回放池的机制。在任意时间片t内,DRL智能体将每一时间步长内的经验转移元组(zt,dt,rt,zt+1)存储至经验池,同时这些到达的样本在后续可以用来去训练神经网络的参数,智能体会从经验回放池中随机选择一小批量的样本来训练深度神经网络的参数。这也就是说,可以在每次的更新中会随机选择一些先前的经验来进行学习。一些研究表明经验回放能够有效提高样本效率并加快DRL算法的收敛速度。另一方面,DRL中存在着一个固定的Q-目标机制,使用Q-目标机制会使DRL中维持了两个结构相同但参数不同的神经网络以打乱相关性。目标神经网络的目的是去获取目标Q值,而主神经网络则可以估计其Q函数。需要注意的是,目标神经网络的权重系数
Figure BDA0002418221630000151
由主神经网络的权重系数θj依照
Figure BDA0002418221630000152
ζ<<1来定期更新。然后,固定的Q-目标机制则是用来生成目标Q值
Figure BDA0002418221630000153
表示如下:
Figure BDA0002418221630000154
此外,目标Q-网络在经过一些训练步长之后更新其权值,而不是在每个训练步长里都更新权值。通过这样做,智能体的学习过程可以变得更加稳定。
贯穿整个训练过程,DRL智能体每次都会从经验回放池中随机选择一小批R个样本(zj,dj,rj,zj+1)用来训练学习。在每次迭代中,通过最小化损失函数Loss(θ)来训练深度Q函数,使其逐渐逼近目标值。损失函数Loss(θ)可表示如下:
Figure BDA0002418221630000155
以上为基于DRL方法的基本思想:首先建立深度神经网络,从而获得每个状态-动作对
Figure BDA0002418221630000156
与其值函数
Figure BDA0002418221630000157
之间的相关性。具体来说,需要利用随机选取的策略对MEC***的卸载决策和资源分配进行足够长时间的预处理。然后,执行动作并存储相应估计的Q值
Figure BDA0002418221630000158
和一些状态转移信息文件到经验回放池。最后,利用输入的状态-动作对
Figure BDA0002418221630000159
和输出的值函数
Figure BDA00024182216300001510
对深度神经网络执行预训练。在此之后,通过深度强化学习的方法来获得动作策略的选择和Q值的更新。特别地,在每一个episode里,DRL智能体首先获取MEC***的初始观测状态,并将其观测状态作为初始状态
Figure BDA00024182216300001511
进行预训练。然后利用∈-greedy策略再次来选择要执行的动作dt,即在每次动作选择时都存在一极小的概率值∈去随机选择动作集
Figure BDA00024182216300001512
中的任意动作,否则将根据能使主神经网络得到的估计Q值最大的动作-状态对
Figure BDA00024182216300001513
来选择动作。然后智能体执行动作dt并从MEC***中得到这一动作相应的回报值rt和下一观测状态
Figure BDA0002418221630000161
同时每一时间步长内的转移经验元组
Figure BDA0002418221630000162
都将被存储至经验回放池中,这些到达的样本可以用来去训练神经网络的参数,同时智能体也会在后续训练中从经验回放池中再随机选择一小批量之前的样本来训练深度神经网络的参数。在计算完目标Q值
Figure BDA0002418221630000163
后,DRL智能体通过最小化损失函数Loss(θ)去更新主神经网络的参数θ,参数θ的梯度策略更新公式可通过
Figure BDA0002418221630000164
计算。因此,在状态-动作Q函数收敛到最优值之前进行随机梯度下降。
本发明实施例考虑到了时变的MEC***中实际的计算卸载和资源分配特性,同时也考虑了任务的时延阈值与***有限的资源容量约束。联合优化了任务执行中的卸载决策和通信及计算资源的分配,并从能耗的角度将相应问题建模为一个混合整数非线性规划问题,旨在最小化所有UEs的总能量消耗。为了解决这一约束性优化问题,本发明引入了深度强化学习的概念。定义了状态空间、动作空间和奖励函数,并引入了马尔可夫决策过程。在此基础上,提出了一种基于值迭代的强化学习方法DRL,以确定计算卸载和资源分配的联合最优方案。通过仿真实验表明,在不同场景下本发明提出的基于DRL的方法都能比其他基准方法更加显著地降低用户的能量消耗。
下面结合具体的实验数据对上述技术方案的技术效果进行验证:
在实验中,本发明考虑了一个具有内接圆半径的小蜂窝单元,其中部署有MEC服务器的一个AP坐落于小蜂窝单元中心。在每一个时间片内,多个协带有计算任务的UE随机分布于AP的覆盖范围里。
本发明实施例将所提出的基于DRL的方法与其他一些基准方法在多用户的情景下进行了性能比较。其中UE自身的计算能力为0.8GHz,AP上MEC服务器的计算能力为6GHz。现假设MEC***可通过DSA技术来根据用户的需求合理地分配信道资源。在每一时间片内,任意计算任务的数据大小在区间(12,16)Mbit里服从均匀分布,其完成相应计算任务所需的CPU轮数在区间(2000,2500)Megacycles里服从均匀分布。此时计算任务的最大可容忍时延为3s,参数学习率ε=0.1,回报衰减
Figure BDA0002418221630000165
为0.9。
在参与对比的基准方法中,用“Local First”表示UEs试图在最大时延阈值
Figure BDA0002418221630000171
约束下尽可能地在本地执行其任务的方法。与之相对,使用“Offloading First”表示UEs将优先选择将任务卸载到MEC服务器执行的方法。在Offloading First方法中,MEC服务器的全部通信资源和计算资源将平均分配给每个UE。需要注意的是,由于不同计算任务的资源需求在每个时间片t上都是动态的,因此在最大可容忍时延
Figure BDA0002418221630000172
的限制下,某些UE可能由于所需的计算资源过多而无法在本地设备上执行到达的任务。本发明所提出的方法与基准方法的关键区别在于,所提出的方法可以在MEC***中动态地作出卸载决策和为所执行的任务分配计算资源。
图3为本发明实施例提供的所提出的基于DRL方法的收敛性分析图,如图3所示,对于所提出的基于DRL的方法,每一时间片episode下的回报值随着用户智能体和MEC***环境的不断迭代而逐渐增加,此时智能体在无需任何先验信息的情况下可以逐渐学习到高效的计算卸载策略。
图4为本发明实施例提供的不同的UE数量下所有用户的能量消耗示意图,如图4所示,当UE和MEC服务器的计算能力分别为0.8GHz和6GHz时,所提出的基于DRL的方法与其他两种基准方法随着UE数量增加时总能量消耗的变化情况。可以看出,三种方法的总能量消耗均随着UE数目的增加而增加。通过对比这三种方法,可以发现所提出的基于DRL的方法的性能最好,其消耗的总能量最小,这说明本发明所提出的方法是有效的。在UE数目相对较少的情况下,Offloading First方法所消耗的能量要小于Local First方法消耗的能量。此外,Offloading First方法所消耗的能量在UE数目为4时超过了Local First方法消耗的能量,并且随UE数目的增加持续大幅增长。这是因为在某个时间片内当有更多的任务需要被执行时,计算和通信资源预算就会变得相对紧张。一旦分配给单个UE的可用资源减少,UE的传输和计算的试验就会显著增加,此时其能耗也会随之增加。本发明基于DRL的方法可以有效地解决这个问题,因为所提出的方法可以在每个时间片内动态地将通信和计算资源分配给每个UE。
图5为本发明实施例提供的在不同的MEC服务器计算资源总量下所有用户的能量消耗示意图,如图5所示,当UE的数量为5时,所提出的基于DRL的方法与其他两种基准方法在不同的MEC服务器计算能力fmec下总能量消耗的变化情况。可以看出,随着MEC服务器计算能力的增大,三种方法的总能量消耗均有所降低。所提出的基于DRL的方法的性能仍然最好,这意味着所提出的方法要优于Offloading First方法和Local First方法。当MEC服务器的计算能力较小时,Offloading First方法比其他两种方法所消耗的能量要高得多,但随着MEC服务器计算能力的增加,Offloading First方法与其他方法之间的差异也变得越来越小,其根本原因是在于随着MEC服务器计算能力的增加,任一UE都可以分配到更多的计算资源,从而大大降低了计算时延和与之对应的能量消耗。
基于上述任一实施例,图6为本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置示意图,如图6所示,本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置,包括构建模块601和确定模块602,其中:
构建模块601用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;确定模块602用于基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
本发明实施例提供一种基于深度强化学习的计算卸载和资源分配装置,用于执行上述任一实施例中所述的方法,通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同,此处不再赘述。
本发明实施例提供的基于深度强化学习的计算卸载和资源分配装置,同时考虑到时变的MEC***中实际的计算卸载和资源分配特性,任务的时延阈值与***有限的资源容量约束,基于深度强化学习确定计算卸载和资源分配的联合最优方案,进一步降低了UE的能耗。
图7为本发明实施例提供的电子设备的结构示意图,如图7所示,该电子设备包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701和存储器702通过总线703完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例中的步骤,例如包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
进一步地,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述各方法实施例中的步骤,例如包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于深度强化学习的计算卸载和资源分配方法,其特征在于,包括:
基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
2.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述计算任务参数包括完成计算任务所需的计算资源量、计算任务的数据大小和执行计算任务的最大可容忍时延。
3.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述性能参数包括本地执行计算任务时CPU每一轮数所消耗的能量、上传数据时的传输功率和待机状态下的功耗。
4.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述信道参数包括可利用的频谱的信道带宽、无线传输信道的信道增益和信道内部的高斯白噪声的功率。
5.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述优化问题模型的目标为:最小化***中所有UE的长期能耗。
6.根据权利要求1所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述优化问题模型的约束条件为:
a、UE的卸载决策仅能选择本地执行或边缘执行来处理其计算任务;
b、本地或卸载计算的执行时间均不能超过某一计算任务的最大可容忍时延;
c、分配给所有UE的计算资源的总和不能超过MEC服务器所能提供的总计算资源;
d、分配给任一UE的计算资源不能超过MEC服务器所能提供的总计算资源;
e、分配给所有UE的频谱资源的总和不能超过AP所能提供的总频谱资源;
f、分配给任一UE的频谱资源不能超过AP所能提供的总频谱资源。
7.根据权利要求1-6任一项所述的基于深度强化学习的计算卸载和资源分配方法,其特征在于,所述基于深度强化学习确定所述优化问题模型的最优解,具体包括:
根据所述优化问题模型,确定状态空间、动作空间和回报函数;
构建马尔科夫决策问题;
基于深度强化学习计算所述马尔科夫决策问题,利用深度神经网络DNN来估计出动作价值函数值,确定所述优化问题模型的最优解。
8.一种基于深度强化学习的计算卸载和资源分配装置,其特征在于,包括:
构建模块,用于基于终端UE的计算任务参数、UE的性能参数、UE与接入点AP之间的信道参数和移动边缘计算MEC服务器的总计算资源,构建优化问题模型;
确定模块,用于基于深度强化学习确定所述优化问题模型的最优解,所述最优解包括UE的卸载决策,MEC服务器给UE所分配的计算资源占其总计算资源的百分比数,AP给UE所分配的频谱资源占其总频谱资源的百分比数。
9.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至7任一项所述基于深度强化学习的计算卸载和资源分配方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至7任一所述基于深度强化学习的计算卸载和资源分配方法的步骤。
CN202010197729.8A 2020-03-19 2020-03-19 基于深度强化学习的计算卸载和资源分配方法及装置 Pending CN111405569A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010197729.8A CN111405569A (zh) 2020-03-19 2020-03-19 基于深度强化学习的计算卸载和资源分配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197729.8A CN111405569A (zh) 2020-03-19 2020-03-19 基于深度强化学习的计算卸载和资源分配方法及装置

Publications (1)

Publication Number Publication Date
CN111405569A true CN111405569A (zh) 2020-07-10

Family

ID=71414019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197729.8A Pending CN111405569A (zh) 2020-03-19 2020-03-19 基于深度强化学习的计算卸载和资源分配方法及装置

Country Status (1)

Country Link
CN (1) CN111405569A (zh)

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405568A (zh) * 2020-03-19 2020-07-10 三峡大学 基于q学习的计算卸载和资源分配方法及装置
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN111970762A (zh) * 2020-08-06 2020-11-20 北京邮电大学 一种频谱分配方法、装置及电子设备
CN111970154A (zh) * 2020-08-24 2020-11-20 浙江工商大学 基于深度增强学习和凸优化的卸载决策及资源分配方法
CN112272390A (zh) * 2020-10-20 2021-01-26 广州大学 基于物理层的任务卸载及带宽分配的处理方法和***
CN112422346A (zh) * 2020-11-19 2021-02-26 北京航空航天大学 一种考虑多资源限制的变周期移动边缘计算卸载决策方法
CN112492591A (zh) * 2020-11-06 2021-03-12 广东电网有限责任公司电力调度控制中心 一种电力物联网终端接入网络的方法及装置
CN112732359A (zh) * 2021-01-14 2021-04-30 广东技术师范大学 多用户混合计算卸载方法、装置、电子设备及存储介质
CN112764936A (zh) * 2021-01-29 2021-05-07 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112862083A (zh) * 2021-04-06 2021-05-28 南京大学 一种边缘环境下的深度神经网络推断方法及装置
CN112929849A (zh) * 2021-01-27 2021-06-08 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN113377531A (zh) * 2021-06-04 2021-09-10 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113435580A (zh) * 2021-06-29 2021-09-24 福州大学 一种边缘环境下dnn应用计算卸载自适应中间件构建方法
CN113452625A (zh) * 2021-06-28 2021-09-28 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113568727A (zh) * 2021-07-23 2021-10-29 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113626104A (zh) * 2021-08-18 2021-11-09 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113835878A (zh) * 2021-08-24 2021-12-24 润联软件***(深圳)有限公司 一种资源分配方法、装置、计算机设备及存储介质
CN114025359A (zh) * 2021-11-01 2022-02-08 湖南大学 基于深度强化学习的资源分配与计算卸载方法、***、设备及介质
CN114116209A (zh) * 2021-11-12 2022-03-01 中国人民解放军国防科技大学 基于深度强化学习的频谱地图构建与分发方法及***
CN114189892A (zh) * 2021-12-15 2022-03-15 北京工业大学 一种基于区块链和集体强化学习的云边协同物联网***资源分配方法
CN114339819A (zh) * 2020-11-06 2022-04-12 北京航空航天大学 一种基于最优资源分配量和搜索算法的计算卸载方法
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114980127A (zh) * 2022-05-18 2022-08-30 东南大学 雾无线接入网中基于联邦强化学习的计算卸载方法
CN115328638A (zh) * 2022-10-13 2022-11-11 北京航空航天大学 一种基于混合整数规划的多飞行器任务调度方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置
CN115421930A (zh) * 2022-11-07 2022-12-02 山东海量信息技术研究院 任务处理方法、***、装置、设备及计算机可读存储介质
CN115623540A (zh) * 2022-11-11 2023-01-17 南京邮电大学 一种移动设备的边缘优化卸载方法
WO2023144926A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 オフロードサーバ、オフロード制御方法およびオフロードプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218814A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation Method and system for the dynamic allocation of resources based on fairness, throughput, and user behavior measurement
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
US20190325307A1 (en) * 2018-04-20 2019-10-24 EMC IP Holding Company LLC Estimation of resources utilized by deep learning applications
CN110418356A (zh) * 2019-06-18 2019-11-05 深圳大学 一种计算任务卸载方法、装置及计算机可读存储介质
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算***中基于多智能体强化学习的资源分配方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
US20200008044A1 (en) * 2019-09-12 2020-01-02 Intel Corporation Multi-access edge computing service for mobile user equipment method and apparatus

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130218814A1 (en) * 2012-02-20 2013-08-22 Xerox Corporation Method and system for the dynamic allocation of resources based on fairness, throughput, and user behavior measurement
US20190325307A1 (en) * 2018-04-20 2019-10-24 EMC IP Holding Company LLC Estimation of resources utilized by deep learning applications
CN109302709A (zh) * 2018-09-14 2019-02-01 重庆邮电大学 面向移动边缘计算的车联网任务卸载与资源分配策略
CN110418356A (zh) * 2019-06-18 2019-11-05 深圳大学 一种计算任务卸载方法、装置及计算机可读存储介质
CN110418416A (zh) * 2019-07-26 2019-11-05 东南大学 移动边缘计算***中基于多智能体强化学习的资源分配方法
CN110557769A (zh) * 2019-09-12 2019-12-10 南京邮电大学 基于深度强化学习的c-ran计算卸载和资源分配方法
US20200008044A1 (en) * 2019-09-12 2020-01-02 Intel Corporation Multi-access edge computing service for mobile user equipment method and apparatus

Cited By (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405568A (zh) * 2020-03-19 2020-07-10 三峡大学 基于q学习的计算卸载和资源分配方法及装置
CN111405568B (zh) * 2020-03-19 2023-01-17 三峡大学 基于q学习的计算卸载和资源分配方法及装置
CN111918339A (zh) * 2020-07-17 2020-11-10 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN111918339B (zh) * 2020-07-17 2022-08-05 西安交通大学 移动边缘网络中基于强化学习的ar任务卸载和资源分配方法
CN111970762A (zh) * 2020-08-06 2020-11-20 北京邮电大学 一种频谱分配方法、装置及电子设备
CN111970762B (zh) * 2020-08-06 2022-04-01 北京邮电大学 一种频谱分配方法、装置及电子设备
CN111970154A (zh) * 2020-08-24 2020-11-20 浙江工商大学 基于深度增强学习和凸优化的卸载决策及资源分配方法
CN111970154B (zh) * 2020-08-24 2022-06-10 浙江工商大学 基于深度增强学习和凸优化的卸载决策及资源分配方法
CN112272390A (zh) * 2020-10-20 2021-01-26 广州大学 基于物理层的任务卸载及带宽分配的处理方法和***
CN112272390B (zh) * 2020-10-20 2023-06-20 广州大学 基于物理层的任务卸载及带宽分配的处理方法和***
CN114339819A (zh) * 2020-11-06 2022-04-12 北京航空航天大学 一种基于最优资源分配量和搜索算法的计算卸载方法
CN112492591A (zh) * 2020-11-06 2021-03-12 广东电网有限责任公司电力调度控制中心 一种电力物联网终端接入网络的方法及装置
CN112492591B (zh) * 2020-11-06 2022-12-09 广东电网有限责任公司电力调度控制中心 一种电力物联网终端接入网络的方法及装置
CN114339819B (zh) * 2020-11-06 2023-10-03 北京航空航天大学 一种基于最优资源分配量和搜索算法的计算卸载方法
CN112422346A (zh) * 2020-11-19 2021-02-26 北京航空航天大学 一种考虑多资源限制的变周期移动边缘计算卸载决策方法
CN112732359A (zh) * 2021-01-14 2021-04-30 广东技术师范大学 多用户混合计算卸载方法、装置、电子设备及存储介质
CN112764932B (zh) * 2021-01-27 2022-12-02 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112929849A (zh) * 2021-01-27 2021-06-08 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN112764932A (zh) * 2021-01-27 2021-05-07 西安电子科技大学 基于深度强化学习的计算密集型工作负载高能效分配方法
CN112929849B (zh) * 2021-01-27 2022-03-01 南京航空航天大学 一种基于强化学习的可靠车载边缘计算卸载方法
CN112764936B (zh) * 2021-01-29 2022-06-14 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112764936A (zh) * 2021-01-29 2021-05-07 北京邮电大学 基于深度强化学习的边缘计算服务器信息处理方法及装置
CN112862083B (zh) * 2021-04-06 2024-04-09 南京大学 一种边缘环境下的深度神经网络推断方法及装置
CN112862083A (zh) * 2021-04-06 2021-05-28 南京大学 一种边缘环境下的深度神经网络推断方法及装置
CN113377531A (zh) * 2021-06-04 2021-09-10 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113377531B (zh) * 2021-06-04 2022-08-26 重庆邮电大学 基于无线能量驱动的移动边缘计算分布式服务部署方法
CN113452625B (zh) * 2021-06-28 2022-04-15 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113452625A (zh) * 2021-06-28 2021-09-28 重庆大学 基于深度强化学习的卸载调度与资源分配方法
CN113435580A (zh) * 2021-06-29 2021-09-24 福州大学 一种边缘环境下dnn应用计算卸载自适应中间件构建方法
CN113435580B (zh) * 2021-06-29 2022-06-07 福州大学 一种边缘环境下dnn应用计算卸载自适应中间件构建方法
CN113568727B (zh) * 2021-07-23 2024-05-10 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113568727A (zh) * 2021-07-23 2021-10-29 湖北工业大学 一种基于深度强化学习的移动边缘计算任务分配方法
CN113573363B (zh) * 2021-07-27 2024-01-23 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113573363A (zh) * 2021-07-27 2021-10-29 西安热工研究院有限公司 基于深度强化学习的mec计算卸载与资源分配方法
CN113612843B (zh) * 2021-08-02 2022-08-30 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113612843A (zh) * 2021-08-02 2021-11-05 吉林大学 一种基于深度强化学习的mec任务卸载和资源分配方法
CN113726858A (zh) * 2021-08-12 2021-11-30 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113726858B (zh) * 2021-08-12 2022-08-16 西安交通大学 一种基于强化学习的自适应ar任务卸载和资源分配方法
CN113626104A (zh) * 2021-08-18 2021-11-09 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113626104B (zh) * 2021-08-18 2023-12-15 北京工业大学 边云架构下基于深度强化学习的多目标优化卸载策略
CN113835878A (zh) * 2021-08-24 2021-12-24 润联软件***(深圳)有限公司 一种资源分配方法、装置、计算机设备及存储介质
CN113821346A (zh) * 2021-09-24 2021-12-21 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN113821346B (zh) * 2021-09-24 2023-09-05 天津大学 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN114025359B (zh) * 2021-11-01 2024-04-23 湖南大学 基于深度强化学习的资源分配与计算卸载方法、***、设备及介质
CN114025359A (zh) * 2021-11-01 2022-02-08 湖南大学 基于深度强化学习的资源分配与计算卸载方法、***、设备及介质
CN114116209A (zh) * 2021-11-12 2022-03-01 中国人民解放军国防科技大学 基于深度强化学习的频谱地图构建与分发方法及***
CN114189892B (zh) * 2021-12-15 2024-06-07 北京工业大学 一种基于区块链和集体强化学习的云边协同物联网***资源分配方法
CN114189892A (zh) * 2021-12-15 2022-03-15 北京工业大学 一种基于区块链和集体强化学习的云边协同物联网***资源分配方法
CN114490057A (zh) * 2022-01-24 2022-05-13 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
CN114490057B (zh) * 2022-01-24 2023-04-25 电子科技大学 一种基于深度强化学习的mec已卸载任务资源分配方法
WO2023144926A1 (ja) * 2022-01-26 2023-08-03 日本電信電話株式会社 オフロードサーバ、オフロード制御方法およびオフロードプログラム
CN114980127A (zh) * 2022-05-18 2022-08-30 东南大学 雾无线接入网中基于联邦强化学习的计算卸载方法
CN114980127B (zh) * 2022-05-18 2024-07-02 东南大学 雾无线接入网中基于联邦强化学习的计算卸载方法
CN115396955A (zh) * 2022-08-24 2022-11-25 广西电网有限责任公司 一种基于深度强化学习算法的资源分配方法及装置
CN115328638A (zh) * 2022-10-13 2022-11-11 北京航空航天大学 一种基于混合整数规划的多飞行器任务调度方法
CN115328638B (zh) * 2022-10-13 2023-01-10 北京航空航天大学 一种基于混合整数规划的多飞行器任务调度方法
CN115421930A (zh) * 2022-11-07 2022-12-02 山东海量信息技术研究院 任务处理方法、***、装置、设备及计算机可读存储介质
CN115623540B (zh) * 2022-11-11 2023-10-03 南京邮电大学 一种移动设备的边缘优化卸载方法
CN115623540A (zh) * 2022-11-11 2023-01-17 南京邮电大学 一种移动设备的边缘优化卸载方法

Similar Documents

Publication Publication Date Title
CN111405569A (zh) 基于深度强化学习的计算卸载和资源分配方法及装置
CN111405568B (zh) 基于q学习的计算卸载和资源分配方法及装置
CN109729528B (zh) 一种基于多智能体深度强化学习的d2d资源分配方法
CN111586696B (zh) 一种基于多智能体架构强化学习的资源分配及卸载决策方法
CN107766135B (zh) 移动朵云中基于粒子群和模拟退火优化的任务分配方法
CN111800828B (zh) 一种超密集网络的移动边缘计算资源分配方法
CN113543176B (zh) 基于智能反射面辅助的移动边缘计算***的卸载决策方法
Nath et al. Multi-user multi-channel computation offloading and resource allocation for mobile edge computing
CN112689296B (zh) 一种异构IoT网络中的边缘计算与缓存方法及***
Wang et al. Resource management for edge intelligence (EI)-assisted IoV using quantum-inspired reinforcement learning
KR20230007941A (ko) 에지 컴퓨팅 기반 산업용 사물 인터넷 환경에서 강화학습을 활용한 태스크 오프로딩 방법
CN113573363A (zh) 基于深度强化学习的mec计算卸载与资源分配方法
CN114980039A (zh) D2d协作计算的mec***中的随机任务调度和资源分配方法
CN113821346B (zh) 基于深度强化学习的边缘计算中计算卸载与资源管理方法
CN115665869A (zh) 基于边缘计算和有向无环图的多用户协作平台及其方法
CN113747507B (zh) 一种面向5g超密集网络的计算资源管理方法及装置
Jo et al. Deep reinforcement learning‐based joint optimization of computation offloading and resource allocation in F‐RAN
CN116828534B (zh) 基于强化学习的密集网络大规模终端接入与资源分配方法
Guo et al. MADRLOM: A Computation offloading mechanism for software-defined cloud-edge computing power network
Zhang et al. Computation offloading and shunting scheme in wireless wireline internetwork
Cao 5G communication resource allocation strategy based on edge computing
CN117857559B (zh) 基于平均场博弈的城域光网络任务卸载方法及边缘服务器
Liu et al. A Joint Allocation Algorithm of Computing and Communication Resources Based on Reinforcement Learning in MEC System.
Shukla et al. ECO-RL-ECA: Efficient Computation Offloading using Reinforcement Learning in Edge-Cloud Architecture
Agbaje et al. Deep Reinforcement Learning for Energy-Efficient Task Offloading in Cooperative Vehicular Edge Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination