CN111641681A

CN111641681A - 基于边缘计算和深度强化学习的物联网服务卸载决策方法

Info

Publication number: CN111641681A
Application number: CN202010394958.9A
Authority: CN
Inventors: 胡文建; 苏汉; 张益辉; 赵会峰; 何利平; 李霞; 孙玲; 张颖; 陈瑞华; 郭家伟; 马岩; 杨宇皓; 徐良燕; 吴晓云; 孙静; 陈方; 赵灿; 王琳; 王珂; 王飞
Original assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Shijiazhuang Power Supply Co of State Grid Hebei Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Hebei Electric Power Co Ltd; Shijiazhuang Power Supply Co of State Grid Hebei Electric Power Co Ltd
Priority date: 2020-05-11
Filing date: 2020-05-11
Publication date: 2020-09-08

Abstract

本发明提供了基于边缘计算和深度强化学***面和数据转发平面分离，获得全网集中视图和让网络安全性能得到保障，还获得了由可编程接口带来的强大的资源管控编排能力。

Description

基于边缘计算和深度强化学习的物联网服务卸载决策方法

技术领域

本发明属于物联网应用技术领域，尤其涉及一种结合边缘计算、SDN技术和深度强化学习算法的物联网服务卸载决策方法。

背景技术

随着物联网(IoT)的快速发展以及各种新兴应用(如智能家居，智慧城市和智能交通)的不断涌现，用户对网络服务质量(QoS)的要求越来越高。云计算具有强大的计算能力，设备可以通过计算卸载，将计算任务传输到远端云服务器执行，从而达到缓解计算和存储限制、延长设备电池寿命的目的。然而，将计算任务卸载到云服务器不能满足时延敏感***的需求。为此，边缘计算应运而生，将计算任务传输到网络边缘的计算节点执行，无需经过核心网和数据中心，可实现本地业务本地化服务、降低能耗，满足业务低时延需求。

IoT中的设备会产生大量的数据，这些数据包括多媒体信息，如视频、图像和声音，或结构化数据，如温度、振动和光通量信息。有许多成熟的技术用于处理结构化数据，然后自动控制物联网设备。传统的多媒体处理技术需要复杂的计算，不适用于物联网服务。而且对于设备的服务卸载，往往需要综合考虑设备是否具有移动性，节点类型，节点资源使用情况等多方面信息，进行联合优化。深度强化学习作为一种大数据分析工具，已经成为视觉识别、自然语言处理和生物信息学等许多信息学领域的重要处理方法，成为解决此类问题的有效方法。

为了解现有技术的发展状况，对已有的论文和专利进行了检索、比较和分析，筛选出如下与本发明相关度比较高的技术信息：

第一类改进方面的，专利号为CN109510869A的《一种基于边缘计算的物联网服务动态卸载方法及装置》专利，其提供了一种基于边缘计算的物联网服务动态卸载方法及装置，所述方法包括:S1、获取t时刻各类物联网服务的到达量；S2、针对每类物联网服务，根据该时刻该类物联网服务的到达量通过最大化该类物联网服务的卸载收益函数确定与其对应的边缘云服务卸载量以及云计算中心服务卸载量；S3、针对每类物联网服务，从多个边缘云服务器中选择该类物联网服务积压量最少的边缘云服务器，将S2确定好的与该类物联网服务对应的边缘云服务卸载量卸载至该类物联网服务积压量最少的边缘云服务器。该发明提供的基于边缘计算的物联网服务动态卸载方法，能够较好地适应任务到达的动态性，且计算复杂度较低。该类技术方案提出了一种基于边缘计算的物联网服务动态卸载方法，在每个时刻，针对每类物联网服务首先根据最大化其卸载收益的原则分配边缘云和云计算中心的卸载量；接着在多个边缘云服务器中选择该类服务队列最小的边缘云处理其边缘云卸载量，最终确定全部物联网服务的卸载方案。该发明虽然能够较好地适应任务到达的动态性，但是对于是否卸载、卸载量和卸载位置、考虑的服务类型、用户完美度、访问技术、网络流量、设备能力、边缘节点属性等综合因素的考量依旧不够全面。

第二类改进方面的，专利号CN109788069A的《物联网中基于移动边缘计算的计算卸载方法》的专利，属于物联网任务卸载技术领域，具体来说是物联网中基于移动边缘计算的计算卸载方法。该发明涉及物联网(Internet of Things,IoT)、移动边缘计算(MobileEdge Computing,MEC)、模式选择与节点匹配、动态优化等理论框架。该发明的技术方案考虑本地卸载、直接云端卸载、设备端卸载、设备中继转发卸载四种计算卸载模式，并增加考虑设备间的社会关系对卸载服务水平的影响以及***长期动态性能，构建时延和能耗相关的***长期收益函数，通过模式选择和节点匹配得到物联网中基于边缘计算的计算卸载方案。该发明的有益效果是在时延和能耗性能上达到更好的平衡，且***的可靠性和稳定性得到提升。该类技术方案考虑了四种计算卸载模式，结合设备之间的社会关系对卸载服务水平的影响以及***长期动态性能，构建了时延和能耗相关的长期收益函数，通过选择不同的模式以及匹配合适的节点来得到物联网中基于边缘计算计算卸载方案。该发明能够在时延和能耗性能上达到更好的平衡，但是不能实时获取物联网环境中各节点状态的全局视图，从而获得更优的卸载方案。

第三类改进方面的，专利号CN109819046A的《物联网中基于移动边缘计算的计算卸载方法》的专利，该发明涉及一种基于边缘协作的物联网虚拟计算资源调度方法，属于虚拟化无线网络领域，尤其涉及面向物联网应用的边缘协作中的计算资源调度。该发明设计了一种基于边缘协作的虚拟计算资源调度架构，充分利用边缘水平智能IoT设备、垂直传感器节点及基础设施的空闲虚拟化资源，显著提升资源利用率、智能物联网应用的QoS。此外，所提出的算法能够选出最优的计算卸载路径，在优化数据传输时延的前提下，最小化应用占用的计算资源，使更多的物联网设备得计算资源，保证应用的正常运行。该类技术方案提出的基于边缘协作的虚拟计算资源调度架构以IoT设备为中心，设计资源高效的计算资源调度算法。在保证每个智能物联网应用所需QoS的前提下，最小化该应用所占用的计算资源。同时，该算法能够选出最优的计算卸载路径，在优化数据传输时延的前提下，使更多的物联网设备得计算资源，保证应用的正常运行。但是卸载路径对于当前物联网环境状态的变化敏感性不够，缺乏动态适应性。

发明内容

本发明目的在于面对现有技术存在的系列缺陷而提出的一种结合SDN、深度强化学习(DRL)以及边缘计算的物联网服务卸载决策模型。

本发明以下的多个实施例提供了多种基于边缘计算和深度强化学习的物联网服务卸载决策方法，这些物联网服务卸载决策方法将所述物联网架构为包含多个区域的SDIoT，所述区域包括配置有服务卸载决策模型的区域SDN控制器，所述区域SDN控制器根据其配置的服务卸载决策模型输出该区域内一个智能服务的服务卸载决策。

在一个方面的实施例中，所述服务卸载决策模型的服务卸载问题在于，求解一个智能服务的最小执行时延，并且能够在不超过卸载对象资源总量的情况下，分配卸载对象的计算资源，使所述物联网能够同时执行的智能服务数量达到最大。作为改进的，在服务卸载决策模型中采用深度加强学习算法对所述服务卸载问题求解，这些方法包括DDPG算法、DQN算法等。

在一些采用DDPG算法求解的实施例中，第一方面的改进在于，所述深度加强学习算法为关注最优策略和关注最优奖励总和的DDPG算法；第二方面改进在于，所述DDPG算法设有经验池；第三方面的改进在于，所述DDPG算法的值函数设为表示代理在状态s遵循策略π采取动作a时所获得的总的奖励，所述动作a为智能服务

的一个任务K_p的一个决策结果；第四方面的改进在于，所述DDPG算法的奖励函数表示为一个智能服务全部在本地执行时所需要的时间与该服务在一个决策下的服务执行时间之间的差值。

在一个方面的实施例中，基于边缘计算和深度强化学习的物联网服务卸载决策方法，可以描述为，包括步骤：

S100，建立基于SDN的物联网架构，其至少一个层设有多个区域SDN控制器，一个区域的计算卸载决策算法在该区域中的区域SDN控制器动态执行；

S200，建立基于任务卸载模式的服务卸载问题模型；

S300，对于一个区域内的智能服务的计算卸载决策，由该区域配置有计算卸载决策算法的区域SDN控制器动输出。

该方面的一个实施例中，所述物联网架构包括云服务主控层、区域SDN控制层、边缘节点层、数据层以及设备层；所述计算卸载决策算法为深度强化学习算法。

该方面的一个实施例中，所述计算卸载决策算法也用于所述区域的计算资源分配。

本发明全部实施例的主要发明构思在于：第一方面，设计了包含物联网设备层、数据层、边缘节点层、区域SDN控制层以及云服务主控层的多层IoT架构，该架构可以加快计算速度，对IoT中所面临的数据传输高负载和安全性问题进行了优化；第二方面，提出了在四种任务卸载模式下，能够合理的利用IoT中的网络资源，满足业务对低时延的需求，同时可实现对一些敏感数据的保护和隔离，降低隐私泄露的风险；第三方面，将SDIoT中的智能服务计算卸载决策求解近似为带有多限制条件的目标优化模型，设计了基于DDPG的任务卸载决策算法，实现了最优的服务卸载策略。

本发明的多个实施例是一种基于SDN和DDPG的物联网服务卸载决策模型，其至少一个方面的技术效果包括：解决了传统IoT中固有的网络结构化问题，利用SDN技术网络控制平面和数据转发平面分离，获得全网集中视图和让网络安全性能得到保障，还获得了由可编程接口带来的强大的资源管控编排能力。通过引入边缘计算技术，将云计算数据中心的计算、存储等能力移动到网络边缘，为业务提供低时延、高带宽的运营环境，满足智慧城市、智能交通、智能家居等新兴应用的计算需求。最后利用DDPG算法可以直接从高维原始数据学习策略的特点，来解决具有复杂目标函数和约束条件的非凸优化问题，最终设计的基于DDPG的服务卸载算法可以动态高效地做出服务卸载策略。本发明所提出的模型，能够在满足最小化时延的基础上，合理利用物联网中的网络资源，性能优，稳定性好。

附图说明

图1为本发明一个实施例中的基于边缘计算和深度强化学习的物联网服务卸载决策方法的流程图；

图2为本发明一个实施例中基于SDN的物联网架构的结构示意图；

图3为本发明一个实施例中基于DDPG算法的服务卸载决策模型的结构示意图；

图4为本发明多个具体实施例中相邻区域之间的最大距离对平均数据传输率的影响的一个比较示意图；

图5为本发明多个具体实施例中相邻区域之间的最大距离对平均数据传输率的影响一个比较示意图；

图6为本发明多个具体实施例中每个边缘节点连接的设备数对平均数据传输率的影响的一个比较示意图；

图7为本发明多个具体实施例中每个边缘节点连接的设备数对平均数据传输率的影响一个比较示意图；

图8为本发明多个具体实施例中任务数对任务卸载成功率的影响的一个比较示意图；

图9为本发明多个具体实施例中设备数对任务执行时间的影响的一个比较示意图。

具体实施方式

首先需要说明的是，本发明实施例的服务卸载，是一种计算卸载，指将计算量大的智能服务任务分配给计算资源充足的一个或者多个计算节点进行处理，再把运算完成的各个部分计算结果从计算节点取回，并释放计算资源。现有技术中，计算节点一般是代理服务器。计算卸载技术首先应用于移动云计算(Mobile Cloud Computing,MCC)，在一些移动边缘计算(MEC)中，其计算卸载的决策可以有以下三种方案。1.本地执行(local execution)：整个计算在UE本地完成；2.完全卸载(full offloading)：整个计算由MEC卸载和处理；3.部分卸载(partial offloading)：计算的一部分在本地处理，而另一部分则卸载到MEC服务器处理。对于物联网(IoT)***，上述方法由于讨论的侧重点不同并无相关直接结合的技术启示。

本发明通过以下实施例提供了多个基于边缘计算和深度强化学习的物联网服务卸载决策方法，如图1所示，包括以下步骤S100至S300：

S100，建立基于SDN的物联网架构，物联网架构的至少一个层设有多个区域SDN控制器。即建立分区域管理的物联网架构，一个区域的计算卸载决策算法至少由一个区域SDN控制器动态地运行。

S200，建立基于任务卸载模式的服务卸载问题模型；该模型用于提供一个可用于处理分析的决策向量，将SDIoT中的智能服务计算卸载决策求解近似为带有多限制条件的目标优化模型。

S300，对于一个区域内的智能服务的计算卸载决策，由该区域配置有计算卸载决策算法的区域SDN控制器动输出。特别的，计算卸载决策算法在一些实施例中为在区域SDN控制器配置的服务卸载决策模型。

在第一实施例中，服务卸载问题模型涉及一种指定的物联网***，从网络结构上看，是基于SDN的物联网架构，即SDIoT架构，如图2所示，该架构在通讯结构上自顶向下主要包含五个部分：云服务主控层(Master Control Layer)、区域SDN控制层(Cell SDNControl Layer)、边缘节点层(Edge Node Layer)、数据层(Data Layer)以及设备层(Device Layer)。

其中，

云服务主控层，包括云服务平台运行各种应用所涉及的网络服务器(WebServer)、数据库***(DataBase System)、应用服务器(Application Server)以及SDN主控制器(SDN Master Controller)。云服务平台能够提供运行应用提供服务，如设备检测、环境温度监控以及资源调配***等。本实施例包括一个以上具备以下功能的SDN主控制器：用于管理区域SDN控制器，同时赋予区域SDN控制器认证接入权限，并且其北向接口(Northbound Interface)连接到的是该云服务平台上述的各类应用。

区域SDN控制层，包括多个SDN控制器(SDN Controller)。本发明的各个实施例中，均应对整个物联网***进行分区域管理，每一个区域(Cell)都有至少一个指定的SDN控制器，即区域SDN控制器(Cell SDN Controller)，如非特别说明，本发明实施例提及的SDN控制器，均为区域SDN控制器。本实施例中，一个区域包括多个边缘计算节点(Edge ComputingNode)，一个区域SDN控制器主要负责对本区域内的边缘计算节点的编排管理，以及边缘计算卸载决策。本实施例中，每个SDN控制器通过获取本区域各个边缘计算节点当前资源使用状态和来自域控制器(Domain Controller)的计算任务需求，结合DDPG算法，动态地运行计算卸载决策算法。

边缘节点层，包含各类边缘计算节点以及一个或者多个缓存节点(Cache Node)。在传统的云计算模式中，用户需要将数据传递到远程云中心进行计算，对于大规模数据，不仅会增加传输时延，而且数据泄露的风险也会有所增加。本实施例的边缘计算节点在网络关系上更接近于数据源，优选的，在地理的空间距离上也位于数据源附近，由此可以显著减少传输时延，可以为用户提供低时延、高平稳的服务，增加用户体验感。边缘节点层的各个缓存节点主要用于缓存一类高频数据请求指定或者涉及的高频数据，减少网络中的重复请求，缓解带宽压力，具有前瞻性。

数据层，包括多个工业交换机(Switch)、无线接入点(AP)和域控制器组成。其中AP的功能主要是提供无线工作站和有线局域网之间的互相访问，本实施例中，AP同时应当实现对设备层各接入设备和数据传输的认证，域控制器主要负责动态管理网络流量，将计算任务需求上传到区域SDN控制层对应的SDN控制器，并由其进行计算卸载决策。

设备层，包括物联网中的各个领域，如智能家居(Smart Home)、自动化工厂(Automatic Factory)、工业园(Industrial Park)以及智能交通(IntelligenceTransportation)中所包含的各种各样的传感器。这些领域的传感器在工作过程中，会产生大量的数据，传感器主要负责对设备的工作状态信息和产生的数据信息进行收集，然后通过接入点(APs)认证传输至数据层处理。

上述整个SDIOT架构形成了多层级的工作模式，可以加速计算过程。对于此类结构的物联网中，设备发起的一个计算任务是在本地运算还是将计算进行卸载到边缘计算节点是一项重要而艰巨的任务，本发明的实施例中，该项任务由域控制器和区域SDN控制器依据步骤S200获得服务卸载决策模型以及步骤S300提供的DDPG算法共同完成。

在第二实施例中，包含了一个所涉及计算任务包括四种分配决策的卸载模式的物联网***，本实施例的多个计算任务涉及以下四种卸载模式：本地计算(Localcomputing)、云端卸载(Offloading services to cloud Server)、边缘计算节点卸载(Offloading services to Edge computing node)以及空闲设备终端卸载(Offloadingservices to idle device)，分别对应本地计算任务、云端计算任务、边缘计算节点任务和空闲设备终端计算任务。云端卸载和边缘计算节点卸载针对对计算能力有较高要求的任务；对于实时性要求较高的任务而言，选择在本地执行或是区域内邻近的空闲设备终端上执行更有利于避免执行时间过长。本实施例需要面对的技术问题之一是IoT中智能服务的计算卸载，即服务卸载，往往需要对传输时延，计算时延以及设备移动性等多方面问题进行综合考虑，进行联合优化，做出最优服务卸载决策。

本实施例可以是或者不是基于第一实施例的具体的物联网架构的，但均应包括与本实施例相同或者等同的一个以上的区域单元(Cell)。本实施例中，IoT***中的一个层的多个设备终端以及一个层的边缘计算节点被预配置的分成多个区域单元(Cell)进行管理，用区域集合{Cell₁,Cell₂,…Cell_N}表示。对于其中一个区域单元Cell_i，用集合

表示其内各个设备终端，用集合

表示Cell_i内所有的边缘计算节点。本实施例的IoT***中，被视为一个计算服务的一个智能服务是复杂的，一个智能服务包含多个不同的任务，因此本实施例将一个计算服务

划分成多个任务分别进行卸载计算，假设一个时刻设备D_i的一个具体的计算服务为集合

令

其中元素K_p为计算服务的一个任务。本实施例使用动作策略参数a_D,X,K∈{0,1}表示任务Kp的决策结果，作为示范的决策系数有如下真值或者计数定义，当设备D_i选择在本地执行任务K_p时，有

当选择在远端(Remote)的云端执行该任务时，有

在边缘计算节点上执行任务时有

如果设备选择在空闲的智能终端D_j上执行，则有

本实施例进一步的，将每一个任务K_p定义形如式(1)的结构。

K_p＝(Q_p,S_p,T_m) (1)

其中，Q_p表示完成计算任务K_p所需要的CPU周期总数，即完成任务K_p所要求的计算资源量；S_p表示卸载任务K_p时，传输的所有数据的总量；T_m表示完成计算任务K_p所允许的最大延迟，本实施例影响该最大延迟的任务时延主要包括与Q_i相关的计算时延和与S_p相关的通信时延两部分。

本实施例对于本地计算任务，上述的通讯时延考虑为零，对于云端计算任务、边缘计算节点任务和空闲设备终端任务三种任务模式，需要考虑传输时延。示范性的，对于一个设备D_i的一个具体任务的一个通讯时延的计算公式可以表述如下：

其中，参数B代表设备D_i与X之间信道的带宽，参数

表示设备的发送功率，设备与卸载对象X之间的路径损耗可以用模型

表示，参数

是设备到卸载对象之间的距离，参数δ是路径损耗因子。

表示上传链路的信道衰落因子，N₀表示高斯白噪声功率。

示范性的，针对四种任务计算模式，对于设备D_i的任务K_p，其任务时延T_p分别是表示为：

设设备D_i自身的计算能力，即CPU的频率为

那么任务K_p在本地执行的时间

为：

设具体云端的计算能力为f_R，则任务K_p在远程云端上的执行时间

为：

设边缘节点计算能力为

则任务K_p在边缘节点上的执行时间

为：

设空闲设备终端的计算能力为

则任务K_p在空闲设备终端上的执行时间

为：

公式(1)至(6)组成本实施例的物联网服务卸载计算模型。基于该模型的，对一个具体任务K_p，其总的任务时延可以表示为：

对于设备D_i的一个具体的智能服务

定义其卸载决策向量

其中，元素

至

中的一个元素

有

其约束条件为：

并且，

对于边缘计算节点，设一个边缘计算节点M_i的资源总量为

空闲设备终端D_j的资源总量为

由于远程云端计算资源丰富，所以可不做考虑。

本实施例的IoT***中一个智能服务的服务卸载问题模型可以描述为下式。

式(8)中，通过在约束条件C1到C5下，实现步骤S200中，求解一个智能服务

的最小执行时延，并且能够在不超过卸载对象资源总量的情况下，尽可能合理的分配卸载对象的计算资源，使能够执行的智能服务数量达到最大，并通过步骤S300实现服务卸载问题模型的求解目标。

在第三实施例中，使用深度强化学习中的DDPG算法来解决对步骤S200获得的一个服务卸载问题模型的求解问题，以实现步骤S300所述方法。

本实施例中，整个IoT***划分成多个区域(Cell)，在每个区域内设置一个SDN控制器来获取该区域的整个区域内的场景视图，从而提供整个区域内的智能服务的卸载决策以及卸载对象的资源分配，构建其服务卸载问题模型。本实施例在SDN控制器中包括配置有强化学习算法的模块，通过预设的服务卸载决策模型使每个智能设备终端拥有最佳的任务卸载方案。

强化学习的基本要素包括智能体或者算法代理Agent(以下简称代理)、环境、状态s、策略π、动作a、回报r。本实施例Agent从环境的SDIoT感知当前状态s_t，根据策略π选择动作a_t，作用于环境的SDIoT，得到回报r_t，转换到下一状态s_t+1。图3中，状态s对应的是state，动作a对应action，回报r指的是reword，TS是下一状态。本实施例的Agent代表的是算法代理，即服务卸载决策算法或服务卸载决策模型，配置并运行在Cell SDN Controller中，负责获取和处理上述信息。策略是上述算法本身运行过程中涉及的各个函数过程。本实施例的强化学习过程还引入了值函数V，以解决回报r_t只能反映当前动作和状态的回报，不能反映对未来回报的影响的问题，V包含当前回报和未来估计的折扣回报(用γ表示)。深度强化学习方法利用深度神经网络来学习连续动作空间的策略，将策略进行参数化表示，输出即为动作(Action)。本实施例步骤S300可以通过多种深化学习算法实现，包括DDPG(DeepDeterministic Policy Gradient，深度确定性策略梯度)系列算法、DQN(Deep Q-Network)系列算法或者常规RL(Reinforcement Learning)算法。值得注意的是，当涉及机器学习对固定环境模型求解的问题时，强化学习与监督学习和无监督学习的区别主要是无特定数据，只有奖励信号并且奖励信号不一定实时，主要研究时间序列的数据，而不是独立同分布的数据，当前行为影响后续数据，因此本领域技术人员并无动机必然选用强化学习方向为其机器学习求解的解决方案。

本发明的一个构思在于，通过构建特殊的服务卸载问题模型，使得利用结合Actor-Critic和DDPG的Agent建立本发明的服务卸载决策模型，该模型的Agent是关注最优策略的(Policy based)和关注最优奖励总和的(Value based)而不关注每一步的最优行动的(Action based)。

作为示范的，如图3所示，本实施例优选一种适用DDPG算法的服务卸载决策模型，通过对S200获得的服务卸载问题模型求解，以获得动态优化的服务卸载决策结果，其采用强化学习的Actor-Critic架构，所述Actor-Critic架构包括Actor_M网络、Actor_T网络、Critic_M网络和Critic_T网络四个神经网络，其中，Actor_M网络和Actor_T网络为结构相同的Actor策略网络，Critic_M网络和Critic_T网络为结构相同的Critic评价网络，Actor_M网络和Critic_M网络组成用于训练优化网络参数(Policy Gragient)的Main Network，Actor_T网络和Critic_T网络组成用于产生训练数据集的Target Network。

基于上述的神经网络架构，本实施例通过以下方式确定本实施例服务卸载决策模型中具体的状态空间、动作空间、奖励函数、值函数、深层确定性策略梯度和经验池。

本实施例第一方面用于获取环境State的状态空间确定方法为：以需要进行任务卸载的设备为中心，在该设备周围的边缘计算节点以及空闲设备终端状态主要包括剩余的计算资源数量，该设备周围是指同一域控制器下的。对于边缘计算节点，定义该区域内的各节点剩余资源量集合为

其中

空闲设备终端的剩余资源量集合为

其中

对于一个智能服务

定义总的时延

其状态空间在本实施例表示为式(9)：

其中，下标t指的是一个具体时刻，不同时刻的动作状态会动态变化。

本实施例第二方面动作空间的确定方式为：在IoT***的一个区域(Cell)内，对于一个智能服务

其具体的一个服务卸载决策被定义为式(10)形式的向量：

其中，

本实施例第三方面获取Reward的奖励函数，根据步骤S200获得的服务卸载问题模型的描述，进行服务卸载时的目标是使服务执行时间

达到最小，DDPG算法的目标是在执行一个动作后希望获得的奖励达到最大，因此奖励和执行时间负相关，定义奖励函数的计算公式如下：

其中

是智能服务

全部在本地执行时所需要的时间，s_t表示状态空间中时刻为t时的状态，a_t表示动作空间中时刻为t时采取的动作，具体为一个确定的动作策略参数。

本实施例第四方面值函数通过以下方式获取。值得注意的是，现有技术的值函数一般被定义为V_π(s)，用来估计代理人在状态S选择策略π的预期奖励，以此来评估某个状态和动作的优劣，该类值函数的定义为如下形式：

其中

表示期望运算，

表示初始状态s遵循策略π所获得的奖励。

本实施例中，值函数为动作a的值函数，其被定义为Q_π(s,a)，表示代理在状态s遵循策略π采取动作a时所获得的总的奖励，具体的其定义为如下：

其中，r(s,a)表示在状态s采取动作a所期望获得的奖励，γ表示衰减因子，其范围是0到1，s’表示在状态s采取动作a所到达的下一状态。

进一步的，根据Bellman方程可以得到适用本实施例的DDPG算法中的动作值函数为：

Q^μ(s_t,a_t)＝E[r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))] (13)

其中μ表示Actor_M网络所生成的策略。

本实施例第五方面深层确定性策略梯度，是一种分布式深层确定性策略梯度。本实施例的策略梯度(Policy Gradient)是一种策略搜索技术，是一种基于梯度的优化算法。其旨在对策略(Policy)进行建模和优化，以直接搜索代理(Agent)的最佳行为策略。对于本实施例DDPG算法中的Critic_M网络和Actor_M网络则是采用梯度更新的方式来更新参数

和

而对于Critic_T网络和Actor_T网络则是采用软件更新的方式来更新参数

和

在对Critic_M网络进行更新时，首先需要计算Loss函数(Loss Function)，计算公式如下：

其中，

依赖于正在学习的critic_T以及actor_T网络，可以看做一个“标签(Tag)”，其计算公式如下：

梯度计算的公式如下：

其中，函数J用来衡量策略μ的表现，计算公式为：

ρ^β表示状态s的分布函数，即J(μ)是在s根据ρ^β分布时，对Q^μ(s,μ(s))求解期望值。i指的是一个具体区域的标号。

本实施例第六方面包括经验池(relay buffer)，本实施例在DDPG算法中引入了replay buffer的概念，主要作用是当Actor网络同环境交互时，产生的transition数据序列是在时间上高度关联的，如果这些数据序列直接用于训练，会导致神经网络的overfit，不易收敛。因此DDPG的Actor将transition数据先存入experience replay buffer,然后在训练时，从experience replay buffer中随机采样mini-batch数据，这样采样得到的数据可以认为是无关联的。本发明的一个基于DQN算法实现步骤S300中Agent建模的实施例中，也包括经验池。

本实施例的服务卸载决策模型每次深度强化学习循环均设计一种基于DDPG算法的分布式深度确定性策略梯度，并使用这种算法处理基于SDN的IoT服务卸载决策问题，该决策问题由步骤S200提供的服务卸载决策问题模型描述。

本实施例物联网***中包括N个步骤S100描述的区域(Cell)，结合图3提供的服务卸载问题决策模型算法细节，可以提供以下以伪代码方式描述的算法1，表述该模型的处理过程。

其中，算法1中的变量t与式(9)的状态空间变量的下标t对应；变量i与式(14)、(15)、(16)、(17)中的下标i意义一致，即区域标号，用于区别不同区域。式(18)和式(19)为网络参数更新的固定公式。

在第四实施例中，提供了三个具体实施例以具体说明本发明技术方案的非显而易见的效果。其中，第一具体实施例采用第三实施例提供的DDPG算法获取服务卸载模型的决策结果，第二具体实施例采用采用DQN算法获取服务卸载模型的决策结果，第三具体实施例采用半强化学习算法获取服务卸载模型的决策结果。本实施例的通过各个具体实施例基于相同参数或者设备基础，对比的呈现效果，是基于仿真或者是基于实际物联网***测试的。

本实施例首先通过步骤S100建立了分层多区域的物联网***，该***中分成了25个区域，相邻两个区域之间的最小距离l_min为10m，最大距离在100m到1400m之间进行变化。在每个区域中设置了2个边缘计算节点，计算频率分别为650和600；2个空闲智能设备终端，计算频率分别为200和150。设备的最大传输功率为38dbm，最小传输功率为5dbm。然后随机生成了100个计算任务，任务所需的计算资源变化范围为100到800。具体仿真参数如表1所示。

表1 Simulation parameter

本实施例的一个方面展示了SDIoT中各个区域之间的最大距离对数据平均传输率的影响，即考虑当l_max视为变量，变化范围为0.1km至1.4km时，分别通过三个具体实施例，如图4所示的三种具体实施例算法所得到的平均数据传输率的整体变化趋势，可以看出，随着各区域的距离逐渐增大，区域间的干扰减弱，导致SDIoT中平均数据传输率增大。三种算法中，RL算法的数据跨越程度较大，DDPG算法变化幅度减小，变化趋势最为平稳。图5中可以更为直观的看出在具体的l_max下，三种算法的结果对比，可以看出，不管l_max大小如何，第三实施例的DDPG算法所得到的结果都是最大的，而RL算法所得到的是最小的，DQN算法虽然变化趋势也比较稳定，但是所得到的结果比DDPG算法小，第三实施例提供的DDPG算法的性能相比较其他两者而言更好。

在本实施例的一个方面根据第一实施例建立的IoT***中，设备层的多个智能设备终端具有移动性，即每个区域的设备总数是变化的。具体的，本实施例的服务卸载问题模型将每个计算节点所连接的设备数视为变量，变化范围从1到8。如图6、7所示，本实施例的一个方面展示了，随着设备密度的增加，平均数据传输率降低，即上述服务卸载问题模型中的数据传输时延的平均值降低，三种算法的三个具体实施例都呈现了相似的变化趋势，变化幅度接近，但是第三实施例提供的DDPG算法所得到的数据传输速率较高。

本实施例的一个方面展示，在如第一实施例提供的SDIoT***中，对于需要卸载的每一个任务而言，都有一个最大允许延迟T_m，如果在卸载过程中超过了这个阈值，则将任务卸载视为不成功，因此，本发明方案提供了对任务的卸载成功率的一组输出，该输出可以用于本发明各个实施例的自评估。基于本实施例具体参数的，如图8所示，当将需要卸载的任务数视为变量，变化范围是10到100，三种算法对应的三个具体实施例中，任务卸载成功率都是随着任务数的增加而降低，其中第一具体实施例的DDPG算法的任务卸载成功率的降低幅度更小，数值均大于其他两种算法，表明DDPG算法的性能更优。

本实施例的一个方面展示，本发明为智能服务中的任务平均执行时间的比较带来的技术贡献。本实施例中，将每个SDIoT区域中的设备数视为变量，变化范围为[25,36,49,64,81,100]，图9示出了三个具体实施例的效果对比，RL算法所得到的任务执行时间变化幅度较大，且任务执行延迟最大，DDPG和DQN所得到的结果变化趋势较稳定，DDPG算法随着设备数的增加，任务执行时间逐渐增大，且在三种算法中所得到的结果最优，对比的，DDPG算法的性能在三种算法中更好。

Claims

1.一种基于边缘计算和深度强化学习的物联网服务卸载决策方法，其特征在于，将所述物联网架构为包含多个区域的SDIoT，每个所述区域均包括配置有服务卸载决策模型的区域SDN控制器，所述区域SDN控制器根据其配置的服务卸载决策模型输出该区域内一个智能服务

的服务卸载决策。

2.根据权利要求1所述的物联网服务卸载决策方法，其特征在于：所述服务卸载决策模型的服务卸载问题在于，求解一个智能服务

的最小执行时延，并且在不超过卸载对象资源总量的情况下，分配卸载对象的计算资源，使所述物联网能够同时执行的智能服务数量达到最大。

3.根据权利要求2所述的物联网服务卸载决策方法，其特征在于：在服务卸载决策模型中采用深度加强学习算法对所述服务卸载问题求解。

4.根据权利要求3所述的物联网服务卸载决策方法，其特征在于：所述深度加强学习算法为关注最优策略和关注最优奖励总和的DDPG算法。

5.根据权利要求4所述的物联网服务卸载决策方法，其特征在于：所述DDPG算法设有经验池。

6.根据权利要求4所述的物联网服务卸载决策方法，其特征在于：所述DDPG算法的值函数设为表示代理在状态s遵循策略π采取动作a时所获得的总的奖励，所述动作α为智能服务

的一个任务K_p的一个决策结果。

7.根据权利要求1所述的物联网服务卸载决策方法，其特征在于：所述DDPG算法的奖励函数表示为一个智能服务全部在本地执行时所需要的时间与该服务在一个决策下的服务执行时间之间的差值。

8.一种基于边缘计算和深度强化学习的物联网服务卸载决策方法，其特征在于，包括步骤：

S100，建立基于SDN的物联网架构，其至少一个层设有多个区域SDN控制器，一个区域的计算卸载决策算法至少由该区域的一个区域SDN控制器动态地运行；

S200，建立基于任务卸载模式的服务卸载问题模型；

9.根据权利要求8所述的物联网服务卸载决策方法，其特征在于：所述物联网架构包括云服务主控层、区域SDN控制层、边缘节点层、数据层以及设备层；所述计算卸载决策算法为深度强化学习算法。

10.根据权利要求8所述的物联网服务卸载决策方法，其特征在于：所述计算卸载决策算法也用于所述区域的计算资源分配。