CN112667400B

CN112667400B - 边缘自治中心管控的边云资源调度方法、装置及***

Info

Publication number: CN112667400B
Application number: CN202011596950.7A
Authority: CN
Inventors: 王晓飞; 任远铭; 沈仕浩; 韩溢文; 齐洪旺; 刘立群
Original assignee: Tianjin University
Current assignee: Pioneer Cloud Computing Shanghai Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-08-13
Anticipated expiration: 2040-12-29
Also published as: CN112667400A

Abstract

本公开提供了一种边缘自治中心管控的边云资源调度方法，该方法包括：接收来自终端的服务请求；获取边缘集群的状态空间，其中，状态空间用于表征边缘集群的资源状态；将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，所述服务请求指派模型包括深度强化学习网络；以及根据所述状态转移概率确定用于响应所述服务请求的目标集群，其中，所述目标集群包括所述边缘集群或云集群，边缘集群包括边缘节点。本公开还提供了一种边缘自治中心管控的边云资源调度装置和边缘自治中心管控的边云资源调度***。

Description

边缘自治中心管控的边云资源调度方法、装置及***

技术领域

本公开涉及资源调度技术领域，更具体地，涉及一种边缘自治中心管控的边云资源调度方法、装置及***。

背景技术

作为互联网的重要支撑技术，云计算技术已经应用在了人类生活生产的方方面面，诸如教育、医疗、金融、政务、出行等。通俗的来讲，目前所有需要在互联网中运行的应用都离不开云计算的支持。然而，随着物联网、大数据、人工智能等新技术迅速兴起，各种类型的云应用在产生海量数据、占用网络带宽的同时，对服务的响应延迟也有着较为严格的需求，如智慧工厂、灾害预测、自动驾驶等领域，这些应用给通信网络和云集群造成了巨大的压力。

边缘计算有望在云计算的基础上成为下一代计算模式，但是这两者的融合过程依然困难重重。

在实现本公开构思的过程中，发明人发现相关技术中至少存在如下问题：仅靠云集群对海量的数据进行计算、处理，增加了云集群的计算压力，且无法满足云集群对响应延迟的严格需求。

发明内容

有鉴于此，本公开提供了一种边缘自治中心管控的边云资源调度方法、装置及***。

本公开的一个方面提供了一种边缘自治中心管控的边云资源调度方法，包括：接收来自终端的服务请求；获取边缘集群的状态空间，其中，上述状态空间用于表征边缘集群的资源状态；将上述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，上述服务请求指派模型包括深度强化学习网络；以及根据上述状态转移概率确定用于响应上述服务请求的目标集群，其中，上述目标集群包括上述边缘集群或云集群，上述边缘集群包括边缘节点。

根据本公开的实施例，还包括：向上述云集群发送上述边缘集群的状态空间，以便上述云集群基于上述边缘集群的状态空间，确定上述边缘节点的状态值，并基于上述边缘节点的状态值，对上述边缘节点配置服务资源和/或对单个上述边缘节点扩展服务资源副本。

根据本公开的实施例，上述以便上述云集群基于上述边缘集群的状态空间，确定上述边缘节点的状态值，并基于上述边缘节点的状态值，对上述边缘节点配置服务资源和/或对单个上述边缘节点扩展服务资源副本包括：获取上述边缘集群的状态空间；将上述边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值；其中，上述服务资源编排模型包括图神经网络和深度强化学习网络；以及基于上述边缘节点的状态值，对上述边缘节点配置上述服务资源和/或对单个上述边缘节点扩展服务资源副本。

根据本公开的实施例，将边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值包括：将上述边缘集群的上述状态空间输入上述服务资源编排模型的图神经网络中，以获取上述边缘集群的编码信息；将上述边缘集群的编码信息输入上述服务资源编排模型的深度强化学习网络中，得到上述边缘节点的状态值；将上述边缘节点的状态值输入softmax函数，得到边缘节点的选择概率值：对上述边缘节点基于上述选择概率值进行降序排列，确定对应的前

个边缘节点，其中，

表示所有边缘节点组成的集合；使用动作-评价函数对上述前

个边缘节点进行评价，得到服务资源编排的动作值；其中，上述基于所述边缘节点的状态值，对上述边缘节点配置上述服务资源和/或对所述单个边缘节点扩展服务资源副本包括：将上述服务资源编排的动作值输入softmax函数，得到上述前

个边缘节点执行每个服务资源编排的动作概率值；其中，上述服务资源编排动作包括对上述边缘节点配置上述服务资源和/或对上述单个边缘节点扩展服务资源副本；确定上述动作概率值最大的服务资源编排动作，并执行。

根据本公开的实施例，上述将上述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率包括：将上述边缘集群的状态空间输入至服务请求指派模型的动作策略网络中，输出初始状态转移概率；基于上述边缘节点的边缘节点状态参数确定资源上下文；基于初始状态转移概率和资源上下文，确定用于指派服务请求动作的状态转移概率。

根据本公开的实施例，状态空间包括服务请求状态参数、边缘接入点状态参数、边缘节点状态参数、边缘接入点与云集群的网络延迟状态参数中的一种或多种。

根据本公开的实施例，上述服务请求状态参数包括上述服务请求的类型和/或上述服务请求对延迟的需求；上述边缘接入点状态参数包括上述边缘接入点的任务队列的队列信息；上述边缘节点状态参数包括上述边缘节点未处理的上述服务请求的数量、上述边缘节点的服务资源类型、上述边缘节点的服务资源副本的数量、上述边缘节点的数量中的一种或多种；上述边缘接入点与上述云集群的网络延迟状态参数包括上述边缘接入点与上述云集群之间的传输延迟。根据本公开的实施例，确定上述边缘自治中心管控的边云资源调度方法能够实现的最大化吞吐率；其中，上述最大化吞吐率的公式如下：

其中，τ表示时帧，

表示边缘集群中所有边缘接入点组成的集合，b表示集合

中的边缘接入点，

表示在时帧τ到达边缘接入点b的请求数量，

表示随时帧变化的指派策略，Φ表示边缘集群及云集群实际处理的服务请求数量。

本公开的另一个方面提供了一种边缘自治中心管控的边云资源调度装置，包括：接收模块，用于接收来自终端的服务请求；获取模块，用于获取边缘集群的状态空间，其中，所述状态空间用于表征边缘集群的资源状态；第一确定模块，用于将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率，其中，上述服务请求指派模型包括深度强化学习网络；以及第二确定模块，用于根据上述状态转移概率确定用于响应上述服务请求的目标集群，其中，上述目标集群包括上述边缘集群或云集群，上述边缘集群包括边缘节点。

本公开的另一个方面提供了一种边缘自治中心管控的边云资源调度***，包括：边缘集群，边缘集群包括：边缘接入点，用于接收来自终端的服务请求；获取边缘集群的状态空间，其中，上述状态空间用于表征边缘集群的资源状态；将上述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，上述服务请求指派模型包括深度强化学习网络；以及根据上述状态转移概率确定用于响应上述服务请求的目标集群，其中，上述目标集群包括上述边缘集群或云集群，上述边缘集群包括边缘节点；边缘节点，用于接收上述边缘接入点发送的服务请求，执行具体的计算任务；云集群，用于接收上述边缘接入点发送的服务请求。

根据本公开的实施例，因为采用了一种边缘自治中心管控的边云资源调度方法，包括：接收来自终端的服务请求；获取边缘集群的状态空间，其中，状态空间用于表征边缘集群的资源状态；将边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，服务请求指派模型包括深度强化学习网络；以及根据状态转移概率确定用于响应服务请求的目标集群，其中，目标集群包括边缘集群或云集群，边缘集群包括边缘节点的技术手段，在用户终端以及云集群中间搭建了边缘集群，由边缘集群中的边缘接入点根据边缘集群的状态空间将服务请求指派到相应的响应服务请求的目标集群，所以至少部分地克服了仅靠云集群对海量的数据进行计算、处理，增加了云集群的计算压力，且无法满足云集群对响应延迟的严格需求的技术问题，进而达到了充分利用边缘集群的计算资源，缓解云集群的计算压力，并稳定的为用户提供敏捷的服务请求响应的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述，本公开的上述以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了可以应用本公开的边缘自治中心管控的边云资源调度方法和装置的示例性***架构；

图2示意性示出了根据本公开实施例的边缘自治中心管控的边云资源调度方法的应用场景；

图3示意性示出了本公开实施例的边缘自治中心管控的边云资源调度方法的流程图；

图4示意性示出了本公开另一实施例的边缘自治中心管控的边云资源调度方法的流程图；

图5示意性示出了本公开实施例的服务资源编排的流程图；

图6示意性示出了根据本公开另一实施例的服务资源编排的流程图；

图7示意性示出了根据本公开实施例的边缘自治中心管控的边云资源调度装置的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的***”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的***等)。

本公开的实施例提供了一种边缘自治中心管控的边云资源调度方法。该方法包括：接收来自终端的服务请求；获取边缘集群的状态空间，根据本公开的实施例，状态空间用于表征边缘集群的资源状态；将边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，服务请求指派模型包括深度强化学习网络；以及根据状态转移概率确定用于响应服务请求的目标集群，其中，目标集群包括边缘集群或云集群，边缘集群包括边缘节点。

图1示意性示出了根据本公开实施例的可以应用边缘自治中心管控的边云资源调度方法的示例性***架构100。需要注意的是，图1所示仅为可以应用本公开实施例的***架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、***、环境或场景。

如图1所示，根据该实施例的***架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。

需要说明的是，本公开实施例所提供的边缘自治中心管控的边云资源调度方法一般可以由服务器105执行。相应地，本公开实施例所提供的边缘自治中心管控的边云资源调度***一般可以设置于服务器105中。其中，服务器105可以是本公开实施例的边缘集群和/或云集群。本公开实施例所提供的边缘自治中心管控的边云资源调度方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的边缘自治中心管控的边云资源调度***也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。

例如，待处理服务请求可以原本存储在终端设备101、102、或103中的任意一个(例如，终端设备101，但不限于此)之中，或者存储在外部存储设备上并可以导入到终端设备101中。然后，终端设备101可以将待处理服务请求发送到服务器、或服务器集群，并由接收该待处理服务请求的服务器、或服务器集群来执行本公开实施例所提供的边缘自治中心管控的边云资源调度方法。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

为了充分且合理有效的利用云集群和边缘集群的计算资源，本公开提出了一种边缘自治中心管控的边云资源调度方法，又称双时间尺度调度方法，分为服务请求指派以及服务资源编排，图2示意性示出了根据本公开实施例的边缘自治中心管控的边云资源调度方法的应用场景。服务请求指派是指在较小的时间范围在边缘集群对服务请求进行指派，基于服务请求的类型确定指派给边缘集群的边缘节点或者云集群，以时隙t为单位，根据本公开的实施例，来自用户终端设备的服务请求会随机地到达边缘集群中的eAPs，对于每个

都存在一个任务队列

和随时间变化的状态转移概率，并在每个时隙t，eAPb都会按照状态转移概率将任务队列中的服务请求指派到已部署对应服务实体且拥有足够资源的边缘节点，否则将会将相应服务请求上传至云集群。每个服务请求的指派和处理都会消耗计算资源和网络带宽，由于云集群在物理分布上距离服务请求产生的终端设备较边缘集群远，因此将服务请求卸载到云集群会直接产生更高的传输延迟。

每个云集群中的服务实体和边缘节点都为服务请求的指派提供一个任务队列，可以对具有不同延迟要求的服务请求进行优先级排序，在边缘节点上的任务队列由集合

表示，在云集群的任务队列用

表示。通过对具有不同延迟要求的服务请求进行优先级排序，可以使对延迟要求高的服务请求被优先计算、处理，从而更进一步缩短服务请求的响应时间，提升用户体验。

根据本公开的实施例，可以将类似云集群的运算与处理能力扩展到边缘集群，使边缘集群能够处理与云集群类似的服务请求，充分利用边缘集群的计算资源，缓解云集群的计算压力，为用户的服务请求提供稳定且敏感的响应。图3示意性示出了根据本公开实施例的边缘自治中心管控的边云资源调度方法的流程图。

如图3所示，该方法包括操作S301～S304。

在操作S301，接收来自终端的服务请求。

在操作S302，获取边缘集群的状态空间，其中，状态空间用于表征边缘集群的资源状态。

根据本公开的实施例，优选的，来自终端的服务请求可以为延迟敏感型服务请求，延迟敏感型服务请求的确定可根据具体情况具体设定，例如，对于交互式视频服务请求来说，要保证交互式视频应用达到良好的服务质量，传输单向延迟不能大于150ms，而此类交互式视频服务请求在考虑到用户体验的情况下，延迟不能大于400ms。对于自动驾驶来说，要做到100km/h制动距离不超过30cm，那么***整体响应时间不能超过10ms。

根据本公开的可选实施例，可将延迟需求小于400ms的服务请求确定为延迟敏感型服务请求。通过限制延迟敏感型服务请求的延迟要求，以及在服务请求为延迟敏感型服务请求的情况下才获取边缘集群的状态空间，从而可以过滤掉对延迟要求不高的服务请求，进而节省计算资源。需要说明的是，本公开的边缘自治中心管控的边云资源调度方法对任何类型的服务请求都适用，而不仅限于延迟敏感型服务请求。

根据本公开的实施例，边缘集群是由相邻的边缘接入点(edge Access Points，eAPs)和边缘节点组成的资源池，根据本公开的实施例，边缘集群里所有的eAPs由集合

表示，对于任意eAP b，由其管理的边缘节点用集合

表示，所有的eAPs及其相关的边缘节点都通过局域网相连接。

在操作S303，将边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率，其中，服务请求指派模型包括深度强化学习网络。

在操作S304，根据状态转移概率确定用于响应服务请求的目标集群，根据本公开的实施例，目标集群包括边缘集群或云集群，边缘集群包括边缘节点。

根据本公开的实施例，eAPs负责将接收的服务请求基于状态转移概率指派到边缘节点或者云集群进行下一步处理。终端的服务请求在每一时隙首先到达边缘接入点，边缘接入点再根据状态空间选择出服务请求将要被指派到的目标集群。

根据本公开的实施例，通过边缘自治中心管控的边云资源调度方法减轻了主干网络和云集群的负载压力，有效降低服务请求的排队时延和传输时延。

根据本公开的实施例，在对服务请求进行调度的过程中，eAPs对首次到达的服务请求进行独立调度，不需要云集群或边缘节点做决定，从而实现了及时调度的效果。

下面参考图4，结合具体实施例对图3所示的方法做进一步说明。

图4示意性示出了服务请求指派的流程图。

如图4所示，服务请求指派是让eAPs独立地决定哪个边缘节点或者云应该处理到达的服务请求。服务请求指派模型是基于深度强化学习技术，对每个智能体

按照马尔可夫决策过程

建模训练得到的。

根据本公开的实施例，将边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率包括如下操作。

将边缘集群的状态空间输入至服务请求指派模型的动作策略网络中，输出初始状态转移概率。

根据本公开的实施例，深度强化学习网络包括动作策略网络和价值评估网络。其中，动作策略网络以边缘集群的状态空间作为输入，得到初始状态转移概率。

根据本公开的实施例，可以将初始状态转移概率映射到动作空间，用于当做进行指派服务请求的基准。

根据本公开的实施例，边缘节点的初始状态转移概率可以通过

来表示，即在执行动作

后，状态空间由

转移到

的概率。

根据本公开的其他实施例，并不局限于此，还可以基于边缘节点的边缘节点状态参数确定资源上下文；基于资源上下文和初始状态转移概率，确定用于指派服务请求动作的状态转移概率。再基于该状态转移概率映射到动作空间，用于当做进行指派服务请求的基准。

根据本公开的实施例，在实际的应用过程中，为保证动作策略网络输出的初始状态转移概率是真实有效的，可以应用资源上下文F_b，t作为矫正因子对动作策略网络输出的初始状态转移概率进行矫正。

根据本公开的实施例，资源上下文与初始状态转移概率为维度相同的矩阵，资源上下文可以用公式(1)表示：

根据本公开的实施例，边缘接入点获取所有边缘节点状态参数，根据本公开的实施例，边缘节点状态参数可以包括边缘节点的剩余CPU、内存以及存储资源，当边缘节点状态参数满足处理相应服务请求的条件的情况下(即if node j is available或者if nodej＝0)，资源上下文输出1，否则，资源上下文输出0。

根据本公开的实施例，基于初始状态转移概率和资源上下文，确定用于指派服务请求动作的状态转移概率，可以为将动作策略网络输出的初始状态转移概率

与资源上下文F_b，t逐元素同位相乘，即

由于在边缘节点状态参数满足处理相应服务请求的条件的情况下，资源上下文输出为1，此时当初始状态转移概率与资源上下文相乘后，初始状态转移概率不变；然而，当边缘节点状态参数不满足处理相应服务请求的条件的情况下，资源上下文输出为0，此时当初始状态转移概率与资源上下文相乘时，由于资源上下文的值为0，导致初始状态转移概率与资源上下文相乘后同样为0，从而将状态信息不满足处理相应服务请求的边缘节点过滤掉，进而得到状态转移概率

根据本公开的实施例，通过利用资源上下文F_b，t将状态信息不满足响应服务请求的边缘节点过滤掉，从而可以达到确定真实有效的状态转移概率以及避免边缘节点中的可用资源随调度事件而波动的效果。

根据本公开的实施例，可以在得到状态转移概率后，根据状态转移概率确定边缘接入点的调度动作概率

即公式(2)：

其中，

为边缘接入点执行动作j的状态转移概率，

表示边缘接入点执行所有动作的概率之和，其值为1。

根据本公开的实施例，边缘集群的状态空间包括服务请求状态参数、边缘接入点状态参数、边缘节点状态参数、边缘接入点与云集群的网络延迟状态参数中的一种或多种。

根据本公开的可选实施例，边缘接入点与云集群的网络延迟状态参数可以包括边缘接入点与云集群之间的传输延迟。

根据本公开的可选实施例，服务请求状态参数可以包括服务请求的类型和/或服务请求对延迟的需求。

根据本公开的实施例，服务请求的类型可以为支付请求，但是并不局限于此，还可以为人脸识别请求、视频流处理请求等对延迟要求较高的服务请求；服务请求对延迟的需求可以根据具体情况进行设置，例如，将服务请求的延迟需求分为三个级别，低级别延迟需求：大于400ms；中级别延迟需求：大于150ms且小于400ms；高级别延迟需求：小于150ms。通过对服务请求的延迟需求进行分级，可以更加明确的对边缘节点及云集群的任务队列中的服务请求进行优先级排序。

根据本公开的实施例，可以将中级别延迟需求以及高级别延迟需求的服务请求设定为延迟敏感型服务请求。

根据本公开的可选实施例，边缘接入点状态参数可以包括边缘接入点的任务队列的队列信息。对于每个

都存在一个任务队列

因此边缘接入点状态参数可以为边缘接入点的任务队列的队列信息。

根据本公开的可选实施例，边缘节点状态参数可以包括边缘节点未处理的服务请求的数量、边缘节点的服务资源类型、边缘节点的服务资源副本的数量、边缘节点的数量中的一种或多种。

根据本公开的实施例，智能体eAP b的独立动作空间为

表示当前的请求可以指派到的边缘节点。对于一个边缘集群，可以将所有可用的边缘节点看作一个资源池。

根据本公开的实施例，eAPs中的eAP b之间的动作可以交互。于是在这种情况下，

就拥有N+1个离散的动作，记作

其中

和

分别表示将服务请求指派到云集群或边缘节点。可以理解为，当eAP b1所对应管理的边缘节点处理能力不足的情况下，可以根据状态空间，先将服务请求指派给eAP b2，再由eAP b2将服务请求指派给由其管理的边缘节点。

根据本公开的实施例，在每个时隙t边缘节点只处理一个服务请求，因此可以确定合适的时隙大小，以便确保调度的及时性。需要说明的是，合适的时隙大小可以根据具体情况灵活确定，本公开的实施例对此不做限制。

根据本公开的实施例，本公开的服务请求指派模型还包括奖赏函数，用于对边缘接入点的执行动作进行奖赏，实时反馈。

根据本公开的实施例，在同一边缘集群的智能体(eAPs)共享同一个奖赏函数

即对于所有的

都有

每个智能体都想最大化获得期望折合奖赏

其中

表示第b个智能体在执行动作

所获得的即时奖赏，γ∈(0，1]是折合因子。

根据本公开的实施例，深度强化学习网络中还可以包括价值评估网络，价值评估网络以状态空间和动作空间作为输入，输出结果为状态空间和动作空间对应的输出值。根据本公开的实施例，θ_v表示价值评估网络(Critic)的优化参数，V表示真实价值评估网络所获得的值，V^*表示基于参数θ′_v更新的目标价值网络所获得的值，

表示输入的状态，π表示执行的策略。V^*可用如下公式(3)表示：

其中，

为边缘接入点在每一时隙所获得的即时奖赏；γ为折合因子，且γ∈(0，1]；

表示边缘接入点所执行的策略。

根据本公开的实施例，动作策略网络和价值评估网络在进行应用时，可以实时进行优化更新，以保证服务请求指派模型的计算精度。

根据本公开的实施例，可以基于深度确定性的策略梯度算法进行优化更新。

根据本公开的实施例，价值评估网络可以基于服务请求指派的期望以及最小化损失函数完成在线价值评估网络的更新。

根据本公开的实施例，服务请求指派的期望

可以表示为公式(4)，最小化损失函数可以表示为公式(5)：

最小化损失函数L(θ_v)表示在当前的输入状态

下获得价值评估网络输出值与预期状态

下获得价值评估网络输出值做差再进行平方的最小值。L(θ_v)值越小，表示状态

与预期的状态

越接近，模型的优化训练的越成功。通过L(θ_v)不断去优化服务请求指派模型从而得到更优的状态转移概率。基于更优的状态转移概率，从而边缘接入点可以执行保证实现最大吞吐率的指派动作。

根据本公开的实施例，动作策略网络可以基于服务请求指派的策略梯度完成在线动作策略网络的更新。

根据本公开的实施例，策略梯度

可以表示为公式(6)：

根据本公开的实施例，通过计算策略梯度，使eAPs在后续的服务请求指派中更多或更少的执行某些动作。在公式(6)中，策略梯度

结果的正负是由期望

的正负决定，而期望

的正负与eAPs通过奖赏函数获得的奖赏有关。当执行某些动作后，eAPs获得正的奖赏，体现在策略梯度

上即为：通过执行获得正期望的动作，进而获得了正的策略梯度，由于获得了正的策略梯度从而增加获得正的策略梯度的动作在未来被执行的可能性；然而，当eAPs执行某些动作获得负奖赏，即惩罚时，会获得负的策略梯度，结果就是减少获得负的策略梯度的动作在未来被执行的可能性。通过策略梯度的正负，就会导致获得负奖赏的行为在未来逐渐被过滤，而获得正奖赏的动作在未来会被越来越多的执行。

根据本公开的实施例，边缘节点受存储能力和内存的局限，不是所有的服务

都可以由边缘节点保存、管理及处理。因此，可以从以下几个问题考虑，进而对边缘集群中的服务实体，即边缘节点进行服务资源编排。例如，1)哪些服务请求应该被放在边缘节点上；2)边缘节点上的每个服务请求应该拥有多少个副本。根据本公开的实施例，对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本统称为服务资源编排。

根据本公开的实施例，在实际应用过程中，有些服务请求会被大范围应用，例如人脸识别等近年来热门的服务请求，这就导致将有大量的人脸识别类服务请求到达边缘节点，为了适应此种情况，使边缘节点能够更快的处理大量到来的人脸识别类服务请求，就需要在边缘节点上增加更多的处理人脸识别类服务请求的副本。同样的，对于被应用较少的服务请求，边缘节点就可以相应的减少对应的服务资源副本，从而合理配置边缘节点的资源，实现计算、处理效率的最大化。

根据本公开的实施例，与服务请求调度不同，边缘群集中过于频繁的大规模服务资源编排可能会导致***不稳定和高运营成本。本公开的实施例让云集群在每个时帧τ按照动态的调度策略

对边缘集群进行服务资源编排。基于策略

云集群会决定在时帧τ边缘节点n中服务请求w的副本数量

根据本公开的实施例，结合深度强化学习技术，本公开提出基于图神经网络的策略梯度算法对边缘集群的状态信息进行灵活处理以获取边缘集群的编码信息，并将高维的服务资源编排分解成了逐步调度动作。

根据本公开的实施例，边缘自治中心管控的边云资源调度方法还可以包括向云集群发送边缘集群的状态空间，以使云集群基于边缘集群的状态空间，确定边缘节点的状态值，并基于边缘节点的状态值，对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本。

图5示意性示出了服务资源编排流程图。

如图5所示，服务资源编排包括操作S501～S503。

在操作S501，获取边缘集群的状态空间；

在操作S502，将边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值；其中，服务资源编排模型包括图神经网络和深度强化学习网络；

在操作S503，基于边缘节点的状态值，对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本。

根据本公开的实施例，边缘集群的状态空间可以包括服务请求状态参数、边缘接入点状态参数、边缘节点状态参数以及边缘接入点与云集群的网络延迟状态参数中的一种或多种。

根据本公开的实施例，将边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值还包括以下操作。

将边缘集群的状态空间输入服务资源编排模型的图神经网络中，以获取边缘集群的编码信息。

将边缘集群的编码信息输入服务资源编排模型的深度强化学习网络中，得到边缘节点的状态值。

将边缘节点的状态值输入softmax函数，得到边缘节点的选择概率值σ_n，τ：

对边缘节点基于选择概率值σ_n，τ进行降序排列，确定对应的前

个边缘节点，其中

表示所有边缘节点组成的集合；

使用动作-评价函数对前

个边缘节点进行评价，得到服务资源编排的动作值。

其中，基于边缘节点的状态值，对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本包括：

将服务资源编排的动作值输入softmax函数，得到前

个边缘节点执行每个服务资源编排动作的动作概率值，其中，服务资源编排动作包括对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本；

确定动作概率值最大的服务资源编排动作，并执行。

根据本公开的实施例，服务资源编排是指在较大的时间范围在云集群从全局角度对边缘节点的实体服务进行编排，以时帧

为单位，图6示意性示出了服务资源编排的流程图。根据本公开的实施例，时隙t是毫秒级，时帧是秒级，对于边缘节点

在每一时帧τ都有一个状态向量

将边缘节点的状态向量

输入至服务资源编排模型的图神经网络中得到边缘节点的编码信息

过程

可由公式(7)表示；

其中，h₁(·)和f₁(·)是两个非线性转化函数，图神经网络由h₁(·)和f₁(·)聚合而成。

因此n′_b表示与边缘节点b相邻但不包含b本身的边缘节点。

将边缘节点

的编码信息

推广到eAPs和边缘集群，从而eAPs和边缘集群的编码信息可分别表示为公式(8)及公式(9)：

由此获得了边缘节点、eAPs、边缘集群这三个层级的编码信息：

y_b，τ、z_τ。

根据本公开的实施例，在获得边缘节点、eAPs、边缘集群这三个层级的编码信息的基础上，将边缘节点、eAPs、边缘集群的编码信息输入服务资源编排模型的深度强化学习网络中，输出边缘节点的状态值。

根据本公开的实施例，服务资源编排模型的深度强化学习网络可以用下式表示：g_n，b，τ＝g(x_n，τ，y_b，τ，z_τ)。

对于由eAP b管理的每个边缘节点n_b，都可以根据公式g_n，b，τ＝g(x_n，τ，y_b，τ，z_τ)计算出边缘节点的状态值，根据本公开的实施例，g(·)是基于网络参数θ_g更新的非线性价值估计函数。

根据本公开的实施例，得到边缘节点的状态值之后，将边缘节点的状态值输入softmax函数，softmax函数以边缘节点的状态值作为输入，输出边缘节点的选择概率值σ_n，τ，进一步根据选择概率值σ_n，τ执行动作

选择概率值σ_n，τ的计算可以由公式(10)表示：

根据本公开的实施例，动作

表示选取选择概率值σ_n，τ最大的前

个边缘节点。

根据本公开的实施例，执行动作

后，使用动作-评价函数q_h，l，τ＝q(x_h，τ，y_b，τ，z_τ，l)计算在时帧τ，

个边缘节点执行服务资源编排动作

的值，根据本公开的实施例，动作空间l可由

表示，q(·)是基于网络参数θ_q更新的动作-评价函数。基于执行服务资源编排动作

的值，使用softmax函数计算出每种服务资源编排动作概率值，并选取服务资源编排动作概率值最大的对应的服务资源编排动作，作为对

个边缘节点执行的服务资源编排动作

根据本公开的实施例，服务资源编排可以包括对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本。

为了更清楚的表示，本公开将所有的优化参数θ_g或θ_q都用θ^*表示，所有基于图神经网络的状态空间由

表示，服务资源编排动作由

表示，服务资源编排策略由

表示，于是服务资源编排的优化公式可以表示为公式(11)：

其中，T表示基于图神经网络的策略梯度算法的训练长度，α表示学习率，μ_τ表示用于减少策略梯度差异的基线，

表示每一时帧τ结束后边缘接入点所获得的期望奖赏，其中

表示边缘节点n未处理的服务请求的队列长度。

以下结合具体实施例对云集群的服务资源编排做具体阐释：

根据本公开的可选实施例，假设边缘集群中仅有一个边缘接入点b，有四个边缘节点n1、n2、n3以及n4受边缘接入点b管辖。

根据本公开的实施例，向云集群发送边缘集群的状态空间，即服务请求状态参数、边缘接入点状态参数、边缘节点状态参数、边缘接入点与云集群的网络延迟状态参数中的一种或多种。将边缘集群状态空间输入到服务资源编排模型中的图神经网络，输出边缘节点的编码信息，将边缘节点的编码信息推广到边缘集群及边缘接入点即可获得边缘集群及边缘接入点的编码信息。

获得边缘节点、边缘集群及边缘接入点的编码信息后，将边缘节点、边缘集群及边缘接入点的编码信息输入到服务资源编排模型中的深度强化学习模型，输出边缘节点的状态值，假设，边缘节点n1的状态值为1，边缘节点n2的状态值为2，边缘节点n3的状态值为3，边缘节点n4的状态值为4。

将边缘节点n1、n2、n3以及n4的状态值输入softmax函数，softmax函数输出边缘节点的选择概率值。假设，边缘节点n1的选择概率值为0.1，边缘节点n2的选择概率值为0.2，边缘节点n3的选择概率值为0.3，边缘节点n4的选择概率值为0.4，然后根据边缘节点的选择概率值执行动作

即选取选择概率值最大的前H个边缘节点，此处，假设H＝2，即选取边缘节点n3以及边缘节点n4。执行动作

后，将边缘节点n3以及边缘节点n4的编码信息输入动作-评价函数q_h，l，τ＝q(x_h，τ，y_b，τ，z_τ，l)，动作-评价函数q_h，l，τ＝q(x_h，τ，y_b，τ，z_τ，l)输出边缘节点n3以及边缘节点n4在时帧τ时执行服务资源编排动作值；将服务资源编排动作值输入到softmax函数，softmax函数输出对边缘节点n3及边缘节点n4执行每种服务资源编排动作的概率，并选取概率最大的动作执行。

例如，对边缘节点n3执行动作d1的概率为0.2，执行动作d2的概率为0.3，执行动作d3的概率为0.5，从而，将对边缘节点n3执行d1、d2、d3中概率最大的动作d3。对于边缘接入点n4不再赘述。据此，完成对边缘集群中边缘接入点的服务资源编排。需要说明的是，上述过程仅供理解本公开的实施例，而不对本公开的实施例做任何限定。

在本公开的一些实施例中，确定边缘自治中心管控的边云资源调度方法能够实现的最大化吞吐率；

本公开的目标是通过以上的服务请求指派以及服务资源编排机制在长期最大化***的吞吐量Φ，吞吐量即边缘接入点实际处理的服务请求的数量，用公式(5)表示：

根据本公开的实施例，

及

分别表示在时帧τ边缘节点n或者云集群实际处理的请求数量。通过使用更加可靠的指标，即长期***吞吐率Φ′，防止了Φ→∞，长期***吞吐率Φ′如下述公式(13)所示：

根据本公开的实施例，

表示在每个时帧τ到达eAP b的请求数量。

本公开中关于服务请求指派和服务资源编排的调度问题可以被归纳为最大吞吐率，可以如下公式(14)所示：

根据本公开的实施例，τ表示时帧，

表示边缘集群中所有边缘接入点组成的集合，b表示集合

中的边缘接入点，

表示在时帧τ到达边缘接入点b的请求数量，

根据本公开的实施例，用

和

替换在时隙t和时帧τ中一系列的调度变量，从而更清晰的表示上述最大吞吐率。

图7示意性示出了根据本公开的实施例的边缘自治中心管控的边云资源调度装置700的框图。

如图7所示，包括接收模块701、获取模块702、第一确定模块703以及第二确定模块704。

接收模块701，用于接收来自终端的服务请求。

获取模块702，用于获取边缘集群的状态空间，其中，状态空间用于表征边缘集群的资源状态。

第一确定模块703，用于将边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率，其中，服务请求指派模型包括深度强化学习网络。

第二确定模块704，用于根据状态转移概率确定用于响应服务请求的目标集群，其中，目标集群包括边缘集群或云集群，边缘集群包括边缘节点。

根据本公开的实施例，边缘自治中心管控的边云资源调度装置还可以包括发送模块。

发送模块，用于向云集群发送边缘集群的状态空间，以便云集群基于边缘集群的状态空间，确定边缘节点的状态值，并基于边缘节点的状态值，对边缘节点配置服务资源和/或对单个边缘节点扩展服务资源副本。

根据本公开的实施例，发送模块包括获取单元、第一确定单元以及动作单元。

获取单元，用于获取边缘集群的状态空间。

第一确定单元，用于边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值。其中，服务资源编排模型包括图神经网络和深度强化学习网络。

动作单元，用于基于边缘节点的状态值，对边缘节点配置服务资源和\或对单个边缘节点扩展服务资源副本。

根据本公开的实施例，第一确定模块703包括输入输出单元、第二确定单元以及第三确定单元。

输入输出单元，用于将边缘集群的状态空间输入至服务请求指派模型的动作策略网络中，输出初始状态转移概率。

第二确定单元，用于基于边缘节点的边缘节点状态参数确定资源上下文。

第三确定单元，用于基于初始状态转移概率和资源上下文，确定用于指派服务请求动作的状态转移概率。

根据本公开的实施例，状态空间包括服务请求状态参数、边缘接入点状态参数、边缘节点状态参数、所述边缘接入点与所述云集群的网络延迟状态参数中的一种或多种。

根据本公开的实施例，边缘自治中心管控的边云资源调度装置还包括第三确定模块。

第三确定模块，用于确定边缘自治中心管控的边云资源调度装置能够实现的最大化吞吐率；其中，所述最大化吞吐率的公式如下：

其中，τ表示时帧，

表示边缘集群中所有边缘接入点组成的集合，b表示集合

中的边缘接入点，

表示在时帧τ到达边缘接入点b的请求数量，

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，接收模块701、获取模块702、第一确定模块703以及第二确定模块704中的任意多个可以合并在一个模块/单元/子单元中实现，或者其中的任意一个模块/单元/子单元可以被拆分成多个模块/单元/子单元。或者，这些模块/单元/子单元中的一个或多个模块/单元/子单元的至少部分功能可以与其他模块/单元/子单元的至少部分功能相结合，并在一个模块/单元/子单元中实现。根据本公开的实施例，接收模块701、获取模块702、第一确定模块703以及第二确定模块704中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上***、基板上的***、封装上的***、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，接收模块701、获取模块702、第一确定模块703以及第二确定模块704中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

需要说明的是，本公开的实施例中边缘自治中心管控的边云资源调度装置部分与本公开的实施例中边缘自治中心管控的边云资源调度方法部分是相对应的，边缘自治中心管控的边云资源调度装置部分的描述具体参考边缘自治中心管控的边云资源调度方法部分，在此不再赘述。

根据本公开的实施例，本公开的另一个方面提供了一种边缘自治中心管控的边云资源调度***，包括：边缘集群，边缘集群包括：边缘接入点，用于接收服务请求；获取边缘集群的状态空间；根据边缘集群的状态空间，得到策略梯度；以及基于策略梯度，确定将服务请求发送至边缘节点或云集群；边缘节点，用于接收边缘接入点发送的服务请求，执行具体的计算任务；云集群，用于接收边缘接入点发送的服务请求。

以上对本公开的实施例进行了描述。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本公开的范围。尽管在以上分别描述了各实施例，但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围，本领域技术人员可以做出多种替代和修改，这些替代和修改都应落在本公开的范围之内。

Claims

1.一种边缘自治中心管控的边云资源调度方法，包括：

接收来自终端的服务请求；

获取边缘集群的状态空间，其中，所述状态空间用于表征边缘集群的资源状态；

将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，所述服务请求指派模型包括深度强化学习网络；以及

根据所述状态转移概率确定用于响应所述服务请求的目标集群，其中，所述目标集群包括所述边缘集群或云集群，其中，所述边缘集群包括边缘节点。

2.根据权利要求1所述的方法，还包括：

向所述云集群发送所述边缘集群的状态空间，以便所述云集群基于所述边缘集群的状态空间，确定所述边缘节点的状态值，并基于所述边缘节点的状态值，对所述边缘节点配置服务资源和/或对单个所述边缘节点扩展服务资源副本。

3.根据权利要求2所述的方法，所述以便所述云集群基于所述边缘集群的状态空间，确定所述边缘节点的状态值，并基于所述边缘节点的状态值，对所述边缘节点配置服务资源和/或对单个所述边缘节点扩展服务资源副本包括：

获取所述边缘集群的状态空间；

将所述边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值；其中，所述服务资源编排模型包括图神经网络和深度强化学习网络；以及

基于所述边缘节点的状态值，对所述边缘节点配置所述服务资源和/或对单个所述边缘节点扩展服务资源副本。

4.根据权利要求3所述的方法，其中，所述将所述边缘集群的状态空间输入至服务资源编排模型中，得到边缘节点的状态值包括：

将所述边缘集群的所述状态空间输入所述服务资源编排模型的图神经网络中，以获取所述边缘集群的编码信息；

将所述边缘集群的编码信息输入所述服务资源编排模型的深度强化学习网络中，得到所述边缘节点的状态值；

将所述边缘节点的状态值输入softmax函数，得到边缘节点的选择概率值；

对所述边缘节点基于所述选择概率值进行降序排列，确定对应的前

个边缘节点，其中，

表示所有边缘节点组成的集合；

使用动作-评价函数对所述前

个边缘节点进行评价，得到服务资源编排的动作值；

其中，所述基于所述边缘节点的状态值，对所述边缘节点配置所述服务资源和/或对单个所述边缘节点扩展服务资源副本包括：

将所述服务资源编排的动作值输入所述softmax函数，得到所述前

个边缘节点执行每个服务资源编排动作的动作概率值，其中，所述服务资源编排动作包括对所述边缘节点配置所述服务资源和/或对单个所述边缘节点扩展服务资源副本；

确定所述动作概率值最大的服务资源编排动作，并执行。

5.根据权利要求1所述的方法，其中，所述将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率包括：

将所述边缘集群的状态空间输入至服务请求指派模型的动作策略网络中，输出初始状态转移概率；

基于所述边缘节点的边缘节点状态参数确定资源上下文；

基于初始状态转移概率和资源上下文，确定用于指派服务请求动作的状态转移概率。

6.根据权利要求1或2所述的方法，其中，

所述状态空间包括服务请求状态参数、边缘接入点状态参数、边缘节点状态参数、所述边缘接入点与所述云集群的网络延迟状态参数中的一种或多种。

7.根据权利要求6所述的方法，其中，

所述服务请求状态参数包括所述服务请求的类型和/或所述服务请求对延迟的需求；

所述边缘接入点状态参数包括所述边缘接入点的任务队列的队列信息；

所述边缘节点状态参数包括所述边缘节点未处理的所述服务请求的数量、所述边缘节点的服务资源类型、所述边缘节点的服务资源副本的数量、所述边缘节点的数量中的一种或多种；

所述边缘接入点与所述云集群的网络延迟状态参数包括所述边缘接入点与所述云集群之间的传输延迟。

8.根据权利要求1的方法，还包括：

确定所述边缘自治中心管控的边云资源调度方法能够实现的最大化吞吐率；其中，所述最大化吞吐率的公式如下：

其中，τ表示时帧，

表示边缘集群中所有边缘接入点组成的集合，b表示集合

中的边缘接入点，

表示在时帧τ到达边缘接入点b的请求数量，

9.一种边缘自治中心管控的边云资源调度装置，包括：

接收模块，用于接收来自终端的服务请求；

获取模块，用于获取边缘集群的状态空间，其中，所述状态空间用于表征边缘集群的资源状态；

第一确定模块，用于将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率，其中，所述服务请求指派模型包括深度强化学习网络；以及

第二确定模块，用于根据所述状态转移概率确定用于响应所述服务请求的目标集群，其中，所述目标集群包括所述边缘集群或云集群，所述边缘集群包括边缘节点。

10.一种边缘自治中心管控的边云资源调度***，包括：

边缘集群，边缘集群包括：

边缘接入点，用于接收来自终端的服务请求；获取边缘集群的状态空间，其中，所述状态空间用于表征边缘集群的资源状态；将所述边缘集群的状态空间输入到服务请求指派模型，得到用于指派服务请求动作的状态转移概率；其中，所述服务请求指派模型包括深度强化学习网络；以及根据所述状态转移概率确定用于响应所述服务请求的目标集群，其中，所述目标集群包括所述边缘集群或云集群，所述边缘集群包括边缘节点；

边缘节点，用于接收所述边缘接入点发送的服务请求，执行具体的计算任务；

云集群，用于接收所述边缘接入点发送的服务请求。