CN112615731A

CN112615731A - 一种用于分配多运营商联合网络切片资源的方法和装置

Info

Publication number: CN112615731A
Application number: CN202011322840.1A
Authority: CN
Inventors: 魏翼飞; 汪昭颖; 孙司远; 张勇; 郭达; 宋梅
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-04-06
Anticipated expiration: 2040-11-23
Also published as: CN112615731B

Abstract

本说明书一个或多个实施例提供一种用于分配多运营商联合网络切片资源的方法和装置。该方法包括：在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务；基于计算任务，确定资源分配方式；基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案；基于资源分配方案进行网络资源的分配。本实现方式可以基于运营商接收到的计算任务确定资源分配方式，从而基于确定的资源分配方式确定资源分配方案，以在满足切片服务质量要求的同时，最大效用地进行网络资源的分配。

Description

一种用于分配多运营商联合网络切片资源的方法和装置

技术领域

本说明书一个或多个实施例涉及计算机技术、通信技术领域，尤其涉及一种用于分配多运营商联合网络切片资源的方法和装置。

背景技术

网络切片技术已成为第五代移动网络(fifth generation mobile network，5G)的关键技术之一。不同的应用场景在网络速度、延迟和可靠性方面有不同的要求，独立灵活的网络分片针对不同场景将物理网络抽象为虚拟逻辑网络，为具有不同需求用户的服务质量提供了有力的保证。

多接入边缘计算(Multi-access Edge Computing，MEC)在5G网络切片架构中起着关键作用。多接入边缘计算将移动计算，网络管理和存储功能等集成到移动网络体系结构的边缘。在现有的网络切片资源分配方案中，在满足服务质量要求时，移动虚拟网络运营商的效用不高。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种用于分配多运营商联合网络切片资源的方法、装置、设备以及存储介质，以解决上述提到的在现有的网络资源分配方案中，在满足服务质量要求时，移动虚拟网络运营商的效用不高的问题。

基于上述目的，本说明书一个或多个实施例提供了一种用于分配多运营商联合网络切片资源的方法，其特征在于，包括：

在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务；

基于计算任务，确定资源分配方式；

基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案；

基于资源分配方案进行网络资源的分配。

进一步地，基于计算任务，确定资源分配方式，包括：

每个独立的运营商确定多运营商联合网络切片环境下各自的数据隐私信息；

利用强化学习算法，基于计算任务和各自的数据隐私信息，确定采用集中式资源分配方式或采用分布式资源分配方式。

进一步地，基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案，包括：

运营商控制器响应于确定采用集中式资源分配方式，获取各运营商的当前剩余网络资源状态和当前效用反馈；

在预设的服务质量要求下，基于计算任务、当前剩余网络资源状态、当前效用反馈和预设的效用阈值，调用深度确定性策略梯度算法，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

进一步地，基于资源分配方案进行网络资源的分配，包括：

基于资源分配方案，向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

进一步地，每个移动虚拟网络运营商(Mobile Virtual Network Operator，MVNO)被视作一个独立的运营商；计算任务是由每个独立的运营商动态接收的；以及

基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案，还包括：

响应于确定采用分布式资源分配方式，每个独立的运营商获取各自的当前剩余网络资源状态和当前效用反馈；

在预设的服务质量要求下，基于每个独立的运营商获取的各自的当前剩余网络资源状态、当前效用反馈、预设的效用阈值和计算任务，每个独立的运营商调用多运营商深度确定性策略梯度算法，各自确定针对接收到的各用户的计算任务所对应的网络切片的资源分配方案；以及

基于资源分配方案进行网络资源的分配，还包括：

基于资源分配方案，每个独立的运营商向接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

一种用于分配多运营商联合网络切片资源的装置，其特征在于，包括：

接收单元，被配置成在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务；

资源分配方式确定单元，被配置成基于计算任务，确定资源分配方式；

资源分配方案确定单元，被配置成基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案；

网络资源分配单元，被配置成基于资源分配方案进行网络资源的分配。

进一步地，资源分配方式确定单元进一步被配置成：

进一步地，资源分配方案确定单元进一步被配置成：

进一步地，网络资源分配单元进一步被配置成：

资源分配方案确定单元进一步被配置成：

网络资源分配单元进一步被配置成：

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，处理器执行程序时实现如上述的用于分配多运营商联合网络切片资源的方法。

一种非暂态计算机可读存储介质，其特征在于，非暂态计算机可读存储介质存储计算机指令，计算机指令用于使计算机执行如上述的用于分配多运营商联合网络切片资源的方法。

从上面可以看出，本说明书一个或多个实施例提供的一种用于分配多运营商联合网络切片资源的方法、装置、设备以及存储介质，可以基于运营商接收到的计算任务确定资源分配方式，从而基于确定的资源分配方式确定资源分配方案，以在满足切片服务质量要求的同时，最大效用地进行网络资源的分配。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个实施例示出的用于分配多运营商联合网络切片资源的方法的流程示意图；

图2为本说明书另一个实施例示出的用于分配多运营商联合网络切片资源的方法的流程示意图；

图3为本说明书一个实施例示出的用于分配多运营商联合网络切片资源的装置的结构框图；

图4为本说明书一个实施例示出的用于分配多运营商联合网络切片资源的电子设备硬件结构示意图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本公开进一步详细说明。

需要说明的是，除非另外定义，本说明书一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本说明书一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

图1示出了根据本申请的用于分配多运营商联合网络切片资源的方法的一个实施例的流程100。本实施例的用于传输数据的方法，包括以下步骤：

步骤101，在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务。

本实施例中，用于分配多运营商联合网络切片资源的方法的执行主体可以是多运营商联合网络切片环境中的每个独立的运营商或者是运营商控制器，本申请对此不做具体限定，根据实际需要选择每个独立的运营商或者运营商控制器作为执行主体。多运营商联合网络切片环境中的每个独立的运营商之间互相通信连接，互相可以获取彼此所接收的用户的任务信息。在该多运营商联合网络切片环境中，执行主体(这里可以是每个独立的运营商)可以动态地通过有线或无线连接的方式从用户终端接收用户发送的请求切片服务的计算任务。多运营商联合网络切片环境可以是由基础架构提供商(InfrastructureProvider，InP)、多个移动虚拟网络运营商(MVNO)和网络服务提供商(Network ServiceProvider，NSP)组成的业务网络环境。MVNO从InP租用资源并将其虚拟化为不同的切片，以满足不同网络服务的需求。NSP根据需求和服务质量QoS的要求为终端用户(End Users)提供不同服务的网络切片。在集中式资源分配场景中，MVNO控制器可以为多个运营商提供切片资源分配的代理。在分布式资源分配场景中，每个MVNO运营商可以独立地进行网络资源分配的决策。多运营商联合网络切片可以为网络服务提供商在更大时空范围内动态分配网络资源。计算任务，可以是时延敏感型服务和高带宽型服务。

步骤102，基于计算任务，确定资源分配方式。

执行主体(这里可以是每个独立的运营商)在接收计算任务后，可以基于计算任务，确定资源分配方式。具体地，执行主体可以根据计算任务对应的运营商数据隐私情况，确定采用集中式资源分配方式还是采用分布式资源分配方式。

步骤103，基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案。

执行主体在确定资源分配方式后，可以基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案。具体地，当每个独立的运营商或部分独立的运营商确定采用分布式资源分配方式后，每个独立的运营商或者部分独立的运营商组成的联盟(该联盟内的独立的运营商签订统一的分布式资源分配协议，联盟内的独立运营商使用分布式资源分配方式)可以基于分布式资源分配方式，由每个独立的运营商根据各自接收到的计算任务、预设的服务质量要求和预设的效用阈值独立地进行决策，得到决策的优化问题(例如，可以是在预设的服务质量要求下，使得各运营商的效用最大)可以描述为马尔科夫博弈(Markov game)，采用多智能体(相当于上述提到的多运营商，在算法中被称作智能体)强化学习算法得到该优化问题的结果，并根据该优化问题的结果确定资源分配方案。本申请对效用阈值不做具体限定。

具体地，当每个独立的运营商(或者是部分独立的运营商组成的联盟，该联盟内的独立的运营商签订统一的集中式资源分配协议，联盟内的独立运营商使用集中式资源分配方式)确定采用集中式资源分配方式后，由运营商控制器收集所有独立的运营商(MVNO)的信息并为各独立的运营商做决策，以在满足质量要求QoS的情况下，以最大化各独立的运营商的长期效用为优化目标，采用基于策略的强化学习算法得到最终的优化结果，并基于该最终的优化结果确定资源分配方案。其中，运营商控制器可以看做是基于策略的强化学习算法中的智能体。具体地，智能体可以采用基于策略的方法，通过直接优化参数化策略获得最优策略。

步骤104，基于资源分配方案进行网络资源的分配。

执行主体(可以是每个独立的运营商或者是运营商控制器)在确定资源分配方案后，可以由每个独立的运营商或者是由运营商控制器基于资源分配方案对用户发送的请求所对应的切片进行网络资源的分配。

本实施例基于运营商接收到的计算任务确定资源分配方式，从而基于确定的资源分配方式确定资源分配方案，以在满足切片服务质量要求QoS的同时，最大效用地进行网络资源的分配。

继续参见图2，其示出了根据本申请的用于分配多运营商联合网络切片资源的方法的另一个实施例的流程200。如图2所示，本实施例的用于分配多运营商联合网络切片资源的方法可以包括以下步骤：

步骤201，在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务。

步骤202，基于计算任务，确定资源分配方式。

步骤201～步骤202的原理与步骤101～步骤102的原理相同，在此不再赘述。

具体地，步骤202还可以通过步骤2021～步骤2022来实现：

步骤2021，每个独立的运营商确定多运营商联合网络切片环境下各自的数据隐私信息。

本实施例中，数据隐私信息可以是每个独立的运营商虚拟化的网络资源状态等。

步骤2022，利用强化学习算法，基于计算任务和各自的数据隐私信息，确定采用集中式资源分配方式或采用分布式资源分配方式。

本实施例中，对于多运营商中的每个独立的运营商，利用强化学习算法，根据计算任务和多运营商联合网络切片环境下该运营商的数据(如，该运营商虚拟化的网络资源状态等)隐私情况，确定该运营商是否要保护自己的虚拟化的网络资源状态不让运营商控制器收集，如果该运营商确定要保护自己的虚拟化的网络资源状态数据不让运营商控制器收集，则确定进行分布式资源分配方式；如果每个独立的运营商确定无需保护自己的数据隐私(即该运营商虚拟化的网络资源状态)，则确定可以被运营商控制器收集该运营商的信息，然后由运营商控制器采用集中式资源分配方式进行网络资源的分配。

本实施例通过每个独立的运营商根据各自的数据隐私信息确定采用集中式资源分配方案还是分布式资源分配方案，可以实现多种形式的资源分配方案灵活使用，最大限度地发挥使用深度确定性策略梯度算法的集中式资源分配方式以及使用多智能体深度确定性策略梯度算法的分布式资源分配方式在具有高状态空间和连续动作空间的决策问题中的优势，以实现各独立的运营商在整个时隙***中进行网络资源分配时的效用最优。

步骤203，基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案。

步骤203的原理与步骤103的原理相同，在此不再赘述。

具体地，步骤203还可以通过步骤2031～步骤2032来实现：

步骤2031，运营商控制器响应于确定采用集中式资源分配方式，获取各运营商的当前剩余网络资源状态和当前效用反馈。

步骤2032，在预设的服务质量要求下，基于计算任务、当前剩余网络资源状态、当前效用反馈和预设的效用阈值，调用深度确定性策略梯度算法，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

本实施例中，执行主体，可以是每个独立的运营商，可以判断是采用集中式资源分配方式还是采用分布式资源分配方式。当每个独立的运营商确定采用集中式资源分配方式后，各独立的运营商可以将指示允许运营商控制器获取各独立的运营商的数据隐私信息的采用集中式资源分配方式的指令发送给运营商控制器，运营商控制器可以响应于确定采用集中式资源分配方式的指令，根据该指令获取各独立的运营商的数据隐私信息，该数据隐私信息可以包括各独立的运营商的当前剩余网络资源状态和当前效用反馈。

运营商控制器在获取各独立的运营商的当前剩余网络资源状态和当前效用反馈后，可以在预设的服务质量要求QoS下，基于各独立的运营商接收到的用户的计算任务、当前剩余网络资源状态、当前效用反馈和预设的效用阈值，调用深度确定性策略梯度算法(Deep Deterministic Policy Gradient，DDPG)，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

具体地，运营商控制器确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案可以用公式(1)及其约束条件s.t.(C1)～(C3)表示：

其中，公式(1)中w表示***带宽资源分配向量，f表示***计算资源分配向量。T表示***具有T个时隙，t表示第t个时隙。环境中具有S个切片，切片集合为

s表示第s个切片。Ω_s(t)表示时隙t时所有的MVNO在第s个切片执行带宽资源分配的效用，Φ_s(t)表示时隙t时所有的MVNO在第s个切片执行计算资源分配的效用。约束条件(C1)表示分配的资源不能超过InP提供的总资源，其中w_s(t)表示在时隙t时第s个切片的虚拟带宽资源分配变量，f_s(t)是时隙t时第s个切片的虚拟计算资源分配变量，这两个变量范围是0到1。约束条件(C2)和(C3)分别表示QoS保证中的延迟和吞吐量要求，其中约束条件(C2)表明用户u_k，s在时隙t时的数据速率r_k,s(t)应当满足第s个切片的最小吞吐量要求

其中u_k,s表示第s个切片服务的第k个用户。约束条件(C3)表示处理用户u_k，s的在时隙t时计算任务的总时延T_k,s(t)不能超过第S个切片最大完成时间

当MVNO控制器为多个MVNO代理进行集中式决策时，本实施例的优化问题可以被视作序列决策问题(sequence decisionproblem)，可以利用强化学习算法解决。

具体地，强化学习的目标是在给定马尔可夫决策过程(Markov DecisionProcess，MDP)下找到最优的策略。在每个时隙，处于某一状态的智能体(agent)与环境交互选择一个动作并执行，接收奖励并基于状态转移概率转移至下一个状态。强化学习中智能体的行为称为策略π，是将状态映射到动作的概率分布。强化学习的最优策略可以通过最大化长期累积回报获得。基于强化学习的集中式资源分配方案的建模需要对智能体的状态，动作和奖励进行定义。在集中式方案中，MVNO控制器可以收集所有MVNO的信息并为其做决策，因此MVNO控制器是智能体。智能体状态包括所有切片的请求队列(队列为已到来未被切片处理的计算任务服务请求)，所有MVNO的剩余带宽资源和剩余计算资源。智能体动作包括所有MVNO分配给切片1到切片S的带宽资源和计算资源变量。智能体奖励定义为所有MVNO的效用，所有计算任务的切片最大完成时间与计算任务总时延的差值，所有计算任务的切片最小吞吐量要求与用户数据速率差值的加权和。

演员-评论家(Actor-Critic,AC)方法结合了基于策略的方法和基于值的方法的优点。具体来说，演员通过策略函数生成给定状态的动作。评论家产生动作值函数并使用TD-error(损失函数)评论演员生成的动作性能。然后，演员使用确定性策略梯度(Deterministic Policy Gradient，DPG)方法用评论家的输出更新策略参数。评论家通过策略梯度函数更新动作值函数。在深度Q网络(Deep Q Network,DQN)算法中，用经验回放(experience replay)训练神经网络可以打破连续样本之间的相关性。结合演员-评论家方法和DQN算法的优点，提出了深度确定性策略梯度(DDPG)算法，该算法有效地在连续动作域上运行。DDPG算法有以下新的特点：

经验回放：在时隙t时，智能体与环境交互获得数据元组(s_t，a_t，r_t，s_t+1)，元组包括在时隙t时的状态s_t，动作a_t，奖励r_t和下一状态s_t+1。智能体将数据存储在回放缓冲区(replay buffer)

中。评论家和演员随机地从回放缓冲区

中采样小批量(minibatch)Y个样本(s_i，a_i，r_i，s_i+1)用于更新值函数参数θ^Q：

和计算θ^μ参数化的策略梯度

以更新策略参数。其中α_c是评论家的学习率；i表示第i个样本，i∈{1，...，Y}；δ_i是第i个数据元组的TD-error；由θ^Q和θ^μ参数化的函数近似表示动作值函数Q(·|θ^Q)和策略函数μ(·|θ^μ)；

表示对智能体在状态s_i，动作为a_i的动作值函数Q(s_i,a_i|θ^Q)求关于θ^Q的梯度；

表示对智能体在状态s_i，动作为μ(s_i)的动作值函数

求关于a的梯度；μ(s_i)是状态为s_i时的确定性策略。

表示对状态为s_i时的确定性策略μ(s_i|θ^μ)求关于θ^μ的梯度。

目标网络(target network)：利用演员网络(用神经网络逼近演员部分的策略函数)的复制网络μ′(s|θ^μ′)和评论家网络(用神经网络逼近评论家部分的值函数)的复制网络Q′(s，a|θ^Q′)去计算目标值，设置小批量样本中第i个数据元组的TD-errorδ_i为公式(2)中所示：

δ_i＝r_i+γQ′(s_i+1，μ′(s_i+1|θ^μ′)θ^Q′)-Q(s_i，a_i|θ^Q) (2)

其中θ^μ′是演员网络的复制网络μ′的参数，θ^Q′是评论家网络的复制网络Q′的参数，两者统称为目标网络参数；γ是折扣因子，其范围是0到1。DDPG采用软目标更新(softtarget updates)更新目标网络的参数θ′←τθ+(1-τ)θ′，其中τ为软更新参数，当τ＜＜1时，可以改善训练稳定性。

基于深度确定性策略梯度的资源分配算法过程为：初始化演员网络，评论家网络，演员和评论家学习率，折扣因子和软更新参数，初始化演员和评论家的目标网络。在每次训练开始，初始化起始状态。在每次训练的每个时隙，智能体根据具有随机噪声的策略得到动作，执行无线和计算资源分配，接收奖励并转移至下一状态，采用经验回放机制，更新评论家网络参数和演员网络参数，使用软目标更新更新目标网络参数，直至训练完成。执行主体利用训练完成的基于深度确定性策略梯度的资源分配算法进行集中式的网络资源的分配，以实现各独立的运营商在整个时隙***中进行网络资源分配时的效用最优。

本申请中，每个移动虚拟网络运营商(MVNO)被视作一个独立的运营商；计算任务是由每个独立的运营商动态接收的。

具体地，步骤203还可以通过步骤2033～步骤2034来实现：

步骤2033，响应于确定采用分布式资源分配方式，每个独立的运营商获取各自的当前剩余网络资源状态和当前效用反馈。

步骤2034，在预设的服务质量要求下，基于每个独立的运营商获取的各自的当前剩余网络资源状态、当前效用反馈、预设的效用阈值和计算任务，每个独立的运营商调用多运营商深度确定性策略梯度算法，各自确定针对接收到的各用户的计算任务所对应的网络切片的资源分配方案。

本实施例中，执行主体，可以是每个独立的运营商可以判断是采用集中式资源分配方式还是采用分布式资源分配方式。当每个独立的运营商确定采用分布式资源分配方式后，各独立的运营商可以获取各独立的运营商的当前剩余网络资源状态和当前效用反馈后，并可以在预设的服务质量要求下，基于各独立的运营商接收到的用户的计算任务、当前剩余网络资源状态、当前效用反馈和预设的效用阈值，调用多智能体深度确定性策略梯度算法(Multi Agent DDPG,MADDPG)，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

考虑到单智能体强化学习算法需要MVNO运营商控制器作为智能体收集多个MVNO运营商的状态信息，再统一做出决策，这带来了大量的信令开销。在分布式资源分配方案中，每个MVNO-独立的运营商可以独立地进行决策，其中，每个MVNO-独立的运营商可以被视为多智能体深度确定性策略梯度的资源分配算法中的一个独立的智能体。因此优化问题被描述为马尔可夫博弈(Markov game)，采用多智能体强化学习算法解决。在本实施例中，执行主体可以使用基于多智能体深度确定性策略梯度(Multi Agent DDPG,MADDPG)算法来求解多运营商联合网络切片中效用最优的资源分配问题。

多智能体强化学习是一种分布式学习模式。马尔可夫博弈具有多个智能体与多个状态。基于分布式多智能体强化学习的资源分配方案的建模需要对智能体的状态，动作和奖励进行定义，其中每个MVNO是一个智能体。智能体状态包括所有切片的请求队列(队列为已到来未被切片处理的计算任务服务请求)、MVNO的剩余带宽资源和剩余计算资源。智能体动作包括MVNO分配给切片1到切片S的带宽资源和计算资源变量。智能体奖励定义为MVNO的效用，所有计算任务的切片最大完成时间与计算任务总时延的差值，所有计算任务的切片最小吞吐量要求与用户数据速率差值的加权和。

MADDPG算法是对DDPG算法适应于多智能体环境的改进，采用集中式训练和分布式执行的框架。MADDPG提出了一个简单的对演员-评论家方法的扩展。训练时采用集中式学习训练评论家与演员，测试时演员只使用局部信息就能运行。MADDPG改进了经验回放记录的数据。为了能够适用于动态环境，每一条经验回放信息由(x，x′，a₁，…a_M，r₁，…，r_M)组成，x＝(o₁，…，o_M)表示M个智能体的观测，x′＝(o₁′，…，o_M′)表示M个智能体的下一步观测。a＝(a₁，…a_M)表示M个智能体智能体的动作，r＝(r₁，…，r_M)表示M个智能体的奖励。

考虑具有M个智能体的博弈，用θ＝[θ₁，…，θ_M]表示M个智能体策略的参数，μ＝[μ₁，…，μ_M]表示M个智能体的策略(与DDPG不同，演员和评论家共用一个网络，用参数i表示)。a_i(i＝1，...，M)表示第i个智能体的动作，o_i(i＝1，...，M)表示第i个智能体的观测，第i个智能体的参数为θ_i的策略μ_i目标函数J(μ_i)的梯度为公式(3)所示：

其中

为期望值；回放缓冲区(replay buffer)D存储了经验回放信息；

表示对在智能体在观测o_i，动作a_i下的策略μ_i(a_i|o_i)求关于θ_i的梯度；

表示对第i个智能体的集中式动作值函数

求关于a_i的梯度，集中式动作值函数输入包括所有智能体的动作和观测信息，输出第i个智能体的Q值；μ_i(o_i)表示观测为o_i时的策略。第i个集中式动作值函数更新时使用的损失函数

如下公式(4)所示，其中，关于y的确定如公式(5)所示：

其中r_i(i＝1，...，M)是第i个智能体的奖励；

是具有延迟参数θ′_i(i＝1，...，M)的目标策略；

是在下一观测x′，动作为由具有延迟参数μ′的目标策略确定的动作a′₁,…,a′_M时的集中式动作值函数；a′_j＝μ′_j(o_j)表示第j个动作由第j个观测o_j下的目标策略μ′_j(o_j)确定，(j＝1,...,M)。

其中，集中式动作值函数用到了其他智能体的策略，这需要不断的通信来获取，但是也可以直接通过对其他智能体的策略进行估计。此外，还可以对每个智能体学习多个策略，改进时利用所有策略的整体效果进行优化。以提高算法的稳定性以及鲁棒性。

基于多智能体深度确定性策略梯度的资源分配算法过程为：初始化所有智能体的演员网络和评论家网络，演员和评论家的目标网络；演员学习率，评论家学习率，折扣因子和软更新参数。在每次训练开始，初始化起始状态。在每次训练的每个时隙，每个智能体根据具有随机噪声的策略得到动作，然后所有智能体一起执行无线和计算资源分配，接收奖励并转移至下一状态，采用经验回放机制存储所有智能体的经验。对于每个智能体，随机在回放缓冲区中采样小批量样本更新评论家网络参数和演员网络参数，使用软目标更新更新目标网络参数，直至训练完成。

本实施例，通过利用训练完成的基于多智能体深度确定性策略梯度的资源分配算法(MADDPG)进行分布式的网络资源的分配，以实现各独立的运营商在整个时隙***中进行网络资源分配时的效用最优。

步骤204，基于资源分配方案进行网络资源的分配。

步骤204的原理与步骤104的原理相同，在此不再赘述。

具体地，步骤204还可以通过步骤2041或步骤2042来实现：

步骤2041，基于资源分配方案，运营商控制器向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

本实施例中，执行主体(每个独立的运营商)若选用集中式资源分配方式，则集中式资源分配方案的执行主体-运营商控制器可以基于资源分配方案，向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。运营商控制器作为基于深度确定性策略梯度的资源分配算法的智能体，智能体基于根据收集到的各独立的运营商接收的用户的请求队列和各独立的运营商的剩余资源状态以及运营商控制器接收到的各个独立的运营商当前效用反馈和预设的效用阈值确定的集中式资源分配方案，智能体为所有MVNO(独立的运营商)代理并作出无线和计算资源分配决策，向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源，以实现各MVNO(独立的运营商)的效用最大化。

步骤2042，基于资源分配方案，每个独立的运营商向接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

本实施例中，执行主体(每个独立的运营商)若选用分布式资源分配方式，则分布式资源分配方案的执行主体-各个独立的运营商可以基于确定的资源分配方案，向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。每个独立的运营商作为基于多智能体深度确定性策略梯度的资源分配算法的智能体，各智能体基于根据各自接收到的用户的请求队列和剩余资源状态以及接收到的当前效用反馈和预设的效用阈值确定的分布式资源分配方案，各智能体独立地作出无线和计算资源分配决策，并基于该无线和计算资源分配决策向接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源，以实现各MVNO(独立的运营商)的效用最大化。

继续参见图3，作为对上述各图所示方法的实现，本申请提供了一种用于分配多运营商联合网络切片资源的装置的一个实施例，该装置实施例与图1所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，本实施例的用于分配多运营商联合网络切片资源的装置300包括：接收单元301、资源分配方式确定单元302、资源分配方案确定单元303和网络资源分配单元304。

接收单元301，被配置成在多运营商联合网络切片环境中，每个独立的运营商动态接收用户发送的请求切片服务的计算任务。

资源分配方式确定单元302，被配置成基于计算任务，确定资源分配方式。

资源分配方案确定单元303，被配置成基于资源分配方式、计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案。

网络资源分配单元304，被配置成基于资源分配方案进行网络资源的分配。

在本实施例的一些可选的实现方式中，资源分配方式确定单元302进一步被配置成：每个独立的运营商确定多运营商联合网络切片环境下各自的数据隐私信息；利用强化学习算法，基于计算任务和各自的数据隐私信息，确定采用集中式资源分配方式或采用分布式资源分配方式。

在本实施例的一些可选的实现方式中，资源分配方案确定单元303进一步被配置成：运营商控制器响应于确定采用集中式资源分配方式，获取各运营商的当前剩余网络资源状态和当前效用反馈；在预设的服务质量要求下，基于计算任务、当前剩余网络资源状态、当前效用反馈和预设的效用阈值，调用深度确定性策略梯度算法，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

在本实施例的一些可选的实现方式中，网络资源分配单元304进一步被配置成：基于资源分配方案，向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

在本实施例的一些可选的实现方式中，每个移动虚拟网络运营商(MVNO)被视作一个独立的运营商；计算任务是由每个独立的运营商动态接收的；以及资源分配方案确定单元303进一步被配置成：响应于确定采用分布式资源分配方式，每个独立的运营商获取各自的当前剩余网络资源状态和当前效用反馈；在预设的服务质量要求下，基于每个独立的运营商获取的各自的当前剩余网络资源状态、当前效用反馈、预设的效用阈值和计算任务，每个独立的运营商调用多运营商深度确定性策略梯度算法，各自确定针对接收到的各用户的计算任务所对应的网络切片的资源分配方案；以及网络资源分配单元304进一步被配置成：基于资源分配方案，每个独立的运营商向接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

本说明书实施例中支付涉及的技术载体，例如可以包括近场通信(Near FieldCommunication，NFC)、WIFI、3G/4G/5G、POS机刷卡技术、二维码扫码技术、条形码扫码技术、蓝牙、红外、短消息(Short Message Service，SMS)、多媒体消息(Multimedia MessageService，MMS)等。

需要说明的是，本说明书一个或多个实施例的方法可以由单个设备执行，例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下，由多台设备相互配合来完成。在这种分布式场景的情况下，这多台设备中的一台设备可以只执行本说明书一个或多个实施例的方法中的某一个或多个步骤，这多台设备相互之间会进行交互以完成的方法。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书一个或多个实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。

上述实施例的装置用于实现前述实施例中相应的方法，并且具有相应的方法实施例的有益效果，在此不再赘述。

图4示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

另外，为简化说明和讨论，并且为了不会使本说明书一个或多个实施例难以理解，在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外，可以以框图的形式示出装置，以便避免使本说明书一个或多个实施例难以理解，并且这也考虑了以下事实，即关于这些框图装置的实施方式的细节是高度取决于将要实施本说明书一个或多个实施例的平台的(即，这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如，电路)以描述本公开的示例性实施例的情况下，对本领域技术人员来说显而易见的是，可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本说明书一个或多个实施例。因此，这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本公开的具体实施例对本公开进行了描述，但是根据前面的描述，这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如，其它存储器架构(例如，动态RAM(DRAM))可以使用所讨论的实施例。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种用于分配多运营商联合网络切片资源的方法，其特征在于，包括：

基于所述计算任务，确定资源分配方式；

基于所述资源分配方式、所述计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案；

基于所述资源分配方案进行网络资源的分配。

2.根据权利要求1所述的方法，其特征在于，所述基于所述计算任务，确定资源分配方式，包括：

利用强化学习算法，基于所述计算任务和所述各自的数据隐私信息，确定采用集中式资源分配方式或采用分布式资源分配方式。

3.根据权利要求2所述的方法，其特征在于，所述基于所述资源分配方式、所述计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案，包括：

在预设的服务质量要求下，基于所述计算任务、所述当前剩余网络资源状态、所述当前效用反馈和预设的效用阈值，调用深度确定性策略梯度算法，确定针对各运营商接收到的各用户的计算任务所对应的网络切片的资源分配方案。

4.根据权利要求3所述的方法，其特征在于，所述基于所述资源分配方案进行网络资源的分配，包括：

基于所述资源分配方案，运营商控制器向各运营商接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

5.根据权利要求3所述的方法，其特征在于，每个移动虚拟网络运营商(MVNO)被视作一个独立的运营商；所述计算任务是由每个独立的运营商动态接收的；以及

所述基于所述资源分配方式、所述计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案，还包括：

在预设的服务质量要求下，基于每个独立的运营商获取的各自的所述当前剩余网络资源状态、所述当前效用反馈、预设的效用阈值和所述计算任务，每个独立的运营商调用多运营商深度确定性策略梯度算法，各自确定针对接收到的各用户的计算任务所对应的网络切片的资源分配方案；以及

所述基于所述资源分配方案进行网络资源的分配，还包括：

基于所述资源分配方案，每个独立的运营商向接收到的各用户的计算任务所对应的网络切片动态分配对应的带宽资源和计算资源。

6.一种用于分配多运营商联合网络切片资源的装置，其特征在于，包括：

资源分配方式确定单元，被配置成基于所述计算任务，确定资源分配方式；

资源分配方案确定单元，被配置成基于所述资源分配方式、所述计算任务、预设的服务质量要求和预设的效用阈值，确定资源分配方案；

网络资源分配单元，被配置成基于所述资源分配方案进行网络资源的分配。

7.根据权利要求6所述的装置，其特征在于，所述资源分配方式确定单元进一步被配置成：

8.根据权利要求7所述的装置，其特征在于，所述资源分配方案确定单元进一步被配置成：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任意一项所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令用于使所述计算机执行权利要求1至5任意一项所述的方法。