CN113098714A

CN113098714A - 一种基于深度强化学习的低时延网络切片的方法

Info

Publication number: CN113098714A
Application number: CN202110334767.8A
Authority: CN
Inventors: 朱洪波; 高健; 朱晓荣
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-09
Anticipated expiration: 2041-03-29
Also published as: CN113098714B

Abstract

本发明提出了一种基于深度强化学习的低时延网络切片的方法，通过对网络切片中低时延业务的时延约束条件以及服务功能和链路的映射条件构建了资源分配和路由的最优化问题；在进行求解的过程中，提出建立了该场景下的马尔可夫模型,利用强化学习中的DDQN来求解在低时延网络切片中的路由和资源分配的问题，在针对当前网络状态下所采取的动作则定义为每一条服务功能链下一跳的虚拟功能的部署，采取的动作集为前一跳节点的相邻的节点集合，奖励值则设置为与成功部署的服务功能链条数相关的函数。本发明在资源分配和和提升整个***的成功部署服务的服务功能链数量以及整个***资源的利用率等方面具有优越性。

Description

一种基于深度强化学习的低时延网络切片的方法

技术领域

本发明设计了一种基于强化学习的低时延网络切片方法，应用于核心网的低时延的服务功能链的部署，属于信息通信技术领域。

背景技术

在5G时代，通信基础架构正在从专用的网络基础设施转移到每一个应用程序中，这样各种各样的应用和服务可以共享同一张网络。特别地，网络切片技术已经成为5G***进行部署的关键技术，因为它允许运营商灵活地组织网络资源，为用户或者是第三方提供多样性的服务。这一技术特点将会给运营商节省建设成本和运营成本。由于这些原因，提出了具有基于不同网段的切片方案：核心网切片，无线接入网切片，传输网切片。

网络切片的概念是构建多个虚拟的逻辑网络，以便在同一物理网络上提供服务。网络切片技术可以保证服务的差异化以及可以满足服务水平协议。在网络切片实现的过程中，要将对应的虚拟的逻辑网络中的虚拟网络功能放置到相应的通用硬件中，实现真正的物理功能。

在3GPP关于5G的应用场景中定义了三大场景，分别是增强型移动宽带(eMBB)，超可靠和低延迟通信(uRLLC)和大规模机器类型通信(mMTC)，要想在一张网络中能够满足上述不同的场景，网络切片技术将作为主要的实现手段，如何高效的将需求部署到底层的设备中，为客户提供优质的服务将会是网络切片实现方案中的主要的难点。本发明，将对低时延业务场景下的传输网切片的路由和资源分配的问题进行深入的研究。我们将提出一种基于深度强化学习的新方法，用于在低时延切片场景下的动态路由和资源分配的方法。

发明内容

发明目的：本发明的目的是为核心网的低时延网络切片提供基于强化学习的路由和资源分配的算法，有效地解决了在核心网中的资源分配和路由的问题。

技术方案：

一种基于强化学习的低时延网络切片方法，包括以下步骤：

步骤1：首先构建物理网络和服务功能链的数学模型，针对低时延的网络切片的约束条件，对物理网络中的每一条服务功能链进行建模，形成低时延网络切片的数学模型；

步骤2：对当前物理网络场景下的服务功能链进行马尔可夫模型构建，定义当前场景下的状态，动作，奖励值等内容；

步骤3：提出基于强化学习的低时延网络切片的路由和资源分配的算法。

进一步地，步骤1低时延网络切片的数学模型建模如下：

把底层的物理网络结构建模为有向图G＝{N,E}，其中N表示的是底层物理节点集合，底层的网络节点集合通过N＝{n₁,n₂,...,n_|N|}进行表示，n_x表示的是物理节点集合中的第x个物理节点 (x∈{1,2,...,|N|})。在底层的物理节点n_x上都拥有计算、存储等资源分别为

E表示的是连接任意两个物理节点之间的链路集合，链路(n_x,n_y)∈E的链路带宽资源大小为

对网络中的服务功能链进行建模表示，在网络中假设[0,T]时间内会产生K条低时延的服务功能链，分别可以表示为S₁,S₂,…,S_K,那么每条服务功能链由|S_i|(i∈{1,2,...,K})个VNF构成，每条服务功能链所需的带宽资源大小为

服务功能链S_i的VNF集合可以表示为

其中S_ij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为

每条低时延业务的时延约束条件为T_i。

(1)服务功能链中VNF的映射表达式

定义二进制变量

表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点 n_x上面。

表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。

(2)物理节点和链路的资源限制

映射节点的资源限制：

表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量，表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。

映射链路的带宽资源的限制：

表达式(4)表示的是物理网络中链路n_xn_y的带宽限制，其中

表示的是功能服务链S_i是否使用链路n_xn_y来做为链路映射的二元变量。

(3)单链路的流量守恒

表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流，并确保每个物理节点的流量平衡。

(4)低时延服务功能链时延约束

表达式(6)的含义是一条功能服务链中按序编排的节点在处理时间上要按照先后顺序执行部署，

表示的是第i条服务功能链的第j个VNF开始执行的时间。

表示的是第i条服务功能链的第j个 VNF开始执行的时间，

则表示的是物理节点n_x处理VNFS_ij所需要的时间。

表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中

表示的是服务功能链i的第|S_i|个VNF开始执行路由和资源分配的时间，

表示的是物理节点n_x处理第|S_i|个VNF的处理时间，

表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。

(5)最优化目标

最优化的目标为最大化所有的映射成功的节点的资源使用数量，来最大化进行映射成功的服务功能链的数量。

进一步地，步骤2中服务功能链的马尔可夫模型构建如下：：

(1)状态空间

状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述，定义为S(t)＝{C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量，

M(t)表示的是节点剩余的存储资源的向量其表达式为

B(t)则表示的是节点之间链路剩余带宽的向量表达式为

如果两个节点之间没有连接的链路则

始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量

表示的是在时刻t在物理节点n_x上映射的虚拟网络功能的向量其表达式为

定义

为服务功能链S_i，t时刻在节点n_x的映射情况的向量

表示在t时刻虚拟网络功能S_ij是否映射在节点n_x上。则有

且

定义整个网络中K条服务功能链状态的一维矩阵

其中

如果

表示服务功能链S_i正在正常的映射运行，

表示服务功能链S_i在下一个时刻即将进行映射服务，若

表示服务功能链S_i还要继续进行等待进行服务，若

则表示服务功能链S_i由于某种原因没有进行映射成功，

则表示该服务功能链进行了成功的路由和资源映射。

(2)动作空间

在进行下一个动作的节点映射选择时，可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合，定义物理网络中节点的n_x的相邻的节点的集合为n_x ^NEI可以表示为

映射在节点n_x中的所有的VNF的下一跳的选择只能是n_x ^NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间，

其中

表示的是在节点n_x上所映射的VNF的下一跳动作的集合。

定义在t时刻在节点n_x上的VNF的动作集合为

其表达式定义为

其中

表示VNFS_ij在 t时刻映射到节点n_x上，下一跳的节点选择则会在n_x的相邻的节点集合中按照策略进行选择映射，

则表示的示选择下一跳的结果，如果选择n_x ^NEI中的第m个相邻节点则

否则为0。因此有

其中

的表达式为

(3)奖励值的设置

假设在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链，假设服务功能链S_i完成部署成功所获得的奖励值为

奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链S_i在下一时刻全部映射成功完成，则获得

的奖励值，如果是正在等待进行映射在下一时刻映射成功，获取

的奖励值，如果在映射过程中出现服务功能链映射失败，获得的奖励值为

其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中R_c表示表示全部映射完成的奖励值，R_w表示等待进行映射的服务功能链映射成功的奖励值，R_f则表示映射失败的奖励值，下面给出了其对应的计算表达式。

R(S(t),A(t),S(t+1))＝R_c+R_w-R_f (9)

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0。

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0。

其中

如果满足服务功能链状态

或者

并且

时值为1，否则为0。

(4)强化学习求解大状态空间问题

我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题，主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。

在时间戳t时刻获得的奖励值可以表示为R_t＝R(S(t),A(t),S(t+1))，从当前时间戳开始到结束所获得的累计折扣奖励值表示为：

在表达式(10)中γ∈[0,1)是折扣因子。

定义深度强化学***均期望回报奖励，因此定义值函数Q^π(s,a)＝E_π(G_t|S(t)＝s,A(t)＝a)。通过相应的策略的调整来最大化值函数，获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略，以1-ε的概率选择最优的策略，以ε的概率进行动作的随机探索，这样可以进行整个状态空间的探索。其表达式如下：

深度强化学习是采用深度的Q值网络来作为对值函数的逼近，深度强化学习利用深度神经网络来近似参数化的值函数Q^π(s,a；θ)。它将当前的状态作为整个网络的输入，输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示：

在神经网络进行训练的过程中采用经验池的机制，将(S(t),A(t),S(t+1),R_t)的四元组作为一个训练样本存放到经验池中，用于对神经网络的训练。这样可以更有效地利用以前的经验。此外，使用经验池的机制，使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。

由于在进行Q值网络的训练过程中Q值的更新容易发生震荡，呈现出不稳定的学习行为，因此使用了带有target网络的深度强化学习，可以提升算法的稳定性。

进一步地，步骤3中的基于强化学习的低时延网络切片算法如下：

(1)初始化经验池大小为D。

(2)初始化Q值神经网络的权值为随机值θ。

(3)目标值网络神经网络的权值为θ^{^}。

(4)随机生成网络功能服务链加入到物理网络进行映射。

(5)通过ε策略选择动作，以ε的概率选择随机动作A(t)，其他情况选择

(6)执行动作A(t)获取奖励值R_t状态转换为下一个状态S(t+1)。

(7)将样本(S(t),A(t),S(t+1),R_t)存入到经验池。

(8)从经验池中随机选取样本进行训练。

(9)通过

来计算梯度对Q值神经网络进行训练，更新参数θ。

(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。

(11)重复步骤(4)到步骤(10)进行训练。

有益效果：本发明具有以下优点：

①根据低时延的网络切片的约束条件，对物理网络中的每一条服务功能链进行建模，提出了低时延网络切片的数学模型，根据模型解决了核心网进行低时延服务功能链映射资源和路由优化的问题。

②提出了当前物理网络场景下的服务功能链进行马尔可夫模型，定义当前场景下的状态，动作，奖励值等内容；

③根据提出的低时延网络切片的数学模型以及马尔可夫模型，提出基于深度强化学习的低时延网络切片的路由和资源分配的优化模型。

附图说明

图1是本发明中低时网络切片映射图。

图2是本发明中基于深度强化学习的低时延网络切片算法架构图

图3是本发明中基于深度强化学习的低时延网络切片架构流程图。

具体实施方式

本发明的目的是为核心网低时延网络切片提供基于深度强化学习的路由和资源分配的算法，有效地解决了在核心网低时延网络切片中的资源分配和路由的问题。在该模型中对核心网中的低时延网络切片进行建模，对动态的低时延业务的性能约束进行建模最优化模型，在建模完成后对该模型构建出相应的马尔可夫模型，最后通过基于深度强化学习的方法来求解低时延网络切片的资源分配和路由问题。

1、低时延网络切片映射模型以及服务功能链模型

服务功能链S_i的VNF集合可以表示为

每条低时延业务的时延约束条件为T_i。

(1)服务功能链中VNF的映射表达式

定义二进制变量

表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点n_x上面。

(2)物理节点和链路的资源限制

映射节点的资源限制：

映射链路的带宽资源的限制：

表达式(4)表示的是物理网络中链路n_xn_y的带宽限制，其中

表示的是功能服务链S_i是否使用链路n_xn_y来做为链路映射。

(3)单链路的流量守恒

(4)低时延服务功能链时延约束

表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署，

表示的是第i条服务功能链的第j个VNF开始执行的时间。

表示的是第i条服务功能链的第j个VNF 开始执行的时间，

则表示的是物理节点n_x处理VNFS_ij所需要的时间。

表示的是物理节点n_x处理第|S_i|个VNF的处理时间，

表示的是服务功能链i的第1个 VNF开始执行路由和资源分配的时间。

(5)最优化目标

2、低时延服务功能链的最优化模型

低时延网络切片的路由和资源分配的最优化模型如下所示：

s.t.

3、低时延服务功能链的马尔可夫模型模型

(1)状态空间

M(t)表示的是节点剩余的存储资源的向量其表达式为

B(t)则表示的是节点之间链路剩余带宽的向量表达式为

如果两个节点之间没有连接的链路则

定义

为服务功能链S_i，t时刻在节点n_x的映射情况的向量

表示在t时刻虚拟网络功能S_ij是否映射在节点n_x上。则有

且

定义整个网络中K条服务功能链状态的一维矩阵

其中

如果

表示服务功能链S_i正在正常的映射运行，

表示服务功能链S_i在下一个时刻即将进行映射服务，若

表示服务功能链S_i还要继续进行等待进行服务，若

则表示服务功能链S_i由于某种原因没有进行映射成功，

则表示该服务功能链进行了成功的路由和资源映射。

(2)动作空间

其中

表示的是在节点n_x上所映射的VNF的下一跳动作的集合。

定义在t时刻在节点n_x上的VNF的动作集合为

其表达式定义为

其中

否则为0。因此有

的表达式为

(3)奖励值的设置

在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链，假设服务功能链S_i完成部署成功所获得的奖励值为

R(S(t),A(t),S(t+1))＝R_c+R_w-R_f (18)

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0。

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0。

其中

如果满足服务功能链状态

或者

并且

时值为1，否则为0。

(4)强化学习求解大状态空间问题

在表达式(10)中γ∈[0,1)是折扣因子。

步骤3中的基于强化学习的低时延网络切片算法如下：

(1)初始化经验池大小为D。

(2)初始化Q值神经网络的权值为随机值θ。

(3)目标值网络神经网络的权值为θ^{^}。

(4)随机生成网络功能服务链加入到物理网络进行映射。

(6)执行动作A(t)获取奖励值R_t状态转换为下一个状态S(t+1)。

(7)将样本(S(t),A(t),S(t+1),R_t)存入到经验池。

(8)从经验池中随机选取样本进行训练。

(9)通过

来计算梯度对Q值神经网络进行训练，更新参数θ。

(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。

(11)重复步骤(4)到步骤(10)进行训练。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述步骤1中，低时延网络切片的数学模型建模过程如下：

把底层的物理网络结构建模为有向图G＝{N,E}，其中N表示的是底层物理节点集合，底层的网络节点集合通过N＝{n₁,n₂,...,n_|N|}进行表示，n_x表示的是物理节点集合中的第x个物理节点(x∈{1,2,...,|N|})，在底层的物理节点n_x上都拥有计算、存储等资源分别为

服务功能链S_i的VNF集合可以表示为

其中S_ij表示的是第i条服务功能链的第j个VNF的实例，每个VNF所需要的计算、存储资源分别为

每条低时延业务的时延约束条件为T_i。

3.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述服务功能链中VNF的映射表达式为：

定义二进制变量

表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点n_x上面；

4.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述物理节点和链路的资源限制如下所示：

映射节点的资源限制：

表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量，表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量；

映射链路的带宽资源的限制：

表达式(4)表示的是物理网络中链路n_xn_y的带宽限制，其中

表示的是功能服务链S_i是否使用链路n_xn_y来做为链路映射。

5.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述单链路的流量守恒表达式为

6.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述低时延服务功能链时延约束的表达式为

表示的是第i条服务功能链的第j个VNF开始执行的时间。

表示的是第i条服务功能链的第j个VNF开始执行的时间，

则表示的是物理节点n_x处理VNFS_ij所需要的时间；

表示的是物理节点n_x处理第|S_i|个VNF的处理时间，

7.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述最优化目标的表达式为

8.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述步骤2中，服务功能链的马尔可夫模型构建如下：

(1)状态空间

状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述，定义为S(t)＝{C(t),M(t),B(t),V(t),e(t)}；其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量，

M(t)表示的是节点剩余的存储资源的向量，其表达式为

B(t)则表示的是节点之间链路剩余带宽的向量，其表达式为

如果两个节点之间没有连接的链路则

始终保持为0；V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量

表示的是在时刻t在物理节点n_x上映射的虚拟网络功能的向量，其表达式为

定义

为服务功能链S_i，t时刻在节点n_x的映射情况的向量

表示在t时刻虚拟网络功能S_ij是否映射在节点n_x上，则有

且

定义整个网络中K条服务功能链状态的一维矩阵

其中

如果

表示服务功能链S_i正在正常的映射运行，

表示服务功能链S_i在下一个时刻即将进行映射服务，若

表示服务功能链S_i还要继续进行等待进行服务，若

则表示服务功能链S_i由于某种原因没有进行映射成功，

则表示该服务功能链进行了成功的路由和资源映射；

(2)动作空间

在进行下一个动作的节点映射选择时，进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合，定义物理网络中节点的n_x的相邻的节点的集合为n_x ^NEI可以表示为

映射在节点n_x中的所有的VNF的下一跳的选择只能是n_x ^NEI中的节点进行选择；动作空间是由所有节点当前所映射的VNF共同决定和构成的，定义A(t)为t时刻的动作空间，

其中

表示的是在节点n_x上所映射的VNF的下一跳动作的集合；

定义在t时刻在节点n_x上的VNF的动作集合为

其表达式定义为

其中

表示VNFS_ij在t时刻映射到节点n_x上，下一跳的节点选择则会在n_x的相邻的节点集合中按照策略进行选择映射，

否则为0，因此有

的表达式为

(3)奖励值的设置

奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的，如果服务功能链S_i在下一时刻全部映射成功完成，则获得

其他情况下的奖励值为0；在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下，其中R_c表示表示全部映射完成的奖励值，R_w表示等待进行映射的服务功能链映射成功的奖励值，R_f则表示映射失败的奖励值，下面给出了其对应的计算表达式：

R(S(t),A(t),S(t+1))＝R_c+R_w-R_f (9)

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0；

其中

表示如果满足服务功能链状态

并且

时值为1，否则为0；

其中

如果满足服务功能链状态

或者

并且

时值为1，否则为0；

(4)强化学习求解大状态空间问题

使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题，主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现；

在表达式(10)中γ∈[0,1)是折扣因子；

定义深度强化学***均期望回报奖励，因此定义值函数Q^π(s,a)＝E_π(G_t|S(t)＝s,A(t)＝a)，通过相应的策略的调整来最大化值函数，获取在低时延网络切片业务场景下最优的路由和资源分配的策略，在进行动作的选择过程中是采用的ε策略，以1-ε的概率选择最优的策略，以ε的概率进行动作的随机探索，这样可以进行整个状态空间的探索，其表达式如下：

深度强化学习是采用深度的Q值网络来作为对值函数的逼近，深度强化学习利用深度神经网络来近似参数化的值函数Q^π(s,a；θ)，它将当前的状态作为整个网络的输入，输出当前状态下每个动作下的状态动作值函数，在进行神经网络的训练过程中对Q值的迭代公式如下所示：

在神经网络进行训练的过程中采用经验池的机制，将(S(t),A(t),S(t+1),R_t)的四元组作为一个训练样本存放到经验池中，用于对神经网络的训练，以更有效地利用以前的经验；此外，使用经验池的机制，使得数据更像是独立且分布均匀的数据，以降低数据之间的相关性。

9.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法，其特征在于：所述步骤3中，基于强化学习的低时延网络切片算法如下

(1)初始化经验池大小为D；

(2)初始化Q值神经网络的权值为随机值θ；

(3)目标值网络神经网络的权值为θ^{^}；

(4)随机生成网络功能服务链加入到物理网络进行映射；

(6)执行动作A(t)获取奖励值R_t状态转换为下一个状态S(t+1)；

(7)将样本(S(t),A(t),S(t+1),R_t)存入到经验池；

(8)从经验池中随机选取样本进行训练；

(9)通过

来计算梯度对Q值神经网络进行训练，更新参数θ；

(10)每隔C步使用Q值网络的参数来更新目标值网络的参数；

(11)重复步骤(4)到步骤(10)进行训练。