CN110365568A

CN110365568A - 一种基于深度强化学习的虚拟网络映射方法

Info

Publication number: CN110365568A
Application number: CN201910527463.6A
Authority: CN
Inventors: 曲桦; 赵季红; 李明霞; 石亚娟; 王娇; 边江
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-10-22

Abstract

一种基于深度强化学***均收益。

Description

一种基于深度强化学习的虚拟网络映射方法

技术领域

本发明涉及软件定义网络中虚拟网络的映射问题，特别涉及一种基于深度强化学习的虚拟网络映射方法。

背景技术

随着云计算、移动互联网等技术的快速发展，多租户网络的需求越来越多和灵活，传统的以IP为核心的基础框架存在着扩展能力差和核心功能单一等问题，不能满足多租户网络的业务需求。

网络虚拟化技术是解决上述问题的有效方法，它能融合现有的通信和计算资源虚拟化技术，采用分层的技术手段解决此问题，是未来互联网应具备的关键特性之一。网络虚拟化技术使用解耦合和复用的方法使底层网络的物理资源被多个虚拟网络共享，为共享的异构上层网络提供差异化服务。可自组织、重构的上层虚拟网络能够动态的映射到底层物理网络之上，实现快速的异构网络部署。

但是在现有环境下实现网络虚拟化存在很大的局限性，于是一种新兴的网络体系架构—SDN应运而生。它将控制与转发分离，并且实现了可编程的集中控制，支持网络虚拟化，二者相辅相成，是两种具有高度相关性的技术的有效结合，可以很好的满足未来网络对组网的灵活性，网络的集中管理等需求。

虚拟网络映射或者虚拟网络嵌入是实现网络虚拟化的一项重要挑战，它能够实现将底层网络资源分配给虚拟网络，即在节点上分配CPU资源，在链路上分配带宽资源。VNE是一个NP难问题，即使所有的虚拟节点已被映射后，映射带有带宽资源约束的虚拟链路仍然是NP难的。面向软件定义网络的虚拟网络映射是对底层网络设备的虚拟化，使其可以支持更多的可扩展应用，同一个物理基础设施可以运行多样的虚拟网络。

由于传统的深度强化学习无法解决Q学习算法的固有缺点-过优估计，过优估计指的是估计的值函数比真实的值函数偏大，如果过优估计在所有状态都是均匀的，那么根据贪心策略，依然能够找到值函数的最大动作，但是往往过优估计在各个状态不是均匀的，因此过优估计会影响到策略决策，从而导致获取的不是最优策略。

发明内容

本发明的目的在于针对软件定义网络中虚拟网络映射问题，提出一种基于深度强化学习的虚拟网络映射方法。

为了达到上述目的，本发明采用了以下技术方案：

一种基于深度强化学习的虚拟网络映射方法，包括以下步骤：

步骤1，将虚拟网络映射中节点映射问题建模为马尔可夫决策过程；

步骤2，在马尔可夫决策过程基础上，利用DDQN算法进行虚拟节点的映射；

步骤3，利用最短路径算法进行虚拟网络链路映射：

步骤4，更新物理网络资源，包括CPU资源和链路带宽资源。

本发明进一步的改进在于，步骤1的具体过程如下：

2.1定义状态集合S_t

假设在给定状态S_t中，代理选择一个物理节点映射到虚拟节点然后进入下一个状态S_t+1，其中是能够承载虚拟节点n^v的所有物理节点的集合，是所有未被映射的虚拟节点的集合；t时刻状态集合被定义为：

其中是承载先前虚拟节点的物理节点，在初始状态，没有节点被映射，故

2.2定义动作集合A_t

代理选择节点的动作A_t按如下方式定义：

其中ε表示能够到达终端状态的任意动作；当代理选择当前虚拟节点的物理节点时，它转换到下一个状态S_t+1；

2.3定义状态转移概率矩阵P_r

当处于状态S_t时，代理选择节点的动作A_t转换到下一个状态S_t+1的状态转移可能性被定义为：

2.4定义回报函数R

其中，j表示第j个样本，γ为衰减因子，Q为当前Q网络，Q′为目标Q网络，a′为在当前Q网络中最大Q值对应的动作。

本发明进一步的改进在于，步骤2的具体过程如下：

3.1随机初始化所有状态和动作对应的价值Q，随机初始化当前Q网络的所有参数θ，初始化目标Q网络的参数θ′＝θ，清空经验回放集合D；

3.2初始化状态集合S为当前状态的第一个状态，得到状态集合S的特征向量，并用表示；

3.3在当前Q网络中使用状态集合S的特征向量作为输入，得到当前Q网络的所有动作对应的Q值输出，在当前Q值输出中选择对应的动作A；

3.4在状态S执行当前动作A，得到新状态S′、特征向量奖励R以及终止状态标志is_end；

3.5将这五元组存入经验回放集合D；

3.6令初始状态S＝S′；

3.7从经验回放集合D中采集m个样本计算当前价值Q值y_j：

3.8使用均方差损失函数更新当前Q网络的所有参数θ；

3.9重复步骤3.1-步骤3.8多次，如果重复次数达到目标网络的更新频率C，则更新目标网络参数θ′＝θ；如果重复次数没有达到目标网络的更新频率C，则继续重复步骤3.1-步骤3.8；

3.10判断终止状态标志is_end是否为终止状态；如果终止状态标志is_end是终止状态，则进行步骤4，否则转到步骤3.2。

本发明进一步的改进在于，步骤3.3中，使用ε-贪婪法在当前Q值输出中选择对应的动作A。

本发明进一步的改进在于，步骤3.8中，通过神经网络的梯度反向传播更新当前Q网络的所有参数θ。

本发明进一步的改进在于，步骤3的具体过程如下：

4.1对于虚拟链路l_uw，首先排除ReqBWL(l_uw)＞BWL(l_mn)的物理链路；其中，ReqBWL(l_uw)为虚拟链路l_uw请求的带宽，BWL(l_mn)为物理链路l_mmn的剩余可用带宽；

4.2初始化计数变量count＝0；

4.3对于连接两个终端节点u^v，w^v的虚拟链路l_uw，首先找到虚拟链路l_uw终端映射的物理节点m^s，n^s，然后寻找m^s，n^s间的最短路径p^s；

4.4若m^s，n^s间的最短路径p^s存在，则技术变量count++，继续执行步骤4.1-步骤4.3，直到技术变量count等于虚拟链路总数时执行步骤5，否则输出虚拟网络映射失败。

本发明进一步的改进在于，步骤4.3中，使用Floyd算法寻找m^s，n^s间的最短路径p^s。

与现有技术相比，本发明具有的有益效果：本发明通过马尔可夫决策过程(MDP模型)获取当前的VNE环境，在每次映射开始时，第一个映射的节点被随机传送到某个物理节点，然后基于DDQN算法获得奖励值R，更新网络参数，然后移动到下一个状态S_t+1。本发明中使用的DDQN算法，它是一种将Double Q-learning引入到DQN，即将action的选择和评估解耦开的算法。DDQN中存在两个结构完全相同但是参数却不同的网络，用当前Q网络中Q值选择对应的action，在目标Q网络中评估这个action中的Q值。目标Q网络中网络参数不需要迭代更新，而是每隔一段时间从当前Q网络中复制过来，实现延时更新，这样可以减少两个网络的相关性。因为DDQN算法的核心思想是将目标动作的选择和目标动作的评估分别使用不同的值函数来实现，所以可以有效地解决过优估计问题。通过这种自适应学***均收益。

附图说明

图1为本发明中所用DDQN算法的流程图。

具体实施方式

下面结合附图1和具体实施方式对本发明进行详细的描述。

本发明提出的一种SDN场景下基于深度强化学习的虚拟网络映射方法，具体包括以下步骤：

步骤1，获取底层物理网络和虚拟网络的相关信息：

衬底网络拓扑使用无向图表示：其中N^s表示底层网络中的节点集合；L^S表示衬底网络中链路的集合；表示衬底节点的属性集合，即CPU资源等等；表示衬底链路的属性集合，包含带宽资源、时延信息等。衬底网络中所有非闭合环路路径记作P^s，衬底节点的剩余容量记为R_N(n^s)，衬底链路的剩余容量记为R_L(l^s)。

虚拟网络同样使用加权无向图表示：其中N^v表示虚拟节点的集合，L^v表示虚拟链路的集合，表示的CPU资源请求，表示的链路带宽资源请求。

VNE问题可描述为：M(G^v)：其中N′∈N^s，P^s∈P′，R_N，R_L分别表示分配给虚拟网络请求的节点资源和链路资源。

步骤2，将虚拟网络映射中节点映射问题建模为马尔可夫决策过程：

2.1定义状态集合S_t

假设在给定状态S_t中，代理选择一个物理节点映射到虚拟节点然后进入下一个状态S_t+1，其中是可以承载虚拟节点n^v的所有物理节点的集合，是所有未被映射的虚拟节点的集合。t时刻状态集合被定义为：

2.2定义动作集合A_t

代理选择节点的动作A_t按如下方式定义：

其中ε表示可以到达终端状态的任意动作。当代理选择当前虚拟节点的物理节点时，它转换到下一个状态S_t+1。

2.3定义状态转移概率矩阵P_r

2.4定义回报函数R

步骤3，利用DDQN算法进行虚拟节点的映射；参见图1，具体如下：

3.1随机初始化所有状态和动作对应的价值Q，随机初始化当前Q网络(MainNet)的所有参数θ，初始化目标Q网络(TargetNet)的参数θ′＝θ，清空经验回放集合D。

3.2初始化状态集合S为当前状态的第一个状态，得到状态集合S的特征向量，并用表示。

3.3在MainNet中使用状态集合S的特征向量作为输入，得到MainNet的所有动作对应的Q值输出，使用ε-贪婪法在当前Q值输出中选择对应的动作A。

3.4在状态S执行当前动作A，得到新状态S′，特征向量和奖励R，以及终止状态标志is_end；

3.5将这五元组存入经验回放集合D。

3.6令初始状态S＝S′；

3.7从经验回放集合D中采集m个样本计算当前价值Q值y_j：

3.8使用均方差损失函数通过神经网络的梯度反向传播来更新当前Q网络的所有参数θ。

3.9重复步骤3.1-步骤3.8多次，如果重复次数达到目标网络的更新频率C，则更新目标网络参数θ′＝θ。如果重复次数没有达到目标网络的更新频率C，则继续重复步骤3.1-步骤3.8。

步骤4，利用最短路径算法进行虚拟网络链路映射：

4.1对于虚拟链路l_uw，首先排除ReqBWL(l_uw)＞BWL(l_mn)的物理链路；其中，ReqBWL(l_uw)为虚拟链路l_uw请求的带宽，BWL(l_mn)为物理链路l_mn的剩余可用带宽；

4.2初始化计数变量count＝0；

4.3对于连接两个终端节点u^v，w^v的虚拟链路l_uw，首先找到虚拟链路l_uw终端映射的物理节点m^s，n^s，然后使用Floyd算法寻找m^s，n^s间的最短路径p^s。

4.4若m^s，n^s间的最短路径p^s存在，则count++，继续执行步骤4.1-步骤4.3，直到count等于虚拟链路总数时执行步骤5，否则输出虚拟网络映射失败。

步骤5，更新物理网络资源，包括CPU资源和链路带宽资源。

本发明通过马尔可夫决策过程(MDP模型)获取当前的VNE环境，例如物理网络的资源情况、链路连接状态以及虚拟网络的请求量。在每次映射开始时，第一个映射的节点被随机传送到某个物理节点，然后基于DDQN算法获得奖励值R，更新网络参数，然后移动到下一个状态S_t+1。

本发明中使用的DDQN算法，它是一种将Double Q-learning引入到DQN，即将action的选择和评估解耦开的算法。DDQN中存在两个结构完全相同但是参数却不同的网络，用当前Q网络中Q值选择对应的action，在目标Q网络中评估这个action中的Q值。目标Q网络中网络参数不需要迭代更新，而是每隔一段时间从当前Q网络中复制过来，实现延时更新，这样可以减少两个网络的相关性。

因为DDQN算法的核心思想是将目标动作的选择和目标动作的评估分别使用不同的值函数来实现，所以可以有效地解决过优估计问题。通过这种自适应学习方案，可以通过节约能耗和提高VNR接收率来获得全局最优的映射方法，比传统方法相比，有更好的灵活性。

该方法首先将将虚拟节点映射问题建模为马尔可夫决策过程，使用DDQN算法进行虚拟节点映射，最后使用最短路径算法完成虚拟链路的映射。实验表明，该方法能够降低能耗，提高请求接受率并提高长期平均收益。

Claims

1.一种基于深度强化学习的虚拟网络映射方法，其特征在于，包括以下步骤：

步骤3，利用最短路径算法进行虚拟网络链路映射：

步骤4，更新物理网络资源，包括CPU资源和链路带宽资源。

2.根据权利要求1所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤1的具体过程如下：

2.1定义状态集合S_t

2.2定义动作集合A_t

代理选择节点的动作A_t按如下方式定义：

2.3定义状态转移概率矩阵P_r

2.4定义回报函数R

3.根据权利要求2所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤2的具体过程如下：

3.5将这五元组存入经验回放集合D；

3.6令初始状态S＝S′；

3.7从经验回放集合D中采集m个样本计算当前价值Q值y_j：

3.8使用均方差损失函数更新当前Q网络的所有参数θ；

4.根据权利要求3所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤3.3中，使用ε-贪婪法在当前Q值输出中选择对应的动作A。

5.根据权利要求3所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤3.8中，通过神经网络的梯度反向传播更新当前Q网络的所有参数θ。

6.根据权利要求3所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤3的具体过程如下：

4.2初始化计数变量count＝0；

7.根据权利要求6所述的基于深度强化学习的虚拟网络映射方法，其特征在于，步骤4.3中，使用Floyd算法寻找m^s，n^s间的最短路径p^s。