CN110233763B

CN110233763B - 一种基于时序差分学习的虚拟网络嵌入算法

Info

Publication number: CN110233763B
Application number: CN201910527020.7A
Authority: CN
Inventors: 王森; 张标
Original assignee: Chongqing University
Current assignee: Chongqing University
Priority date: 2019-07-19
Filing date: 2019-07-19
Publication date: 2021-06-18
Anticipated expiration: 2039-07-19
Also published as: CN110233763A

Abstract

本发明涉及一种基于时序差分学习的虚拟网络嵌入算法，该方法将VNE问题建模为马尔可夫决策过程(MDP)，并建立了一个神经网络来逼近VNE状态的值函数。在此基础上，提出了一种基于时序差分学习(一种强化学习方法)的命名为VNE‑TD的算法。在VNE‑TD中，节点映射的多个嵌入候选项是概率生成的，TD学习用于评估每个候选项的长期潜力。大量的仿真结果表明，VNE‑TD算法在(block ratio)阻塞比和收益方面都明显优于以往的算法。

Description

一种基于时序差分学习的虚拟网络嵌入算法

技术领域

本发明涉及计算机网络，特别涉及一种基于时序差分学习的虚拟网络嵌入算法。

背景技术

近年来，网络虚拟化由于为未来的网络提供了一个很有前景的解决方案，受到了研究社区和业界的广泛关注。它被视为一种工具，可以克服当前互联网对根本性变革的阻力。此外，网络虚拟化也是云计算的关键推动者。网络虚拟化的主要实体是虚拟网络(VN)。如图1所示， VN是底层网络(SN)上的虚拟节点和链路的组合，其中节点上或链路下的数字分别为节点容量和链路带宽。虚拟节点通过一个或多个SN路径的虚拟链路相互连接。通过对一个SN的节点资源和链路资源进行虚拟化，可以在相同的物理硬件上同时托管具有广泛不同特性的多个 VNs。给定一组对节点和链路都有一定资源需求的虚拟网络请求(VNR)，在一个SN中找到一个特定的节点和链路子集来满足每个VNR的问题称为虚拟网络嵌入(VNE)问题。在大多数现实情况下，VNE问题必须作为一个在线问题来处理。也就是说，VNRs并不预先知道。相反，它们动态地到达***，并可以在SN中停留一段时间。实际上，VNE算法必须在到达时处理 VNRs，而不是一次处理一组VNRs(离线VNE)。在为VNRs做在线嵌入决策时，基础设施提供商(InP，通常是SN的所有者)通常以最大化其长期收益为目标，这使得VNE问题更具挑战性。

发明内容

本发明要解决的技术问题是：虚拟网络嵌入时实现性能和计算复杂度之间更好的平衡。

为实现上述目的，本发明采用如下技术方案：一种基于时序差分学习的虚拟网络嵌入算

法，包括如下步骤：

S101：建立VNE模型

将底层网络SN建模为加权无向图，并将其表示为G^s(V^s,E^s)，其中V^s是底层节点集，E^s是底层链接集，每个底层节点v^s∈V^s，具有

计算能力，每个底层链路e^s∈E^s，具有

的带宽；

将VNR_k建模为一个无向图,记为G^k(V^k,E^k),其中V^k是虚拟节点集，E^k是虚拟链接集，每个虚拟节点v^k∈V^k，具有

计算能力，每个虚拟链路e^k∈E^k，具有

的带宽需求；

S102：定义状态

S102a：为VNE_k定义一个奖励函数，如公式(1)：VNE_k表示对第k个VNR的过程；

其中，c_v表示节点v的节点容量，b_e表示链路e的链路带宽，η表示计算资源单价，β表示带宽资源的单价；因此，很自然地将处理VNR_k后的即时奖励定义为Rvn(k)，即r_k＝Rvn(k)；

S102b：为VNE定义操作集：VNE的操作集定义为所有可能的节点映射的集合；

S102c：为VNE定义马尔科夫状态：

使用SN的规范化的剩余节点容量和链路带宽来表示状态s_k，形式上有

和

s_k是一个有序集,如下公式(3)所示：

在RL中，成功地保留所有相关信息的状态信号称为马尔可夫；

如果状态信号具有马尔可夫特性，那么k+1处的环境响应只依赖于k处的状态和动作，在这种情况下，仅通过指定以下内容，就可以确定环境的动态；

Pr{s_k+1＝s′，r_k+1＝r|s_k，a_k} (5)

S103：将VNE模型化为马尔可夫决策过程MDP；

S103a：定义策略和值函数：VNE代理的策略是在状态s下，从每个状态s和动作a到采取动作a的概率的映射，给定策略π，VNE的值函数是VNE状态的函数，将值函数表示为V^π(s)， s∈S，V^π(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力，以此来度量当前状态的好坏，它的定义如公式(8)：

R_k是来自VNR_k的所有奖励的总和，γ是决定未来奖励现值的折现率；

S103b：定义最优值函数：

从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略；

设π^*是一个最优策略，当且仅当，给定任意的策略π，π^*>＝π，即意味着对于所有的s，s∈S，有

最优值函数定义为

对于最优值函数V^*(s)，有以下迭代表达式：

S104：利用神经网络逼近最优值函数V^*(s)，即最优策略下的值函数：

使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数V^*(s)，fc1和fc2 层节点数相同，记为H，使用整流器作为激活函数，神经网络的输入为状态s，如式(3)所示，通过计算，神经网络以状态s为输入，输出值V(s)，期望近似于V^*(s)；

逼近函数V(s)的监督学习是一个调整神经网络参数

的过程，其目的是尽量减少V(s)与 V^*(s)之间的差异，可以表示为：

随着RL过程的进行，V^*(s_k)可以看作近似函数V(s)并行监督学习的样本，根据梯度下降法对于VNR k，参数

更新如下:

其中α为控制学习速度的正步长参数；

S105：在VNE中，给定一个VNR，我们知道可能的操作和相应的下一个状态，因此，

和

是确定的，已知的，遍历每个节点映射的匹配，将其作为操作集，将操作集模拟嵌入的结果状态集作为S104中神经网络的输入，得到多个最优值函数的值，由于最优策略π*(s) 可表示为:

即，值最大的便符合最优策略，

S106：选择值最大的最优值函数所对应的匹配实际嵌入VNR，然后找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。

作为改进，所述S105中，遍历每个节点映射的匹配时，需要首先对其做如下缩小处理：

使用生成多个节点映射候选项的概率方法，使用度量RW和统一值，生成具有RW和均匀选择概率的节点映射候选项。

相对于现有技术，本发明至少具有如下优点：

1.利用神经网络来近似VNE状态的值函数，对于具有巨大状态空间的VNE问题，神经网络有助于从以前经验丰富的状态推广到从未见过的状态。

2.基于时序差分学***衡，通过主动学习和基于以往经验的在线决策来克服在线嵌入决策与长期目标的矛盾，更有效的解决资源分配问题，提高资源利用率。

附图说明

图1为一个VNE问题的例子

图2为一个示例拓扑。

图3一个VNE问题的例子。

图4实例的嵌入结果。

图5用RL概念说明了VNE过程。

图6逼近最优值函数的神经网络

图7(a)为不同算法中阻塞比与参数d的关系图，图7(b)为不同算法中每秒收益与参数d的关系图。

图8(a)为不同算法中阻塞比与时间的关系图，图8(b)为不同算法中每秒收益与时间的关系图，图8(c)为不同算法中WAPL与时间的关系图。

图9为损失与训练次数的关系图。

图10(a)为不同算法中阻塞比与工作负载的关系图，图10(b)为不同算法中每秒收益与工作负载的关系图，图10(c)为不同算法中WAPL与工作负载的关系图。

图11(a)为阻塞比与节点映射候选项数目的影响关系图，图11(b)为每秒收益与节点映射候选项数目的影响关系图。

图12(a)为不同算法中阻塞比与VNRs链路连通度的关系图，图12(b)为不同算法中每秒收益与VNRs链路连通度的关系图。

具体实施方式

下面对本发明作进一步详细说明。

VNE问题的主要挑战在于在线决策与追求长期目标之间的矛盾。现有技术试图通过平衡 SN工作负载来克服这个挑战，希望能够容纳更多未来的VNRs。然而，这里的问题是节点的连接能力涉及到其他节点。节点连接性能力的消耗并不一定只会降低其自身的能力。在图3 中，SN中需要嵌入一个SN和一个VNR。以现有技术中的节点级别度量(名为GRC)为例。将参数d设置为0.85，SN节点的GRC值如图4所示为“Original”。为了平衡SN工作负载，GRC-VNE将选择GRC测量到的节点和连通性结合能力最强的两个节点，即节点B和节点G 来匹配VNR中的两个节点(节点a和节点b)。因此，剩余的GRC值如图4所示为“After VNRembedded by GRC-VNE”，这些值的方差为0.0032。相比之下，本发明提出的VNE-TD算法选择节点B和节点C。剩余GRC值如图4所示为“After VNR embedded by VNE-TD”，这些值的方差为0.0016。这个表明，现有技术中平衡SN工作负载的工作的基本假设是有问题的。它既不能带来更平衡的工作负载，也不能带来更多的剩余资源。

一种基于时序差分学习的虚拟网络嵌入算法，包括如下步骤：

S101：建立VNE模型

计算能力(例如CPU周期)，每个底层链路e^s∈E^s，具有

的带宽；图1底部给出了一个SN的例子。节点和链接周围的数字是它们的可用资源。

计算能力，每个虚拟链路e^k∈E^k，具有

的带宽需求；

图1顶部给出了VNR的一个例子。对于VNR k,t^k为VNR到达时间，一个限定的值l^k为VNR的寿命。

S102：定义状态

其中，c_v表示节点v的节点容量，b_e表示链路e的链路带宽，η表示计算资源单价，β表示带宽资源的单价；

奖励函数的目标是最大化InP的长期时间平均收益，具体如下：

其中K_T＝{k|0＜t_k＜T}表示在时间实例T到达之前的多个VNR集合；

奖励函数旨在为给定状态下的某一行为提供一种即时的善行度量。由式(2)可知，VNE问题的目标是使InP的长期平均时间收益最大化。因此，很自然地将处理VNR k后的即时奖励定义为Rvn(k)，即rk＝Rvn(k)。

S102c：为VNE定义马尔科夫状态：

和

s_k是一个有序集,如下公式(3)所示：

对于马尔可夫状态，所有重要的是当前状态信号；它的意义独立于通向它的路径或历史信号。更具体地说，在最常见的因果关系中，环境的反应可能取决于之前发生的一切。在大多数RL问题中，转换函数是概率函数。在这种情况下，动力学只能通过指定完整的概率分布来表示：

Pr{s_k+1＝s′，r_k+1＝r|s_k，a_k，r_k，s_k-1，a_k-1，...，r₁，s₀，a₀} (4)

另一方面，如果状态信号具有马尔可夫特性，那么k+1处的环境响应只依赖于k处的状态和动作，在这种情况下，仅通过指定以下内容，就可以确定环境的动态；

Pr{s_k+1＝s′，r_k+1＝r|s_k，a_k} (5)

S103：将VNE模型化为马尔可夫决策过程MDP；

S103a：定义策略和值函数：

满足马尔可夫特性的强化学习任务称为马尔可夫决策过程，由于本发明给出的VNE状态是一种马尔可夫状态，因此可以将VNE问题的决策过程完美地建模为MDP。

在MDP中，给定任意状态s和动作a，每一个可能的下一个状态s’的概率表示为：

这些量叫做跃迁概率；同样，下一个奖励的期望值记为：

从RL的角度看，VNE的目标是找到一个在任何时间、任何状态下选择最优的行动最优策略；

VNE代理的策略是在状态s下从每个状态s和动作a到采取动作A的概率的映射，将策略和相应的概率表示为π和π(s,a)；

几乎所有的强化学习算法都是基于估计值函数，状态函数，来估计代理处于给定状态的好坏；

给定策略π，VNE的值函数是VNE状态的函数，，将值函数表示为V^π(s)，s∈S，V^π(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力，它的正式定义如公式(8)：

R_k是来自VNR k的所有奖励的总和，γ是决定未来奖励现值的折现率，

S103b：定义最优值函数：

设π^*是一个最优策略，当且仅当，给定任意的策略π，π^*>＝π，即意味着对于所有的s， s∈S，有

最优值函数定义为

对于最优值函数V^*(s)，有以下迭代表达式：

S104：神经网络求解V(s)，使V(s)逼近最优值函数V^*(s)：

使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数V^*(s)，如图6所示。fc1和fc2层节点数相同，记为H，使用整流器作为激活函数，神经网络的输入为状态s，如式(3)所示，通过计算，神经网络以状态s为输入，输出值V(s)，期望近似于V^*(s)；

逼近函数V(s)的监督学习是一个调整神经网络参数

更新如下:

其中α为控制学习速度的正步长参数；

S105：在VNE中，给定一个VNR，我们知道可能的操作和相应的下一个状态。因此，

和

是确定的，已知的。遍历每个节点映射的匹配，将其作为操作集，将操作集模拟嵌入的结果状态集作为S104中神经网络的输入，得到多个最优值函数的值。由于最优策略π*(s) 可表示为:

即，值最大的便符合最优策略。

S106：选择值最大的值函数所对应的节点实际嵌入VNR，然后找到两个具有一定带宽的 SN节点之间的最短路径来匹配VN链路。

本发明使用了一种RL方法，即时序差分(缩写为TD)学习，来更新最优值函数的估计，并根据估计做出嵌入决策，具体地，TD学习更新其估计V^*(s)如下：

如前所述，V^*(s)由神经网络，近似结合TD算法，将式(11)所述参数

的更新变换为：

根据上述更新规则，V^*(s)和V(s)分别处于TD和监督学习的过程中，且同时进行。

算法VNE-TD是在VNR到达时进行嵌入决策的函数。正如算法VNE-TD所示，输入到神经网络的状态是每个节点映射候选项模拟嵌入的结果状态，选择值最大的节点实际嵌入VNR。建立节点映射后，找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。如果允许可分割流，则使用与[12]相同的多商品流算法映射虚拟链接。根据表达式(12),我们应该选择最大化

的匹配j。因为奖励(r＝Rvn(VNR))为候选人是相同的,我们可以选择最大化V(sjn)的匹配j。当VNR的生命周期结束时，它将离开SN并释放前面描述的分配给它的资源。SN的状态会改变。然而，神经网络的参数在VNR离开时和到达时是不更新的。

作为改进，所述S105中，确定值最大的最优值函数时，由于可能的操作集太大，无法

遍历，需要首先对操作集做如下缩小处理：使用生成多个节点映射候选项的概率方法，

使用度量RW和统一值，生成具有RW和均匀选择概率的节点映射候选项。

本发明方法具体详述如下：

表1本发明中使用的符号和记法

1.1VNE模型

将SN建模为加权无向图，并将其表示为G^s(V^s,E^s)，其中V^s是底层节点集，E^s是底层链接集。每个底层节点v^s∈V^s，具有

计算能力(例如CPU周期)，每个底层链路e^s∈E^s，具有

的带宽。图1底部给出了一个SN的例子。节点和链接周围的数字是它们的可用资源。

1.1.1虚拟网络请求

一个VNR k也可以建模为一个无向图,记为G^k(V^k,E^k),其中V^k是虚拟节点集和E^k是虚拟链接的集合。每个虚拟节点v^k∈V^k，具有

计算能力，每个虚拟链路e^k∈E^k，具有

的带宽需求。图1顶部给出了VNR的一个例子。对于VNR k,t^k为VNR到达时间，一个限定的值 l^k为VNR的寿命。

2.2 VNE过程

对于VNR k,VNE流程由以下两个关键组件组成，即节点映射和链接映射

2.2.1节点映射

节点映射可以描述为一对一映射，即M_N:V^k→V^s,这样,对于M_N(v^k)＝v^s,v^k∈V^k和v^s∈V^s, 下列两个条件必须满意:(1)如果

那么

(2)

第一个约束确保VNR的任意两个节点映射到SN的两个不同节点，第二个约束要求每个VN节点映射到一个具有一定节点容量的SN节点。

2.2.2链路映射

在链路映射阶段，对于VNR中的一个虚拟链路，需要在SN中的两个映射节点之间找到一组路径，这些节点的总可用带宽大于虚拟链路的要求。在本发明中，只考虑单路径映射的情况，即一个虚拟链接只能映射到一个SN路径。在单路径映射的情况下，链接映射可以用映射

表示。其中，

是G^s的所有路径的集合。对于

必须满足以下条件:

VNE问题必须作为一个在线问题来处理。VNRs动态到达***，VNE算法必须在到达时处理VNRs。

2.3VNE收入模型和目标

VNE收益模型类似，InP产生的收益由下式表示:

其中η和β分别表示计算资源和带宽资源的单价。

目标是最大化InP的长期时间平均收益，具体如下:

其中K_T＝{k|0＜t_k＜T}表示在时间实例T到达之前的VNRs集合。

3.在RL模型中拟合VME

RL作为学习算法如何将情境映射到行动，从而最大化数字奖励信号。如图5所示，代理是学习的主体，环境是学习的对象。代理能够执行操作。执行操作可能会使代理处于当前状态，或者导致状态空间向另一状态的转换。转换函数可以是概率函数，也可以是确定性函数。作为代理行为的结果，环境为代理生成一个奖励。通常情况下，奖励的价值是通过预先设定的奖励函数来计算的，该函数是用来控制对代理的增强过程。

奖励功能的目的是为特定状态下的某一行为提供一种即时的善行度量。每个动作的奖励取决于新状态是否优于当前状态。随着时间的推移，代理尝试学习为每个特定状态执行的最佳操作，即将长期总回报最大化的操作。在RL中，涉及到一个值函数，通过在有限的范围内积累相关的即时回报以指示未来什么是最好的。

下面将更具体地说明，一方面，VNE问题的目标是使InP的长期时间平均收益最大化；另一方面，应根据目前的情况和以往的经验，在VNR出现后立即做出嵌入决策。VNE问题的性质既有长期目标又有在线决策为RL的参与提供了良好的环境。在图5中，展示了怎样在RL模型中拟合VNE问题。对于VNE问题，从RL的角度把SN和不断到来的VNRs看作一个整体，构成了环境。在VNE问题中，处理一个VNR形成一个RL周期。对于VNR k+1, VNE代理根据当前状态s_k和以前的经验其中可能包括所有以前的状态和奖励给出一个嵌入决策a_k，。在行动a_k之后，环境给出结果状态s_k+1，和奖励r_k+1。

3.2为VNE定义一个奖励函数

如前所述，奖励函数旨在为给定状态下的某一行为提供一种即时的善行度量。由式(2)可知，VNE问题的目标是使InP的长期平均时间收益最大化。因此，很自然地将处理VNR k 后的即时奖励定义为Rvn(k)，即r_k＝Rvn(k)。

显然，这种奖励函数可以很容易地适应VNE的其他目标。这意味着用RL解决VNE问题是非常灵活的。例如，如果VNE的目标是最小化阻塞比，那么如果成功嵌入了VNR，我们可以将奖励设置为1，否则设置为0。

3.3为VNE定义一个操作集和一个马尔可夫状态

如何定义状态和行为是关系到RL绩效的关键。在本发明中，VNE的操作集被定义为所有可能的节点映射的集合。如果按照节点映射的行动嵌入不成功，则会阻塞VNR，对SN不做任何操作。

在VNE问题中，我们知道当前的VNR但不知道下一个。因此，在下一个VNR到达之前，如果包含了表示环境的VNR状态，则无法确定环境的下一个状态。因此，虽然VNE问题的环境包括SN和多个VNR如图5所示，但我们只使用SN的状态来表示环境。

我们使用SN的规范化的剩余节点容量和链路带宽来表示状态s_k，形式上有

和

s_k是一个有序集,如下:

在RL中，成功地保留所有相关信息的状态信号称为马尔可夫。

另一方面，如果状态信号具有马尔可夫特性，那么k+1处的环境响应只依赖于k处的状态和动作，在这种情况下，仅通过指定以下内容，就可以确定环境的动态：

Pr{s_k+1＝s′，r_k+1＝r|s_k，a_k} (5)

3.4将VNE模型化为马尔可夫决策过程

满足马尔可夫特性的强化学习任务称为马尔可夫决策过程(MDP)。由于本发明给出的 VNE状态是一种马尔可夫状态，因此可以将VNE问题的决策过程完美地建模为MDP。

这些量叫做跃迁概率。同样，下一个奖励的期望值记为：

从RL的角度看，VNE的目标是找到一个在任何时间、任何状态下选择最优的行动最优策略。

定义：VNE代理的策略是在状态s下从每个状态s和动作a到采取动作a的概率的映射。我们将策略和相应的概率表示为π和π(s，a)。

定义：给定策略π，VNE的值函数是VNE状态的函数。我们将值函数表示为V^π(s)，s∈S。V^π(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力。它的正式定义如下：

R_k是来自VNR k的所有奖励的总和。γ是决定未来奖励现值的折现率。

从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略 π。

定义：π^*是一个最优策略，当且仅当，给定任意的策略π，π^*>＝π，即意味着对于所有的 s，s∈S，有

定义：最优值函数定义为

命题：对于最优值函数V^*(s)，我们有以下迭代表达式：

证明：

式(9)表示当前状态的最优值与可能下一状态的最优值之间的关系，给出最优值函数，如何得到最优动作。

3.5最优值函数的逼近

在本发明中，我们使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数 V^*(s)，如图6所示。fc1和fc2层节点数相同，记为H。使用整流器作为激活函数，这可能是截至2018年，深度神经网络最常用的激活函数。神经网络的输入为状态s，如式(3)所示。通过计算，神经网络以状态s为输入，输出值V(s)，期望近似于V^*(s)。

逼近函数V(s)的监督学习是一个调整神经网络参数

的过程。其目的是尽量减少V(s)与 V^*(s)之间的差异，可以表示为:

随着RL过程的进行，V^*(s_k)可以看作近似函数V(s)并行监督学习的样本，根据梯度下降法对于VNRk，参数

更新如下:

其中α为控制学习速度的正步长参数。

3.6用TD学习解决VNE问题

通过学习过程中神经网络的近似来计算V^*(s)。在VNE中，给定一个VNR，我们知道可能的操作和相应的下一个状态。因此，

和

是确定的，已知的。最优行动π^*(s)可由下式计算：

然而，由于可能的操作集太大，无法遍历。因此，我们需要显著缩小搜索空间。如下面的算法GC_GRC所示，使用节点排序度量(名为GRC)，开发了一种生成多个节点映射候选项的概率方法。然而，本发明算法与GRC的度量无关。考虑了另外两个度量，即度量(称为RW) 和统一值。生成具有RW和均匀选择概率的节点映射候选项的两种算法分别为GC_RW和GC_UNI。在算法GC_GRC中，参数L是生成的节点映射候选数。

在本发明中，使用了一种RL方法，即时序差分(缩写为TD)学习，来更新最优值函数的估计，并根据估计做出嵌入决策。具体来说，TD学习更新其估计V^*(s)如下：

V^*(s)由神经网络近似。结合TD算法，将式(11)所述参数

的更新变换为:

算法VNE-TD是在VNR到达时进行嵌入决策的函数。在VNE-TD中，神经网络参数

按正态分布初始化。正如算法VNE-TD所示，输入到神经网络的状态是每个节点映射候选项模拟嵌入的结果状态，选择值最大的节点实际嵌入VNR。建立节点映射后，找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。如果允许可分割流，则使用多商品流算法映射虚拟链接。根据表达式(12),应该选择最大化

的匹配j。因为奖励(r＝Rvn(VNR))为候选人是相同的,可以选择最大化V(s^j _n)的匹配j。嵌入VNR后,算法VNE-TD在内存中存储三元组<sc,r,sn>，如第26行所示。内存可以存储的最大三元组数量设置为1000。内存遵循FIFO(先进,先出)的替换规则。为了使神经网络的训练更加顺畅和优化，相对于表达式(14)所描述的单步方式，参数

是分批更新的。VNE-TD从内存中随机抽取批量大小的三元组，用批量大小的三元组训练神经网络。如式(14)所示，一个三元组<sc,r,sn>的训练误差是 r+γV_k(s_n)-V_k(s_c)。该批处理训练过程的目标是使批处理的均方误差即损失最小。如第2行所示，VNE-TD可以使用三种算法中的任何一种，即GC_GRC、GC_RW或GC_UNI。使用GC_GRC、GC_RW或GC_UNI的算法分别命名为VNE-TD-GRC、VNE-TD-RW或 VNE-TD-UNI。

当VNR的生命周期结束时，它将离开SN并释放前面描述的分配给它的资源。SN的状态会改变。然而，神经网络的参数在VNR离开时和到达时是不更新的。

评价

1、基准测试和性能指标

将VNE-TD与现有技术中的算法进行了比较。

主要使用以下三个性能指标来比较VNE-TD与其他算法:(1)阻塞比是阻塞VNRs的数量除以所有VNRs的总数；(2)每秒的收入是到目前为止所获得的总收入除以所经过的秒数；(3)加权平均路径长度(简称WAPL)是SN中实际分配的所有带宽之和除以所有VNRs链路带宽之和，即VNR链路映射到的所有路径的加权平均长度。

2、仿真设置

使用Python实现了事件驱动的仿真环境。神经网络及其训练是用Tensorflow实现的， Tensorflow是一个流行的用于神经网络等机器学***均值是VNs的40倍。VNRs一个接一个地到达，形成一个泊松过程，平均到达速率为每秒一个请求。VNRs的寿命服从指数分布，平均为μ＝70秒。将收益模型中的表达式(1)中的参数η和β值设置为1。将式(8)中的折现率设为1，因为我们发现设γ为1使得神经网络收敛更平稳、更快。对于神经网络，我们将隐含层节点数H设为300，与神经网络的输入数大小相同。以下评估子部分中的批大小根据经验设置为 50。节点映射候选项(即L)的数量设置为40。除非另行说明，以上参数在以下各小节中不会更改。

除4小节外，以下小节中的每个仿真系列将运行三次。每次都将使用与前面描述的相同的SN和VNRs拓扑结构，以及随机节点容量和链路带宽的不同集合。三次运行的标准偏差用误差条表示如下仿真结果。

1、GRC参数d的鲁棒性

一般来说，GRC的计算基于两个因素，即节点容量和与其他节点的连接能力。用GRC的参数d来平衡这两个因素。在图7(a)中，展示了不同算法的阻塞比。在图7(b)中，展示了每秒的收入。从图7中可以看出，VNE-TD-GRC对参数d不敏感，而GRC-VNE的性能明显依赖于参数d。此外，当d相对较小时，GRC-VNE的偏差非常大。VNE-TD-GRC的偏移量小且稳定。在仿真设置的阻塞条件下，链路带宽的需求比节点容量更大，也更关键。因此，对于GRC-VNE，需要将参数d调整到接近1.00，以支持连接能力的因素，而几乎忽略了节点容量的因素。相比之下，VNE-TD-GRC只使用GRC的度量来帮助缩小搜索范围，而依赖于值函数来做出节点映射的最终决策。这就是为什么与GRC-VNE相比，VNE-TD-GRC对参数d不敏感的原因。显然，这是VNE-TD-GRC的一个非常理想的属性，因为VNRs并不是预先知道的，并且随着时间的推移会发生很大的变化。

因此，本发明将参数d设置为VNE-TD-GRC为0.95,GRC-VNE为0.995。

2、TD学习的影响

为了显示TD学习的影响，我们用Rand-GRC算法(指随机选择GRC)来与VNE-TD-GRC进行比较。与算法VNE-TD-GRC类似，算法Rand-GRC使用算法GC-GRC概率性地生成L 节点映射候选项。不同的是，它并没有选择V(s)所表示的最大值，而是从所有可以成功嵌入的候选项中随机选择一个候选项。这意味着与VNE-TD-GRC相比，Rand-GRC丧失了学习能力。在本小节的模拟中，L被设置为10。

从图8(a)中可以看出，尽管节点映射是概率性的，但是由于有多个候选项，算法Rand-GRC 的阻塞比优于GRC-VNE。这意味着，即使在训练过程中，VNE-TD-GRC仍然可以比GRC-VNE 表现得更好。此外，与GRC-VNE相比，当TD学习涉及到从多个候选对象中选择最优时，阻塞比在3900时显著提高了67.2％。从图8(b)可以看出，与GRC-VNE相比，VNE-TD-GRC算法在3900时每秒可以增加13.9％的收益。有趣的是，Rand-GRC在每秒的收入方面几乎和GRC-VNE一样好，尽管它在阻塞比方面要比GRC-VNE好。似乎Rand-GRC只擅长嵌入收益较低且相对容易处理的VNRs。从图8(c)可以看出，由于节点的概率映射，算法Rand-GRC 较GRC-VNE显著提高了WAPL。而算法TD-VNE-GRC可以有效地克服这一缺点。这意味着使用TD学习可以通过保持阻塞比和WAPL较低来帮助提高每秒的收入。

在图9中，我们展示了随着训练次数的增加，损失的变化情况。损失是训练批次的均方误差，是训练过程的最小目标。从图9可以看出，损失在第700次训练时收敛到局部最优，即处理第700次VNR后的时间。在局部最优时，损失约为400(误差约为20)。平均报酬约为 92，局部最优时的损失相对较小，这可能意味着用所提出的神经网络逼近效果较好。

3、工作负载的影响

我们通过将VNRs的平均生存期从40秒更改为100秒来展示工作负载的影响。我们还添加算法LC-GRC(代表GRC成本最低的节点，(我们的算法是选择最大的进行对比)，它使用算法GC-GRC生成L节点映射候选项，并选择SN中成本最低的候选项。

从图10中可以看出，与其他算法相比，随着工作负载的增加，所提出的三种VNE-TD算法的阻塞比和每秒的收益都有了持续的提高。其中，与GRC-VNE和RW-MM-SP相比，算法VNE-TD-GRC在最高工作负载下每秒的收益分别增加了24.8％和17.1％。

算法VNE-TD-GRC在三个版本的VNE-TD中表现最好。算法VNE-TD-UNI性能最差，在三个版本中偏差最大。这意味着两个指标GRC和RW确实有助于VNE-TD专注于一个更有前景的搜索领域，尽管改进幅度不大。此外，它还显示了VNE-TD与其他VNE算法相结合的潜力。

4、参数L的影响

在图11中(a)和(b),我们展示节点映射候选人的数量的影响,即参数L.这表明与GRC-VNE 相比,VNE-TD-GRC每秒能进一步提高阻塞比和收入分别从79.6％和17.4％、82.3％和18.3％, 同时L从40增加到60。根据3.7节中VNE-TD的计算复杂度，将L从40增加到60不会导致计算时间的不可接受的增加。

5、拓扑属性的影响

在图12中，我们展示了VN节点链路连通度的影响。随着链路连通度的提高，VN节点的连通度也随之提高，这意味着嵌入难度也随之增加。从图12可以看出，当链路连通性较高时，VNE-TD-GRC比GRC-VNE工作得更好。当链路连通性为0.5时，VNE-TD-GRC的每秒收益比GRC-VNE高23.1％。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于时序差分学习的虚拟网络嵌入方法，其特征在于：包括如下步骤：

S101：建立VNE模型

计算能力，每个底层链路e^s∈E^s，具有

的带宽；

计算能力，每个虚拟链路e^k∈E^k，具有

的带宽需求；

S102：定义状态

S102c：为VNE定义马尔科夫状态：

和

s_k是一个有序集,如下公式(3)所示：

Pr{s_t+1{s′，r_k+1＝r|s_k，a_k} (5)

S103：将VNE模型化为马尔可夫决策过程MDP；

S103a：定义策略和值函数：VNE代理的策略是在状态s下，从每个状态s和动作a到采取动作a的概率的映射，给定策略π，VNE的值函数是VNE状态的函数，将值函数表示为V^π(s)，s∈S，V^π(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力，以此来度量当前状态的好坏，它的定义如公式(8)：