CN110233763B - 一种基于时序差分学习的虚拟网络嵌入算法 - Google Patents
一种基于时序差分学习的虚拟网络嵌入算法 Download PDFInfo
- Publication number
- CN110233763B CN110233763B CN201910527020.7A CN201910527020A CN110233763B CN 110233763 B CN110233763 B CN 110233763B CN 201910527020 A CN201910527020 A CN 201910527020A CN 110233763 B CN110233763 B CN 110233763B
- Authority
- CN
- China
- Prior art keywords
- vne
- function
- state
- node
- vnr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004422 calculation algorithm Methods 0.000 title abstract description 58
- 230000006870 function Effects 0.000 claims abstract description 85
- 238000013507 mapping Methods 0.000 claims abstract description 47
- 238000013528 artificial neural network Methods 0.000 claims abstract description 42
- 238000000034 method Methods 0.000 claims abstract description 37
- 230000008569 process Effects 0.000 claims abstract description 23
- 230000007774 longterm Effects 0.000 claims abstract description 18
- 238000004088 simulation Methods 0.000 claims abstract description 13
- 230000009471 action Effects 0.000 claims description 22
- 230000014509 gene expression Effects 0.000 claims description 8
- 230000004044 response Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000011478 gradient descent method Methods 0.000 claims description 4
- 238000011946 reduction process Methods 0.000 claims description 2
- 230000000903 blocking effect Effects 0.000 abstract description 16
- 238000012549 training Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于时序差分学习的虚拟网络嵌入算法,该方法将VNE问题建模为马尔可夫决策过程(MDP),并建立了一个神经网络来逼近VNE状态的值函数。在此基础上,提出了一种基于时序差分学习(一种强化学习方法)的命名为VNE‑TD的算法。在VNE‑TD中,节点映射的多个嵌入候选项是概率生成的,TD学习用于评估每个候选项的长期潜力。大量的仿真结果表明,VNE‑TD算法在(block ratio)阻塞比和收益方面都明显优于以往的算法。
Description
技术领域
本发明涉及计算机网络,特别涉及一种基于时序差分学习的虚拟网络嵌入算法。
背景技术
近年来,网络虚拟化由于为未来的网络提供了一个很有前景的解决方案,受到了研究社 区和业界的广泛关注。它被视为一种工具,可以克服当前互联网对根本性变革的阻力。此外, 网络虚拟化也是云计算的关键推动者。网络虚拟化的主要实体是虚拟网络(VN)。如图1所示, VN是底层网络(SN)上的虚拟节点和链路的组合,其中节点上或链路下的数字分别为节点容量 和链路带宽。虚拟节点通过一个或多个SN路径的虚拟链路相互连接。通过对一个SN的节点 资源和链路资源进行虚拟化,可以在相同的物理硬件上同时托管具有广泛不同特性的多个 VNs。给定一组对节点和链路都有一定资源需求的虚拟网络请求(VNR),在一个SN中找到一 个特定的节点和链路子集来满足每个VNR的问题称为虚拟网络嵌入(VNE)问题。在大多数现 实情况下,VNE问题必须作为一个在线问题来处理。也就是说,VNRs并不预先知道。相反, 它们动态地到达***,并可以在SN中停留一段时间。实际上,VNE算法必须在到达时处理 VNRs,而不是一次处理一组VNRs(离线VNE)。在为VNRs做在线嵌入决策时,基础设施 提供商(InP,通常是SN的所有者)通常以最大化其长期收益为目标,这使得VNE问题更具挑 战性。
发明内容
本发明要解决的技术问题是:虚拟网络嵌入时实现性能和计算复杂度之间更好的平衡。
为实现上述目的,本发明采用如下技术方案:一种基于时序差分学习的虚拟网络嵌入算
法,包括如下步骤:
S101:建立VNE模型
S102:定义状态
S102a:为VNEk定义一个奖励函数,如公式(1):VNEk表示对第k个VNR的过程;
其中,cv表示节点v的节点容量,be表示链路e的链路带宽,η表示计算资源单价,β表示带宽资源的单价;因此,很自然地将处理VNRk后的即时奖励定义为Rvn(k),即rk=Rvn(k);
S102b:为VNE定义操作集:VNE的操作集定义为所有可能的节点映射的集合;
S102c:为VNE定义马尔科夫状态:
在RL中,成功地保留所有相关信息的状态信号称为马尔可夫;
如果状态信号具有马尔可夫特性,那么k+1处的环境响应只依赖于k处的状态和动作, 在这种情况下,仅通过指定以下内容,就可以确定环境的动态;
Pr{sk+1=s′,rk+1=r|sk,ak} (5)
S103:将VNE模型化为马尔可夫决策过程MDP;
S103a:定义策略和值函数:VNE代理的策略是在状态s下,从每个状态s和动作a到采 取动作a的概率的映射,给定策略π,VNE的值函数是VNE状态的函数,将值函数表示为Vπ(s), s∈S,Vπ(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力,以此来度量当前状态的 好坏,它的定义如公式(8):
Rk是来自VNRk的所有奖励的总和,γ是决定未来奖励现值的折现率;
S103b:定义最优值函数:
从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略;
对于最优值函数V*(s),有以下迭代表达式:
S104:利用神经网络逼近最优值函数V*(s),即最优策略下的值函数:
使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数V*(s),fc1和fc2 层节点数相同,记为H,使用整流器作为激活函数,神经网络的输入为状态s,如式(3)所示, 通过计算,神经网络以状态s为输入,输出值V(s),期望近似于V*(s);
其中α为控制学习速度的正步长参数;
S105:在VNE中,给定一个VNR,我们知道可能的操作和相应的下一个状态,因此,和是确定的,已知的,遍历每个节点映射的匹配,将其作为操作集,将操作集模拟嵌入 的结果状态集作为S104中神经网络的输入,得到多个最优值函数的值,由于最优策略π*(s) 可表示为:
即,值最大的便符合最优策略,
S106:选择值最大的最优值函数所对应的匹配实际嵌入VNR,然后找到两个具有一定带 宽的SN节点之间的最短路径来匹配VN链路。
作为改进,所述S105中,遍历每个节点映射的匹配时,需要首先对其做如下缩小处理:
使用生成多个节点映射候选项的概率方法,使用度量RW和统一值,生成具有RW和均 匀选择概率的节点映射候选项。
相对于现有技术,本发明至少具有如下优点:
1.利用神经网络来近似VNE状态的值函数,对于具有巨大状态空间的VNE问题,神经 网络有助于从以前经验丰富的状态推广到从未见过的状态。
2.基于时序差分学***衡,通过主动学习和基于以往经验的在线决策来克 服在线嵌入决策与长期目标的矛盾,更有效的解决资源分配问题,提高资源利用率。
附图说明
图1为一个VNE问题的例子
图2为一个示例拓扑。
图3一个VNE问题的例子。
图4实例的嵌入结果。
图5用RL概念说明了VNE过程。
图6逼近最优值函数的神经网络
图7(a)为不同算法中阻塞比与参数d的关系图,图7(b)为不同算法中每秒收益与参 数d的关系图。
图8(a)为不同算法中阻塞比与时间的关系图,图8(b)为不同算法中每秒收益与时间 的关系图,图8(c)为不同算法中WAPL与时间的关系图。
图9为损失与训练次数的关系图。
图10(a)为不同算法中阻塞比与工作负载的关系图,图10(b)为不同算法中每秒收益 与工作负载的关系图,图10(c)为不同算法中WAPL与工作负载的关系图。
图11(a)为阻塞比与节点映射候选项数目的影响关系图,图11(b)为每秒收益与节点 映射候选项数目的影响关系图。
图12(a)为不同算法中阻塞比与VNRs链路连通度的关系图,图12(b)为不同算法中每秒收益与VNRs链路连通度的关系图。
具体实施方式
下面对本发明作进一步详细说明。
VNE问题的主要挑战在于在线决策与追求长期目标之间的矛盾。现有技术试图通过平衡 SN工作负载来克服这个挑战,希望能够容纳更多未来的VNRs。然而,这里的问题是节点的 连接能力涉及到其他节点。节点连接性能力的消耗并不一定只会降低其自身的能力。在图3 中,SN中需要嵌入一个SN和一个VNR。以现有技术中的节点级别度量(名为GRC)为例。将 参数d设置为0.85,SN节点的GRC值如图4所示为“Original”。为了平衡SN工作负载,GRC-VNE将选择GRC测量到的节点和连通性结合能力最强的两个节点,即节点B和节点G 来匹配VNR中的两个节点(节点a和节点b)。因此,剩余的GRC值如图4所示为“After VNRembedded by GRC-VNE”,这些值的方差为0.0032。相比之下,本发明提出的VNE-TD算法 选择节点B和节点C。剩余GRC值如图4所示为“After VNR embedded by VNE-TD”,这些值 的方差为0.0016。这个表明,现有技术中平衡SN工作负载的工作的基本假设是有问题的。 它既不能带来更平衡的工作负载,也不能带来更多的剩余资源。
一种基于时序差分学习的虚拟网络嵌入算法,包括如下步骤:
S101:建立VNE模型
将底层网络SN建模为加权无向图,并将其表示为Gs(Vs,Es),其中Vs是底层节点集,Es是底层链接集,每个底层节点vs∈Vs,具有计算能力(例如CPU周期),每个底层链路es∈Es,具有的带宽;图1底部给出了一个SN的例子。节点和链接周围的数字是它们的可用资源。
图1顶部给出了VNR的一个例子。对于VNR k,tk为VNR到达时间,一个限定的值lk为VNR的寿命。
S102:定义状态
S102a:为VNEk定义一个奖励函数,如公式(1):VNEk表示对第k个VNR的过程;
其中,cv表示节点v的节点容量,be表示链路e的链路带宽,η表示计算资源单价,β表示带宽资源的单价;
奖励函数的目标是最大化InP的长期时间平均收益,具体如下:
其中KT={k|0<tk<T}表示在时间实例T到达之前的多个VNR集合;
奖励函数旨在为给定状态下的某一行为提供一种即时的善行度量。由式(2)可知,VNE问 题的目标是使InP的长期平均时间收益最大化。因此,很自然地将处理VNR k后的即时奖励 定义为Rvn(k),即rk=Rvn(k)。
S102b:为VNE定义操作集:VNE的操作集定义为所有可能的节点映射的集合;
S102c:为VNE定义马尔科夫状态:
在RL中,成功地保留所有相关信息的状态信号称为马尔可夫;
对于马尔可夫状态,所有重要的是当前状态信号;它的意义独立于通向它的路径或历史 信号。更具体地说,在最常见的因果关系中,环境的反应可能取决于之前发生的一切。在大 多数RL问题中,转换函数是概率函数。在这种情况下,动力学只能通过指定完整的概率分 布来表示:
Pr{sk+1=s′,rk+1=r|sk,ak,rk,sk-1,ak-1,...,r1,s0,a0} (4)
另一方面,如果状态信号具有马尔可夫特性,那么k+1处的环境响应只依赖于k处的状 态和动作,在这种情况下,仅通过指定以下内容,就可以确定环境的动态;
Pr{sk+1=s′,rk+1=r|sk,ak} (5)
S103:将VNE模型化为马尔可夫决策过程MDP;
S103a:定义策略和值函数:
满足马尔可夫特性的强化学习任务称为马尔可夫决策过程,由于本发明给出的VNE状态 是一种马尔可夫状态,因此可以将VNE问题的决策过程完美地建模为MDP。
在MDP中,给定任意状态s和动作a,每一个可能的下一个状态s’的概率表示为:
这些量叫做跃迁概率;同样,下一个奖励的期望值记为:
从RL的角度看,VNE的目标是找到一个在任何时间、任何状态下选择最优的行动最优 策略;
VNE代理的策略是在状态s下从每个状态s和动作a到采取动作A的概率的映射,将策 略和相应的概率表示为π和π(s,a);
几乎所有的强化学习算法都是基于估计值函数,状态函数,来估计代理处于给定状态的 好坏;
给定策略π,VNE的值函数是VNE状态的函数,,将值函数表示为Vπ(s),s∈S,Vπ(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力,它的正式定义如公式(8):
Rk是来自VNR k的所有奖励的总和,γ是决定未来奖励现值的折现率,
S103b:定义最优值函数:
从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略;
对于最优值函数V*(s),有以下迭代表达式:
S104:神经网络求解V(s),使V(s)逼近最优值函数V*(s):
使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数V*(s),如图6所 示。fc1和fc2层节点数相同,记为H,使用整流器作为激活函数,神经网络的输入为状态s, 如式(3)所示,通过计算,神经网络以状态s为输入,输出值V(s),期望近似于V*(s);
其中α为控制学习速度的正步长参数;
S105:在VNE中,给定一个VNR,我们知道可能的操作和相应的下一个状态。因此,和是确定的,已知的。遍历每个节点映射的匹配,将其作为操作集,将操作集模拟嵌入 的结果状态集作为S104中神经网络的输入,得到多个最优值函数的值。由于最优策略π*(s) 可表示为:
即,值最大的便符合最优策略。
S106:选择值最大的值函数所对应的节点实际嵌入VNR,然后找到两个具有一定带宽的 SN节点之间的最短路径来匹配VN链路。
本发明使用了一种RL方法,即时序差分(缩写为TD)学习,来更新最优值函数的估计, 并根据估计做出嵌入决策,具体地,TD学习更新其估计V*(s)如下:
根据上述更新规则,V*(s)和V(s)分别处于TD和监督学习的过程中,且同时进行。
算法VNE-TD是在VNR到达时进行嵌入决策的函数。正如算法VNE-TD所示,输入到神经网络的状态是每个节点映射候选项模拟嵌入的结果状态,选择值最大的节点实际嵌入VNR。建立节点映射后,找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。 如果允许可分割流,则使用与[12]相同的多商品流算法映射虚拟链接。根据表达式(12),我们应 该选择最大化的匹配j。因为奖励(r=Rvn(VNR))为候选人是相同的,我们可以 选择最大化V(sjn)的匹配j。当VNR的生命周期结束时,它将离开SN并释放前面描述的分 配给它的资源。SN的状态会改变。然而,神经网络的参数在VNR离开时和到达时是不更新的。
作为改进,所述S105中,确定值最大的最优值函数时,由于可能的操作集太大,无法
遍历,需要首先对操作集做如下缩小处理:使用生成多个节点映射候选项的概率方法,
使用度量RW和统一值,生成具有RW和均匀选择概率的节点映射候选项。
本发明方法具体详述如下:
表1本发明中使用的符号和记法
1.1VNE模型
将SN建模为加权无向图,并将其表示为Gs(Vs,Es),其中Vs是底层节点集,Es是底层链接集。每个底层节点vs∈Vs,具有计算能力(例如CPU周期),每个底层链路es∈Es, 具有的带宽。图1底部给出了一个SN的例子。节点和链接周围的数字是它们的可用资 源。
1.1.1虚拟网络请求
一个VNR k也可以建模为一个无向图,记为Gk(Vk,Ek),其中Vk是虚拟节点集和Ek是虚拟 链接的集合。每个虚拟节点vk∈Vk,具有计算能力,每个虚拟链路ek∈Ek,具有的带 宽需求。图1顶部给出了VNR的一个例子。对于VNR k,tk为VNR到达时间,一个限定的值 lk为VNR的寿命。
2.2 VNE过程
对于VNR k,VNE流程由以下两个关键组件组成,即节点映射和链接映射
2.2.1节点映射
节点映射可以描述为一对一映射,即MN:Vk→Vs,这样,对于MN(vk)=vs,vk∈Vk和vs∈Vs, 下列两个条件必须满意:(1)如果那么(2) 第一个约束确保VNR的任意两个节点映射到SN的两个不同节点,第二个约束 要求每个VN节点映射到一个具有一定节点容量的SN节点。
2.2.2链路映射
在链路映射阶段,对于VNR中的一个虚拟链路,需要在SN中的两个映射节点之间找到 一组路径,这些节点的总可用带宽大于虚拟链路的要求。在本发明中,只考虑单路径映射的 情况,即一个虚拟链接只能映射到一个SN路径。在单路径映射的情况下,链接映射可以用 映射表示。其中,是Gs的所有路径的集合。对于必须满足以下条件:
VNE问题必须作为一个在线问题来处理。VNRs动态到达***,VNE算法必须在到达时 处理VNRs。
2.3VNE收入模型和目标
VNE收益模型类似,InP产生的收益由下式表示:
其中η和β分别表示计算资源和带宽资源的单价。
目标是最大化InP的长期时间平均收益,具体如下:
其中KT={k|0<tk<T}表示在时间实例T到达之前的VNRs集合。
3.在RL模型中拟合VME
RL作为学习算法如何将情境映射到行动,从而最大化数字奖励信号。如图5所示,代理 是学习的主体,环境是学习的对象。代理能够执行操作。执行操作可能会使代理处于当前状 态,或者导致状态空间向另一状态的转换。转换函数可以是概率函数,也可以是确定性函数。 作为代理行为的结果,环境为代理生成一个奖励。通常情况下,奖励的价值是通过预先设定 的奖励函数来计算的,该函数是用来控制对代理的增强过程。
奖励功能的目的是为特定状态下的某一行为提供一种即时的善行度量。每个动作的奖励 取决于新状态是否优于当前状态。随着时间的推移,代理尝试学习为每个特定状态执行的最 佳操作,即将长期总回报最大化的操作。在RL中,涉及到一个值函数,通过在有限的范围 内积累相关的即时回报以指示未来什么是最好的。
下面将更具体地说明,一方面,VNE问题的目标是使InP的长期时间平均收益最大化; 另一方面,应根据目前的情况和以往的经验,在VNR出现后立即做出嵌入决策。VNE问题的性质既有长期目标又有在线决策为RL的参与提供了良好的环境。在图5中,展示了怎样在RL模型中拟合VNE问题。对于VNE问题,从RL的角度把SN和不断到来的VNRs看作 一个整体,构成了环境。在VNE问题中,处理一个VNR形成一个RL周期。对于VNR k+1, VNE代理根据当前状态sk和以前的经验其中可能包括所有以前的状态和奖励给出一个嵌入决 策ak,。在行动ak之后,环境给出结果状态sk+1,和奖励rk+1。
3.2为VNE定义一个奖励函数
如前所述,奖励函数旨在为给定状态下的某一行为提供一种即时的善行度量。由式(2)可 知,VNE问题的目标是使InP的长期平均时间收益最大化。因此,很自然地将处理VNR k 后的即时奖励定义为Rvn(k),即rk=Rvn(k)。
显然,这种奖励函数可以很容易地适应VNE的其他目标。这意味着用RL解决VNE问题是非常灵活的。例如,如果VNE的目标是最小化阻塞比,那么如果成功嵌入了VNR,我 们可以将奖励设置为1,否则设置为0。
3.3为VNE定义一个操作集和一个马尔可夫状态
如何定义状态和行为是关系到RL绩效的关键。在本发明中,VNE的操作集被定义为所 有可能的节点映射的集合。如果按照节点映射的行动嵌入不成功,则会阻塞VNR,对SN不做任何操作。
在VNE问题中,我们知道当前的VNR但不知道下一个。因此,在下一个VNR到达之前,如果包含了表示环境的VNR状态,则无法确定环境的下一个状态。因此,虽然VNE问 题的环境包括SN和多个VNR如图5所示,但我们只使用SN的状态来表示环境。
在RL中,成功地保留所有相关信息的状态信号称为马尔可夫。
对于马尔可夫状态,所有重要的是当前状态信号;它的意义独立于通向它的路径或历史 信号。更具体地说,在最常见的因果关系中,环境的反应可能取决于之前发生的一切。在大 多数RL问题中,转换函数是概率函数。在这种情况下,动力学只能通过指定完整的概率分 布来表示:
Pr{sk+1=s′,rk+1=r|sk,ak,rk,sk-1,ak-1,...,r1,s0,a0} (4)
另一方面,如果状态信号具有马尔可夫特性,那么k+1处的环境响应只依赖于k处的状 态和动作,在这种情况下,仅通过指定以下内容,就可以确定环境的动态:
Pr{sk+1=s′,rk+1=r|sk,ak} (5)
3.4将VNE模型化为马尔可夫决策过程
满足马尔可夫特性的强化学习任务称为马尔可夫决策过程(MDP)。由于本发明给出的 VNE状态是一种马尔可夫状态,因此可以将VNE问题的决策过程完美地建模为MDP。
在MDP中,给定任意状态s和动作a,每一个可能的下一个状态s’的概率表示为:
这些量叫做跃迁概率。同样,下一个奖励的期望值记为:
从RL的角度看,VNE的目标是找到一个在任何时间、任何状态下选择最优的行动最优 策略。
定义:VNE代理的策略是在状态s下从每个状态s和动作a到采取动作a的概率的映射。 我们将策略和相应的概率表示为π和π(s,a)。
定义:给定策略π,VNE的值函数是VNE状态的函数。我们将值函数表示为Vπ(s),s∈S。Vπ(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力。它的正式定义如下:
Rk是来自VNR k的所有奖励的总和。γ是决定未来奖励现值的折现率。
从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略 π。
命题:对于最优值函数V*(s),我们有以下迭代表达式:
证明:
式(9)表示当前状态的最优值与可能下一状态的最优值之间的关系,给出最优值函数,如 何得到最优动作。
3.5最优值函数的逼近
在本发明中,我们使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数 V*(s),如图6所示。fc1和fc2层节点数相同,记为H。使用整流器作为激活函数,这可能是 截至2018年,深度神经网络最常用的激活函数。神经网络的输入为状态s,如式(3)所示。通 过计算,神经网络以状态s为输入,输出值V(s),期望近似于V*(s)。
其中α为控制学习速度的正步长参数。
3.6用TD学习解决VNE问题
然而,由于可能的操作集太大,无法遍历。因此,我们需要显著缩小搜索空间。如下面 的算法GC_GRC所示,使用节点排序度量(名为GRC),开发了一种生成多个节点映射候选项 的概率方法。然而,本发明算法与GRC的度量无关。考虑了另外两个度量,即度量(称为RW) 和统一值。生成具有RW和均匀选择概率的节点映射候选项的两种算法分别为GC_RW和GC_UNI。在算法GC_GRC中,参数L是生成的节点映射候选数。
在本发明中,使用了一种RL方法,即时序差分(缩写为TD)学习,来更新最优值函数的估计,并根据估计做出嵌入决策。具体来说,TD学习更新其估计V*(s)如下:
根据上述更新规则,V*(s)和V(s)分别处于TD和监督学习的过程中,且同时进行。
算法VNE-TD是在VNR到达时进行嵌入决策的函数。在VNE-TD中,神经网络参数按正态分布初始化。正如算法VNE-TD所示,输入到神经网络的状态是每个节点映射候选项模拟嵌入的结果状态,选择值最大的节点实际嵌入VNR。建立节点映射后,找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。如果允许可分割流,则使用多商品流算法 映射虚拟链接。根据表达式(12),应该选择最大化的匹配j。因为奖励(r=Rvn(VNR))为候选人是相同的,可以选择最大化V(sj n)的匹配j。嵌入VNR后,算法VNE-TD在内存中存储三元组<sc,r,sn>,如第26行所示。内存可以存储的最大三元组数量设置为1000。内存遵循FIFO(先进,先出)的替换规则。为了使神经网络的训练更加顺畅和优化,相对于表达式(14)所描述的单步方式,参数是分批更新的。VNE-TD从内存中随机抽取批量大小的三元 组,用批量大小的三元组训练神经网络。如式(14)所示,一个三元组<sc,r,sn>的训练误差是 r+γVk(sn)-Vk(sc)。该批处理训练过程的目标是使批处理的均方误差即损失最小。如第2行所示,VNE-TD可以使用三种算法中的任何一种,即GC_GRC、GC_RW或GC_UNI。 使用GC_GRC、GC_RW或GC_UNI的算法分别命名为VNE-TD-GRC、VNE-TD-RW或 VNE-TD-UNI。
当VNR的生命周期结束时,它将离开SN并释放前面描述的分配给它的资源。SN的状态会改变。然而,神经网络的参数在VNR离开时和到达时是不更新的。
评价
1、基准测试和性能指标
将VNE-TD与现有技术中的算法进行了比较。
主要使用以下三个性能指标来比较VNE-TD与其他算法:(1)阻塞比是阻塞VNRs的数量 除以所有VNRs的总数;(2)每秒的收入是到目前为止所获得的总收入除以所经过的秒数;(3)加 权平均路径长度(简称WAPL)是SN中实际分配的所有带宽之和除以所有VNRs链路带宽之和, 即VNR链路映射到的所有路径的加权平均长度。
2、仿真设置
使用Python实现了事件驱动的仿真环境。神经网络及其训练是用Tensorflow实现的, Tensorflow是一个流行的用于神经网络等机器学***均值是VNs的40倍。VNRs一个接一个地到 达,形成一个泊松过程,平均到达速率为每秒一个请求。VNRs的寿命服从指数分布,平均 为μ=70秒。将收益模型中的表达式(1)中的参数η和β值设置为1。将式(8)中的折现率设为1, 因为我们发现设γ为1使得神经网络收敛更平稳、更快。对于神经网络,我们将隐含层节点 数H设为300,与神经网络的输入数大小相同。以下评估子部分中的批大小根据经验设置为 50。节点映射候选项(即L)的数量设置为40。除非另行说明,以上参数在以下各小节中不会 更改。
除4小节外,以下小节中的每个仿真系列将运行三次。每次都将使用与前面描述的相同 的SN和VNRs拓扑结构,以及随机节点容量和链路带宽的不同集合。三次运行的标准偏差 用误差条表示如下仿真结果。
1、GRC参数d的鲁棒性
一般来说,GRC的计算基于两个因素,即节点容量和与其他节点的连接能力。用GRC的参数d来平衡这两个因素。在图7(a)中,展示了不同算法的阻塞比。在图7(b)中,展示了每秒的收入。从图7中可以看出,VNE-TD-GRC对参数d不敏感,而GRC-VNE的性能明显 依赖于参数d。此外,当d相对较小时,GRC-VNE的偏差非常大。VNE-TD-GRC的偏移量 小且稳定。在仿真设置的阻塞条件下,链路带宽的需求比节点容量更大,也更关键。因此, 对于GRC-VNE,需要将参数d调整到接近1.00,以支持连接能力的因素,而几乎忽略了节 点容量的因素。相比之下,VNE-TD-GRC只使用GRC的度量来帮助缩小搜索范围,而依赖 于值函数来做出节点映射的最终决策。这就是为什么与GRC-VNE相比,VNE-TD-GRC对参 数d不敏感的原因。显然,这是VNE-TD-GRC的一个非常理想的属性,因为VNRs并不是预 先知道的,并且随着时间的推移会发生很大的变化。
因此,本发明将参数d设置为VNE-TD-GRC为0.95,GRC-VNE为0.995。
2、TD学习的影响
为了显示TD学习的影响,我们用Rand-GRC算法(指随机选择GRC)来与VNE-TD-GRC进行比较。与算法VNE-TD-GRC类似,算法Rand-GRC使用算法GC-GRC概率性地生成L 节点映射候选项。不同的是,它并没有选择V(s)所表示的最大值,而是从所有可以成功嵌入 的候选项中随机选择一个候选项。这意味着与VNE-TD-GRC相比,Rand-GRC丧失了学习能 力。在本小节的模拟中,L被设置为10。
从图8(a)中可以看出,尽管节点映射是概率性的,但是由于有多个候选项,算法Rand-GRC 的阻塞比优于GRC-VNE。这意味着,即使在训练过程中,VNE-TD-GRC仍然可以比GRC-VNE 表现得更好。此外,与GRC-VNE相比,当TD学习涉及到从多个候选对象中选择最优时, 阻塞比在3900时显著提高了67.2%。从图8(b)可以看出,与GRC-VNE相比,VNE-TD-GRC算法在3900时每秒可以增加13.9%的收益。有趣的是,Rand-GRC在每秒的收入方面几乎和GRC-VNE一样好,尽管它在阻塞比方面要比GRC-VNE好。似乎Rand-GRC只擅长嵌入收益 较低且相对容易处理的VNRs。从图8(c)可以看出,由于节点的概率映射,算法Rand-GRC 较GRC-VNE显著提高了WAPL。而算法TD-VNE-GRC可以有效地克服这一缺点。这意味着 使用TD学习可以通过保持阻塞比和WAPL较低来帮助提高每秒的收入。
在图9中,我们展示了随着训练次数的增加,损失的变化情况。损失是训练批次的均方 误差,是训练过程的最小目标。从图9可以看出,损失在第700次训练时收敛到局部最优, 即处理第700次VNR后的时间。在局部最优时,损失约为400(误差约为20)。平均报酬约为 92,局部最优时的损失相对较小,这可能意味着用所提出的神经网络逼近效果较好。
3、工作负载的影响
我们通过将VNRs的平均生存期从40秒更改为100秒来展示工作负载的影响。我们还添 加算法LC-GRC(代表GRC成本最低的节点,(我们的算法是选择最大的进行对比),它使用 算法GC-GRC生成L节点映射候选项,并选择SN中成本最低的候选项。
从图10中可以看出,与其他算法相比,随着工作负载的增加,所提出的三种VNE-TD算法的阻塞比和每秒的收益都有了持续的提高。其中,与GRC-VNE和RW-MM-SP相比,算 法VNE-TD-GRC在最高工作负载下每秒的收益分别增加了24.8%和17.1%。
算法VNE-TD-GRC在三个版本的VNE-TD中表现最好。算法VNE-TD-UNI性能最差, 在三个版本中偏差最大。这意味着两个指标GRC和RW确实有助于VNE-TD专注于一个更 有前景的搜索领域,尽管改进幅度不大。此外,它还显示了VNE-TD与其他VNE算法相结 合的潜力。
4、参数L的影响
在图11中(a)和(b),我们展示节点映射候选人的数量的影响,即参数L.这表明与GRC-VNE 相比,VNE-TD-GRC每秒能进一步提高阻塞比和收入分别从79.6%和17.4%、82.3%和18.3%, 同时L从40增加到60。根据3.7节中VNE-TD的计算复杂度,将L从40增加到60不会导 致计算时间的不可接受的增加。
5、拓扑属性的影响
在图12中,我们展示了VN节点链路连通度的影响。随着链路连通度的提高,VN节点的连通度也随之提高,这意味着嵌入难度也随之增加。从图12可以看出,当链路连通性较高时,VNE-TD-GRC比GRC-VNE工作得更好。当链路连通性为0.5时,VNE-TD-GRC的每秒 收益比GRC-VNE高23.1%。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进 行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利 要求范围当中。
Claims (2)
1.一种基于时序差分学习的虚拟网络嵌入方法,其特征在于:包括如下步骤:
S101:建立VNE模型
S102:定义状态
S102a:为VNEk定义一个奖励函数,如公式(1):VNEk表示对第k个VNR的过程;
其中,cv表示节点v的节点容量,be表示链路e的链路带宽,η表示计算资源单价,β表示带宽资源的单价;因此,很自然地将处理VNRk后的即时奖励定义为Rvn(k),即rk=Rvn(k);
S102b:为VNE定义操作集:VNE的操作集定义为所有可能的节点映射的集合;
S102c:为VNE定义马尔科夫状态:
在RL中,成功地保留所有相关信息的状态信号称为马尔可夫;
如果状态信号具有马尔可夫特性,那么k+1处的环境响应只依赖于k处的状态和动作,在这种情况下,仅通过指定以下内容,就可以确定环境的动态;
Pr{st+1{s′,rk+1=r|sk,ak} (5)
S103:将VNE模型化为马尔可夫决策过程MDP;
S103a:定义策略和值函数:VNE代理的策略是在状态s下,从每个状态s和动作a到采取动作a的概率的映射,给定策略π,VNE的值函数是VNE状态的函数,将值函数表示为Vπ(s),s∈S,Vπ(s)可以被看作是容纳未来的VNRs和产生长期收入的潜力,以此来度量当前状态的好坏,它的定义如公式(8):
Rk是来自VNRk的所有奖励的总和,γ是决定未来奖励现值的折现率;
S103b:定义最优值函数:
从RL的角度研究VNE问题的目的是寻找一种从长期来看能够获得最大回报的最优策略;
设π*是一个最优策略,当且仅当,给定任意的策略π,π*>=π,即意味着对于所有的s,s∈S,有Vπ*(s)>=Vπ(s);
对于最优值函数V*(s),有以下迭代表达式:
S104:利用神经网络逼近最优值函数V*(s),即最优策略下的值函数:
使用一个标准的前馈神经网络与2个完全连接(fc)层来近似最优值函数V*(s),fc1和fc2层节点数相同,记为H,使用整流器作为激活函数,神经网络的输入为状态s,如式(3)所示,通过计算,神经网络以状态s为输入,输出值V(s),期望近似于V*(s);
其中α为控制学习速度的正步长参数;
S105:在VNE中,给定一个VNR,我们知道可能的操作和相应的下一个状态,因此,和是确定的,已知的,遍历每个节点映射的匹配,将其作为操作集,将操作集模拟嵌入的结果状态集作为S104中神经网络的输入,得到多个最优值函数的值,由于最优策略π*(s)可表示为:
即,值最大的便符合最优策略,
S106:选择值最大的最优值函数所对应的匹配实际嵌入VNR,然后找到两个具有一定带宽的SN节点之间的最短路径来匹配VN链路。
2.如权利要求1所述的一种基于时序差分学习的虚拟网络嵌入方法,其特征在于:所述S105中,遍历每个节点映射的匹配时,需要首先对其做如下缩小处理:
使用生成多个节点映射候选项的概率方法,使用度量RW和统一值,生成具有RW和均匀选择概率的节点映射候选项。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527020.7A CN110233763B (zh) | 2019-07-19 | 2019-07-19 | 一种基于时序差分学习的虚拟网络嵌入算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910527020.7A CN110233763B (zh) | 2019-07-19 | 2019-07-19 | 一种基于时序差分学习的虚拟网络嵌入算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110233763A CN110233763A (zh) | 2019-09-13 |
CN110233763B true CN110233763B (zh) | 2021-06-18 |
Family
ID=67859663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910527020.7A Expired - Fee Related CN110233763B (zh) | 2019-07-19 | 2019-07-19 | 一种基于时序差分学习的虚拟网络嵌入算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110233763B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TR202104311A2 (tr) * | 2021-03-05 | 2021-04-21 | Havelsan Hava Elektronik Sanayi Ve Ticaret Anonim Sirketi | 5g ve ötesi̇ ağlarda sanal ağ gömme problemi̇ni̇n çoklu fi̇zi̇ksel ağ yapisini kullanan deri̇n bi̇lgi̇ maksi̇mi̇zasyonu i̇le çözümlenmesi̇ yöntemi̇ |
CN113193999B (zh) * | 2021-04-29 | 2023-12-26 | 东北大学 | 一种基于深度确定性策略梯度的虚拟网络映射方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103259744A (zh) * | 2013-03-26 | 2013-08-21 | 北京航空航天大学 | 一种基于分簇的移动虚拟网络映射方法 |
CN103457752A (zh) * | 2012-05-30 | 2013-12-18 | 中国科学院声学研究所 | 一种虚拟网络映射方法 |
CN108650191A (zh) * | 2018-04-20 | 2018-10-12 | 重庆邮电大学 | 一种虚拟化网络中映射策略的决策方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10097372B2 (en) * | 2014-01-09 | 2018-10-09 | Ciena Corporation | Method for resource optimized network virtualization overlay transport in virtualized data center environments |
-
2019
- 2019-07-19 CN CN201910527020.7A patent/CN110233763B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103457752A (zh) * | 2012-05-30 | 2013-12-18 | 中国科学院声学研究所 | 一种虚拟网络映射方法 |
CN103259744A (zh) * | 2013-03-26 | 2013-08-21 | 北京航空航天大学 | 一种基于分簇的移动虚拟网络映射方法 |
CN108650191A (zh) * | 2018-04-20 | 2018-10-12 | 重庆邮电大学 | 一种虚拟化网络中映射策略的决策方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110233763A (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Seghir et al. | A hybrid approach using genetic and fruit fly optimization algorithms for QoS-aware cloud service composition | |
CN107995039B (zh) | 面向云软件服务的资源自学习与自适应分配方法 | |
Zhang et al. | Intelligent cloud resource management with deep reinforcement learning | |
CN112882815B (zh) | 基于深度强化学习的多用户边缘计算优化调度方法 | |
Marden et al. | Game theory and distributed control | |
WO2020082973A1 (zh) | 基于神经网络的负荷预测方法及装置 | |
CN111124689B (zh) | 一种集群中容器资源动态分配方法 | |
Yu et al. | Efficient task sub-delegation for crowdsourcing | |
Su et al. | Optimal resource allocation in sdn/nfv-enabled networks via deep reinforcement learning | |
CN110233763B (zh) | 一种基于时序差分学习的虚拟网络嵌入算法 | |
Rjoub et al. | A trust and energy-aware double deep reinforcement learning scheduling strategy for federated learning on IoT devices | |
CN110247795A (zh) | 一种基于意图的云网资源服务链编排方法及*** | |
CN109976901A (zh) | 一种资源调度方法、装置、服务器及可读存储介质 | |
Guan et al. | Slice reconfiguration based on demand prediction with dueling deep reinforcement learning | |
Cheng et al. | VNE-HRL: A proactive virtual network embedding algorithm based on hierarchical reinforcement learning | |
Liu et al. | Towards a robust meta-reinforcement learning-based scheduling framework for time critical tasks in cloud environments | |
Fan et al. | DRL-D: Revenue-aware online service function chain deployment via deep reinforcement learning | |
Bensalem et al. | Towards optimal serverless function scaling in edge computing network | |
CN116033026A (zh) | 一种资源调度方法 | |
CN116566891A (zh) | 时延敏感的服务功能链并行路由优化方法、装置及介质 | |
CN116389255A (zh) | 一种改进双深度q网络的服务功能链部署方法 | |
CN113220437B (zh) | 一种工作流多目标调度方法及装置 | |
CN113037648B (zh) | 数据传输方法及装置 | |
CN115220818A (zh) | 基于深度强化学习的实时依赖型任务卸载方法 | |
Gowri et al. | Fog-cloud enabled internet of things using extended classifier system (XCS) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210618 |