一种基于状态感知的网络切片资源管理方法
技术领域
本发明属于移动通信技术领域,涉及一种基于状态感知的网络切片资源管理方法。
背景技术
网络切片是一个逻辑网路,该逻辑网络用于实现某种特定的通信服务,切片内包含数条 服务功能链,每条服务功能链由数个VNF有序组成,每个VNF完成一项协议功能,一系列VNF 便可以完成整个协议栈功能。这些VNF以软件的形式在通用服务器上实例化并运行,而VNF 的执行需要资源的支持。在接入网切片里,不仅动态变化的网络拓扑会影响资源分配,而且 终端的移动会恶化通信服务质量以至于需要调整接入网切片内的资源编排和映射。因此,本 章将着重研究存在移动终端的接入网切片的资源优化管理问题。
切片网络的移动性管理是切片领域的重点之一。在接入网切片里,UE可能会发生移动, 移动后UE可能需要新的传输路径从而会涉及到切片内的资源重配置,如何在有移动UE的切 片内优化管理资源实时保证时延等指标是一个重要的研究内容。当前时刻一个UE从RRU移 动到RRU时,该移动性会涉及到无线资源重分配问题。下一代接入网将实现虚拟化,则在一 个接入网切片内,UE通过RRU将数据传输到对应的SFC。由于接入网基础设施特殊性,当一 个UE移动到另一个RRU时,UE需要一条新的路径将数据从传输到它对应的SFC,从而需要 为新路径提供链路资源。因此,此时接入网切片内的链路资源需要重配置,从而为新路径提 供可用的链路资源。同时,重配置链路资源也会涉及到部分VNF迁移到其他服务器,因此切 片内的计算资源可能也需要重配置。
发明内容
有鉴于此,本发明的目的在于提供一种基于状态感知的网络切片资源管理方法,该方法 能够感知移动性且通过优化资源分配来降低时延和减小迁移损失。
为达到上述目的,本发明提供如下技术方案:
一种基于状态感知的网络切片资源管理方法,在该方法中,将存在移动UE的接入网切 片的资源管理问题抽象成一个MDP模型,在模型中考虑了计算、链路和无线资源的联合分 配,并在优化时延的同时降低虚拟网络功能(Virtual network function,VNF)迁移带来的数 据损失;同时,考虑到未知的状态转移概率,采用深度强化学习(Deep QNetwork,DQN) 求解马尔科夫决策过程(Markov Decision Processes,MDP)问题。
进一步,所述计算、链路和无线资源的联合分配,具体包括:网络切片***模型分为三 层,其应用层主要负责为这个切片提供VNF构成服务功能链(Service functionchain,SFC), 通过SFC有序完成一系列协议栈功能;虚拟化层负责管理和控制整个切片网络,在本模型中 具体包括资源管理和状态观测,物理层包含实现该切片的物理资源,包括DU池和CU池, 且两者通过前传网络实现相互通信;CU池是由通用服务器组成的物理网络,DU池是由服务 器和RRU组成的网络;切片内的UE集合为U,底层物理网络节点集合为N,链路集合为L, RRU集合为M和SFC集合为K。
进一步,所述计算、链路和无线资源的联合分配,具体包括:每次UE移动后,需要新的路径将数据从所连接的RRU传输到对应的SFC,新路径如果无法占有充足的链路资源,将会增加传输时延,这会严重降低频繁移动的时延敏感业务的服务质量;在调整SFC的资源分配时,其中一些VNF可能需要迁移到新的服务器上重新实例化;根据t时刻的资源分配策略,服务器n上有些VNF移动到
时,这两个服务器上的VNF分布情况发生了变化,此时需要为 这新的VNF分布情况重新分配资源,所有的VNF需要重新实例化;由于重新实例化VNF是 需要时间的,设服务器n上实例化所有VNF所需时间为μ
n,在μ
n时间内,服务器n上所有 VNF停止工作;然而,UE发送数据是连续不断的,在μ
n时间内进入到服务器n上的数据不 会被处理,而是直接忽略了,所以造成了数据丢失,也称为迁移损失;一方面,无线资源、 计算资源和链路资源的联合分配可以降低时延,另一方面,调整资源分配时的VNF迁移又会 带来很大的迁移损失;本模型中既要优化时延也要保证较低的迁移损失,所以联合优化时延 和迁移损失;设这两个指标组成的效用函数为R(t),且R(t)表示为
其中φ(t)为该切片在时刻t的迁移损失,D(t)为切片内的总时延,Υ是一个常数,等于切 片中所有链路容量之和。
进一步,所述的切片内的总时延:
UEu在接入网切片里的时延D
u(t)包 括四部分:数据在无线信道上的传输时延
数据从RRU传输到对应SFC的传输时延
以及数据在SFCk
u上的传输时延
和处理时延
其中数据在无线信道上的传输时延
d
u(t)表示UEu在t时刻的数据发送速 率,C
u(t)表示UEu所占的无线带宽能传输的最大数据率;
其中数据从RRU传输到对应SFC的传输时延
参数
表示t时刻链路l在路径p
u(t)上,否则为0;
表示路径p
u(t)在链路l上占用的带宽资源; τ是一个极小的常数,其目的是为了避免分母为0;
其中数据在
上的传输时延
表示时刻
中第j个VNF传输到相邻VNFj+1的数据速率,二进制参数
表示t时刻VNFj用链 路l发送数据,否则值为0;
表示VNFj在链路l上占用的带宽资源用于发送数据给下 一个相邻的VNF;
其中
的处理时延
表示时刻
实例化在服务器n上,否则其值为0;
表示时刻tVNFj在服务器上n上占用的计算资源。
进一步,所述的MDP模型包括:
状态空间:状态空间定义为
其中,h表示切 片内所有RRU的无线信道状态,H表示信道状态空间;x表示RRU和UE的连接状态,X表示连接状态空间;d表示切片内所有UE的数据发送率状态,D表示数据发送率状态空间;
表示物理网络的拓扑状态,ψ则是物理网络的拓扑状态空间;
动作空间:动作空间定义为A={(ar,ac,ab)|ar∈Ar,ac∈Ac,ab∈Ab},其中ar表示切片内的 无线资源分配动作,Ar表示无线资源分配动作空间,其由切片内所有UE可能的无线资源分 配方式组成;ac表示切片内的计算资源分配动作,且Ac表示其对应的动作空间;ab表示切片 内的链路资源分配动作,Ab表示切片内的链路资源分配动作空间;
在t时刻***状态为s(t)且采取动作a(t),有概率的会转移到***状态s(t+1),设此转移概 率为Pr(s(t),a(t),s(t+1));
在***状态s(t)采取动作a(t)后,***会获得立即回报R(s(t),a(t))
其中,
由时延和迁移损失计算所得;设初始状态为s(t)的 动作策略为π,具体表示为,π={(s(t),a(t)),(s(t+1),a(t+1)),....,(s(t+T),a(t+T))},其中T表 示迭代次数;由于每次采取动作后就会得到一个立即回报,则策略π下的长远期望回报
其中0<γ<1是折扣因子;由于该模型中的状态是各态历经 的,则会存在一个稳定的无限期望长远回报
所以,将优 化目标转化为
其中Ω表示所有可能的策略的集合,最优策略
利用值函数贝尔曼迭代获得最优的策略,设状态s(t)的值函数为V(s(t)),且有等式 V(s(t))=ρ(π),其中
表示当前动 作回报,包括立即回报和未来回报;
当V(s(t))取最大值时,即为最优值函数,所对应的动作a即为当前状态下的最优动作;
当已知一系列状态的最优值函数,便可获得状态对应的最优动作,且一系列最优动作将 组成最优的动作策略。
进一步,所述的MDP模型:利用DQN网络获取最优资源分配策略,在完成对DQN网 络的训练后,求解步骤如下:
设定一个空集合O,该集合用于存储每个时间槽的观测数据;
感知接入网切片状态信息s(t),将其存储到集合O中;
如果感知到UE移动,根据DQN输出的最优策略选取最优动作,完成接入网切片的计算、 链路和无线资源分配;
否则等待下一个时隙,继续感知网络切片中UE状态,直到切片生命周期结束。
本发明的有益效果在于:本发明提供的方法针对终端移动性带来的高时延问题,提出了 联合资源管理的马尔可夫模型,感知网络切片中UE状态,通过优化资源分配来降低UE移 动性导致的时延增长和迁移损失,并采用深度Q网络获取优化的资源分配策略,能有效降低 UE移动带来的时延增加,且能够改善数据损失情况。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某 种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发 明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详 细描述,其中:
图1为本发明中网络切片示意图;
图2为本发明中DQN框架示意图;
图3为本发明中资源管理方法流程示意图。
具体实施方式
下面结合附图对本发明的具体实施例进行详细说明。
参见图1,图1为本发明中网络切片示意图。
其中应用层主要负责为这个切片提供VNF构成SFC,通过SFC有序完成一系列协议栈 功能。虚拟化层负责管理和控制整个切片网络,本模型具体包括资源管理和状态观测,物理 层包含实现该切片的物理资源,包括DU池和CU池,且两者通过前传网络实现相互通信。 CU池是由通用服务器组成的物理网络,DU池是由服务器和RRU组成的网络。
基于上行条件下,切片内每个UE拥有一条SFC,例如UE1对应SFC1,UE2对应SFC2。时刻tUE1在RRU3上,UE发送的数据经RRU3到ser1上的VNF1从而将数据发送给SFC1 处理。然而,t+1时刻UE1从RRU3移动到RRU1上,如果UE1依然使用SFC1来处理数据, 则UE1发送的数据需要通过路径RRU1→ser3→ser2→ser1,从而将数据交给SFC1处理,此 时需要为这条新路径分配带宽资源。如果这条路径的时延还是过大,需要改变传输路径,如 若t+1时刻SFC1中的VNF1和VNF2迁移到了ser3,且新的SFC1a代替SFC1,此时UE的 数据经RRU1后可以直接给ser3实现数据到达SFC1a,进一步优化了传输时延。在此过程中 需要为VNF1和VNF2重新分配计算资源,同时,移动性改变了各RRU的负载情况,RRU1 和RRU3需要为它们当前的UE重新分配无线资源。因此,UE移动后如何重新联合配置切片 内资源优化时延等服务指标是本发明需要解决的问题。
参见图2,DQN的框架如图2所示:
设状态s和动作a对应的Q函数为Q(s,a),通过DQN里的神经网络可以估计Q(s,a)的值, 即Q(s,a)≈Q(s,a;ω),其中ω代表神经网络的参数集合,Q(s,a;ω)表示对Q(s,a)的估计值。
负责估计Q函数的神经网络称为主网络,则ω代表的是主网络的参数集合,目标网络用 于输出目标值,且这些目标值用于更新主网络参数。设目标网络的输出为TarQ,且表示为
其中s′表示为状态s的下一个状态,
表示目标网络的参 数集合。
主网络的估计值和目标网络的目标值可以构成损失函数W(ω)=E[(TarQ-Q(s,a;ω))2]
本研究中采用随机梯度下降法更新主网络参数,所以需要求损失函数的梯度,其计算式 表示为
根据损失函数的梯度可以不断更新主网络的参数, 让损失函数值不断下降从而使主网络的估计值更加准确。
主网络的输入q
j包括当前的***状态和历史的状态,其定义为q
j=(s
j-θ,...,s
j-1,s
j)。其中 常数θ是一个正整数,s
j-θ表示时刻j-θ的状态,s
j表示当前时刻j的***状态。本发明采 用ε-greedy策略为状态s
j匹配动作a
j,然后在仿真器里执行动作a
j获得立即回报R(s
j,a
j) 和观察下一个状态s
j+1。利用s
j+1更新主网络的输入为q
j+1,同时将上述数据存储在经验池中, 利用p
j=(q
j,a
j,R(s
j,a
j),q
j+1)存储当前时刻j状态的数据,并将p
j存入经验池中。每次从经 验池中随机选择一个数据
主网络中负责输出
的估计值
而目标网络输出对应的目标值
随机选取一组数据便可 以得到损失函数并利用随机梯度下降法更新主网络的参数。
参见图3,图3是本发明中资源管理方法流程示意图,步骤如下:
步骤301:设定一个空集合O,用于存储每个时间槽的观测数据;
步骤302:观测接入网切片状态信息s(t)并存储到集合O中;
步骤303:感知切片移动性状态,若无UE移动则等待下一时隙运行步骤302,若有UE移动则运行步骤304;
步骤304:构造DQN输入数据并输入DQN网络;
步骤306:根据近似最优策略对应的动作管理网络切片资源;
步骤307:切片生命周期是否结束,若结束则资源管理方法结束运行,否则t=t+1,运 行步骤302。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施 例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进 行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求 范围当中。