CN113098714A - 一种基于深度强化学习的低时延网络切片的方法 - Google Patents

一种基于深度强化学习的低时延网络切片的方法 Download PDF

Info

Publication number
CN113098714A
CN113098714A CN202110334767.8A CN202110334767A CN113098714A CN 113098714 A CN113098714 A CN 113098714A CN 202110334767 A CN202110334767 A CN 202110334767A CN 113098714 A CN113098714 A CN 113098714A
Authority
CN
China
Prior art keywords
network
service function
node
value
mapping
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110334767.8A
Other languages
English (en)
Other versions
CN113098714B (zh
Inventor
朱洪波
高健
朱晓荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110334767.8A priority Critical patent/CN113098714B/zh
Publication of CN113098714A publication Critical patent/CN113098714A/zh
Application granted granted Critical
Publication of CN113098714B publication Critical patent/CN113098714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0896Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出了一种基于深度强化学习的低时延网络切片的方法,通过对网络切片中低时延业务的时延约束条件以及服务功能和链路的映射条件构建了资源分配和路由的最优化问题;在进行求解的过程中,提出建立了该场景下的马尔可夫模型,利用强化学习中的DDQN来求解在低时延网络切片中的路由和资源分配的问题,在针对当前网络状态下所采取的动作则定义为每一条服务功能链下一跳的虚拟功能的部署,采取的动作集为前一跳节点的相邻的节点集合,奖励值则设置为与成功部署的服务功能链条数相关的函数。本发明在资源分配和和提升整个***的成功部署服务的服务功能链数量以及整个***资源的利用率等方面具有优越性。

Description

一种基于深度强化学习的低时延网络切片的方法
技术领域
本发明设计了一种基于强化学习的低时延网络切片方法,应用于核心网的低时延的服务功能链的部署,属于信息通信技术领域。
背景技术
在5G时代,通信基础架构正在从专用的网络基础设施转移到每一个应用程序中,这样各种各样的应用和服务可以共享同一张网络。特别地,网络切片技术已经成为5G***进行部署的关键技术,因为它允许运营商灵活地组织网络资源,为用户或者是第三方提供多样性的服务。这一技术特点将会给运营商节省建设成本和运营成本。由于这些原因,提出了具有基于不同网段的切片方案:核心网切片,无线接入网切片,传输网切片。
网络切片的概念是构建多个虚拟的逻辑网络,以便在同一物理网络上提供服务。网络切片技术可以保证服务的差异化以及可以满足服务水平协议。在网络切片实现的过程中,要将对应的虚拟的逻辑网络中的虚拟网络功能放置到相应的通用硬件中,实现真正的物理功能。
在3GPP关于5G的应用场景中定义了三大场景,分别是增强型移动宽带(eMBB),超可靠和低延迟通信(uRLLC)和大规模机器类型通信(mMTC),要想在一张网络中能够满足上述不同的场景,网络切片技术将作为主要的实现手段,如何高效的将需求部署到底层的设备中,为客户提供优质的服务将会是网络切片实现方案中的主要的难点。本发明,将对低时延业务场景下的传输网切片的路由和资源分配的问题进行深入的研究。我们将提出一种基于深度强化学习的新方法,用于在低时延切片场景下的动态路由和资源分配的方法。
发明内容
发明目的:本发明的目的是为核心网的低时延网络切片提供基于强化学习的路由和资源分配的算法,有效地解决了在核心网中的资源分配和路由的问题。
技术方案:
一种基于强化学习的低时延网络切片方法,包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态,动作,奖励值等内容;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法。
进一步地,步骤1低时延网络切片的数学模型建模如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,...,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点 (x∈{1,2,...,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为
Figure BDA0002996992950000021
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为
Figure BDA0002996992950000022
对网络中的服务功能链进行建模表示,在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure BDA0002996992950000023
服务功能链Si的VNF集合可以表示为
Figure BDA0002996992950000024
其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为
Figure BDA0002996992950000025
Figure BDA0002996992950000026
每条低时延业务的时延约束条件为Ti
(1)服务功能链中VNF的映射表达式
定义二进制变量
Figure BDA0002996992950000027
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点 nx上面。
Figure BDA0002996992950000028
Figure BDA0002996992950000029
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
Figure BDA00029969929500000210
Figure BDA0002996992950000031
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
Figure BDA0002996992950000032
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure BDA0002996992950000033
表示的是功能服务链Si是否使用链路nxny来做为链路映射的二元变量。
(3)单链路的流量守恒
Figure BDA0002996992950000034
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
Figure BDA0002996992950000035
表达式(6)的含义是一条功能服务链中按序编排的节点在处理时间上要按照先后顺序执行部署,
Figure BDA0002996992950000036
表示的是第i条服务功能链的第j个VNF开始执行的时间。
Figure BDA0002996992950000037
表示的是第i条服务功能链的第j个 VNF开始执行的时间,
Figure BDA0002996992950000038
则表示的是物理节点nx处理VNFSij所需要的时间。
Figure BDA0002996992950000039
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中
Figure BDA00029969929500000310
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,
Figure BDA00029969929500000311
表示的是物理节点nx处理第|Si|个VNF的处理时间,
Figure BDA00029969929500000312
表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
(5)最优化目标
Figure BDA0002996992950000041
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
进一步地,步骤2中服务功能链的马尔可夫模型构建如下::
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure BDA0002996992950000042
M(t)表示的是节点剩余的存储资源的向量其表达式为
Figure BDA0002996992950000043
B(t)则表示的是节点之间链路剩余带宽的向量表达式为
Figure BDA0002996992950000044
如果两个节点之间没有连接的链路则
Figure BDA0002996992950000045
始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure BDA0002996992950000046
Figure BDA0002996992950000047
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为
Figure BDA0002996992950000048
定义
Figure BDA0002996992950000049
为服务功能链Si,t时刻在节点nx的映射情况的向量
Figure BDA00029969929500000410
Figure BDA00029969929500000411
表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有
Figure BDA00029969929500000412
Figure BDA00029969929500000413
定义整个网络中K条服务功能链状态的一维矩阵
Figure BDA00029969929500000414
其中
Figure BDA00029969929500000415
如果
Figure BDA00029969929500000416
表示服务功能链Si正在正常的映射运行,
Figure BDA00029969929500000417
表示服务功能链Si在下一个时刻即将进行映射服务,若
Figure BDA00029969929500000418
表示服务功能链Si还要继续进行等待进行服务,若
Figure BDA00029969929500000419
则表示服务功能链Si由于某种原因没有进行映射成功,
Figure BDA00029969929500000420
则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure BDA0002996992950000051
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,
Figure BDA0002996992950000052
其中
Figure BDA0002996992950000053
表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为
Figure BDA0002996992950000054
其表达式定义为
Figure BDA0002996992950000055
其中
Figure BDA0002996992950000056
表示VNFSij在 t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,
Figure BDA0002996992950000057
则表示的示选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则
Figure BDA0002996992950000058
否则为0。因此有
Figure BDA0002996992950000059
其中
Figure BDA00029969929500000510
的表达式为
Figure BDA00029969929500000511
(3)奖励值的设置
假设在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure BDA00029969929500000512
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得
Figure BDA00029969929500000513
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取
Figure BDA00029969929500000514
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为
Figure BDA00029969929500000515
其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
Figure BDA0002996992950000061
其中
Figure BDA0002996992950000062
表示如果满足服务功能链状态
Figure BDA0002996992950000063
并且
Figure BDA0002996992950000064
时值为1,否则为0。
Figure BDA0002996992950000065
其中
Figure BDA0002996992950000066
表示如果满足服务功能链状态
Figure BDA0002996992950000067
并且
Figure BDA0002996992950000068
时值为1,否则为0。
Figure BDA0002996992950000069
其中
Figure BDA00029969929500000610
如果满足服务功能链状态
Figure BDA00029969929500000611
或者
Figure BDA00029969929500000612
并且
Figure BDA00029969929500000613
时值为1,否则为0。
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure BDA00029969929500000614
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学***均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
Figure BDA00029969929500000615
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure BDA0002996992950000071
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
进一步地,步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure BDA0002996992950000072
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(9)通过
Figure BDA0002996992950000073
来计算梯度对Q值神经网络进行训练,更新参数θ。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
有益效果:本发明具有以下优点:
①根据低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,提出了低时延网络切片的数学模型,根据模型解决了核心网进行低时延服务功能链映射资源和路由优化的问题。
②提出了当前物理网络场景下的服务功能链进行马尔可夫模型,定义当前场景下的状态,动作,奖励值等内容;
③根据提出的低时延网络切片的数学模型以及马尔可夫模型,提出基于深度强化学习的低时延网络切片的路由和资源分配的优化模型。
附图说明
图1是本发明中低时网络切片映射图。
图2是本发明中基于深度强化学习的低时延网络切片算法架构图
图3是本发明中基于深度强化学习的低时延网络切片架构流程图。
具体实施方式
本发明的目的是为核心网低时延网络切片提供基于深度强化学习的路由和资源分配的算法,有效地解决了在核心网低时延网络切片中的资源分配和路由的问题。在该模型中对核心网中的低时延网络切片进行建模,对动态的低时延业务的性能约束进行建模最优化模型,在建模完成后对该模型构建出相应的马尔可夫模型,最后通过基于深度强化学习的方法来求解低时延网络切片的资源分配和路由问题。
1、低时延网络切片映射模型以及服务功能链模型
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,...,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点 (x∈{1,2,...,|N|})。在底层的物理节点nx上都拥有计算、存储等资源分别为
Figure BDA0002996992950000081
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为
Figure BDA0002996992950000082
对网络中的服务功能链进行建模表示,在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure BDA0002996992950000083
服务功能链Si的VNF集合可以表示为
Figure BDA0002996992950000084
其中Sij表示的是第i条服务功能链的第j个VNF的实例。每个VNF所需要的计算、存储资源分别为
Figure BDA0002996992950000085
Figure BDA0002996992950000086
每条低时延业务的时延约束条件为Ti
(1)服务功能链中VNF的映射表达式
定义二进制变量
Figure BDA0002996992950000087
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点nx上面。
Figure BDA0002996992950000091
Figure BDA0002996992950000092
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
(2)物理节点和链路的资源限制
映射节点的资源限制:
Figure BDA0002996992950000093
Figure BDA0002996992950000094
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量。
映射链路的带宽资源的限制:
Figure BDA0002996992950000095
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure BDA0002996992950000096
表示的是功能服务链Si是否使用链路nxny来做为链路映射。
(3)单链路的流量守恒
Figure BDA0002996992950000097
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
(4)低时延服务功能链时延约束
Figure BDA0002996992950000101
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,
Figure BDA0002996992950000102
表示的是第i条服务功能链的第j个VNF开始执行的时间。
Figure BDA0002996992950000103
表示的是第i条服务功能链的第j个VNF 开始执行的时间,
Figure BDA0002996992950000104
则表示的是物理节点nx处理VNFSij所需要的时间。
Figure BDA0002996992950000105
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中
Figure BDA0002996992950000106
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,
Figure BDA0002996992950000107
表示的是物理节点nx处理第|Si|个VNF的处理时间,
Figure BDA0002996992950000108
表示的是服务功能链i的第1个 VNF开始执行路由和资源分配的时间。
(5)最优化目标
Figure BDA0002996992950000109
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
2、低时延服务功能链的最优化模型
低时延网络切片的路由和资源分配的最优化模型如下所示:
Figure BDA00029969929500001010
s.t.
Figure BDA00029969929500001011
Figure BDA00029969929500001012
Figure BDA00029969929500001013
Figure BDA0002996992950000111
Figure BDA0002996992950000112
Figure BDA0002996992950000113
Figure BDA0002996992950000114
Figure BDA0002996992950000115
3、低时延服务功能链的马尔可夫模型模型
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)}其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure BDA0002996992950000116
M(t)表示的是节点剩余的存储资源的向量其表达式为
Figure BDA0002996992950000117
B(t)则表示的是节点之间链路剩余带宽的向量表达式为
Figure BDA0002996992950000118
如果两个节点之间没有连接的链路则
Figure BDA0002996992950000119
始终保持为0。V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure BDA00029969929500001110
Figure BDA00029969929500001111
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量其表达式为
Figure BDA00029969929500001112
定义
Figure BDA00029969929500001113
为服务功能链Si,t时刻在节点nx的映射情况的向量
Figure BDA00029969929500001114
Figure BDA00029969929500001115
表示在t时刻虚拟网络功能Sij是否映射在节点nx上。则有
Figure BDA00029969929500001116
Figure BDA00029969929500001117
定义整个网络中K条服务功能链状态的一维矩阵
Figure BDA00029969929500001118
其中
Figure BDA00029969929500001119
如果
Figure BDA00029969929500001120
表示服务功能链Si正在正常的映射运行,
Figure BDA00029969929500001121
表示服务功能链Si在下一个时刻即将进行映射服务,若
Figure BDA00029969929500001122
表示服务功能链Si还要继续进行等待进行服务,若
Figure BDA00029969929500001123
则表示服务功能链Si由于某种原因没有进行映射成功,
Figure BDA0002996992950000121
则表示该服务功能链进行了成功的路由和资源映射。
(2)动作空间
在进行下一个动作的节点映射选择时,可以进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure BDA0002996992950000122
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择。动作空间是由所有节点当前所映射的VNF共同决定和构成的。定义A(t)为t时刻的动作空间,
Figure BDA0002996992950000123
其中
Figure BDA0002996992950000124
表示的是在节点nx上所映射的VNF的下一跳动作的集合。
定义在t时刻在节点nx上的VNF的动作集合为
Figure BDA0002996992950000125
其表达式定义为
Figure BDA0002996992950000126
其中
Figure BDA0002996992950000127
表示VNFSij在 t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,
Figure BDA0002996992950000128
则表示的示选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则
Figure BDA0002996992950000129
否则为0。因此有
Figure BDA00029969929500001210
Figure BDA00029969929500001211
的表达式为
Figure BDA00029969929500001212
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure BDA00029969929500001213
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的。如果服务功能链Si在下一时刻全部映射成功完成,则获得
Figure BDA00029969929500001214
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取
Figure BDA00029969929500001215
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为
Figure BDA00029969929500001216
其他情况下的奖励值为0。在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下。其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式。
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (18)
Figure BDA0002996992950000131
其中
Figure BDA0002996992950000132
表示如果满足服务功能链状态
Figure BDA0002996992950000133
并且
Figure BDA0002996992950000134
时值为1,否则为0。
Figure BDA0002996992950000135
其中
Figure BDA0002996992950000136
表示如果满足服务功能链状态
Figure BDA0002996992950000137
并且
Figure BDA0002996992950000138
时值为1,否则为0。
Figure BDA0002996992950000139
其中
Figure BDA00029969929500001310
如果满足服务功能链状态
Figure BDA00029969929500001311
或者
Figure BDA00029969929500001312
并且
Figure BDA00029969929500001313
时值为1,否则为0。
(4)强化学习求解大状态空间问题
我们使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现。
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure BDA00029969929500001314
在表达式(10)中γ∈[0,1)是折扣因子。
定义深度强化学***均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a)。通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略。在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索。其表达式如下:
Figure BDA00029969929500001315
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ)。它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数。在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure BDA0002996992950000141
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练。这样可以更有效地利用以前的经验。此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据。这可以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
步骤3中的基于强化学习的低时延网络切片算法如下:
(1)初始化经验池大小为D。
(2)初始化Q值神经网络的权值为随机值θ。
(3)目标值网络神经网络的权值为θ^
(4)随机生成网络功能服务链加入到物理网络进行映射。
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure BDA0002996992950000142
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1)。
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池。
(8)从经验池中随机选取样本进行训练。
(9)通过
Figure BDA0002996992950000143
来计算梯度对Q值神经网络进行训练,更新参数θ。
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数。
(11)重复步骤(4)到步骤(10)进行训练。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:包括以下步骤:
步骤1:首先构建物理网络和服务功能链的数学模型,针对低时延的网络切片的约束条件,对物理网络中的每一条服务功能链进行建模,形成低时延网络切片的数学模型;
步骤2:对当前物理网络场景下的服务功能链进行马尔可夫模型构建,定义当前场景下的状态,动作,奖励值等内容;
步骤3:提出基于强化学习的低时延网络切片的路由和资源分配的算法。
2.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述步骤1中,低时延网络切片的数学模型建模过程如下:
把底层的物理网络结构建模为有向图G={N,E},其中N表示的是底层物理节点集合,底层的网络节点集合通过N={n1,n2,...,n|N|}进行表示,nx表示的是物理节点集合中的第x个物理节点(x∈{1,2,...,|N|}),在底层的物理节点nx上都拥有计算、存储等资源分别为
Figure FDA0002996992940000011
E表示的是连接任意两个物理节点之间的链路集合,链路(nx,ny)∈E的链路带宽资源大小为
Figure FDA0002996992940000012
对网络中的服务功能链进行建模表示,在网络中假设[0,T]时间内会产生K条低时延的服务功能链,分别可以表示为S1,S2,…,SK,那么每条服务功能链由|Si|(i∈{1,2,...,K})个VNF构成,每条服务功能链所需的带宽资源大小为
Figure FDA0002996992940000013
服务功能链Si的VNF集合可以表示为
Figure FDA0002996992940000014
其中Sij表示的是第i条服务功能链的第j个VNF的实例,每个VNF所需要的计算、存储资源分别为
Figure FDA0002996992940000015
Figure FDA0002996992940000016
每条低时延业务的时延约束条件为Ti
3.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述服务功能链中VNF的映射表达式为:
定义二进制变量
Figure FDA0002996992940000017
表示的是第i条服务功能链的第j个VNF的实例是否映射到物理节点nx上面;
Figure FDA0002996992940000018
Figure FDA0002996992940000021
表达式(1)表示的含义是任意的一个VNF只映射到N的物理节点集合中的一个节点上。
4.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述物理节点和链路的资源限制如下所示:
映射节点的资源限制:
Figure FDA0002996992940000022
Figure FDA0002996992940000023
表达式(2)表示的是节点使用的所有计算资源小于节点的计算资源的容量,表达式(3)表示的是节点使用的所有存储资源小于节点的存储资源的容量;
映射链路的带宽资源的限制:
Figure FDA0002996992940000024
表达式(4)表示的是物理网络中链路nxny的带宽限制,其中
Figure FDA0002996992940000025
表示的是功能服务链Si是否使用链路nxny来做为链路映射。
5.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述单链路的流量守恒表达式为
Figure FDA0002996992940000026
表达式(5)描述的是单条链路的流量守恒公式保证了流量从起始点出发流入目标的物理节点和流量不会回流,并确保每个物理节点的流量平衡。
6.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述低时延服务功能链时延约束的表达式为
Figure FDA0002996992940000027
表达式(6)的含义是一条功能服务链中按序编排的节点处理时间要按照先后顺序执行部署,
Figure FDA0002996992940000028
表示的是第i条服务功能链的第j个VNF开始执行的时间。
Figure FDA0002996992940000031
表示的是第i条服务功能链的第j个VNF开始执行的时间,
Figure FDA0002996992940000032
则表示的是物理节点nx处理VNFSij所需要的时间;
Figure FDA0002996992940000033
表示式(7)则表示的是第个i服务功能链从开始传输到结束传输的时间间隔要满足整个传输时延的约束条件。其中
Figure FDA0002996992940000034
表示的是服务功能链i的第|Si|个VNF开始执行路由和资源分配的时间,
Figure FDA0002996992940000035
表示的是物理节点nx处理第|Si|个VNF的处理时间,
Figure FDA0002996992940000036
表示的是服务功能链i的第1个VNF开始执行路由和资源分配的时间。
7.根据权利要求2所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述最优化目标的表达式为
Figure FDA0002996992940000037
最优化的目标为最大化所有的映射成功的节点的资源使用数量,来最大化进行映射成功的服务功能链的数量。
8.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述步骤2中,服务功能链的马尔可夫模型构建如下:
(1)状态空间
状态空间是对整个网络中资源的和当前网络正在处理的虚拟网络功能的状态的一种描述,定义为S(t)={C(t),M(t),B(t),V(t),e(t)};其中C(t)表示的是在t时刻所有节点所剩余的计算资源的向量,
Figure FDA0002996992940000038
M(t)表示的是节点剩余的存储资源的向量,其表达式为
Figure FDA0002996992940000039
B(t)则表示的是节点之间链路剩余带宽的向量,其表达式为
Figure FDA00029969929400000310
如果两个节点之间没有连接的链路则
Figure FDA00029969929400000311
始终保持为0;V(t)则表示的是在t时刻每个节点所映射的成功的虚拟网络功能的向量
Figure FDA00029969929400000312
Figure FDA00029969929400000313
表示的是在时刻t在物理节点nx上映射的虚拟网络功能的向量,其表达式为
Figure FDA00029969929400000314
定义
Figure FDA00029969929400000315
为服务功能链Si,t时刻在节点nx的映射情况的向量
Figure FDA00029969929400000316
Figure FDA00029969929400000317
表示在t时刻虚拟网络功能Sij是否映射在节点nx上,则有
Figure FDA0002996992940000041
Figure FDA0002996992940000042
定义整个网络中K条服务功能链状态的一维矩阵
Figure FDA0002996992940000043
其中
Figure FDA0002996992940000044
如果
Figure FDA0002996992940000045
表示服务功能链Si正在正常的映射运行,
Figure FDA0002996992940000046
表示服务功能链Si在下一个时刻即将进行映射服务,若
Figure FDA0002996992940000047
表示服务功能链Si还要继续进行等待进行服务,若
Figure FDA0002996992940000048
则表示服务功能链Si由于某种原因没有进行映射成功,
Figure FDA0002996992940000049
则表示该服务功能链进行了成功的路由和资源映射;
(2)动作空间
在进行下一个动作的节点映射选择时,进行选择的节点范围为当前节点的所有的有边直接进行相连的相邻节点的集合,定义物理网络中节点的nx的相邻的节点的集合为nx NEI可以表示为
Figure FDA00029969929400000410
映射在节点nx中的所有的VNF的下一跳的选择只能是nx NEI中的节点进行选择;动作空间是由所有节点当前所映射的VNF共同决定和构成的,定义A(t)为t时刻的动作空间,
Figure FDA00029969929400000411
其中
Figure FDA00029969929400000412
表示的是在节点nx上所映射的VNF的下一跳动作的集合;
定义在t时刻在节点nx上的VNF的动作集合为
Figure FDA00029969929400000413
其表达式定义为
Figure FDA00029969929400000414
其中
Figure FDA00029969929400000415
表示VNFSij在t时刻映射到节点nx上,下一跳的节点选择则会在nx的相邻的节点集合中按照策略进行选择映射,
Figure FDA00029969929400000416
则表示的示选择下一跳的结果,如果选择nx NEI中的第m个相邻节点则
Figure FDA00029969929400000417
否则为0,因此有
Figure FDA00029969929400000418
Figure FDA00029969929400000419
的表达式为
Figure FDA00029969929400000420
(3)奖励值的设置
在[0,T]的时间内总共会随机的产生总共K条低时延的服务功能链,假设服务功能链Si完成部署成功所获得的奖励值为
Figure FDA00029969929400000421
奖励值的是根据当前所有的正在进行服务功能链的映射状态进行设定的,如果服务功能链Si在下一时刻全部映射成功完成,则获得
Figure FDA0002996992940000051
的奖励值,如果是正在等待进行映射在下一时刻映射成功,获取
Figure FDA0002996992940000052
的奖励值,如果在映射过程中出现服务功能链映射失败,获得的奖励值为
Figure FDA0002996992940000053
其他情况下的奖励值为0;在状态S(t)执行动作A(t)后获得的立刻的奖励的定义如下,其中Rc表示表示全部映射完成的奖励值,Rw表示等待进行映射的服务功能链映射成功的奖励值,Rf则表示映射失败的奖励值,下面给出了其对应的计算表达式:
R(S(t),A(t),S(t+1))=Rc+Rw-Rf (9)
Figure FDA0002996992940000054
其中
Figure FDA0002996992940000055
表示如果满足服务功能链状态
Figure FDA0002996992940000056
并且
Figure FDA0002996992940000057
时值为1,否则为0;
Figure FDA0002996992940000058
其中
Figure FDA0002996992940000059
表示如果满足服务功能链状态
Figure FDA00029969929400000510
并且
Figure FDA00029969929400000511
时值为1,否则为0;
Figure FDA00029969929400000512
其中
Figure FDA00029969929400000513
如果满足服务功能链状态
Figure FDA00029969929400000514
或者
Figure FDA00029969929400000515
并且
Figure FDA00029969929400000516
时值为1,否则为0;
(4)强化学习求解大状态空间问题
使用深度强化学习来解决低时延业务场景下的网络切片中的路由和资源分配的问题,主要的原因是其在解决大状态空间的马尔可夫决策过程中具有很好的表现;
在时间戳t时刻获得的奖励值可以表示为Rt=R(S(t),A(t),S(t+1)),从当前时间戳开始到结束所获得的累计折扣奖励值表示为:
Figure FDA00029969929400000517
在表达式(10)中γ∈[0,1)是折扣因子;
定义深度强化学***均期望回报奖励,因此定义值函数Qπ(s,a)=Eπ(Gt|S(t)=s,A(t)=a),通过相应的策略的调整来最大化值函数,获取在低时延网络切片业务场景下最优的路由和资源分配的策略,在进行动作的选择过程中是采用的ε策略,以1-ε的概率选择最优的策略,以ε的概率进行动作的随机探索,这样可以进行整个状态空间的探索,其表达式如下:
Figure FDA0002996992940000061
深度强化学习是采用深度的Q值网络来作为对值函数的逼近,深度强化学习利用深度神经网络来近似参数化的值函数Qπ(s,a;θ),它将当前的状态作为整个网络的输入,输出当前状态下每个动作下的状态动作值函数,在进行神经网络的训练过程中对Q值的迭代公式如下所示:
Figure FDA0002996992940000062
在神经网络进行训练的过程中采用经验池的机制,将(S(t),A(t),S(t+1),Rt)的四元组作为一个训练样本存放到经验池中,用于对神经网络的训练,以更有效地利用以前的经验;此外,使用经验池的机制,使得数据更像是独立且分布均匀的数据,以降低数据之间的相关性。
由于在进行Q值网络的训练过程中Q值的更新容易发生震荡,呈现出不稳定的学习行为,因此使用了带有target网络的深度强化学习,可以提升算法的稳定性。
9.根据权利要求1所述的基于深度强化学习的低时延网络切片的路由和资源分配方法,其特征在于:所述步骤3中,基于强化学习的低时延网络切片算法如下
(1)初始化经验池大小为D;
(2)初始化Q值神经网络的权值为随机值θ;
(3)目标值网络神经网络的权值为θ^
(4)随机生成网络功能服务链加入到物理网络进行映射;
(5)通过ε策略选择动作,以ε的概率选择随机动作A(t),其他情况选择
Figure FDA0002996992940000063
(6)执行动作A(t)获取奖励值Rt状态转换为下一个状态S(t+1);
(7)将样本(S(t),A(t),S(t+1),Rt)存入到经验池;
(8)从经验池中随机选取样本进行训练;
(9)通过
Figure FDA0002996992940000071
来计算梯度对Q值神经网络进行训练,更新参数θ;
(10)每隔C步使用Q值网络的参数来更新目标值网络的参数;
(11)重复步骤(4)到步骤(10)进行训练。
CN202110334767.8A 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法 Active CN113098714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110334767.8A CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110334767.8A CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Publications (2)

Publication Number Publication Date
CN113098714A true CN113098714A (zh) 2021-07-09
CN113098714B CN113098714B (zh) 2023-07-11

Family

ID=76670754

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110334767.8A Active CN113098714B (zh) 2021-03-29 2021-03-29 基于强化学习的低时延网络切片方法

Country Status (1)

Country Link
CN (1) CN113098714B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN113904937A (zh) * 2021-12-06 2022-01-07 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质
CN114172937A (zh) * 2022-01-19 2022-03-11 重庆邮电大学 基于深度强化学习的动态服务功能链编排方法及***
CN114448804A (zh) * 2022-03-17 2022-05-06 长安大学 一种基于信息交互连通时长优化的服务功能链映射***和方法
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115174393A (zh) * 2022-06-27 2022-10-11 福州大学 基于带内网络遥测的服务功能链动态调整方法
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法
US20180317133A1 (en) * 2017-04-28 2018-11-01 NEC Laboratories Europe GmbH Method and system for network slice allocation
CN110768837A (zh) * 2019-10-28 2020-02-07 北京邮电大学 一种网络切片虚拟资源分配方法、***及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180317133A1 (en) * 2017-04-28 2018-11-01 NEC Laboratories Europe GmbH Method and system for network slice allocation
CN108063830A (zh) * 2018-01-26 2018-05-22 重庆邮电大学 一种基于mdp的网络切片动态资源分配方法
CN110768837A (zh) * 2019-10-28 2020-02-07 北京邮电大学 一种网络切片虚拟资源分配方法、***及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
陈前斌等: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 《电子与信息学报》 *
陈前斌等: "基于深度强化学习的异构云无线接入网自适应无线资源分配算法", 《电子与信息学报》, no. 06, 15 June 2020 (2020-06-15) *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113747450A (zh) * 2021-07-27 2021-12-03 清华大学 一种移动网络中业务部署方法、装置及电子设备
CN113904937A (zh) * 2021-12-06 2022-01-07 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质
CN113904937B (zh) * 2021-12-06 2022-03-29 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质
CN114172937B (zh) * 2022-01-19 2023-12-29 广州市宝思信息科技有限公司 基于深度强化学习的动态服务功能链编排方法及***
CN114172937A (zh) * 2022-01-19 2022-03-11 重庆邮电大学 基于深度强化学习的动态服务功能链编排方法及***
CN114448804A (zh) * 2022-03-17 2022-05-06 长安大学 一种基于信息交互连通时长优化的服务功能链映射***和方法
CN114448804B (zh) * 2022-03-17 2024-05-28 长安大学 一种基于信息交互连通时长优化的服务功能链映射***和方法
CN114492845B (zh) * 2022-04-01 2022-07-15 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN114492845A (zh) * 2022-04-01 2022-05-13 中国科学技术大学 资源受限条件下提高强化学习探索效率的方法
CN115174393B (zh) * 2022-06-27 2023-09-22 福州大学 基于带内网络遥测的服务功能链动态调整方法
CN115174393A (zh) * 2022-06-27 2022-10-11 福州大学 基于带内网络遥测的服务功能链动态调整方法
CN115665258A (zh) * 2022-10-21 2023-01-31 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
CN115665258B (zh) * 2022-10-21 2023-04-18 南京航空航天大学 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法
CN116132353A (zh) * 2022-12-28 2023-05-16 重庆邮电大学 基于ddqn的tsn路由选择方法

Also Published As

Publication number Publication date
CN113098714B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN113098714A (zh) 一种基于深度强化学习的低时延网络切片的方法
CN111858009B (zh) 基于迁移和强化学习的移动边缘计算***任务调度方法
CN114338504B (zh) 一种基于网络边缘***的微服务部署和路由方法
CN111445111B (zh) 一种基于边缘协同的电力物联网任务分配方法
CN109818786B (zh) 一种云数据中心应用可感知的分布式多资源组合路径最优选取方法
CN111367657B (zh) 一种基于深度强化学习的计算资源协同合作方法
CN111461226A (zh) 对抗样本生成方法、装置、终端及可读存储介质
CN108684046B (zh) 一种基于随机学习的接入网服务功能链部署方法
CN111585811B (zh) 一种基于多智能体深度强化学习的虚拟光网络映射方法
CN114390057B (zh) Mec环境下基于强化学习的多接口自适应数据卸载方法
CN108111335A (zh) 一种调度和链接虚拟网络功能的方法及***
CN113784410A (zh) 基于强化学习td3算法的异构无线网络垂直切换方法
CN111324630A (zh) 基于mpi的神经网络架构搜索并行化方法和设备
CN114710439B (zh) 基于深度强化学习的网络能耗与吞吐量联合优化路由方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN117234710A (zh) 一种采用强化学习实现ai模型训练内存优化的方法
CN115686846A (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN116489712A (zh) 一种基于深度强化学习的移动边缘计算任务卸载方法
CN113193999B (zh) 一种基于深度确定性策略梯度的虚拟网络映射方法
CN116489708B (zh) 面向元宇宙的云边端协同的移动边缘计算任务卸载方法
CN115001978B (zh) 一种基于强化学习模型的云租户虚拟网络智能映射方法
CN115361453A (zh) 一种面向边缘服务网络的负载公平卸载与迁移方法
CN111813525B (zh) 一种异构***工作流调度方法
CN114022731A (zh) 基于drl的联邦学习节点选择方法
CN113127167A (zh) 一种基于改进遗传算法的异构资源智能并行调度方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant