CN107948083B - 一种基于增强学习的sdn数据中心拥塞控制方法 - Google Patents

一种基于增强学习的sdn数据中心拥塞控制方法 Download PDF

Info

Publication number
CN107948083B
CN107948083B CN201711081371.7A CN201711081371A CN107948083B CN 107948083 B CN107948083 B CN 107948083B CN 201711081371 A CN201711081371 A CN 201711081371A CN 107948083 B CN107948083 B CN 107948083B
Authority
CN
China
Prior art keywords
flow
congestion control
data center
matrix
state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711081371.7A
Other languages
English (en)
Other versions
CN107948083A (zh
Inventor
金蓉
王伟明
李姣姣
庹鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201711081371.7A priority Critical patent/CN107948083B/zh
Publication of CN107948083A publication Critical patent/CN107948083A/zh
Application granted granted Critical
Publication of CN107948083B publication Critical patent/CN107948083B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2425Traffic characterised by specific attributes, e.g. priority or QoS for supporting services specification, e.g. SLA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/25Flow control; Congestion control with rate being modified by the source upon detecting a change of network conditions

Abstract

本发明公开了一种基于增强学习的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景,提出基于流的拥塞控制思想,引入增强学习中的Q‑learning算法,智能地全局分配流的速率,使网络的数据链路利用率尽可能高,同时又使整个网络避免拥塞,从而实现数据中心的拥塞控制。首先建模一个五元组对问题进行描述;然后提出改进的Q‑learning算法,对Q矩阵进行训练;最后根据流的请求,利用训练得到的Q矩阵,进行拥塞控制。本发明提供了一种控制效果较好,控制算法易实现,稳定性良好以及高效的自适应的SDN数据中心拥塞控制方法。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法。

Description

一种基于增强学习的SDN数据中心拥塞控制方法
技术领域
本发明涉及网络通信技术领域,具体涉及一种基于增强学习的SDN(SoftwareDefined Network,软件定义网络)数据中心网络(Data Center Network,DCN)的拥塞控制方法。
背景技术
近几年,云计算已经成为信息化建设领域的热点和未来趋势,许多新的互联网在线业务(如搜索、社交网络、即时通信等)的用户量也在迅速增长。在云计算和互联网在线业务的快速发展过程中,作为信息化基础设施的数据中心一直处于核心地位。随着业务的发展和新技术的使用,数据中心正在发生和形成重大的变化及趋势,由此给数据中心网络带来了新的挑战和问题。新兴的业务需要服务器之间进行大量的一对多和多对多的通信,其结果是数据中心的内部流量急剧增长并呈现出不同于互联网流量的新特性。在当前技术条件下,数据中心网络会频繁发生拥塞,导致丢包增多、时延增大和吞吐量下降,严重影响业务的性能和服务质量。为保证业务的性能及服务质量,数据中心网络的流量管理和优化问题己成为当前亟待解决的重要问题。
增强学习(Reinforcement Learning)是从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术。它通过学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习***在某种意义下的评价(或整个***的运行性能)最佳。Q-learning算法是一种与模型无关的增强学习算法,其在迭代时采用“状态—动作”对的奖赏折扣和Q值作为估计函数,在每一次学习迭代时都需要考察每一个行为,并且可确保学习过程收敛。Q-learning算法由于不需要先验知识即可学习,对于求解复杂的优化决策问题具有广泛的应用前景。
本发明提出了一种基于增强学习的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景,提出基于流(flow)的拥塞控制思想,引入增强学习中的Q-learning算法,智能地全局分配流的速率,使网络的数据链路利用率尽可能高,同时又使整个网络避免拥塞,从而实现数据中心的拥塞控制。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法,能优化数据中心网络资源的使用,提高网络的吞吐量、业务的性能及服务质量,从而保证互联网新兴业务与云计算的健康发展,还可以促进数据中心节能化,为实现绿色通信做贡献。
发明内容
本发明的目的是解决基于SDN架构的数据中心网络的拥塞控制问题,提出了一种基于增强学习的SDN数据中心网络的拥塞控制方法。
本发明的目的是通过以下技术方案来实现的:一种基于增强学习的SDN数据中心拥塞控制方法,该方法具体包括以下步骤:
步骤1:将增强学习引入基于SDN的数据中心,解决拥塞控制问题。首先将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。
所述的增强学习是一种无导师在线学习技术,智能体(agent)感知环境中的状态信息,选择最优的动作,从而引起状态的改变并得到一个回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
所述的五元组描述为<F,S,R,A,Q>。F(flow)表示待分配的流,其队列长度为N;S(link state)表示整个链路的状态,是长度为M的矢量;R(reward)表示选择action后获得奖励值的一个矩阵。A(action)表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q(Q-matrix)表示经过训练得到的Q矩阵,用来表示agent已经从经验中学到的知识。
步骤2:根据问题需求,提出改进的Q-learning算法,对Q矩阵进行训练。
所述的Q-learning算法,是增强学习算法中的经典算法之一。每一个状态行为对都对应了一个相关Q值,根据算法中的Q值来选取执行行为,通过对状态行为对的值函数进行估计以得到最优策略。
基于改进的Q-learning算法,对Q矩阵进行训练具体包含如下步骤:
2-1.按照一定的先验知识,给定奖励矩阵R。并将Q矩阵初始化。
2-2.改进增强学习中的Q-learning算法中选取action的方法。经典的Q-learning算法根据当前状态,在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态,以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action。
2-3.执行action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γmaxQ(S',a')-Q(S,a)]迭代更新Q值Q(S,a)。
所述的更新公式,是Q-learning算法更新迭代Q值的公式。其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,γmax Q(S',a')是后续状态的折扣奖励,γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。
2-4.如此循环执行Q矩阵训练过程,直到s为最终状态,得到训练后的Q矩阵。
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵,进行拥塞控制。
具体的拥塞控制方法包含如下步骤:
3-1.明确具体的N条flow请求,确定链路的已占用带宽的量化标准。
3-2.输入flow请求,获取当前的链路状态,考虑当前flow经过的链路,根据Q算法训练得到的Q矩阵,选择具有最大reward的action执行,即为当前flow选择速率。然后更新当前的链路状态,同时记录给当前的flow分配的rate。
3-3.判断N条flow是否全部分配完毕。如若没有,则需要返回到步骤3-2继续循环,直到为所有的flow分配速率。
3-4.输出N条flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
本发明的有益效果是:本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法,能优化数据中心网络资源的使用,提高网络的吞吐量、业务的性能及服务质量,从而保证互联网新兴业务与云计算的健康发展,还可以促进数据中心节能化,为实现绿色通信做贡献。
附图说明
图1为***体系结构图。
图2为实施例采用的数据中心网络拓扑图。
图3为训练算法流程图。
图4为拥塞控制方法流程图。
图5为实施例中各链路的带宽变化图。
图6为实施例中流的速率分配图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
本发明提供了一种基于增强学习的SDN数据中心拥塞控制方法,该方法包括如下步骤:
步骤1:将增强学习引入基于SDN的数据中心,解决拥塞控制问题。首先将该数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。
增强学习是一种无导师在线学习技术,智能体(agent)感知环境中的状态信息,选择最优的动作,从而引起状态的改变并得到一个回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。基于增强学习的SDN数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
五元组描述为<F,S,R,A,Q>。F(flow)表示待分配的流,其队列长度为N;S(linkstate)表示整个链路的状态,是长度为M的矢量;R(reward)表示选择action后获得奖励值的一个矩阵。A(action)表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q(Q-matrix)表示经过训练得到的Q矩阵,用来表示agent已经从经验中学到的知识。
步骤2:根据我们的问题需求,提出改进的Q-learning算法,对Q矩阵进行训练。
Q-learning算法,是增强学习算法中的经典算法之一。每一个状态行为对都对应了一个相关Q值,根据算法中的Q值来选取执行行为,通过对状态行为对的值函数进行估计以得到最优策略。
步骤2具体包含如下步骤:
2-1.按照一定的先验知识,给定奖励矩阵R。并将Q矩阵初始化。
2-2.改进增强学习中的Q-learning算法中选取action的方法。经典的Q-learning算法根据当前状态,在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态,以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action。
2-3.执行action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γmaxQ(S',a')-Q(S,a)]迭代更新Q值Q(S,a)。
该更新公式,是Q-learning算法更新迭代Q值的公式。其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,γmax Q(S',a')是后续状态的折扣奖励,γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。
2-4.如此循环,直到S为最终状态。得到训练后的Q矩阵。
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵,进行拥塞控制。
具体的拥塞控制方法包含如下步骤:
3-1.明确具体的N条flow请求,确定链路的已占用带宽的量化标准。
3-2.输入flow请求,获取当前的链路状态,考虑当前flow经过的链路,根据Q算法训练得到的Q矩阵,选择具有最大reward的action执行,即为当前flow选择速率。然后更新当前的链路状态,同时记录给当前的flow分配的rate。
3-3.判断N条flow是否全部分配完毕。如若没有,则需要返回到步骤3-2继续循环,直到为所有的flow分配速率。
3-4.输出N条flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
所述的五元组,是将软件定义网路架构的数据中心的拥塞控制问题描述为五元组<F,S,R,A,Q>,将待分配速率的流描述成F,将链路状态描述成S,将奖励描述为R矩阵,将速率分配描述成动作A,将智能体的训练结果记录为Q矩阵。
实施例
为了便于本领域一般技术人员理解和实现本发明,现结合附图进一步说明本发明的技术方案,给出一种本发明所述方法的具体实施方式。
本发明将增强学习方法引入基于软件定义网络的数据中心,解决拥塞控制问题。图1为***体系结构图,各模块的基本功能为:(1)感知模块:采取数据中心网络的当前链路状态信息;(2)学习模块:对接收到的链路状态信息进行学习或者根据有关的经验知识得到定量信息,为决策模块提供决策依据;(3)决策模块:根据学习模块提供的信息,制定相应的控制策略;(4)执行模块:执行决策模块所制定的控制策略。本实施例的学习模块采用改进的Q-learning算法,将经典的Q-learning算法根据当前状态,在R矩阵中选择最大奖励对应的Action。改进为在Q-learning算法中结合当前状态,以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action。学习模块训练得到的Q矩阵将提供给决策模块。决策模块根据Q矩阵,为每个flow分配速率,实现拥塞控制。
图2为实施例采用的SDN数据中心网络拓扑图。整个网络有5条链路,链路带宽均为8G。本是实施例采用的flow队列长度为10。
具体的拥塞控制方法包含如下步骤:
步骤1:将数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。
将数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>,是将待分配速率的flow描述成F,将链路状态描述成S,将奖励描述为R矩阵,将速率分配描述成动作A,将智能体的训练结果记录为Q矩阵。
①F(flow)——表示待分配的流,其队列长度,本实施例待分配带宽的流的队列长度为10,另外本实施例共有5条链路,每条流会占用两条链路。则流可以表示为:
F=(flow1,flow2,...,flowi,...,flow10) (1)
式(1)flowi的取值为:
flowi∈{fjk},其中j,k∈1,2,...,5 (2)
式(2)中的fjk表示flowi占用第j,k两条链路。
②S(link state)——表示整个链路的状态,是长度为5的矢量。可以表示为:
S=(ls1,ls2,...,lsi,...,ls5) (3)
式(3)中lsi的取值为:
lsi∈{gj},其中j∈1,2,...,8 (4)
式(4)中的gi表示链路的已用带宽的量化等级。
在本实施例中,我们将链路的已占用带宽分为8个级别,B为链路的带宽,即最大传输速率,将链路的状态离散为如下表所示的8个等级:
Figure GDA0002897911430000061
Figure GDA0002897911430000071
进一步,本实施例链路带宽B为40G。
③A(action)——表示根据链路需求为flow分配速率的行为,是长度为10的矢量,可以表示为:
A=(a1,a2,...,ai,...,a10) (5)
式(5)中ai的取值为:
ai∈{1,2,3,4,5}
④R(reward)——表示选择Action后获得奖励值的一个矩阵。我们可以以当前状态S为行,下一状态S*为列,来表示其奖励值。它是一个85行*85列的矩阵。
Figure GDA0002897911430000072
式(6)中rij表示由状态Si执行某个动作后,转移到状态Sj时获得的回报值。
Reward的确定,可以有多种方案。在本实施例中我们采取的具体方案是:采用单峰函数F=min(i/7,100*(35-i)),其中i表示链路的带宽占用大小。则reward有以下两种情况:
Figure GDA0002897911430000073
⑤Q(Q-matrix)——表示经过训练得到的Q矩阵,用来表示Agent已经从经验中学到的知识。Q矩阵与R矩阵同阶,其行表示当前状态S,列表示采取相应行为以后的下一状态S*。
Figure GDA0002897911430000074
式(8)中qij表示由状态Si转移到状态Sj时,Agent所学到的知识。
步骤2:根据我们的问题需求,提出改进的Q-learning算法,对Q矩阵进行训练。得到训练后的Q矩阵。
如图1所示基于Q-learning的拥塞控制***的体系结构框架图中,整个过程主要包括以下几个部分:检测器收集流信息,输入到检测状态/处理器中分析处理;将所有链路状态信息输入到Q-learning优化控制决策器中;Q-learning控制决策器中会得到该策略的Q值;策略决策器会得到一个较优的flow分配策略;通过不断循环,寻找到所有链路上所有flow分配策略,从而实现整个数据中心的拥塞控制。
根据我们的问题需求,我们提出改进的Q-learning算法,对Q矩阵进行训练。经典的Q-learning算法根据当前状态,在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态,以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action。改进算法描述如下:
Figure GDA0002897911430000081
图3是Q训练流程图。具体包含如下步骤:
2-1.按照步骤1所述给定奖励矩阵R。并将Q矩阵初始化。5条链路的初始负载为[18,20,18,14,29]。
2-2.按照改进的Q-learning算法选取action。
2-3.执行action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γmaxQ(S',a')-Q(S,a)]迭代更新Q值Q(S,a)。
更新公式,是Q-learning算法更新迭代Q值的公式。其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,γmax Q(S',a')是后续状态的折扣奖励,γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。
2-4.如此迭代循环,直到s为最终状态。
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵,进行拥塞控制。
具体的拥塞控制方法流程图如图4所示,具体包含如下步骤:
3-1.给定数据中心网络5条链路,确定链路已占用带宽的量化标准g1~g8,待分配的flow请求为10条,具体需要占用的链路和带宽需求如下:
flow1 flow2 flow3 flow4 flow5 flow6 flow7 flow8 flow9 flow10
占用链路 l<sub>1</sub>,l<sub>2</sub> l<sub>1</sub>,l<sub>3</sub> l<sub>1</sub>,l<sub>4</sub> l<sub>1</sub>,l<sub>5</sub> l<sub>2</sub>,l<sub>3</sub> l<sub>2</sub>,l<sub>4</sub> l<sub>2</sub>,l<sub>5</sub> l<sub>3</sub>,l<sub>4</sub> l<sub>3</sub>,l<sub>5</sub> l<sub>4</sub>,l<sub>5</sub>
需求带宽(G) 5 5 5 5 5 5 5 5 5 5
3-2.输入10条flow请求,5条链路的初始负载为[18,20,18,14,29],考虑当前flow经过的链路,根据Q算法训练得到的Q矩阵,选择具有最大reward的action执行,即为当前flow选择速率。然后更新当前的链路状态,同时记录为当前的flow分配的rate。
3-3.判断10条flow是否全部分配完毕。如若没有,则需要返回到步骤3-2继续循环,直到为所有的flow分配速率。
3-4.输出10条flow与rate的映射表,如下所示:
flow1 flow2 flow3 flow4 flow5 flow6 flow7 flow8 flow9 flow10
占用链路 l<sub>1</sub>,l<sub>2</sub> l<sub>1</sub>,l<sub>3</sub> l<sub>1</sub>,l<sub>4</sub> l<sub>1</sub>,l<sub>5</sub> l<sub>2</sub>,l<sub>3</sub> l<sub>2</sub>,l<sub>4</sub> l<sub>2</sub>,l<sub>5</sub> l<sub>3</sub>,l<sub>4</sub> l<sub>3</sub>,l<sub>5</sub> l<sub>4</sub>,l<sub>5</sub>
需求带宽(G) 5 5 5 5 5 5 5 5 5 5
分配带宽(G) 4 4 4 1 5 1 1 2 1 3
图5表示每次分配每条链路的带宽变化图。横坐标为0时,表示初始带宽占用情况[18,20,18,14,29];横坐标为1时,表示为第一条流分配带宽后每条链路的带宽占用情况,本实施例中,第一条流占用了链路1和链路2,分配的速率是3G。由图5可以看出,完成10条流的速率分配后,所有链路均没有产生拥塞。说明本发明方法可以有效实现拥塞控制。
图6表示流的速率分配图。图6显示其中有1条流分配了该链路需求的5G,有3条流按需分配了4G,有1条流按需分配了3G,有1条流按需分配了2G,还有4条流仅分配了1G。实现了尽可能满足每条流的带宽要求,同时又使数据中心网络不产生拥塞。
如果不采用本发明的拥塞控制方法,完全按需分配带宽,那么结果将是每条流都按需求带宽分配5G,但实际链路的带宽可能不能满足每条流的需求,从而产生拥塞。
以上结合具体实施例描述了本发明的拥塞控制方法。实施例表明本发明提出的一种数据中心的拥塞控制方法是有效的。该方法能对SDN数据中心网络进行基于流的拥塞控制,利用控制器对流进行全局的速率分配,从而既能避免拥塞,又能使带宽利用率尽可能高。

Claims (2)

1.一种基于增强学习的SDN数据中心拥塞控制方法,其特征在于,包含如下步骤:
步骤1:将增强学习方法引入基于软件定义网络的数据中心,将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>;其中F表示待分配的流,其队列长度为N;S表示整个链路的状态,是长度为M的矢量;R表示选择action后获得奖励值的一个矩阵;A表示根据链路需求为flow分配速率的行为,是长度为N的矢量;Q表示经过训练得到的Q矩阵,用来表示智能体已经从经验中学到的知识;
步骤2:基于改进的Q-learning算法,对Q矩阵进行训练;具体包含如下步骤:
2-1.按照先验知识,给定奖励矩阵R,并将Q矩阵初始;
2-2.改进增强学习中的Q-learning算法中选取action的方法,使算法结合当前状态以及当前flow所经过的路径两个条件,在R矩阵中选择最大奖励对应的action;
2-3.执行action,观察reward和新的链路状态,根据Q(S,a)←Q(S,a)+α[r+γmax Q(S',a')-Q(S,a)]迭代更新Q值Q(S,a);其中,Q(S,a)表示在当前状态S下执行动作a后的Q值,Q(S',a')表示下一状态S'下执行动作a'后的Q值,r是当前状态S下执行动作a后的奖励,γ为折扣因子,α为学习效率,γmax Q(S',a')是后续状态的折扣奖励,γmax Q(S',a')-Q(S,a)构成后续状态奖励的改善估计;
2-4.循环执行Q矩阵训练过程,直到s为最终状态,得到训练后的Q矩阵;
步骤3:根据具体的flow请求,结合上述步骤2得到的经过训练得到的Q矩阵,进行拥塞控制;
步骤3中具体的拥塞控制方法包含如下步骤:
3-1.明确flow请求的条数N,确定链路利用率的量化标准;
3-2.输入flow请求,获取当前的链路状态,考虑当前flow经过的链路,根据Q算法训练得到的Q矩阵,选择具有最大reward的action执行,即为当前flow选择速率;然后更新当前的链路状态,同时记录给当前的flow分配的rate;
3-3.判断N条flow是否全部分配完毕;如若没有,则需要返回到步骤3-2继续循环,直到为所有的flow分配速率;若分配完毕,则执行步骤3-4;
3-4.输出N条flow与rate的映射表,以此对数据中心进行全局的拥塞控制。
2.如权利要求1所述的一种基于增强学习的SDN数据中心拥塞控制方法,其特征在于:基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题,即对所有的flow统筹分配速率,既尽力满足flow的速率请求,又保证整个数据中心网络不产生拥塞。
CN201711081371.7A 2017-11-07 2017-11-07 一种基于增强学习的sdn数据中心拥塞控制方法 Active CN107948083B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711081371.7A CN107948083B (zh) 2017-11-07 2017-11-07 一种基于增强学习的sdn数据中心拥塞控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711081371.7A CN107948083B (zh) 2017-11-07 2017-11-07 一种基于增强学习的sdn数据中心拥塞控制方法

Publications (2)

Publication Number Publication Date
CN107948083A CN107948083A (zh) 2018-04-20
CN107948083B true CN107948083B (zh) 2021-03-30

Family

ID=61934371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711081371.7A Active CN107948083B (zh) 2017-11-07 2017-11-07 一种基于增强学习的sdn数据中心拥塞控制方法

Country Status (1)

Country Link
CN (1) CN107948083B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108881048B (zh) * 2018-08-23 2019-06-14 北京理工大学 一种基于强化学习的命名数据网络拥塞控制方法
CN110601973B (zh) * 2019-08-26 2022-04-05 中移(杭州)信息技术有限公司 一种路由规划方法、***、服务器及存储介质
CN110768906B (zh) * 2019-11-05 2022-08-30 重庆邮电大学 一种面向sdn网络基于q学习的节能路由方法
CN111416774B (zh) * 2020-03-17 2023-03-21 深圳市赛为智能股份有限公司 网络拥塞控制方法、装置、计算机设备及存储介质
CN113518039B (zh) * 2021-03-03 2023-03-24 山东大学 Sdn架构下基于深度强化学习的资源优化方法及***
CN113315715B (zh) * 2021-04-07 2024-01-05 北京邮电大学 基于qmix的分布式网内拥塞控制方法
CN113347102B (zh) * 2021-05-20 2022-08-16 中国电子科技集团公司第七研究所 基于q-学习的sdn链路抗毁方法、存储介质及***
CN115150335B (zh) * 2022-06-30 2023-10-31 武汉烽火技术服务有限公司 一种基于深度强化学习的最优流量分割的方法和***
CN117033005B (zh) * 2023-10-07 2024-01-26 之江实验室 一种无死锁路由方法、装置、存储介质及电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051629A (zh) * 2012-12-24 2013-04-17 华为技术有限公司 一种基于软件定义网络中数据处理的***、方法和节点

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010049931A1 (en) * 2008-10-29 2010-05-06 Ai Medical Semiconductor Ltd. Optimal cardiac pacing with q learning
US9679258B2 (en) * 2013-10-08 2017-06-13 Google Inc. Methods and apparatus for reinforcement learning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103051629A (zh) * 2012-12-24 2013-04-17 华为技术有限公司 一种基于软件定义网络中数据处理的***、方法和节点

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于强化学习理论的网络拥塞控制算法研究;李鑫;《中国博士学位论文全文数据库》;20090531;正文第57-62页 *

Also Published As

Publication number Publication date
CN107948083A (zh) 2018-04-20

Similar Documents

Publication Publication Date Title
CN107948083B (zh) 一种基于增强学习的sdn数据中心拥塞控制方法
CN111835827B (zh) 物联网边缘计算任务卸载方法及***
CN110225535B (zh) 基于深度确定性策略梯度的异构无线网络垂直切换方法
CN112486690B (zh) 一种适用于工业物联网的边缘计算资源分配方法
CN110968426B (zh) 一种基于在线学习的边云协同k均值聚类的模型优化方法
CN104901989B (zh) 一种现场服务提供***及方法
CN115633380B (zh) 一种考虑动态拓扑的多边缘服务缓存调度方法和***
Ghalut et al. QoE-aware optimization of video stream downlink scheduling over LTE networks using RNNs and genetic algorithm
Han et al. Cache placement optimization in mobile edge computing networks with unaware environment—an extended multi-armed bandit approach
Zheng et al. Learning based task offloading in digital twin empowered internet of vehicles
CN116541106A (zh) 计算任务卸载方法、计算设备及存储介质
CN113543160A (zh) 5g切片资源配置方法、装置、计算设备及计算机存储介质
Cui et al. Multi-Agent Reinforcement Learning Based Cooperative Multitype Task Offloading Strategy for Internet of Vehicles in B5G/6G Network
CN111930435A (zh) 一种基于pd-bpso技术的任务卸载决策方法
Zhang et al. Intelligent resources management system design in information centric networking
CN114785692A (zh) 一种虚拟电厂聚合调控通信网络流量均衡方法及装置
CN114449536A (zh) 一种基于深度强化学习的5g超密集网络多用户接入选择方法
CN115499365A (zh) 路由优化方法、装置、设备及介质
CN114980324A (zh) 一种面向切片的低时延无线资源调度方法及***
CN114138416A (zh) 面向负载-时间窗口的基于dqn云软件资源自适应分配方法
CN114401192A (zh) 一种多sdn控制器协同训练方法
CN115250156A (zh) 一种基于联邦学习的无线网络多信道频谱接入方法
CN114385359B (zh) 一种物联网云边端任务时序协同方法
CN114339892B (zh) 一种基于dqn与联合竞价的两层切片资源分配方法
CN113938978B (zh) 一种基于强化学习的异构无线传感器寻路方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant