CN107948083B

CN107948083B - 一种基于增强学习的sdn数据中心拥塞控制方法

Info

Publication number: CN107948083B
Application number: CN201711081371.7A
Authority: CN
Inventors: 金蓉; 王伟明; 李姣姣; 庹鑫
Original assignee: Zhejiang Gongshang University
Current assignee: Zhejiang Gongshang University
Priority date: 2017-11-07
Filing date: 2017-11-07
Publication date: 2021-03-30
Anticipated expiration: 2037-11-07
Also published as: CN107948083A

Abstract

本发明公开了一种基于增强学习的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景，提出基于流的拥塞控制思想，引入增强学习中的Q‑learning算法，智能地全局分配流的速率，使网络的数据链路利用率尽可能高，同时又使整个网络避免拥塞，从而实现数据中心的拥塞控制。首先建模一个五元组对问题进行描述；然后提出改进的Q‑learning算法，对Q矩阵进行训练；最后根据流的请求，利用训练得到的Q矩阵，进行拥塞控制。本发明提供了一种控制效果较好，控制算法易实现，稳定性良好以及高效的自适应的SDN数据中心拥塞控制方法。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法。

Description

一种基于增强学习的SDN数据中心拥塞控制方法

技术领域

本发明涉及网络通信技术领域，具体涉及一种基于增强学习的SDN(SoftwareDefined Network,软件定义网络)数据中心网络(Data Center Network,DCN)的拥塞控制方法。

背景技术

近几年，云计算已经成为信息化建设领域的热点和未来趋势，许多新的互联网在线业务(如搜索、社交网络、即时通信等)的用户量也在迅速增长。在云计算和互联网在线业务的快速发展过程中，作为信息化基础设施的数据中心一直处于核心地位。随着业务的发展和新技术的使用，数据中心正在发生和形成重大的变化及趋势，由此给数据中心网络带来了新的挑战和问题。新兴的业务需要服务器之间进行大量的一对多和多对多的通信，其结果是数据中心的内部流量急剧增长并呈现出不同于互联网流量的新特性。在当前技术条件下，数据中心网络会频繁发生拥塞，导致丢包增多、时延增大和吞吐量下降，严重影响业务的性能和服务质量。为保证业务的性能及服务质量，数据中心网络的流量管理和优化问题己成为当前亟待解决的重要问题。

增强学习(Reinforcement Learning)是从动物学习、随机逼近和优化控制等理论发展而来，是一种无导师在线学习技术。它通过学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习***在某种意义下的评价(或整个***的运行性能)最佳。Q-learning算法是一种与模型无关的增强学习算法，其在迭代时采用“状态—动作”对的奖赏折扣和Q值作为估计函数，在每一次学习迭代时都需要考察每一个行为，并且可确保学习过程收敛。Q-learning算法由于不需要先验知识即可学习，对于求解复杂的优化决策问题具有广泛的应用前景。

本发明提出了一种基于增强学习的SDN数据中心拥塞控制方法。本发明方法基于SDN的网络背景，提出基于流(flow)的拥塞控制思想，引入增强学习中的Q-learning算法，智能地全局分配流的速率，使网络的数据链路利用率尽可能高，同时又使整个网络避免拥塞，从而实现数据中心的拥塞控制。本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法，能优化数据中心网络资源的使用，提高网络的吞吐量、业务的性能及服务质量，从而保证互联网新兴业务与云计算的健康发展，还可以促进数据中心节能化，为实现绿色通信做贡献。

发明内容

本发明的目的是解决基于SDN架构的数据中心网络的拥塞控制问题，提出了一种基于增强学习的SDN数据中心网络的拥塞控制方法。

本发明的目的是通过以下技术方案来实现的：一种基于增强学习的SDN数据中心拥塞控制方法，该方法具体包括以下步骤：

步骤1：将增强学习引入基于SDN的数据中心，解决拥塞控制问题。首先将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。

所述的增强学习是一种无导师在线学习技术，智能体(agent)感知环境中的状态信息，选择最优的动作，从而引起状态的改变并得到一个回报值，更新评估函数，完成一次学习过程后，进入下一轮的学习训练，重复循环迭代，直到满足整个学习的条件，终止学习。基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。

所述的五元组描述为<F,S,R,A,Q>。F(flow)表示待分配的流,其队列长度为N；S(link state)表示整个链路的状态，是长度为M的矢量；R(reward)表示选择action后获得奖励值的一个矩阵。A(action)表示根据链路需求为flow分配速率的行为，是长度为N的矢量；Q(Q-matrix)表示经过训练得到的Q矩阵，用来表示agent已经从经验中学到的知识。

步骤2：根据问题需求，提出改进的Q-learning算法，对Q矩阵进行训练。

所述的Q-learning算法，是增强学习算法中的经典算法之一。每一个状态行为对都对应了一个相关Q值，根据算法中的Q值来选取执行行为，通过对状态行为对的值函数进行估计以得到最优策略。

基于改进的Q-learning算法，对Q矩阵进行训练具体包含如下步骤：

2-1.按照一定的先验知识，给定奖励矩阵R。并将Q矩阵初始化。

2-2.改进增强学习中的Q-learning算法中选取action的方法。经典的Q-learning算法根据当前状态，在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态，以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action。

2-3.执行action，观察reward和新的链路状态，根据Q(S,a)←Q(S,a)+α[r+γmaxQ(S',a')-Q(S,a)]迭代更新Q值Q(S,a)。

所述的更新公式，是Q-learning算法更新迭代Q值的公式。其中，Q(S,a)表示在当前状态S下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，γmax Q(S',a')是后续状态的折扣奖励，γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。

2-4.如此循环执行Q矩阵训练过程，直到s为最终状态，得到训练后的Q矩阵。

步骤3：根据具体的flow请求，结合上述步骤2得到的经过训练得到的Q矩阵，进行拥塞控制。

具体的拥塞控制方法包含如下步骤：

3-1.明确具体的N条flow请求，确定链路的已占用带宽的量化标准。

3-2.输入flow请求，获取当前的链路状态，考虑当前flow经过的链路，根据Q算法训练得到的Q矩阵，选择具有最大reward的action执行，即为当前flow选择速率。然后更新当前的链路状态，同时记录给当前的flow分配的rate。

3-3.判断N条flow是否全部分配完毕。如若没有，则需要返回到步骤3-2继续循环，直到为所有的flow分配速率。

3-4.输出N条flow与rate的映射表，以此对数据中心进行全局的拥塞控制。

本发明的有益效果是：本发明为SDN数据中心的拥塞控制问题提出了一种基于增强学习的智能解决方法，能优化数据中心网络资源的使用，提高网络的吞吐量、业务的性能及服务质量，从而保证互联网新兴业务与云计算的健康发展，还可以促进数据中心节能化，为实现绿色通信做贡献。

附图说明

图1为***体系结构图。

图2为实施例采用的数据中心网络拓扑图。

图3为训练算法流程图。

图4为拥塞控制方法流程图。

图5为实施例中各链路的带宽变化图。

图6为实施例中流的速率分配图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

本发明提供了一种基于增强学习的SDN数据中心拥塞控制方法，该方法包括如下步骤：

步骤1：将增强学习引入基于SDN的数据中心，解决拥塞控制问题。首先将该数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。

增强学习是一种无导师在线学习技术，智能体(agent)感知环境中的状态信息，选择最优的动作，从而引起状态的改变并得到一个回报值，更新评估函数，完成一次学习过程后，进入下一轮的学习训练，重复循环迭代，直到满足整个学习的条件，终止学习。基于增强学习的SDN数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。

五元组描述为<F,S,R,A,Q>。F(flow)表示待分配的流，其队列长度为N；S(linkstate)表示整个链路的状态，是长度为M的矢量；R(reward)表示选择action后获得奖励值的一个矩阵。A(action)表示根据链路需求为flow分配速率的行为，是长度为N的矢量；Q(Q-matrix)表示经过训练得到的Q矩阵，用来表示agent已经从经验中学到的知识。

步骤2：根据我们的问题需求，提出改进的Q-learning算法，对Q矩阵进行训练。

Q-learning算法，是增强学习算法中的经典算法之一。每一个状态行为对都对应了一个相关Q值，根据算法中的Q值来选取执行行为，通过对状态行为对的值函数进行估计以得到最优策略。

步骤2具体包含如下步骤：

该更新公式，是Q-learning算法更新迭代Q值的公式。其中，Q(S,a)表示在当前状态S下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，γmax Q(S',a')是后续状态的折扣奖励，γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。

2-4.如此循环，直到S为最终状态。得到训练后的Q矩阵。

具体的拥塞控制方法包含如下步骤：

所述的五元组，是将软件定义网路架构的数据中心的拥塞控制问题描述为五元组<F,S,R,A,Q>，将待分配速率的流描述成F，将链路状态描述成S，将奖励描述为R矩阵，将速率分配描述成动作A，将智能体的训练结果记录为Q矩阵。

实施例

为了便于本领域一般技术人员理解和实现本发明，现结合附图进一步说明本发明的技术方案，给出一种本发明所述方法的具体实施方式。

本发明将增强学习方法引入基于软件定义网络的数据中心，解决拥塞控制问题。图1为***体系结构图，各模块的基本功能为：(1)感知模块：采取数据中心网络的当前链路状态信息；(2)学习模块：对接收到的链路状态信息进行学习或者根据有关的经验知识得到定量信息，为决策模块提供决策依据；(3)决策模块：根据学习模块提供的信息，制定相应的控制策略；(4)执行模块：执行决策模块所制定的控制策略。本实施例的学习模块采用改进的Q-learning算法，将经典的Q-learning算法根据当前状态，在R矩阵中选择最大奖励对应的Action。改进为在Q-learning算法中结合当前状态，以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action。学习模块训练得到的Q矩阵将提供给决策模块。决策模块根据Q矩阵，为每个flow分配速率，实现拥塞控制。

图2为实施例采用的SDN数据中心网络拓扑图。整个网络有5条链路，链路带宽均为8G。本是实施例采用的flow队列长度为10。

具体的拥塞控制方法包含如下步骤：

步骤1：将数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>。

将数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>，是将待分配速率的flow描述成F，将链路状态描述成S，将奖励描述为R矩阵，将速率分配描述成动作A，将智能体的训练结果记录为Q矩阵。

①F(flow)——表示待分配的流,其队列长度，本实施例待分配带宽的流的队列长度为10，另外本实施例共有5条链路，每条流会占用两条链路。则流可以表示为：

F＝(flow₁,flow₂,...,flow_i,...,flow₁₀) (1)

式(1)flow_i的取值为：

flow_i∈{f_jk},其中j,k∈1,2,...,5 (2)

式(2)中的f_jk表示flow_i占用第j,k两条链路。

②S(link state)——表示整个链路的状态，是长度为5的矢量。可以表示为：

S＝(ls₁,ls₂,...,ls_i,...,ls₅) (3)

式(3)中ls_i的取值为：

ls_i∈{g_j},其中j∈1,2,...,8 (4)

式(4)中的g_i表示链路的已用带宽的量化等级。

在本实施例中，我们将链路的已占用带宽分为8个级别，B为链路的带宽，即最大传输速率，将链路的状态离散为如下表所示的8个等级：

进一步，本实施例链路带宽B为40G。

③A(action)——表示根据链路需求为flow分配速率的行为，是长度为10的矢量，可以表示为：

A＝(a₁,a₂,...,a_i,...,a₁₀) (5)

式(5)中a_i的取值为：

a_i∈{1,2,3,4,5}

④R(reward)——表示选择Action后获得奖励值的一个矩阵。我们可以以当前状态S为行，下一状态S*为列，来表示其奖励值。它是一个8⁵行*8⁵列的矩阵。

式(6)中r_ij表示由状态S_i执行某个动作后，转移到状态S_j时获得的回报值。

Reward的确定，可以有多种方案。在本实施例中我们采取的具体方案是：采用单峰函数F＝min(i/7,100*(35-i))，其中i表示链路的带宽占用大小。则reward有以下两种情况：

⑤Q(Q-matrix)——表示经过训练得到的Q矩阵，用来表示Agent已经从经验中学到的知识。Q矩阵与R矩阵同阶，其行表示当前状态S，列表示采取相应行为以后的下一状态S*。

式(8)中q_ij表示由状态S_i转移到状态S_j时，Agent所学到的知识。

步骤2：根据我们的问题需求，提出改进的Q-learning算法，对Q矩阵进行训练。得到训练后的Q矩阵。

如图1所示基于Q-learning的拥塞控制***的体系结构框架图中，整个过程主要包括以下几个部分：检测器收集流信息，输入到检测状态/处理器中分析处理；将所有链路状态信息输入到Q-learning优化控制决策器中；Q-learning控制决策器中会得到该策略的Q值；策略决策器会得到一个较优的flow分配策略；通过不断循环，寻找到所有链路上所有flow分配策略，从而实现整个数据中心的拥塞控制。

根据我们的问题需求，我们提出改进的Q-learning算法，对Q矩阵进行训练。经典的Q-learning算法根据当前状态，在R矩阵中选择最大奖励对应的action。改进的Q-learning算法结合当前状态，以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action。改进算法描述如下：

图3是Q训练流程图。具体包含如下步骤：

2-1.按照步骤1所述给定奖励矩阵R。并将Q矩阵初始化。5条链路的初始负载为[18,20,18,14,29]。

2-2.按照改进的Q-learning算法选取action。

更新公式，是Q-learning算法更新迭代Q值的公式。其中，Q(S,a)表示在当前状态S下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，γmax Q(S',a')是后续状态的折扣奖励，γmax Q(S',a')-Q(S,a)构成了后续状态奖励的改善估计。

2-4.如此迭代循环，直到s为最终状态。

具体的拥塞控制方法流程图如图4所示，具体包含如下步骤：

3-1.给定数据中心网络5条链路，确定链路已占用带宽的量化标准g1～g8，待分配的flow请求为10条，具体需要占用的链路和带宽需求如下：

flow1

flow2

flow3

flow4

flow5

flow6

flow7

flow8

flow9

flow10

占用链路

l1,l2

l1,l3

l1,l4

l1,l5

l2,l3

l2,l4

l2,l5

l3,l4

l3,l5

l4,l5

需求带宽(G)

5

3-2.输入10条flow请求，5条链路的初始负载为[18,20,18,14,29]，考虑当前flow经过的链路，根据Q算法训练得到的Q矩阵，选择具有最大reward的action执行，即为当前flow选择速率。然后更新当前的链路状态，同时记录为当前的flow分配的rate。

3-3.判断10条flow是否全部分配完毕。如若没有，则需要返回到步骤3-2继续循环，直到为所有的flow分配速率。

3-4.输出10条flow与rate的映射表，如下所示：

	flow1	flow2	flow3	flow4	flow5	flow6	flow7	flow8	flow9	flow10
											占用链路	l<sub>1</sub>,l<sub>2</sub>	l<sub>1</sub>,l<sub>3</sub>	l<sub>1</sub>,l<sub>4</sub>	l<sub>1</sub>,l<sub>5</sub>	l<sub>2</sub>,l<sub>3</sub>	l<sub>2</sub>,l<sub>4</sub>	l<sub>2</sub>,l<sub>5</sub>	l<sub>3</sub>,l<sub>4</sub>	l<sub>3</sub>,l<sub>5</sub>	l<sub>4</sub>,l<sub>5</sub>
需求带宽(G)	5	5	5	5	5	5	5	5	5	5
											分配带宽(G)	4	4	4	1	5	1	1	2	1	3

图5表示每次分配每条链路的带宽变化图。横坐标为0时，表示初始带宽占用情况[18,20,18,14,29]；横坐标为1时，表示为第一条流分配带宽后每条链路的带宽占用情况，本实施例中，第一条流占用了链路1和链路2，分配的速率是3G。由图5可以看出，完成10条流的速率分配后，所有链路均没有产生拥塞。说明本发明方法可以有效实现拥塞控制。

图6表示流的速率分配图。图6显示其中有1条流分配了该链路需求的5G，有3条流按需分配了4G，有1条流按需分配了3G，有1条流按需分配了2G,还有4条流仅分配了1G。实现了尽可能满足每条流的带宽要求，同时又使数据中心网络不产生拥塞。

如果不采用本发明的拥塞控制方法，完全按需分配带宽，那么结果将是每条流都按需求带宽分配5G，但实际链路的带宽可能不能满足每条流的需求，从而产生拥塞。

以上结合具体实施例描述了本发明的拥塞控制方法。实施例表明本发明提出的一种数据中心的拥塞控制方法是有效的。该方法能对SDN数据中心网络进行基于流的拥塞控制，利用控制器对流进行全局的速率分配，从而既能避免拥塞，又能使带宽利用率尽可能高。

Claims

1.一种基于增强学习的SDN数据中心拥塞控制方法，其特征在于，包含如下步骤：

步骤1：将增强学习方法引入基于软件定义网络的数据中心，将基于SDN的数据中心拥塞控制问题描述成五元组<F,S,R,A,Q>；其中F表示待分配的流,其队列长度为N；S表示整个链路的状态，是长度为M的矢量；R表示选择action后获得奖励值的一个矩阵；A表示根据链路需求为flow分配速率的行为，是长度为N的矢量；Q表示经过训练得到的Q矩阵，用来表示智能体已经从经验中学到的知识；

步骤2：基于改进的Q-learning算法，对Q矩阵进行训练；具体包含如下步骤：

2-1.按照先验知识，给定奖励矩阵R，并将Q矩阵初始；

2-2.改进增强学习中的Q-learning算法中选取action的方法，使算法结合当前状态以及当前flow所经过的路径两个条件，在R矩阵中选择最大奖励对应的action；

2-3.执行action，观察reward和新的链路状态，根据Q(S,a)←Q(S,a)+α[r+γmax Q(S',a')-Q(S,a)]迭代更新Q值Q(S,a)；其中，Q(S,a)表示在当前状态S下执行动作a后的Q值，Q(S',a')表示下一状态S'下执行动作a'后的Q值，r是当前状态S下执行动作a后的奖励，γ为折扣因子，α为学习效率，γmax Q(S',a')是后续状态的折扣奖励，γmax Q(S',a')-Q(S,a)构成后续状态奖励的改善估计；

2-4.循环执行Q矩阵训练过程，直到s为最终状态，得到训练后的Q矩阵；

步骤3：根据具体的flow请求，结合上述步骤2得到的经过训练得到的Q矩阵，进行拥塞控制；

步骤3中具体的拥塞控制方法包含如下步骤：

3-1.明确flow请求的条数N，确定链路利用率的量化标准；

3-2.输入flow请求，获取当前的链路状态，考虑当前flow经过的链路，根据Q算法训练得到的Q矩阵，选择具有最大reward的action执行，即为当前flow选择速率；然后更新当前的链路状态，同时记录给当前的flow分配的rate；

3-3.判断N条flow是否全部分配完毕；如若没有，则需要返回到步骤3-2继续循环，直到为所有的flow分配速率；若分配完毕，则执行步骤3-4；

2.如权利要求1所述的一种基于增强学习的SDN数据中心拥塞控制方法，其特征在于：基于SDN的数据中心拥塞控制问题是指基于flow的拥塞控制问题，即对所有的flow统筹分配速率，既尽力满足flow的速率请求，又保证整个数据中心网络不产生拥塞。