CN101639793A

CN101639793A - 一种基于支持向量回归机的网格负载预测方法

Info

Publication number: CN101639793A
Application number: CN200910184148A
Authority: CN
Inventors: 王汝传; 解永娟; 付雄; 任勋益; 邓松; 易侃; 季一木; 杨明慧; 邓勇
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2009-08-19
Filing date: 2009-08-19
Publication date: 2010-02-03

Abstract

一种基于支持向量回归机的网格负载预测方法，首先对节点的历史性能数据，采用时间序列法进行自回归(AR)建模，根据AR模型的阶数估计出SVR中的输入向量的维数，然后对历史数据进行SVR学习，构造出SVR的回归函数，以后根据此回归函数以及测得历史性能数据预测下一时刻节点的性能，并且根据预测结果误差对SVR回归函数进行在线调节。采用本方法，能够为网格资源调度及性能优化等提供数据依据，避免被动盲目的任务调度，提高整个网格环境的效率。

Description

一种基于支持向量回归机的网格负载预测方法

技术领域

本发明是一种网格负载预测方法。本方法首先对节点的历史性能数据采用时间序列法进行自回归(AR)建模，根据AR模型的阶数估计出SVR中的输入向量的维数，然后对历史数据进行SVR学习，构造出SVR的回归函数，以后根据此回归函数以及测得历史性能数据预测下一时刻节点的性能，并且根据预测结果误差对SVR回归函数进行在线调节。采用本方法，能够为网格资源调度及性能优化等提供数据依据，避免被动盲目的任务调度，提高整个网格环境的效率，属于网格计算技术领域。

背景技术

网格计算作为一个重要的新领域，已经获得了全球范围的广泛关注。将网格中众多的跨越不同自治域，在地理上分布的异构的计算机和资源组织起来，是国内外研究的重点。利用网格，人们可以像用电一样，接通开关，就可以方便地使用资源。

网格是一个广域范围内的无缝集成和协同计算环境，各类资源在网格中被整合应用。网格环境下，网格资源、网格***软件和网格用户行为都具有高度、频繁的动态变化的特性，资源所有者可以进行加入、撤出和改变其参数等操作。因此，需要对节点的负载进行有效的预测，选择当前负载最低的一个节点进行任务调度。计算网格体系结构中，对有效资源性能的准确预测是实施高效的调度工作、提高***的执行性能的保证。

在传统的网格环境中，在调度器分派任务之前，一般会根据资源状态信息来确定运行该任务合适的机器。网格的基础设施平台比如Globus，提供了资源目录，该目录记录了资源的静态信息。因此，选择最好机器的最简单的方法就是去查询所有有效机器的资源目录，从中选择当前负载最低的一个。但是，由于网格节点的自主性，其资源并不受网格的支配，这给网格任务调度及性能优化造成了困难。一个典型的情况是，当用户提交了一批任务时，调度程序找到当前最空闲的网格节点，并将这批任务分配给它，但是在它们还没有被网格节点完全接受之前，节点在调度程序没有预料的情况下运行了某个日常程序从而造成CPU繁忙，此时这批任务会加重该节点的负担，而且将无法预知它们能够在什么时候完成。如果经常在网格节点可预期地运行用户某个日常程序的情况下，而仍旧为它分配计算任务，这是不合理的。

因此，对网格节点的负载预测进行研究具有重要的意义。必须要主动学习网格节点的运行特征，并对观测数据不断分析，得到其变化规律和模式特征。只有掌握了网格节点的行为特征，才能为网格调度及性能优化等提供数据依据。

发明内容

技术问题：本发明的目的是提供一种基于支持向量回归机的网格负载预测方法，本方法引入了基于SVR的机器学习方法，根据对历史负载的训练分析，得到回归函数，对下一时刻的性能进行预测。使用本发明提出的方法可以达到高效的资源调度，提高网格***的性能。

技术方案：本发明是一种网格节点的负载预测方法，通过引入AR和SVR思想而提出的，其原理是：首先采用时间序列法对历史负载进行自回归(AR)建模，根据AR模型的阶数p估计出SVR中的输入向量的维数，然后对历史负载进行SVR学习，构造出SVR回归函数，以后根据此回归函数以及测前p个时刻的负载数据预测下一时刻节点的负载，并且根据预测结果误差对SVR回归函数进行在线调节。解决了被动盲目的任务调度问题，为网格资源调度及性能优化等提供数据依据，提高整个网格环境的效率。

一、体系结构

图1给出了一个运用这种方法的节点负载预测***的体系结构，它的功能部件主要包括性能信息提供器(Performance Information Provider)，适配器(Adapter)，负载预测器，索引服务器。

下面我们给出几个具体部分的说明：

性能信息提供器：在网格节点上运行的性能信息收集源，收集节点的性能状态信息。包括Globus发行的GRAM和可以与MDS集成的外部信息提供者如Ganglia、Hawkeye或者其它收集性能信息的小程序。

适配器：不同的信息采集器之间存在着差异。适配器的作用就是消除这些差异，从不同类型的信息采集器中获取数据，然后交给负载预测器部件处理。适配器使得在选择性能信息提供者时有很好的灵活性。

负载预测器：将适配器传来信息首先进行AR建模得到模型阶次p，然后进行SVR数据标准化处理，通过经SVR学习得出回归函数，将此函数用于下一时刻的负载预测。根据预测误差，采用一种增量调节的方法在线调节回归函数。

索引服务器：主要是用于存放所预测的性能信息，并提供查询接口，以供客户端和调度器请求使用。

二、负载预测器的方法流程

1、AR的基本思想

自回归模型(简称AR模型)是一种常用的时间序列模型。对于一种实际的问题，如果它所表现的随机过程或时序的观测值{Y_t，t＝0，1，...}与其自身的前一个或者前几个时刻的观测值Y_t-1，Y_t-2有关或者有依赖性，就可以使用AR模型进行建模。AR模型的线性方程为：

Y_t＝φ₁Y_t-1+φ₂Y_t-2+...+φ_pY_t-p+ε_t (1)

等式(1)称为p阶自回归模型，记做AR(p)。其中实数φ_i(1≤i≤p)称为自回归参数，ε_t表示残差，ε_t是均值为零，方差为σ²的白噪声序列。

基于AR模型的数据建模一般过程包括：获取和数据校验、模型结构初选、模型参数的求解、模型适用性校验。

主机负载随时间变化有很强的关联特性，因而负载的变化可以看作一种时间序列过程。

2、SVR的基本思想

支持向量机是根据统计学习理论提出的一种新的机器学习方法，在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势。

支持向量机从本质上讲是一种前向神经网络，根据结构风险最小化准则，在使训练样本分类误差极小化的前提下，尽量提高分类器的泛化推广能力。从实施的角度，训练支持向量机的核心思想等价于求解一个线性约束的二次规划问题，从而构造一个超平面作为决策平面，使得特征空间中两类模式之间的距离最大，而且它能保证得到的解为全局最优解，并巧妙地利用原空间的核函数取代高维特征空间中的点积运算。

将支持向量机用于解决回归问题即支持向量回归(Support Vector Regression，SVR)。

3、负载预测器介绍

基于AR模型的预测方法和基于SVR的回归预测方法各有优缺点。前者给出了一种确定的模型结构，并且提供了确定模型阶次和进行参数估计的方法，缺点是在实时***中模型辨识、检验和调整工作非常复杂。后者不需要繁琐的统计过程，而是直接从观测数据出发训练回归函数，自主学习时间序列的变化规律，但缺点是输入向量的个数以及核函数的参数选择比较繁琐。但是如果将两者结合起来，则可以得到比较简单准确的模型估计与预测方法。即通过前者，进行短时建模，可以基本确定大概需要掌握多少历史观测值，才能得到一个较为准确的预测值，从而就估计出了SVR中的输入向量的维数。

所以，该负载预测器主要分为三大部分：AR模型的确定阶段，SVR训练阶段，预测阶段。

为了准确地预测主机负载，首先需要选择合适的负载指标衡量主机负载。这里把***资源的利用率作为评价负载的参数具有较强的通用性。主要包括：(1)CPU，CPU利用率。(2)I/O，I/O利用率。(3)bandwidth，带宽利用率。(4)内存中的cache，也就是内存利用率。在评价***的性能时候，把各个资源给定一个权值，这个权值根据***所运行的任务来确定。

L＝α×L_C+β×L_I+γ×L_B+μ×L_M (2)

上述公式(2)表示，α，β，γ，μ分别为CPU利用率、I/O利用率、带宽利用率、内存利用率的权值，由此，得出一个网格节点的综合负载L。

关于α，β，γ，μ的取值比较难以确定，可以测量不同时刻的n组L_C、L_I、L_B、L_M，再用下式求得各个参数的权值：

W_{i} = \frac{L_{i}}{Σ_{i = 1}^{n} L_{i}} - - - (3)

(其中，W_i是第i个参数的权值。L_i是第i个参数的利用率。)

也就是说将测验得到的n组L_C、L_I、L_B、L_M分别求出平均值，如果测验数据足够多，L_C、L_I、L_B、L_M就代表了通常情况下的CPU利用率、I/O利用率、带宽利用率、内存利用率平均值，然后将4个平均值求和，取每个平均值与和的比值作为预测中性能评价的权值。这样可以考虑到一般情况下***利用率高的部分占有较高的权，有利于体现***的利用率，在一般情况下，都会有比较稳定的结果。

首先，设置采样周期为T，即每隔时间T取一次负载性能数据观测值。设置观测时间T_train＝N*T，即选取N条负载观测记录作为AR模型的确定阶段和SVR训练阶段的样本，得到N个向量x[i]＝{x_1i，x_2i，x_3i，x_4i}，i＝1...N，其中x_1i，x_2i，x_3i，x_4i分别代表第i次观测时主机节点的CPU利用率、I/O利用率、带宽利用率、内存利用率。按照式(3)求出W_i即各个参数的权值，从而求出综合负载L_i，i＝1...N。

在AR模型的确定阶段，采用搜索法确定AR模型的阶与参数。设定最高阶数为20，从低到高进行搜索，并按照最小二乘估计法进行各阶的参数估计，最后采用AIC准则(Average Information Criteria)判断，取C(p)值最小的阶次n作为模型的最佳阶次。AIC准则的计算公式定义为：

C (p) = N \cdot 1 n σ_{α}^{2} + 2 p - - - (4)

其中，

σ_{α}^{2} = \frac{S}{N - p},

这里C为AIC(p)准则，p为模型阶次，N为数据个数，σ_α ²为残差方差，S为残差平方和。

在SVR训练阶段，首先对N个向量x[i]＝{L_i-1，L_i-2，...，L_i-k}，y[i]＝L_i，i＝k+1...N，进行归一化处理，得到N-k-1个样本，然后训练支持向量回归机。

在线性回归的情况下，对于训练样本集{(x₁，y₁)，...(x_n，y_n)}，x_i∈R_n，y_i∈R，要在线性函数集{f(x)|f(x)＝w*x+b}中寻找满足约束的参数w和b。考虑到在实际应用中存在一定的拟合误差，此处引入松弛因子ξ_i和ξ_i ^*，即求约束条件下的式(5)。

Min \frac{1}{2} {| | w | |}^{2} + C Σ_{i = 1}^{i} (ξ_{i} + ξ_{i}^{*})

Subject to [(w·x_i)+b]-y_i≤ε+ξ_i；i＝1，2，...，l

y_i-[(w·x_i)+b]≤ε+ξ_i；i＝1，2，...，l

ξ_i ^(*)；i＝1，2，...，l (5)

引入Lagrange对偶原理，求解式(5)。其对偶问题如下：

\max W (a, a^{*}) = - \frac{1}{2} Σ_{i, j = 1}^{i} (a_{i} - a_{i}^{*}) (a_{j} - a_{j}^{*}) \times (x_{i} \cdot x_{j}) - Σ_{i = 1}^{i} (a_{i} + a_{i}^{*}) ϵ - Σ_{i = 1}^{i} (a_{i} - a_{i}^{*}) y_{i} - - - (6)

Subjectto Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) = 0; 0 \leq a_{i},

a_{i}^{*} \leq C,

i＝1，2，...，l

求解式(6)得到支持向量和相应的参数a_i，a_i ^*，b，从而获得最佳拟合函数

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) (x \cdot x_{i}) + b - - - (7)

实际中非线性情况大量存在，内积回旋的方法很好地解决了这个问题，通过选择的非线性映射，将输入向量x映射到高维特征空间中，在高维空间构建最优线性拟合函数，从而达到在原空间中的非线性函数拟合的效果。具体形式为：

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) Φ (x) \cdot Φ (x_{i}) + b - - - (8)

利用核函数来代替内积Ф(x)·Ф(x_i)，可得非线性回归函数

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) K (x_{i}, x) + b - - - (9)

核函数K(x_i，x)一般取RBF核函数。K(x，x_i)＝exp{-|x-x_i|²/σ²}。

将遗传算法应用于SVR参数的优化。给出最佳的核参数ε、C以及σ参数，并用其训练数据集以获得最佳回归模型。

在检测阶段，求出当前时刻节点的综合负载值L后，将得到的输入向量进行归一化处理，根据回归函数式(9)得到下一时刻的综合负载值。并将预测结果与真实值进行比较，如果在规定时间内错误数高于规定值，就需要重新进行SVR的训练。

3、基于SVR的网格负载预测流程：

该方法所包含的步骤为：

步骤1)性能信息采集者采集性能数据，包括每台主机节点的CPU利用率、I/O利用率、带宽利用率、内存利用率信息；

用步骤2)将从不同类型的数据采集者收集到的数据交给适配器模块处理，将不同格式的数据做标准转化；

用步骤3)将采集到的性能数据定时汇总到目录服务中供用户和其它应用程序使用；

用步骤4)设置采样周期为T，即每隔时间T取一次负载性能数据观测值，设置观测时间T_train＝N*T，N为采样次数，为了保证准确性，可以设的稍微大些；

用步骤5)在预测器中定义数组x[4][N]，用来存储从当前时间到T_train时间内观测到的性能数据变化量，其中，x[1][j]表示第j次观测到的主机节点的CPU利用率，x[2][j]表示第j次观测到的I/O利用率，x[3][j]表示第j次观测到的带宽利用率，x[4][j]表示第j次观测到的内存利用率；

步骤6)把***资源的利用率作为评价负载的参数，这些参数包括：CPU利用率、I/O利用率、带宽利用率、内存利用率；在评价***性能时，把各个资源给定一个权值，求出每次观测的综合负载

L_{j} = Σ_{i = 1}^{4} W_{i} \cdot x [i] [j],

j＝1，…，N，并将L_j存于数组x[j]中，j＝1，2，…N；

其中，

W_{i} = \frac{{\overset{&OverBar;}{l}}_{i}}{Σ_{i = 1}^{4} {\overset{&OverBar;}{l}}_{i}}, i = 1,2,3,4

是第i个参数的权值，而

{\overset{&OverBar;}{l}}_{i} = \frac{Σ_{j = 1}^{N} x [i] [j]}{N},

i＝1，2，3，4是第i个参数的平均利用率；

步骤7)对于数组x[j]，j＝1， 2，…N，采用搜索法确定AR模型的阶与参数；设定最高阶数为20，从低到高分别取阶数p＝1，2，...，20，并按照最小二乘估计法进行各阶的参数估计，得到20个模型；

步骤8)采用AIC准则进行判断：AIC准则的计算公式定义为：

C (p) = N \cdot 1 n σ_{α}^{2} + 2 p

其中，

σ_{α}^{2} = \frac{S}{N - p},

这里C为AIC(p)准则，p为模型阶次，N为数据个数，σ_α ²为残差方差，S为残差平方和。取C(p)值最小的阶次n作为模型的最佳阶次，确定AR模型，从而，也确定了SVR输入向量的维数n；

步骤9)对向量{x_i，y_i}，其中x_i＝{x[i-1]，x[i-2]，...，x[i-k]}，y_i＝x[i]，i＝k+1...N，进行归一化处理，得到N-k-1个样本；归一化公式为：

X[i-k]＝(x[i-k]-x_min)/(x_max-x_min)，其中X[i-k]为x[i-k]归一化后的值，x[i]为第i次测得的综合负载值，x_max为x[i-k]中最大的，x_min为x[i-k]中最小的；

步骤10)对训练样本进行SVR训练，通过选取不同的训练参数C，σ，ε，配合样本训练数据进行SVR训练，从而得到若干组与不同训练参数一一对应的训练结果，求解后得到回归函数如下：

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) K (x_{i}, x) + b

K(x，x_i)为核函数，K(x，x_i)＝exp{-|x-x_i|²/σ²}

再把得到的不同训练结果分别用测试数据进行测试，记录下检验效果，以效果最好的一组结果对应的训练参数C，σ，ε为选取的参数；

步骤11)得到回归函数

f (x) = Σ_{i = 1}^{m} (α_{i}^{*} - a_{i}) K < x, x_{i} > + b;

x_i为第i个训练样本的输入，x_i＝{X[i-1]，X[i-2]，...，X[i-k]}即第i-1，i-2，...，i-k次观测得到的综合负载归一化后的值，y_i为第i个训练样本的输出，即第i次观测得到的综合负载值；

步骤12)设回归函数支持向量的个数为svn，定义集合Asv用来存储集合x[N]对应的支持向量；

步骤13)按照回归函数f(x)对负载进行预测；输入向量为x＝{X[N]，X[N-1]，...，X[N-k+1]}，X[N]...X[N-k+1]分别为归一化后的第N，N-1，...，N-k+1次观测得到的综合负载值。输出结果为，预测的下一个时刻的综合负载值x′[1]；

步骤14)将预测的结果x′[1]跟实际测得的综合负载值相比较，将预测结果划归入测试错误集Berr和测试正确集Bok；

步骤15)如果在规定时间T₀内，Berr低于规定值N₀，则继续使用该回归函数进行负载的预测；如果Berr超过N₀，则将集合Asv和Berr的并集作为新的训练集，并重复步骤9)-步骤12)的工作，重新训练得到一个新的回归函数f(x)和支持向量集Asv；

步骤16)将Bok存入“增量样本集”B，清空Berr和Bok，重复步骤14)-15)的工作，得到新的测试错误集Berr和测试正确集Bok，如果Berr低于规定值N₀，则使用该回归函数进行下一时刻负载的预测，否则重新训练；

步骤17)训练成功后，转步骤13)，重新进行下一轮的预测。

有益效果：本发明是一种网格负载预测方法，主要用于解决选择合适的节点进行网格任务调度的问题，通过使用本发明提出的方法可以有效地预测网格节点的负载，避免选择不合适的节点进行被动盲目的任务调度问题，能够为网格资源调度及性能优化等提供数据依据，从而提高整个网格环境的效率。下面给出具体的说明。

在传统的网格环境中，在调度器分派任务之前，一般会去查询所有有效机器的资源目录，从中选择当前负载最低的一个，确定运行该任务合适的机器。但是，由于网格节点的自主性，其资源并不受网格的支配，这给网格任务调度及性能优化造成了困难。基于SVR的网格负载预测，使用AR模型的简单性、短时性的优点，通过构造AR模型确定其阶数，得到SVR的输入向量的个数，并使用在线调整的方法调整SVR回归函数，做到了节点负载的有效预测，能够更加有效的利用资源，提高网格的效率。这种算法增加了负载预测的自适应性和准确性。

附图说明

图1是该***体系结构图。图中包括：性能信息提供者，适配器，负载预测器，索引服务器。

图2是基于SVR的网格负载预测的流程图。

具体实施方式

步骤1：设置采样周期为T，即每隔时间T取一次负载性能数据观测值。设置观测时间T_train＝N*T。

步骤2：在预测器中定义数组x[4][N]，用来存储从当前时间到T_train时间内观测到的性能数据变化量。其中，x[1][j]表示第j次观测到的主机节点的CPU利用率，x[2][j]表示第j次观测到的I/O利用率，x[3][j]表示第j次观测到的带宽利用率，x[4][j]表示第j次观测到的内存利用率。

步骤3：按照公式(3)求出性能评价的权值。其中

L_{i} = \frac{Σ_{j = 1}^{N} x [i] [j]}{N},

i＝1，2，3，4，

W_{i} = \frac{L_{i}}{Σ_{i = 1}^{4} L_{i}},

求出每次观测的综合负载

L_{j} = Σ_{i = 1}^{4} W_{i} \cdot x [i] [j],

j＝1，…，N，并将L_j存于数组x[j]，j＝1，2，...N中。

步骤4：对于数组x[j]，j＝1，2，...N，采用搜索法确定AR模型的阶与参数。设定最高阶数为20，从低到高分别取阶数p＝1，2，...，20，并按照最小二乘估计法进行各阶的参数估计，得到20个形如Y_t＝φ₁Y_t-1+φ₂Y_t-2+...+φ_pY_t-p的模型。

步骤5：采用如公式(4)的AIC准则进行判断，取C(p)值最小的阶次n作为模型的最佳阶次，确定了AR模型。从而，也确定了SVR输入向量的维数n。

步骤6：对向量{x_i，Y_i}，其中x_i＝{x[i-1]，x[i-2]，...，x[i-k]}，y_i＝x[i]，i＝k+1...N，进行归一化处理，得到N-k-1个样本。归一化公式为：X[i-k]＝(x[i-k]-x_min)/(x_max-x_min)，其中X[i-k]为x[i-k]归一化后的值，x[i]为第i次测得的综合负载值，x_max为x[i-k]中最大的，x_min为x[i-k]中最小的。

步骤7：对训练样本进行SVR训练。通过选取不同的训练参数C，σ，ε，配合样本训练数据进行SVR训练，从而得到若干组与不同训练参数一一对应的训练结果。即求解式(6)

\max W (a, a^{*}) = - \frac{1}{2} Σ_{i, j = 1}^{i} (a_{i} - a_{i}^{*}) (a_{j} - a_{j}^{*}) \times (x_{i} \cdot x_{j}) - Σ_{i = 1}^{i} (a_{i} + a_{i}^{*}) ϵ - Σ_{i = 1}^{i} (a_{i} - a_{i}^{*}) y_{i}

Subjectto Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) = 0;

0≤a_i，

a_{i}^{*} \leq C,

i＝1，2，...，l

得到支持向量和相应的参数a_i，a_i ^*，b。得到回归函数如下：

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) K (x_{i}, x) + b

K(x，x_i)为核函数，K(x，x_i)＝exp{-|x-x_i|²/σ²}。

再把得到的不同训练结果分别用测试数据进行测试，记录下检验效果，以效果最好的一组结果对应的训练参数C，σ，ε为选取的参数。

步骤8：得到回归函数

f (x) = Σ_{i = 1}^{m} (α_{i}^{*} - a_{i}) K < x, x_{i} > + b .

x_i为第i个训练样本的输入，x_i＝{X[i-1]，X[i-2]，...，X[i-k]}即第i-1，i-2，...，i-k次观测得到的综合负载归一化后的值，y_i为第i个训练样本的输出，即第i次观测得到的综合负载值。

步骤9：设回归函数支持向量的个数为svn，定义集合Asv用来存储集合x[N]对应的支持向量。

步骤10：按照回归函数f(x)对负载进行预测。输入向量为x＝{X[N]，X[N-1]，...，X[N-k+1]}，X[N]...X[N-k+1]分别为归一化后的第N，N-1，...，N-k+1次观测得到的综合负载值。输出结果为，预测的下一个时刻的综合负载值x′[1]。

步骤11：将预测的结果x′[1]跟实际测得的综合负载值相比较，将预测结果划归入测试错误集Berr和测试正确集Bok；

步骤12：如果在规定时间T₀内，Berr低于规定值N₀，则继续使用该回归函数进行负载的预测；如果Berr超过N₀，则将集合Asv和Berr的并集作为新的训练集，并重复步骤6-步骤9的工作，重新训练得到一个新的回归函数f(x)和支持向量集Asv。

步骤13：将Bok存入“增量样本集”B，清空Berr和Bok，重复步骤11-12的工作，得到新的测试错误集Berr和测试正确集Bok，如果Berr低于规定值N₀，则使用该回归函数进行下一时刻负载的预测，否则重新训练。

步骤14：训练成功后，转步骤10，重新进行下一轮的预测。

具体实例为：

(1)性能信息采集者采集性能数据，包括每台主机节点的CPU利用率、I/O利用率、带宽利用率、内存利用率信息；

(2)将从不同类型的数据采集者收集到的数据交给适配器模块处理，将不同格式的数据做标准转化；

(3)将采集到的性能数据定时汇总到目录服务中，供用户和其它应用程序使用。

(4)设置采样周期为T，即每隔时间T取一次负载性能数据观测值。设置观测时间T_train＝N*T。

(5)在预测器中定义数组x[4][N]，用来存储从当前时间到T_train时间内观测到的性能数据变化量。其中，x[1][j]表示第j次观测到的主机节点的CPU利用率，x[2][j]表示第j次观测到的I/O利用率，x[3][j]表示第j次观测到的带宽利用率，x[4][j]表示第j次观测到的内存利用率。

(6)按照公式(3)求出性能评价的权值。其中

L_{i} = \frac{Σ_{j = 1}^{N} x [i] [j]}{N},

i＝1，2，3，4，

W_{i} = \frac{L_{i}}{Σ_{i = 1}^{4} L_{i}},

求出每次观测的综合负载

L_{j} = Σ_{i = 1}^{4} W_{i} \cdot x [i] [j],

j＝1，…，N，并将L_j存于数组x[j]，j＝1，2，...N中。

(7)对于数组x[j]，j＝1，2，...N，采用搜索法确定AR模型的阶与参数。设定最高阶数为20，从低到高分别取阶数p＝1，2，...，20，并按照最小二乘估计法进行各阶的参数估计，得到20个形如Y_t＝φ₁Y_t-1+φ₂Y_t-2+...+φ_pY_t-p的模型。

(8)采用如公式(4)的AIC准则进行判断，取C(p)值最小的阶次n作为模型的最佳阶次，确定了AR模型。从而，也确定了SVR输入向量的维数n。

(9)对向量{x_i，y_i}，其中x_i＝{x[i-1]，x[i-2]，...，x[i-k]}，y_i＝x[i]，i＝k+1...N，进行归一化处理，得到N-k-1个样本。归一化公式为：X[i-k]＝(x[i-k]-x_min)/(x_max-x_min)，其中X[i-k]为x[i-k]归一化后的值，x[i]为第i次测得的综合负载值，x_max为x[i-k]中最大的，x_min为x[i-k]中最小的。

(10)对训练样本进行SVR训练。通过选取不同的训练参数C，σ，ε，配合样本训练数据进行SVR训练，从而得到若干组与不同训练参数一一对应的训练结果。即求解式(6)

\max W (a, a^{*}) = - \frac{1}{2} Σ_{i, j = 1}^{i} (a_{i} - a_{i}^{*}) (a_{j} - a_{j}^{*}) \times (x_{i} \cdot x_{j}) - Σ_{i = 1}^{i} (a_{i} + a_{i}^{*}) ϵ - Σ_{i = 1}^{i} (a_{i} - a_{i}^{*}) y_{i}

Subjectto Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) = 0;

0≤a_i，

a_{i}^{*} \leq C,

i＝1，2，...，l

f (x) = Σ_{i = 1}^{m} (α_{i} - a_{i}^{*}) K (x_{i}, x) + b

K(x，x_i)为核函数，K(x，x_i)＝exp{-|x-x_i|²/σ²}。

(11)得到回归函数

f (x) = Σ_{i = 1}^{m} (α_{i}^{*} - a_{i}) K < x, x_{i} > + b .

(12)设回归函数支持向量的个数为svn，定义集合Asv用来存储集合x[N]对应的支持向量。

(13)按照回归函数f(x)对负载进行预测。输入向量为x＝{X[N]，X[N-1]，...，X[N-k+1]}，X[N]...X[N-k+1]分别为归一化后的第N，N-1，...，N-k+1次观测得到的综合负载值。输出结果为，预测的下一个时刻的综合负载值x′[1]。

(14)将预测的结果x′[1]跟实际测得的综合负载值相比较，将预测结果划归入测试错误集Berr和测试正确集Bok；

(15)如果在规定时间T₀内，Berr低于规定值N₀，则继续使用该回归函数进行负载的预测；如果Berr超过N₀，则将集合Asv和Berr的并集作为新的训练集，并重复步骤9-步骤12的工作，重新训练得到一个新的回归函数f(x)和支持向量集Asv。

(16)将Bok存入“增量样本集”B，清空Berr和Bok，重复步骤14-15的工作，得到新的测试错误集Berr和测试正确集Bok，如果Berr低于规定值N₀，则使用该回归函数进行下一时刻负载的预测，否则重新训练。

(17)训练成功后，转步骤13，重新进行下一轮的预测。

Claims

1.一种基于支持向量回归机的网格负载预测方法，其特征在于该方法所包含的步骤为：

步骤2)将从不同类型的数据采集者收集到的数据交给适配器模块处理，将不同格式的数据做标准转化；

步骤3)将采集到的性能数据定时汇总到目录服务中供用户和其它应用程序使用；

步骤4)设置采样周期为T，即每隔时间T取一次负载性能数据观测值，设置观测时间T_train＝N*T，N为采样次数，

步骤5)在预测器中定义数组x[4][N]，用来存储从当前时间到T_train时间内观测到的性能数据变化量，其中，x[1][j]表示第j次观测到的主机节点的CPU利用率，x[2][j]表示第j次观测到的I/O利用率，x[3][j]表示第j次观测到的带宽利用率，x[4][j]表示第j次观测到的内存利用率；

L_{j} = Σ_{i = 1}^{4} W_{i} \cdot x [i] [j], j = 1, \cdot \cdot \cdot, N,

并将L_j存于数组x[j]中，j＝1，2，…N；

其中，

W_{i} = \frac{{\overset{&OverBar;}{l}}_{i}}{Σ_{i = 1}^{4} {\overset{&OverBar;}{l}}_{i}}, i = 1,2,3,4

是第i个参数的权值，而

{\overset{&OverBar;}{l}}_{i} = \frac{Σ_{j = 1}^{N} x [i] [j]}{N}, i = 1,2,3,4

是第i个参数的平均利用率；

步骤7)对于数组x[j]，j＝1，2，...N，采用搜索法确定AR模型的阶与参数；设定最高阶数为20，从低到高分别取阶数p＝1，2，...，20，并按照最小二乘估计法进行各阶的参数估计，得到20个模型；

步骤8)采用AIC准则进行判断：AIC准则的计算公式定义为：

C (p) = N \cdot \ln σ_{α}^{2} + 2 p

其中，

σ_{α}^{2} = \frac{S}{N - p},

这里C为AIC(p)准则，p为模型阶次，N为数据个数，

σ_α ²为残差方差，S为残差平方和。取C(p)值最小的阶次n作为模型的最佳阶次，确定AR模型，从而，也确定了SVR输入向量的维数n；

X[i-k]＝(x[i-k]-x_min)/(x_max-xmin)，其中X[i-k]为x[i-k]归一化后的值，x[i]为第i次测得的综合负载值，x_max为x[i-k]中最大的，x_min为x[i-k]中最小的；

f (x) = Σ_{i = 1}^{m} (α_{i} - α_{i}^{*}) K (x_{i}, x) + b

K(x，x_i)为核函数，

K (x, x_{i}) = \exp {- {| x - x_{i} |}^{2} / σ^{2}}

步骤11)得到回归函数

f (x) = Σ_{i = 1}^{m} (α_{i}^{*} - a_{i}) K &lang; x, x_{i} &rang; + b;

x_i为第i个训练样本的输入，

x_i＝{X[i-1]，X[i-2]，...，X[i-k]}即第i-1，i-2，...，i-k次观测得到的综合负载归一化后的值，y_i为第i个训练样本的输出，即第i次观测得到的综合负载值；

步骤13)按照回归函数f(x)对负载进行预测；输入向量为

x＝{X[N]，X[N-1]，...，X[N-k+1]}，X[N]...X[N-k+1]分别为归一化后的第N，N-1，...，N-k+1次观测得到的综合负载值。输出结果为，预测的下一个时刻的综合负载值x′[1]；

步骤17)训练成功后，转步骤13)，重新进行下一轮的预测。