CN113220450B

CN113220450B - 面向云端多数据中心的负载预测方法、资源调度方法及装置

Info

Publication number: CN113220450B
Application number: CN202110473131.1A
Authority: CN
Inventors: 徐小龙; 孙维
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2022-10-21
Anticipated expiration: 2041-04-29
Also published as: CN113220450A

Abstract

本发明公开了一种面向云端多数据中心的负载预测方法，包括以下过程：获取记录每一个时间点虚拟机资源使用情况的日志记录文件，从中提取所需要的特征量数据和历史负载数据；并将特征量数据和历史负载数据转换为相应的输入特征序列和历史负载向量；利用预先构建的神经网络模型计算得到负载预测的非线性分量；利用预先构建的自回归模型计算得到负载预测的线性分量；整合负载预测的非线性分量和线性分量得到最终的负载预测结果。本发明综合考虑多数据中心环境下，负载序列的随时间变化的线性趋势和非线性特征，将神经网络模型与自回归模型的统计学习方法相结合，可以有效提升对未来负载预测精度。

Description

面向云端多数据中心的负载预测方法、资源调度方法及装置

技术领域

本发明具体涉及一种面向云端多数据中心的负载预测方法，还涉及一种面向云端多数据中心的资源调度方法，属于云计算和数据挖掘技术领域。

背景技术

云计算技术的不断增长计算需求促使云数据中心规模的持续扩张，预计 2022年底，国内数据中心业务市场规模将增长至3200亿元，其规模结构也由单一的数据中心向云端多数据中心转变。为了实现绿色节能发展，需要数据中心具备动态调节其内部资源分配的决策能力，整合计算资源实现服务弹性。有效的负载预测是实现资源弹性分配的前提条件，可以为高质量的扩展方案提供决策参考。因此基于当前云端多数据中心的环境，结合负载特征建立合适的负载预测模型具有重要意义。

工作负载是与上下文密切关联的时间序列问题，然而大多数负载预测的研究仍停滞在单一数据中心范围内。相比于传统的单一数据中心，多数据中心资源调度拓展能力更强，业务部署也更加灵活，负载变化受用户行为驱动的影响更加突出。这导致了各自所需要的计算资源需求是动态变化的，不同数据中心的负载波动趋势也存在较大差异性，使得面向云端多数据中心的负载预测需要结合各数据中心的具体情况进行建模分析，不能仅仅依靠原有的面向单一数据中心的算法。

有鉴于此，确有必要提出一种面向云端多数据中心的负载预测方法与资源分配器***，以解决上述问题。

发明内容

本发明的目的在于克服现有技术中的不足，提供了一种面向云端多数据中心的负载预测方法，将神经网络模型与自回归模型相结合预测服务器上未来的负载变化的非线性分量和线性分量，提高负载预测结果的准确度。

为解决上述技术问题，本发明的技术方案如下。

第一方面，本发明提供了一种面向云端多数据中心的负载预测方法，包括以下过程：

获取记录每一个时间点虚拟机资源使用情况的日志记录文件，从中提取所需要的特征量数据和历史负载数据；并将特征量数据和历史负载数据转换为相应的输入特征序列和历史负载向量；

基于获得的输入特征序列和历史负载向量，利用预先构建的神经网络模型计算得到负载预测的非线性分量；

基于获得的历史负载向量，利用预先构建的自回归模型计算得到负载预测的线性分量；

整合负载预测的非线性分量和线性分量得到最终的负载预测结果。

可选的，所述特征量包括：采样记录时间、虚拟机内核数配置、CPU容量、虚拟机的内存配置容量、虚拟机内存的有效使用量、磁盘读取吞吐量、磁盘写吞吐量、网络接收吞吐量和网络传输吞吐量；所述负载指CPU有效使用量。

可选的，所述将特征量数据转换为相应的输入特征序列，包括：

利用滑动窗口对特征量数据进行切分，形成时间步长固定的时间序列，作为输入特征序列。

可选的，所述神经网络模型包括：编码器、解码器以及多层感知机网络；其中，编码器的输入为采集到的输入特征序列，解码器的输入为上层编码器输出的自适应提取的输入特征序列，多层感知机网络的输入为解码器输出的文本向量。

可选的，所述基于获得的输入特征序列和历史负载向量，利用预先构建的神经网络模型计算得到负载预测的非线性分量，包括：

编码器模块包含输入注意力层、softmax层、LSTM神经网络层，每一层的输出就是下一层的输入；在编码器模块数据循环更新中需要将先前LSTM单元输出的隐藏层状态

和细胞状态s_t-1作为输入参数，使用：

h_t＝f₁(h_t-1,X_t)

表示一个该更新计算过程；其中f₁表示所述的LSTM单元，

表示m维度的实数向量空间，X_t表示在t时刻的输入特征序列；

在LSTM单元中，在每个时间步上有以计算方式：

其中，f_t,i_t,o_t分别表示遗忘门，输入门和输出门；

分别是施加给r_t和h_t-1的权重矩阵，

表示4m×d_r维度的实数向量空间，

表示4m×m维度的实数向量空间，m是隐藏层维度，d_r是输入r_t的向量维度；r_t是t时刻的输入；h_t-1是t-1时刻输出的隐藏状态向量；

是当前时刻神经网络模型输出的候选单元状态向量；sigmoid和 tanh分别表示不同的激活函数；

接着通过输入注意力机制可得到每条输入的特征序列对应的权重

其中，

是一个中间变量，无具体实际含义，

和

是注意力机制模型中需要学习的参数，

表示T维度的实数向量空间，

表示 T×2m维度的实数向量空间，

表示T×T维度的实数向量空间；tanh表示双曲正切激活函数，exp表示指数函数；

的计算是通过softmax层进行处理；

通过关注度权重大小，可以得到自适应提取的输入特征序列：

进而可以更新LSTM单元的隐藏层状态为：

使用

表示在t时刻的自适应输入特征序列，从而让编码器能够有选择性地专注于更加重要的相关输入特征，而非平等对待所有的输入特征序列，实现了发掘特征序列之间的相互依赖关系；

在解码器模块中，因为在传统的编码器解码器模型中当输入的序列过长其表征能力下降，模型效果迅速恶化的问题，因此在模型的解码层使用了时间注意力机制来自适应选择相关的隐藏层状态。

与编码器模块中的方法类似，解码器模块中的注意力机制也需要将之前 LSTM单元输出的隐藏层状态

和细胞状态

作为输入参数，其中z代表编码器中隐藏层的维度，

表示z维度的实数向量空间，其重要性权重

的公式推导过程与输入的特征量序列关注度

的计算过程相同，

代表第k个编码器隐藏状态h_k对最终预测的重要性大小。接着解码器将所有的编码器隐藏层状态按照权重求和得到文本向量：

结合历史负载数据{L_T-P,L_T-P+1,...,L_T-1}和得到的文本向量，经过向量拼接与线性变化，可以得到自适应提取的解码层输入：

其中，

为t-1时刻的负载与计算得到的文本向量的拼接，m是前面所述的解码器中的隐藏层维度，

表示m+1维度的实数向量空间。

和

是线性变换过程中待学习的参数。接着利用计算得到的

更新解码器隐藏层状态：

其中，f₂是一个LSTM单元的非线性激活函数，其具体更新计算方式与f₁一致。

输出层是由多层感知机构成，将编解码模型输出的最终隐藏层状态即 {d_T-P,d_T-P+1,...,d_T-1}作为输入，经由三层感知机网络输出得到最终的模型预测结果，其中在多层感知机的前两层使用了PReLU作为激活函数：

f₃＝max(μd_t,d_t)

其中f₃代表PReLU激活函数，μ是一个只在训练过程中被更新的参数。 PReLU激活函数避免了部分参数无法被更新的问题。最后一层感知机的激活函数为Sigmoid函数，以保证预测结果能被限制在合理的范围内。

最后经过T个时间步得到了最后的负载预测结果的非线性部分

其中，

代表在经历了T个时间步后对于负载预测的非线性部分，我们用T表示时间步大小，non表示上述非线性的标识，F_non用于表示上述整个负载预测的非线性计算过程，{L_T-P,...,L_T-1}表示T时间步之前P-1个时间步的负载大小， {X_T-P,...,X_T}表示T时间步前P个时间步的输入特征序列。

是隐藏层状态和文本向量的拼接向量，

表示z+m维度的实数向量空间，参数W_y和b_w实现了将拼接向量映射为解码层隐藏层状态的尺寸，其中W_y表示拼接向量在解码器计算过程中对应的非线性映射权重，b_w表示偏置值，其计算实现过程由计算机程序实现，同理

和u_w分别代表输出层中的非线性映射权重和偏置值，使用F_non代表上述过程的神经网络预测函数，

表示计算结果即最终预测结果的非线性组成部分。

可选的，所述自回归模型的具体计算公式为：

其中，{L_T-P,L_T-P+1,...,L_T-1}为历史数据，ε_T为随机扰动变量，λ_t为每一时刻对应的权重大小，两种变量均可在自回归模型设计中实现初始化与数值自动更新，使用F_linear代表上述过程的自回归预测函数，

表示计算结果即最终预测结果的线性组成部分。

第二方面，本发明还提供了一种面向云端多数据中心的负载预测装置，包括：

数据处理模块，用于获取记录每一个时间点虚拟机资源使用情况的日志记录文件，从中提取所需要的特征量数据和历史负载数据；并将特征量数据和历史负载数据转换为相应的输入特征序列和历史负载向量；

非线性分量预测模块，用于基于获得的输入特征序列和历史负载向量，利用预先构建的神经网络模型计算得到负载预测的非线性分量；

线性分量预测模块，用于基于获得的历史负载向量，利用预先构建的自回归模型计算得到负载预测的线性分量；

预测结果计算模块，整合负载预测的非线性分量和线性分量得到最终的负载预测结果。

第三方面，本发明还提供了一种面向云端多数据中心的资源调度方法，包括以下过程：

基于上述方法计算得到云端多数据中心环境下集群中各个服务器上虚拟机的负载预测结果；

基于各个服务器上虚拟机的负载预测结果生成相应的资源调度策略。

第四方面，本发明还提供了一种资源分配器，包括：

负载预测模块，用于基于上述方法计算得到云端多数据中心环境下集群中各个服务器上虚拟机的负载预测结果；

资源调度模块，用于基于各个服务器上虚拟机的负载预测结果生成相应的资源调度策略。

与现有技术相比，本发明所达到的有益效果是：本发明综合考虑多数据中心环境下，负载序列的随时间变化的线性趋势和非线性特征，将基于LSTM的神经网络方法与自回归模型的统计学习方法相结合，可以有效提升对未来负载测预测精度。

附图说明

图1是本发明***的结构示意图；

图2是本发明方法的流程图；

图3是神经网络模型中编码器解码器模块的原理示意图；

图4是神经网络模型中多层感知机输出网络示意图；

图5是本发明***的具体原理结构框图；

图6是数据中心某服务器的在一段时间内实际负载变化趋势。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例1

本发明设计了一种面向云端多数据中心的负载预测方法与资源调度方法，该***将云端的数据中心获取各虚拟机的日志记录文件作为输入，通过对数据进行预处理，预测负载线性与非线性变化，最终使得***能够根据负载预测结果，产生相应的资源配置调度策略。

本发明的一种面向云端多数据中心的负载预测方法，如图2所示，包括如下步骤：

步骤1，首先从云端数据中心获取集群中服务器上虚拟机的日志记录文件，所述虚拟机的日志文件里面包含了每一个时间点虚拟机所占用的各种资源的使用情况。从日志记录文件中提取所需要的特征量，并转换为***可识别和处理的时序数据格式；

数据收集和处理均是面向所有虚拟机的，在此过程中会收集到大量的虚拟机日志记录文件，其处理和分析方法相同，因此本实施例中分析以一台虚拟机为例处理日志记录文件并进行负载的预测。

为了简化海量日志记录文件中数据繁杂的信息，剔除对负载预测没有影响的非时间序列信息。本发明首先在预处理阶段指定了模型所需要的特征量种类，规范了时序数据格式。从而便于在对负载产生影响的多种数据中学习到更丰富的结构信息与上下文联系。

对日志记录文件预处理的具体过程为：

1)首先将采集到的日志记录文件进行数据清洗，提取所需要的特征量数据，舍弃其余与负载预测不相关的记录数据，只保留各个时间点的虚拟机资源使用情况。若出现局部数据异常现象，则选择将字段前后相邻数据求均值代替异常数据，当某一段的序列缺失达到两个或以上时，考虑到数据中心各特征之间可能存在的复杂非线性关系，为了避免简单的数据处理方式对训练精度产生影响，因此抛弃这段存在数据缺失的异常数据。

2)最终采集到的数据应当包含但不限于如下特征量：采样记录时间、虚拟机内核数配置、CPU容量、CPU有效使用量、虚拟机的内存配置容量、虚拟机内存的有效使用量、磁盘读取吞吐量、磁盘写吞吐量、网络接收吞吐量、网络传输吞吐量。将CPU有效使用量作为负载预测的目标，其余的特征量作为模型的输入数据。

其中特征量的记录时间1970.01.01为计算机默认的开始计时时间，单位MHZ 代表兆赫是波动频率单位之一，单位KB/S代表每秒钟可以处理的千字节数。

3)接着利用滑动窗口对采集到的特征量数据进行切分，形成时间步长固定的时间序列曲线，以后续作为模型的输入特征序列。

用

来代表某一台虚拟机日志文件整理完后得到的输入特征序列，其中，n代表负载预测输入的特征维度， P代表输入特征序列的时间步长，T代表预测的目标时刻，

表示一个n×P维度的实数空间。设置

每一个X^k均代表作为输入特征之一的时间步长为P的特征序列，另外，引入

代表在某个时刻t的含有n个输入特征的负载预测的输入特征序列。

此外，使用L＝{L_T-P,L_T-P+1,...,L_T-1}来表示历史负载数据向量，使用

表示在T时刻的云数据中心的CPU的有效使用量即当前的瞬时，也是我们的预测目标。

综上，经过对日志记录文件进行预处理后，得到了所需要的输入特征序列X＝{X¹,X²,...,Xⁿ}^P以及历史负载数据向量L＝{L_T-P,L_T-P+1,...,L_T-1}。

步骤2，将经由步骤1处理之后得到的输入特征序列和历史负载数据向量别传入预先设计的神经网络模型与自回归模型中，输出的下一时刻的负载预测结果。

神经网络模型的组成包括编码器、解码器以及多层感知机网络。其中，编码器的输入为采集到的输入特征序列，解码器的输入为上层编码器输出的自适应提取的输入特征序列，多层感知机网络的输入为解码器输出的文本向量。利用神经网络模块提取特征序列之间的相互依赖关系、分析特征量之间的非线性变化趋势，最后输出得到负载预测结果的非线性组成部分。编码器解码器中内嵌了注意力机制用于发掘特征数据对负载影响的权重大小，以及分析先前负载序列以及各特征量对负载产生的影响。

神经网络的结构和具体处理过程如图3和图4所示，首先对图3和图4中出现的所有变量、符号进行说明：{X¹,X²,...,Xⁿ}^P代表采集到的输入特征序列，因为其是在一个个时间节点上采集到的数据，所以也可以称为时间序列。时间序列可以进行拆分从而可以得到如{x¹ _T-P,x¹ _T-P+1,...,x¹ _T}到 {xⁿ _T-P,xⁿ _T-P+1,...,xⁿ _T}所示的n个由单一特征量构成的特征向量，其中n代表负载预测输入的特征维度，P代表输入特征序列的时间步长，T代表预测的目标时刻。

h_t代表神经网络模型的编码器中产生某个时刻t对应的隐藏层张量数据。softmax函数又可称归一化指数函数，目的是为了使编码器产生的所有隐藏层权重之和为1。

代表第k条输入特征序列在t时刻的数值，

代表在编码器中得到的第k条输入特征序列在t时刻的数值对应的权重大小。

代表在t时刻第k个自适应提取得到输入向量。LSTM代表长短期记忆神经网络，它是编码器解码器模型中进行模型参数更新的重要组件。d_t代表解码器中产生的t时刻对应的隐藏层张量数据。

代表在解码器中得到的第i个编码器的隐藏层状态在t时刻的数值对应的权重。

是解码器将所有的编码器隐藏状态按照权重求和得到的文本向量，

是一个求和符号代表将

到

的所有值进行相加。L_t代表t时刻对应的负载即CPU的有效使用，

表示在T时刻神经网络模型的得到了负载预测结果的非线性组成部分。

在编码器模块中，引入了输入注意力机制，从而实现自适应给输入特征序列赋予权重。编码器模块中一共包含了如图3所示的输入注意力层、softmax层、 LSTM神经网络层，每一层的输出就是下一层的输入。在编码器模块数据循环更新中需要将先前LSTM单元输出的隐藏层状态

和细胞状态s_t-1作为输入参数，使用：

h_t＝f₁(h_t-1,X_t)

表示一个该更新计算过程。其中f₁表示所述的LSTM单元，

表示m维度的实数向量空间，X_t表示在t时刻的输入特征序列。

在LSTM单元中，在每个时间步上有以计算方式：

其中，f_t,i_t,o_t分别表示遗忘门，输入门和输出门；

分别是施加给r_t和h_t-1的权重矩阵，

表示4m×d_r维度的实数向量空间，

是当前时刻神经网络模型输出的候选单元状态向量；sigmoid和tanh 分别表示不同的激活函数。

其中，

是一个中间变量，无具体实际含义，

和

是注意力机制模型中需要学习的参数，

表示T维度的实数向量空间，

表示T×2m维度的实数向量空间，

表示T×T维度的实数向量空间。tanh表示双曲正切激活函数，exp表示指数函数。

的计算是通过softmax层进行处理。通过关注度权重大小，可以得到自适应提取的输入特征序列：

进而可以更新LSTM单元的隐藏层状态为：

使用

表示在t时刻的自适应输入特征序列，从而让编码器能够有选择性地专注于更加重要的相关输入特征，而非平等对待所有的输入特征序列，实现了发掘特征序列之间的相互依赖关系。

和细胞状态

作为输入参数，其中z代表编码器中隐藏层的维度，

表示z维度的实数向量空间，其重要性权重

的公式推导过程与输入的特征量序列关注度

的计算过程相同，

其中，

表示m+1维度的实数向量空间。

和

是线性变换过程中待学习的参数。接着利用计算得到的

更新解码器隐藏层状态：

f₃＝max(μd_t,d_t)

最后经过T个时间步得到了最后的负载预测结果的非线性部分

其中，

代表在经历了T个时间步后对于负载预测的非线性部分，我们用 T表示时间步大小，non表示上述非线性的标识，F_non用于表示上述整个负载预测的非线性计算过程，{L_T-P,...,L_T-1}表示T时间步之前P-1个时间步的负载大小， {X_T-P,...,X_T}表示T时间步前P个时间步的输入特征序列。

是隐藏层状态和文本向量的拼接向量，

表示计算结果即最终预测结果的非线性组成部分。

在对负载的线性变化的预测中，根据采集到的历史负载数据，将过去多个时间步的负载数据为自回归模型的输入，来预测下一个时间步的负载预测值。从而能够达到发掘负载变化的长期线性变化趋势，避免神经网络模型的输入输出尺度不敏感问题。

自回归模型的具体计算公式为：

表示计算结果即最终预测结果的线性组成部分。

步骤3，将得到的负载预测结果返回给数据中心资源分配器，资源分配器将产生的资源分配策略发送给云端数据中心进行服务的资源分配工作。

如图1和图5所示，将负载预测结果应用到资源分配器中，具体为：

在上述分析建模过程中，正如图6所示的真实负载变化趋势图，负载的变化过程往往是整体的线性变化趋势与非线性变化趋势并存。因此在负载预测分析中，综合分析负载非线性分量与线性分量有助于提升预测结果的准确性。因此在提出的方法中联合了负载的非线性预测分量与线性预测分量即神经网络模型与自回归模型的输出结果

和

作为最终的预测结果。

其最终的预测结果可以表示为：

其中，

表示在T时刻得到的自回归模型的预测分量，

表示在T时刻神经网络模型的预测分量。[d_T；C_T]∈R^p+m是隐藏层状态和文本向量的拼接向量，参数W_y和b_w实现了将拼接向量映射为解码层隐藏层状态的尺寸，

和b_v分别代表输出层中的非线性映射权重和偏置值，{L_T-P,L_T-P+1,...,L_T-1}代表历史负载数据， {X_T-P,X_T-P+1,...,X_T}代表输入的序列向量。

接着，资源分配器根据预测结果，生成相应的资源调度策略，弹性调整各服务器虚拟机的占用资源。

***需要将在T时刻的各服务器上的虚拟机负载预测结果

反馈给资源分配器，资源分配器根据负载预测结果产生相应的资源分配策略，云端数据中心根据该策略动态调整各虚拟机的资源分配情况。

步骤4，将过去多个时刻的负载预测结果

与云端数据中心收集到的当前实际负载数据反馈给预测模型，从而模型可以不断获得新的实验数据进行模型训练，从而进一步提升模型预测的性能，减少误差。

通过***可以不断将负载预测结果与实际负载误差反馈给模型，从而减少了负载模型因数据匮乏而导致的预测偏差。

所提出的资源分配器是基于负载预测方法对云端多数据中心环境下的服务器集群进行未来负载预测之后而产生相应的资源分配结果。资源分配器的具体实现细节可由计算机编码实现，其调度方法选择如下：根据负载预测结果，为在未来一段时间内可能承受较多计算任务的服务器分配更多的计算资源如CPU 内核数量、内存等，从而使得当前服务器能够继续支撑其服务运行。当计算资源在单个服务器的分配上达到了上线，资源分配器应考虑将即将到来的计算任务进行重新分发，避免单个服务器节点因承受过多的任务量而导致任务阻塞，甚至***的崩溃。若各服务器之间负载均衡，可设置计数器，将计算任务均匀分配。在多数据中心环境下，当计算资源余量受限，应考虑将计算任务退回到云端，进行重新分配，避免因任务的堆积而产生的计算延迟。

综上所述，本发明根据采集到的日志记录文件，预测得到服务器上各虚拟机的未来的负载变化情况，利用资源分配器实现对数据中心资源的动态调整与配置。综合考虑了负载序列变化的长期变化趋势，和负载特征与数据中心环境下其余特征序列的相互依赖性，设计了一种基于神经网络与自回归方法的融合模型来进行多数据中心的负载预测。提高了预测结果的鲁棒性，避免了神经网络模型的尺度不敏感问题。并保证了模型的灵活性，从而能够适应具有不同变化趋势的数据中心负载预测。

实施例2

基于与实施例1同样的发明构思，本发明实施例一种面向云端多数据中心的负载预测装置，包括：

本发明装置的各模块具体实现方案参见实施例1方法的各步骤实现过程。

实施例3

基于与实施例1同样的发明构思，本发明实施例的一种资源分配器，包括：

本领域内的技术人员应明白，本申请的实施例可提供为方法、***、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/ 或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变型，这些改进和变型也应视为本发明的保护范围。

Claims

1.一种面向云端多数据中心的负载预测方法，其特征是，包括以下过程：

整合负载预测的非线性分量和线性分量得到最终的负载预测结果；

所述神经网络模型包括：编码器、解码器以及多层感知机网络；其中，编码器的输入为采集到的输入特征序列，解码器的输入为上层编码器输出的自适应提取的输入特征序列，多层感知机网络的输入为解码器输出的文本向量；

所述基于获得的输入特征序列和历史负载向量，利用预先构建的神经网络模型计算得到负载预测的非线性分量，包括：

编码器模块包含输入注意力层、softmax层、LSTM神经网络层，每一层的输出就是下一层的输入；在编码器模块数据循环更新中将先前LSTM单元输出的隐藏层状态

和细胞状态s_t-1作为输入参数，使用：

h_t＝f₁(h_t-1,X_t)

表示一个该更新计算过程；其中f₁表示所述的LSTM单元，

在LSTM单元中，在每个时间步上有以下计算方式：

其中，f_t，i_t，o_t分别表示遗忘门，输入门和输出门；

分别是施加给r_t和h_t-1的权重矩阵，

表示4m×d_r维度的实数向量空间，

是当前时刻神经网络模型输出的候选单元状态向量；sigmoid和tanh分别表示不同的激活函数；

接着通过输入注意力机制得到每条输入的特征序列对应的权重

其中，

是一个中间变量，无具体实际含义，

和

是注意力机制模型中需要学习的参数，

表示T维度的实数向量空间，

表示T×2m维度的实数向量空间，

的计算是通过softmax层进行处理；

通过关注度权重大小，得到自适应提取的输入特征序列：

使用

表示在t时刻的自适应输入特征序列，进而更新LSTM单元的隐藏层状态为：

在解码器模块中，与编码器模块类似，解码器模块中的注意力机制将之前LSTM单元输出的隐藏层状态

和细胞状态

作为输入参数，其中z代表编码器中隐藏层的维度，

表示z维度的实数向量空间，其重要性权重

的公式推导过程与输入的特征量序列关注度

的计算过程相同，

代表第k个编码器隐藏状态h_k对最终预测的重要性大小；接着解码器将所有的编码器隐藏层状态按照权重求和得到文本向量：

结合历史负载数据{L_T-P,L_T-P+1,...,L_T-1}和得到的文本向量，经过向量拼接与线性变化，得到自适应提取的解码层输入：

其中，

为t-1时刻的负载与计算得到的文本向量的拼接，m是解码器中的隐藏层维度，

表示m+1维度的实数向量空间；

和

是线性变换过程中待学习的参数；接着利用计算得到的

更新解码器隐藏层状态：

其中，f₂是一个LSTM单元的非线性激活函数，其具体更新计算方式与f₁一致；

输出层是将编解码模型输出的最终隐藏层状态即{d_T-P,d_T-P+1,...,d_T-1}作为输入，经由三层感知机网络输出得到最终的模型预测结果，其中在多层感知机的前两层使用了PReLU作为激活函数：

f₃＝max(μd_t,d_t)

其中f₃代表PReLU激活函数，μ是一个只在训练过程中被更新的参数；最后一层感知机的激活函数为sigmoid函数；

经过T个时间步得到了最后的负载预测结果的非线性部分

其中，

代表在经历了T个时间步后对于负载预测的非线性部分，T表示时间步大小，non表示非线性的标识，F_non用于表示整个负载预测的非线性计算过程，{L_T-P,...,L_T-1}表示T时间步之前P-1个时间步的负载大小，{X_T-P,...,X_T}表示T时间步前P个时间步的输入特征序列；

是隐藏层状态和文本向量的拼接向量，

表示z维度的实数向量空间，参数W_y和b_w实现了将拼接向量映射为解码层隐藏层状态的尺寸，其中W_y表示拼接向量在解码器计算过程中对应的非线性映射权重，b_w表示偏置值，同理

和u_w分别代表输出层中的非线性映射权重和偏置值，使用F_non代表上述过程的神经网络预测函数。

2.根据权利要求1所述的一种面向云端多数据中心的负载预测方法，其特征是，所述特征量包括：采样记录时间、虚拟机内核数配置、CPU容量、虚拟机的内存配置容量、虚拟机内存的有效使用量、磁盘读取吞吐量、磁盘写吞吐量、网络接收吞吐量和网络传输吞吐量；所述负载指CPU有效使用量。

3.根据权利要求1所述的一种面向云端多数据中心的负载预测方法，其特征是，所述将特征量数据转换为相应的输入特征序列，包括：

4.根据权利要求1所述的一种面向云端多数据中心的负载预测方法，其特征是，所述自回归模型的具体计算公式为：

其中，{L_T-P,L_T-P+1,...,L_T-1}为历史数据，ε_T为随机扰动变量，λ_t为每一时刻对应的权重大小，F_linear代表自回归预测函数，

表示计算结果即最终预测结果的线性组成部分。

5.一种基于权利要求1-4任意一项所述的一种面向云端多数据中心的负载预测方法的装置，其特征是，包括：

6.一种面向云端多数据中心的资源调度方法，其特征是，包括以下过程：

基于权利要求1-4任一项所述方法计算得到云端多数据中心环境下集群中各个服务器上虚拟机的负载预测结果；

7.一种资源分配器，其特征是，包括：

负载预测模块，用于基于权利要求1-4任一项所述方法计算得到云端多数据中心环境下集群中各个服务器上虚拟机的负载预测结果；