CN110297715A - 一种基于周期性特征分析的在线负载资源预测方法 - Google Patents

一种基于周期性特征分析的在线负载资源预测方法 Download PDF

Info

Publication number
CN110297715A
CN110297715A CN201910592018.8A CN201910592018A CN110297715A CN 110297715 A CN110297715 A CN 110297715A CN 201910592018 A CN201910592018 A CN 201910592018A CN 110297715 A CN110297715 A CN 110297715A
Authority
CN
China
Prior art keywords
sequence
subsequence
resource
usage amount
resource usage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910592018.8A
Other languages
English (en)
Other versions
CN110297715B (zh
Inventor
梁毅
苏超
丁毅
丁振兴
李硕
苏航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201910592018.8A priority Critical patent/CN110297715B/zh
Publication of CN110297715A publication Critical patent/CN110297715A/zh
Application granted granted Critical
Publication of CN110297715B publication Critical patent/CN110297715B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/5019Workload prediction

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于周期性特征分析的在线负载资源预测方法,在线负载资源预测方法分为三个步骤,资源序列周期识别、子序列分类、在线负载资源预测方法构建。本方法针对在线负载在运行过程中资源使用量具有明显的周期性特征,收集在线负载资源序列样本,对资源序列进行周期识别以及资源序列划分;其次,对于划分得到的子序列进行相似度计算并分类;然后,采用加权方式计算在线负载资源需求进行预测,本方法实现了基于周期性的在线负载资源预测。

Description

一种基于周期性特征分析的在线负载资源预测方法
技术领域
本发明属于大数据领域,具体涉及大数据在线负载资源的周期性分析和预测方法。
背景技术
负载是运行在数据中心的具体实例,是数据中心资源消耗的实际主体。在线负载是指以Web应用、流式计算为代表的、面向并发终端用户的常驻型服务所形成的计算负载,也是数据中心的主要负载之一。在线负载具有的特点是时效性强,对延迟敏感。内存和CPU是影响在线负载性能的重要资源。在线负载具有波动性,其资源使用量随着请求/数据到达强度的不同而产生波动。面向在线负载波动性特征,准确预测负载的资源需求,是保证在线负载资源充足和服务质量的前提下,提高数据中心资源利用率的关键。
既有数据中心在线负载的资源使用情况具有明显的周期性特征。然而,目前大数据在线负载的资源预测方法并未结合资源使用的周期性特征对在线负载资源进行预测,这使得既有的在线负载资源预测方法存在如下问题:
(1)无法在样本数据量较少的情况下对在线负载进行资源进行准确预测。既有在线负载资源预测方法主要是时间序列分析法和机器学习相关算法,而这两种预测方法的准确度都依赖于大规模的历史样本数据。
(2)预测过程中的时间开销较大。由于现有的在线负载资源预测方法没有进一步探究资源使用的特征,所以,每一次预测都需要通过对所有样本数据进行训练和建模。随着在线负载资源样本数据的不断扩大,预测过程中的时间开销会越来越大,降低了预测效率。
综合而言,目前的研究中尚未存在基于周期性分析的在线负载资源预测方法。
发明内容
针对上述问题,本发明提出了一种基于周期性识别的在线负载的资源预测方法。本发明首先对在线负载的内存和CPU使用量的周期值进行计算,并根据周期值对资源使用序列进行划分;然后对经过划分得到的子序列进行相似性计算并根据度量结果将其分为常规序列和异常序列;最终结合常规序列和异常序列的资源使用信息计算出最终的资源使用量预测值。
本发明所述的在线负载的资源预测方法主要分为四个步骤:资源序列周期识别、子序列分类、在线负载资源预测和预测条件判断。
上述方法在计算机上按照以下步骤实现:
(1)资源序列周期识别:
1.1)收集在线负载资源使用序列,采用固定时间步长,从在线负载资源使用序列L中采样数据,构建时间序列ML={ml1,ml2,···mlp},其中mlj表示第j个时间点对应的资源使用量,p为采样总量。
1.2)自相关函数是信号领域用户周期性检测的常用方法,根据自相关函数公式(1)计算出序列ML的自相关序列MR={mr1,mr2,···mrn}。
其中,N是有限长的离散序列y的长度,x表示元素下标,k表示自变量。
1.3)对MR中任意两个相邻的两个极大值,依据其发生的时间点,计算它们的时间距离t_maxi
1.4)计算所有t_maxi的均值,将该均值设定为资源使用量序列的周期T。
1.5)按照周期T将序列ML进行分割,得到按照时间顺序排列的资源子序列集合MZ={mz1,mz2,···mzq},其中表示经过周期分割后的子序列,表示子序列mzi中第j时刻的资源使用量。
(2)子序列分类:
2.1)本方法根据欧氏距离公式(2)度量两个子序列之间的相似度,同时以三元组(pi,pj,Sij)的形式进行记录。
其中,pi是第i个序列,pj是第j个序列,pik表示第i个序列中的第k个元素数据,同理,pjk表示第j个序列中的第k个元素数据。
2.2)将所有子序列之间距离的最大值,定义为全序列距离最大值dmax,如公式(3)。
dmax=max({D(xi,xj)|xi∈X,xj∈X}) (3)
其中,D(a,b)表示a、b之间的距离。
2.3)将所有序列之间距离的最小值,定义为全序列距离最小值dmin,如公式(4)
dmin=min({D(xi,xj)|xi∈X,xj∈X}) (4)
其中,D(a,b)表示a、b之间的距离。
2.4)将常规序列之间的最大距离,定义为常规序列距离阈值α,计算方法如公式(5)。
α=(dmax-dmin)×a+dmin (5)
2.5)本文使用改进的K-Means聚类算法对子序列进行分类:
2.5.1)随机选择序列集中的数据点作为簇中心集合{o1,o2}←RandomSelect(X)。
2.5.2)以初始簇中心初始化簇集合C,C1←o1,C2←o2
2.5.3)将每一个样本对象mzi到归入距离最近的簇。
2.5.4)计算每一个类簇中所有数据点与类簇中心点的距离,并分别获得两个类簇的簇内序列最大距离max_point_distance1和max_point_distance2
2.5.5)计算两个簇之间的距离cluster_distance←Distance(C1,C2),并以簇中数据点位置平均值更新中心点{o1,o2}←UpdateCenter(C1,C2)。
2.5.6)定义簇间距阈值θ和簇内点间距阈值α。在满足cluster_distance>θ且max_point_distance1<α且max_point_distance2<α时,返回分类结果C1和C2。否则重复2.5.3)至2.5.5)。
2.6)将两类之中数量较多的序列定义为常规子序列,另一类定义为异常子序列。
(3)在线负载资源预测
令NL=(nl1,nl2,···nls)为按照时间排序的常规子序列集合,其中任意nli∈NL,i∈(1,s)可表示为nli={nl_si1,nl_si2,···nl_sim},即一个周期内所有采样时刻的资源使用量。令AL=(al1,al2,···alf)为按照时间排序的异常子序列集合,其中任意ali=(al_si1,,al_si2,···al_sim),即一个周期内所有采样时刻的资源使用量。
3.1)定义在经过周期分割的所有在线负载资源使用子序列中,异常子序列所占子序列数量的比例为异常比例Rf,计算方法如公式(6)。
其中,|NL|为常规子序列的的总数量;|AL|为异常子序列的数量。
3.2)对任一常规子序列中时刻t的资源使用量nl_si_t,其常规变化率Rnli_t,计算方法如公式(7)。
其中,nl_si+1_t表示第i+1个常规子序列中时刻t的资源使用量。
3.3)定义NL=(nl1,nl2,···nls)中前s-1个常规子序列中时刻t的的资源使用量的常规平均变化率计算方法如公式(8)。
3.4)对任一异常子序列中时刻t的资源使用量ali_t,其常规变化率Rali_t,计算方法如公式(9)。
其中,al_si+1_t表示第i+1个异常子序列中时刻t的资源使用量。
3.5)定义AL=(al1,al2,···alf)中前f-1个常规子序列中时刻t的的资源使用量的异常平均变化率计算方法如公式(10)。
3.6)对下一个序列周期的第j时刻的资源使用量在常规序列变化趋势的情况下的预测值记为nlforecast_j,计算方法如公式(11)。
其中,nl_s|NL|_j表示常规序列中最后一个序列中第j个资源使用量。
3.7)对下一个序列周期的第j时刻的资源使用量在异常序列变化趋势的情况下的预测值记为alforecast_j,计算方法如公式(12)。
其中,al_s|AL|_j表示异常序列中最后一个序列中第j个元素的资源使用量。
3.8)针对在线负载的资源使用量序列,预测未来一个周期第j时刻的资源使用量lnext_j,具体使用加权计算方法,如公式(13)。
lnext_j=(1-Rf)*nlforecast_j+Rf*alforecast_j (13)
本发明采集在线负载资源使用量序列(包括内存和CPU)。首先对在线负载的资源序列进行周期识别(步骤(1))。其次根据周期值对资源序列进行划分,计算子序列之间的相似性并对其进行分类(步骤(2))。然后计算每一类的预测值并通过加权的方式获得最终的资源预测值(步骤(3)),实现了基于周期性的在线负载资源预测。
附图说明
图1为本发明方法所依附的在线负载的部署图。
图2为本发明方法的总体流程图。
图3为在线负载资源使用序列周期识别流程图。
图4为在线负载资源序列子序列分类方法流程图。
图5为在线负载资源预测方法流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行说明。
本发明结合Web负载和流计算负载两种在线负载的资源使用情况,阐述所提出的在线负载资源预测方法。图1是本方法所依附的平台架构图,在负载运行过程中通过收集模块可以收集到在线负载资源序列。图2是本发明的总流程。本实施方法步骤可以分为以下步骤:
(1)资源序列周期识别:
1.1)收集在线负载资源使用序列,采用固定时间步长为10s,从在线负载资源使用序列L中采样数据,构建CPU时间序列ML={20,16,18,17,21,···19},其中mj表示第j个时间点对应的资源使用量,p=36000为采样总量。
1.2)根据自相关公式(1)计算出序列ML的自相关序列MR={15,13,14,11,···17}。自相关函数是信号领域用户周期性检测的常用方法,公式如下:
其中,N是有限长的离散序列y的长度,x表示元素下标,k表示自变量。
1.3)对MR中任意两个相邻的两个极大值计算,依据其发生的时间点,计算它们的时间距离t_maxi=900s。
1.4)计算出所有t_maxi的均值为15分钟,并将15分钟设定为资源使用量序列的周期。
1.5)按照周期T将序列ML进行分割,得到按照时间顺序排列的资源子序列集合ML={mz1,mz2,···mzq},其中表示经过周期分割后的子序列,表示子序列mzi中第j时刻的资源使用量。
(2)子序列分类:
2.1)根据欧氏距离公式(2)计算每两个子序列间的相似度,同时以三元组(pi,pj,Sij)的形式进行记录。
其中,pi是第i个序列,pj是第j个序列,pik表示第i个序列中的第k个元素数据,同理,pjk表示第j个序列中的第k个元素数据。
2.2)将原资源序列按照周期进行划分,获得子序列集合。所有序列之间距离的最大值,定义为全序列距离最大值dmax=30,如公式(3)。
dmax=max({D(xi,xj)|xi∈X,xj∈X}) (3)
其中,D(a,b)表示a、b之间的距离。
2.3)将所有序列之间距离的最小值,定义为全序列距离最小值dmin=3,如公式(4)
dmin=min({D(xi,xj)|xi∈X,xj∈X}) (4)
其中,D(a,b)表示a、b之间的距离。
2.4)将常规序列之间的最大距离,定义为常规序列距离阈值α=20,计算方法如公式(5)。
α=(dmax-dmin)×a+dmin (5)
2.5)本文使用改进K-Means聚类算法对子序列进行分类:
2.5.1)随机选择序列集中的数据点作为簇中心集合{o1,o2}←RandomSelect(X)。
2.5.2)以初始簇中心初始化簇集合C,C1←o1,C2←o2
2.5.3)将每一个样本对象mzi到归入距离最近的簇。
2.5.4)计算每一个类簇中所有数据点与类簇中心点的距离,并分别获得两个类簇内的最大距离max_point_distance1和max_point_distance2
2.5.5)计算簇间距离cluster_distance←Distance(C1,C2),并以簇中数据点位置平均值更新中心点{o1,o2}←UpdateCenter(C1,C2)。
2.5.6)定义簇间距阈值θ=24和簇内点间距阈值α=17。在满足cluster_distance>θ且max_point_distance1<α且max_point_distance2<α时,返回分类结果C1和C2。否则重复2.5.3)至2.5.5)。
2.6)将两类之中数量较多的序列定义为常规子序列,另一类定义为异常子序列。
(3)在线负载资源预测
令NL=(nl1,nl2,···nls)为按照时间排序的常规子序列集合,其中任意nli∈NL,i∈(1,s)可表示为nli={nl_si1,nl_si2,···nl_sim},即一个周期内所有采样时刻的资源使用量。令AL=(al1,al2,···alf)为按照时间排序的异常子序列集合,其中任意ali=(al_si1,,al_si2,···al_sim),即一个周期内所有采样时刻的资源使用量。
3.1)定义在经过周期分割的所有在线负载资源使用子序列中,异常子序列所占子序列数量的比例为异常比例Rf,计算方法如公式(6)。
其中,|NL|为常规子序列的总数量33;|AL|为异常子序列的数量7。
3.2)对任一常规子序列中时刻t的资源使用量nl_si_t,其常规变化率Rnli_t,计算方法如公式(7)。
其中,nl_si+1_t表示第i+1个常规子序列中时刻t的资源使用量。
3.3)定义NL=(nl1,nl2,···nls)中前s-1个常规子序列中时刻t的的资源使用量的常规平均变化率计算方法如公式(8)。
3.4)对任一异常子序列中时刻t的资源使用量ali_t,其异常变化率Rali_t,计算方法如公式(9)。
其中,al_si+1_t表示第i+1个异常子序列中时刻t的资源使用量。
3.5)定义AL=(al1,al2,···alf)中前f-1个异常子序列中时刻t的的资源使用量的异常平均变化率计算方法如公式(10)。
3.6)对下一个序列周期的第j时刻的资源使用量在常规序列变化趋势的情况下的预测值记为nlforecast_j,计算方法如公式(11)。
其中,nl_s|NL|_j表示常规序列中最后一个序列中第j个资源使用量。
3.7)对下一个序列周期的第j时刻的资源使用量在异常序列变化趋势的情况下的预测值记为alforecast_j,计算方法如公式(12)。
其中,al_s|AL|_j表示异常序列中最后一个序列中第j个元素的资源使用量。
3.8)针对在线负载的资源使用量序列未来一个周期第j时刻的资源使用量lnext_j的预测,使用加权计算方法,如公式(13)。
lnext_j=(1-Rf)*nlforecast_j+Rf*alforecast_j (13)
根据本发明所提出的在线负载资源预测方法,发明人对预测的准确度和预测时间开销两个指标做了相关的测试。验证结果表明,本发明方法适用于具有周期性特征的在线负载资源预测,采用本发明方法,可以在较小的时间开销情况下准确的预测资源需求。
测试以平均相对误差和时间开销为指标,体现本发明提出的在线负载方法的准确性和较小的时间开销。性能测试运行于5个节点构成的集群***,节点的硬件配置包括:Intel(R)Xeon(R)CPU [email protected]的CPU、16GB DDR3 RAM、1TB SATA硬盘,节点间采用千兆以太网互连,操作***为Centos6.5。实验选用WordCount作为流计算在线负载的应用为例进行测试。WordCount应用的到达间隔符合正弦分布和泊松分布,到达强度为[1,10]M/s,数据到达强度变化周期为30分钟。选用TPC-W负载作为Web类型的在线负载,访问强度为[40,80]次/秒,强度变化范围是30分钟。
针对预测方法准确性的测试
通过发明内容所述方法计算在线负载资源预测的平均相对误差。本实验选取WordCount应用和TPC-W负载作为在线负载,数据到达/用户访问符合正弦分布和泊松分布,数据到达强度为[1,10]M/s,用户访问为强度[40,80]次/秒,数据到达/用户访问变化周期为30分钟。分别收集两种负载在数据规模为10800、14400和18000条作为测试数据。WordCount应用的产生的10800、14400和18000条内存数据序列分别为实验分组1、2、3,TPC-W负载产生的10800、14400和18000条内存数据序列分别为实验分组4、5、6。我们提出的资源预测方法(PRP)结果通过平均相对误差(MRE)作为性能评价指标,对比对象为ARIMA算法、支持向量回归算法和马尔可夫模型。在正弦数据分布下的测试结果如表1所示,在泊松数据分布下的测试结果如表2所示。
表1正弦分布情况下的在线负载资源需求预测准确度比较
实验组 1 2 3 4 5 6
PRP(MRE) 8.89% 8.92% 8.97% 8.99% 9.97% 8.89%
ARIMA(MRE) 11.52% 11.42% 11.65% 11.49% 11.71% 11.58%
SVR(MRE) 9.72% 9.79% 9.61% 9.57% 9.51% 9.53%
Markov(MRE) 11.73% 11.75% 12.02% 12.13% 12.2% 11.97%
表2泊松分布情况下的在线负载资源需求预测准确度比较
实验组 1 2 3 4 5 6
PRP(MRE) 8.69% 8.72% 8.67% 8.87% 8.79% 8.81%
ARIMA(MRE) 11.62% 11.65% 11.57% 11.75% 11.69% 11.68%
SVR(MRE) 9.57% 9.59% 9.57% 9.61% 9.67% 9.52%
Markov(MRE) 12.23% 11.65% 11.79% 12.12% 11.73% 12.2%
实验结果表明,与既有基于ARIMA算法、支持向量回归算法和马尔可夫模型的在线负载资源预测方法相比,本文提出的基于周期性特征的在线负载资源预测方法可使预测平均相对误差最大降低28.3%、12.3%和27.4%。
针对预测方法时间开销的测试
通过发明内容所述方法计算在线负载资源预测的时间开销。实验选取WordCount负载在周期为20分钟、数据到达强度范围在1MB/s至10MB/s且数据分布为正弦分布情况下,产生资源序列样本数据在10800条到36000条规模下的资源预测时间开销。测试结果如表3所示。
表3在线负载资源预测时间开销比较
数据规模(条) 10800 14400 18000 25200 32400 36000
PRP 792s 481s 573s 682s 751s 812s
ARIMA 1172s 1407s 1482s 1626s 1871s 2103s
SVR 582s 606s 671s 701s 971s 1123s
Markov 1104s 1194s 1287s 1404s 1762s 2031s
随着样本数据规模的增大,基于周期特征的资源预测方法在预测过程中的时间开销增长率平均为6.7%,而三种对比对象方法的时间开销增长率分别为16.7%、19.6%和12.5%。这是因为在第一次预测的过程中,对于周期的识别已经做完,结合周期性特征,后面新增加的样本数据不用再进行周期识别,减小了时间开销。而在其他三种方法中,每一次建模和预测都要对全部的数据进行训练,这样才能保持一定的准确度。因此,随着样本的增大,其他三种方法的时间开销明显增加。
以上实施例仅用以说明本发明,而并非限制本发明所描述的技术方案。因此,一切不脱离本发明的精神和范围的技术方案及其改进,均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于周期性识别的在线负载的资源预测方法,其特征在于包括四个步骤:
资源序列周期识别、子序列分类、计算资源使用量预测值:
(1)资源序列周期识别:
1.1)收集在线负载资源使用序列,采用固定时间步长,从在线负载资源使用序列L中采样数据,构建时间序列ML={ml1,ml2,…mlp},其中mlj表示第j个时间点对应的资源使用量,p为采样总量;
1.2)根据自相关函数公式计算出序列ML的自相关序列MR={mr1,mr2,…mrn};
1.3)对MR中任意两个相邻的极大值,依据其发生的时间点,计算它们的时间距离t_maxi
1.4)计算所有t_maxi的均值,将该均值设定为资源使用量序列的周期T;
1.5)按照周期T将序列ML进行分割,得到按照时间顺序排列的资源子序列集合MZ={mz1,nz2,…mzq},其中i∈(1,q),表示经过周期分割后的子序列,表示子序列mzi中第j时刻的资源使用量;
(2)子序列分类:
2.1)根据欧氏距离公式度量两个子序列mzi之间的相似度,同时以三元组(pi,pj,Sij)的形式进行记录;
其中,pi是第i个序列,pj是第j个序列,pik表示第i个序列中的第k个元素数据,同理,pjk表示第j个序列中的第k个元素数据;
2.2)将所有子序列之间距离的最大值,定义为全序列距离最大值dmax
2.3)将所有序列之间距离的最小值,定义为全序列距离最小值dmin
2.4)计算常规序列距离阈值α,计算公式如下:
α=(dmax-dmin)×a+dmin
2.5)使用改进的K-Means聚类算法对子序列NL进行二分类,具体如下:
2.5.1)随机选择序列集中的数据点作为簇中心集合{o1,o2}←RandomSelect(X);
2.5.2)以初始簇中心初始化簇集合C,C1←o1,C2←o2
2.5.3)将每一个样本对象mzi归入距离最近的簇;
2.5.4)计算两个类簇中所有数据点与类簇中心点的距离,并分别获得两个类簇的簇内序列最大距离max_point_distance1和max_point-distance2
2.5.5)计算两个类簇之间的距离cluster_distance←Distance(C1,C2),并以每个簇中数据点位置的平均值分别更新每个类簇的中心点{o1,o2}←UpdateCenter(C1,C2);
2.5.6)定义簇间距阈值θ和簇内点间距阈值α,在满足cluster_distance>θ且max_point-distance1<α且max_point-distance2<α时,返回分类结果C1和C2,否则重复2.5.3)至2.5.5);
2.6)将两类之中数量多的序列定义为常规子序列,另一类定义为异常子序列;
(3)在线负载资源预测
令NL=(nl1,nl2,…nls)为按照时间排序的常规子序列集合,其中任意nli∈NL,i∈(1,s)可表示为nli={nl_si1,nl-si2,…nl-sim},即一个周期内所有采样时刻的资源使用量,令AL=(al1,al2,…alf)为按照时间排序的异常子序列集合,其中任意ali=(al_si1,,al_si2,…al_sim),即一个周期内所有采样时刻的资源使用量;
3.1)计算在经过周期分割的所有在线负载资源使用子序列集MZ={mz1,mz2,…mza}中,异常子序列所占子序列数量的比例为异常比例Rf,计算方法如下:
其中,|NL|为常规子序列的的总数量;|AL|为异常子序列的数量;
3.2)对任一常规子序列中时刻t的资源使用量nl-si_t,其常规变化率Rnli_t,计算方法如下:
其中,nl_si+1_t表示第i+1个常规子序列中时刻t的资源使用量;
3.3)计算NL=(nl1,nl2,…nls)中前s-1个常规子序列中时刻t的的资源使用量的常规平均变化率计算方法如下:
3.4)对任一异常子序列中时刻t的资源使用量ali_t,其常规变化率Rali_t,计算方法如下:
其中,al_si+1_t表示第i+1个异常子序列中时刻t的资源使用量,
3.5)定义AL=(al1,al2,…alf)中前f-1个常规子序列中时刻t的的资源使用量的异常平均变化率计算方法如下:
3.6)对下一个序列周期的第j时刻的资源使用量在常规序列变化趋势的情况下的预测值记为nlforecast_j,计算方法如下:
其中,nl-s|NL|_j表示常规序列中最后一个序列中第j个资源使用量。
3.7)对下一个序列周期的第j时刻的资源使用量在异常序列变化趋势的情况下的预测值记为alforecast_j,计算方法如下:
其中,al-s|AL|_j表示异常序列中最后一个序列中第j个元素的资源使用量
3.8)利用在线负载的资源使用量序列,预测未来一个周期第j时刻的资源使用量lnext_j,计算方法如下:
lnext_j=(1-Rf)*nlforecast_j+Rf*alforecast_j
CN201910592018.8A 2019-07-02 2019-07-02 一种基于周期性特征分析的在线负载资源预测方法 Active CN110297715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910592018.8A CN110297715B (zh) 2019-07-02 2019-07-02 一种基于周期性特征分析的在线负载资源预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910592018.8A CN110297715B (zh) 2019-07-02 2019-07-02 一种基于周期性特征分析的在线负载资源预测方法

Publications (2)

Publication Number Publication Date
CN110297715A true CN110297715A (zh) 2019-10-01
CN110297715B CN110297715B (zh) 2021-09-14

Family

ID=68029931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910592018.8A Active CN110297715B (zh) 2019-07-02 2019-07-02 一种基于周期性特征分析的在线负载资源预测方法

Country Status (1)

Country Link
CN (1) CN110297715B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026553A (zh) * 2019-12-13 2020-04-17 深圳先进技术研究院 离线混部作业的资源调度方法及服务器***
CN112100024A (zh) * 2020-08-14 2020-12-18 北京浪潮数据技术有限公司 一种资源负载异常检测方法、装置及设备
CN112882822A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 生成负载预测模型的方法、装置、设备和存储介质
CN115936428A (zh) * 2022-11-17 2023-04-07 江苏东港能源投资有限公司 增量配电网防外破定值优化***

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法
US20160320818A1 (en) * 2015-04-28 2016-11-03 Quanta Computer Inc. Dynamic management of power supply units
CN109271232A (zh) * 2018-07-03 2019-01-25 广东省城乡规划设计研究院 一种基于云计算平台的集群资源分配方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004671A (zh) * 2010-11-15 2011-04-06 北京航空航天大学 一种云计算环境下数据中心基于统计模型的资源管理方法
US20160320818A1 (en) * 2015-04-28 2016-11-03 Quanta Computer Inc. Dynamic management of power supply units
CN109271232A (zh) * 2018-07-03 2019-01-25 广东省城乡规划设计研究院 一种基于云计算平台的集群资源分配方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
E PAPARODITIS: "Short-Term Load Forecasting: The Similar Shape Functional Time Series Predictor", 《PAPARODITIS, E , AND T. SAPATINAS . "SHORT-TERM LOAD FORECASTING: THE SIMILAR SHAPE FUNCTIONAL TIME SERIES PREDICTOR." IEEE TRANSACTIONS ON POWER SYSTEMS》 *
沈富可: "应用时间序列分析进行网络负载预测", 《中山大学学报(自然科学版)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112882822A (zh) * 2019-11-29 2021-06-01 阿里巴巴集团控股有限公司 生成负载预测模型的方法、装置、设备和存储介质
CN112882822B (zh) * 2019-11-29 2024-03-01 阿里巴巴集团控股有限公司 生成负载预测模型的方法、装置、设备和存储介质
CN111026553A (zh) * 2019-12-13 2020-04-17 深圳先进技术研究院 离线混部作业的资源调度方法及服务器***
CN111026553B (zh) * 2019-12-13 2024-04-19 深圳先进技术研究院 离线混部作业的资源调度方法及服务器***
CN112100024A (zh) * 2020-08-14 2020-12-18 北京浪潮数据技术有限公司 一种资源负载异常检测方法、装置及设备
CN112100024B (zh) * 2020-08-14 2022-06-17 北京浪潮数据技术有限公司 一种资源负载异常检测方法、装置及设备
CN115936428A (zh) * 2022-11-17 2023-04-07 江苏东港能源投资有限公司 增量配电网防外破定值优化***

Also Published As

Publication number Publication date
CN110297715B (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN110297715A (zh) 一种基于周期性特征分析的在线负载资源预测方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
KR100987168B1 (ko) 원격계측 전력 부하패턴의 분류 및 예측 방법
CN111324642A (zh) 一种面向电网大数据分析的模型算法选型与评价方法
CN103559303A (zh) 一种对数据挖掘算法的评估与选择方法
Liu et al. A moving shape-based robust fuzzy K-modes clustering algorithm for electricity profiles
CN113255900A (zh) 一种考虑改进谱聚类与Bi-LSTM神经网络的冲击性负荷预测方法
Fontanini et al. A data-driven BIRCH clustering method for extracting typical load profiles for big data
CN113159220B (zh) 基于随机森林的混凝土侵彻深度经验算法评价方法和装置
CN105913144B (zh) 一种基于目标导向最优匹配相似性的产品寿命预测方法
Zhang et al. Short-term load forecasting based on big data technologies
CN111476298A (zh) 一种居家办公环境下的用电负荷状态识别方法
Yang et al. Short-term demand forecasting for bike sharing system based on machine learning
CN109871997A (zh) 一种适应复杂环境的降温负荷组合测算***
CN108388911A (zh) 一种面向混合属性的移动用户动态模糊聚类方法
CN101334636A (zh) 一种矫直机工艺参数选择的方法
CN112734096A (zh) 一种城市饱和负荷预测方法及***
CN111222688A (zh) 一种商业楼宇的日负荷预测方法
CN111275247A (zh) 一种基于多种影响因素的极限学习机月度电量预测方法
Oyinlola Energy prediction in edge environment for smart cities
Butunoi et al. Shapelet based classification of customer consumption patterns
Li et al. Research on short-term Traffic flow Prediction Based on Big Data Environment
Cui et al. Research on the information entropy using processing square matrix method based on similarities evaluation model
CN112882822B (zh) 生成负载预测模型的方法、装置、设备和存储介质
Zhang et al. An Ensemble Method for Aggregated Baseline Load Estimation: From Probabilistic Perspective

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant