CN104809052A - 用于对***资源利用率进行预测的方法和装置 - Google Patents
用于对***资源利用率进行预测的方法和装置 Download PDFInfo
- Publication number
- CN104809052A CN104809052A CN201410043903.8A CN201410043903A CN104809052A CN 104809052 A CN104809052 A CN 104809052A CN 201410043903 A CN201410043903 A CN 201410043903A CN 104809052 A CN104809052 A CN 104809052A
- Authority
- CN
- China
- Prior art keywords
- image data
- time
- effects factor
- collection period
- time effects
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了用于对***资源利用率进行预测的方法和装置。所述方法可以包括:建立对应于所述***资源利用率的采集数据集合,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素;从所述多个数据测量值中移除所述多个时间影响因素;以及基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率。根据本发明,可以利用已经移除了多个时间影响因素的多个数据测量值来预测未来的***资源利用率,从而提供对***资源利用率的更为有效的预测。
Description
技术领域
本发明一般涉及对***资源利用率的预测,具体地,涉及用于在考虑了时间影响因素的情况下来对***资源利用率进行预测的方法和装置。
背景技术
对于IT***而言,准确地预测***资源需求将是极为重要的。这有助于确保当需要时以最小的代价提供足够的***资源,例如,在合适的时间进行***扩容(如增大内存、增加磁盘容量等),避免因扩容过早造成资源浪费或者因扩容不及时造成***资源出现瓶颈。
例如,在传统的IT***环境中,***资源需求的预测有助于决定何时采购硬件资源以及何时升级***硬件,由此保证不会违背服务等级协议(SLA:Service Level Agreement)。
此外,例如,在新兴的云环境中,对***资源需求的准确预测能够改进服务器的整合并且增强***资源利用的效率。由于虚拟机不具有物理边界并从而对资源管理提供了极大的灵活性,因此,***资源需求的预测将变得更为重要。
目前,已经提出了多种算法和方法来提供对***资源利用率的预测,以便支持在性能优化、任务调度、SLA保证等方面的改进。例如回归分析等各种统计方法也已经广泛地应用在了***资源利用率的预测上。
然而,本领域仍然需要对***资源利用率进行更为有效的预测的解决方案。
发明内容
本发明提供了用于对***资源利用率进行预测的方法和装置。
根据一个方面,本发明的实施例提供了一种用于对***资源利用率进行预测的方法。该方法可以包括:建立对应于所述***资源利用率的采集数据集合,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素;从所述多个数据测量值中移除所述多个时间影响因素;以及基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率。
可选地,在以上所述的方法中,所述获取多个时间影响因素可以包括:获取对应于所述多个数据测量值的多个统计平均值;以及基于所述多个数据测量值和所述多个统计平均值来获取所述多个时间影响因素。
可选地,在以上所述的方法中,所述采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项,所述采集时间包括日期和时间点。所述获取多个统计平均值可以包括:获取多个移动平均值,其中,以L为跨度,针对所述采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值;以及基于所述多个移动平均值来获取与所述采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值。所述获取所述多个时间影响因素可以包括:获取与每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于所述特定时间点的时间影响因素。
可选地,在以上所述的方法中,所述移除所述多个时间影响因素可以包括:对所述多个时间影响因素进行归一化;以及基于所述采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对所述每个数据测量值移除所述对应的归一化的时间影响因素。
可选地,在以上所述的方法中,所述采集数据集合包括n个采集周期。所述预测未来的***资源利用率可以包括:获取分别对应于所述n个采集周期的n个最大有效测量值;以及基于所述n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
可选地,在以上所述的方法中,所述采集数据集合包括n个采集周期。所述预测未来的***资源利用率可以包括:基于每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的所述特定时间点处的***资源利用率。
根据另一个方面,本发明的实施例提供了一种用于对***资源利用率进行预测的装置。该装置可以包括:采集数据集合建立组件,用于建立对应于所述***资源利用率的采集数据集合,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;时间影响因素获取组件,用于基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素;时间影响因素移除组件,用于从所述多个数据测量值中移除所述多个时间影响因素;以及预测组件,用于基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率。
可选地,在以上所述的装置中,所述时间影响因素获取组件可以被配置为:获取对应于所述多个数据测量值的多个统计平均值;以及基于所述多个数据测量值和所述多个统计平均值来获取所述多个时间影响因素。
可选地,在以上所述的装置中,所述采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项,所述采集时间包括日期和时间点。所述获取多个统计平均值可以包括:获取多个移动平均值,其中,以L为跨度,针对所述采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值;以及基于所述多个移动平均值来获取与所述采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值。所述获取所述多个时间影响因素可以包括:获取与每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于所述特定时间点的时间影响因素。
可选地,在以上所述的装置中,所述时间影响因素移除组件可以被配置为:对所述多个时间影响因素进行归一化;以及基于所述采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对所述每个数据测量值移除所述对应的归一化的时间影响因素。
可选地,在以上所述的装置中,所述采集数据集合包括n个采集周期。所述预测组件可以被配置为:获取分别对应于所述n个采集周期的n个最大有效测量值;以及基于所述n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
可选地,在以上所述的装置中,所述采集数据集合包括n个采集周期。所述预测组件可以被配置为:基于每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的所述特定时间点处的***资源利用率。
根据另一个方面,本发明的实施例提供了一种用于对***资源利用率进行预测的装置。该装置可以包括:用于建立对应于所述***资源利用率的采集数据集合的模块,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;用于基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素的模块;用于从所述多个数据测量值中移除所述多个时间影响因素的模块;以及用于基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率的模块。
根据另一个方面,本发明的实施例提供了一种用于对***资源利用率进行预测的装置。该装置可以包括:存储器,用于存储可执行指令;以及处理器,用于根据所存储的可执行指令,执行以上所述方法所包括的步骤。
根据另一个方面,本发明的实施例提供了一种机器可读介质,其上存储有可执行指令,当所述可执行指令被执行时,使得机器执行以上所述方法所包括的步骤。
通过本发明的技术方案,可以在考虑了时间影响因素的情况下来对***资源利用率进行预测。例如,本发明能够有效地克服时间影响因素对预测的干扰。具体地,本发明可以利用已经移除了时间影响因素的数据测量值来预测未来的***资源利用率。从而,本发明可以提供对***资源利用率的更为有效的预测。
根据本发明的技术方案,当需要时,能够以最小的代价来提供足够的***资源。此外,本发明的技术方案还有助于决定何时采购硬件资源、何时升级***硬件等,由此保证不会违背服务等级协议SLA。
附图说明
图1示出了应用了根据本发明实施例的***资源利用率预测方案的示意性***架构;
图2示出了根据本发明实施例的***资源利用率预测器的示意性框图;
图3示出了根据本发明实施例的用于对***资源利用率进行预测的示意性方法流程图;
图4示出了根据本发明实施例的用于对***资源利用率进行预测的装置的示意性框图;以及
图5示出了根据本发明另一实施例的用于对***资源利用率进行预测的装置的示意性框图。
具体实施方式
在本发明的实施例所提供的用于对***资源利用率进行预测的方案中,可以在考虑了时间影响因素的情况下来对***资源利用率进行预测。根据本发明的实施例,能够有效地克服时间影响因素对预测的干扰。例如,可以利用已经移除了时间影响因素的数据测量值来预测未来的***资源利用率。从而,本发明可以提供对***资源利用率的更为有效的预测。
以下将以明确易懂的方式通过对优选实施例的说明并结合附图来对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1示出了应用了根据本发明实施例的***资源利用率预测方案的示意性***架构。
如图1所示的***架构可以包括,但并不限于,IT***110、***资源数据采集器120、数据存储器130、数据预处理器140、***资源利用率预测器150以及用户接口160等。根据实际应用的需要,可以在图1所示的***架构中删除或替换任意一个或多个组件,或者可以添加任意其它的组件。
IT***110可以是本领域中常规的计算机***,其可以利用全部或部分***资源来实现通用或专用的数据处理。
***资源数据采集器120连接到IT***110。***资源数据采集器120可以对IT***110的***资源利用率的历史数据进行采集。典型的***资源可以包括涉及中央处理单元(CPU)、内存、磁盘(disk)、网络、数据库等的资源。以下在表1中示意性地示出了一些常见的***资源利用率指标。本领域技术人员应当理解,本发明实施例所涉及的***资源利用率并不局限于表1所示的具体***资源利用率指标,而是可以包括本领域公知的任何其它***资源利用率指标。
表1
由***资源数据采集器120针对***资源利用率所采集的采集数据项可以具有(采集时间,数据测量值)的形式,例如:
SAMPLING_TIME1,value1
SAMPLING_TIME2,value2
SAMPLING_TIME3,value3
…
SAMPLING_TIMEx,valuex
其中,SAMPLING_TIMEx表示采集时间,valuex表示在对应的采集时间SAMPLING_TIMEx处所采集到的数据测量值。采集时间可以包括日期(例如,年、月、日中的一个或多个)以及时间点(例如,时、分、秒中的一个或多个)等信息。数据测量值是针对特定的***资源利用率指标所测量得到的数值。
下面以针对总CPU利用率来采集数据测量值为例进一步具体说明。假设数据采集的时间段为2013年08月01日至2013年12月31日,并且数据采集的间隔为15分钟,即,在1天之内可以采集得到96个采集数据项。以下在表2中示意性地列出了在2013年8月1日0点至2013年8月1日4点30分之间采集得到的采集数据项。其它采集时间处的采集数据项与此类似。
表2
***资源数据采集器120所获取的采集数据项被存储到数据存储器130中,以便用于后续的处理和分析。
数据预处理器140连接到数据存储器130。数据预处理器140可以从数据存储器130中提取采集数据项,并且将采集数据项预处理成可以由***资源利用率预测器150进行处理的数据形式。数据预处理器140可以执行多种具体的子处理,例如,可以执行过滤子处理、集成子处理、标准化子处理等中的一项或多项子处理,或者也可以根据实际应用的需要而执行任意其它适当的子处理。
过滤子处理可以根据需要去除明显不合理或无效的采集数据项。例如,可以去除数据测量值明显异常的采集数据项,或者去除不反映任何业务的采集数据项。集成子处理可以将来自不同源(例如,表格、数据库等)的采集数据项进行集成,以便合并到例如同一个表格或数据库中。标准化子处理可以对采集数据项的具体表示格式进行标准化。例如,可以将日期和时间点的表示统一成一致的格式。
尽管图1中示出了数据存储器130中存储的采集数据项可以在经由数据预处理器140的预处理之后而被传送到***资源利用率预测器150,但是,可选地,数据存储器130中存储的采集数据项也可以直接被传送到***资源利用率预测器150而不经由数据预处理器140的预处理。例如,当数据存储器130中存储的采集数据项已经具有可以由***资源利用率预测器150进行处理的数据格式时,可以从图1所示的***架构中省略掉数据预处理器140,而将数据存储器130直接连接到***资源利用率预测器150。
***资源利用率预测器150可以根据所采集的***资源利用率的历史数据来对未来的***资源利用率进行预测。例如,***资源利用率预测器150可以从数据预处理器140或者数据存储器130处获得采集数据项,并且通过对采集数据项中包括的数据测量值进行处理来预测未来的***资源利用率。将在后面结合图2对***资源利用率预测器150给出进一步的说明。
用户接口160连接到***资源利用率预测器150,并且可以与用户实现交互。用户接口160可以接收用户输入的关于***资源利用率预测的配置信息。例如,用户可以输入其对于数据库***、***资源利用率指标、预测算法等的选择。用户接口160可以进而将用户输入的配置信息提供给***资源利用率预测器150,以便***资源利用率预测器150可以根据配置信息来执行相应的操作。此外,用户接口160还可以将来自***资源利用率预测器150的预测结果提示给用户,其中,该预测结果可以采用图表、文字等各种形式。
图2示出了根据本发明实施例的***资源利用率预测器200的示意性框图。如图2所示,***资源利用率预测器200可以包括,但并不限于,采集数据集合建立组件210、时间影响因素获取组件220、时间影响因素移除组件230以及预测组件240等。
采集数据集合建立组件210可以用于建立对应于***资源利用率的采集数据集合。采集数据集合可以包括多个采集数据项,每个采集数据项可以包括对应的采集时间和数据测量值。
例如,可以根据实际应用的需要,基于采集数据项中的采集时间SAMPLING_TIME信息来建立不同的采集数据集合,以便可以对于不同的采集数据集合分别进行有针对性的预测分析。可以根据任何需要或标准来建立感兴趣的采集数据集合。
具体地,例如,可以根据采集时间中的日期信息来建立工作日采集数据集合和非工作日采集数据集合。工作日采集数据集合可以包括例如日期对应于周一至周五的多个采集数据项。非工作日采集数据集合可以包括例如日期对应于周六和周日的多个采集数据项。对于工作日采集数据集合而言,可以进而根据采集时间中的时间点信息来建立工作日白天采集数据集合和工作日夜间采集数据集合。工作日白天采集数据集合可以包括例如日期对应于周一至周五并且时间点对应于07:30:00至19:30:00的多个采集数据项。工作日夜间采集数据集合可以包括例如日期对应于周一至周五并且时间点对应于19:30:00至次日07:30:00的多个采集数据项。类似地,可以建立非工作日白天采集数据集合和非工作日夜间采集数据集合。
对于前述的针对总CPU利用率来采集数据测量值的实例而言,一天内可以采集得到96个采集数据项,其中,白天(例如,从07:30:00至19:30:00)和夜间(例如,从19:30:00至次日07:30:00)分别采集得到48个采集数据项。从而,工作日采集数据集合所包括的采集数据项的数量为(96×工作日采集数据集合包括的工作日天数)个,非工作日采集数据集合所包括的采集数据项的数量为(96×非工作日采集数据集合包括的非工作日天数)个。工作日白天或夜间采集数据集合所包括的采集数据项的数量为(48×工作日白天或夜间采集数据集合包括的工作日天数)个,非工作日白天或夜间采集数据集合所包括的采集数据项的数量为(48×非工作日白天或夜间采集数据集合包括的非工作日天数)个。
应当理解,采集数据集合建立组件210可以根据采集时间中包括的日期信息或者时间点信息或者这两者的组合来灵活地建立各种感兴趣的采集数据集合。
时间影响因素获取组件220可以用于基于采集数据集合内的多个数据测量值来获取多个时间影响因素。时间影响因素可以反映时间(例如,具体的时间点)对***资源使用情况的影响。例如,在银行信息***中,受银行顾客和银行工作人员的行为模式的影响,***资源利用率在白天8点至12点以及13点至17点之间处于相对高峰,然而在夜间,***资源利用率整体处于较低水平。时间影响因素获取组件220可以确定时间对数据测量值的影响程度(其可以由时间影响因素来指示),从而有助于后续的移除时间影响因素的进一步处理。
可选地,时间影响因素获取组件220可以获取对应于采集数据集合内的多个数据测量值的多个统计平均值,并且可以基于所述多个数据测量值和所获取的多个统计平均值来进一步获取多个时间影响因素。
根据本发明的实施例,可以针对所建立的采集数据集合来确定采集周期。采集周期的长度可以用该采集周期包含的采集数据项的数量来表示。可以假设采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项。例如,对于上述的工作日白天采集数据集合而言,采集周期可以确定为1天。如果该集合中包括了30天的采集数据项,则该集合实际上就包括了n=30个采集周期。此外,由于该集合中1天内的采集数据项的数量为48个,从而,可以用L=48来表示采集周期的长度。
可选地,时间影响因素获取组件220可以通过获取移动平均值和中心化移动平均值来获取多个统计平均值。具体地,时间影响因素获取组件220可以以L为跨度,针对采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值,从而获取多个移动平均值。然后,时间影响因素获取组件220可以基于所获取的多个移动平均值来获取与采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值。
可选地,时间影响因素获取组件220可以通过以下过程来获取多个时间影响因素:获取与第1个至第n个采集周期内的每个采集周期中的L个时间点分别对应的L个时间影响因素。即,如果每个采集周期中包括48个时间点,则可以针对这48个时间点中的每一个时间点来分别获取对应的时间影响因素,从而总共获得48个时间影响因素。具体地,时间影响因素获取组件220可以通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于该特定时间点的时间影响因素。例如,假设特定时间点为09:00:00,则可以计算出第2个采集周期的09:00:00处的数据测量值与该数据测量值所对应的中心化移动平均值的比值、第3个采集周期的09:00:00处的数据测量值与该数据测量值所对应的中心化移动平均值的比值,以此类推,直到计算出第n个采集周期的09:00:00处的数据测量值与该数据测量值所对应的中心化移动平均值的比值,然后,对所计算出的所有比值计算平均值,该平均值可以作为对应于时间点09:00:00的时间影响因素。
时间影响因素移除组件230可以用于从采集数据集合内的多个数据测量值中移除多个时间影响因素。通过由时间影响因素移除组件230从数据测量值中移除时间影响因素,可以分离掉数据测量值中由时间对***资源使用情况造成的影响,而保留数据测量值中由例如业务量的变化(如,不同的用户数量)等所造成的影响。移除了时间影响因素的数据测量值可以更好地反映出***资源利用率的变化趋势。
可选地,时间影响因素移除组件230可以首先对时间影响因素获取组件220所获取的多个时间影响因素进行归一化,从而,可以获取与采集数据集合中的每个数据测量值相对应的归一化的时间影响因素。然后,时间影响因素移除组件230可以基于采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对每个数据测量值移除对应的归一化的时间影响因素。例如,对于采集数据集合中的第55个数据测量值,时间影响因素移除组件230可以计算该第55个数据测量值与该数据测量值所对应的归一化的时间影响因素之间的比值,由此获得相应的移除了归一化的时间影响因素的数据测量值。
预测组件240可以用于基于由时间影响因素移除组件230所提供的已经移除了多个时间影响因素的多个数据测量值来预测未来的***资源利用率。此处的预测处理可以针对不同的实际应用需求而采用不同的预测算法。
例如,当需要预测在未来采集周期内的最大***资源利用率时,预测组件240可以获取分别对应于第1个至第n个采集周期的n个最大有效测量值,然后,基于所获取的n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
例如,当需要预测在未来采集周期内的特定时间点处的***资源利用率时,预测组件240可以基于第1个至第n个采集周期内每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的该特定时间点处的***资源利用率。
对于上述的两种示意性的实际应用以及任意其它的实际应用,预测组件240可以采用任何公知的预测算法。例如,可以采用回归分析方法来进行预测,该回归分析方法可以包括线性回归、非线性回归等。其它的预测算法可以为例如回归树、模型树等。可选地,在实际使用过程中,可以分别基于多种回归分析方法来进行预测,然后判断各种方法的准确率,并且选择准确率较高的回归分析方法来进行实际预测。
图3示出了根据本发明实施例的用于对***资源利用率进行预测的示意性方法300的流程图。例如,方法300可以由上述的***资源利用率预测器200来执行。
在S310,可以建立对应于***资源利用率的采集数据集合。S310处的处理可以包括以上结合采集数据集合建立组件210所描述的任意操作。
在S320,可以基于采集数据集合内的多个数据测量值来获取多个时间影响因素。S320处的处理可以包括以上结合时间影响因素获取组件220所描述的任意操作。
可选地,获取多个时间影响因素可以包括:获取对应于多个数据测量值的多个统计平均值;以及基于多个数据测量值和多个统计平均值来获取多个时间影响因素。
根据本发明的实施例,可以假定采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项。
可选地,上述的获取多个统计平均值可以包括:获取多个移动平均值,其中,以L为跨度,针对采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值;以及基于多个移动平均值来获取与采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值。
可选地,上述的获取多个时间影响因素可以包括:获取与第1个至第n个采集周期内的每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于特定时间点的时间影响因素。
在S330,可以从多个数据测量值中移除多个时间影响因素。S330处的处理可以包括以上结合时间影响因素移除组件230所描述的任意操作。
可选地,上述的移除多个时间影响因素可以包括:对多个时间影响因素进行归一化;以及基于采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对每个数据测量值移除对应的归一化的时间影响因素。
在S340,可以基于已经移除了多个时间影响因素的多个数据测量值来预测未来的***资源利用率。S340处的处理可以包括以上结合预测组件240所描述的任意操作。
可选地,上述的预测未来的***资源利用率可以包括:获取分别对应于第1个至第n个采集周期的n个最大有效测量值;以及基于n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
可选地,上述的预测未来的***资源利用率可以包括:基于第1个至第n个采集周期内每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的特定时间点处的***资源利用率。
以下结合更为具体的实例来进一步详细描述根据本发明实施例的对***资源利用率进行预测的方案。应当理解,以下涉及的任何具体的解释、公式、数值等仅仅是作为用于更好地描述本发明实施例的实例,本发明并不局限于任何这些具体的实例,而是可以采用其它等效的或类似的技术手段来对***资源利用率进行预测。
假设已经建立了感兴趣的采集数据集合,该采集数据集合包括n个采集周期,并且采集周期的长度为L。
根据本发明的实施例,可以通过以下公式1来以L为跨度获取多个移动平均值,其中,针对采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值来分别获取对应的移动平均值:
MA(ti)=(valuei+valuei-1+...+valuei-L+1)/L (公式1)其中,i为数据测量值索引,i为整数且L≤i≤nL,L为一个采集周期(例如,1天)内的采集数据项的数量,ti指示与valuei对应的时间,此处,ti有n×L-(L-1)个取值。
根据公式1所计算的MA(ti)表示在跨度L上valuei及其之前的L-1个value的移动平均值。所获取的MA的数量为n×L-(L-1)个。例如,在上述的工作日白天采集数据集合的实例下,如果L=48且n=30,则可以计算得到1393个MA的值。
根据本发明的实施例,可以通过以下公式2来基于多个移动平均值来获取与采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值:
CMA(tj)=(MA(tj)+MA(tj-1))/2 (公式2)其中,j为整数且L+1≤j≤nL。所计算的CMA(tj)表示针对时间索引tj计算出的中心化移动平均值,其对应于数据测量值valuej。所获取的CMA的数量为n×L-(L-1)-1个。
根据本发明的实施例,可以通过以下公式3来获取与第2个至第n个采集周期内的每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于特定时间点的时间影响因素:
F(mp)=AVERAGE((valuek/CMA(tk)),(valuek+L/CMA(tk+L)),
(valuek+2L/CMA(tk+2L)),…,(valuek+(n-2)L/CMA(tk+(n-2)L))) (公式3)其中,k为整数且L+1≤k≤2L,p为整数,并且1≤p≤L。
所计算的F(mp)表示针对单个采集周期内的时间索引mp计算出的时间影响因素。所获取的F(mp)的数量为L个。例如,如果L=48,即,每个采集周期包括48个时间点,则时间索引mp可以分别对应于这48个时间点中的每个时间点,由此,公式3可以计算出包括分别对应于每个时间点的相应时间影响因素在内的总共48个时间影响因素。
根据本发明的实施例,可以通过以下公式4来对多个时间影响因素进行归一化:
Fnormalized(mp)=F(mp)/AVERAGE(F(m1),F(m2),…,F(mL)) (公式4)其中,p为整数且1≤p≤L。所获取的Fnormalized的数量为L个。
根据本发明的实施例,可以通过以下公式5来基于第1个至第nL个数据测量值中每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对每个数据测量值移除对应的归一化的时间影响因素:
T(tj)=valuej/Fnormalized(mp) (公式5)其中,j为整数且1≤j≤nL,p为整数且所计算的T(tj)是与valuej相对应的移除了时间影响因素的数据测量值。所获取的T的数量为nL个。
根据本发明的实施例,可以基于已经移除了多个时间影响因素的多个数据测量值来预测未来的***资源利用率。
在一个应用中,例如,当需要预测在未来采集周期内的最大***资源利用率时,可以执行以下的预测过程。
首先,可以获取分别对应于第1个至第n个采集周期的多个最大有效测量值。例如,可以,但不限于,基于以下公式6来计算第1个至第n个采集周期中每个采集周期的最大有效测量值:
Tmax(tw)=MIN(MAX(T(tk+(w-1)L)),
(P75(T(tk+(w-1)L))+1.5×(P75(T(tk+(w-1)L))–P25(T(tk+(w-1)L))))) (公式6)其中,k为整数且1≤k≤L,w为整数且1≤w≤n。T(tk+(w-1)L)表示在第w个采集周期内的所有移除了时间影响因素的数据测量值(即,第1个至第L个移除了时间影响因素的数据测量值)的序列。通过MAX(T(tk+(w-1)L))可以获取第w个采集周期中移除了时间影响因素的最大数据测量值。通过P75(T(tk+(w-1)L))+1.5×(P75(T(tk+(w-1)L))–P25(T(tk+(w-1)L))可以获取第w个采集周期中的统计上限值,其中,P75和P25为分位数。通过对第w个采集周期中的移除了时间影响因素的最大数据测量值与统计上限值取最小值(MIN),可以获取第w个采集周期的最大有效测量值Tmax(tw)。所获取的Tmax(tw)的数量为n个。
然后,可以基于所获取的多个最大有效测量值来预测在未来采集周期内的最大***资源利用率。例如,可以,但不限于,基于以下公式7来预测在未来采集周期内的最大***资源利用率:
T=Regression(Tmax(t1),Tmax(t2),Tmax(t3),...,Tmax(tn)) (公式7)
所获取的T可以反映对在未来采集周期中的***资源利用率的最大有效值的预测值。例如,在上述的工作日白天采集数据集合的实例下,如果n=30,则T可以预测出第31天、第32天、……中每一天的总CPU利用率的最大有效值。
在另一个应用中,例如,当需要预测在未来采集周期内的特定时间点处的***资源利用率时,可以执行以下的预测过程。
可以基于第1个至第n个采集周期内每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的特定时间点处的***资源利用率。例如,可以,但不限于,基于以下公式8来预测在未来采集周期内的特定时间点处的***资源利用率:
T=Regression(T(tk),T(tk+L),...,T(tk+(n-1)L)) (公式8)其中,k为整数且1≤k≤L。所获取的T可以反映当k取某一特定值(即,对应于某一特定时间点)时,对在未来采集周期内的该特定时间点处的***资源利用率的预测值。例如,在上述的工作日白天采集数据集合的实例下,如果n=30且k的取值对应于时间点09:00:00,则T可以预测出第31天、第32天、……中每一天在时间点09:00:00处的总CPU利用率。
应当理解,以上结合公式1至公式8所给出的具体实例仅仅用于更好地描述本发明实施例的方案,本发明也可以采用任何其它等效的或类似的公式或算法来对***资源利用率进行预测。例如,在以L为跨度获取多个移动平均值时,除可采用公式1来获取简单的移动平均值外,还可根据具体实施的场景利用已知的方法来获取加权移动平均值、指数移动平均值等更为复杂的统计平均值,以提高预测的有效性和准确性。
图4示出了根据本发明实施例的用于对***资源利用率进行预测的装置400的示意性框图。
如图4所示,装置400可以包括用于建立对应于***资源利用率的采集数据集合的模块410、用于基于采集数据集合内的多个数据测量值来获取多个时间影响因素的模块420、用于从多个数据测量值中移除多个时间影响因素的模块430以及用于基于已经移除了多个时间影响因素的多个数据测量值来预测未来的***资源利用率的模块440。此外,装置400还可以包括实现与以上结合图3的方法300所描述的任意操作相对应的模块。
图5示出了根据本发明另一实施例的用于对***资源利用率进行预测的装置500的示意性框图。
装置500可以包括处理器510以及耦合到处理器510的存储器520。存储器520可以用于存储可执行指令。处理器510可以配置用于根据存储器520所存储的可执行指令,实现与以上结合图3的方法300所描述的任意操作相对应的功能。相应地,存储器520还可以存储处理器510实现其功能所需要的程序代码或数据。
本文描述的各个方面可以用硬件、软件、固件、中间件、微代码或者其任意组合来实现。利用软件、固件、中间件、微代码、程序代码或者代码段来实现这些装置和/或方法时,可以将其存储在机器可读介质内,例如存储在存储部件内。对于软件实现,本文描述的技术可以用实现本文所述功能的模块(例如程序、函数等)来实现。可以将软件代码存储在存储器单元中,由处理器来执行。存储器单元可以在处理器中实现,或者可以位于处理器外部。在后一种情况下,存储器可以通过各种手段与处理器连接。
上文通过附图和优选实施例对本发明进行了详细展示和说明,然而本发明不限于这些已揭示的实施例,本领域技术人员从中推导出来的其它方案也在本发明的保护范围之内。
Claims (15)
1.一种用于对***资源利用率进行预测的方法,包括:
建立对应于所述***资源利用率的采集数据集合,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;
基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素;
从所述多个数据测量值中移除所述多个时间影响因素;以及
基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率。
2.如权利要求1所述的方法,其中,所述获取多个时间影响因素包括:
获取对应于所述多个数据测量值的多个统计平均值;以及
基于所述多个数据测量值和所述多个统计平均值来获取所述多个时间影响因素。
3.如权利要求2所述的方法,其中,
所述采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项,所述采集时间包括日期和时间点,
其中,所述获取多个统计平均值包括:获取多个移动平均值,其中,以L为跨度,针对所述采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值;以及基于所述多个移动平均值来获取与所述采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值,并且
其中,所述获取所述多个时间影响因素包括:获取与每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于所述特定时间点的时间影响因素。
4.如权利要求1所述的方法,其中,所述移除所述多个时间影响因素包括:
对所述多个时间影响因素进行归一化;以及
基于所述采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对所述每个数据测量值移除所述对应的归一化的时间影响因素。
5.如权利要求1所述的方法,其中,所述采集数据集合包括n个采集周期,并且其中,所述预测未来的***资源利用率包括:
获取分别对应于所述n个采集周期的n个最大有效测量值;以及
基于所述n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
6.如权利要求1所述的方法,其中,所述采集数据集合包括n个采集周期,并且其中,所述预测未来的***资源利用率包括:
基于每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的所述特定时间点处的***资源利用率。
7.一种用于对***资源利用率进行预测的装置,包括:
采集数据集合建立组件,用于建立对应于所述***资源利用率的采集数据集合,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;
时间影响因素获取组件,用于基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素;
时间影响因素移除组件,用于从所述多个数据测量值中移除所述多个时间影响因素;以及
预测组件,用于基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率。
8.如权利要求7所述的装置,其中,所述时间影响因素获取组件被配置为:
获取对应于所述多个数据测量值的多个统计平均值;以及
基于所述多个数据测量值和所述多个统计平均值来获取所述多个时间影响因素。
9.如权利要求8所述的装置,其中,
所述采集数据集合包括n个采集周期,每个采集周期包括L个采集数据项,所述采集时间包括日期和时间点,
其中,所述获取多个统计平均值包括:获取多个移动平均值,其中,以L为跨度,针对所述采集数据集合中的第L个至第nL个数据测量值中的每一个数据测量值,分别获取对应的移动平均值;以及基于所述多个移动平均值来获取与所述采集数据集合中的第L+1个至第nL个数据测量值分别对应的多个中心化移动平均值,并且
其中,所述获取所述多个时间影响因素包括:获取与每个采集周期中的L个时间点分别对应的L个时间影响因素,其中,通过对第2个至第n个采集周期内的每个采集周期中的同一特定时间点处的数据测量值与对应的中心化移动平均值的比值计算平均值,来获取对应于所述特定时间点的时间影响因素。
10.如权利要求7所述的装置,其中,所述时间影响因素移除组件被配置为:
对所述多个时间影响因素进行归一化;以及
基于所述采集数据集合中的每个数据测量值与对应的归一化的时间影响因素的比值,来分别针对所述每个数据测量值移除所述对应的归一化的时间影响因素。
11.如权利要求7所述的装置,其中,所述采集数据集合包括n个采集周期,并且其中,所述预测组件被配置为:
获取分别对应于所述n个采集周期的n个最大有效测量值;以及
基于所述n个最大有效测量值来预测在未来采集周期内的最大***资源利用率。
12.如权利要求7所述的装置,其中,所述采集数据集合包括n个采集周期,并且其中,所述预测组件被配置为:
基于每个采集周期中的同一特定时间点处的、已经移除了时间影响因素的数据测量值,来预测在未来采集周期内的所述特定时间点处的***资源利用率。
13.一种用于对***资源利用率进行预测的装置,包括:
用于建立对应于所述***资源利用率的采集数据集合的模块,该采集数据集合包括多个采集数据项,每个采集数据项包括对应的采集时间和数据测量值;
用于基于所述采集数据集合内的多个数据测量值来获取多个时间影响因素的模块;
用于从所述多个数据测量值中移除所述多个时间影响因素的模块;以及
用于基于已经移除了所述多个时间影响因素的所述多个数据测量值来预测未来的***资源利用率的模块。
14.一种用于对***资源利用率进行预测的装置,包括:
存储器,用于存储可执行指令;以及
处理器,用于根据所存储的可执行指令,执行如权利要求1-6中的任意一个权利要求所包括的步骤。
15.一种机器可读介质,其上存储有可执行指令,当所述可执行指令被执行时,使得机器执行如权利要求1-6中的任意一个权利要求所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410043903.8A CN104809052A (zh) | 2014-01-29 | 2014-01-29 | 用于对***资源利用率进行预测的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410043903.8A CN104809052A (zh) | 2014-01-29 | 2014-01-29 | 用于对***资源利用率进行预测的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104809052A true CN104809052A (zh) | 2015-07-29 |
Family
ID=53693896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410043903.8A Pending CN104809052A (zh) | 2014-01-29 | 2014-01-29 | 用于对***资源利用率进行预测的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104809052A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183627A (zh) * | 2015-10-20 | 2015-12-23 | 浪潮(北京)电子信息产业有限公司 | 一种服务器性能预测的方法及*** |
CN105784479A (zh) * | 2016-01-05 | 2016-07-20 | 山东科技大学 | 一种橡胶颗粒混凝土三轴压缩实验数据的处理方法 |
CN110333991A (zh) * | 2019-05-30 | 2019-10-15 | 武汉科技大学 | 云平台任务最大资源使用率预测方法 |
CN112596995A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 一种基于集群架构的容量确定方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281564A1 (en) * | 2004-07-08 | 2008-11-13 | International Business Machines Corporation | System, method and program product for forecasting the demand on computer resources |
CN102622273A (zh) * | 2012-02-23 | 2012-08-01 | 中国人民解放军国防科学技术大学 | 基于自学习负载预测的集群按需启动方法 |
CN103150215A (zh) * | 2013-02-04 | 2013-06-12 | 浙江大学 | 虚拟环境下细粒度的cpu资源使用预测方法 |
CN103488539A (zh) * | 2013-09-23 | 2014-01-01 | 北京交通大学 | 一种基于cpu动态调频技术的数据中心节能方法 |
-
2014
- 2014-01-29 CN CN201410043903.8A patent/CN104809052A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080281564A1 (en) * | 2004-07-08 | 2008-11-13 | International Business Machines Corporation | System, method and program product for forecasting the demand on computer resources |
CN102622273A (zh) * | 2012-02-23 | 2012-08-01 | 中国人民解放军国防科学技术大学 | 基于自学习负载预测的集群按需启动方法 |
CN103150215A (zh) * | 2013-02-04 | 2013-06-12 | 浙江大学 | 虚拟环境下细粒度的cpu资源使用预测方法 |
CN103488539A (zh) * | 2013-09-23 | 2014-01-01 | 北京交通大学 | 一种基于cpu动态调频技术的数据中心节能方法 |
Non-Patent Citations (1)
Title |
---|
斯蒂文·C·惠尔赖特: "时间数列预测的传统分解法", 《杭州商学院学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183627A (zh) * | 2015-10-20 | 2015-12-23 | 浪潮(北京)电子信息产业有限公司 | 一种服务器性能预测的方法及*** |
CN105784479A (zh) * | 2016-01-05 | 2016-07-20 | 山东科技大学 | 一种橡胶颗粒混凝土三轴压缩实验数据的处理方法 |
CN105784479B (zh) * | 2016-01-05 | 2018-05-18 | 山东科技大学 | 一种橡胶颗粒混凝土三轴压缩实验数据的处理方法 |
CN110333991A (zh) * | 2019-05-30 | 2019-10-15 | 武汉科技大学 | 云平台任务最大资源使用率预测方法 |
CN110333991B (zh) * | 2019-05-30 | 2022-11-25 | 武汉科技大学 | 云平台任务最大资源使用率预测方法 |
CN112596995A (zh) * | 2020-12-26 | 2021-04-02 | 中国农业银行股份有限公司 | 一种基于集群架构的容量确定方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11301821B2 (en) | Cognitive prioritization model for hardware device prediction maintenance delivery | |
JP5962190B2 (ja) | 短期電力負荷を予測する方法及び装置 | |
US20150371244A1 (en) | Forecasting information technology workload demand | |
CN107608862A (zh) | 监控告警方法、监控告警装置及计算机可读存储介质 | |
EP3306539A1 (en) | Business operations assistance device and business operations assistance method using contract cancellation prediction | |
US10558206B2 (en) | Electrical device degradation determination | |
CN104809052A (zh) | 用于对***资源利用率进行预测的方法和装置 | |
CN112269811A (zh) | 一种基于业务量的it容量预测方法和*** | |
JP6003736B2 (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
CN111160793A (zh) | 一种服务网点自助设备数量的配置方法、装置及设备 | |
JP6536028B2 (ja) | 発注計画決定装置、発注計画決定方法および発注計画決定プログラム | |
CN109658643B (zh) | 支付风险告警方法、服务器及智能pos | |
CN113342939A (zh) | 数据质量监控方法、装置及相关设备 | |
US9785464B2 (en) | Intellective switching between tasks | |
JP2016181039A (ja) | 計画決定方法、計画決定プログラムおよび計画決定装置 | |
US20180060887A1 (en) | Brand equity prediction | |
CN110910241A (zh) | 现金流评估方法、装置、服务器设备及存储介质 | |
CN107844496A (zh) | 统计信息输出方法及装置 | |
CN110928748A (zh) | 业务***运行监测方法及装置 | |
CN110858355A (zh) | 项目预算结余预测方法及装置 | |
CN110148044B (zh) | 一种用于记账的缓冲阈值设定方法和装置 | |
CN104978604B (zh) | 一种基于业务能力模型的模拟仿真方法和装置 | |
CN102916851A (zh) | 一种网络流量预测方法及装置 | |
US20150269510A1 (en) | Workload determination for information technology service events | |
US20170068927A1 (en) | Warehouse profit simulation device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150729 |
|
WD01 | Invention patent application deemed withdrawn after publication |