CN114706905A - 数据预测方法、装置、电子设备及计算机可读存储介质 - Google Patents
数据预测方法、装置、电子设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN114706905A CN114706905A CN202210301967.8A CN202210301967A CN114706905A CN 114706905 A CN114706905 A CN 114706905A CN 202210301967 A CN202210301967 A CN 202210301967A CN 114706905 A CN114706905 A CN 114706905A
- Authority
- CN
- China
- Prior art keywords
- prediction
- target
- data
- historical
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Mathematical Physics (AREA)
- Operations Research (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Quality & Reliability (AREA)
- Databases & Information Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- General Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Algebra (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种数据预测方法、装置、电子设备及计算机可读存储介质,涉及计算机技术领域。该方法包括:获取目标指标在历史周期内的历史真实数据,再基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据,然后将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,进而基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。本申请实施例通过预设的算法筛选规则,确定多个预测算法对应的适配性最高的目标预测算法,使得针对任意一个指标,都可以准确预测该指标在目标周期内的数据。
Description
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种数据预测方法、装置、电子设备及计算机可读存储介质。
背景技术
目前时序指标数据预测的方法主要是使用单一的预测算法,且主要是单指标数据的预测;或者是根据时序指标数据是否为周期型数据来区分选择预测算法,即针对周期型数据使用一种预测算法,其它数据类型使用其它的预测算法。
基于以上的单一预测算法或仅针对指标数据是否为周期型而匹配不同算法的方案,对时序指标的预测不够准确,并且复用推广性较差。
发明内容
本申请实施例的目的旨在能解决目前数据预测算法只能对单一指标进行预测的问题。
根据本申请实施例的一个方面,提供了一种数据预测方法,该方法包括:
获取目标指标在历史周期内的历史真实数据;
基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据;
将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法;
基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
可选地,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,包括:
确定各历史预测数据与历史真实数据之间的误差,根据误差确定对应的预测算法的准确率系数,将准确率系数最高的预测算法,确定为目标指标的目标预测算法。
可选地,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,还包括:
根据各历史预测数据和历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数;
对于任意一个预测算法的权重系数,若满足预设阈值条件,则将预测算法确定为目标指标的目标预测算法;
若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到目标指标的目标预测算法。
可选地,方法还包括:
确定与目标指标存在关联关系的至少一个影响指标,以及目标指标与各影响指标之间的关联系数;
根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法。
可选地,基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据之后,方法还包括:
获取用户确定的目标预测数据的静态阈值,以及目标预测算法确定的目标预测数据的动态阈值;
若确定目标预测数据不满足静态阈值和/或动态阈值,则进行预警处理。
根据本申请实施例的另一个方面,提供了一种数据预测装置,该装置包括:
获取模块,用于获取目标指标在历史周期内的历史真实数据;
历史预测模块,用于基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据;
确定模块,用于将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法;
目标预测模块,用于基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
可选地,确定模块包括:
第一确定子模块,用于确定各历史预测数据与历史真实数据之间的误差,根据误差确定对应的预测算法的准确率系数,将准确率系数最高的预测算法,确定为目标指标的目标预测算法。
可选地,确定模块还包括第二确定子模块;
第二确定子模块具体用于:
根据各历史预测数据和历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数;
对于任意一个预测算法的权重系数,若满足预设阈值条件,则将预测算法确定为目标指标的目标预测算法;
若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到目标指标的目标预测算法。
可选地,装置还包括更新模块;
更新模块具体用于:
确定与目标指标存在关联关系的至少一个影响指标,以及目标指标与各影响指标之间的关联系数;
根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法。
可选地,装置还包括预警模块;
预警模块具体用于:
获取用户确定的目标预测数据的静态阈值,以及目标预测算法确定的目标预测数据的动态阈值;
若确定目标预测数据不满足静态阈值和/或动态阈值,则进行预警处理。
根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,处理器执行计算机程序以实现上述任一个方面的数据预测方法的步骤。
根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一个方面的数据预测方法的步骤。
本申请实施例提供的技术方案带来的有益效果是:
通过预设的算法筛选规则,确定多个预测算法对应的适配性最高的目标预测算法,使得针对任意一个指标,都可以准确预测该指标在目标周期内的数据。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种数据预测方法的流程示意图之一;
图2为本申请实施例提供的一种数据预测方法的流程示意图之二;
图3为本申请实施例提供的一种数据预测方法的流程示意图之三;
图4为本申请实施例提供的一种数据预测方法的流程示意图之四;
图5为本申请实施例提供的一种数据预测装置的结构示意图;
图6为本申请实施例提供的一种数据预测的电子设备的结构示意图。
具体实施方式
下面结合本申请中的附图描述本申请的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本申请实施例的技术方案的示例性描述,对本申请实施例的技术方案不构成限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“A和/或B”可以实现为“A”,或者实现为“B”,或者实现为“A和B”。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面通过对几个示例性实施方式的描述,对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
本申请实施例中提供了一种数据预测方法,如图1所示,包括:
步骤S101,获取目标指标在历史周期内的历史真实数据。
AIOps(Artificial Intelligence for IT Operations,智能运维)被广泛应用于故障定位、服务自动修复等计算机管理方面。随着互联网的高速发展、业务模型(或***部署结构)越来越复杂,需要不间断地监测大量的时间序列数据指标,以便检测潜在的故障或异常现象。
目标指标为需要进行监测的一项时序指标,例如,CPU使用率、内存使用率、业务量、响应时长、成功率等,具体的目标指标可以人为设定。
本申请实施例中可以采用Hive对时序指标的数据进行持久化保存,针对时效性较强的时序指标数据,可以采用ClickHouse进行入库存储和备份。进一步的,对目标指标的相关数据进行分析时,可以直接获取。
换言之,获取到的目标指标在历史周期内的历史真实数据,是预存储的时序指标数据。其中,历史周期可以按粒度进行划分,例如,1分钟、1小时、1天、1周等,历史周期可以人为确定。
步骤S102,基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据。
具体而言,本申请实施例中预设有多个预测算法,例如,XGBoost算法、Lasso回归算法、Holt-Winters算法、Prophet算法、MLP算法等。这些预测算法针对不同的时序指标,分析数据的精确度是不一致的,因此,需要从中确定与目标指标适配性最高的预测算法,从而提高目标指标的数据预测的精确度。
接入多个时序指标的数据,并指定其中需要预测的目标指标,对所有的时序指标的数据进行特征工程,然后分别输入至多个预测算法同时轮询预测。进一步的,基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据。
步骤S103,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法。
每一个预测算法输出一个对应的目标指标在历史周期内的历史预测数据,将这些历史预测数据分别与历史真实数据进行比对,基于比对结果即可确定目标预测算法。
具体而言,预设的算法筛选规则包括:(1)根据历史真实数据和历史预测数据进行误差分析,从而确定出多个预测算法中误差最小的预测算法,作为目标预测算法;(2)通过线性回归或者熵值法,回归出各历史真实数据和历史预测数据的线性关联关系,从而确定各预测算法在预测结果中的权重占比,进一步的,将多个预测算法叠加对应的权重确定出目标预测算法。
步骤S104,基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
目标预测算法为本申请实施例确定的,与目标指标适配性最高的预测算法。采用目标预测算法,对目标周期内的目标指标进行预测,得到目标指标的目标预测数据,以及目标预测数据的上下限区间。其中,历史周期可以按粒度进行划分,例如,1分钟、1小时、1天、1周等。
目标预测数据的周期粒度可以与采集接入的历史真实数据的周期粒度不同。例如,采集接入的历史真实数据的周期粒度为1分钟,那么通过将数据按其他周期粒度(如1天)进行聚合,得到预测的目标预测数据的周期粒度可以为1天或更大的周期粒度。
应用本申请实施例提供的数据预测方法,获取目标指标在历史周期内的历史真实数据,再基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据,然后将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,进而基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
本申请实施例通过预设的算法筛选规则,确定多个预测算法对应的适配性最高的目标预测算法,使得针对任意一个指标,都可以准确预测该指标在目标周期内的数据。
本申请实施例中提供了一种数据预测方法,如图1所示,包括:
步骤S101,获取目标指标在历史周期内的历史真实数据。
AIOps(Artificial Intelligence for IT Operations,智能运维)被广泛应用于故障定位、服务自动修复等计算机管理方面。随着互联网的高速发展、业务模型(或***部署结构)越来越复杂,需要不间断地监测大量的时间序列数据指标,以便检测潜在的故障或异常现象。
目标指标为需要进行监测的一项时序指标,例如,CPU使用率、内存使用率、业务量、响应时长、成功率等,具体的目标指标可以人为设定。
针对智能运维中时序指标的各项数据,可以使用Flume等采集工具进行采集,然后通过Kafka分布式***或FTP的方式,将时序指标的各项数据接入至AIOps时序指标预测和预警***。其中,AIOps时序指标预测和预警***为本申请实施例提供的一种将数据预测与预警结合起来的智能***,可以自动对智能运维中的众多时序指标进行监测和分析。
本申请实施例中可以采用Hive对时序指标的数据进行持久化保存,针对时效性较强的时序指标数据,可以采用ClickHouse进行入库存储和备份。进一步的,对目标指标的相关数据进行分析时,可以直接获取。
需要说明的是,针对预存储的时序指标数据,还需要进行预处理操作。例如,对各时序指标的缺失值进行自动补充,将时序指标数据按时间进行对齐,复数据合并,数据接入量判断,数据特征工程以及指标数据的小数点保留位数统一等数据处理。
换言之,获取到的目标指标在历史周期内的历史真实数据,是预存储的时序指标数据。其中,历史周期可以按粒度进行划分,例如,1分钟、1小时、1天、1周等,历史周期可以人为确定。
步骤S102,基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据。
针对时序指标数据的预测,目前一般选择某一种预测算法对指标数据进行预测,由于各类指标数据的特征会存在不同,不同的预测算法对不同类别的指标数据的预测会有很大差异,故需引入适配指标数据特征的最优算法。
具体而言,本申请实施例中预设有多个预测算法,例如,XGBoost算法、Lasso回归算法、Holt-Winters算法、Prophet算法、MLP算法等。这些预测算法针对不同的时序指标,分析数据的精确度是不一致的,因此,需要从中确定与目标指标适配性最高的预测算法,从而提高目标指标的数据预测的精确度。
接入多个时序指标的数据,并指定其中需要预测的目标指标,对所有的时序指标的数据进行特征工程,然后分别输入至多个预测算法同时轮询预测。进一步的,基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据。
步骤S103,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法;
每一个预测算法输出一个对应的目标指标在历史周期内的历史预测数据,将这些历史预测数据分别与历史真实数据进行比对,基于比对结果即可确定目标预测算法。
具体而言,预设的算法筛选规则包括:(1)根据历史真实数据和历史预测数据进行误差分析,从而确定出多个预测算法中误差最小的预测算法,作为目标预测算法;(2)通过线性回归或者熵值法,回归出各历史真实数据和历史预测数据的线性关联关系,从而确定各预测算法在预测结果中的权重占比,进一步的,将多个预测算法叠加对应的权重确定出目标预测算法。
本申请一种优选实施例中,步骤S103,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,包括:
确定各历史预测数据与历史真实数据之间的误差,根据误差确定对应的预测算法的准确率系数,将准确率系数最高的预测算法,确定为目标指标的目标预测算法。
根据各预测算法预测出的历史预测数据,与历史真实数据通过预测误差进行比较,如通过多点预测误差MSE、RMSE、MAE的方式进行比较,即将一部分历史真实数据作为对比基线,与各算法的历史预测数据进行比较,按误差越小分值越高对各预测算法打分,分值表现为预测算法的准确率系数,将分值最高的算法作为后续执行该类时序指标数据的预测算法。
本申请一种优选实施例中,如图3所示,方法还包括:
步骤S301,确定与目标指标存在关联关系的至少一个影响指标,以及目标指标与各影响指标之间的关联系数。
步骤S302,根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法。
进一步的,确定与目标指标存在关联关系的至少一个影响指标,针对目标指标与影响指标之间存在某种线性关系的情况,如业务量与CPU使用率、内存使用率直接会存在正向的线性关联,通过预测算法挖掘出目标指标与影响指标间的线性关系,如y1=a1x1+b1x2+…,其中y1作为目标指标的预测值,x1、x2为影响指标,a1、b1为影响指标对应的权重系数,即关联系数。根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法,更新后的预测算法能够结合影响指标的数据对目标指标进行预测。针对目标指标与影响指标之间无线性关系的情况,直接使用预测算法进行拟合出预测值即可。
根据以上挖掘出的目标指标与影响指标的线性关联关系,当影响指标有变动的需求时,如双11的业务量会出现大量增长的情况,通过影响指标如x1的值域估计,结合线性关联关系如y1=a1x1+b1x2+…,计算预测出目标指标的量化值,进而通过目标指标如CPU使用率的情况,推演出具体的容量扩充的推荐建议。
本申请一种优选实施例中,如图2所示,步骤S103,将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,还包括:
步骤S201,根据各历史预测数据和历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数。
本申请实施例还提供一种通过线性回归方式或熵值法,来回归出历史真实数据与各预测算法的历史预测数据的线性关联关系,即各预测算法在预测结果中的权重占比,如y=w1y1+w2y2+w3y3+…,其中y为历史真实数据,y1、y2、y3分别为各预测算法的历史预测数据,w1、w2、w3为回归出的各预测算法的权重系数。
步骤S202,对于任意一个预测算法的权重系数,若满足预设阈值条件,则将预测算法确定为目标指标的目标预测算法。
当某一个预测算法的权重系数满足大于用户输入的门限值如0.8时,选择对应的权重占比最高的预测算法作为后续的预测算法。具体而言,预设阈值条件可以由用户自行设定,本申请实施例对此不做限制。
步骤S203,若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到目标指标的目标预测算法。
当所有预测算法的权重系数均不满足大于权重门限值时,即用户认为任何单一的预测算法均无法达到预期效果,那么使用多种预测算法叠加相应权重来共同预测指标数据的未来趋势,拟合出更加精准的预测值。
本申请一种优选实施例中,如图3所示,方法还包括:
步骤S301,确定与目标指标存在关联关系的至少一个影响指标,以及目标指标与各影响指标之间的关联系数。
步骤S302,根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法。
进一步的,确定与目标指标存在关联关系的至少一个影响指标,针对目标指标与影响指标之间存在某种线性关系的情况,通过各预测算法挖掘出目标指标与影响指标间的线性关系,如y1=a1x1+b1x2+…,其中y1作为目标指标的预测值,x1、x2为影响指标,a1、b1为影响指标对应的权重系数,即关联系数。针对目标指标与影响指标之间无线性关系的情况,直接使用预测算法进行拟合出预测值即可。
目标指标与影响指标之间有线性关系的情况下,当影响指标有计划的变动时,如双11的业务量会出现大量增长的情况,通过影响指标如x1的值域估计,结合目标指标与影响指标间的线性关联关系,如y=w1(a1x1+b1x2+…)+w2(a2x1+b2x2+…)+w3(a3x1+b3x2+…)+…,更新目标预测算法,更新后的预测算法能够结合影响指标的数据对目标指标进行预测。综合计算预测出目标指标的量化值,进而通过目标指标如CPU使用率的情况推演出具体的容量扩充的推荐建议。
预测算法一般是根据指标自身的历史趋势来预测指标的未来变化趋势,但是指标自身的变化趋势可能会受到其它指标的影响,如CPU使用率的变化趋势可能会受到业务量数据的影响,仅依靠自身的趋势来预测是有失偏颇的,因此需要引入多个影响指标的数据,来预测目标指标的未来趋势。
另外指标数据之间可能会存在某种关联关系如线性关系,可以进一步的挖掘指标与指标间的可量化的线性值。
步骤S104,基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
目标预测算法为本申请实施例确定的,与目标指标适配性最高的预测算法。采用目标预测算法,对目标周期内的目标指标进行预测,得到目标指标的目标预测数据,以及目标预测数据的上下限区间。其中,历史周期可以按粒度进行划分,例如,1分钟、1小时、1天、1周等。
目标预测数据的周期粒度可以与采集接入的历史真实数据的周期粒度不同。例如,采集接入的历史真实数据的周期粒度为1分钟,那么通过将数据按其他周期粒度(如1天)进行聚合,得到预测的目标预测数据的周期粒度可以为1天或更大的周期粒度。
本申请一种优选实施例中,如图4所示,步骤S104,基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据之后,方法还包括:
步骤S401,获取用户确定的目标预测数据的静态阈值,以及目标预测算法确定的目标预测数据的动态阈值。
根据以上选定的目标预测算法对目标指标进行预测后,同时根据预测历史中的动态阈值,如通过四分位差的算法,动态计算时序指标数据的动态历史阈值区间,可按周期进行定期计算更新,并结合用户可配置的静态阈值对预测的结果进行实时检测,当预测的某个时间点的指标数据超出对应阈值上限或低于阈值下限时,及时预警。
针对时序指标数据的历史特征,通过如四分位差的算法,动态计算指标数据的动态历史阈值区间。
步骤S402,若确定目标预测数据不满足静态阈值和/或动态阈值,则进行预警处理。
静态阈值预警:用户通过设置上限阈值或下限阈值的方式对预测的时序指标数据进行比较,如对预测数据实时检测时超出静态阈值上限或低于静态阈值下限时会发出预警。
动态阈值预警:即当静态阈值缺失时,***可通过自身计算预测的历史动态阈值对预测值进行告警点的主动发现,自动使用动态阈值与预测的指标数据进行比较,如预测数据超出动态阈值上限或低于动态阈值下限时会发出预警。
动静结合预警:根据用户设置的静态阈值,并叠加***计算出的动态历史阈值,动静结合可以按超过静态阈值的上限或动态阈值的上限进行提前设置,或使用其中较大或较小的值作为基线等可配置的动静结合方案,预测的指标数据跟动静结合后的阈值进行比较,如超出结合后的阈值上限或低于动静结合的阈值下限时即发出预警。
预警结果:针对单个超出阈值上限或低于阈值下限的异常点可以发出预警外,同时支持多个预警点的输出能力,或在某一时间区间内连续或间隔有N个异常点的时候进行预警,预警的类别可根据异常点的个数或持续时间进行分级等。
预警结果推送:将预警的结果通过短信、邮件、微信等方式及时推送给运维的相关人员。
应用本申请实施例提供的数据预测方法,获取目标指标在历史周期内的历史真实数据,再基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据,然后将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,进而基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
本申请实施例引入了多指标的关联预测能力,即通过多个指标数据来一同预测目标指标的变化趋势,进一步的计算出目标指标与影响指标之间的线性关系;提供预测算法簇来实现同时预测,并基于误差分析打分机制来自动选型最优算法;以及通过权重回归计算实现多预测算法的加权预测方案;除预测时序指标数据的外推趋势外,同时支持自学习历史动态阈值,可结合静态阈值实现提前预警。
本申请实施例中提供了一种数据预测装置,如图5所示,包括:
获取模块501,用于获取目标指标在历史周期内的历史真实数据;
历史预测模块502,用于基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据;
确定模块503,用于将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法;
目标预测模块504,用于基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
可选地,确定模块503包括:
第一确定子模块,用于确定各历史预测数据与历史真实数据之间的误差,根据误差确定对应的预测算法的准确率系数,将准确率系数最高的预测算法,确定为目标指标的目标预测算法。
可选地,确定模块503还包括第二确定子模块;
第二确定子模块具体用于:
根据各历史预测数据和历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数;
对于任意一个预测算法的权重系数,若满足预设阈值条件,则将预测算法确定为目标指标的目标预测算法;
若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到目标指标的目标预测算法。
可选地,装置还包括更新模块;
更新模块具体用于:
确定与目标指标存在关联关系的至少一个影响指标,以及目标指标与各影响指标之间的关联系数;
根据各影响指标和各影响指标分别对应的关联系数,更新目标预测算法。
可选地,装置还包括预警模块;
预警模块具体用于:
获取用户确定的目标预测数据的静态阈值,以及目标预测算法确定的目标预测数据的动态阈值;
若确定目标预测数据不满足静态阈值和/或动态阈值,则进行预警处理。
应用本申请实施例提供的数据预测装置,获取目标指标在历史周期内的历史真实数据,再基于多个预测算法,分别对历史周期内的目标指标进行预测,得到多个预测算法各自对应的目标指标的历史预测数据,然后将历史真实数据和历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定多个预测算法对应的目标预测算法,进而基于目标预测算法,对目标周期内的目标指标进行预测,得到目标预测数据。
本申请实施例通过预设的算法筛选规则,确定多个预测算法对应的适配性最高的目标预测算法,使得针对任意一个指标,都可以准确预测该指标在目标周期内的数据。
本申请实施例中提供了一种电子设备(计算机装置/设备/***),包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现数据预测方法的步骤,与相关技术相比可实现:通过预设的算法筛选规则,确定多个预测算法对应的适配性最高的目标预测算法,使得针对任意一个指标,都可以准确预测该指标在目标周期内的数据。
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备6000包括:处理器6001和存储器6003。其中,处理器6001和存储器6003相连,如通过总线6002相连。可选地,电子设备6000还可以包括收发器6004,收发器6004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器6004不限于一个,该电子设备6000的结构并不构成对本申请实施例的限定。
处理器6001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器6001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线6002可包括一通路,在上述组件之间传送信息。总线6002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线6002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器6003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
存储器6003用于存储执行本申请实施例的计算机程序,并由处理器6001来控制执行。处理器6001用于执行存储器6003中存储的计算机程序,以实现前述方法实施例所示的步骤。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。
应该理解的是,虽然本申请实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本申请实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本申请实施例对此不限制。
以上所述仅是本申请部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请的方案技术构思的前提下,采用基于本申请技术思想的其他类似实施手段,同样属于本申请实施例的保护范畴。
Claims (10)
1.一种数据预测方法,其特征在于,包括:
获取目标指标在历史周期内的历史真实数据;
基于多个预测算法,分别对所述历史周期内的目标指标进行预测,得到所述多个预测算法各自对应的所述目标指标的历史预测数据;
将所述历史真实数据和所述历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定所述多个预测算法对应的目标预测算法;
基于所述目标预测算法,对目标周期内的所述目标指标进行预测,得到目标预测数据。
2.根据权利要求1所述的数据预测方法,其特征在于,所述将所述历史真实数据和所述历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定所述多个预测算法对应的目标预测算法,包括:
确定各历史预测数据与所述历史真实数据之间的误差,根据所述误差确定对应的预测算法的准确率系数,将所述准确率系数最高的预测算法,确定为所述目标指标的目标预测算法。
3.根据权利要求1所述的数据预测方法,其特征在于,所述将所述历史真实数据和所述历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定所述多个预测算法对应的目标预测算法,还包括:
根据各历史预测数据和所述历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数;
对于任意一个预测算法的权重系数,若满足预设阈值条件,则将所述预测算法确定为所述目标指标的目标预测算法;
若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到所述目标指标的目标预测算法。
4.根据权利要求2或3所述的数据预测方法,其特征在于,所述方法还包括:
确定与所述目标指标存在关联关系的至少一个影响指标,以及所述目标指标与各影响指标之间的关联系数;
根据各影响指标和各影响指标分别对应的关联系数,更新所述目标预测算法。
5.根据权利要求1所述的数据预测方法,其特征在于,所述基于所述目标预测算法,对目标周期内的所述目标指标进行预测,得到目标预测数据之后,所述方法还包括:
获取用户确定的所述目标预测数据的静态阈值,以及所述目标预测算法确定的所述目标预测数据的动态阈值;
若确定所述目标预测数据不满足所述静态阈值和/或所述动态阈值,则进行预警处理。
6.一种数据预测装置,其特征在于,包括:
获取模块,用于获取目标指标在历史周期内的历史真实数据;
历史预测模块,用于基于多个预测算法,分别对所述历史周期内的目标指标进行预测,得到所述多个预测算法各自对应的所述目标指标的历史预测数据;
确定模块,用于将所述历史真实数据和所述历史预测数据进行比对,基于比对结果按照预设的算法筛选规则,确定所述多个预测算法对应的目标预测算法;
目标预测模块,用于基于所述目标预测算法,对目标周期内的所述目标指标进行预测,得到目标预测数据。
7.根据权利要求6所述的数据预测装置,其特征在于,所述确定模块包括:
第一确定子模块,用于确定各历史预测数据与所述历史真实数据之间的误差,根据所述误差确定对应的预测算法的准确率系数,将所述准确率系数最高的预测算法,确定为所述目标指标的目标预测算法。
8.根据权利要求6所述的数据预测方法,其特征在于,所述确定模块还包括第二确定子模块;
所述第二确定子模块具体用于:
根据各历史预测数据和所述历史真实数据进行回归运算,基于运算结果确定各历史预测数据对应的预测算法的权重系数;
对于任意一个预测算法的权重系数,若满足预设阈值条件,则将所述预测算法确定为所述目标指标的目标预测算法;
若不存在满足预设阈值条件的权重系数,则根据各预测算法和各预测算法的权重系数,加权得到所述目标指标的目标预测算法。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至5任一项所述的数据预测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述的数据预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301967.8A CN114706905A (zh) | 2022-03-24 | 2022-03-24 | 数据预测方法、装置、电子设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210301967.8A CN114706905A (zh) | 2022-03-24 | 2022-03-24 | 数据预测方法、装置、电子设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114706905A true CN114706905A (zh) | 2022-07-05 |
Family
ID=82171563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210301967.8A Pending CN114706905A (zh) | 2022-03-24 | 2022-03-24 | 数据预测方法、装置、电子设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114706905A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273723A (zh) * | 2023-09-04 | 2023-12-22 | 上海数禾信息科技有限公司 | 结算预测方法、装置、计算机设备以及存储介质 |
-
2022
- 2022-03-24 CN CN202210301967.8A patent/CN114706905A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117273723A (zh) * | 2023-09-04 | 2023-12-22 | 上海数禾信息科技有限公司 | 结算预测方法、装置、计算机设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alaswad et al. | A review on condition-based maintenance optimization models for stochastically deteriorating system | |
Wen et al. | Fog orchestration for internet of things services | |
CN110851342A (zh) | 故障预测方法、装置、计算设备以及计算机可读存储介质 | |
US7107187B1 (en) | Method for modeling system performance | |
US20190349287A1 (en) | System and method to learn and prescribe optimal network path for sdn | |
CN114285728B (zh) | 一种预测模型训练方法、流量预测方法、装置及存储介质 | |
CN110059894B (zh) | 设备状态评估方法、装置、***及存储介质 | |
US11212173B2 (en) | Model-driven technique for virtual network function rehoming for service chains | |
CN114267178B (zh) | 一种车站的智能运营维护方法及装置 | |
CA3094557C (en) | Method and apparatus for determining status of network device | |
CN113590429B (zh) | 一种服务器故障诊断方法、装置及电子设备 | |
US20120174231A1 (en) | Assessing System Performance Impact of Security Attacks | |
CN117041029A (zh) | 网络设备故障处理方法、装置、电子设备及存储介质 | |
WO2023207689A1 (zh) | 一种变更风险评估方法、设备及存储介质 | |
US20230133541A1 (en) | Alert correlating using sequence model with topology reinforcement systems and methods | |
CN114140034A (zh) | 基于工况的质量监控方法及相关装置 | |
CN114511147A (zh) | 一种线损监测预警方法、装置、设备及存储介质 | |
CN114706905A (zh) | 数据预测方法、装置、电子设备及计算机可读存储介质 | |
US8793106B2 (en) | Continuous prediction of expected chip performance throughout the production lifecycle | |
CN113992602B (zh) | 一种电缆监测数据上传方法、装置、设备以及存储介质 | |
KR20200126766A (ko) | Ict 인프라의 운용 관리 장치 및 방법 | |
CN110413482B (zh) | 检测方法和装置 | |
CN111614504A (zh) | 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及*** | |
WO2016063816A1 (ja) | 計算機システムの異常予兆検出装置および方法 | |
CN116560794A (zh) | 虚拟机的异常处理方法和装置、介质和计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |