CN113986704A - 基于TS-Decomposition的数据中心高频故障时域预警方法及*** - Google Patents
基于TS-Decomposition的数据中心高频故障时域预警方法及*** Download PDFInfo
- Publication number
- CN113986704A CN113986704A CN202111255316.1A CN202111255316A CN113986704A CN 113986704 A CN113986704 A CN 113986704A CN 202111255316 A CN202111255316 A CN 202111255316A CN 113986704 A CN113986704 A CN 113986704A
- Authority
- CN
- China
- Prior art keywords
- data
- time sequence
- time
- trend
- sequence data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3447—Performance evaluation by modeling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
- G06F11/3024—Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Quality & Reliability (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computing Systems (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Educational Administration (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Debugging And Monitoring (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- Computer Hardware Design (AREA)
Abstract
本发明公开一种基于TS‑Decomposition的数据中心高频故障时域预警方法及***,所述方法包括:获取数据中心场景下的时序监控数据并进行数据清洗,得到历史时序数据的监测值;分析时序数据的数值影响因素,基于TS‑Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;根据数值影响因素计算结果建立时序预测模型,进行时序数据趋势预测,得到未来时序数据的预测值;根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;进行数据中心高频故障时域预警。本发明通过挖掘时序数据中的关联关系,对时序数据进行趋势预测,分析数据中的故障高频分布区间,在发生故障之前预测到发生故障的趋势。
Description
技术领域
本发明属于计算机智能运维领域,具体涉及一种基于TS-Decomposition(TimeSequence Decomposition,时序分解)的数据中心高频故障时域预警方法及***。
背景技术
近年来,随着5G技术的高速发展,云计算、物联网等领域得到前所未有的发展。数据中心是负责管理、组织和分析各类云计算资源、终端资源、物联网设备资源的中心,保障着成千上万台设备的平稳运行;随着数据的***式增长及计算节点的增加,传统的数据中心运维方式已经很难满足当前的运维需求。现阶段,在企业或高等院校的数据中心通常运行着上万台数据节点、计算资源、传感器、终端等,每时每刻都源源不断产生着相关监控数据,如何从海量运维监控数据中抽取有效信息,结合特定机器学习算法,针对监控指标进行数据挖掘、走势预测、故障告警等已成为数据中心智能运维的重要课题。
在海量运维数据中,时序数据具有一定程度的自相关性与周期性,即时序数据对应的运维设备,在发生故障之前往往具有发生故障的趋势。以CPU温度为例,在一个持续时间段内,CPU的温度到达损坏值之前,往往会保持长时间的高温度阈值,且对于外部设备来说,CPU温度与昼夜交替、季节等周期性因素也有一定程度的影响,多种因素的影响均会体现在时序数据的数值变化中,可作为运维分析的依据。
在传统运维过程中,运维故障处理通常是在故障发生之后,由专业运维人员结合故障信息定位故障,再逐一排查解决。在现阶段,云计算资源、终端、传感器之间往往都不是相互独立的,故障与故障之间的关联、故障告警信息量大、告警具有非实时性等问题,都导致数据中心运维困难。如何利用现有的机器学习算法,挖掘时序数据中的故障特征,预测时序数据的走势,通过特定指标库提前预知高频故障时域,合理分配运维人员及运维资源,是当前数据中心智能运维需要解决的重要课题。
发明内容
有鉴于此,本发明提出了一种基于TS-Decomposition的数据中心高频故障时域预警方法及***,用于解决现有数据中运维无法有效预测高频故障时域的问题。
本发明第一方面,公开一种基于TS-Decomposition的数据中心高频故障时域预警方法,所述方法包括:
获取数据中心场景下的时序监控数据并进行数据清洗得到历史时序数据的监测值;
分析时序数据的数值影响因素,基于TS-Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
根据数值影响因素计算结果建立时序预测模型;
根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值;
针对不同应用场景,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
根据时序数据的故障时域进行数据中心高频故障时域预警。
优选的,所述获取数据中心场景下的时序监控数据并进行数据清洗包括:
建立数据中心场景下的时序监控数据指标库,根据时序监控数据指标库从数据中心场景下的时序监控数据中筛选出周期性或区间性数值型时序数据,建立时序数据仓库;
对时序数据仓库中的时序数据进行数据清洗,数据清洗包括但不限于异常值剔除、空值填充、数据插值平滑。
优选的,分析时序数据的数值影响因素,基于TS-Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算具体包括:
数据清洗后的历史时序数据的类型包括周期性时序数据和区间性时序数据;对于周期性时序数据,其数值影响因素包括:长期趋势因素Tt、循环变动因素Ct和不规则变动因素It,基于TS-Decomposition算法对时序数据进行乘法模型分解有:
Xt=Tt×Ct×It
其中,Xt为时间序列全变动,代表已知的时序数据本身的值;Tt为长期趋势因素,Ct为循环变动因素,It为不规则变动因素;
对于区间性时序数据,其数值影响因素包括:长期趋势因素、不规则变动因素;
所述基于TS-Decomposition算法进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算具体包括:
根据时序数据的类型对历史时序数据进行预处理,消除循环变动因素Ct对历史时序数据数值的影响;
采用趋势推理法拟合出趋势函数,分析得到长期趋势因素Tt,根据预处理结果和得到的长期趋势因素,计算得到不规则变动因素It,其中,Tt与Xt具有相同的量纲,Ct与It为比率。
优选的,所述根据历史时序数据的类型进行预处理,消除循环变动因素对时序数据数值的影响具体包括:
对于周期性时序数据进行滑动平均,消除循环变动因素对时序数据数值的影响,滑动平均的公式为:
其中,Xt为已知的时间序列全变动,代表时间序列本身的值;Ct为循环变动;D'为周期性时序数据的滑动平均处理结果;
针对区间性趋势时序数据,将区间性趋势时序数据视为周期性数据的小范围区间,本身不包含循环变动因素,无需消除循环变动因素;
将预处理后消除循环变动因素的时序数据记为移动平均数列D。
优选的,采用趋势推理法拟合出趋势函数,分析得到长期趋势因素,根据预处理结果和得到的长期趋势因素,计算得到不规则变动因素具体包括:
通过观察推理,分析预处理得到的移动平均数列D趋势,选择趋势预测模型;所述线性趋势模型包括线性趋势预测模型、指数趋势预测模型;
基于预处理得到的移动平均数列D,采用最小二乘法拟合出趋势预测模型的参数,得到趋势预测函数,将得到的趋势预测函数作为长期趋势因素Tt;
优选的,所述根据数值影响因素计算结果建立时序预测模型,根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值具体包括:
根据计算得到的历史时序数据的长期趋势因素Tt、循环变动因素Ct和不规则变动因素It推测未来相同周期/相同区间的时间序列t+1下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1;
未来相同周期/相同区间的时间序列下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1得到时序预测模型:
Xt+1=Tt+1×Ct+1×It+1
根据所述时序预测模型预测得到未来时序数据的预测值Xt+1。
优选的,所述针对不同应用场景,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域具体包括:
历史时序数据的监测值记为数列A{a1,a2,a3,...,an},将未来时序数据的预测值记为数列B{b1,b2,b3,...,bn},针对不同应用场景,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,将混合数列Cn与不同场景下对应指标的阈值下限值和阈值上限值比较,根据比较结果得到时序数据的故障时域;
所述针对不同应用场景,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,具体包括:
针对数值波动小于第一预设阈值的周期性时序数据采用叠加法,记混合后的数列为数列Cn,有
Cn=An1+An2+...+Ank+Bn
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数,Ank表示第k个小周期的历史时序数据的监测值,Bn表示未来时序数据的预测值;
针对数值波动大于第二预设阈值的周期性时序数据,采用均值法,记混合后的数列为数列Cn,有
Anm表示第m个小周期的历史时序数据的监测值;
针对时间敏感的周期性时序数据,采用加权法,记混合后的数列为数列Cn,有:
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数,λ为加权指数,取值范围为[0,1];
针对具有稳定趋势的周期性时序数据,采用峰值法,记混合后的数列为数列Cn,有
Cn=max(An1||An2...||Ank||Bn)
所得的数列Cn为各个小周期的单时间节点最大值组成的数列。
本发明第二方面,公开一种基于TS-Decomposition的数据中心高频故障时域预警***,所述方法包括:
数据清洗模块:获取数据中心场景下的时序监控数据并进行数据筛选数据清洗得到历史时序数据的监测值;
数据处理模块:分析历史时序数据的数值影响因素,基于TS-Decomposition算法对历史时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
趋势预测模块:根据数值影响因素计算结果建立趋势预测模型;根据趋势预测模型进行未来趋势预测,得到未来时序数据的预测值;
时域判断模块:针对不同应用场景,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
故障预警模块:根据时序数据的故障时域进行数据中心高频故障时域预警。
本发明第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明第一方面所述的方法。
本发明第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如本发明第一方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明依托数据中心场景下的时序数据监控,从数据中心运维数据仓库中抽取具有周期性或区间行的历史时序数据作为原始数据并进行数据清洗,分析历史时序数据的数值影响因素,基于时序分解算法对历史时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;影响因素计算的过程中进行趋势推理,得到长期趋势预测模型,再根据数值影响因素计算结果建立时序预测模型并进行未来趋势预测,得到未来时序数据的预测值。本发明通过挖掘时序数据中的关联关系,分析数据中的故障高频分布区间,在发生故障之前预测到发生故障的趋势,提高运维效率。
2)本发明针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域,实现不同应用场景下数据中心时序数据的高频故障时域分析,为运维资源分配提供参考,并可结合运维指标库与告警分发平台实现高频故障时域预警。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于TS-Decomposition的数据中心高频故障时域预警方法流程图;
图2为本发明的时序数据趋势预测流程图;
图3为本发明的趋势推理流程图;
图4为本发明的高频故障时域数据获取方法流程图;
图5为本发明实施例流量监控指标下的高频故障时域实例图。
图6为本发明的高频故障时域预警分发示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,为了挖掘时序数据中的关联关系,分析数据中的高频故障时域(故障高频分布区间),本发明提出一种基于TS-Decomposition的数据中心高频故障时域预警方法,所述方法包括:
S1、获取数据中心场景下的时序监控数据并进行数据筛选数据清洗,得到历史时序数据的监测值;
在数据中心的时序监控数据中,包含成千上万条运维数据信息,包含的数据维度也极为复杂,本发明建立数据中心场景下的时序监控数据指标库,结合ETL(Extract-Transform-Load)技术,根据时序监控数据指标库从数据中心场景下的时序监控数据中筛选出周期性或区间性数值型时序数据,建立新的时序数据仓库。
具体的,数据中心的硬件设备主要包括计算机、传感器、终端设备,其中,计算机的类别主要为计算节点与存储节点;传感器设备主要为环境温度传感器、湿度传感器、雷电传感器。在数据中心硬件设备上部署了一系列运维相关监控、服务类软件,包括但不限于SuperVisor、Redis、Nginx、Prometheus、Elasticsearch、Kibana等中间件。计算机硬件层监控数据主要包括CPU温度、CPU占用率、CPU频率、内存使用率、磁盘I/0、磁盘使用率、磁盘使用量等计算节点的硬件监控信息,传感器层主要包括传感器周围环境温度、湿度等监控信息。计算机软件层主要包括不同软件的执行信息,如Redis写入率、MySQL空间占用率、Kibana并发访问量、SuperVisor服务重启次数等。通过以上指标建立时序监控数据指标库,基于上述时序监控数据指标库,筛选出可进一步进行分析的时序数据指标,可供使用的时序数据指标需满足三个条件:
(1)时间连续性。数据需在时间维度呈现连续特征,不能是间断重启的软件服务类,例如Redis写入率。
(2)数值类型。数据需要为可监控的数值类型,不能是布尔值或状态值。
(3)自相关性。数据在时间维度发生的变化需具有一定程度的自相关性,需要剔除定时任务或人为操作导致的数值异常。
对筛选出的各项时序数据指标进行清洗,采用异常值剔除、空值填充、数据插值平滑等方法,形成自定义的数据中心时序数据仓库,用于存储清洗后的历史时序数据的监测值,作为后续步骤的输入数据。
S2、分析时序数据的数值影响因素,基于TS-Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
请参阅图2的时序数据趋势预测流程图,从自定义数据中心时序数据仓库中抽取所需分析的时序数据,记为数列A,清洗后的历史时序数据一般分为两种,即周期性数值型时序数据与不含周期性的区间数值型时序数据。进行参数设定,包括开始时间、结束时间、时间间隔、预测步数。然后基于TS-Decomposition算法对时序数据进行时序分解,结合趋势推理进行时序数据趋势预测,得到未来时序数据预测值。具体的,步骤S2包括如下分步骤:
S21、分析确定时序数据的数值影响因素;
所述历史时序数据包括周期性时序数据和区间性时序数据;对于周期性时序数据,其数值影响因素包括:长期趋势因素Tt、循环变动因素Ct和不规则变动因素It,基于TS-Decomposition算法对时序数据进行乘法模型分解有:Xt=Tt×Ct×It
其中,Xt为时间序列全变动,代表已知的时序数据本身的值;Tt为长期趋势因素,Ct为循环变动因素,It为不规则变动因素;
对于区间性时序数据,其数值影响因素包括:长期趋势因素、不规则变动因素。
分析确定时序数据的数值影响因素后,基于TS-Decomposition算法进行时序分解,然后根据历史时序数据的监测值进行数值影响因素计算,具体包括:
S22、根据时序数据的类型对历史时序数据进行预处理,消除循环变动因素对历史时序数据数值的影响;
具体的,对于周期性时序数据进行滑动平均,消除循环变动因素对时序数据数值的影响,滑动平均的公式为:
其中,Xt为已知的时间序列全变动,代表时间序列本身的值;Ct为循环变动;D'为周期性时序数据的滑动平均处理结果;
针对区间性趋势时序数据,将区间性趋势时序数据视为周期性数据的小范围区间,本身不包含循环变动因素,无需消除循环变动因素;由之前所得到的数据没有周期性,且随机因素也很小,可认为该数据已平滑。
将预处理后消除循环变动因素的历史时序数据记为移动平均数列D,则D=Tt×It。
S23、采用趋势推理法拟合出趋势函数,分析得到长期趋势因素Tt,根据预处理结果和得到的长期趋势因素,计算得到不规则变动因素It。其中,Tt与Xt具有相同的量纲,Ct与It为比率。
已知D=Tt×It,现有数列已包含一组不规则变动因素和长期趋势因素,首先通过趋势推理发分析得到长期趋势因素Tt。趋势推理法包含直线趋势延伸、曲线趋势法、函数模型推理法(指数、生长曲线、包络曲线)等。
具体的,请参阅图3的趋势推理流程图,首先通过观察推理,分析预处理得到的移动平均数列D的趋势,选择趋势预测模型;所述线性趋势模型包括线性趋势预测模型Tt=ax+b、指数趋势预测模型其中x表示一个时间序列t中的时间点,还可以是二次拟合、曲线拟合、多元拟合等预测模型。
然后收集数据,前述预处理得到的移动平均数列D即为本发明趋势推理所需收集的数据。
采用最小二乘法拟合出趋势预测模型的参数,得到趋势预测函数,将得到的趋势预测函数作为长期趋势因素Tt。通过得到的趋势预测函数,可进行趋势分析推理,比如根据历史趋势进行趋势外推,得到未来相同周期/相同区间的时间序列的趋势。
S3、根据数值影响因素计算结果建立时序预测模型,根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值;
根据计算得到的历史时序数据的长期趋势因素Tt、循环变动因素Ct和不规则变动因素It进行趋势外推,得到未来相同周期/相同区间的时间序列t+1下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1;一般情况下,长期趋势因素Tt在未来相同周期/相同区间的时间序列下根据其趋势预测模型中的函数随时间变动,循环变动因素Ct+1和不规则变动因素It+1在未来相同周期/相同区间的时间序列下重复变动。
根据未来相同周期/相同区间的时间序列下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1得到时序预测模型:
Xt+1=Tt+1×Ct+1×It+1
根据所述时序预测模型预测得到未来时序数据的预测值Xt+1,记为数列B。
S4、针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
具体的,将历史时序数据的监测值记为数列A{a1,a2,a3,...,an},将未来时序数据的预测值记为数列B{b1,b2,b3,...,bn},针对不同应用场景,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,将混合数列Cn与不同场景下对应指标的阈值下限值和阈值上限值比较,根据比较结果得到时序数据的故障时域;
请参阅图4的高频故障时域数据获取方法流程图,针对不同的时间序列数值类型,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,具体包括:
(1)针对数值波动小于第一预设阈值的周期性时序数据,数值波动较小,采用叠加法,记混合后的数列为数列Cn,有:
Cn=An1+An2+...+Ank+Bn
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数,Ank表示第k个小周期的历史时序数据的监测值,Bn表示未来时序数据的预测值。
(2)针对数值波动大于第二预设阈值的周期性时序数据,数值波动较大,采用均值法,记混合后的数列为数列Cn,有:
Anm表示第m个周期性时序数据的监测值,Bn表示未来时序数据的预测值。
(3)针对时间敏感的周期性时序数据,如硬盘容量等随时间保持一定趋势的数据或随时间变化比较快的网络流量等运维数据,采用加权法,记混合后的数列为数列Cn,有:
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数,λ为加权指数,取值范围为[0,1];
(4)针对数值波动范围在预设区间范围内的周期性时序数据,其数值具有稳定趋势,采用峰值法,记混合后的数列为数列Cn,有:
Cn=max(An1||An2...||Ank||Bn)
所得的数列Cn为各个小周期的单时间节点最大值组成的数列。
图5为某一实施例的流量监控指标下的高频故障时域实例图。
S5、根据时序数据的故障时域进行数据中心高频故障时域预警。
本发明基于数据中心运维故障指标及自定义故障分析指标,依托于数据中心告警分发基础设施,结合运维资源分配与实际场景,实现数据中心高频故障时域预警。
依托于自定义数据中心时序数据仓库,设计相对应的自定义高频故障时域数据仓库,该数据仓库需要满足以下特征:与自定义数据中心时序数据仓库保持一致,即所含时间序列一致、时间序列区间一致、数值单位一致、数据结点个数一致。每一条抽取的时间序列内容对应一条高频故障时域区间数列,两者唯一不同在于高频故障时域数据仓库数据为自定义数据中心时序数据仓库的数据计算得来。
请参阅图5,本发明的高频故障时域预警分发示意图,设计数据中心时序数据高频故障时域预警数据库,得到高频故障时域后,由监控服务软件实时监控预警数据库信息,捕获异常时域值,结合数据中心自身运维预警***,可实现高频故障时域预警。运维监控指标库中故障分析指标主要包含两类:
1.基础时序数据指标,例如:CPU利用率,CPU内核占用率等。
2.自定义指标:结合业务场景的告警指标,例如硬盘占有率达到70%提出告警。
监控服务软件是指一系列结合运维监控指标,实时扫描数据中心高频故障时域预警数据库的服务软件的统称,服务软件在获取到监控指标后,会通过定时任务扫描预警数据库,一旦监测到异常时域数据,就会拉取异常值记录与对应的时间区间记录,分发给数据中心运维告警***。数据中心运维预警***是数据中心自身的预警服务,在接收到故障预警之后会像基础运维故障一样发送提醒到对应的运维人员,运维人员可根据高频故障时域预警信息分配运维资源,在故障高发时域安排较多运维人员,提前排查可能出现的运维故障,在故障低发时域节省运维资源,以达到节约运维成本的目的。
与上述方法实施例相对应,本发明还提出一种基于TS-Decomposition的数据中心高频故障时域预警***,所述***包括:
数据清洗模块:获取数据中心场景下的时序监控数据并进行数据筛选数据清洗得到历史时序数据的监测值;
数据处理模块:分析历史时序数据的数值影响因素,基于TS-Decomposition算法对历史时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
趋势预测模块:根据数值影响因素计算结果建立时序预测模型;根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值;
时域判断模块:针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
故障预警模块:根据时序数据的故障时域进行数据中心高频故障时域预警。
以上方法实施例和***实施例是对应的,***实施例简述之处请参阅方法实施例即可。
本发明通过时序分解算法挖掘时序数据中的关联关系,进行时序数据未来趋势预测,针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域,分析数据中的故障高频分布区间,在发生故障之前预测到发生故障的趋势,提高运维效率。本发明实现不同应用场景下数据中心时序数据的高频故障时域分析,为运维资源分配提供参考,并可结合运维指标库与告警分发平台实现高频故障时域预警。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于TS-Decomposition的数据中心高频故障时域预警方法,其特征在于,所述方法包括:
获取数据中心场景下的时序监控数据并进行数据清洗得到历史时序数据的监测值;
分析时序数据的数值影响因素,基于TS-Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
根据数值影响因素计算结果建立时序预测模型,根据时序预测模型进行时序数据趋势预测,得到未来时序数据的预测值;
针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
根据时序数据的故障时域进行数据中心高频故障时域预警。
2.根据权利要求1所述基于TS-Decomposition的数据中心高频故障时域预警方法,其特征在于,所述获取数据中心场景下的时序监控数据并进行数据清洗包括:
建立数据中心场景下的时序监控数据指标库,根据时序监控数据指标库从数据中心场景下的时序监控数据中筛选出周期性或区间性数值型时序数据,建立时序数据仓库;
对时序数据仓库中的历史时序数据进行数据清洗,数据清洗包括但不限于异常值剔除、空值填充、数据插值平滑。
3.根据权利要求1所述基于TS-Decomposition的数据中心高频故障时域预警方法,其特征在于,所述分析时序数据的数值影响因素,基于TS-Decomposition算法对时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算具体包括:
数据清洗后的历史时序数据包括周期性时序数据和区间性时序数据;对于周期性时序数据,其数值影响因素包括:长期趋势因素Tt、循环变动因素Ct和不规则变动因素It,基于TS-Decomposition算法对时序数据进行乘法模型分解有:
Xt=Tt×Ct×It
其中,Xt为时间序列全变动,代表已知的时序数据本身的值;Tt为长期趋势因素,Ct为循环变动因素,It为不规则变动因素;
对于区间性时序数据,其数值影响因素包括:长期趋势因素、不规则变动因素;
根据时序数据的类型对历史时序数据进行预处理,消除循环变动因素Ct对历史时序数据数值的影响;
采用趋势推理法拟合出趋势函数,得到长期趋势因素Tt,根据预处理结果和得到的长期趋势因素,计算得到不规则变动因素It,其中,Tt与Xt具有相同的量纲,Ct与It为比率。
6.根据权利要求5所述基于TS-Decomposition的数据中心高频故障时域预警方法,其特征在于,所述根据数值影响因素计算结果建立时序预测模型,根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值具体包括:
根据计算得到的历史时序数据的长期趋势因素Tt、循环变动因素Ct和不规则变动因素It进行趋势外推,得到未来相同周期/相同区间的时间序列t+1下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1;
根据未来相同周期/相同区间的时间序列下的长期趋势因素Tt+1、循环变动因素Ct+1和不规则变动因素It+1得到时序预测模型:
Xt+1=Tt+1×Ct+1×It+1
根据所述时序预测模型预测得到未来时序数据的预测值Xt+1。
7.根据权利要求1所述基于TS-Decomposition的数据中心高频故障时域预警方法,其特征在于,所述针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域具体包括:
历史时序数据的监测值记为数列A{a1,a2,a3,...,an},将未来时序数据的预测值记为数列B{b1,b2,b3,...,bn},针对不同应用场景,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,将混合数列Cn与不同场景下对应指标的阈值下限值和阈值上限值比较,根据比较结果得到时序数据的故障时域;
所述针对不同应用场景,采用不同的混合策略对数列A和数列B进行混合计算,得到混合数列Cn,具体包括:
1)针对数值波动小于第一预设阈值的的周期性时序数据,采用叠加法,记混合后的数列为数列Cn,有
Cn=An1+An2+...+Ank+Bn
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数;Ank表示第k个小周期的历史时序数据的监测值,Bn表示未来时序数据的预测值;
2)针对数值波动大于第二预设阈值的周期性时序数据,采用均值法,记混合后的数列为数列Cn:
Anm表示第m个周期性时序数据的监测值;
3)针对时间敏感的周期性时序数据,采用加权法,记混合后的数列为数列Cn:
其中k为周期性数据的小周期个数,n为一个周期所含的数值个数,λ为加权指数,取值范围为[0,1];
4)针对数值波动范围在预设的区间范围之间的周期性时序数据,采用峰值法,记混合后的数列为数列Cn:
Cn=max(An1||An2...||Ank||Bn)
所得的数列Cn为各个小周期的单时间节点最大值组成的数列。
8.一种基于TS-Decomposition的数据中心高频故障时域预警***,其特征在于,所述***包括:
数据清洗模块:获取数据中心场景下的时序监控数据并进行数据筛选数据清洗得到历史时序数据的监测值;
数据处理模块:分析历史时序数据的数值影响因素,基于TS-Decomposition算法对历史时序数据进行时序分解,并根据历史时序数据的监测值进行数值影响因素计算;
趋势预测模块:根据数值影响因素计算结果建立时序预测模型;根据时序预测模型进行未来趋势预测,得到未来时序数据的预测值;
时域判断模块:针对不同的时间序列数值类型,根据历史时序数据的监测值及未来时序数据的预测值进行混合计算,判断时序数据的故障时域;
故障预警模块:根据时序数据的故障时域进行数据中心高频故障时域预警。
9.一种电子设备,其特征在于,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机指令,所述计算机指令使计算机实现如权利要求1~7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255316.1A CN113986704A (zh) | 2021-10-27 | 2021-10-27 | 基于TS-Decomposition的数据中心高频故障时域预警方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111255316.1A CN113986704A (zh) | 2021-10-27 | 2021-10-27 | 基于TS-Decomposition的数据中心高频故障时域预警方法及*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113986704A true CN113986704A (zh) | 2022-01-28 |
Family
ID=79742504
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111255316.1A Pending CN113986704A (zh) | 2021-10-27 | 2021-10-27 | 基于TS-Decomposition的数据中心高频故障时域预警方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113986704A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615134A (zh) * | 2022-05-10 | 2022-06-10 | 北京华创方舟科技集团有限公司 | 一种it智能运维监控***及运维方法 |
-
2021
- 2021-10-27 CN CN202111255316.1A patent/CN113986704A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114615134A (zh) * | 2022-05-10 | 2022-06-10 | 北京华创方舟科技集团有限公司 | 一种it智能运维监控***及运维方法 |
CN114615134B (zh) * | 2022-05-10 | 2022-08-05 | 北京华创方舟科技集团有限公司 | 一种it智能运维监控***及运维方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Bi et al. | Temporal prediction of multiapplication consolidated workloads in distributed clouds | |
US7467067B2 (en) | Self-learning integrity management system and related methods | |
US10248561B2 (en) | Stateless detection of out-of-memory events in virtual machines | |
CN111045894B (zh) | 数据库异常检测方法、装置、计算机设备和存储介质 | |
CN104516808A (zh) | 数据预处理装置及方法 | |
CN114358106A (zh) | ***异常检测方法、装置、计算机程序产品及电子设备 | |
Sîrbu et al. | Towards data-driven autonomics in data centers | |
Zeng et al. | Estimation of software defects fix effort using neural networks | |
US20220253689A1 (en) | Predictive data capacity planning | |
CN112083244A (zh) | 综合化航空电子设备故障智能诊断*** | |
CN109558952A (zh) | 数据处理方法、***、设备及存储介质 | |
Sîrbu et al. | Towards operator-less data centers through data-driven, predictive, proactive autonomics | |
EP3808099A1 (en) | Real time telemetry monitoring tool | |
US10055460B2 (en) | Analysis of parallel processing systems | |
CN113986704A (zh) | 基于TS-Decomposition的数据中心高频故障时域预警方法及*** | |
Khan et al. | Modeling the autoscaling operations in cloud with time series data | |
CN114095032B (zh) | 基于Flink和RVR的数据流压缩方法、边缘计算***及存储介质 | |
Chinnici et al. | Data center, a cyber-physical system: improving energy efficiency through the power management | |
Istin et al. | Decomposition based algorithm for state prediction in large scale distributed systems | |
Song et al. | Adaptive watermark generation mechanism based on time series prediction for stream processing | |
CN113918636A (zh) | 一种基于etl的数据处理量分析方法 | |
Streiffer et al. | Learning to simplify distributed systems management | |
CN114860563A (zh) | 应用程序测试方法、装置、计算机可读存储介质及设备 | |
Jehangiri et al. | Distributed predictive performance anomaly detection for virtualised platforms | |
CN113742169B (zh) | 一种业务监控告警方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |