CN113849333B - 一种基于WN-Spline基线域算法的数据中心自驱排障方法及*** - Google Patents

一种基于WN-Spline基线域算法的数据中心自驱排障方法及*** Download PDF

Info

Publication number
CN113849333B
CN113849333B CN202111131942.XA CN202111131942A CN113849333B CN 113849333 B CN113849333 B CN 113849333B CN 202111131942 A CN202111131942 A CN 202111131942A CN 113849333 B CN113849333 B CN 113849333B
Authority
CN
China
Prior art keywords
monitoring
baseline
data
index
self
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111131942.XA
Other languages
English (en)
Other versions
CN113849333A (zh
Inventor
张剑波
董峻铎
吴梓杭
姚孟隆
王红平
�田�浩
王彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN202111131942.XA priority Critical patent/CN113849333B/zh
Publication of CN113849333A publication Critical patent/CN113849333A/zh
Application granted granted Critical
Publication of CN113849333B publication Critical patent/CN113849333B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开一种基于WN‑Spline基线域算法的数据中心自驱排障方法及***,所述方法包括:建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;采用WN‑Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。本发明基于海量历史监控数据采用WN‑Spline基线域算法动态生成非线性监控指标基线域,进行异常判断和预测,可灵活适应不同的应用场景,实时性高,并可通过流量切换和故障转移实现故障自动排除。

Description

一种基于WN-Spline基线域算法的数据中心自驱排障方法及 ***
技术领域
本发明属于计算机智能运维领域,具体涉及一种基于WN-Spline基线域算法的数据中心自驱排障方法及***。
背景技术
近年来,随着机器学***台和团队人力资源,且无法在短时间内及时有效地排查故障与问题修复。现阶段,在高校或互联网企业计算机数据中心通常运行着上万台数据节点、计算节点、传感器、终端等,每时每刻都源源不断产生着相关监控数据,如何清洗数据中心监控数据并建立数据中心场景下的监控指标库,结合相关机器学习算法对监控指标进行走势预测和异常检测,并融入计算设备的自驱排障技术,从而有效挖掘基于时间序列的监控数据信息成为了数据中心智能运维的重要课题。
高校或互联网企业数据中心通常运行着上万台数据节点、计算节点、传感器、终端等,在特殊领域如国家电网环境中还包含雷电定位等特殊传感器,实时产生着复杂维度的监控数据,如环境温度、湿度等环境信息;CPU频率、CPU占用率、CPU温度、内存使用率、磁盘I/O、磁盘使用量等计算和存储节点信息;SuperVisor、Redis、Nginx等中间件节点信息等,横跨温度、比率、数值等多种数据格式,纵跨计算机硬件、架设环境、服务与各类软件中间件等各个层面,数据源和数据格式十分复杂。目前相关领域的研究中,没有完整的针对数据中心场景下统一的监控数据指标库,数据中心相关监控维度和层级梳理不够清晰,相关时序监控数据维度较为杂乱,迫切需要梳理和构建数据中心场景下时序监控数据统一指标库,用以指导相关时序监控数据的清洗和分析工作。
数据中心各类设备实时产生相关时序监控数据。在传统运维分析平台中,通常通过经验和专家制定时序监控数据的走势基线,从而对时序监控数据进行对比和挖掘可能出现的异常信息。基于相关领域的经验或由专家制定监控基线往往是固定的、不够灵活的,不能满足云计算弹性环境下自适应的计算和存储资源变化,如计算和存储资源变更需要重新人工标定监控基线。同时,人工定制基线需要消耗很大的人力成本,需要调研和结合相关实际制定不同环境不同类型设备的监控基线。如何在公有云、私有云和混合云计算环境下自动设置数据中心监控数据基线,减少经验和专家制定监控基线的人力成本也同样成为数据中心智能运维迫切需要解决的问题。
发明内容
有鉴于此,本发明提出了一种基于WN-Spline基线域算法的数据中心自驱排障方法及***,用于解决混合云计算环境下数据中心监控数据基线设置不够灵活的问题。
本发明第一方面,公开一种基于WN-Spline基线域算法的数据中心自驱排障方法,所述方法包括:
建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;
基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
优选的,所述依据数据中心历史数据建立数据中心场景下时序监控数据统一指标库具体包括:
获取数据中心实际环境下实时产生的多维度监控数据信息,以计算机硬件层、计算机软件层、传感器层三个大类划分指标组,每个指标组依据不同的设备关键信息或软件类型划分为具体指标。
优选的,所述采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域具体包括:
从数据仓库中读入历史监控数据,将历史监控数据按照预设周期进行计算窗口划分;
逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合;
将基线离散点集合进行统一区间映射计算得到监控指标的基线域;
并通过对基线域边缘曲线采样离散化存储至指标预测数据库;
通过B-Spline插值进行指定时间窗口下的基线域预测。
优选的,所述逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合具体包括:
获取任一计算窗口WN的监控数据样本{xk,yk},N=1,2,3,…,Z,k=1,…,n,n为当前计算窗口内样本总数,考虑如下优化问题:
Figure BDA0003280764280000031
Figure BDA0003280764280000032
求解得到监控指标的加权LSSVM非线性回归模型:
Figure BDA0003280764280000033
其中,w为权重,γ为惩罚因子,函数
Figure BDA0003280764280000035
是样本xk到高维空间的非线性映射,ek为模型误差,vk为/>
Figure BDA0003280764280000034
的加权系数,b为常数,K(x,xk)为核函数,αk为核函数系数;
基于非线性回归模型,指定时间窗口内既定间隔时间点x,计算得到基线离散点集合SWN={(x,yN)|x∈[(N-1)T,NT]},yN为非线性回归预测得到的时间点x对应的基线值。
优选的,所述将基线离散点集合进行统一区间映射计算得到监控指标的基线域具体包括:
将不同计算窗口计算得到的基线离散点集合映射至同一区间x∈[0,T],得出拟合监控指标基线域Sb={(x,y)|x∈[0,T],y∈[yxb_min,yxb_max]};
计算结果添加高斯随机值,高斯随机值的计算公式为
Figure BDA0003280764280000041
其中
Figure BDA0003280764280000042
SNR为指定强度;
求解得到监控指标基线域S={(x,y)|x∈[0,T],y∈[yxb_min-r,yxb_max+r]},即S={(x,y)|x∈[0,T],y∈[yx_min,yx_max]}。
优选的,所述基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈具体包括:
将指定监控项的时序数据与预测得到的监控指标基线域进行对比,判定对应的设备或服务是否状态异常,若实际监控指标值落入对应的基线域之外则判定状态异常;
若状态异常,通过负载均衡基础设施将异常设备或异常服务流量迁移至同级其他设备或其他服务;
执行回调自定义故障转移策略脚本,实现服务下线与计算任务重分配。
优选的,所述服务下线的故障转移策略为:待指定的异常服务流量迁移完成后,远程调用服务预先注册的下线HTTP接口,通过定时轮询的方式请求该服务状态直至确认服务下线;
计算任务重分配的故障转移策略为:在集群计算场景中,以远程RPC方式请求集群计算主节点Master将故障设备进行下线处理,触发集群进行自有的计算资源动态调整,完成计算自驱排障。
本发明第二方面,公开一种基于WN-Spline基线域算法的数据中心自驱排障***,所述***包括:
数据仓库建立模块:用于依据数据中心历史数据建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
基线域计算模块:用于采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;
自驱排障模块:用于基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
本发明第三方面,公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口、总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如本发明第一方面所述的方法。
本发明第四方面,公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现如本发明第一方面所述的方法。
本发明相对于现有技术具有以下有益效果:
1)本发明采用WN-Spline基线域算法从时序监控数据统一指标库读入指标数据,经计算窗口划分后逐计算窗口采用加权LSSVM非线性回归,而后使用区间统一映射计算得基线域,并通过对基线域边缘曲线采样离散化存储至指标预测数据库,最终通过B-Spline插值后进行区间域预测,可提高基线预测精度;本发明可基于海量历史监控数据动态生成非线性监控指标基线域,对数据中心不同场景下不同时序监控数据拟合具有较好的通用性,可灵活适应不同的应用场景,且基线计算随时间窗口动态调整,实时性高。
2)本发明基于指定时间窗口的监控基线域进行实时异常判断,在数据中心监控数据存在异常时,结合数据中心运维基础设施,采用流量切换和自定义故障转移策略实现自驱排障和自定义自驱排障机制,实现故障自动排除,提高智能运维水平。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的基于WN-Spline基线域算法的数据中心自驱排障方法示意图;
图2为本发明WN-Spline基线域算法原理示意图;
图3为本发明在实际场景下的内存使用率异常检测图;
图4为本发明在实际场景下的内存使用率异常检测局部图;
图5为本发明自驱排障自动触发方案示意图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
请参阅图1,本发明提出一种基于WN-Spline基线域算法的数据中心自驱排障方法,所述方法包括:
S1、建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
本发明依据数据中心历史数据建立数据中心场景下时序监控数据统一指标库,并按照既定的规格、数据类型等人为规则进行清洗,作为基线域数据分析输入数据。
步骤S1具体包括如下分步骤:
S11、建立时序监控数据统一指标库。
数据中心硬件设备一般分为计算机、传感器、终端设备等,其中计算机分为计算节点和存储节点,传感器分为环境温度传感器、湿度传感器、雷电传感器等。依托硬件设备部署了相关软件,包含SuperVisor、Redis、Nginx、Prometheus、Elasticsearch、Kibana等软件中间件。计算机硬件层监控数据主要囊括CPU频率、CPU占用率、CPU温度、内存使用率、磁盘I/O、磁盘使用量等计算和存储节点信息,传感器层主要囊括环境温度、湿度等环境监控信息,计算机软件层主要囊括不同软件的具体服务信息,如Redis写入率、Nginx访问量、Kibana并发访问量、SuperVisor服务重启次数等。
如表1所示,本发明基于数据中心实际环境下实时产生的多维度监控数据信息,以计算机硬件层、计算机软件层、传感器层三个大类划分指标组,每个指标组依据不同的设备关键信息或软件类型划分为具体指标。
表1数据中心场景下时序监控数据统一指标库
Figure BDA0003280764280000071
S12、依据监控数据统一指标库对监控数据进行清洗。
数据中心海量监控数据由部署在计算机硬件层、计算机软件层、传感器层的监控服务不断拉取。监控数据根据产生形式不同,主要分为实时监控数据与离线监控数据。实时监控数据如传感器数据流的数据清洗任务,在采集初期由分布式流式计算框架Flink完成;而离线监控数据如Nginx监控日志,则由Spark执行NLP批处理任务清洗完成。监控数据清洗策略依据数据中心统一指标库进行对比和筛查,将数据清洗规约至逐条记录对应于时序数据单一时间点某一指标的具体数值,并通过ETL(Extract-Transform-Load)技术最终汇总至数据仓库供后续算法分析。
S2、采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;
数据中心实际场景下不同时序监控数据之间存在很大差别,常规数学模型如线性回归、指数回归等难以对所有监控指标进行表达。因此,本发明采用一种WN-Spline基线域算法预测未来一段时间内各监控指标的基线域;图2为本发明WN-Spline基线域算法原理示意图。
本发明提出的WN-Spline基线域算法基于数据中心场景下时序监控数据统一指标库,通过指定历史监控数据适当时间窗口(起始时间点和结束时间点)、指标类型、预测周期T等算法参数,根据实际场景下监控指标存在非线性分布的特点拟合其非线性曲线分布规律,建立其非线性时间序列模型,预测时间窗口结束时间点后T内该监控指标的基线域。算法参数指标类型对应时序监控数据统一指标库中具体的指标项,时间窗口和最大分析数据量需要结合具体的硬件算力指定。
对于一组样本
Figure BDA0003280764280000081
xk∈Rn,yk∈R,其中{xk,yk}的实际意义为在时刻xk时某监控指标的具体数值yk。WN-Spline基线域算法根据历史监控指标数据拟合后,可计算出监控指标基线域,例如,指定周期T内任意离散时间点x,计算求得该监控指标的基线范围yx_min≤y≤yx_max,即可得到监控指标基线域。
步骤S2具体包括如下分步骤:
S21、从数据仓库中读入历史监控数据,将历史监控数据按照时间窗口T进行计算窗口划分;
将历史监控数据按照时间窗口T的大小划分为Z个计算窗口W1,W2,W3,…,WZ,不足T大小的时间窗口则忽略。对于任一计算窗口WN,N=1,2,3,…,Z,根据步骤S22计算其指标窗口基线离散点集合SWN
S22、逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合;
具体的,获取任一计算窗口WN的监控数据样本{xk,yk},k=1,…,n,n为当前计算窗口内样本总数,基于加权LSSVM算法对数据非线性回归处理,考虑如下优化问题:
Figure BDA0003280764280000082
Figure BDA0003280764280000083
求解得到监控指标的加权LSSVM非线性回归模型:
Figure BDA0003280764280000084
Figure BDA0003280764280000091
其中,w为权重,函数
Figure BDA0003280764280000092
为空间映射函数,是样本xk到高维空间的非线性映射,ek为模型误差项,b为常数,/>
Figure BDA0003280764280000093
为代价损失部分,K(x,xk)为核函数,αk为核函数系数,采用径向基核函数RBF;vk为/>
Figure BDA0003280764280000094
的加权系数,/>
Figure BDA0003280764280000095
其中/>
Figure BDA0003280764280000096
IQR为误差变量的四分位距,c1、c2为常数。
基于非线性回归模型,指定时间窗口内既定间隔时间点x,计算得到任一计算窗口WN对应的基线离散点集合SWN={(x,yN)|x∈[(N-1)T,NT]},yN为非线性回归预测得到的时间点x对应的基线值。
S23、将基线离散点集合进行统一区间映射计算得到监控指标的基线域;
任一计算窗口WN对应指标基线离散点集合SWN完成后,将不同计算窗口计算结果映射至同一区间x∈[0,T],更精确地拟合监控指标基线域Sb={(x,y)|x∈[0,T],y∈[yxb_min,yxb_max]},yxb_min、yxb_max为y对应的下限值和上限值;
由于实际环境存在可能的监控指标抖动,需要对计算结果添加高斯随机值。已知信噪比SNR,则高斯随机值的计算公式为
Figure BDA0003280764280000097
其中/>
Figure BDA0003280764280000098
Ps为信号的有效功率,len表示信号长度;求解得该监控指标基线域S={(x,y)|x∈[0,T],y∈[yxb_min-r,yxb_max+r]},即S={(x,y)|x∈[0,T],y∈[yx_min,yx_max]},其中yx_min=yxb_min-r,yx_max=yxb_max+r。
S24、对基线域边缘曲线采样离散化并存储至指标预测数据库;
非线性模型拟合后其复杂参数难以持久化,因此对监控指标基线域S计算完成后,根据既定精度对基线域边缘进行采样,得出采样点集合Sm={(x,y)|x∈[0,T],y=yx_min或y=yx_max}并进行数据存储。
S25、通过B-Spline插值进行指定时间窗口下的基线域预测。
实际场景下对预测周期T内的时间点x进行预测时,先读取基线域上下边缘离散点Sm,并使用B-Spline根据离散点插值后得出基线域上下曲线,最终依据x对应的监控指标实际值yx是否落于[yx_min,yx_max]区间内判断其异常情况,yx落于[yx_min,yx_max]区间内,则当前时间点x下对应的监控指标值正常,否则为异常。。
步骤S21~S25对应的算法即为本发明所述的WN-Spline基线域算法。本发明可基于海量历史监控数据动态生成非线性监控指标基线域,对数据中心不同场景下不同时序监控数据拟合具有较好的通用性,可灵活适应不同的应用场景,且基线计算随时间窗口动态调整,实时性高。
下面结合具体实验数据验证本发明采用WN-Spline基线域算法预测各监控指标的基线域的有效性。图3为实际场景下内存使用率异常检测图,横轴代表时间(Timeinterval),单位为min,纵轴代表内存使用率(Memory useage),单位为百分比。其中,灰色部分曲线区域为所有计算窗口计算所得的指标基线离散点集合SWN,其可视化为多条连续曲线;深灰色的上、下边界曲线表示该预测周期内该监控指标的基线域,黑色曲线为实际指标监控数据。部分实际监控数值偏离基线域,可被诊断为指标异常,将触发步骤S3的自驱排障机制。
图4为图3的局部放大图,黑色曲线为实际指标监控数据,其中多条灰色曲线为不同WN的非线性回归结果,经过区域映射、最值处理和高斯随机后,得到的深灰色的上、下边界曲线可较好地界定该指标基线域,与实际指标监控数据较为符合。
S3、基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
请参阅图5,本发明的自驱排障自动触发方案示意图,本发明的自驱排障方案基于多实例部署、负载均衡和流量切换、故障转移来实现。对数据中心中计算机硬件层、计算机软件层、传感器层的不同维度实例,提供多实例部署的流量切换与负载均衡策略和故障转移策略。在基于监控指标基线域判定某一指标存在异常时,可采用流量切换将该设备或该软件的读写流量切换至负载均衡下的其他设备或服务,并通过故障转移方案中心进行回调自定义故障转移策略实现关闭服务、计算任务重分配等自定义自驱排障机制,通过该故障转移策略实现故障自愈。
步骤S3具体包括如下分步骤:
S31、将指定监控项时序数据与预测得到的监控指标基线域进行对比,判定该设备或该服务是否状态异常。
对预测周期T内的某一时间点x进行预测时,读取基线域上下边缘离散点Sm,使用B-Spline根据离散点进行插值,得出基线域上下曲线,并依据x对应的监控指标实际值yx是否落于[yx_min,yx_max]区间内判断其异常情况。
S32、若状态异常,通过负载均衡基础设施将异常设备或异常服务流量迁移至同级其他负载均衡下的设备或其他服务。
异常迁移目标以监控指标关联资源优先队列算法进行选择,挑选维护的备选迁移目标队列中资源占用最小的迁移目标迁移异常服务流量。
S33、执行回调自定义故障转移策略脚本,实现服务下线与计算任务重分配两种自定义自驱排障机制。
本发明通过故障转移方案中心执行自定义自驱排障机制,实现故障转移,包括服务下线的故障转移策略和计算任务重分配的故障转移策略。其中,服务下线的故障转移策略为,在指定该服务的异常流量迁移完成后,远程调用服务预先注册的下线HTTP接口,通过定时轮询的方式请求该服务状态直至确认服务下线。计算任务重分配的故障转移策略为,在Hadoop等集群计算场景中,以远程RPC方式请求集群计算主节点Master将故障设备进行下线处理,从而触发集群计算自有的计算资源动态调整,完成其自驱排障,提高智能运维水平。
与上述方法实施例相对应,本发明还公开一种基于WN-Spline基线域算法的数据中心自驱排障***,所述***包括:
数据仓库建立模块:用于依据数据中心历史数据建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
基线域计算模块:用于采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;
自驱排障模块:用于基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
以上方法实施例和***实施例是对应的,***实施例简述之处请参阅方法实施例即可。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现本发明前述的方法。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现本发明实施例所述方法的全部或部分步骤。所述存储介质包括:U盘、移动硬盘、只议存储器ROM、随机存取存储器RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以分布到多个网络单元上。本领域普通技术人员在不付出创造性的劳动的情况下,可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述方法包括:
建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;所述采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域具体包括:
从数据仓库中读入历史监控数据,按照时间窗口T将历史监控数据划分成Z个计算窗口;
逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合;
将基线离散点集合进行统一区间映射计算得到监控指标的基线域;
对基线域边缘曲线采样离散化并存储至指标预测数据库;
通过B-Spline插值进行指定时间窗口下的基线域预测;
基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
2.根据权利要求1所述基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述建立数据中心场景下时序监控数据统一指标库具体包括:
获取数据中心实际环境下实时产生的多维度监控数据信息,以计算机硬件层、计算机软件层、传感器层三个大类划分指标组,每个指标组依据不同的设备关键信息或软件类型划分为具体指标。
3.根据权利要求1所述基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合具体包括:
获取任一计算窗口WN的监控数据样本{xk,yk},N=1,2,3,…,Z,k=1,…,n,n为当前计算窗口内样本总数,基于加权LSSVM算法,考虑如下优化问题:
Figure FDA0004263752510000021
Figure FDA0004263752510000022
求解得到监控指标的加权LSSVM非线性回归模型:
Figure FDA0004263752510000023
其中,w为权重,γ为惩罚因子,函数
Figure FDA0004263752510000024
是样本xk到高维空间的非线性映射,ek为模型误差,vk为/>
Figure FDA0004263752510000025
的加权系数,b为常数,K(x,xk)为核函数,αk为核函数系数;
将非线性回归模型作为时间序列模型,指定时间窗口内既定间隔时间点x,计算得到基线离散点集合SWN={(x,yN)|x∈[(N-1)T,NT]),yN为非线性回归预测得到的时间点x对应的基线值。
4.根据权利要求3所述基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述将基线离散点集合进行统一区间映射计算得到监控指标的基线域具体包括:
将不同计算窗口计算得到的基线离散点集合映射至同一区间x∈[0,T],得出拟合监控指标基线域Sb={(x,y)|x∈[0,T],y∈[yxb_min,yxb_max]},yxb_min、yxb_max为监控指标基线值y对应的下限值和上限值;
为计算结果添加高斯随机值,高斯随机值的计算公式为
Figure FDA0004263752510000026
其中
Figure FDA0004263752510000027
SNR为已知的信噪比,Ps为信号的有效功率,len表示信号长度;
求解得到监控指标基线域S={(x,y)|x∈[0,T],y∈[yxb_min-r,yxb_max+r]},即S={(x,y)|x∈[0,T],y∈[yx_min,yx_max]}。
5.根据权利要求4所述基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈具体包括:
将指定监控项的时序数据与预测得到的监控指标基线域进行对比,判定对应的设备或服务是否状态异常,若实际监控指标值落入对应的基线域之外则判定状态异常;
若状态异常,通过负载均衡基础设施将异常设备或异常服务流量迁移至同级其他设备或其他服务;
执行回调自定义故障转移策略脚本,实现服务下线与计算任务重分配。
6.根据权利要求5所述基于WN-Spline基线域算法的数据中心自驱排障方法,其特征在于,所述服务下线的故障转移策略为:待指定的异常服务流量迁移完成后,远程调用服务预先注册的下线HTTP接口,通过定时轮询的方式请求该服务状态直至确认服务下线;
计算任务重分配的故障转移策略为:在集群计算场景中,以远程RPC方式请求集群计算主节点Master将故障设备进行下线处理,触发集群进行自有的计算资源动态调整,完成计算自驱排障。
7.一种基于WN-Spline基线域算法的数据中心自驱排障***,其特征在于,所述***包括:
数据仓库建立模块:用于依据数据中心历史数据建立数据中心场景下时序监控数据统一指标库,并进行数据清洗,建立数据仓库;
基线域计算模块:用于采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域;所述采用WN-Spline基线域算法建立时间序列模型,基于数据仓库预测指定时间窗口下统一指标库中各监控指标的基线域具体包括:
从数据仓库中读入历史监控数据,按照时间窗口T将历史监控数据划分成Z个计算窗口;
逐个对计算窗口中的历史监控数据进行加权LSSVM非线性回归,计算基线离散点集合;
将基线离散点集合进行统一区间映射计算得到监控指标的基线域;
对基线域边缘曲线采样离散化并存储至指标预测数据库;
通过B-Spline插值进行指定时间窗口下的基线域预测;
自驱排障模块:用于基于指定时间窗口下统一指标库中各监控指标的基线域判断监控指标是否存在异常,通过自驱排障机制进行故障自愈。
8.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口、总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现如权利要求1~6任一项所述的方法。
9.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~6任一项所述的方法。
CN202111131942.XA 2021-09-26 2021-09-26 一种基于WN-Spline基线域算法的数据中心自驱排障方法及*** Active CN113849333B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111131942.XA CN113849333B (zh) 2021-09-26 2021-09-26 一种基于WN-Spline基线域算法的数据中心自驱排障方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111131942.XA CN113849333B (zh) 2021-09-26 2021-09-26 一种基于WN-Spline基线域算法的数据中心自驱排障方法及***

Publications (2)

Publication Number Publication Date
CN113849333A CN113849333A (zh) 2021-12-28
CN113849333B true CN113849333B (zh) 2023-07-14

Family

ID=78980255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111131942.XA Active CN113849333B (zh) 2021-09-26 2021-09-26 一种基于WN-Spline基线域算法的数据中心自驱排障方法及***

Country Status (1)

Country Link
CN (1) CN113849333B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117221008B (zh) * 2023-11-07 2024-02-23 中孚信息股份有限公司 基于反馈机制的多行为基线修正方法、***、装置及介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7448019B2 (en) * 2005-12-15 2008-11-04 International Business Machines Corporation Dynamic readjustment and interpolation of progress method and system
US10928814B2 (en) * 2017-02-24 2021-02-23 General Electric Technology Gmbh Autonomous procedure for monitoring and diagnostics of machine based on electrical signature analysis
CN109542740B (zh) * 2017-09-22 2022-05-27 阿里巴巴集团控股有限公司 异常检测方法及装置
CN109684179B (zh) * 2018-09-03 2022-05-17 平安科技(深圳)有限公司 ***故障的预警方法、装置、设备及存储介质
US11567914B2 (en) * 2018-09-14 2023-01-31 Verint Americas Inc. Framework and method for the automated determination of classes and anomaly detection methods for time series
US11204847B2 (en) * 2018-12-21 2021-12-21 Microsoft Technology Licensing, Llc Machine learning model monitoring
CN110134566A (zh) * 2019-04-29 2019-08-16 国网上海市电力公司 一种基于标签技术的云环境下信息***性能监测方法
CN110427715B (zh) * 2019-08-08 2022-10-14 内蒙古科技大学 基于时间序列和高炉多维度的炉缸热状态趋势预测的方法
CN111289231B (zh) * 2020-01-21 2020-12-22 中国农业大学 基于不完全B-spline数据拟合的转子***健康监测方法和***
CN112596081B (zh) * 2020-12-03 2023-12-01 北京航空航天大学 一种基于关联性健康基线的健康状态监测的方法

Also Published As

Publication number Publication date
CN113849333A (zh) 2021-12-28

Similar Documents

Publication Publication Date Title
US11403164B2 (en) Method and device for determining a performance indicator value for predicting anomalies in a computing infrastructure from values of performance indicators
US11558272B2 (en) Methods and systems for predicting time of server failure using server logs and time-series data
US10223403B2 (en) Anomaly detection system and method
US11537940B2 (en) Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
US11307916B2 (en) Method and device for determining an estimated time before a technical incident in a computing infrastructure from values of performance indicators
CN107707431A (zh) 一种面向云平台的数据安全监测方法及***
US20230115255A1 (en) Systems and methods for predictive assurance
WO2017087440A1 (en) Anomaly fusion on temporal casuality graphs
KR20170060031A (ko) 머신 러닝을 이용한 비-기술적인 손실의 식별
CN114430826A (zh) 用于预测计算工作负载的时间序列分析
CN114978568A (zh) 使用机器学习进行数据中心管理
CN111262750B (zh) 一种用于评估基线模型的方法及***
US11675643B2 (en) Method and device for determining a technical incident risk value in a computing infrastructure from performance indicator values
JP7401677B2 (ja) モデル更新システム、モデル更新方法及び関連装置
CN111368980A (zh) 状态检测方法、装置、设备及存储介质
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控***
CN113849333B (zh) 一种基于WN-Spline基线域算法的数据中心自驱排障方法及***
CN110766236A (zh) 基于统计分析和深度学习的电力设备状态趋势预测方法
Al Mamun et al. Lstm recurrent neural network (rnn) for anomaly detection in cellular mobile networks
Wu et al. Adaptive sequential predictive maintenance policy with nonperiodic inspection for hard failures
CN117236571B (zh) 一种基于物联网的规划方法和***
KR20200126766A (ko) Ict 인프라의 운용 관리 장치 및 방법
Gonzalez et al. Characterisation of router and link failure processes in UNINETT’s IP backbone network
US20230291657A1 (en) Statistical Control Rules for Detecting Anomalies in Times Series Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant