CN118246872A - 机房预警方法、装置、设备、存储介质及计算机程序产品 - Google Patents

机房预警方法、装置、设备、存储介质及计算机程序产品 Download PDF

Info

Publication number
CN118246872A
CN118246872A CN202410273187.6A CN202410273187A CN118246872A CN 118246872 A CN118246872 A CN 118246872A CN 202410273187 A CN202410273187 A CN 202410273187A CN 118246872 A CN118246872 A CN 118246872A
Authority
CN
China
Prior art keywords
data
model
arma
machine room
bnn
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410273187.6A
Other languages
English (en)
Inventor
袁汀
蒋家驹
吕严
蒲志远
周伟
陈超寅
刘茜茜
薛彤
陶奕宇
马旭
张剑雄
柯子涵
申士
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Original Assignee
China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
China Mobile Communications Group Co Ltd
China Mobile Group Jiangsu Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Zijin Jiangsu Innovation Research Institute Co ltd, China Mobile Communications Group Co Ltd, China Mobile Group Jiangsu Co Ltd filed Critical China Mobile Zijin Jiangsu Innovation Research Institute Co ltd
Priority to CN202410273187.6A priority Critical patent/CN118246872A/zh
Publication of CN118246872A publication Critical patent/CN118246872A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据分析技术领域,公开了一种机房预警方法、装置、设备、存储介质及计算机程序产品,该方法包括:采集机房设备的时间序列数据,根据时间序列数据和ARMA模型生成残差序列,残差序列用于衡量ARMA模型的预测效果,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果,根据BNN残差预测结果和ARMA预测结果生成组合预测结果,并根据组合预测结果生成机房设备的实时告警和预测性维护告警;本发明集成了BNN与ARMA两种时间序列分析模型,从而提高了预警处理能力,且能够更好地整合设备历史数据,提升预测性维护效果。

Description

机房预警方法、装置、设备、存储介质及计算机程序产品
技术领域
本发明涉及数据分析技术领域,尤其涉及一种机房预警方法、装置、设备、存储介质及计算机程序产品。
背景技术
现有技术中互联网数据中心(Internet Data Center,IDC)机房的监测机制主要依赖于人工巡检。
但是,采用现有技术中的人工处理流程,容易出现因漏检产生的安全事故,人力成本要求较高,且只能出现问题后才能进行维修,容易产生可避免的设备损耗。
发明内容
本发明的主要目的在于提供一种机房预警方法、装置、设备、存储介质及计算机程序产品,旨在解决现有技术中的人工处理流程,容易出现因漏检产生的安全事故,人力成本要求较高,且只能出现问题后才能进行维修,容易产生可避免的设备损耗的技术问题。
为实现上述目的,本发明提供一种机房预警方法,所述机房预警方法包括:
采集机房设备的时间序列数据;
根据所述时间序列数据和ARMA模型生成残差序列;
基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果;
根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
可选地,所述根据所述时间序列数据和ARMA模型生成残差序列,包括:
将所述时间序列数据分为第一建模数据和第二建模数据,所述第一建模数据包括第一时间段的时间序列数据,所述第二建模数据包括第二时间段的时间序列数据,所述第一时间段早于所述第二时间段;
根据所述第一建模数据和ARMA模型预测第二时间段的时序数据;
计算所述第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
可选地,所述根据所述第一建模数据和ARMA模型预测第二时间段的时序数据,包括:
通过差分算法对所述第一建模数据进行平稳化处理;
在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计;
根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
可选地,所述在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计之前,还包括:
通过多种校验方式检验所述第一建模数据,获得多个平稳概率;
根据所述多个平稳概率中符合概率条件的数量检验所述第一建模数据是否平稳。
可选地,所述基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果,包括:
在基于所述残差序列判断ARMA模型未通过适应性校验时,返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验;
基于通过适应性校验的残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
可选地,所述根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警之后,还包括:
在出现所述实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据;
计算所述多维数据的变异系数,并根据所述变异***分析产生告警的主要原因。
此外,为实现上述目的,本发明还提出一种机房预警装置,所述机房预警装置包括:数据采集模块、数据处理模块以及告警判别模块;
所述数据采集模块,用于采集机房设备的时间序列数据;
所述数据处理模块,用于根据所述时间序列数据和ARMA模型生成残差序列;
所述数据处理模块,还用于基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果;
所述告警判别模块,用于根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
此外,为实现上述目的,本发明还提出一种机房预警设备,所述机房预警设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机房预警程序,所述机房预警程序配置为实现如上文所述的机房预警方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有机房预警程序,所述机房预警程序被处理器执行时实现如上文所述的机房预警方法。
此外,为实现上述目的,本发明还提供一种计算机程序产品,所述计算机程序产品包括机房预警程序,所述机房预警程序被处理器执行时实现如上文所述的机房预警方法机房预警。
在本发明中,公开了采集机房设备的时间序列数据,根据时间序列数据和ARMA模型生成残差序列,残差序列用于衡量ARMA模型的预测效果,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果,根据BNN残差预测结果和ARMA预测结果生成组合预测结果,并根据组合预测结果生成机房设备的实时告警和预测性维护告警;本发明集成了BNN与ARMA两种时间序列分析模型,其中,BNN模型在处理波动性方面更有优势,能够较好地捕捉波动性和噪声,而ARMA模型在捕获总体趋势方面更有优势,可以评估模型在总体尺度上的预测表现,从而提高了预警处理能力,相比人工巡检效率更高,且能够更好地整合设备历史数据,提升预测性维护效果。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的机房预警设备的结构示意图;
图2为本发明机房预警方法第一实施例的流程示意图;
图3为本发明机房预警方法第二实施例的流程示意图;
图4为本发明机房预警方法一实施例的组合预测示意图;
图5为本发明机房预警方法一实施例的ARMA模型构建流程图;
图6为本发明机房预警方法第三实施例的流程示意图;
图7为本发明机房预警装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的机房预警设备结构示意图。
如图1所示,该机房预警设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display),可选用户接口1003还可以包括标准的有线接口、无线接口,对于用户接口1003的有线接口在本发明中可为USB接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(Wireless-Fidelity,Wi-Fi)接口)。存储器1005可以是高速的随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(Non-volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对机房预警设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,认定为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及机房预警程序。
在图1所示的机房预警设备中,网络接口1004主要用于连接后台服务器,与所述后台服务器进行数据通信;用户接口1003主要用于连接用户设备;所述机房预警设备通过处理器1001调用存储器1005中存储的机房预警程序,并执行本发明实施例提供的机房预警方法。
基于上述硬件结构,提出本发明机房预警方法的实施例。
参照图2,图2为本发明机房预警方法第一实施例的流程示意图,提出本发明机房预警方法第一实施例。
应当理解的是,互联网数据中心(Internet Data Center,IDC)被视为互联网产业和通信行业的关键基础设施,为信息数据存储和信息***运行提供了不可或缺的平台。作为产业信息化推进的关键资源和重要节点,IDC的稳定运行对于托管业务有至关重要的支撑作用。
在IDC内部,机房环境应保持稳定的温湿度条件。而机房内部的噪音水平也一定程度上反映了服务器的运行状态,包括负载程度等。因此,确保每台设备的温湿度和噪音维持在适当的范围内显得尤为重要。这就要求需要对这些参数的变化趋势进行预测,以便在异常情况或潜在异常即将发生时进行及时警示,以预防潜在的安全风险。
目前,IDC机房的监测机制主要依赖于人工巡检。日常运维人员会观察机柜内的温湿度显示数值,确保其在规定范围内。噪音数据通常需要由巡检人员使用仪器进行测量。然而,这种依赖人工巡检的方式存在一定的限制。
人工巡检的缺点:
1.大型IDC机房中设备较多,巡检人员在日常巡检中通常不会每台设备都进行巡检记录,且容易因为疲劳、视野等原因出现错检情况,相应的巡检效率较低,容易出现因漏检产生的安全事故,人力成本要求较高。
2.人工巡检只能对当前设备状态数据进行是否在规定范围的判断,不能依据历史数据对设备状态进行预测性诊断,只能出现问题后才能进行维修,容易产生可避免的设备损耗。
因此,为了克服上述缺陷,本实施例集成了贝叶斯神经网络(Bayesian NeuralNetwork,BNN)与自回归移动平均模型(Auto-Regressive Moving Average Model,ARMA)两种时间序列分析模型,其中,BNN模型在处理波动性方面更有优势,能够较好地捕捉波动性和噪声,而ARMA模型在捕获总体趋势方面更有优势,可以评估模型在总体尺度上的预测表现,从而提高了预警处理能力,相比人工巡检效率更高,且能够更好地整合设备历史数据,提升预测性维护效果。
在第一实施例中,所述机房预警方法,包括:
步骤S10:采集机房设备的时间序列数据。
可以理解的是,本实施例的执行主体可以是具有数据处理、网络通信以及程序运行功能的机房预警设备,例如,电脑、服务器等,或者是其他能够实现相同或相似功能的电子设备,本实施例对此不加限制。
应当理解的是,采集机房设备的时间序列数据可以是人工采集,例如,在资金有限的情况下,可以采用人工采集方案。该方案需要使用手持噪声检测设备和红外照相测温设备。在执行过程中,巡检人员将手持设备移至距离机柜约40cm的位置,逐个测量各项数据,并将所得数据上传至机房预警设备。这种方式适合预算有限的场景,但可能需要较多的人力资源投入。
当然,为了提升监测效率,也可以考虑引入自动化技术采集机房设备的时间序列数据。例如,温湿度和噪音传感器可以被安置在各个设备和机柜内,实时监测环境条件,或使用巡检机器人周期性地对IDC机房的冷通道和热通道进行拍照、测量,机房预警设备可以收集并分析这些传感器数据,以检测异常趋势并触发警报,这样的自动化***将大大降低对人工干预的依赖,并提高IDC机房的监测精度和效率。
在具体实现中,例如,为了减少人力介入并提高效率,可考虑采用巡检机器人方案。在预算充足的情况下,该方案使用可自主定位的机器人进行巡检。在实施过程中,机器人根据预先规划的巡检路径进行定点巡检。机器人按照路径变更位置,在每次到达机柜位置时,采集相应的数据,并将这些数据上传至机房预警设备。这种方法可降低人力成本,提高数据采集的效率。
步骤S20:根据所述时间序列数据和ARMA模型生成残差序列。
应当理解的是,根据所述时间序列数据和ARMA模型生成残差序列可以是将时间序列数据分为第一建模数据和第二建模数据,第一建模数据包括第一时间段的时间序列数据,第二建模数据包括第二时间段的时间序列数据,第一时间段早于第二时间段,根据第一建模数据和ARMA模型预测第二时间段的时序数据,计算第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
可以理解的是,根据第一建模数据和ARMA模型预测第二时间段的时序数据可以是通过差分算法对第一建模数据进行平稳化处理,在第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对ARMA模型进行参数估计,根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
步骤S30:基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果。
可以理解的是,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果可以是在基于残差序列判断ARMA模型未通过适应性校验时,返回对ARMA模型进行识别和定阶,并对ARMA模型进行参数估计的步骤,直至基于残差序列判断ARMA模型通过适应性校验,基于通过适应性校验的残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
步骤S40:根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
预测结果,由于最终输出预测结果为一随机变量,故可以根据国标或相关准则,通过概率形式对实时数据输出告警判断结果,并通过既往数据对未来时间指标进行预测,起到预测性维护的效果。
从上述的计算过程中,可以得到最终的估计为:
由于,为ARMA预测结果,/>为BNN残差预测结果,/>与/>都是随机变量(并且认为二者是独立服从正态分布的),所以可以近似地认为:
其中需要从AR(p)模型的具体形式,利用格林公式求解。
而对于设备的温度湿度噪声都有一个认为是合理的区间范围,这里记为:
[lowerbound,upperbound]
1.对于单步预测或是已有观测,即t≤T+1的情况,记:
其中α为选定的置信区间,常用的有0.99,0.95,0.90,0.80等,uα表示标准正态分布的上α分位数,当α取0.95时,uα=1.65。
当xt<lbonestep或xt>ubonestep时,设备产生实时告警。
2.对于未来p步预测,即T+1<t≤T+p时,可以计算出预测值处于该区间的概率:
其中,Φ(·)表示标准正态分布的概率分布函数,这里Φ(·)可以被替换为U(·),即均匀分布的概率分布函数,如果该项指标的分布为均匀分布。
若Pr(normal)≤pnormal,pnormal为设备正常工作概率阈值(可以设置为80%),则产生预测性维护告警,该告警会生成一个p步预测概率供运维人员参考。
在本实施例中,公开了采集机房设备的时间序列数据,根据时间序列数据和ARMA模型生成残差序列,残差序列用于衡量ARMA模型的预测效果,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果,根据BNN残差预测结果和ARMA预测结果生成组合预测结果,并根据组合预测结果生成机房设备的实时告警和预测性维护告警;本实施例集成了BNN与ARMA两种时间序列分析模型,其中,BNN模型在处理波动性方面更有优势,能够较好的捕捉波动性和噪声,而ARMA模型在捕获总体趋势方面更有优势,可以评估模型在总体尺度上的预测表现,从而提高了预警处理能力,相比人工巡检效率更高,且能够更好地整合设备历史数据,提升预测性维护效果。
参照图3,图3为本发明机房预警方法第二实施例的流程示意图,基于上述图2所示的第一实施例,提出本发明机房预警方法的第二实施例。
在第二实施例中,所述步骤S20,包括:
步骤S201:将所述时间序列数据分为第一建模数据和第二建模数据,所述第一建模数据包括第一时间段的时间序列数据,所述第二建模数据包括第二时间段的时间序列数据,所述第一时间段早于所述第二时间段。
应当理解的是,为了提高残差序列的可靠性,本实施例中,先将时间序列数据分为第一建模数据和第二建模数据,再根据第一建模数据和ARMA模型预测第二时间段的时序数据,再计算第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
步骤S202:根据所述第一建模数据和ARMA模型预测第二时间段的时序数据。
为了便于理解,参考图4进行说明,但并不对本发明进行限定。图4为本发明机房预警方法一实施例的组合预测示意图,图中,假设输入的时间序列数据为:
x0,x1,x2,…,xT
其中,选择前T-τ个数据作为ARMA模型的输入数据,后τ个数据作为衡量ARMA模型效果的测试数据并用得到的ARMA模型用来生成残差序列来建立BNN模型输入数据集。在具体实现中,时序数据x0,x1,x2,…,xT(其中xT即xt)为时间序列数据,建模数据x0,x1,x2,…,xT-τ为第一建模数据,建模数据xT-τ,xT-τ+1,xT-τ+2,…,xT为第二建模数据,ARMA预测为ARMA模型预测第二时间段的时序数据。
进一步地,为了时序预测的准确性,本实施例中,还可以构建ARMA模型,所述步骤S202,包括:
步骤S2021:通过差分算法对所述第一建模数据进行平稳化处理。
进一步地,所述步骤S2022之前,还包括:通过多种校验方式检验所述第一建模数据,获得多个平稳概率;根据所述多个平稳概率中符合概率条件的数量检验所述第一建模数据是否平稳。
步骤S2022:在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计。
步骤S2023:根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
为了便于理解,参考图5进行说明,但并不对本发明进行限定。图5为本发明机房预警方法一实施例的ARMA模型构建流程图,图中,自回归滑动平均模型(ARMA)是一种经典的时间序列分析方法,用于建模时间序列数据的趋势和周期性。ARMA模型结合了自回归(AR)模型和滑动平均(MA)模型的特点,允许对时间序列数据进行预测和分析。
ARMA(p,q)模型使用前p个时间步的值和前q个时间步的白噪声误差作为输入,其中p是自回归阶数,q是滑动平均阶数。模型公式如下:
Xt=c+φ1Xt-12Xt-2+…+φpXt-p1t-12t-2+…+θqt-q+∈t
1)时间序列数据的平稳化:
ARMA模型建模流程图5所示,通常时间序列数据是不平稳的,所以需要通过差分使其平稳化,公式如下:
对于数据是否已经平稳化,校验方式有ADF检验(Augmented Dickey-FullerTest)、KPSS检验(Kwiatkowski-Phillips-Schmidt-Shin Test)、单位根检验、波普检验(Box-Pierce Test)和Ljung-Box检验等,在这里,可以使用全部的5种检验方法,设计投票***:
记上述5种方法生成的概率分别为:
pi=Pr(第i种方法检验该序列非平稳),i=1,2,3,4,5
若5种方法中有大于等于2种pi≤p0,认为该序列是非平稳的,则判断该序列非平稳,需要进一步进行差分或进行去均值化。对于需要使用p值的检验方法,可以统一选取p0=0.1,0.05,0.01,0.005,0.001等常用置信度进行。
2)模型的识别与定阶:
ARMA模型的识别需要绘制时间序列数据的自相关图(ACF)和偏自相关图(PACF)。但使用自相关函数和偏自相关函数的截尾来判断模型为ARMA模型时,并不能确定p和q的阶数,为了比较精确的确定p和q的阶数,就必须与常用的定阶准则联合起来应用。例如,AIC(赤池信息)和BIC(贝叶斯信息)准则。
AIC准则是拟合精度和参数个数的加权函数,使AIC函数达到最小值的模型被认为是最优模型,而BIC同理,相对于AIC,它在参数数量上施加了更大的惩罚,以减少过拟合的可能性。设{Xt,1≤t≤N}为一时间序列样本,对于ARMA(p,q),AIC与BIC的计算公式如下:
AIC=2k-2lnL
BIC=klnN-2lnL
其中,N为样本数量;k为模型的参数数量,对ARMA(p,q)模型来说,k=p+q;L为模型的最大似然估计值。上述两个指标都是越低越好,如果希望算法有更高的自动化程度,避免人工选参的工作,在python中,可以使用pmdarima库中的auto_arima函数来自动选择ARMA模型的阶数。
3)参数估计:
对于ARMA模型,其对应的是延拓的YW方程,对等式两边同乘Xt-k并取期望可以得到以下YW方程:
解该方程后可以得到AR部分的系数强相合估计,令:
即得到一个MA(q)序列,进一步地利用该值的估计计算残差以替代模型中的白噪声,就会得到:
K=max(p,q)
这样就得到一个多元线性回归模型,使用最小二乘法,即可得到参数估计,相应的优化函数如下:
该过程可以由Pandas库中的statsmodels完成。
步骤S203:计算所述第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
为了便于理解,参考图4进行说明,但并不对本发明进行限定。图4为本发明机房预警方法一实施例的组合预测示意图,图中,假设输入的时间序列数据为:
x0,x1,x2,…,xT
其中,选择前T-τ个数据作为ARMA模型的输入数据,后τ个数据作为衡量ARMA模型效果的测试数据并用得到的ARMA模型用来生成残差序列来建立BNN模型输入数据集。在具体实现中,时序数据x0,x1,x2,…,xT(其中xT即xt)为时间序列数据,建模数据x0,x1,x2,…,xT-τ为第一建模数据,建模数据xT-τ,xT-τ+1,xT-τ+2,…,xT为第二建模数据,ARMA预测为ARMA模型预测第二时间段的时序数据,ARMA预测残差为残差序列,ARMA预测/>为ARMA预测结果,BNN残差预测/>为BNN残差预测结果。
在本实施例中,先将时间序列数据分为第一建模数据和第二建模数据,再根据第一建模数据和ARMA模型预测第二时间段的时序数据,再计算第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列,从而能够提高残差序列的可靠性。
在第二实施例中,所述步骤S30,包括:
步骤S301:在基于所述残差序列判断ARMA模型未通过适应性校验时,返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验。
应当理解的是,为了提高ARMA模型的预测能力,本实施例中,还会基于残差序列判断ARMA模型是否通过适应性校验,在基于所述残差序列判断ARMA模型未通过适应性校验时,还会返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验,并基于通过适应性校验的残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
步骤S302:基于通过适应性校验的残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
为了便于理解,以下举例说明,但并不对本发明进行限定。在一个例子中,BNN模型的训练如下:注意到在构建ARMA模型过程中,对MA(q)部分的建模的思想实质上是线性回归模型的思想,如此进行假设的原因是在MA(q)模型的构建过程中,认为各个偏自相关变量是独立的,但这一点在现实情况中不容易达到。故本专利寻求使用BNN方法,在保留原有概率模型特性的基础上,进一步挖掘ARMA(p,q)模型中AR(p)部分未挖掘出的时序信息。
1)数据集的构建
在上述步骤中已经得到了ARMA模型部分
Xt=c+φ1Xt-12Xt-2+…+φpXt-p1t-12t-2+…+θqt-q+∈t
提取其中AR(p)的部分
Xt=c+φ1Xt-12Xt-2+…+φpXt-p
由于p<<T,故可以形成一列如下的残差序列
代入实例数据,得到
et=xt-(c+φ1xt-12xt-2+…+φpxt-p),t=p,p+1,…,T
2)模型训练
贝叶斯神经网络的目标函数及蒙特卡洛近似结果如下:
其中,w为神经网络中的权重,w(i)为处理第i个数据点时的权重采样,为待训练的数据集,P为概率分布,q为概率密度。最小化该目标函数即得残差后验概率
在本实施例中,还会基于残差序列判断ARMA模型是否通过适应性校验,在基于所述残差序列判断ARMA模型未通过适应性校验时,还会返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验,并基于通过适应性校验的残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果,从而能够提高ARMA模型的预测能力。
参照图6,图6为本发明机房预警方法第三实施例的流程示意图,基于上述各实施例,提出本发明机房预警方法的第三实施例。
在第三实施例中,所述步骤S40之后,还包括:
步骤S50:在出现所述实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据。
应当理解的是,为了便于分析产生告警的主要原因,本实施例在出现所实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据,并计算多维数据的变异系数,并根据变异***分析产生告警的主要原因。
步骤S60:计算所述多维数据的变异系数,并根据所述变异***分析产生告警的主要原因。
为了便于理解,以下举例说明,但并不对本发明进行限定。在一个例子中,在算法运行期间收集告警信息并做归因分析,通知相关运维、管理人员,并在告警解除后更新预测性维护结果。
1.归因分析:在出现实时告警和预测维护告警时,对告警时间点进行向前m步的数据截取(包含预测数据),其中任意一维记为:
y1,y2,…,ym
对其计算变异系数:
/>
根据变异系数对产生告警的设备的各项指标进行从高到低的排序,变异系数更高的指标数据的离散程度更大,更有可能是告警出现的主要原因。
2.告警处理:
产生的告警可以通过网络平台、手机app等媒介通知运维人员,告警问题解决后,可以选择“解除告警”,并将告警的情况与处理情况储存到告警日志中,以便后续的检查。
本实施例在出现所实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据,并计算多维数据的变异系数,并根据变异***分析产生告警的主要原因,从而能够及时分析产生告警的主要原因,便于运维人员进行维护。
此外,参照图7,本发明实施例还提出一种机房预警装置。
应当理解的是,互联网数据中心(Internet Data Center,IDC)被视为互联网产业和通信行业的关键基础设施,为信息数据存储和信息***运行提供了不可或缺的平台。作为产业信息化推进的关键资源和重要节点,IDC的稳定运行对于托管业务有至关重要的支撑作用。
在IDC内部,机房环境应保持稳定的温湿度条件。而机房内部的噪音水平也一定程度上反映了服务器的运行状态,包括负载程度等。因此,确保每台设备的温湿度和噪音维持在适当的范围内显得尤为重要。这就要求需要对这些参数的变化趋势进行预测,以便在异常情况或潜在异常即将发生时进行及时警示,以预防潜在的安全风险。
目前,IDC机房的监测机制主要依赖于人工巡检。日常运维人员会观察机柜内的温湿度显示数值,确保其在规定范围内。噪音数据通常需要由巡检人员使用仪器进行测量。然而,这种依赖人工巡检的方式存在一定的限制。
人工巡检的缺点:
1.大型IDC机房中设备较多,巡检人员在日常巡检中通常不会每台设备都进行巡检记录,且容易因为疲劳、视野等原因出现错检情况,相应的巡检效率较低,容易出现因漏检产生的安全事故,人力成本要求较高。
2.人工巡检只能对当前设备状态数据进行是否在规定范围的判断,不能依据历史数据对设备状态进行预测性诊断,只能出现问题后才能进行维修,容易产生可避免的设备损耗。
因此,为了克服上述缺陷,本实施例集成了贝叶斯神经网络(Bayesian NeuralNetwork,BNN)与自回归移动平均模型(Auto-Regressive Moving Average Model,ARMA)两种时间序列分析模型,其中,BNN模型在处理波动性方面更有优势,能够较好的捕捉波动性和噪声,而ARMA模型在捕获总体趋势方面更有优势,可以评估模型在总体尺度上的预测表现,从而提高了预警处理能力,相比人工巡检效率更高,且能够更好地整合设备历史数据,提升预测性维护效果。
在本实施例中,所述机房预警装置,包括:数据采集模块10、数据处理模块20以及告警判别模块30;
所述数据采集模块10,用于采集机房设备的时间序列数据。
应当理解的是,采集机房设备的时间序列数据可以是人工采集,例如,在资金有限的情况下,可以采用人工采集方案。该方案需要使用手持噪声检测设备和红外照相测温设备。在执行过程中,巡检人员将手持设备移至距离机柜约40cm的位置,逐个测量各项数据,并将所得数据上传至机房预警设备。这种方式适合预算有限的场景,但可能需要较多的人力资源投入。
当然,为了提升监测效率,也可以考虑引入自动化技术采集机房设备的时间序列数据。例如,温湿度和噪音传感器可以被安置在各个设备和机柜内,实时监测环境条件,或使用巡检机器人周期性地对IDC机房的冷通道和热通道进行拍照、测量,机房预警设备可以收集并分析这些传感器数据,以检测异常趋势并触发警报,这样的自动化***将大大降低对人工干预的依赖,并提高IDC机房的监测精度和效率。
在具体实现中,例如,为了减少人力介入并提高效率,可考虑采用巡检机器人方案。在预算充足的情况下,该方案使用可自主定位的机器人进行巡检。在实施过程中,机器人根据预先规划的巡检路径进行定点巡检。机器人按照路径变更位置,在每次到达机柜位置时,采集相应的数据,并将这些数据上传至机房预警设备。这种方法可降低人力成本,提高数据采集的效率。
所述数据处理模块20,用于根据所述时间序列数据和ARMA模型生成残差序列。
应当理解的是,根据所述时间序列数据和ARMA模型生成残差序列可以是将时间序列数据分为第一建模数据和第二建模数据,第一建模数据包括第一时间段的时间序列数据,第二建模数据包括第二时间段的时间序列数据,第一时间段早于第二时间段,根据第一建模数据和ARMA模型预测第二时间段的时序数据,计算第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
可以理解的是,根据第一建模数据和ARMA模型预测第二时间段的时序数据可以是通过差分算法对第一建模数据进行平稳化处理,在第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对ARMA模型进行参数估计,根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
所述数据处理模块20,还用于基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果。
可以理解的是,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果可以是在基于残差序列判断ARMA模型未通过适应性校验时,返回对ARMA模型进行识别和定阶,并对ARMA模型进行参数估计的步骤,直至基于残差序列判断ARMA模型通过适应性校验,基于通过适应性校验的残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
所述告警判别模块30,用于根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
预测结果,由于最终输出预测结果为一随机变量,故可以根据国标或相关准则,通过概率形式对实时数据输出告警判断结果,并通过既往数据对未来时间指标进行预测,起到预测性维护的效果。
从上述的计算过程中,可以得到最终的估计为:
由于,为ARMA预测结果,/>为BNN残差预测结果,/>与/>都是随机变量(并且认为二者是独立服从正态分布的),所以可以近似地认为:
其中需要从AR(p)模型的具体形式,利用格林公式求解。
而对于设备的温度湿度噪声都有一个认为是合理的区间范围,这里记为:
[lowerbound,upperbound]
1.对于单步预测或是已有观测,即t≤T+1的情况,记:
其中α为选定的置信区间,常用的有0.99,0.95,0.90,0.80等,uα表示标准正态分布的上α分位数,当α取0.95时,uα=1.65。
当xt<lbonestep或xt>ubonestep时,设备产生实时告警。
2.对于未来p步预测,即T+1<t≤T+p时,可以计算出预测值处于该区间的概率:
其中,Φ(·)表示标准正态分布的概率分布函数,这里Φ(·)可以被替换为U(·),即均匀分布的概率分布函数,如果该项指标的分布为均匀分布。
若Pr(normal)≤pnormal,pnormal为设备正常工作概率阈值(可以设置为80%),则产生预测性维护告警,该告警会生成一个p步预测概率供运维人员参考。
在本实施例中,公开了采集机房设备的时间序列数据,根据时间序列数据和ARMA模型生成残差序列,残差序列用于衡量ARMA模型的预测效果,基于残差序列训练BNN模型,通过BNN模型进行数据预测,获得BNN残差预测结果,并通过ARMA模型进行数据预测,获得ARMA预测结果,根据BNN残差预测结果和ARMA预测结果生成组合预测结果,并根据组合预测结果生成机房设备的实时告警和预测性维护告警;本实施例集成了BNN与ARMA两种时间序列分析模型,其中,BNN模型在处理波动性方面更有优势,能够较好的捕捉波动性和噪声,而ARMA模型在捕获总体趋势方面更有优势,可以评估模型在总体尺度上的预测表现,从而提高了预警处理能力,相比人工巡检效率更高,且能够更好地整合设备历史数据,提升预测性维护效果。
在一实施例中,所述数据处理模块20,还用于将所述时间序列数据分为第一建模数据和第二建模数据,所述第一建模数据包括第一时间段的时间序列数据,所述第二建模数据包括第二时间段的时间序列数据,所述第一时间段早于所述第二时间段;根据所述第一建模数据和ARMA模型预测第二时间段的时序数据;计算所述第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
在一实施例中,所述数据处理模块20,还用于通过差分算法对所述第一建模数据进行平稳化处理;在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计;根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
在一实施例中,所述数据处理模块20,还用于通过多种校验方式检验所述第一建模数据,获得多个平稳概率;根据所述多个平稳概率中符合概率条件的数量检验所述第一建模数据是否平稳。
在一实施例中,所述数据处理模块20,还用于在基于所述残差序列判断ARMA模型未通过适应性校验时,返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验;基于通过适应性校验的残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
在一实施例中,所述机房预警装置,还包括:归因分析模块;
所述归因分析模块,用于在出现所述实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据;计算所述多维数据的变异系数,并根据所述变异***分析产生告警的主要原因。
本发明所述机房预警装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有机房预警程序,所述机房预警程序被处理器执行时实现如上文所述的机房预警方法。
此外,本发明实施例还提出一种计算机程序产品,包括机房预警程序,所述机房预警程序被处理器执行时实现如上文所述的机房预警方法。
本发明计算机程序产品具体实施方式与上述机房预警方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器镜像(Read Only Memory image,ROM)/随机存取存储器(Random AccessMemory,RAM)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种机房预警方法,其特征在于,所述机房预警方法包括:
采集机房设备的时间序列数据;
根据所述时间序列数据和ARMA模型生成残差序列;
基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果;
根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
2.如权利要求1所述的机房预警方法,其特征在于,所述根据所述时间序列数据和ARMA模型生成残差序列,包括:
将所述时间序列数据分为第一建模数据和第二建模数据,所述第一建模数据包括第一时间段的时间序列数据,所述第二建模数据包括第二时间段的时间序列数据,所述第一时间段早于所述第二时间段;
根据所述第一建模数据和ARMA模型预测第二时间段的时序数据;
计算所述第二建模数据与预测获得的第二时间段的时序数据之间的残差,获得残差序列。
3.如权利要求2所述的机房预警方法,其特征在于,所述根据所述第一建模数据和ARMA模型预测第二时间段的时序数据,包括:
通过差分算法对所述第一建模数据进行平稳化处理;
在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计;
根据平稳后的第一建模数据和参数估计后的ARMA模型预测第二时间段的时序数据。
4.如权利要求3所述的机房预警方法,其特征在于,所述在所述第一建模数据已经平稳后,对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计之前,还包括:
通过多种校验方式检验所述第一建模数据,获得多个平稳概率;
根据所述多个平稳概率中符合概率条件的数量检验所述第一建模数据是否平稳。
5.如权利要求3所述的机房预警方法,其特征在于,所述基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果,包括:
在基于所述残差序列判断ARMA模型未通过适应性校验时,返回所述对ARMA模型进行识别和定阶,并对所述ARMA模型进行参数估计的步骤,直至基于所述残差序列判断ARMA模型通过适应性校验;
基于通过适应性校验的残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并基于通过适应性校验的ARMA模型进行数据预测,获得ARMA预测结果。
6.如权利要求1至5中任一项所述的机房预警方法,其特征在于,所述根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警之后,还包括:
在出现所述实时告警和/或所述预测维护告警时,截取告警时间点之前的多维数据;
计算所述多维数据的变异系数,并根据所述变异***分析产生告警的主要原因。
7.一种机房预警装置,其特征在于,所述机房预警装置包括:数据采集模块、数据处理模块以及告警判别模块;
所述数据采集模块,用于采集机房设备的时间序列数据;
所述数据处理模块,用于根据所述时间序列数据和ARMA模型生成残差序列;
所述数据处理模块,还用于基于所述残差序列训练BNN模型,通过所述BNN模型进行数据预测,获得BNN残差预测结果,并通过所述ARMA模型进行数据预测,获得ARMA预测结果;
所述告警判别模块,用于根据所述BNN残差预测结果和所述ARMA预测结果生成组合预测结果,并根据所述组合预测结果生成所述机房设备的实时告警和预测性维护告警。
8.一种机房预警设备,其特征在于,所述机房预警设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的机房预警程序,所述机房预警程序被所述处理器执行时实现如权利要求1至6中任一项所述的机房预警方法。
9.一种存储介质,其特征在于,所述存储介质上存储有机房预警程序,所述机房预警程序被处理器执行时实现如权利要求1至6中任一项所述的机房预警方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括机房预警程序,所述机房预警程序被处理器执行时实现如权利要求1至6中任一项所述的机房预警方法。
CN202410273187.6A 2024-03-08 2024-03-08 机房预警方法、装置、设备、存储介质及计算机程序产品 Pending CN118246872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410273187.6A CN118246872A (zh) 2024-03-08 2024-03-08 机房预警方法、装置、设备、存储介质及计算机程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410273187.6A CN118246872A (zh) 2024-03-08 2024-03-08 机房预警方法、装置、设备、存储介质及计算机程序产品

Publications (1)

Publication Number Publication Date
CN118246872A true CN118246872A (zh) 2024-06-25

Family

ID=91551864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410273187.6A Pending CN118246872A (zh) 2024-03-08 2024-03-08 机房预警方法、装置、设备、存储介质及计算机程序产品

Country Status (1)

Country Link
CN (1) CN118246872A (zh)

Similar Documents

Publication Publication Date Title
CN109186813B (zh) 一种温度传感器自检装置及方法
Jouin et al. Prognostics of PEM fuel cell in a particle filtering framework
WO2020215721A1 (zh) 一种激光雷达的寿命预测方法
KR101882925B1 (ko) 납땜 이음의 품질을 검사하는 방법
KR101948604B1 (ko) 센서 군집화 기반의 설비 건강 모니터링 방법 및 장치
CN117111544B (zh) 一种自动适配的楼宇物联网监控方法及***
JP2009086896A (ja) コンピュータの障害予測システムおよび障害予測方法
CN115358155A (zh) 一种电力大数据异常预警方法、装置、设备及可读存储介质
CN118067204A (zh) 一种基于数字计量技术的安全生产数据采集***
CN114138601A (zh) 一种业务告警方法、装置、设备及存储介质
CN116311829B (zh) 一种数据机房远程报警方法及装置
CN117291781A (zh) 一种突发性水污染溯源方法、设备及介质
CN117191147A (zh) 一种泄洪大坝水位监测预警方法及***
CN118246872A (zh) 机房预警方法、装置、设备、存储介质及计算机程序产品
KR20170018794A (ko) 부분 고장 데이터를 이용한 소프트웨어 신뢰도 평가모델 선택 시스템 및 방법
CN115222278A (zh) 一种机器人智慧巡检的方法和***
CN115293735A (zh) 一种无人工厂工业互联网平台监测管理方法及***
CN115097070A (zh) 一种实验室智能一体化管理***及方法
RU2735296C1 (ru) Способ многопараметрического контроля состояния сложных электротехнических объектов
CN114492636A (zh) 一种变压器绕组状态信号的采集***
CN114004138A (zh) 基于大数据人工智能的建筑监测方法、***及存储介质
CN117783769B (zh) 基于可视平台的配电网络故障定位方法、***、设备及存储介质
CN117272844B (zh) 配电盘工作寿命的预测方法及***
CN117932520B (zh) 基于数据识别的固体生物废物处理设备监测方法
RU2779795C1 (ru) Способ и устройство для предиктивного диагностирования технического состояния промышленных объектов

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination