CN109800139A - 服务器健康度分析方法,装置,存储介质及电子设备 - Google Patents

服务器健康度分析方法,装置,存储介质及电子设备 Download PDF

Info

Publication number
CN109800139A
CN109800139A CN201811554842.6A CN201811554842A CN109800139A CN 109800139 A CN109800139 A CN 109800139A CN 201811554842 A CN201811554842 A CN 201811554842A CN 109800139 A CN109800139 A CN 109800139A
Authority
CN
China
Prior art keywords
server
sample data
index
group
obtains
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811554842.6A
Other languages
English (en)
Inventor
孙卓然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811554842.6A priority Critical patent/CN109800139A/zh
Publication of CN109800139A publication Critical patent/CN109800139A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开的目的是提供一种服务器健康度分析方法,装置,存储介质及电子设备,以解决相关技术中服务器健康分析不够全面的问题。方法包括:获取服务器的多组历史指标;根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。

Description

服务器健康度分析方法,装置,存储介质及电子设备
技术领域
本公开涉及设备运维技术领域,具体地,涉及一种服务器健康度分析方法,装置,存储介质及电子设备。
背景技术
随着IT技术的快速发展,各个行业领域都越来越需要IT运维的设备良好运行的支持。通过监控平台能够对IT服务器的不同指标进行监控,并在指标异常的情况下发出报警信息。
相关技术中,工作人员能够根据经验来判断指标是否表示设备处于正常运行状态。此外,还可以借助简单的程序来判断服务器是否正常运行,例如,在服务器的CPU使用率低于70%,内存使用率低于80%,对于当前运行磁盘剩余空间较为充足的情况下,确定服务器是正常运行的。
发明内容
本公开的目的是提供一种服务器健康度分析方法,装置,存储介质及电子设备,以解决相关技术中服务器健康分析不够全面的问题。
为了实现上述目的,第一方面,本公开提供一种服务器健康度分析方法,包括:
获取服务器的多组历史指标;
根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;
根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
可选的,所述根据所述样本数据进行机器学习,得到健康度评估模型,包括:
将所述样本数据发送给多个节点进行分布式存储;
在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型;
所述健康度评估模型包括所述多个目标神经网络模型。
可选的,所述方法还包括:
获取所述服务器当前时刻的运行指标;
将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果;
根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
可选的,所述节点为Ignite节点;和/或,所述神经网络模型为极限学习机ELM神经网络模型。
可选的,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:
针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
第二方面,本公开提供一种服务器健康度分析装置,包括:
第一获取模块,用于获取服务器的多组历史指标;
分类模块,用于根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;
机器学习模块,用于根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
可选的,所述机器学习模块,用于:
将所述样本数据发送给多个节点进行分布式存储;
在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型;
所述健康度评估模型包括所述多个目标神经网络模型。
可选的,所述装置还包括:
第二获取模块,用于获取所述服务器当前时刻的运行指标;
分类模块,用于将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果;
确定模块,用于根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
可选的,所述节点为Ignite节点;和/或,所述神经网络模型为极限学习机ELM神经网络模型。
可选的,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:
针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
第三方面,本公开提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述服务器健康度分析方法的步骤。
第四方面,本公开提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现任一项所述服务器健康度分析方法的步骤。
上述技术方案,至少能够达到以下技术效果:
通过获取服务器的多组历史指标,再根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,这样,通过告警信息来构建的标签评价能够让样本数据清晰准确的表述服务器在每一时间段内的状态。
进一步的,根据所述样本数据进行机器学习,得到健康度评估模型,由于机器学习能够综合多个维度的特征训练得到健康度评估模型,能够自动发现指标之间内在联系,使得健康度评估模型能够更加全面的分析服务器的健康度,继而在健康度评估模型中输入服务器的运行指标后,能够得到更为精准的表征所述服务器健康状态的标签。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种服务器健康度分析方法流程图。
图2是根据一示例性实施例示出的另一种服务器健康度分析方法流程图。
图3是根据一示例性实施例示出的另一种服务器健康度分析方法流程图。
图4是根据一示例性实施例示出的一种服务器健康度分析装置框图。
图5是根据一示例性实施例示出的一种电子设备框图。
图6是根据一示例性实施例示出的另一种电子设备框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
相关技术中,一些服务器从指标上来看运行平稳,但实际上处于亚健康的状态。相关技术中检测设备运行状态程序过于简单,缺乏发现多个指标内在关联问题的能力,可能未能及时发现设备运行中存在的风险。对此,本公开实施例提出一种服务器健康度分析方法,以更加全面的分析服务器的健康度。
图1是根据一示例性实施例示出的一种服务器健康度分析方法流程图。
所述方法包括:
S11,获取服务器的多组历史指标。
示例的,服务器的历史指标可以分为以下几个类型,分别是CPU使用率(CPU),物理内存使用率(Memory),5分钟平均负载(Load),磁盘使用率(Disk)和虚拟内存使用率(Virtual Memory,Vir-Memory)。具体的,获取的多组历史指标可以是一定时间范围内的指标。其中,每一组指标对应某一时刻服务器的上述类型的指标数据集合。例如,表1所示是一个月内多组历史指标。
表1
S12,根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据。
在具体实施时,可以将健康等级分为四个等级,分别是“健康”、“亚健康”、“危险”、“严重”。
可选的,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
例如,将历史告警分为3种等级,将等级为1的告警计分10分,等级2的告警计分25,等级为3的告警计分为50分,总分是100分。
计算服务器的目标状态得分的公式可以是:
服务器的目标状态得分=100–10*n1–25*n2-50*n3;
其中,n1是等级1告警的个数,n2是等级2告警的个数,n3是等级3告警的个数。当得分小于0时,计得分为0。
状态得分与健康状态标签的对应关系可以如表2所示:
表2
健康状态标签 状态得分
健康 >=85
亚健康 65~85
危险 45~65
严重 <=45
根据表1所示多组历史指标,得到的每组组历史指标的样本标签如表3所示:
表3
S13,根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
上述技术方案,至少能够达到以下技术效果:
通过获取服务器的多组历史指标,再根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,这样,通过告警信息来构建的标签评价能够让样本数据清晰准确的表述服务器在每一时间段内的状态。
进一步的,根据所述样本数据进行机器学习,得到健康度评估模型,由于机器学习能够综合多个维度的特征训练得到健康度评估模型,能够自动发现指标之间内在联系,使得健康度评估模型能够更加全面的分析服务器的健康度,继而在健康度评估模型中输入服务器的运行指标后,能够得到更为精准的表征所述服务器健康状态的标签。
图2是根据一示例性实施例示出的一种服务器健康度分析方法流程图。
所述方法包括:
S21,获取服务器的多组历史指标。
示例的,服务器的历史指标可以分为以下几个类型,分别是CPU使用率(CPU),物理内存使用率(Memory),5分钟平均负载(Load),磁盘使用率(Disk)和虚拟内存使用率(Virtual Memory,Vir-Memory)。具体的,获取的多组历史指标可以是一定时间范围内的指标。其中,每一组指标对应某一时刻服务器的上述类型的指标数据集合。
S22,根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据。
在具体实施时,可以将健康等级分为四个等级,分别是“健康”、“亚健康”、“危险”、“严重”。
可选的,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
例如,将历史告警分为3种等级,将等级为1的告警计分10分,等级2的告警计分25,等级为3的告警计分为50分,总分是100分。
计算服务器的目标状态得分的公式可以是:
服务器的目标状态得分=100–10*n1–25*n2-50*n3;
其中,n1是等级1告警的个数,n2是等级2告警的个数,n3是等级3告警的个数。当得分小于0时,计得分为0。
S23,通过重采样处理所述样本数据,得到多个样本数据训练子集。
重采样是指根据一类象元的信息内插出另一类象元信息的过程。
比如说,上述得到的样本数据有5个维度,对应历史指标分为5个维度类型,每一维度数据有N个,那么样本数据为(N*5)的矩阵X。进一步的,通过有放回均匀采样对上述样本数据进行重采样处理,得到多个不同的样本数据训练子集Q。其中,每一样本数据训练子集Q可以为(M*5)的矩阵,由于Q矩阵每一维度的数据是根据X举证中每一维度N个数据重采样得出的,Q矩阵每一维度的数据个数M应略小于N。
通过重采样,能够产生多个具备差异性的样本数据训练子集,基于多个样本数据训练子集能够在后续步骤中构造有多个差异性的目标神经网络模型。多个样本数据训练子集的差异性能够很大程度上保证得到的多个差异性的目标神经网络模型之间的差异性。
得到的样本数据训练子集的个数可以根据后续要得到的目标神经网络模型的个数一致。
在本实施例中,健康度分析实质是一个分类问题,因此样本数据是5个维度的分类数据,其中前面5列是不同的影响变量,最后的样本标签列相当于类标。相应的,在后续机器学习得到的健康度评估模型中,其输入的运行指标是5个维度的数据。
进一步的,根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
S24,将所述样本数据训练子集发送给多个节点进行分布式存储。
S25,在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型。
其中,所述健康度评估模型包括所述多个目标神经网络模型。
S26,获取所述服务器当前时刻的运行指标。
S27,将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果。
S28,根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
多数投票算法可以分为两步进行,第一步,找到出现次数最多的标签分类结果(majority element,多数元素);第二步,如果majority element出现的次数大于总元素数量的一半,就返回majority element为所述目标标签分类结果。
为了更加直观的展示上述技术方案,以图3对上述技术方案做示例性说明。
如图3所示,首先对服务器进行监控,获取服务器历史监控数据,这些历史监控数据中即可包括上述服务器的多组历史指标。
进一步的,对多组历史指标进行数据处理,并进行健康度的划分,对每一组所述历史指标添加健康状态标签,得到样本数据。
进一步的,对样本数据进行重采样,得到T个样本数据训练子集(数据子集1、数据子集2、…数据子集T)。具体的,可以采用自助法(bootstrap)抽样方法进行重采样。
下文对数据的处理在分布式节点中进行(如图中虚线框所示)。
进一步的,再将每一数据子集分配到多个节点进行分布式存储。可选的,所述节点为Ignite节点。
Apache Ignite是一种内存平台,它具有高性能、集成化以及分布式的特点,可以实时地在大数据量的情况下执行事务处理和计算业务。与传统的基于磁盘或者闪存的存储技术相比,数据处理性更优。此外,可嵌入式开发,占用资源小,在解决大数据并行类型计算问题时较有优势。
基于该内存平台提供了Ignite分布式计算,这种分布式计算可以通过并行的方式增强数据处理的性能,降低延迟,提升线性扩展能力。Ignite分布式计算提供了在集群节点或者一个集群组中运行很多种类型计算的方法,可以以一个分布式的形式执行任务或者闭包。
在上述可选实施方式中,可以利用Ignite分布式计算及通讯能力,通过将数据子集分配到多个Ignite节点分布式存储,继而在每个Ignite节点进行弱采集器训练,当训练完成将结果同步传输到统一节点来获取最终结果。引入Ignite分布式计算特性,有效的减少了分析时间,提高了预测时效性。
进一步的,在Ignite节点中利用神经网络模型对样本数据进行训练。
在图3的示例中,神经网络模型为ELM(极限学习机)网络。训练后得到T个目标神经网络模型,即,经过训练的ELM网络(ELM1、ELM2、…ELMT)。在每一经过训练的ELM网络中,输入/输出权值,隐含节点数,偏置及激活函数固定。
ELM(极限学习机)网络具有很快的训练速度。多个ELM网络的分析结果可能有一定差异性,而集成学习恰好正需要这种差异性。每一支点分别训练的ELM之间的具备差异性,能够训练得到的不同ELM网络具备不同的侧重点,从而更加全面的分析输入的新数据。此外,集成学习方法可以提升ELM网络分析结果的准确性及泛化能力。
进一步的,向各个Ignite节点传入服务器当前时刻的运行指标,也就是最新的数据。这些当前时刻的运行指标也是5维的,利用训练完成的ELM网络进行分析获取分析结果,共计得到T个分类结果(分类结果1、分类结果2、…分类结果T)。
进一步的,利用多数投票法对上述步骤中获得的T个结果进行筛选,得到最终的结果。利用多数投票法处理集成的多个EML网络的结果,能够对新输入的数据给出合理响应,增强泛化能力,提升结果的准确性。
本实施例采用集成学习方法得到多个ELM网络。ELM的本质是一种神经网络,其的实现原理可以通过如下公式表示:
N个训练样本ui=[ui1,ui2,...,uip]T∈Rp是输入向量;
ti=[ti1,ti2,…,tiq]T∈Rq是输出向量,m是隐层节点数,b是隐含偏执,g(x)是激活函数,wj=[wj1,wj2,…,wjp]T是输入量权重,βj=[βj1j2,...,βjq]T是输出量权重。
上式写成矩阵相乘的形式为Y=Ηβ;其中Y为期望的网络输出,H称为ELM的状态矩阵,展开式如下:
下面对多个ELM网络的误差做以分析。假设集成的多个ELM(极限学***均,则可得下式:
其中,n是参与集成的ELM网络的个数,yi代表任一ELM网络的输出,代表集成的输出。假设y代表样本实际输出,yi表示第i个ELM网络的预测值,εi是误差项,则可得:
yi=y+εi
那么第i个ELM网络的均方误差的期望为:E[{yi-y}2]=E[εi 2];n个ELM网络的均方误差平均值为:
可得集成的多个ELM网络的均方误差期望为:
假设误差项εi之间不相关并且具有零均值,即E[εiεj]=0,E[εi]=0;那么则有:
由此可见,集成的多个ELM网络的均方误差明显低于单一极限学***均误差。
值得说明的是,在实际实施时多个ELM网络之间的误差可能高度相关,集成的多个ELM网络的均方误差略高于平均误差的1/n,但集成极限学***均误差依旧成立。
本公开实施例至少能够实现以下技术效果:
1.在对每一组所述历史指标添加健康状态标签,采用健康度细化分级表示,有助于准确表述服务器当前状态;
2.对多个神经网络集成学习形成强学习器使得方法预测分析的泛化性能增强;
3.利用Ignite分布式通信并行计算,提升集成机器学习的训练效率;
4.能够更高效的分析出服务器当前状态,帮助用户对运维情况做出正确判断。
图4是根据一示例性实施例示出的一种服务器健康度分析装置框图。该装置包括:
第一获取模块410,用于获取服务器的多组历史指标;
分类模块420,用于根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;
机器学习模块430,用于根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
上述技术方案,至少能够达到以下技术效果:
通过获取服务器的多组历史指标,再根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,这样,通过告警信息来构建的标签评价能够让样本数据清晰准确的表述服务器在每一时间段内的状态。
进一步的,根据所述样本数据进行机器学习,得到健康度评估模型,由于机器学习能够综合多个维度的特征训练得到健康度评估模型,能够自动发现指标之间内在联系,使得健康度评估模型能够更加全面的分析服务器的健康度,继而在健康度评估模型中输入服务器的运行指标后,能够得到更为精准的表征所述服务器健康状态的标签。
可选的,所述机器学习模块,用于:
将所述样本数据发送给多个节点进行分布式存储;
在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型;
所述健康度评估模型包括所述多个目标神经网络模型。
可选的,所述装置还包括:
第二获取模块,用于获取所述服务器当前时刻的运行指标;
分类模块,用于将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果;
确定模块,用于根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
可选的,所述节点为Ignite节点;和/或,所述神经网络模型为极限学习机ELM神经网络模型。
可选的,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:
针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述服务器健康度分析方法的步骤。
本公开实施例提供一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行所述存储器中的所述计算机程序,以实现任一项所述服务器健康度分析方法的步骤。
图5是根据一示例性实施例示出的一种电子设备500的框图。该电子设备可以被提供为服务器的健康状态检测平台。
如图5所示,该电子设备500可以包括:处理器501,存储器502。该电子设备500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该电子设备500的整体操作,以完成上述的服务器健康度分析方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该电子设备500的操作,这些数据例如可以包括用于在该电子设备500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,比如,告警信息,指标分类数据等等;此外还可以是,联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random AccessMemory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable ProgrammableRead-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable ProgrammableRead-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该电子设备500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的服务器健康度分析方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的服务器健康度分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由电子设备500的处理器501执行以完成上述的服务器健康度分析方法。
图6是根据一示例性实施例示出的一种电子设备600的框图。例如,电子设备600可以被提供为一服务器。参照图6,电子设备600包括处理器622,其数量可以为一个或多个,以及存储器632,用于存储可由处理器622执行的计算机程序。存储器632中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器622可以被配置为执行该计算机程序,以执行上述的服务器健康度分析方法。
另外,电子设备600还可以包括电源组件626和通信组件650,该电源组件626可以被配置为执行电子设备600的电源管理,该通信组件650可以被配置为实现电子设备600的通信,例如,有线或无线通信。此外,该电子设备600还可以包括输入/输出(I/O)接口658。电子设备600可以操作基于存储在存储器632的操作***,例如Windows ServerTM,Mac OSXTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的服务器健康度分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器632,上述程序指令可由电子设备600的处理器622执行以完成上述的服务器健康度分析方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种服务器健康度分析方法,其特征在于,包括:
获取服务器的多组历史指标;
根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;
根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
2.根据权利要求1所述的方法,其特征在于,所述根据所述样本数据进行机器学习,得到健康度评估模型,包括:
将所述样本数据发送给多个节点进行分布式存储;
在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型;
所述健康度评估模型包括所述多个目标神经网络模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取所述服务器当前时刻的运行指标;
将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果;
根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
4.根据权利要求2或3所述的方法,其特征在于,所述节点为Ignite节点;和/或,所述神经网络模型为极限学习机ELM神经网络模型。
5.根据权利要求1至3中任一项所述的方法,其特征在于,所述根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据,包括:
针对任一组历史指标,根据所述服务器产生该组历史指标的时间段内的告警信息的等级,计算所述服务器的目标状态得分,并根据状态得分与健康状态标签的对应关系,将所述目标状态得分对应的目标健康状态标签作为该组历史指标的样本标签。
6.一种服务器健康度分析装置,其特征在于,包括:
第一获取模块,用于获取服务器的多组历史指标;
分类模块,用于根据所述服务器在产生每一组所述历史指标的时间段内的告警信息对每一组所述历史指标添加健康状态标签,得到样本数据;
机器学习模块,用于根据所述样本数据进行机器学习,得到健康度评估模型,其中,所述健康度评估模型的输入为服务器的运行指标,输出为表征所述服务器健康状态的标签。
7.根据权利要求6所述的装置,其特征在于,所述机器学习模块,用于:
将所述样本数据发送给多个节点进行分布式存储;
在每一个所述节点利用神经网络模型对该节点存储的样本数据进行训练,得到多个目标神经网络模型;
所述健康度评估模型包括所述多个目标神经网络模型。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二获取模块,用于获取所述服务器当前时刻的运行指标;
分类模块,用于将所述运行指标分别输入所述多个目标神经网络模型,得到多个标签分类结果;
确定模块,用于根据多数投票算法从所述多个标签分类结果,确定目标标签分类结果,并根据所述目标标签分类结果确定所述服务器的健康状态。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN201811554842.6A 2018-12-18 2018-12-18 服务器健康度分析方法,装置,存储介质及电子设备 Pending CN109800139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811554842.6A CN109800139A (zh) 2018-12-18 2018-12-18 服务器健康度分析方法,装置,存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811554842.6A CN109800139A (zh) 2018-12-18 2018-12-18 服务器健康度分析方法,装置,存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN109800139A true CN109800139A (zh) 2019-05-24

Family

ID=66557136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811554842.6A Pending CN109800139A (zh) 2018-12-18 2018-12-18 服务器健康度分析方法,装置,存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN109800139A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
CN110750784A (zh) * 2019-09-24 2020-02-04 深圳市智莱科技股份有限公司 一种自动售卖设备的安全防控方法及***
CN110865925A (zh) * 2019-11-12 2020-03-06 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN111107158A (zh) * 2019-12-26 2020-05-05 远景智能国际私人投资有限公司 用于物联网设备集群中的告警方法、装置、设备及介质
CN111897706A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 服务器性能预测方法、装置、计算机***和介质
CN111949498A (zh) * 2020-08-10 2020-11-17 中国工商银行股份有限公司 应用服务器异常预测方法及***
CN112085344A (zh) * 2020-08-17 2020-12-15 远光软件股份有限公司 一种设备健康的分析方法、装置及电子设备
CN112393931A (zh) * 2019-08-13 2021-02-23 北京国双科技有限公司 检测方法、装置、电子设备和计算机可读介质
CN112799911A (zh) * 2021-01-27 2021-05-14 苏州浪潮智能科技有限公司 一种节点健康状态检测方法、装置、设备及存储介质
CN112817832A (zh) * 2021-01-19 2021-05-18 网易(杭州)网络有限公司 游戏服务器的健康状态获取方法、装置、设备及存储介质
CN113110981A (zh) * 2021-03-26 2021-07-13 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法
WO2021184554A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN113496330A (zh) * 2020-04-01 2021-10-12 逸驾智能科技有限公司 用于评估站点服务质量的方法、设备和介质
CN113762347A (zh) * 2021-08-06 2021-12-07 佳都科技集团股份有限公司 一种滑动门门体健康度评估方法及装置
CN115793990A (zh) * 2023-02-06 2023-03-14 天翼云科技有限公司 存储器健康状态确定方法、装置、电子设备及存储介质
CN116975567A (zh) * 2023-07-28 2023-10-31 上海优立检测技术股份有限公司 服务器辐射抗干扰度测试方法、***、设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033965A (zh) * 2011-01-17 2011-04-27 安徽海汇金融投资集团有限公司 一种基于分类模型的数据分类方法及***
CN106886481A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 一种***健康度静态分析预测方法及装置
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置
US20170286624A1 (en) * 2016-03-31 2017-10-05 Alibaba Group Holding Limited Methods, Systems, and Devices for Evaluating a Health Condition of an Internet User
CN107346433A (zh) * 2016-05-06 2017-11-14 华为技术有限公司 一种文本数据分类方法及服务器
CN107943677A (zh) * 2017-10-13 2018-04-20 东软集团股份有限公司 应用性能监控方法、装置、可读存储介质及电子设备
CN108304935A (zh) * 2017-05-09 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机设备
CN108710555A (zh) * 2018-05-23 2018-10-26 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033965A (zh) * 2011-01-17 2011-04-27 安徽海汇金融投资集团有限公司 一种基于分类模型的数据分类方法及***
US20170286624A1 (en) * 2016-03-31 2017-10-05 Alibaba Group Holding Limited Methods, Systems, and Devices for Evaluating a Health Condition of an Internet User
CN107346433A (zh) * 2016-05-06 2017-11-14 华为技术有限公司 一种文本数据分类方法及服务器
CN106886481A (zh) * 2017-02-28 2017-06-23 深圳市华傲数据技术有限公司 一种***健康度静态分析预测方法及装置
CN106953766A (zh) * 2017-03-31 2017-07-14 北京奇艺世纪科技有限公司 一种报警方法及装置
CN108304935A (zh) * 2017-05-09 2018-07-20 腾讯科技(深圳)有限公司 机器学习模型训练方法、装置和计算机设备
CN107943677A (zh) * 2017-10-13 2018-04-20 东软集团股份有限公司 应用性能监控方法、装置、可读存储介质及电子设备
CN108710555A (zh) * 2018-05-23 2018-10-26 郑州云海信息技术有限公司 一种基于监督学习的服务器错误诊断方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭躬德等: "《近邻分类方法及其应用 上册》", 31 December 2013 *

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110572297A (zh) * 2019-08-09 2019-12-13 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
CN110572297B (zh) * 2019-08-09 2021-07-06 网宿科技股份有限公司 网络性能的评估方法、服务器及存储介质
CN112393931B (zh) * 2019-08-13 2022-04-19 北京国双科技有限公司 检测方法、装置、电子设备和计算机可读介质
CN112393931A (zh) * 2019-08-13 2021-02-23 北京国双科技有限公司 检测方法、装置、电子设备和计算机可读介质
CN110750784B (zh) * 2019-09-24 2023-10-03 深圳市智莱科技股份有限公司 一种自动售卖设备的安全防控方法及***
CN110750784A (zh) * 2019-09-24 2020-02-04 深圳市智莱科技股份有限公司 一种自动售卖设备的安全防控方法及***
CN110865925A (zh) * 2019-11-12 2020-03-06 拉扎斯网络科技(上海)有限公司 信息处理方法、装置、电子设备及计算机可读存储介质
CN111107158A (zh) * 2019-12-26 2020-05-05 远景智能国际私人投资有限公司 用于物联网设备集群中的告警方法、装置、设备及介质
CN111107158B (zh) * 2019-12-26 2023-02-17 远景智能国际私人投资有限公司 用于物联网设备集群中的告警方法、装置、设备及介质
WO2021184554A1 (zh) * 2020-03-18 2021-09-23 平安科技(深圳)有限公司 数据库异常监测方法、装置、计算机装置及存储介质
CN113496330A (zh) * 2020-04-01 2021-10-12 逸驾智能科技有限公司 用于评估站点服务质量的方法、设备和介质
CN111897706A (zh) * 2020-07-15 2020-11-06 中国工商银行股份有限公司 服务器性能预测方法、装置、计算机***和介质
CN111949498A (zh) * 2020-08-10 2020-11-17 中国工商银行股份有限公司 应用服务器异常预测方法及***
CN111949498B (zh) * 2020-08-10 2024-06-25 中国工商银行股份有限公司 应用服务器异常预测方法及***
CN112085344A (zh) * 2020-08-17 2020-12-15 远光软件股份有限公司 一种设备健康的分析方法、装置及电子设备
CN112817832A (zh) * 2021-01-19 2021-05-18 网易(杭州)网络有限公司 游戏服务器的健康状态获取方法、装置、设备及存储介质
CN112799911A (zh) * 2021-01-27 2021-05-14 苏州浪潮智能科技有限公司 一种节点健康状态检测方法、装置、设备及存储介质
CN113110981A (zh) * 2021-03-26 2021-07-13 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法
CN113110981B (zh) * 2021-03-26 2024-04-09 北京中大科慧科技发展有限公司 一种用于数据中心的空调机房健康能效检测方法
CN113762347A (zh) * 2021-08-06 2021-12-07 佳都科技集团股份有限公司 一种滑动门门体健康度评估方法及装置
CN113762347B (zh) * 2021-08-06 2023-08-08 佳都科技集团股份有限公司 一种滑动门门体健康度评估方法及装置
CN115793990A (zh) * 2023-02-06 2023-03-14 天翼云科技有限公司 存储器健康状态确定方法、装置、电子设备及存储介质
CN116975567A (zh) * 2023-07-28 2023-10-31 上海优立检测技术股份有限公司 服务器辐射抗干扰度测试方法、***、设备及存储介质
CN116975567B (zh) * 2023-07-28 2024-03-15 上海优立检测技术股份有限公司 服务器辐射抗干扰度测试方法、***、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109800139A (zh) 服务器健康度分析方法,装置,存储介质及电子设备
Corizzo et al. Anomaly detection and repair for accurate predictions in geo-distributed big data
Kocaguneli et al. Transfer learning in effort estimation
Kuang et al. Personalized services recommendation based on context-aware QoS prediction
US9043317B2 (en) System and method for event-driven prioritization
Kim et al. Cloudinsight: Utilizing a council of experts to predict future cloud application workloads
CN106528951A (zh) 一种动力电池寿命预测及安全预警的方法和装置
CN104134159A (zh) 一种基于随机模型预测信息最大化传播范围的方法
JP2017021772A (ja) コピュラ理論に基づく特徴選択
Tian et al. Short-term wind speed forecasting based on autoregressive moving average with echo state network compensation
CN106656662A (zh) 异常带宽确定方法、***及电子设备
Zhuge et al. Sensitivity analysis of integrated activity-based model: Using MATSim as an example
CN106059829A (zh) 一种基于隐马尔可夫的网络利用率感知方法
Sladescu et al. Event aware workload prediction: A study using auction events
Nunes et al. The elimination-selection based algorithm for efficient resource discovery in Internet of Things environments
Lorido-Botran et al. An unsupervised approach to online noisy-neighbor detection in cloud data centers
Violos et al. Predicting visitor distribution for large events in smart cities
Zietz et al. When was the US housing downturn predictable? A comparison of univariate forecasting methods
Wang et al. CPB: a classification-based approach for burst time prediction in cascades
Agarwal et al. A Deep Recurrent-Reinforcement Learning Method for Intelligent AutoScaling of Serverless Functions
Pramesti et al. Autoscaling based on response time prediction for microservice application in Kubernetes
Park et al. An active learning method for data streams with concept drift
Mukherjee et al. Predictive framework for crime data analysis using a hybrid logistic regression—support vector machine based ensemble classifier powered by CART (LR-SVM CART)
Chen et al. Temporal-aware influence maximization solution in artificial intelligent edge application
Chu et al. Web service recommendations based on time-aware Bayesian networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190524

RJ01 Rejection of invention patent application after publication