CN113918438A - 服务器异常的检测方法、装置、服务器及存储介质 - Google Patents

服务器异常的检测方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN113918438A
CN113918438A CN202111403819.9A CN202111403819A CN113918438A CN 113918438 A CN113918438 A CN 113918438A CN 202111403819 A CN202111403819 A CN 202111403819A CN 113918438 A CN113918438 A CN 113918438A
Authority
CN
China
Prior art keywords
server
servers
decision
performance parameters
detection model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111403819.9A
Other languages
English (en)
Inventor
李峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongkehai Micro Beijing Technology Co ltd
Original Assignee
Zhongkehai Micro Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongkehai Micro Beijing Technology Co ltd filed Critical Zhongkehai Micro Beijing Technology Co ltd
Priority to CN202111403819.9A priority Critical patent/CN113918438A/zh
Publication of CN113918438A publication Critical patent/CN113918438A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例提供了一种服务器异常的检测方法、装置、服务器及存储介质,所述方法包括:获取服务器集群内各个服务器各自对应的性能参数,以及查找各个所述服务器各自对应的服务器检测模型;将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。如此及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失。

Description

服务器异常的检测方法、装置、服务器及存储介质
技术领域
本发明实施例涉及计算机应用技术领域,尤其涉及一种服务器异常的检测方法、装置、服务器及存储介质。
背景技术
随着云技术近些年的高速发展,互联网等相关企业都会建立自己的私有云服务器,或者租用相关供应商的云服务器来使用。其中,服务器通常拥有较多的处理器、内存、存储、I/O等重要资源,每个组成部分的异常均有可能造成服务器异常。
为了及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失,就需要对服务器进行异常检测,服务器异常检测就是监控和分析服务器所有资源以了解服务器运行情况,并确保服务器高可用和高性能的过程,并且服务器异常检测可以预测潜在隐患,并及时消除隐患。
发明内容
为了解决上述为了及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失,就需要对服务器进行异常检测的技术问题,本发明实施例提供了一种服务器异常的检测方法、装置、服务器及存储介质。
在本发明实施例的第一方面,首先提供了一种服务器异常的检测方法,所述方法包括:
获取服务器集群内各个服务器各自对应的性能参数,以及查找各个所述服务器各自对应的服务器检测模型;
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;
获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;
根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
在一个可选的实施方式中,所述服务器检测模型第一决策器,其中,通过投票的方式,从各个所述服务器各自对应的N个决策器中选举所述第一决策器;
所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型,包括:
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第一决策器;
所述获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果,包括:
获取各个所述服务器各自对应的所述第一决策器输出的各个所述服务器各自对应的预测结果。
在一个可选的实施方式中,所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型,包括:
根据各个所述服务器各自对应的所述性能参数,对各个所述服务器各自对应的N个所述决策器分别进行更新;
或者,
确定所述性能参数的获取时刻,并判断所述获取时刻是否达到预设的模型更新时刻;
若所述获取时刻达到所述模型更新时刻,根据各个所述服务器各自对应的所述性能参数,对各个所述服务器各自对应的N个所述决策器分别进行更新;
通过投票的方式,从各个所述服务器各自对应的更新后的N个所述决策器中选举第二决策器,并存储所述第二决策器;
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器;
所述获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果,包括:
获取各个所述服务器各自对应的所述第二决策器输出的各个所述服务器各自对应的预测结果。
在一个可选的实施方式中,所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器,包括:
根据各个所述服务器各自提供的服务的优先级,确定各个所述服务器各自对应的异常预测顺序;
或者,
根据各个所述服务器各自对应的每秒查询率,确定各个所述服务器各自对应的异常预测顺序;
按照所述异常预测顺序,将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器。
在一个可选的实施方式中,所述根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况,包括:
根据各个所述服务器各自对应的所述预测结果,确定各个所述服务器各自的资源的异常情况;
若目标服务器的所述资源异常,则确定所述目标服务器异常,其中,所述目标服务器包括所述各个所述服务器中任一所述服务器。
在一个可选的实施方式中,所述服务器检测模型具体通过以下方式得到:
获取各个所述服务器各自对应的正常性能参数与异常性能参数,组成各个所述服务器各自对应的训练样本;
其中,通过多个压力测试工具对各个所述服务器进行异常压力测试,得到各个所述服务器各自对应的所述异常性能参数;
基于各个所述服务器各自对应的所述训练样本,对各个所述服务器各自对应的服务器检测初始模型进行有监督训练,得到各个所述服务器各自对应的服务器检测模型。
在一个可选的实施方式中,所述服务器检测初始模型的数量包括N个,且每个所述服务器检测初始模型包括初始决策器;
所述基于各个所述服务器各自对应的所述训练样本,对各个所述服务器各自对应的服务器检测初始模型进行有监督训练,得到各个所述服务器各自对应的服务器检测模型,包括:
针对任一所述服务器对应的所述训练样本,将所述训练样本划分为N组训练样本,其中,每组训练样本对应一个所述初始决策器;
基于第i组训练样本,对第i组训练样本对应的所述初始决策器进行有监督训练,得到第i组训练样本对应的决策器;
通过投票的方式,从N个所述决策器中选举第一决策器,作为所述服务器的服务器检测模型。
在本发明实施例的第二方面,提供了一种服务器异常的检测装置,所述装置包括:
参数获取模块,用于获取服务器集群内各个服务器各自对应的性能参数;
模型查找模块,用于查找各个所述服务器各自对应的服务器检测模型;
参数输入模块,用于将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;
结果获取模块,用于获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;
异常检测模块,用于根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
在本发明实施例的第三方面,还提供了一种服务器,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中所述的服务器异常的检测方法。
在本发明实施例的第四方面,还提供了一种存储介质,所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面中所述的服务器异常的检测方法。
在本发明实施例的第五方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面中所述的服务器异常的检测方法。
本发明实施例提供的技术方案,获取服务器集群内各个服务器各自对应的性能参数,以及查找各个服务器各自对应的服务器检测模型,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的服务器检测模型,获取各个服务器各自对应的服务器检测模型输出的各个服务器各自对应的预测结果,根据各个服务器各自对应的预测结果,检测各个服务器的异常情况。通过获取服务器集群内各个服务器各自对应的性能参数,并输入至各个服务器各自对应的服务器检测模型,从而得到各个服务器各自对应的预测结果,根据各个服务器各自对应的预测结果,检测各个服务器的异常情况,如此及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中示出的一种服务器异常的检测方法的实施流程示意图;
图2为本发明实施例中示出的一种模型训练方法的实施流程示意图;
图3为本发明实施例中示出的一种各个服务器各自对应的决策树模型的训练流程示意图;
图4为本发明实施例中示出的一种服务器异常的检测装置的结构示意图;
图5为本发明实施例中示出的一种服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,为本发明实施例提供的一种服务器异常的检测方法的实施流程示意图,该方法应用于服务器,具体可以包括以下步骤:
S101,获取服务器集群内各个服务器各自对应的性能参数,以及查找各个所述服务器各自对应的服务器检测模型。
在本发明实施例中,对于某个服务器集群,获取服务器集群内各个服务器各自对应的相关数据,这里相关数据例如可以是CPU使用率、内存使用率、磁盘使用率等。
由此可知,相关数据可以表征服务器的性能状况,实质就是获取服务器的性能参数,由此本发明实施例获取服务器集群内各个服务器各自对应的性能参数,即上述的相关数据。
例如,对于服务器集群,包括服务器A、服务器B、……等,由此获取服务器集群内各个服务器各自对应的性能参数,这里各个服务器各自对应的性能参数,如下表1所示。
Figure BDA0003372026320000071
表1
需要说明的是,对于各个服务器各自对应的性能参数,可以以各个服务器各自的标识(例如名字、ID、IP地址)进行命名,并且存储到指定路径,方便后续对所有服务器进行异常检测,本发明实施例对此不作限定。
此外,本发明实施例将各个服务器各自对应的服务器检测模型部署到服务器集群内的其中一台服务器上,并且该服务器可以获取到服务器集群内其余服务器的性能参数,以完成对服务器集群内所有服务器的异常检测。
基于此,本发明实施例一方面获取服务器集群内各个服务器各自对应的性能参数,另一方面(从服务器集群内的其中一台服务器上)查找各个服务器各自对应的服务器检测模型。
例如,对于服务器集群,包括服务器A、服务器B、……等,查找服务器A对应的服务器检测模型1,查找服务器B对应的服务器检测模型2,以此类推,如此可以查找各个服务器各自对应的服务器检测模型。
需要说明的是,对于服务器检测模型,在本发明实施例中具体可以是随机森林模型,当然还可以是市面上其它比较成熟的模型,本发明实施例对此不作限定。
S102,将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型。
在本发明实施例中,对于各个服务器各自对应的性能参数,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的服务器检测模型,以此输出各个服务器各自对应的预测结果。
例如,如上述表1所示,将服务器A对应的性能参数输入至服务器A对应的服务器检测模型,将服务器B对应的性能参数输入至服务器B对应的服务器检测模型,以此类推,如此将各个服务器各自对应的性能参数,输入至各个服务器各自对应的服务器检测模型。
其中,在本发明实施例中,对于服务器检测模型,通常包括第一决策器,并且通过投票的方式,从各个服务器各自对应的N个决策器中选举第一决策器,这里投票票数最高的模型准确率最高,选取模型准确率最高的决策器为第一决策器。
需要说明的是,这里第一决策器通常是一个第一决策树模型,对于N个决策树模型组成一个随机森林模型,可以从N个决策树模型中选举第一决策树模型,本发明实施例对此不作限定。
例如,对于随机森林模型,通常包括N个决策树模型,其中,通过投票的方式,从各个服务器各自对应的N个决策树模型中选举一个决策树模型作为第一决策树模型来使用。
基于此,在本发明实施例中,对于各个服务器各自对应的性能参数,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第一决策器,以此输出各个服务器各自对应的预测结果,意味着模型预测阶段使用各个服务器各自对应的N个决策器中的某个决策器。
例如,如上述表1所示,将服务器A对应的性能参数输入至服务器A对应的第一决策树模型,将服务器B对应的性能参数输入至服务器B对应的第一决策树模型,以此类推,如此将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第一决策树模型。
此外,为了确保准确率,可以先利用各个服务器各自对应的新性能参数,对各个服务器各自对应的N个决策器分别进行更新,并将其中某个更新后的决策器持久化到本地,这里进行更新实质就是重新执行一遍模型训练过程。
基于此,在本发明实施例中,对于获取到的各个服务器各自对应的性能参数,根据各个服务器各自对应的性能参数,对各个服务器各自对应的N个决策器分别进行更新,这里进行更新实质就是重新执行一遍模型训练过程。
通过投票的方式,从各个服务器各自对应的更新后的N个决策器中选举第二决策器,并存储该第二决策器,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策器。
例如,如上述表1所示,根据服务器A对应的性能参数,对服务器A对应的N个决策树模型进行更新,通过投票的方式,从服务器A对应的更新后的N个决策树模型中,选举一个决策树模型作为第二决策树模型,将服务器A对应的性能参数,输入至服务器A对应的第二决策树模型;
根据服务器B对应的性能参数,对服务器B对应的N个决策树模型进行更新,通过投票的方式,从服务器B对应的更新后的N个决策树模型中,选举一个决策树模型作为第二决策树模型,将服务器B对应的性能参数,输入至服务器B对应的第二决策树模型;
以此类推,如此根据各个服务器各自对应的性能参数,对各个服务器各自对应的N个决策树模型分别进行更新,通过投票的方式,从各个服务器各自对应的更新后的N个决策树模型中选举第二决策树模型,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策树模型。
另外,在本发明实施例中,为了确保准确率,还可以定时对各个服务器各自对应的N个决策器分别进行更新,并将其中某个更新后的决策器持久化到本地。
基于此,确定性能参数的获取时刻,并判断获取时刻是否达到预设的模型更新时刻,若获取时刻达到模型更新时刻,根据各个服务器各自对应的性能参数,对各个服务器各自对应的N个决策器分别进行更新。
通过投票的方式,从各个服务器各自对应的更新后的N个决策器中选举第二决策器;将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策器。
例如,预先设置每周一的凌晨1点进行模型更新,则确定性能参数的获取时刻,并判断该获取时刻是否达到每周一的凌晨1点,若该获取时刻达到每周一的凌晨1点,则根据各个服务器各自对应的性能参数,对各个服务器各自对应的N个决策树模型分别进行更新;
通过投票的方式,从各个服务器各自对应的更新后的N个决策树模型中选举一个决策树模型作为第二决策树模型,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策树模型。
其中,在本发明实施例中,可以首先确定各个服务器各自对应的异常预测顺序,然后按照这个异常预测顺序,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策器。
例如,确定各个服务器各自对应的异常预测顺序,如上述表1所示,则按照这个异常预测顺序,首先将服务器A对应的性能参数,输入至服务器A对应的第二决策树模型;
然后将服务器B对应的性能参数,输入至服务器B对应的第二决策树模型,以此类推,如此可以按照异常预测顺序,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策树模型。
对于各个服务器各自对应的异常预测顺序,本发明实施例中可以根据各个服务器各自提供的服务的优先级,确定各个服务器各自对应的异常预测顺序。这里遵循的原则可以是服务的优先级越高,则相应服务器的异常预测顺序越靠前。
例如,服务器A提供的服务的优先级较高,则服务器A对应的异常预测顺序靠前,服务器B提供的服务的优先级较低,则服务器B对应的异常预测顺序靠后,以此类推,如此可以确定各个服务器各自对应的异常预测顺序。
对于各个服务器各自对应的异常预测顺序,本发明实施例中还可以根据各个服务器各自对应的每秒查询率,确定各个服务器各自对应的异常预测顺序。这里遵循的原则可以是每秒查询率越大,则相应服务器的异常预测顺序越靠前。
例如,服务器A对应的每秒查询率较大,则服务器A对应的异常预测顺序靠前,服务器B对应的每秒查询率较小,则服务器B对应的异常预测顺序靠后,以此类推,如此本发明实施例可以确定各个服务器各自对应的异常预测顺序。
S103,获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果。
在本发明实施例中,可以获取各个服务器各自对应的服务器检测模型输出的各个服务器各自对应的预测结果。例如,获取服务器A对应的服务器检测模型输出的服务器A对应的预测结果,获取服务器B对应的服务器检测模型输出的服务器B对应的预测结果,以此类推,如此获取各个服务器各自对应的服务器检测模型输出的各个服务器各自对应的预测结果。
其中,在上述中提到,服务器检测模型包括第一决策器,其中,通过投票的方式,从各个服务器各自对应的N个决策器中选举第一决策器,则本发明实施例获取各个服务器各自对应的第一决策器输出的各个服务器各自对应的预测结果。
例如,获取服务器A对应的第一决策树模型输出的服务器A对应的预测结果,获取服务器B对应的第一决策树模型输出的服务器B对应的预测结果,以此类推,如此获取各个服务器各自对应的第一决策树模型输出的各个服务器各自对应的预测结果。
此外,在上述中提到,根据各个服务器各自对应的性能参数,对各个服务器各自对应的N个决策器分别进行更新,则此时本发明实施例获取各个服务器各自对应的第二决策器输出的各个服务器各自对应的预测结果。
例如,获取服务器A对应的第二决策树模型输出的服务器A对应的预测结果,获取服务器B对应的第二决策树模型输出的服务器B对应的预测结果,以此类推,如此获取各个服务器各自对应的第二决策树模型输出的各个服务器各自对应的预测结果。
其中,上述按照异常预测顺序,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的第二决策器,则此时可以获取各个服务器各自对应的第二决策器顺序输出的各个服务器各自对应的预测结果。
S104,根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
在本发明实施例中,对于各个服务器各自对应的预测结果,可以根据各个服务器各自对应的预测结果,检测各个服务器的异常情况。其中,对于预测结果,表征了服务器的资源的异常情况。
具体地,根据各个服务器各自对应的预测结果,确定各个服务器各自的资源的异常情况,若目标服务器的资源异常,则确定目标服务器异常,其中,目标服务器包括各个服务器中任一服务器。
如此根据各个服务器各自对应的预测结果,检测各个服务器的异常情况,如此及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失。
例如,对于服务器对应的预测结果,可以如下表2所示,假设服务器A对应的预测结果1,由此可以确定服务器A的CPU异常,此时可以确定服务器A异常,对于其余服务器类似,本发明实施例在此不再一一赘述。
预测结果 服务器的资源的异常情况
0 服务器的各项资源都正常
1 服务器的CPU异常
2 服务器的内存异常
3 服务器的磁盘异常
表2
通过上述对本发明实施例提供的技术方案的描述,获取服务器集群内各个服务器各自对应的性能参数,以及查找各个服务器各自对应的服务器检测模型,将各个服务器各自对应的性能参数,输入至各个服务器各自对应的服务器检测模型,获取各个服务器各自对应的服务器检测模型输出的各个服务器各自对应的预测结果,根据各个服务器各自对应的预测结果,检测各个服务器的异常情况。
通过获取服务器集群内各个服务器各自对应的性能参数,并输入至各个服务器各自对应的服务器检测模型,从而得到各个服务器各自对应的预测结果,根据各个服务器各自对应的预测结果,检测各个服务器的异常情况,如此及时发现服务器的各种异常,以便减少因服务器宕机而导致服务停止所带来的损失。
如图2所示,为本发明实施例提供的一种模型训练方法的实施流程示意图,该方法应用于服务器,具体可以包括以下步骤:
S201,获取各个所述服务器各自对应的正常性能参数与异常性能参数,组成各个所述服务器各自对应的训练样本。
在本发明实施例中,首先进行数据收集以便于进行模型训练,故获取各个服务器各自对应的正常性能参数与异常性能参数,由各个服务器各自对应的正常性能参数与异常性能参数组成各个服务器各自对应的训练样本。
例如,获取服务器A对应的正常性能参数与异常性能参数,由服务器A对应的正常性能参数与异常性能参数组成服务器A对应的训练样本,获取服务器B对应的正常性能参数与异常性能参数,由服务器B对应的正常性能参数与异常性能参数组成服务器B对应的训练样本,以此类推,如此可以得到各个服务器各自对应的训练样本。
其中,在本发明实施例中,可以通过多个压力测试工具(例如压力测试软件)对各个服务器进行异常压力测试,得到各个服务器各自对应的异常性能参数。例如,通过多个压力测试工具对服务器A进行异常压力测试,得到服务器A对应的异常性能参数。
此外,在本发明实施例中,对于各个服务器各自对应的训练样本可以进行预处理,这里预处理可以理解为对各个服务器各自对应的训练样本进行标记。例如,对于服务器A对应的训练样本中的正常性能参数,标记为0,而对于异常性能参数标记为1。
S202,基于各个所述服务器各自对应的所述训练样本,对各个所述服务器各自对应的服务器检测初始模型进行有监督训练,得到各个所述服务器各自对应的服务器检测模型。
在本发明实施例中,对于各个服务器各自对应的训练样本,基于各个服务器各自对应的训练样本,对各个服务器各自对应的服务器检测初始模型进行有监督训练,得到各个服务器各自对应的服务器检测模型。
例如,对于服务器A对应的训练样本,可以基于服务器A对应的训练样本,对服务器A对应的服务器检测初始模型进行有监督训练,从而可以得到服务器A对应的服务器检测模型。
对于服务器B对应的训练样本,可以基于服务器B对应的训练样本,对服务器B对应的服务器检测初始模型进行有监督训练,从而可以得到服务器B对应的服务器检测模型。
如此,对于其余服务器对应的训练样本,与上述处理类似,如此可以基于各个服务器各自对应的训练样本,对各个服务器各自对应的服务器检测初始模型进行有监督训练,得到各个服务器各自对应的服务器检测模型。
其中,在本发明实施例中,对于服务器检测初始模型的数量,包括N个,且每个服务器检测初始模型包括初始决策器。例如,服务器检测初始模型的数量,包括N个,且每个服务器检测初始模型包括决策树初始模型,意味着存在N个决策树初始模型。
基于此,针对任一服务器对应的训练样本,将训练样本划分为N组训练样本,N组训练样本中可以包括相同的训练样本,比如服务器对应有1000个训练样本,随机选取800个训练样本作为一组,最终得到N组训练样本;其中,每组训练样本对应一个初始决策器,基于第i(i=1,2,3,……N)组训练样本,对第i组训练样本对应的初始决策器进行有监督训练,得到第i组训练样本对应的决策器,通过投票的方式,从N个决策器中选举第一决策器,作为该服务器的服务器检测模型。
例如,对于服务器A对应的训练样本,将训练样本划分为N组训练样本,其中,每组训练样本对应一个决策树初始模型,如此基于第i(i=1,2,3,……N)组训练样本,对第i组训练样本对应的决策树初始模型进行有监督训练,得到第i组训练样本对应的决策树模型,通过投票的方式,从N各决策树模型中选举第一决策树模型,作为该服务器A的服务器检测模型,如图3所示。
对于服务器B对应的训练样本,将训练样本划分为N组训练样本,其中,每组训练样本对应一个决策树初始模型,如此基于第i(i=1,2,3,……N)组训练样本,对第i组训练样本对应的决策树初始模型进行有监督训练,得到第i组训练样本对应的决策树模型,通过投票的方式,从N各决策树模型中选举第一决策树模型,作为该服务器B的服务器检测模型。
以此类推,对于其余服务器对应的训练样本,与上述处理流程类似,如此可以得到各个服务器各自对应的N个决策树模型,且通过投票的方式,从N个决策树模型中选举第一决策树模型,作为其余服务器各自对应的服务器检测模型。
本发明实施例中,上述服务器中,集群中同类服务器对应的检测模型可以是同一个模型,该同类服务器是指服务器的性能参数相同(内存大小相同、I/O类型及数量相同等)、所运行的程序相同;进而针对该检测模型进行训练或者更新时所采用的样本数据可以是该同类服务器中的任意一个或者多个服务器所对应的性能参数。
需要说明的是,对于上述模型训练,模型训练终止的条件可以是模型迭代次数达到阈值,或者模型的损失函数逐渐收敛,本发明实施例对此不作限定。
与上述方法实施例相对应,本发明实施例还提供了一种服务器异常的检测装置,如图4所示,该装置可以包括:参数获取模块410、模型查找模块420、参数输入模块430、结果获取模块440、异常检测模块450。
参数获取模块410,用于获取服务器集群内各个服务器各自对应的性能参数;
模型查找模块420,用于查找各个所述服务器各自对应的服务器检测模型;
参数输入模块430,用于将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;
结果获取模块440,用于获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;
异常检测模块450,用于根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
本发明实施例还提供了一种服务器,如图5所示,包括处理器51、通信接口52、存储器53和通信总线54,其中,处理器51,通信接口52,存储器53通过通信总线54完成相互间的通信,
存储器53,用于存放计算机程序;
处理器51,用于执行存储器53上所存放的程序时,实现如下步骤:
获取服务器集群内各个服务器各自对应的性能参数,以及查找各个所述服务器各自对应的服务器检测模型;将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述服务器与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种存储介质,该存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的服务器异常的检测方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的服务器异常的检测方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在存储介质中,或者从一个存储介质向另一个存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种服务器异常的检测方法,其特征在于,所述方法包括:
获取服务器集群内各个服务器各自对应的性能参数,以及查找各个所述服务器各自对应的服务器检测模型;
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;
获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;
根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
2.根据权利要求1所述的方法,其特征在于,所述服务器检测模型包括第一决策器,其中,通过投票的方式,从各个所述服务器各自对应的N个决策器中选举所述第一决策器;
所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型,包括:
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第一决策器;
所述获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果,包括:
获取各个所述服务器各自对应的所述第一决策器输出的各个所述服务器各自对应的预测结果。
3.根据权利要求2所述的方法,其特征在于,所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型,包括:
根据各个所述服务器各自对应的所述性能参数,对各个所述服务器各自对应的N个所述决策器分别进行更新;
或者,
确定所述性能参数的获取时刻,并判断所述获取时刻是否达到预设的模型更新时刻;
若所述获取时刻达到所述模型更新时刻,根据各个所述服务器各自对应的所述性能参数,对各个所述服务器各自对应的N个所述决策器分别进行更新;
通过投票的方式,从各个所述服务器各自对应的更新后的N个所述决策器中选举第二决策器,并存储所述第二决策器;
将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器;
所述获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果,包括:
获取各个所述服务器各自对应的所述第二决策器输出的各个所述服务器各自对应的预测结果。
4.根据权利要求3所述的方法,其特征在于,所述将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器,包括:
根据各个所述服务器各自提供的服务的优先级,确定各个所述服务器各自对应的异常预测顺序;
或者,
根据各个所述服务器各自对应的每秒查询率,确定各个所述服务器各自对应的异常预测顺序;
按照所述异常预测顺序,将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述第二决策器。
5.根据权利要求1所述的方法,其特征在于,所述根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况,包括:
根据各个所述服务器各自对应的所述预测结果,确定各个所述服务器各自的资源的异常情况;
若目标服务器的所述资源异常,则确定所述目标服务器异常,其中,所述目标服务器包括所述各个所述服务器中任一所述服务器。
6.根据权利要求1所述的方法,其特征在于,所述服务器检测模型具体通过以下方式得到:
获取各个所述服务器各自对应的正常性能参数与异常性能参数,组成各个所述服务器各自对应的训练样本;
其中,通过多个压力测试工具对各个所述服务器进行异常压力测试,得到各个所述服务器各自对应的所述异常性能参数;
基于各个所述服务器各自对应的所述训练样本,对各个所述服务器各自对应的服务器检测初始模型进行有监督训练,得到各个所述服务器各自对应的服务器检测模型。
7.根据权利要求6所述的方法,其特征在于,所述服务器检测初始模型的数量包括N个,且每个所述服务器检测初始模型包括初始决策器;
所述基于各个所述服务器各自对应的所述训练样本,对各个所述服务器各自对应的服务器检测初始模型进行有监督训练,得到各个所述服务器各自对应的服务器检测模型,包括:
针对任一所述服务器对应的所述训练样本,将所述训练样本划分为N组训练样本,其中,每组训练样本对应一个所述初始决策器;
基于第i组训练样本,对第i组训练样本对应的所述初始决策器进行有监督训练,得到第i组训练样本对应的决策器;
通过投票的方式,从N个所述决策器中选举第一决策器,作为所述服务器的服务器检测模型。
8.一种服务器异常的检测装置,其特征在于,所述装置包括:
参数获取模块,用于获取服务器集群内各个服务器各自对应的性能参数;
模型查找模块,用于查找各个所述服务器各自对应的服务器检测模型;
参数输入模块,用于将各个所述服务器各自对应的所述性能参数,输入至各个所述服务器各自对应的所述服务器检测模型;
结果获取模块,用于获取各个所述服务器各自对应的所述服务器检测模型输出的各个所述服务器各自对应的预测结果;
异常检测模块,用于根据各个所述服务器各自对应的所述预测结果,检测各个所述服务器的异常情况。
9.一种服务器,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1至7中任一项所述的方法步骤。
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111403819.9A 2021-11-24 2021-11-24 服务器异常的检测方法、装置、服务器及存储介质 Pending CN113918438A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111403819.9A CN113918438A (zh) 2021-11-24 2021-11-24 服务器异常的检测方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111403819.9A CN113918438A (zh) 2021-11-24 2021-11-24 服务器异常的检测方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN113918438A true CN113918438A (zh) 2022-01-11

Family

ID=79247806

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111403819.9A Pending CN113918438A (zh) 2021-11-24 2021-11-24 服务器异常的检测方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN113918438A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566148A (zh) * 2022-04-02 2022-05-31 北京百度网讯科技有限公司 集群语音识别服务及其检测方法、装置及电子设备
CN116996324A (zh) * 2023-09-25 2023-11-03 广州芯泰通信技术有限公司 基于dci的服务器集群用防泄漏******

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114566148A (zh) * 2022-04-02 2022-05-31 北京百度网讯科技有限公司 集群语音识别服务及其检测方法、装置及电子设备
CN116996324A (zh) * 2023-09-25 2023-11-03 广州芯泰通信技术有限公司 基于dci的服务器集群用防泄漏******
CN116996324B (zh) * 2023-09-25 2023-12-29 广州芯泰通信技术有限公司 基于dci的服务器集群用防泄漏******

Similar Documents

Publication Publication Date Title
US10740692B2 (en) Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
US20210165727A1 (en) Machine Defect Prediction Based on a Signature
CN109062809B (zh) 一种线上测试用例生成方法、装置及电子设备
US11178033B2 (en) Network event automatic remediation service
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
CN111309539A (zh) 一种异常监测方法、装置和电子设备
US11416325B2 (en) Machine-learning and deep-learning techniques for predictive ticketing in information technology systems
CN113918438A (zh) 服务器异常的检测方法、装置、服务器及存储介质
US9860109B2 (en) Automatic alert generation
CN112540887A (zh) 故障演练方法、装置、电子设备及存储介质
CN111859047A (zh) 一种故障解决方法及装置
CN112148733A (zh) 确定故障类型的方法、装置、电子装置和计算机可读介质
US20190354991A1 (en) System and method for managing service requests
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN111865673A (zh) 一种自动化故障管理方法、装置及***
US11501058B2 (en) Event detection based on text streams
US20220138258A1 (en) Identification of emerging clusters
US20230004487A1 (en) System and method for anomaly detection and root cause automation using shrunk dynamic call graphs
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
CN111324524B (zh) 一种广告的稳定性测试方法及装置
CN114564349B (zh) 一种服务器的监控方法、装置、电子设备及存储介质
CN109542655B (zh) 一种误删原因分析方法、装置、服务器及可读存储介质
CN117251320A (zh) 多节点服务器测试方法及装置
CN117234852A (zh) 一种异常服务检测方法、装置、电子设备及存储介质
CN114298147A (zh) 异常样本的检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination