CN107766204A - 一种检查集群健康状态的方法和*** - Google Patents

一种检查集群健康状态的方法和*** Download PDF

Info

Publication number
CN107766204A
CN107766204A CN201710936049.1A CN201710936049A CN107766204A CN 107766204 A CN107766204 A CN 107766204A CN 201710936049 A CN201710936049 A CN 201710936049A CN 107766204 A CN107766204 A CN 107766204A
Authority
CN
China
Prior art keywords
health
cluster
node
factor
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710936049.1A
Other languages
English (en)
Inventor
丛维涛
况吕林
迈迪
姜金良
蒋海京
卜景德
李斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201710936049.1A priority Critical patent/CN107766204A/zh
Publication of CN107766204A publication Critical patent/CN107766204A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种检查集群健康状态的方法和***,该方法包括:采集多个节点的健康因子的相关信息,其中,健康因子为影响集群健康状态的检测指标;根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集;对多个训练数据集进行训练,从而获得健康检查模型;以及根据健康检查模型,对集群中的节点进行检查。本发明的方法相对于现有技术中的设定阈值进行健康检查的方法,误检率更低,也提高了预警准确性。

Description

一种检查集群健康状态的方法和***
技术领域
本发明涉及计算机技术领域,具体来说,涉及一种检查集群健康状态的方法和***。
背景技术
大规模服务器集群(或集群)在物联网、互联网、高性能计算等领域得到广泛的应用,其中,大规模服务器集群,一般包含服务器、网络通信技术、存储设备和操作***等多种功能部件及其不同架构形式。通常,服务器集群会运行着应用、监控、调度等软件***,集群的运维和管理任务变得越来越艰巨。此外,集群运维和管理涉及到软硬件的稳定性、一致性等的监控和维护。
目前,大规模服务器集群一般都配置了设备、业务监控和预警***,集成了对***静态信息、***性能监控和***硬件信息等的监控和报警功能,其中,报警方式又分为桌面报警、邮件报警、短信报警和拨号报警四种方式。同时,其依据传统报警机制,采用指定固定报警因素的策略,分为预警、一般警报和严重警报,***管理员每天会接收到数千条报警信息,面临巨大工作负担。
然而,由于报警级别和报警因素是由***管理员人为指定,无法准确界定报警因素在集群环境中的级别,也无法准确预测潜在因素对终端用户的影响,从而造成误报警、重复报警,同时,一方面增加了***运维和管理人员的工作负担,另一方面严重影响了用户体验,例如,目前,对大规模服务器集群健康检查时,通常对检查项目(或称之为健康因子,该健康因子为影响服务器集群健康状态的项目或检测指标),定义一个阈值,低于阈值判为健康,高于阈值判为不健康;每一个健康因子一旦纳入预警检查项目列表,只要高于阈值都会触发预警***,发出预警信息,但是,这种检查方法效率低、预警准确性较差。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种检查集群健康状态的方法和***,该方法相对于现有技术中的设定阈值进行健康检查的方法,误检率更低,预警准确性也就更高。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种检查集群健康状态的方法。
该检查集群健康状态的方法包括:采集多个节点的健康因子的相关信息,其中,健康因子为影响集群健康状态的检测指标;根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集;对多个训练数据集进行训练,从而获得健康检查模型;以及根据健康检查模型,对集群中的节点进行检查。
根据本发明的一个实施例,健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
根据本发明的一个实施例,根据多个样本数据,构建多个训练数据集包括:获取用户自定义的判断策略;根据判断策略和多个样本数据,构建多个训练数据集。
根据本发明的一个实施例,对多个训练数据集进行训练,从而获得健康检查模型包括:从多个训练数据集随机抽取K个训练数据集,K为正整数;分别计算K个训练数据集的信息增益率,以及根据K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;根据所有的健康因子的决策优先级,构建健康检查模型。
根据本发明的一个实施例,根据健康检查模型,对集群中的节点进行检查包括:根据健康检查模型,确定集群中的节点的健康状态,其中,健康状态包括:健康节点和不健康节点;在集群中的节点为不健康节点的情况下,进行报警。
根据本发明的另一方面,提供了一种检查集群健康状态的***。
该检查集群健康状态的***包括:检查单元,用于采集多个节点的健康因子的相关信息,其中,健康因子为影响集群健康状态的检测指标;检查单元,进一步用于根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集;训练单元,用于对多个训练数据集进行训练,从而获得健康检查模型;以及预警单元,用于根据健康检查模型,对集群中的节点进行检查。
根据本发明的一个实施例,健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
根据本发明的一个实施例,检查单元包括:获取模块,用于获取用户自定义的判断策略;第一构建模块,用于根据判断策略和多个样本数据,构建多个训练数据集。
根据本发明的一个实施例,训练单元包括:随机抽取模块,用于从多个训练数据集随机抽取K个训练数据集,K为正整数;计算确定模块,用于分别计算K个训练数据集的信息增益率,以及根据K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;第二构建模块,用于根据所有的健康因子的决策优先级,构建健康检查模型。
根据本发明的一个实施例,预警单元包括:确定模块,用于根据健康检查模型,确定集群中的节点的健康状态,其中,健康状态包括:健康节点和不健康节点;报警子单元,用于在集群中的节点为不健康节点的情况下,进行报警。
本发明的有益技术效果在于:
本发明通过采集多个节点的健康因子的相关信息,随后根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集,随后对多个训练数据集进行训练,从而获得健康检查模型,最后根据健康检查模型,对集群中的节点进行检查,该方法相对于现有技术中的设定阈值进行健康检查的方法,误检率更低,也提高了预警准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的检查集群健康状态的方法的流程图;
图2是根据本发明具体实施例的检查集群健康状态的方法的流程图;
图3是根据本发明具体实施例的训练数据集的示意图;
图4是根据本发明具体实施例的健康检查模型的示意图;
图5是根据本发明具体实施例的检查集群健康状态的***的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种检查集群健康状态的方法。
如图1所示,根据本发明实施例的检查集群健康状态的方法包括:步骤S101,采集多个节点的健康因子的相关信息,其中,健康因子为影响集群健康状态的检测指标;步骤S103,根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集;步骤S105,对多个训练数据集进行训练,从而获得健康检查模型;步骤S107,根据健康检查模型,对集群中的节点进行检查。
借助于上述区别技术特征,通过采集多个节点的健康因子的相关信息,随后根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集,随后对多个训练数据集进行训练,从而获得健康检查模型,最后根据健康检查模型,对集群中的节点进行检查,该方法相对于现有技术中的设定阈值进行健康检查的方法,误检率更低,也提高了预警准确性。
根据本发明的一个实施例,健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
根据本发明的一个实施例,根据多个样本数据,构建多个训练数据集包括:获取用户自定义的判断策略;根据判断策略和多个样本数据,构建多个训练数据集。
根据本发明的一个实施例,对多个训练数据集进行训练,从而获得健康检查模型包括:从多个训练数据集随机抽取K个训练数据集,K为正整数;分别计算K个训练数据集的信息增益率,以及根据K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;根据所有的健康因子的决策优先级,构建健康检查模型。
根据本发明的一个实施例,根据健康检查模型,对集群中的节点进行检查包括:根据健康检查模型,确定集群中的节点的健康状态,其中,健康状态包括:健康节点和不健康节点;在集群中的节点为不健康节点的情况下,进行报警。
为了更好的描述本发明的技术方案,下面通过具体的技术方案对本发明的上述技术方案进行详细的描述。
目前,大规模服务器集群运维和管理涉及服务器集群的稳定性和一致性的监控和检查,由于牵扯到的功能部件较多,逐一检查非常困难,加之传统的设定阈值的预警方法,容易造成误报警、重复报警的现象,这不但增加了***运维和管理人员的工作负担,也严重影响了终端用户的体验。
针对上述问题,本发明实施例提供了一种检查集群健康状态的方法,该方法通过采集集群中各节点健康因子的基本信息xi,1,xi,2...xi,j,其中,i和j分别代表待采集信息的节点序号和健康因子的项目序号,随后对数据集进行归一化处理,得到训练数据集s1,s2...si,其中,i代表待采集信息的节点数,随后结合终端用户自定义的判断策略,生成训练数据集S,再通过对训练数据集S随机抽取的K个训练数据集s1,s2...sk,然后分别计算K个训练数据集的信息熵和信息增益率,进行数据集的划分,确定出健康因子的决策优先级,构建K个健康检查模型,最后将日常自适应检查的数据应用到上述K个健康检查模型,计算判定结果的占比,取最大占比为判定结果,结果为不健康时,发出预警信息,否则,不发布预警。由于终端用户参与检查策略设定,且通过多个健康检查模型进行检查判定,相对于设定阈值进行健康检查的方法,误检率更低,预警准确性也就更高。
以下参照图2,通过具体步骤进行详细说明如下:
步骤21,检查集群中的服务器设备,生成将要检查的节点主机名列表;
步骤22,自定义健康因子P,根据上述节点主机名点列表,采集集群各节点健康因子P的基本信息xi,1,xi,2...xi,j,构建训练样本数据s1,s2...si,i和j分别代表待采集信息的节点序号和健康因子的项目序号,以及i和j为正整数,此外,1≤i≤M,1≤j≤N,其中,M和N分别代表待采集信息的节点数和健康因子项目数;
步骤23,自定义训练样本数据的判断策略D,构建训练数据集S;
步骤24,训练训练数据集S,从而构建集群健康检查模型;
步骤25,根据上述健康检查模型,进行集群日常健康检查工作,给出决策和预警。
此外,在实际的大规模服务器集群环境中,集群健康检查通常是根据组成功能部件性质,进行分组检查。为了便于理解,在本发明实施例中,以对处理器健康检查为例进行说明,可以理解的是,本发明实施例中的检查集群健康状态的方法还可以应用到与集群健康状况相关的其他功能组件,具体可以参照本发明实施例中对处理器健康检查的相关描述进行实施,此处不再一一赘述。
需要说明的是,用户自定义健康因子P是跟集群环境稳定性、一致性相关的,且符合终端用户实际应用情况的主要因子,可以由终端用户根据实际情况进行设定,通常为了提高预警准确性,可选取尽可能多的健康因子。
下面结合具体的处理器健康检查,对步骤21至步骤25进行详细说明。
如图3所示,终端用户所选取的健康因子有“HYPER THREADING”、“CORES”,“LOADAVG”,“FREQUENCY”,“TEMPERATURE”共5项内容,上述5项分别代表CPU的超线程、处理器的核心数、平均负载、频率、温度的特征信息,采集待检查节点健康因子的基本信息(xi,1,xi, 2...xi,j),其中,i和j分别代表待采集信息的节点序号,在作归一化处理后,得到特征信息矩阵。首次采集到的数据将作为样本数据,需要终端用户对每个节点采集的样本数据作自定义判断策略(或自定义的判断决策)D,本实施例定义了判断策略D的两种取值“Healthy(健康)”和“Unhealthy(不健康)”,构建训练数据集S。
需要说明的是,在具体实施中,节点数目要尽量多,该健康因子的选取要跟所要检查的功能部件有直接关联,且对***稳定和性能有直接影响;上述判断策略D,可以由终端用户自定义,不限于本实施例所定义的“Healthy(健康)”和“Unhealthy(不健康)”。
此外,在确定训练数据集之后,需要根据样本训练数据,得到健康检查模型。具体地,计算训练数据集的信息熵:
其中,pi表示第i个类别在整个训练样本中出现的概率,m表示类别总个数。
将训练数据集以健康因子P划分,计算P对D的期望信息熵:
其中,|Dj|表示健康因子的第j个类别值对应不同判断策略的次数,v表示所选取的健康因子值的类别数目,|D|表示判断策略的总数。
计算信息增益:
IG(P,D)=H(D)-HP(D) (3)
计算***信息度量:
其中,|Dj|表示健康因子的第j个类别值对应不同判断策略的次数,v表示所选取的健康因子值的类别数目,|D|表示判断策略的总数。
计算增益率:
具体地,将训练数据集图3的数据带入上述公式(1)-(5),可以得到:
信息熵
5个健康因子的信息熵依次为:
5个健康因子的信息增益依次为:
IG(P1,D)=0.9403-0.8240=0.1163
IG(P2,D)=0.9403-0.9403=0
IG(P3,D)=0.9403-0.7422=0.1981
IG(P4,D)=0.9403-0.8610=0.0793
IG(P5,D)=0.9403-0.7475=0.1928
5个健康因子的***信息度量依次为:
5个健康因子的信息增益率依次为:
SI(P1,D)=0.1163/0.9852=0.1180
SI(P2,D)=0/∞=0
SI(P3,D)=0.1981/1.5567=0.1272
SI(P4,D)=0.0793/0.7496=0.1057
SI(P5,D)=0.1928/0.8631=0.2233
从而根据信息增益率的大小,确定健康因子的优先级顺序,选取增益率最大的健康因子作为主要影响因素,根据上述计算结果主要影响因素为“温度”,以此进行***,转化为如图4所示的树形判断结构,即获得健康检查模型。
将上述健康检查模型应用到日常健康检查工作中,首先,如前所述,采集各节点健康因子的基本信息,进行归一化,得到健康因子的特征信息,例如,健康因子的特征信息为(“超线程为关”,“平均负载为低”,“处理器的核心数为28”,“频率为2199”,“温度为高”),将此特征信息带入健康检查模型(如图4所示)中,主要影响因子“温度”的特征信息为“高”,取分支高,可得出“不健康”的判定结果,再例如,健康因子的特征信息为(“超线程为开”,“平均负载为低”,“处理器的核心数为28”,“频率为800”,“温度为正常”),将此特征信息带入健康检查模型中,主要影响因子“温度”的特征信息为“正常”,取分支正常,第二影响因子“平均负载”的特征信息为“低”,取分支低,第三影响因子“超线程”的特征信息为“开”,取分支开,可得出“健康”的判定结果。
由上述内容可以看出,通过使用自定义的健康因子获取训练数据样本,以及终端用户自定义判定策略,构建训练数据集,进而进行集群健康检查模型的构建,将健康检查模型用于日常集群健康检查,可以减轻集群运维和管理人员的工作负担,提供检查效率,有效避免了个别影响因子的误报警、重复报警,检查的准确性更高。
根据本发明的实施例,还提供了一种检查集群健康状态的***。
如图5所示,根据本发明实施例的检查集群健康状态的***包括:检查单元52,用于采集多个节点的健康因子的相关信息,其中,健康因子为影响集群健康状态的检测指标;检查单元52,进一步用于根据多个节点的健康因子的相关信息,获取多个样本数据,以及根据多个样本数据,构建多个训练数据集;训练单元53,用于对多个训练数据集进行训练,从而获得健康检查模型;以及预警单元54,用于根据健康检查模型,对集群中的节点进行检查。
根据本发明的一个实施例,健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
根据本发明的一个实施例,检查单元52包括:获取模块(未示出),用于获取用户自定义的判断策略;第一构建模块(未示出),用于根据判断策略和多个样本数据,构建多个训练数据集。
根据本发明的一个实施例,训练单元53包括:随机抽取模块(未示出),用于从多个训练数据集随机抽取K个训练数据集,K为正整数;计算确定模块(未示出),用于分别计算K个训练数据集的信息增益率,以及根据K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;第二构建模块(未示出),用于根据所有的健康因子的决策优先级,构建健康检查模型。
根据本发明的一个实施例,预警单元54包括:确定模块(未示出),用于根据健康检查模型,确定集群中的节点的健康状态,其中,健康状态包括:健康节点和不健康节点;报警子单元(未示出),用于在集群中的节点为不健康节点的情况下,进行报警。
为了更好的描述本发明的技术方案,下面通过具体的实施例进行详细的描述。
下面参照图5,对***进行详细介绍:
***可以包括:用户单元51、检查单元52、训练单元53、预警单元54、反馈单元55,其中:用户单元51,适于检查集群服务器设备,生成将要检查的节点主机名列表,用户自定义健康因子P;检查单元52,适于根据节点主机名点列表,采集集群各节点健康因子P的基本信息xi,1,xi,2...xi,j,进行数据归一化处理,构建样本数据s1,s2...si;训练单元53,适于自定义训练样本数据的判断策略D,构建训练数据集S,训练训练数据集S,随机抽取的K个数据集s1,s2...sk,分别计算训练数据子集的信息熵和信息增益率,进行数据集的划分,确定出健康因子P的决策优先级,构建K个健康检查模型;预警单元54,适于将日常检查的归一化数据集应用到K个健康检查模型,获取K个判定结果;反馈单元55,适于对上述决策的响应机制。
需要说明的是,在具体实施中,检查单元19中用户自定义“健康因子”P,是跟集群环境稳定性、一致性相关的,且符合终端用户实际应用情况的主要因子,可以由终端用户根据实际情况进行设定,通常为了提高预警准确性,可选取尽可能多的“健康因子”。
在具体实施中,训练单元53中,首先,自定义训练样本数据的判断策略D,构建训练数据集S,其次,可以采用多种方法训练训练数据集S。在本发明的一实施例中,可以通过对训练数据集S随机抽样,随机抽取的K个数据集s1,s2...sk,参照式(1)-(5),分别计算训练数据子集的信息熵和信息增益率,进行数据集的划分,确定出健康因子P的决策优先级,构建K个健康检查模型。
在具体实施中,预警单元54是适用于将日常自适应检查的数据应用到K个健康检查模型,可以得到K个判定结果,进行分类统计,计算判定结果的占比,取最大占比为最终判定结果,结果为“不健康”时,发出预警信息,否则,不发布预警。
在具体实施中,反馈单元55是适用于在做出预警之后,用户或运维管理人员所做的响应,例如,查看并处理具体报警信息、解除报警等。
综上所述,借助于本发明的上述技术方案,通过采集集群各节点健康因子的基本信息,对数据集进行归一化处理,得到训练数据集,结合终端用户自定义的判断策略,生成训练数据集,再通过对训练数据集随机抽取的K个数据集,分别计算所述训练数据子集的信息熵和信息增益率,进行数据集的划分,确定出健康因子的决策优先级,构建K个健康检查模型,最后将日常自适应检查的数据应用到这K个健康检查模型,计算判定结果的占比,取最大占比为判定结果,结果为不健康时,发出预警信息,否则,不发布预警,从而由于终端用户参与检查策略设定,且通过多个健康检查模型进行检查判定,相对于设定阈值进行健康检查的方法,误检率更低,预警准确性也就更高。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种检查集群健康状态的方法,其特征在于,包括:
采集多个节点的健康因子的相关信息,其中,所述健康因子为影响所述集群健康状态的检测指标;
根据所述多个节点的健康因子的相关信息,获取多个样本数据,以及根据所述多个样本数据,构建多个训练数据集;
对所述多个训练数据集进行训练,从而获得健康检查模型;以及
根据所述健康检查模型,对所述集群中的节点进行检查。
2.根据权利要求1所述的方法,其特征在于,所述健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
3.根据权利要求1所述的方法,其特征在于,根据所述多个样本数据,构建多个训练数据集包括:
获取用户自定义的判断策略;
根据所述判断策略和所述多个样本数据,构建多个训练数据集。
4.根据权利要求3所述的方法,其特征在于,对所述多个训练数据集进行训练,从而获得健康检查模型包括:
从所述多个训练数据集随机抽取K个训练数据集,K为正整数;
分别计算所述K个训练数据集的信息增益率,以及根据所述K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;
根据所有的健康因子的决策优先级,构建健康检查模型。
5.根据权利要求4所述的方法,其特征在于,根据所述健康检查模型,对所述集群中的节点进行检查包括:
根据所述健康检查模型,确定所述集群中的节点的健康状态,其中,所述健康状态包括:健康节点和不健康节点;
在所述集群中的节点为所述不健康节点的情况下,进行报警。
6.一种检查集群健康状态的***,其特征在于,包括:
检查单元,用于采集多个节点的健康因子的相关信息,其中,所述健康因子为影响所述集群健康状态的检测指标;
所述检查单元,进一步用于根据所述多个节点的健康因子的相关信息,获取多个样本数据,以及根据所述多个样本数据,构建多个训练数据集;
训练单元,用于对所述多个训练数据集进行训练,从而获得健康检查模型;以及
预警单元,用于根据所述健康检查模型,对所述集群中的节点进行检查。
7.根据权利要求6所述的***,其特征在于,所述健康因子至少包括以下之一:CPU的超线程、处理器、平均负载、频率、温度。
8.根据权利要求6所述的***,其特征在于,所述检查单元包括:
获取模块,用于获取用户自定义的判断策略;
第一构建模块,用于根据所述判断策略和所述多个样本数据,构建多个训练数据集。
9.根据权利要求8所述的***,其特征在于,所述训练单元包括:
随机抽取模块,用于从所述多个训练数据集随机抽取K个训练数据集,K为正整数;
计算确定模块,用于分别计算所述K个训练数据集的信息增益率,以及根据所述K个训练数据集的信息增益率,确定所有的健康因子的决策优先级;
第二构建模块,用于根据所有的健康因子的决策优先级,构建健康检查模型。
10.根据权利要求9所述的***,其特征在于,所述预警单元包括:
确定模块,用于根据所述健康检查模型,确定所述集群中的节点的健康状态,其中,所述健康状态包括:健康节点和不健康节点;
报警子单元,用于在所述集群中的节点为所述不健康节点的情况下,进行报警。
CN201710936049.1A 2017-10-10 2017-10-10 一种检查集群健康状态的方法和*** Pending CN107766204A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710936049.1A CN107766204A (zh) 2017-10-10 2017-10-10 一种检查集群健康状态的方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710936049.1A CN107766204A (zh) 2017-10-10 2017-10-10 一种检查集群健康状态的方法和***

Publications (1)

Publication Number Publication Date
CN107766204A true CN107766204A (zh) 2018-03-06

Family

ID=61266501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710936049.1A Pending CN107766204A (zh) 2017-10-10 2017-10-10 一种检查集群健康状态的方法和***

Country Status (1)

Country Link
CN (1) CN107766204A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109000930A (zh) * 2018-06-04 2018-12-14 哈尔滨工业大学 一种基于堆叠去噪自编码器的涡轮发动机性能退化评估方法
CN112445549A (zh) * 2019-09-03 2021-03-05 网联清算有限公司 运维方法、运维装置、电子设备和介质
CN112799911A (zh) * 2021-01-27 2021-05-14 苏州浪潮智能科技有限公司 一种节点健康状态检测方法、装置、设备及存储介质
CN113641558A (zh) * 2021-08-31 2021-11-12 合众人寿保险股份有限公司 一种健康检查方法、装置及电子设备
CN113806178A (zh) * 2021-09-22 2021-12-17 中国建设银行股份有限公司 一种集群节点故障检测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及***
CN106789369A (zh) * 2017-02-23 2017-05-31 上海耐相智能科技有限公司 一种用于大数据***状态监控的装置
CN106844138A (zh) * 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警***及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095639A (zh) * 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及***
CN106844138A (zh) * 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警***及方法
CN106789369A (zh) * 2017-02-23 2017-05-31 上海耐相智能科技有限公司 一种用于大数据***状态监控的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈磊等: "改进的C4.5算法在期货数据挖掘中的研究", 《计算机工程与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109000930A (zh) * 2018-06-04 2018-12-14 哈尔滨工业大学 一种基于堆叠去噪自编码器的涡轮发动机性能退化评估方法
CN112445549A (zh) * 2019-09-03 2021-03-05 网联清算有限公司 运维方法、运维装置、电子设备和介质
CN112799911A (zh) * 2021-01-27 2021-05-14 苏州浪潮智能科技有限公司 一种节点健康状态检测方法、装置、设备及存储介质
CN113641558A (zh) * 2021-08-31 2021-11-12 合众人寿保险股份有限公司 一种健康检查方法、装置及电子设备
CN113806178A (zh) * 2021-09-22 2021-12-17 中国建设银行股份有限公司 一种集群节点故障检测方法及装置

Similar Documents

Publication Publication Date Title
CN107766204A (zh) 一种检查集群健康状态的方法和***
US20200394661A1 (en) Business action based fraud detection system and method
CN108683530B (zh) 多维度数据的数据分析方法、装置及存储介质
CN111614491B (zh) 一种面向电力监控***安全态势评估指标选取方法及***
CN108629413A (zh) 神经网络模型训练、交易行为风险识别方法及装置
US8918345B2 (en) Network analysis system
CN107122669A (zh) 一种评估数据泄露风险的方法和装置
US20070071081A1 (en) Communication analysis apparatus and method and storage medium storing communication analysis program, and organization rigidification analysis apparatus and method and storage medium storing organization rigidification analysis program
TWI783229B (zh) 網路異常流量偵測裝置及網路異常流量偵測方法
CN110162445A (zh) 基于主机日志及性能指标的主机健康评价方法及装置
Gao et al. Dynamic evolution of financial network and its relation to economic crises
CN106789338B (zh) 一种在动态大规模社交网络中发现关键人物的方法
CN109257383A (zh) 一种bgp异常检测方法及***
CN103744897A (zh) 故障信息的关联搜索方法、***和网络管理***
Wang et al. A novel intrusion detector based on deep learning hybrid methods
CN114513470A (zh) 网络流量控制方法、装置、设备及计算机可读存储介质
CN113504996B (zh) 一种负载均衡检测方法、装置、设备及存储介质
CN110189031A (zh) 一种基于因子回归分析的配电网诊断指标分类方法
Ye et al. Identifying vital nodes on temporal networks: an edge-based k-shell decomposition
Xu et al. HTtext: A TextCNN-based pre-silicon detection for hardware Trojans
CN108446202A (zh) 一种机房设备的安全状况的判断方法
CN117130851A (zh) 一种高性能计算集群运行效率评价方法及***
CN104636422B (zh) 用于挖掘数据集中的模式的方法和***
Liu et al. Learning Concise Representations of Users' Influences through Online Behaviors.
CN114448657B (zh) 一种配电通信网络安全态势感知与异常入侵检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination