CN112052147A - 监控方法、电子设备及存储介质 - Google Patents

监控方法、电子设备及存储介质 Download PDF

Info

Publication number
CN112052147A
CN112052147A CN202010733424.4A CN202010733424A CN112052147A CN 112052147 A CN112052147 A CN 112052147A CN 202010733424 A CN202010733424 A CN 202010733424A CN 112052147 A CN112052147 A CN 112052147A
Authority
CN
China
Prior art keywords
fault
level
equipment
hardware
performance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010733424.4A
Other languages
English (en)
Other versions
CN112052147B (zh
Inventor
吴潇根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN202010733424.4A priority Critical patent/CN112052147B/zh
Publication of CN112052147A publication Critical patent/CN112052147A/zh
Application granted granted Critical
Publication of CN112052147B publication Critical patent/CN112052147B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/26Functional testing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例涉及数据处理,公开了一种监控方法、电子设备及存储介质。本发明的部分实施例中,监控方法包括以下步骤:获取设备的硬件故障数据和性能指标数据;根据硬件故障数据,确定设备的硬件故障级别;根据性能指标数据,确定设备的性能故障级别;根据硬件故障级别和性能故障级别,综合判定设备的故障级别。该实施例中,提高了故障监控效果。

Description

监控方法、电子设备及存储介质
技术领域
本发明实施例涉及数据处理领域,特别涉及一种监控方法、电子设备及存储介质。
背景技术
随着互联网行业的发展,互联网企业越来越多。基于互联网企业相对饱和情况下,互联网企业竞争越来激烈。客户对互联网企业的服务质量和标准要求越来越高,对故障的容忍程度越来越低。频繁的底层硬件故障导致的服务问题极大影响着用户的体验。
然而,发明人发现现有技术中至少存在如下问题:当前基于底层硬件故障的处理方式一般是:出现了客户投诉后进行处理,或者,通过服务器硬件日志采集监控出来大量硬件报错后进行处理。上述监控方式过于单一化,可能导致监控效果不理想。
发明内容
本发明实施方式的目的在于提供一种监控方法、电子设备及存储介质,提高了故障监控效果。
为解决上述技术问题,本发明的实施方式提供了一种监控方法,包括以下步骤:获取设备的硬件故障数据和性能指标数据;根据硬件故障数据,确定设备的硬件故障级别;
根据性能指标数据,确定设备的性能故障级别;根据硬件故障级别和性能故障级别,综合判定设备的故障级别。
本发明的实施方式还提供了一种电子设备,包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行如上述实施方式提及的监控方法。
本发明的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时实现上述实施方式提及的监控方法。
本发明实施方式相对于现有技术而言,在判定故障级别时,综合考虑设备的硬件故障级别和性能故障级别,组合评估设备最终的故障级别。由于性能指标数据可以体现设备服务过程中的服务质量,可以更加准确有效地评估设备在实际服务过程中的故障级别,以及设备故障对设备服务的影响,提高了故障监控效果。
另外,在根据硬件故障级别和性能故障级别,综合判定设备的故障级别之后,监控方法还包括:根据故障级别对应的处理机制,对设备进行处理;其中,处理机制包括:下架机制、调度机制和容忍机制中的任意组合;下架机制指示将设备进行下架处理;调度机制指示根据故障级别,调整设备的带宽;容忍机制指示根据设备在观察期内的故障情况,确定设备的处理措施;其中,处理措施包括将设备进行下架处理,或者,将设备恢复到线上服务。
另外,在根据硬件故障级别和性能故障级别,综合判定设备的故障级别之后,还包括:根据设备的故障级别,更新设备的故障记录。
另外,处理机制包括调度机制,调度机制还指示:在根据故障级别,调整设备的带宽后,若在故障记录的过期时间内,故障记录被更新,根据更新后的故障记录中的故障级别,动态调整设备的带宽。
另外,调度机制还指示:根据故障记录被推送至设备的推送次数,更新过期时间。
另外,在根据硬件故障级别和性能故障级别,综合判定设备的故障级别之前,还包括:获取设备的硬件故障次数和设备的性能故障级别次数,设备的性能故障级别次数指示设备被判定为性能故障级别的次数;根据硬件故障级别和性能故障级别,综合判定设备的故障级别,包括:根据硬件故障级别、硬件故障次数、性能故障级别和性能故障级别次数,确定设备的故障级别。
另外,在获取设备的性能指标数据之前,监控方法还包括:确定硬件故障数据指示设备发生硬件故障。
另外,获取设备的性能指标数据,包括:根据硬件故障数据,确定故障类型;获取故障类型对应的性能指标数据。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的第一实施方式的监控方法的流程示意图;
图2是本发明的第一实施方式的监控模块对底层硬件监控的监控示意图;
图3是本发明的第一实施方式的监控模块对性能指标监控的监控示意图;
图4是本发明的第二实施方式的监控方法的流程示意图;
图5是本发明的第三实施方式的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
本发明的第一实施方式涉及一种监控方法,在设备的硬件故障数据指示设备发生硬件故障后,获取设备的性能指标数据;根据硬件故障数据和性能指标数据,确定设备的故障级别。该实施方式中,在硬件故障数据指示设备故障后,结合设备的性能指标数据,确定故障级别,由于性能指标数据可以体现设备服务过程中的服务质量,结合硬件故障数据和性能指标数据来评定故障级别可以更加准确有效地评估设备在实际服务过程中的故障级别,以及设备故障对设备服务的影响,提高监控效果。
下面对本实施方式的监控方法的实施细节进行说明,以下内容仅为方便理解而提出的实现细节,并非实施本方案的必须。
本实施方式中的监控方法应用于故障监控***,即可以由故障监控***中的一个电子设备,如监控服务器,来执行该方法。本实施方式中提及的设备可以是提供业务服务的业务服务器,如调度服务器等。如图1所示,该监控方法包括以下步骤:
步骤101:获取设备的硬件故障数据和性能指标数据。
具体地,故障监控***对设备进行监控,获取设备的硬件故障数据和性能指标数据。
在一个例子中,故障监控***在确定所述硬件故障数据指示所述设备发生硬件故障后,执行获取设备的硬件故障数据和性能指标数据的步骤。具体地,故障监控***对设备的硬件故障数据进行监控,若硬件故障数据指示设备发生硬件故障,则获取相应的性能指标数据,以便确定故障级别。
在一个例子中,硬件故障数据可以根据***日志确定。故障监控***对设备的***日志进行监控,对***日志的中的报错数据进行监控,对报错数据中的报错字段进行收集,根据报错确定硬件故障数据。
在一个例子中,性能指标数据可以是中央处理器(Central Processing Unit,CPU)使用率、内存使用率、读写负载、网卡负载等,此处不一一列举。
在一个例子中,故障监控***获取设备的性能指标数据的过程包括:根据硬件故障数据,确定故障类型;获取故障类型对应的性能指标数据。具体地,故障监控***对设备的***日志进行监控,当***日志指示***的某个硬件发生故障时,根据发生故障的硬件,确定故障类型。在确定故障类型后,故障监控***拉取与该故障类型对应的性能指标数据。例如,若硬件故障数据指示故障类型为CPU故障,则获取CPU性能指标数据。
需要说明的是,本领域技术人员可以理解,实际应用中,故障监控***也可以在发生故障后,获取所有性能指标的性能指标数据,本实施方式仅为举例说明,不限制故障监控***实际获取的性能指标数据的类别。
值得一提的是,针对不同的故障类型,拉取相应的性能指标数据,使得性能指标数据的获取更具针对性,避免拉取无关的性能指标数据造成的资源浪费。
步骤102:根据硬件故障数据,确定设备的硬件故障级别。
具体地,故障监控***根据硬件故障数据,以及预先设置的硬件故障级别的划分规则,确定设备的硬件故障级别。
步骤103:根据性能指标数据,确定设备的性能故障级别。
具体地,故障监控***根据设备性能指标数据,以及预先设置的性能故障级别的划分规则,确定设备的性能故障级别。
步骤104:根据硬件故障级别和性能故障级别,综合判定设备的故障级别。
具体地,故障监控***结合硬件故障数据和性能指标数据评估设备的故障级别,以便更准确地评估设备故障的影响。
在一个例子中,故障监控***在根据硬件故障级别和性能故障级别,综合判定设备的故障级别之前,获取设备的硬件故障次数和设备的性能故障级别次数,设备的性能故障级别次数指示设备被判定为该性能故障级别的次数。故障监控***根据硬件故障级别和性能故障级别,综合判定设备的故障级别的过程包括:根据硬件故障级别、硬件故障次数、性能故障级别和性能故障级别次数,确定设备的故障级别。具体地,故障监控***针对不同的硬件故障级别,设置相应的硬件故障级别分值;根据硬件故障次数,以及预设的故障次数级别划分规则,划分为多个故障次数级别,针对不同的故障次数级别,设置相应的故障次数级别分值;针对不同的性能故障级别,设置相应的性能故障级别分值;针对不同的性能故障级别次数,设置相应的指标次数级别,并为不同的指标次数级别设置相应的指标次数级别分值,计算设备的硬件故障级别分值、故障次数级别分值、性能故障级别分值和指标次数分值的积,将计算得到的分值作为设备的故障总分,根据设备的故障总分,以及预先设置的故障总分和故障级别的对应关系,确定设备的故障级别。
值得一提的是,在判定设备的故障级别时,综合考虑硬件故障级别、硬件故障次数、性能故障级别和性能故障级别次数四个维度,使得评估结果更为准确。
以下对故障监控***的组成和工作过程进行举例说明。
在一个例子中,故障监控***包括监控模块和组合匹配模块。
监控模块用于对设备底层硬件进行监控,对设备性能指标进行监控。监控模块对底层硬件监控的监控示意如图2所示。由图2可知,监控模块内设置的与底层硬件监控相关的内容主要包括:底层硬件监控的监控数据源、底层硬件监控的监控频率、报警规则、硬件故障级别和硬件监控分类。底层硬件监控的监控数据源为设备的***日志。监控模块通过采集***日志获取对应的报错字段,并对报错进行收集,然后根据报错输出报警。底层硬件监控的监控频率可以设置为X min/次,其中,X为正数。报警规则可以设置为硬件故障达到Y次/Z min就报警,Y为正数,Z为正数。监控模块主要监控识别的硬件故障类型包括但不限于CPU故障类型、内存(memory,MEM)故障类型、磁盘(DISK)、输入/输出(Input/Output,IO)故障类型、固态硬盘(PCIE)故障类型、网卡(NET CARD)故障类型等。监控模块中设置有不同的硬件故障级别。监控模块根***日志输出报警信息,将对应的设备故障情况设定故障级别,如严重级别、重要级别、普通级别和微小级别,以此硬件故障级别作为后续针对设备的故障级别的判断依据。监控模块对性能指标监控的监控示意如图3所示。由图3可知,监控模块内设置的与性能指标监控相关的内容主要包括:性能指标监控的监控数据源、性能指标监控的监控频率、性能故障级别和性能监控分类。监控频率可以设置为O min/次,O为正数。O可以与X相同,也可以不同。性能指标监控的监控数据源可以由设备本机硬件信息采集,例如,CPU使用率、MEM使用率、IO负载、网卡负载等,监控对象包括但不限于CPU、MEM、DISK、IO、PCIE、NET CARD等。通过对这些硬件性能指标进行监控,观察其机器各个硬件整体性能健康情况。故障监控设备根据采集的各性能指标数据,设定性能故障级别。例如,CPU使用率达到95%,则性能故障级别为1级,CPU使用率达到85%-95%,则性能故障级别为2级,CPU使用率达到75%-85%,则性能故障级别为3级,CPU使用率达到50%-75%,则性能故障级别为4级,CPU使用率在50%以下,则性能故障级别为正常级别。其他的硬件分类的性能指标可以以此类推进行性能故障级别划分。以此性能故障级别作为后续针对设备的故障级别的判断依据。
组合匹配模块将根据硬件故障级别和性能故障级别,确定设备最终的故障级别。可选择的,组合匹配模块根据硬件故障级别、硬件故障次数、性能故障级别和性能故障级别次数,确定设备的故障级别。例如,故障监控***可以根据硬件故障次数划定故障次数级别,根据性能故障级别次数划定指标次数级别。以硬件故障级别为严重级别进行举例,不同硬件故障次数对应的故障次数级别如表1所示。以性能故障级别为1级进行举例,不同性能指标次数对应的指标次数级别如表2所示。其中,各个级别对应的数值区间可以根据业务需求设置。
表1
Figure BDA0002604146940000061
表2
Figure BDA0002604146940000062
可选择的,对硬件故障级别、故障次数级别、性能故障级别和指标次数级别进行分值设定。各级别的分值可以根据需要设置。例如,如表3所示,各级别对应的分值为1-4分,分值越高,表明故障越严重。
表3
Figure BDA0002604146940000063
故障监控***从硬件故障级别、故障次数级别、性能故障级别和指标次数级别四个维度的分值,进行组合计算,得到故障总分。当使用表3所示的分值划分方式时,故障总分越高,说明故障严重性越大。随着组合混杂,可以覆盖从高到低的分值。最高分为256,最低分为1。以硬件故障级别为严重级别和性能故障级别为1级的情况为例,四个维度组合得到的总分值情况如表4所示。
表4
Figure BDA0002604146940000071
同样的,硬件故障级别为严重级别时,也会匹配性能故障级别2-4级,其他硬件故障级别会匹配性能故障级别1-4级。按照组合累计相乘,共有4*4*4*4=256种可能性。
故障监控设备可以根据设备的故障总分,以及预先设置的故障总分和故障级别的对应关系,确定设备的故障级别。例如,预先设置的故障总分和故障级别的对应关系如表5所示。
表5
故障总分 故障级别
200-256 A级
100-200 B级
50-100 C级
1-50 D级
需要说明的是,本领域技术人员可以理解,实际应用中,硬件故障级别的级别数、故障次数级别的级别数、性能故障级别的级别数和指标次数的级别数可以根据需要设置。随着级别数的增加,组合增多,可能性也会增多。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的监控方法,在判定故障级别时,综合考虑设备的硬件故障级别和性能故障级别,组合评估设备最终的故障级别。由于性能指标数据可以体现设备服务过程中的服务质量,可以更加准确有效地评估设备在实际服务过程中的故障级别,以及设备故障对设备服务的影响,提高了故障监控效果。
本发明的第二实施方式涉及一种监控方法。本实施方式在第一实施方式的基础上做了进一步改进,具体改进之处为:在综合判定设备的故障级别后,根据设备的故障级别对应的处理机制,对设备进行处理。
具体的说,如图4所示,在本实施方式中,包含步骤201至步骤205,其中,步骤201至步骤204分别与第一实施方式中的步骤101和步骤104大致相同,此处不再赘述。下面主要介绍不同之处:
步骤201:获取设备的硬件故障数据和性能指标数据。
步骤202:根据硬件故障数据,确定设备的硬件故障级别。
步骤203:根据性能指标数据,确定设备的性能故障级别。
步骤204:根据硬件故障级别和性能故障级别,综合判定设备的故障级别。
步骤205:根据故障级别对应的处理机制,对设备进行处理。
具体地,故障监控设备中预先存储有各个故障级别对应的处理机制。当故障监控设备确定设备的故障级别后,根据该故障级别对应的处理机制,对设备进行处理。
在一个实施例中,处理机制包括:下架机制、调度机制和容忍机制中的任意组合;下架机制指示将设备进行下架处理;调度机制指示根据故障级别,调整设备的带宽;容忍机制指示根据设备在观察期内的故障情况,确定设备的处理措施;其中,处理措施包括将设备进行下架处理,或者,将设备恢复到线上服务。例如,处理机制包括下架机制和调度机制,或者,处理机制包括下架机制和容忍机制,或者,处理机制包括调度机制和容忍机制,或者,处理机制包括下架机制、调度机制和容忍机制。其中,处理机制的类型和个数可以根据业务需求设定。
在一个例子中,根据设备在观察期内的故障情况,确定设备的处理措施,包括:若故障情况指示设备在观察期内发生故障的次数达到预设次数,则将设备进行下架处理,若故障情况指示设备在观察期内发生故障的次数未达到预设次数,则将设备恢复到线上服务。
值得一提的是,故障监控设备针对个别故障级别采用调度机制,以便设备在发生较低级别故障时,调整设备的带宽,通过缓解设备的工作强度的方式来维护该设备,降低维修成本,提高了设备的利用率。故障监控设备针对个别故障级别采用容忍机制,以便设备在发生低级别故障时仍然可以被使用,从而提高设备的利用率。
需要说明的是,本领域技术人员可以理解,某一故障级别对应的处理机制可以是一个或多个,本实施方式不做限制。
例如,各级别的分值划分如表3所示,预先设置的故障总分和故障级别的对应关系如表5所示为例,故障级别和处理机制的对应关系如表6所示。
表6
故障总分 故障级别 处理机制
200-256 A级 下架机制
100-200 B级 调度机制和容忍机制
50-100 C级 调度机制和容忍机制
1-50 D级 容忍机制
在一个例子中,故障监控***在根据硬件故障数据和性能指标数据,确定设备的故障级别之后,根据设备的故障级别,更新设备的故障记录。具体地说,故障监控***对设备的故障进行持续监控,并根据监控结果及时更新设备的故障记录。
值得一提的是,及时更新设备的故障记录,使得运维人员可以查看设备的故障信息,便于运维人员进行设备维护。
在一个例子中,处理机制包括调度机制,调度机制还指示:在根据故障级别,调整设备的带宽后,若在故障记录的过期时间内,故障记录被更新,根据更新后的故障记录中的故障级别,动态调整设备的带宽。
值得一提的是,基于设备的故障级别的变化,及时调整设备的带宽,可以在设备故障加重的情况下,及时减小设备的工作强度,在设备的故障缓解的情况下,提高设备的利用率。
在一个例子中,调度机制还指示:根据故障记录被推送至设备的推送次数,更新过期时间。
值得一提的是,根据推送次数调整过期时间,可以避免频繁切换设备的带宽导致的资源浪费。
以下对调度机制进行举例说明。故障监控***将设备的故障级别存储在存储介质上并实时更新。例如,存储有该设备的故障记录的整体文件为log.txt。log.txt里面格式为【IP|次数|TIME start|TIME|Expiration time|分值|故障级别|权重值】。其中,IP是指设备的互联网协议地址(Internet Protocol,IP)或者设备调度后的IP,次数是指该故障记录的被推送至设备的次数,即从存储该故障记录开始,设备发生该故障类型的故障的次数,TIME start是指记录该故障记录的时间,TIME是指更新该故障记录的时间,Expirationtime是指该故障记录的过期时间,分值是指该设备的故障总分,故障级别是指设备最终的故障级别,权重值是指与故障级别对应的带宽权重。例如,故障级别和处理机制的对应关系如表6所示时,B级的带宽权重值为P,C级的带宽权重值为Q。log.txt文件会周期性同步推送到设备上,设备根据log.txt文件的内容匹配自身的IP或者调度后IP,如果识别到对应的故障记录,将获取该故障记录中的权重值,根据该权重值调整带宽权重。log.txt文件每周期推送一次,次数字段记录1次,以此累加值为k。当根据推送次数更新过期时间时,Expiration time(过期时间)=TIME+2^k Hour,当达到过期时间,且log.txt文件中该设备的故障记录没有更新时,将不再获取该权重进行调度处理。由于随着k值不断累加,过期时间不断越大,可以保证不过度频繁的切换调度。以故障级别为B级为例,故障记录中的权重值为P,则设备在自身流量调度组件(如LVS)基础上,进行调度例外处理,即进行降低原来流量带宽值I,如调整后的带宽值=I*(100-P)%,如,P=50,则调整后的带宽值=I*(100-50)%=I*50%,100为设备的原始权重值。同时,log.txt文件定期推送的话,如果故障级别有变更,对应的权重值也会对应变更,带宽分配也实时动态,使得发生故障的设备会受到一定程度上的工作强度照顾,承受比较轻的业务带宽,同时降低了可能存在复发且潜在业务风险的总带宽,进而降低了客户投诉风险。同理,如果设备有多层调度组件,每层调度组件将会分别识别log.txt文件中与自身相关的故障记录,独立进行权重调整,以保证故障设备的业务带宽控制在比较低风险的位置。
以下对容忍机制进行举例说明。当设备的故障级别对应的处理机制为容忍机制时,不会将该设备下架。针对该类设备,故障监控***会设定一个观察期W。若在观察期内,该设备的故障级别未达到下架机制对应的故障级别,该设备将保持在线上服务。可选择的,观察期内,故障监控设备结合容忍机制和调度机制,对设备进行观察值。故障监控设备可以根据故障记录中的推送次数(k)即故障等级周期推送的次数,确定设备的处理措施。具体地,推送次数越大,说明设备越频繁发生故障。当在观察期内,k值达到预设值时,例如,一周达到次数L次,一月达到J次,将设备进行下架处理,从log.txt文件里面删除该IP的故障记录。如果设备在观察期内,如W天(时间点=Expiration time+W天),没有再进行处理等级信息推送,将从log.txt文件中删除该IP信息,将设备恢复到线上服务。通过该容忍机制,使得轻微故障的设备可以重新正常服役,降低人工维修成本,提升了设备的利用率。
以下以设备为服务器为例,结合实际场景,对故障监控***的监控方法进行举例说明。
例如,在时间点2020-05-21 09:00,服务器1的硬件故障数据指示设备发生硬件故障,即故障监控***获取到服务器1的硬件故障报警,参数为CPU_ERROR,CPU_ERROR表示故障类型为CPU故障,硬件故障级别为严重故障级别,报警次数(即硬件故障次数)为15次,即故障次数级别为中级别,故障监控***拉取服务器1的与CPU故障对应的性能指标数据,如性能指标CPU使用率的性能指标数据。故障监控***拉取到的性能指标数据指示性能故障级别为2级,性能故障级别次数为60次,即指标次数级别为超多级别。根据表3所示的各级别的分值,可以计算得到服务器1的故障总分=4*2*3*4(硬件故障级别分值*故障次数级别分值*性能指标等级分值*指标次数级别分值)=96,即服务器1的故障级别为C级。由于C级对应的处理机制为调度机制和容忍机制,对应的处理方案为:将对服务器1进行带宽调度保障,若C即对应的权重值Q=20,服务器1在对应的服务集群里面进行降重处理,权重下降20个百分点。即,若原带宽为1G,则调整后带宽为800M。log.txt格式为:【IP|次数|TIME start|TIME|Expiration time|分值|处理等级|权重值】,文件内容为【服务器1的IP|1|2020-05-2109:00|2020-05-21 09:00|2020-05-21 11:00|96|C级|20。在过期时间内,即2020-05-2111:00前,若未产生新的组合处理数据,将在到达过期时间时,结束调度,服务器1将恢复正常带宽服务。在观察期内,如观察期为W天,则在2020-05-21 11:00加W天后,还未有新的报警性能数据产生的话,将把服务器1的故障记录在log.txt文件中删除,此时服务器1恢复正常状态。如下次出现,推送次数在重新计算。
本实施方式提供的监控方法中,故障监控***从底层硬件故障报警(即设备发生硬件故障)开始,结合硬件故障数据和性能指标数据,进行对应的组合匹配计算,输出对应的故障级别,再根据故障级别对应的处理机制,对设备进行处理。在此过程中,故障监控***提取硬件故障数据,匹配与硬件故障数据指示的故障类型对应的性能指标数据,如CPU故障报警就匹配到CPU性能指标。故障监控***将提取的硬件故障数据(指示设备的硬件故障级别和故障级别次数)和性能指标数据(指示设备的性能故障级别和性能故障级别次数)进行组合,并根据组合结果计算出设备的故障总分,如表4。故障监控***根据故障总分判断设备的故障级别。针对A级的故障,可以手动对该设备进行下架处理,或者,自动关机通过其他组件对该设备进行下架处理。针对B级和C级的故障,采用调度机制和容忍机制,两个机制相互配合使用,一方面可以降低故障影响,减轻设备负载压力,防止扩大故障的影响,另一方面可以针对设备设置一个观察期,不会立即进行下架处理,使得设备有机会恢复正常。使用调度机制时,通过对不同的故障级别设定不同权重,如等级越高,权重值越大,尽可能减轻故障对设备提供服务的影响。容忍机制在调度机制的保障下,根据观察期内是否持续出现故障来界定设备是否恢复正常,以及是否进行下架处理。上述实施方式可以有效提升故障级别的判断结果的准确性,进而提高故障的处理准确率,可以在设备故障对业务产生轻微影响的情况下,容忍并观察设备,充分利用机器利用率,节省维修成本,提升运营效率。
需要说明的是,以上仅为举例说明,并不对本发明的技术方案构成限定。
与现有技术相比,本实施方式中提供的监控方法,在判定故障级别时,综合考虑设备的硬件故障级别和性能故障级别,组合评估设备最终的故障级别。由于性能指标数据可以体现设备服务过程中的服务质量,可以更加准确有效地评估设备在实际服务过程中的故障级别,以及设备故障对设备服务的影响,提高了故障监控效果。除此之外,针对不同的故障级别采取不同的处理机制,使得对故障的处理结果可以更好地整体服务性能。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明的第三实施方式涉及一种电子设备,如图5所示,包括:至少一个处理器501;以及,与至少一个处理器501通信连接的存储器502;其中,存储器502存储有可被至少一个处理器501执行的指令,指令被至少一个处理器501执行,以使至少一个处理器501能够执行如上述实施方式提及的监控方法。
该电子设备包括:一个或多个处理器501以及存储器502,图5中以一个处理器501为例。处理器501、存储器502可以通过总线或者其他方式连接,图5中以通过总线连接为例。存储器502作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。处理器501通过运行存储在存储器502中的非易失性软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述监控方法。
存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需要的应用程序;存储数据区可存储选项列表等。此外,存储器502可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施方式中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至外接设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器502中,当被一个或者多个处理器501执行时,执行上述任意方法实施方式中的监控方法。
上述产品可执行本申请实施方式所提供的方法,具备执行方法相应的功能模块和有益效果,未在本实施方式中详尽描述的技术细节,可参见本申请实施方式所提供的方法。
本发明的第四实施方式涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种监控方法,其特征在于,包括:
获取设备的硬件故障数据和性能指标数据;
根据所述硬件故障数据,确定所述设备的硬件故障级别;
根据所述性能指标数据,确定所述设备的性能故障级别;
根据所述硬件故障级别和所述性能故障级别,综合判定所述设备的故障级别。
2.根据权利要求1所述的监控方法,其特征在于,在所述根据所述硬件故障级别和性能故障级别,综合判定所述设备的故障级别之后,所述监控方法还包括:
根据所述故障级别对应的处理机制,对所述设备进行处理;其中,所述处理机制包括:下架机制、调度机制和容忍机制中的任意组合;
所述下架机制指示将所述设备进行下架处理;
所述调度机制指示根据所述故障级别,调整所述设备的带宽;
所述容忍机制指示根据所述设备在观察期内的故障情况,确定所述设备的处理措施;其中,所述处理措施包括将所述设备进行下架处理,或者,将所述设备恢复到线上服务。
3.根据权利要求2所述的监控方法,其特征在于,在所述根据所述硬件故障级别和性能故障级别,综合判定所述设备的故障级别之后,还包括:
根据所述设备的故障级别,更新所述设备的故障记录。
4.根据权利要求3所述的监控方法,其特征在于,处理机制包括调度机制,所述调度机制还指示:在根据所述故障级别,调整所述设备的带宽后,若在所述故障记录的过期时间内,所述故障记录被更新,根据更新后的故障记录中的故障级别,动态调整所述设备的带宽。
5.根据权利要求4所述的监控方法,其特征在于,所述调度机制还指示:根据所述故障记录被推送至所述设备的推送次数,更新所述过期时间。
6.根据权利要求1所述的监控方法,其特征在于,在所述根据所述硬件故障级别和所述性能故障级别,综合判定所述设备的故障级别之前,还包括:
获取所述设备的硬件故障次数和所述设备的性能故障级别次数,所述设备的性能故障级别次数指示所述设备被判定为所述性能故障级别的次数;
所述根据所述硬件故障级别和所述性能故障级别,综合判定所述设备的故障级别,包括:
根据所述硬件故障级别、所述硬件故障次数、所述性能故障级别和所述性能故障级别次数,确定所述设备的故障级别。
7.根据权利要求1所述的监控方法,其特征在于,在获取所述设备的性能指标数据之前,所述监控方法还包括:
确定所述硬件故障数据指示所述设备发生硬件故障。
8.根据权利要求7所述的监控方法,其特征在于,获取所述设备的性能指标数据,包括:
根据所述硬件故障数据,确定故障类型;
获取所述故障类型对应的性能指标数据。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至8中任一项所述的监控方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的监控方法。
CN202010733424.4A 2020-07-27 2020-07-27 监控方法、电子设备及存储介质 Active CN112052147B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010733424.4A CN112052147B (zh) 2020-07-27 2020-07-27 监控方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010733424.4A CN112052147B (zh) 2020-07-27 2020-07-27 监控方法、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112052147A true CN112052147A (zh) 2020-12-08
CN112052147B CN112052147B (zh) 2024-06-11

Family

ID=73602884

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010733424.4A Active CN112052147B (zh) 2020-07-27 2020-07-27 监控方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112052147B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242611A (zh) * 2022-07-21 2022-10-25 北京天一恩华科技股份有限公司 一种网络故障报警级别管理方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008702A (ja) * 2009-06-29 2011-01-13 Toyota Motor Corp 故障処理装置
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法
CN106156913A (zh) * 2015-04-02 2016-11-23 中国商用飞机有限责任公司 用于飞机部附件的健康管理方法
CN109597746A (zh) * 2018-12-26 2019-04-09 荣科科技股份有限公司 故障分析方法及装置
CN110888763A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 磁盘故障诊断方法、装置、终端设备及计算机存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011008702A (ja) * 2009-06-29 2011-01-13 Toyota Motor Corp 故障処理装置
CN106156913A (zh) * 2015-04-02 2016-11-23 中国商用飞机有限责任公司 用于飞机部附件的健康管理方法
CN105335262A (zh) * 2015-12-09 2016-02-17 浪潮电子信息产业股份有限公司 一种批量服务器部件故障自动计算并预警的方法
CN110888763A (zh) * 2018-09-11 2020-03-17 北京奇虎科技有限公司 磁盘故障诊断方法、装置、终端设备及计算机存储介质
CN109597746A (zh) * 2018-12-26 2019-04-09 荣科科技股份有限公司 故障分析方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115242611A (zh) * 2022-07-21 2022-10-25 北京天一恩华科技股份有限公司 一种网络故障报警级别管理方法、装置、设备和存储介质
CN115242611B (zh) * 2022-07-21 2023-10-03 北京天一恩华科技股份有限公司 一种网络故障报警级别管理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN112052147B (zh) 2024-06-11

Similar Documents

Publication Publication Date Title
JP6949045B2 (ja) 分散クラスタ型訓練方法及び装置
CN107643983B (zh) 一种测试数据处理方法及***
CN101632093A (zh) 用于使用统计学分析来管理性能故障的***和方法
CN108492150B (zh) 实体热度的确定方法及***
CN106815254A (zh) 一种数据处理方法和装置
CN109597800B (zh) 一种日志分发方法及装置
CN111898834B (zh) 一种雷达备件优化方法、***、介质及设备
CN117370469A (zh) 用于在大数据环境中高效数据复制的方法和***
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN112052147A (zh) 监控方法、电子设备及存储介质
CN117112303A (zh) 云端服务器的数据备份方法、云端服务器和电子设备
CN111694721A (zh) 一种微服务的故障监测方法和装置
CN110609761B (zh) 确定故障源的方法、装置、存储介质和电子设备
CN110955587A (zh) 一种待更换设备确定方法及装置
CN113992597B (zh) 一种电缆监测数据上报方法、装置、设备以及存储介质
CN111190415B (zh) 一种工业控制***可用率测试方法及***
CN113254253B (zh) 一种数据处理方法、***及设备
CN113342650B (zh) 分布式***的混沌工程方法及装置
EP3365787A1 (en) Data storage device monitoring
CN113419954B (zh) 云操作***的自动化用例的执行方法、***及相关组件
CN110633270B (zh) 一种基于优先级的多策略电表日冻结值自动替代方法和装置
CN108765140A (zh) 批量业务异常监控方法以及第一电子设备
CN108804640B (zh) 基于最大化iv的数据分组方法、装置、储存介质及设备
CN111628901B (zh) 一种指标异常检测方法以及相关装置
CN115372752A (zh) 故障检测方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant