CN111459770A - 服务器运行状态的告警方法、装置、服务器及存储介质 - Google Patents

服务器运行状态的告警方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN111459770A
CN111459770A CN202010250178.7A CN202010250178A CN111459770A CN 111459770 A CN111459770 A CN 111459770A CN 202010250178 A CN202010250178 A CN 202010250178A CN 111459770 A CN111459770 A CN 111459770A
Authority
CN
China
Prior art keywords
service
monitoring
server
recovery
instruction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010250178.7A
Other languages
English (en)
Inventor
赵学良
黄泽伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yolanda Technology Co ltd
Original Assignee
Shenzhen Yolanda Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yolanda Technology Co ltd filed Critical Shenzhen Yolanda Technology Co ltd
Priority to CN202010250178.7A priority Critical patent/CN111459770A/zh
Publication of CN111459770A publication Critical patent/CN111459770A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种服务器运行状态的告警方法、装置、服务器及存储介质,所述方法包括:获取服务器的至少一个当前服务的第一监控指标;根据监控阈值确认第一监控指标中的异常指标;根据异常指标发送告警指令至预设告警***;接收管理员基于告警指令输入的任务信息;根据任务信息发送对应的恢复服务指令至服务器,恢复服务指令用于恢复或重启异常指标对应的当前服务。本发明通过实时监控服务器的运行状态,根据任务信息匹配恢复任务指令以恢复对应的服务,解决现有技术需要人为登录服务器或后台,根据恢复服务指令执行恢复操作的技术问题,实现自动判断任务信息并智能执行恢复操作,减少人力成本和提高服务恢复的效率和及时性的技术效果。

Description

服务器运行状态的告警方法、装置、服务器及存储介质
技术领域
本发明实施例涉及信息监控技术,尤其涉及一种服务器运行状态的告警方法、装置、服务器及存储介质。
背景技术
随着软件技术的不断发展,微服务技术的不断演进,服务的数量与日俱增,服务需要监控,并且做到自我痊愈,但服务自愈任重道远,目前更多的重心放在服务的监控上,并通过一些手段来实现服务在异常状态时的恢复。在保证告警准确性和及时性的同时,需要有途径让业务快速恢复正常。
目前针对服务的监控方法,还存在收到告警消息后需要运维人员手动登录服务器或者后台进行恢复服务的操作的技术问题。
发明内容
本发明提供一种服务器运行状态的告警方法、装置、服务器及存储介质,以实现自动判断任务信息并智能执行恢复操作、减少人力成本以及提高服务恢复的效率和及时性。
第一方面,本发明实施例提供了一种服务器运行状态的告警方法,包括:
获取服务器的至少一个当前服务的第一监控指标;
根据监控阈值确认所述第一监控指标中的异常指标;
根据所述异常指标发送所述告警指令至预设告警***;
接收管理员基于所述告警指令输入的任务信息;
根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
进一步的,所述获取服务器的至少一个当前服务的第一监控指标之前包括:
根据所述监控阈值和预设监控框架代码生成告警配置文件;
将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控;
根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
进一步的,所述根据所述任务信息发送对应的恢复服务指令至所述服务器包括:
根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配;
若所述任务信息与所述恢复服务信息匹配一致,则发送所述恢复服务信息对应的恢复服务指令至所述服务器。
进一步的,所述根据所述任务信息发送对应的恢复服务指令至所述服务器之后包括:
重新获取所述服务器中与所述恢复服务指令对应的当前任务的第二监控指标;
根据所述监控阈值确认所述第二监控指标中是否存在异常指标;
若不存在异常指标,则发送恢复服务成功信息至所述预设告警***。
进一步的,所述第一监控指标包括至少一个监控参数,所述根据监控阈值确认所述第一监控指标中的异常指标包括:
判断所述监控参数是否大于或小于或等于所述监控阈值;
若所述监控参数大于所述监控阈值,则所述监控参数为所述第一监控指标中的异常指标。
进一步的,所述根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配还包括:
若所述任务信息与所述恢复服务信息匹配不一致,则发送重新输入指令至所述预设告警***。
第二方面,本发明实施例还提供了一种服务器运行状态的告警装置,包括:
指标获取模块,用于获取服务器的至少一个当前服务的第一监控指标;
异常确认模块,用于根据监控阈值确认所述第一监控指标中的异常指标;
告警发送模块,用于根据所述异常指标发送所述告警指令至预设告警***;
任务接收模块,用于接收管理员基于所述告警指令输入的任务信息;
恢复服务模块,用于根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
进一步的,还包括:
告警配置模块,用于根据所述监控阈值和预设监控框架代码生成告警配置文件;
监控关联模块,用于将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控;
列表创建模块,用于根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述实施例中任一项所述的服务器运行状态的告警方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例中任一项所述的一种服务器运行状态的告警方法。
本发明通过监控终端实时监控服务器的监控指标,根据任务信息匹配对应的恢复任务指令并发送至服务器以恢复对应的服务,解决了现有技术需要人为登录服务器或后台,根据恢复服务指令执行恢复操作的技术问题,实现了自动判断任务信息并智能执行恢复操作、减少人力成本以及提高服务恢复的效率和及时性的技术效果。
附图说明
图1为本发明实施例一提供的一种服务器运行状态的告警方法的流程图;
图2为本发明实施例二提供的一种服务器运行状态的告警方法的流程图;
图3为本发明实施例三提供的一种服务器运行状态的告警装置的结构示意图;
图4为本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一任务信息称为第二任务信息,且类似地,可将第二任务信息称为第一任务信息。第一任务信息和第二任务信息两者都是任务信息,但其不是同一任务信息。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
实施例一
图1为本发明实施例一提供的一种服务器运行状态的告警方法的流程图,本实施例可适用于实时监控服务器或服务器上的服务的运行状态的情况,该方法可以由监控终端来执行,具体包括如下步骤:
步骤S110、获取服务器的至少一个当前服务的第一监控指标。
具体的,本实施例的服务器可以指用于提供业务服务功能的设备或终端。当该服务器上运行了多个程序或软件时,即同时提供多种业务服务时,如一台主机上同时运行了数据存储服务、下载服务(迅雷、百度云下载和360下载等)和数据交互(APP之间数据的调用)等等,这时为了保证主机上这些服务都能正常运行,就需要通过监控终端或监控***针对该服务器上的每个运行中的服务(即当前服务)进行监控。可以预先将针对该服务器的监控***框架建立好,并配置好用于实时监控该服务器服务运行时的运行数据的配置文件,配置文件可以基于预设监控框架,通过输入不同的监控指标阈值和代码层中的预设监控代码结合生成,在将该配置文件与服务器中的当前服务列表关联后,监控终端就可以实时监控该服务器当前运行服务的运行数据(即第一监控指标),这里的第一监控指标可以是当前服务的所有运行数据,也可以根据不同的监控需求和服务功能筛选出来的部分运行数据,在这里不做进一步限定。一般来说,监控终端可以针对该服务器上的每个服务都部署一个用于实时监控的监控节点,然后通过预设传输形式(如API传输接口)采集各个监控节点对应的当前服务的第一监控指标。
步骤S120、根据监控阈值确认所述第一监控指标中的异常指标。
具体的,监控终端在获取了服务器当前处于运行状态的服务或软件的第一监控指标后,就可以根据预设设置好的针对每项第一监控指标的监控阈值确认这些第一监控指标中哪些第一监控指标存在异常(即哪些第一监控指标是异常指标)。在本实施例中,具体判断规则可以根据预设的监控阈值和第一监控指标的不同而调整,如当监控阈值是一个可接受的第一监控指标的最小值时,那么当第一监控指标的数值比这个监控阈值还要小时,就说明该第一监控指标是异常指标,而当监控阈值是一个可接受的第一监控指标的最大值时,那么当第一监控指标的数值比这个监控阈值还要大时,就说明该第一监控指标是异常指标。也可以同时设定一个第一监控指标的可接受的最大值和最小值,即通过两个对应的监控阈值来确定一个第一监控指标是否是异常指标,当该第一监控指标的数值处于这两个对应的监控阈值的数值范围内时,也就说明该第一监控指标不是异常指标,当该第一监控指标的数值处于这两个对应的监控阈值的数值范围以外(即比最小值还小或比最大值还大)时,就说明该第一监控指标为异常指标。
步骤S130、根据所述异常指标发送所述告警指令至预设告警***。
具体的,在本实施例中,预设告警***可以指一种用于接收监控终端发送的告警指令,并根据告警指令提供多种服务恢复指令或服务恢复内容,并将服务恢复指令发送到该服务对应的服务器上的终端或平台。当监控终端通过判断每个第一监控指标与监控阈值的关系,从而确定哪些第一监控指标是异常指标后,监控终端还可以针对每个异常指标生成并发送一个对应该异常指标的告警指令至预设告警***。
步骤S140、接收管理员基于所述告警指令输入的任务信息。
具体的,当预设告警***接收到监控终端发送的告警指令后,预设告警***的管理员可以根据该告警指令的具体内容,输入不同的任务信息,然后再将这些任务信息发送到监控终端。在本实施例中,监控终端可以通过云数据传输平台将告警指令发送到预设告警***中,这里的云传输平台可以指如阿里巴巴云平台和微信平台等可用于数据和信息传输的通讯平台,为了保证这些云传输平台能与监控终端和预设告警***配合使用,在对服务器的当前服务进行监控之前,还可以先建立好云传输平台、监控终端和预设告警***之间的关联以保证通讯的顺畅和智能化。举例来说,当告警指令通过云传输平台发送具体内容“服务器D盘的磁盘空间不足”至预设告警***时,管理员就可以通过预设告警***的预设告警页面(这个预设告警页面可以是由云传输平台提供的,也可以是预设告警***自带的)查看到该告警信息,然后根据该告警信息在预设告警页面中输入对应的恢复服务信息(即本实施例的任务信息,可以指一种用于指示终端进行哪项任务的信息)如“执行任务:服务器D盘清理磁盘空间”,并将该恢复服务信息发送到监控终端。
步骤S150、根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
具体的,在监控终端接收到预设告警***发送的恢复服务指令后,监控终端还可以将该恢复服务指令的恢复服务内容与预设数据库中的恢复服务列表进行匹配,这里的恢复服务列表是指一种由恢复服务内容和恢复服务任务一一对应组成的关联表,当恢复服务内容与恢复服务列表中的某一项恢复服务任务能匹配上时,监控终端就会将该匹配上的恢复服务任务对应的恢复服务指令发送到服务器中,从而使得服务器可以根据该恢复服务指令重启或恢复对应的服务或软件。
本发明实施例一的有益效果在于通过监控终端实时监控服务器的监控指标,根据任务信息匹配对应的恢复任务指令并发送至服务器以恢复对应的服务,解决了现有技术需要人为登录服务器或后台,根据恢复服务指令执行恢复操作的技术问题,实现了自动判断任务信息并智能执行恢复操作、减少人力成本以及提高服务恢复的效率和及时性的技术效果。
实施例二
本实施例二是在实施例一的基础上做的进一步优化。图2为本发明实施例二提供的一种服务器运行状态的告警方法的流程图,如图2所示,本实施例的服务器运行状态的告警方法,包括:
步骤S201、根据所述监控阈值和预设监控框架代码生成告警配置文件。
具体的,预设监控框架代码可以指用于构建监控功能所需要的代码,这些代码可以通过代码层调用或第三方***调用,也可以通过程序人员手动输入。在构建好监控框架后,监控终端还需要根据不同监控指标的阈值生成不同的监控规则(即本实施例的告警配置文件),并根据不同的监控规则分别监控每个服务的监控指标。
步骤S202、将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控。
具体的,监控终端生成了不同的告警配置文件后,还需要将这些告警配置文件与服务器的当前服务列表关联起来,从而保证针对当前服务列表中的每个服务,监控终端都能有对应的告警配置文件来执行监控操作。
步骤S203、根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
具体的,在监控终端配置告警配置文件后,还需要根据服务器上运行的服务或软件可能出现的问题或故障设置好对应的恢复服务指令(即本实施例的预设恢复服务指令),然后根据这些预设恢复服务指令创建好恢复服务指令列表,并存储至预设数据库中,以便恢复服务指令列表的后续调用。
步骤S204、获取服务器的至少一个当前服务的第一监控指标。
具体的,本实施例的服务器可以指用于提供业务服务功能的设备或终端。监控终端可以采用开源的监控工具prometheus,也可以采用其他的监控工具,这里不做进一步的限定。本实施例以prometheus为例。当该服务器上运行了多个程序或软件时,即同时提供多种业务服务时,如一台主机上同时运行了数据存储服务、下载服务(迅雷、百度云下载和360下载等)和数据交互(APP之间数据的调用)等等,这时为了保证主机上这些服务都能正常运行,就需要通过监控终端或监控***针对该服务器上的每个运行中的服务(即当前服务)进行监控。在监控终端将告警配置文件与服务器中的当前服务列表关联,且预设数据库中存在恢复服务指令列表后,监控终端就可以实时监控该服务器当前运行服务的运行数据(即第一监控指标),这里的第一监控指标可以是当前服务的所有运行数据,也可以根据不同的监控需求和服务功能筛选出来的部分运行数据,在这里不做进一步限定。监控终端可以针对该服务器上的每个服务都部署一个用于实时监控的监控节点(即针对每个服务都部署一个用于采集该服务的监控指标的agent/exporter),然后通过预设传输形式(如API传输接口)采集各个监控节点对应的当前服务的第一监控指标。
步骤S205、所述第一监控指标包括至少一个监控参数,判断所述监控参数是否大于或小于或等于所述监控阈值。
步骤S206、若所述监控参数大于所述监控阈值,则所述监控参数为所述第一监控指标中的异常指标。
具体的,监控终端在获取了服务器当前处于运行状态的服务或软件的第一监控指标后,就可以根据预设设置好的针对每项第一监控指标的监控阈值确认这些第一监控指标中哪些第一监控指标存在异常(即哪些第一监控指标是异常指标)。在本实施例中,具体判断规则可以根据预设的监控阈值和第一监控指标的不同而调整,如当监控阈值是一个可接受的第一监控指标的最小值时,那么当第一监控指标的数值比这个监控阈值还要小时,就说明该第一监控指标是异常指标,而当监控阈值是一个可接受的第一监控指标的最大值时,那么当第一监控指标的数值比这个监控阈值还要大时,就说明该第一监控指标是异常指标。也可以同时设定一个第一监控指标的可接受的最大值和最小值,即通过两个对应的监控阈值来确定一个第一监控指标是否是异常指标,当该第一监控指标的数值处于这两个对应的监控阈值的数值范围内时,也就说明该第一监控指标不是异常指标,当该第一监控指标的数值处于这两个对应的监控阈值的数值范围以外(即比最小值还小或比最大值还大)时,就说明该第一监控指标为异常指标。
步骤S207、根据所述异常指标发送所述告警指令至预设告警***。
具体的,监控终端在确定了第一监控指标中的哪些监控参数是异常指标后,监控终端还可以针对每个异常指标生成对应的告警指令并将这些告警指令发送至预设告警***。这里以监控终端采用prometheus监控工具为例。在监控终端生成了每个异常指标对应的告警指令之前,监控终端可以预先在代码层编写好告警信息处理服务(即将告警指令智能发送至预设告警***的一种服务,如webhook服务,webhook是一种web回调或者http的push API,是向APP或者其他应用提供实时信息的一种方式),这种告警信息处理服务可以通过多种方式发送告警指令,具体采用哪种方式可以根据告警指令的接收对应和告警指令的形式来决定,如可采用邮件或云短信形式(即一种用于特定通讯平台上的用于接收和发送数据或信息的传输形式)来发送告警指令至预设告警***。在本实施例中,当发生无法登录服务器后台(如断网等)或无法使用操作设备(如电脑等)时,还可以通过全球移动通信***(Global System for Mobile Communication,GSM)发送云短信来调用服务器的服务恢复功能以重新启动或修复服务器上对应的服务。
步骤S208、接收管理员基于所述告警指令输入的任务信息。
具体的,当预设告警***接收到监控终端发送的告警指令后,预设告警***的管理员可以根据该告警指令的具体内容,输入不同的任务信息,然后再将这些任务信息发送到监控终端。在本实施例中,监控终端可以通过云数据传输平台或云***将告警指令发送到预设告警***中,这里的云传输平台可以指如阿里巴巴云平台和微信平台等可用于数据和信息传输的通讯平台,为了保证这些云传输平台能与监控终端和预设告警***配合使用,在对服务器的当前服务进行监控之前,还可以先建立好云传输平台、监控终端和预设告警***之间的关联以保证通讯的顺畅和智能化。举例来说,当告警指令通过云传输平台发送具体内容“服务器的服务B发生异常”至预设告警***时,管理员就可以通过预设告警***的预设告警页面(这个预设告警页面可以是由云传输平台提供的,也可以是预设告警***自带的)查看到该告警信息,然后根据该告警信息在预设告警页面中输入对应的恢复服务信息(即本实施例的任务信息,可以指一种用于指示终端进行哪项任务的信息)如“执行任务:服务B重启”,并将该恢复服务信息发送到监控终端。
步骤S209、根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配。
步骤S210、若所述任务信息与所述恢复服务信息匹配不一致,则发送重新输入指令至所述预设告警***。
具体的,当任务信息与预设数据库中恢复服务列表的恢复服务信息匹配不一致时,监控终端还可以通过云传输平台发送重新输入指令至预设告警***,然后再接收管理员新输入的任务信息。在本实施例中,可能存在管理员输入的任务信息错误,或者任务信息与更新后的恢复服务列表中的恢复服务信息不匹配的情况,这时就需要监控终端发送重新输入指令至预设告警***,然后再根据预设告警***发送的新的任务信息和预设判定规则去判断到底是管理员输入错误还是该任务信息与更新后的恢复服务信息不匹配。当任务信息与更新后的恢复服务信息不匹配时,监控终端还可以发送更新列表指令至预设告警***,以提醒管理员根据更新后的恢复服务列表对应调整任务信息。
步骤S211、若所述任务信息与所述恢复服务信息匹配一致,则发送所述恢复服务信息对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
具体的,在监控终端接收到预设告警***发送的恢复服务指令后,监控终端还可以将该恢复服务指令的恢复服务内容与预设数据库中的恢复服务列表进行匹配,这里的恢复服务列表是指一种由恢复服务内容和恢复服务任务一一对应组成的关联表,当恢复服务内容与恢复服务列表中的某一项恢复服务任务能匹配上时,监控终端就会将该匹配上的恢复服务任务对应的恢复服务指令发送到服务器中,从而使得服务器可以根据该恢复服务指令重启或恢复对应的服务或软件。在本实施例中,监控终端可以把恢复服务指令通过云传输平台发送至服务器的预设恢复***中(如jenkins等,jenkins是一个开源软件项目,是基于Java开发的一种持续集成工具,用于监控持续重复的工作)以使服务器自动恢复对应的服务,也可以通过云传输平台调用该服务器的恢复程序,从而执行对应的恢复任务,如通过ssh(ssh是指一种远程连接方式)的方式登录到该服务器,并执行恢复服务指令或相关的恢复服务脚本。
步骤S212、重新获取所述服务器中与所述恢复服务指令对应的当前任务的第二监控指标。
步骤S213、根据所述监控阈值确认所述第二监控指标中是否存在异常指标。
步骤S214、若不存在异常指标,则发送恢复服务成功信息至所述预设告警***。
具体的,当任务信息与恢复服务信息匹配一致时,服务器会接收到监控终端发送的该任务服务信息对应的恢复服务指令,并执行该恢复服务指令。在服务器执行了恢复服务指令后,监控终端还可以重新获取该恢复服务指令对应的服务的监控指标(即本实施例的第二监控指标),并根据监控阈值判断这个第二监控指标是否异常,判断过程与判断第一监控指标是否异常相同。当第二监控指标没有出现异常时,就说明该恢复服务指令对应的服务已经恢复正常了,监控终端就可以生成并发送该服务的恢复服务成功信息值预设告警***,以通知管理员该服务已修复好。而当第二监控指标仍出现异常时,恢复该服务的方法与第一监控指标的恢复方法相同,这里不再赘述。
本发明实施例二的有益效果在于通过监控终端实时监控服务器的监控指标和服务器中待监控服务的监控指标,判断监控指标与监控阈值的关系从而确认异常指标,并根据异常指标对应的任务信息匹配对应的恢复任务指令并发送至服务器以恢复对应的服务,解决了现有技术需要人为登录服务器或后台,根据恢复服务指令执行恢复操作的技术问题,实现了自动判断任务信息并智能执行恢复操作、减少人力成本以及提高服务恢复的效率和及时性,并且在无法登录服务器后台的情况下仍可以对服务器上的服务进行恢复操作,降低对网络的依赖性的技术效果。
实施例三
图3为本发明实施例三提供的一种服务器运行状态的告警装置的结构示意图。如图3所示,本实施例的服务器的运行状态的告警装置300,包括:
指标获取模块310,用于获取服务器的至少一个当前服务的第一监控指标;
异常确认模块320,用于根据监控阈值确认所述第一监控指标中的异常指标;
告警发送模块330,用于根据所述异常指标发送所述告警指令至预设告警***;
任务接收模块340,用于接收管理员基于所述告警指令输入的任务信息;
恢复服务模块350,用于根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
在本实施例中,服务器的运行状态的告警装置300还包括:
告警配置模块360,用于根据所述监控阈值和预设监控框架代码生成告警配置文件;
监控关联模块370,用于将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控;
列表创建模块380,用于根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
在本实施例中,所述恢复服务模块350包括:
恢复服务单元,用于根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配;若所述任务信息与所述恢复服务信息匹配一致,则发送所述恢复服务信息对应的恢复服务指令至所述服务器。
在本实施例中,所述服务器的运行状态的告警装置300包括:
恢复确认模块390,用于重新获取所述服务器中与所述恢复服务指令对应的当前任务的第二监控指标;根据所述监控阈值确认所述第二监控指标中是否存在异常指标;若不存在异常指标,则发送恢复服务成功信息至所述预设告警***。
在本实施例中,所述第一监控指标包括至少一个监控参数,所述异常确认模块320包括:
异常确认单元,用于判断所述监控参数是否大于或小于或等于所述监控阈值;若所述监控参数大于所述监控阈值,则所述监控参数为所述第一监控指标中的异常指标。
在本实施例中,所述恢复服务单元还包括:
重新输入单元,用于若所述任务信息与所述恢复服务信息匹配不一致,则发送重新输入指令至所述预设告警***。
本发明实施例所提供的服务器运行状态的告警装置可执行本发明任意实施例所提供的服务器运行状态的告警方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4为本发明实施例四提供的一种服务器的结构示意图,如图4所示,该服务器包括处理器410、存储器420、输入装置430和输出装置440;服务器中处理器410的数量可以是一个或多个,图4中以一个处理器410为例;服务器中的处理器410、存储器420、输入装置430和输出装置440可以通过总线或其他方式连接,图4中以通过总线连接为例。
存储器410作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的服务器运行状态的告警***对应的程序指令/模块(例如,服务器运行状态的告警装置中的指标获取模块、异常确认模块、告警发送模块、任务接收模块、恢复服务模块、告警配置模块、监控关联模块、列表创建模块和恢复确认模块)。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的服务器运行状态的告警方法,即:
获取服务器的至少一个当前服务的第一监控指标;
根据监控阈值确认所述第一监控指标中的异常指标;
根据所述异常指标发送所述告警指令至预设告警***;
接收管理员基于所述告警指令输入的任务信息;
根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
存储器420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置430可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种服务器运行状态的告警方法,该方法包括:
获取服务器的至少一个当前服务的第一监控指标;
根据监控阈值确认所述第一监控指标中的异常指标;
根据所述异常指标发送所述告警指令至预设告警***;
接收管理员基于所述告警指令输入的任务信息;
根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的服务器运行状态的告警方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
值得注意的是,上述服务器运行状态的告警装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种服务器运行状态的告警方法,其特征在于,包括:
获取服务器的至少一个当前服务的第一监控指标;
根据监控阈值确认所述第一监控指标中的异常指标;
根据所述异常指标发送所述告警指令至预设告警***;
接收管理员基于所述告警指令输入的任务信息;
根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
2.根据权利要求1所述的服务器运行状态的告警方法,其特征在于,所述获取服务器的至少一个当前服务的第一监控指标之前包括:
根据所述监控阈值和预设监控框架代码生成告警配置文件;
将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控;
根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
3.根据权利要求2所述的服务器运行状态的告警方法,其特征在于,所述根据所述任务信息发送对应的恢复服务指令至所述服务器包括:
根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配;
若所述任务信息与所述恢复服务信息匹配一致,则发送所述恢复服务信息对应的恢复服务指令至所述服务器。
4.根据权利要求3所述的服务器运行状态的告警方法,其特征在于,所述根据所述任务信息发送对应的恢复服务指令至所述服务器之后包括:
重新获取所述服务器中与所述恢复服务指令对应的当前任务的第二监控指标;
根据所述监控阈值确认所述第二监控指标中是否存在异常指标;
若不存在异常指标,则发送恢复服务成功信息至所述预设告警***。
5.根据权利要求1所述的服务器运行状态的告警方法,其特征在于,所述第一监控指标包括至少一个监控参数,所述根据监控阈值确认所述第一监控指标中的异常指标包括:
判断所述监控参数是否大于或小于或等于所述监控阈值;
若所述监控参数大于所述监控阈值,则所述监控参数为所述第一监控指标中的异常指标。
6.根据权利要求3所述的服务器运行状态的告警方法,其特征在于,所述根据所述任务信息和所述恢复服务信息确认所述任务信息与所述恢复服务信息是否匹配还包括:
若所述任务信息与所述恢复服务信息匹配不一致,则发送重新输入指令至所述预设告警***。
7.一种服务器运行状态的告警装置,其特征在于,包括:
指标获取模块,用于获取服务器的至少一个当前服务的第一监控指标;
异常确认模块,用于根据监控阈值确认所述第一监控指标中的异常指标;
告警发送模块,用于根据所述异常指标发送所述告警指令至预设告警***;
任务接收模块,用于接收管理员基于所述告警指令输入的任务信息;
恢复服务模块,用于根据所述任务信息发送对应的恢复服务指令至所述服务器,所述恢复服务指令用于恢复或重启所述异常指标对应的当前服务。
8.根据权利要求7所述的服务器运行状态的告警装置,其特征在于,还包括:
告警配置模块,用于根据所述监控阈值和预设监控框架代码生成告警配置文件;
监控关联模块,用于将所述告警配置文件与所述服务器的当前服务列表进行关联,以对所述当前服务列表的所有服务进行监控;
列表创建模块,用于根据预设恢复服务指令创建恢复服务指令列表,并将所述恢复服务指令列表存储至预设数据库,所述恢复服务指令包括恢复服务信息。
9.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一项所述的服务器运行状态的告警方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一项所述的一种服务器运行状态的告警方法。
CN202010250178.7A 2020-04-01 2020-04-01 服务器运行状态的告警方法、装置、服务器及存储介质 Pending CN111459770A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010250178.7A CN111459770A (zh) 2020-04-01 2020-04-01 服务器运行状态的告警方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010250178.7A CN111459770A (zh) 2020-04-01 2020-04-01 服务器运行状态的告警方法、装置、服务器及存储介质

Publications (1)

Publication Number Publication Date
CN111459770A true CN111459770A (zh) 2020-07-28

Family

ID=71678878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010250178.7A Pending CN111459770A (zh) 2020-04-01 2020-04-01 服务器运行状态的告警方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN111459770A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052111A (zh) * 2020-09-08 2020-12-08 中国平安人寿保险股份有限公司 服务器异常预警的处理方法、装置、设备及存储介质
CN112685256A (zh) * 2020-12-30 2021-04-20 上海掌门科技有限公司 服务端监控方法、设备和介质
CN113590424A (zh) * 2021-07-30 2021-11-02 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN113704052A (zh) * 2021-07-21 2021-11-26 郑州云海信息技术有限公司 一种微服务架构的运维***、方法、设备及介质
CN113806166A (zh) * 2021-08-25 2021-12-17 合众人寿保险股份有限公司 对象监控方法及装置、存储介质及电子设备
CN114039836A (zh) * 2021-11-05 2022-02-11 光大科技有限公司 Exporter采集器的故障处理方法及装置
CN114168431A (zh) * 2022-02-10 2022-03-11 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN115225534A (zh) * 2022-07-26 2022-10-21 雷沃工程机械集团有限公司 一种监控服务器的运行状态监控方法
CN115437889A (zh) * 2022-11-08 2022-12-06 统信软件技术有限公司 一种应急处理方法、***及计算设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123890A1 (en) * 2015-10-29 2017-05-04 Commvault Systems, Inc. Monitoring, diagnosing, and repairing a management database in a data storage management system
CN109474685A (zh) * 2018-11-16 2019-03-15 中国银行股份有限公司 一种基于微服务架构下的服务监控方法和***
CN109728979A (zh) * 2019-03-01 2019-05-07 国网新疆电力有限公司信息通信公司 适用于信息运维综合监管平台的自动告警***及方法
US20190179726A1 (en) * 2016-12-08 2019-06-13 Tencent Technology (Shenzhen) Company Limited Monitoring method and apparatus of server, and storage medium
CN110581773A (zh) * 2018-06-07 2019-12-17 北京怡合春天科技有限公司 一种自动化服务监控与报警管理***
CN110851254A (zh) * 2019-11-06 2020-02-28 深圳市伊欧乐科技有限公司 基于微服务的设备生产方法、装置、服务器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123890A1 (en) * 2015-10-29 2017-05-04 Commvault Systems, Inc. Monitoring, diagnosing, and repairing a management database in a data storage management system
US20190179726A1 (en) * 2016-12-08 2019-06-13 Tencent Technology (Shenzhen) Company Limited Monitoring method and apparatus of server, and storage medium
CN110581773A (zh) * 2018-06-07 2019-12-17 北京怡合春天科技有限公司 一种自动化服务监控与报警管理***
CN109474685A (zh) * 2018-11-16 2019-03-15 中国银行股份有限公司 一种基于微服务架构下的服务监控方法和***
CN109728979A (zh) * 2019-03-01 2019-05-07 国网新疆电力有限公司信息通信公司 适用于信息运维综合监管平台的自动告警***及方法
CN110851254A (zh) * 2019-11-06 2020-02-28 深圳市伊欧乐科技有限公司 基于微服务的设备生产方法、装置、服务器和存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052111A (zh) * 2020-09-08 2020-12-08 中国平安人寿保险股份有限公司 服务器异常预警的处理方法、装置、设备及存储介质
CN112685256A (zh) * 2020-12-30 2021-04-20 上海掌门科技有限公司 服务端监控方法、设备和介质
CN113704052B (zh) * 2021-07-21 2023-09-22 郑州云海信息技术有限公司 一种微服务架构的运维***、方法、设备及介质
CN113704052A (zh) * 2021-07-21 2021-11-26 郑州云海信息技术有限公司 一种微服务架构的运维***、方法、设备及介质
CN113590424A (zh) * 2021-07-30 2021-11-02 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN113590424B (zh) * 2021-07-30 2024-05-17 北京京东振世信息技术有限公司 一种故障监控方法、装置、设备及存储介质
CN113806166A (zh) * 2021-08-25 2021-12-17 合众人寿保险股份有限公司 对象监控方法及装置、存储介质及电子设备
CN114039836A (zh) * 2021-11-05 2022-02-11 光大科技有限公司 Exporter采集器的故障处理方法及装置
CN114168431A (zh) * 2022-02-10 2022-03-11 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN114168431B (zh) * 2022-02-10 2022-04-15 北京金堤科技有限公司 自动监控服务的方法和装置、以及电子设备和存储介质
CN115225534A (zh) * 2022-07-26 2022-10-21 雷沃工程机械集团有限公司 一种监控服务器的运行状态监控方法
CN115437889A (zh) * 2022-11-08 2022-12-06 统信软件技术有限公司 一种应急处理方法、***及计算设备
CN115437889B (zh) * 2022-11-08 2023-03-10 统信软件技术有限公司 一种应急处理方法、***及计算设备

Similar Documents

Publication Publication Date Title
CN111459770A (zh) 服务器运行状态的告警方法、装置、服务器及存储介质
EP3386150B1 (en) Terminal failure processing method, device and system
CN106997314B (zh) 用于分布式***的异常处理方法、装置及***
CN107704360B (zh) 监控数据的处理方法、设备、服务器及存储介质
CN113434327B (zh) 一种故障处理***、方法、设备和存储介质
CN110417586B (zh) 服务监控方法、服务节点、服务器及计算机可读存储介质
US10747529B2 (en) Version management system and version management method
CN107797887B (zh) 数据备份及恢复方法、装置、存储介质和电子设备
CN112527484A (zh) 工作流断点续跑方法、装置、计算机设备及可读存储介质
CN112764956A (zh) 数据库的异常处理***、数据库的异常处理方法及装置
WO2018202440A1 (en) Data transmission method and apparatus
JP7047621B2 (ja) オペレーション装置、および、オペレーション方法
CN107872363B (zh) 数据包丢失的处理方法、***、可读存储介质及电子设备
CN114172785A (zh) 告警信息处理方法、装置、设备和存储介质
CN113434323A (zh) 数据中台的任务流控制方法及相关装置
CN111190761B (zh) 日志输出方法、装置、存储介质及电子设备
CN110930110B (zh) 分布式流程监控方法、装置、存储介质及电子设备
CN111416857A (zh) 客户端崩溃处理方法、装置、***、设备和存储介质
CN111367934A (zh) 数据一致性的检验方法、装置、服务器和介质
CN111162938A (zh) 数据处理***及方法
CN114567536B (zh) 异常数据处理方法、装置、电子设备和存储介质
CN111147542A (zh) 一种免密访问的设置方法、装置、设备及介质
CN113179180A (zh) 一种玄武盾客户端灾难故障修复方法、装置和存储介质
CN113014675A (zh) 数据处理方法及装置、电子设备和存储介质
CN107066366B (zh) 面向物联网的复杂事件处理引擎状态监控与灾难恢复方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200728

RJ01 Rejection of invention patent application after publication