CN111581062A - 服务的故障处理方法及服务器 - Google Patents

服务的故障处理方法及服务器 Download PDF

Info

Publication number
CN111581062A
CN111581062A CN202010419919.XA CN202010419919A CN111581062A CN 111581062 A CN111581062 A CN 111581062A CN 202010419919 A CN202010419919 A CN 202010419919A CN 111581062 A CN111581062 A CN 111581062A
Authority
CN
China
Prior art keywords
monitoring data
service
fault
diagnosis
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010419919.XA
Other languages
English (en)
Inventor
赵贝
崔贺
矫恒浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Hisense Media Network Technology Co Ltd
Juhaokan Technology Co Ltd
Original Assignee
Qingdao Hisense Media Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Hisense Media Network Technology Co Ltd filed Critical Qingdao Hisense Media Network Technology Co Ltd
Priority to CN202010419919.XA priority Critical patent/CN111581062A/zh
Publication of CN111581062A publication Critical patent/CN111581062A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Computer Hardware Design (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供一种服务的故障处理方法及服务器,通过获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据;通过预设算法,对服务的监控数据进行故障预测诊断;在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。实现了对预发生的故障的预测和定位,提高了对预发生的故障的定位的效率,并将定位问题携带在预警信息中发送给运维人员的终端设备,实现了对预发生的故障进行预警,进而提高故障被发现的及时性。

Description

服务的故障处理方法及服务器
技术领域
本申请涉及服务器技术领域,尤其涉及一种服务的故障处理方法及服务器。
背景技术
容器云是当前一种主流的云计算模式,其拥有启动速度快、资源消耗少等多方面的优势。容器云环境面临很大的可靠性挑战,容器云环境下的服务可能经常因为某些原因出现故障,从而导致一个服务甚至是多个服务需要重新执行,严重影响了服务的正常运行。
现有技术中,容器云环境下服务发生问题时,往往是在故障发生后,耗费大量的人力物力和时间去检查服务相关信息以定位问题,然后在定位问题之后使用常见的故障处理方法解决故障,以避免造成更大的损失,这种故障发生后再去检查故障的方式,导致故障不能及时被发现。
发明内容
本申请提供一种服务的故障处理方法及服务器,以实现对服务故障的预警,进而提高故障被发现的及时性。
第一方面,本申请实施例提供一种服务的故障处理方法,包括:
获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据;通过预测算法,对服务的监控数据进行故障预测诊断;在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。
第二方面,本申请实施例提供一种服务器,包括:
获取模块,用于获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据。
预测模块,用于通过预测算法,对服务的监控数据进行故障预测诊断;
处理模块,用于在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。
第三方面,本申请实施例提供一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行如第一方面提供的方法。
第四方面,本申请实施例提供一种计算机程序产品,包括:可执行指令,可执行指令用于实现如第一方面提供的方法。
本申请提供的服务的故障处理方法及服务器,通过获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据;通过预设算法,对服务的监控数据进行故障预测诊断;在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。本申请实施例中,由于通过预设算法对服务的监控数据进行故障预测诊断,并在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,实现了对预发生的故障的预测和定位,提高了对预发生的故障的定位的效率,并将定位问题携带在预警信息中发送给运维人员的终端设备,实现了对预发生的故障进行预警,进而提高故障被发现的及时性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一示例性应用场景图;
图2是本申请实施例提供的一示例性应用场景架构图;
图3是本申请一实施例提供的服务的故障处理方法的流程示意图;
图4是本申请实施例提供的决策树的结构示意图;
图5是本申请另一实施例提供的服务的故障处理方法的流程示意图;
图6是本申请又一实施例提供的服务的故障处理方法的流程示意图;
图7是本申请再一实施例提供的服务的故障处理方法的流程示意图;
图8是本申请一实施例提供的服务器的结构示意图;
图9是本申请另一实施例提供的服务器的结构示意图;
图10是本申请又一实施例提供的服务器的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
容器云是当前一种主流的云计算模式,其拥有启动速度快、资源消耗少等多方面的优势。容器云环境面临很大的可靠性挑战,容器云环境下的服务可能经常因为某些原因出现故障,从而导致一个服务甚至是多个服务需要重新执行,严重影响了服务的正常运行。现有技术中,容器云环境下服务发生问题时,往往是在故障发生后,耗费大量的人力物力和时间去检查服务相关信息以定位问题,然后在定位问题之后使用常见的故障处理方法解决故障,以避免造成更大的损失,这种故障发生后再去检查故障的方式,导致故障不能及时被发现。
本申请实施例提供的服务的故障处理方法及服务器的发明构思在于,通过获取服务相关的监控数据以及决策树算法,对服务的监控数据进行故障预测诊断,不仅可以预测可能要发生的故障,还可以将可能要发生的故障的定位问题,发送给运维人员的终端设备,以提醒运维人员对定位问题进行处理,提高了对故障发现的及时性。
以下,对本申请实施例的示例性应用场景进行介绍。
本申请实施例提供的服务的故障处理方法可以通过本申请实施例提供的服务器执行,图1是本申请实施例提供的一示例性应用场景图,图2是本申请实施例提供的一示例性应用场景架构图,如图1和图2所示,本申请实施例提供的服务的故障处理方法可以应用于服务器11中,服务器11中可以包括多个容器。容器是位于应用程序或组件和服务器平台之间的接口集合,使得应用程序或组件可以方便部署到服务器上运行,每个服务可以通过一个容器执行,服务器11与终端设备12之间存在数据通信,本申请实施例对此不做限制。本申请实施例对终端设备和服务器的具体类型不做限制,例如,终端设备可以是智能手机、个人电脑、平板电脑、可穿戴设备、车载终端等,服务器可以是应用服务器、网站(WEB)服务器、WEB应用服务器等。
图3是本申请一实施例提供的服务的故障处理方法的流程示意图,该方法可以由服务器执行,下面以服务器为执行主体对服务的故障处理方法进行说明,如图3所示,本申请实施例提供的服务的故障处理方法可以包括:
步骤S101:获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据。
针对不同的服务,可能会涉及到不同的数据流,以在如图2所示的应用场景中为例,服务可以是应用程序或组件所执行的一个进程,对于该服务的故障的判断,通常可以以该服务对应的容器的监控数据以及承载该容器的物理机的监控数据为依据进行判断,本申请实施例对服务对应的容器的监控数据和承载容器的物理机的监控数据的具体数据类型以及数据种类不做限制。在一种可能的实施方式中,容器的监控数据可以包括容器请求数、容器的中央处理器(central processing unit,CPU)内存占比、请求状态码分布、请求时间、响应时间或每秒查询率(query per second,QPS)等,物理机的监控数据可以包括物理机的CPU内存占比、物理机的网卡信息等,本申请实施例仅以此为例,并不限于此,例如可以根据具体的服务类型获取该服务对应的监控数据。
本申请实施例对获取容器的监控数据以及物理机的监控数据的具体实现方式不做限制,在一种可能的实施方式中,可以通过配置的ES(elastic search)地址查询过去预设时间段内的日志数据以获取请求状态码分布、请求时间、响应时间或QPS等,可以通过查询服务对应的容器以及物理机,确定服务所在节点的资源占用情况,例如容器的中央处理器CPU内存占比、物理机的CPU内存占比、物理机的网卡信息等。
步骤S102:通过预设算法,对服务的监控数据进行故障预测诊断。
本申请实施例对预设算法的具体算法不做限制,只要能够实现对服务的监控数据进行故障预测诊断,得到故障预测诊断的结果即可,例如,预设算法可以包括决策树算法、神经网络算法等算法,也可以是多种算法的结合。下面以预设算法为决策树算法为例。
为了便于介绍,图4是本申请实施例提供的决策树的结构示意图,决策树是一种树形结构,其中树形结构可以是二叉树或者非二叉树,本申请实施例对此不做限制。树形结构包括根节点、非叶节点和叶节点,使用决策树算法对服务的监控数据进行故障预测诊断的过程从根节点开始,对服务的监控数据中每种监控数据进行测试,其中每个非叶节点表示对一种监控数据的判断,每个叶节点代表故障预测诊断的一种结果。本申请实施例对决策树算法的具体类型不做限制,例如,决策树算法可以为CART(Classification AndRegression Tree)、CLS(Concept Learning System)算法等。图4中以树形结构为二叉树,且服务的监控数据包括监控数据A、监控数据B和监控数据C为例进行介绍,如图4所示,根节点可以是服务的监控数据,从根节点开始,对服务的监控数据中的监控数据A进行判断,若监控数据A满足监控数据A的预设条件,则进入非叶节点1,若监控数据A不满足监控数据A的预设条件,则进入非叶节点2。然后分别在非叶节点1和非叶节点2分别对监控数据B进行判断,以在非叶节点1处对监控数据B进行判断为例进行介绍,在非叶节点2对监控数据B进行判断的方式与此类似,不再赘述。若监控数据B满足监控数据B的预设条件,则进入叶节点1,得到对服务的监控数据的故障预测诊断的结果;若监控数据B不满足监控数据B的预设条件,则进入非叶节点3,然后在非叶节点3对监控数据C进行判断,若监控数据C满足监控数据C的预设条件,则进入叶节点2,得到对服务的监控数据的故障预测诊断结果,若监控数据C不满足监控数据C的预设条件,则进入节点3,得到对服务的监控数据的故障预测诊断结果。本申请实施例仅以此为例,并不限于此。
步骤S103:在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。
服务的监控数据的故障预测诊断的结果可能包括存在预发生的故障或不存在预发生的故障。在一种可能的实施方式中,若故障预测诊断的结果为不存在预发生的故障,则可以不向运维人员的终端设备发送通知信息,以节约资源;也可以向运维人员的终端设备发送通知信息,以使运维人员了解服务的运行状况,例如,定时向运维人员的终端设备发送服务的监控数据的故障预测诊断结果等,本申请实施例对此不做限制。
在另一种可能的实施方式中,若故障预测诊断的结果为存在预发生的故障,则确定预发生的故障的定位问题,提高了确定定位问题准确性和及时性。将定位问题携带在预警信息中发送给运维人员的终端设备,例如,预发生的故障的定位问题为物理机的网卡可能出现故障,则将物理机的网卡可能出现故障的信息携带在预警信息中发送给运维人员的终端设备,以使运维人员可以在故障发生之前采取相应的拯救措施,以避免故障的发生,进而避免了由于服务故障导致的损失。本申请实施例对将预警信息发送给运维人员的终端设备的具体实现方式不做限制,例如,可以通过邮件、短信、推送消息、***提示等方式实现,本申请实施例仅以此为例,并不限于此。
本申请实施例通过决策树算法对服务的监控数据进行故障预测诊断,并在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,实现了对预发生的故障的预测和定位,提高了对预发生的故障的定位的效率,并将定位问题携带在预警信息中发送给运维人员的终端设备,实现了对预发生的故障进行预警,进而提高故障被发现的及时性。
图5是本申请另一实施例提供的服务的故障处理方法的流程示意图,在上述实施例的基础上,如图5所示,本申请实施例提供的服务的故障处理方法在步骤S102之前,还可以包括:
步骤S201:对服务的监控数据进行转换处理,以获取数组类型的服务监控数据,其中,数组类型的服务监控数据包括各监控数据对应的元素值。
则步骤S102的步骤即通过预设算法,对服务的监控数据进行故障预测诊断,可以通过步骤S202实现。
步骤S202:将数组类型的服务监控数据输入决策树算法中,对服务的监控数据进行故障预测诊断,获取故障预测诊断的结果。
在通过预设算法,对服务的监控数据进行故障预测诊断之前,还可以对服务的监控数据进行转换处理,以获取数组类型的服务监控数据,实现对服务的监控数据的规范化处理,进而将数组类型的服务监控数据输入决策树算法中,对服务的监控数据进行故障预测诊断,获取故障预测诊断的结果,以提高故障预测诊断的结果的可靠性。
其中,数组类型的服务监控数据包括各监控数据对应的元素值,本申请实施例对将服务的监控数据进行转换处理的具体实现方式不做限制,例如可以根据服务的监控数据的具体数据类型以及可能引起故障的条件对服务的监控数据进行转换处理,例如,当请求状态码分布中,若出现499异常或500异常的请求状态码大于请求状态码总数的50%,服务可能会出现故障,则可以将请求状态码分布中499异常或500异常的占比作为请求状态码分布的元素值,或者,通过判断请求状态码分布中499异常或500异常的占比是否超过50%,确定请求状态码分布的元素值;再例如,若QPS出现突增,则服务可能会出现问题,则通过判断QPS是否出现突增,确定QPS的元素值。本申请实施例仅以此为例,并不限于此。
针对服务的不同监控数据,可以采用不同的方式确定监控数据对应的元素值,以得到数组类型的服务监控数据,在一种可能的实施方式中,对服务的监控数据进行转换处理,以获取数组类型的服务监控数据,包括:若服务的监控数据包括容器请求数、容器的CPU内存占比、物理机的CPU内存占比中的任意一个或多个组合,则将容器请求数、容器的CPU内存占比、或物理机的CPU内存占比,分别作为数组类型的服务监控数据中的请求数、容器的CPU内存占比、或物理机的CPU内存占比各自对应的元素值。
在又一种可能的实施方式中,若服务的监控数据包括请求状态码分布、请求时间、响应时间或每秒查询率QPS中的任意一个或多个组合,则判断请求状态码分布中的异常请求占比是否超过第一预设阈值、请求时间是否超过第二预设阈值、响应时间是否超过第三预设阈值、或QPS是否超过第四预设阈值,并将超过对应预设阈值的监控数据的元素值设为第一数值,作为数组类型的服务监控数据中请求状态码分布、请求时间、响应时间或QPS各自对应的元素值,将未超过对应预设阈值的监控数据的元素值设为第三数值,作为数组类型的服务监控数据中请求状态码分布、请求时间、响应时间或QPS各自对应的元素值。
在另一种可能的实施方式中,若服务的监控数据中存在监控数据为空,则将服务的监控数据中为空的监控数据对应的元素值赋值为第二数值。
本申请实施例对第一预设阈值、第二预设阈值、第三预设阈值和第四预设阈值的具体数值不做限制。以服务的监控数据包括请求时间,第一数值为1,第二数值为2,第三数值为0为例,若请求时间超过第二预设阈值,则将请求时间的元素值设为1,若请求时间未超过第二预设阈值,则将请求时间的元素值设为0,若请求时间为空,则将请求时间的元素值设为2。
本申请实施例对第一数值、第二数值以及第三数值的具体值不做限制,在一种可能的实施方式中,第一数值、第二数值和第三数值为不同的数值。例如,第一数值还可以为3、第二数值还可以为5、第三数值还可以为4,则依然以上述服务的监控数据包括请求时间为例,若请求时间超过第二预设阈值,则将请求时间的元素值设为3,若请求时间未超过第二预设阈值,则将请求时间的元素值设为4,若请求时间为空,则将请求时间的元素值设为5。
本申请实施例中,通过对服务的监控数据进行转换处理,实现了对服务的监控数据的规范化处理,以获取数组类型的服务监控数据,提高了数组类型的服务监控数据的可靠性,进而将数组类型的服务监控数据输入决策树算法中,对服务的监控数据进行故障预测诊断,提高了故障预测诊断的结果的可靠性。
图6是本申请又一实施例提供的服务的故障处理方法的流程示意图,在上述图3或图5任一所示实施例的基础上,如图6所示,本申请实施例提供的服务的故障处理方法在步骤S102之前,还可以包括:
步骤S301:获取服务的历史监控数据和历史监控数据的历史故障诊断结果。
步骤S302:通过历史监控数据和历史故障诊断结果对预设算法进行训练,生成训练后的预设算法。
则步骤S102即通过预设算法,对服务的监控数据进行故障预测诊断可以通过步骤S303实现。
步骤S303:通过训练后的预设算法,对服务的监控数据进行故障预测诊断,确定服务的监控数据的故障预测诊断的结果。
本申请实施例中,服务的历史监控数据可以为预设时间段内的历史监控数据,例如,在之前两年内的服务的监控数据作为服务的历史监控数据,本申请实施例对预设时间段的具体时间段不做限制,本申请实施例仅以此为例,并不限于此。历史监控数据的历史诊断结果可以包括存在故障或不存在故障,若存在故障,则历史诊断结果中还可以包括故障的定位问题。
在获取服务的历史监控数据和历史监控数据的历史诊断结果之后,通过历史监控数据和历史故障诊断结果对预设算法进行训练,生成训练后的预设算法,训练后的预设算法可以根据输入的服务的监控数据进行故障预测诊断,并可以得到服务的监控数据的故障预测诊断的结果。
在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,可以确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。在一种可能的实施方式中,本申请实施例提供的服务的故障处理方法,还包括:
确定定位问题的故障解决方案;获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理。
针对每种定位问题,都存在各自对应的至少一种故障解决方案,例如,定位问题为物理机的网卡可能会出现故障,则该定位问题对应的故障解决方案可以是对物理机的网卡进行更换,也可以是更换承载服务对应的容器的物理机,本申请实施例仅以此为例,并不限于此。在确定定位问题的故障解决方案之后,还可以获取与故障解决方案对应的操作指示,以根据操作指示对物理机进行调试处理,以上述物理机的网卡可能会出现故障为例,故障解决方案对应的操作指示可以包括是否更换物理机的操作指示和/或如何更换物理机的操作指示等,本申请实施例仅以此为例,并不限于此。
本申请实施例中,通过确定定位问题的故障解决方案,并获取与故障解决方案对应的操作指示,以根据操作指示对物理机进行调试处理,进而可以避免预发生的故障的发生,避免由于服务发生故障造成的损失。
图7是本申请再一实施例提供的服务的故障处理方法的流程示意图,在上述图3或图5任一所示实施例的基础上,如图7所示,本申请实施例提供的服务的故障处理方法在步骤S102之前,还可以包括:
步骤S401:获取服务的历史监控数据、历史监控数据的历史故障诊断结果、以及历史故障诊断结果中定位问题的故障解决方案。
步骤S402:通过历史监控数据、历史故障诊断结果和历史故障诊断结果中定位问题的故障解决方案,对预设算法进行训练,生成训练后的预设算法。
则步骤S102即通过预设算法,对服务的监控数据进行故障预测诊断可以通过步骤S403实现。
步骤S403:通过训练后的预设算法,对服务的监控数据进行故障预测诊断,确定服务的监控数据的故障预测诊断的结果和故障预测诊断结果中定位问题的故障解决方案。
本申请实施例与图6所示的实施例的区别在于,本申请实施例在对决策树算法进行训练的过程中,还考虑到了历史故障诊断结果中定位问题的故障解决方案,其具体训练方式与图6所示的实施例中对决策树算法的训练方式类似,不再赘述。
在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,可以确定预发生的故障的定位问题以及该定位问题的故障解决方案,并将定位问题和故障诊断结果中定位问题的故障解决方案携带在预警信息中发送给运维人员的终端设备。
在一种可能的实施方式中,本申请实施例提供的服务的故障处理方法,还包括:获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理。其中,本申请实施例中获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理的具体实施方式可以参考图6所示实施例中获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理的具体实现方式,不再赘述。
本申请实施例提供一种服务的故障处理装置,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。在一些可能的实施例中,本申请实施例提供的服务的故障处理装置可以是服务器。
图8是本申请一实施例提供的服务器的结构示意图,如图8所示,本申请实施例提供的服务器可以包括获取模块51、预测模块52和处理模块53。
获取模块51,用于获取服务的监控数据,服务的监控数据包括服务对应的容器的监控数据,以及承载容器的物理机的监控数据。
预测模块52,用于通过预设算法,对服务的监控数据进行故障预测诊断。
处理模块53,用于在确定服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定预发生的故障的定位问题,并将定位问题携带在预警信息中发送给运维人员的终端设备。
本实施例的装置可以执行上述图3所示的方法实施例,其技术原理和技术效果与上述实施例相似,此处不再赘述。
在图8所示实施例的基础上,进一步地,本申请提供的另一个实施例中,处理模块53,还用于对服务的监控数据进行转换处理,以获取数组类型的服务监控数据,其中,数组类型的服务监控数据包括各监控数据对应的元素值。
在一种可能的实施方式中,处理模块53具体用于:
若服务的监控数据包括容器请求数、容器的中央处理器CPU内存占比、物理机的CPU内存占比中的任意一个或多个组合,则将容器请求数、容器的CPU内存占比、或物理机的CPU内存占比,分别作为数组类型的服务监控数据中的请求数、容器的CPU内存占比、或物理机的CPU内存占比各自对应的元素值。
在一种可能的实施方式中,处理模块53还用于:
若服务的监控数据包括请求状态码分布、请求时间、响应时间或每秒查询率QPS中的任意一个或多个组合,则判断请求状态码分布中的异常请求占比是否超过第一预设阈值、请求时间是否超过第二预设阈值、响应时间是否超过第三预设阈值、或QPS是否超过第四预设阈值,并将超过对应预设阈值的监控数据的元素值设为第一数值,作为数组类型的服务监控数据中请求状态码分布、请求时间、响应时间或QPS各自对应的元素值。
在一种可能的实施方式中,处理模块53,还用于:
若服务的监控数据中存在监控数据为空,则将服务的监控数据中为空的监控数据对应的元素值赋值为第二数值。
预测模块52,具体用于:将数组类型的服务监控数据输入决策树算法中,对服务的监控数据进行故障预测诊断,获取故障预测诊断的结果。
本实施例的装置可以执行上述图5所示的方法实施例,其技术原理和技术效果与上述实施例相似,此处不再赘述。
在图8所示实施例的基础上,进一步地,图9是本申请另一实施例提供的服务器的结构示意图,如图9所示,本申请提供的服务器还包括训练模块61和确定模块62。
训练模块61,用于获取服务的历史监控数据和历史监控数据的历史故障诊断结果;通过历史监控数据和历史故障诊断结果对预设算法进行训练,生成训练后的预设算法。
预测模块52,具体用于:通过训练后的预设算法,对服务的监控数据进行故障预测诊断,确定服务的监控数据的故障预测诊断的结果。
在一种可能的实施方式中,本申请实施例提供的服务器,还包括:
确定模块62,用于确定定位问题的故障解决方案;调试模块63,用于获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理。
本实施例的装置可以执行上述图6所示的方法实施例,其技术原理和技术效果与上述实施例相似,此处不再赘述。
在图9所示实施例的基础上,本申请提供另一个实施例中,训练模块61,用于获取服务的历史监控数据、历史监控数据的历史故障诊断结果、以及历史故障诊断结果中定位问题的故障解决方案;通过历史监控数据、历史故障诊断结果和历史故障诊断结果中定位问题的故障解决方案,对预设算法进行训练,生成训练后的预设算法。
预测模块52,具体用于:通过训练后的预设算法,对服务的监控数据进行故障预测诊断,确定服务的监控数据的故障预测诊断的结果和故障预测诊断结果中定位问题的故障解决方案。
在一种可能的实施方式中,本申请实施例提供的服务器,预警信息中还携带定位问题的故障解决方案,服务器还包括:
调试模块63,用于获取与故障解决方案对应的操作指示,以根据操作指示,对物理机进行调试处理。
本实施例的装置可以执行上述图7所示的方法实施例,其技术原理和技术效果与上述实施例相似,此处不再赘述。
本申请所提供的装置实施例仅仅是示意性的,图8或图9中的模块划分仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个模块可以结合或者可以集成到另一个***。各个模块相互之间的耦合可以是通过一些接口实现,这些接口通常是电性通信接口,但是也不排除可能是机械接口或其它的形式接口。因此,作为分离部件说明的模块可以是或者也可以不是物理上分开的,既可以位于一个地方,也可以分布到同一个或不同设备的不同位置上。
图10是本申请又一实施例提供的服务器的结构示意图,如图10所示,本申请实施例提供的服务器可以包括:
处理器61、存储器62、收发器63以及计算机程序;其中,收发器63实现与其他设备之间的数据传输,计算机程序被存储在存储器62中,并且被配置为由处理器61执行,计算机程序包括用于执行上述服务的故障处理方法的指令,其内容及效果请参考方法实施例。
此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。
其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种服务的故障处理方法,其特征在于,包括:
获取服务的监控数据,所述服务的监控数据包括所述服务对应的容器的监控数据,以及承载所述容器的物理机的监控数据;
通过预设算法,对所述服务的监控数据进行故障预测诊断;
在确定所述服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定所述预发生的故障的定位问题,并将所述定位问题携带在预警信息中发送给运维人员的终端设备。
2.根据权利要求1所述的方法,其特征在于,在所述获取服务的监控数据之后,还包括:
对所述服务的监控数据进行转换处理,以获取数组类型的服务监控数据,其中,所述数组类型的服务监控数据包括各监控数据对应的元素值;
所述通过预设算法,对所述服务的监控数据进行故障预测诊断,包括:
将所述数组类型的服务监控数据输入决策树算法中,对所述服务的监控数据进行故障预测诊断,获取所述故障预测诊断的结果。
3.根据权利要求2所述的方法,其特征在于,所述对所述服务的监控数据进行转换处理,以获取数组类型的服务监控数据,包括:
若所述服务的监控数据包括容器请求数、所述容器的中央处理器CPU内存占比、所述物理机的CPU内存占比中的任意一个或多个组合,则将所述容器请求数、所述容器的CPU内存占比、或所述物理机的CPU内存占比,分别作为所述数组类型的服务监控数据中的请求数、所述容器的CPU内存占比、或所述物理机的CPU内存占比各自对应的元素值。
4.根据权利要求3所述的方法,其特征在于,还包括:
若所述服务的监控数据包括请求状态码分布、请求时间、响应时间或每秒查询率QPS中的任意一个或多个组合,则判断所述请求状态码分布中的异常请求占比是否超过第一预设阈值、所述请求时间是否超过第二预设阈值、所述响应时间是否超过第三预设阈值、或所述QPS是否超过第四预设阈值,并将超过对应预设阈值的监控数据的元素值设为第一数值,作为所述数组类型的服务监控数据中所述请求状态码分布、所述请求时间、所述响应时间或所述QPS各自对应的元素值。
5.根据权利要求3或4所述的方法,其特征在于,还包括:
若所述服务的监控数据中存在监控数据为空,则将所述服务的监控数据中为空的监控数据对应的元素值赋值为第二数值。
6.根据权利要求1-3任一项所述的方法,其特征在于,在通过预设算法,对所述服务的监控数据进行故障预测诊断之前,还包括:
获取所述服务的历史监控数据和所述历史监控数据的历史故障诊断结果;
通过所述历史监控数据和所述历史故障诊断结果对所述预设算法进行训练,生成训练后的预设算法;
所述通过预设算法,对所述服务的监控数据进行故障预测诊断,包括:
通过所述训练后的预设算法,对所述服务的监控数据进行故障预测诊断,确定所述服务的监控数据的故障预测诊断的结果。
7.根据权利要求1-3任一项所述的方法,其特征在于,在通过预设算法,对所述服务的监控数据进行故障预测诊断之前,还包括:
获取所述服务的历史监控数据、所述历史监控数据的历史故障诊断结果、以及所述历史故障诊断结果中定位问题的故障解决方案;
通过所述历史监控数据、所述历史故障诊断结果和所述历史故障诊断结果中定位问题的故障解决方案,对所述预设算法进行训练,生成训练后的预设算法;
所述通过预设算法,对所述服务的监控数据进行故障预测诊断,包括:
通过所述训练后的预设算法,对所述服务的监控数据进行故障预测诊断,确定所述服务的监控数据的故障预测诊断的结果和所述故障预测诊断结果中定位问题的故障解决方案。
8.根据权利要求7所述的方法,其特征在于,所述预警信息中还携带所述定位问题的故障解决方案,所述方法还包括:
获取与所述故障解决方案对应的操作指示,以根据所述操作指示,对所述物理机进行调试处理。
9.一种服务器,其特征在于,包括:
获取模块,用于获取服务的监控数据,所述服务的监控数据包括所述服务对应的容器的监控数据,以及承载所述容器的物理机的监控数据;
预测模块,用于通过预设算法,对所述服务的监控数据进行故障预测诊断;
处理模块,用于在确定所述服务的监控数据的故障预测诊断的结果为存在预发生的故障时,确定所述预发生的故障的定位问题,并将所述定位问题携带在预警信息中发送给运维人员的终端设备。
10.根据权利要求9所述的服务器,其特征在于,所述处理模块,还用于对所述服务的监控数据进行转换处理,以获取数组类型的服务监控数据,其中,所述数组类型的服务监控数据包括各监控数据对应的元素值;
所述预测模块,具体用于:
将所述数组类型的服务监控数据输入决策树算法中,对所述服务的监控数据进行故障预测诊断,获取所述故障预测诊断的结果。
CN202010419919.XA 2020-05-18 2020-05-18 服务的故障处理方法及服务器 Pending CN111581062A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010419919.XA CN111581062A (zh) 2020-05-18 2020-05-18 服务的故障处理方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010419919.XA CN111581062A (zh) 2020-05-18 2020-05-18 服务的故障处理方法及服务器

Publications (1)

Publication Number Publication Date
CN111581062A true CN111581062A (zh) 2020-08-25

Family

ID=72113626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010419919.XA Pending CN111581062A (zh) 2020-05-18 2020-05-18 服务的故障处理方法及服务器

Country Status (1)

Country Link
CN (1) CN111581062A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099983A (zh) * 2020-09-22 2020-12-18 北京知道创宇信息技术股份有限公司 服务异常处理方法、装置、电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015109443A1 (zh) * 2014-01-21 2015-07-30 华为技术有限公司 网络服务故障处理方法,服务管理***和***管理模块
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、***和设备
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015109443A1 (zh) * 2014-01-21 2015-07-30 华为技术有限公司 网络服务故障处理方法,服务管理***和***管理模块
CN106330576A (zh) * 2016-11-18 2017-01-11 北京红马传媒文化发展有限公司 容器化微服务自动伸缩及迁移调度的方法、***和设备
CN109634828A (zh) * 2018-12-17 2019-04-16 浪潮电子信息产业股份有限公司 故障预测方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112099983A (zh) * 2020-09-22 2020-12-18 北京知道创宇信息技术股份有限公司 服务异常处理方法、装置、电子设备和计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
CN109039833B (zh) 一种监控带宽状态的方法和装置
CN110740061B (zh) 故障预警方法、装置及计算机存储介质
CN111897705B (zh) 服务状态处理、模型训练方法、装置、设备和存储介质
US11743237B2 (en) Utilizing machine learning models to determine customer care actions for telecommunications network providers
CN110806960B (zh) 信息处理方法、装置及终端设备
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN111400294B (zh) 数据异常监测方法、装置及***
CN111651595A (zh) 一种异常日志处理方法及装置
CN108039971A (zh) 一种告警方法及装置
CN111581062A (zh) 服务的故障处理方法及服务器
CN113778960A (zh) 一种物联网***的故障确定方法、装置及存储介质
CN117827784A (zh) 噪音日志的过滤方法、***
CN109522184A (zh) 一种服务器***安全监控方法、装置及终端
CN110609761A (zh) 确定故障源的方法、装置、存储介质和电子设备
CN114116128B (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN111211938B (zh) 生物信息软件监控***及方法
CN115941441A (zh) ***链路自动化监控运维方法、***、设备以及介质
CN114861909A (zh) 模型质量监控方法、装置、电子设备以及存储介质
CN114661506A (zh) 故障隔离方法和故障隔离装置
CN111935279B (zh) 基于区块链和大数据的物联网络维护方法及计算节点
CN113850428A (zh) 作业调度的预测处理方法、装置和电子设备
CN113238888A (zh) 数据处理方法、***及装置
CN108959100A (zh) 应用程序的测试方法、装置和***
CN111131292B (zh) 报文分流方法、装置、网络安全检测设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination