CN113778735A - 一种故障处理方法、装置及计算机可读存储介质 - Google Patents

一种故障处理方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN113778735A
CN113778735A CN202111039126.6A CN202111039126A CN113778735A CN 113778735 A CN113778735 A CN 113778735A CN 202111039126 A CN202111039126 A CN 202111039126A CN 113778735 A CN113778735 A CN 113778735A
Authority
CN
China
Prior art keywords
fault
container
reason
repairing
scheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111039126.6A
Other languages
English (en)
Other versions
CN113778735B (zh
Inventor
李嘉荣
黎原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111039126.6A priority Critical patent/CN113778735B/zh
Publication of CN113778735A publication Critical patent/CN113778735A/zh
Application granted granted Critical
Publication of CN113778735B publication Critical patent/CN113778735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0712Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a virtual computing platform, e.g. logically partitioned systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/455Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
    • G06F9/45533Hypervisors; Virtual machine monitors
    • G06F9/45558Hypervisor-specific management and integration aspects
    • G06F2009/45591Monitoring or debugging support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/815Virtual

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种故障处理方法、装置及计算机可读存储介质,涉及互联网技术领域,能够提高容器故障处理的效率和准确性。该故障处理方法包括:在第一容器发生故障的情况下,根据第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;根据第一故障原因以及预设对应关系,确定第一故障修复方案,预设对应关系为故障原因与故障修复方案之间的对应关系;创建与发生故障的第一容器相同的第二容器;根据第一故障修复方案,对第二容器进行修复操作;若修复后的第二容器正常工作,输出第一故障修复方案。

Description

一种故障处理方法、装置及计算机可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种故障处理方法、装置及计算机可读存储介质。
背景技术
平台即服务(platformas a service,PaaS)云平台,是云计算服务的其中一种实现模式,它将计算、存储、网络、操作***、数据库和中间件等基础资源平台化,并以平台服务的方式交付用户使用,通过设置不同的容器,为应用程序提供完整的开发和运行环境。同时,PaaS云平台还为应用程序提供了诸如应用调试、应用部署、性能监控、负载均衡、资源按需调整和自动伸缩等服务,能够简化应用程序的开发流程,提高应用程序的开发效率。
在PaaS云平台中,不同的应用程序运行于不同的容器,从而实现PaaS云平台可以提供不同的服务。但在这些容器以及应用程序出现故障后,需要人工对每个容器中可能出现的故障进行排查,分析处理。上述容器的故障处理方案中需要大量人工处理,导致故障处理的效率和准确性较低。
发明内容
本申请提供一种故障处理方法、装置及计算机可读存储介质,能够提高容器故障处理的效率和准确性。
第一方面,本申请提供一种故障处理方法,该故障处理方法包括:在第一容器发生故障的情况下,根据第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;根据第一故障原因以及预设对应关系,确定第一故障修复方案,预设对应关系为故障原因与故障修复方案之间的对应关系;创建与发生故障的第一容器相同的第二容器;根据第一故障修复方案,对第二容器进行修复操作;若修复后的第二容器正常工作,输出第一故障修复方案。
本申请实施例提供的技术方案,可以根据故障原因预测模型预测第一容器的故障原因,无需人工分析,自动确定故障原因,提高了容器的故障处理效率。进一步的,本申请实施例可以根据自动分析出的故障原因,确定故障修复方案,并根据故障修复方案对与第一容器相同的第二容器进行修复,以验证故障修复方案。由于故障修复方案和故障原因存在对应关系,因此,经过验证的故障修复方案,更加符合第一容器发生的故障,使得对于容器的故障处理更加准确。从而提高了容器故障处理的效率和准确性。
在一些实施例中,故障原因预测模型通过以下方式训练得到:获取训练样本集,训练样本集包括多个训练样本,训练样本包括故障原因和故障结果;根据训练样本集,训练生成故障原因预测模型;训练过程中,故障原因预测模型的输入为训练样本中的故障结果,输出为训练样本中的故障原因。如此一来,本申请实施例可以根据训练样本,对容器可能发生的故障进行收集整理,形成训练样本集,生成故障原因预测模型,使得非专业人员可以根据故障原因预测模型对PaaS云平台的故障进行处理,提高PaaS云平台的故障处理的效率和准确性。
在一些实施例中,该方法还包括:在第一容器正常运行的情况下,生成与正常运行的第一容器相同的第三容器;对第三容器的配置信息进行修改;若修改后的第三容器发生故障,则记录第二故障结果,并以第三容器的配置信息被修改的内容作为第二故障原因;以第二故障结果和第二故障原因作为训练样本。
在一些实施例中,该方法还包括:根据第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的第三容器的故障特征信息,故障特征信息为修改后的第三容器的配置信息区别于第一容器的配置信息的内容;对修改后的第三容器的故障特征信息进行修复操作;若修复后的第三容器正常工作,则将修复操作记录于第二故障修复方案中,并建立第二故障修复方案与第二故障原因之间的对应关系。如此一来,可以根据发生故障的容器与正常工作的容器之间的差异,确定故障修复方案,提高了故障修复方案的有效性。并建立第二故障修复方案与第二故障原因之间的对应关系,使得故障处理装置可以根据故障原因以及对应关系,确定有效的故障修复方案。从而提高了容器故障处理过程中的有效性和准确性,进一步提高容器的故障处理效率。
在一些实施例中,输出第一故障修复方案,包括:向维护人员使用的客户端发送第一故障修复方案。如此,维护人员可以根据第一故障修复方案对容器的故障进行处理,提高容器的故障处理效率。
第二方面,本申请实施例中还提供一种故障处理装置,该故障处理装置包括:处理模块和通信模块。处理模块,用于在第一容器发生故障的情况下,根据第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;根据第一故障原因以及预设对应关系,确定第一故障修复方案,预设对应关系为故障原因与故障修复方案之间的对应关系;创建与发生故障的第一容器相同的第二容器;根据第一故障修复方案,对第二容器进行修复操作。通信模块,用于若修复后的第二容器正常工作,输出第一故障修复方案。
在一些实施例中,通信模块,还用于获取训练样本集,训练样本集包括多个训练样本,训练样本包括故障原因和故障结果;处理模块,还用于根据训练样本集,训练生成故障原因预测模型;训练过程中,故障原因预测模型的输入为训练样本中的故障结果,输出为训练样本中的故障原因。
在一些实施例中,处理模块,具体用于在第一容器正常运行的情况下,生成与正常运行的第一容器相同的第三容器;对第三容器的配置信息进行修改;若修改后的第三容器发生故障,则记录第二故障结果,并以第三容器的配置信息被修改的内容作为第二故障原因;以第二故障结果和第二故障原因作为训练样本。
在一些实施例中,处理模块,还用于根据第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的第三容器的故障特征信息,故障特征信息为修改后的第三容器的配置信息区别于第一容器的配置信息的内容;对修改后的第三容器的故障特征信息进行修复操作;若修复后的第三容器正常工作,则将修复操作记录于第二故障修复方案中,并建立第二故障修复方案与第二故障原因之间的对应关系。
在一些实施例中,通信模块,具体用于向维护人员使用的客户端发送第一故障修复方案。
第三方面,本申请实施例中还提供一种故障处理装置,包括:处理器与通信接口。处理器与通信接口用于实现上述第一方面或任意一种可能的实施例中的故障处理方法。
第四方面,本申请实施例中还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,当计算机指令被执行时,实现上述第一方面或任意一种可能的实施例中的故障处理方法。
第五方面,本申请实施例中还提供一种计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或任意一种可能的实施例中的故障处理方法。
上述第二方面至第五方面中任一种设计所带来的技术效果可以参见第一方面对应设计所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种Paas云平台的架构图;
图2为本申请实施例提供的一种故障处理装置的结构示意图;
图3为本申请实施例提供的一种故障处理方法的流程示意图;
图4为本申请实施例提供的另一种故障处理方法的流程示意图;
图5为本申请实施例提供的另一种故障处理方法的流程示意图;
图6为本申请实施例提供的另一种故障处理方法的流程示意图;
图7为本申请实施例提供的另一种故障处理装置的结构示意图。
具体实施方式
下面将结合附图,对本申请一些实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请所提供的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
除非上下文另有要求,否则,在整个说明书和权利要求书中,术语“包括”被解释为开放、包含的意思,即为“包含,但不限于”。在说明书的描述中,术语“一个实施例”、“一些实施例”、“示例性实施例”、“示例”或“一些示例”等旨在表明与该实施例或示例相关的特定特征、结构、材料或特性包括在本申请的至少一个实施例或示例中。上述术语的示意性表示不一定是指同一实施例或示例。
以下,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
“A、B和C中的至少一个”与“A、B或C中的至少一个”具有相同含义,均包括以下A、B和C的组合:仅A,仅B,仅C,A和B的组合,A和C的组合,B和C的组合,及A、B和C的组合。
“A和/或B”,包括以下三种组合:仅A,仅B,及A和B的组合。
如图1所示,PaaS云平台中存在多个节点,节点用于实现计算、存储、网络、操作***、数据库和中间件等各种不同的功能。例如,节点10,节点20,节点30,节点40可以为PaaS云平台中的计算节点,通过完成计算任务,为PaaS云平台中的其他节点或设备提供计算。
在图1所示的架构中,节点中可以设置多个容器,其中,容器用于为服务的应用程序提供运行环境。例如,节点10可以设置容器11,容器12,容器13,容器14。
一方面,PaaS云平台中的容器数量大,经过长时间运行,容器自身的程序以及服务的应用程序容易出现故障,使得容器出现故障,容器内的服务不可用。另一方面,容器中服务接收到的应用参数存在不确定因素,应用参数取值不同可能导致容器出现故障,容器内的服务不可用。
在上述故障发生时,需要开发维护人员对容器进行故障分析,以修复不可用的容器。而容器的种类多,数量大,需要耗费大量人工处理,且对故障预测的准确率较低。
为了解决上述技术问题,本申请提供了一种故障处理方法,本申请实施例提供的技术方案可以应用于上述PaaS云平台,或者,还可以应用于设置有容器的其他平台。
为了实现本申请实施例提供的故障处理方法,本申请实施例提供了一种故障处理装置,用于执行该故障处理方法,图2为本申请实施例提供的一种故障处理装置的结构示意图。如图2所示,该故障处理装置200包括至少一个处理器201,通信线路202,以及至少一个通信接口204,还可以包括存储器203。其中,处理器201,存储器203以及通信接口204三者之间可以通过通信线路202连接。
处理器201可以是一个中央处理器(central processing unit,CPU),也可以是特定集成电路(application specific integrated circuit,ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路,例如:一个或多个数字信号处理器(digital signalprocessor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)。
通信线路202可以包括一通路,用于在上述组件之间传送信息。
通信接口204,用于与PaaS云平台中的其他节点或者其他设备进行通信,或者还用于与PaaS云平台之外的通信网络进行通信,可以使用任何收发器一类的装置,如以太网,无线接入网(radio access network,RAN),无线局域网(wireless local area networks,WLAN)等。
存储器203可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-only memory,EEPROM)、只读光盘(compact disc read-only memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于包括或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
一种可能的设计中,存储器203可以独立于处理器201存在,即存储器203可以为处理器201外部的存储器,此时,存储器203可以通过通信线路202与处理器201相连接,用于存储执行指令或者应用程序代码,并由处理器201来控制执行,实现本申请下述实施例提供的故障处理方法。又一种可能的设计中,存储器203也可以和处理器201集成在一起,即存储器203可以为处理器201的内部存储器,例如,该存储器203为高速缓存,可以用于暂存一些数据和指令信息等。
作为一种可实现方式,处理器201可以包括一个或多个CPU,例如图1中的CPU0和CPU1。
作为另一种可实现方式,故障处理装置200可以包括多个处理器,例如图2中的处理器201和处理器207。
作为再一种可实现方式,故障处理装置200还可以包括输出设备205和输入设备206。输出设备205和处理器201通信,可以以多种方式来显示信息。例如,输出设备205可以是液晶显示器(liquid crystal display,LCD),发光二级管(light emitting diode,LED)显示设备,阴极射线管(cathode ray tube,CRT)显示设备,或投影仪(projector)等。输入设备206和处理器201通信,可以以多种方式接收用户的输入。例如,输入设备206可以是鼠标、键盘、触摸屏设备或传感设备等。
如图3所示,本申请实施例提供了一种故障处理方法,应用于图2中的故障处理装置200,该方法包括步骤S301-S305:
S301、在第一容器发生故障的情况下,根据第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因。
在一些实施例中,第一容器发生的故障可以是第一容器的程序或者第一容器内服务的程序发生的故障。
在另一些实施例中,第一容器发生的故障可以是第一容器内服务接收到的应用参数不正确导致的故障。示例性的,结合图1进行举例说明,节点30中容器31设置有数据库访问的服务。容器31内的服务可以同时接受20个数据库访问的服务请求,也即“最大连接数=20”。假设容器31接收到的连接数=30,超过容器31的最大连接数,此时容器31会产生故障。
可选的,第一容器的第一故障结果,可以包括第一容器发生故障后第一容器的运行状态。示例性的,第一容器发生故障后的运行状态可以为第一容器发生故障后的运行参数信息。例如,第一容器的内存占用情况或者硬盘占用情况。
进一步的,第一容器的第一故障结果,还包括第一容器发生故障后第一容器的反馈结果。示例性的,第一容器发生故障后的反馈结果可以为第一容器发生故障后第一容器内服务的运行结果。例如,第一容器内服务的运行结果可以为用于表示最大连接数超出的指示信息。
本申请实施例中,故障原因预测模型用于确定第一容器发生故障的故障原因。故障原因预测模型是根据第一容器可能发生的故障的故障结果和故障原因进行训练得到的。
在一些实施例中,一个故障结果可以对应一个或多个故障原因,示例性的,第一故障原因可以为第一容器内服务的程序中的一条或多条指令代码发生错误。又一示例性的,第一故障原因可以为第一容器内服务接收到的一个或多个应用参数不正确。
S302、根据第一故障原因以及预设对应关系,确定第一故障修复方案。
其中,预设对应关系可以为故障原因与故障修复方案之间的对应关系。
示例性的,一个故障原因可以对应一个或多个故障修复方案。因此,需要对一个或多个故障修复方案进行验证,以提高对故障预测的准确率。
在一些实施例中,故障修复方案用于修复发生故障的第一容器,以使得第一容器正常工作。
示例性的,故障修复方案可以为对第一容器的程序或者第一容器内服务的程序进行修改。或者,故障修复方案可以为对第一容器内服务接收到的应用参数进行修改。或者,故障修复方案可以为对第一容器内服务的程序中的应用参数进行修改。
S303、创建与发生故障的第一容器相同的第二容器。
其中,第二容器为发生故障的第一容器的复制品。第二容器用于测试第一故障修复方案。本申请实施例通过第二容器测试第一故障修复方案,即可实现对第一容器的测试。相应的,第二容器对于第一故障修复方案的测试结果,同样适用于第一容器。
在一些实施例中,第二容器的数量可以根据故障修复方案的数量确定。如步骤301中所述,一个故障原因可以对应一个或多个故障修复方案。本申请中第二容器的数量可以和故障修复方案的数量相同,从而可以同时对多个故障修复方案进行测试,更快的得到对于故障修复方案的测试结果,提高了故障修复方案的测试效率。
作为一种可能的实现方式,故障处理装置可以根据第一容器的配置信息,创建第二容器。示例性的,故障处理装置可以直接根据第一容器的容器环境,建立未运行服务的容器,在该未运行的容器中,根据第一容器中服务的程序信息和应用参数,运行第一容器中的服务,得到发生故障的第二容器。
可以理解的是,根据第一容器的配置信息创建的第二容器,具有与第一容器相同的故障,从而故障处理装置可以通过对第二容器进行故障处理,以替代对第一容器的故障处理。
S304、根据第一故障修复方案,对第二容器进行修复操作。
作为一种可能的实现方式,对第一容器的程序和/或第一容器内服务的程序进行修复,以实现对第二容器的修复操作。
作为另一种可能的实现方式,对第一容器接收到的应用参数和/或第一容器内服务的运行参数进行修复,以实现对第二容器的修复操作。
应理解,第一容器为Paas云平台中正在运行的容器,第一容器的稳定性直接关系到Paas云平台或第一容器所在节点的稳定性。直接对第一容器进行程序修改可能导致Paas云平台或第一容器所在节点出现问题,影响Paas云平台或第一容器所在节点的安全稳定运行。而对与发生故障的第一容器相同的第二容器进行修复操作,可以避免对第一容器进行修改,且对第二容器修复操作的处理结果同样适用于第一容器。因此,本申请对与发生故障的第一容器相同的第二容器进行修复操作,可以避免第一容器的故障处理对Paas云平台或第一容器所在节点的影响。
S305、若修复后的第二容器正常工作,输出第一故障修复方案。
在一些实施例中,输出第一故障修复方案,包括:向维护人员使用的客户端发送第一故障修复方案。
应理解,若修复后的第二容器正常工作,则相对于第一容器发生的故障而言,该第二容器对应的第一故障修复方案,是正确的故障修复方案。第一故障原因是正确的的故障原因。
若修复后的第二容器不能正常工作,则相对于第一容器发生的故障而言,该第二容器对应的第一故障修复方案不正确,不是用于修复第一容器发生的故障的故障修复方案。
本申请实施例提供的技术方案,先对第一容器的故障原因进行预测,并通过建立发生相同故障的第二容器,实现对故障原因对应的故障修复方案的验证,经验证的故障修复方案对应的故障原因更加准确,提高PaaS云平台的故障处理的准确性。在该过程中无需大量人工处理,减少PaaS云平台的故障处理中的人工参与。从而提高了PaaS云平台的故障处理的效率和准确性。
在一些实施例中,在维护人员接收到第一故障修复方案之后,可以根据第一故障修复方案,对第一容器进行修复,以使得第一容器正常运行,提高了PaaS云平台的故障处理的效率。
在一些实施例中,故障处理装置还可以向维护人员发送用于指示该故障处理方法中处理过程的信息。其中,该信息可以包括第一容器的第一故障结果,第一故障原因,以及对第二容器的修复结果。从而维护人员可以对第一容器发生的故障进行综合判断,提高第一容器修复的成功率。
在一些实施例中,故障处理装置还可以向第一容器对应的节点发送用于指示重新建立第一容器的信息。也即,在第一容器无法修复的情况下,第一容器对应的节点可以重新建立第一容器,继续提供服务。
在一些实施例中,故障处理装置还可以接收维护人员的第一指令信息,其中,第一指令信息用于规定可以自动修复的故障原因,以及对应的故障修复方案。从而故障处理装置可以根据该故障处理方法,自动修复PaaS云平台中出现的故障,减少PaaS云平台故障处理中的人工操作。
在一些实施例中,故障处理装置还可以接收维护人员的第二指令信息,其中,第二指令信息用于规定不可自动修复的故障原因。从而故障处理装置可以保证PaaS云平台故障处理中安全性。
可选的,在第一容器发生故障之前,故障处理装置可以建立故障原因预测模型,使得故障处理装置可以根据故障原因预测模型,对第一容器发生的故障进行处理。如图4所示,故障原因预测模型通过步骤S401-S402训练得到:
S401、获取训练样本集。
其中,训练样本集包括多个训练样本。
在一些实施例中,训练样本包括故障原因和故障结果。故障原因和故障结果之间存在对应关系。示例性的,一个故障原因可以对应一个或多个故障结果。或者,一个故障结果可以对应一个或多个故障原因。
作为一种可能的实现方式,如图5所示,训练样本可以通过步骤A1-A4确定。
A1、在第一容器正常运行的情况下,生成与正常运行的第一容器相同的第三容器。
其中,第三容器用于对故障库中的故障原因进行测试。故障库为多个故障原因组成的集合。
示例性,故障处理装置可以接收用于指示建立故障库的信息,其中,该信息中可以包括维护人员输入的第一容器可能发生的故障原因。
又一示例性,故障处理装置可以接收用于指示更新故障库的信息,其中,该信息中可以包括第一容器可能发生的故障中新增加的故障原因。
A2、对第三容器的配置信息进行修改。
在一些实施例中,故障处理装置可以根据故障库中的故障原因,对第一容器的配置信息进行修改。示例性的,假设其中一个故障原因为服务待输入的应用参数发生变更,则故障处理装置可以改变第三容器中服务待输入的应用参数。
A3、若修改后的第三容器发生故障,则记录第二故障结果,并以第三容器的配置信息被修改的内容作为第二故障原因。
其中,第二故障结果可以为第三容器发生故障后的运行状态,或者,还可以为第三容器发生故障后的反馈结果。
在一些实施例中,第二故障原因可以为故障库中的故障原因中的其中之一。示例性的,第二故障原因可以为故障库中的故障原因中用于表示服务待输入的应用参数发生变更的故障原因。
在一些实施例中,若修改后的第三容器正常工作,则删除该第三容器,并重新生成与正常工作的第一容器相同的第三容器,从而实现对故障库中故障原因的自动测试。
A4、以第二故障结果和第二故障原因作为训练样本。
在本申请实施例中,故障处理装置还需要保存第二故障结果和第二故障原因之间的对应关系,从而故障处理装置可以根据故障结果确定故障原因。
S402、根据训练样本集,训练生成故障原因预测模型;训练过程中,故障原因预测模型的输入为训练样本中的故障结果,输出为训练样本中的故障原因。
需要说明的是,故障原因预测模型的训练过程为有监督训练,也即,故障结果,故障原因,以及故障结果和故障原因之间的对应关系是确定的。
如此一来,本申请实施例可以根据开发维护人员的指示,对容器可能发生的故障进行收集整理,形成训练样本,生成故障原因预测模型,使得非专业人员可以根据故障原因预测模型对PaaS云平台的故障进行处理,提高PaaS云平台的故障处理的效率和准确性。
可选的,在故障原因预测模型训练结束之后,对于修改后的第三容器发生的故障,故障处理装置还可以对修改后的第三容器进行修复,并确定故障修复方案。从而建立故障原因与故障修复方案之间的对应关系。
如图6所示,故障原因与故障修复方案之间的对应关系的建立过程可以包括步骤B1-B3:
B1、根据第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的第三容器的故障特征信息。
其中,故障特征信息为修改后的第三容器的配置信息区别于第一容器的配置信息的内容。
示例性的,以第三容器的配置信息为第三容器内服务的应用参数为例。假设,第一容器的中“最大连接数=20”,第三容器的中“最大连接数=5”,则故障特征信息为“最大连接数=5”。
可以理解的是,第一容器为正常运行的容器,修改后的第三容器为发生故障的容器,故障特征信息可以表示,发生故障的容器与正常运行的容器之间的差异信息,也即,修改后的第三容器的配置信息区别于第一容器的配置信息的内容。从而,故障处理装置可以根据发生故障的容器与正常运行的容器之间的差异信息,对发生故障的容器(第三容器)进行修复。
B2、对修改后的第三容器的故障特征信息进行修复操作。
作为一种可能的实现方式,对修改后的第三容器的故障特征信息进行修复操作,可以实现故障处理装置可以将第三容器的故障特征信息对应的配置信息修改为与第一容器的配置信息相同。
B3、若修复后的第三容器正常工作,则将修复操作记录于第二故障修复方案中,并建立第二故障修复方案与第二故障原因之间的对应关系。
在一些实施例中,若修复后的第三容器正常工作,则表示第三容器修复成功,也即,第二故障修复方案适用于第二故障原因。从而故障处理装置可以建立第二故障修复方案与第二故障原因之间的对应关系,以使得故障处理装置可以根据故障原因以及预设对应关系,确定故障修复方案。
如此一来,本申请实施例可以根据发生故障的容器与正常工作的容器之间的差异确定故障修复方案,使得故障修复方案可以有效修复发生故障的容器,提高故障修复方案的修复效率。
可以看出,上述主要从方法的角度对本申请实施例提供的技术方案进行了介绍。为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的模块及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
本申请实施例可以根据上述方法示例对故障处理装置进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。可选的,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
如图7所示,为本申请实施例提供的另一种故障处理装置的结构示意图。该故障处理装置包括:处理模块701和通信模块702。
处理模块701,用于在第一容器发生故障的情况下,根据第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;根据第一故障原因以及预设对应关系,确定第一故障修复方案,预设对应关系为故障原因与故障修复方案之间的对应关系;创建与发生故障的第一容器相同的第二容器;根据第一故障修复方案,对第二容器进行修复操作;
通信模块702,用于若修复后的第二容器正常工作,输出第一故障修复方案。
在一些实施例中,通信模块702,还用于获取训练样本集,训练样本集包括多个训练样本,训练样本包括故障原因和故障结果;处理模块701,还用于根据训练样本集,训练生成故障原因预测模型;训练过程中,故障原因预测模型的输入为训练样本中的故障结果,输出为训练样本中的故障原因。
在一些实施例中,处理模块701,具体用于在第一容器正常运行的情况下,生成与正常运行的第一容器相同的第三容器;对第三容器的配置信息进行修改;若修改后的第三容器发生故障,则记录第二故障结果,并以第三容器的配置信息被修改的内容作为第二故障原因;以第二故障结果和第二故障原因作为训练样本。
在一些实施例中,处理模块701,还用于根据第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的第三容器的故障特征信息,故障特征信息为修改后的第三容器的配置信息区别于第一容器的配置信息的内容;对修改后的第三容器的故障特征信息进行修复操作;若修复后的第三容器正常工作,则将修复操作记录于第二故障修复方案中,并建立第二故障修复方案与第二故障原因之间的对应关系。
在一些实施例中,通信模块702,具体用于向维护人员使用的客户端发送第一故障修复方案。
可选的,该故障处理装置还可以包括存储模块,用于存储故障处理装置的程序代码和/或数据。例如上述故障处理方法的程序代码。又例如包括上述故障处理方法中涉及的包括各种故障原因的故障库。
其中,处理模块701可以是处理器或控制器。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等等。通信模块702可以是收发电路或通信接口等。存储模块可以是存储器。当处理模块701为处理器,通信模块702为通信接口,存储模块为存储器时,本申请实施例所涉及的故障处理装置可以为图2所示故障处理装置。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质包括计算机执行指令,当计算机执行指令在计算机上运行时,使得计算机执行如上述实施例提供的故障处理方法。
本发明实施例还提供一种计算机程序产品,该计算机程序产品可直接加载到存储器中,并含有软件代码,该计算机程序产品经由计算机载入并执行后能够实现上述实施例提供的故障处理方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是一个物理单元或多个物理单元,即可以位于一个地方,或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何在本申请揭露的技术范围内的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (12)

1.一种故障处理方法,其特征在于,所述方法包括:
在第一容器发生故障的情况下,根据所述第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;
根据所述第一故障原因以及预设对应关系,确定第一故障修复方案,所述预设对应关系为故障原因与故障修复方案之间的对应关系;
创建与发生故障的所述第一容器相同的第二容器;
根据所述第一故障修复方案,对所述第二容器进行修复操作;
若修复后的所述第二容器正常工作,输出所述第一故障修复方案。
2.根据权利要求1所述的方法,其特征在于,所述故障原因预测模型通过以下方式训练得到:
获取训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括故障原因和故障结果;
根据所述训练样本集,训练生成所述故障原因预测模型;训练过程中,所述故障原因预测模型的输入为所述训练样本中的故障结果,输出为所述训练样本中的故障原因。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述第一容器正常运行的情况下,生成与正常运行的所述第一容器相同的第三容器;
对所述第三容器的配置信息进行修改;
若修改后的所述第三容器发生故障,则记录第二故障结果,并以所述第三容器的配置信息被修改的内容作为第二故障原因;
以所述第二故障结果和所述第二故障原因作为训练样本。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的所述第三容器的故障特征信息,所述故障特征信息为修改后的所述第三容器的配置信息区别于所述第一容器的配置信息的内容;
对修改后的所述第三容器的故障特征信息进行修复操作;
若修复后的所述第三容器正常工作,则将所述修复操作记录于第二故障修复方案中,并建立所述第二故障修复方案与所述第二故障原因之间的对应关系。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述输出所述第一故障修复方案,包括:
向维护人员使用的客户端发送所述第一故障修复方案。
6.一种故障处理装置,其特征在于,所述故障处理装置包括:处理模块和通信模块;
处理模块,用于在第一容器发生故障的情况下,根据所述第一容器的第一故障结果以及预先训练的故障原因预测模型,确定第一故障原因;根据所述第一故障原因以及预设对应关系,确定第一故障修复方案,所述预设对应关系为故障原因与故障修复方案之间的对应关系;创建与发生故障的所述第一容器相同的第二容器;根据所述第一故障修复方案,对所述第二容器进行修复操作;
通信模块,用于若修复后的所述第二容器正常工作,输出所述第一故障修复方案。
7.根据权利要求6所述的故障处理装置,其特征在于,
所述通信模块,还用于获取训练样本集,所述训练样本集包括多个训练样本,所述训练样本包括故障原因和故障结果;
所述处理模块,还用于根据所述训练样本集,训练生成所述故障原因预测模型;训练过程中,所述故障原因预测模型的输入为所述训练样本中的故障结果,输出为所述训练样本中的故障原因。
8.根据权利要求7所述的故障处理装置,其特征在于,
所述处理模块,具体用于在所述第一容器正常运行的情况下,生成与正常运行的所述第一容器相同的第三容器;对所述第三容器的配置信息进行修改;若修改后的所述第三容器发生故障,则记录第二故障结果,并以所述第三容器的配置信息被修改的内容作为第二故障原因;以所述第二故障结果和所述第二故障原因作为训练样本。
9.根据权利要求8所述的故障处理装置,其特征在于,
所述处理模块,还用于根据所述第一容器的配置信息和修改后的第三容器的配置信息,确定修改后的所述第三容器的故障特征信息,所述故障特征信息为修改后的所述第三容器的配置信息区别于所述第一容器的配置信息的内容;对修改后的所述第三容器的故障特征信息进行修复操作;若修复后的所述第三容器正常工作,则将所述修复操作记录于第二故障修复方案中,并建立所述第二故障修复方案与所述第二故障原因之间的对应关系。
10.根据权利要求6至9任一项所述的故障处理装置,其特征在于,所述通信模块,具体用于向维护人员使用的客户端发送所述第一故障修复方案。
11.一种故障处理装置,其特征在于,包括:处理器与通信接口,所述处理器与通信接口用于实现上述权利要求1至5中任一项所述的故障处理方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被执行时,用于实现上述权利要求1至5中任一项中所述的故障处理方法。
CN202111039126.6A 2021-09-06 2021-09-06 一种故障处理方法、装置及计算机可读存储介质 Active CN113778735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111039126.6A CN113778735B (zh) 2021-09-06 2021-09-06 一种故障处理方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111039126.6A CN113778735B (zh) 2021-09-06 2021-09-06 一种故障处理方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113778735A true CN113778735A (zh) 2021-12-10
CN113778735B CN113778735B (zh) 2024-06-21

Family

ID=78841282

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111039126.6A Active CN113778735B (zh) 2021-09-06 2021-09-06 一种故障处理方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113778735B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726101A (zh) * 2022-04-25 2022-07-08 广州恒泰电力工程有限公司 一种用电控制的智能配电终端监测方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915263A (zh) * 2015-06-30 2015-09-16 北京奇虎科技有限公司 基于容器技术的进程故障处理方法及装置
US20190129788A1 (en) * 2017-10-31 2019-05-02 Paypal, Inc. Automated, adaptive, and auto-remediating system for production environment
CN111880981A (zh) * 2020-07-30 2020-11-03 北京浪潮数据技术有限公司 一种docker容器的故障修复方法及相关装置
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915263A (zh) * 2015-06-30 2015-09-16 北京奇虎科技有限公司 基于容器技术的进程故障处理方法及装置
US20190129788A1 (en) * 2017-10-31 2019-05-02 Paypal, Inc. Automated, adaptive, and auto-remediating system for production environment
CN113328872A (zh) * 2020-02-29 2021-08-31 华为技术有限公司 故障修复方法、装置和存储介质
CN111880981A (zh) * 2020-07-30 2020-11-03 北京浪潮数据技术有限公司 一种docker容器的故障修复方法及相关装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726101A (zh) * 2022-04-25 2022-07-08 广州恒泰电力工程有限公司 一种用电控制的智能配电终端监测方法及***

Also Published As

Publication number Publication date
CN113778735B (zh) 2024-06-21

Similar Documents

Publication Publication Date Title
CN108388489B (zh) 一种服务器故障诊断方法、***、设备及存储介质
US7174265B2 (en) Heterogeneous multipath path network test system
CN111651366B (zh) Sdk测试方法、装置、设备及存储介质
US8954579B2 (en) Transaction-level health monitoring of online services
US20180285247A1 (en) Systems, methods, and apparatus for automated code testing
US8996917B1 (en) Systems and methods for testing a central controller in a centrally managed network
US20170109260A1 (en) Test Simulation for Software Defined Networking Environments
CN109388569B (zh) 远程检测客户端环境异常的方法、测试服务器及存储介质
CN111708650B (zh) 一种业务应用***高可用性分析方法及***
JP2017201470A (ja) 設定支援プログラム、設定支援方法及び設定支援装置
US11645172B1 (en) Managing data center failure events
JP2023554057A (ja) 隠れ変数、隠れ属性、および隠れ値検出を用いたシステム・テスト・インフラストラクチャ
CN114168471A (zh) 测试方法、装置、电子设备及存储介质
CN113778735B (zh) 一种故障处理方法、装置及计算机可读存储介质
US9367384B2 (en) Admission control based on the end-to-end availability
JP2006252189A (ja) アプリケーション運用管理システム及び方法
CN105027083B (zh) 使用诊断结果的恢复程序
CN111737130B (zh) 公有云多租户认证服务测试方法、装置、设备及储存介质
KR20220116330A (ko) 결정적 순서로의 테스트들 실행
CN112558990A (zh) 一种车载安全计算机的维护升级方法及***
US12038828B2 (en) Distributed debugging environment for a continuous integration pipeline
US20240061765A1 (en) Distributed debugging environment for a continuous integration pipeline
KR102471314B1 (ko) 항공기 소프트웨어에서 순서위배의 자율적 수리를 위한 건전성 관리 시스템 및 방법
US11392444B1 (en) Method and apparatus for analysis of runtime behavior
TWI732163B (zh) 應用於分散式軟體儲存系統之部署與效能檢測之系統及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant