CN114756399A - 一种故障检测方法及相关装置 - Google Patents

一种故障检测方法及相关装置 Download PDF

Info

Publication number
CN114756399A
CN114756399A CN202210455547.5A CN202210455547A CN114756399A CN 114756399 A CN114756399 A CN 114756399A CN 202210455547 A CN202210455547 A CN 202210455547A CN 114756399 A CN114756399 A CN 114756399A
Authority
CN
China
Prior art keywords
indexes
data
host machine
host
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210455547.5A
Other languages
English (en)
Inventor
程鹏
白佳乐
任政
郑杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202210455547.5A priority Critical patent/CN114756399A/zh
Publication of CN114756399A publication Critical patent/CN114756399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0781Error filtering or prioritizing based on a policy defined by the user or on a policy defined by a hardware/software module, e.g. according to a severity level
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Genetics & Genomics (AREA)
  • Physiology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请提供了一种故障检测方法及相关装置,涉及人工智能领域,可用于金融领域或其他领域。该方法包括:从待检测的宿主机获取多个指标的数据;将多个指标的数据输入至预训练得到的模型中,以确定宿主机发生故障的概率。通过上述方法,使用预训练得到的模型处理从待检测的宿主机上获取的数据,并通过处理结果确定宿主机存在故障的概率。使用模型处理数据进行故障检测可以克服人工故障检测的检测速度慢、检测效率低的问题。

Description

一种故障检测方法及相关装置
技术领域
本申请涉及人工智能领域,尤其涉及一种故障检测方法及相关装置。
背景技术
当前对于服务器的故障检测,往往采用指标监控结合人工分析的手段进行。例如对服务器的中央处理器(central processing unit,CPU)运行情况、内存运行情况等进行监控,如果超过某一阈值则触发报警,然后人工介入进行故障检测,确定故障的原因。
然而,由于这种服务器故障检测的方法依赖于人工分析,存在检测速度慢、检测效率低的问题。
发明内容
本申请提供了一种故障检测方法及相关装置,以期提高检测速度,提升检测效率。
第一方面,本申请提供了一种故障检测方法,该方法包括:从待检测的宿主机获取多个指标的数据;将多个指标的数据输入至预训练得到的模型中,以确定宿主机发生故障的概率;其中,模型基于M个指标的数据训练得到,该M个指标是从N个指标中根据每个指标与宿主机状态的相关性确定的,宿主机状态包括正常或故障,所述N个指标的数据包括从一个或多个宿主机获取到的历史数据,且该N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据,M≤N,M、N为正整数。
通过上述方法,使用预训练得到的模型处理从待检测的宿主机上获取的数据,并通过处理结果确定宿主机存在故障的概率。使用模型来进行故障检测,可以克服人工故障检测的检测速度慢、检测效率低的问题。
结合第一方面,在第一方面的某些可能的实现方式中,该方法还包括:获取N个指标的数据,N个指标的数据包括从一个或多个宿主机获取到的历史数据,且N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据;对N个指标进行降维处理,得到M个指标;基于M个指标的数据对模型进行训练。
结合第一方面,在第一方面的某些可能的实现方式中,N个指标包括如下至少一项:宿主机的互联网协议(internet protocol,IP)地址、运行在宿主机上的容器的标识(identity,ID)、宿主机的CPU资源中分配给各容器使用的CPU资源、宿主机的内存资源中分配各容器使用的内存资源、运行在宿主机上的容器的重启时间、宿主机CPU使用率、宿主机内存使用率、宿主机CPU性能值、宿主机的内存大小、宿主机CPU满报错率、宿主机内存使用超限报错率、宿主机输入输出(input output,IO)使用超限报错率、宿主机网络访问报错率、宿主机网络连接数和运行在宿主机上的容器的失联时间。
结合第一方面,在第一方面的某些可能的实现方式中,对N个指标进行降维处理,得到M个指标,包括:确定N个指标中每个指标的权重,每个指标的权重用于指示每个指标与宿主机状态的相关性,宿主机状态包括正常或故障;基于N个指标中每个指标的权重,以及预设门限,对该N个指标进行降维处理,得到M个指标,该M个指标不包括权重低于预设门限的指标。
结合第一方面,在第一方面的某些可能的实现方式中,确定N个指标中每个指标的权重,包括:从N个指标的数据中获取第一样本集和第二样本集,第一样本集包括一个或多个样本,每个样本包括一个宿主机故障时N个指标的数据,第二样本集包括一个或多个样本,每个样本包括一个宿主机正常时N个指标的数据;确定N个指标中的第n个指标的权重,第n个指标的权重由至少一组同类样本中每组同类样本之间的距离和至少一组异类样本中每组异类样本之间的距离确定;其中,至少一组同类样本包括来自第一样本集或第二样本集的样本,每组同类样本包括两个样本,至少一组异类样本包括分别来自第一样本集和第二样本集的样本,每组异类样本包括两个样本,且至少一组同类样本和至少一组异类样本均为第n个指标的数据,1≤n≤N,n为整数。
结合第一方面,在第一方面的某些可能的实现方式中,第一样本集中的样本数与第二样本集中的样本数相同。
结合第一方面,在第一方面的某些可能的实现方式中,该方法还包括:对获取到的N个指标的数据进行预处理,得到预处理后的N个指标的数据;对N个指标进行降维处理,包括:对预处理后的N个指标的数据进行降维处理。
结合第一方面,在第一方面的某些可能的实现方式中,基于M个指标的数据对模型进行训练,得到训练后的模型,包括:采用遗传算法拟合M个指标中每个指标与宿主机状态的关系,得到训练后的模型。
通过上述模型训练方法建立的模型可以用于故障检测,相较于人工故障检测,有利于提高故障检测的速度。
第二方面,本申请提供了一种故障检测装置,该装置包括获取模块和处理模块;获取模块,用于从待检测的宿主机获取多个指标的数据;处理模块,用于将多个指标的数据输入至预训练得到的模型中,以确定宿主机发生故障的概率;其中,模型基于M个指标的数据训练得到,M个指标是从N个指标中根据每个指标与宿主机状态的相关性确定的,宿主机状态包括正常或故障,N个指标的数据包括从一个或多个宿主机获取到的历史数据,且N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据,M≤N,M、N为正整数。
第三方面,本申请提供了一种故障检测装置,包括存储器和处理器,存储器用于存储计算机程序,处理器用于执行计算机程序,以执行第一方面以及第一方面任意一种可能的实现方式。
第四方面,本申请提供了一种计算机可读存储介质,包括计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行第一方面以及第一方面任一种可能实现方式中的方法。
第五方面,本申请提供了一种计算机程序产品,包括计算机程序,当所述计算机程序在计算机上运行时,使得计算机执行第一方面以及第一方面任一种可能实现方式中的方法。
应当理解的是,本申请的第二方面至第五方面与本申请的第一方面的技术方案相对应,各方面及对应的可行实施方式所取得的有益效果相似,不再赘述。
需要说明的是,本申请提供的故障检测方法、模型训练方法及相关装置可用于金融领域在故障检测和模型训练的方面的应用,如金融***服务器中的故障检测和模型训练,也可用于除金融领域之外任意领域在故障检测和模型训练的方面的应用,本申请对故障检测方法、模型训练方法及相关装置的应用领域不做限定。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是适用于本申请实施例提供的故障检测方法的场景的示意图;
图2是本申请实施例提供的模型训练方法的示意性流程图;
图3是本申请实施例提供的故障检测方法的示意性流程图;
图4是本申请实施例提供的故障检测装置的示意性框图;
图5是本申请实施例提供的故障检测装置的另一示意性框图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请实施例中,术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。此外,术语“包括”以及任何变形,意图在于覆盖不排他的包含。
图1是适用于本申请实施例提供的故障检测方法的场景的示意图。
在业务服务器中可以有至少一个宿主机提供服务,每个宿主机上可以部署有至少一个容器,不同容器可以提供不同的服务。
在当前这个互联网时代,随着云计算的发展,许多服务都会部署在云服务器上,这就导致业务服务器的运行维护变得更困难,宿主机发生故障时的影响也会更大。因此,对于宿主机故障的运行维护就尤为重要。
鉴于此,本申请提供了一种故障检测方法,使用预训练得到的模型对来自宿主机的多个指标的数据进行分析,以确定宿主机存在故障的可能性。使用模型处理数据进行故障检测可以克服人工故障检测的检测速度慢的、检测效率低的问题。此外,该模型经过训练,可以根据各指标与宿主机状态的相关性对指标进行降维,从而在后续的故障检测过程中,可以减少数据处理量和处理复杂度。进一步地,在降维过程中,将与宿主机状态相关性差的指标筛除,也即,将对故障检测结果影响不大的指标予以筛除,因此可以避免降维处理可能引发的故障检测的准确性下降的问题。
由于故障检测会用到预训练得到的模型,为便于理解,下文首先介绍模型训练方法,再介绍故障检测方法。
图2是本申请实施例提供的模型训练方法的示意性流程图,该方法200可以由模型训练装置执行,模型训练装置如图1中的故障检测服务器,或者也可以是配置在该故障检测服务器中的部件,或者还可以是用于实现部分或全部故障检测服务器功能的功能模块或软件。本申请对此不作任何限定。
图2所示的方法包括如下步骤:
步骤210,获取N(N为正整数)个指标的数据;
步骤220,对N个指标进行降维处理,得到M个指标;
步骤230,基于M个指标的数据对模型进行训练,得到训练后的模型。
下面对该方法200中的各个步骤进行详细说明。
在步骤210中,N个指标的数据是从一个或多个宿主机上获取到的历史数据,且该N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据,N为正整数。
这里,宿主机故障和宿主机正常分别为宿主机的两种状态。换言之,该N个指标的数据包括每个宿主机分别在不同状态下的数据。
其中,N个指标包括如下指标中的至少一项:宿主机的IP地址、运行在宿主机上的容器的ID、宿主机的CPU资源中分配给各容器使用的CPU资源、宿主机的内存资源中分配各容器使用的内存资源、运行在宿主机上的容器的重启时间、宿主机CPU使用率、宿主机内存使用率、宿主机CPU性能值、宿主机的内存大小、宿主机CPU满报错率、宿主机内存使用超限报错率、宿主机IO使用超限报错率、宿主机网络访问报错率、宿主机网络连接数和运行在宿主机上的容器的失联时间。
如前所述,该N个指标的数据可以是从历史数据中获取到的,在对N个指标的数据进行进一步处理之前,可以先对这N个指标的数据进行预处理。示例性地,预处理的方法包括:使用临近数值填充缺失值、剔除缺失较大的数据和对数据做归一化处理等。
由于在数据的记录或者转移过程中,可能会造成部分数据的缺失,因此,可以先使用临近数值填充缺失值,而如果一个数据的缺失较大,不便于填充缺失值,可以将这个数据剔除;由于每个指标的数据的取值范围不同,甚至可能有较大差距,因此,为了后续处理更方便,应当先对数据做归一化处理。
应理解,对数据进行预处理的方法也可以有其他的方法,本申请对此不作限定。
由于N个指标的数据中可能存在一部分数据与宿主机的状态的相关性较高,还有可能存在一部分数据与宿主机状态的相关性较低,这些相关性较低的数据对于后期故障检测来说,作用不大,且因数据量大,反而可能导致数据处理量大,复杂度高。因此,可以通过对该N个指标的筛选,将一部分与宿主机相关性较低的指标筛除。
可选地,步骤220具体包括:
确定N个指标中每个指标的权重,这里的权重用于指示每个指标与宿主机状态的相关性;及
基于N个指标中每个指标的权重以及预设门限,对N个指标进行降维处理,得到M个指标,该M个指标不包括权重低于预设门限的指标。
换言之,通过计算N个指标中每个指标的权重,将N个指标中权重低于门限的指标筛除,留下权重大于或等于该预设门限的指标,即为降维处理后得到的M个指标。
一示例,模型训练装置获取了4(即N=4)个指标的数据,该4个指标分别为宿主机CPU使用率、宿主机内存使用率、宿主机IO使用超限报错率和宿主机网络访问报错率,每个指标的权重如表1所示。
表1
Figure BDA0003620343980000071
预设门限为0.1,则筛除掉宿主机IO使用超限报错率这一指标,对4个指标进行了降维处理,得到了3(即M=3)个指标,即:宿主机CPU使用率、宿主机内存使用率和宿主机网络访问报错率。
下面介绍每个指标的权重的计算过程。
首先可以从N个指标的数据中获取第一样本集和第二样本集,进而确定每个指标的权重,每个指标的权重由至少一组同类样本中每组同类样本之间的距离和至少一组异类样本中每组异类样本之间的距离确定。
其中,第一样本集包括宿主机故障时的数据,第二样本集包括宿主机正常时的数据。每个样本集可以包括一个或多个样本。第一样本集中的每个样本可以包括一个宿主机故障时N个指标的数据,第二样本集中的每个样本可以包括一个宿主机正常时N个指标的数据。
每组同类样本可以包括来自第一样本集的两个样本,或来自第二样本集的两个样本。每组异类样本可以包括来自第一样本集的一个样本和来自第二样本集的一个样本。
一示例,由于前面已经对数据做了归一化处理,所以这里的数据都介于0到1之间,每个指标的数据如表2所示。
表2
Figure BDA0003620343980000081
可以看到,表2中的每一行对应于一个样本在宿主机CPU使用率、宿主机内存使用率、宿主机IO使用超限报错率和宿主机网络访问报错率这4个指标的数据。
一种可能的设计是,第一样本集和第二样本集包括的样本可以是相对应的。这里,相对应是指,第一样本集和第二样本集的样本中包括了同一宿主机分别在故障时N个指标的数据和正常时N个指标的数据。
例如,表2中的故障样本1和正常样本1可对应于同一宿主机,故障样本2和正常样本2对应于同一宿主机。
进一步地,第一样本集中的样本数和第二样本集中的样本数相同。
应理解,在实际操作中,第一样本集中的样本数和第二样本集中的样本数不一定要严格相同,但为了防止欠拟合或者过拟合的现象,应当尽可能使第一样本集中的样本数和第二样本集中的样本数相同。
对于第n(1≤n≤N,n为整数)个指标,可以获取至少一组同类样本中每组同类样本中第n个指标的数据,以及至少一组异类样本中每组同类样本中第n个指标的数据,对至少一组同类样本中每组同类样本中第n个指标的数据之间的距离和至少一组异类样本中每组同类样本中第n个指标的数据之间的距离进行比较,可以得到该第n个指标与宿主机状态的相关性,也即,该第n个指标的权重。应理解,第n个指标可以为N个指标中的任意一个。换言之,N个指标中的任意一个指标的权重都可以按照如下方式来计算。
例如,假设第n个指标为“宿主机CPU使用率”,该指标的权重的计算过程如下:
选取故障样本1在“宿主机CPU使用率”这个指标的数据1,再随机选取故障样本1的同类样本,例如故障样本2在“宿主机CPU使用率”这个指标的数据1,求两个数据的距离:(1-1)2=0,记为故障样本1的第一距离;再随机选取故障样本1的异类样本,例如正常样本1在“宿主机CPU使用率”这个指标的数据0,求两个数据的距离:(1-0)2=1,记为故障样本1的第二距离。
再选取故障样本2在“宿主机CPU使用率”这个指标的数据1,再随机选取故障样本2的同类样本,例如故障样本1在“宿主机CPU使用率”这个指标的数据1,求两个数据的距离:(1-1)2=0,记为故障样本2的第一距离;再随机选取故障样本2的异类样本,例如正常样本1在“宿主机CPU使用率”这个指标的数据0,求两个数据的距离:(1-0)2=1,记为故障样本2的第二距离。
再选取正常样本1在“宿主机CPU使用率”这个指标的数据0,再随机选取正常样本1的同类样本,例如正常样本2在“宿主机CPU使用率”这个指标的数据0,求两个数据的距离:(0-0)2=0,记为正常样本1的第一距离;再随机选取正常样本1的异类样本,例如故障样本1在“宿主机CPU使用率”这个指标的数据1,求两个数据的距离:(0-1)2=1,记为正常样本1的第二距离。
最后选取正常样本2在“宿主机CPU使用率”这个指标的数据0,再随机选取正常样本2的同类样本,例如正常样本1在“宿主机CPU使用率”这个指标的数据0,求两个数据的距离:(0-0)2=0,记为正常样本2的第一距离;再随机选取正常样本2的异类样本,例如故障样本1在“宿主机CPU使用率”这个指标的数据1,求两个数据的距离:(0-1)2=1,记为正常样本2的第二距离。
然后将上述每个第一距离和第二距离的差相加,结果除以第一距离或第二距离的数量,得到的就是“宿主机CPU使用率”这个指标的权重:[(1-0)+(1-0)+(1-0)+(1-0)]÷4=1。
应理解,计算某个指标的权重不一定要使用全部的样本,但为了计算得到的权重更加精确,应当使用尽可能多的样本进行计算。
重复上述过程,可以得到表2中其他3个指标的权重:“宿主机内存使用率”的权重:[(1-0.25)+(0.25-0.25)+(0.25-0)+(0.25-0)]÷4=0.3125、“宿主机IO使用超限报错率”的权重:[(0-0)+(0-0)+(0-0)+(0-0)]÷4=0、“宿主机网络访问报错率”的权重:[(1-1)+(1-0)+(0-0)+(0-0)]÷4=0.25。
在得到权重达到预设门限的M个指标之后,就可以进行步骤230,基于M个指标的数据对模型进行训练,得到训练后的模型。
可选地,例如可以采用遗传算法拟合M个指标中每个指标与宿主机状态的关系,得到训练后的模型。
通过上述模型训练方法建立的模型经过训练,可以根据各指标与宿主机状态的相关性对指标进行降维,从而在后续的故障检测过程中,可以减少数据处理量和处理复杂度。进一步地,在降维过程中,将与宿主机状态相关性差的指标筛除,也即,将对故障检测结果影响不大的指标予以筛除,因此可以避免降维处理可能引发的故障检测的准确性下降的问题。
图3是本申请实施例提供的故障检测方法的示意性流程图,该方法300可以由故障检测装置执行,故障检测装置如图1中的故障检测服务器,或者也可以是配置在该故障检测服务器中的部件,或者还可以是用于实现部分或全部故障检测服务器功能的功能模块或软件。本申请对此不作任何限定。
在步骤310中,从待检测的宿主机获取多个指标的数据。
这里获取的多个指标的数据包括在上述模型训练方法中用于训练模型的M个指标的数据。
在步骤320中,将该多个指标的数据输入至预训练得到的模型中,以确定宿主机发生故障的概率。
在将多个指标的数据输入至预训练得到的模型中之后,模型会输出一个介于0到1之间的数,为宿主机存在故障的概率。
基于该概率,可以进一步确定该宿主机是否会发生故障。
例如,可以人为设定一个阈值,例如为0.5。当宿主机存在故障的可能性大于0.5时,判定宿主机会发生故障。
进一步地,该方法还包括:确定该宿主机发生故障的原因。
故障检测装置可以基于从待检测的宿主机获取到的多个指标的数据及各个指标的权重来确定导致待检测的宿主机产生故障的原因。例如,可以计算该多个指标中各指标的数据与权重的乘积,将乘积的最大值所对应的指标确定为导致宿主机产生故障的原因,或者,按照预设的规则,将乘积较大的几个指标确定为导致宿主机产生故障的原因。
一示例,从待检测的宿主机获取多个指标的数据如表3所示。
表3
Figure BDA0003620343980000111
由表1可得,“宿主机CPU使用率”的权重为1、“宿主机内存使用率”的权重为0.3125、“宿主机IO使用超限报错率”的权重为0、“宿主机网络访问报错率”的权重为0.25,分别计算以上四个指标的数据与其对应权重的乘积,结果如表4所示。
表4
Figure BDA0003620343980000112
由表4可得,“宿主机网络访问报错率”的数据与其对应权重的乘积最大,所以导致待检测的宿主机产生故障的原因最有可能与这一指标有关。后续工作人员在进行运维时就可以更加有针对性地寻找故障,提高故障检测的速度和效率。
通过上述方法,使用预训练得到的模型处理从待检测的宿主机上获取的数据,并通过处理结果确定宿主机存在故障的概率。使用模型进行故障检测可以克服人工故障检测的检测速度慢、检测效率低的问题。
应理解,上文结合图2和图3分别说明了模型训练方法和故障检测方法的具体过程。其中,用于执行模型训练方法的模型训练装置和用于执行故障检测方法的故障检测装置可以是同一个设备中用于实现不同功能的模块,也可以是不同的设备。本申请对此不作限定。
图4是本申请实施例提供的故障检测装置的示意性框图。该装置可以为图1中的故障检测服务器,如图4所示,该故障检测装置400可以包括获取模块410和处理模块420。
其中,获取模块410可用于从待检测的宿主机获取多个指标的数据;处理模块420可用于,将多个指标的数据输入至预训练得到的模型中,以确定宿主机发生故障的概率;其中,模型基于M个指标的数据训练得到,M个指标是从N个指标中根据每个指标与宿主机状态的相关性确定的,宿主机状态包括正常或故障,N个指标的数据包括从一个或多个宿主机获取到的历史数据,且N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据,M≤N,M、N为正整数。
可选地,获取模块410可用于,获取N个指标的数据,该N个指标的数据包括从一个或多个宿主机获取到的历史数据,且该N个指标的数据包括一个或多个宿主机故障时的数据和正常时的数据。
可选地,处理模块420可用于,对该N个指标进行降维处理,得到M个指标;基于该M个指标的数据对模型进行训练,得到训练后的模型。
可选地,处理模块420可用于,确定N个指标中每个指标的权重,每个指标的权重用于指示每个指标与宿主机状态的相关性,宿主机状态包括正常或故障;基于N个指标中每个指标的权重,以及预设门限,对N个指标进行降维处理,得到M个指标,M个指标不包括权重低于预设门限的指标。
可选地,处理模块420可用于,从N个指标的数据中获取第一样本集和第二样本集,第一样本集包括一个或多个样本,每个样本包括一个宿主机故障时N个指标的数据,第二样本集包括一个或多个样本,每个样本包括一个宿主机正常时N个指标的数据;确定N个指标中的第n个指标的权重,第n个指标的权重由至少一组同类样本中每组同类样本之间的距离和至少一组异类样本中每组异类样本之间的距离确定;其中,至少一组同类样本包括来自第一样本集或第二样本集的样本,每组同类样本包括两个样本,至少一组异类样本包括分别来自第一样本集和第二样本集的样本,每组异类样本包括两个样本,且至少一组同类样本和至少一组异类样本均为第n个指标的数据,1≤n≤N,n为整数。
可选地,处理模块420还可用于,对获取到的N个指标的数据进行预处理,得到预处理后的N个指标的数据;对预处理后的N个指标的数据进行降维处理。
可选地,处理模块420可用于,采用遗传算法拟合M个指标中每个指标与宿主机状态的关系,得到训练后的模型。
图5是本申请实施例提供的故障检测装置的另一示意性框图。如图5所示,该装置500可以包括至少一个处理器510,用于可用于实现本申请提供的方法中故障检测装置的功能。具体参见方法示例中的详细描述,此处不做赘述。
该装置500还可以包括一个存储器520,用于存储程序指令和/或数据。存储器520和处理器510耦合。本申请中的耦合是装置、单元或模块之间的间接耦合或通信连接,可以是电性,机械或其它的形式,用于装置、单元或模块之间的信息交互。处理器510可能和存储器520协同操作。处理器510可能执行存储器520中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。
该装置500还可以包括一个通信接口530,用于通过传输介质和其它设备进行通信,从而用于装置500中的装置可以和其它设备进行通信。所述通信接口530例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器510可利用通信接口530收发数据和/或信息,并用于实现图3对应的实施例中所述的故障检测的方法。
本申请中不限定上述处理器510、存储器520以及通信接口530之间的具体连接介质。本申请在图5中以处理器510、存储器520以及通信接口530之间通过总线540连接。总线540在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
在本申请实施例中,处理器可以是通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
根据本申请提供的方法,本申请还提供一种计算机可读存储介质,该计算机可读存储介质存储有程序代码,当该程序代码在计算机上运行时,使得该计算机执行图3对应的实施例中所述的故障检测的方法。
根据本申请提供的方法,本申请还提供一种计算机程序产品,该计算机程序产品包括:计算机程序代码。当该计算机程序代码在计算机上运行时,使得该计算机执行图3对应的实施例中所述的故障检测的方法。
本申请提供的技术方案可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、网络设备、终端设备或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线,例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机可以存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质例如,数字视频光盘(digital video disc,DVD)、或者半导体介质等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种故障检测方法,其特征在于,包括:
从待检测的宿主机获取多个指标的数据;
将所述多个指标的数据输入至预训练得到的模型中,以确定所述宿主机发生故障的概率;其中,所述模型基于M个指标的数据训练得到,所述M个指标是从N个指标中根据每个指标与宿主机状态的相关性确定的,所述宿主机状态包括正常或故障,所述N个指标的数据包括从一个或多个宿主机获取到的历史数据,且所述N个指标的数据包括所述一个或多个宿主机故障时的数据和正常时的数据,M≤N,M、N为正整数。
2.根据权利要求1所述的方法,其特征在于,在所述将所述多个指标的数据输入至预训练得到的模型中之前,所述方法还包括:
获取所述N个指标的数据,所述N个指标的数据包括从一个或多个宿主机获取到的历史数据,且所述N个指标的数据包括所述一个或多个宿主机故障时的数据和正常时的数据;
对所述N个指标进行降维处理,得到所述M个指标;
基于所述M个指标的数据对所述模型进行训练。
3.根据权利要求1或2所述的方法,其特征在于,所述N个指标包括如下至少一项:
宿主机的互联网协议IP地址、运行在宿主机上的容器的标识ID、宿主机的中央处理器CPU资源中分配给各容器使用的CPU资源、宿主机的内存资源中分配各容器使用的内存资源、运行在宿主机上的容器的重启时间、宿主机CPU使用率、宿主机内存使用率、宿主机CPU性能值、宿主机的内存大小、宿主机CPU满报错率、宿主机内存使用超限报错率、宿主机输入输出IO使用超限报错率、宿主机网络访问报错率、宿主机网络连接数和运行在宿主机上的容器的失联时间。
4.根据权利要求3所述的方法,其特征在于,所述对所述N个指标进行降维处理,得到M个指标,包括:
确定所述N个指标中每个指标的权重,所述每个指标的权重用于指示所述每个指标与宿主机状态的相关性,所述宿主机状态包括正常或故障;
基于所述N个指标中每个指标的权重,以及预设门限,对所述N个指标进行降维处理,得到所述M个指标,所述M个指标不包括权重低于所述预设门限的指标。
5.根据权利要求4所述的方法,其特征在于,所述确定所述N个指标中每个指标的权重,包括:
从所述N个指标的数据中获取第一样本集和第二样本集,所述第一样本集包括一个或多个样本,每个样本包括一个宿主机故障时所述N个指标的数据,所述第二样本集包括一个或多个样本,每个样本包括一个宿主机正常时所述N个指标的数据;
确定所述N个指标中的第n个指标的权重,所述第n个指标的权重由至少一组同类样本中每组同类样本之间的距离和至少一组异类样本中每组异类样本之间的距离确定;其中,所述至少一组同类样本包括来自所述第一样本集或所述第二样本集的样本,每组同类样本包括两个样本,所述至少一组异类样本包括分别来自所述第一样本集和所述第二样本集的样本,每组异类样本包括两个样本,且所述至少一组同类样本和所述至少一组异类样本均为所述第n个指标的数据,1≤n≤N,n为整数。
6.根据权利要求5所述的方法,其特征在于,所述第一样本集中的样本数与所述第二样本集中的样本数相同。
7.根据权利要求2所述的方法,其特征在于,在对所述N个指标进行降维处理之前,所述方法还包括:
对获取到的所述N个指标的数据进行预处理,得到预处理后的N个指标的数据;
所述对所述N个指标进行降维处理,包括:
对所述预处理后的N个指标的数据进行降维处理。
8.根据权利要求2所述的方法,其特征在于,所述基于所述M个指标的数据对所述模型进行训练,得到训练后的模型,包括:
采用遗传算法拟合所述M个指标中每个指标与宿主机状态的关系,得到训练后的模型。
9.一种故障检测装置,其特征在于,包括:
获取模块,用于从待检测的宿主机获取多个指标的数据;
处理模块,用于将所述多个指标的数据输入至预训练得到的模型中,以确定所述宿主机发生故障的概率;其中,所述模型基于M个指标的数据训练得到,所述M个指标是从N个指标中根据每个指标与宿主机状态的相关性确定的,所述宿主机状态包括正常或故障,所述N个指标的数据包括从一个或多个宿主机获取到的历史数据,且所述N个指标的数据包括所述一个或多个宿主机故障时的数据和正常时的数据,M≤N,M、N为正整数。
10.一种故障检测装置,其特征在于,包括存储器和处理器,其中,
所述存储器用于存储计算机程序;
所述处理器用于执行所述计算机程序,以实现如权利要求1至8所述的方法。
11.一种计算机可读存储介质,其特征在于,包括计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行权利要求1至8中任一项所述的方法。
12.一种计算机程序产品,其特征在于,包括计算机程序,当所述计算机程序被运行时,使得计算机执行如权利要求1至8中任一项所述的方法。
CN202210455547.5A 2022-04-24 2022-04-24 一种故障检测方法及相关装置 Pending CN114756399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210455547.5A CN114756399A (zh) 2022-04-24 2022-04-24 一种故障检测方法及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210455547.5A CN114756399A (zh) 2022-04-24 2022-04-24 一种故障检测方法及相关装置

Publications (1)

Publication Number Publication Date
CN114756399A true CN114756399A (zh) 2022-07-15

Family

ID=82333705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210455547.5A Pending CN114756399A (zh) 2022-04-24 2022-04-24 一种故障检测方法及相关装置

Country Status (1)

Country Link
CN (1) CN114756399A (zh)

Similar Documents

Publication Publication Date Title
CN112162878B (zh) 数据库故障发现方法、装置、电子设备及存储介质
US10585774B2 (en) Detection of misbehaving components for large scale distributed systems
CN110784355B (zh) 一种故障识别方法及装置
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
WO2022166481A1 (zh) 一种针对硬盘的故障预测方法、装置及设备
CN103746829A (zh) 一种基于集群的故障感知***及其方法
US11416321B2 (en) Component failure prediction
CN112737800B (zh) 服务节点故障定位方法、调用链生成方法及服务器
US20170364401A1 (en) Monitoring peripheral transactions
EP3586275A1 (en) Method and system for fault localization in a cloud environment
CN113537337A (zh) 训练方法、异常检测方法、装置、设备和存储介质
CN112685207A (zh) 错误评估的方法、设备和计算机程序产品
CN114356734A (zh) 服务异常检测方法和装置、设备、存储介质
CN113392893A (zh) 业务故障的定位方法、装置、存储介质及计算机程序产品
US20230105304A1 (en) Proactive avoidance of performance issues in computing environments
CN117312098B (zh) 一种日志异常告警方法及装置
CN113407374A (zh) 故障处理方法、装置、故障处理设备及存储介质
CN114756399A (zh) 一种故障检测方法及相关装置
CN114116128B (zh) 容器实例的故障诊断方法、装置、设备和存储介质
CN116302795A (zh) 一种基于人工智能的终端运维***及方法
CN113360360A (zh) 业务***故障检测方法、装置、电子设备及存储介质
CN117421145B (zh) 一种异构硬盘***故障预警方法及装置
CN117240700B (zh) 一种基于贝叶斯分类器的网络故障诊断方法及装置
CN113037550B (zh) 一种服务故障监控方法、***及计算机可读存储介质
CN113656207B (zh) 故障处理方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination