CN117093433B - 故障检测方法、装置、电子设备及存储介质 - Google Patents

故障检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN117093433B
CN117093433B CN202311348736.3A CN202311348736A CN117093433B CN 117093433 B CN117093433 B CN 117093433B CN 202311348736 A CN202311348736 A CN 202311348736A CN 117093433 B CN117093433 B CN 117093433B
Authority
CN
China
Prior art keywords
detection
data
item
determining
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311348736.3A
Other languages
English (en)
Other versions
CN117093433A (zh
Inventor
王东清
李道童
张炳会
陈衍东
韩红瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Metabrain Intelligent Technology Co Ltd
Original Assignee
Suzhou Metabrain Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Metabrain Intelligent Technology Co Ltd filed Critical Suzhou Metabrain Intelligent Technology Co Ltd
Priority to CN202311348736.3A priority Critical patent/CN117093433B/zh
Publication of CN117093433A publication Critical patent/CN117093433A/zh
Application granted granted Critical
Publication of CN117093433B publication Critical patent/CN117093433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2273Test methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Biophysics (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)

Abstract

本发明涉及计算机故障检测技术领域,提供一种故障检测方法、装置、电子设备及存储介质,包括:获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;故障检测模型为采用网络模型对处于正常状态下的检测对象的各个检测项数据训练得到,适用于计算机电子部件故障数量明显少于正常数量的检测场景,能够提高故障检测的精准度。

Description

故障检测方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机故障检测技术领域,尤其涉及一种故障检测方法、装置、电子设备及存储介质。
背景技术
近年来,随着大数据、云计算、5G等技术的快速发展,数据量呈现***性增长。有研究表明,到2025年,全球数据总量将达到163ZB。各计算机服务商会通过计算机建立庞大的数据中心,为用户提供高品质的服务,而计算机***的稳定也需要各个电子部件的稳定运行,才能给用户提供好的体验。例如计算机构建数据中心,硬盘作为电子部件,其故障最为常见,约占数据中心硬件故障的78%。硬盘发生故障会发生不可预料的后果,一方面会造成在硬盘上运行的任务或***崩溃,导致服务中断;另一方面可能会导致用户保存的大量数据丢失。
为了提高计算机的可靠性和安全性,一些容错机制被采用对电子部件的故障检测,常用的分为被动容错和主动容错。被动容错顾名思义,即在电子部件故障发生之后进行补救的措施。主动容错是一种能***故障的机制,从而及时采取相应措施,降低运维成本。因其优势显著,成为电子部件故障诊断的热点方向。
大多的主动容错技术是依靠构建机器学***衡,导致高误报故障情况,也会增加故障检测的运维成本。
发明内容
针对现有技术存在的问题,本发明提供一种故障检测方法、装置、电子设备及存储介质。
本发明提供一种故障检测方法,包括:
获取检测对象的各个检测项数据,所述检测对象包括计算机设备中的一个或多个电子部件;
将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;
根据所述检测项数据和所述检测项预测数据确定对应于所述检测对象的检测结果;
其中,所述故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
在一个实施例中,在对处于正常状态下的检测对象的各个检测项数据进行训练之前,所述方法还包括:
根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分;
保留处于中间健康等级范围内的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据;其中,所述中间健康等级范围不包含最高健康等级和最低健康等级。
在一个实施例中,所述根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分,包括:
根据处于正常状态下的多个检测对象各自的各个检测项数据构建高斯分布模型,根据高斯概率对各个检测对象进行健康等级的划分。
在一个实施例中,所述将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据,包括:
将任一检测项数据输入到故障检测模型中,根据各个检测项数据确定检测项数据对应的隐空间变量数据,根据隐空间变量数据确定检测项预测数据;
相应地,根据各个检测项数据、各个隐空间变量数据和各个检测项预测数据确定对应于所述检测对象的检测结果。
在一个实施例中,所述故障检测模型为采用无监督的VAE模型对处于正常状态下的检测对象的各个检测项数据训练得到。
在一个实施例中,处于正常状态下的检测对象的各个检测项数据具备时间属性,相应地,所述VAE模型包括输入层、encode GRU层、encode MLP层、decode GRU层、decodeMLP层和输出层,其中:
所述输入层,用于输入检测对象在第时刻的第/>检测项数据/>
所述encode GRU层,用于根据第检测项数据/>和encode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
所述encode MLP层,用于根据循环变量和encode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成的隐空间变量/>
所述decode GRU层,用于根据隐空间变量和decode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
所述decode MLP层,用于根据循环变量和decode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成第/>检测项预测数据/>
所述输出层,用于输出检测对象在第时刻的第/>检测项预测数据/>
在一个实施例中,所述根据检测项数据、隐空间变量数据和检测项预测数据确定对应于所述检测对象的检测结果,包括:
根据每个检测项预测数据确定对应的期望值和偏差;
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值;
根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果。
在一个实施例中,所述根据检测项数据、隐空间变量数据,以及检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值,包括:
根据检测项数据、隐空间变量数据,以及检测项预测数据对应的期望值和偏差,采用以下计算方式确定对应于所述检测对象的检测分值:
其中,为检测对象在第时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的数值,为检测对象的第/>检测项在第/>时刻下的隐空间变量数值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的期望值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的偏差,/>为检测对象的检测项的总数。
在一个实施例中,所述根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果,包括:
确定预设时间窗内对数据的采集次数N;
统计检测对象在各个时刻下的检测分值大于阈值的次数n;
确定次数n与采集次数N的占比大于预设比值时,确定所述检测对象为异常状态。
在一个实施例中,所述方法还包括:
确定检测对象的各个检测项对应的检测分值从大到小的排序情况;
根据排序情况确定排在前m的检测项作为检测对象的异常因素。
在一个实施例中,在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,所述方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
确定各数目的比例,确定比例不在预设比例范围时,继续获取新的处于正常状态下的检测对象的各个检测项数据,并对新的处于正常状态下的检测对象的各个检测项数据进行健康等级的划分,并更新各个健康等级下的检测对象的数目,直到各数目的比例位于预设比例范围内。
在一个实施例中,在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,所述方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
统计各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的个数,当所述个数大于预设个数时,将处于各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据。
在一个实施例中,所述方法还包括:在训练得到故障检测模型之前,基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项。
在一个实施例中,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
确定检测数据的总数目,每个检测对象对应一条或多条检测数据,每条检测数据包括多个检测项数据;
针对任一检测项,统计缺失所述检测项的检测数据的第一数目;
基于第一数目和总数目确定每一个检测项对应的缺失占比;
将所述缺失占比高于预设占比的检测项作为筛查出的部分检测项。
在一个实施例中,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
确定在目标数据业务处理过程中检测对象的服务类型,根据所述服务类型从所有检测项数据中选取与所述服务类型相关的部分检测项。
在一个实施例中,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
基于处于正常状态下的多个检测对象各自的所有检测项数据,确定各个检测项与检测对象性能的重要程度值;
将重要程度值高于预设程度值的检测项作为筛选出的部分检测项。
本发明还提供一种故障检测装置,包括:
获取模块,用于获取检测对象的各个检测项数据,所述检测对象包括计算机设备中的一个或多个电子部件;
处理模块,用于将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;
确定模块,用于根据检测项数据和检测项预测数据确定对应于所述检测对象的检测结果;
其中,所述故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述故障检测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述故障检测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述故障检测方法。
本发明提供的一种故障检测方法、装置、电子设备及存储介质,通过处于正常状态下的检测对象的各个检测项数据训练模型,以训练好的模型对检测对象进行故障检测,适用于计算机电子部件故障数量明显少于正常数量的检测场景,能够提高故障检测的精准度。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的故障检测方法的流程示意图;
图2是本发明提供的带有GRU结构的VAE模型的结构示意图;
图3是本发明提供的故障检测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图4描述本发明的一种故障检测方法、装置、电子设备及存储介质。
图1示出了本发明提供的一种故障检测方法的流程示意图,参见图1,该方法包括以下步骤:
11、获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;
12、将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到;
13、根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;
针对步骤11-步骤13,需要说明的是,在本发明中,该方法应用于计算机故障检测技术领域,计算机(computer)俗称电脑,是一种用于高速计算的电子计算机器,可以进行数值计算,又可以进行逻辑计算,还具有存储记忆功能。是能够按照程序运行,自动、高速处理海量数据的现代化智能电子设备。该方法主要是对计算机的硬件***的故障进行检测,硬件***可由一个或多个电子部件构成,电子部件包括硬盘、磁盘、处理器、声卡等。例如当该方法需要对硬盘进行故障检测时,该硬盘作为检测对象。
在本发明中,对电子部件的故障检测,需要从多个方面进行数据采集,在对采集到的数据进行分析处理。每个方面都可以作为一个检测项。为此,要采集到每个检测项对应的数据。对数据的采集可采用专门的采集装置进行采集。
故障的电子部件的数量相较于正常(即健康)的电子部件的数量极少,造成数量差距很大。为此,将故障的电子部件和正常的电子部件作为检测样本对象,将这些检测样本对象的检测数据作为故障检测模型的训练数据,会因两者存在严重的类别不平衡,导致高误报故障情况,也会增加故障检测的运维成本。
为此,在本发明中,该故障检测模型为采用网络模型对处于正常状态下的检测对象的各个检测项数据训练得到。由于该故障检测模型以正常(即健康)的检测对象的检测数据训练得到,其对故障的电子部件的数据有较好的区分,即能够对故障的电子部件的数据有较大差异的预测数据。故将检测对象的各个检测项数据输入到故障检测模型中,由故障检测模型对各个检测项数据进行分析,输出各个检测项预测数据。
当电子部件出现故障时,输入到模型中的各个检测项数据与模型输出的各个检测项预测数据存在较大差异,故根据各个检测项数据和各个检测项预测数据确定对应于所述检测对象的检测结果。例如通过将各个检测项数据和各个检测项预测数据进行数值上的比较,根据比较结果判断检测对象是否故障。
本发明提供的故障检测方法,通过处于正常状态下的检测对象的各个检测项数据训练模型,以训练好的模型对检测对象进行故障检测,适用于计算机电子部件故障数量明显少于正常数量的检测场景,能够提高故障检测的精准度。
在上述方法的进一步方法中,主要是对提高模型训练的精准度进行进一步的说明,由于模型的训练数据是处于正常状态下的多个检测对象各自的各个检测项数据。对于一个正常状态下的电子部件,也会因为运行时间的不同,导致或多或少的有些损耗。例如刚购买的硬盘安装在计算机中,其运行效率极高,二手的硬盘安装在计算机中,其运行效率可能有些降低。故针对正常状态下的电子部件,也会区分出好与坏,即对正常状态下的电子部件进行健康打分,每个电子部件具有自身的健康分值。
在本发明中,可以采用健康评估手段对处于正常状态下的每个检测对象各自的各个检测项数据进行分析,以给检测对象评估出健康分值,通过健康分值再进行健康等级的划分。
在本发明中,健康等级可分为Good、Very Fair、Fair、Soft Warning和Alert。由于最高健康等级的电子部件性能极好,最低健康等级的电子部件趋于故障边缘,为此,虽这两个等级的电子部件属于正常状态的电子部件,其检测数据作为训练数据也会给模型造成或多或少的影响,即也会较小的影响到模型的精准度。为此,可有效的剔除最高健康等级和最低健康等级的电子部件的检测数据,故保留处于中间健康等级范围内的检测对象的各个检测项数据,作为建立故障检测模型的训练数据。其中,中间健康等级范围不包含最高健康等级和最低健康等级。
例如健康等级可分为Good、Very Fair、Fair、Soft Warning和Alert,取VeryFair、Fair、Soft Warning等级内的电子部件的检测数据作为建立故障检测模型的训练数据。
本发明进一步的方法,通过对训练数据的选取,能够使构建的故障检测模型的检测性能更精准。
在上述方法的进一步方法中,主要是对电子部件的健康等级的划分进行解释说明,在本发明中,根据处于正常状态下的多个检测对象各自的各个检测项数据构建高斯分布模型,根据高斯概率对各个检测对象进行健康等级的划分。
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。若随机变量服从一个位置参数、尺度参数的概率分布,记为:则其概率密度函数为正态分布的数学期望值或期望值等于位置参数,决定了分布的位置;其方差的开平方或标准差等于尺度参数,决定了分布的幅度。
基于高斯分布图上各个检测对象的位置分布,可以对各个检测对象进行健康等级的划分。
本发明进一步的方法,通过高斯分布模型,能够从分布位置上简易的划分出电子部件的健康等级。
在上述方法的进一步方法中,主要是对将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据的处理过程进行解释说明,具体如下:
将任一检测项数据输入到故障检测模型中,根据检测项数据确定检测项数据对应的隐空间变量数据,根据隐空间变量数据确定各个检测项预测数据。
对此,需要说明的是,该故障检测模型将各个检测项数据转化成各个检测项数据对应的隐空间变量数据,隐空间变量数据是不限定数目的符合高斯分布特征的数据,其作用除了让网络模型尽可能还原原来的数据,同时也能生成原来数据中不存在的数据。为此,检测项数据和检测项预测数据属于同一维数下的数据,隐空间变量数据属于降维后的数据。在本发明中,故障检测模型能够根据各个隐空间变量数据确定各个检测项预测数据。
在本发明中,由于在数据处理过程中隐空间变量数据的存在,为此,根据各个检测项数据、各个隐空间变量数据和各个检测项预测数据确定对应于所述检测对象的检测结果。可将各个检测项数据、各个隐空间变量数据和各个检测项预测数据基于预设好的计算公式,去计算检测对象的检测分值,然后基于检测分值确定检测对象是否发生故障。
在上述方法的进一步方法中,故障检测模型为采用无监督的VAE模型对处于正常状态下的检测对象的各个检测项数据训练得到。
变分自动编码器(Variational autoEncoder,VAE)是生成模型的一种,是无监督网络模型。主要目标是从对象的学习分布中生成新的采样数据。该模型可以从隐变量空间的概率分布中学习潜在属性并构造新的元素。
VAE模型包括两个部分:编码器 encoder 和解码器 decoder。编码器计算每个输入数据的低纬期望值和方差,然后从隐变量空间采样,得到隐空间变量数据,再通过解码器生成新数据,即预测数据。从隐变量空间中采样的数据遵循原始数据的概率分部,根据采样数据生成的新数据也可以遵循袁术数据的概率分布,使输入数据与预测数据能够比较,得到检测对象的检测结果。
在上述方法的进一步方法中,该方法在故障预警中的鲁棒性在检测性能上体现为提高电子部件的故障预警率,降低正常硬盘误报率。本发明采用的VAE模型架构在故障诊断方面本身具有较高的鲁棒性,归因还是在于VAE模型本身的机制。简单来说,VAE的目标是找出训练数据的真实分布,从而用这个分布来生成数据。
对于一个正常状态下的电子部件,也会因为运行时间的不同,导致或多或少的有些损耗,为此,可以从检测数据上体现出电子部件随时间变化的属性。故在训练模型中,处于正常状态下的检测对象的各个检测项数据具备时间属性。
为进一步捕获电子部件随时间变化的属性,在VAE模型中融合了GRU时间序列结构(即形成VAE-GRU模型),用以进一步提升模型预测故障的鲁棒性。
在本发明中,参见图2为带有GRU结构的VAE模型的结构示意图,该VAE模型包括输入层、encode GRU层、encode MLP层、decode GRU层、decode MLP层和输出层,其中:
输入层,用于输入检测对象在第时刻的第/>检测项数据/>
encode GRU层,用于根据第检测项数据/>和encode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
encode MLP层,用于根据循环变量和encode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成的隐空间变量/>
decode GRU层,用于根据隐空间变量和decode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
decode MLP层,用于根据循环变量和decode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成第检测项预测数据/>
输出层,用于输出检测对象在第时刻的第/>检测项预测数据/>
在上述方法的进一步方法中,主要是对根据检测项数据、隐空间变量数据和检测项预测数据确定对应于检测对象的检测结果的处理过程进行解释说明,具体如下:
根据每个检测项预测数据确定对应的期望值和偏差;
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于检测对象的检测分值;
根据检测对象的检测分值与对应的阈值进行比较,确定对应于检测对象的检测结果。
在本发明中,根据检测项数据、隐空间变量数据,以及检测项预测数据对应的期望值和偏差,采用以下计算方式确定对应于检测对象的检测分值:
其中,为检测对象在第时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的数值,为检测对象的第/>检测项在第/>时刻下的隐空间变量数值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的期望值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的偏差,/>为检测对象的检测项的总数。
在上述方法的进一步方法中,主要是对根据检测对象的检测分值与对应的阈值进行比较,确定对应于检测对象的检测结果的处理过程进行解释说明,具体如下:
确定预设时间窗内对数据的采集次数N;
统计检测对象在各个时刻下的检测分值大于阈值的次数n;
确定次数n与采集次数N的占比大于预设比值时,确定检测对象为异常状态。
对此,需要说明的是,假如某个电子部件在预设时间窗内采集12次(如每个月采集一次),每次采集看作是一个采集时刻。每个时刻下的各个检测项数据在经过上述的故障检测模型处理之后,都会输出对应的检测分值,分别将各个检测分值与预设的阈值进行比较,统计检测对象在各个时刻下的检测分值大于阈值的次数n,如统计的次数为8。假设预设比值为1/2,此时的8/12大于预设比值,则可确定该电子部件为异常状态,即电子部件可能出现故障。
由上述的计算公式可以得知,电子部件的各个检测项都会对应各自的检测分值,当判断一个电子部件存在故障时,还是需要预估哪些因素导致电子部件的故障。为此,将检测对象的各个检测项对应的检测分值从大到小进行排序,然后选取排在前m的检测项作为检测对象的异常因素。故本发明能够在给定电子部件的故障决策时,可对电子部件的故障归因,帮助运维人员分析故障,提高计算机***的可靠性。
在上述方法的进一步方法中,主要是在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
确定各数目的比例,确定比例不在预设比例范围时,继续获取新的处于正常状态下的检测对象的各个检测项数据,并对新的处于正常状态下的检测对象的各个检测项数据进行健康等级的划分,并更新各个健康等级下的检测对象的数目,直到各数目的比例位于预设比例范围内。
对此,需要说明的是,对获取到的大量检测对象的各个检测项数据进行健康等级的划分,存在处于中间健康等级范围内的不同等级下的数目均不同。若某个等级下的检测对象的数目极少,此时,这些检测对象的检测数据会对模型的训练产生较坏的影响,使得模型的检测性能精确度较低的可能。为此,可设置一预设比例范围,该预设比例范围可对中间健康等级范围内的各健康等级下的检测对象的数目进行限制,当各数目的比例,确定比例不在预设比例范围时,继续获取新的处于正常状态下的检测对象的各个检测项数据,并对新的处于正常状态下的检测对象的各个检测项数据进行健康等级的划分,并更新各个健康等级下的检测对象的数目,直到各数目的比例位于预设比例范围内。故本发明对各个健康等级下的检测对象的数目进行规定,能够保证训练模型的检测性能的高精确度。
在上述方法的进一步方法中,主要是在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
统计各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的个数,当所述个数大于预设个数时,将处于各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据。
对此,需要说明的是,对获取到的大量检测对象的各个检测项数据进行健康等级的划分,存在处于中间健康等级范围内的不同等级下的数目均不同。若某个等级下的检测对象的数目极少,此时统计各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的个数,当所述个数大于预设个数时,将处于各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据,相当于剔除掉数目极少的某个等级下的检测对象的检测数据。故本发明对各个健康等级下的检测对象的数目进行规定,能够保证训练模型的检测性能的高精确度。
在上述方法的进一步方法中,针对某一个检测对象(如硬盘,主板等),其涉及到的检测参数(即检测项)较多,这些检测参数中有些有参考价值,有些没有参考价值,故需要将这些检测参数中选取部分合适的检测参数。例如采用正常硬盘的检测参数包括数据读取错误率、盘片启动时间、电机启停次计数、重映射扇区数、硬盘通电时间等。
进一步可采用计算每个检测项在检测数据中缺失占比进行检测项的筛选。具体为:首先会获取一定数量的检测数据,每个检测对象对应一条或多条检测数据,每条检测数据包括多个检测项数据。如此可确定检测数据的总数目。针对任一检测项,查看该检测项在每条检测数据中是否缺失,一旦缺失则统计一条缺失该检测项的检测数据,进而能够统计出一定的数目。
然后基于统计到的数目和总数目确定每一个检测项对应的缺失占比。最后,将缺失占比高于预设占比的检测项作为筛查出的部分检测项。
进一步的还可通过检测对象与某一项业务任务处理相关性较强的检测项作为部分检测项。需要说明的是,每个检测对象在一项业务任务处理过程中被使用,其能够在处理过程中产生一定的性能参数,该性能参数视为与这项业务任务相关的参数。为此,检测对象参与到某一项业务任务中,视为服务这项业务任务,故具备一定的服务类型。基于预先配置的服务类型与检测项的对应关系,可以在确定检测对象在业务任务中的服务类型后,可以确定与服务类型相关的部分检测项。
进一步的还可按照检测项与检测对象性能的重要程度值进行检测项的筛选。可对处于正常状态下的多个检测对象各自的所有检测项数据进行重要关联性的分析,如通过数据聚合处理,如通过决策算法,确定各个检测项与检测对象性能的重要程度值,然后将重要程度值高于预设程度值的检测项作为筛选出的部分检测项。
下面对本发明提供的故障检测装置进行描述,下文描述的故障检测装置与上文描述的故障检测方法可相互对应参照。
图3示出了本发明提供的一种故障检测装置的结构示意图,参见图3,该装置包括获取模块31、处理模块32和确定模块33,其中:
获取模块31,用于获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;
处理模块32,用于将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;
确定模块33,用于根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;
其中,故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
在上述装置的进一步装置中,该装置包括构建模块,该构建模块在对处于正常状态下的检测对象的各个检测项数据进行训练之前,还用于:
根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分;
保留处于中间健康等级范围内的检测对象的各个检测项数据,作为建立故障检测模型的训练数据;其中,中间健康等级范围不包含最高健康等级和最低健康等级。
在上述装置的进一步装置中,该构建模块在根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分的处理过程中,具体用于:
根据处于正常状态下的多个检测对象各自的各个检测项数据构建高斯分布模型,根据高斯概率对各个检测对象进行健康等级的划分。
在上述装置的进一步装置中,该处理模块具体用于:
将任一检测项数据输入到故障检测模型中,根据检测项数据确定检测项数据对应的隐空间变量数据,根据各个隐空间变量数据确定各个检测项预测数据。
相应地,该确定模块用于:
根据检测项数据、隐空间变量数据和检测项预测数据确定对应于检测对象的检测结果。
在上述装置的进一步装置中,该故障检测模型为采用无监督的VAE模型对处于正常状态下的检测对象的各个检测项数据训练得到。
在上述装置的进一步装置中,处于正常状态下的检测对象的各个检测项数据具备时间属性,相应地,VAE模型包括输入层、encode GRU层、encode MLP层、decode GRU层、decode MLP层和输出层,其中:
输入层,用于输入检测对象在第时刻的第/>检测项数据/>
encode GRU层,用于根据第检测项数据/>和encode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
encode MLP层,用于根据循环变量和encode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成的隐空间变量/>
decode GRU层,用于根据隐空间变量和decode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
decode MLP层,用于根据循环变量和decode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成第检测项预测数据/>
输出层,用于输出检测对象在第时刻的第/>检测项预测数据/>
在上述装置的进一步装置中,该确定模块具体用于:
根据每个检测项预测数据确定对应的期望值和偏差;
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值;
根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果。
在上述装置的进一步装置中,根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值,包括:
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,采用以下计算方式确定对应于所述检测对象的检测分值:
其中,为检测对象在第时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的数值,为检测对象的第/>检测项在第/>时刻下的隐空间变量数值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的期望值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的偏差,/>为检测对象的检测项的总数。
在上述装置的进一步装置中,该确定模块在根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果的处理过程中,具体用于:
确定预设时间窗内对数据的采集次数N;
统计检测对象在各个时刻下的检测分值大于阈值的次数n;
确定次数n与采集次数N的占比大于预设比值时,确定所述检测对象为异常状态。
在上述装置的进一步装置中,该装置还包括预估模块,用于:
确定检测对象的各个检测项对应的检测分值从大到小的排序情况;
根据排序情况确定排在前m的检测项作为检测对象的异常因素。
在上述装置的进一步装置中,该构建模块在在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,还用于:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
确定各数目的比例,确定比例不在预设比例范围时,继续获取新的处于正常状态下的检测对象的各个检测项数据,并对新的处于正常状态下的检测对象的各个检测项数据进行健康等级的划分,并更新各个健康等级下的检测对象的数目,直到各数目的比例位于预设比例范围内。
在上述装置的进一步装置中,该构建模块在在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,还用于:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
统计各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的个数,当所述个数大于预设个数时,将处于各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据。
本发明提供的故障检测装置,通过处于正常状态下的检测对象的各个检测项数据训练模型,以训练好的模型对检测对象进行故障检测,适用于计算机电子部件故障数量明显少于正常数量的检测场景,能够提高故障检测的精准度。
图4示例了一种电子设备的实体结构示意图,如图4所示,该电子设备可以包括:处理器(processor)41、通信接口(Communications Interface)42、存储器(memory)43和通信总线44,其中,处理器41,通信接口42,存储器43通过通信总线44完成相互间的通信。处理器41可以调用存储器43中的逻辑指令,以执行故障检测方法,该方法包括:获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;
其中,故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
此外,上述的存储器43中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的故障检测方法,该方法包括:
获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;
其中,故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的故障检测方法,该方法包括:
获取检测对象的各个检测项数据,检测对象包括计算机设备中的一个或多个电子部件;将任一检测项数据输入到故障检测模型中,输出对应的检测项预测数据;根据检测项数据和检测项预测数据确定对应于检测对象的检测结果;
其中,故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (16)

1.一种故障检测方法,其特征在于,包括:
获取检测对象的各个检测项数据,所述检测对象包括计算机设备中的一个或多个电子部件;
将任一检测项数据输入到故障检测模型中,根据检测项数据确定对应的隐空间变量数据,根据隐空间变量数据确定检测项预测数据;
根据检测项数据、隐空间变量数据和检测项预测数据确定对应于所述检测对象的检测结果;
其中,所述故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到;
在对处于正常状态下的检测对象的各个检测项数据进行训练之前,所述方法还包括:
根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分;
保留处于中间健康等级范围内的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据;其中,所述中间健康等级范围不包含最高健康等级和最低健康等级;
所述根据检测项数据、隐空间变量数据和检测项预测数据确定对应于所述检测对象的检测结果,包括:
根据每个检测项预测数据确定对应的期望值和偏差;
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值;
根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果。
2.根据权利要求1所述的故障检测方法,其特征在于,所述根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分,包括:
根据处于正常状态下的多个检测对象各自的各个检测项数据构建高斯分布模型,根据高斯概率对各个检测对象进行健康等级的划分。
3.根据权利要求1所述的故障检测方法,其特征在于,所述故障检测模型为采用无监督的VAE模型对处于正常状态下的检测对象的各个检测项数据训练得到。
4.根据权利要求3所述的故障检测方法,其特征在于,处于正常状态下的检测对象的各个检测项数据具备时间属性,相应地,所述VAE模型包括输入层、encode GRU层、encode MLP层、decode GRU层、decode MLP层和输出层,其中:
所述输入层,用于输入检测对象在第时刻的第/>检测项数据/>
所述encode GRU层,用于根据第检测项数据/>和encode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
所述encode MLP层,用于根据循环变量和encode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成的隐空间变量/>
所述decode GRU层,用于根据隐空间变量和decode GRU层在第/>时刻生成的循环变量/>生成第/>时刻生成的循环变量/>
所述decode MLP层,用于根据循环变量和decode MLP层在第/>时刻生成的隐空间变量/>生成第/>时刻生成第/>检测项预测数据/>
所述输出层,用于输出检测对象在第时刻的第/>检测项预测数据/>
5.根据权利要求1所述的故障检测方法,其特征在于,所述根据检测项数据、隐空间变量数据,以及检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值,包括:
根据检测项数据、隐空间变量数据,以及检测项预测数据对应的期望值和偏差,采用以下计算方式确定对应于所述检测对象的检测分值:
其中,为检测对象在第/>时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的检测分值,/>为检测对象的第/>检测项在第/>时刻下的数值,/>为检测对象的第/>检测项在第/>时刻下的隐空间变量数值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的期望值,/>为检测对象的第/>检测项的预测数据在第/>时刻下对应的偏差,/>为检测对象的检测项的总数。
6.根据权利要求1所述的故障检测方法,其特征在于,所述根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果,包括:
确定预设时间窗内对数据的采集次数N;
统计检测对象在各个时刻下的检测分值大于阈值的次数n;
确定次数n与采集次数N的占比大于预设比值时,确定所述检测对象为异常状态。
7.根据权利要求6所述的故障检测方法,其特征在于,所述方法还包括:
确定检测对象的各个检测项对应的检测分值从大到小的排序情况;
根据排序情况确定排在前m的检测项作为检测对象的异常因素。
8.根据权利要求1所述的故障检测方法,其特征在于,在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,所述方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
确定各数目的比例,确定比例不在预设比例范围时,继续获取新的处于正常状态下的检测对象的各个检测项数据,并对新的处于正常状态下的检测对象的各个检测项数据进行健康等级的划分,并更新各个健康等级下的检测对象的数目,直到各数目的比例位于预设比例范围内。
9.根据权利要求1所述的故障检测方法,其特征在于,在保留处于中间健康等级范围内的检测对象的各个检测项数据之后,所述方法还包括:
确定处于中间健康等级范围内的各个健康等级下的检测对象的数目;
统计各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的个数,当所述个数大于预设个数时,将处于各个健康等级下的检测对象的数目大于或等于预设数目的健康等级的检测对象的各个检测项数据,作为建立所述故障检测模型的训练数据。
10.根据权利要求1所述的故障检测方法,其特征在于,所述方法还包括:在训练得到故障检测模型之前,基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项。
11.根据权利要求10所述的故障检测方法,其特征在于,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
确定检测数据的总数目,每个检测对象对应一条或多条检测数据,每条检测数据包括多个检测项数据;
针对任一检测项,统计缺失所述检测项的检测数据的第一数目;
基于第一数目和总数目确定每一个检测项对应的缺失占比;
将所述缺失占比高于预设占比的检测项作为筛查出的部分检测项。
12.根据权利要求10所述的故障检测方法,其特征在于,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
确定在目标数据业务处理过程中检测对象的服务类型,根据所述服务类型从所有检测项中选取与所述服务类型相关的部分检测项。
13.根据权利要求10所述的故障检测方法,其特征在于,所述基于处于正常状态下的多个检测对象各自的所有检测项数据,从所有检测项中筛查出部分检测项,包括:
基于处于正常状态下的多个检测对象各自的所有检测项数据,确定各个检测项与检测对象性能的重要程度值;
将重要程度值高于预设程度值的检测项作为筛选出的部分检测项。
14.一种故障检测装置,其特征在于,包括:
获取模块,用于获取检测对象的各个检测项数据,所述检测对象包括计算机设备中的一个或多个电子部件;
处理模块,用于将任一检测项数据输入到故障检测模型中,根据检测项数据确定检测项数据对应的隐空间变量数据,根据各个隐空间变量数据确定各个检测项预测数据;
确定模块,用于根据检测项数据、隐空间变量数据和检测项预测数据确定对应于检测对象的检测结果;
其中,所述故障检测模型为采用处于正常状态下的检测对象的各个检测项数据对初始网络模型训练得到;
所述装置包括构建模块,该构建模块在对处于正常状态下的检测对象的各个检测项数据进行训练之前,还用于:
根据处于正常状态下的多个检测对象各自的各个检测项数据,对各个检测对象进行健康等级的划分;
保留处于中间健康等级范围内的检测对象的各个检测项数据,作为建立故障检测模型的训练数据;其中,中间健康等级范围不包含最高健康等级和最低健康等级;
确定模块具体用于:
根据每个检测项预测数据确定对应的期望值和偏差;
根据各个检测项数据、各个隐空间变量数据,以及各个检测项预测数据对应的期望值和偏差,确定对应于所述检测对象的检测分值;
根据所述检测对象的检测分值与对应的阈值进行比较,确定对应于所述检测对象的检测结果。
15.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至13任一项所述故障检测方法。
16.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述故障检测方法。
CN202311348736.3A 2023-10-18 2023-10-18 故障检测方法、装置、电子设备及存储介质 Active CN117093433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311348736.3A CN117093433B (zh) 2023-10-18 2023-10-18 故障检测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311348736.3A CN117093433B (zh) 2023-10-18 2023-10-18 故障检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN117093433A CN117093433A (zh) 2023-11-21
CN117093433B true CN117093433B (zh) 2024-02-09

Family

ID=88783649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311348736.3A Active CN117093433B (zh) 2023-10-18 2023-10-18 故障检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN117093433B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943321A (zh) * 2021-02-08 2022-08-26 超聚变数字技术有限公司 一种针对硬盘的故障预测方法、装置及设备
CN116521462A (zh) * 2023-04-21 2023-08-01 济南大学 一种用于磁盘故障预测模型训练的数据集构建方法及***
CN116541222A (zh) * 2023-04-27 2023-08-04 山东云海国创云计算装备产业创新中心有限公司 一种硬盘状态数据生成方法、***、设备及介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114943321A (zh) * 2021-02-08 2022-08-26 超聚变数字技术有限公司 一种针对硬盘的故障预测方法、装置及设备
CN116521462A (zh) * 2023-04-21 2023-08-01 济南大学 一种用于磁盘故障预测模型训练的数据集构建方法及***
CN116541222A (zh) * 2023-04-27 2023-08-04 山东云海国创云计算装备产业创新中心有限公司 一种硬盘状态数据生成方法、***、设备及介质

Also Published As

Publication number Publication date
CN117093433A (zh) 2023-11-21

Similar Documents

Publication Publication Date Title
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN108052528B (zh) 一种存储设备时序分类预警方法
CN113098723B (zh) 一种故障根因定位方法、装置、存储介质及设备
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN111581072B (zh) 一种基于smart和性能日志的磁盘故障预测方法
CN112637132A (zh) 一种网络异常检测方法、装置、电子设备和存储介质
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及***
CN111984511B (zh) 一种基于二分类的多模型磁盘故障预测方法和***
CN114943321A (zh) 一种针对硬盘的故障预测方法、装置及设备
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控***
CN111611146A (zh) 一种微服务故障预测方法和装置
WO2024078339A1 (zh) 基于车辆历史数据的故障预测方法、***和存储介质
CN111882338A (zh) 在线人数的异常检测方法、装置及电子设备
CN111767162B (zh) 一种面向不同型号硬盘的故障预测方法及电子装置
Wang et al. Failure prediction of hard disk drives based on adaptive Rao–Blackwellized particle filter error tracking method
CN111061581A (zh) 一种故障检测方法、装置及设备
CN112433928A (zh) 一种存储设备的故障预测方法、装置、设备及存储介质
CN115964211A (zh) 一种根因定位方法、装置、设备和可读介质
CN115729761A (zh) 一种硬盘故障预测方法、***、设备及介质
CN113822336A (zh) 一种云硬盘故障预测方法、装置、***及可读存储介质
CN116661954B (zh) 虚拟机异常预测方法、装置、通信设备及存储介质
CN117093433B (zh) 故障检测方法、装置、电子设备及存储介质
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
CN113127274A (zh) 磁盘故障预测方法、装置、设备及计算机存储介质
CN111367781B (zh) 一种实例处理方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant