CN114358421A - 磁盘故障预测方法、装置、存储介质和电子设备 - Google Patents

磁盘故障预测方法、装置、存储介质和电子设备 Download PDF

Info

Publication number
CN114358421A
CN114358421A CN202210004570.2A CN202210004570A CN114358421A CN 114358421 A CN114358421 A CN 114358421A CN 202210004570 A CN202210004570 A CN 202210004570A CN 114358421 A CN114358421 A CN 114358421A
Authority
CN
China
Prior art keywords
data
disk
data set
failure prediction
smart
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210004570.2A
Other languages
English (en)
Inventor
杨迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp filed Critical China Construction Bank Corp
Priority to CN202210004570.2A priority Critical patent/CN114358421A/zh
Publication of CN114358421A publication Critical patent/CN114358421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Game Theory and Decision Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种磁盘故障预测方法、装置、存储介质和电子设备,可以通过通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;将各所述SMART数据进行归一化,得到相应的输入数据集;将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。由此可以看出,本发明对于磁盘发生故障的概率诊断不依赖人工,效率较高且诊断结果比较客观可靠。

Description

磁盘故障预测方法、装置、存储介质和电子设备
技术领域
本发明涉及大数据领域,特别涉及一种磁盘故障预测方法、装置、存储介质和电子设备。
背景技术
随着科技的不断发展,数据中心IT基础设施规模迅速扩大,数据中心承载的数据量也在快速增长,存储数据的介质磁盘的数量也随之激增。而数据中心基础设施硬件部件中故障率最高的就是磁盘,经统计磁盘故障在所有硬件部件故障中的占比达到90%以上。针对磁盘故障,当前只能在收到故障告警后,由运维人员根据多个参数的值对磁盘发生故障的概率进行判断,这种方式显然十分依赖运维人员的个人经验,效率低下且可靠性不足。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的磁盘故障预测方法、装置、存储介质和电子设备。
第一方面,本发明提供了一种磁盘故障预测方法,包括:
通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
将各所述SMART数据进行归一化,得到相应的输入数据集;
将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
结合第一方面,在某些可选的实施方式中,在所述将各所述SMART数据进行归一化,得到相应的输入数据集之前,所述方法还包括:
针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述将各所述SMART数据进行归一化,得到相应的输入数据集,包括:
将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
结合上一个实施方式,在某些可选的实施方式中,所述磁盘故障预测模型的训练过程,包括:
获得磁盘的历史SMART数据集;
将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
结合上一个实施方式,在某些可选的实施方式中,在训练得到所述磁盘故障预测模型之后,所述方法还包括:
根据所述磁盘故障预测模型对所述测试数据集涉及的各所述磁盘的故障识别结果和各所述磁盘的实际故障情况,确定所述磁盘故障预测模型的准确度数据,其中,所述准确度数据包括预测率、误报率和准确率中的至少一种,所述预测率为:被预测为有故障的磁盘数量与实际中发生故障的所有磁盘数量的比,所述误报率为:被预测为有故障的磁盘数量占实际中未发生故障的所有磁盘数量的比,所述准确率为:故障识别结果与实际相符的磁盘数量和全部磁盘数量的比;
根据所述准确度数据,对所述磁盘故障预测模型的参数进行调整。
结合第一方面,在某些可选的实施方式中,所述通过采集脚本,采集目标磁盘的SMART数据,包括:
通过部署在目标服务器上的所述采集脚本,采集所述目标服务器的日志文件,其中,所述目标磁盘挂载在所述目标服务器上,所述日志文件记录有所述目标磁盘的运行数据;
根据所述日志文件中记录的所述目标磁盘的运行数据,获得所述目标磁盘的SMART数据。
第二方面,一种磁盘故障预测装置,包括:数据采集单元、归一化单元和故障预测单元;
所述数据采集单元,用于通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
所述归一化单元,用于将各所述SMART数据进行归一化,得到相应的输入数据集;
所述故障预测单元,用于将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
结合第二方面,在某些可选的实施方式中,所述装置还包括:突变数据确定单元、假设检验单元和筛选单元;
所述突变数据确定单元,用于在所述将各所述SMART数据进行归一化,得到相应的输入数据集之前,针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
所述假设检验单元,用于针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
所述筛选单元,用于将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述归一化单元,包括:归一化子单元;
所述归一化子单元,用于将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:模型训练单元;
所述模型训练单元,用于执行所述磁盘故障预测模型的训练过程;
所述模型训练单元,包括:历史数据获得子单元、数据集划分子单元、参数组获得子单元、模型训练子单元和模型精度调整子单元;
所述历史数据获得子单元,用于获得磁盘的历史SMART数据集;
所述数据集划分子单元,用于将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
所述参数组获得子单元,用于将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
所述模型训练子单元,用于将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
所述模型精度调整子单元,用于将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
第三方面,一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的磁盘故障预测方法。
第四方面,一种电子设备,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述任一项所述的磁盘故障预测方法。
借由上述技术方案,本发明提供的磁盘故障预测方法、装置、存储介质和电子设备,可以通过通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;将各所述SMART数据进行归一化,得到相应的输入数据集;将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。由此可以看出,本发明对于磁盘发生故障的概率诊断不依赖人工,效率较高且诊断结果比较客观可靠。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明提供的一种磁盘故障预测方法的流程图;
图2示出了本发明提供的一种可选实施例的示意图;
图3示出了本发明提供的一种磁盘故障预测装置的结构示意图;
图4示出了本发明提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明提供了一种磁盘故障预测方法,包括:S100、S200和S300;
S100、通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
可选的,SMART的英文全称是:Self-MonitoringAnalysis and ReportingTechnology,即自我监测、分析及报告技术,是一种自动的硬盘状态检测与预警***和规范。SMART技术的原理是通过侦测硬盘各属性,如数据吞吐性能、马达起动时间、寻道错误率等属性值和标准值进行比较分析,推断硬盘的故障情况并给出提示信息,帮助用户避免数据损失。磁盘可以自动运行SMART功能从而产生相应的SMART数据,该部分内容属于现有技术,具体请参见本领域的相关说明,本文对此不做过多描述。
可选的,SMART数据中可以包括目标磁盘多项运行指标的数据,本发明对此不做限制。
可选的,针对不同运行指标的数据,可以包括多个时刻的多个离散数据,也可以包括一定时间范围内的连续数据,本发明对此不做限制。
可选的,本发明还可以将采集到的SMART数据存储至数据库,通过数据库可以生成csv格式的相应数据,以便于在需要时,方便使用Python对数据进行处理。例如,可以通过Python的numpy、csv、pandas等库,可以方便的将csv数据读取并转换为多维数组和字典等数据结构并进行数据清洗(筛选)和归一化等操作,本发明对此不做限制。
可选的,本发明的采集脚本适用于各种主流的服务器类型、操作***类型(LINUX、AIX和HPUX等)和Raid卡类型(HP和LSI等),本发明对此不做限制。
可选的,本发明的采集脚本可以定时采集SMART数据并存储至数据库,也可以通过其他条件触发的方式,触发采集脚本采集SMART数据,本发明对此不做限制。
可选的,本发明对于通过采集脚本,采集目标磁盘的SMART数据的具体方式不做限制。例如,结合图1所示的实施方式,在某些可选的实施方式中,所述S100,包括:步骤4.1和步骤4.2;
步骤4.1、通过部署在目标服务器上的所述采集脚本,采集所述目标服务器的日志文件,其中,所述目标磁盘挂载在所述目标服务器上,所述日志文件记录有所述目标磁盘的运行数据;
步骤4.2、根据所述日志文件中记录的所述目标磁盘的运行数据,获得所述目标磁盘的SMART数据。
可选的,本发明可以通过部署在各个服务器上的采集脚本,并行采集多个目标磁盘的SMART数据,从而提高本发明的效率。
S200、将各所述SMART数据进行归一化,得到相应的输入数据集;
可选的,归一化属于本领域的公知技术,是一种数据无量纲的处理手段。归一化可以把数据通过某种算法处理后,限制在一定的范围内,将数据值由绝对值转化为相对值,归一化能够归纳统一样本的统计分布性。
可选的,本发明采集的到不同运行指标的SMART数据的取值范围不一样。通过归一化,可以简化后续磁盘故障预测模型的计算,加快磁盘故障预测模型训练速度和预测速度,也可以为各个SMART数据提供公平的比较,避免产生误差,有利于提高磁盘故障预测模型的预测效果。
可选的,本发明可以使用一个简单的线性转换函数来对各个SMART数据进行归一化。公式如下所示:
Figure BDA0003455072980000081
公式中的x为归一化之前的值,Xnormal为归一化之后的值,xmin和xmax则分别是不同运行指标的SMART数据中出现的最大值和最小值。运用公式将所有SMART数据归一化后,它们的取值范围都会被映射到[-1,1]的区间范围内,本发明对此不做限制。
可选的,为了进一步提高后续磁盘故障预测模型的效率和准确率,在进行归一化之前,本发明还可以对采集到的所有SMART数据进行筛选,选择对故障预测结果影响较大的运行指标的数据。例如,结合图1所示的实施方式,在某些可选的实施方式中,在所述S200之前,所述方法还包括:步骤1.1、步骤1.2和步骤1.3;
步骤1.1、针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
可选的,如前所述,针对每一个运行指标可以采集多个时刻的数据,不同时刻的数据可能出现数据突变的情况。例如上一时刻的数据为10,而下一时刻的数据立马变为1000,则说明出现了数据突变的情况。针对数据突变的情况,说明磁盘可能出现异常。为此,本发明可以采用突变点检测的方式来进行数据筛选,选择需要关注的运行指标作为后续数据筛选模块的输入。将突变点定义为那些发生不可恢复的永久性突变的时刻点。针对不同的运行指标,通过假设检验,判断突变点是否为不可恢复的永久性突变,继而通过计算正样本中发生突变的磁盘比例,来比较不同的运行指标的重要性,比例越高,则认为该运行指标具有越丰富的判别信息,即置信度越高。
步骤1.2、针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
步骤1.3、将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述S200,包括:将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
可选的,对所述SMART数据进行筛选后得到的目标SMART数据可以包括如图2所述的运行指标的数据。当然,还可以包括其他运行指标的数据,本发明仅是以图2为例子说明本方案,本发明对此不做限制。
S300、将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
结合上一个实施方式,在某些可选的实施方式中,所述磁盘故障预测模型的训练过程,包括:步骤2.1、步骤2.2、步骤2.3、步骤2.4和步骤2.5;
步骤2.1、获得磁盘的历史SMART数据集;
步骤2.2、将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
可选的,测试数据集和训练数据集可以基于数据中心运行多年的数据积累,包括上述的经过筛选和归一化的SMART数据和磁盘故障的结果(例如,该磁盘是否在X天内故障,X为参数可调整)。
步骤2.3、将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
测试数据集和训练数据集通过python的numpy库进行处理,作为模型训练的输入参数,格式为array(即数组)格式的两个变量:x和y。x为多维数组,格式为[[x11,x12…,x1M],[x21,x22,…,x2M],…,[xN1,xN2,…,xNM]],其中,xN1到xNM代表第N块磁盘的M项SMART数据。y为一维数组,格式为[y1,y2,…,yN],yN取值为0或1,代表第N块磁盘是否在X天内故障。
步骤2.4、将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
可选的,将训练数据集组成的x和y两个数组作为输入参数组,可以使用利用sklearn封装好的多种机器学习模型进行训练得到磁盘故障预测模型。例如,SVM:model=sklearn.svm.SVC(C=20,kernel=‘linear’),model.fit(x,y)。
调用sklearn封装好的svm模块的svc函数,入参(这里列举C语言、kernel)为算法相关的一些参数(后面的调参就是对这些参数进行调整),然后通过fit函数输入x和y两个数组,这样就得到了训练的磁盘故障预测模型。其他两种算法类似,调用不同的函数和参数。
得到磁盘故障预测模型后,将测试数据集得到的数组x作为输入测试参数,输入上一步得到的磁盘故障预测模型,可以得到一个一维数组apre。apre格式为[a1,a2,…,aN],apre是模型对测试数据集的训练测试结果。aN取值为0或1,代表预测第N块磁盘是否将在X天内故障。这样就得到apre和y,分别代表训练测试结果和实际结果,可以计算预测率(y中为1且apre中也为1的占比)、误报率(y中为0且apre为1的占比)、和准确率(y与apre一致的占比)等评价指标来对模型准确度进行评价。
通过调整模型参数和不断采集的新数据输入训练,从而改进磁盘故障预测模型。
步骤2.5、将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
可选的,上述python、numpy库、sklearn、svm和svc函数等概念均属于本领域的公知概念,本发明对此不做过多描述,具体请参见本领域的相关解释。
结合上一个实施方式,在某些可选的实施方式中,在训练得到所述磁盘故障预测模型之后,所述方法还包括:步骤3.1和步骤3.2;
步骤3.1、根据所述磁盘故障预测模型对所述测试数据集涉及的各所述磁盘的故障识别结果和各所述磁盘的实际故障情况,确定所述磁盘故障预测模型的准确度数据,其中,所述准确度数据包括预测率、误报率和准确率中的至少一种,所述预测率为:被预测为有故障的磁盘数量与实际中发生故障的所有磁盘数量的比,所述误报率为:被预测为有故障的磁盘数量占实际中未发生故障的所有磁盘数量的比,所述准确率为:故障识别结果与实际相符的磁盘数量和全部磁盘数量的比;
步骤3.2、根据所述准确度数据,对所述磁盘故障预测模型的参数进行调整。
如图3所示,本发明提供了一种磁盘故障预测装置,包括:数据采集单元100、归一化单元200和故障预测单元300;
所述数据采集单元100,用于通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
所述归一化单元200,用于将各所述SMART数据进行归一化,得到相应的输入数据集;
所述故障预测单元300,用于将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
结合图3所示的实施方式,在某些可选的实施方式中,所述装置还包括:突变数据确定单元、假设检验单元和筛选单元;
所述突变数据确定单元,用于在所述将各所述SMART数据进行归一化,得到相应的输入数据集之前,针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
所述假设检验单元,用于针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
所述筛选单元,用于将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述归一化单元200,包括:归一化子单元;
所述归一化子单元,用于将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:模型训练单元;
所述模型训练单元,用于执行所述磁盘故障预测模型的训练过程;
所述模型训练单元,包括:历史数据获得子单元、数据集划分子单元、参数组获得子单元、模型训练子单元和模型精度调整子单元;
所述历史数据获得子单元,用于获得磁盘的历史SMART数据集;
所述数据集划分子单元,用于将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
所述参数组获得子单元,用于将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
所述模型训练子单元,用于将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
所述模型精度调整子单元,用于将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
结合上一个实施方式,在某些可选的实施方式中,所述装置还包括:准确度确定单元和参数调整单元;
准确度确定单元,用于在训练得到所述磁盘故障预测模型之后,根据所述磁盘故障预测模型对所述测试数据集涉及的各所述磁盘的故障识别结果和各所述磁盘的实际故障情况,确定所述磁盘故障预测模型的准确度数据,其中,所述准确度数据包括预测率、误报率和准确率中的至少一种,所述预测率为:被预测为有故障的磁盘数量与实际中发生故障的所有磁盘数量的比,所述误报率为:被预测为有故障的磁盘数量占实际中未发生故障的所有磁盘数量的比,所述准确率为:故障识别结果与实际相符的磁盘数量和全部磁盘数量的比;
参数调整单元,用于根据所述准确度数据,对所述磁盘故障预测模型的参数进行调整。
结合图3所示的实施方式,在某些可选的实施方式中,所述数据采集单元100,包括:日志采集子单元和数据获得子单元;
日志采集子单元,用于通过部署在目标服务器上的所述采集脚本,采集所述目标服务器的日志文件,其中,所述目标磁盘挂载在所述目标服务器上,所述日志文件记录有所述目标磁盘的运行数据;
数据获得子单元,用于根据所述日志文件中记录的所述目标磁盘的运行数据,获得所述目标磁盘的SMART数据。
本发明提供了一种计算机可读存储介质,其上存储有程序,所述程序被处理器执行时实现上述任一项所述的磁盘故障预测方法。
如图4所述,本发明提供了一种电子设备70,所述电子设备70包括至少一个处理器701、以及与所述处理器701连接的至少一个存储器702、总线703;其中,所述处理器701、所述存储器702通过所述总线703完成相互间的通信;所述处理器701用于调用所述存储器702中的程序指令,以执行上述任一项所述的磁盘故障预测方法。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种磁盘故障预测方法,其特征在于,包括:
通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
将各所述SMART数据进行归一化,得到相应的输入数据集;
将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
2.根据权利要求1所述的方法,其特征在于,在所述将各所述SMART数据进行归一化,得到相应的输入数据集之前,所述方法还包括:
针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述将各所述SMART数据进行归一化,得到相应的输入数据集,包括:
将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
3.根据权利要求2所述的方法,其特征在于,所述磁盘故障预测模型的训练过程,包括:
获得磁盘的历史SMART数据集;
将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
4.根据权利要求3所述的方法,其特征在于,在训练得到所述磁盘故障预测模型之后,所述方法还包括:
根据所述磁盘故障预测模型对所述测试数据集涉及的各所述磁盘的故障识别结果和各所述磁盘的实际故障情况,确定所述磁盘故障预测模型的准确度数据,其中,所述准确度数据包括预测率、误报率和准确率中的至少一种,所述预测率为:被预测为有故障的磁盘数量与实际中发生故障的所有磁盘数量的比,所述误报率为:被预测为有故障的磁盘数量占实际中未发生故障的所有磁盘数量的比,所述准确率为:故障识别结果与实际相符的磁盘数量和全部磁盘数量的比;
根据所述准确度数据,对所述磁盘故障预测模型的参数进行调整。
5.根据权利要求1所述的方法,其特征在于,所述通过采集脚本,采集目标磁盘的SMART数据,包括:
通过部署在目标服务器上的所述采集脚本,采集所述目标服务器的日志文件,其中,所述目标磁盘挂载在所述目标服务器上,所述日志文件记录有所述目标磁盘的运行数据;
根据所述日志文件中记录的所述目标磁盘的运行数据,获得所述目标磁盘的SMART数据。
6.一种磁盘故障预测装置,其特征在于,包括:数据采集单元、归一化单元和故障预测单元;
所述数据采集单元,用于通过采集脚本,采集目标磁盘的SMART数据,其中,所述SMART数据包括所述目标磁盘的M项运行指标的数据,每项所述运行指标的数据均包括多个不同时刻的数据,所述M为大于1的整数;
所述归一化单元,用于将各所述SMART数据进行归一化,得到相应的输入数据集;
所述故障预测单元,用于将所述输入数据集输入至预先训练好的磁盘故障预测模型,从而得到所述磁盘故障预测模型输出的故障预测结果,其中,所述故障预测结果表征所述目标磁盘发生故障的概率。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:突变数据确定单元、假设检验单元和筛选单元;
所述突变数据确定单元,用于在所述将各所述SMART数据进行归一化,得到相应的输入数据集之前,针对任一所述运行指标的数据,均执行:根据不同时刻的数据,确定至少一个突变数据,其中,所述突变数据为:与最近上一时刻的数据的差距大于所述运行指标的预设变化阈值的数据;
所述假设检验单元,用于针对任一所述运行指标的突变数据,均执行:对各所述突变数据进行假设检验,从而确定相应运行指标的指标概率,其中,所述指标概率表征相应运行指标的数据用于确定所述目标磁盘发生故障的概率的置信度,所述指标概率越大所述置信度越高;
所述筛选单元,用于将所述指标概率较大的N项运行指标的数据作为目标SMART数据,从而对所述SMART数据进行筛选,其中,所述N为大于1且小于所述M的整数;
所述归一化单元,包括:归一化子单元;
所述归一化子单元,用于将各所述目标SMART数据进行所述归一化,得到相应的所述输入数据集。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:模型训练单元;
所述模型训练单元,用于执行所述磁盘故障预测模型的训练过程;
所述模型训练单元,包括:历史数据获得子单元、数据集划分子单元、参数组获得子单元、模型训练子单元和模型精度调整子单元;
所述历史数据获得子单元,用于获得磁盘的历史SMART数据集;
所述数据集划分子单元,用于将所述历史SMART数据集进行所述筛选和所述归一化后,得到相应的训练数据集和测试数据集,其中,所述训练数据集的数据量大于所述测试数据集的数据量,所述训练数据集和测试数据集均涉及多个磁盘;
所述参数组获得子单元,用于将所述训练数据集输入通过python的numpy库进行处理,得到模型训练用的输入参数组;
所述模型训练子单元,用于将所述输入参数组输入至利用sklearn封装好的多种机器学习模型,从而训练得到所述磁盘故障预测模型;
所述模型精度调整子单元,用于将所述测试数据集输入至所述磁盘故障预测模型,从而根据得到的训练测试结果调整所述磁盘故障预测模型的精度。
9.一种计算机可读存储介质,其上存储有程序,其特征在于,所述程序被处理器执行时实现如权利要求1至5中任一项所述的磁盘故障预测方法。
10.一种电子设备,其特征在于,所述电子设备包括至少一个处理器、以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、所述存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行如权利要求1至5中任一项所述的磁盘故障预测方法。
CN202210004570.2A 2022-01-04 2022-01-04 磁盘故障预测方法、装置、存储介质和电子设备 Pending CN114358421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210004570.2A CN114358421A (zh) 2022-01-04 2022-01-04 磁盘故障预测方法、装置、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210004570.2A CN114358421A (zh) 2022-01-04 2022-01-04 磁盘故障预测方法、装置、存储介质和电子设备

Publications (1)

Publication Number Publication Date
CN114358421A true CN114358421A (zh) 2022-04-15

Family

ID=81106782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210004570.2A Pending CN114358421A (zh) 2022-01-04 2022-01-04 磁盘故障预测方法、装置、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN114358421A (zh)

Similar Documents

Publication Publication Date Title
Bodik et al. Fingerprinting the datacenter: automated classification of performance crises
US20190121714A1 (en) Hybrid clustering-partitioning technique that optimizes accuracy and compute cost for prognostic surveillance of sensor data
EP2015186A2 (en) Diagnostic systems and methods for predictive condition monitoring
AU2019275633B2 (en) System and method of automated fault correction in a network environment
AU2002246994A1 (en) Diagnostic systems and methods for predictive condition monitoring
CN117407661B (zh) 一种用于设备状态检测的数据增强方法
WO2022001125A1 (zh) 一种存储***的存储故障预测方法、***及装置
CN112596964B (zh) 磁盘故障的预测方法及装置
CN115865649B (zh) 一种智能运维管理控制方法、***和存储介质
CN115392408A (zh) 一种电子数粒机运行异常检测方法及***
CN110688617A (zh) 风机振动异常检测方法及装置
CN116066343A (zh) 一种输油泵机组故障模型的智能预警方法及***
CN117094184B (zh) 基于内网平台的风险预测模型的建模方法、***及介质
CN112951311A (zh) 一种基于变权重随机森林的硬盘故障预测方法及***
CN115033615A (zh) 一种基于时序数据的烟草设备故障预测***及预测方法
CN115719283A (zh) 一种智能化会计管理***
CN113822336A (zh) 一种云硬盘故障预测方法、装置、***及可读存储介质
CN117331790A (zh) 一种用于数据中心的机房故障检测方法及装置
CN115729761B (zh) 一种硬盘故障预测方法、***、设备及介质
CN114358421A (zh) 磁盘故障预测方法、装置、存储介质和电子设备
CN115169650B (zh) 一种大数据分析的装备健康预测方法
CN111367781B (zh) 一种实例处理方法及其装置
CN114580472A (zh) 工业互联网中因果与注意力并重的大型设备故障预测方法
KR102212022B1 (ko) 양수 수차의 건전성 자동 판정 방법 및 이를 위한 시스템
CN117093433B (zh) 故障检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination