CN110413227B - 一种硬盘设备的剩余使用寿命在线预测方法和*** - Google Patents

一种硬盘设备的剩余使用寿命在线预测方法和*** Download PDF

Info

Publication number
CN110413227B
CN110413227B CN201910583452.XA CN201910583452A CN110413227B CN 110413227 B CN110413227 B CN 110413227B CN 201910583452 A CN201910583452 A CN 201910583452A CN 110413227 B CN110413227 B CN 110413227B
Authority
CN
China
Prior art keywords
hard disk
time
data set
data
service life
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910583452.XA
Other languages
English (en)
Other versions
CN110413227A (zh
Inventor
谭支鹏
张鑫
冯丹
王芳
谢燕文
徐高翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201910583452.XA priority Critical patent/CN110413227B/zh
Publication of CN110413227A publication Critical patent/CN110413227A/zh
Application granted granted Critical
Publication of CN110413227B publication Critical patent/CN110413227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0616Improving the reliability of storage systems in relation to life time, e.g. increasing Mean Time Between Failures [MTBF]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0653Monitoring storage devices or systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/0671In-line storage system
    • G06F3/0673Single storage device
    • G06F3/0674Disk device
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种硬盘设备的剩余使用寿命在线预测方法和***,属于计算机存储技术领域。本发明以硬盘设备的SMART信息和I/O状态信息为依据,进行硬盘设备的剩余使用寿命在线预测,SMART数据记录了多项硬盘运行状态的可靠性指标,I/O状态信息包含I/O请求在硬盘设备上所消耗的时间,去掉了对硬盘设备寿命无关的时间;基于采集到的I/O状态信息,生成若干衍生变量属性,这些衍生变量与硬盘寿命强相关,反映了硬盘状态信息与故障的内在关系;采用分组标签赋值,避免使用变化较大的临时变量影响训练效果,并选用双向长短时记忆神经网络作为预测模型,结合前后隐藏层对当前值做出合理预测,均方根误差和平均绝对误差均得到了有效降低,从而提高硬盘寿命预测的精度。

Description

一种硬盘设备的剩余使用寿命在线预测方法和***
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种硬盘设备的剩余使用寿命在线预测方法和***。
背景技术
近年来,越来越多的软件应用程序选择作为在线服务部署在诸如微软、谷歌、亚马逊等云计算平台上。尽管大多数云服务提供厂商都宣称提供高可用性,但实际上云服务依然会失败从而导致用户不满意和经济损失。造成***服务不可用的原因主要包括:操作失误、病毒破坏、硬件***故障或软件故障(内存错误、网络故障灯)、设备硬件故障等几方面。相比如CPU、内存等其他部件,而且硬盘具有体量大,剩余使用寿命短等特点,是存储设备硬件故障的主要部分。提高硬盘可靠性在数据中心中显得尤为重要。
为提高云平台的可靠性,目前采用的技术主要分为被动容错和主动容错技术。被动容错主要包括纠删码、备份等。主动容错包括常规性维护和预测性维护两种。常规性维护主要包括周期性维护(定期检查,例如硬盘自带的SMART阈值监测)和故障时维护(运维检测到硬盘无法读写后进行数据恢复)。预测性维护主要通过机器学习的方法进行建模预测,目前主要将其作为二分类的问题,即判断硬盘是否故障。
上述方法中,被动容错技术会有数据丢失和经济损失的风险,维护成本较高;主动容错技术的常规性维护方法过于保守,且因设置阈值门栏过低导致预测准确率较低,会造成***资源的严重浪费和影响***正常提供服务;主动容错技术的预测性维护部分只考虑SMART信息,部分考虑I/O状态信息也包括了非硬盘本身导致的I/O调度的时间,建模方法也有尚待改进的地方,在实际生产环境中预测结果仍有待提高。
发明内容
针对现有技术的缺陷,本发明的目的在于解决现有技术硬盘寿命预测结果不准确的技术问题。
为实现上述目的,第一方面,本发明实施例提供了一种硬盘设备的剩余使用寿命在线预测方法,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
具体地,步骤S2包括以下步骤:
S201.对历史状态数据集进行数据清洗;
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集;
S203.对新的数据集进行归一化;
S204.对归一化后数据集进行特征选择;
S205.对特征选择后的数据集进行分组标签赋值;
S206.对赋值后的数据集进行数据转换;
S207.对数据转换后的数据集进行样本分割。
具体地,所述衍生变量包括:吞吐率Th,表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;
Figure GDA0002982476540000032
表示每小时的平均I/O延迟。
具体地,步骤S205包括以下步骤:
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量PULi,t
Figure GDA0002982476540000031
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,tpower是该硬盘的通电时长,在采集期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本;
(2)使用分段函数为样本计算标签值
Figure GDA0002982476540000033
Figure GDA0002982476540000041
Figure GDA0002982476540000042
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
具体地,步骤S206包括以下步骤:
(1)将状态信息属性项{A1,A2,…,Am′}和标签值
Figure GDA0002982476540000043
组成为硬盘设备在时刻t的时间序列数据;
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y);
以时间步T为时间窗口,取时间序列数据中A1,A2,…,Am′的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步T为时间窗口,取时间序列数据中
Figure GDA0002982476540000044
的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
具体地,样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,基于训练集采用滑动窗口随机分割一部分作为验证集。
具体地,以多个(预测变量X,目标变量Y)的数据对为输入,使用双向长短时记忆神经网络训练硬盘剩余使用寿命模型,以训练得到的模型作为输出,所述双向长短时记忆神经网络计算方法为:
Figure GDA0002982476540000051
Figure GDA0002982476540000052
Figure GDA0002982476540000053
其中,前向隐藏层向量
Figure GDA0002982476540000054
用于从前向后迭代计算,后向隐藏层向量
Figure GDA0002982476540000055
用于从后向前迭代计算,
Figure GDA0002982476540000056
分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,
Figure GDA0002982476540000057
表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
具体地,采用均方根误差RMSE和平均绝对误差MAE作为模型的损失函数,基于数据转换后的测试集进行模型评估,其计算方法为:
Figure GDA0002982476540000058
Figure GDA0002982476540000059
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命,
Figure GDA00029824765400000510
是标签值,模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
第二方面,本发明实施例提供了一种硬盘设备的剩余使用寿命预测***,所述***包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
第三方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面所述的硬盘设备的剩余使用寿命在线预测方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有以下有益效果:
1.本发明以硬盘设备的SMART信息和I/O状态信息为依据,进行硬盘设备的剩余使用寿命在线预测,SMART数据记录了多项硬盘运行状态的可靠性指标,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间,去掉了与硬盘设备寿命无关的时间,因此,能够提高硬盘寿命预测的准确率。
2.本发明基于采集到的I/O状态信息,生成若干衍生变量属性,这些衍生变量与硬盘寿命强相关,反映了硬盘状态信息与故障的内在关系,能够有效提高硬盘寿命预测的精度。
3.本发明采用分组标签赋值,避免使用变化较大的临时变量RULi,t影响训练效果,并选用双向长短时记忆神经网络作为预测模型,前向隐藏层考虑了历史值对当前值的影响,后向隐藏层考虑了未来值对当前值的影响,结合前后隐藏层对当前值做出合理预测,克服了RNN梯度消失和***的问题,均方根误差和平均绝对误差均得到了有效降低,从而提高硬盘寿命预测的精度。
附图说明
图1为本发明实施例提供的一种硬盘设备的剩余使用寿命在线预测方法流程图;
图2为本发明实施例提供的双向长短时记忆网络模型;
图3为本发明实施例提供的一种硬盘设备的剩余使用寿命预测***结构示意图;
图4为本发明实施例提供的数据采集流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,一种硬盘设备的剩余使用寿命在线预测方法,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
步骤S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间。
SMART技术是指硬盘设备的“自我监测、分析及报告技术”,通过在硬盘设备内的检测指令对硬盘设备硬件,如磁头、盘片、马达、电路的运行情况进行监控、记录并与硬盘设备厂商出厂设置的阈值进行比较,若监控记录值超出阈值,就通过主机的监控硬件或软件自动向用户告警并进行粗粒度的自动修复,以提前保障硬盘数据安全。这些SMART数据记录了多项硬盘运行状态的可靠性指标,使高准确率和高覆盖率的硬盘故障预测成为可能。因此本方法采用SMART数据进行硬盘故障预测。具体包括:时间戳、硬盘厂商、硬盘系列号、底层数据读取错误率、盘片启动时间、重定位磁区计数、寻道错误率、硬盘加电时长、报告不可纠正错误、等候重定的扇区计数等。
频繁持续的I/O操作会降低硬盘寿命并可能导致故障,因此,本发明采用I/O状态信息进行硬盘剩余使用寿命预测。本发明中采用的I/O状态信息包括I/O请求真正在硬盘设备上所消耗的时间
Figure GDA0002982476540000093
去掉了对硬盘设备寿命无关的时间,例如,I/O队列的等待和传输时间。具体包括:每秒读/写扇区数、每秒读/写千字节数、I/O平均扇区数、I/O平均所需时间、读/写操作所需时间以及硬盘设备的繁忙比例、Td2ci等多维度信息。
通过硬盘状态信息采集脚本,周期性地从数据中心中采集硬盘设备的SMART和I/O状态数据,构成硬盘运行状态数据。
设时刻ta第i块硬盘的运行状态数据为Dia={A1,A2…Am},表示硬盘i在时刻ta具有m维属性项Ai。从时刻t0记录开始到某时刻tx第i块硬盘的历史状态数据集表示为Di={Di0,Di1,…,Dix}。若数据中心部署了n块同型号硬盘,则时刻tx数据中心硬盘的历史状态数据集可表示为
Figure GDA0002982476540000091
时刻tx的实时状态数据集可表示为
Figure GDA0002982476540000092
其中,T表示时间步。
步骤S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集。
S201.对历史状态数据集进行数据清洗。
由于历史状态数据集中包含缺失值和异常值,无法直接用于建模,因此,本发明对历史状态数据集进行数据清洗。其中,缺失值采用均值填补,异常值采用删除操作。
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集。
为了深入挖掘硬盘状态信息与故障的内在关系,本发明基于采集到的I/O状态信息,生成若干衍生变量。衍生变量包括:吞吐率Th表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;
Figure GDA0002982476540000102
表示每小时的平均I/O延迟。这些衍生变量与硬盘寿命强相关,能够有效提高硬盘寿命预测的精度。最后,时刻ta硬盘i新的多变量时间序列衍生为
Figure GDA0002982476540000103
S203.对新的数据集进行归一化。
将样本数据每个时刻的每种属性值缩放至[0,1]的分布上,使得多维特征具有相近的尺度,进而提高算法的收敛速度。
S204.对归一化后数据集进行特征选择。
使用经典的反向趋势检测算法对归一化后数据集进行特征选择,过滤掉与故障无关的特征。因此,本发明是基于多个与故障相关的属性进行建模分析的。假定特征选择后的数据集状态信息属性项为{A1,A2,…,Am′},其中,m’表示特征个数。
S205.对特征选择后的数据集进行分组标签赋值。
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量RULi,t
Figure GDA0002982476540000101
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,由硬盘厂商给定,tpower是该硬盘的通电时长,可从SMART属性得知。在采集周期t0~tx期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本。
(2)使用分段函数为样本计算标签值
Figure GDA0002982476540000111
避免使用变化较大的临时变量RULi,t影响训练效果。
Figure GDA0002982476540000112
Figure GDA0002982476540000113
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
考虑到硬盘在足够健康的[tm,tn]期间剩余使用寿命较长,状态信息属性项{A1a,A2a,…,Ama}变化不大,因此,对于正常样本来说,采用状态信息属性项{A1a,A2a,…,Ama}作为输入,使用RULi,t=tmax-tpower作为标签值进行建模,拟合效果不佳,影响模型预测效果。本发明针对该问题,采用
Figure GDA0002982476540000114
作为标签值,弱化了建模过程中RULi,t对正常盘的影响。
S206.对赋值后的数据集进行数据转换。
(1)将状态信息属性项{A1,A2,…,Am′}和标签值
Figure GDA0002982476540000115
组成为硬盘设备在时刻t的时间序列数据。
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y)。
采集了[t0,tx]的历史状态数据集,各时刻的时间序列数据为
Figure GDA0002982476540000116
以时间步T为时间窗口,取时间序列数据的A1,A2,…,Am′的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步f为时间窗口,取时间序列数据的
Figure GDA0002982476540000121
的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的多个标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
由此将硬盘的历史状态数据集转换成多个(预测变量X,目标变量Y)的数据对,用于训练模型。本方法采用滑动窗口机制调整时间步的起始时间和窗口大小来扩大训练集的时间步总数。
S207.对数据转换后的数据集进行样本分割。
样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,以供后续对模型进行交叉验证。基于训练集采用滑动窗口随机分割一部分作为验证集。本实施例中时间点选择为
Figure GDA0002982476540000122
步骤S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型。
S301.基于训练集使用双向长短时记忆神经网络,实现硬盘剩余使用寿命的预测模型。
以多个(预测变量X,目标变量Y)的数据对为输入,训练硬盘剩余使用寿命模型,以训练得到的模型作为输出。
如图2所示,双向长短时记忆网络模型包含三个隐藏层,并加入dropout层以避免过度拟合,进行批量训练时以(预测变量X,目标变量Y)作为模型输入,根据模型输出和目标变量Y的差异,使用Adam优化器调整模型。所述双向长短时记忆神经网络计算方法为:
Figure GDA0002982476540000131
Figure GDA0002982476540000132
Figure GDA0002982476540000133
其中,前向隐藏层向量
Figure GDA0002982476540000134
用于从前向后迭代计算,后向隐藏层向量
Figure GDA0002982476540000135
用于从后向前迭代计算,
Figure GDA0002982476540000136
分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,
Figure GDA0002982476540000137
表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
计算完
Figure GDA0002982476540000138
Figure GDA0002982476540000139
后,更新输出序列yt。即正向计算时,隐藏层的
Figure GDA00029824765400001310
Figure GDA00029824765400001311
有关;反向计算时,隐藏层的
Figure GDA00029824765400001312
Figure GDA00029824765400001313
有关。
S302.基于验证集对所述硬盘剩余使用寿命的预测模型进行验证调优。
结合验证集,从学习速率、批次大小、隐藏层数、隐藏层维数和丢弃率等方面进行了超参数调优。
S303.基于测试集对调优后的硬盘剩余使用寿命的预测模型进行评估。
为衡量模型性能,本发明采用均方根误差(RMSE)和平均绝对误差(MAE)作为模型的损失函数基于数据转换后的测试集进行模型评估,其计算方法为:
Figure GDA00029824765400001314
Figure GDA0002982476540000141
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命。模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
步骤S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集。
以硬盘设备当前时刻ty(ty>tx)的时间步长T内的状态数据
Figure GDA0002982476540000142
作为输入,经过与步骤S2相同的特征工程后,得到该硬盘最新的(预测变量X,目标变量Y)数据对。
步骤S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
以得到该硬盘最新的(预测变量X,目标变量Y)数据对作为所构建模型的输入,输出时间步内各时间点的剩余使用寿命预测值,取时间步内最近的时间点的预测值作为输出,作为对该磁盘剩余使用寿命的预测。
如图3所示,一种硬盘设备的剩余使用寿命预测***,所述***包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
如图4所示,所述数据采集模块,用于通过硬盘运行信息采集脚本定期从数据中心中采集硬盘设备的运行状态信息,并通过日志收集进程导入分布式时序数据库中,数据库中的每条记录都对应着某块盘在某个时间点上的运行状态数据,时序数据库为硬盘状态的时序序列提供高效的存储以及强大的查询和统计功能。
基于时间序列的存储优化是指基于时间序列,对硬盘长期稳定、变动较少的状态信息进行列式存储和存储压缩,对不稳定、变动较多的状态信息只存储变动项,从而大大地减少存储所需要的空间;提供面向时间的索引,加快时间相关的存储操作速度;提供时间遗忘功能,对久远的数据进行缩减或删除,减少数据库的规模;基于时间序列的查询和统计功是指通过基于时间的索引和统计聚合缓存,加速时间相关的操作,使得时间查询,范围查询,区段统计等既直观,又快速,无需过多的操作,直接访问接口,便可以快速地获取到信息。同时,分布式时许数据库提供面向时间操作的强大功能:通过时间索引和统计聚合缓存,加速时间相关的操作,使得时间查询,范围查询,区段统计等,既直观,又快速,无需过多的操作,直接访问接口,便可以快速地获取到信息。
数据采集模块通过接口为离线建模和在线预测提供数据访问。离线建模需要大批量地访问硬盘的历史状态数据(CSV格式),而在线预测需要实时地访问硬盘当前的状态数据(JSON格式),所以批量导出接口为离线建模提供高带宽的数据访问,而实时导出接口为在线建模提供低延迟的数据访问。
在线预测方法能够在线实时接收离线建模模块所推送过来的预测模型更新,主要更新数据预处理相关的参数和预测模型内在的参数等,更新在线预测模块中处理数据的一小列流程,包括特征选取,归一化,预测模型等;在线预测模块通过实现REST API的访问接口,提供硬盘状态的实时评估和剩余使用寿命预测服务;面向数据中心中成千上万的硬盘,在线预测模块使用异步请求队列和多进程服务模型等技术,充分利用计算节点的性能,高效实时地响应预测请求。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种硬盘设备的剩余使用寿命在线预测方法,其特征在于,该方法包括以下步骤:
S1.定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的D2C时间;
S2.通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S3.将转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
S4.通过特征工程,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
S5.将转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
2.如权利要求1所述的方法,其特征在于,步骤S2包括以下步骤:
S201.对历史状态数据集进行数据清洗;
S202.基于清洗后的数据集,构建衍生变量,形成新的数据集;
S203.对新的数据集进行归一化;
S204.对归一化后数据集进行特征选择;
S205.对特征选择后的数据集进行分组标签赋值;
S206.对赋值后的数据集进行数据转换;
S207.对数据转换后的数据集进行样本分割。
3.如权利要求2所述的方法,其特征在于,所述衍生变量包括:吞吐率Th,表示硬盘设备每秒的传输数据量;Tps表示硬盘设备每秒的传输次数;
Figure FDA0002982476530000021
表示每小时的平均I/O延迟。
4.如权利要求2所述的方法,其特征在于,步骤S205包括以下步骤:
(1)对每个时间点上采集的样本,根据硬盘的状态和通电时长,计算硬盘i在时刻ti的剩余使用寿命的临时变量RULi,t
Figure FDA0002982476530000022
其中,tfail是故障盘的故障时间,ti是该样本的采样时间,tmax是该硬盘的最长使用寿命年限,tpower是该硬盘的通电时长,在采集期间,如果发现硬盘i故障,那么该硬盘所有时刻的数据都认为是故障样本,否则,认为是正常样本;
(2)使用分段函数为样本计算标签值
Figure FDA0002982476530000023
Figure FDA0002982476530000024
Figure FDA0002982476530000025
其中,RULpw表示所有硬盘当中满足通电时长在[tm,tn]区间的RULi,t的平均值,k表示所有满足条件的样本的数量,[tm,tn]表示硬盘在tm~tn期间运行时长故障率曲线趋于稳定。
5.如权利要求2所述的方法,其特征在于,步骤S206包括以下步骤:
(1)将状态信息属性项{A1,A2,…,Am′}和标签值
Figure FDA0002982476530000038
组成为硬盘设备在时刻t的时间序列数据;
(2)将硬盘的各时间序列数据转换为双向长短时记忆网络所接受的数据类型(预测变量X,目标变量Y);
以时间步f为时间窗口,取时间序列数据中A1,A2,…,Am′的所有属性值作为一个训练记录,多次移动时间窗口,得到多个训练记录,进而组成{训练记录个数,时间步,特征个数}大小的三维数组,该三维数组即为预测变量X;
以时间步f为时间窗口,取时间序列数据中
Figure FDA0002982476530000037
的值作为一个训练记录对应的标签值向量,多次移动时间窗口,得到多个训练记录对应的标签值向量,进而组成{训练记录个数、时间步}大小的二维矩阵,该二维矩阵即为预测目标向量X对应的目标变量Y。
6.如权利要求2所述的方法,其特征在于,样本分割时,通过选择一个时间点,将该时间点前的样本归入训练集,将该时间点后的样本归入测试集,基于训练集采用滑动窗口随机分割一部分作为验证集。
7.如权利要求5所述的方法,其特征在于,以多个(预测变量X,目标变量Y)的数据对为输入,使用双向长短时记忆神经网络训练硬盘剩余使用寿命模型,以训练得到的模型作为输出,所述双向长短时记忆神经网络计算方法为:
Figure FDA0002982476530000031
Figure FDA0002982476530000032
Figure FDA0002982476530000033
其中,前向隐藏层向量
Figure FDA0002982476530000034
用于从前向后迭代计算,后向隐藏层向量
Figure FDA0002982476530000035
用于从后向前迭代计算,
Figure FDA0002982476530000036
分别表示前向隐藏层、后向隐藏层和输出层的偏置向量,H表示输出层的激活函数,
Figure FDA0002982476530000044
表示网络中各层的权值矩阵,xt表示输入值,是预测变量X中的训练记录在时刻t的各项特征值所组成的向量,yt是输出值,表示对预测变量Y中的训练记录在时刻t的标签值的预测值,亦表示为RUL′i,t
8.如权利要求7所述的方法,其特征在于,采用均方根误差RMSE和平均绝对误差MAE作为模型的损失函数,基于数据转换后的测试集进行模型评估,其计算方法为:
Figure FDA0002982476530000041
Figure FDA0002982476530000042
其中,n是样本集的总数,RUL′i,t是模型对时间步t上样本所预测的剩余使用寿命,
Figure FDA0002982476530000043
是标签值,模型训练的目的是降低模型的RMSE、MAE,直到RMSE、MAE收敛时,模型的训练完成。
9.一种硬盘设备的剩余使用寿命预测***,其特征在于,所述***包括:
数据采集模块,用于定期从数据中心采集硬盘设备的SMART信息和I/O状态信息并存储为历史状态数据集和实时状态数据集,所述I/O状态信息包含I/O请求在硬盘设备上所消耗的时间;
特征工程模块,用于通过特征工程,将历史状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集,以及,将实时状态数据集转换为双向长短时记忆神经网络接受的数据对类型的数据集;
离线建模模块,用于将基于历史状态数据集转换后的数据集作为双向长短时记忆神经网络的输入,训练得到硬盘剩余使用寿命的预测模型;
在线预测模块,用于将基于实时状态数据集转换后的数据集作为训练好的硬盘剩余使用寿命的预测模型的输入,得到硬盘剩余使用寿命预测值。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的硬盘设备的剩余使用寿命在线预测方法。
CN201910583452.XA 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和*** Active CN110413227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910583452.XA CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910583452.XA CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和***

Publications (2)

Publication Number Publication Date
CN110413227A CN110413227A (zh) 2019-11-05
CN110413227B true CN110413227B (zh) 2021-06-11

Family

ID=68358701

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910583452.XA Active CN110413227B (zh) 2019-06-22 2019-06-22 一种硬盘设备的剩余使用寿命在线预测方法和***

Country Status (1)

Country Link
CN (1) CN110413227B (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112905404B (zh) * 2019-11-19 2024-01-30 中国电信股份有限公司 固态硬盘的状态监控方法和装置
CN111091863A (zh) * 2019-11-29 2020-05-01 浪潮(北京)电子信息产业有限公司 一种存储设备故障检测方法及相关装置
CN111310920A (zh) * 2020-03-17 2020-06-19 无锡多纬智控科技有限公司 将深度学习神经网络技术应用于信号采集装置的方法
CN111736768B (zh) * 2020-05-29 2022-07-08 苏州浪潮智能科技有限公司 服务器硬盘剩余使用时间的预测方法、***及存储介质
CN114327241A (zh) * 2020-09-29 2022-04-12 伊姆西Ip控股有限责任公司 管理磁盘的方法、电子设备和计算机程序产品
CN113496309B (zh) * 2021-06-15 2024-04-19 中国食品药品检定研究院 西洋参生长年限预测方法、模型的训练方法及装置
CN113553222B (zh) * 2021-06-21 2022-05-13 长沙证通云计算有限公司 一种存储硬盘检测预警方法及***
CN114429249B (zh) * 2022-04-06 2022-08-16 杭州未名信科科技有限公司 钢管束生产设备的寿命预测方法、***、设备及存储介质
WO2024050782A1 (en) * 2022-09-08 2024-03-14 Siemens Aktiengesellschaft Method and apparatus for remaining useful life estimation and computer-readable storage medium
CN115754866B (zh) * 2022-11-04 2024-03-26 国网山东省电力公司电力科学研究院 一种继电保护测试仪全寿命周期监测预警***及方法
CN116631487A (zh) * 2023-05-26 2023-08-22 北京市合芯数字科技有限公司 基于长短期记忆网络模型的固态硬盘寿命预测方法、装置、终端及介质
CN116502544B (zh) * 2023-06-26 2023-09-12 武汉新威奇科技有限公司 一种基于数据融合的电动螺旋压力机寿命预测方法及***
CN117636253B (zh) * 2023-11-30 2024-07-16 江苏圣创半导体科技有限公司 一种智能灯故障识别方法及***

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468484A (zh) * 2014-09-30 2016-04-06 伊姆西公司 用于在存储***中确定故障位置的方法和装置
CN108303253A (zh) * 2017-12-06 2018-07-20 华南理工大学 基于长短时记忆循环神经网络的轴承早期故障识别方法
CN109800134A (zh) * 2017-11-16 2019-05-24 先智云端数据股份有限公司 一种诊断数据中心储存设备的剩余寿命的方法和***
CN109828869A (zh) * 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744765B (zh) * 2013-10-25 2017-04-12 中国科学院计算技术研究所 一种虚拟化环境下的磁盘访问请求监控***及其方法
CN104503909A (zh) * 2014-12-18 2015-04-08 浪潮(北京)电子信息产业有限公司 一种磁盘io性能的测试方法和装置
JP6572756B2 (ja) * 2015-11-27 2019-09-11 富士通株式会社 情報処理装置、ストレージ制御プログラム、及びストレージ制御方法
US10248332B2 (en) * 2016-10-07 2019-04-02 Prophetstor Data Services, Inc. Method for extending life expectancy of disks in cloud-based service system and system using the same
CN108304306A (zh) * 2018-01-17 2018-07-20 郑州云海信息技术有限公司 一种基于blktrace的磁盘I/O性能故障定位分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468484A (zh) * 2014-09-30 2016-04-06 伊姆西公司 用于在存储***中确定故障位置的方法和装置
CN109800134A (zh) * 2017-11-16 2019-05-24 先智云端数据股份有限公司 一种诊断数据中心储存设备的剩余寿命的方法和***
CN108303253A (zh) * 2017-12-06 2018-07-20 华南理工大学 基于长短时记忆循环神经网络的轴承早期故障识别方法
CN109828869A (zh) * 2018-12-05 2019-05-31 中兴通讯股份有限公司 预测硬盘故障发生时间的方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Large Scale Predictive Analytics for Hard Disk Remaining Useful Life Estimation;Preethi Anantharaman 等;《2018 IEEE International Congress on Big Data (BigData Congress)》;20180910;正文第II和第III部分 *
Remaining Useful Life Estimation in Prognostics Using Deep Bidirectional LSTM Neural Network;Jiujian Wang 等;《2018 Prognostics and System Health Management Conference (PHM-Chongqing)》;20190107;摘要,正文第II部分 *

Also Published As

Publication number Publication date
CN110413227A (zh) 2019-11-05

Similar Documents

Publication Publication Date Title
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和***
CN108052528B (zh) 一种存储设备时序分类预警方法
US11119660B2 (en) Determining when to replace a storage device by training a machine learning module
US20210286786A1 (en) Database performance tuning method, apparatus, and system, device, and storage medium
CN106897178B (zh) 一种基于极限学习机的慢盘检测方法及***
CN111045894B (zh) 数据库异常检测方法、装置、计算机设备和存储介质
JP2019511054A (ja) 分散クラスタ型訓練方法及び装置
Zhang et al. Minority disk failure prediction based on transfer learning in large data centers of heterogeneous disk systems
US20080115014A1 (en) Method and apparatus for detecting degradation in a remote storage device
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
US20100131952A1 (en) Assistance In Performing Action Responsive To Detected Event
CN106776288B (zh) 一种基于Hadoop的分布式***的健康度量方法
CN109918313B (zh) 一种基于GBDT决策树的SaaS软件性能故障诊断方法
US11734103B2 (en) Behavior-driven die management on solid-state drives
CN115348159A (zh) 基于自编码器和服务依赖图的微服务故障定位方法及装置
US20200089558A1 (en) Method of determining potential anomaly of memory device
CN115248757A (zh) 一种硬盘健康评估方法和存储设备
CN112596964A (zh) 磁盘故障的预测方法及装置
CN115964211A (zh) 一种根因定位方法、装置、设备和可读介质
CN111858108A (zh) 一种硬盘故障预测方法、装置、电子设备和存储介质
Zhou et al. A disk failure prediction method based on active semi-supervised learning
CN110347538B (zh) 一种存储设备故障预测方法和***
Jiang et al. Scrub unleveling: Achieving high data reliability at low scrubbing cost
US10776240B2 (en) Non-intrusive performance monitor and service engine
CN116541222A (zh) 一种硬盘状态数据生成方法、***、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant