CN112434733B - 一种小样本硬盘故障数据生成方法、存储介质及计算设备 - Google Patents

一种小样本硬盘故障数据生成方法、存储介质及计算设备 Download PDF

Info

Publication number
CN112434733B
CN112434733B CN202011290978.8A CN202011290978A CN112434733B CN 112434733 B CN112434733 B CN 112434733B CN 202011290978 A CN202011290978 A CN 202011290978A CN 112434733 B CN112434733 B CN 112434733B
Authority
CN
China
Prior art keywords
network
data
hard disk
generating
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011290978.8A
Other languages
English (en)
Other versions
CN112434733A (zh
Inventor
董小社
王宇菲
王龙翔
王强
李博闻
陈维多
张兴军
伍卫国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202011290978.8A priority Critical patent/CN112434733B/zh
Publication of CN112434733A publication Critical patent/CN112434733A/zh
Application granted granted Critical
Publication of CN112434733B publication Critical patent/CN112434733B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2205Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using arrangements specific to the hardware being tested
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种小样本硬盘故障数据生成方法、存储介质及计算设备,基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据;对生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据。本发明能够有效地生成符合真实硬盘故障数据特点的虚拟硬盘故障数据,扩充硬盘故障数据样本集,提高机器学习算法识别硬盘故障的准确率。

Description

一种小样本硬盘故障数据生成方法、存储介质及计算设备
技术领域
本发明属于存储***可靠性与可用性技术领域,具体涉及一种基于生成对抗网络的小样本硬盘故障数据生成方法、存储介质及计算设备。
背景技术
如今随着电子信息技术的发展,海量数据涌入人们的生活,各大公司数据中心的存储规模出现了***性的增长,全球的数据总量也以每年50%的速度快速增长。预计到2025年,全球数据规模将达到163ZB,相当于2016年16ZB的十倍,而且未来5~10年,存储市场将会继续稳定的增长。
随着云计算技术的日趋成熟,个人和企业大量数据的存储模式也由线下存储逐渐转变为云端存储,而这些云端数据集中存储在专业的数据中心里。因此近些年数据中心的数据存储量正在飞速上升,仓储式的数据中心结构也逐渐被企业接受。
诸如阿里巴巴、亚马逊、谷歌、微软等公司,为了给用户提供更好的存储服务,其数据中心往往采用机械硬盘(HDD)和固态硬盘(SSD)共同构成的混合存储结构。在这种规模的数据中心里,无论是HDD或SSD,各种存储设备经常出现故障,确保IT管理的高可用性和可靠性是一项极具挑战的任务。数据中心往往会采用某些数据保护机制,如副本或纠删码,如果硬盘故障超出了现有的数据保护能力,无法恢复丢失的数据,出现永久性数据丢失,从而导致***无法使用,这对于数据中心来说是灾难性的。HDD由各种各样的磁性、机械和电子部件组成,是一种相当复杂的设备,每一个部件都可能失效。SSD往往只有有限的使用寿命,失效也是在所难免的。因此,由于多种原因,HDD和SSD会出现不同严重程度、不同表现形式的故障。
与传统的被动容错技术如纠删码和独立磁盘冗余阵列(RAID)相比,主动地故障识别技术往往能够提前保证大规模存储***的可靠性和可用性。因此,成功的故障预测能有效降低数据丢失的风险。为了提高预测性能,不少研究基于机器学习算法和SMART数据构建磁盘故障识别模型。不幸的是,这些工作的前提是需要足够多的硬盘数据才能进行模型训练。然而,在数据中心建立初期或新部署了一批存储设备时,能够获取到的硬盘可靠性数据较为有限,而故障数据更是少之又少。由于样本量太少并且数据也不足,传统机器学习算法使用少量训练数据将极大地增加过拟合或弱泛化能力的风险,这将削弱模型的性能,严重影响存储***的可靠性。
为了获取到足够的故障数据来训练模型,可以考虑采用一些数据合成与扩展的方法。但是简单模拟出的故障数据与真实故障数据可能存在很大的偏差,这并不是理想中的故障数据。因此,在数据量不足的情况下,构建硬盘故障识别模型需要一个能有效生成故障数据的方法作为基础。
目前国内外对硬盘故障检测的研究都需要基于大量的数据,一般都没有考虑小样本情况下的硬盘故障检测,这样在数据中心建立初期或新部署了一批存储设备时,能够获取到的硬盘可靠性数据较为有限,而故障数据更是少之又少的情况下,硬盘故障检测准确率很难保证。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于生成对抗网络的小样本硬盘故障数据生成方法、存储介质及计算设备,收集硬盘的SMART数据,在硬盘故障数据不足的情况下,通过生成虚拟故障数据,提高机器学习算法的识别准确率。
本发明采用以下技术方案:
一种小样本硬盘故障数据生成方法,包括以下步骤:
S1、基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据;
S2、对步骤S1生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集,训练样本数据集中70%的数据用于训练数据生成模型,训练样本数据集中30%的数据用于验证数据生成模型;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据。
具体的,步骤S1中,硬盘SMART数据按照对应的最大值进行标准化处理,范围为-1到1,硬盘SMART数据包括raw read error rate,spin up time,reallocated sectorscount,seek error rate,power on hours,reported uncorrectable errors,high flywrites,temperature,hardware ECC recovered,current pending sector count,uncorrectable sector count。
具体的,步骤S1中,对长短期记忆网络梯度进行调整具体为:
在LSTM网络一次完整的前向计算与反向传播过程中,计算网络的梯度Tg,并与实际的硬盘数据标签比较计算损失函数,采用Adam方法最小化损失函数;随后将初始随机向量传给LSTM网络,LSTM网络捕捉训练数据的分布特征并生成虚拟硬盘故障数据。
进一步的,用交叉熵损失函数计算生成网络G和判别网络D输出值的损失,网络梯度Tg为:
损失函数L为:
L=CrossEntropyLoss(G(z),label)
其中,G(z)为生成的数据,CrossEntropyLoss为交叉熵损失函数,label为标签,为生成网络G的参数的梯度,m为样本数量,log(1-D(G(Zi)))为交叉熵。
进一步的,长短期记忆网络包括两层网络,第一层为LSTM层,输入层单元数量为14,两层隐层,每层单元数量为50,输出层单元数量为14;第二层为线性网络层,输入层单元数量为14,输出层单元数量为1,激活函数为tanh,batch size为128。
具体的,步骤S2中,对生成网络G和判别网络D进行对抗训练,在最大化判别网络D输出的同时最小化生成网络G的输出,通过交替迭代,极小极大问题在Pg=Pdata处获得全局最优,损失函数收敛,生成对抗网络达到纳什均衡,x是真实数据,分布为px;如果x~Px,则D(x)=1;如果x~Pg,则D(x)=0;训练判别网络D以使对真实数据x和生成数据G(z)分配正确标签的概率最大。
进一步的,对生成网络G和判别网络D进行对抗训练,训练内容为:
其中,z是随机向量,为x来自真实故障数据分布的期望,/>为x来自虚拟故障数据分布的期望。
进一步的,判别网络D的梯度Td为:
其中,为判别网络D的参数的梯度,logD(x(i))为生成网络D的输出值,log(1-D(G(Zi)))为KL散度。
本发明的另一个技术方案是,一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行所述的方法中的任一方法。
本发明的另一个技术方案是,一种计算设备,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行所述的方法中的任一方法的指令。
与现有技术相比,本发明至少具有以下有益效果:
本发明一种小样本硬盘故障数据生成方法,能准确地根据真实硬盘的故障数据特点生成虚拟硬盘故障数据;硬盘SMART数据的变化过程与时间序列具有高度相关的特点,因此捕捉硬盘SMART数据特点是一个时序建模问题,在时序建模算法中,长短期记忆网络具有良好的分析数据时序关系的性能,采用长短期记忆网络作为生成对抗网络的生成网络,学习硬盘SMART数据的时序特点,能够增强虚拟硬盘故障数据的表征能力。
进一步的,对SMART数据进行筛选,提取了与硬盘故障高度相关的SMART数据,对硬盘SMART数据进行标准化处理,范围为-1到1,消除了不同SMART数据值大小之间的影响,使不同单位的SMART参数可以公平的作用于模型的训练。
进一步的,采用Adam方法调整LSTM网络的梯度,Adam方法计算了梯度和平方梯度的指数移动平均值,并且通过参数控制了这些移动平均的衰减率,能够提高LSTM网络的训练速率,加速收敛。
进一步的,交叉熵函数是一个凸函数,整体呈单调性,损失越大,梯度越大。对于分类问题,凸优化函数便于利用梯度下降方法找到最优解。
进一步的,将LSTM网络的输入层单元数量设置为14,对应硬盘SMART数据的维度,并且采用两层隐层捕捉硬盘SMART数据之间的时序关系,利用tanh激活函数将网络输出值映射到-1至1之间,便于分类。
进一步的,对生成网络G和判别网络D进行对抗训练,在最大化判别网络D输出的同时最小化生成网络G的输出,交替迭代优化,在损失函数收敛后,生成的虚拟硬盘故障数据的仿真程度最高。
进一步的,通过更新判别网络D的梯度,使判别网络达到收敛状态,以最高的准确率分辨生成的虚拟硬盘故障数据。
综上所述,本发明利用LSTM网络处理与时间序列高度相关的数据的优势,采用LSTM网络作为生成对抗网络的生成网络,结合真实的硬盘故障数据,能够有效地生成符合真实硬盘故障数据特点的虚拟硬盘故障数据,扩充硬盘故障数据样本集,提高机器学习算法识别硬盘故障的准确率。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明架构图;
图2为本发明LSTM单元结构图;
图3为本发明GAN结构图;
图4为本发明数据生成方法结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供了一种基于生成对抗网络的小样本硬盘故障数据生成方法、存储介质及计算设备,改进了原始生成对抗网络(GAN)的结构,采用长短期记忆网络(LSTM)作为生成对抗网络(GAN)的生成器,使改进过的GAN网络更适用于硬盘故障数据生成,并通过minibatch随机梯度下降方法完成GAN网络的训练。
请参阅图1,本发明一种基于生成对抗网络的小样本硬盘故障数据生成方法,包括以下步骤:
S1、基于长短期记忆网络(LSTM)的GAN生成网络;
实际使用环境中的硬盘一般会随着使用逐渐老化,硬盘SMART属性的变化过程是一个随着时间推移连续变化的过程。距离硬盘最终失效的时刻越近,硬盘SMART数据随时间变化的特点越明显。因此,为了更好的捕捉硬盘SMART数据的特点以及变化过程,本发明基于LSTM改进了原始GAN的生成网络。
LSTM(Long short-term memory)是一种时间循环神经网络,它由循环神经网络(RNN)改进而来,是为了解决一般RNN存在的长期依赖关系问题而专门设计出来的。LSTM能够更好地学习长期依赖关系,在处理与时间序列相关度较高的数据时具有很大优势,适用于预测时间序列中间隔和延迟非常长的事件。
LSTM的输入层包括样本数量(samples)、时间步长(time steps)和数据特征(features)。其中时间步长是每个输入的数据与之前多少时间间隔的数据有关。本发明选取了以下硬盘SMART数据作为特征值:raw read error rate,spin up time,reallocatedsectors count,seek error rate,power on hours,reported uncorrectable errors,high fly writes,temperature,hardware ECC recovered,current pending sectorcount,uncorrectable sector count。这些特征的值都按照各自的最大值进行了标准化,范围从-1到1。
请参阅图2,为LSTM的单元结构;门的作用是选择让某一部分信息通过或不能通过,通过一个sigmod神经网络层和一个逐点相乘的操作实现。图中LSTM单元有三个乘号,分别对应遗忘门(forget gate),输入门(input gate)和输出门(output gate)三个门。
遗忘门决定了那些数据信息需要从单元状态中丢弃。
输入门决定了单元状态中保存哪些更新信息。实现这一处理过程需要两步,首先,sigmod网络层决定哪些数据信息需要被更新,tanh层生成一个向量,将数据值映射到(-1,1),两部分共同组成了输入门的信息,接下来这两个向量会被组合创建更新值。随后旧状态与新状态会进行组合,得到新的状态。
输出门决定了网络的输出。基于单元状态,sigmod网络层决定了要输出的单元状态的哪些部分,然后将单元状态通过tanh将数据值映射到(-1,1),并乘以sigmod的输出,最终得到我们想要输出的数据。
LSTM参数设置如下:共两层网络,第一层为LSTM层,其中输入层单元数量为14,两层隐层,每层单元数量为50,输出层单元数量为14。第二层为线性网络层,输入层单元数量为14,输出层单元数量为1。激活函数为tanh,batch size为128。
在LSTM网络一次完整的前向计算与反向传播过程中,采用Adam方法计算网络的梯度Tg,并与实际的硬盘数据标签比较计算损失函数L,具体计算如下:
L=CrossEntropyLoss(G(z),label)
其中,G(z)为生成的数据,CrossEntropyLoss为交叉熵损失函数,label为标签,为生成网络G的参数的梯度,m为样本数量,log(1-D(G(Zi)))为交叉熵。
S2、基于GAN的硬盘故障数据生成模型。
GAN是一个可以训练深度生成模型的网络框架,它包含两种网络,即生成网络G和判别网络D,如图3所示。生成网络G捕捉真实数据样本的潜在分布,并生成新的数据样本;判别网络D判别输入是真实数据还是合成数据。GAN在结构上等价于一个极小极大博弈问题,优化目标是达到纳什均衡,可以用公式(1)来描述:
其中,x是真实数据,其分布为px,z是随机向量;将z设为生成网络G的输入,通过输入可以得到生成的数据G(z);PG表示为G(z)的分布;然后,判别网络D代表x来自Px而不是Pg的概率。理想情况下,如果x~Px,则D(x)=1;如果x~Pg,则D(x)=0;训练判别网络D以使对真实数据x和生成数据G(z)分配正确标签的概率最大。
模型在训练期间可以被修正,并且可以用另一个模型的参数更新自己。给定m个实际样本和m个生成的假样本,判别网络D和生成网络G的随机梯度分别由公式(2)和(3)计算:
通过交替迭代,极小极大问题有可能在Pg=Pdata处获得全局最优,损失函数收敛,GAN达到纳什均衡。
在学习初期,当G的效果较差时,因为生成的数据与真实数据明显不同,判别网络D可以较为准确的分辨出数据的真假。在这种情况下,log(1-D(G(z))饱和。在训练生成网络G时,最大化logD(G(z))比最小化log(1-D(G(z)))好。该目标函数使生成网络G和判别网络D具有相同的不动点,在早期学习阶段提供了更强的梯度。生成网络G隐式地定义了一个概率分布Pg,即当z~Pz时得到的样本G(z)的分布。
因此,在给定足够的空间和训练时间的情况下,本发明通过算法1使Pdata的估计量收敛到一个较好的状态。在GAN训练完成后,生成网络G很好地估计原始数据样本的概率分布,并生成符合原样本分布的新样本,从而达到扩大整体样本量的目的。
请参阅图4,为基于GAN的硬盘故障数据生成方法结构图,描述如表1所示。
表1.基于GAN的硬盘故障数据生成方法
采用上述方法可快速训练GAN网络,使GAN网络达到纳什平衡,即收敛状态。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于样本硬盘故障数据生成的操作,包括:基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据;对生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集,训练样本数据集中70%的数据用于训练数据生成模型,训练样本数据集中30%的数据用于验证数据生成模型;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作***。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关电网中长期检修计划的校核方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据;对生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集,训练样本数据集中70%的数据用于训练数据生成模型,训练样本数据集中30%的数据用于验证数据生成模型;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据。
综上所述,本发明一种小样本硬盘故障数据生成方法、存储介质及计算设备,利用LSTM在处理与时间序列高度相关的数据时具有的优势,改进了原始GAN的生成网络,使GAN模型能够更加适用于硬盘故障数据的生成。该方法可以在硬盘故障数据不足的情况下,通过生成虚拟故障数据,提高机器学习算法识别硬盘故障的准确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、***、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上内容仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明权利要求书的保护范围之内。

Claims (5)

1.一种小样本硬盘故障数据生成方法,其特征在于,包括以下步骤:
S1、基于长短期记忆网络作为生成对抗网络的生成网络,对硬盘SMART数据进行学习,对长短期记忆网络的梯度进行调整并生成用于对抗训练的虚拟硬盘故障数据,对长短期记忆网络梯度进行调整具体为:
在LSTM网络一次完整的前向计算与反向传播过程中,计算网络的梯度Tg,并与实际的硬盘数据标签比较计算损失函数,采用Adam方法最小化损失函数;随后将初始随机向量传给LSTM网络,LSTM网络捕捉训练数据的分布特征并生成虚拟硬盘故障数据,用交叉熵损失函数计算生成网络G和判别网络D输出值的损失,网络梯度Tg为:
损失函数L为:
L=CrossEntropyLoss(G(z),label)
其中,G(z)为生成的数据,CrossEntropyLoss为交叉熵损失函数,label为标签,为生成网络G的参数的梯度,m为样本数量,log(1-D(G(Zi)))为交叉熵;
S2、对步骤S1生成的虚拟硬盘故障数据进行甄别,将真实的硬盘故障数据作为训练样本数据集,训练样本数据集中70%的数据用于训练数据生成模型,训练样本数据集中30%的数据用于验证数据生成模型;交替计算生成对抗网络中生成网络G和判别网络D的梯度并调整至收敛,完成小样本硬盘故障数据训练,训练完成后,加载模型中的生成网络G,将初始随机向量传给生成网络G,生成网络G生成虚拟硬盘故障数据;
对生成网络G和判别网络D进行对抗训练,在最大化判别网络D输出的同时最小化生成网络G的输出,通过交替迭代,极小极大问题在Pg=Pdata处获得全局最优,损失函数收敛,生成对抗网络达到纳什均衡,x是真实数据,分布为px;如果x~Px,则D(x)=1;如果x~Pg,则D(x)=0;训练判别网络D以使对真实数据x和生成数据G(z)分配正确标签的概率最大;
对生成网络G和判别网络D进行对抗训练,训练内容为:
其中,z是随机向量,为x来自真实故障数据分布的期望,/>为x来自虚拟故障数据分布的期望;
判别网络D的梯度Td为:
其中,为判别网络D的参数的梯度,logD(x(i))为生成网络D的输出值,log(1-D(G(Zi)))为KL散度。
2.根据权利要求1所述的方法,其特征在于,步骤S1中,硬盘SMART数据按照对应的最大值进行标准化处理,范围为-1到1,硬盘SMART数据包括raw read error rate,spin uptime,reallocated sectors count,seek error rate,power on hours,reporteduncorrectable errors,high fly writes,temperature,hardware ECC recovered,current pending sector count,uncorrectable sector count。
3.根据权利要求1所述的方法,其特征在于,长短期记忆网络包括两层网络,第一层为LSTM层,输入层单元数量为14,两层隐层,每层单元数量为50,输出层单元数量为14;第二层为线性网络层,输入层单元数量为14,输出层单元数量为1,激活函数为tanh,batch size为128。
4.一种存储一个或多个程序的计算机可读存储介质,其特征在于,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1或2或3所述的方法中的任一方法。
5.一种计算设备,其特征在于,包括:
一个或多个处理器、存储器及一个或多个程序,其中一个或多个程序存储在所述存储器中并被配置为所述一个或多个处理器执行,所述一个或多个程序包括用于执行根据权利要求1或2或3所述的方法中的任一方法的指令。
CN202011290978.8A 2020-11-17 2020-11-17 一种小样本硬盘故障数据生成方法、存储介质及计算设备 Active CN112434733B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011290978.8A CN112434733B (zh) 2020-11-17 2020-11-17 一种小样本硬盘故障数据生成方法、存储介质及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011290978.8A CN112434733B (zh) 2020-11-17 2020-11-17 一种小样本硬盘故障数据生成方法、存储介质及计算设备

Publications (2)

Publication Number Publication Date
CN112434733A CN112434733A (zh) 2021-03-02
CN112434733B true CN112434733B (zh) 2024-04-02

Family

ID=74692809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011290978.8A Active CN112434733B (zh) 2020-11-17 2020-11-17 一种小样本硬盘故障数据生成方法、存储介质及计算设备

Country Status (1)

Country Link
CN (1) CN112434733B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117951529B (zh) * 2024-03-26 2024-06-21 济南浪潮数据技术有限公司 用于硬盘数据故障预测的样本获取方法、装置、设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3022125A1 (en) * 2017-10-27 2019-04-27 Royal Bank Of Canada System and method for improved neural network training
CN110222757A (zh) * 2019-05-31 2019-09-10 华北电力大学(保定) 基于生成对抗网络的绝缘子图像样本扩充方法、***
CN110414601A (zh) * 2019-07-30 2019-11-05 南京工业大学 基于深度卷积对抗网络的光伏组件故障诊断方法、***及设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109753998A (zh) * 2018-12-20 2019-05-14 山东科技大学 基于对抗式生成网络的故障检测方法及***、计算机程序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3022125A1 (en) * 2017-10-27 2019-04-27 Royal Bank Of Canada System and method for improved neural network training
CN110222757A (zh) * 2019-05-31 2019-09-10 华北电力大学(保定) 基于生成对抗网络的绝缘子图像样本扩充方法、***
CN110414601A (zh) * 2019-07-30 2019-11-05 南京工业大学 基于深度卷积对抗网络的光伏组件故障诊断方法、***及设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
包萍 ; 刘运节 ; .不均衡数据集下基于生成对抗网络的改进深度模型故障识别研究.电子测量与仪器学报.2019,(第03期),全文. *
李顺 ; 李君 ; 吴鑫 ; 郎一辉 ; 梅碧舟 ; .基于LSTM的硬盘剩余寿命预测.浙江万里学院学报.2020,(第04期),全文. *

Also Published As

Publication number Publication date
CN112434733A (zh) 2021-03-02

Similar Documents

Publication Publication Date Title
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和***
Anantharaman et al. Large scale predictive analytics for hard disk remaining useful life estimation
CN111352965B (zh) 序列挖掘模型的训练方法、序列数据的处理方法及设备
US11455523B2 (en) Risk evaluation method, computer-readable recording medium, and information processing apparatus
CN111861013B (zh) 一种电力负荷预测方法及装置
CN112433896B (zh) 一种服务器磁盘故障预测方法、装置、设备及存储介质
CN110471820A (zh) 一种基于循环神经网络的云存储***磁盘故障预测方法
CN111158964B (zh) 一种磁盘故障预测方法、***、装置及存储介质
CN112434733B (zh) 一种小样本硬盘故障数据生成方法、存储介质及计算设备
CN115796548A (zh) 一种资源分配方法、装置、计算机设备、存储介质及产品
CN114116292B (zh) 一种融合ap聚类与宽度学习***的硬盘故障预测方法
CN111027591A (zh) 一种面向大规模集群***的节点故障预测方法
CN114510871A (zh) 基于思维进化和lstm的云服务器性能衰退预测方法
CN113642727A (zh) 神经网络模型的训练方法和多媒体信息的处理方法、装置
CN115543762A (zh) 一种磁盘smart数据扩充方法、***及电子设备
CN116627773A (zh) 产销差统计平台***的异常分析方法及***
KR102480518B1 (ko) 신용평가 모델 업데이트 또는 교체 방법 및 장치
Lyu et al. Assessing the maturity of model maintenance techniques for AIOps solutions
Fazel A new method to predict the software fault using improved genetic algorithm
CN114139482A (zh) 一种基于深度度量学习的eda电路失效分析方法
CN113298127A (zh) 训练异常检测模型的方法及电子设备
JP2020091813A (ja) ニューラルネットワークの学習方法、コンピュータプログラム及びコンピュータ装置
KR102499435B1 (ko) 인공 지능 기반 신용 평가 모델 생성 방법 및 장치
CN115495268A (zh) 磁盘状态预测方法、装置、电子设备及存储介质
CN115022192A (zh) 一种演化博弈网络信息体系资源选择方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant