CN112395179B

CN112395179B - 一种模型训练方法、磁盘预测方法、装置及电子设备

Info

Publication number: CN112395179B
Application number: CN202011334753.8A
Authority: CN
Inventors: 黄泽; 王梦秋; 胡太祥; 张泽覃
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2023-03-10
Anticipated expiration: 2040-11-24
Also published as: CN112395179A

Abstract

本申请涉及一种模型训练方法、磁盘预测方法、装置及电子设备，属于计算机领域。方法包括获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据；基于负样本数据以及正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；在第i次迭代训练过程中，以第i‑1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样，并将采样得到的正样本数据以及负样本数据对第i‑1次迭代训练所得的模型进行训练。该方法在对正样本进行下采样时，由于每次迭代训练所得的模型在正样本数据上产生的损失值均不同，因此每次采样的正样本数据也不同，使得在采样时可以基于分类难易度，更多关注困难的样本，从而提高了模型的精度。

Description

一种模型训练方法、磁盘预测方法、装置及电子设备

技术领域

本申请属于计算机领域，具体涉及一种模型训练方法、磁盘预测方法、装置及电子设备。

背景技术

近年来，随着云存储等新兴技术的发展，海量数据存储技术发展越来越快。而磁盘作为数据最终存储的地方，是最重要的网络设备之一，也是最常发生故障的设备。基于机器学习的磁盘故障预测方法借助于机器学习算法的强大学习能力，取得了令人满意的预测效果。

目前，磁盘故障预测方法中的模型训练：大都通过将磁盘的自我监测分析和报告技术(Self-Monitoring Analysis and Reporting Technology，SMART)日志数据标记为正常样本和故障磁盘样本，并根据样本的属性值将样本尽可能的划分为多个不相干的子集，根据机器学习算法构建出预测模型，以此进行模型训练。但是对于大规模磁盘故障预测而言，非故障磁盘数量往往万倍于故障盘数量，且在实际工业场景中更期望提前一定周期预测出故障磁盘，以便于磁盘数据备份以及磁盘更换。而随着需***出故障磁盘的周期增加，使得故障磁盘与正常磁盘在各项运行参数上差别也随之变小，这无疑为大规模磁盘故障预测引入了类别极度不均衡以及正常样本与异常样本难区分等问题。

在工业界处理上述问题，从数据层面而言，可通过下采样，如使用NearMiss算法、Tomeklink算法去除多数样本中与少数样本相似的样本，或者通过上采样如以SMOTE算法生成更多的少数样本，但上述方法均基于距离度量，计算复杂度高且不适用于类别特征。除此之外，上述方法还未考虑到如何提升模型在困难样本上的表现，而只是关注了类别不均衡程度。

发明内容

鉴于此，本申请的目的在于提供一种模型训练方法、磁盘预测方法、装置及电子设备，以改善现有的磁盘预测模型的预测精度不高的问题。

本申请的实施例是这样实现的：

第一方面，本申请实施例提供了一种模型训练方法，包括：获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据；基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N。本申请实施例中，该方法在对正样本进行下采样时，是以第i-1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样，由于每次迭代训练所得的模型在正样本数据上产生的损失值均不同，因此每次采样的正样本数据也不同，使得在采样时可以基于分类难易度(损失值的大小)，更多关注困难的样本，从而提高了模型的精度。

结合第一方面实施例的一种可能的实施方式，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，包括：以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值为依据，将所述正样本数据分为多个桶；从每个桶中采样与该桶的预设比例对应数量的样本数据，其中，不同桶的预设比例不同。本申请实例中，通过将正样本数据分为多个桶，在采样时，不同的桶采样的数量不同，对应困难样本所在的桶，在采样时可以采样更多的样本，对于简单样本所在的桶，在采样时可以采样少一点的样本，以在更多关注困难的样本的同时也保持简单样本的数量，防止模型过拟合。

结合第一方面实施例的一种可能的实施方式，从每个桶中采样与该桶的预设比例对应数量的样本数据，包括：计算每个桶中的正样本数据的损失值的平均值；针对每一个桶，计算该桶的平均值与所有桶的平均值之和的占比，并计算所述占比与所述负样本数据的乘积；从该桶中采样与所述乘积对应数量的样本数据。在本申请实例中，在从每个桶中采样正样本数据时，基于该桶的平均值与所有桶的平均值之和的占比进行采样，其采样的多少取决于该桶的平均值与所有桶的平均值之和的占比的多少，若该桶中的正样本数据的损失值的平均值越小，则表示该桶中模型不易区分的困难样本越多，因此在下采样时，需要更多关注困难的样本，采集的样本数就越多，保证了采样的客观性以及准确性。

结合第一方面实施例的一种可能的实施方式，所述负样本数据以及所述正样本数据均包含原始SMART数据；在基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练之前，所述方法还包括：基于所述负样本数据以及所述正样本数据，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据；基于挑选出的所述目标SMART数据构建所述负样本数据以及所述正样本数据各自的输入特征；相应地，基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，包括：基于所述负样本数据以及所述正样本数据各自的输入特征对初始模型进行N次迭代训练。本申请实施例中，通过对原始SMART数据中的SMART参数进行筛选，仅筛选出与磁盘故障高度相关的目标SMART数据，并以此构建输入特征对模型进行训练，由于减小了无关数据的输入，从而可以在很大程度上节约模型的训练时间开销，此外还可以进一步提高训练精度。

结合第一方面实施例的一种可能的实施方式，基于所述负样本数据以及所述正样本数据，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据，包括：基于所述负样本数据以及所述正样本数据，计算所述原始SMART数据中每一种SMART参数与标签变量的相关性；基于所述原始SMART数据中每一种SMART参数与标签变量的相关性，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据。本申请实施例中，在筛选出与磁盘故障高度相关的目标SMART数据时，计算原始SMART数据中每一种SMART参数与标签变量的相关性，并以此从原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据，基于SMART参数与标签变量的相关性进行筛选，保证了筛选时的客观性以及准确性。

第二方面，本申请实施例还提供了一种磁盘预测方法，包括：获取待预测磁盘在一段时间段内的原始SMART数据；利用如上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的模型训练方法训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

第三方面，本申请实施例还提供了一种模型训练装置，包括：获取模块以及处理模块；获取模块，用于获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据；处理模块，用于基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N。

第四方面，本申请实施例还提供了一种磁盘预测装置，包括：获取模块以及处理模块；获取模块，用于获取待预测磁盘在一段时间段内的原始SMART数据；处理模块，用于利用如上述第三方面实施例提供的模型训练装置训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

第五方面，本申请实施例还提供了一种电子设备，包括：存储器和处理器，所述处理器与所述存储器连接；所述存储器，用于存储程序；所述处理器，用于调用存储于所述存储器中的程序，以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者，执行上述第二方面实施例提供的方法。

第六方面，本申请实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器运行时，执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法，或者，执行上述第二方面实施例提供的方法。

本申请的其他特征和优点将在随后的说明书阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。通过附图所示，本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图，重点在于示出本申请的主旨。

图1示出了本申请实施例提供的一种模型训练方法的流程示意图。

图2示出了本申请实施例提供的一种磁盘预测方法的流程示意图。

图3示出了本申请实施例提供的一种模型训练装置的模块示意图。

图4示出了本申请实施例提供的一种磁盘预测装置的模块示意图。

图5示出了本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。

在磁盘预测过程中，由于正常样本与异常样本极度不均衡，因此为了提高训练的预测模型的预测精度，需要通过下采样，如使用NearMiss算法、Tomeklink算法去除多数样本中与少数样本相似的样本，或者通过上采样如以SMOTE算法生成更多的少数样本，以均衡正负样本。鉴于目前的采样方法仅仅关注标注类别不均衡的问题，并未考虑如何提升模型在困难样本上的表现，没有关注正常样本与异常样本难区分的问题，使得训练的预测模型的预测精度提高有限。本申请实施例提供了一种模型训练方法，在对正样本进行下采样时，是根据损失函数的损失值对多数样本进行基于分类难易度的下采样，在更多关注困难的样本的同时也保持简单样本(easy sample)的数量，防止模型过拟合，而不依赖于距离度量，将采样时间复杂度从指数级别降到线性级别，与传统下采样方法相比，本方法在难分样本的精度上取得了一定提升，在时间开销以及精度上都更适用于真实的磁盘故障预测场景。

下面将结合图1，对本申请实施例提供的模型训练方法进行说明。

步骤S101：获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据。

获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据。

其中，在获取负样本时，获取多个故障磁盘各自在磁盘故障当天以及磁盘故障前一段时间(例如21)内的原始SMART数据，这样便可得到包括22天的原始SMART数据的负样本数据。在获取正样本时，获取多个正常磁盘各自在磁盘标记当天以及标记前一段时间(例如21)内的原始SMART数据，这样便可得到包括22天的原始SMART数据的正样本数据。

其中，可选地，在标记负样本数据中的磁盘时，将磁盘故障当天以及磁盘故障前一段时间均标记为异常，在标记正样本数据中的磁盘时，将正常磁盘标记当天以及标记当天前一段时间均标记为正常。例如，正样本数据用标签“1”表示，负样本数据用标签“0”表示。通过对磁盘故障前一段时间以及正常磁盘标记一段时间均进行标记，以便于使训练出的模型能尽可能提前地预测出故障磁盘。

其中，正常磁盘的数量大于故障磁盘的数据。例如，负样本数据中包括5个磁盘，正样本数据中包括1000个磁盘。正样本数据中的每个磁盘均包括22天的SMART数据，负样本数据中的每个磁盘均包括22天的SMART数据。

步骤S102：基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型。

在得到包含原始SMART数据的负样本数据以及正样本数据后，基于负样本数据以及正样本数据对初始模型进行N次迭代训练，便可得到能预测磁盘是否故障的预测模型。其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样，并将采样得到的正样本数据以及负样本数据对第i-1次迭代训练所得的模型进行训练，i依次取2至N。也即在第1次迭代训练过程中，是直接将负样本数据以及正样本数据输入模型进行训练，然后将正样本数据输入第1次迭代训练所得的模型中，得到第1次迭代训练所得的模型在正样本数据上产生的损失值；在第2次迭代训练时，以在正样本数据上产生的损失值对正样本进行下采样，然后将采样得到的正样本数据以及负样本数据对第1次迭代训练所得的模型进行训练，然后将正样本数据输入第2次迭代训练所得的模型中，得到第2次迭代训练所得的模型在正样本数据上产生的损失值，以此类推，直到迭代N次。在进行下采样时，是以前一次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样，由于每次迭代训练所得的模型在正样本数据上产生的损失值均不同，因此每次采样的正样本数据也不同，使得在采样时可以基于分类难易度(损失值的大小)，更多关注困难的样本，从而提高了模型的精度。

作为一种可选实施方式，以第i-1次迭代训练所得的模型在正样本数据上产生的损失值对正样本进行下采样的过程可以是：以第i-1次迭代训练所得的模型在正样本数据上产生的损失值为依据，将正样本数据分为多个桶；从每个桶中采样与该桶的比例对应数量的样本数据，其中，不同桶的比例不同。通过将正样本数据分为多个桶，在采样时，不同的桶采样的数量不同，对应困难样本所在的桶，在采样时可以采样更多的样本，对于简单样本所在的桶，在采样时可以采样少一点的样本，以在更多关注困难的样本的同时也保持简单样本的数量，防止模型过拟合。

其中，将正样本数据分为多个桶时，可以基于以下方式进行分桶，以上一轮迭代训练所得模型在每个正常磁盘上产生的损失值为依据，将正常磁盘多数样本分为k个桶，例如k为8，其值可以根据需要进行设定，k越高精度越高，训练时所需的时间越长。分入第i个桶中的样本可表示为：

B_i＝{(x,y)|i*step+logloss.min()≤logloss(x,y)<(i+1)*step+logloss.min()}，其中，step＝(logloss.max()-logloss.min())/k，k为桶的数量，i为1至k之间的任意整数，x为样本，y为真实标签。logloss.min()为上一轮迭代训练所得模在所有正样本数据上产生的损失值(为多个，每一个正常磁盘均对应有一个损失值)中的最小损失值，logloss.max()为上一轮迭代训练所得模型在所有正样本数据上产生的损失值中的最大损失值。以i为1为例，也即划入第1个桶中的样本的损失值需要大于等于1*step+logloss.min()，小于2*step+logloss.min()。这样便可以将正样本数据分为多个桶。

其中，损失函数的表达式为：

其中，y′为模型预测的值。

其中，每个桶的比例可以是事先设定，例如该比例为整个负样本数与该桶中的正样本数的比值。一种实施方式下，从每个桶中采样与该桶的比例对应数量的样本数据的过程可以是：计算每个桶中的正样本数据的损失值的平均值；针对每一个桶，计算该桶的平均值与所有桶的平均值之和的占比，并计算占比与负样本数据的乘积，从该桶中采样与乘积对应数量的样本数据。在该种实施方式下，第i个桶的预设比例可以表示为：

其中，

为第i个桶中的所有正样本数据的损失值的平均值，p为负样本数据中的磁盘数。若该桶中的正样本数据的损失值的平均值越小，则表示该桶中模型不易区分的困难样本越多，因此在下采样时，需要更多关注困难的样本，采集的样本数就越多。

其中，在对模型进行训练后，还需要对训练的模型进行评估，以检验其性能。本申请实施例中，通过构建如下评估指标来对训练的模型进行评估，通过定义如下参数recall，precision，f1-score以及引入discount来评估模型***出故障盘的能力。

true positive为评估窗口期内被预测为故障盘而实际为故障盘的盘数，falsepositive为评估窗口期内被预测为故障盘而实际为正常盘的盘数，false negative为评估窗口期内被预测为正常盘而实际为故障盘的盘数。discount rate，越靠近真正故障日期discount rate越小，惩罚越大。其中，评估窗口可以为连续的30个自然日，如2020.8.1-2020.8.31；在评估窗口内，部分磁盘可能无完整22天的标签数据(例如.当评估窗口为2020.8.1-2020.8.31时，真实故障日期为2020.8.1的故障盘的完整标签数据应该追溯到2020.7.11，但这部分数据并未在评估窗口内，因此只要当评估窗口范围足够大时，这部分数据不影响模型整体效果评估。

其中，由于负样本数据以及正样本数据中包含的原始SMART数据的类型较多，若是直接将里面的所有类型均作为输入特征，则会增大训练难度，以及时间开销，因此，作为一种可选地实施方式，在基于负样本数据以及正样本数据对初始模型进行N次迭代训练之前，该方法还包括：基于负样本数据以及正样本数据，从原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据，基于挑选出的目标SMART数据构建负样本数据以及正样本数据各自的输入特征。相应地，在进行模型运行时，是基于负样本数据以及正样本数据各自的输入特征对初始模型进行N次迭代训练。在该种实施方式中，通过从原始SMART数据中剔除部分与磁盘故障相关度低的数据，然后再以中筛选出与磁盘故障高度相关的目标SMART数据构建负样本数据以及正样本数据各自的输入特征，这样可以在很大程度上节约模型的训练时间开销。

其中，一种方式下，从原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据时，可以凭借先验经验进行筛选；又一种实施方式下，基于负样本数据以及正样本数据，从原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据的过程可以是：基于负样本数据以及正样本数据，计算原始SMART数据中每一种SMART参数与标签变量的相关性；基于原始SMART数据中每一种SMART参数与标签变量的相关性，从原始SMART数据中筛选出与磁盘故障高度相关(例如相关性大于预设阈值)的目标SMART数据，原始SMART数据中的SMART参数的型要多于目标SMART数据中包含的SMART参数类型。其中，在计算原始SMART数据中每一种SMART参数与标签变量的相关性时，可以基于如下公式进行计算：

其中，j表示为标签，取值为0至1，n_j为标签(label)为j的样本数，

为第j类样本的中的SMART参数在当前特征维度上的均值，

为所有样本(包括正样本和负样本)的SMART参数在当前特征维度上的均值，x_i为第i个样本的SMART参数在当前特征维度上的值，η的取值在[0-1]之间,越接近1相关性越大。一种实施方式下，经过筛选后的目标SMART数据如表1所示。

表1

SMART参数	中文名称
		Smart_4raw	电机起停次数
Smart_5raw	重定位磁区计数
		Smart_9raw	磁盘加电时间
Smart_12raw	设备开关计数
		Smart_184raw	终端校验出错
Smart_188raw	通信超时
		Smart_192raw	电源关闭磁头收回计数
Smart_194raw	温度
		Smart_197raw	等候重定的扇区计数
Smart_198raw	无法校正的扇区计数
		Smart_199raw	UltraDMA通讯CRC错误

其中，挑选后的正负样本数据中的每个磁盘的SMART数据仅包含上述表1所示的SMART参数。表1中的Smart_4raw、Smart_5raw、Smart_9raw……Smart_199raw均为SMART参数。为了便于理解上述公式的含义，以计算Smart_4raw参数与标签变量的相关性为例，则当j取1(表示为正样本)时，

表示正样本数据中所有磁盘的Smart_4raw(电机起停次数)的均值；

为所有样本(包括正样本和负样本)的磁盘的Smart_4raw(电机起停次数)的均值，x_i为正样本数据中的第i个磁盘的Smart_4raw(电机起停次数)的值。

其中，在从原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据后，便可基于挑选出的目标SMART数据构建负样本数据以及正样本数据各自的输入特征。其中负样本数据的输入特征与正样本数据的输入特征的维度一致。可选地，基于挑选出的目标SMART数据构建负样本数据以及正样本数据各自的输入特征的过程可以是：基于挑选出的目标SMART数据构建负样本数据以及正样本数据各自的基于时间滑窗的统计特征，以及加权组合特征。其中，时间滑窗的窗口期可以是大于1天的数值，例如7天。统计特征可以包括：均值(mean)、标准差(std)、最小值(min)最大值(max)、峰度(kurtosis)以及偏斜系数(skew)等。峰度又称峰态系数峰度，是指次数分布曲线顶峰的尖平程度。其中，需要说明的是，上述的统计特征可以仅包含上述示例中的部分，或者也可以包含更多的特征，因此不能将其理解成是对本申请的限制。仅以计算磁盘1中的Smart_4ra参数的基于时间滑窗的统计特征为例，则可以分别计算1-7天，2-8天，3-9天……15-21，16-22天的Smart_4raw的均值(mean)、标准差(std)、最小值(min)最大值(max)、峰度(kurtosis)以及偏斜系数(skew)等，得到共计16个基于时间滑窗的统计特征。

此外，还可以将直接记录错误的SMART参数进行加权求和，例如将上述表1中的smart184raw、smart198raw进行加权求和，如0.25*smart184raw+0.75*smart198raw。其中，加权求和的权重为上述的计算的该SMART参数与标签变量的相关性。也即smart184raw与标签变量的相关性为0.25，smart198raw与标签变量的相关性为0.75。

通过上面的模型训练方法便可训练出能***出磁盘是否故障的模型，便可将其应用于磁盘的预测。下面将结合图2对本申请实施例提供的一种磁盘预测方法进行说明。

步骤S201：获取待预测磁盘在一段时间段内的原始SMART数据。

当需要预测某个待预测磁盘是否故障时，获取待预测磁盘在一段时间段内的原始SMART数据。

步骤S202：利用上述的模型训练方法训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

在获取到待预测磁盘在一段时间段内的原始SMART数据后，利用上述的模型训练方法训练得到的预测模型对所述原始SMART数据进行处理，便可得到预测结果。

一种可选实施方式下，在获取待预测磁盘在一段时间段内的原始SMART数据时，可以是仅获取与上述表1相关的SMART数据，而不是所有的SMART数据，也即仅获取与磁盘故障高度相关的SMART数据。相应地，在进行预测时，利用上述的模型训练方法训练得到的预测模型对与磁盘故障高度相关的SMART数据进行处理，便可得到预测结果。

本申请实施例还提供了一种模型训练装置100，如图3所示。该模型训练装置100包括：获取模块110、处理模块120。

获取模块110，用于获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据。

处理模块120，用于基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N。

可选地，处理模块120，用于：以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值为依据，将所述正样本数据分为多个桶；从每个桶中采样与该桶的预设比例对应数量的样本数据，其中，不同桶的预设比例不同。

可选地，处理模块120，用于：计算每个桶中的正样本数据的损失值的平均值；针对每一个桶，计算该桶的平均值与所有桶的平均值之和的占比，并计算所述占比与所述负样本数据的乘积；从该桶中采样与所述乘积对应数量的样本数据。

所述负样本数据以及所述正样本数据均包含原始SMART数据；可选地，在处理模块120基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练之前，还用于：基于所述负样本数据以及所述正样本数据，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据；基于挑选出的所述目标SMART数据构建所述负样本数据以及所述正样本数据各自的输入特征。相应地，处理模块120用于基于所述负样本数据以及所述正样本数据各自的输入特征对初始模型进行N次迭代训练。

可选地，处理模块120用于：基于所述负样本数据以及所述正样本数据，计算所述原始SMART数据中每一种SMART参数与标签变量的相关性；基于所述原始SMART数据中每一种SMART参数与标签变量的相关性，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据。

本申请实施例所提供的模型训练装置100，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本申请实施例还提供了一种磁盘预测装置200，如图4所示。该磁盘预测装置200包括：获取模块210以及处理模块220。

获取模块210，用于获取待预测磁盘在一段时间段内的原始SMART数据。

处理模块220，用于利用上述的模型训练装置训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

本申请实施例所提供的磁盘预测装置200，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

如图5所示，图5示出了本申请实施例提供的一种电子设备300的结构框图。所述电子设备300包括：收发器310、存储器320、通讯总线330以及处理器340。

所述收发器310、所述存储器320、处理器340各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线330或信号线实现电性连接。其中，收发器310用于收发数据。存储器320用于存储计算机程序，如存储有图3或图4中所示的软件功能模块，如图3所示的模型训练装置100，或如图4所示的磁盘预测装置200。其中，模型训练装置100或磁盘预测装置200包括至少一个可以软件或固件(firmware)的形式存储于所述存储器320中或固化在所述电子设备300的操作***(operating system，OS)中的软件功能模块。所述处理器340，用于执行模型训练装置100包括的软件功能模块或计算机程序时。例如，处理器340，用于：获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据；基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N。

所述处理器340，用于执行磁盘预测装置200包括的软件功能模块或计算机程序时。例如，处理器340，用于：获取待预测磁盘在一段时间段内的原始SMART数据；利用如上述所述的模型训练方法训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

其中，存储器320可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。

处理器340可能是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(NetworkProcessor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器340也可以是任何常规的处理器等。

其中，上述的电子设备300，包括但不限于计算机、服务器等。

本申请实施例还提供了一种非易失性计算机可读取存储介质(以下简称存储介质)，该存储介质上存储有计算机程序，该计算机程序被计算机如上述的电子设备300运行时，执行上述所示的模型训练方法或磁盘预测方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，笔记本电脑,服务器，或者电子设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动磁盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种模型训练方法，其特征在于，包括：

获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据，所述负样本数据以及所述正样本数据均包含原始SMART数据；

基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N；

其中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，包括：

以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值为依据，将所述正样本数据分为多个桶；

从每个桶中采样与该桶的预设比例对应数量的样本数据，其中，不同桶的预设比例不同。

2.根据权利要求1所述的方法，其特征在于，从每个桶中采样与该桶的预设比例对应数量的样本数据，包括：

计算每个桶中的正样本数据的损失值的平均值；

针对每一个桶，计算该桶中的正样本数据的损失值的平均值与所有桶中的正样本数据的损失值的平均值之和的占比，并计算所述占比与所述负样本数据的乘积；

从该桶中采样与所述乘积对应数量的样本数据。

3.根据权利要求1所述的方法，其特征在于，在基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练之前，所述方法还包括：

基于所述负样本数据以及所述正样本数据，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据，其中，所述原始SMART数据中的SMART参数与标签变量的相关性大于预设阈值表征与磁盘故障高度相关；

基于挑选出的所述目标SMART数据构建所述负样本数据以及所述正样本数据各自的输入特征；

相应地，基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，包括：

基于所述负样本数据以及所述正样本数据各自的输入特征对初始模型进行N次迭代训练。

4.根据权利要求3所述的方法，其特征在于，基于所述负样本数据以及所述正样本数据，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据，包括：

基于所述负样本数据以及所述正样本数据，计算所述原始SMART数据中每一种SMART参数与标签变量的相关性；

基于所述原始SMART数据中每一种SMART参数与标签变量的相关性，从所述原始SMART数据中筛选出与磁盘故障高度相关的目标SMART数据。

5.一种磁盘预测方法，其特征在于，包括：

获取待预测磁盘在一段时间段内的原始SMART数据；

利用如权利要求1-4任一项所述模型训练方法训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

6.一种模型训练装置，其特征在于，包括：

获取模块，用于获取表征磁盘故障的负样本数据以及表征磁盘正常的正样本数据，所述负样本数据以及所述正样本数据均包含原始SMART数据；

处理模块，用于基于所述负样本数据以及所述正样本数据对初始模型进行N次迭代训练，得到能预测磁盘是否故障的预测模型；其中，在第i次迭代训练过程中，以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值对所述正样本进行下采样，并将采样得到的正样本数据以及所述负样本数据对所述第i-1次迭代训练所得的模型进行训练，i依次取2至N；

其中，所述处理模块，用于以第i-1次迭代训练所得的模型在所述正样本数据上产生的损失值为依据，将所述正样本数据分为多个桶；从每个桶中采样与该桶的预设比例对应数量的样本数据，其中，不同桶的预设比例不同。

7.一种磁盘预测装置，其特征在于，包括：

获取模块，用于获取待预测磁盘在一段时间段内的原始SMART数据；

处理模块，用于利用如权利要求6所述的模型训练装置训练得到的预测模型对所述原始SMART数据进行处理，得到预测结果。

8.一种电子设备，其特征在于，包括：

存储器和处理器，所述处理器与所述存储器连接；

所述存储器，用于存储程序；

所述处理器，用于调用存储于所述存储器中的程序，以执行如权利要求1-4中任一项所述的方法，或者，执行如权利要求5所述的方法。

9.一种存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器运行时，执行如权利要求1-4中任一项所述的方法，或者，执行如权利要求5所述的方法。