CN117951529A

CN117951529A - 用于硬盘数据故障预测的样本获取方法、装置、设备

Info

Publication number: CN117951529A
Application number: CN202410347260.XA
Authority: CN
Inventors: 谭咏文; 刘洪栋; 孙业宽; 李旭东
Original assignee: Inspur Jinan data Technology Co ltd
Current assignee: Inspur Jinan data Technology Co ltd
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117951529B

Abstract

本公开涉及机器学***衡问题，从而提升后续模型对少数类样本的关注程度，从而提升模型的整体预测识别能力。

Description

用于硬盘数据故障预测的样本获取方法、装置、设备

技术领域

本公开涉及机器学习领域，具体涉及用于硬盘数据故障预测的样本获取方法、装置、设备。

背景技术

硬盘故障会严重危害数据安全和***运行效率。在现有的硬盘故障诊断方法中，硬盘自检程序（也称为自监测分析报告，即S.M.A.R.T.）是检测硬盘健康状况的最常用方法之一。

随着大数据时代的到来，云计算、大数据分析等应用地发展助长了存储行业的繁荣发展。相应地，数据中心需要处理的硬盘数据信息也呈现井喷的趋势。考虑到S.M.A.R.T.数据集中包含多种评价指标，这些指标的分析大多依靠研究人员的经验，或者人为设定的阈值。分析过程较为繁琐和复杂，而且无法有效解决多种复杂的故障问题。在此背景下，利用机器学***衡，现有的卷积神经网络、长短记忆网络等方法，难以在数据分布极不平衡的情况下学习到不同类别数据的差异性特征，通常会陷入过拟合。

因此，现有基于机器学习的硬盘故障预测仍具有一定应用局限性，限制了机器学习模型的故障预测性能，致使硬盘数据的故障预测数据并不准确。

发明内容

有鉴于此，本公开提供了一种用于硬盘数据故障预测的样本获取方法、装置、设备，以解决现有基于机器学习的硬盘故障预测仍具有一定应用局限性，限制了机器学习模型的故障预测性能，致使硬盘数据的故障预测数据并不准确的问题。

第一方面，本公开提供了一种用于硬盘数据故障预测的样本获取方法，该方法包括：

获取硬盘数据的训练样本以及训练样本对应的样本标签；

根据训练样本，构建出生成虚拟样本的第一故障模型；根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型；

根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签；

根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签。

在本公开实施例中，通过基于硬盘数据的已有训练样本构建生成虚拟样本的第一故障模型，基于训练样本对应的样本标签构建生成虚拟标签的第二故障模型，再基于训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签，进而将虚拟样本增加到训练样本中得到用于硬盘数据故障预测的目标训练样本，将虚拟标签增加到样本标签中，得到目标样本标签，并将目标训练样本和目标样本标签投入后续的故障预测中，这样能够处理好硬盘故障领域中常见的数据不平衡问题，从而提升后续模型对少数类样本的关注程度，从而提升模型的整体预测识别能力，解决了现有基于机器学习的硬盘故障预测仍具有一定应用局限性，限制了机器学习模型的故障预测性能，致使硬盘数据的故障预测数据并不准确的问题。

在一种可选的实施方式中，根据训练样本，构建出生成虚拟样本的第一故障模型，包括：

获取样本混合因子和预设数量的训练样本；

根据样本混合因子和预设数量的训练样本，构建第一故障模型。

在一种可选的实施方式中，根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型，包括：

获取预设数量的样本标签；

根据样本混合因子、预设数量的训练样本，确定标签混合因子；

根据标签混合因子和预设数量的样本标签，构建第二故障模型。

在一种可选的实施方式中，根据样本混合因子、预设数量的训练样本，确定标签混合因子，包括：

获取每个训练样本的样本量；

根据样本量、预设决策边界以及样本混合因子，确定标签混合因子。

在本公开实施例中，根据不同类别的训练样本所占比例（即样本量）以及预设决策边界、样本混合因子，得到标签混合因子，通过对标签混合因子的数值赋值，确定虚拟样本的标签权重，这样可以对少数类样本赋予更高的权重，迫使模型对少数类样本给予更高的关注度。

在一种可选的实施方式中，在训练样本的数量为两个的情况下，根据样本量、预设决策边界以及样本混合因子，确定标签混合因子，包括：

获取第一训练样本的第一样本量与第二训练样本的第二样本量之商，得到目标数值；

获取目标数值与预设决策边界之间的比较结果；

根据比较结果和样本混合因子，确定标签混合因子。

在一种可选的实施方式中，根据比较结果和样本混合因子，确定标签混合因子，包括：

在比较结果满足第一条件的情况下，获取由样本混合因子得到的关联因子；

将样本混合因子和关联因子之间的最大值，作为标签混合因子。

在比较结果满足第二条件的情况下，获取由样本混合因子得到的关联因子；

将样本混合因子和关联因子之间的最小值，作为标签混合因子。

在比较结果满足第三条件的情况下，将样本混合因子作为标签混合因子。

在一种可选的实施方式中，根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签，包括：

将虚拟样本增加到训练样本内，得到目标训练样本；

将虚拟标签增加到样本标签内，得到目标样本标签。

在一种可选的实施方式中，根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签，包括：

根据训练样本、样本标签、样本混合因子、标签混合因子、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签。

在本公开实施例中，首先计算不同类样本所占比例，通过线性插值的方式生成新样本（即虚拟样本），以非线性的方式生成新的模糊标签（即虚拟标签），在计算新样本标签时对少数类样本赋予更高的权重，迫使后续的故障预测模型对少数类样本给予更高的关注度。因为此时的样本以及标签已经过模糊化处理，故障预测模型泛化性降低的风险随之减小，可利用新生成的数据和标签来最小化故障预测模型训练的经验风险。

在一种可选的实施方式中，在根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签之后，方法还包括：

将目标训练样本输入初始故障预测模型内，得到分类结果；

根据目标样本标签和分类结果调整初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型。

在本公开实施例中，将增加虚拟样本和虚拟标签的混合学***衡问题的情况下更好地捕捉长期依赖关系。该策略可以有效应对硬盘故障诊断中的数据不平衡问题，进一步增强机器学习模型的特征学习能力。

在一种可选的实施方式中，在根据目标样本标签和分类结果调整初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型之后，方法还包括：

获取待故障预测的目标硬盘数据；

将目标硬盘数据输入目标故障预测模型中，得到故障预测结果。

可选地，在获取到目标故障预测模型之后，可以将其应用于对待故障预测的目标硬盘数据的故障预测场景中。

在本公开实施例中，由于目标故障预测模型是利用混合学习模块和长短时记忆神经网络进行特征不断训练之后得到的模型，其输出的预测结果，可以用于判断硬盘未来一段时间内是否会发生故障，对应采取相应的措施，保护数据安全和业务连续性。

在一种可选的实施方式中，第一故障模型为第一表达式，第一表达式的公式为：，其中，/>为虚拟样本，/>为样本混合因子，/>为第一类别下的训练样本，/>为第二类别下的训练样本；第二故障模型为第二表达式，所述第二表达式的公式为：/>，其中，/>为虚拟样本对应的虚拟标签，/>为标签混合因子，/>为第一类别下的训练样本标签，/>为第二类别下的训练样本标签。

第二方面，本公开提供了一种用于硬盘数据故障预测的样本获取装置，该装置包括：

第一获取模块，用于获取硬盘数据的训练样本以及训练样本对应的样本标签；

构建模块，用于根据训练样本，构建出生成虚拟样本的第一故障模型；根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型；

确定模块，用于根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签；

第一得到模块，用于根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签。

第三方面，本公开提供了一种计算机设备，包括：存储器和处理器，存储器和处理器之间互相通信连接，存储器中存储有计算机指令，处理器通过执行计算机指令，从而执行上述第一方面或其对应的任一实施方式的用于硬盘数据故障预测的样本获取方法。

第四方面，本公开提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机指令，计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的用于硬盘数据故障预测的样本获取方法。

附图说明

为了更清楚地说明本公开具体实施方式或相关技术中的技术方案，下面将对具体实施方式或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一些实施例的用于硬盘数据故障预测的样本获取方法的流程示意图；

图2是根据本公开一些实施例的用于硬盘数据故障预测的示意图；

图3是根据本公开一些实施例的用于硬盘数据故障预测的样本获取装置的结构框图；

图4是本公开实施例的计算机设备的硬件结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

硬盘故障会严重危害数据安全和***运行效率。在现有的硬盘故障诊断方法中，硬盘自检程序（也称为自监测分析报告，即S.M.A.R.T.）是检测硬盘健康状况的最常用方法之一。S.M.A.R.T.数据集包含提供硬盘运行时的关键信息，如温度、扇区信息、I/O错误等。研究人员可以根据S.M.A.R.T.数据集中的各项指标，判断和分析硬盘的健康状况，以及未来的健康走势。通过监测这些S.M.A.R.T.数据的变化情况，硬盘故障诊断软件可以自动识别可能存在的问题并提取出相关信息，以便进行问题修复或替换硬盘等级别较高的维护措施。总的来说，基于S.M.A.R.T.数据的硬盘故障诊断方法是一种有效、低成本且长期可靠的硬盘故障诊断方法。

随着大数据时代的到来，云计算、大数据分析等应用的发展助长了存储行业的繁荣发展。相应地，数据中心需要处理的硬盘数据信息也呈现井喷的趋势。考虑到S.M.A.R.T.数据集中包含多种评价指标，这些指标的分析大多依靠研究人员的经验，或者人为设定的阈值。分析过程较为繁琐和复杂，而且无法有效解决多种复杂的故障问题。在此背景下，利用机器学习技术进行硬盘故障检测已成为一种重要的研究思路。机器学习的主要思想是从大规模数据中提取出有价值的信息和知识，并利用这些信息来解决各种实际问题。在硬盘故障检测方面，利用机器学习技术对大规模的S.M.A.R.T.数据进行处理和分析，不仅可以识别复杂的故障类型并提供高质量的预测建议，提高存储介质的可靠性和稳定性，同时也可以为相关领域的研究和发展提供有价值的数据分析和知识发现。

目前已有的基于机器学***衡。现有的卷积神经网络、长短记忆网络等方法，难以在数据分布极不平衡的情况下学习到不同类别数据的差异性特征，通常会陷入过拟合。因此，现有基于机器学习的硬盘故障预测仍具有一定应用局限性，限制了机器学习模型的故障预测性能。

为了解决上述问题，根据本公开实施例，提供了一种用于硬盘数据故障预测的样本获取方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种用于硬盘数据故障预测的样本获取方法，图1是根据本公开实施例的用于硬盘数据故障预测的样本获取方法的流程图，该方法可以应用于服务器侧，如图1所示，该方法流程包括如下步骤：

步骤S101，获取硬盘数据的训练样本以及训练样本对应的样本标签；

步骤S102，根据训练样本，构建出生成虚拟样本的第一故障模型；根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型；

步骤S103，根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签；

步骤S104，根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签。

可选地，在本公开实施例中，参照当前的线性插值方法，提出一种用于硬盘数据故障预测的样本获取方法。其中，线性插值方法指的是通过样本插值的方式构建一个新的数据样本，以虚构样本和对应的虚构标签去代替原有的数据集。因为虚构的样本在真实标签的邻域内，因此该方法又被称为邻域风险最小化法，其数学表达式如公式（1）：

（1）

其中，为邻域风险最小化法中生成的虚构样本，/>为邻域风险最小化法中生成的虚构标签，/>和/>为输入的两种类别（如0类和1类）下的训练样本，/>和/>为输入的两种类别下的样本标签，/>是调控参数/>和/>之间的混合因子，其数值分布满足于贝塔分布，即，E（）为数学期望，/>（）为映射函数，/>。

基于此构思，本公开实施例需要先获取到已有硬盘数据的训练样本以及训练样本对应的样本标签，然后基于训练样本，构建出生成虚拟样本的第一故障模型、根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型。

将训练样本与第一故障模型相结合，将样本标签与第二故障模型相结合，分别得到虚拟样本的虚拟样本和虚拟标签，之后将虚拟样本增加到已有的训练样本内，得到用于硬盘数据故障预测的目标训练样本、将虚拟标签增加到已有的样本标签内，得到目标训练样本对应的目标样本标签。

由此，将目标训练样本和目标样本标签作为对硬盘数据进行故障预测的样本数据。

在一些可选的实施方式中，根据训练样本，构建出生成虚拟样本的第一故障模型，包括：

获取样本混合因子和预设数量的训练样本；

可选地，在本公开实施例中，给定输入训练样本及其样本标签(,/>)和(/>,/>)，其中，/>，/>代表两种类别（比如0类，1类）下的训练样本，/>和/>代表两种类别样本标签，比如0类标签和1类标签，此时预设数量为2。需要说明的是，本公开实施例中预设数量优选为2，也可以是3、4等，但是针对数值3、4还可以将其拆分为两两训练样本和样本标签，因此本公开实施例以预设数量为2进行的阐述说明。

获取到数值分布满足贝塔分布的样本混合因子，/>，/>比如选取/>。然后根据样本混合因子和预设数量的训练样本，构建第一故障模型，该第一故障模型可以是第一表达式，如公式（2）：

（2）

在一些可选的实施方式中，根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型，包括：

获取预设数量的样本标签；

可选地，由于样本标签与训练样本是成对出现的，比如(,/>)和(/>,/>)，所以获取到预设数量（即2）个样本标签：/>和/>。

在上述实施例中样本混合因子是可以事先设定的，但是在平衡混合训练方法中，标签混合因子/>的计算过程引入了额外的决策边界，通过判断训练样本中每类样本的样本量，对标签混合因子/>进行加权计算，进而得到最终的标签混合因子。

根据标签混合因子和预设数量的样本标签，构建第二故障模型，该第二故障模型可以是第二表达式，如公式（3）：

（3）

在一些可选的实施方式中，根据样本混合因子、预设数量的训练样本，确定标签混合因子，包括：

获取每个训练样本的样本量；

可选地，对于混合训练而言，样本混合因子恒等于标签混合因子，即。但在所提平衡混合训练方法中，由于样本混合因子不恒等于标签混合因子，/>的计算过程引入了额外的决策边界，所以在本公开实施例中，需要获取到每个训练样本的样本量、获取到预设决策边界k（k决定了生成虚拟样本的新样本标签的关键参数），然后根据样本量、预设决策边界以及样本混合因子，确定标签混合因子。

在一些可选的实施方式中，在训练样本的数量为两个的情况下，根据样本量、预设决策边界以及样本混合因子，确定标签混合因子，包括：

获取目标数值与预设决策边界之间的比较结果；

根据比较结果和样本混合因子，确定标签混合因子。

可选地，本公开实施例的实质是实现硬盘数据的均衡，所以在得到虚拟样本后，把较高比重的标签混合因子赋予少数类样本。这时获取第一训练样本的第一样本量/>与第二训练样本的第二样本量/>，求取/>和/>之商，得到目标数值/>；

获取目标数值与预设决策边界之间的比较结果，然后根据比较结果和样本混合因子，确定标签混合因子。

在一些可选的实施方式中，根据比较结果和样本混合因子，确定标签混合因子，包括：

可选地，在根据样本量、预设决策边界以及样本混合因子对标签混合因子进行加权计算时，其定义如公式（4）：

其中，“”即目标数值小于等于预设决策边界，称为比较结果，这时比较结果满足公式（4）中的第一条件，这时根据样本混合因子/>，得到关联因子/>，根据，选取样本混合因子和关联因子之间的最大值，作为标签混合因子/>。

比如，属于0类，共有20个样本，而/>属于1类，仅有1000个样本，假设预设决策边界k=0.5，在/>的情况下，20/1000=0.02≤k，所以/>，所以混合训练将标签分配为80%的0类和20%的1类。

可选地，在根据样本量、预设决策边界以及样本混合因子对标签混合因子进行加权计算时，其定义如上述的公式（4）：

其中，“”即目标数值大于等于预设决策边界的倒数，称为比较结果，这时比较结果满足公式（4）中的第二条件，这时根据样本混合因子/>，得到关联因子/>，根据/>，选取样本混合因子和关联因子之间的最小值，作为标签混合因子/>。

比如，属于0类，共有1000个样本，而/>属于1类，仅有20个样本，假设预设决策边界k=0.5，在/>的情况下，1000/20=50≥1/k，所以/>，所以混合训练将标签分配为20%的0类和80%的1类。

在目标数值与预设决策边界k之间的比较结果不满足第一条件和第二条件时，这时认为比较结果满足第三条件，即“其他”情况，直接将/>即可。

在一些可选的实施方式中，根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签，包括：

可选地，由上述实施例可知，需要将样本混合因子、标签混合因子确定之后，将其代入第一故障模型以及第二故障模型，同时将预设数量的训练样本和样本标签也代入第一故障模型以及第二故障模型，才能基于公式（2）和公式（3）确定出虚拟样本和虚拟标签。

在一些可选的实施方式中，在根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签之后，方法还包括：

将目标训练样本输入初始故障预测模型内，得到分类结果；

可选地，将增加至已有的训练样本后，得到目标训练样本，将/>增加至已有的样本标签后，得到目标样本标签。然后将目标训练样本输入初始故障预测模型内，得到分类结果。由于目标训练样本携带有目标样本标签，所以将得到的分类结果与目标样本标签进行对比，然后经过loss计算去调整初始故障预测模型的模型参数，直到分类结果与目标样本标签相一致，得到训练完成的目标故障预测模型。

可以理解的是，这里的目标故障预测模型就是已有训练样本中增加了带有新的虚拟标签的伪样本之后进行不断训练，而得到的最终模型，该模型可以是长短时训练神经网络（Long Short-Term Memory，LSTM），其中，LSTM是一个包含特征提取和分类的循环神经网络，通过输入门、遗忘门、输出门和记忆单元等控制记忆单元的更新。LSTM可有效学***衡问题，进一步增强机器学习模型的特征学习能力和预测的准确度。

进一步地，收集硬盘运行中产生的S.M.A.R.T.数据，对数据打上标签，组成输入数据集。其中，七天内出现故障的硬盘被打上为“即将故障”的标签，而七天内未出现故障被打上“健康运行”的标签。其次，进行数据清理，对数据中的缺失部分进行填充，或者对部分缺失的数据进行删除和覆盖。随后，如图2所示，混合学习模块包含训练样本、训练样本/>、样本标签/>、样本标签/>，对训练样本/>和训练样本/>进行混合处理，得到新混合样本，对样本标签/>和样本标签/>进行混合处理，得到新混合标签，然后将新混合样本和新混合标签输入LSTM进行特征训练。通过迭代训练LSTM模型，不断增强模型的学习能力和识别结果准确性。最后，输出预测结果，判断硬盘未来一段时间内是否会发生故障，并采取相应的措施，保护数据安全和业务连续性。

具体实现过程如下：

（1）收集S.M.A.R.T数据、硬盘性能数据等关键信息，确保数据集具备全面性和可靠性；

（2）将各种数据源聚合为一个综合性数据集，对数据集进行全面清洗，处理缺失值、异常值和重复值等数据质量问题；

（3）构建LSTM深度模型（即初始故障预测模型），确定网络结构、层数和神经元个数，选择合适的激活函数、优化算法和损失函数，以增强模型的表现能力；

（4）经过聚合、清洗和精选的数据输入到构建好的LSTM模型中，迭代遍历数据集，通过反向传播的方式进行模型训练；

（5）达到较低误差后，指示模型训练完成，得到目标故障预测模型。

选择特征时，S.M.A.R.T特征可以选择读错误、寻址错误、开机时间等关键特征。硬盘性能数据包括硬盘级性能指标和服务器级性能指标。其中，硬盘级性能指标包括IOQueue大小、吞吐量、延迟、I/O操作的平均等待时间等。服务器级性能指标包括CPU活动、页面进出活动等。

利用硬盘性能数据来提取硬盘故障的先兆信号，可以为早期硬盘故障预测提供支撑。具体来说，通过硬盘性能数据可以衡量硬盘在不同负载下的性能表现，包括硬盘读写速度、响应时间、数据访问频率等，这有助于提前发现可能存在的硬盘故障，进一步加强了预测的准确性。

在一些可选的实施方式中，在根据目标样本标签和分类结果调整初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型之后，方法还包括：

获取待故障预测的目标硬盘数据；

具体地，（1）收集待故障预测的目标硬盘数据；

（2）将目标硬盘数据输入目标故障预测模型，输出目标硬盘数据的故障预测结果。

在本实施例中还提供了一种用于硬盘数据故障预测的样本获取装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本实施例提供一种用于硬盘数据故障预测的样本获取装置，如图3所示，包括：

第一获取模块301，用于获取硬盘数据的训练样本以及训练样本对应的样本标签；

构建模块302，用于根据训练样本，构建出生成虚拟样本的第一故障模型；根据样本标签，构建出生成虚拟样本对应的虚拟标签的第二故障模型；

确定模块303，用于根据训练样本、样本标签、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签；

第一得到模块304，用于根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签。

在一些可选的实施方式中，构建模块302包括：

第一获取子模块，用于获取样本混合因子和预设数量的训练样本；

第一构建子模块，用于根据样本混合因子和预设数量的训练样本，构建第一故障模型。

在一些可选的实施方式中，构建模块302包括：

第二获取子模块，用于获取预设数量的样本标签；

第一确定子模块，用于根据样本混合因子、预设数量的训练样本，确定标签混合因子；

第二构建子模块，用于根据标签混合因子和预设数量的样本标签，构建第二故障模型。

在一些可选的实施方式中，第二构建子模块包括：

获取单元，用于获取预设数量的样本标签；

确定单元，用于根据样本混合因子、预设数量的训练样本，确定标签混合因子；

构建单元，用于根据标签混合因子和预设数量的样本标签，构建第二故障模型。

在一些可选的实施方式中，确定单元包括：

获取子单元，用于获取每个训练样本的样本量；

确定子单元，用于根据样本量、预设决策边界以及样本混合因子，确定标签混合因子。

在一些可选的实施方式中，在训练样本的数量为两个的情况下，确定子单元具体用于：

获取目标数值与预设决策边界之间的比较结果；

根据比较结果和样本混合因子，确定标签混合因子。

在一些可选的实施方式中，确定子单元具体用于：

在一些可选的实施方式中，第一得到模块304包括：

第一增加子模块，用于将虚拟样本增加到训练样本内，得到目标训练样本；

第二增加子模块，用于将虚拟标签增加到样本标签内，得到目标样本标签。

在一些可选的实施方式中，确定模块303包括：

第二确定子模块，用于根据训练样本、样本标签、样本混合因子、标签混合因子、第一故障模型以及第二故障模型，确定虚拟样本和虚拟标签。

在一些可选的实施方式中，该装置还包括：

第二得到模块，用于在根据虚拟样本和虚拟标签，得到用于硬盘数据故障预测的目标训练样本和目标训练样本对应的目标样本标签之后，将目标训练样本输入初始故障预测模型内，得到分类结果；

第三得到模块，用于根据目标样本标签和分类结果调整初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型。

在一些可选的实施方式中，该装置还包括：

第二获取模块，用于在根据目标样本标签和分类结果调整初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型之后，获取待故障预测的目标硬盘数据；

第四得到模块，用于将目标硬盘数据输入目标故障预测模型中，得到故障预测结果。

在一些可选的实施方式中，第一故障模型为第一表达式，第一表达式的公式为：，其中，/>为虚拟样本，/>为样本混合因子，/>为第一类别下的训练样本，/>为第二类别下的训练样本；第二故障模型为第二表达式，所述第二表达式的公式为：/>，其中，/>为虚拟样本对应的虚拟标签，/>为标签混合因子，/>为第一类别下的训练样本标签，/>为第二类别下的训练样本标签。

本实施例中的用于硬盘数据故障预测的样本获取装置是以功能单元的形式来呈现，这里的单元是指ASIC电路，执行一个或多个软件或固定程序的处理器和存储器，和/或其他可以提供上述功能的器件。

上述各个模块和单元的更进一步的功能描述与上述对应实施例相同，在此不再赘述。

本公开实施例还提供一种计算机设备，具有上述图3所示的用于硬盘数据故障预测的样本获取装置。

请参阅图4，图4是本公开可选实施例提供的一种计算机设备的结构示意图，如图4所示，该计算机设备包括：一个或多个处理器10、存储器20，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相通信连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算机设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个计算机设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器***)。图4中以一个处理器10为例。

处理器10可以是中央处理器，网络处理器或其组合。其中，处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路，可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件，现场可编程逻辑门阵列，通用阵列逻辑或其任意组合。

其中，存储器20存储有可由至少一个处理器10执行的指令，以使至少一个处理器10执行实现上述实施例示出的方法。

存储器20可以包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需要的应用程序；存储数据区可存储根据一种小程序落地页的展现的计算机设备的使用所创建的数据等。此外，存储器20可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中，存储器20可选包括相对于处理器10远程设置的存储器，这些远程存储器可以通过网络连接至该计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

存储器20可以包括易失性存储器，例如，随机存取存储器；存储器也可以包括非易失性存储器，例如，快闪存储器，硬盘或固态硬盘；存储器20还可以包括上述种类的存储器的组合。

该计算机设备还包括通信接口30，用于该计算机设备与其他设备或通信网络通信。

本公开实施例还提供了一种计算机可读存储介质，上述根据本公开实施例的方法可在硬件、固件中实现，或者被实现为可记录在存储介质，或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中，存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等；进一步地，存储介质还可以包括上述种类的存储器的组合。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件，当软件或计算机代码被计算机、处理器或硬件访问且执行时，实现上述实施例示出的方法。

虽然结合附图描述了本公开的实施例，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims

1.一种用于硬盘数据故障预测的样本获取方法，其特征在于，所述方法包括：

获取硬盘数据的训练样本以及所述训练样本对应的样本标签；

根据所述训练样本，构建出生成虚拟样本的第一故障模型；根据所述样本标签，构建出生成所述虚拟样本对应的虚拟标签的第二故障模型；

根据所述训练样本、所述样本标签、所述第一故障模型以及所述第二故障模型，确定所述虚拟样本和所述虚拟标签；

根据所述虚拟样本和所述虚拟标签，得到用于硬盘数据故障预测的目标训练样本和所述目标训练样本对应的目标样本标签。

2.根据权利要求1所述的方法，其特征在于，所述根据所述训练样本，构建出生成虚拟样本的第一故障模型，包括：

获取样本混合因子和预设数量的训练样本；

根据所述样本混合因子和所述预设数量的训练样本，构建所述第一故障模型。

3.根据权利要求2所述的方法，其特征在于，所述根据所述样本标签，构建出生成所述虚拟样本对应的虚拟标签的第二故障模型，包括：

获取所述预设数量的样本标签；

根据所述样本混合因子、所述预设数量的训练样本，确定标签混合因子；

根据所述标签混合因子和所述预设数量的样本标签，构建所述第二故障模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述样本混合因子、所述预设数量的训练样本，确定标签混合因子，包括：

获取每个训练样本的样本量；

根据所述样本量、预设决策边界以及所述样本混合因子，确定所述标签混合因子。

5.根据权利要求4所述的方法，其特征在于，在所述训练样本的数量为两个的情况下，所述根据所述样本量、预设决策边界以及所述样本混合因子，确定所述标签混合因子，包括：

获取所述目标数值与所述预设决策边界之间的比较结果；

根据所述比较结果和所述样本混合因子，确定所述标签混合因子。

6.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

在所述比较结果满足第一条件的情况下，获取由所述样本混合因子得到的关联因子；

将所述样本混合因子和所述关联因子之间的最大值，作为所述标签混合因子。

7.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

在所述比较结果满足第二条件的情况下，获取由所述样本混合因子得到的关联因子；

将所述样本混合因子和所述关联因子之间的最小值，作为所述标签混合因子。

8.根据权利要求5所述的方法，其特征在于，所述根据所述比较结果和所述样本混合因子，确定所述标签混合因子，包括：

在所述比较结果满足第三条件的情况下，将所述样本混合因子作为所述标签混合因子。

9.根据权利要求1所述的方法，其特征在于，所述根据所述虚拟样本和所述虚拟标签，得到用于硬盘数据故障预测的目标训练样本和所述目标训练样本对应的目标样本标签，包括：

将所述虚拟样本增加到所述训练样本内，得到所述目标训练样本；

将所述虚拟标签增加到所述样本标签内，得到所述目标样本标签。

10.根据权利要求3所述的方法，其特征在于，所述根据所述训练样本、所述样本标签、所述第一故障模型以及所述第二故障模型，确定所述虚拟样本和所述虚拟标签，包括：

根据所述训练样本、所述样本标签、所述样本混合因子、所述标签混合因子、所述第一故障模型以及所述第二故障模型，确定所述虚拟样本和所述虚拟标签。

11.根据权利要求1所述的方法，其特征在于，在所述根据所述虚拟样本和所述虚拟标签，得到用于硬盘数据故障预测的目标训练样本和所述目标训练样本对应的目标样本标签之后，所述方法还包括：

将所述目标训练样本输入初始故障预测模型内，得到分类结果；

根据所述目标样本标签和所述分类结果调整所述初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型。

12.根据权利要求11所述的方法，其特征在于，在所述根据所述目标样本标签和所述分类结果调整所述初始故障预测模型的模型参数，得到用于硬盘数据故障预测的目标故障预测模型之后，所述方法还包括：

获取待故障预测的目标硬盘数据；

将所述目标硬盘数据输入所述目标故障预测模型中，得到故障预测结果。

13.根据权利要求1所述的方法，其特征在于，所述第一故障模型为第一表达式，所述第一表达式的公式为：，其中，/>为虚拟样本，/>为样本混合因子，/>为第一类别下的训练样本，/>为第二类别下的训练样本；所述第二故障模型为第二表达式，所述第二表达式的公式为：/>，其中，/>为虚拟样本对应的虚拟标签，/>为标签混合因子，/>为第一类别下的训练样本标签，/>为第二类别下的训练样本标签。

14.一种用于硬盘数据故障预测的样本获取装置，其特征在于，所述装置包括：

第一获取模块，用于获取硬盘数据的训练样本以及所述训练样本对应的样本标签；

构建模块，用于根据所述训练样本，构建出生成虚拟样本的第一故障模型；根据所述样本标签，构建出生成所述虚拟样本对应的虚拟标签的第二故障模型；

确定模块，用于根据所述训练样本、所述样本标签、所述第一故障模型以及所述第二故障模型，确定所述虚拟样本和所述虚拟标签；

第一得到模块，用于根据所述虚拟样本和所述虚拟标签，得到用于硬盘数据故障预测的目标训练样本和所述目标训练样本对应的目标样本标签。

15.一种计算机设备，其特征在于，包括：

存储器和处理器，所述存储器和所述处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行权利要求1至13中任一项所述的用于硬盘数据故障预测的样本获取方法。

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机指令，所述计算机指令用于使计算机执行权利要求1至13中任一项所述的用于硬盘数据故障预测的样本获取方法。