CN112465153A

CN112465153A - 一种基于不平衡集成二分类的磁盘故障预测方法

Info

Publication number: CN112465153A
Application number: CN202011510541.0A
Authority: CN
Inventors: 高欣; 任昺; 何杨; 李康生; 井潇; 纪维佳; 查森; 王�锋
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2019-12-23
Filing date: 2020-12-18
Publication date: 2021-03-09
Also published as: CN111091201A

Abstract

本发明公开了一种基于不平衡集成二分类的磁盘故障预测方法，包括：对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集；将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态。本发明可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题，提高基于机器学习的磁盘故障预测能力。

Description

一种基于不平衡集成二分类的磁盘故障预测方法

【技术领域】

本发明涉及信息存储技术领域，尤其涉及一种基于不平衡集成二分类的磁盘故障预测方法。

【背景技术】

随着信息产业的不断发展，大量纸质数据已被电子化，电子数据地不断产生使得数据存储服务得到大力发展。存储***中磁盘的规模极其庞大，其稳定性关系到数据中心中整个存储***的安全可靠。磁盘作为硬件故障率最高的组件，一旦发生运行异常或者数据丢失，将导致业务服务无法挽回并造成严重影响。如果能***磁盘故障，帮助运维人员提早备份数据、更换磁盘等，将极大的避免风险或减少损失。目前，磁盘厂商都采用SMART(Self-Monitoring Analysis and Reporting Technology)对磁盘进行监测，但传统的阈值判定方法故障检测率过低，实际预警效果不好。基于机器学***衡分类方法，需要收集大量的健康和故障磁盘的SMART数据，对这些数据进行特征提取后进行分类模型的训练。已经提出了许多方法解决不平衡分类问题，主要分为数据级方法、算法级方法以及数据处理与算法相结合的方法。数据处理与算法相结合的方法在不平衡分类问题中具有较好的表现，但是这些方法没有充分考虑样本空间的数据分布，无法通过不同区域采用不同分类器使分类性能得到提升，而且采用简单的静态策略选择模型，对测试对象无分别地进行预测，降低了模型的适用性。

【发明内容】

有鉴于此，本发明实施例提出了一种基于不平衡集成二分类的磁盘故障预测方法，可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题，通过调整数据分布生成不同分类模型以改善不平衡分类的性能，提高基于机器学习的磁盘故障预测能力。

本发明实施例提出的一种基于不平衡集成二分类的磁盘故障预测方法，包括：

对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集；

将磁盘原始数据集和平衡数据集输入RF算法进行机器学习，分别训练出偏向多数类的原始模型和局部域加强和削弱模型，集成两种模型获得偏向***边界的混合模型；

根据放入原始磁盘数据集近邻的不平衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态。

上所述方法中，对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集的方法为：对磁盘数据进行跳变分析和值域分析，选取与磁盘故障相关且熵值较大的特征，收集其特征值作为原始数据集D，首先将原始数据集D中标记为正常和故障的数据分为多数类集D_maj和少数类集D_min，定义边界区D_border、少数类噪声区D_danger-、少数类安全区D_safe-、多数类安全区D_safe+并初始化四个区域为空集，+表示多数类样本，-表示少数类样本，然后遍历少数类集D_min，少数类集D_min包括少数类样本x_i，i＝1,2,...,N_min，N_min为少数类集样本数目，通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目N_i-，i＝1,2,...,N_min，其中k＝13，并将邻居点中多数类样本存储到边界区D_border中，计算少数类邻域中的多数类占比

如果Γ＝0，将该少数类样本加入到少数类噪声区D_danger-；如果Γ∈(0,1)，将该少数类样本及其邻域中多数类样本加入到边界区D_border；如果Γ＝1，将该少数类样本加入到少数类安全区D_safe-；剩余训练集D的样本加入到多数类安全区D_safe+，训练集D剔除少数类噪声区D_danger-获得过滤集D_filter，统计边界区D_border的样本数目N_border，包括少数类样本数目m和多数类样本数目n，在少数类样本x_i中找出属于边界区D_border的少数类样本x_{border_i}，i＝1,2,...,m，统计每个x_{border_i}邻域中多数类样本个数N_i+，i＝1,2,...,m，计算边界区域需要合成的样本数G＝(m+n)×b-m，b∈[0.5,1]，其中b为合成比例因子，取b＝1时，合成后少数类样本数目和多数类样本数目保持平衡，其数目为原来总样本个数，对于每个边界区少数类样本x_{border_i}，计算k个近邻样本点中属于多数类样本的比例，记作

根据每个少数类邻域的多数类占比与其总和的比值生成权值

对边界区的每个少数类样本计算合成数目g_i＝w_i×G，i＝1,2,...,m，通过SMOTE方法在边界区每个少数类样本周围合成gi个少数类样本，将合成的少数类样本加入边界区D_border获得边界区过采样集D_border过，将多数类安全区D_safe+的样本聚成

个簇，其中N_safe+为多数类安全区D_safe+的样本数目，对每个簇进行随机欠采样，采样个数为该簇样本数目的一半，得到多数类安全区欠采样集D_safe+欠，剔除少数类噪声区D_danger-，保留少数类安全区样本D_safe-，最终获得平衡数据集D_balance＝D_safe-+D_safe+欠+D_border过；

上所述方法中，将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡训练集D训练获得偏向多数类的原始模型RF₁，其中森林大小s＝100；通过平衡数据集D_balance训练获得局部域加强和削弱模型RF₂，其中森林大小s＝100；将偏向多数类的原始模型RF₁和局部域加强和削弱模型RF₂的所有基分类器集成获得偏向***边界的混合模型RF，其中森林大小s＝200，模型比率q＝0.5；

上所述方法中，根据放入原始磁盘数据集近邻的不平衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态的方法为：给定测试集T，通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数T_i+，计算测试点近邻的不平衡程度

如果χ＝1，将该测试点样本划为周围全是多数类类型，对该类型的测试点选择偏向多数类的原始模型RF₁进行预测；如果

将该测试点样本划为周围大量多数类类型，对该类型的测试点选择偏向***边界的混合模型RF进行预测；如果

将该测试点样本划为周围少量多数类类型，对该类型的测试点选择局部域加强和削弱模型RF₂进行预测，最后综合所有模型的决策树结果，通过硬投票得出最终分类结果Lable：

其中I()为指示函数，

表示Lable(x)取最大值时测试样本对应的预测类别，h_t(x)表示第t个决策树结果，x表示测试点，y表示两个类别，包括少数类0和多数类1，1表示磁盘预测正常概率大，0表示磁盘预测故障概率大，据此得出测试样本的实际磁盘预测状态。

【附图说明】

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法的流程示意图；

图2是本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法框架流程图。

【具体实施方式】

为了更好的理解本发明的技术方案，下面结合附图对本发明实施例进行详细描述。

应当明确，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例给出一种基于不平衡集成二分类的磁盘故障预测方法，请参考图1，其为本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法的流程示意图，如图1所示，该方法包括以下步骤：

步骤101，对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集。

具体的，使用的SMART数据集来自Backblaze公司，SMART是一组磁盘自检测、状态监控分析技术，是由磁盘厂商制定的一组标准，所有监控记录下来的数据被称为SMART数据，对磁盘SMART数据进行跳变分析和值域分析，选取与磁盘故障相关且熵值较大的特征，这些磁盘SMART属性特征包括：底层数据读取错误率、启停计数、重映射扇区计数、寻道错误率、通电时间累计、无法校正的错误、命令超时、磁头加载/卸载计数、温度、当前待映射扇区计数、脱机无法校正的扇区计数、磁头飞行时间/传输错误率、LBA写入总数、LBA读取总数，在采集了磁盘的数据后，从监控***中取到好、坏盘的标签数据，收集标签数据与14种磁盘SMART属性特征值作为原始数据集D，首先将原始数据集D中标记为正常和故障的数据分为多数类集D_maj和少数类集D_min，定义边界区D_border、少数类噪声区D_danger-、少数类安全区D_safe-、多数类安全区D_safe+并初始化四个区域为空集，+表示多数类样本，-表示少数类样本，然后遍历少数类集D_min，少数类集D_min包括少数类样本x_i，i＝1,2,...,N_min，N_min为少数类集样本数目，通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目N_i-，i＝1,2,...,N_min，其中k＝13，并将邻居点中多数类样本存储到边界区D_border中，计算少数类邻域中的多数类占比

根据每个少数类邻域的多数类占比与其总和的比值生成权值

对边界区的每个少数类样本计算合成数目g_i＝w_i×G，i＝1,2,...,m，通过SMOTE方法在边界区每个少数类样本周围合成gi个少数类样本，将合成的少数类样本加入边界区D_border获得边界区过采样集D_border过，算法1为步骤101的区域划分算法的伪代码:

将多数类安全区D_safe+的样本聚成

个簇，其中N_safe+为多数类安全区D_safe+的样本数目，对每个簇进行随机欠采样，采样个数为该簇样本数目的一半，得到多数类安全区欠采样集D_safe+欠，剔除少数类噪声区D_danger-，保留少数类安全区样本D_safe-，最终获得平衡数据集D_balance＝D_safe-+D_safe+欠+D_border过。

步骤102，将磁盘原始数据集和平衡数据集输入RF算法进行机器学习，分别训练出偏向多数类的原始模型和局部域加强和削弱模型，集成两种模型获得偏向***边界的混合模型。

具体的，偏向多数类的原始模型、局部域加强和削弱模型、偏向***边界的混合模型均采用随机森林RF算法进行训练，算法的主要参数为决策树个数n_estimators＝1000，决策树***方式criterion＝'gini'，拆分树内部节点的最小样本数min_samples_split＝2，叶子节点所需的最小样本数min_samples_leaf＝1；通过不平衡训练集D训练获得偏向多数类的原始模型RF₁，其中森林大小s＝100；通过平衡数据集D_balance训练获得局部域加强和削弱模型RF₂，其中森林大小s＝100；将偏向多数类的原始模型RF₁和局部域加强和削弱模型RF₂的所有基分类器集成获得偏向***边界的混合模型RF，其中森林大小s＝200，模型比率q＝0.5。

步骤103，根据放入原始磁盘数据集近邻的不平衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态。

具体的，给定磁盘测试数据集T，通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数T_i+，计算测试点近邻的不平衡程度

其中I()为指示函数，

算法2为步骤103的模型动态选择的伪代码：

算法3为基于不平衡集成二分类的磁盘故障预测方法的伪代码：

表一是本发明实施例给出基于不平衡集成二分类的磁盘故障预测方法所应用的公开数据集，描述了数据集的详细信息，包括特征数、数据分布(多数类样本数目，少数类样本数目)和不平衡率(多数类样本数目与少数类样本数目的比值)，表二是本发明实施给出磁盘数据所筛选的SMART属性列表。

表一

表二

表三是本发明实施例给出基于不平衡集成二分类的磁盘故障预测方法解决10例公开数据集的分类以及磁盘的故障预测时，F-measure值(少数类查全率与查准率调和平均值)的对比实验结果，其中，本发明实施例中对比方法是典型解决不平衡二分类问题的RUSboost、SMOTEboost、EasyEnsemble、BalancedBagging、BRAF、DTE-SBD六种方法。由表三可以得出，本发明所提出的方法DPHS-MDS在公开数据集和磁盘数据集中相比于对比方法在F-measure值上有明显提高。特别的，提出方法在10组数据集和磁盘数据集的平均结果上具有明显提升，表明磁盘故障预测性能提升明显。本发明实施例所提出的方法在对磁盘故障预测方面取得了一定突破。

表三

综上所述，本发明实施例具有以下有益效果：

本发明实施的技术方案中，对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集；将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态。根据本发明实施例提供的技术方案，可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题，通过调整数据分布生成不同分类模型以改善不平衡分类的性能，提高基于机器学习的磁盘故障预测能力。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于不平衡集成二分类的磁盘故障预测方法，其特征在于，所述方法步骤包括：

(1)对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集；

(2)将磁盘原始数据集和平衡数据集输入RF算法进行机器学习，分别训练出偏向多数类的原始模型和局部域加强和削弱模型，集成两种模型获得偏向***边界的混合模型；

(3)根据放入原始磁盘数据集近邻的不平衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态。

2.根据权利要求1所述的方法，其特征在于，对磁盘的SMART数据进行采样，选取与磁盘故障相关的状态特征作为原始数据集，通过数据分区混合采样获得平衡数据集，具体说明如下：对磁盘数据进行跳变分析和值域分析，选取与磁盘故障相关且熵值较大的特征，收集其特征值作为原始数据集D，首先将原始数据集D中标记为正常和故障的数据分为多数类集D_maj和少数类集D_min，定义边界区D_border、少数类噪声区D_danger-、少数类安全区D_safe-、多数类安全区D_safe+并初始化四个区域为空集，+表示多数类样本，-表示少数类样本，然后遍历少数类集D_min，少数类集D_min包括少数类样本x_i，i＝1,2,...,N_min，N_min为少数类集样本数目，通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目N_i-，i＝1,2,...,N_min，其中k＝13，并将邻居点中多数类样本存储到边界区D_border中，计算少数类邻域中的多数类占比

如果Γ＝0，将该少数类样本加入到少数类噪声区D_danger-；如果Γ∈(0,1)，将该少数类样本及其邻域中多数类样本加入到边界区D_border；如果Γ＝1，将该少数类样本加入到少数类安全区D_safe-；剩余训练集D的样本加入到多数类安全区D_safe+，训练集D剔除少数类噪声区D_danger-获得过滤集D_filter，统计边界区D_border的样本数目N_border，包括少数类样本数目m和多数类样本数目n，在少数类样本x_i中找出属于边界区D_border的少数类样本x_{border_i}，i＝1,2,...,m，统计每个x_{border_i}邻域中多数类样本个数N_i+，i＝1,2,...,m，计算边界区域需要合成的样本数G＝(m+n)×b-m,b∈[0.5,1]，其中b为合成比例因子，取b＝1时，合成后少数类样本数目和多数类样本数目保持平衡，其数目为原来总样本个数，对于每个边界区少数类样本x_{border_i}，计算k个近邻样本点中属于多数类样本的比例，记作

根据每个少数类邻域的多数类占比与其总和的比值生成权值

3.根据权利要求1所述的方法，其特征在于，将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡训练集D训练获得偏向多数类的原始模型RF₁，其中森林大小s＝100；通过平衡数据集D_balance训练获得局部域加强和削弱模型RF₂，其中森林大小s＝100；将偏向多数类的原始模型RF₁和局部域加强和削弱模型RF₂的所有基分类器集成获得偏向***边界的混合模型RF，其中森林大小s＝200，模型比率q＝0.5。

4.根据权利要求1所述的方法，其特征在于，根据放入原始磁盘数据集近邻的不平衡程度，自适应地选择三种模型，所获分类概率用来预测磁盘故障状态，具体说明为：给定测试集T，通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数T_i+，计算测试点近邻的不平衡程度

其中I()为指示函数，