CN112465153A - 一种基于不平衡集成二分类的磁盘故障预测方法 - Google Patents

一种基于不平衡集成二分类的磁盘故障预测方法 Download PDF

Info

Publication number
CN112465153A
CN112465153A CN202011510541.0A CN202011510541A CN112465153A CN 112465153 A CN112465153 A CN 112465153A CN 202011510541 A CN202011510541 A CN 202011510541A CN 112465153 A CN112465153 A CN 112465153A
Authority
CN
China
Prior art keywords
samples
disk
minority
class
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011510541.0A
Other languages
English (en)
Inventor
高欣
任昺
何杨
李康生
井潇
纪维佳
查森
王�锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN112465153A publication Critical patent/CN112465153A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种基于不平衡集成二分类的磁盘故障预测方法,包括:对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。本发明可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,提高基于机器学习的磁盘故障预测能力。

Description

一种基于不平衡集成二分类的磁盘故障预测方法
【技术领域】
本发明涉及信息存储技术领域,尤其涉及一种基于不平衡集成二分类的磁盘故障预测方法。
【背景技术】
随着信息产业的不断发展,大量纸质数据已被电子化,电子数据地不断产生使得数据存储服务得到大力发展。存储***中磁盘的规模极其庞大,其稳定性关系到数据中心中整个存储***的安全可靠。磁盘作为硬件故障率最高的组件,一旦发生运行异常或者数据丢失,将导致业务服务无法挽回并造成严重影响。如果能***磁盘故障,帮助运维人员提早备份数据、更换磁盘等,将极大的避免风险或减少损失。目前,磁盘厂商都采用SMART(Self-Monitoring Analysis and Reporting Technology)对磁盘进行监测,但传统的阈值判定方法故障检测率过低,实际预警效果不好。基于机器学***衡分类方法,需要收集大量的健康和故障磁盘的SMART数据,对这些数据进行特征提取后进行分类模型的训练。已经提出了许多方法解决不平衡分类问题,主要分为数据级方法、算法级方法以及数据处理与算法相结合的方法。数据处理与算法相结合的方法在不平衡分类问题中具有较好的表现,但是这些方法没有充分考虑样本空间的数据分布,无法通过不同区域采用不同分类器使分类性能得到提升,而且采用简单的静态策略选择模型,对测试对象无分别地进行预测,降低了模型的适用性。
【发明内容】
有鉴于此,本发明实施例提出了一种基于不平衡集成二分类的磁盘故障预测方法,可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,通过调整数据分布生成不同分类模型以改善不平衡分类的性能,提高基于机器学习的磁盘故障预测能力。
本发明实施例提出的一种基于不平衡集成二分类的磁盘故障预测方法,包括:
对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;
将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向***边界的混合模型;
根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。
上所述方法中,对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集的方法为:对磁盘数据进行跳变分析和值域分析,选取与磁盘故障相关且熵值较大的特征,收集其特征值作为原始数据集D,首先将原始数据集D中标记为正常和故障的数据分为多数类集Dmaj和少数类集Dmin,定义边界区Dborder、少数类噪声区Ddanger-、少数类安全区Dsafe-、多数类安全区Dsafe+并初始化四个区域为空集,+表示多数类样本,-表示少数类样本,然后遍历少数类集Dmin,少数类集Dmin包括少数类样本xi,i=1,2,...,Nmin,Nmin为少数类集样本数目,通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目Ni-,i=1,2,...,Nmin,其中k=13,并将邻居点中多数类样本存储到边界区Dborder中,计算少数类邻域中的多数类占比
Figure BDA0002846267110000021
如果Γ=0,将该少数类样本加入到少数类噪声区Ddanger-;如果Γ∈(0,1),将该少数类样本及其邻域中多数类样本加入到边界区Dborder;如果Γ=1,将该少数类样本加入到少数类安全区Dsafe-;剩余训练集D的样本加入到多数类安全区Dsafe+,训练集D剔除少数类噪声区Ddanger-获得过滤集Dfilter,统计边界区Dborder的样本数目Nborder,包括少数类样本数目m和多数类样本数目n,在少数类样本xi中找出属于边界区Dborder的少数类样本xborder_i,i=1,2,...,m,统计每个xborder_i邻域中多数类样本个数Ni+,i=1,2,...,m,计算边界区域需要合成的样本数G=(m+n)×b-m,b∈[0.5,1],其中b为合成比例因子,取b=1时,合成后少数类样本数目和多数类样本数目保持平衡,其数目为原来总样本个数,对于每个边界区少数类样本xborder_i,计算k个近邻样本点中属于多数类样本的比例,记作
Figure BDA0002846267110000031
根据每个少数类邻域的多数类占比与其总和的比值生成权值
Figure BDA0002846267110000032
对边界区的每个少数类样本计算合成数目gi=wi×G,i=1,2,...,m,通过SMOTE方法在边界区每个少数类样本周围合成gi个少数类样本,将合成的少数类样本加入边界区Dborder获得边界区过采样集Dborder过,将多数类安全区Dsafe+的样本聚成
Figure BDA0002846267110000033
个簇,其中Nsafe+为多数类安全区Dsafe+的样本数目,对每个簇进行随机欠采样,采样个数为该簇样本数目的一半,得到多数类安全区欠采样集Dsafe+欠,剔除少数类噪声区Ddanger-,保留少数类安全区样本Dsafe-,最终获得平衡数据集Dbalance=Dsafe-+Dsafe+欠+Dborder过
上所述方法中,将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡训练集D训练获得偏向多数类的原始模型RF1,其中森林大小s=100;通过平衡数据集Dbalance训练获得局部域加强和削弱模型RF2,其中森林大小s=100;将偏向多数类的原始模型RF1和局部域加强和削弱模型RF2的所有基分类器集成获得偏向***边界的混合模型RF,其中森林大小s=200,模型比率q=0.5;
上所述方法中,根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态的方法为:给定测试集T,通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数Ti+,计算测试点近邻的不平衡程度
Figure BDA0002846267110000041
如果χ=1,将该测试点样本划为周围全是多数类类型,对该类型的测试点选择偏向多数类的原始模型RF1进行预测;如果
Figure BDA0002846267110000042
将该测试点样本划为周围大量多数类类型,对该类型的测试点选择偏向***边界的混合模型RF进行预测;如果
Figure BDA0002846267110000043
将该测试点样本划为周围少量多数类类型,对该类型的测试点选择局部域加强和削弱模型RF2进行预测,最后综合所有模型的决策树结果,通过硬投票得出最终分类结果Lable:
Figure BDA0002846267110000044
其中I()为指示函数,
Figure BDA0002846267110000045
表示Lable(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个决策树结果,x表示测试点,y表示两个类别,包括少数类0和多数类1,1表示磁盘预测正常概率大,0表示磁盘预测故障概率大,据此得出测试样本的实际磁盘预测状态。
【附图说明】
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1是本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法的流程示意图;
图2是本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法框架流程图。
【具体实施方式】
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例给出一种基于不平衡集成二分类的磁盘故障预测方法,请参考图1,其为本发明实施例所提出的基于不平衡集成二分类的磁盘故障预测方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101,对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集。
具体的,使用的SMART数据集来自Backblaze公司,SMART是一组磁盘自检测、状态监控分析技术,是由磁盘厂商制定的一组标准,所有监控记录下来的数据被称为SMART数据,对磁盘SMART数据进行跳变分析和值域分析,选取与磁盘故障相关且熵值较大的特征,这些磁盘SMART属性特征包括:底层数据读取错误率、启停计数、重映射扇区计数、寻道错误率、通电时间累计、无法校正的错误、命令超时、磁头加载/卸载计数、温度、当前待映射扇区计数、脱机无法校正的扇区计数、磁头飞行时间/传输错误率、LBA写入总数、LBA读取总数,在采集了磁盘的数据后,从监控***中取到好、坏盘的标签数据,收集标签数据与14种磁盘SMART属性特征值作为原始数据集D,首先将原始数据集D中标记为正常和故障的数据分为多数类集Dmaj和少数类集Dmin,定义边界区Dborder、少数类噪声区Ddanger-、少数类安全区Dsafe-、多数类安全区Dsafe+并初始化四个区域为空集,+表示多数类样本,-表示少数类样本,然后遍历少数类集Dmin,少数类集Dmin包括少数类样本xi,i=1,2,...,Nmin,Nmin为少数类集样本数目,通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目Ni-,i=1,2,...,Nmin,其中k=13,并将邻居点中多数类样本存储到边界区Dborder中,计算少数类邻域中的多数类占比
Figure BDA0002846267110000061
如果Γ=0,将该少数类样本加入到少数类噪声区Ddanger-;如果Γ∈(0,1),将该少数类样本及其邻域中多数类样本加入到边界区Dborder;如果Γ=1,将该少数类样本加入到少数类安全区Dsafe-;剩余训练集D的样本加入到多数类安全区Dsafe+,训练集D剔除少数类噪声区Ddanger-获得过滤集Dfilter,统计边界区Dborder的样本数目Nborder,包括少数类样本数目m和多数类样本数目n,在少数类样本xi中找出属于边界区Dborder的少数类样本xborder_i,i=1,2,...,m,统计每个xborder_i邻域中多数类样本个数Ni+,i=1,2,...,m,计算边界区域需要合成的样本数G=(m+n)×b-m,b∈[0.5,1],其中b为合成比例因子,取b=1时,合成后少数类样本数目和多数类样本数目保持平衡,其数目为原来总样本个数,对于每个边界区少数类样本xborder_i,计算k个近邻样本点中属于多数类样本的比例,记作
Figure BDA0002846267110000062
Figure BDA0002846267110000063
根据每个少数类邻域的多数类占比与其总和的比值生成权值
Figure BDA0002846267110000064
对边界区的每个少数类样本计算合成数目gi=wi×G,i=1,2,...,m,通过SMOTE方法在边界区每个少数类样本周围合成gi个少数类样本,将合成的少数类样本加入边界区Dborder获得边界区过采样集Dborder过,算法1为步骤101的区域划分算法的伪代码:
Figure BDA0002846267110000065
Figure BDA0002846267110000071
将多数类安全区Dsafe+的样本聚成
Figure BDA0002846267110000081
个簇,其中Nsafe+为多数类安全区Dsafe+的样本数目,对每个簇进行随机欠采样,采样个数为该簇样本数目的一半,得到多数类安全区欠采样集Dsafe+欠,剔除少数类噪声区Ddanger-,保留少数类安全区样本Dsafe-,最终获得平衡数据集Dbalance=Dsafe-+Dsafe+欠+Dborder过
步骤102,将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向***边界的混合模型。
具体的,偏向多数类的原始模型、局部域加强和削弱模型、偏向***边界的混合模型均采用随机森林RF算法进行训练,算法的主要参数为决策树个数n_estimators=1000,决策树***方式criterion='gini',拆分树内部节点的最小样本数min_samples_split=2,叶子节点所需的最小样本数min_samples_leaf=1;通过不平衡训练集D训练获得偏向多数类的原始模型RF1,其中森林大小s=100;通过平衡数据集Dbalance训练获得局部域加强和削弱模型RF2,其中森林大小s=100;将偏向多数类的原始模型RF1和局部域加强和削弱模型RF2的所有基分类器集成获得偏向***边界的混合模型RF,其中森林大小s=200,模型比率q=0.5。
步骤103,根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。
具体的,给定磁盘测试数据集T,通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数Ti+,计算测试点近邻的不平衡程度
Figure BDA0002846267110000082
如果χ=1,将该测试点样本划为周围全是多数类类型,对该类型的测试点选择偏向多数类的原始模型RF1进行预测;如果
Figure BDA0002846267110000083
将该测试点样本划为周围大量多数类类型,对该类型的测试点选择偏向***边界的混合模型RF进行预测;如果
Figure BDA0002846267110000084
将该测试点样本划为周围少量多数类类型,对该类型的测试点选择局部域加强和削弱模型RF2进行预测,最后综合所有模型的决策树结果,通过硬投票得出最终分类结果Lable:
Figure BDA0002846267110000091
其中I()为指示函数,
Figure BDA0002846267110000092
表示Lable(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个决策树结果,x表示测试点,y表示两个类别,包括少数类0和多数类1,1表示磁盘预测正常概率大,0表示磁盘预测故障概率大,据此得出测试样本的实际磁盘预测状态。
算法2为步骤103的模型动态选择的伪代码:
Figure BDA0002846267110000093
Figure BDA0002846267110000101
算法3为基于不平衡集成二分类的磁盘故障预测方法的伪代码:
Figure BDA0002846267110000102
Figure BDA0002846267110000111
表一是本发明实施例给出基于不平衡集成二分类的磁盘故障预测方法所应用的公开数据集,描述了数据集的详细信息,包括特征数、数据分布(多数类样本数目,少数类样本数目)和不平衡率(多数类样本数目与少数类样本数目的比值),表二是本发明实施给出磁盘数据所筛选的SMART属性列表。
表一
Figure BDA0002846267110000112
表二
Figure BDA0002846267110000113
Figure BDA0002846267110000121
表三是本发明实施例给出基于不平衡集成二分类的磁盘故障预测方法解决10例公开数据集的分类以及磁盘的故障预测时,F-measure值(少数类查全率与查准率调和平均值)的对比实验结果,其中,本发明实施例中对比方法是典型解决不平衡二分类问题的RUSboost、SMOTEboost、EasyEnsemble、BalancedBagging、BRAF、DTE-SBD六种方法。由表三可以得出,本发明所提出的方法DPHS-MDS在公开数据集和磁盘数据集中相比于对比方法在F-measure值上有明显提高。特别的,提出方法在10组数据集和磁盘数据集的平均结果上具有明显提升,表明磁盘故障预测性能提升明显。本发明实施例所提出的方法在对磁盘故障预测方面取得了一定突破。
表三
Figure BDA0002846267110000122
综上所述,本发明实施例具有以下有益效果:
本发明实施的技术方案中,对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。根据本发明实施例提供的技术方案,可以有效解决正、异常样本数量不均衡下磁盘故障预测难度大的问题,通过调整数据分布生成不同分类模型以改善不平衡分类的性能,提高基于机器学习的磁盘故障预测能力。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (4)

1.一种基于不平衡集成二分类的磁盘故障预测方法,其特征在于,所述方法步骤包括:
(1)对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集;
(2)将磁盘原始数据集和平衡数据集输入RF算法进行机器学习,分别训练出偏向多数类的原始模型和局部域加强和削弱模型,集成两种模型获得偏向***边界的混合模型;
(3)根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态。
2.根据权利要求1所述的方法,其特征在于,对磁盘的SMART数据进行采样,选取与磁盘故障相关的状态特征作为原始数据集,通过数据分区混合采样获得平衡数据集,具体说明如下:对磁盘数据进行跳变分析和值域分析,选取与磁盘故障相关且熵值较大的特征,收集其特征值作为原始数据集D,首先将原始数据集D中标记为正常和故障的数据分为多数类集Dmaj和少数类集Dmin,定义边界区Dborder、少数类噪声区Ddanger-、少数类安全区Dsafe-、多数类安全区Dsafe+并初始化四个区域为空集,+表示多数类样本,-表示少数类样本,然后遍历少数类集Dmin,少数类集Dmin包括少数类样本xi,i=1,2,...,Nmin,Nmin为少数类集样本数目,通过kNN算法寻找每个少数类样本的k个最近邻居点并统计邻居点中少数类样本的数目Ni-,i=1,2,...,Nmin,其中k=13,并将邻居点中多数类样本存储到边界区Dborder中,计算少数类邻域中的多数类占比
Figure FDA0002846267100000011
如果Γ=0,将该少数类样本加入到少数类噪声区Ddanger-;如果Γ∈(0,1),将该少数类样本及其邻域中多数类样本加入到边界区Dborder;如果Γ=1,将该少数类样本加入到少数类安全区Dsafe-;剩余训练集D的样本加入到多数类安全区Dsafe+,训练集D剔除少数类噪声区Ddanger-获得过滤集Dfilter,统计边界区Dborder的样本数目Nborder,包括少数类样本数目m和多数类样本数目n,在少数类样本xi中找出属于边界区Dborder的少数类样本xborder_i,i=1,2,...,m,统计每个xborder_i邻域中多数类样本个数Ni+,i=1,2,...,m,计算边界区域需要合成的样本数G=(m+n)×b-m,b∈[0.5,1],其中b为合成比例因子,取b=1时,合成后少数类样本数目和多数类样本数目保持平衡,其数目为原来总样本个数,对于每个边界区少数类样本xborder_i,计算k个近邻样本点中属于多数类样本的比例,记作
Figure FDA0002846267100000021
根据每个少数类邻域的多数类占比与其总和的比值生成权值
Figure FDA0002846267100000022
对边界区的每个少数类样本计算合成数目gi=wi×G,i=1,2,...,m,通过SMOTE方法在边界区每个少数类样本周围合成gi个少数类样本,将合成的少数类样本加入边界区Dborder获得边界区过采样集Dborder过,将多数类安全区Dsafe+的样本聚成
Figure FDA0002846267100000023
个簇,其中Nsafe+为多数类安全区Dsafe+的样本数目,对每个簇进行随机欠采样,采样个数为该簇样本数目的一半,得到多数类安全区欠采样集Dsafe+欠,剔除少数类噪声区Ddanger-,保留少数类安全区样本Dsafe-,最终获得平衡数据集Dbalance=Dsafe-+Dsafe+欠+Dborder过
3.根据权利要求1所述的方法,其特征在于,将磁盘原始数据集和平衡数据集输入RF算法进行机器学***衡训练集D训练获得偏向多数类的原始模型RF1,其中森林大小s=100;通过平衡数据集Dbalance训练获得局部域加强和削弱模型RF2,其中森林大小s=100;将偏向多数类的原始模型RF1和局部域加强和削弱模型RF2的所有基分类器集成获得偏向***边界的混合模型RF,其中森林大小s=200,模型比率q=0.5。
4.根据权利要求1所述的方法,其特征在于,根据放入原始磁盘数据集近邻的不平衡程度,自适应地选择三种模型,所获分类概率用来预测磁盘故障状态,具体说明为:给定测试集T,通过kNN算法寻找每个测试点放入原始磁盘数据中的近邻并统计其中多数类个数Ti+,计算测试点近邻的不平衡程度
Figure FDA0002846267100000031
如果χ=1,将该测试点样本划为周围全是多数类类型,对该类型的测试点选择偏向多数类的原始模型RF1进行预测;如果
Figure FDA0002846267100000032
将该测试点样本划为周围大量多数类类型,对该类型的测试点选择偏向***边界的混合模型RF进行预测;如果
Figure FDA0002846267100000033
将该测试点样本划为周围少量多数类类型,对该类型的测试点选择局部域加强和削弱模型RF2进行预测,最后综合所有模型的决策树结果,通过硬投票得出最终分类结果Lable:
Figure FDA0002846267100000034
其中I()为指示函数,
Figure FDA0002846267100000035
表示Lable(x)取最大值时测试样本对应的预测类别,ht(x)表示第t个决策树结果,x表示测试点,y表示两个类别,包括少数类0和多数类1,1表示磁盘预测正常概率大,0表示磁盘预测故障概率大,据此得出测试样本的实际磁盘预测状态。
CN202011510541.0A 2019-12-23 2020-12-18 一种基于不平衡集成二分类的磁盘故障预测方法 Pending CN112465153A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019113399883 2019-12-23
CN201911339988.3A CN111091201A (zh) 2019-12-23 2019-12-23 一种基于数据分区混合采样的不平衡集成分类方法

Publications (1)

Publication Number Publication Date
CN112465153A true CN112465153A (zh) 2021-03-09

Family

ID=70395790

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201911339988.3A Pending CN111091201A (zh) 2019-12-23 2019-12-23 一种基于数据分区混合采样的不平衡集成分类方法
CN202011510541.0A Pending CN112465153A (zh) 2019-12-23 2020-12-18 一种基于不平衡集成二分类的磁盘故障预测方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201911339988.3A Pending CN111091201A (zh) 2019-12-23 2019-12-23 一种基于数据分区混合采样的不平衡集成分类方法

Country Status (1)

Country Link
CN (2) CN111091201A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113434401A (zh) * 2021-06-24 2021-09-24 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法
CN113591896A (zh) * 2021-05-18 2021-11-02 广西电网有限责任公司电力科学研究院 一种电网攻击事件分类检测方法

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法
CN112364706A (zh) * 2020-10-19 2021-02-12 燕山大学 一种基于类不平衡的小样本轴承故障诊断方法
CN112365060B (zh) * 2020-11-13 2024-01-26 广东电力信息科技有限公司 电网物联感知数据的预处理方法
CN112508243B (zh) * 2020-11-25 2022-09-09 国网浙江省电力有限公司信息通信分公司 电力信息***多故障预测网络模型的训练方法及装置
CN112800917B (zh) * 2021-01-21 2022-07-19 华北电力大学(保定) 一种断路器不平衡监测数据集过采样方法
CN112836735B (zh) * 2021-01-27 2023-09-01 中山大学 一种优化的随机森林处理不平衡数据集的方法
CN112633426B (zh) * 2021-03-11 2021-06-15 腾讯科技(深圳)有限公司 处理数据类别不均衡的方法、装置、电子设备及存储介质
CN114612255B (zh) * 2022-04-08 2023-11-07 湖南提奥医疗科技有限公司 一种基于电子病历数据特征选择的保险定价方法
CN114969669B (zh) * 2022-07-27 2022-11-15 深圳前海环融联易信息科技服务有限公司 数据平衡度处理方法、联合建模***、设备和介质
CN115374858B (zh) * 2022-08-24 2024-05-14 东北大学 基于混合集成模型的流程工业生产品质的智能诊断方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109359704A (zh) * 2018-12-26 2019-02-19 北京邮电大学 一种基于自适应平衡集成与动态分层决策的多分类方法
CN111091201A (zh) * 2019-12-23 2020-05-01 北京邮电大学 一种基于数据分区混合采样的不平衡集成分类方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591896A (zh) * 2021-05-18 2021-11-02 广西电网有限责任公司电力科学研究院 一种电网攻击事件分类检测方法
CN113434401A (zh) * 2021-06-24 2021-09-24 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法
CN113434401B (zh) * 2021-06-24 2022-10-28 杭州电子科技大学 基于样本分布特征和spy算法的软件缺陷预测方法

Also Published As

Publication number Publication date
CN111091201A (zh) 2020-05-01

Similar Documents

Publication Publication Date Title
CN112465153A (zh) 一种基于不平衡集成二分类的磁盘故障预测方法
CN108986869B (zh) 一种使用多模型预测的磁盘故障检测方法
CN111695626B (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN104503874A (zh) 一种云计算平台的硬盘故障预测方法
CN107168995B (zh) 一种数据处理方法及服务器
CN105760889A (zh) 一种高效的不均衡数据集分类方法
CN112214369A (zh) 基于模型融合的硬盘故障预测模型建立方法及其应用
CN112951311B (zh) 一种基于变权重随机森林的硬盘故障预测方法及***
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN111881289B (zh) 分类模型的训练方法、数据风险类别的检测方法及装置
CN103941131A (zh) 基于精简集约简不均衡svm变压器故障检测方法
CN112365060B (zh) 电网物联感知数据的预处理方法
KR102144010B1 (ko) 불균형 데이터를 위한 리프리젠테이션 모델 기반의 데이터 처리 방법 및 장치
CN114756420A (zh) 故障预测方法及相关装置
CN116582300A (zh) 基于机器学习的网络流量分类方法及装置
CN112699936B (zh) 一种电力cps广义虚假数据注入攻击识别方法
CN110673997B (zh) 磁盘故障的预测方法及装置
CN110991241B (zh) 异常识别方法、设备及计算机可读介质
CN115438239A (zh) 一种自动化异常样本筛选的异常检测方法及装置
CN115545111B (zh) 一种基于聚类自适应混合采样的网络入侵检测方法及***
Zhihao et al. Comparison of the different sampling techniques for imbalanced classification problems in machine learning
CN111782904A (zh) 一种基于改进smote算法的非平衡数据集处理方法及***
CN110969483A (zh) 一种识别商户位置的方法、装置及电子设备
CN111381990B (zh) 一种基于流特征的磁盘故障预测方法及装置
CN109087300B (zh) Led芯片支架故障自动检测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210309

WD01 Invention patent application deemed withdrawn after publication