CN104809226A - 一种早期分类不平衡多变量时间序列数据的方法 - Google Patents

一种早期分类不平衡多变量时间序列数据的方法 Download PDF

Info

Publication number
CN104809226A
CN104809226A CN201510229367.5A CN201510229367A CN104809226A CN 104809226 A CN104809226 A CN 104809226A CN 201510229367 A CN201510229367 A CN 201510229367A CN 104809226 A CN104809226 A CN 104809226A
Authority
CN
China
Prior art keywords
data
feature
time series
sub
variable
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510229367.5A
Other languages
English (en)
Other versions
CN104809226B (zh
Inventor
何国良
段勇
李元香
周国富
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510229367.5A priority Critical patent/CN104809226B/zh
Publication of CN104809226A publication Critical patent/CN104809226A/zh
Application granted granted Critical
Publication of CN104809226B publication Critical patent/CN104809226B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种早期分类不平衡多变量时间序列数据的方法。首先,针对类间数据规模不平衡问题,根据不平衡性比例,将大类类别数据集欠采样划分为多个子集,分别与小类类别数据组合构成多个子训练集。其次,对各子训练集进行核特征的提取与选择,并以核特征构建基于规则的子分类器。其中,为了解决类内子概念的数据规模不平衡问题,特征选择过程采用聚类实现,以保证核特征的多样性。最后,基于各子分类器,以子分类器对训练集中数据的分类效果求取权重,构建集成分类器。本发明的该分类器能够针对不平衡数据集的多变量时间序列分类问题,达到较高的准确率与较好的早期度。

Description

一种早期分类不平衡多变量时间序列数据的方法
技术领域
本发明属于时间序列的数据挖掘技术领域,具体涉及一种早期分类不平衡多变量时间序列数据的方法。
背景技术
近年来,在时间序列挖掘领域中,多变量时间序列数据分类问题已经成为一大热点,广泛应用于多媒体、医学、制造工业、金融应用等领域。由于时间序列本身是时间敏感的,使得***时间序列数据的类别尤为重要,应用于医学、工业、商业和军事等领域,有着非常重要的作用。如医学上对于某些疾病的分析,若在监测心电图、脑电图等时间序列数据的过程中尽早判断其异常情况,能实现对相关疾病的尽早诊断和有效治疗。
针对于单变量时间序列的早期分类问题,Zhengzheng Xing等在【文献1】中深入研究了最近邻个体间关联的稳定性,提出了一种基于1-NN的早期分类方法。为了深入研究分类过程的可解释性,他们提出了提取早期特征用于构建分类器的方法。
针对于多变量时间序列的早期分类问题,Mohamed F Ghalwash在【文献2】中提出了多变量特征的概念(Multivariate shapelet),它由所有变量时间序列中相同时间段的子序列构成;以加权信息增益作为特征性能的评价标准,提出了基于提取多变量特征进行早期分类的方法技术。在此基础上,提出了基于各变量分别提取特征,挖掘时间相关可解释的模式用于提前分类。
Guoliang He等在【文献3】中提出了核特征的概念,即以多变量时间序列各个变量的特征作为核特征,扩展F_measure的概念,以Precision、Recall、Earliness作为特征性能的评价标准,提取并选择核特征,以核特征进行分类器的构建用于***多变量时间序列。
上述文献中的方法,并没有在不平衡时间序列数据中进行探讨,其原因在于上述方法中假设训练数据集是平衡的,从而导致不平衡数据的分类研究没有得到足够的重视。而且,时序数据的高维度特性,使得对不平衡时序数据的研究难度更大。然而,现实中存在大量不平衡时序数据集。比如医学中,病变导致的人体特征时序数据量相对于正常人的人体特征时序数据量而言,其不平衡性显而易见。幸运的是,已有部分学者对不平衡时间序列分类进行了相关研究。
Suzan等人在【文献4】中提出了一种新的方法,通过在距离空间中对小类数据进行合成***,使得数据达到平衡。Hong Cao等提出一种新的方法SPO,即基于协方差结构的保持,结合支持向量机的方式,对小类数据集进行过采样。在此基础上,Hong Cao等人继续提出了一种加强的结构保持过采样方法ESPO,与基于***的过采样相结合,用于处理不平衡时序分类。
为了对比分析过采样、欠采样技术对于处理不平衡时序分类的效果,GuohuaLiang等人在【文献5】中采样不同的有监督学***衡数据。
然而,在已有的研究中并未对不平衡时序数据分类的***进行探究。
【文献1】:Zhengzheng Xing,Jian Pei,Philip S Yu.Early prediction on timeseries:a nearest neighbor approach,IJCAI 2009;Zhengzheng Xing,Jian Pei,Philip S.Yu,Ke Wang.Extracting interpretable features for early classification on time series,SDM 2011。
【文献2】:Mohamed F Ghalwash,Zoran Obradovic.Early classification ofmultivariate temporal observations by extraction of interpretable shapelets,BMCBioinformatics 2012;Mohamed F Ghalwash,Vladan Radosavljevic,Zoran Obradovic.Extraction of Interpretable Multivariate Patterns for Early Diagnostics,ICDM 2013.
【文献3】:Guoliang He,Yong Duan,Guofu Zhou,Lingling Wang.EarlyClassification on Multivariate Time Series with Core Features,DEXA 2014;GuoliangHe,Yong Duan,Rong Peng,Xiaoyuan Jing,Tieyun Qian,Lingling Wang.Earlyclassification on multivariate time series,Neurocomputing 149(2015)777-787.
【文献4】:Suzan Longin Jan Latecki.Improving SVMclassification on imbalanced time series data sets with ghost points,Knowledgeinformation system,2011;Hong Cao,XiaoLi li,YewKwong Woon,SeeKiong Ng.SPO:Structure preserving oversampling for imbalanced time series classification,ICDM2011;Hong Cao,Xiao-Li Li,Yew-Kwong WOON,See-Kiong NG.Integratedoversampling for imbalanced time series classification,IEEE Transactions onknowledge and data engineering,2013。
【文献5】:Guohua Liang,Chengqi Zhang.A comparative study of samplingmethods and algorithms for imbalanced time series classification,AI,LNCS,2012;Guohua Liang.An effective method for imbalanced time series classification:hybridsampling,AI,Lecture notes in computer science,2013。
发明内容
为了克服上述现有技术的不足,本发明提供了一种早期分类不平衡多变量时间序列数据的方法。
本发明所采用的技术方案是:一种早期分类不平衡多变量时间序列数据的方法,其特征在于,包括以下步骤:
步骤1:根据大类数据与小类数据在训练数据集中数据规模的不平衡比例K,对训练数据集进行子训练集的划分,其中大类、小类分别指训练数据集中数据规模大、小的类别;以不平衡比例K作为参数将训练数据集中大类数据欠采样划分为K个子集,分别与小类数据组合构成相应的子训练集,得K个子训练集S1...SK
步骤2:对子训练集S1...SK,分别构建基于规则的子分类器C1...CK
步骤3:计算子分类器Ci在训练数据集中的准确率Ai(1≤i≤k),依据此计算子分类器集成过程中的权重:然后,以权重集成子分类器,对多变量时间序列数据X进行类别预测
作为优选,步骤2中对子训练集Si,构建基于规则的子分类器,其具体实现过程包括以下子步骤:
步骤2.1:对训练数据集中多变量时间序列数据,由于不同子训练集中的小类数据一样,容易导致各子分类器中小类数据的规则类似,为了保证子分类器的差异性,随机选择多于一半变量数目的变量,得变量子空间集合V,同时降低变量维度以减少计算时间复杂度;
步骤2.2:对多变量时间序列在变量集合V中的变量Vj,提取对应时间序列的子序列作为特征,获得候选特征集Fj
步骤2.3:对于各变量Vj,对其候选特征集Fj聚类,并选择各簇中的核特征形成变量Vj的核特征集FSj,它能有效避免类内某些稀有子概念特征在特征选择过程中出现遗漏的现象;其中,类内子概念是指同一类别数据中存在多种不同的子模式;
步骤2.4:计算多变量时间序列的核特征集FS;
FS = ∪ j = 1 | V | FS j ;
其中:|V|表示V中选择变量数目;
步骤2.4:根据FS构建子分类器Ci
作为优选,步骤2中所述的构建子分类器,具体实现过程是基于变量子空间V中变量的核特征集和指定的约束条件,产生规则集,规则是由一个或者多个特征构成,其中每个特征属于不同变量;基于规则集,预测多变量时间序列的类别。
作为优选,步骤2.2中所述的获得候选特征集Fj,其具体实现过程为:对多变量时间序列在变量集合V中的变量Vj,在变量Vj所对应的时间序列中,提取其子序列作为候选特征,计算候选特征与训练集中时间序列数据样本之间的相似性距离,并基于其核密度分布确定候选特征的阈值。为确保特征能表示相应变量时间序列的本质特性,从候选特征中选择精准度(Precision)达到预定值的候选特征,构成变量Vj的候选特征集Fj
作为优选,所述的基于候选特征与各样本的相似性距离,基于其核密度分布获取候选特征的阈值,其候选特征f的阈值δ求取方法为:首先,采用欧氏距离法求候选特征f与训练数据集中时间序列数据样本的相似性距离;为解决两者不等长的问题,采用滑动窗口法,即以特征的长度为窗口,从时间序列起点开始滑动取得所有长度为窗口的子序列,依次度量所有子序列和该候选特征的相似性,取最优值作为该候选特征与对应变量时间序列的相似性距离;其次,对候选特征f与所有样本对应变量时间序列的相似性距离列表进行排序,按序取相邻值的中点得到若干候选阈值,并基于相似性距离,以核密度分布选取满足密度估计概率要求的最大候选阈值作为候选特征f的阈值δ。
作为优选,步骤2.4中所述的计算多变量时间核特征集FS,其具体实现过程为:将变量Vj的候选特征集Fj按类别分别聚类得到若干个簇,从簇中选取性能最佳的特征为核特征,构成变量Vj的核特征集;将变量子空间V中变量的核特征集的并集,作为多变量时间序列的核特征集FS。
本发明针对不平衡多变量时间序列的特点,提出了一种以平衡子训练集构建基于核特征的规则子分类器,再集成子分类器***多变量时间序列的有效方法。通过所构建的集成分类器对多个不平衡多变量时间序列数据进行分类与分析,能够有效解决不平衡多变量时间序列的分类问题,并得到较高的准确率和较好的早期度。与现有技术相比,本发明的有益效果为:
(1)解决了多变量时间序列早期分类中训练数据不平衡问题;
(2)提出了一种有效的特征提取选择方法,加强了分类器的可解释性和训练数据内在特性的可视性;
(3)对于类间不平衡问题,采用多重欠采样,构建平衡子训练集以平衡化数据规模,并以动态变量子空间的方式增强各子分类器的差异性;
(4)对于类内不平衡问题,特征选择过程采用聚类实现,以获取类内不同子概念的特征。类内子概念是指同一类别数据中存在的多种模式,如医学中心电图异常类中包括多种不同疾病的情况;
(5)基于多重欠采样技术生成多个子训练集,并构建相应子分类器,集成子分类器用于***多变量时间序列数据类别。通过实验验证本发明所提方法和算法的正确性和有效性,实验结果表明本发明的分类器在数据不平衡的情况下能够达到较高的准确率与较好的早期度。
附图说明
图1:为本发明实施例针对不平衡多变量时间序列构建分类器的方法流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
本发明针对早期预测不平衡多变量时间序列分类问题,提出了结合欠采样与变量子空间构建子分类器,再集成子分类器的有效方法。通过对训练集中大类类别数据进行欠采样,与小类类别数据组合构成多个子训练集,对子训练集在随机变量子空间中的变量进行核特征的提取与选择,构建基于核特征的规则子分类器,并集成子分类器用于预测多变量时间序列类别。
本发明实施例以Wafer数据集为具体实例,共2个类别(分别记为小类与大类),数据变量数目为6,即包括6个变量的时间序列。训练数据集含600个数据样本,测试数据集含594个数据样本。为了减弱时间序列数据的缩放和偏移对度量其相似性的影响,实施例采用z-score方法对Wafer训练数据集中数据样本的各变量时间序列进行规范化。
如图1所示,基于以上Wafer数据集,本实施例提供的一种早期分类不平衡多变量时间序列数据的方法,包括以下步骤:
步骤1:根据大类数据与小类数据在训练数据集(以下简称训练集)中数据规模的不平衡比例K,对训练集进行子训练集的划分,其中大类、小类分别指训练集中数据规模大、小的类别;根据不平衡比例K将训练集中大类数据欠采样划分为K个子集,分别与小类数据组合构成相应的子训练集,得K个子训练集S1...SK
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议特征提取实现伪代码如下:
在子训练集生成过程中,各符号说明:Algorithm 1表示本发明的算法1,Subset Generation为算法1的名称,即子训练集生成,Input、Output分别表示算法1的输入、输出,D表示多变量时间序列的训练集,N+、N-分别表示训练集中大类和小类的数据量,D+、D-分别表示D中的大类数据和小类数据。Di表示大类的第i个子集,Si表示第i个子训练集。
算法流程:算法1的流程是将训练集D划分为K个子训练集,因此首先求取大类与小类的数据规模不平衡比例K,见行1;根据K将训练集中大类数据D+划分为K个子集D1,D2,...,DK,见行2;然后,将大类数据的子集Di与小类数据D-进行合并,得到子训练集Si,见行3~5;最后,返回所有子训练集,见行6。
步骤2:对子训练集Si,构建基于规则的子分类器,其具体实现过程包括以下子步骤:
步骤2.1:对训练数据集中多变量时间序列数据,由于不同子训练集中的小类数据一样,容易导致各子分类器中小类数据的规则类似,为了保证子分类器的差异性,随机选择多于一半变量数目的变量,得变量子空间集合V,同时降低变量维度以减少计算时间复杂度;
步骤2.2:对多变量时间序列在变量集合V中的变量Vj,提取对应时间序列的子序列作为特征,获得候选特征集Fj
步骤2.3:对于各变量Vj,对其候选特征集Fj聚类,并选择各簇中的核特征形成变量Vj的核特征集FSj,它能有效避免类内某些稀有子概念特征在特征选择过程中出现遗漏的现象;其中,类内子概念是指同一类别数据中存在多种不同的子模式;
步骤2.4:计算多变量时间序列的核特征集FS;
FS = ∪ j = 1 | V | FS j ;
其中:|V|表示V中的变量数目;
步骤2.4:根据FS构建子分类器Ci
本实施例随机选择(M+2)/2个变量,得变量集合V,M表示多变量时间序列的变量数目。对变量集合V中的变量,在其对应的时间序列中,提取子序列产生候选特征集,计算候选特征与训练集中时间序列数据样本之间的相似性距离,并基于其核密度分布确定候选特征的阈值。为确保特征能表示相应变量时间序列的本质特性,从候选特征集中选择精准度(Precision)达到预定值的候选特征,构成变量的候选特征集Fj
特征提取。对训练集中样本在变量集合V中的变量,在其所对应的时间序列中,提取子序列作为侯选特征,建议提取子序列的长度范围为3至L/3,L为多变量时间序列的长度。
实施例为了提取Wafer数据的候选特征集,针对Wafer训练集中数据样本,在变量集合V中变量对应的时间序列中,进行子序列的生成、即候选特征的提取。其中,候选特征的长度从3递增到Wafer数据时间序列长度的1/3。候选特征f以符号f(s,δ,c)表示,其中s表示子序列段,δ表示阈值,c表示候选特征f的类别,与产生s的时间序列类别一致。
在候选特征的阈值选取时,为保证其分类精准度Precision较高,以提取局部特征解决类内子概念不平衡性问题,基于候选特征与训练集中所有样本的相似性距离,采用核密度分布确定候选特征的阈值。实施例为了确定侯选特征的阈值,须先计算候选特征与训练集中时间序列数据样本的相似性距离。候选特征f的阈值δ求取方式如下,首先,求候选特征f与训练集中时间序列样本中对应变量时间序列的相似性距离。由于欧氏距离法的计算简单且有效,此处采用欧氏距离法度量两者的相似性距离。为了解决两者不等长的问题,可采用滑动窗口法,即以特征的长度为窗口,从时间序列起点开始滑动,取得所有长度为窗口的子序列,依次度量所有子序列和该候选特征的相似性,取最优值作为该候选特征与对应变量时间序列的相似性距离。其次,对候选特征f与所有样本对应变量时间序列计算所得的相似性距离进行排序,按序取相邻值的中点得到若干候选阈值,并基于相似性距离,以核密度分布选取满足密度估计概率要求的最大候选阈值作为候选特征f的阈值δ。
为便于实施参考起见,提供候选特征f的阈值δ求取方法具体实现说明如下:
设定训练集中某变量的数据样本(x1,x2,x3,x4,x5,x6),计算与f的相似性距离,分别为(d1,d2,d3,d4,d5,d6),对于满足候选阈值的数据xi,计算xi在类别k的相似性距离中的密度估计分布值并以此计算得到一个概率值:其中C(xi)表示数据xi的类别,pk表示类别k的先验概率,即类别k在训练集中所占的比例,|C|表示类别数目,表示数据xi在类别k的相似性距离中的概率密度分布估计值。的估计采用核密度估计方法,具体实现为,假定一系列随机数据(y1,y2,...,yN)服从的概率分布为f(Y),则核密度估计公式为:其中K是核函数,h是平滑因子,本实施例中,核函数与平滑因子分别取为: K ( y - y i h ) = 1 2 π e - ( y - y i ) 2 2 h 2 , h = 1.06 σ N - 1 5 , 其中σ是(y1,y2,...,yN)的标准差。
对(d1,d2,d3,d4,d5,d6)进行升序排序,以相邻值的中点作为候选阈值,则训练集数据样本(x1,x2,x3,x4,x5,x6)中,与特征f的相似性距离小于候选阈值的数据x,其概率估计P(C(x)=c|X=x)须大于等于概率阈值β,本文设定为0.95。选取满足上述条件的最大候选阈值作为候选特征的阈值δ。如果候选特征的所有候选阈值,都不满足上述条件,则丢弃该候选特征。
在特征提取过程中,提前对部分冗余特征进行删除,具体实现为:对同一数据样本中提取的候选特征,存在包含关系的候选特征仅保留其中之一,包含关系是指对于两个候选特征f1(s11,c)与f2(s22,c),其中s1是s2的子序列,或者s2是s1的子序列。以F-measure作为评价,保留其中F-measure值较优的候选特征。
F-measure(f)=2/(1/Precision(f)+1/Recall(f)),Precision与Recall分别表示精准度与召回率。其中,候选特征f的精准度Precision(f)、召回率Recall(f)计算公式如下:
其中,s是多变量时间序列中某一变量对应的时间序列,f代表候选特征,δ是候选特征f的阈值,c表示其类别,Dis(s,f)表示s与候选特征f的相似性距离,class(s)表示s的类别。F-measure(f)为候选特征f(s,δ,c)的评价结果。
通过上述过程,Wafer数据训练集中,对变量集合V中的变量Vj,已经提取对应时间序列样本的子序列作为候选特征,并构成候选特征集,而且求得候选特征的阈值δ。由于候选特征f(s,δ,c)并不能保证体现时间序列的本质特性,为了保证特征对时间序列的本质特性的可体现性,从候选特征集中摒弃精准度Precision小于0.8的候选特征。其中未被摒弃的候选特征构成特征集Fj,则得到Wafer数据|V|个变量的特征集,Wafer数据训练集的特征集F即为V中变量特征集的并集,即
具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议特征提取实现伪代码如下:
在特征提取过程中,各符号说明:Algorithm 2表示本发明的算法2,FeatureExtraction为算法2的名称,即特征提取,Input、Output分别表示算法2的输入、输出,D表示多变量时间序列的训练集,t表示随机选择变量子空间中的变量,Ft表示通过算法2所提取的变量t的候选特征集,Dt表示变量t的时间序列训练集,d表示训练集Dt中的一个样本,length(d)表示时间序列样本d的长度,minLen和maxLen分别表示候选特征长度的下界、上界,f(d(start_pos,Len),δ,class(d))中d(start_pos,Len)表示候选特征f是时间序列样本d的子序列,其中以start_pos为起点,长度为Len,δ表示f的阈值,class(d)即时间序列样本d的类别,代表f的类别。
算法流程:由于本发明是对随机选择变量子空间中的变量,分别进行特征集的求取,算法2的流程主要是对于某个变量t提取候选特征集,因此首先将包含多变量时间序列的训练集D中变量t的时间序列训练集选择出来,见行2;然后,对于变量t的训练集Dt进行候选特征集Ft的提取,见行3~13;其中,对于候选特征的阈值δ进行求取,具体实施时可以采用相应函数求取,实施例记为函数feature_threshold(start_pos,Len,δ),函数中对阈值δ的选择,基于候选特征与训练集中时间序列数据样本的相似性距离,以核密度分布确定其阈值δ。其中start_pos表示候选特征f在相应变量时间序列中的起点位置,Len表示候选特征f的长度。在函数feature_threshold(start_pos,Len,δ)中,对候选特征的精准度Precision进行判断,满足0.8,则可以作为特征,返回为真。否则该候选特征不能作为特征被提取,返回false。见行7~9。
特征选择。第一,在特征提取过程中,提前对部分冗余特征进行删除,即对于属于同一数据样本中的特征,仅保留存在包含关系的候选特征中的一个,以F-measure作为评价,选择其F-measure值较优的特征。第二,对Wafer数据随机变量子空间V中变量的特征集,采用申请号为201210507502的发明专利中的发明内容中步骤2方法Feature Selection进行核特征的选择,得到核特征集FS1,FS2,FS3,FS4
构建分类器。根据步骤2上所述特征提取与特征选择过程,得到多变量时间序列的核特征集,构建分类器,用于预测多变量时间序列的类别。
经过以上步骤,已经得到Wafer数据子训练集的核特征集,即变量子空间中变量的核特征集本发明采用一种基于核特征构建规则分类器的方法,即简单又有效,具体过程分别如下所示:
基于规则的分类器,采用申请号为201210507502的发明专利中的发明内容中步骤3方法(ii),即Rule Build,得到子训练集的规则集,分别为RS1,RS2,...,RSK,与该专利中有所区别的是,本实施例中用于构建规则集的变量为随机变量子空间中的变量,因此以Wafer为实施例所构建的规则中至多包含4(子空间变量数目)个特征,至少一个。从而根据规则集RS1,RS2,...,RSK构建子分类器C1,C2,...,CK
步骤3:计算子分类器Ci在训练集中的准确率Ai(1≤i≤k),依据此计算子分类器集成过程中的权重:然后,以权重集成子分类器,对多变量时间序列数据X进行类别预测
本专利具体实施时,本发明技术人员可以自行设计相应运行流程。为便于实施参考起见,提供建议本专利集成分类器实现伪代码如下:
在集成分类器构建过程中,各符号说明::Algorithm 3表示本发明的算法3,Classifier Construction为算法3的名称,即集成分类器构建,Input、Output分别表示算法3的输入、输出,D表示多变量时间序列的训练集,C表示集成分类器,Ci表示第i个子训练集构建的子分类器。Ai表示Ci对训练集进行分类时的分类准确率,Wi表示Ci的权重。X表示一个用于测试的多变量时间序列。
算法流程:算法3的流程是以多个子分类器构建一个集成分类器,用于预测多变量时间序列的类别。首先计算集成过程中子分类器Ci对训练集的准确率Ai,见行1~3;根据子分类器的准确率Ai计算相应权重Wi,见行4~6;根据权重集成各子分类器,并返回,见行7。
对于Wafer训练数据集中未知类别Wafer数据的预测前,为了减弱时间序列数据的缩放和偏移对相似性度量的影响,同样需要对待预测Wafer数据进行规范化。然而由于要对Wafer数据实现早期分类,因此对于待预测Wafer数据的规范化采取局部规范化的方式实现,即将各变量时间序列中需要与核特征进行相似性度量的子序列采用z-score方法进行局部规范化。然后采用步骤3中所构建的集成分类器对其类别进行判定。
综上所述,本发明提出一种早期分类不平衡多变量时间序列数据的方法。首先,为了平衡数据规模的比例,将训练集划分为多个平衡子训练集;其次,对平衡子训练集进行核特征的提取与选择;然后,基于平衡子训练集的核特征集,构建规则子分类器;最后,集成各子分类器,用于***多变量时间序列的类别。
通过实验,验证了本发明所提方法的有效性。实验采用设备为主频3.6GHz的Inetl Core i7-4790CPU,主存为8G的个人电脑,实验平台为Microsoft VisualStudio 2010,实现算法的编程语言为C++。本文通过在上述环境中,针对Wafer、ECG数据集进行算法实现,以Wafer数据为例,训练集包含600个数据样本,其中小类60个,大类540个,即不平衡比例为9,测试数据集包含594个数据样本,其中小类67个,大类527个。则分类器构建过程为:将训练集中大类数据欠采样划分为9个子集,分别与小类数据组合构成9个子训练集,对于子训练集以步骤2中方法构建子分类器,再采用步骤3中的方式将子分类器集成,以集成分类器对测试集中数据进行分类,并计算分类准确率与早期度;ECG数据训练集包含120个数据样本,其中小类30个,大类90个,即不平衡比例为3,测试数据包含80个数据样本,其中小类37个,大类43个。实验过程与Wafer数据集实验过程一致。Wafer数据集实验结果呈现为:准确率达到0.96,早期度达到0.55;ECG数据集实验结果表现为:准确率达到0.84,早期度达到0.63。实验结果表明该分类器在数据不平衡的情况下能够达到较高的准确率与较好的早期度。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种早期分类不平衡多变量时间序列数据的方法,其特征在于,包括以下步骤:
步骤1:根据大类数据与小类数据在训练数据集中数据规模的不平衡比例K,对训练数据集进行子训练集的划分,其中大类、小类分别指训练数据集中数据规模大、小的类别;以不平衡比例K作为参数将训练数据集中大类数据欠采样划分为K个子集,分别与小类数据组合构成相应的子训练集,得K个子训练集S1...SK
步骤2:对子训练集S1...SK,分别构建基于规则的子分类器C1...CK
步骤3:计算子分类器Ci在训练数据集中的准确率Ai(1≤i≤k),依据此计算子分类器集成过程中的权重:然后,以权重集成子分类器,对多变量时间序列数据X进行类别预测
2.根据权利要求1所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2中对子训练集Si,构建基于规则的子分类器,其具体实现过程包括以下子步骤:
步骤2.1:对训练数据集中多变量时间序列数据,由于不同子训练集中的小类数据一样,容易导致各子分类器中小类数据的规则类似,为了保证子分类器的差异性,随机选择多于一半变量数目的变量,得变量子空间集合V,同时降低变量维度以减少计算时间复杂度;
步骤2.2:对多变量时间序列在变量集合V中的变量Vj,提取对应时间序列的子序列作为特征,获得候选特征集Fj
步骤2.3:对于各变量Vj,对其候选特征集Fj聚类,并选择各簇中的核特征形成变量Vj的核特征集FSj,它能有效避免类内某些稀有子概念特征在特征选择过程中出现遗漏的现象;其中,类内子概念是指同一类别数据中存在多种不同的子模式;
步骤2.4:计算多变量时间序列的核特征集FS;
FS = ∪ j = 1 | V | FS j ;
其中:|V|表示V中的变量数目;
步骤2.4:根据FS构建子分类器Ci
3.根据权利要求1或2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2中所述的构建子分类器,具体实现过程为:基于变量子空间V中变量的核特征集和指定的约束条件,产生规则集,规则是由一个或者多个特征构成,其中每个特征属于不同变量;基于规则集,预测多变量时间序列的类别。
4.根据权利要求2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2.2中所述的获得候选特征集Fj,其具体实现过程为:对多变量时间序列在变量集合V中的变量Vj,在变量Vj所对应的时间序列中,提取其子序列作为候选特征,计算候选特征与训练集中时间序列数据样本之间的相似性距离,并基于其核密度分布确定候选特征的阈值。为确保特征能表示相应变量时间序列的本质特性,从候选特征中选择精准度(Precision)达到预定值的候选特征,构成变量Vj的候选特征集Fj
5.根据权利要求4所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:所述的基于候选特征与各样本的相似性距离,基于其核密度分布获取候选特征的阈值,其候选特征f的阈值δ求取方法为:首先,采用欧氏距离法求候选特征f与训练数据集中时间序列数据样本的相似性距离;为解决两者不等长的问题,采用滑动窗口法,即以特征的长度为窗口,从时间序列起点开始滑动取得所有长度为窗口的子序列,依次度量所有子序列和该候选特征的相似性,取最优值作为该候选特征与对应变量时间序列的相似性距离;其次,对候选特征f与所有样本对应变量时间序列的相似性距离列表进行排序,按序取相邻值的中点得到若干候选阈值,并基于相似性距离,以核密度分布选取满足密度估计概率要求的最大候选阈值作为候选特征f的阈值δ。
6.根据权利要求2所述的早期分类不平衡多变量时间序列数据的方法,其特征在于:步骤2.4中所述的计算多变量时间核特征集FS,其具体实现过程为:将变量Vj的候选特征集Fj按类别分别聚类得到若干个簇,从簇中选取性能最佳的特征为核特征,构成变量Vj的核特征集;将变量子空间V中变量的核特征集的并集,作为多变量时间序列的核特征集FS。
CN201510229367.5A 2015-05-07 2015-05-07 一种早期分类不平衡多变量时间序列数据的方法 Expired - Fee Related CN104809226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510229367.5A CN104809226B (zh) 2015-05-07 2015-05-07 一种早期分类不平衡多变量时间序列数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510229367.5A CN104809226B (zh) 2015-05-07 2015-05-07 一种早期分类不平衡多变量时间序列数据的方法

Publications (2)

Publication Number Publication Date
CN104809226A true CN104809226A (zh) 2015-07-29
CN104809226B CN104809226B (zh) 2018-01-12

Family

ID=53694048

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510229367.5A Expired - Fee Related CN104809226B (zh) 2015-05-07 2015-05-07 一种早期分类不平衡多变量时间序列数据的方法

Country Status (1)

Country Link
CN (1) CN104809226B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与***
CN107038330A (zh) * 2016-10-27 2017-08-11 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN107067032A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 数据分类的方法和装置
CN107301562A (zh) * 2017-05-16 2017-10-27 重庆邮电大学 一种o2o优惠券使用大数据预测方法
CN107741867A (zh) * 2017-09-30 2018-02-27 广东欧珀移动通信有限公司 应用程序管理方法、装置、存储介质及电子设备
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN108573059A (zh) * 2018-04-26 2018-09-25 哈尔滨工业大学 一种基于特征采样的时间序列分类方法及装置
CN109161931A (zh) * 2018-10-22 2019-01-08 中南大学 基于shapelet转换的铝电解阳极电流分类方法
CN109214431A (zh) * 2018-08-15 2019-01-15 深圳先进技术研究院 样本训练方法、分类方法、识别方法、装置、介质及***
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110623658A (zh) * 2019-09-24 2019-12-31 京东方科技集团股份有限公司 信号处理方法、信号处理装置、医学设备、存储介质
CN110704616A (zh) * 2019-09-09 2020-01-17 中盈优创资讯科技有限公司 设备告警工单识别方法及装置
CN110946573A (zh) * 2019-11-01 2020-04-03 东软集团股份有限公司 心脏停搏的检测装置、检测模型的训练装置、方法及设备
CN111110224A (zh) * 2020-01-17 2020-05-08 武汉中旗生物医疗电子有限公司 一种基于多角度特征提取的心电图分类方法及装置
CN112016097A (zh) * 2020-08-28 2020-12-01 重庆文理学院 一种预测网络安全漏洞被利用时间的方法
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN113155614A (zh) * 2021-04-25 2021-07-23 张启志 基于相似性判定的混凝土抗压强度检测方法及***
CN113486713A (zh) * 2021-06-02 2021-10-08 广州林猫自然科技有限公司 一种红外相机动物图像识别训练集最佳组合的构建方法
CN114220026A (zh) * 2021-12-30 2022-03-22 杭州电子科技大学 一种基于多分类思想的海面小目标检测方法
CN115270998A (zh) * 2022-09-26 2022-11-01 乐山师范学院 时间序列的有序分类方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319951A1 (en) * 2007-06-19 2008-12-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying time-series data and time-series data processing apparatus
US8019702B1 (en) * 2007-12-07 2011-09-13 Google Inc. Supervised learning with multi-scale time intervals using a statistical classification model to classify unlabeled events
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080319951A1 (en) * 2007-06-19 2008-12-25 Kabushiki Kaisha Toshiba Apparatus and method for classifying time-series data and time-series data processing apparatus
US8019702B1 (en) * 2007-12-07 2011-09-13 Google Inc. Supervised learning with multi-scale time intervals using a statistical classification model to classify unlabeled events
CN102271091A (zh) * 2011-09-06 2011-12-07 电子科技大学 一种网络异常事件分类方法
CN103020643A (zh) * 2012-11-30 2013-04-03 武汉大学 基于提取核特征早期预测多变量时间序列类别的分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GUOLIANG HE 等: "Early classification on multivariate time series", 《NEUROCOMPUTING》 *
李小斌 等: "时间序列早期分类的多分类器集成方法", 《山东大学学报(工学版)》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107038330B (zh) * 2016-10-27 2020-09-08 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN107038330A (zh) * 2016-10-27 2017-08-11 北京郁金香伙伴科技有限公司 一种数据缺失的补偿方法和装置
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与***
CN106529598B (zh) * 2016-11-11 2020-05-08 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与***
CN108229507A (zh) * 2016-12-14 2018-06-29 中国电信股份有限公司 数据分类方法以及装置
CN107067032A (zh) * 2017-03-30 2017-08-18 东软集团股份有限公司 数据分类的方法和装置
CN107067032B (zh) * 2017-03-30 2020-04-07 东软集团股份有限公司 数据分类的方法和装置
CN107301562A (zh) * 2017-05-16 2017-10-27 重庆邮电大学 一种o2o优惠券使用大数据预测方法
CN107741867A (zh) * 2017-09-30 2018-02-27 广东欧珀移动通信有限公司 应用程序管理方法、装置、存储介质及电子设备
CN107741867B (zh) * 2017-09-30 2020-03-10 Oppo广东移动通信有限公司 应用程序管理方法、装置、存储介质及电子设备
CN108573059A (zh) * 2018-04-26 2018-09-25 哈尔滨工业大学 一种基于特征采样的时间序列分类方法及装置
CN108573059B (zh) * 2018-04-26 2021-02-19 哈尔滨工业大学 一种基于特征采样的时间序列分类方法及装置
CN110019421A (zh) * 2018-07-27 2019-07-16 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN110019421B (zh) * 2018-07-27 2023-09-01 山东大学 一种基于数据特征片段的时间序列数据分类方法
CN109214431A (zh) * 2018-08-15 2019-01-15 深圳先进技术研究院 样本训练方法、分类方法、识别方法、装置、介质及***
CN109214431B (zh) * 2018-08-15 2022-02-01 深圳先进技术研究院 样本训练方法、分类方法、识别方法、装置、介质及***
CN109161931A (zh) * 2018-10-22 2019-01-08 中南大学 基于shapelet转换的铝电解阳极电流分类方法
CN110276409A (zh) * 2019-06-27 2019-09-24 腾讯科技(深圳)有限公司 一种时间序列异常检测方法、装置、服务器和存储介质
CN110704616A (zh) * 2019-09-09 2020-01-17 中盈优创资讯科技有限公司 设备告警工单识别方法及装置
CN110623658B (zh) * 2019-09-24 2022-07-26 京东方科技集团股份有限公司 信号处理方法、信号处理装置、医学设备、存储介质
CN110623658A (zh) * 2019-09-24 2019-12-31 京东方科技集团股份有限公司 信号处理方法、信号处理装置、医学设备、存储介质
CN110946573A (zh) * 2019-11-01 2020-04-03 东软集团股份有限公司 心脏停搏的检测装置、检测模型的训练装置、方法及设备
CN111110224A (zh) * 2020-01-17 2020-05-08 武汉中旗生物医疗电子有限公司 一种基于多角度特征提取的心电图分类方法及装置
CN112016097A (zh) * 2020-08-28 2020-12-01 重庆文理学院 一种预测网络安全漏洞被利用时间的方法
CN112016097B (zh) * 2020-08-28 2024-02-27 深圳泓越信息科技有限公司 一种预测网络安全漏洞被利用时间的方法
CN112395605B (zh) * 2020-11-23 2022-10-11 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN112395605A (zh) * 2020-11-23 2021-02-23 国网四川省电力公司信息通信公司 基于关联规则的电力物联网数据融合方法
CN113155614B (zh) * 2021-04-25 2023-07-28 张启志 基于相似性判定的混凝土抗压强度检测方法及***
CN113155614A (zh) * 2021-04-25 2021-07-23 张启志 基于相似性判定的混凝土抗压强度检测方法及***
CN113486713A (zh) * 2021-06-02 2021-10-08 广州林猫自然科技有限公司 一种红外相机动物图像识别训练集最佳组合的构建方法
CN114220026A (zh) * 2021-12-30 2022-03-22 杭州电子科技大学 一种基于多分类思想的海面小目标检测方法
CN115270998A (zh) * 2022-09-26 2022-11-01 乐山师范学院 时间序列的有序分类方法、装置、计算机设备及存储介质
CN115270998B (zh) * 2022-09-26 2022-12-02 乐山师范学院 时间序列的有序分类方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN104809226B (zh) 2018-01-12

Similar Documents

Publication Publication Date Title
CN104809226A (zh) 一种早期分类不平衡多变量时间序列数据的方法
CN103020643B (zh) 基于提取核特征早期预测多变量时间序列类别的分类方法
US6466929B1 (en) System for discovering implicit relationships in data and a method of using the same
CN103728551B (zh) 一种基于级联集成分类器的模拟电路故障诊断方法
Rabcan et al. Application of fuzzy decision tree for signal classification
CN111000553B (zh) 一种基于投票集成学习的心电数据智能分类方法
Rabcan et al. Non-destructive diagnostic of aircraft engine blades by Fuzzy Decision Tree
CN106485205A (zh) 基于多层超限学习机的运动想象脑电信号分类方法
CN115221930A (zh) 一种滚动轴承的故障诊断方法
Gutta et al. Gender and ethnic classification of human faces using hybrid classifiers
Potharaju An unsupervised approach for selection of candidate feature set using filter based techniques
Kakade et al. A neural network approach for text document classification and semantic text analytics
Yeolekar et al. Feature selection on a flare forecasting testbed: a comparative study of 24 methods
Niu et al. Association classification based on compactness of rules
Dhanka et al. A comparative assessment of machine learning techniques for epilepsy detection using eeg signal
Yan et al. Application of Discrete Wavelet Transform in Shapelet‐Based Classification
CN115204475A (zh) 一种戒毒场所安全事件风险评估方法
CN112085079B (zh) 一种基于多尺度多任务学习的滚动轴承故障诊断方法
Nowak-Brzezińska Outlier mining in rule-based knowledge bases
Brandi Classification and regression energy tree for functional data
Gupta et al. Frequent term based text document clustering using similarity measures: A novel approach
Shao et al. A link prediction algorithm by unsupervised machine learning
Zadeh et al. Application of quadratic neural networks to seismic signal classification
Kamaruddin et al. Text classification using modified multi class association rule
CN112529035B (zh) 识别不同电台个体种类的智能识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180112

Termination date: 20190507

CF01 Termination of patent right due to non-payment of annual fee