CN104750875A - 一种机器错误数据分类方法及*** - Google Patents

一种机器错误数据分类方法及*** Download PDF

Info

Publication number
CN104750875A
CN104750875A CN201510197408.7A CN201510197408A CN104750875A CN 104750875 A CN104750875 A CN 104750875A CN 201510197408 A CN201510197408 A CN 201510197408A CN 104750875 A CN104750875 A CN 104750875A
Authority
CN
China
Prior art keywords
machine data
classification
label
data
centerdot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510197408.7A
Other languages
English (en)
Other versions
CN104750875B (zh
Inventor
张召
江威明
张莉
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201510197408.7A priority Critical patent/CN104750875B/zh
Publication of CN104750875A publication Critical patent/CN104750875A/zh
Application granted granted Critical
Publication of CN104750875B publication Critical patent/CN104750875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及数据挖掘技术领域,特别是涉及一种机器错误数据分类方法及***。该方法引入标签传播算法作为机器错误数据预处理步骤,利用少量的已标定机器数据的标签,快速估计出未标定数据的标签,组成分类训练集。基于分类训练集中的机器数据及标签,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,得到重构字典、稀疏编码和多类线性分类器,同时保持字典中各项与数据标签间的关系。进而,利用得到的稀疏编码来表征机器数据特征,输入到分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。通过引入高效的半监督数据预处理,增加了已标定机器样本的数量,丰富了先验信息,有效提高了机器数据分类的精准度。

Description

一种机器错误数据分类方法及***
技术领域
本申请涉及数据挖掘技术领域,特别是涉及一种机器错误数据分类方法及***。
背景技术
随着计算机技术和智能化的不断发展,机器错误数据分类已经发展成为数据挖掘中非常重要的一个研究课题。其中,机器错误数据分类技术通过对机器错误进行数据描述、分析数据结构,进而获取数据特征,最后根据数据特征来对机器错误数据进行分类。
在现有技术中,通常利用字典学习算法,比如K-SVD和D-KSVD(Discriminative K-SVD)等,对训练集中的机器数据及机器数据的标定情况进行学习,得到重构字典、稀疏编码及分类器,并利用得到的稀疏编码表征机器数据的特征,进而实现对测试样本的分类。然而,由于真实世界中的机器错误数据通常只有少量是有标记的,而大多数是无标记的,当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低了机器错误数据分类的精准度。
发明内容
有鉴于此,本申请提供了一种机器错误数据分类方法及***,以解决现有技术中当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低机器错误数据分类的精准度的问题。
为解决上述技术问题,本申请提供一种机器错误数据分类方法,包括:
获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU
利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
上述方法中,优选的,通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
< D , A , W , S > = arg min D , A , W , S | | [ X L , X U ] - DS | | F 2 + &alpha; | | Q - AS | | F 2 + &beta; | | H - WS | | F 2
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为所有类别的数量。
上述方法中,优选的,将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类,包括:
将所述机器数据特征输入所述多类线性分类器;
对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 . . . d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 . . . a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 . . . w K | | d K | | 2 }
利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
本申请还提供了一种机器错误数据分类***,包括:
原始训练集获取模块,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU
训练预处理模块,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
上述***中,优选的,所述测试模块包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 . . . d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 . . . a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 . . . w K | | d K | | 2 }
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
以上本申请提供的技术方案中,公开了半监督学习的机器错误分类方法,通过引入半监督的标签传播算法作为机器错误数据预处理步骤,可以利用少量的已标记机器数据的标签,快速估计出未标记机器数据的标签,组成分类训练集。基于分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到一个判别的重构字典,机器数据的稀疏编码和可预测的多类线性分类器,同时可有效保持字典中各项与机器数据标签之间的内在关系。进而,利用得到的稀疏编码来表征机器数据特征,将得到的机器数据特征输入到多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。通过引入高效的半监督数据预处理过程,增加了已标记机器数据样本的数量,丰富了监督的先验信息,因此有效提高了机器错误数据分类的精准度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请一种机器错误数据分类方法实施例1的流程图;
图2为本申请一种机器错误数据分类方法实施例3的流程图;
图3为本申请一种机器错误数据分类***实施例1的结构框图示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的核心是提供一种机器错误数据分类方法及***,以解决现有技术中当选取的训练集中样本数量较少时,易造成机器错误数据的特征无法精确表征,降低机器错误数据分类的精准度的问题。
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。
本申请在两个机器数据集的数据库进行了测试:Synthetic machinedataset和Rolling bearing fault dataset。Synthetic数据库共有960个样本,其中包含4个类别,每个类别有240个样本;Rolling bearing数据库包含4个机器数据集,本申请选取其中的2HP和3HP进行测试,2HP和3HP都包含800个样本,其中包含10个类别,每个类别80个样本。这些数据库从多方面收集,因而测试结果具有普遍说明性。
参考图1,示出了本申请一种机器错误数据分类方法实施例1的流程图,该方法具体可以包括如下步骤:
步骤S100、获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU;其中,X=[XL,XU]∈Rn×(l+u),n是训练集样本的维度,l是已标记机器数据样本的数量,u是未标记机器数据样本数量,l+u=N;
对于给定的一个原始训练集X向量集合X=[XL,XU]∈Rn×(l+u),包含有c(c>=2)个类别标签的训练样本集XL=[x1,x2,...,xl]∈Rn×l和无任何标签的训练样本集XU=[xl+1,xl+2,...,xl+u]∈Rn×u,其中,任意向量xi∈Rn是一个及其数据样本。
步骤S101、利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
本申请中,半监督的标签传播算法中,假定Y=[y1,y2,…,yl+u]∈R(c+1)×(l+u)是原始训练集的标记矩阵,F=[f1,f2,…,fl+u]∈R(c+1)×(l+u)是预测的标记矩阵,fj(0≤fj≤1)为列向量,其中最大的元素fi,j决定了训练样本xj的标签,即xj的标签为argmini≤cfi,j。假定xj为已被标记的样本,且属于第i类,那么列向量yi中yi,j的元素值为1,其余各项为0,假定xj未被标记,那么yi,c+1为1,其余各项为0。
步骤S102、基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
本申请中,针对步骤S101,为估计未标记机器数据XU的标签,标签传播算法先用K-最近邻搜索方法构建一个邻域图G=(X,E),用高斯分布构建边的集合E,E中元素W=[wi,j]是边的权值,当xi与xj相似度越高,权值wi,j就越大。首先使W←(W+WT)/2使W对称化,构建矩阵D使Di,j=jWi,j,P=D-1W为转移概率矩阵,所以,可通过解决如下问题估计所有数据标签:
J ( F ) = arg min F &Sigma; i , j = 1 l + u | | f i - f j | | 2 2 W i , j + &Sigma; i = 1 l + u &mu; i D ii | | f i - y i | | 2 2
其中,μi是xi的调整参量,||·||2是l2-norm。
定义αi=1/(1+μi),i=1,2,…,N,标签传播算法最优解F*可通过解决以下问题获得:
F*=YUD(D-W+UD)-1=YU(IN-P+U)-1=YIβ(Iα-PIα+Iβ)-1=YIβ(IN-PIα)-1
其中,I是单位矩阵,Iα∈R(l+u)×(l+u)且Iα=I-Iβ
以上本申请提供的技术方案中,公开了半监督学习的机器错误分类方法,通过引入半监督的标签传播算法作为机器错误数据预处理步骤,可以利用少量的已标记机器数据的标签,快速估计出未标记机器数据的标签,组成分类训练集。通过引入高效的半监督数据预处理过程,增加了已标记机器数据样本的数量,丰富了监督的先验信息,因此有效提高了机器错误数据分类的精准度。
基于本申请上述实施例1公开的一种机器错误数据分类方法,为了便于本领域技术人员理解本申请技术方案,针对计算重构字典D、稀疏编码S和多类线性分类器的具体过程,本申请提供了一种机器错误数据分类方法实施例2:具体地,在步骤S103中,可以通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
< D , A , W , S > = arg min D , A , W , S | | [ X L , X U ] - DS | | F 2 + &alpha; | | Q - AS | | F 2 + &beta; | | H - WS | | F 2
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为类别数量。
对于稀疏编码中,si可定义如下:
s i = s * ( y i , D ) &equiv; arg min x | | y i - Ds | | 2 2 s . t . | | x | | 0 &le; T .
对于类别标签矩阵中非零项所在的行数是训练样本xi的类别标签,符号t表示转置。
当训练样本xi和xj属于不同类别时,这两个训练样本在Q中对应的项为0,反之,为cos(xi,xj).例如,包含3个类别的数据,x1,x2属于类别1,x3,x4属于类别2,x5,x6属于类别3,Q可定义为:
Q = cos ( x 1 , x 1 ) cos ( x 1 , x 2 ) 0 0 0 0 cos ( x 2 , x 1 ) cos ( x 2 , x 2 ) 0 0 0 0 0 0 cos ( x 3 , x 3 ) cos ( x 3 , x 4 ) 0 0 0 0 cos ( x 4 , x 3 ) cos ( x 4 , x 4 ) 0 0 0 0 0 0 cos ( x 5 , x 5 ) cos ( x 5 , x 6 ) 0 0 0 0 cos ( x 6 , x 5 ) cos ( x 6 , x 6 ) ,
为判别稀疏编码容错,α是该项的权衡参数。
当β=0时,问题归结为:
< D , A , W , S > = arg min D , A , W , S | | [ X L , X U ] - DS | | F 2 + &alpha; | | Q - AS | | F 2 .
计算时,该问题可转化为求如下问题的解:
< D , W , A , S > = a rg min D , W , A , S [ X L , X U ] &alpha; Q &beta; H - D &alpha; A &beta; W S 2 2 Subj | | s i | | 0 &le; T , i &Element; { j | j = 1,2 , . . . , N } ,
假定 X new = ( ( [ X L , X U ] ) t , &alpha; Q t , &beta; H t ) t , D new = ( D t , &alpha; A t , &beta; W t ) t , 原问题转化为:
< D new , S > arg min D new , S { | | X new - D new S | | } s . t . &ForAll; i , | | x i | | 0 &le; T ,
该问题可以归结为K-SVD问题,可以有效的利用K-SVD算法找到最优解,即dk和它相应的系数(S中第K行)在同一时刻更新, 和Ek中舍弃0项之后的表示为可通过以下方法得到dk
< d k , s ~ R k > = arg min d k , s ~ R k { | | E ~ k - d k s ~ R k | | F 2 } ,
其中,可利用SVD分解得到dk=U(:,1), s ~ R k = &Sigma; ( 1,1 ) V ( : , 1 ) .
综合上述计算得到重构字典D、稀疏编码S和多类线性分类器的技术方案的分析,在实际应用中,可以通过以下方法得到:
输入:原始训练集矩阵X=[XL,XU]∈Rn×(l+u),控制参数α,β,稀疏约束T,字典维度K。
输出:Q,H,D,A,W
计算D(0),A(0),W(0)
用LC-KSVD算法保持各样本类别与字典项目之间的相关性计算D(0)
用OMP算法计算[XL,XU]的稀疏编码S(0)
用LC-KSVD算法计算得到初始化的A(0),W(0)
初始化 X new = [ X L , X U ] &alpha; Q &beta; H , D new = D ( 0 ) &alpha; A ( 0 ) &beta; W ( 0 )
用K-SVD算法通过解决如下问题更新Dnew
< D new , S > arg min D new , S { | | X new - D new S | | } s . t . &ForAll; i , | | x i | | 0 &le; T
通过如下方法获得D,A,W:
D ^ ^ = { d 1 | | d 1 | | 2 . . . d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 . . . a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 . . . w K | | d K | | 2 } .
基于以上本申请实施例提供的机器错误数据分类方法,参考图2,本发明提供了一种机器错误数据分类方法实施例3:具体地,通过以下步骤实现执行步骤S103、将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类:
步骤S200、将所述机器数据特征输入所述多类线性分类器;
步骤S201、对计算得到的重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 . . . d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 . . . a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 . . . w K | | d K | | 2 }
步骤S202、当输入新的测试样本xnew时,先利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
步骤S203、利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
请参阅表1,为本申请方法和D-KSVD(Discriminative K-SVD)、LC-KSVD1、LC-KSVD2(Label Consistent K-SVD)方法的机器数据分类结果对比表,给出了各方法实验的平均和最高分类结果以及分类时间。本例中,参与比较的D-KSVD和LC-KSVD方法使用各自得到的稀疏编码用于机器数据的特征提取,且分类均采用各自优化得到的多类别线性分类器。
表1
与上述本申请一种机器错误数据分类方法实施例1相对应,本申请还提供了一种机器错误数据分类***实施例1,参考图3,该***300可以包括如下内容:
原始训练集获取模块301,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU
训练预处理模块302,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块303,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块304,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
本申请中,所述测试模块304可以包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 . . . d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 . . . a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 . . . w K | | d K | | 2 }
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于***类实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请所提供的一种机器错误数据分类方法及***进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。

Claims (5)

1.一种机器错误数据分类方法,其特征在于,包括:
获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU
利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述重构字典D中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
2.如权利要求1所述的方法,其特征在于,通过解决以下问题计算得到重构字典D、稀疏编码S和多类线性分类器:
&lang; D , A , W , S &rang; = arg min D , A , W , S | | [ X L , X U ] - DS | | F 2 + &alpha; | | Q - AS | | F 2 + &beta; | | H - WS | | F 2
其中,A为提取特征的投影矩阵,为分类器参数,为所述分类训练集的判别稀疏编码,是所述分类训练集的类别标签矩阵,为判别稀疏编码容错,α是该项的权衡参数,为分类错误,β是该项的权衡参数,K为所述重构字典D的维度,c为所有类别的数量。
3.如权利要求2所述的方法,其特征在于,将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类,包括:
将所述机器数据特征输入所述多类线性分类器;
对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; w K | | d K | | 2 }
利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
4.一种机器错误数据分类***,其特征在于,包括:
原始训练集获取模块,用于获取原始训练集X,所述原始训练集X包括已标记机器数据XL和未标记机器数据XU
训练预处理模块,用于利用所述已标记机器数据XL的标签,用半监督的标签传播算法估计得到所述未标记机器数据XU的标签,对所述已标记机器数据XL及估计出标签的所述未标记机器数据XU进行分类,得到分类训练集;
训练模块,用于基于所述分类训练集中的机器数据及标签信息,进行标签一致的字典学习,同时最小化重构错误、判别稀疏编码错误和分类错误,计算得到重构字典D、稀疏编码S和多类线性分类器,同时保持所述可重构字典中各项与机器数据标签之间的内在关系,利用所述稀疏编码S来表征机器数据特征;
测试模块,用于将所述机器数据特征输入所述多类线性分类器进行预测,确定测试样本的类别,实现机器数据的错误分类。
5.如权利要求4所述的***,其特征在于,所述测试模块包括:
输入子单元,用于将所述机器数据特征输入所述多类线性分类器;
处理子单元,用于对计算得到的所述重构字典D、投影矩阵A及分类器参数W进行如下处理:
D ^ ^ = { d 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; d K | | d K | | 2 } , A ^ = { a 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; a K | | d K | | 2 } , W = { w 1 | | d 1 | | 2 &CenterDot; &CenterDot; &CenterDot; w K | | d K | | 2 }
训练子单元,用于利用处理得到的重构字典训练新的测试样本xnew,得到所述测试样本xnew的稀疏编码snew
分类子单元,用于利用所述多类线性分类器估计得到标签向量并通过计算得到测试样本xnew的类别。
CN201510197408.7A 2015-04-23 2015-04-23 一种机器错误数据分类方法及*** Active CN104750875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510197408.7A CN104750875B (zh) 2015-04-23 2015-04-23 一种机器错误数据分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510197408.7A CN104750875B (zh) 2015-04-23 2015-04-23 一种机器错误数据分类方法及***

Publications (2)

Publication Number Publication Date
CN104750875A true CN104750875A (zh) 2015-07-01
CN104750875B CN104750875B (zh) 2018-03-02

Family

ID=53590559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510197408.7A Active CN104750875B (zh) 2015-04-23 2015-04-23 一种机器错误数据分类方法及***

Country Status (1)

Country Link
CN (1) CN104750875B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045924A (zh) * 2015-08-26 2015-11-11 苏州大学张家港工业技术研究院 一种问题分类方法及***
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类***
CN106529604A (zh) * 2016-11-24 2017-03-22 苏州大学 一种自适应的图像标签鲁棒预测方法及***
WO2018040387A1 (zh) * 2016-08-30 2018-03-08 苏州大学 基于支持向量数据描述的特征提取及分类方法及其***
WO2018072663A1 (zh) * 2016-10-18 2018-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及***、存储介质
CN108256089A (zh) * 2018-01-24 2018-07-06 清华大学 物联网机器数据的变换方法及装置
WO2018171531A1 (en) * 2017-03-23 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for predicting classification for object
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030147558A1 (en) * 2002-02-07 2003-08-07 Loui Alexander C. Method for image region classification using unsupervised and supervised learning
CN103605990A (zh) * 2013-10-23 2014-02-26 江苏大学 基于图聚类标签传播的集成多分类器融合分类方法和***
CN104298997A (zh) * 2014-09-28 2015-01-21 小米科技有限责任公司 数据分类方法及装置
CN104408478A (zh) * 2014-11-14 2015-03-11 西安电子科技大学 一种基于分层稀疏判别特征学习的高光谱图像分类方法
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030147558A1 (en) * 2002-02-07 2003-08-07 Loui Alexander C. Method for image region classification using unsupervised and supervised learning
CN103605990A (zh) * 2013-10-23 2014-02-26 江苏大学 基于图聚类标签传播的集成多分类器融合分类方法和***
CN104298997A (zh) * 2014-09-28 2015-01-21 小米科技有限责任公司 数据分类方法及装置
CN104408478A (zh) * 2014-11-14 2015-03-11 西安电子科技大学 一种基于分层稀疏判别特征学习的高光谱图像分类方法
CN104463202A (zh) * 2014-11-28 2015-03-25 苏州大学 一种多类图像半监督分类方法及***

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105045924A (zh) * 2015-08-26 2015-11-11 苏州大学张家港工业技术研究院 一种问题分类方法及***
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类***
WO2018040387A1 (zh) * 2016-08-30 2018-03-08 苏州大学 基于支持向量数据描述的特征提取及分类方法及其***
WO2018072663A1 (zh) * 2016-10-18 2018-04-26 腾讯科技(深圳)有限公司 数据处理方法及装置、分类器训练方法及***、存储介质
US11860976B2 (en) 2016-10-18 2024-01-02 Tencent Technology (Shenzhen) Company Limited Data processing method and device, classifier training method and system, and storage medium
CN106529604A (zh) * 2016-11-24 2017-03-22 苏州大学 一种自适应的图像标签鲁棒预测方法及***
CN106529604B (zh) * 2016-11-24 2019-09-27 苏州大学 一种自适应的图像标签鲁棒预测方法及***
WO2018171531A1 (en) * 2017-03-23 2018-09-27 Beijing Didi Infinity Technology And Development Co., Ltd. System and method for predicting classification for object
CN108256089A (zh) * 2018-01-24 2018-07-06 清华大学 物联网机器数据的变换方法及装置
CN108256089B (zh) * 2018-01-24 2019-06-18 清华大学 物联网机器数据的变换方法及装置
CN111178302A (zh) * 2019-12-31 2020-05-19 北大方正集团有限公司 特定着装人物的检测方法和装置

Also Published As

Publication number Publication date
CN104750875B (zh) 2018-03-02

Similar Documents

Publication Publication Date Title
CN104750875A (zh) 一种机器错误数据分类方法及***
CN110134757B (zh) 一种基于多头注意力机制的事件论元角色抽取方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与***
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN103309953B (zh) 一种基于多rbfnn分类器集成的多样化图像标注和检索方法
CN110532554A (zh) 一种中文摘要生成方法、***及存储介质
CN103984959A (zh) 一种基于数据与任务驱动的图像分类方法
CN103838744B (zh) 一种查询词需求分析的方法及装置
CN106445919A (zh) 一种情感分类方法及装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN110472665A (zh) 模型训练方法、文本分类方法及相关装置
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN104899298A (zh) 一种基于大规模语料特征学习的微博情感分析方法
CN105095863A (zh) 基于相似性权值的半监督字典学习的人体行为识别方法
CN107798624A (zh) 一种软件问答社区中的技术标签推荐方法
CN105335756A (zh) 一种鲁棒学习模型与图像分类***
CN105069483A (zh) 一种对分类数据集进行测试的方法
CN106228139A (zh) 一种基于卷积网络的表观年龄预测算法及其***
CN110427458A (zh) 基于双门lstm的社交网络双语的五分类情感分析方法
CN105609116A (zh) 一种语音情感维度区域的自动识别方法
CN101882136A (zh) 文本情感倾向性分析方法
CN110232128A (zh) 题目文本分类方法及装置
CN103268346B (zh) 半监督分类方法及***
CN109947923A (zh) 一种基于词向量的初等数学题型自动提取方法及***
CN104978569A (zh) 一种基于稀疏表示的增量人脸识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant