CN108009571A - 一种新的直推式半监督数据分类方法及*** - Google Patents

一种新的直推式半监督数据分类方法及*** Download PDF

Info

Publication number
CN108009571A
CN108009571A CN201711141009.4A CN201711141009A CN108009571A CN 108009571 A CN108009571 A CN 108009571A CN 201711141009 A CN201711141009 A CN 201711141009A CN 108009571 A CN108009571 A CN 108009571A
Authority
CN
China
Prior art keywords
label
matrix
data
training
soft
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711141009.4A
Other languages
English (en)
Inventor
贾磊
张召
张莉
王邦军
李凡长
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201711141009.4A priority Critical patent/CN108009571A/zh
Publication of CN108009571A publication Critical patent/CN108009571A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种新的直推式半监督数据分类方法及***,将无监督子空间特征学习,判别聚类和自适应半监督分类无缝地集成到一个统一的框架,基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习,可用于高维数据表示和分类,基于上述联合模型,图构造与标签传播过程也被无缝地结合,由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。

Description

一种新的直推式半监督数据分类方法及***
技术领域
本发明涉及一种新的直推式半监督数据分类方法及***,属于数据挖掘和计算机视觉技术领域。
背景技术
随着计算机技术和智能化的不断发展,在我们的日常生活和沟通中产生的大多数真实数据通常由于缺少识别信息(例如类信息)而不容易区分。此外,数据的标记过程也是昂贵和耗时的,应用全监督方法获取所有数据标签需要很大的开销。由此,近年来可以使用少量标记数据和大量未标记数据两者相结合的半监督学习方法已经引起越来越多的广发关注。因此如何有效利用少量的有标签信息提高分类精度是需要深入探讨的问题。
近年来,大量依据聚类假设和流行假设的基于图的半监督方法被提出,来解决数据表示和分类问题。最近,作为基于图的半监督分类方法的标签传播由于其有效性和快速的计算速度而引起了学术界的关注。标签传播是基于数据间的相似性关系将标记数据的先验信息通过数据相似关系传播到未标记数据的过程。典型的标签传播方法包括高斯场和谐波函数,局部和全局一致性学习,线性邻域传播等。值得注意的是,几乎所有现有的转换标签传播方法都可能存在一下潜在的缺点。首先,都是在独立权重构建过程之后执行标签预测,这不能确保所构造的图权重对于随后的标签传播和估计是最佳的。第二,在现有研究中,每个数据的邻域信息通常通过使用K近邻或ε邻域来确定。但是固定的近邻数K或ε通常对于每个样本都不一样,即不是自适应的。此外,不同实际数据的复杂分布,实际上选择适当的邻域数K或球半径ε也很难。第三,现有的标签传播模型基于原始高维数据来定义权重。但是大多数现实世界的高维样本包含不利的特征,不相关的特征,噪声,甚至严重的损坏,这可能直接导致不准确的相似性测量和预测结果。
因此,提供一种具有特征降维的且更加鲁棒的分类方法以降低开销,是本领域技术人员亟待解决的问题。
发明内容
本发明的发明目的是提供一种新的直推式半监督数据分类方法及***,用于克服现有技术中获得数据标签开销大的问题。
为达到上述发明目的,本发明采用的技术方案是:一种新的直推式半监督数据分类方法,包括:
(1)、对原始数据集进行预处理,随机的将所述原始数据集划分为有标签训练集和无标签训练集,根据有标签训练集和无标签训练集定义初始标签矩阵,并完成参数的初始化设置,其中无标签训练集为未知类别的待测样本;
(2)、基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化;
(3)、采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
优选地,步骤(1)中对原始数据集进行预处理包括如下具体过程:将原始的样本数据集合划分为一个有标签训练集和一个无标签训练集,即(其中,n是数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u=N,定义初始标签矩阵Y。
优选地,步骤(2)中框架为:
其中, Z=[z1,z2,...,zN]为低维流行表示;为聚类指示器矩阵;G=[g1,g2,...,gc]为聚类中心;是软标签向量;μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=+∞,反之μi=0。是初始标签矩阵;表示权重稀疏矩阵,w(i,j)表示xi和xj的相似度;α和β是权衡参数;是流行特征重构项,重构误差,自适应分类误差为基于上述的框架进行转换,得到如下矩阵形式的框架:
其中ZZT=I是约束条件。
本发明还提供了一种新的直推式半监督数据分类***,包括:
训练预处理模块,用于对原始数据集进行预处理,随机的将原始数据划分为训练集和测试集,并且定义初始化标签矩阵,完成参数的初始化;
训练模块,用于基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化;
测试模块,用于采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
本发明中,联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征,而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素;进而基于流形特征空间同时进行特征和软标签重构误差联合最小化,可准确获得无标签数据的软类别标签矩阵并完成类别确定,同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。进而基于自适应权重系数进行流形特征的进一步更新。
本发明中,步骤(3)中通过迭代优化方案求解上述最小化过程,最后得到一个最优的软类别标签矩阵和一个最优的自适应重构权重系数矩阵,根据标签矩阵中最大值确定无标签数据样本对应的类别信息,得到最准确的分类结果。
本发明中,利用提出的统一型联合框架进行流行特征学习、自适应权重学习和标签传播,从而完成对测试集中无标签样本数据进行预测,得到软标签矩阵,具体为:
对上述框架最小化求解,由于同时包含五个变量,本发明采用迭代的优化思路,最终得到每个无标签训练样本的软标签向量fi,所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签,每个无标签训练样本的硬标签可以被归结为argmaxi≤c(fi)i,其中(fi)i表示预测的软标签向量fi第i个元素位置。
由于上述技术方案运用,本发明与现有技术相比具有下列优点:
1.本发明公开了一种新的直推式半监督数据分类方法及***,将无监督子空间特征学习,判别聚类和自适应半监督分类无缝地集成到一个统一的框架,基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习,可用于高维数据表示和分类,基于上述联合模型,图构造与标签传播过程也被无缝地结合,由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。
2.本发明方法首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征,而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素,因此,基于特征空间同时进行特征和软标签重构误差联合最小化,可准确获得无标签数据的软类别标签矩阵并完成类别确定,同时可确保得到的自适应权重系数对于数据表示和分类是最佳的,此外,基于流行特征进行自适应权重构造,也可有效避免近邻数量等参数选择难问题。
附图说明
图1为本发明实施例公开的一种新的直推式半监督数据分类方法流程图;
图2为本发明实施例公开的新的直推式半监督数据分类***的结构图。
具体实施方式
下面结合附图及实施例对本发明作进一步描述:
实施例一:
本发明在UCI机器学习数据库的三个数据集进行了测试:Ionosphere和Balacce scale和 SCCTS。其中Ionosphere包含351个类别,34个属性;Balacce scale包含132个样本,3个类别;SCCTS包含600个样本,6个类别。每组实验从每个数据库依次选取1到9个训练样本,并观察分类准确率。这些数据库从多方面收集,因而测试结果具有普遍说明性。
请参阅附图1,为本发明实施例公开的一种新的直推式半监督数据分类方法流程图,具体实施步骤为:
一种新的直推式半监督数据分类方法,包括:
(1)、对原始数据集进行预处理,随机的将所述原始数据集划分为有标签训练集和无标签训练集,根据有标签训练集和无标签训练集定义初始标签矩阵,并完成参数的初始化设置,其中无标签训练集为未知类别的待测样本;
将原始数据集划分为一个有标签训练集和一个无标签训练集,具体表示为(其中,n是数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u=N,定义初始标签矩阵Y。
(2)、基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化;
在步骤1得到相关参数初始化和训练集和测试集之后,建立如下到如下目标函数:
其中,Z=[z1,z2,...,zN]为低维流行表示;为聚类指示器矩阵; G=[g1,g2,...,gc]为聚类中心;是软标签向量;μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=+∞,反之μi=0。是初始标签矩阵;表示权重稀疏矩阵,w(i,j)表示xi和xj的相似度;α和β是权衡参数;是流行特征重构项,重构误差,自适应分类误差为
基于已提出的矩阵表达式,可以将上述问题重写为:
其中ZZT=I是约束条件。由于同时包含五个变量,对上述框架进行最小化求解时,本发明采用迭代的优化思路,通过交替更新。
首先固定F,W和H,提出对G和Z进行更新,可归纳为对如下公式进行优化:
其中,为近邻重构项,为判别聚类误差。α为调节参数,对上述公式进行求G偏导:
对上式右端取值为0,可得到H的迭代更新公式,具体为:
对变量Z的求解,可将上式再代回到G目标函数可得:
利用特征分解方法对α(I-W)(I-W)T+(I-H(HTH)-1HT)进行分解,并取前d项最小值,记为Z,即为原始数据的低维表示,d为低维嵌入子空间维度。变量Z和H得到之后,可对聚类指示器H进行求解,H具体定义如下:
HL为有标签数据的聚类指示器矩阵,HU为对应的无标签数据的聚类指示器。以上过程可视为半监督K均值。
低维流行表示Z和聚类指示器H求解得到并固定后,对自适应的权重系数矩阵W进行求解更新,具体问题可归纳为对如下公式进行优化:
应注意,在之前求解其他变量时,利用局部线性嵌入重构权对W初始化。对上式求W偏导可得如下表达式:
将上式右端取值为0,最终可得到W的迭代更新公式,具体为:
当H,G,Z和W都求解得到之后,对预测软标签进行求解,具体问题可转为对如下函数最小化:
对上式进行求F偏导,并且取值为0,最终可得到F的迭代更新公式:
Ft+1=YU(β(I-Wt)(I-Wt)T+U)-1
最后,因为H,G,Z和W都是关于F的函数,所以该方法通过对五个变量相互迭代使目标函数得到有效解决,最后得出软标签F和预测结果。
具体算法如下:
一种新的直推式半监督数据分类方法算法
输入:原始数据矩阵控制参数α,β,初始标签矩阵Y;
初始化:F=Y;初始化稀疏权重矩阵W值为局部线性嵌入重构权;
当未收敛时:
1).计算聚类中心G,固定W,F,Z和H更新Gt+1:
2).计算Z,对下式进行特征值分解,结果升序排列,取前d项值:
α(I-W)(I-W)T+(I-H(HTH)-1HT);
3).固定W,F,G和Z更新聚类指示矩阵H:
4).固定F,G,H和Z更新软标签矩阵Wt+1:
5).固定W,G,H和Z更新Ft+1:
Ft+1=YU(β(I-Wt)(I-Wt)T+U)-1
检查是否收敛:
若sqrt(sum(F(:).2))<tol||iter>=maxIter则停止;
否则t=t+1
输出:软标签矩阵(F*←Ft+1)。
(3)、采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
对提出框架采用迭代的优化思路最小化求解,最终得到每个无标签训练样本的软标签向量fi,所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签,每个无标签训练样本的硬标签可以被归结为argmaxi≤c(fi)i,其中(fi)i表示预测的软标签向量fi第i个元素位置。
上述本发明公开的实施例中详细描述了方法,对于本发明的方法可采用多种形式的***实现,因此本发明还公开了一种***,下面给出具体的实施例进行详细说明。
请参阅附图2,为本发明实施例公开的新的直推式半监督数据分类方法的***结构图。该***具体包括:
训练预处理模块201,对原始数据集进行预处理,随机的将原始数据划分为有标签训练集和无标签训练集,并且定义初始标签矩阵,完成参数的初始化;
原始的样本数据集合划分为有标签训练集和一个无标签训练集,可表示为(其中,n是数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u=N,定义初始标签矩阵Y。
训练模块202,用于基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化。
将无监督子空间特征学习,判别聚类和自适应半监督分类无缝地集成到一个统一的框架,基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习,可用于高维数据表示和分类。首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征,而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素。进而基于流形特征空间同时进行特征和软标签重构误差联合最小化,可准确获得无标签数据的软类别标签矩阵并完成类别确定,同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。进而基于自适应权重系数进行流形特征的进一步更新。
训练模块202在预处理模块201得到相关参数初始化和训练集和测试集之后,建立如下到如下目标函数:
其中,Z=[z1,z2,...,zN]为低维流行表示;为聚类指示器矩阵; G=[g1,g2,...,gc]为聚类中心;是软标签向量;μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=+∞,反之μi=0。是初始标签矩阵;表示权重稀疏矩阵,w(i,j)表示xi和xj的相似度;α和β是权衡参数;是流行特征重构项,重构误差,自适应分类误差为
基于已提出的矩阵表达式,可以将上述问题重写为:
其中ZZT=I是约束条件。由于同时包含五个变量,对上述框架进行最小化求解时,本发明采用迭代的优化思路,通过交替更新。
首先固定F,W和H,提出对G和Z进行更新,可归纳为对如下公式进行优化:
其中,为近邻重构项,为子空间聚类误差。α为调节参数,对上述公式进行求G偏导:
对上式右端取值为0,可得到H的迭代更新公式,具体为:
对变量Z的求解,可将上式再代回到G目标函数可得:
利用特征分解方法对α(I-W)(I-W)T+(I-H(HTH)-1HT)进行分解,并取前d项最小值,记为Z,即为原始数据的低维表示,d为低维嵌入子空间维度。变量Z和H得到之后,可对聚类指示器H进行求解,H具体定义如下:
HL为有标签数据的聚类指示器矩阵,HU为对应的无标签数据的聚类指示器。以上过程可视为半监督K均值。
低维流行表示Z和聚类指示器H求解得到并固定后,对自适应的权重系数矩阵W进行求解更新,具体问题可归纳为对如下公式进行优化:
应注意,在之前求解其他变量时,利用局部线性嵌入重构权对W初始化。对上式求W偏导可得如下表达式:
将上式右端取值为0,最终可得到W的迭代更新公式,具体为:
当H,G,Z和W都求解得到之后,对预测软标签进行求解,具体问题可转为对如下函数最小化:
对上式进行求F偏导,并且取值为0,最终可得到F的迭代更新公式:
Ft+1=YU(β(I-Wt)(I-Wt)T+U)-1
最后,因为H,G,Z和W都是关于F的函数,所以该方法通过对五个变量相互迭代使目标函数得到有效解决,最后得出软标签F和预测结果。
具体算法如下:
一种联合特征学习与判别聚类的自适应直推式分类方法算法
输入:原始数据矩阵控制参数α,β,初始标签矩阵Y;
初始化:F=Y;初始化稀疏权重矩阵W值为局部线性嵌入重构权;
当未收敛时:
1).计算聚类中心G,固定W,F,Z和H更新Gt+1:
2).计算Z,对下式进行特征值分解,结果升序排列,取前d项值:
α(I-W)(I-W)T+(I-H(HTH)-1HT);
3).固定W,F,G和Z更新聚类指示矩阵H:
4).固定F,G,H和Z更新软标签矩阵Wt+1:
5).固定W,G,H和Z更新Ft+1:
Ft+1=YU(β(I-Wt)(I-Wt)T+U)-1
检查是否收敛:
若sqrt(sum(F(:).2))<tol||iter>=maxIter则停止;
否则t=t+1
输出:软标签矩阵(F*←Ft+1)。
测试模块203,用于采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
上述最小化求解,最终得到每个无标签训练样本的软标签向量fi,所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签,每个无标签训练样本的硬标签可以被归结为argmaxi≤c(fi)i,其中(fi)i表示预测的软标签向量fi第i个元素位置。
请参阅表1,为本发明方法和SLP、LNP、LLGC、LapLDA、GFHF和CD-LNP方法识别结果对比表,给出了各方法实验的平均以及最高识别率。本例中,参与比较的方法均采用各文献中算法使用的默认最优参数。本发明在UCI机器学习数据库的三个数据集进行了测试:Ionosphere和Balaccescale和SCCTS。其中Ionosphere包含351个类别,34个属性;Balaccescale包含132个样本,3个类别;SCCTS包含600个样本,6个类别。每组实验从每个数据库依次选取1到9个训练样本。
表1.本发明和SLP、LNP、LLGC、LapLDA、GFHF和CD-LNP方法识别结果对比
综上所述,本发明公开了一种新的直推式半监督数据分类方法及***,将无监督子空间特征学习,判别聚类和自适应半监督分类无缝地集成到一个统一的框架,基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习,可用于高维数据表示和分类。基于上述联合模型,图构造与标签传播过程也被无缝地结合,由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。具体地,本发明方法首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征,而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素。因此,基于特征空间同时进行特征和软标签重构误差联合最小化,可准确获得无标签数据的软类别标签矩阵并完成类别确定,同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。此外,基于流行特征进行自适应权重构造,也可有效避免近邻数量等参数选择难问题。

Claims (4)

1.一种新的直推式半监督数据分类方法,其特征在于,包括:
(1)、对原始数据集进行预处理,随机的将所述原始数据集划分为有标签训练集和无标签训练集,根据有标签训练集和无标签训练集定义初始标签矩阵,并完成参数的初始化设置,其中无标签训练集为未知类别的待测样本;
(2)、基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化;
(3)、采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
2.根据权利要求1所述的新的直推式半监督数据分类方法,其特在于,步骤(1)中对原始数据集进行预处理包括如下具体过程:将原始的样本数据集合划分为一个有标签训练集和一个无标签训练集,即其中,n是数据的维度,l是已标记训练样本的数量,u是未标记训练样本数量),其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u=N,定义初始标签矩阵Y。
3.根据权利要求1所述的新的直推式半监督数据分类方法,其特在于,步骤(2)中框架为:其中,Z=[z1,z2,...,zN]为低维流行表示;为聚类指示器矩阵;G=[g1,g2,...,gc]为聚类中心;是软标签向量;μi表示xi的调整参数,当训练集中xi的标签已知时,对应的μi=+∞,反之μi=0,是初始标签矩阵;表示权重稀疏矩阵,w(i,j)表示xi和xj的相似度;α和β是权衡参数;是流行特征重构项,重构误差,自适应分类误差为基于上述的框架进行转换,得到如下矩阵形式的框架:
其中ZZT=I是约束条件。
4.一种新的直推式半监督数据分类***,其特征在于,包括:
训练预处理模块,用于对原始数据集进行预处理,随机的将原始数据划分为有标签训练集和无标签训练集,并且定义初始化标签矩阵,完成参数的初始化;
训练模块,用于基于所述初始标签矩阵,将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架,利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计,获取非线性低维流行特征,然后同时进行特征和软标签重构误差联合最小化;
测试模块,用于采用迭代的优化方法对所述框架最小化求解,得到软类别标签矩阵,基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息,得到最准确的分类结果。
CN201711141009.4A 2017-11-16 2017-11-16 一种新的直推式半监督数据分类方法及*** Pending CN108009571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711141009.4A CN108009571A (zh) 2017-11-16 2017-11-16 一种新的直推式半监督数据分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711141009.4A CN108009571A (zh) 2017-11-16 2017-11-16 一种新的直推式半监督数据分类方法及***

Publications (1)

Publication Number Publication Date
CN108009571A true CN108009571A (zh) 2018-05-08

Family

ID=62052636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711141009.4A Pending CN108009571A (zh) 2017-11-16 2017-11-16 一种新的直推式半监督数据分类方法及***

Country Status (1)

Country Link
CN (1) CN108009571A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829472A (zh) * 2018-12-24 2019-05-31 陕西师范大学 基于概率近邻的半监督分类方法
CN110648355A (zh) * 2019-09-29 2020-01-03 中科智感科技(湖南)有限公司 一种图像跟踪方法、***及相关装置
CN110895705A (zh) * 2018-09-13 2020-03-20 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN111027582A (zh) * 2019-09-20 2020-04-17 哈尔滨理工大学 基于低秩图学习的半监督特征子空间学习方法及装置
CN111680644A (zh) * 2020-06-11 2020-09-18 天津大学 一种基于深度空时特征学习的视频行为聚类方法
CN113705635A (zh) * 2021-08-11 2021-11-26 西安交通大学 基于自适应图的半监督宽度学习分类方法及设备
CN114343674A (zh) * 2021-12-22 2022-04-15 杭州电子科技大学 一种联合判别子空间发掘与半监督脑电情感识别方法
CN114418039A (zh) * 2022-03-30 2022-04-29 浙江大学 一种提升分类公平性的异构分类器聚合方法

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110895705B (zh) * 2018-09-13 2024-05-14 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN110895705A (zh) * 2018-09-13 2020-03-20 富士通株式会社 异常样本检测装置及其训练装置和训练方法
CN109829472A (zh) * 2018-12-24 2019-05-31 陕西师范大学 基于概率近邻的半监督分类方法
CN109829472B (zh) * 2018-12-24 2024-05-14 陕西师范大学 基于概率近邻的半监督分类方法
CN111027582B (zh) * 2019-09-20 2023-06-27 哈尔滨理工大学 基于低秩图学习的半监督特征子空间学习方法及装置
CN111027582A (zh) * 2019-09-20 2020-04-17 哈尔滨理工大学 基于低秩图学习的半监督特征子空间学习方法及装置
CN110648355A (zh) * 2019-09-29 2020-01-03 中科智感科技(湖南)有限公司 一种图像跟踪方法、***及相关装置
CN111680644B (zh) * 2020-06-11 2023-03-28 天津大学 一种基于深度空时特征学习的视频行为聚类方法
CN111680644A (zh) * 2020-06-11 2020-09-18 天津大学 一种基于深度空时特征学习的视频行为聚类方法
CN113705635A (zh) * 2021-08-11 2021-11-26 西安交通大学 基于自适应图的半监督宽度学习分类方法及设备
CN114343674A (zh) * 2021-12-22 2022-04-15 杭州电子科技大学 一种联合判别子空间发掘与半监督脑电情感识别方法
CN114343674B (zh) * 2021-12-22 2024-05-03 杭州电子科技大学 一种联合判别子空间发掘与半监督脑电情感识别方法
CN114418039A (zh) * 2022-03-30 2022-04-29 浙江大学 一种提升分类公平性的异构分类器聚合方法

Similar Documents

Publication Publication Date Title
CN108009571A (zh) 一种新的直推式半监督数据分类方法及***
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与***
CN109766277A (zh) 一种基于迁移学习与dnn的软件故障诊断方法
CN109933670A (zh) 一种基于组合矩阵计算语义距离的文本分类方法
CN104966105A (zh) 一种鲁棒机器错误检索方法与***
CN109581339B (zh) 一种基于头脑风暴自动调整自编码网络的声呐识别方法
CN111753918B (zh) 一种基于对抗学习的去性别偏见的图像识别模型及应用
CN113344044B (zh) 一种基于领域自适应的跨物种医疗影像分类方法
CN103714261A (zh) 二阶段混合模型的智能辅助医疗决策支持方法
CN116644755B (zh) 基于多任务学习的少样本命名实体识别方法、装置及介质
CN108762503A (zh) 一种基于多模态数据采集的人机交互***
CN112183652A (zh) 一种联邦机器学习环境下的边缘端偏见检测方法
CN112732921A (zh) 一种虚假用户评论检测方法及***
Chu et al. Co-training based on semi-supervised ensemble classification approach for multi-label data stream
CN116187835A (zh) 一种基于数据驱动的台区理论线损区间估算方法及***
CN112101473A (zh) 一种基于小样本学习的烟雾检测算法
CN114093445B (zh) 一种基于偏多标记学习的患者筛选标记方法
CN108388918B (zh) 具有结构保持特性的数据特征选择方法
CN112668633B (zh) 一种基于细粒度领域自适应的图迁移学习方法
CN106448660A (zh) 一种引入大数据分析的自然语言模糊边界确定方法
El Gannour et al. Improving skin diseases prediction through data balancing via classes weighting and transfer learning
CN116452895B (zh) 基于多模态对称增强的小样本图像分类方法、装置及介质
CN116521863A (zh) 一种基于半监督学习的标签抗噪文本分类方法
CN114998731A (zh) 智能终端导航场景感知识别的方法
CN115310491A (zh) 一种基于深度学***衡磁共振全脑数据分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180508

RJ01 Rejection of invention patent application after publication