CN108009571A

CN108009571A - 一种新的直推式半监督数据分类方法及***

Info

Publication number: CN108009571A
Application number: CN201711141009.4A
Authority: CN
Inventors: 贾磊; 张召; 张莉; 王邦军; 李凡长
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2018-05-08

Abstract

本发明公开了一种新的直推式半监督数据分类方法及***，将无监督子空间特征学习，判别聚类和自适应半监督分类无缝地集成到一个统一的框架，基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习，可用于高维数据表示和分类，基于上述联合模型，图构造与标签传播过程也被无缝地结合，由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。

Description

一种新的直推式半监督数据分类方法及***

技术领域

本发明涉及一种新的直推式半监督数据分类方法及***，属于数据挖掘和计算机视觉技术领域。

背景技术

随着计算机技术和智能化的不断发展，在我们的日常生活和沟通中产生的大多数真实数据通常由于缺少识别信息(例如类信息)而不容易区分。此外，数据的标记过程也是昂贵和耗时的，应用全监督方法获取所有数据标签需要很大的开销。由此，近年来可以使用少量标记数据和大量未标记数据两者相结合的半监督学习方法已经引起越来越多的广发关注。因此如何有效利用少量的有标签信息提高分类精度是需要深入探讨的问题。

近年来，大量依据聚类假设和流行假设的基于图的半监督方法被提出，来解决数据表示和分类问题。最近，作为基于图的半监督分类方法的标签传播由于其有效性和快速的计算速度而引起了学术界的关注。标签传播是基于数据间的相似性关系将标记数据的先验信息通过数据相似关系传播到未标记数据的过程。典型的标签传播方法包括高斯场和谐波函数，局部和全局一致性学习，线性邻域传播等。值得注意的是，几乎所有现有的转换标签传播方法都可能存在一下潜在的缺点。首先，都是在独立权重构建过程之后执行标签预测，这不能确保所构造的图权重对于随后的标签传播和估计是最佳的。第二，在现有研究中，每个数据的邻域信息通常通过使用K近邻或ε邻域来确定。但是固定的近邻数K或ε通常对于每个样本都不一样，即不是自适应的。此外，不同实际数据的复杂分布，实际上选择适当的邻域数K或球半径ε也很难。第三，现有的标签传播模型基于原始高维数据来定义权重。但是大多数现实世界的高维样本包含不利的特征，不相关的特征，噪声，甚至严重的损坏，这可能直接导致不准确的相似性测量和预测结果。

因此，提供一种具有特征降维的且更加鲁棒的分类方法以降低开销，是本领域技术人员亟待解决的问题。

发明内容

本发明的发明目的是提供一种新的直推式半监督数据分类方法及***,用于克服现有技术中获得数据标签开销大的问题。

为达到上述发明目的，本发明采用的技术方案是：一种新的直推式半监督数据分类方法，包括：

(1)、对原始数据集进行预处理，随机的将所述原始数据集划分为有标签训练集和无标签训练集，根据有标签训练集和无标签训练集定义初始标签矩阵，并完成参数的初始化设置，其中无标签训练集为未知类别的待测样本；

(2)、基于所述初始标签矩阵，将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架，利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计，获取非线性低维流行特征，然后同时进行特征和软标签重构误差联合最小化；

(3)、采用迭代的优化方法对所述框架最小化求解，得到软类别标签矩阵，基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息，得到最准确的分类结果。

优选地，步骤(1)中对原始数据集进行预处理包括如下具体过程：将原始的样本数据集合划分为一个有标签训练集和一个无标签训练集，即(其中，n是数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量)，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u＝N，定义初始标签矩阵Y。

优选地，步骤(2)中框架为：

其中， Z＝[z₁,z₂,...,z_N]为低维流行表示；为聚类指示器矩阵；G＝[g₁,g₂,...,g_c]为聚类中心；是软标签向量；μ_i表示x_i的调整参数，当训练集中x_i的标签已知时，对应的μ_i＝+∞，反之μ_i＝0。是初始标签矩阵；表示权重稀疏矩阵，w(i,j)表示xi和xj的相似度；α和β是权衡参数；是流行特征重构项，重构误差，自适应分类误差为基于上述的框架进行转换，得到如下矩阵形式的框架：

其中ZZ^T＝I是约束条件。

本发明还提供了一种新的直推式半监督数据分类***，包括：

训练预处理模块，用于对原始数据集进行预处理，随机的将原始数据划分为训练集和测试集，并且定义初始化标签矩阵，完成参数的初始化；

训练模块，用于基于所述初始标签矩阵，将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架，利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计，获取非线性低维流行特征，然后同时进行特征和软标签重构误差联合最小化；

测试模块，用于采用迭代的优化方法对所述框架最小化求解，得到软类别标签矩阵，基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息，得到最准确的分类结果。

本发明中，联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征，而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素；进而基于流形特征空间同时进行特征和软标签重构误差联合最小化，可准确获得无标签数据的软类别标签矩阵并完成类别确定，同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。进而基于自适应权重系数进行流形特征的进一步更新。

本发明中，步骤(3)中通过迭代优化方案求解上述最小化过程，最后得到一个最优的软类别标签矩阵和一个最优的自适应重构权重系数矩阵，根据标签矩阵中最大值确定无标签数据样本对应的类别信息，得到最准确的分类结果。

本发明中，利用提出的统一型联合框架进行流行特征学习、自适应权重学习和标签传播，从而完成对测试集中无标签样本数据进行预测，得到软标签矩阵，具体为：

对上述框架最小化求解，由于同时包含五个变量，本发明采用迭代的优化思路，最终得到每个无标签训练样本的软标签向量f_i，所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签，每个无标签训练样本的硬标签可以被归结为argmax_i≤c(f_i)_i，其中(f_i)_i表示预测的软标签向量f_i第i个元素位置。

由于上述技术方案运用，本发明与现有技术相比具有下列优点：

1.本发明公开了一种新的直推式半监督数据分类方法及***，将无监督子空间特征学习，判别聚类和自适应半监督分类无缝地集成到一个统一的框架，基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习，可用于高维数据表示和分类，基于上述联合模型，图构造与标签传播过程也被无缝地结合，由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。

2.本发明方法首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征，而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素，因此，基于特征空间同时进行特征和软标签重构误差联合最小化，可准确获得无标签数据的软类别标签矩阵并完成类别确定，同时可确保得到的自适应权重系数对于数据表示和分类是最佳的，此外，基于流行特征进行自适应权重构造，也可有效避免近邻数量等参数选择难问题。

附图说明

图1为本发明实施例公开的一种新的直推式半监督数据分类方法流程图；

图2为本发明实施例公开的新的直推式半监督数据分类***的结构图。

具体实施方式

下面结合附图及实施例对本发明作进一步描述：

实施例一：

本发明在UCI机器学习数据库的三个数据集进行了测试：Ionosphere和Balacce scale和 SCCTS。其中Ionosphere包含351个类别，34个属性；Balacce scale包含132个样本，3个类别；SCCTS包含600个样本，6个类别。每组实验从每个数据库依次选取1到9个训练样本，并观察分类准确率。这些数据库从多方面收集，因而测试结果具有普遍说明性。

请参阅附图1，为本发明实施例公开的一种新的直推式半监督数据分类方法流程图，具体实施步骤为：

一种新的直推式半监督数据分类方法，包括：

将原始数据集划分为一个有标签训练集和一个无标签训练集，具体表示为(其中，n是数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量)，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u＝N，定义初始标签矩阵Y。

在步骤1得到相关参数初始化和训练集和测试集之后，建立如下到如下目标函数：

其中，Z＝[z₁,z₂,...,z_N]为低维流行表示；为聚类指示器矩阵； G＝[g₁,g₂,...,g_c]为聚类中心；是软标签向量；μ_i表示x_i的调整参数，当训练集中x_i的标签已知时，对应的μ_i＝+∞，反之μ_i＝0。是初始标签矩阵；表示权重稀疏矩阵，w(i,j)表示xi和xj的相似度；α和β是权衡参数；是流行特征重构项，重构误差，自适应分类误差为

基于已提出的矩阵表达式，可以将上述问题重写为：

其中ZZ^T＝I是约束条件。由于同时包含五个变量，对上述框架进行最小化求解时，本发明采用迭代的优化思路，通过交替更新。

首先固定F,W和H,提出对G和Z进行更新，可归纳为对如下公式进行优化：

其中，为近邻重构项，为判别聚类误差。α为调节参数，对上述公式进行求G偏导：

对上式右端取值为0，可得到H的迭代更新公式，具体为：

对变量Z的求解，可将上式再代回到G目标函数可得：

利用特征分解方法对α(I-W)(I-W)^T+(I-H(H^TH)^-1H^T)进行分解，并取前d项最小值，记为Z，即为原始数据的低维表示，d为低维嵌入子空间维度。变量Z和H得到之后，可对聚类指示器H进行求解，H具体定义如下：

H_L为有标签数据的聚类指示器矩阵，H_U为对应的无标签数据的聚类指示器。以上过程可视为半监督K均值。

低维流行表示Z和聚类指示器H求解得到并固定后，对自适应的权重系数矩阵W进行求解更新，具体问题可归纳为对如下公式进行优化：

应注意，在之前求解其他变量时，利用局部线性嵌入重构权对W初始化。对上式求W偏导可得如下表达式：

将上式右端取值为0，最终可得到W的迭代更新公式，具体为：

当H,G,Z和W都求解得到之后，对预测软标签进行求解，具体问题可转为对如下函数最小化：

对上式进行求F偏导，并且取值为0，最终可得到F的迭代更新公式：

F_t+1＝YU(β(I-W_t)(I-W_t)^T+U)^-1

最后，因为H,G,Z和W都是关于F的函数，所以该方法通过对五个变量相互迭代使目标函数得到有效解决，最后得出软标签F和预测结果。

具体算法如下：

一种新的直推式半监督数据分类方法算法

输入：原始数据矩阵控制参数α，β,初始标签矩阵Y；

初始化：F＝Y；初始化稀疏权重矩阵W值为局部线性嵌入重构权；

当未收敛时：

1).计算聚类中心G，固定W，F，Z和H更新G_t+1:

2).计算Z，对下式进行特征值分解，结果升序排列，取前d项值:

α(I-W)(I-W)^T+(I-H(H^TH)^-1H^T)；

3).固定W，F，G和Z更新聚类指示矩阵H:

4).固定F，G，H和Z更新软标签矩阵W_t+1:

5).固定W，G，H和Z更新F_t+1:

F_t+1＝YU(β(I-W_t)(I-W_t)^T+U)^-1；

检查是否收敛：

若sqrt(sum(F(:).²))＜tol||iter＞＝maxIter则停止；

否则t＝t+1

输出：软标签矩阵(F^*←F_t+1)。

对提出框架采用迭代的优化思路最小化求解，最终得到每个无标签训练样本的软标签向量f_i，所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签，每个无标签训练样本的硬标签可以被归结为argmax_i≤c(f_i)_i，其中(f_i)_i表示预测的软标签向量f_i第i个元素位置。

上述本发明公开的实施例中详细描述了方法，对于本发明的方法可采用多种形式的***实现，因此本发明还公开了一种***，下面给出具体的实施例进行详细说明。

请参阅附图2，为本发明实施例公开的新的直推式半监督数据分类方法的***结构图。该***具体包括：

训练预处理模块201，对原始数据集进行预处理，随机的将原始数据划分为有标签训练集和无标签训练集，并且定义初始标签矩阵，完成参数的初始化；

原始的样本数据集合划分为有标签训练集和一个无标签训练集，可表示为(其中，n是数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量)，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u＝N，定义初始标签矩阵Y。

训练模块202，用于基于所述初始标签矩阵，将无监督子空间特征学习、判别聚类和自适应半监督分类无缝地集成到一个统一的框架，利用所述框架进行联合流行特征学习与判别K均值聚类、自适应权重构造及标签传播和估计，获取非线性低维流行特征，然后同时进行特征和软标签重构误差联合最小化。

将无监督子空间特征学习，判别聚类和自适应半监督分类无缝地集成到一个统一的框架，基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习，可用于高维数据表示和分类。首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征，而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素。进而基于流形特征空间同时进行特征和软标签重构误差联合最小化，可准确获得无标签数据的软类别标签矩阵并完成类别确定，同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。进而基于自适应权重系数进行流形特征的进一步更新。

训练模块202在预处理模块201得到相关参数初始化和训练集和测试集之后，建立如下到如下目标函数：

基于已提出的矩阵表达式，可以将上述问题重写为：

其中，为近邻重构项，为子空间聚类误差。α为调节参数，对上述公式进行求G偏导：

对上式右端取值为0，可得到H的迭代更新公式，具体为：

对变量Z的求解，可将上式再代回到G目标函数可得：

F_t+1＝YU(β(I-W_t)(I-W_t)^T+U)^-1

具体算法如下：

一种联合特征学习与判别聚类的自适应直推式分类方法算法

输入：原始数据矩阵控制参数α，β,初始标签矩阵Y；

当未收敛时：

1).计算聚类中心G，固定W，F，Z和H更新G_t+1:

α(I-W)(I-W)^T+(I-H(H^TH)^-1H^T)；

3).固定W，F，G和Z更新聚类指示矩阵H:

4).固定F，G，H和Z更新软标签矩阵W_t+1:

5).固定W，G，H和Z更新F_t+1:

F_t+1＝YU(β(I-W_t)(I-W_t)^T+U)^-1；

检查是否收敛：

若sqrt(sum(F(:).²))＜tol||iter＞＝maxIter则停止；

否则t＝t+1

输出：软标签矩阵(F^*←F_t+1)。

测试模块203，用于采用迭代的优化方法对所述框架最小化求解，得到软类别标签矩阵，基于所述软类别标签矩阵中最大值确定所述待测样本对应的类别信息，得到最准确的分类结果。

上述最小化求解，最终得到每个无标签训练样本的软标签向量f_i，所得向量的最大元素对应的位置即为无标签训练样本的归属类别标签，每个无标签训练样本的硬标签可以被归结为argmax_i≤c(f_i)_i，其中(f_i)_i表示预测的软标签向量f_i第i个元素位置。

请参阅表1，为本发明方法和SLP、LNP、LLGC、LapLDA、GFHF和CD-LNP方法识别结果对比表，给出了各方法实验的平均以及最高识别率。本例中，参与比较的方法均采用各文献中算法使用的默认最优参数。本发明在UCI机器学习数据库的三个数据集进行了测试：Ionosphere和Balaccescale和SCCTS。其中Ionosphere包含351个类别，34个属性；Balaccescale包含132个样本，3个类别；SCCTS包含600个样本，6个类别。每组实验从每个数据库依次选取1到9个训练样本。

表1.本发明和SLP、LNP、LLGC、LapLDA、GFHF和CD-LNP方法识别结果对比

综上所述，本发明公开了一种新的直推式半监督数据分类方法及***，将无监督子空间特征学习，判别聚类和自适应半监督分类无缝地集成到一个统一的框架，基于原始数据的低维流行特征和判别子空间聚类结果进行半监督学习，可用于高维数据表示和分类。基于上述联合模型，图构造与标签传播过程也被无缝地结合，由此可得到基于低维流形特征的自适应权重系数矩阵和无标签数据的软类别标签。具体地，本发明方法首先联合改进的判别K均值聚类和流行特征学习过程获取非线性低维流行特征，而低维流行特征学习过程有有效去除原始数据中包含的冗余信息、噪音和异类数据等干扰性因素。因此，基于特征空间同时进行特征和软标签重构误差联合最小化，可准确获得无标签数据的软类别标签矩阵并完成类别确定，同时可确保得到的自适应权重系数对于数据表示和分类是最佳的。此外，基于流行特征进行自适应权重构造，也可有效避免近邻数量等参数选择难问题。

Claims

1.一种新的直推式半监督数据分类方法，其特征在于，包括：

2.根据权利要求1所述的新的直推式半监督数据分类方法，其特在于，步骤(1)中对原始数据集进行预处理包括如下具体过程：将原始的样本数据集合划分为一个有标签训练集和一个无标签训练集，即其中，n是数据的维度，l是已标记训练样本的数量，u是未标记训练样本数量)，其中包含有c(c>2)个类别标签的训练样本集和无任何标签的训练样本集其中l+u＝N，定义初始标签矩阵Y。

3.根据权利要求1所述的新的直推式半监督数据分类方法，其特在于，步骤(2)中框架为：其中，Z＝[z₁,z₂,...,z_N]为低维流行表示；为聚类指示器矩阵；G＝[g₁,g₂,...,g_c]为聚类中心；是软标签向量；μ_i表示x_i的调整参数，当训练集中x_i的标签已知时，对应的μ_i＝+∞，反之μ_i＝0，是初始标签矩阵；表示权重稀疏矩阵，w(i,j)表示xi和xj的相似度；α和β是权衡参数；是流行特征重构项，重构误差，自适应分类误差为基于上述的框架进行转换，得到如下矩阵形式的框架：

其中ZZ^T＝I是约束条件。

4.一种新的直推式半监督数据分类***，其特征在于，包括：

训练预处理模块，用于对原始数据集进行预处理，随机的将原始数据划分为有标签训练集和无标签训练集，并且定义初始化标签矩阵，完成参数的初始化；