CN111652265A

CN111652265A - 一种基于自调整图的鲁棒半监督稀疏特征选择方法

Info

Publication number: CN111652265A
Application number: CN202010288873.2A
Authority: CN
Inventors: 朱建勇; 杨辉; 周振辰; 聂飞平
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2020-04-13
Filing date: 2020-04-13
Publication date: 2020-09-11

Abstract

本发明公开了一种基于自调整图的鲁棒半监督稀疏特征选择方法，构造一个预定义的数据图，依据预定义相似图和特征选择过程学***滑性；通过测量简单的线性回归函数与软标签矩阵匹配程度，同时获得最佳的投影矩阵和软标签矩阵；最后，构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数；通过一个高效的交替优化算法，解决所提出的问题。

Description

一种基于自调整图的鲁棒半监督稀疏特征选择方法

技术领域

本发明涉及特征选择工程中的半监督特征选择领域，具体涉及一种基于拉普拉斯相似图调整，增强特征选择模型鲁棒性的半监督特征选择方法。

背景技术

随着人工智能技术的发展，数据样本量及属性特征维度迅速扩增，导致数据处理的维数灾难，同时这些数据往往会含有噪声，也加剧了数据处理的难度。特征选择技术可以减少数据的维数，去除不相关和冗余特征，缩短训练时间，提高学习性能。特征选择方法已在广泛的应用范围被成功地使用。然而，在这些应用中，给样本数据标注标签信息消耗大量的人力物力，而收集大量未标记数据很方便。因此，为了利用少量的标签信息，以及标记数据和未标记数据固有的几何结构信息，半监督特征选择方法获得研究人员的大量关注。

在最近几年，半监督学***滑，有利于数据信息的挖掘。由于半监督特征选择以半监督学习为基础，因此，基于图的半监督特征选择算法是近年来最为活跃的研究领域之一，在理论和实际的应用中得到了发展，并被广泛应用于各领域，如文本分类，基因诊断任务、视频语义识别任务等。然而，目前基于图论的半监督特征选择技术的构图过程与特征选择过程相分离，并且预定义的数据图对原始样本数据比较敏感，导致基于图的半监督特征选择模型选择的特征子集判别性不准确，降低了学习模型的性能。

发明内容

为克服上述现有方法的不足，本发明提出了一种基于自调整图的鲁棒半监督稀疏特征选择方法，简称为SAGFS。

一种基于自调整图的鲁棒半监督稀疏特征选择方法，步骤(1)，构造一个预定义的数据图，依据预定义相似图和特征选择过程学***滑性；通过测量简单的线性回归函数与软标签矩阵匹配程度，同时获得最佳的投影矩阵和软标签矩阵，此外，通过l_2，p范数约束投影矩阵，以获得高效的特征选择的行稀疏投影矩阵；步骤(3)，构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数；通过交替迭代优化策略优化变量。

所述的基于自调整图的鲁棒半监督稀疏特征选择方法，所述步骤(1)中，学习一个最优的相似图替换预定义的数据图，先构造一个初始的稀疏数据图，然后根据输入训练数据的局部几何结构和特征选择的过程进行自调整，最优相似图的学习过程为：

在学习最优相似图，进行调整之前，需要构架初始的相似图A；在构造初始相似图时，给定任意两个数据点x_i和x_j，通过计算||x_i-x_j||衡量数据点之间的亲和值，如果数据点比较近，则两点的亲和值较高；同时，对初始相似矩阵A的每行施加

约束，得到最终的初始相似图矩阵；因此，通过优化目标函数(1)得到初始的相似图矩阵：

上式中，正则化项可以平衡所有数据点，使用x_i近邻的概率为1/n；对于相似矩阵A中每一行的非零元素个数约束为||a_i||₀＝k，并且令

则式(1)变为

式中r_i表示向量，且第j个元素为r_ij；然后，利用拉格朗日乘数法求解函数(2)，则其拉格朗日函数式为：

ξ和η_i≥0为拉格朗日乘子，得到预定义图矩阵A中元素的

即：

通过计算上式，可以得到初始相似图矩阵A，然后学习最优相似图：

在学习的过程中，对新学习的施加

约束，即可以保证新图的稀疏性，也可以融合特征选择的过程；因此，新的相似图S是更适合于半监督特征选择；于是，最佳稀疏相似图S可如下：

式中S、A分别表示新学习的最优相似图和初始的相似图矩阵。

所述的基于自调整图的鲁棒半监督稀疏特征选择方法，所述步骤(2)的具体过程为：在通过学习，得到相似图后，为更好地保留相似图的局部特征，引入拉普拉斯图正则，即式(5)扩展为

式中L_s＝D-S表示新学得相似矩阵S的图拉普拉斯矩阵，其中

将最佳的相似度图嵌入到半监督特征选择的过程，再通过最小二乘方法衡量预测标签的适应度，得到：

式中W表示投影矩阵，通过计算其行和总和进行排序，选择对应的属性特征；为能够选择出判别性较强的特征子集，通常增加稀疏惩罚项，使得投影矩阵更加稀疏，即增加各个属性特征的区分性，所述稀疏惩罚项选自1₁范数、1₂范数、1_2，1范数，1_2，1范数是以1₁范数为基础的变体形式，所以会导致较差的稀疏性；为使特征选择模型具有较好的稀疏性，将式(7)中的稀疏约束改为1_2，p范数，从而增强了模型的稀疏性、鲁棒性，最终得到一种基于自调整图鲁棒半监督稀疏特征选择方法的目标函数，如式(8)所示：

式中S为新学***衡参数、损失项参数以及正则化系数。

所述的基于自调整图的鲁棒半监督稀疏特征选择方法，所述步骤(3)中的目标函数是一个非凸的形式，于是，针对非凸的目标函数，采用迭代优化策略求解，其过程为：

首先，由目标函数(8)中涉及1_2，p范数问题，令

对Γ(W)关于W 进行偏导，得到：

式中D为对角矩阵，其对角线元素值取决于投影矩阵W即：

wⁱ表是投影矩阵的行向量；因此，目标函数(8)等价为：

然后，通过交替迭代优化策略优化变量S，D，W，F，b。

所述的基于自调整图的鲁棒半监督稀疏特征选择方法，交替迭代优化策略包括以下步骤：

步骤1：固定S、D，优化变量W，F，b；对式(11)关于变量W、b分别求偏导，并令偏导数为0，得到：

W＝β(βXHX^T+γD)^-1XHF＝BF (13)

其中B＝β(βXH^T+γD)^-1XH；将(12)、(13)带入则线性函数X^TW+1b^T得：

式中

将将(12)、(13)、(14)带入(11)得：

令P＝(C^T-I)(C-I)，Q＝B^TDB，上式可筋化为：

然后，将矩阵L_s、P以及Q分解，以L_S为例：

式中1、u分别表示已知标签信息样本数和未知标签信息样本数；将分解后的矩阵和

带入式(16)，然后关于F_u求偏导，得到：

F_u＝[αL_uu+βP_uu+γQ_uu]^-1×[-αL_ul-βP_ul-γQ_ul]F_l (18)

步骤2：固定W，F，b，优化变量S、D；根据式(10)优化D；目标函数(11)仅含有变量S，即

为解决方程(19)，依据频谱分析中的重要方程：

因此，公式(20)进一步推导为：

由于每一行都是独立的，所以可以对每一行独立计算，即

令

则(22)变为：

通过拉格朗日乘数求解上式更新S。

综上所述，针对预先设定图对数据中噪音的敏感性及构图过程与特征选择过程相分离，提出学习一个最优的相似图替换预先设定的数据图，使所提出的模型对初始数据中的噪音不敏感。另一方面，在学习新的相似图时，可以根据输入训练数据的局部几何结构和特征选择的过程进行自调整，提升特征子集的判别性。本发明适用于基因诊断、视频语义识别等领域中的半监督特征选择。

附图说明

图1样本数据分布图；

图2 α、β、γ取不同值对半监督特征选择模型的性能的变化；(a)α取值0.1，β、γ变化；(b)β取值1，α、γ变化；(c)γ取值10，α、β变化；(d)α取值0.1，β、γ变化；(e)β取值1，α、γ变化；(f)γ取值100，α、β变化；

图3 p取不同值对半监督特征选择模型的性能的变化；(a)为数据集ISOLET5的结果，(b)为数据集COIL20的结果；

图4选择不同特征个数的分类精确率；(a)Vehicle；(b)ISOLET5；(c)COIL20； (d)USPS；

具体实施方式

以下结合具体实施例，对本发明进行详细说明。

本实施例选择4个真实公开数据集Vehicle、USPS、ISOLET5、COIL20进行实验，其中Vehicle数据集来自UCI数据库，由846个样本组成，每个样本有18个属性；而 USPS、ISOLET5、COIL20来源于Benchmark Dataset，其中USPS由10个数字的9298个图像组成，每个数字图像的大小为16×16；ISOLET5数据集包含1559个带有617个属性的数据集，通过让150名测试人员对字母表中每个字母的名称进行两次发声而形成的，每个测试人员产生52 个测试结果；COIL20其包含对20个物体处理后的1440张图片，对20个物体从不同角度，每隔5度拍摄一张图片，因此，每个物体有72张图片。每个数据集包含了l个已知标签信息样本和u个未知标签信息样本，且每个样本有d个属性特征，其组成如图1所示，X_L＝(x₁，x₂…x_l) 表示已知标签信息样本，其标签信息矩阵为Y_L；X_U＝(x_l+1，x_l+2…x_n)则表示未知标签样本，假定其标签信息矩阵为F_U。针对每个数据集，随机选择60％的样本数据作为训练集，其余样本为测试集。同时，在训练集中，选择30％的数据样本作为已知标签信息样本，利用特征选择算法挑选出相应的属性特征，然后在测试集中，数据样本仅保留筛选出的属性特征，利用支持向量机对测试样本进行分类，并计算预测样本的分类正确率，得出相应的实验分类结果。针对每个数据集中，随机进行10次试验，记录其结果，最后取 10次实验的平均值作为算法性能的评估结果。

首先，基于自调整图的鲁棒半监督稀疏特征选择目标函数中涉及4个参数需要调整，分别为α、β、γ、p。先固定参数p的取值为1，分析参数α、β、γ的对本发明技术的性能影响，其调整范围为{10^-3，10^-2，10^-1，1，10²，10³}，以数据集USPS、ISOLET5的分类性能作为分析结果，如图2所示，其中(a)、(b)、(c)为数据集USPS的实验结果， (d)、(e)、(f)为数据集ISOLET5的实验结果。图2显示了三个参数不同取值时，不同的参数值影响了模型的性能。通过观察发现，本发明的方法对参数α的敏感程度较低，而对β和γ比较敏感。

然后分析参数p的大小为0＜p≤1，在实验中p取值为0.01、0.1、0.5、1，同时，设置参数α＝1，β＝1，γ＝10，实验结果如图3所示，其中(a)为数据集ISOLET5的结果， (b)为数据集COIL20的结果。通过图3可的，在数据集ISOLET5上，当选取的特征子集数小于40时，p＝1的性能低于p取其他值的性能，而大于40时，p＝1性能优于p 取其他值的性能。但是，对于COIL20数据集，p＝1的性能总是低于p取其他值的性能，而p＝0.01的性能最好。综上，通过调节参数，增加了本发明的实用性。

最后，对比现存的特征选择算法，对比算法包括鲁棒有监督特征选择算法(RFS)，无监督特征选择算法(MCFS)，半监督特征选择算法(RRPC)、(LSDF)、(SSelect)、(TRCFS)。对比结果如图4所示。对于实验中的每个数据集，本发明于采用了自调整图替换初始的相似图，在选择不同数量特征子集时，通常优于所有比较的特征选择方法。由以上可知，本发明的方法能较好选择出判别性强的特征子集。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于自调整图的鲁棒半监督稀疏特征选择方法，其特征在于，步骤(1)，构造一个预定义的数据图，依据预定义相似图和特征选择过程学***滑性；通过测量简单的线性回归函数与软标签矩阵匹配程度，同时获得最佳的投影矩阵和软标签矩阵，此外，通过1_2，p范数约束投影矩阵，以获得高效的特征选择的行稀疏投影矩阵；步骤(3)，构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数；通过交替迭代优化策略优化变量。

2.根据权利要求1所述的基于自调整图的鲁棒半监督稀疏特征选择方法，其特征在于，所述步骤(1)中，学习一个最优的相似图替换预定义的数据图，先构造一个初始的稀疏数据图，然后根据输入训练数据的局部几何结构和特征选择的过程进行自调整，最优相似图的学习过程为：