CN111652265A - 一种基于自调整图的鲁棒半监督稀疏特征选择方法 - Google Patents
一种基于自调整图的鲁棒半监督稀疏特征选择方法 Download PDFInfo
- Publication number
- CN111652265A CN111652265A CN202010288873.2A CN202010288873A CN111652265A CN 111652265 A CN111652265 A CN 111652265A CN 202010288873 A CN202010288873 A CN 202010288873A CN 111652265 A CN111652265 A CN 111652265A
- Authority
- CN
- China
- Prior art keywords
- graph
- matrix
- feature selection
- similarity
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2136—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on sparsity criteria, e.g. with an overcomplete basis
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于自调整图的鲁棒半监督稀疏特征选择方法,构造一个预定义的数据图,依据预定义相似图和特征选择过程学***滑性;通过测量简单的线性回归函数与软标签矩阵匹配程度,同时获得最佳的投影矩阵和软标签矩阵;最后,构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数;通过一个高效的交替优化算法,解决所提出的问题。
Description
技术领域
本发明涉及特征选择工程中的半监督特征选择领域,具体涉及一种基于拉普拉斯相似图调整,增强特征选择模型鲁棒性的半监督特征选择方法。
背景技术
随着人工智能技术的发展,数据样本量及属性特征维度迅速扩增,导致数据处理的维数灾难,同时这些数据往往会含有噪声,也加剧了数据处理的难度。特征选择技术可以减少数据的维数,去除不相关和冗余特征,缩短训练时间,提高学习性能。特征选择方法已在广泛的应用范围被成功地使用。然而,在这些应用中,给样本数据标注标签信息消耗大量的人力物力,而收集大量未标记数据很方便。因此,为了利用少量的标签信息,以及标记数据和未标记数据固有的几何结构信息,半监督特征选择方法获得研究人员的大量关注。
在最近几年,半监督学***滑,有利于数据信息的挖掘。由于半监督特征选择以半监督学习为基础,因此,基于图的半监督特征选择算法是近年来最为活跃的研究领域之一,在理论和实际的应用中得到了发展,并被广泛应用于各领域,如文本分类,基因诊断任务、视频语义识别任务等。然而,目前基于图论的半监督特征选择技术的构图过程与特征选择过程相分离,并且预定义的数据图对原始样本数据比较敏感,导致基于图的半监督特征选择模型选择的特征子集判别性不准确,降低了学习模型的性能。
发明内容
为克服上述现有方法的不足,本发明提出了一种基于自调整图的鲁棒半监督稀疏特征选择方法,简称为SAGFS。
一种基于自调整图的鲁棒半监督稀疏特征选择方法,步骤(1),构造一个预定义的数据图,依据预定义相似图和特征选择过程学***滑性;通过测量简单的线性回归函数与软标签矩阵匹配程度,同时获得最佳的投影矩阵和软标签矩阵,此外,通过l2,p范数约束投影矩阵,以获得高效的特征选择的行稀疏投影矩阵;步骤(3),构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数;通过交替迭代优化策略优化变量。
所述的基于自调整图的鲁棒半监督稀疏特征选择方法,所述步骤(1)中,学习一个最优的相似图替换预定义的数据图,先构造一个初始的稀疏数据图,然后根据输入训练数据的局部几何结构和特征选择的过程进行自调整,最优相似图的学习过程为:
在学习最优相似图,进行调整之前,需要构架初始的相似图A;在构造初始相似图时,给定任意两个数据点xi和xj,通过计算||xi-xj||衡量数据点之间的亲和值,如果数据点比较近,则两点的亲和值较高;同时,对初始相似矩阵A的每行施加约束,得到最终的初始相似图矩阵;因此,通过优化目标函数(1)得到初始的相似图矩阵:
式中ri表示向量,且第j个元素为rij;然后,利用拉格朗日乘数法求解函数(2),则其拉格朗日函数式为:
通过计算上式,可以得到初始相似图矩阵A,然后学习最优相似图:
式中S、A分别表示新学习的最优相似图和初始的相似图矩阵。
所述的基于自调整图的鲁棒半监督稀疏特征选择方法,所述步骤(2)的具体过程为:在通过学习,得到相似图后,为更好地保留相似图的局部特征,引入拉普拉斯图正则,即式(5)扩展为
将最佳的相似度图嵌入到半监督特征选择的过程,再通过最小二乘方法衡量预测标签的适应度,得到:
式中W表示投影矩阵,通过计算其行和总和进行排序,选择对应的属性特征;为能够选择出判别性较强的特征子集,通常增加稀疏惩罚项,使得投影矩阵更加稀疏,即增加各个属性特征的区分性,所述稀疏惩罚项选自11范数、12范数、12,1范数,12,1范数是以11范数为基础的变体形式,所以会导致较差的稀疏性;为使特征选择模型具有较好的稀疏性,将式(7)中的稀疏约束改为12,p范数,从而增强了模型的稀疏性、鲁棒性,最终得到一种基于自调整图鲁棒半监督稀疏特征选择方法的目标函数,如式(8)所示:
式中S为新学***衡参数、损失项参数以及正则化系数。
所述的基于自调整图的鲁棒半监督稀疏特征选择方法,所述步骤(3)中的目标函数是一个非凸的形式,于是,针对非凸的目标函数,采用迭代优化策略求解,其过程为:
式中D为对角矩阵,其对角线元素值取决于投影矩阵W即:
wi表是投影矩阵的行向量;因此,目标函数(8)等价为:
然后,通过交替迭代优化策略优化变量S,D,W,F,b。
所述的基于自调整图的鲁棒半监督稀疏特征选择方法,交替迭代优化策略包括以下步骤:
步骤1:固定S、D,优化变量W,F,b;对式(11)关于变量W、b分别求偏导,并令偏导数为0,得到:
W=β(βXHXT+γD)-1XHF=BF (13)
其中B=β(βXHT+γD)-1XH;将(12)、(13)带入则线性函数XTW+1bT得:
令P=(CT-I)(C-I),Q=BTDB,上式可筋化为:
然后,将矩阵Ls、P以及Q分解,以LS为例:
Fu=[αLuu+βPuu+γQuu]-1×[-αLul-βPul-γQul]Fl (18)
步骤2:固定W,F,b,优化变量S、D;根据式(10)优化D;目标函数(11)仅含有变量S,即
为解决方程(19),依据频谱分析中的重要方程:
因此,公式(20)进一步推导为:
由于每一行都是独立的,所以可以对每一行独立计算,即
通过拉格朗日乘数求解上式更新S。
综上所述,针对预先设定图对数据中噪音的敏感性及构图过程与特征选择过程相分离,提出学习一个最优的相似图替换预先设定的数据图,使所提出的模型对初始数据中的噪音不敏感。另一方面,在学习新的相似图时,可以根据输入训练数据的局部几何结构和特征选择的过程进行自调整,提升特征子集的判别性。本发明适用于基因诊断、视频语义识别等领域中的半监督特征选择。
附图说明
图1样本数据分布图;
图2 α、β、γ取不同值对半监督特征选择模型的性能的变化;(a)α取值0.1,β、γ变化;(b)β取值1,α、γ变化;(c)γ取值10,α、β变化;(d)α取值0.1,β、γ变化;(e)β取值1,α、γ变化;(f)γ取值100,α、β变化;
图3 p取不同值对半监督特征选择模型的性能的变化;(a)为数据集ISOLET5的结果,(b)为数据集COIL20的结果;
图4选择不同特征个数的分类精确率;(a)Vehicle;(b)ISOLET5;(c)COIL20; (d)USPS;
具体实施方式
以下结合具体实施例,对本发明进行详细说明。
本实施例选择4个真实公开数据集Vehicle、USPS、ISOLET5、COIL20进行实验,其中Vehicle数据集来自UCI数据库,由846个样本组成,每个样本有18个属性;而 USPS、ISOLET5、COIL20来源于Benchmark Dataset,其中USPS由10个数字的9298个图像组成,每个数字图像的大小为16×16;ISOLET5数据集包含1559个带有617个属性的数据集,通过让150名测试人员对字母表中每个字母的名称进行两次发声而形成的,每个测试人员产生52 个测试结果;COIL20其包含对20个物体处理后的1440张图片,对20个物体从不同角度,每隔5度拍摄一张图片,因此,每个物体有72张图片。每个数据集包含了l个已知标签信息样本和u个未知标签信息样本,且每个样本有d个属性特征,其组成如图1所示,XL=(x1,x2…xl) 表示已知标签信息样本,其标签信息矩阵为YL;XU=(xl+1,xl+2…xn)则表示未知标签样本,假定其标签信息矩阵为FU。针对每个数据集,随机选择60%的样本数据作为训练集,其余样本为测试集。同时,在训练集中,选择30%的数据样本作为已知标签信息样本,利用特征选择算法挑选出相应的属性特征,然后在测试集中,数据样本仅保留筛选出的属性特征,利用支持向量机对测试样本进行分类,并计算预测样本的分类正确率,得出相应的实验分类结果。针对每个数据集中,随机进行10次试验,记录其结果,最后取 10次实验的平均值作为算法性能的评估结果。
首先,基于自调整图的鲁棒半监督稀疏特征选择目标函数中涉及4个参数需要调整,分别为α、β、γ、p。先固定参数p的取值为1,分析参数α、β、γ的对本发明技术的性能影响,其调整范围为{10-3,10-2,10-1,1,102,103},以数据集USPS、ISOLET5的分类性能作为分析结果,如图2所示,其中(a)、(b)、(c)为数据集USPS的实验结果, (d)、(e)、(f)为数据集ISOLET5的实验结果。图2显示了三个参数不同取值时,不同的参数值影响了模型的性能。通过观察发现,本发明的方法对参数α的敏感程度较低,而对β和γ比较敏感。
然后分析参数p的大小为0<p≤1,在实验中p取值为0.01、0.1、0.5、1,同时,设置参数α=1,β=1,γ=10,实验结果如图3所示,其中(a)为数据集ISOLET5的结果, (b)为数据集COIL20的结果。通过图3可的,在数据集ISOLET5上,当选取的特征子集数小于40时,p=1的性能低于p取其他值的性能,而大于40时,p=1性能优于p 取其他值的性能。但是,对于COIL20数据集,p=1的性能总是低于p取其他值的性能,而p=0.01的性能最好。综上,通过调节参数,增加了本发明的实用性。
最后,对比现存的特征选择算法,对比算法包括鲁棒有监督特征选择算法(RFS),无监督特征选择算法(MCFS),半监督特征选择算法(RRPC)、(LSDF)、(SSelect)、(TRCFS)。对比结果如图4所示。对于实验中的每个数据集,本发明于采用了自调整图替换初始的相似图,在选择不同数量特征子集时,通常优于所有比较的特征选择方法。由以上可知,本发明的方法能较好选择出判别性强的特征子集。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。
Claims (5)
1.一种基于自调整图的鲁棒半监督稀疏特征选择方法,其特征在于,步骤(1),构造一个预定义的数据图,依据预定义相似图和特征选择过程学***滑性;通过测量简单的线性回归函数与软标签矩阵匹配程度,同时获得最佳的投影矩阵和软标签矩阵,此外,通过12,p范数约束投影矩阵,以获得高效的特征选择的行稀疏投影矩阵;步骤(3),构成基于自调整图的鲁棒半监督稀疏特征选择方法的目标函数;通过交替迭代优化策略优化变量。
2.根据权利要求1所述的基于自调整图的鲁棒半监督稀疏特征选择方法,其特征在于,所述步骤(1)中,学习一个最优的相似图替换预定义的数据图,先构造一个初始的稀疏数据图,然后根据输入训练数据的局部几何结构和特征选择的过程进行自调整,最优相似图的学习过程为:
在学习最优相似图,进行调整之前,需要构架初始的相似图A;在构造初始相似图时,给定任意两个数据点xi和xj,通过计算||xi-xj||衡量数据点之间的亲和值,如果数据点比较近,则两点的亲和值较高;同时,对初始相似矩阵A的每行施加αij≥0约束,得到最终的初始相似图矩阵;因此,通过优化目标函数(1)得到初始的相似图矩阵:
式中ri表示向量,且第j个元素为rij;然后,利用拉格朗日乘数法求解函数(2),则其拉格朗日函数式为:
通过计算上式,可以得到初始相似图矩阵A,然后学习最优相似图:
式中S、A分别表示新学习的最优相似图和初始的相似图矩阵。
3.根据权利要求1所述的基于自调整图的鲁棒半监督稀疏特征选择方法,其特征在于,所述步骤(2)的具体过程为:在通过学习,得到相似图后,为更好地保留相似图的局部特征,引入拉普拉斯图正则,即式(5)扩展为
式中Ls=D-S表示新学得相似矩阵S的图拉普拉斯矩阵,其中D=∑jSij;
将最佳的相似度图嵌入到半监督特征选择的过程,再通过最小二乘方法衡量预测标签的适应度,得到:
式中W表示投影矩阵,通过计算其行和总和进行排序,选择对应的属性特征;为能够选择出判别性较强的特征子集,通常增加稀疏惩罚项,使得投影矩阵更加稀疏,即增加各个属性特征的区分性,所述稀疏惩罚项选自11范数、12范数、12,1范数,12,1范数是以11范数为基础的变体形式,所以会导致较差的稀疏性;为使特征选择模型具有较好的稀疏性,将式(7)中的稀疏约束改为12,p范数,从而增强了模型的稀疏性、鲁棒性,最终得到一种基于自调整图鲁棒半监督稀疏特征选择方法的目标函数,如式(8)所示:
式中S为新学***衡参数、损失项参数以及正则化系数。
5.根据权利要求4所述基于自调整图的鲁棒半监督稀疏特征选择方法,其特征在于,交替迭代优化策略包括以下步骤:
步骤1:固定S、D,优化变量W,F,b;对式(11)关于变量W、b分别求偏导,并令偏导数为0,得到:
W=β(βXHXT+γD)-1XHF=BF (13)
其中B=β(βXHXT+γD)-1XH;将(12)、(13)带入则线性函数XTW+1bT得:
令P=(CT-I)(C-I),Q=BTDB,上式可简化为:
然后,将矩阵Ls、P以及Q分解,以Ls为例:
Fu=[αLuu+βPuu+γQuu]-1×[-αLul-βPul-γQul]Fl (18)
步骤2:固定W,F,b,优化变量S、D;根据式(10)优化D;目标函数(11)仅含有变量S,即
为解决方程(19),依据频谱分析中的重要方程:
因此,公式(20)进一步推导为:
由于每一行都是独立的,所以可以对每一行独立计算,即
通过拉格朗日乘数求解上式更新S。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288873.2A CN111652265A (zh) | 2020-04-13 | 2020-04-13 | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010288873.2A CN111652265A (zh) | 2020-04-13 | 2020-04-13 | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111652265A true CN111652265A (zh) | 2020-09-11 |
Family
ID=72345520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010288873.2A Pending CN111652265A (zh) | 2020-04-13 | 2020-04-13 | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652265A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364902A (zh) * | 2020-10-30 | 2021-02-12 | 太原理工大学 | 一种基于自适应相似性的特征选择学习方法 |
CN117854139A (zh) * | 2024-03-07 | 2024-04-09 | 中国人民解放军总医院第三医学中心 | 基于稀疏选择的开角型青光眼识别方法、介质及*** |
-
2020
- 2020-04-13 CN CN202010288873.2A patent/CN111652265A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364902A (zh) * | 2020-10-30 | 2021-02-12 | 太原理工大学 | 一种基于自适应相似性的特征选择学习方法 |
CN117854139A (zh) * | 2024-03-07 | 2024-04-09 | 中国人民解放军总医院第三医学中心 | 基于稀疏选择的开角型青光眼识别方法、介质及*** |
CN117854139B (zh) * | 2024-03-07 | 2024-05-28 | 中国人民解放军总医院第三医学中心 | 基于稀疏选择的开角型青光眼识别方法、介质及*** |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9679226B1 (en) | Hierarchical conditional random field model for labeling and segmenting images | |
CN114119979A (zh) | 基于分割掩码和自注意神经网络的细粒度图像分类方法 | |
CN110751209A (zh) | 一种融合深度图像分类和检索的智能台风定强方法 | |
CN111652265A (zh) | 一种基于自调整图的鲁棒半监督稀疏特征选择方法 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和*** | |
CN115496950A (zh) | 邻域信息嵌入的半监督判别字典对学习的图像分类方法 | |
CN115393666A (zh) | 图像分类中基于原型补全的小样本扩充方法及*** | |
CN110188864B (zh) | 基于分布表示和分布度量的小样本学习方法 | |
CN113344069B (zh) | 一种基于多维关系对齐的无监督视觉表征学习的图像分类方法 | |
CN113313179B (zh) | 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法 | |
CN113065520A (zh) | 一种面向多模态数据的遥感图像分类方法 | |
CN107480718A (zh) | 一种基于视觉词袋模型的高分辨率遥感图像分类方法 | |
CN111832391A (zh) | 基于截断核范数的低秩判别嵌入法的图像降维方法及图像识别方法 | |
CN108319935B (zh) | 基于区域稀疏的人脸群体识别方法 | |
CN115392474B (zh) | 一种基于迭代优化的局部感知图表示学习方法 | |
CN115423090A (zh) | 一种面向细粒度识别的类增量学习方法 | |
CN111783788B (zh) | 一种面向标记噪声的多标记分类方法 | |
Sari et al. | Parking Lots Detection in Static Image Using Support Vector Machine Based on Genetic Algorithm. | |
CN114202694A (zh) | 基于流形混合插值和对比学习的小样本遥感场景图像分类方法 | |
CN115512174A (zh) | 应用二次IoU损失函数的无锚框目标检测方法 | |
CN116310463B (zh) | 一种无监督学习的遥感目标分类方法 | |
CN117994667B (zh) | 基于多模型融合的遥感影像重点关注区域精确识别方法 | |
CN114187510B (zh) | 基于元核网络的小样本遥感场景分类方法 | |
Huang et al. | Automatic image annotation by incorporating weighting strategy with CSOM classifier | |
CN116740345A (zh) | 基于渐进式解析和共有性蒸馏的少样本遥感图像分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200911 |
|
RJ01 | Rejection of invention patent application after publication |