CN107220656A

CN107220656A - 一种基于自适应特征降维的多标记数据分类方法

Info

Publication number: CN107220656A
Application number: CN201710250167.7A
Authority: CN
Inventors: 龚晓庆; 王磊; 许鹏飞; 郭军; 肖云; 徐丹; 陈晓江; 房鼎益
Original assignee: Northwest University
Current assignee: Northwest University
Priority date: 2017-04-17
Filing date: 2017-04-17
Publication date: 2017-09-29

Abstract

本发明公开了一种基于自适应特征降维的多标记数据分类方法，该方法的过程包括数据读取、重构标记矩阵、构造降维模型、降维模型优化、最优化求解、特征降维以及多标记数据分类等。本发明投影矩阵的最优化求解过程，对高维特征的数据，进行线性变换，投影到低维空间，有效的降低分类任务中数据的复杂程度，去除冗余特征，保留有辨识度的特征，很好的解决了传统方法导致计算复杂度高的问题，提高了数据分类的效率。本发明构造降维模型的过程，利用多标记数据的标记矩阵，通过聚类得到潜在语义信息，有效解决了原始数据中噪声对分类准确率的影响，提高了数据分类的准确率。

Description

一种基于自适应特征降维的多标记数据分类方法

技术领域

本发明属于机器学习技术领域，涉及一种基于自适应特征降维的多标记数据分类方法，用于数据挖掘和大数据中，对包含噪声、特征复杂的多标记数据进行分类。

背景技术

随着计算能力、存储、网络的高速发展，人类积累的数据量正以指数速度增长。对于这些数据，人们迫切希望从中提取出隐藏其中的有用信息，更需要发现更深层次的规律，对决策，商务应用提供更有效的支持。为了满足这种需求，数据挖掘技术的得到了长足的发展，而多标记数据的分类在数据挖掘中是一项非常重要的任务，目前在商业上应用最多。

多标记数据，是指数据中一个样本同时属于多个类别，例如在图像分类任务中，一个图像同时包含“山川”和“河流”，一个文件可能同时属于“环保”和“健康”类别，一个基因同时属于“变异基因”和“复制基因”。多标记数据的特征是人为规定，多标记是先验信息，事前已知的。数据特征是指人为规定的对数据的描述方法，例如图像数据，特征可以是每个图像样本的像素的灰度值所组成的矩阵；文本数据，特征可以是每个文本样本的总字数，特定字符出现的频率等组成的矩阵。所获取的原始数据特征一般所处高维空间，包含信息冗余较大，应用于分类任务中，计算复杂度高，效率低，并且容易受噪声数据影响，准确度不高。因此，传统的分类方法不能很好的应用于数据挖掘的分类过程。

发明内容

针对上述现有技术中存在的问题，本发明的目的在于，提供一种基于自适应特征降维的多标记数据分类方法，以解决现有的分类方法计算复杂度高，准确度低的缺点，提高分类任务的性能。

为了实现上述任务，本发明采用以下技术方案：

一种基于自适应特征降维的多标记数据分类方法，包括以下步骤：

步骤一，读取已知分类的多标记数据，分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y；读取待分类的多标记数据，将待分类的多标记数据的特征存储为矩阵T；

步骤二，将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响；

步骤三，引入投影矩阵W，利用截断范数构造降维模型如下：

上式中，x_i是特征矩阵X的第i行，n是特征矩阵X的行数，即特征矩阵X中的样本个数；v_i是潜在语义矩阵V的第i行，||·||_F是F-范数，||·||₂是2-范数，α和γ是系数，取值范围为(0,1]；

步骤四，在降维模型中加入几何结构约束，以使降维前后数据的局部几何结构保持一致；

步骤五，利用降维模型构造目标函数，采用梯度下降法对目标函数进行迭代，直到目标函数收敛，得到投影矩阵W的最优解；

步骤六，对已知分类的多标记数据、待分类的多标记数据进行投影降维处理，并对降维后的数据进行分类处理，完成。

进一步地，步骤二中进行标记矩阵Y重构时需要满足的公式为：

上式中，表示F-范数的平方，Y为n×k的矩阵，V为n×c的矩阵，B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。

进一步地，步骤四的具体过程包括：

步骤4.1，根据特征矩阵X计算相似度矩阵S的第i行第j列元素：

上式中，x_i、x_j分别是特征矩阵X的第i行和第j列向量，σ²是特征矩阵X的方差；

步骤4.2，定义拉普拉斯矩阵L：

L＝A-S

其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数；

步骤4.3，加入几何结构约束，构造模型如下：

上式中，β是系数，0＜β≤1，Tr(·)表示矩阵的迹，ε为参数，取值范围为(0,0.1]。

进一步地，步骤五的具体过程包括：

步骤5.1，构造目标函数J如下：

为了方便求偏导数和迭代，对目标函数变形得：

其中矩阵F的第i行第i列元素Ind(·)表示满足条件值为1，不满足条件值为0；

步骤5.2，目标函数J(W,V,B)分别对W，V，B求偏导数：

步骤5.3，梯度下降过程，W、V、B的更新规则如下：

其中，λ_V，λ_B，λ_W为梯度下降的步长，取值范围均为(0,1]；

步骤S54，对W、V、B分别赋予随机初值，代入目标函数J(W,V,B)，求得的值记为；利用步骤S53中的变量更新规则，得到新的变量W',V',B',再代入目标函数J(W',V',B')，求得的值记为J'；

计算目标函数的下降程度G＝J'-J，若G＞10^-3，则循环上述步骤，直到G≤10^-3，此时输出投影矩阵W，即为最优化解。

进一步地，步骤六中进行投影降维处理的过程为：

根据步骤五中得到的投影矩阵W，已知分类的多标记数据特征矩阵X的自适应降维后的特征矩阵X'，如下：

X'＝X*W

待分类的多标记数据特征矩阵自适应降维后的特征矩阵T'，如下：

T'＝T*W

进一步地，步骤六中进行分类处理的过程为：

计算特征矩阵T'中第i个样本与特征矩阵X'第j个样本之间的距离D_ij：

D_ij＝|X′_i-T′_j|i,j＝1,2,…n

其中n为特征矩阵X'中样本个数；

对第i个样本与其他样本之间的距离进行升序排列：

{D_i1,D_i2,D_i3…D_ik…D_in}

然后统计距离第i个样本最近的个样本中，统计出现频率最多的类标记，即为第i个样本的所属分类。

本发明与现有技术相比具有以下技术特点：

1.本发明投影矩阵的最优化求解过程，对高维特征的数据，进行线性变换，投影到低维空间，有效的降低分类任务中数据的复杂程度，去除冗余特征，保留有辨识度的特征，很好的解决了传统方法导致计算复杂度高的问题，提高了数据分类的效率。

2.本发明构造降维模型的过程，利用多标记数据的标记矩阵，通过聚类得到潜在语义信息，有效解决了原始数据中噪声对分类准确率的影响，提高了数据分类的准确率。

附图说明

图1为本发明方法的流程图；

具体实施方式

一、方法详细步骤

本发明提供了一种基于自适应特征降维的多标记数据分类方法，包括以下步骤：

步骤一，数据读取

利用Matlab读取已知分类的多标记数据，分别将已知分类的多标记数据的特征和标记存储为特征矩阵X和标记矩阵Y；读取待分类的多标记数据，将待分类的多标记数据的特征存储为矩阵T；

步骤二，重构标记矩阵

将标记矩阵Y重构为潜在语义矩阵V和系数矩阵B以降低标记矩阵Y中噪声的影响；具体地：

为了降低标记矩阵Y中噪声的影响，将Y重构为两个更低维度的潜在语义矩阵V和系数矩阵B。并且重构误差最小，需满足下式：

上式中，表示F-范数的平方，Y为n×k的矩阵，V为n×c的矩阵，B为c×k的矩阵。n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。特征矩阵和表即矩阵为同一个数据集不同方面的描述，其中的样本个数n是相同的。

步骤三，构造降维模型

引入投影矩阵W，利用截断范数构造降维模型如下：

上式中，x_i是特征矩阵X的第i行，n是特征矩阵X的行数，即特征矩阵X中的样本数；v_i是潜在语义矩阵V的第i行，||·||_F是F-范数，||·||₂是2-范数，α和γ是系数，取值范围为(0,1]；投影矩阵W是d×c的矩阵，d是样本特征的维数，c是重构中聚类的个数。降维模型中第一项和第三项就是表达对W的要求，第一项最小化公式要求投影矩阵W要使得投影后的特征矩阵与潜在语义矩阵的误差尽可能小，第三项F-范数要求投影矩阵W每一个元素都尽可能小，从而使得模型泛化能力强。

因为潜在语义矩阵V减少了多标记矩阵Y中噪声的影响，所以我们利用回归模型和潜在语义矩阵V的优势，构造上述降维模型同时进行了标记矩阵Y的重构和降维，同时也加强了降维过程的鲁棒性。

步骤4.1，根据特征矩阵X计算相似度矩阵S的第i行第j列元素：

步骤4.2，定义拉普拉斯矩阵L：

L＝A-S

其中对角矩阵A的第i行第i列元素n是相似度矩阵S中样本的个数，也是行数或列数；矩阵的每个元素代表了任意两个样本之间的相似程度；

步骤4.3，为了使降维前后数据的局部几何结构保持一致，加入几何结构约束，构造模型如下：

上式中，β是系数，0＜β≤1，Tr(·)表示矩阵的迹，ε为参数，取值范围为(0,0.1]，其余参数含义同步骤三中的降维模型。

步骤五，利用步骤四处理后的降维模型构造目标函数，采用梯度下降法对目标函数进行迭代，直到目标函数收敛，得到投影矩阵W的最优解；

步骤5.1，构造目标函数J如下：

为了方便求偏导数和迭代，对目标函数变形得：

骤5.2，目标函数J(W,V,B)分别对W，V，B求偏导数：

步骤5.3，梯度下降过程，W、V、B的更新规则如下：

其中，λ_V，λ_B，λ_W为梯度下降的步长，取值范围均为(0,1]；根据目标函数的趋势确定，当目标函数下降太慢时，将步长调大，当步长过大，而导致目标函数上升时，再将步长调小。

步骤六，对已知分类的多标记数据、待分类的多标记数据进行投影降维处理，并对降维后的数据进行分类处理，完成；具体地：

进行投影降维处理的过程为：

X'＝X*W

T'＝T*W

进行分类处理的过程为：

D_ij＝|X′_i-T′_j|i,j＝1,2,…n

其中n为特征矩阵X'中样本个数；

对第i个样本与其他样本之间的距离进行升序排列：

{D_i1,D_i2,D_i3…D_ik…D_in}

然后统计距离第i个样本最近的个样本中，统计出现频率最多的类标记，

即为第i个样本的所属分类。

二、仿真实验

对本发明中提出的多标记降维方法的仿真。

仿真条件是MATLAB R2014b 64位软件下进行。

本实验以MR Boutell等人于2004年在Pattern Recognition上发表的论文“Learning multi-label scene classification”中的数据集Scene作为仿真实验的数据，包含1211个训练样本，1196个测试样本，294维特征，6个标记。分别对比本发明方法与主成分分析(PCA)，线性判别式(LDA)，局部保持投影(LPP)将特征降低到100维后的在各标记上的分类准确率和总的时间耗费。

表1本发明方法与PCA、LDA、LPP的准确率对比

表2本发明方法与PCA、LDA、LPP的耗费时间对比

方法	PCA	LDA	LPP	本发明方法
					时间(秒)	121	82	180	58

结合表1和表2中的实验数据，本发明的多标记数据分类方法在4个标记的准确率都是高于其他三种方法，并且完成分类任务的时间成本明显低于其他方法。因此，实验结果表明，本发明在大多数情况下具有高准确率、高效率等优点。

Claims

1.一种基于自适应特征降维的多标记数据分类方法，其特征在于，包括以下步骤：

步骤三，引入投影矩阵W，利用截断范数构造降维模型如下：

上式中，x_i是特征矩阵X的第i行，n是特征矩阵X中的样本个数，v_i是潜在语义矩阵V的第i行，||·||_F是F-范数，||·||₂是2-范数，α和γ是系数，取值范围为(0,1]；

2.如权利要求1所述的所述的基于自适应特征降维的多标记数据分类方法，其特征在于，步骤二中进行标记矩阵Y重构时需要满足的公式为：

上式中，表示F-范数的平方，Y为n×k的矩阵，V为n×c的矩阵，B为c×k的矩阵，n,c,k分别是矩阵中样本的个数、重构中聚类的个数、标记的个数。

3.如权利要求1所述的所述的基于自适应特征降维的多标记数据分类方法，其特征在于，步骤四的具体过程包括：

步骤4.1，根据特征矩阵X计算相似度矩阵S的第i行第j列元素：

步骤4.2，定义拉普拉斯矩阵L：

L＝A-S

步骤4.3，加入几何结构约束，构造模型如下：

4.如权利要求3所述的基于自适应特征降维的多标记数据分类方法，其特征在于，步骤五的具体过程包括：

步骤5.1，构造目标函数J如下：

为了方便求偏导数和迭代，对目标函数变形得：

步骤5.2，目标函数J(W,V,B)分别对W，V，B求偏导数：

步骤5.3，梯度下降过程，W、V、B的更新规则如下：

5.如权利要求4所述的基于自适应特征降维的多标记数据分类方法，其特征在于，步骤六中进行投影降维处理的过程为：

X'＝X*W

T'＝T*W 。

6.如权利要求5所述的基于自适应特征降维的多标记数据分类方法，其特征在于，步骤六中进行分类处理的过程为：

D_ij＝|X′_i-T′_j|i,j＝1,2,…n

其中n为特征矩阵X'中样本个数；

对第i个样本与其他样本之间的距离进行升序排列：

{D_i1,D_i2,D_i3…D_ik…D_in}