CN105469111B

CN105469111B - 基于改进的mfa和迁移学习的小样本集的物体分类方法

Info

Publication number: CN105469111B
Application number: CN201510801292.3A
Authority: CN
Inventors: 于慧敏; 舒醒; 郑伟伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-11-19
Filing date: 2015-11-19
Publication date: 2019-03-01
Anticipated expiration: 2035-11-19
Also published as: CN105469111A

Abstract

本发明公开了一种基于改进的MFA(Marginal Fisher Analysis)和迁移学习的小样本集(目标域)分类算法。首先，利用一个具有大量标记样本的同构数据集(源域)和内积度量距离的边际Fisher准则将源域和目标域样本的特征映射到低维空间；之后，剔除源域边界奇异点，选择源域密集区域样本点并与目标域中少量的标记样本点组成迁移学习训练样本对；然后在核化空间上，学习目标域到源域的非线性特征转换矩阵；最后利用源域的大量标记样本训练分类器，通过非线性特征转换矩阵将目标域样本映射到源域中，并输入到训练好的分类器中得到小样本集上的物体分类结果。

Description

基于改进的MFA和迁移学习的小样本集的物体分类方法

技术领域

本发明涉及一种计算机视觉技术领域的小样本集的物体分类方法，具体为一种基于改进的MFA和迁移学习的小样本集的物体分类方法。

背景技术

近年来，随着计算机技术和模式识别技术的迅速发展，物体分类技术是当前国内外计算机视觉领域一个活跃的研究方向，在越来越多的领域得到了应用，例如行人检测、智能交通(Intelligent Transportation systems)、医疗图像分类等。基于现实场景，如何设计一种对物体图像进行准确而鲁棒性好的分类方法，是物体分类技术走向实际应用的关键核心问题。

传统的物体分类方法，大都是基于大量的标记样本作为训练样本，最终训练分类器的各个参数。然而，在实际场景的应用中，获取大量标记样本是一个非常棘手的问题。大量标记样本的获取是一个昂贵、极其耗费人力和时间的过程，同时人工标记过程中很可能会出现一些人为标记错误的情况。在少量样本集上，由于缺乏大量的标记训练数据，按照传统的图像分类方法得到的分类器并不能得到理想的分类准确率。那么我们可以利用现有的标记样本的大样本集(源域)来提高小样本集(目标域)的分类准确率。但是，源域训练得到的分类器直接应用在目标域中并不能得到理想的效果，这是因为不同域中的特征分布是有差异的。导致域间差异的因素有很多，比如相机参数、光线、视角、分辨率、背景和姿态等等，如图1所示。图1中源域(上)与目标域(下)是存在差异的，与源域相比，目标域中的背景更复杂，分辨率更低，视角更多样。

一个重要的问题是我们如何将源域作为目标域的先验知识，利用域间的相关性，通过迁移学习的方法来提高目标域的分类准确率。针对小样本集的物体分类问题，Saenko等人于2010年发表在《European Conference on Computer Vision》(欧洲计算机视觉国际会议)的一篇文章“Adapting Visual Category Models to New Domains”中就该问题进行的探讨，提出了基于域适应的算法计算出源域和目标域间的特征映射矩阵提高目标域的分类准确率。Long等人于2015年在《IEEE Transactions on Knowledge & DataEngineering》上的“Domain Invariant Transfer Kernel Learning”一文中学习了一种能够直接使源域和目标域间的特征分布相匹配的域间不变核，从而达到域间迁移学习提高小样本集的物体分类准确率的目的。

虽然借助于源域中的标记样本来优化目标域的分类模型提高分类准确率，然而现有的方法普遍存在如下两个问题：首先，现有算法缺乏考虑如果源域内不同类在特征空间中相互交错，不具有很好的类别差异性，那么目标域中的类别映射到源域也不能保证相互之间是可区分的。其次，在现有算法的特征转换训练过程中，源域中的训练样本是随机选取并与目标域中的标记样本组成训练对，如果该过程选取的点是在源域对应类别的边界上，那么目标域样本也会被映射到源域的边界区域，这样势必会影响类别间的分类。

因此，当目标域仅有少量标记样本时，为了更充分地利用大量已有的同构标记数据、学习高效的域间迁移学习进而提高小样本集的物体分类的准确率，本发明提出了基于改进的MFA和迁移学习的小样本集的物体分类方法，从而提高小样本集上的物体分类的鲁棒性和准确性。

发明内容

本发明为了解决现有技术中的问题，提出一种基于改进的MFA和迁移学习的小样本集的物体分类方法，利用改进后的MFA算法将特征映射到新的特征空间上，学习大样本集和小样本集间非线性的特征转换将小样本集上的样本映射到大样本集中，从而利用大样本集上训练得到的分类器提升小样本集物体分类的鲁棒性和准确性。

本发明采用以下技术方案：一种基于改进的MFA和迁移学习的小样本集的物体分类方法，包括以下步骤：

步骤1：提取图像的底层特征：对源域和目标域中的每一幅图片，分别进行灰度化，提取图像的纹理特征，并进行量化，其中源域中包含大量的标记样本，目标域中仅少量的样本是有标记的；

步骤2：计算特征变换矩阵M：基于图嵌入的框架利用内积作为距离的度量，利用源域中的标记数据构造出表示类内紧凑性的本征图和表示类间区分性的惩罚图，并计算出特征变换矩阵M，将源域和目标域中样本的特征映射到新的特征空间中；

步骤3：自适应筛选迁移学习过程中的训练样本对：剔除源域中各类别的边界奇异点，其余点作为候选点，从候选点中选取出k_A个源域样本点构成集合T(A)，并和目标域中的k_B个标记样本点集T(B)共同组成训练样本对；

步骤4：域间迁移学习出特征转换矩阵W：通过特征转换矩阵W将目标域映射到源域，正则化W，记为γ(M)，该迁移学习的优化问题表示为：

s.t. f_i(X^TWY)≥0,1≤i≤c.

其中f_i(X^TWY)为约束函数，c为类别数。设σ₁，σ₂，...σ_p是W的奇异值，则γ_j是一个标量函数。假设是源域中的标记样本，其中是样本x_i的标签；是目标域中的标记样本，其中是样本y_j的标签。l为相似性上限，u为相似性下限，该问题的约束条件表示为：

该迁移学习问题的求解表示为：

s.t.x_i'∈T(A),y_j'∈T(B)

其中x_i'＝Mx_i，y_j'＝My_j，λ为松弛系数。并将算法引入特征的核化空间，算法中出现特征向量内积的地方用核化函数表示，求解得到W；

步骤5：在源域上训练分类器，并计算目标域中的物体分类。

进一步地，所述步骤2具体包括以下子步骤：

步骤2.1：本征图的类内紧凑性的计算方法如下：

在本征图G_c中，类内紧凑性S_c是由源域中的每一个样本与其近邻且同类的样本点的距离之和描述；

步骤2.2：惩罚图的类间区分性的计算方法如下：

在惩罚图G_p中，类间分离性S_p是由源域中边界奇异点与其近邻且异类的边界点的距离之和描述；

步骤2.3：特征变换矩阵M利用图嵌入结构,通过最小化类内紧凑性和类间分离性计算得到,即：

本发明采用以上技术方案与现有技术相比，具有以下技术效果：

1)本发明考虑到样本的类别标记获取难度大的问题，将已有标记的大样本集的样本集作为先验知识，通过与小样本集中少量标记样本间的迁移学习，实现提升小样本集上物体分类的准确性和鲁棒性；

2)本发明改进了传统的MFA算法，利用内积作为距离度量，将原始特征映射到了新的特征空间中，充分提高源域的类内紧凑性和类间区分性，从而保证目标域映射到源域后尽可能地实现类内更紧凑，类间更分离的效果；

3)与现有技术相比，本发明更考虑到了迁移学习过程中训练样本对的筛选过程，通过自适应的训练样本对的筛选算法，避免边界奇异点对于特征转换矩阵学习结果的影响，使得迁移学习的效果更强。

附图说明

图1为源域与目标域的差异图，(a)为源域，(b)为目标域；

图2为本发明的整体流程示意图。

具体实施方式

下面结合具体实施例，对本发明的技术方案做进一步的详细说明。

以下实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例

本实施例对某数据库中的amazon，webcam两个数据域进行处理。这两个域中均有31个物体类别。amazon，webcam分别作为源域和目标域。在本发明的实施例中，如图2所示，该方法包括以下步骤：

步骤1：提取图像的底层特征：对源域和目标域中的每一幅图片，分别进行灰度化，并提取其SURF特征作为图像的纹理特征，最后被量化成800维的特征；

步骤2：改进传统的MFA算法，计算特征变换矩阵M：对传统的MFA方法进行改进，基于图嵌入的框架利用内积作为距离的度量，利用源域中的标记数据构造出表示类内紧凑性的本征图和表示类间区分性的惩罚图，并计算出特征变换矩阵M，将源域和目标域中样本的特征映射到新的特征空间中。该步骤具体包括以下子步骤：

步骤2.1：本征图的类内紧凑性的计算方法如下：

在本征图G_c中，类内紧凑性S_c是由源域中每一个样本与其近邻且同类的样本点的距离之和描述。类内紧凑性S_c表示为：

其中M代表特征变换矩阵，表示k₁个与样本x_i同类并与x_i近邻的样本点的索引集；

步骤2.2：惩罚图的类间区分性的计算方法如下：

在惩罚图G_p中，类间分离性S_p是由源域中边界奇异点与其近邻且异类的边界点的距离之和描述。类间分离性S_p表示为：

其中表示中k₂个最邻近的边界样本对集，为c_i类别的边界样本点的索引集；

步骤3：自适应筛选迁移学习过程中的训练样本对：分别用样本间的内积作为度量计算源域每个类别中各个样本间的距离，剔除源域中各类别的边缘奇异点，其余点作为候选点，从候选点中选取出20个源域样本点构成集合T(A)，并和目标域中的3个标记样本点集T(B)共同组成训练样本对；

s.t. f_i(X^TWY)≥0,1≤i≤c.

其中f_i(X^TWY)为约束函数，c为类别数，本实施例中，c＝31。设σ₁，σ₂，...σ_p是W的奇异值，则γ_j是一个标量函数。假设是源域中的标记样本，其中是样本x_i的标签；是目标域中的标记样本，其中是样本y_j的标签。l为相似性上限，u为相似性下限，该问题的约束条件表示为：

该迁移学习问题的求解表示为：

s.t.x_i'∈T(A),y_j'∈T(B)

其中x_i'＝Mx_i，y_j'＝My_j，在该实施例中，λ＝10³。并将算法引入特征的核化空间，算法中出现特征向量内积的地方用核化函数表示，其中核函数利用的是高斯RBF核函数，求解得到W；

步骤5：在源域上训练分类器，并计算目标域中的物体分类：将目标域中的样本通过步骤4中学习的特征转换矩阵W映射到源域,并输入到分类器中计算目标域上即小样本集上的物体类别。

Claims

1.一种基于改进的MFA和迁移学习的小样本集的物体分类方法，其特征在于，包括以下步骤：

步骤4：域间迁移学习出特征转换矩阵W：通过特征转换矩阵W将目标域映射到源域，正则化W，记为γ(W)，该迁移学习的优化问题表示为：

s.t.f_i(X^TWY)≥0,1≤i≤c

其中f_i(X^TWY)为约束函数，c为类别数；设σ₁，σ₂，…σ_p是W的奇异值，则γ_j()是一个标量函数；假设是源域中的标记样本，其中是样本x_i的标签；是目标域中的标记样本，其中是样本y_j的标签；l为相似性上限，u为相似性下限，该问题的约束条件表示为：

则该迁移学习的优化问题表示为：

s.t.x′_i∈T(A),y′_j∈T(B)

其中x_i'＝Mx_i，y_j'＝My_j，λ为松弛系数；引入特征的核化空间，将上述优化问题中出现特征向量内积的地方用核化函数表示，求解得到W；

步骤5：在源域上训练分类器，并计算目标域中的物体分类。

2.根据权利要求1所述的一种基于改进的MFA和迁移学习的小样本集的物体分类方法，其特征在于：所述步骤2具体包括以下子步骤：

步骤2.1：本征图的类内紧凑性的计算方法如下：

步骤2.2：惩罚图的类间区分性的计算方法如下：

在惩罚图G_p中，类间区分性S_p是由源域中边界奇异点与其近邻且异类的边界点的距离之和描述；

步骤2.3：特征变换矩阵M利用基于图嵌入的框架，通过最小化类内紧凑性和类间区分性计算得到，即：。