CN110533193A

CN110533193A - 半监督场景下特征和实例联合迁移学习方法

Info

Publication number: CN110533193A
Application number: CN201910770868.2A
Authority: CN
Inventors: 黄浩然; 文江辉; 邓兵; 肖新平; 饶从军
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2019-12-03

Abstract

本发明公开了一种半监督场景下特征和实例联合迁移学***衡分布适应方法和自学习实例迁移方法；并以此为基础构建特征和实例联合迁移学习方法FSJT。

Description

半监督场景下特征和实例联合迁移学习方法

技术领域

本发明涉及机器学习中迁移学习技术领域，具体地指一种半监督场景下特征和实例联合迁移学习方法。

背景技术

在2005年美国国防部高级研究计划局(DARPA)信息处理技术办公室的公告中正式给出迁移学习一个定义，即把其他任务中学到的知识和技能应用于新任务的能力。与多任务学习相比，迁移学习更关心的是目标任务，而不是同时学习所有的源任务和目标任务。源任务和目标任务在迁移学习中的角色不再是对称的。在迁移学习中需要研究的任务空间称为目标域(Target domain)，而之前与之相关的任务空间称为源域(Source domain)。现阶段迁移学习的发展主要有以下几个方向，基于实例的迁移学习、基于特征的迁移学习，基于参数的迁移等。

基于实例的迁移较为直观，主要思想为：尽管源域数据不能直接利用，但数据的某些部分仍然可以与目标域中的已有的训练数据一起使用。如何筛选可以使用的源域数据也成为实例迁移学习的重点，例如经典的实例迁移方法TrAdaBoost算法。另外从分布的比值角度进行相关研究，提出传递迁移学习方法(Transitive Transfer Learning,TTL)等。

基于特征的迁移是指通过特征变换的方式对领域间的数据进行迁移，以减少源域和目标域的差距。迁移成分分析方法(Transfer Component Analysis,TCA)作为经典的特征迁移方法由Pan等人提出，该方法利用最大均值差异(Maximum Mean Discrepancy,MMD)作为领域间概率分布的度量准则，目标是将分布差异最小化。

目前，有学者在结合实例和特征的迁移方法中做出探索。Long等人提出在最小化分布距离的同时，加入实例选择的迁移联合匹配(Tranfer Joint Matching,TJM)方法，将实例和特征迁移学习方法进行了有机的结合。但是当前的迁移学习方法主要利用目标域中的少量带标签数据，或直接利用无标签数据。而传统的半监督学习同时利用一个领域内的两类数据，因此，如果在迁移学习中考虑半监督场景，就能学习到更多的目标领域已有的知识。

发明内容

本发明的目的是为了解决上述背景技术存在的问题，而提出的一种半监督场景下特征和实例联合迁移学习方法(Feature and Sample Jointed Transfer,简称FSJT)，针对目标域有少量带标签数据和大量无标签数据的情形，且源域和目标域差异较大的情形，以期提升目标域上分类的准确率。

为实现上述目的，本发明所设计的半监督场景下特征和实例联合迁移学习方法，其特殊之处在于，所述方法包括以下步骤：

步骤1：定义模型中数据：给定一个领域，已知该领域中每一个数据所属类别用“0”或“1”表示，记为源域D_s，包含的n个样本用特征矩阵和类别标签向量形式表示为简记为{x_s,y_s}；给定另一个领域，记为目标域D_t，其中m个样本组成带标签数据集记为不带标签数据集记为两类数据集共记为包含m+k个训练样本，且假设中样本数量不足以训练一个可靠的分类器；

假设特征空间X_s＝X_t，即两个领域的特征种类与数量相同，类别空间Y_s＝Y_t，但边缘分布P_s(x_s)≠P_t(x_t)，条件分布P_s(y_s|x_s)≠P_t(y_t|x_t)，目标是利用源域D_s中数据集{x_s,y_s}和目标域D_t中数据集学习目标域中未标注数据的类别其中r＝1,...,l，n、m、k、l均为大于1的自然数；

步骤2：利用平衡参数μ，构建目标函数并进行化简求解得到：

其中min表示求目标函数最小值，s.t.表示目标函数的约束条件。tr()表示求矩阵的迹，X是由源域与目标域数据集组成的输入矩阵，且满足X＝[x_s,x_t]，其中映射函数ψ:由核函数K＝ψ(X)^Tψ(X)给出，λ为正则化系数，表示F范数的平方，平衡因子为μ，A表示转换矩阵，H＝I-(1/n)1为中心矩阵，I∈R^{(n+m+k+l)×(n+m+k+l)}为单位矩阵，M₀，M_c为MMD矩阵，构造方式如下：

其中c∈{0,1}，和分别表示在源域和目标域中属于c类的样本的个数，n_c表示源域数据集{x_s,y_s}中属于c类的样本的个数；m_c表示目标域带标签数据集中属于c类的样本的个数；k_c表示目标域不带标签数据集中属于c类的样本的个数；l_c表示目标域测试数据集{x_test}中属于c类的样本的个数；

步骤3：使用拉格朗日乘子法求解，设定拉格朗日算子为Φ＝(φ₁,φ₂,...,φ_d)，d为A的最小特征值，推导出拉格朗日函数后求转换矩阵A的偏导：

步骤4：利用Matlab计算变换后的矩阵A^Tψ(X)；

步骤5：针对变换后的源域和目标域数据，进行实例迁移学习，以筛选出源域中与目标域差异较大的样本，具体为：

5.1：数据准备，变换后的源域训练数据集{z_s,y_s}、目标域带标签训练数据集目标域不带标签训练数据集和目标域的测试数据集{x_test}；

5.2：初始化权重向量其中1到n的权重为1/n；n+1到n+m的权重为1/m，设置N为迭代次数；

5.3：迭代计算更新样本权重向量w^v+1，其中源域D_s上的权重更新为其中i＝1,...,n，目标域D_t上的权重更新为其中i＝n+1,...,n+m；

利用如下式计算置信度筛选置信度大于γ的δ_u个样本，其中γ表示置信度阈值，加入数据集,其中u＝1,...,U，U表示迭代次数，更新m＝m+δ_u，并从中删除这些样本；

5.5：重复步骤5.2～5.4，直到u＝U；

5.6：利用更新完成的数据集重复步骤5.2和5.3各一次，计算{z_test}的预测标签h_f(z_test)。

优选地，所述步骤4包括以下子步骤：

4.1：数据准备，源域训练数据集{x_s,y_s}、目标域训练数据集数据和目标域测试数据集{x_test}；

4.2：数据集合并，将源域特征矩阵x_s和目标域特征矩阵组合成矩阵X＝[x_s,x_t]；

4.3：利用已有标签集合计算初始m_c，用源域数据{x_s,y_s}训练一个分类器，预测目标域中无标签数据集和测试数据集{x_test}的初始伪标签集和并计算初始k_c和l_c，计算初始M₀和M_c；

4.4：迭代T次，T为大于1的自然数，更新M_c矩阵，直到迭代结束；

4.5：利用步骤3的公式计算矩阵A，得到变换后的矩阵{A^Tψ(x_s),y_s}，在其上训练同一类型的分类器，预测目标域有标签数据集的伪标签集根据上的准确率重复步骤3，利用PSO优化算法调整参数μ、d，并得到最优的参数组合；

4.6利用更新后参数重复步骤3，计算A^Tψ(X)矩阵，并分解为的形式。

优选地，所述步骤5.3中每次迭代的计算步骤包括：

(1)计算使权重的分量相加为1，v＝1,...,N；

(2)利用样本权重ω^v训练基分类器h_v，预测目标域中无标签训练数据集的标签，记为并计算在目标域带标签数据上的误差ε_v：

(3)设置β_v＝ε_v/(1-ε_v)，并更新样本权重向量w^v+1，源域D_s上的权重更新为其中i＝1,...,n，目标域D_t上的权重更新为其中i＝n+1,...,n+m。

优选地，所述步骤4.4中每次迭代包括以下步骤：

(1)设定参数λ，核函数K为固定值，设定参数μ、d的初始值，利用函数eigs求解矩阵A；

(2)在{A^Tψ(x_s),y_s}上训练同一分类器，预测和{A^T(x_test)}的标签集和并更新k_c和l_c，计算上分类准确率η；

(3)更新M_c矩阵，直到迭代结束。

优选地，所述步骤5.3中计算中数据的预测标签的公式为：

优选地，所述步骤5.3中计算置信度的公式为：

本发明针对某些领域分类模型训练时带标签数据不足的问题，而引入其他领域的数据以及该领域的无标签数据辅助训练，同时考虑领域间数据分布的差异，提出了一种半监督场景下特征和实例联合迁移学***衡分布适应方法和自学习实例迁移方法；并以此为基础构建特征和实例联合迁移学习方法FSJT。

相对于现有技术，本发明的具有如下优点：

1、本发明针对源域和目标域数据集的特征空间，进行迁移特征变换，以缩小两领域特征空间的差异，适用于源域和目标域差异较大的情形；

2、本发明考虑半监督场景中目标域中数据的边缘概率分布和条件概率分布与监督场景中的差异，为了使领域间数据的统计分布差异最小化，将其转化为求解目标函数最小值的问题；利用平衡参数将两领域数据的边缘特征分布函数间距离，以及条件分布函数间的距离同时引入目标函数；

3、本发明构建学习目标域无标签数据信息的方法，将无标签数据引入实例迁移学习算法，以适用于半监督学习场景

4、本发明利用自学习思想对实例迁移方法进行拓展，使模型适用于半监督学习场景，通过在训练时提高有利于目标分类任务的实例权重，降低不利于目标分类任务的实例权重，去除源域中差异较大的样本。

附图说明

图1为本发明半监督场景下特征和实例联合迁移学习方法的流程图。

图2为实现本发明半监督场景下特征和实例联合迁移学习方法的计算机模型结构示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明的基本流程如图1所示，本发明实施例提供的一种半监督场景下特征和实例联合迁移学习方法，包括以下步骤：

步骤1：定义模型中数据如下：

给定一个领域，已知该领域中每一个数据所属类别用“0”或“1”表示，记为源域D_s。包含的n个样本用特征矩阵和类别标签向量形式表示为简记为{x_s,y_s}。给定另一个领域，记为目标域D_t。其中m个样本组成带标签数据集记为不带标签数据集记为其中q＝1,...,k。两类数据集共记为包含m+k个训练样本，且假设中样本数量不足以训练一个可靠的分类器。

假设特征空间X_s＝X_t，即两个领域的特征种类与数量相同，类别空间Y_s＝Y_t，但边缘分布P_s(x_s)≠P_t(x_t)，条件分布P_s(y_s|x_s)≠P_t(y_t|x_t)。所考虑的问题是利用源域D_s中数据集{x_s,y_s}和目标域D_t中数据集学习目标域中未标注数据的类别其中r＝1,...,l。

步骤2：利用平衡参数μ，利用平衡参数μ，构建目标函数并进行化简求解。

2.1：利用平衡参数μ，同时考虑两领域数据的边缘特征分布函数间距离，以及条件分布函数间的距离。将使目标域与源域的差异最小化转化为求解目标函数最小值问题，构建的目标函数如下：

其中，当a＝1,...,m时，和分别表示和当a＝m+1,...,m+k时，表示的伪标签，和分别表示和表示的伪标签。当a＝m+k+1,...,m+k+l时，表示的伪标签，和分别表示和表示的伪标签。表示条件分布P(y_t|x_t)的估计值。

2.2：利用MMD距离度量将步骤二中目标函数化简为数值表达形式：

其中，H表示再生核希尔伯特空间(reproducing kernel Hilbert space简称RKHS)。表示再生核希尔伯特空间上的范数(简称H范数)的平方。c∈{0,1}，和分别表示在源域和目标域中属于c类的样本的个数。n_c表示源域数据集{x_s,y_s}中属于c类的样本的个数；m_c表示目标域带标签数据集中属于c类的样本的个数；k_c表示目标域不带标签数据集中属于c类的样本的个数；l_c表示目标域测试数据集{x_test}中属于c类的样本的个数。

2.3：利用矩阵技巧和正则化将其化简：

其中min表示求目标函数最小值，s.t.表示目标函数的约束条件。tr()表示求矩阵的迹，。X是由源域与目标域数据集组成的输入矩阵，且满足X＝[x_s,x_t]，其中映射函数ψ:由核函数K＝ψ(X)^Tψ(X)给出。λ为正则化系数，表示F范数的平方，平衡因子为μ。约束条件确保转换后的数据A^Tψ(X)保留原始数据的内部属性。其中A表示转换矩阵，H＝I-(1/n)1为中心矩阵，I∈R^{(n+m+k+l)×(n+m+k+l)}为单位矩阵。M₀，M_c为MMD矩阵，构造方式如下所示：

步骤3：使用拉格朗日乘子法求解，设定拉格朗日算子为Φ＝(φ₁,φ₂,...,φ_d)，推导出拉格朗日函数后求A的偏导得到如下结果：

该式为广义特征值问题通过求解A的d个最小特征值可以得到矩阵A，进而求得变换后的数据A^Tψ(X)。

步骤4：利用Matlab计算变换后的矩阵A^Tψ(X)，利用更新后参数计算A^Tψ(X)矩阵，并分解为的形式。

具体地：

4.1：数据准备，源域训练数据集{x_s,y_s}、目标域训练数据集数据和目标域测试数据集{x_test}。

4.2：数据集合并，将源域特征矩阵x_s和目标域特征矩阵组合成矩阵X＝[x_s,x_t]。

4.3：利用已有标签集合计算初始m_c，用源域数据{x_s,y_s}训练一个分类器，预测目标域中无标签数据集和测试数据集{x_test}的初始伪标签集和并计算初始k_c和l_c，利用步骤四中M₀和M_c表达式计算初始M₀和M_c。

4.4：迭代T次，每次的操作为：

1).设定参数λ，核函数K为固定值，设定参数μ、d的初始值，利用函数eigs求解矩阵A。

2).在{A^Tψ(x_s),y_s}上训练同一分类器，预测和{A^T(x_test)}的标签集和并更新k_c和l_c，计算上分类准确率η。

3).更新M_c矩阵，直到迭代结束。

4.5：利用步骤3的公式计算出的矩阵A，可得到变换后的矩阵{A^Tψ(x_s),y_s}，在其上训练同一类型的分类器，预测目标域有标签数据集的伪标签集根据上的准确率重复步骤(4)，利用PSO优化算法调整参数μ、d，并得到最优的参数组合。

4.6：利用更新后参数重复步骤(4)，计算A^Tψ(X)矩阵，并分解为的形式。

5.1：数据准备，变换后的源域训练数据集{z_s,y_s}、目标域带标签训练数据集目标域不带标签训练数据集和目标域的测试数据集{x_test}。

5.2：初始化权重向量其中1到n的权重为1/n；n+1到n+m的权重为1/m。设置其中N为迭代次数。

5.3：迭代计算更新样本权重向量w^v+1，其中源域D_s上的权重更新为其中i＝1,...,n，目标域D_t上的权重更新为其中i＝n+1,...,n+m。

对于每次迭代需要计算下面几个步骤(v＝1,...,N)：

1).计算使权重的分量相加为1。

2).利用样本权重ω^v训练基分类器h_v，预测目标域中无标签训练数据集的标签，记为并利用如下式计算在目标域带标签数据上的误差ε_v。

3).设置β_v＝ε_v/(1-ε_v)，并更新样本权重向量w^v+1。源域D_s上的权重更新为其中i＝1,...,n。目标域D_t上的权重更新为其中i＝n+1,...,n+m。

5.4：利用如下式计算中数据的预测标签

利用如下式计算置信度筛选置信度大于γ的δ_u个样本，其中γ表示置信度阈值。加入数据集,其中u＝1,...,U，U表示迭代次数。更新m＝m+δ_u，并从中删除这些样本。

5.5：重复步骤5.2～5.4，直到u＝U；

通过上述流程，可以对特征变换后的源域和目标域训练数据进行自学习实例迁移，并预测目标域待测试数据的标签。

实例分析：

1.数据集准备：

使用迁移学习通用数据集为OFFICE，它由三个领域的数据组成，依次为Amazon、Webcam和DSLR。每个领域分别有985、295、295张图片。每个图片离散化为800维的特征构成的向量。这三个领域分别简写为A、W、D。

2.数据预处理：

源域和目标域样本的选择。共有四种待实验方案，依次为A为源域样本，D为目标域样本；A为源域样本，W为目标域样本；D为源域样本，W为目标域样本；W为源域样本，D为目标域样本。每个实验方案中，目标域训练样本为随机抽取的90％的数据，10％的数据作为验证。

3.参数的设置：

基本分类器设置为K近邻分类器，参数k设置为8。迭代次数T设置为10，参数λ是优化问题中的系数，即F范数的正则参数，这里设置为λ＝0.01，核函数选择高斯核函数。μ和d是算法中需要调优的，在求解过程中μ平衡了M₀、M_c矩阵的重要性，进一步讲μ用来平衡边缘分布与条件分布的所占权重，而得到的矩阵A由d维特征向量组成。首先设置初始的μ和d参数，通过目标域带标签训练数据上的准确率来调整这两个参数。设置好参数后，输入每个方案的数据，运行程序即可得到测试数据上的分类准确率。

4.不同模型的精度比较：

选择一个已有的迁移学***衡的分布适应方法(BDA)算法进行比较，但由于BDA适用无监督场景，训练BDA时目标域只选取MBDA使用的无标签训练数据。

同时为了验证所提方法在处理领域间差异的性能，与三种机器学习中的分类算法进行对比。这里选择支持向量机(SVM)、逻辑回归(LR)、决策树(DT)三种算法。每种算法使用的数据与FSJT模型一致，利用一个数据集训练，另一个数据集预测。

由于OFFICE数据集有三个领域，因此给出几组不同领域分别作为训练和测试数据集时模型的结果，如表1所示。

表1 各模型的分类效果对比结果

从表中结果可知，FSJT和BDA方法在领域A向其他两个领域的迁移效果都较差，可能由A数据集与其他两个领域的差距较大造成。但是W和D领域间的迁移学习效果较好，FSJT达到了88.41％和89.27％，且均高于BDA方法中D→W和W→D的准确率85.37％和86.02％。由于FSJT利用了目标域上的少量带标签数据，因此可以学习到更多的目标域特征，使精度有所提高。三种机器学习方法的结果中SVM模型在四种数据上的准确率最高，在利用W数据集训练，D数据集测试的精度达到了77.71％，其次是LR模型和DT模型的72.33％。而综合五类方法的结果，两类迁移学习方法在四种情形的结果都高于三种机器学习算法。可能由于机器学习需要保证训练数据和测试数据同分布假设，而迁移学习方法可以处理两类数据的差异，使得模型的泛化能力得到了一定提升。综上，FSJT方法在标准数据上的表现验证了该模型的有效性。

应当理解的是，上述针对较佳实施例的较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种半监督场景下特征和实例联合迁移学习方法，其特征在于：所述方法包括以下步骤：

步骤1：定义模型中数据：给定一个领域，已知该领域中每一个数据所属类别用“0”或“1”表示，记为源域D_s，包含的n个样本用特征矩阵和类别标签向量形式表示为简记为{x_s,y_s}；给定另一个领域，记为目标域D_t，其中m个样本组成带标签数据集记为不带标签数据集记为q＝1,...,k，两类数据集共记为包含m+k个训练样本，且假设中样本数量不足以训练一个可靠的分类器；

其中min表示求目标函数最小值，tr()表示求矩阵的迹，X是由源域与目标域数据集组成的输入矩阵，且满足X＝[x_s,x_t]，其中映射函数ψ:由核函数K＝ψ(X)^Tψ(X)给出，λ为正则化系数，表示F范数的平方，平衡因子为μ，A表示转换矩阵，H＝I-(1/n)1为中心矩阵，I∈R^{(n+m+k+l)×(n+m+k+l)}为单位矩阵，M₀，M_c为MMD矩阵，构造方式如下：

步骤4：利用Matlab计算变换后的矩阵A^Tψ(X)；

5.4：利用下式计算中数据的预测标签

利用如下式计算置信度筛选置信度大于γ的δ_u个样本，其中γ表示置信度阈值，加入数据集,其中u＝1,...,U，U表示迭代次数，更新m＝m+δ_u，并从中删除这些样本，

5.5：重复步骤5.2～5.4，直到u＝U；

2.根据权利要求1所述的半监督场景下特征和实例联合迁移学习方法，其特征在于：所述步骤4包括以下子步骤：

3.根据权利要求1所述的半监督场景下特征和实例联合迁移学习方法，其特征在于：所述步骤5.3中每次迭代的计算步骤包括：

(1)计算使权重的分量相加为1，v＝1,...,N；

4.根据权利要求1所述的半监督场景下特征和实例联合迁移学习方法，其特征在于：所述步骤4.4中每次迭代包括以下步骤：

(3)更新M_c矩阵，直到迭代结束。

5.根据权利要求1所述的半监督场景下特征和实例联合迁移学习方法，其特征在于：所述步骤5.3中计算中数据的预测标签的公式为：

6.根据权利要求1所述的半监督场景下特征和实例联合迁移学习方法，其特征在于：所述步骤5.3中计算置信度的公式为：