CN103390171A

CN103390171A - 一种安全的半监督学习方法

Info

Publication number: CN103390171A
Application number: CN2013103155014A
Authority: CN
Inventors: 周志华; 李宇峰
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2013-07-24
Filing date: 2013-07-24
Publication date: 2013-11-13

Abstract

本发明公开一种安全的半监督学习方法，包括构建多个半监督分类器步骤和构建最终安全半监督分类器步骤；首先对于给定训练数据集构建多个差异性大的半监督分类器；然后通过最坏情况下最大化性能提高来构建最终安全半监督分类器。本发明的方法在实施过程中很少导致性能下降，与此同时取得了与现有经典技术高度可比的性能。

Description

一种安全的半监督学习方法

技术领域

本发明涉及一种半监督学习方法，特别涉及如何安全利用未标记数据的半监督学习方法，属于机器学习技术领域。

背景技术

机器学习方法试图利用任务的历史数据来改善任务的性能。为了得到好的学习性能，机器学习方法例如监督学习方法，通常要求历史数据都有明确的概念标记（称为有标记数据）且要求有大量的有标记数据。在很多现实任务中，由于概念标记的获取需要耗费大量的人力物力资源，因此有标记数据通常是稀少的，而大量没有概念标记的历史数据（称为未标记数据）则可以容易得到。如何利用大量未标记数据来辅助提高仅利用少量有标记数据得到的性能已成为机器学习方法的一个重要课题，而半监督学习方法是该方面的两大主流技术之一。

半监督学习方法已经在很多方面得以广泛应用；然而在不少情况下，现有半监督学习方法利用未标记数据会导致性能下降，即半监督学习方法的性能会显著不如直接利用少量有标记数据训练监督学习方法所取得的性能。这个现象严重影响了半监督学习方法在实际任务中的应用，因为用户通常希望利用了半监督学习方法不会导致性能下降。因此需要一种安全的半监督学习方法使得，一方面其通常可以带来性能提高，另一方面其很少会导致性能显著下降。基于半监督学习问题在实际任务中普遍存在，这方面的成果将会在很多实际任务中发挥作用。

发明内容

发明目的：针对目前半监督学习方法利用未标记数据都会在不少情况下导致性能显著下降的问题，本发明提供了一种安全的半监督学习方法。具体而言，首先对于给定训练数据集构建多个差异性大的半监督分类器，然后通过最坏情况下最大化性能提高来构建最终的安全半监督分类器。

技术方案：一种安全的半监督学习方法，主要包括构建多个半监督分类器步骤和构建最终的安全半监督分类器步骤；

所述构建多个半监督分类器步骤具体为：

步骤100，对于少量有标记数据和大量未标记数据，随机初始化多个半监督分类器；

步骤101，对于每个初始半监督分类器，根据半监督分类器的目标函数，通过优化方法对半监督分类器的预测结果进行优化；

步骤102，将步骤101中优化过的半监督分类器的预测结果通过机器学习的聚类方法分成多个簇；

步骤103，对于聚类结果的每个簇，输出其中目标值最优的半监督分类器；

步骤104，收集每个簇输出的半监督分类器，得到多个半监督分类器；

所述构建最终的安全半监督分类器步骤具体为：

步骤200，对少量有标记数据训练监督学习方法，得到未标记数据上的预测结果；

步骤201，假定步骤104构建的每个半监督分类器为真实分类器，根据监督学习方法的预测结果，对任意未标记数据上的预测结果定义性能提高函数；

步骤202，对任意未标记数据上的预测结果，对步骤201得到的多个性能提高函数，考察最小的性能提高定义为最坏情况下的性能提高函数；

步骤203，根据最坏情况下的性能提高目标函数，通过优化方法对未标记数据的预测结果进行优化，使其最大化最坏情况下的性能提高目标函数；

步骤204，将优化结果输出，作为最终的安全半监督分类器的预测结果。

所述半监督分类器包括基于生成式的半监督分类器、基于图的半监督分类器、基于不一致性的半监督分类器、基于支持向量机的半监督分类器等。

所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。

所述半监督分类器的目标函数包括不同类别数据的间隔，概率似然等。

所述步骤200中的监督学习方法包括生成式模型方法、最近邻监学习方法、支持向量机学习方法等。

所述性能提高函数的性能评价指标包括精度、查准率、查全率、F1度量等。

有益效果：与现有技术相比，本发明所提供的安全半监督学习方法，实施过程中很少导致性能显著下降，与此同时取得了与现有技术高度可比的性能。

附图说明

图1为本发明实施例的构建多个半监督分类器的工作流程图；

图2为本发明实施例的构建最终安全半监督分类器的工作流程图；

图3为本发明实施例多个真实数据集上实验对比的精度结果。

具体实施方式

下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

构建多个半监督分类器的工作流程如图1所示。具体来说，给定少量有标记数据和大量未标记数据，首先随机初始化多个半监督分类器，例如N个半监督分类器，记为{y₁,y₂,…,y_N}（步骤10）；优化半监督分类器的预测结果直到收敛（步骤11），例如可采用交替优化方法——首先固定未标记数据上的预测结果{y₁,y₂,…,y_N}更新分类器模型参数{φ₁,φ₂,…,φ_N}（步骤12a），然后固定分类器模型参数{φ₁,φ₂,…,φ_N}更新未标记数据上的预测结果{y₁,y₂,…,y_N}得到{z₁,z₂,…,z_N}（步骤12b），如果{z₁,z₂,…,z_N}={y₁,y₂,…,y_N}则进入下一步骤，否则迭代步骤12a和12b直到收敛；将优化过的半监督分类器的预测结果{y₁,y₂,…,y_N}进行聚类操作，例如采用k均值技术。记聚类个数为T（步骤13）；对于聚类结果的每个簇，输出其中目标值最优的分类器，不失一般性，记最后的半监督分类器为{y₁,y₂,…,y_T}（步骤14）。至此，得到多个半监督分类器{y₁,y₂,…,y_T}。

构建最终安全半监督学习方法的工作流程如图2所示。首先对少量有标记数据训练监督学习方法，得到未标记数据上的预测结果y₀（步骤20）；假定每个之前构建好的半监督分类器y_t为真实分类器，根据监督学习方法的预测结果，对任意未标记数据上的预测结果y定义性能提高函数F(y_t,y,y₀)，例如对于精度，提高函数定义为F(y_t,y,y₀)=y_t’y-y’y₀，’表示向量转置（步骤21）；考虑最小的性能提高，定义最坏情况下的性能提高函数（步骤22），即

min F(y_t,y,y₀)，

t=1,…,T

根据最坏情况下的性能提高目标函数，通过优化方法对未标记数据的预测结果进行优化，使其最大化最坏情况下的性能提高目标函数（步骤23）；

max min F(y_t,y,y₀)，

y t=1,…,T

优化方法可采用数值优化教科书中介绍的各种数值优化技术；将优化结果y*输出，作为最终安全半监督分类器的预测结果（步骤24）。

本发明实施例在多个真实数据集上实验对比的精度结果如图3所示。实验数据集来自美国加州大学欧文分校提供的真实数据集。对于每个真实数据集，随机取10个数据作为有标记数据，余下为未标记数据。实验重复30次，汇报在未标记数据上的平均精度结果。本发明实施例与两种已有方法进行比较：仅利用有标记数据的监督学习方法；经典半监督学习方法。这里监督学习方法采用机器学习领域经典的支持向量机方法，经典半监督学习方法采用机器学习领域经典的半监督支持向量机方法。对于本发明实施例，采用半监督支持向量机方法作为半监督分类器实现，性能评价指标采用精度实现。本发明实施例与两种比较方法采用高斯核作为支持向量机方法的实现。图3中，加粗部分表示该方法显著优于经典监督支持向量机方法（采用t-test统计检验，95%置信度），下划线部分表示该方法显著劣于经典监督支持向量机方法（采用t-test统计检验，95%置信度）。可见，与现有半监督学习技术多次显著下降性能相比，本发明所提供的安全半监督学习方法，实施过程中很少导致性能显著下降，与此同时取得了与现有半监督学习技术高度可比的性能。

Claims

1. 一种安全的半监督学习方法，其特征在于，包括构建多个半监督分类器步骤和构建最终的安全半监督分类器步骤；

所述构建多个半监督分类器步骤具体为：

步骤102，将优化过的半监督分类器的预测结果通过机器学习的聚类方法分成多个簇；

所述构建最终的安全半监督分类器步骤具体为：

2. 如权利要求1所述的安全的半监督学习方法，其特征在于：所述半监督分类器包括基于生成式的半监督分类器、基于图的半监督分类器、基于不一致性的半监督分类器和基于支持向量机的半监督分类器。

3. 如权利要求1所述的安全的半监督学习方法，其特征在于：所述初始化半监督分类器指对未标记数据上的预测结果进行初始化。

4. 如权利要求1所述的安全的半监督学习方法，其特征在于：所述半监督分类器的目标函数包括不同类别数据的间隔和概率似然。

5. 如权利要求1所述的安全的半监督学习方法，其特征在于：所述步骤200中的监督学习方法包括生成式模型方法、最近邻监学习方法和支持向量机学习方法。

6. 如权利要求1所述的安全的半监督学习方法，其特征在于：所述性能提高函数的性能评价指标包括精度、查准率、查全率和F1度量。