CN110222793B - 基于多视角主动学习的在线半监督分类方法及*** - Google Patents

基于多视角主动学习的在线半监督分类方法及*** Download PDF

Info

Publication number
CN110222793B
CN110222793B CN201910539276.XA CN201910539276A CN110222793B CN 110222793 B CN110222793 B CN 110222793B CN 201910539276 A CN201910539276 A CN 201910539276A CN 110222793 B CN110222793 B CN 110222793B
Authority
CN
China
Prior art keywords
view
data
classification
current
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910539276.XA
Other languages
English (en)
Other versions
CN110222793A (zh
Inventor
聂祥丽
黄夏渊
贾立好
乔红
张波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910539276.XA priority Critical patent/CN110222793B/zh
Publication of CN110222793A publication Critical patent/CN110222793A/zh
Application granted granted Critical
Publication of CN110222793B publication Critical patent/CN110222793B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种基于多视角主动学习的在线半监督分类方法及***,所述在线半监督分类方法包括:步骤S1:获取当前时刻的多视角数据;步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure DDA0002102070550000011
及次大标签
Figure DDA0002102070550000012
t表示当前时刻;步骤S3:根据所述地物类别标签
Figure DDA0002102070550000013
及次大标签
Figure DDA0002102070550000014
确定分类间隔qt;步骤S4:根据所述分类间隔qt,对分类器进行更新。本发明基于多视角主动学习的在线半监督分类方法在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。

Description

基于多视角主动学习的在线半监督分类方法及***
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于多视角主动学习的在线半监督分类方法及***。
背景技术
随着信息技术的不断发展,从不同信息源、空间及模态获取到的数据越来越丰富,这些不同属性的数据构成多视角数据集。与单视角学习相比,多视角学习可发掘各视角有用特征来改善学习能力,因此多视角学习受到广泛的关注。
在线学习能够有效处理实时数据流和大规模数据,是机器学习领域的一个研究热点。在线学习可以从数据流中增量地学习分类模型并且不重复使用之前的样本,适用于动态增长和大规模数据集。
近年来,在线学习引起了越来越多的关注和重视,现有的方法包括感知器算法、在线被动攻击(Passive attack,PA)算法和基于凸包顶点选择的支持向量机方法。
PA算法因为性能好、可扩展性强、计算成本低而被广泛应用。然而,PA算法只适用于单视角数据。为此,Nie等提出一种多视角PA算法,其利用了视角间的一致性和互补性有效提升了分类精度。然而,上述两种方法在应用中有很大局限性,首先它们都属于被动学习方法,即需要获取每个样本的类标签;另外,类别数目需要固定并且事先知道,对动态变化数据并不适用。
大数据为机器学习提供了丰富的原材料,这些海量的数据大部分是未标注的,而人工标注样本往往代价昂贵。主动学习的主要思想是挑选部分最有价值的数据进行标注,以实现在尽可能少的样本标记下获取尽可能高的精度。在此我们主要研究在线主动学习问题,其数据是以流的形式一个一个到达的。基于感知器的主动(PEA)学习方法仅使用错误分类的样本来更新分类模型,基于PA和随机规则的在线主动(PAA)学习算法对错误分类或具有低预测置信度的正确分类的样本都进行分类器更新。PAA解决了监督被动在线学习算法需要向每个新实例请求标签的问题。然而,主动学习规则是针对单视图数据而设计的,并且没有预先筛选的过程,导致筛选过程复杂、分类效率低。
发明内容
为了解决现有技术中的上述问题,即为了在线根据数据标签类别进行分类,以提高分类效率,本发明提供了一种基于多视角主动学习的在线半监督分类方法及***。
为实现上述目的,本发明提供了如下方案:
一种基于多视角主动学习的在线半监督分类方法,所述在线半监督分类方法包括:
步骤S1:获取当前时刻的多视角数据;
步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure GDA0003006404400000021
及次大标签
Figure GDA0003006404400000022
t表示当前时刻;
步骤S3:根据所述地物类别标签
Figure GDA0003006404400000023
及次大标签
Figure GDA0003006404400000024
确定分类间隔qt
步骤S4:根据所述分类间隔qt,对分类器进行更新。
可选地,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,
所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;
所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;
所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
可选地,采用以下公式分别计算视角数据的地物类别标签
Figure GDA0003006404400000031
及次大标签
Figure GDA0003006404400000032
多视角预测函数:
Figure GDA0003006404400000033
地物类别标签:
Figure GDA0003006404400000034
多视角预测函数中次大得分对应的次大类别:
Figure GDA0003006404400000035
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,
Figure GDA0003006404400000036
为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
可选地,所述根据所述地物类别标签
Figure GDA0003006404400000037
及次大标签
Figure GDA0003006404400000038
确定分类间隔qt,具体包括:
根据以下公式计算qt
Figure GDA0003006404400000039
其中,
Figure GDA00030064044000000310
表示预测向量ft的第
Figure GDA00030064044000000311
个元素的值,
Figure GDA00030064044000000312
表示预测向量ft的第
Figure GDA00030064044000000313
个元素的值。
可选地,所述根据所述分类间隔qt,对分类器进行更新,具体包括:
步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;
步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
Figure GDA0003006404400000041
步骤S43:根据所述有标签数据更新分类器;
步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;
步骤S45:根据所述当前视角数据的类别对分类器进行更新。
可选地,所述确定当前视角数据的类别,具体包括:
计算当前视角数据的概率;
根据所述概率,生成服从伯努利分布概率的随机变量Zt
判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
可选地,所述计算当前视角数据的概率,具体包括:
计算分别基于不同视角数据的地物类别标签
Figure GDA0003006404400000042
根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;
根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式
Figure GDA0003006404400000043
计算概率;
如果不存在分歧,则根据公式
Figure GDA0003006404400000044
计算概率;
其中,ηt
Figure GDA0003006404400000045
分别为非负数。
可选地,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:
当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式
Figure GDA0003006404400000051
对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
Figure GDA0003006404400000052
Figure GDA0003006404400000053
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure GDA0003006404400000054
为:
Figure GDA0003006404400000055
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt))为损失函数,定义为
Figure GDA0003006404400000056
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ;≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure GDA0003006404400000057
表示在b时刻第i个视角数据,
Figure GDA0003006404400000058
是第i视角的两个数据
Figure GDA0003006404400000059
Figure GDA00030064044000000510
的距离度量,定义为
Figure GDA00030064044000000511
Figure GDA00030064044000000512
对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
Figure GDA0003006404400000061
Figure GDA0003006404400000062
Figure GDA0003006404400000063
更新分类器:
Figure GDA0003006404400000064
Figure GDA0003006404400000065
可选地,所述步骤S43具体包括:
根据
Figure GDA0003006404400000066
计算多视角预测函数中得分最大的不相关类别;
根据公式
Figure GDA0003006404400000067
计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure GDA0003006404400000068
为:
Figure GDA0003006404400000069
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt)为损失函数,定义为
Figure GDA0003006404400000071
ξ;表示对多类分类损失函数的松弛约束,松弛变量ξ;≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure GDA0003006404400000072
表示在b时刻第i个视角数据,
Figure GDA0003006404400000073
是第i视角的两个数据
Figure GDA0003006404400000074
Figure GDA0003006404400000075
的距离度量,定义为
Figure GDA0003006404400000076
Figure GDA0003006404400000077
对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
Figure GDA0003006404400000078
Figure GDA0003006404400000079
Figure GDA00030064044000000710
Figure GDA00030064044000000711
Figure GDA00030064044000000712
Figure GDA00030064044000000713
Figure GDA00030064044000000714
Figure GDA00030064044000000715
更新分类器:
Figure GDA0003006404400000081
Figure GDA0003006404400000082
为实现上述目的,本发明还提供了如下方案:
一种基于多视角主动学习的在线半监督分类***,所述在线半监督分类***包括:
获取单元,用于获取当前时刻的多视角数据;
标签确定单元,用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure GDA0003006404400000083
及次大标签
Figure GDA0003006404400000084
t表示当前时刻;
间隔确定单元,用于根据所述地物类别标签
Figure GDA0003006404400000085
及次大标签
Figure GDA0003006404400000086
确定分类间隔qt
更新单元,用于根据所述分类间隔qt,对分类器进行更新。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明基于多视角主动学习的在线半监督分类方法在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。
附图说明
图1是本发明基于多视角主动学习的在线半监督分类方法的流程图;
图2是本发明基于多视角主动学习的在线半监督分类方法的具体实施流程图;
图3是本发明基于多视角主动学习的在线半监督分类***的模块结构示意图。
符号说明:
获取单元—1,标签确定单元—2,间隔确定单元—3,更新单元—4。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。
本发明的目的在于提供一种基于多视角主动学习的在线半监督分类方法,通过在线获取任意时刻的多视角数据,利用分类间隔,对分类器进行更新,可提高分类效率,节省人力,实现了少量样本标注时的高精度分类。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明基于多视角主动学习的在线半监督分类方法包括:
步骤100:获取当前时刻的多视角数据;
步骤200:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure GDA0003006404400000091
及次大标签
Figure GDA0003006404400000092
t表示当前时刻;
步骤300:根据所述地物类别标签
Figure GDA0003006404400000093
及次大标签
Figure GDA0003006404400000094
确定分类间隔qt
步骤400:根据所述分类间隔qt,对分类器进行更新。
其中,所述多视角数据可以是不同传感器获取的同一目标的数据或者不同属性的特征。
例如,所述不同属性的特征包括极化特征、颜色特征、纹理特征。所述极化特征包括从极化合成孔径雷达(Synthetic Aperture Radar,SAR)数据中提取的原始特征和基于极化分解的特征。所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图。所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
在步骤200中,采用以下公式分别计算视角数据的地物类别标签
Figure GDA0003006404400000101
及次大标签
Figure GDA0003006404400000102
多视角预测函数:
Figure GDA0003006404400000103
地物类别标签:
Figure GDA0003006404400000104
多视角预测函数中次大得分对应的次大类别:
Figure GDA0003006404400000105
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,
Figure GDA0003006404400000106
为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
在步骤300中,所述根据所述地物类别标签
Figure GDA0003006404400000107
及次大标签
Figure GDA0003006404400000108
确定分类间隔qt,具体包括:
根据以下公式计算qt
Figure GDA0003006404400000109
其中,
Figure GDA00030064044000001010
表示预测向量ft的第
Figure GDA00030064044000001011
个元素的值,
Figure GDA00030064044000001012
表示预测向量ft的第
Figure GDA00030064044000001013
个元素的值。
如图2所示,在步骤400中,所述根据所述分类间隔qt,对分类器进行更新,具体包括:
步骤410:比较所述分类间隔qt与设定的间隔阈值∈的大小。所述间隔阈值∈为大于0的常数。
步骤420:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
Figure GDA00030064044000001014
步骤430:根据所述有标签数据更新分类器。
步骤440:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别。
步骤450:根据所述当前视角数据的类别对分类器进行更新。
具体地,在步骤440中,所述确定当前视角数据的类别,具体包括:
步骤4401:计算当前视角数据的概率;
步骤4402:根据所述概率,生成服从伯努利分布概率的随机变量Zt(随机变量Zt的取值为0或1);
步骤4403:判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
进一步地,在步骤4401中,所述计算当前视角数据的概率,具体包括:
步骤4401a:计算分别基于不同视角数据的地物类别标签
Figure GDA0003006404400000111
步骤4401b:根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧。
具体的,如果
Figure GDA0003006404400000112
且i≠j,则判断不存在分歧;如果
Figure GDA0003006404400000113
则判断存在分歧。在本实施例中,m取值为3。
步骤4401c:根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式
Figure GDA0003006404400000114
计算概率;
如果不存在分歧,则根据公式
Figure GDA0003006404400000121
计算概率;
其中,ηt
Figure GDA0003006404400000122
均为非负数。
在步骤450中,所述根据所述当前视角数据的类别对分类器进行更新,具体包括:
步骤4501:当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式
Figure GDA0003006404400000123
对所述分类器进行增量拓展,并执行步骤430;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤430。
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
Figure GDA0003006404400000124
Figure GDA0003006404400000125
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure GDA0003006404400000126
为:
Figure GDA0003006404400000127
s.t.l(W;(xt,yt))≤ξ;
[1]其中l(W;(xt,yt))为损失函数,定义为
Figure GDA0003006404400000128
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure GDA0003006404400000131
表示在b时刻第i个视角数据,
Figure GDA0003006404400000132
是第i视角的两个数据
Figure GDA0003006404400000133
Figure GDA0003006404400000134
的距离度量,定义为
Figure GDA0003006404400000135
在本实施例中,均衡参数λi包括λ1、λ2、λ3;λ1=1,λ2,λ3∈{1.5,2}。视角一致性约束参数d;d∈{1e-4,1e-3,1e-2};图正则化参数θ∈{0.001,0.005};惩罚参数c∈{0.05,0.1,0.5};权重参数r1,r2∈{0.3,0.4}且满足
Figure GDA0003006404400000136
对于无标签数据,令δt=0,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
Figure GDA0003006404400000137
Figure GDA0003006404400000138
Figure GDA0003006404400000139
更新分类器:
Figure GDA00030064044000001310
Figure GDA00030064044000001311
其中,步骤430具体包括:
根据
Figure GDA00030064044000001312
计算多视角预测函数中得分最大的不相关类别;
根据公式
Figure GDA0003006404400000141
计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure GDA0003006404400000142
为:
Figure GDA0003006404400000143
s.t.l(W;(xt,yt))≤ξ;
其中l(W;(xt,yt))为损失函数,定义为
Figure GDA0003006404400000144
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure GDA0003006404400000145
表示在b时刻第i个视角数据,
Figure GDA0003006404400000146
是第i视角的两个数据
Figure GDA0003006404400000147
和的距离度量,定义为
Figure GDA0003006404400000148
对于有标签数据,δt=1,通过拉格朗日乘子法求解上述优化问题,可得如下更新方法:
根据以下公式计算辅助变量:
Figure GDA0003006404400000151
Figure GDA0003006404400000152
Figure GDA0003006404400000153
Figure GDA0003006404400000154
Figure GDA0003006404400000155
Figure GDA0003006404400000156
Figure GDA0003006404400000157
Figure GDA0003006404400000158
更新分类器:
Figure GDA0003006404400000159
Figure GDA00030064044000001510
此外,本发明基于多视角主动学习的在线半监督分类方法还包括:将全部时刻的数据处理完毕后,计算总的在线分类错误率,并绘制分类图。
本发明使用真实的极化SAR数据做测试实验,是由AIRSAR传感器获取的荷兰弗莱福兰(Flevoland)地区的L波段数据。该数据的Pauli分解伪彩色图像,尺寸为1020*1024。
仿真实验中,使用的软件:MATLAB R2015b,处理器:Intel(R)Core(TM)i7-6700HQ,内存:16.0GB,操作***:64位Windows10。
实验内容及结果分析:
为评估本发明提出的方法的效果,进行实验对比的方法包括:PEA算法和PAA算法。这些方法的参数通过交叉验证进行选择,选择范围设置如下:PAA的惩罚参数c∈[0.01,0.1],本方法的惩罚参数c∈{0.05,0.1,0.5},平衡参数λ1=1,λ2,λ3∈{1.5,2},耦合参数d∈{1e-4,1e-3,1e-2},图正则化参数θ∈{0.001,0.005},权重参数r1,r2∈{0.3,0.4},且满足
Figure GDA0003006404400000161
通过交叉验证的方式可以选出最优的参数取值,即错误率最小的一组参数。
表1给出了这些方法在不同样本标签查询率情况下的在线分类错误率对比结果:本发明提出的方法的分类结果要明显好于PEA和PAA的结果。另外,根据表1可知提出的方法的在不同的样本标签查询率下得到的在线分类错误率均低于PEA和PAA的分类错误率,在只查询20%的样本标签时的精度接近于查询100%的样本标签的精度。从表1可得出结论,本发明提出的方法可实现少量样本标注时的高精度在线分类。
表1:不同样本标签查询率下的在线分类错误率对比结果
样本查询率 1% 10% 20% 50% 100%
PEA 0.2066 0.0879 0.0713 0.0587 0.0538
PAA 0.1483 0.0622 0.0497 0.0385 0.0349
本方法 0.1104 0.0350 0.0306 0.0296 0.0296
本发明与现有技术相比较,具有以下优点:
(1)只需要对部分重要样本进行标注,节省人力。
本发明提出的在线主动学习方法充分利用了分类间隔和多视角分类器间的分歧,以此设置不同的查询概率,从而挑选出在分类边界上的样本以查询其标签,克服了现有技术需要查询所有样本标签及未利用多视角间关系的不足,使得本发明节省了人力,实现了少量样本标注时的高精度分类。
(2)能对数据量和类数都不断增长的数据进行增量学习。
本发明提出的在线方法既能处理数据量不断增长的问题,也能处理样本类别不断增加的问题,克服了现有技术不能增量学习新类的不足,使得本发明更适用于大规模动态数据集。
(3)同时利用有标签和无标签样本,实现了更低的在线分类错误率。
此外,本发明还提供一种基于多视角主动学习的在线半监督分类***,可在线根据数据标签类别进行分类,提高分类效率。
如图3所示,本发明基于多视角主动学习的在线半监督分类***包括获取单元1、标签确定单元2、间隔确定单元3及更新单元4。
其中,所述获取单元1用于获取当前时刻的多视角数据;所述标签确定单元2用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure GDA0003006404400000171
及次大标签
Figure GDA0003006404400000172
t表示当前时刻;所述间隔确定单元3用于根据所述地物类别标签
Figure GDA0003006404400000173
及次大标签
Figure GDA0003006404400000174
确定分类间隔qt;所述更新单元4用于根据所述分类间隔qt,对分类器进行更新。
相对于现有技术,本发明基于多视角主动学习的在线半监督分类***与上述基于多视角主动学习的在线半监督分类方法的有益效果相同,在此不再赘述。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种基于多视角主动学习的在线半监督分类方法,其特征在于,所述在线半监督分类方法包括:
步骤S1:获取当前时刻的多视角数据;
步骤S2:基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure FDA0003054500410000011
及次大标签
Figure FDA0003054500410000012
t表示当前时刻;
步骤S3:根据所述地物类别标签
Figure FDA0003054500410000013
及次大标签
Figure FDA0003054500410000014
确定分类间隔qt
步骤S4:根据所述分类间隔qt,对分类器进行更新,包括:
步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;
步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
Figure FDA0003054500410000015
步骤S43:根据所述有标签数据更新分类器,其方法包括:
根据
Figure FDA0003054500410000016
计算多视角预测函数中得分最大的不相关类别,其中,k是一个变量,ft,k表示多视角预测函数ft的第k个元素的值,ri为权重系数,多视角预测函数为
Figure FDA0003054500410000017
根据公式
Figure FDA0003054500410000018
计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure FDA0003054500410000019
为:
Figure FDA00030545004100000110
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为
Figure FDA0003054500410000021
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure FDA0003054500410000022
表示在b时刻第i个视角数据,
Figure FDA0003054500410000023
是第i视角的两个数据
Figure FDA0003054500410000024
Figure FDA0003054500410000025
的距离度量,定义为
Figure FDA0003054500410000026
对于有标签数据,δt=1,通过拉格朗日乘子法求解所述在线半监督多视角学习模型,可得如下更新方法:
根据以下公式计算辅助变量:
Figure FDA0003054500410000027
Figure FDA0003054500410000028
Figure FDA0003054500410000029
Figure FDA00030545004100000210
Figure FDA00030545004100000211
Figure FDA00030545004100000212
Figure FDA00030545004100000213
Figure FDA00030545004100000214
更新分类器:
Figure FDA0003054500410000031
Figure FDA0003054500410000032
步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;
步骤S45:根据所述当前视角数据的类别对分类器进行更新,其方法为:
当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式
Figure FDA0003054500410000033
对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
Figure FDA0003054500410000034
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure FDA0003054500410000035
为:
Figure FDA0003054500410000036
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为
Figure FDA0003054500410000037
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure FDA0003054500410000041
表示在b时刻第i个视角数据,
Figure FDA0003054500410000042
是第i视角的两个数据
Figure FDA0003054500410000043
Figure FDA0003054500410000044
的距离度量,定义为
Figure FDA0003054500410000045
Figure FDA0003054500410000046
对于无标签数据,令δt=0,通过拉格朗日乘子法求解所述在线半监督多视角学习模型,可得如下更新方法:
根据以下公式计算辅助变量:
Figure FDA0003054500410000047
Figure FDA0003054500410000048
Figure FDA0003054500410000049
更新分类器:
Figure FDA00030545004100000410
Figure FDA00030545004100000411
2.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述多视角数据包括极化特征、颜色特征、纹理特征;其中,
所述极化特征包括从极化合成孔径雷达SAR数据中提取的原始特征和基于极化分解的特征;
所述颜色特征包括伪彩色图像元素、主导颜色权重及HSV图像和其直方图;
所述纹理特征包括局部二值模式直方图,灰度共生矩阵,Gabor和小波变换系数。
3.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,采用以下公式分别计算视角数据的地物类别标签
Figure FDA0003054500410000051
及次大标签
Figure FDA0003054500410000052
多视角预测函数:
Figure FDA0003054500410000053
地物类别标签:
Figure FDA0003054500410000054
多视角预测函数中次大得分对应的次大类别:
Figure FDA0003054500410000055
其中,m为视角数据类别数量,i表示当前视角数据类别的序号,i=1,…,m;argmax{}表示取最大值函数,ri为权重系数,
Figure FDA0003054500410000056
为t时刻分类器的权重矩阵,Y表示当前的类别标签集合,k是一个变量,ft,k表示预测向量ft的第k个元素的值。
4.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述根据所述地物类别标签
Figure FDA0003054500410000057
及次大标签
Figure FDA0003054500410000058
确定分类间隔qt,具体包括:
根据以下公式计算qt
Figure FDA0003054500410000059
其中,
Figure FDA00030545004100000510
表示预测向量ft的第
Figure FDA00030545004100000511
个元素的值,
Figure FDA00030545004100000512
表示预测向量ft的第
Figure FDA00030545004100000513
个元素的值。
5.根据权利要求1所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述确定当前视角数据的类别,具体包括:
计算当前视角数据的概率;
根据所述概率,生成服从伯努利分布概率的随机变量Zt
判断所述随机变量Zt的数值是否为1;
如果是,则所述当前视角数据为有标签数据;否则,所述当前视角数据为无标签数据。
6.根据权利要求5所述的基于多视角主动学习的在线半监督分类方法,其特征在于,所述计算当前视角数据的概率,具体包括:
计算分别基于不同视角数据的地物类别标签
Figure FDA0003054500410000061
根据不同视角数据的地物类别标签,判断各地物类别标签间是否存在分歧;
根据判断结果,计算当前视角数据的概率:
如果存在分歧,则根据公式
Figure FDA0003054500410000062
计算概率;
如果不存在分歧,则根据公式
Figure FDA0003054500410000063
计算概率;
其中,ηt
Figure FDA0003054500410000064
均为非负常数。
7.一种基于多视角主动学习的在线半监督分类***,其特征在于,所述在线半监督分类***包括:
获取单元,用于获取当前时刻的多视角数据;
标签确定单元,用于基于所述多视角数据,通过多视角预测函数,估计视角数据的地物类别标签
Figure FDA0003054500410000065
及次大标签
Figure FDA0003054500410000066
t表示当前时刻;
间隔确定单元,用于根据所述地物类别标签
Figure FDA0003054500410000067
及次大标签
Figure FDA0003054500410000068
确定分类间隔qt
更新单元,用于根据所述分类间隔qt,对分类器进行更新,包括:
步骤S41:比较所述分类间隔qt与设定的间隔阈值∈的大小;
步骤S42:如果所述分类间隔qt>间隔阈值∈,则当前视角数据为有标签数据,获取当前视角数据的真实标签yt,令
Figure FDA0003054500410000069
步骤S43:根据所述有标签数据更新分类器其方法包括:
根据
Figure FDA0003054500410000071
计算多视角预测函数中得分最大的不相关类别,其中,k是一个变量,ft,k表示多视角预测函数ft的第k个元素的值,ri为权重系数,多视角预测函数为
Figure FDA0003054500410000072
根据公式
Figure FDA0003054500410000073
计算损失值lt,其中max{}表示取其中的最大值;
若lt>0,通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure FDA0003054500410000074
为:
Figure FDA0003054500410000075
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为
Figure FDA0003054500410000076
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure FDA0003054500410000077
表示在b时刻第i个视角数据,
Figure FDA0003054500410000078
是第i视角的两个数据
Figure FDA0003054500410000079
Figure FDA00030545004100000710
的距离度量,定义为
Figure FDA00030545004100000711
对于有标签数据,δt=1,通过拉格朗日乘子法求解在线半监督多视角学习模型,可得如下更新方法:
根据以下公式计算辅助变量:
Figure FDA0003054500410000081
Figure FDA0003054500410000082
Figure FDA0003054500410000083
Figure FDA0003054500410000084
Figure FDA0003054500410000085
Figure FDA0003054500410000086
Figure FDA0003054500410000087
Figure FDA0003054500410000088
更新分类器:
Figure FDA0003054500410000089
Figure FDA00030545004100000810
步骤S44:如果所述分类间隔qt≤间隔阈值∈,则确定当前视角数据的类别;
步骤S45:根据所述当前视角数据的类别对分类器进行更新,其方法为:
当所述当前视角数据为有标签数据时,确定所述当前视角数据是否为新类别:
如果为新类别,则通过公式Wt (i)=[Wt (i),rand(yt-K,ni)]对所述分类器进行增量拓展,并执行步骤S43;其中,其中K为当前的类数,ni为第i个视角的维数,rand(·)表示生成均匀分布随机数;否则执行步骤S43;
当所述当前视角数据为无标签数据时,计算多视角预测函数中最大和次大得分对应的类别,即
Figure FDA0003054500410000091
通过在线半监督多视角学习模型更新分类器,所述在线半监督多视角学习模型
Figure FDA0003054500410000092
为:
Figure FDA0003054500410000093
s.t.l(W;(xt,yt))≤ξ;
其中,l(W;(xt,yt))为损失函数,定义为
Figure FDA0003054500410000094
ξ表示对多类分类损失函数的松弛约束,松弛变量ξ≥0;argmax{}表示取最大值函数,argmin{}表示取最小值函数,λi表示均衡参数,d表示视角一致性约束参数,c表示惩罚参数,θ表示图正则化参数;||·||F为矩阵的Forbenius范数,||·||1为矩阵的L1范数;B表示缓冲集,
Figure FDA0003054500410000095
表示在b时刻第i个视角数据,
Figure FDA0003054500410000096
是第i视角的两个数据
Figure FDA0003054500410000097
Figure FDA0003054500410000098
的距离度量,定义为
Figure FDA0003054500410000099
对于无标签数据,令δt=0,通过拉格朗日乘子法求解在线半监督多视角学习模型,可得如下更新方法:
根据以下公式计算辅助变量:
Figure FDA0003054500410000101
Figure FDA0003054500410000102
Figure FDA0003054500410000103
更新分类器:
Figure FDA0003054500410000104
Figure FDA0003054500410000105
CN201910539276.XA 2019-06-20 2019-06-20 基于多视角主动学习的在线半监督分类方法及*** Active CN110222793B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910539276.XA CN110222793B (zh) 2019-06-20 2019-06-20 基于多视角主动学习的在线半监督分类方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910539276.XA CN110222793B (zh) 2019-06-20 2019-06-20 基于多视角主动学习的在线半监督分类方法及***

Publications (2)

Publication Number Publication Date
CN110222793A CN110222793A (zh) 2019-09-10
CN110222793B true CN110222793B (zh) 2021-06-22

Family

ID=67814013

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910539276.XA Active CN110222793B (zh) 2019-06-20 2019-06-20 基于多视角主动学习的在线半监督分类方法及***

Country Status (1)

Country Link
CN (1) CN110222793B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114418118B (zh) * 2022-01-21 2024-03-12 中国人民解放军国防科技大学 决策能力约束下多源网络流数据预测方法和装置
CN117237748B (zh) * 2023-11-14 2024-02-23 南京信息工程大学 一种基于多视角对比置信度的图片识别方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903007A (zh) * 2014-03-10 2014-07-02 哈尔滨工程大学 一种基于空-谱信息的高光谱半监督分类方法
CN105956612A (zh) * 2016-04-25 2016-09-21 西安电子科技大学 基于主动学习和半监督学习的高光谱图像分类方法
CN108388907A (zh) * 2017-12-29 2018-08-10 中国科学院自动化研究所 基于多视角学习的极化sar数据分类器实时更新方法
CN109376796A (zh) * 2018-11-19 2019-02-22 中山大学 基于主动半监督学习的图像分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104318242A (zh) * 2014-10-08 2015-01-28 中国人民解放军空军工程大学 一种高效的svm主动半监督学习算法
US10719780B2 (en) * 2017-03-31 2020-07-21 Drvision Technologies Llc Efficient machine learning method
CN108021930B (zh) * 2017-11-16 2022-01-14 苏州大学 一种自适应的多视角图像分类方法及***

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903007A (zh) * 2014-03-10 2014-07-02 哈尔滨工程大学 一种基于空-谱信息的高光谱半监督分类方法
CN105956612A (zh) * 2016-04-25 2016-09-21 西安电子科技大学 基于主动学习和半监督学习的高光谱图像分类方法
CN108388907A (zh) * 2017-12-29 2018-08-10 中国科学院自动化研究所 基于多视角学习的极化sar数据分类器实时更新方法
CN109376796A (zh) * 2018-11-19 2019-02-22 中山大学 基于主动半监督学习的图像分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An Incremental Multi-view Active Learning Algorithm for PolSAR Data Classification;Xiangli Nie et al;《2018 24th International Conference on Pattern Recognition (ICPR)》;20181129;2251-2255 *
Multiview Active Learning;Shiliang Sun et al;《Multiview Machine Learning》;20190108;73-84 *

Also Published As

Publication number Publication date
CN110222793A (zh) 2019-09-10

Similar Documents

Publication Publication Date Title
Wang et al. Remote sensing image classification based on the optimal support vector machine and modified binary coded ant colony optimization algorithm
CN114926746B (zh) 基于多尺度差分特征注意力机制的sar图像变化检测方法
CN111540006B (zh) 基于深度迁移学习的植物气孔智能检测与识别方法及***
CN107491734B (zh) 基于多核融合与空间Wishart LapSVM的半监督极化SAR图像分类方法
CN104463202A (zh) 一种多类图像半监督分类方法及***
CN110163069B (zh) 用于辅助驾驶的车道线检测方法
CN107943856A (zh) 一种基于扩充标记样本的文本分类方法及***
CN104751175B (zh) 基于增量支持向量机的sar图像多类标场景分类方法
CN113591915B (zh) 基于半监督学习和单分类支持向量机的异常流量识别方法
CN110222793B (zh) 基于多视角主动学习的在线半监督分类方法及***
CN103745233B (zh) 基于空间信息迁移的高光谱图像分类方法
CN106156805A (zh) 一种样本标签缺失数据的分类器训练方法
CN110598753A (zh) 一种基于主动学习的缺陷识别方法
CN113780242A (zh) 一种基于模型迁移学习的跨场景水声目标分类方法
CN112084842B (zh) 一种基于深度语义模型的水文遥感图像目标识别方法
CN106228027A (zh) 一种多视角数据的半监督特征选择方法
CN104200233A (zh) 一种基于韦伯局部描述符的服装分类识别方法
CN113139594A (zh) 一种机载图像无人机目标自适应检测方法
CN116051479A (zh) 融合跨域迁移和异常检测的纺织品缺陷识别方法
CN106529604A (zh) 一种自适应的图像标签鲁棒预测方法及***
CN117152503A (zh) 一种基于伪标签不确定性感知的遥感图像跨域小样本分类方法
CN115189942A (zh) 一种伪标签引导下的多视角共识图半监督网络入侵检测***
CN105894035B (zh) 基于sar-sift和dbn的sar图像分类方法
CN113869136A (zh) 基于多分支网络的半监督极化sar图像分类方法
CN116452820B (zh) 环境污染等级确定方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant