CN112633495B - 一种用于小样本类增量学习的多粒度快慢学习方法 - Google Patents

一种用于小样本类增量学习的多粒度快慢学习方法 Download PDF

Info

Publication number
CN112633495B
CN112633495B CN202011504238.XA CN202011504238A CN112633495B CN 112633495 B CN112633495 B CN 112633495B CN 202011504238 A CN202011504238 A CN 202011504238A CN 112633495 B CN112633495 B CN 112633495B
Authority
CN
China
Prior art keywords
learning
class
feature space
slow
fast
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011504238.XA
Other languages
English (en)
Other versions
CN112633495A (zh
Inventor
李玺
赵涵斌
傅永健
康敏桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202011504238.XA priority Critical patent/CN112633495B/zh
Publication of CN112633495A publication Critical patent/CN112633495A/zh
Application granted granted Critical
Publication of CN112633495B publication Critical patent/CN112633495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于小样本类增量学***衡旧知识保留和新知识适应,是一种简单有效的小样本增量学习方法。

Description

一种用于小样本类增量学习的多粒度快慢学习方法
技术领域
本发明涉及深度网络模型的增量学习领域,尤其涉及一种用于小样本类增量学习的多粒度快慢学习方法。
背景技术
最近几年来,类增量学习取得了不错的发展,目的是在于使得一个学习器从新数据中获得新知识的同时能够保留从之前数据中已经学习得到的旧知识。在实际场景中,新数据中的新知识通常在一个更具有挑战性的小样本学习场景(即少量标注的样本),导致了小样本增量学习问题。小样本增量学习通常涉及基本任务(即具有大规模训练样本的第一项任务)和新任务(具有有限样本数)的学习阶段。原则上,小样本增量学习处于缓慢遗忘旧知识和快速适应新知识之间的困境。缓慢的遗忘通常会导致对新任务的抵触,而快速的适应会导致灾难性的遗忘问题。因此,需要实施“慢vs.快”学习方法,以确定要以慢速或快速方式更新哪些知识组件,从而在慢忘和快速适应之间保持权衡。在本专利中,我们专注于探究来自两个不同粒度的快慢学习性能差异:在同一特征空间内(称为空间内快慢学习分析)以及在两个不同特征空间之间(称为空间之间快慢学习分析)。
现有的用于解决类增量学习问题的方法主要分成以下三类:(1)添加或去除部件的结构化方法;(2)保存过去样本或其他旧任务信息的预演方法;(3)在已学习的知识限制下正则化网络参数更新的正则化方法。现有的这方法只能为快慢学习保留统一的特征空间(在不同的特征维度)。由于统一的特征空间具有相互关联的特征维度,因此很难对特征进行解耦以进行快慢学习分析。此外,旧知识保存和新知识适应的学习方向通常是不一致的(有时甚至是矛盾的)。在小样本类增量学习的情景下,统一的特征空间倾向于很好地拟合新任务的数据,但会遭受可分辨性和泛化能力的降低以及灾难性的遗忘
发明内容
为了解决现有技术中存在的问题,本发明旨在研究设计出一种用于小样本类增量学***衡旧知识保留和新知识适应。本发明提出的组合特征空间,由慢更新特征空间和快更新特征空间构成,能自适应地编码新任务知识的同时有效地保持旧任务的特征表达。
本发明具体采用的技术方案如下:
一种基于特征空间组合的小样本类增量学习方法,其包括以下步骤:
S1、连续获取多个任务的数据流,在每个类增量学习会话中只能获得一个任务的训练数据集;
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型;
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型;
所述慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;
所述快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重;
且所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上;
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组合特征空间进行分类;
S5:当存在新任务的训练数据集时,重复S3和S4,利用新数据对网络模型进行学习。
作为优选,所述S1中,所述的类增量学习会话定义如下:
从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话;
所述多个任务的数据流定义如下:
数据流D由N个训练数据集构成,D={D(1),D(2),...,D(N)},其中第t个任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习,在小样本类增量学习中D(1)为基任务数据;C(t)是第t个任务数据的类别集合,不同任务间包含的数据类别没有重叠。
作为优选,所述小样本类增量学***衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现样本分类。
作为优选,所述S2中,所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型;所述嵌入网络作为特征提取器,用于将一个给定的样本映射到一个表征空间,在该表征空间中样本间的距离表示样本间的语义差异;训练得到嵌入网络后,用所述最近类均值分类器对样本进行分类;
所述的基任务网络模型中,仅有嵌入网络是可学习的,所述嵌入网络在学习过程中,以最小化度量学习损失为目的。
作为优选,所述的度量学习损失采用三元组损失
其中d+表示代表样本xa和正样本xp的特征之间的欧式距离,d-表示代表样本xa和负样本xn的特征之间的欧式距离,r表示阈值。
作为优选,所述S3中,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项,λ是用于平衡/>和/>的系数;
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量 是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型(特征空间内部粒度的慢学习);
通过所述小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后,用最近类均值分类器进行分类:
式中:为第j个样本xj的预测分类标签;UiC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;/>是类别c的样本特征均值,定义如下:
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
所述S3中,以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项;
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量 是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型(特征空间内部粒度的快学习);
通过所述大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后,用最近类均值分类器进行分类。
作为优选,所述距离度量采用欧式距离。
作为优选,所述S4具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间;所述的组合特征空间表示如下:
对样本xj,其经过组合特征空间后得到的组合特征为
式中:Ψ(.,.)表示特征的空间组合函数,表示样本xj在当前会话中更新后得到的慢更新特征空间的特征,/>表示样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行分类,分类方法如下:
其中:表示第j个样本xj的预测分类标签,A表示度量矩阵,/>表示基于慢更新特征空间得到的类别c中所有样本的特征均值,/>表示基于快更新特征空间得到的类别c中所有样本的特征均值。
作为优选,所述空间组合函数Ψ(.,.)采用特征连接操作。
作为优选,所述度量矩阵A定义如下:
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
与面向深度神经网络模型的传统小样本类增量学习方法相比,本发明提供的一种用于小样本类增量学习的多粒度快慢学习方法,能自适应地编码新任务知识的同时有效地保持旧任务的特征表达,并且实现简单。
附图说明
图1为用于小样本类增量学习的多粒度快慢学习方法原理图;
图2为本发明方法流程图;
图3为本发明方法在CIFAR100数据集上的实施效果;
图4为本发明方法在MiniImageNet数据集上的实施效果图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步阐述。
本发明的用于小样本类增量学习的多粒度快慢学习方法原理如图1所示:首先在第一个类增量学习会话中,在基任务上学习得到一个基任务模型,慢更新模型和快更新模型都以基任务模型做初始化;当进入第二个类增量学习会话后,只能获取到新到达的数据和基任务上得到的慢更新模型和快更新模型,在新任务数据上以多粒度的慢学习方法更新慢更新模型,通过更新后的模型得到慢更新特征空间,以多粒度的快学习方法更新快更新模型,通过更新后的模型得到快更新特征空间,组合两个空间后得到组合特征空间进行分类;同理,每次有新任务数据到达时即进入下一个类增量学习会话时,以多粒度的快慢学习方法更新慢更新模型和快更新模型后,可以得到新的组合特征空间。通过该方式,能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合。下面对本发明的具体实现过程进行展开描述。
如图2所示,一种用于小样本类增量学习的多粒度快慢学习方法,包括以下步骤:
S1、连续获取多个任务的数据流,用于对模型进行训练,在每个类增量学习会话中只能获得一个任务的训练数据集。
其中,类增量学习会话定义如下:
从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话。
其中,多个任务的数据流定义如下:
数据流D由N个训练数据集构成,D={D(1),D(2),...,D(N)},其中数据集的具体个数N根据实际情况确定。在数据流D中,记第t个任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习;C(t)是第t个任务数据的类别集合,不同任务间包含的数据类别没有重叠,即对于任意在小样本类增量学习下,除了D(1)是包含较多样本和类别的基任务,对于D(t),t>1,D(t)包含极少数量的样本。在第t个类增量学习会话中,只能获取到D(t)数据。
本发明的小样本类增量学***衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现准确的样本分类。
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型。
此处的基任务网络模型是由嵌入网络(Embedding network)和最近类均值分类器(Nereast Class Mean classifier,NCM)组成的图像分类模型。其中,嵌入网络作为特征提取器,用于将一个给定的样本映射到一个信息充足的表征空间,在该表征空间中样本间的距离表示样本间的语义差异。为了这个目的,度量学习损失被用于保证相似样本间的距离比较近,不相似的样本间的距离大于一个阈值。训练得到嵌入网络后,用一个最近类均值分类器对样本进行分类。
在基任务网络模型中,仅有嵌入网络是可学习的,最近类均值分类器保持固定。网络学习训练与最小化如下目标函数的问题相关:
其中是度量学习损失。嵌入网络在学习过程中,以最小化度量学习损失为目的。度量学习损失的形式可以根据实际情况调整,本实施例中度量学习损失/>可采用三元组损失,其计算公式为:
其中:d+表示代表样本xa和正样本xp的特征之间的欧式距离,d-表示代表样本xa和负样本xn的特征之间的欧式距离,r表示阈值,max(,)表示取最大值操作。
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型。
需注意的是,此处的慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;而快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重。
所谓“大学习率”、“小学习率”、“大权重”、“小权重”均是相对概念,一般而言所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上。具体的取值可以根据具体的数据集设置。
此处前一个类增量学习会话中训练得到的慢更新网络模型和快更新网络模型,在不同的类增量学习会话中是不同的。参见图1所示,在第2个类增量学习会话中,其前一个类增量学习会话中训练得到的慢更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型,其前一个类增量学习会话中训练得到的快更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型,而在第3个类增量学习会话中,其前一个类增量学习会话中训练得到的慢更新网络模型就是第2个类增量学习会话中训练得到的慢更新网络模型,其前一个类增量学习会话中训练得到的快更新网络模型就是第2个类增量学习会话中训练得到的快更新网络模型,依此类推。
在更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项,λ是用于平衡/>和/>的系数;
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量 是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型(特征空间内部粒度的慢学习);
通过一个前述的小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后,用最近类均值分类器进行分类:
式中:为第j个样本xj的预测分类标签;UiC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;/>是类别c的样本特征均值,定义如下:
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
在更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项;
为样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量 是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型(特征空间内部粒度的快学习);
通过一个前述的大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后,用最近类均值分类器进行分类。
在本实施例中,大学习率是10-5,小学习率是10-6;大权重设置为1,小权重设置为0。
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组特征合空间进行分类。
在本实施例中,本步骤具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个空间进行组合,得到一个组合特征空间,该组合特征空间表示如下:
对样本xj,其经过组合特征空间后得到的组合特征为
式中:Ψ(.,.)表示特征的空间组合函数,表示样本xj在慢更新特征空间的特征,/>表示样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行分类,分类方法如下:
其中:A表示度量矩阵,表示基于慢更新特征空间得到的类别c中所有样本的特征均值,/>表示基于快更新特征空间得到的类别c中所有样本的特征均值。
在本实施例中,空间组合函数Ψ(.,.)采用特征连接操作。
在本实施例中,度量矩阵A定义如下:
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
因此,在本发明的方法中,在每个类增量学***衡旧知识保留和新知识适应,在自适应地编码新任务知识的同时有效地保持旧任务的特征表达。
S5:当存在新任务的训练数据集时,即可重复S3和S4,利用新任务的训练数据集重新对网络模型进行学习。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
实施例
下面基于上述方法进行仿真实验,本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对实验结果展示其效果。
本实施例使用用于图像分类任务在CUB200-2011、CIFAR100、MiniImageNet数据集上的原始复杂ResNet-18网络,开展基于小样本类增量学习任务。在CUB200-2011数据集上,共11个类增量学习会话,第一个类增量学习会话到达的基任务包含100类数据,每类样本的数量充足,后面每次类增量学习会话中到达的数据集包含10类数据,每类样本的数量量为5。在CIFAR100和MiniImageNet数据集上,共9个类增量学习会话,第一个类增量学习会话到达的基任务包含60类数据,每类样本的数量充足,后面每次类增量学习会话中到达的数据集包含5类数据,每类样本的数量量为5。本实施例的实施效果如表1、图3和图4所示。
表1本发明方法在CUB200-2011数据集上的实施效果
如表1所示,在CUB200-2011数据集上,本发明在11个类增量学***均准确率达到了54.33%,与最近最先进的方法(iCaRL、EEIL、NCM、TOPIC、SDC、POD)的结果相比。在CIFAR100和MiniImageNet数据集上,本发明在每个类增量学***均准确率是最高的。
综上,本发明实施例区别于现有技术,在每次类增量学***均准确率更高。
应理解,本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims (5)

1.一种基于特征空间组合小样本类增量学习的图像分类方法,其特征在于,包括以下步骤:
S1、连续获取多个图像分类任务的数据流,在每个类增量学习会话中只能获得一个图像分类任务的训练数据集;
S2、在第一个类增量学习会话中,以基任务作为第一个任务的训练数据集,学习得到基任务网络模型,慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型;
所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型;所述嵌入网络作为特征提取器,用于将一个给定的样本映射到一个表征空间,在该表征空间中样本间的距离表示样本间的语义差异;训练得到嵌入网络后,用所述最近类均值分类器对样本进行分类;
所述的基任务网络模型中,仅有嵌入网络是可学习的,所述嵌入网络在学习过程中,以最小化度量学习损失为目的;
S3、在下一个类增量学习会话中,基于新任务的训练数据集,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型,同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型;
所述慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重;
所述快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重;
且所述大学习率为所述小学习率的5倍以上,所述大权重为所述小权重的5倍以上;
S4:完成一个类增量学习会话后,通过慢更新网络模型得到慢更新特征空间,通过快更新网络模型得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间,利用组合特征空间进行图像分类;
S5:当存在新任务的训练数据集时,重复S3和S4,利用新数据对网络模型进行学习;
所述S1中,所述的类增量学习会话定义如下:
从当前图像分类任务的数据到达后至下一个图像分类任务的数据到达的时间间隔是一个类增量学习会话;
所述多个图像分类任务的数据流定义如下:
数据流D由N个图像分类训练数据集构成,D={D(1),D(2),...,D(N)},其中第t个图像分类任务的训练数据集为D(t),D(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习,在小样本类增量学习中D(1)为基任务数据;C(t)是第t个任务数据的类别集合,不同任务间包含的图像数据类别没有重叠;
所述的度量学习损失采用三元组损失
其中d+表示代表图像样本xa和正图像样本xp的特征之间的欧式距离,d-表示代表图像样本xa和负图像样本xn的特征之间的欧式距离,r表示阈值;
所述S3中,以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项,λ是用于平衡/>和/>的系数;
为图像样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的慢学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重,通过增大低频频域分量的权重至所述大权重训练慢更新网络模型;
通过所述小学习率训练得到嵌入网络后,用最近类均值分类器进行分类:
式中:为第j个图像样本xj的预测分类标签;∪iC(i)表示所有任务数据的类别集合;dist(.,.)表示距离度量;/>是类别c的样本特征均值,定义如下:
式中:nc是类别c的样本数量,[yj=c]表示判断yj=c是否成立,若成立则[yj=c]的值为1,否则[yj=c]的值为0。
所述S3中,以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型时,以最小化损失函数为目的对嵌入网络进行参数优化,其中:
式中是用于保持旧知识的正则项;
为图像样本xj的特征,通过离散余弦变换对特征分解得到不同频域分量:
式中Q是频域分量的数量,频域分量是在频域上的第q个分量,q=1,2,...,Q;在特征空间内粒度的快学习方法/>为:
式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重,通过降低低频分量的权重至所述小权重训练快更新网络模型;
通过所述大学习率训练得到嵌入网络后,用最近类均值分类器进行图像分类;
所述S4具体包含以下子步骤:
S41、每完成一个类增量学习会话后,从慢更新网络模型中得到慢更新特征空间,从快更新网络模型中得到快更新特征空间,对两个特征空间进行组合,得到一个组合特征空间;所述的组合特征空间表示如下:
对图像样本xj,其经过组合特征空间后得到的组合特征为
式中:Ψ(.,.)表示特征的空间组合函数,表示图像样本xj在当前会话中更新后得到的慢更新特征空间的特征,/>表示图像样本xj在当前会话中更新后得到的快更新特征空间的特征;
S42、利用组合特征空间,通过一个最近类均值分类器进行图像分类,图像分类方法如下:
其中:表示第j个图像样本xj的预测分类标签,A表示度量矩阵,/>表示基于慢更新特征空间得到的类别c中所有图像样本的特征均值,/>表示基于快更新特征空间得到的类别c中所有图像样本的特征均值。
2.根据权利要求1所述的图像分类方法,其特征在于,所述小样本类增量学***衡旧知识保留和新知识适应,在所有已经出现过的类别数据中实现图像样本分类。
3.根据权利要求1所述的图像分类方法,其特征在于,所述距离度量采用欧式距离。
4.根据权利要求1所述的图像分类方法,其特征在于,所述空间组合函数Ψ(.,.)采用特征连接操作。
5.根据权利要求4所述的图像分类方法,其特征在于,所述度量矩阵A定义如下:
式中:I是一个单位矩阵,维度为A维度的一半;a为一个取值0或1的标量,a=0表示只使用慢更新特征空间,a=1表示着只使用快更新特征空间。
CN202011504238.XA 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法 Active CN112633495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011504238.XA CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011504238.XA CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Publications (2)

Publication Number Publication Date
CN112633495A CN112633495A (zh) 2021-04-09
CN112633495B true CN112633495B (zh) 2023-07-18

Family

ID=75317034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011504238.XA Active CN112633495B (zh) 2020-12-18 2020-12-18 一种用于小样本类增量学习的多粒度快慢学习方法

Country Status (1)

Country Link
CN (1) CN112633495B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113240035A (zh) * 2021-05-27 2021-08-10 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN110569870A (zh) * 2019-07-25 2019-12-13 中国人民解放军陆军工程大学 基于多粒度标签融合的深度声学场景分类方法及***
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111814920A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于图网络的多粒度特征学习的精细分类方法及***
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101315670B (zh) * 2007-06-01 2010-08-11 清华大学 特定被摄体检测装置及其学习装置和学习方法
CN108363790B (zh) * 2018-02-12 2021-10-22 百度在线网络技术(北京)有限公司 用于对评论进行评估的方法、装置、设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110162018A (zh) * 2019-05-31 2019-08-23 天津开发区精诺瀚海数据科技有限公司 基于知识蒸馏与隐含层共享的增量式设备故障诊断方法
CN110569870A (zh) * 2019-07-25 2019-12-13 中国人民解放军陆军工程大学 基于多粒度标签融合的深度声学场景分类方法及***
CN111723693A (zh) * 2020-06-03 2020-09-29 云南大学 一种基于小样本学习的人群计数方法
CN111931807A (zh) * 2020-06-24 2020-11-13 浙江大学 一种基于特征空间组合的小样本类增量学习方法
CN111814920A (zh) * 2020-09-04 2020-10-23 中国科学院自动化研究所 基于图网络的多粒度特征学习的精细分类方法及***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
改进贝叶斯ARTMAP的迁移学习遥感影像分类算法;韩敏;《电子学报》;全文 *

Also Published As

Publication number Publication date
CN112633495A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN111931807B (zh) 一种基于特征空间组合的小样本类增量学习方法
CN112669916B (zh) 一种基于对比学习的分子图表示学习方法
CN107944410B (zh) 一种基于卷积神经网络的跨领域面部特征解析方法
WO2018157699A1 (zh) 一种全局最优粒子滤波方法及全局最优粒子滤波器
CN113326731A (zh) 一种基于动量网络指导的跨域行人重识别算法
CN107480723B (zh) 基于局部二进制阈值学习网络的纹理识别方法
CN113469186A (zh) 一种基于少量点标注的跨域迁移图像分割方法
CN111738303A (zh) 一种基于层次学习的长尾分布图像识别方法
CN114006870A (zh) 一种基于自监督卷积子空间聚类网络的网络流量识别方法
CN112633495B (zh) 一种用于小样本类增量学习的多粒度快慢学习方法
CN108596204B (zh) 一种基于改进型scdae的半监督调制方式分类模型的方法
CN112734049A (zh) 一种基于域自适应的多初始值元学习框架及方法
CN113313179B (zh) 一种基于l2p范数鲁棒最小二乘法的噪声图像分类方法
CN113869463A (zh) 一种基于交叉增强匹配的长尾噪声学习方法
CN112801162A (zh) 基于图像属性先验的自适应软标签正则化方法
CN109359677B (zh) 一种耐噪在线多分类核学习算法
CN116883751A (zh) 基于原型网络对比学习的无监督领域自适应图像识别方法
CN116681128A (zh) 一种带噪多标签数据的神经网络模型训练方法和装置
KR20080078292A (ko) 영역 밀도 표현에 기반한 점진적 패턴 분류 방법
CN113553917B (zh) 一种基于脉冲迁移学习的办公设备识别方法
CN115578568A (zh) 一种小规模可靠数据集驱动的噪声修正算法
CN115115966A (zh) 视频场景的分割方法、装置、计算机设备、存储介质
CN113990408A (zh) 一种基于化学元素知识图谱的分子图对比学习方法
CN117648623B (zh) 一种基于图池化对比学习的网络分类算法
CN112800959A (zh) 一种用于人脸识别中数据拟合估计的困难样本发掘方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant