CN112633495B

CN112633495B - 一种用于小样本类增量学习的多粒度快慢学习方法

Info

Publication number: CN112633495B
Application number: CN202011504238.XA
Authority: CN
Inventors: 李玺; 赵涵斌; 傅永健; 康敏桐
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2023-07-18
Anticipated expiration: 2040-12-18
Also published as: CN112633495A

Abstract

本发明公开了一种用于小样本类增量学***衡旧知识保留和新知识适应，是一种简单有效的小样本增量学习方法。

Description

一种用于小样本类增量学习的多粒度快慢学习方法

技术领域

本发明涉及深度网络模型的增量学习领域，尤其涉及一种用于小样本类增量学习的多粒度快慢学习方法。

背景技术

最近几年来，类增量学习取得了不错的发展，目的是在于使得一个学习器从新数据中获得新知识的同时能够保留从之前数据中已经学习得到的旧知识。在实际场景中，新数据中的新知识通常在一个更具有挑战性的小样本学习场景(即少量标注的样本)，导致了小样本增量学习问题。小样本增量学习通常涉及基本任务(即具有大规模训练样本的第一项任务)和新任务(具有有限样本数)的学习阶段。原则上，小样本增量学习处于缓慢遗忘旧知识和快速适应新知识之间的困境。缓慢的遗忘通常会导致对新任务的抵触，而快速的适应会导致灾难性的遗忘问题。因此，需要实施“慢vs.快”学习方法，以确定要以慢速或快速方式更新哪些知识组件，从而在慢忘和快速适应之间保持权衡。在本专利中，我们专注于探究来自两个不同粒度的快慢学习性能差异：在同一特征空间内(称为空间内快慢学习分析)以及在两个不同特征空间之间(称为空间之间快慢学习分析)。

现有的用于解决类增量学习问题的方法主要分成以下三类：(1)添加或去除部件的结构化方法；(2)保存过去样本或其他旧任务信息的预演方法；(3)在已学习的知识限制下正则化网络参数更新的正则化方法。现有的这方法只能为快慢学习保留统一的特征空间(在不同的特征维度)。由于统一的特征空间具有相互关联的特征维度，因此很难对特征进行解耦以进行快慢学习分析。此外，旧知识保存和新知识适应的学习方向通常是不一致的(有时甚至是矛盾的)。在小样本类增量学习的情景下，统一的特征空间倾向于很好地拟合新任务的数据，但会遭受可分辨性和泛化能力的降低以及灾难性的遗忘

发明内容

为了解决现有技术中存在的问题，本发明旨在研究设计出一种用于小样本类增量学***衡旧知识保留和新知识适应。本发明提出的组合特征空间，由慢更新特征空间和快更新特征空间构成，能自适应地编码新任务知识的同时有效地保持旧任务的特征表达。

本发明具体采用的技术方案如下：

一种基于特征空间组合的小样本类增量学习方法，其包括以下步骤：

S1、连续获取多个任务的数据流，在每个类增量学习会话中只能获得一个任务的训练数据集；

S2、在第一个类增量学习会话中，以基任务作为第一个任务的训练数据集，学习得到基任务网络模型，慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型；

S3、在下一个类增量学习会话中，基于新任务的训练数据集，以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型，同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型；

所述慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重；

所述快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重；

且所述大学习率为所述小学习率的5倍以上，所述大权重为所述小权重的5倍以上；

S4：完成一个类增量学习会话后，通过慢更新网络模型得到慢更新特征空间，通过快更新网络模型得到快更新特征空间，对两个特征空间进行组合，得到一个组合特征空间，利用组合特征空间进行分类；

S5：当存在新任务的训练数据集时，重复S3和S4，利用新数据对网络模型进行学习。

作为优选，所述S1中，所述的类增量学习会话定义如下：

从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话；

所述多个任务的数据流定义如下：

数据流D由N个训练数据集构成，D＝{D⁽¹⁾，D⁽²⁾，...，D^(N)}，其中第t个任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习，在小样本类增量学习中D⁽¹⁾为基任务数据；C^(t)是第t个任务数据的类别集合，不同任务间包含的数据类别没有重叠。

作为优选，所述小样本类增量学***衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现样本分类。

作为优选，所述S2中，所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型；所述嵌入网络作为特征提取器，用于将一个给定的样本映射到一个表征空间，在该表征空间中样本间的距离表示样本间的语义差异；训练得到嵌入网络后，用所述最近类均值分类器对样本进行分类；

所述的基任务网络模型中，仅有嵌入网络是可学习的，所述嵌入网络在学习过程中，以最小化度量学习损失为目的。

作为优选，所述的度量学习损失采用三元组损失

其中d₊表示代表样本x_a和正样本x_p的特征之间的欧式距离，d_-表示代表样本x_a和负样本x_n的特征之间的欧式距离，r表示阈值。

作为优选，所述S3中，以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项，λ是用于平衡/>和/>的系数；

为样本x_j的特征，通过离散余弦变换对特征分解得到不同频域分量：

式中Q是频域分量的数量，频域分量是在频域上的第q个分量，q＝1，2，...，Q；在特征空间内粒度的慢学习方法/>为：

式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重，通过增大低频频域分量的权重至所述大权重训练慢更新网络模型(特征空间内部粒度的慢学习)；

通过所述小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后，用最近类均值分类器进行分类：

式中：为第j个样本x_j的预测分类标签；U_iC⁽ⁱ⁾表示所有任务数据的类别集合；dist(.，.)表示距离度量；/>是类别c的样本特征均值，定义如下：

式中：n_c是类别c的样本数量，[y_j＝c]表示判断y_j＝c是否成立，若成立则[y_j＝c]的值为1，否则[y_j＝c]的值为0。

所述S3中，以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项；

式中Q是频域分量的数量，频域分量是在频域上的第q个分量，q＝1，2，...，Q；在特征空间内粒度的快学习方法/>为：

式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重，通过降低低频分量的权重至所述小权重训练快更新网络模型(特征空间内部粒度的快学习)；

通过所述大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后，用最近类均值分类器进行分类。

作为优选，所述距离度量采用欧式距离。

作为优选，所述S4具体包含以下子步骤：

S41、每完成一个类增量学习会话后，从慢更新网络模型中得到慢更新特征空间，从快更新网络模型中得到快更新特征空间，对两个特征空间进行组合，得到一个组合特征空间；所述的组合特征空间表示如下：

对样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.，.)表示特征的空间组合函数，表示样本x_j在当前会话中更新后得到的慢更新特征空间的特征，/>表示样本x_j在当前会话中更新后得到的快更新特征空间的特征；

S42、利用组合特征空间，通过一个最近类均值分类器进行分类，分类方法如下：

其中：表示第j个样本x_j的预测分类标签，A表示度量矩阵，/>表示基于慢更新特征空间得到的类别c中所有样本的特征均值，/>表示基于快更新特征空间得到的类别c中所有样本的特征均值。

作为优选，所述空间组合函数Ψ(.，.)采用特征连接操作。

作为优选，所述度量矩阵A定义如下：

式中：I是一个单位矩阵，维度为A维度的一半；a为一个取值0或1的标量，a＝0表示只使用慢更新特征空间，a＝1表示着只使用快更新特征空间。

与面向深度神经网络模型的传统小样本类增量学习方法相比，本发明提供的一种用于小样本类增量学习的多粒度快慢学习方法，能自适应地编码新任务知识的同时有效地保持旧任务的特征表达，并且实现简单。

附图说明

图1为用于小样本类增量学习的多粒度快慢学习方法原理图；

图2为本发明方法流程图；

图3为本发明方法在CIFAR100数据集上的实施效果；

图4为本发明方法在MiniImageNet数据集上的实施效果图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步阐述。

本发明的用于小样本类增量学习的多粒度快慢学习方法原理如图1所示：首先在第一个类增量学习会话中，在基任务上学习得到一个基任务模型，慢更新模型和快更新模型都以基任务模型做初始化；当进入第二个类增量学习会话后，只能获取到新到达的数据和基任务上得到的慢更新模型和快更新模型，在新任务数据上以多粒度的慢学习方法更新慢更新模型，通过更新后的模型得到慢更新特征空间，以多粒度的快学习方法更新快更新模型，通过更新后的模型得到快更新特征空间，组合两个空间后得到组合特征空间进行分类；同理，每次有新任务数据到达时即进入下一个类增量学习会话时，以多粒度的快慢学习方法更新慢更新模型和快更新模型后，可以得到新的组合特征空间。通过该方式，能减少对过去旧任务知识的遗忘并防止对新任务知识的过拟合。下面对本发明的具体实现过程进行展开描述。

如图2所示，一种用于小样本类增量学习的多粒度快慢学习方法，包括以下步骤：

S1、连续获取多个任务的数据流，用于对模型进行训练，在每个类增量学习会话中只能获得一个任务的训练数据集。

其中，类增量学习会话定义如下：

从当前任务的数据到达后至下一个任务的数据到达的时间间隔是一个类增量学习会话。

其中，多个任务的数据流定义如下：

数据流D由N个训练数据集构成，D＝{D⁽¹⁾，D⁽²⁾，...，D^(N)}，其中数据集的具体个数N根据实际情况确定。在数据流D中，记第t个任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习；C^(t)是第t个任务数据的类别集合，不同任务间包含的数据类别没有重叠，即对于任意在小样本类增量学习下，除了D⁽¹⁾是包含较多样本和类别的基任务，对于D^(t)，t＞1，D^(t)包含极少数量的样本。在第t个类增量学习会话中，只能获取到D^(t)数据。

本发明的小样本类增量学***衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现准确的样本分类。

S2、在第一个类增量学习会话中，以基任务作为第一个任务的训练数据集，学习得到基任务网络模型，慢更新网络模型和快更新网络模型都以基任务网络模型作为初始化模型。

此处的基任务网络模型是由嵌入网络(Embedding network)和最近类均值分类器(Nereast Class Mean classifier，NCM)组成的图像分类模型。其中，嵌入网络作为特征提取器，用于将一个给定的样本映射到一个信息充足的表征空间，在该表征空间中样本间的距离表示样本间的语义差异。为了这个目的，度量学习损失被用于保证相似样本间的距离比较近，不相似的样本间的距离大于一个阈值。训练得到嵌入网络后，用一个最近类均值分类器对样本进行分类。

在基任务网络模型中，仅有嵌入网络是可学习的，最近类均值分类器保持固定。网络学习训练与最小化如下目标函数的问题相关：

其中是度量学习损失。嵌入网络在学习过程中，以最小化度量学习损失为目的。度量学习损失的形式可以根据实际情况调整，本实施例中度量学习损失/>可采用三元组损失，其计算公式为：

其中：d₊表示代表样本x_a和正样本x_p的特征之间的欧式距离，d_-表示代表样本x_a和负样本x_n的特征之间的欧式距离，r表示阈值，max(，)表示取最大值操作。

S3、在下一个类增量学习会话中，基于新任务的训练数据集，以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型，同时以快的多粒度学习方法更新前一个类增量学习会话中训练得到的快更新网络模型。

需注意的是，此处的慢的多粒度学习方法指在特征空间之间粒度使用小学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用大权重；而快的多粒度学习方法指在特征空间之间粒度使用大学习率更新特征空间和在特征空间内部粒度对低频分量做知识迁移时使用小权重。

所谓“大学习率”、“小学习率”、“大权重”、“小权重”均是相对概念，一般而言所述大学习率为所述小学习率的5倍以上，所述大权重为所述小权重的5倍以上。具体的取值可以根据具体的数据集设置。

此处前一个类增量学习会话中训练得到的慢更新网络模型和快更新网络模型，在不同的类增量学习会话中是不同的。参见图1所示，在第2个类增量学习会话中，其前一个类增量学习会话中训练得到的慢更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型，其前一个类增量学习会话中训练得到的快更新网络模型就是第一个类增量学习会话中训练得到的基任务网络模型，而在第3个类增量学习会话中，其前一个类增量学习会话中训练得到的慢更新网络模型就是第2个类增量学习会话中训练得到的慢更新网络模型，其前一个类增量学习会话中训练得到的快更新网络模型就是第2个类增量学习会话中训练得到的快更新网络模型，依此类推。

在更新前一个类增量学习会话中训练得到的慢更新网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

通过一个前述的小学习率训练(特征空间之间粒度的慢学习)得到嵌入网络后，用最近类均值分类器进行分类：

在更新前一个类增量学习会话中训练得到的快更新网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

式中是用于保持旧知识的正则项；

通过一个前述的大学习率(特征空间之间粒度的快学习)训练得到嵌入网络后，用最近类均值分类器进行分类。

在本实施例中，大学习率是10^-5，小学习率是10^-6；大权重设置为1，小权重设置为0。

S4：完成一个类增量学习会话后，通过慢更新网络模型得到慢更新特征空间，通过快更新网络模型得到快更新特征空间，对两个特征空间进行组合，得到一个组合特征空间，利用组特征合空间进行分类。

在本实施例中，本步骤具体包含以下子步骤：

S41、每完成一个类增量学习会话后，从慢更新网络模型中得到慢更新特征空间，从快更新网络模型中得到快更新特征空间，对两个空间进行组合，得到一个组合特征空间，该组合特征空间表示如下：

对样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.，.)表示特征的空间组合函数，表示样本x_j在慢更新特征空间的特征，/>表示样本x_j在当前会话中更新后得到的快更新特征空间的特征；

其中：A表示度量矩阵，表示基于慢更新特征空间得到的类别c中所有样本的特征均值，/>表示基于快更新特征空间得到的类别c中所有样本的特征均值。

在本实施例中，空间组合函数Ψ(.，.)采用特征连接操作。

在本实施例中，度量矩阵A定义如下：

因此，在本发明的方法中，在每个类增量学***衡旧知识保留和新知识适应，在自适应地编码新任务知识的同时有效地保持旧任务的特征表达。

S5：当存在新任务的训练数据集时，即可重复S3和S4，利用新任务的训练数据集重新对网络模型进行学习。

下面将上述方法应用于具体实施例中，以便本领域技术人员能够更好地理解本发明的效果。

实施例

下面基于上述方法进行仿真实验，本实施例的实现方法如前所述，不再详细阐述具体的步骤，下面仅针对实验结果展示其效果。

本实施例使用用于图像分类任务在CUB200-2011、CIFAR100、MiniImageNet数据集上的原始复杂ResNet-18网络，开展基于小样本类增量学习任务。在CUB200-2011数据集上，共11个类增量学习会话，第一个类增量学习会话到达的基任务包含100类数据，每类样本的数量充足，后面每次类增量学习会话中到达的数据集包含10类数据，每类样本的数量量为5。在CIFAR100和MiniImageNet数据集上，共9个类增量学习会话，第一个类增量学习会话到达的基任务包含60类数据，每类样本的数量充足，后面每次类增量学习会话中到达的数据集包含5类数据，每类样本的数量量为5。本实施例的实施效果如表1、图3和图4所示。

表1本发明方法在CUB200-2011数据集上的实施效果

如表1所示，在CUB200-2011数据集上，本发明在11个类增量学***均准确率达到了54.33％，与最近最先进的方法(iCaRL、EEIL、NCM、TOPIC、SDC、POD)的结果相比。在CIFAR100和MiniImageNet数据集上，本发明在每个类增量学***均准确率是最高的。

综上，本发明实施例区别于现有技术，在每次类增量学***均准确率更高。

应理解，本实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于特征空间组合小样本类增量学习的图像分类方法，其特征在于，包括以下步骤：

S1、连续获取多个图像分类任务的数据流，在每个类增量学习会话中只能获得一个图像分类任务的训练数据集；

所述的基任务网络模型是由嵌入网络和最近类均值分类器组成的图像分类模型；所述嵌入网络作为特征提取器，用于将一个给定的样本映射到一个表征空间，在该表征空间中样本间的距离表示样本间的语义差异；训练得到嵌入网络后，用所述最近类均值分类器对样本进行分类；

所述的基任务网络模型中，仅有嵌入网络是可学习的，所述嵌入网络在学习过程中，以最小化度量学习损失为目的；

S4：完成一个类增量学习会话后，通过慢更新网络模型得到慢更新特征空间，通过快更新网络模型得到快更新特征空间，对两个特征空间进行组合，得到一个组合特征空间，利用组合特征空间进行图像分类；

S5：当存在新任务的训练数据集时，重复S3和S4，利用新数据对网络模型进行学习；

所述S1中，所述的类增量学习会话定义如下：

从当前图像分类任务的数据到达后至下一个图像分类任务的数据到达的时间间隔是一个类增量学习会话；

所述多个图像分类任务的数据流定义如下：

数据流D由N个图像分类训练数据集构成，D＝{D⁽¹⁾，D⁽²⁾，...，D^(N)}，其中第t个图像分类任务的训练数据集为D^(t)，D^(t)仅在第t个类增量学习会话中被获取到并用于模型的训练学习，在小样本类增量学习中D⁽¹⁾为基任务数据；C^(t)是第t个任务数据的类别集合，不同任务间包含的图像数据类别没有重叠；

所述的度量学习损失采用三元组损失

其中d₊表示代表图像样本x_a和正图像样本x_p的特征之间的欧式距离，d_-表示代表图像样本x_a和负图像样本x_n的特征之间的欧式距离，r表示阈值；

所述S3中，以慢的多粒度学习方法更新前一个类增量学习会话中训练得到的慢更新网络模型时，以最小化损失函数为目的对嵌入网络进行参数优化，其中：

为图像样本x_j的特征，通过离散余弦变换对特征分解得到不同频域分量：

式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重，通过增大低频频域分量的权重至所述大权重训练慢更新网络模型；

通过所述小学习率训练得到嵌入网络后，用最近类均值分类器进行分类：

式中：为第j个图像样本x_j的预测分类标签；∪_iC⁽ⁱ⁾表示所有任务数据的类别集合；dist(.，.)表示距离度量；/>是类别c的样本特征均值，定义如下：

式中是用于保持旧知识的正则项；

式中和/>分别表示第t个和第t-1个类增量学习会话中的频域分量是正则项中逼近旧特征空间第q个频域分量的权重，通过降低低频分量的权重至所述小权重训练快更新网络模型；

通过所述大学习率训练得到嵌入网络后，用最近类均值分类器进行图像分类；

所述S4具体包含以下子步骤：

对图像样本x_j，其经过组合特征空间后得到的组合特征为

式中：Ψ(.，.)表示特征的空间组合函数，表示图像样本x_j在当前会话中更新后得到的慢更新特征空间的特征，/>表示图像样本x_j在当前会话中更新后得到的快更新特征空间的特征；

S42、利用组合特征空间，通过一个最近类均值分类器进行图像分类，图像分类方法如下：

其中：表示第j个图像样本x_j的预测分类标签，A表示度量矩阵，/>表示基于慢更新特征空间得到的类别c中所有图像样本的特征均值，/>表示基于快更新特征空间得到的类别c中所有图像样本的特征均值。

2.根据权利要求1所述的图像分类方法，其特征在于，所述小样本类增量学***衡旧知识保留和新知识适应，在所有已经出现过的类别数据中实现图像样本分类。

3.根据权利要求1所述的图像分类方法，其特征在于，所述距离度量采用欧式距离。

4.根据权利要求1所述的图像分类方法，其特征在于，所述空间组合函数Ψ(.，.)采用特征连接操作。

5.根据权利要求4所述的图像分类方法，其特征在于，所述度量矩阵A定义如下：