CN110580500B

CN110580500B - 一种面向人物交互的网络权重生成少样本图像分类方法

Info

Publication number: CN110580500B
Application number: CN201910770529.4A
Authority: CN
Inventors: 冀中; 安平
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-20
Filing date: 2019-08-20
Publication date: 2023-04-18
Anticipated expiration: 2039-08-20
Also published as: CN110580500A

Abstract

本发明的一种面向人物交互的网络权重生成少样本图像分类方法，考虑到人物交互图像数据集中的长尾问题，使用元学习框架，采用episodic训练策略，模拟了真实场景下少样本图像数据情况，减小图像数据分布差异，提高泛化能力，有效解决人物交互任务中图像分布不均的问题。引入标签的名词与动词的语义信息，生成任务级的特征提取网络功能参数对视觉特征进行加强。在训练过程中，不断地从获取不同的小样本任务，使用任务包含类别的语义与视觉融合信息将任务数据表示为一个任务特征，基于这个任务特征，通过参数生成器采样出一个针对当前这个任务的目标网络对应层的参数，关注到相关图像中人物的动作和物体区域，能够提高图像分类能力。

Description

一种面向人物交互的网络权重生成少样本图像分类方法

技术领域

本发明涉及一种图像分类方法。特别是涉及一种面向人物交互的网络权重生成少样本图像分类方法。

背景技术

深度学习是机器学习中的一个热点领域，具体任务如图像分类、目标检测等。深度学习技术是在大量数据和大规模训练的基础上，模拟或实现人类的学习行为，以获取新的知识或技能。这些数据的采集、标注需要耗费大量的人力成本。在现实中，随着更多应用场景的涌现，我们也将必然面临更多数据不足的问题，然而在标注数据比较少的情况下，神经网络通常容易过拟合，使深度学习的应用和效果都受到了限制。与之相反，人类具有从少量数据中学习的能力，例如给一个小朋友看过几张苹果的图片之后，他就可以很快学会“苹果”这个类别。

因此如何能够让机器像人类一样能够利用学习经验从小样本中进行有效学习，成为了一个重要的研究方向。由该情境提出的少样本学习(Few-shot learning)，少样本学习目标是用已知类别训练一个分类模型，使它能够在只有少量数据的未知类别上具有很好的泛化性能。元学习(Meta Learning)也称为学会学习，其思想是利用已有的先验知识能够快速适应新的学习任务。元学习思想的提出为少样本学习提供了新的思路，基于元学习的少样本学习方法引起了广泛关注。

在元学习中，将图像类别分为元训练集(Meta Train Set)和元测试集(Meta TestSet)，其类别互不重合。现有元学习的方法大致可分为两种：基于度量的方法和基于梯度的方法。

基于度量的方法旨在最小化类内距离，同时最大化类间距离，经典算法如匹配网络(Matching Network)，关系网络(Relation Network)和原型网络(PrototypicalNetwork)。这类方法通常采用Episodic的训练策略，即将训练集分为支持集(Support Set)和查询集(Query Set)，对每个类别抽取少量样本，形成一个子任务(episodes)，用来模拟训练和测试的过程，再使用子任务来训练模型。

基于梯度的方法旨在训练一个模型仅通过微调可以更好的泛化到新的任务上，经典算法如模型无关的元学习(MAML)。

元学习通过对已有任务的学习，来提升对未见的新任务的分类准确率。通过对支持集和查询集的视觉特征进行匹配，完成分类。元学习在此框架下，学习一种视觉特征与视觉特征的匹配关系，以实现新任务的自动分类。

现在基于元学习的少样本训练主要存在以下问题：

1)目前，人物交互数据集中的存在长尾问题，即存在一些不常见的组合，分布在尾部的类别仅有少量样本，导致类别间的样本极度不均衡，使得训练出来的模型泛化能力差，容易过拟合。如何将头部样本多的类别的知识迁移到尾部样本少的类别，对人物交互任务提出了挑战。

2)现阶段元学***。

发明内容

本发明所要解决的技术问题是，提供一种能够提高图像分类能力的面向人物交互的网络权重生成少样本图像分类方法。

本发明所采用的技术方案是：一种面向人物交互的网络权重生成少样本图像分类方法，其特征在于，包括如下步骤：

1)将图像数据分为元训练集和元测试集；将元训练集和元测试集分别分为支持集和查询集，对支持集中的每个类别抽取设定量样本，形成一小样本任务；

2)设定支持集中含有w个图像类别，每个类别给出由s个四元组

定义的数据，其中，s是大于等于0的整数，x_i∈R^p是第i个图像视觉特征，

是第i个图像视觉特征的类别标签，n_i∈R^q是第i个图像视觉特征的类别中名词的文本语义特征，v_i∈R^q是第i个图像视觉特征的类别中动词的文本语义特征；p和q分别是视觉和语义空间的维度；训练阶段与支持集相对应类别的查询集给出q个二元组

其中，q是大于0的整数，

是第j个图像视觉特征，

是第j个图像视觉特征的类别标签；

3)从元训练集的支持集中随机取得w个图像类别的支持集的视觉特征，分别记为x₁，x₂，x₃，x₄，……，x_w，每个类别包含s个样本；

4)依次将支持集的w个图像类别的视觉特征送到用于将支持集与查询集嵌入同一空间的视觉特征提取网络

中，得到元训练集的支持集特征向量

5)从元训练集的查询集随机取得查询集的视觉特征x_Q，送到用于将支持集与查询集嵌入同一空间的图像视觉特征提取网络

中，得到元训练集的查询集特征向量

6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N＝{n₁,n₂,...,n_w}，V＝{v₁,v₂,...,v_w}，与支持集特征向量x～_S共同送入语义元网络g_Φ中，得到归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

7)将归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

输入目标网络T_θ，得到名词区域目标网络

和动词区域目标网络

再依次将支持集特征向量

与查询集特征向量

送入名词区域目标网络

和动词区域目标网络

得到名词融合目标特征

和动词融合目标特征

8)依次使用支持集的融合目标特征向量

和查询集的融合目标特征向量

计算得到查询集图片属于各个类别的概率；

9)在训练阶段，不断地从元训练集中获取不同的小样本任务，采用交叉熵损失和函数作为损失函数，通过反向传播，累积不同任务的损失来调整视觉特征提取网络

和语义元网络g_Φ的参数，采用Adam优化算法对损失函数进行优化，直至损失函数趋于稳定；

10)在测试阶段，将元测试集的支持集与查询集的视觉特征输入训练好的视觉特征提取网络

中，将支持集名词语义信息和动词语义信息输入训练好的语义元网络g_Φ中，得到特定区域的名词融合目标特征

和动词融合目标特征

再计算得到查询集图片属于各个类别的概率，将概率最大的那个类别，作为查询集图片所属的类别。

附图说明

图1为本发明一种面向人物交互的网络权重生成少样本图像分类方法的流程图；

图2为本发明中支持集的语义元网络的流程图；

图3为本发明中目标网络的流程图。

具体实施方式

下面结合实施例和附图对本发明的一种面向人物交互的网络权重生成少样本图像分类方法做出详细说明。

如图1所示，本发明的一种面向人物交互的网络权重生成少样本图像分类方法，包括如下步骤：

2)设定支持集中含有w个图像类别，每个类别给出由s个四元组

定义的数据，其中，s是大于等于0的整数，(图1是以w＝5，s＝1为例)x_i∈R^p是第i个图像视觉特征，

其中，q是大于0的整数，

是第j个图像视觉特征，

是第j个图像视觉特征的类别标签；

中，得到元训练集的支持集特征向量

中，得到元训练集的查询集特征向量

6)从元训练集的支持集得到w个图像类别的名词语义信息和动词语义信息分别记为N＝{n₁,n₂,...,n_w}，V＝{v₁,v₂,...,v_w}，与支持集特征向量

共同送入语义元网络g_Φ中，得到归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

如图2所示，所述的语义元网络g_Φ包括编码网络、语义融合网络和参数生成器，其中，

所述的编码网络是将w个图像类别的名词语义信息与动词语义信息与支持集特征向量

嵌入同一空间，分别使用语义编码器E₁和视觉编码器E₂，对名词语义信息与动词语义信息n_i,v_i及支持集特征向量

编码，得到：

L_n＝E₁(n_i) (1)

L_v＝E₁(v_i) (2)

其中，L_n为名词语义编码特征；L_v为动词语义编码特征；L_s为支持集视觉编码特征；E₁(n_i)和E₁(v_i)分别为使用名词语义信息n_i和动词语义信息v_i的语义编码器；

为支持集特征向量

视觉编码器；

所述的语义融合网络分为名词部分和动词部分，名词部分将支持集视觉编码特征L_s和名词语义编码特征L_n输入第一融合网络C₁，动词部分将支持集视觉编码特征L_s和动词语义编码特征L_v输入第一融合网络C₁，得到语义与视觉融合的任务特征：

其中，

为名词融合任务特征；

为动词融合任务特征；

所述的参数生成器G是分别对名词融合任务特征

和动词融合任务特征

进行采样，得到针对当前任务的目标网络对应层的权重：

其中，

为名词区域目标网络

的卷积核权重；

为动词区域目标网络

的卷积核权重；

同时，采用权重归一化的方法约束生成权重的尺度，对卷积核权重

进行用来稳定训练过程的L2范数归一化处理：

其中，

为归一化后的名词区域目标网络

的卷积核权重；

为归一化后的动词区域目标网络

的卷积核权重。

7)如图3所示，将归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

输入目标网络T_θ，所述的目标网络T_θ是两层卷积网络，得到名词区域目标网络

和动词区域目标网络

再依次将支持集特征向量

与查询集特征向量

送入名词区域目标网络

和动词区域目标网络

得到名词融合目标特征

和动词融合目标特征

包括：

将归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

输入目标网络T_θ，得到名词区域目标网络

和动词区域目标网络

并分别向名词区域目标网络

和动词区域目标网络

输入支持集特征向量

和查询集特征向量

得到名词区域的目标特征向量和动词区域的目标特征向量：

其中，

为查询集名词目标特征向量；

为查询集动词目标特征向量；

为支持集名词目标特征向量；

为支持集动词目标特征向量；

将查询集名词目标特征向量

查询集动词目标特征向量

支持集名词目标特征向量

和支持集动词目标特征向量

均输入到第二融合网络C₂，得到支持集的融合目标特征向量

和查询集的融合目标特征向量

8)依次使用支持集的融合目标特征向量

和查询集的融合目标特征向量

计算得到查询集图片属于各个类别的概率；

和动词融合目标特征

步骤8)和步骤10)是采用如下公式计算得到查询集图片属于各个类别的概率：

其中，c_W为支持集第w个类的融合目标特征向量；s为每类样本数据的个数；T_θ为目标网络；

为视觉特征提取网络；x_i是支持集第w个类第i个图像视觉特征；p_φ(y＝w|x)表示预测标签为w的概率，y是预测类别标签；d为距离度量函数；x_j是查询集第j个图像视觉特征；c_w'为支持集全部类别的融合目标特征向量。

Claims

1.一种面向人物交互的网络权重生成少样本图像分类方法，其特征在于，包括如下步骤：

2)设定支持集中含有w个图像类别，每个类别给出由s个四元组

其中，q是大于0的整数，

是第j个图像视觉特征，

是第j个图像视觉特征的类别标签；

中，得到元训练集的支持集特征向量

中，得到元训练集的查询集特征向量

和归一化后的动词区域卷积核权重

所述的语义元网络g_Φ包括编码网络、语义融合网络和参数生成器，其中，

编码，得到：

L_n＝E₁(n_i) (1)

L_v＝E₁(v_i) (2)

为支持集特征向量

视觉编码器；

其中，

为名词融合任务特征；

为动词融合任务特征；

所述的参数生成器G是分别对名词融合任务特征

和动词融合任务特征

进行采样，得到针对当前任务的目标网络对应层的权重：

其中，

为名词区域目标网络

的卷积核权重；

为动词区域目标网络

的卷积核权重；

进行用来稳定训练过程的L2范数归一化处理：

其中，

为归一化后的名词区域目标网络

的卷积核权重；

为归一化后的动词区域目标网络

的卷积核权重；

7)将归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

输入目标网络T_θ，得到名词区域目标网络

和动词区域目标网络

再依次将支持集特征向量

与查询集特征向量

送入名词区域目标网络

和动词区域目标网络

得到名词融合目标特征

和动词融合目标特征

8)依次使用支持集的融合目标特征向量

和查询集的融合目标特征向量

计算得到查询集图片属于各个类别的概率；

和动词融合目标特征

2.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法，其特征在于，步骤7)所述的目标网络T_θ是两层卷积网络。

3.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法，其特征在于，步骤7)包括：将归一化后的名词区域卷积核权重

和归一化后的动词区域卷积核权重

输入目标网络T_θ，得到名词区域目标网络

和动词区域目标网络

并分别向名词区域目标网络

和动词区域目标网络

输入支持集特征向量

和查询集特征向量

得到名词区域的目标特征向量和动词区域的目标特征向量：

其中，

为查询集名词目标特征向量；

为查询集动词目标特征向量；

为支持集名词目标特征向量；

为支持集动词目标特征向量；

将查询集名词目标特征向量

查询集动词目标特征向量

支持集名词目标特征向量

和支持集动词目标特征向量

均输入到第二融合网络C₂，得到支持集的融合目标特征向量

和查询集的融合目标特征向量

4.根据权利要求1所述的一种面向人物交互的网络权重生成少样本图像分类方法，其特征在于，步骤8)和步骤10)是采用如下公式计算得到查询集图片属于各个类别的概率：