CN113627522A

CN113627522A - 基于关系网络的图像分类方法、装置、设备及存储介质

Info

Publication number: CN113627522A
Application number: CN202110907203.9A
Authority: CN
Inventors: 梁军; 余嘉琳; 余松森; 苏俊光
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-09

Abstract

本发明涉及一种基于关系网络的图像分类方法，包括如下步骤：获取目标图像；将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个类别图像之间的相似度；其中，所述图像分类模型包括嵌入模块和度量模块，所述嵌入模块为随机深度网络，所述度量模块包括相互连接的卷积层和全连接层；根据最大的所述相似度，得到该目标图像的类别。该方法通过在嵌入模块中采用随机深度网络代替关系网络中卷积层，该网络可以通过随机去掉一些冗余层来优化残差网络的训练过程，使得网络在加深层数的同时又能防止过拟合的问题，能够提取到更准确的支持集图像特征和查询集图像特征从而进一步提高查询集的类别判断。

Description

基于关系网络的图像分类方法、装置、设备及存储介质

技术领域

本发明涉及图像处理技术领域，特别是涉及一种基于关系网络的图像分类方法、装置、设备及存储介质。

背景技术

近年来，深度学习在各领域中所取得的前所未有的突破性进展很大程度上依赖于大量的可用有标签数据，这些数据需要耗费大量的成本进行收集和标注，这严重限制了在新类别中的扩展，更重要的是这些深度学习的模型很难解决少量标签数据的问题。因此基于关系网络的小样本学习问题，成为了近年来研究的热点内容。

小样本研究的目的是设计相关的学习模型，使得该模型可以仅在少量的有标签样本中实现快速学习并识别出新样本的类别。目前存在的适用于小样本问题的研究有：数据增强、元学习和度量学习。数据增强在一定程度上可以缓解少量数据训练过程中出现的过拟合问题和数据稀缺问题，但不能从根本上解决小样本问题。元学习则是将模型从原有的数据学习提升到任务学习为小样本学习问题的研究提供了新的方向。

在小样本学习的过程中利用深度卷积网络提取图像的特征是较为关键的一步，而采用现有的学习方法进行小样本学习任务，很难使得深度卷积网络提升模型的分类准确率。

在训练深层神经网络时存在着梯度消失，信息在前向流动时逐渐减少以及训练时间过长的问题，使得深层神经网络的训练变得非常困难。在一些任务中，如果使用浅层的神经网络，它们结构简单容易训练但是表达能力差；如果使用深层的神经网络，他们存在较多的冗余层，虽然它们的表达能力好但是更难训练。

发明内容

基于此，本发明的目的在于，提供一种基于关系网络的图像分类方法、装置、设备及存储介质，能够提取到更准确的支持集图像特征和查询集图像特征从而进一步提高查询集的类别判断。

第一方面，本申请实施例提供了一种基于关系网络的图像分类方法，包括如下步骤：

获取目标图像；

将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个类别图像之间的相似度；其中，所述图像分类模型包括嵌入模块和度量模块，所述嵌入模块为随机深度网络，所述度量模块包括相互连接的卷积层和全连接层；

根据最大的所述相似度，得到该目标图像的类别。

进一步地，将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个类别图像之间的相似度，包括：

将所述目标图像与所述支持集图像输入至所述随机深度网络，提取所述目标图像与所述支持集图像的特征；

对提取到的所述目标图像的特征和所述支持集图像的特征进行拼接，得到拼接图像；

将所述拼接图像输入至所述卷积层，进一步提取所述拼接图像的特征；

将所述提取到的拼接图像的特征输入至所述全连接层，得到所述目标图像与所述支持集图像中每个类别图像之间的相似度。

进一步地，提取所述目标图像与所述支持集图像的特征，包括：

通过生存概率产生的规则随机丢弃所述目标图像和所述支持集图像的冗余层；

获取所述目标图像的特征图

和所述支持集图像的特征图

其中x_j是目标图像，x_i是支持集图像。

进一步地，得到该目标图像与所述支持集图像中每个图像之间的相似度，包括：

通过分析获取到的所述拼接图像的特征，得到目标图像和支持集图像中每个类别图像之间的匹配度，过程如公式1所示；

其中，

为支持集图像特征图，

为目标图像特征图，r_i,j代表了目标图像和支持集图像类别的相似度，C为支持集类别图像的个数，产生C个相似度。

进一步地，所述商品分类模型的训练过程包括：

获取查询集图像和训练集图像；

将所述查询集图像与所述训练集图像输入至所述随机深度网络，提取所述查询集图像与所述训练集图像的特征；

将提取到的查询集图像和训练集图像的特征进行拼接，得到拼接图像；

将随机深度网络的输出结果输入至所述卷积层中，进一步提取所述查询集图像与所述训练集图像的特征；

将所述卷积层的输出结果输入至所述全连接层，得到该查询集图像与所述训练集图像中每个图像之间的相似度。

第二方面，本申请实施例提供了一种装置，包括：

图像获取模块，用于获取目标图像、查询集图像和支持集图像；

相似度判断模块，用于将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个图像之间的相似度。

图像分类模块，用于根据所述相似度的大小，得到该目标图像的类别。

进一步地，本申请实施例提供的一种装置中，相似度判断模块包括：

第一输入单元，用于将所述目标图像与所述支持集图像输入至所述随机深度网络，提取所述目标图像与所述支持集图像的特征；

第一拼接单元，用于对提取到的所述目标图像的特征和所述支持集图像的特征进行拼接，得到拼接图像；

第二输入单元，用于将所述拼接图像输入至所述第一卷积层，进一步提取所述拼接图像的特征；

第三输入单元，用于将所述提取到的拼接图像的特征输入至所述全连接层，得到所述目标图像与所述支持集图像中每个图像之间的相似度。

进一步地，本申请实施例提供的一种装置中，还包括训练模块：

所述训练模块用于将查询集图像和支持集图像输入至图像分类模型进行训练，得到与图像分类模型对应的图像分类模型集，采用图像分类模型，对查询集图像进行分类识别。

第三方面，本申请实施例提供了一种电子设备，包括：

处理器及存储器，所述存储器存储有可被处理器调用的程序；

其中，所述处理器执行所述程序时，实现如第一方面所述的基于关系网络的图像分类方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机程序被处理器执行时实现如如第一方面所述的基于关系网络的图像分类方法的步骤。

在本申请实施例中，为了能够提取到更准确的支持集图像特征和查询集图像特征从而进一步提高查询集的类别判断，利用少样本学习的知识，在关系网络的基础上，提出了一种改进的新型模型，并将改进后的模型应用于图像分类的问题上。本申请模型对比关系网络不同的是，它在嵌入模块中采用了随机深度网络(Stochastic depth)代替关系网络中原有的四层卷积层，随机深度网络能够加深嵌入模块的深度，可以通过随机地去掉一些冗余的层次来优化残差网络的训练过程，使得网络在加深层数的同时又能防止过拟合的问题。

本申请模型采用的不激活一部分残差模块，事实上体现了一种模型融合的思想，由于训练时模型的深度随机，预测时模型的深度确定，实际是在测试时把不同深度的模型融合了起来，使得网络变得更加得简单。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1本发明提供的一种基于关系网络的图像分类方法的流程图；

图2为随机深度网络中原始的ResNet结构示意图；

图3为随机深度网络中生存概率产生的示意图；

图4为本发明实施例中图像分类模型示意图；

图5为度量模块中卷积层和全连接层的结构示意图；

图6为本发明提供的一种基于关系网的图像分类装置的模块示意图；

图7为本发明实施例中的相似度判断模块的示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

应当明确，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本申请实施例保护的范围。

在本申请实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中，需要理解的是，术语“第一”、“第二”、“第三”等仅用于区别类似的人体，而不必用于描述特定的顺序或先后次序，也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本申请中的具体含义。

此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联人体的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联人体是一种“或”的关系。

针对背景技术中的技术问题，本申请实施例提供一种基于关系网络的图像分类方法，如图1所示，该方法包括以下步骤：

在步骤S101中，获取目标图像；

在步骤S102中，将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个类别图像之间的相似度；其中，所述图像分类模型包括嵌入模块和度量模块，所述嵌入模块为随机深度网络，所述度量模块包括相互连接的卷积层和全连接层；

在步骤S103中，根据最大的所述相似度，得到该目标图像的类别。

目标图像是指记载有待识别标签的图像文件。

具体的，图像分类模型是指能够通过少量带标注的支持集图像以及给定的目标图像，提取上述支持集图像与目标图像的特征并通过度量上述提取的特征之间的距离进行识别与分类；目标图像与所述支持集图像中每个类别图像之间的相似度即为商品图像的特征与支持集图像特征的距离远近，距离远则相似度低，距离近则相似度高。

Stochastic Depth(随机深度网络)的深层神经网络训练方法，其主要训练对象是ResNet，在不同数据集中的实验表明，这种训练方法可以有效地解决深层网络训练困难的问题，对模型精度和训练速度都有很大的提升。图2是原始的ResNet结构图，其中f代表的是残差部分，id代表的是恒等映射，把这两部分求和经过激活然后然后输出。这个过程可以用下面的式子来表示：

H_l＝ReLU(f_l(H_l-1)+id(H_l-1)) (1)

其中，H_l-1表示第l-1个残差块，即输入；H_l表示第l个残差块，即输出结果。

Stochastic Depth是指在训练时加入了一个随机变量b，其中b的概率分布是满足一个伯努利分布的，然后将f乘以b，对残差部分做了随机丢弃。如果b＝1，这个结构即是原始的ResNet结构，而当b＝0时，残差支路没有被激活，整个结构退化为一个恒等函数。这个过程可以用下面的等式来表示：

H_l＝ReLU(b_lf_l(H_l-1)+id(H_l-1)) (2)

b满足一个伯努利分布，b的取值只有0和1两种，其中取0的概率为1-p，取1的概率是p。上面的p又被称为生存概率，这个p即代表了b＝1的可能性，将p设置为残差层数l的平滑函数。从p₀＝1线性递减到p_l＝0.5，一共有L个残差块。公式如下：

其中，p_l表示的是第l层在训练中的生存概率,L表示残差块的总数量。最终p产生的规则如图3所示。

因为嵌入模块不宜实验太复杂的网络，所以使用基于ResNet-18优化的模型。ResNet-18的18是指定的带有权重的18层。因为嵌入模块需要提取目标图像和支持集图像的特征图，然后再将这些特征图作为输入，输入到度量模块。所以去掉ResNet-18的最后两层即最大池化层和全连接层，变成ResNet-16模型。然后在ResNet-16的基础上对ResNet-16进行优化，根据生存概率p产生的规则随机丢弃其中的冗余层，最终形成StochasticDepth-16。

在一个具体的实施例中，如图4-5所示，图4-5为图像分类模型的具体结构，其中，嵌入模块为随机深度网络，度量模块包括相互连接的卷积层和全连接层。

随机深度网络使用Stochastic Depth-16。

卷积层包括卷积块1和卷积块2，全连接层包括最大池化层1、ReLU激活函数层、最大池化层2和Sigmoid函数层。其中每个卷积块包括一个卷积核、一个批量归一化层、一个ReLU线性激活层，每个卷积核参数相同，采用64通道的3×3卷积核，最大池化层为2×2。

根据上述图像分类模型的具体结构，将目标商品图像与支持集图像输入至训练好的商品分类模型，具体包括以下步骤：

具体地，提取所述目标图像与所述支持集图像的特征，包括：

通过生存概率产生的规则随机丢弃所述目标图像和所述支持集图像的冗余层；获取所述目标图像的特征图

和所述支持集图像的特征图

其中x_j是目标图像，x_i是支持集图像。

得到该目标图像与所述支持集图像中每个图像之间的相似度，包括：

通过分析获取到的所述拼接图像的特征，得到目标图像和支持集图像中每个类别图像之间的匹配度，过程如公式4所示；

其中，

为支持集图像特征图，

在一个具体的实施例中，图像分类模型的训练过程包括以下步骤：

获取查询集图像和训练集图像；

如图6所示，其为本发明提供的一种基于关系网络的目标图像分类的装置200的模块示意图，包括：

图像获取模块210，用于获取目标图像、查询集图像和支持集图像。

相似度判断模块220，用于将所述目标图像与支持集图像输入至训练好的图像分类模型，得到该目标图像与所述支持集图像中每个图像之间的相似度。

图像类别获取模块230，用于根据所述相似度的大小，得到该目标图像的类别。

如图7所示，相似度判断模块220包括：

第一输入单元221，用于将所述目标商品图像与所述支持集图像输入至所述随机深度网络，得到所述目标图像与所述支持集图像的特征图；

第一拼接单元222，用于对所述目标图像特征图与每个所述支持集类别图像的特征图进行拼接，得到拼接特征图；

第二输入单元223，用于将所述拼接特征图输入至所述卷积层，提取拼接特征图的特征；

第三输入单元224，用于将所述卷积层的输出结果输入至所述全连接层，得到该商品图像与所述支持集图像中每个类别图像之间的相似度。

在一个优选地实施例中，还包括训练模块，训练模块用于将查询集图像和支持集图像输入至图像分类模型进行训练，得到与图像分类模型对应的图像分类模型集，采用图像分类模型，对查询集图像进行分类识别。

与上述的基于关系网络的图像分类方法相对应，本申请实施例还提供一种电子设备，包括：

至少一个处理器和至少一个存储器；

存储器存储有可被处理器调用的程序；

其中，处理器执行程序时，可实现基于关系网络图像分类方法所述的步骤。

具体的，该电子设备可以是计算机或者服务器。

与上述的基于关系网络的图像分类方法相对应，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现基于关系网络的图像分类方法所述的步骤。

在一个具体的实施例中，对本发明提供的一种基于关系网络的商品图像的分类方法模型进行评估实验可以基于mini-ImageNet数据集和RP2K数据集。

本实验都是基于PyTorch框架实现的，实验环境如下表1所示。

1)mini-ImageNet数据集

mini-ImageNet来源于ImageNet，mini-ImageNet包含100个类别，每个类别包含100个样本，每张图片大小都是84×84的，其中64个类别用来训练，16个类别用来验证，20个类别用来测试。我们在5-way 1-shot和5-way 5-shot两个任务中都进行了测试。在本申请模型中，我们将关系网络中嵌入模块中的四个卷积层替换成随机深度网络，度量模块与关系网络一致。在mini-ImageNet数据集上，实验结果如表2所示，本申请模型的精度在5-way1-shot和5-way 5-shot两个任务中分别提高了1.58％和1.21％。

2)RP2K数据集

RP2K数据集是用于零售商品分类的大范围商品图像数据集。这个数据集收集了超过500000张的零售商品图像。包括2000种不同的图像类别。它是目前最大的商品图片数据集。为了验证我们的改进模型是否能在小样本零售商品图像中更有效地进行分类。我们模拟mini-ImageNet数据集，在RP2K数据集中随机抽取100个类别的商品，64个作为训练集，16个作为验证集，20个作为测试集。分别进行3次抽取并划分的操作，将3次数据集输入模型，得到3次结果，取平均值作为我们的最终结果。因为RP2K图片大小不一，所以我们统一将所有的图片大小都修改成84×84。实验与上述过程一样。实验结果如表3所示。在RP2K数据集中，对比关系网络SD-RNET模型的精度在5-way 1-shot和5-way 5-shot两个任务中分别提高了0.85％和0.26％

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。