CN114092819A

CN114092819A - 一种图像分类方法及装置

Info

Publication number: CN114092819A
Application number: CN202210057396.8A
Authority: CN
Inventors: 蓝科; 吕宗明; 张国兵; 张登辉; 胥果; 曾丸畅
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2022-01-19
Filing date: 2022-01-19
Publication date: 2022-02-25
Anticipated expiration: 2042-01-19
Also published as: CN114092819B

Abstract

本发明公开了一种图像分类方法及装置，主要解决现有技术中存在的现有图像分类模型存在的模型性能提升困难及模型分类性能不佳的问题。该发明对原始图像数据进行处理增加图像数据的多变性以及缓解过拟合线性，将训练集输入VGG16模型计算出其总交叉熵Loss，至loss曲线收敛；提升了VGG16模型提取特征的多粒度性，使模型的提升更易；最后结合投票决策得出最终的VGG16模型，有效地对多个分类结果进行了综合评估，提升了模型分类的可信度。

Description

一种图像分类方法及装置

技术领域

本发明涉及深度学习图像分类技术领域，具体地说，是涉及一种图像分类方法及装置。

背景技术

图像分类作为图像分析的基础应用，在视觉感知领域如人机交互、智能化监控、内容智能剖析等方面具有重要应用；在图像分类技术中，分类精度作为不可或缺的指标，决定着分类方法的性能，如何有效提升分类模型的分类精度一直是图像分类技术的难点。

就图像本身而言，图像数据不同于一般结构化数据，图像数据内容更为内涵且复杂，除了图像数据展现的固有内容外，事物的形状、纹理、颜色、亮度等细节信息都对图像数据的分析有着巨大影响。

目前在图像分类技术中常使用的深度模型均是通过设计模型结构以适应不同的分类任务，通过提取最后一次特征层向量作为图像特征的全局表征，训练分类器得到类别标签；但这种方式存在两个问题：

①模型性能提升困难，一个高性能模型的设计工程量巨大涉及各领域的学科知识，缺乏快速有效提升模型分类性能的简便方法；

②现有方法仅使用深度模型的高层抽象特征作为图像的最终表征，缺乏局部特征的融入，表征缺乏多粒度性，会影响模型分类性能。

发明内容

本发明的目的在于提供一种图像分类方法及装置，以解决现有图像分类模型存在的模型性能提升困难及模型分类性能不佳的问题。

为了解决上述问题，本发明提供如下技术方案：

一种图像分类方法包括以下步骤：

S1、对原始图像数据进行处理，然后进行批处理形成训练集；

S2、将步骤S1的训练集数据输入VGG16模型丰富其局部表征和全局表征特性，并据此计算出VGG16模型总交叉熵Loss；

S3、判断步骤S2得到的VGG16模型的Loss曲线是否收敛，是则执行步骤S4，否则调整步骤S2的VGG16模型超参数重复步骤S2和步骤S3，直至loss曲线收敛；

S4、VGG16模型收敛后，通过Softmax分类器得到分类结果，然后对分类结果进行投票统计得到最终预测类别；

S5、根据步骤S4的最终预测类别，计算VGG16模型分类精度；

S6、通过步骤S5的VGG16模型对图像进行分类。

目前在图像分类技术中常使用的深度模型诸如ResNet、VGGNet、GoogleNet、AlexNet，通过设计模型结构以适应不同的分类任务，在图像识别领域获得了巨大的成功，但存在模型性能提升困难及模型分类性能不佳的问题；上述方案对原始图像数据进行处理增加图像数据的多变性以及缓解过拟合线性，将训练集输入VGG16模型计算出其总交叉熵Loss，至loss曲线收敛；提升了VGG16模型提取特征的多粒度性，使模型的提升更易；最后结合投票决策得出最终的VGG16模型，有效地对多个分类结果进行了综合评估，提升了模型分类的可信度。

进一步的，步骤S1中对原始图像的处理包括随机裁剪、旋转、镜像、缩放中任一种或多种；也可采用其他方式对原始图像分类数据进行镜像数据增强。

进一步的，步骤S1中批处理形成训练集的具体过程为：将处理后的数据按设定训练批次大小进行分类，表示为：

，其中，

为批处理后多张图片的集合，

代表训练集中的第n张图片，batchsize为每个批次集合中的图片数量。

进一步的，步骤S2的具体过程如下：

S201、搭建VGG16模型，其包含conv1、conv2、conv3、conv4、conv5以及Fc6六个特征层组合模块；

S202、分别提取步骤S201的VGG16模型中conv1、conv2、conv3、conv4、conv5、Fc6六个特征层组合模块的特征输出，分别记为

；

S203、根据步骤S202的六个特征输出，得出特征集合和维度；具体过程为：

，其中

分别对应conv1、 conv2、conv3、conv4、conv5、Fc6各模块的特征输出，F为此些特征的集合，

维度为

，分别表示高度，宽度和通道数，此处的

，由于

为全连接特征模块的输出，维度为D；

S204、完成步骤S203后接入1×1的卷积核将卷积层特征通道进行合并，使卷积层特征通道数缩减为1，即

维度变更为

；

S205、完成步骤S204后将从通道数缩减后的卷积层特征按照

的组合维度铺展开，并分别接入多层感知机MLP将维度降为与分类数相同得到分类特征向量集合：

，其中

分别为对应

经过维度整合后分类特征，包含着多个粒度表征特性；

S206、计算VGG16模型总交叉熵Loss。

进一步的，步骤S4的具体过程为：提取softmax分类器输出并引入硬投票决策机制，取输出类别数占比最大的类作为预测类；过程可表示如下：其中

，

各个分类器的输出标签值，count为对不同类别标签出现次数的统计操作，index为导出最大值对应的类别标签操作。

一种图像分类装置包括存储器：用于存储可执行指令；处理器：用于执行所述存储器中存储的可执行指令，实现一种图像分类方法。

与现有技术相比，本发明具有以下有益效果：

（1）本发明中VGG16模型在特征表征上粒度层次丰富，兼顾了对全局合局部细节信息的描述，判别能力强；本发明通过在VGG16图像识别模型中引入多粒度特征融合策略，使得不同空间层次的视觉感知特征能获得充分的利用，实现了图像深度特征由浅到深的互补，有效增强了不同特征层之间交互作用，快速提升模型分类性能。

（2）本发明中使用多个层级特征对模型进行训练，一定程度上缓解了模型过拟合；模型训练过程，增加了多个层级的特征，特征的多样性以及训练资源的数量都获得提升，并通过综合计算了各自的训练loss指导模型收敛过程，充分调动模型学习能力，避免模型训练过程陷入过拟合。

（3）本发明中硬投票机制的使用，有效地对多个分类结果进行了综合评估，提升了模型分类的可信度；本发明在对使用了多粒度特征的分类模型的分类决策过程中使用了硬投票法，通过在统计后的分类标签中遵循少数服从多少的原则，对结果进行了综合决策，统一管理了多个识别任务。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，其中：

图1为本发明的流程架构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合图1对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

实施例1

如图1所示，一种图像分类方法是通过一种结合深度模型多粒度特征融合策略和投票决策方法的图像分类模型来实现图像分类的，其针对实际场景中图片识别任务；本发明具有过程包括以下步骤：

S1，为了增加图像数据的多变性以及缓解过拟合线性，通过随机裁剪、旋转、镜像、缩放等方法对原始图像分类数据镜像数据增强：

S2，对扩增后的数据进行批处理，设定各个训练批次大小，批处理后的训练集表示如下：

其中，

为批处理后多张图片的集合，

代表训练集中的第

张图片，batchsize为每个批次集合中的图片数量。

S3，搭建VGG16模型，模型包含conv1、conv2、conv3、conv4、conv5以及Fc6六个特征层组合模块，靠前的卷积层的特征平面，主要提取的是局部特征，保留着输入视频帧较好的空间分辨率，中层卷积层特征包含的细节特征是作为区别类内差别的重要依据，但是特征抽象化程度不高，泛化性以及表征能力不强。相比之下，全连接层整合了卷积层多个通道的特征平面，向量化后得到数据全局特征，具有很强的判别能力。

S4，于是为了提升模型提取特征的多粒度性，在此，分别提取VGG16模型中conv1、conv2、conv3、conv4、conv5、Fc6各模块的特征输出作为后续模型的决策依据，使得能在表征层面实现全局和局部的互补：

其中

分别对应conv1、conv2、conv3、conv4、conv5、Fc6各模块的特征输出，F为此些特征的集合，

维度为

，分别表示高度，宽度和通道数，此处的

，由于

为全连接特征模块的输出，维度为D。

S5，通过接入1×1的卷积核将卷积层特征通道进行合并，使卷积层特征通道数缩减为1，即

维度变更为

。

S6，再将从通道数缩减后的卷积层特征

的组合维度铺展开，并分别接入多层感知机MLP将维度降为与分类数相同。得到分类特征向量集合：

其中

为对应

经过维度整合后分类特征，包含着多个粒度表征特性。

S7，由于以上整个模型计算过程复杂，将上述模型计算过程记录为：

其中

表示VGG16神经网络的内部计算操作，

为输出的预测结果，表示分类向量

softmax分类器后的各个预测类别的概率分布。

同时，这里采取交叉熵结合训练参数正则化的方式计算多个分类结果Loos的总和值，来指导模型优化过程，具体如下：

其中，

表示数据真实标签的one-hot值，C为分类数目，W为模型参数，

为正则化参数，i为用到的分类向量的索引值。

S8，搭建训练框架，调整模型超参数，对模型进行端到端的训练，直至loss曲线收敛。

S9，模型收敛后，分别取出各个粒度特征的分类结果，即通过提取softmax分类器输出并引入硬投票决策机制，取输出类别数占比最大的类作为预测类。过程可表示如下：

其中，

S10，计算模型分类精度，然后通过最终的模型对图像进行分类。

本发明基于VGG16模型在图像特征表征上制定了多粒度特征融合策略，充分且有效地利用VGG16模型的多个特征表示层数据，在丰富模型局部表征和全局表征特性上起到了重要作用；同时，在分类决策层面加入了投票法去作决策，综合了多个粒度特征的表征结果使得分类结果更具可信度。

综上，本发明中涉及一种结合深度模型多粒度特征融合策略和投票决策方法的图像分类模型，该模型方法可以广泛应用于RGB图像分类识别的任务中，在对图像内容理解以及分析的过程中尤为重要。

实施例2

本发明是一种基于多粒度特征融合策略+投票决策的图像分类方法，其采取了多粒度特征融合的策略，将不同层级特征作为决策资源，有效提升了表征特征的质量，使得模型方法支持了浅层与高层特征的输入与交互，粒度更为丰富，训练特征的增加在调动模型拟合能力上起到一定作用；同时，针对多个分类结果，模型通过引入投票机制，实现了对多结果的综合决策；因此，该模型方法具有较好的分类性能和可信度。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。