CN112651438A

CN112651438A - 多类别图像的分类方法、装置、终端设备和存储介质

Info

Publication number: CN112651438A
Application number: CN202011553020.3A
Authority: CN
Inventors: 张力文; 金子杰; 林聪�; 佟乐; 肖贵宝; 潘浩; 王刚
Original assignee: CENTURY DRAGON INFORMATION NETWORK CO LTD
Current assignee: Tianyi Shilian Technology Co ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2021-04-13

Abstract

本申请提供了一种多类别图像的分类方法、装置、终端设备和存储介质，其方法包括获取待分类图像；将待分类图像输入至预先训练的图像分类模型，输出待分类图像的类别概率值；图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；根据类别概率值确定待分类图像的类别。本申请的方法采用改进的卷积神经网络模型，该模型以Efficient网络为骨架，具有较小的参数规模和快速的推理速度，且该模型采用Focus结构和卷积层的注意力模块，进一步减少了计算量和增加了准确性。

Description

多类别图像的分类方法、装置、终端设备和存储介质

技术领域

本申请涉及图像分类技术领域，具体涉及一种多类别图像的分类方法、终端设备和计算机可读存储介质。

背景技术

在自然场景下，一个图像(例如一张图片)往往同时属于多个类别(例如一张图片上既有山也有树)，而在使用时需要确定该图片到底属于山这一景物图像，还是属于树这一景物图像，即需要对多标签图片进行分类。

目前，通常采用神经网络模型来对多类别图像进行分类，但该方法模型训练过程参数规模大，训练复杂，并且抛弃了特征图中值为负数部分的图片信息，进而对分类准确度产生影响。

申请内容

有鉴于此，本申请实施例中提供了一种多类别图像的分类方法、终端设备和计算机可读存储介质，以克服现有技术中采用神经网络模型来对多类别图像进行分类，模型训练过程参数规模大，训练复杂，并且抛弃了特征图中值为负数部分的图片信息，进而对分类准确度产生影响的问题。

第一方面，本申请实施例提供了一种多类别图像的分类方法，该方法包括：

获取待分类图像；

将所述待分类图像输入至预先训练的图像分类模型，输出所述待分类图像的类别概率值；其中，所述图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，所述改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；

根据所述类别概率值确定所述待分类图像的类别。

第二方面，本申请实施例提供了一种多类别图像的分类装置，该装置包括：

待分类图像获取模块，用于获取待分类图像；

类别概率值输出模块，用于将所述待分类图像输入至预先训练的图像分类模型，输出所述待分类图像的类别概率值；其中，所述图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，所述改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；

类别确定模块，用于根据所述类别概率值确定所述待分类图像的类别。

第三方面，本申请实施例提供了一种终端设备，包括：存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行上述第一方面提供的多类别图像的分类方法。

第四方面，本申请实施例提供了一种计算机可读取存储介质，计算机可读取存储介质中存储有程序代码，程序代码可被处理器调用执行上述第一方面提供的多类别图像的分类方法。

本申请实施例提供的一种多类别图像的分类方法、装置、终端设备和计算机可读存储介质，获取待分类图像；将待分类图像输入至预先训练的图像分类模型，输出待分类图像的类别概率值；其中，图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；根据类别概率值确定待分类图像的类别。本申请的方法采用改进的卷积神经网络模型，该模型以Efficient网络为骨架，具有较小的参数规模和快速的推理速度，且该模型又通过Focus结构对特征图进行了降维和重组，进一步地降低了参数量和计算量，极大地缩短了算法的推理时间；另外，该模型又引入了卷积层的注意力模块，同时关注了特征图的通道和空间上的差异性，使得算法能够更好的区分不同类别目标之间的细微差异性，使得分类结果更加准确。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的多类别图像的分类方法的应用场景示意图；

图2为本申请一个实施例提供多类别图像的分类方法的流程示意图；

图3为本申请一个实施例提供的改进的卷积神经网络的结构示意图；

图4为本申请一个实施例提供的图像分类模型训练的流程示意图；

图5为本申请一个实施例提供的Focus结构的示意图；

图6为本申请一个实施例提供的MBConv模块的结构示意图；

图7为本申请一个实施例提供的CBAM的结构示意图；

图8为本申请一个实施例提供的通道注意力模块的结构示意图；

图9为本申请一个实施例提供的空间注意力模块的结构示意图；

图10为本申请一个实施例提供的输入全局池化层和全连接层的结构示意图；

图11为本申请一个实施例提供的Mosaic数据增强处理的示意图；

图12为本申请一份实施例提供的多类别图像的分类装置的结构示意图；

图13为本申请一个实施例中提供的终端设备的结构示意图；

图14为本申请一个实施例中提供的计算机可读存储介质的结构示意图。

具体实施方式

下面将对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了更详细说明本申请，下面结合附图对本申请提供的一种多类别图像的分类方法、装置、终端设备和计算机存储介质，进行具体地描述。

请参考图1，图1示出了本申请实施例提供的多类别图像的分类方法的应用场景的示意图，该应用场景包括本申请实施例提供的终端设备102和服务器104，其中服务器104与终端设备102之间设置有网络。网络用于在终端设备102和服务器104之间提供通信链路的介质。其中，终端设备102通过网络与服务器104交互，以接收或发送消息等，服务器104可以是提供各种服务的服务器。其中服务器104可以用来执行本申请实施例中提供的多类别图像的分类方法，服务器104可以从终端设备102中获取待分类图像，然后将待分类图像输入预先训练的图像分类模型从而输出待分类图像的类别概率值，然而根据类别概率值确定图像的类别。另外，服务器104还可以将确定的结果返回至终端设备102等。此外，服务器104可以存储有预先训练的图像分类模型；终端设备102可以用来对待识别物体(例如风景、建筑等)进行拍照生成待分类图像。

可选的，终端设备102可以是具有显示屏的各种电子设备，包括但不限于智能手机和计算机设备，其中计算机设备可以是台式计算机、便携式计算机、膝上型计算机、平板电脑等设备中的至少一种。终端设备102可以泛指多个终端设备中的一个。此外，终端设备102也可以用来执行本申请实施例中提供的一种多类别图像的分类方法。

应该理解，终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。比如服务器可以是多个服务器组成的服务器集群等。

基于此，本申请实施例中提供了一种多类别图像的分类方法。请参阅图2，图2示出了本申请实施例提供的一种多类别图像的分类方法的流程示意图，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S110，获取待分类图像；

其中，待分类图像是指任意的需要进行分类的图像。待分类图像可以是图像采集设备(例如智能终端、摄像设备等)拍摄风景、建筑、照片等产生的图片。

另外，待分类图像的角度(即图像是否发生倾斜)、颜色、大小、分辨率等不限，只要能符合图像识别的最低要求即可。

步骤S120，将待分类图像输入至预先训练的图像分类模型，输出待分类图像的类别概率值；其中，图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；

具体地，模型训练就是给定输入向量和目标输出值，然后将输入向量来输入一个或多个网络结构或函数来求得实际输出值，并根据目标输出值和实际输出值来计算偏量，并判断偏量是否在容许范围内；若在容许范围内，则训练结束并固定相关参数；若不在容许范围内，不断去调整网络结构或函数中的一些参数，直至在偏量在容许范围内或达到了某一结束条件时，训练结束并固定相关参数，最后根据固定的相关参数即可得到训练完成的模型。

而本实施例中的图像分类模型的训练实际上为：将标记有类别信息的图像样本作为输入向量输入至改进的卷积神经网络，将图像样本的图像类别作为目标输出值；求隐含层，输出各层单元的输出，求出目标输出值和实际输出值偏差，当偏差在不容许范围内，计算网络层中神经元的误差，求误差梯度，并更新权值，重新求隐含层，输出各层单元的输出，求出目标值和实际值偏差，直至偏差在容许范围内，训练结束，固定权重和阈值，从而得到预先训练的图像分类模型。此外，在本实施例中，采用了改进的卷积神经网络，其中如图3所示，改进的卷积神经网络包括Focus结构、Efficient网络(即图中的EfficientNet-B0)、卷积层的注意力模块(即图中的CBAM)、全局池化层和全连接层(即图中的Sigmoid orConcurrent-softmax)；Focus结构可以对输入的图像进行了切片操作，保留原始图像特征的前提下，显著地降低了整体的计算量，也便于算法在移动端进行移植；Efficient网络通常是由多个MBConv模块堆叠而成，而MBConv模块通常是由多层(通常包括卷积层、ReLU层)构成，每一层都会输出一个特征图。最后一个特征输出层通常是指MBConv模块的最后一层。MBConv卷积块可对不同的特征图进行特征提取，Efficient网络具有较小的参数规模和快速的推理速度。而卷积层的注意力模块(Convolutional Block Attention Module，即CBAM)主要用于对第四特征图进行加权处理，使得加权处后输出的特征图更加精确，从而使得后续训练得到的图像分类模型更加精确。

此外，图像类别信息用来确定图像样本的类别，即图像属于哪一类(例如山川、建筑、树木等)。

步骤S130，根据类别概率值确定待分类图像的类别。

具体而言，通过图像分类模型对待分类图像进行处理，可以输出图像的类别概率值，然后选择最大的类别概率值对应的类别即为图像的类别。可选的，在根据类别概率值的大小选择类别，也可以通过类别概率值与预定的阈值进行比较，将类别概率值大于设定的阈值的类别均为该图片的分类结果。

为了便于理解本方案，给出一个详细的实施例。例如，某一个用户需要确定自己拍摄风景照片到底属于哪一图像类别时，该用户可以采用手机等智能终端将该风景照片上传至图像分类相关服务器，图像分类相关服务器可以采用本发明实施例中的预先训练的图像分类模型对该风景照片进行图像的类别。

本申请实施例中的多类别图像的分类方法，获取待分类图像；将待分类图像输入至预先训练的图像分类模型，输出待分类图像的类别概率值；其中，图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；根据类别概率值确定待分类图像的类别。本申请的方法采用改进的卷积神经网络模型，该模型以Efficient网络为骨架，具有较小的参数规模和快速的推理速度，且该模型又通过Focus结构对特征图进行了降维和重组，进一步地降低了参数量和计算量，极大地缩短了算法的推理时间；另外，该模型又引入了卷积层的注意力模块，同时关注了特征图的通道和空间上的差异性，使得算法能够更好的区分不同类别目标之间的细微差异性，使得分类结果更加准确。

请参照图4，图像分类模型的训练方法，包括：

步骤S210，获取图像样本，采用类别信息对图像样本进行标记，得到标记有类别信息的图像样本；

在本实施例中，首先要准备比较多(例如几千张、几万张等)数量的图像样本。图像样本可以是采用拍摄设备自行拍摄收集，也可以是从网络的图片数据库中进行爬取。通常情况下，图像样本越多，其训练的模型更加精确；但图像样本太多会降低模型训练的速度。因此，在实际应用中，选择合适数量的图像样本即可，但在准备图像样本时尽可能使样本多样化。其中在准备图像样本时可以建立数据训练集，将图像样本存储至数据训练集中。

在一种可选的实施例方式中，在准备图像样本时可以根据既定的标签类别来搜集数据，主要的手段为网络爬虫以及从相关的大型开源数据集(例如COCO、ImageNet等)提取需要的图像数据。每个标签类别对应的图片数量至少1000张以上，以保证模型在该类别上的分辨能力和适应性。

在获取到图像样本后，需要对图像样本进行图像类别信息标记。可选地，在标记过程中，可以采用图像类别标签来对图像样本进行图像类别信息标记。具体过程为：图像样本标记主要工作为对采集的图像样本标注上对应的类别标签。由于在多标签图片分类问题中，一张图片往往具备多个标签类别，所以需要进一步的标注出各个类别的图片中存在的目标标签集合中的其他标签。例如，如果目标标签集合为山和树木两个类别，且在搜集的某张山的图片中同时也包含树木，那么需要给这张图片同时标注上山和树木。为了便于进行大规模的图像样本标注工作，本申请实施例中主要采用的方法是首先对单一标签的图片进行分类，选取合适的置信度，初步生成一个带多个标签的图片数据集，然后利用标注工具(如labelimg)对图片标签进行修正。

步骤S220，将标记有类别信息的图像样本输入Focus结构进行降维处理。

具体地，首先将将标记有类别信息的图像样本输入Focus结构进行降维处理。如图5所示，Focus结构的主要操作为图片切片操作。对输入图像或图片每一个通道，以步长为2选取对应位置的像素点组成新的特征图，即图5右边的特征图中的像素点提取自图5左边特征图对应的颜色的像素点。因此，大小为4*4的特征图，经过Foucs结构可以提取出3个2*2的特征图。Focus结构对输入图片进行了切片操作，保留原始图片特征的前提下，显著地降低了整体的计算量，也便于算法在移动端进行移植。

步骤S230，将降维处理后的图像样本输入Efficient网络进行特征提取，得到初始特征图；

在一个实施例中，Efficient网络为Efficient-B0网络，Efficient-B0网络包括多个MBConv卷积模块；在将降维处理后的图像样本输入Efficient网络进行特征提取，得到初始特征图的步骤中，包括：采用多个MBConv卷积模块对降维处理后的图像样本进行特征提取，得到初始特征图；其中，在采用MBConv卷积模块进行特征提取时采用Swish激活函数和Dropconnect方法。

具体而言，通过Focus结构对输入的图像样本进行降维后，将降维后的图像样本进行特征提取工作。在本实施例中，采用Efficient网络进行图像样本特征提取。Efficient网络可以是Efficient-B0网络，Efficient-B0网络通常包括两个卷积模块、多个MBConv模块、一个全局平均池化层和一个FC层(即全连接层)。其中，每个MBConv模块的具体结构如图6所示，Conv代表标准卷积层；DepthwiseConv为深度卷积，将每个卷积核应用到每一个通道，和标准卷积过程相比显著地降低了计算量和参数量；Batchnorm代表正则化层，对特征图进行了归一化操作；Average pooling为平均池化操作；Sigmoid为Sigmoid函数。

MBConv卷积块使用了残差网络的结构，其中的“+”代表特征图对应的元素相加。同时MBConv在内部使用了类似SENet的结构，经过一系列的操作，通过sigmoid函数输出各通道的权重值，然后经过“*”实现对通道的加权。

MBConv卷积块使用Swish激活函数替代了传统的relu激活函数。Swish激活函数相比relu激活函数更加平滑，且不会由于负数造成神经网络信息的损失。Swish激活函数的形式为：

为了避免过拟合现象的产生，MBConv卷积块使用使用Dropconnect方法来代替传统的Dropout方法。Dropconnect与Dropout不同的地方是在训练神经网络模型过程中，它不是对隐层节点的输出进行随机的丢弃，而是对隐层节点的输入进行随机的丢弃，具有更好的效果。

可选的，MBConv模块的数量可以为16个，其中16个MBConv模块相串接，形成多层级结构，通过多层级结构可以对图像进行多次或多阶段的翻转瓶颈卷积运算。另外，多层级结构设置于两个卷积模块之间。全局平均池化层主要用于对卷积模块和MBConv模块输出的特征图进行全局平均池化处理。FC层主要用于对全局平均池化后的特征图进行处理，输出结果。

步骤S240，将初始特征图输入卷积层的注意力模块进行特征提取，得到最终特征图。

在一个实施例中，卷积层的注意力模块包括通道注意力模块和空间注意力模块；在将初始特征图输入卷积层的注意力模块进行特征提取，得到最终特征图的步骤中，包括：将初始特征图依次输入通道注意力模块和空间注意力模块进行通道加权和空间像素点加权，得到最终特征图。

具体地，为了提升算法对于不同类别的物体，特别是相似类别事物，整体的识别准确率，本申请实施例中引入卷积层的注意力模块(即Convolutional Block AttentionModule，CBAM)进行进一步的特征提取。

CBAM包含Channel Attention Module(即通道注意力模块)和Spatial AttentionModule(即空间注意力模块)两个部分。首先使用Channel Attention Module对特征图的通道进行加权，然后再使用Spatial Attention Module对特征图的像素点进行加权。因此，CBAM同时关注了通道之间的反馈能力差异和空间像素点之间的反馈能力差异。

CBAM的工作流程如图7所示。其中，Channel Attention Module的主要流程如图8所示。给定一个H×W×C的特征图F，首先对于输入的特征图进行全局最大池化和全局平均池化操作，同时保留了特征图的局部和全局特征，输出两个1×1×C的特征。然后，利用同一个多层感知器(MLP)分别对两种池化后的特征进行处理，并保持了特征的形状不变。相加经过MLP处理后的特征，并通过sigmoid函数输出每个通道的加权值。最后，输入特征图的每个通道乘以对应的权重。Spatial Attention Module的主要流程如图9所示。给定一个H×W×C的特征图F’,首先对于F’进行关于通道的最大池化和平均池化操作，输出两个H×W×1的特征。然后，将上述得到的两个特征图进行拼接，并进行一个标准卷积操作。对标准卷积后的输出结果进行sigmoid操作，得出与原始输入特征图大小相同的权重矩阵。最后，输入特征图的每个像素点乘以对应的权重矩阵中的权重。

在本实施例中，将初始特征图依次输入通道注意力模块和空间注意力模块进行通道加权和空间像素点加权，从而得到最终特征图。

步骤S250，将最终特征图分别依次输入全局池化层和全连接层，输出实际分类结果；

在一个实施例中，在将最终特征图分别依次输入全局池化层和全连接层，输出实际分类结果的步骤中，包括：采用sigmoid或concurrent-softmax计算损失函数。

具体地，通过Efficient网络和CBAM对输入图像样本进行特征提取后，对于图像分类问题，需要通过一个全局池化(或全局平局池化)和全连接网络将输出映射为和目标类别数目大小相同的向量，如图10所示。针对多类别的图片分类问题，由于不同类别之间可能存在的高度相关性，并针对此类情形引入concurrent softmax。

给定标签类别数为C，在各类别不具备显著的相关性的情形下，在本实施例中首先通过sigmoid函数将输出向量的每个元素都映射到0-1之间的数，然后采用交叉熵损失函数，通过训练C个二分类器来实现多标签图片的分类问题。

在各类别具备显著的相关性的情形下，本发明直接采用concurrent softmax对输出向量计算损失函数。concurrent softmax形式为：

其中y_i为第i个类别对应的真实标签，z_i第i个类别对应的输出预测值。r_ij为第i个标签与第j个标签的相关性，例如第i个标签为苹果，第j个标签为水果，那么r_ij为1。在计算σ_i时，如果使用传统的softmax函数，对于一张同时拥有多个标签的图片，σ_i将会因目标标签数目的增加而较小，既而不能体现对应类别的输出概率，concurrent softmax通过(1-y_i)解决了此类现象。同时，通过r_ij解决了相关性高的标签会同时出现的现象。

上述方法中引入concurrent softmax对类别之间的相关性进行区分，使得算法具有更低的误识别率，同时也更符合现实场景下的图片多目标分类问题。

步骤S260，对改进的卷积神经网络的权重进行调整，直至实际分类结果与目标分类结果的偏差在容许范围内时，训练完成，得到图像分类模型。

具体地，根据图像类别信息可以确定目标图像类别(即目标分类结果)，然后将实际分类结果(即采用改进的卷积神经网络对图像样本进行分类得到的结果)，看其偏差是否在容许范围，若不是，对改进的卷积神经网络的权重进行调整，重新输出实际分类结果，直至实际分类结果与目标分类结果的偏差在容许范围内时，训练完成，得到图像分类模型。其中，容许范围可以是一个预设的值，表示可接收的实际分类结果与目标分类结果最大偏差。该模型训练方法大大减少了操作步骤，提高了效率。

在一个实施例中，将标记有类别信息的图像样本输入Focus结构进行降维处理的步骤之前，还包括：

选择一种或多种增强处理方法对标记有类别信息的图像样本进行增强处理；其中，增强处理方法包括对标记有类别信息的图像样本增加噪声处理、模糊化处理、色彩颜色空间转化处理、翻转处理、旋转处理、Mosaic数据增强处理。

为了增强算法对图像类别的分辨能力，同时起到在数据集规模相对较小的情形下扩充数据集的作用。在本发明实施例中，采用增强处理方法对图像样本进行增强处理。增强处理方法包括对标记有类别信息的图像样本增加噪声处理、模糊化处理、色彩颜色空间转化处理、翻转处理(垂直和水平翻转)、旋转处理、Mosaic数据增强处理。

在图片增加噪声过程中，本发明主要增加高斯噪声和椒盐噪声；在图片模糊化过程中，主要采用高斯模糊和中值模糊的方法；在色彩颜色空间转化过程中，先将图片从RGB转化为HSV，然后随机添加通道值，最后转换回RGB图片；在垂直和水平翻转过程中，将图片沿着对称轴进行垂直和水平的对称翻转；在旋转过程中，在-180-180°的范围内，对图片进行随机旋转。

在一个实施例中，Mosaic数据增强处理的步骤中，包括：从标记有类别信息的图像样本中随机选择出若干张图片；从选择出的每一张图片中随机选出坐标点，作为目标区域的分割点；将每一张图片随机放置于目标区域并进行填充，得到合并图片；将每一张图片的标签信息作为合并图片的标签信息。

具体地，Mosaic数据增强方法具体步骤为：a.随机选取四张图片作为待处理图片(图11左边部分)；b.随机选择图片中的坐标点，作为图片左上、左下、右上和右下四个部分的分割点(图11右边部分四张图片的交叉点)；c.随机为待处理图片选择填充位置，将待处理的图片缩小到对应的目标区域大小并进行填充；合并四张图片的标签类别，去掉重复类别，即得到生成图片的标签信息(即标签类别)。

通过Mosaic数据增强方法，丰富了图像样本或图片的类别，同时可以将几张具有单一或者少量标签的图片聚合成具有多个标签的图片，有助于进行多类别图像分类工作。

应该理解的是，虽然图2和4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且图2和4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本申请公开的实施例中详细描述了一种多类别图像的分类方法，对于本申请公开的上述方法可采用多种形式的设备实现，因此本申请还公开了对应上述方法的多类别图像的分类装置，下面给出具体的实施例进行详细说明。

请参阅图12，为本申请实施例公开的一种多类别图像的分类装置，主要包括：

待分类图像获取模块122，用于获取待分类图像；

类别概率值输出模块124，用于将待分类图像输入至预先训练的图像分类模型，输出待分类图像的类别概率值；其中，图像分类模型是采用标记有类别信息的图像样本对改进的卷积神经网络进行训练得到的，改进的卷积神经网络包括Focus结构、Efficient网络、卷积层的注意力模块、全局池化层和全连接层；

类别确定模块126，用于根据类别概率值确定待分类图像的类别。

在一个实施例中，包括：

图像样本获取模块，用于获取图像样本；

样本标记模块，用于采用类别信息对图像样本进行标记，得到标记有类别信息的图像样本；

降维处理模块，用于将标记有类别信息的图像样本输入Focus结构进行降维处理；

初始特征图获得模块，用于将降维处理后的图像样本输入Efficient网络进行特征提取，得到初始特征图；

最终特征图获得模块，用于将初始特征图输入卷积层的注意力模块进行特征提取，得到最终特征图；

实际分类结果输出模块，用于将最终特征图分别依次输入全局池化层和全连接层，输出实际分类结果；

图像分类模型获得模块，用于对改进的卷积神经网络的权重进行调整，直至实际分类结果与目标分类结果的偏差在容许范围内时，训练完成，得到图像分类模型。

在一个实施例中，Efficient网络为Efficient-B0网络，Efficient-B0网络包括多个MBConv卷积模块；

初始特征图获得模块，还用于采用多个MBConv卷积模块对降维处理后的图像样本进行特征提取，得到初始特征图；其中，在采用MBConv卷积模块进行特征提取时采用Swish激活函数和Dropconnect方法。

在一个实施例中，卷积层的注意力模块包括通道注意力模块和空间注意力模块；最终特征图获得模块，还用于将初始特征图依次输入通道注意力模块和空间注意力模块进行通道加权和空间像素点加权，得到最终特征图。

在一个实施例中，实际分类结果输出模块，还用于采用sigmoid或concurrent-softmax计算损失函数。

在一个实施例中还包括：

增强处理模块，用于选择一种或多种增强处理方法对标记有类别信息的图像样本进行增强处理；其中，增强处理方法包括对标记有类别信息的图像样本增加噪声处理、模糊化处理、色彩颜色空间转化处理、翻转处理、旋转处理、Mosaic数据增强处理。

在一个实施例中，增强处理模块包括：

图片选择模块，用于从标记有类别信息的图像样本中随机选择出若干张图片；

坐标点选择模块，用于从选择出的每一张图片中随机选出坐标点，作为目标区域的分割点；

图片合并模块，用于将每一张图片随机放置于目标区域并进行填充，得到合并图片；

标签信息合并模块，用于将每一张图片的标签信息作为合并图片的标签信息。

关于多类别图像的分类装置的具体限定可以参见上文中对于方法的限定，在此不再赘述。上述装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

请参考图13，图13其示出了本申请实施例提供的一种终端设备的结构框图。该终端设备130可以是终端设备。本申请中的终端设备130可以包括一个或多个如下部件：处理器132、存储器134以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器134中并被配置为由一个或多个处理器132执行，一个或多个应用程序配置用于执行上述应用于终端设备的方法实施例中所描述的方法，也可以配置用于执行上述应用于多类别图像的分类方法的方法实施例中所描述的方法。

处理器132可以包括一个或者多个处理核。处理器132利用各种接口和线路连接整个终端设备130内的各个部分，通过运行或执行存储在存储器134内的指令、程序、代码集或指令集，以及调用存储在存储器134内的数据，执行终端设备130的各种功能和处理数据。可选地，处理器132可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogicArra y，PLA)中的至少一种硬件形式来实现。处理器132可集成中央处理器(CentralProcessing Unit，CPU)、埋点数据的上报验证器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作***、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器132中，单独通过一块通信芯片进行实现。

存储器134可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器134可用于存储指令、程序、代码、代码集或指令集。存储器134可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作***的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端设备130在使用中所创建的数据等。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的终端设备的限定，具体的终端设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

综上，本申请实施例提供的终端设备用于实现前述方法实施例中相应的多类别图像的分类方法，并具有相应的方法实施例的有益效果，在此不再赘述。

请参阅图14，其示出了本申请实施例提供的一种计算机可读取存储介质的结构框图。该计算机可读取存储介质140中存储有程序代码，程序代码可被处理器调用执行上述多类别图像的分类方法实施例中所描述的方法，也可以被处理器调用执行上述多类别图像的分类方法实施例中所描述的方法。

计算机可读取存储介质140可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读取存储介质140包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读取存储介质140具有执行上述方法中的任何方法步骤的程序代码142的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码142可以例如以适当形式进行压缩。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种多类别图像的分类方法，其特征在于，所述方法包括：

获取待分类图像；

根据所述类别概率值确定所述待分类图像的类别。

2.根据权利要求1所述的方法，其特征在于；所述图像分类模型的训练方法，包括：

获取图像样本，采用类别信息对所述图像样本进行标记，得到标记有类别信息的图像样本；

将所述标记有类别信息的图像样本输入所述Focus结构进行降维处理；

将降维处理后的图像样本输入所述Efficient网络进行特征提取，得到初始特征图；

将所述初始特征图输入所述卷积层的注意力模块进行特征提取，得到最终特征图；

将所述最终特征图分别依次输入所述全局池化层和全连接层，输出实际分类结果；

对所述改进的卷积神经网络的权重进行调整，直至实际分类结果与目标分类结果的偏差在容许范围内时，训练完成，得到所述图像分类模型。

3.根据权利要求2所述的方法，其特征在于，所述Efficient网络为Efficient-B0网络，所述Efficient-B0网络包括多个MBConv卷积模块；在将降维处理后的图像样本输入所述Efficient网络进行特征提取，得到初始特征图的步骤中，包括：

采用多个所述MBConv卷积模块对所述降维处理后的图像样本进行特征提取，得到所述初始特征图；其中，在采用所述MBConv卷积模块进行特征提取时采用Swish激活函数和Dropconnect方法。

4.根据权利要求2所述的方法，其特征在于，所述卷积层的注意力模块包括通道注意力模块和空间注意力模块；在将所述初始特征图输入所述卷积层的注意力模块进行特征提取，得到最终特征图的步骤中，包括：

将所述初始特征图依次输入所述通道注意力模块和空间注意力模块进行通道加权和空间像素点加权，得到所述最终特征图。

5.根据权利要求1-4任一项所述的方法，其特征在于，在将所述最终特征图分别依次输入所述全局池化层和全连接层，输出实际分类结果的步骤中，包括：

采用sigmoid或concurrent-softmax计算损失函数。

6.根据权利要求5所述的方法，其特征在于，将所述标记有类别信息的图像样本输入所述Focus结构进行降维处理的步骤之前，还包括：

选择一种或多种增强处理方法对所述标记有类别信息的图像样本进行增强处理；其中，所述增强处理方法包括对所述标记有类别信息的图像样本增加噪声处理、模糊化处理、色彩颜色空间转化处理、翻转处理、旋转处理、Mosaic数据增强处理。

7.根据权利要求6所述所述的方法，其特征在于，所述Mosaic数据增强处理的步骤中，包括：

从所述标记有类别信息的图像样本中随机选择出若干张图片；

从选择出的每一张图片中随机选出坐标点，作为目标区域的分割点；

将每一张图片随机放置于所述目标区域并进行填充，得到合并图片；

将每一张图片的标签信息作为所述合并图片的标签信息。

8.一种多类别图像的分类装置，其特征在于，所述装置包括：

待分类图像获取模块，用于获取待分类图像；

9.一种终端设备，其特征在于，包括：

存储器；一个或多个处理器，与所述存储器耦接；一个或多个应用程序，其中，一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个应用程序配置用于执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。