CN110781912A

CN110781912A - 一种基于通道扩张倒置卷积神经网络的图像分类方法

Info

Publication number: CN110781912A
Application number: CN201910852719.0A
Authority: CN
Inventors: 李娇杰; 张萌; 李国庆; 吕锋; 段斌
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-09-10
Filing date: 2019-09-10
Publication date: 2020-02-11

Abstract

本发明公开了一种基于通道扩张倒置卷积神经网络的图像分类方法，包括(1)将大规模图像数据集生成训练图像集和测试图像集；(2)对训练图像集中的图像进行标准卷积操作，输出特征图像；(3)采用DPDNet卷积倒置块对步骤(2)输出的特征图像进行卷积操作；(4)对步骤(3)输出的特征图像经过全局平均池化层，得到1×1的输出特征图像；(5)将步骤(4)得到的尺寸为1×1的输出特征图像通过全连接层，最后接入一个归一化指数函数层完成对训练图像的分类，即得到DPDNet卷积神经网络模型。将测试图像集中的图像输入至经过步骤(2)‑(5)后得到的DPDNet卷积神经网络模型中，完成图像分类。本发明测试结果明显提高。

Description

一种基于通道扩张倒置卷积神经网络的图像分类方法

技术领域

本发明涉及图像处理技术领域，设计一种基于通道扩张倒置卷积神经网络的图像分类方法。

背景技术

卷积神经网络(Convolutional Neural Network，CNN)由人工神经网络发展而来，在很多图像处理相关任务中变得越来越热门，像应用于图片分类、人脸检测等任务中。CNN相比与传统的基于人工特征选择的方法有很大的优势，特别是在数据量大的分析任务中。

自从AlexNet赢得ILSVARC-2012冠军以来，深度卷积神经网络将多个计算机视觉任务性能提升到了一个新高度。总体的趋势是为了达到更高的准确性构建了更深更复杂的网络，例如VGG、GoogLeNet、ResNet、DenseNet与ResNeXt等，但是这些网络在运算量和速度上不一定满足移动设备要求。因此，降低计算复杂度在神经网络中具有重要意义。目前，高效轻量的CNN架构受到了更多关注。

近年来，研究人员对轻量级和高效率的网络表现出极大的兴趣。主要可以分为三种方式，即模型剪枝(Network Pruning)，数据量化(Data Quantization)和深度可分卷积(Depthwise separable convolution)。

剪枝，模型剪枝来源于减小神经网络的参数量和过度拟合问题。被剪枝的CNN更加稀疏，可以减少网络参数量以及降低计算机内存的压力。模型剪枝作为一种可以减少神经网络所需的存储和计算的方法，在网络模型压缩中被广泛运用。

数据量化，可以使用定点数据来压缩卷积神经网络，这同样可以保证良好的网络精度。例如，韩松等人通过8位定点权值量化进一步减少内存存储而没有任何精度损失。CNN网络首先使用浮点数进行训练，对于每一卷积层，通过分析特征图和网络参数的统计数据，寻找每层的最优量化方案，当完成所有层的量化后，再经过微调(Fine tune)进一步提高准确率，然后将微调后的浮点数按照之前的量化方案转化为定点数。数据量化适合用于卷积神经网络的所有计算，并且方法简单，计算量小，在网络模型压缩中被应用广泛。

深度可分离卷积，将标准卷积分解为深度卷积(Depthwise convolution)，再用1×1卷积核进行标准卷积。深度卷积可以提取输入特征图的空间信息，而1×1卷积可以组合所有通道的特征。Xception利用深度可分离卷积并训练ImageNet数据集，得到了较高的图像分类精度。MobileNet通过使用深度可分离卷积，在轻量级卷积神经网络中以较少的参数获得了较好的结果。本发明主要使用深度卷积构建通道扩张的倒置卷积神经网络结构来进一步提高参数效率。

发明内容

发明目的：提供一种基于通道扩张倒置卷积神经网络的图像分类方法，优化了卷积神经网络结构，减少了网络参数与计算成本，更加利于获取图像的空间特征，提高了图像分类测试准确率。

本发明的一种基于通道扩张倒置卷积神经网络的图像分类方法，使用3×3深度卷积(depthwise convolution)来扩张输入图像的通道数，并且进一步优化改进，提出了DPDNet卷积倒置块(Depthwise-Pointwise-Depthwise)，即输入的图像先通过3×3深度卷积层用通道数扩张的方式构建图像的空间特征，再通过1×1标准卷积层压缩图像的通道数构建图像的通道信息，最后通过3×3深度卷积层进一步提取特征图空间特征。

技术方案：为实现上述发明目的，本发明采用以下技术方案：

一种基于通道扩张倒置卷积神经网络的图像分类方法，包括以下步骤：

(1)将大规模图像数据集生成训练图像集和测试图像集；

(2)对训练图像集中的图像进行标准卷积操作，输出特征图像；

(3)采用DPDNet卷积倒置块对步骤(2)输出的特征图像进行卷积操作；

(4)对步骤(3)输出的特征图像经过全局平均池化层，得到1×1的输出特征图像；

(5)将步骤(4)得到的尺寸为1×1的输出特征图像通过全连接层，最后接入一个归一化指数函数层完成对训练图像的分类，即得到DPDNet卷积神经网络模型；

(6)将测试图像集中的图像输入至经过步骤(2)-(5)后得到的DPDNet卷积神经网络模型中，完成图像分类。

进一步的，步骤(1)中训练图像集和测试图像集中的图像尺寸为n×n，其中n≥8。

进一步的，步骤(2)中标准卷积操作的卷积核尺寸为r×r，其中r≥3，步长为s₀，其中s₀≥1，输出图像的通道数为4m，其中m≥1，输出图像尺寸为n/s₀×n/s₀。

进一步的，步骤(3)包括以下步骤：

(3-1)将步骤(2)得到的输出图像依次经过N₁个DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为2m、3m、4m、…、(N₁+1)m，最后一个DPDNet卷积倒置块中扩张通道的卷积层步长为s₁，其余DPDNet卷积倒置块步长为1，最后输出图像的尺寸为n/(s₀·s₁)×n/(s₀·s₁)；

(3-2)将步骤(3-1)得到的输出图像依次通过N₂个DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为8m、12m、20m、…、2^N2·m，倒数第二个卷积倒置块中扩张通道的卷积层步长为s₂，其余卷积倒置块步长为1，最后输出图像的尺寸为n/(s₀·s₁·s₂)×n/(s₀·s₁·s₂)。

更进一步的，DPDNet卷积倒置块的生成方法为：

(a)采用深度卷积对输入图像进行卷积操作，并且扩张输入图像的通道数，通过扩张图像的通道数来获取输入图像的空间特征，然后对获取输入图像的空间特征进行批量归一化和非线性激活操作；

输入图像的尺寸为h×w，输入图像的通道数为k，卷积核尺寸为3×3，步长为s，s≥1，通过深度卷积操作使输入图像的通道数扩张m倍，输出图像的维度变为

(b)对深度卷积后的图像进行标准卷积操作，并且压缩输入图像的通道数，通过计算输入图像各个通道的线性组合来构建图像的特征分布，然后对图像的特征分布进行批量归一化和非线性激活操作；

标准卷积操作的卷积核尺寸为1×1，步长为1，并且压缩输入图像的通道数，使输出图像的通道数为k′，k′<m·k，输出图像的维度变为

(c)采用深度卷积对标准卷积后的图像进行卷积操作，输出图像的通道数与输入通道数相同，进一步获取图像的空间信息；然后对输出图像进行批量归一化和非线性激活操作，输出DPDNet卷积倒置块；

深度卷积操作的卷积核尺寸为3×3，步长为1，输出图像的通道数与输入图像的通道数相同，所以输出图像的维度仍为

其中，批量归一化的表达式为：

其中，y_i为第i个输出特征图像，x_i为第i个输入特征图像，μ_β为训练图像集像素点均值，σ_β为训练图像集像素点方差，β为输入的一个批次的图像集，ε为正整数，γ、δ为需要训练的参数；

非线性激活操作的激活函数公式为：y＝max(0,x)(2)；

其中，y为输出特征图像，x为输入特征图像。

进一步的，步骤(4)中全局平均池化操作为将尺寸为h×w的输入特征图像的所有像素点求和，然后除以(h×w)，得到图像尺寸为1×1的输出特征图像。

进一步的，步骤(5)中将步骤(4)得到的尺寸为1×1的输出特征图像通过全连接层，输出z个节点，z为图像数据集的总类别数，每个节点的输出值为x_i，1≤i≤z，i表示输入图像属于图像集第i类，即每个节点对应一种类别，将得到的z个节点的值x_i通过归一化指数函数层，输出z个概率值P_i，最大的概率值P_i所对应的那种类别就是该输入图像所对应的类别，得到DPDNet卷积神经网络模型。

其中，归一化指数函数表达式为：

有益效果：与现有技术相比，本发明的一种基于通道扩张倒置卷积神经网络的图像分类方法使用3×3深度卷积(depthwise convolution)来扩张输入图像的通道数，并且进一步优化改进，得到更加精练的倒置结构，称为DPDNet卷积倒置块。本发明通过堆叠DPDNet卷积倒置块得到了高效简洁的DPDNet网络结构，与其他常见的卷积神经网络相比，使用3×3卷积核的深度卷积提取输入图像的空间特征，减少了网络参数，进一步改善了卷积神经网络浮点数运算量过大的问题，更加有利于获取图像的空间特征，在大规模图像集的分类测试中，准确率有明显提高。

附图说明

图1是本发明方法流程图；

图2是本发明方法中步骤(2)-(5)的流程图；

图3是DPDNet卷积倒置块生成方法流程图。

具体实施方式

下面结合附图和具体实施例对本发明的技术方案进行详细说明。

深度卷积和标准卷积操作类似，可用来提取图像的特征信息。但是，相比于标准卷积操作，深度卷积操作所使用的参数量和运算成本较低。例如，对于一张有k个输入通道，宽为w高为h的输入图像，深度卷积操作过程是将该输入图像的每一个通道都分开，为每一个通道设置一个卷积核，因此需要k个卷积核，每一个卷积核和对应的通道进行卷积运算，可以输出得到k个通道，最后将这k个通道合并得到一张维度为w×h×k的图像，深度卷积操作所需参数与标准卷积相比明显减少，并且与1×1标准卷积相比，提取了图像的空间特征。

如图1所示，一种基于通道扩张倒置卷积神经网络的图像分类方法，包括如下步骤：

(1)根据大规模图像数据集生成训练图像集和测试图像集；

训练图像集和测试图像集中的图像尺寸为n×n(n≥8)。

标准卷积操作的卷积核尺寸为r×r(r≥3)，步长为s₀(s₀≥1)，输出图像的通道数为4m(m≥1)，输出图像尺寸为n/s₀×n/s₀；

(3-1)将步骤(2)得到的输出图像依次经过N₁个图2所述的DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为2m、3m、4m、…、(N₁+1)m，最后一个DPDNet卷积倒置块中扩张通道的卷积层步长为s₁，其余DPDNet卷积倒置块步长为1，所以经过步骤(3-1)输出图像的尺寸为n/(s₀·s₁)×n/(s₀·s₁)；

(3-2)将步骤(3-1)得到的输出图像依次通过N₂个DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为8m、12m、20m、…、2^N2·m，倒数第二个DPDNet卷积倒置块中扩张通道的卷积层步长为s₂，其余DPDNet卷积倒置块步长为1，所以经过步骤(3-2)输出图像的尺寸为n/(s₀·s₁·s₂)×n/(s₀·s₁·s₂)。

如图3所示，本发明所用的DPDNet卷积倒置块获取方法，先采用深度卷积对维度为h×w×k的输入图像进行深度卷积运算，卷积核尺寸为3×3，步长为s(s≥1)，通过深度卷积操作使输入图像的通道数扩张m倍，输出图像的维度变为

然后进行批量归一化处理，并且用非线性函数进行激活处理。之后对输入图像进行标准卷积操作，卷积核尺寸为1×1，并且压缩输入图像的通道数，使输出图像的通道数减小为k′(k′<m·k)，输出图像变为然后进行批量归一化处理，并且用非线性函数进行激活处理。采用深度卷积对标准卷积后的图像进行卷积操作，深度卷积尺寸为3×3，步长为1，输出图像的通道数与输入通道数相同，所以输出图像的维度仍为

同样的，输入层依次经过批归一化处理与非线性函数激活处理后，得到了输出图像。以上步骤构建了一个卷积块，称之为DPDNet卷积倒置块。如图2所示，是本发明所提出的DPDNet卷进倒置块中各个卷积层输出图像尺寸、输出图像的通道数变化示意图，具体步骤为：

(a)采用深度卷积操作对维度为h×w×k的输入图像进行卷积处理，卷积核尺寸为3×3，步长为s(s≥1)，通过深度卷积操作使输入图像的通道数扩张m倍，输出图像的维度变为然后进行批量归一化处理，并且用非线性函数进行激活处理，批量归一化处理的表达式如公式(1)所示，非线性激活处理的激活函数如公式(2)所示：

y＝max(0,x) (2)；

其中，y为输出特征图像，x为输入特征图像；

(b)对深度卷积操作后的图像进行标准卷积操作，卷积核尺寸为1×1，并且压缩输入图像的通道数，使输出图像的通道数变为k′(k′<m·k)，输出图像的维度变为

然后采用公式(1)进行批量归一化处理，并且用公式(2)非线性函数进行激活处理；

(c)使用深度卷积对标准卷积后的图像进行卷积操作，深度卷积尺寸为3×3，步长为1，输出图像的通道数与输入图像的通道数相同，所以输出图像的维度仍为

然后采用公式(1)进行批量归一化处理，并且用公式(2)非线性函数进行激活处理。

步骤(a)与(c)将常见网络结构中1×1标准卷积操作替换为3×3卷积核的深度卷积操作，对于输入通道为k，输出通道为m·k(m≥1)的卷积操作，1×1标准卷积操作所需参数为m·k²，而深度卷积操作所需参数是9m·k，比值为k/9，k一般为大于9的正整数，所以基于卷积神经网络的图像分类方法中，使用深度卷积操作可以减少参数，并且更加利于获取图像的空间信息。

(4)对步骤(3)输出的特征图像经过全局平均池化层，得到1×1的输出特征图像，全局平均池化操作为将尺寸为h×w的输入特征图像的所有像素点求和，然后除以(h×w)，得到图像尺寸为1×1的输出特征图像；

(5)将步骤(4)得到的尺寸为1×1的输出特征图像通过全连接层，输出z个节点，z为图像数据集的总类别数，每个节点的输出值为x_i(1≤i≤z)，i表示步骤(2)中输入的图像属于图像集第i类，即每个节点对应一种类别。然后将这z个节点的值x_i通过归一化指数函数(softmax)层，输出z个概率值P_i，最大的概率值P_i所对应的那种类别就是步骤(2)输入图像所对应的类别，从而得到DPDNet卷积神经网络模型，softmax函数表达式如下：

以上步骤(2)-(5)的流程图如图2所示。

(6)测试阶段，将测试图像输入经过步骤(2)-(5)处理后得到的DPDNet卷积神经网络模型，完成图像分类，得到测试图像数据集分类准确率的测试结果。

实施例：

本发明所提出的DPDNet卷积神经网络正是由DPD卷积倒置块组成。本发明使用TensorFlow深度学习神经网络框架来搭建提出的DPDNet卷积网络结构，训练CIFAR-10与CIFAR-100这两种大规模图像数据集。CIFAR-10图像集是由10个类别的60000个32×32彩色图像组成，分为50000个训练图像和10000个测试图像，每个类别有6000个图像，每类分为5000个训练图像和1000个测试图像；CIFAR-100图像集由100个类别的60000个32×32彩色图像组成，分为50000个训练图像和10000个测试图像，每个类别有600个图像，每类分为500个训练图像和100个测试图像。

本发明提出的DPDNet卷积神经网络结构请参阅表1，具体操作如下，训练阶段，首先按批次输入的训练图像尺寸是32×32，通道数为3，在阶段1，使用标准卷积操作，卷积核尺寸为3×3，步长为1，输出图像的通道数为32，输出尺寸为32×32；在第2阶段，经过3个图2所述的DPDNet卷积倒置块，输入的图像依次经过3个DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为16、24、32，前两个DPDNet卷积倒置块步长为1，第三个DPDNet卷积倒置块中扩张通道的卷积层步长为2，所以经过第2阶段输出图像的尺寸为16×16；第3阶段，存在3个DPDNet卷积倒置块，输入图像依次通过3个DPDNet卷积倒置块，每个DPDNet卷积倒置块输出图像的通道数分别为64、96、160，在第二个DPDNet卷积块中扩张通道卷积层步长为2，所以经过第3阶段输出图像的尺寸为8×8；第4阶段，经过全局平均池化层，输出特征图像的尺寸减小为1×1，输出图像的通道数仍为160，对于CIFAR-10图像集最后的全连接层的输出通道数为10，对应着CIFAR-10图像集的10个类别；对于CIFAR-100图像集全连接层的输出通道数为100，对应着CIFAR-100图像集的100个类别，最后接入一个归一化指数函数(Softmax)层完成图像分类。在经过164轮训练之后，得到DPDNet卷积神经网络的连接权值和偏置值。测试阶段，将测试图像输入经过164轮训练之后得到的DPDNet卷积神经网络模型，得到图像数据集分类准确率的测试结果；

表1本发明提出的DPDNet卷积神经网络

本发明通过基于通道扩张倒置卷积神经网络的图像分类方法，所构建的网络结构DPDNet卷积神经网络结构，通过改变扩张通道参数m，训练CIFAR-10图像数据集与CIFAR-100图像数据集，在经过164轮训练之后，得到DPDNet卷积神经网络的连接权值和偏置值。测试阶段，将测试图像输入经过164轮训练之后得到的DPDNet卷积神经网络，得到图像数据集分类准确率的测试结果如表2，并与常见的MobileNetV2网络结构相比，如表2所示，发现随着扩张通道参数m增大，相比常见的MobileNetV2网络结构，本发明所提出的的DPDNet卷积神经网络结构所用参数更少；在CIFAR-10图像数据集中，只有m＝4时MobileNetV2图像分类测试准确率更高，其他均是本发明所提出的DPDNet卷积神经网络结构的图像分类测试准确率更高，说明本发明所提出的基于通道扩张倒置卷积神经网络的图像分类方法更加有效，证明本发明所提出的网络结构可以高效的适用于大规模图像的分类问题。

表2图像分类准确率测试结果网络模型对比表

以上仅是本发明的优选实施方式，应当指出以上实施列对本发明不构成限定，相关工作人员在不偏离本发明技术思想的范围内，所进行的多样变化和修改，均落在本发明的保护范围内。

本发明通过堆叠DPDNet卷积倒置块得到了高效简洁的DPDNet网络结构，与其他常见的卷积神经网络相比，使用3×3卷积核的深度卷积提取输入图像的空间特征，减少了网络参数，进一步改善了卷积神经网络浮点数运算量过大的问题，在大规模图像集的分类问题中，测试准确率有明显提高。

Claims

1.一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，包括以下步骤：

(1)将大规模图像数据集生成训练图像集和测试图像集；

2.根据权利要求1所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，步骤(1)中训练图像集和测试图像集中的图像尺寸为n×n，其中n≥8。

3.根据权利要求1所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，步骤(2)中标准卷积操作的卷积核尺寸为r×r，其中r≥3，步长为s₀，其中s₀≥1，输出图像的通道数为4m，其中，m≥1，输出图像尺寸为n/s₀×n/s₀。

4.根据权利要求1所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，步骤(3)包括以下步骤：

5.根据权利要求1或4任一项所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，DPDNet卷积倒置块的生成方法为：

6.根据权利要求5所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，批量归一化的表达式为：

其中，y_i为第i个输出特征图像，x_i为第i个输入特征图像，μ_β为训练图像集像素点均值，σ_β为训练图像集像素点方差，ε为正整数，γ、δ为需要训练的参数；

非线性激活操作的激活函数公式为：y＝max(0,x)；

其中，y为输出特征图像，x为输入特征图像。

7.根据权利要求1所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，步骤(4)中全局平均池化操作为将尺寸为h×w的输入特征图像的所有像素点求和，然后除以(h×w)，得到图像尺寸为1×1的输出特征图像。

8.根据权利要求1所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，步骤(5)中将步骤(4)得到的尺寸为1×1的输出特征图像通过全连接层，输出z个节点，z为图像数据集的总类别数，每个节点的输出值为x_i，1≤i≤z，i表示输入图像属于图像集第i类，即每个节点对应一种类别，将得到的z个节点的值x_i通过归一化指数函数层，输出z个概率值P_i，最大的概率值P_i所对应的那种类别就是该输入图像所对应的类别，得到DPDNet卷积神经网络模型。

9.根据权利要求8所述的一种基于通道扩张倒置卷积神经网络的图像分类方法，其特征在于，归一化指数函数表达式为：