CN113807362A

CN113807362A - 基于层间语义信息融合深度卷积网络的图像分类方法

Info

Publication number: CN113807362A
Application number: CN202111031606.8A
Authority: CN
Inventors: 田小林; 张力; 高原; 焦李成
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-17
Anticipated expiration: 2041-09-03
Also published as: CN113807362B

Abstract

本发明公开了一种基于层间语义信息融合深度卷积网络的图像分类方法，主要解决现有图像分类算法无法同时兼顾复杂图像分类准确度和对图像中小目标敏感性的问题，其实现方案是：获取训练集和测试集；构建包括多级特征提取模块、金字塔池化结构、语义融合结构及输出层的层间语义信息融合深度卷积网络；采用训练集利用梯度下降法对构建的网络进行迭代训练；将测试集输入到训练好的网络模型中，得到图像的分类结果。本发明通过构建金字塔池化结构与语义融合结构，通过将中层弱语义信息特征与深层强语义信息特征相融合，在兼顾复杂图像分类精度的同时，提高了对小目标的敏感性，提高了图像分类的精度，可用于视频监控、智能交通、医疗保健及人机交互。

Description

基于层间语义信息融合深度卷积网络的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及一种图像分类方法，可用于视频监控、智能交通、医疗保健及人机交互。

背景技术

图像分类的主要任务是从图像中获取能够代表该图像内容的特征，然后利用计算机对该特征进行分析，从而得到该图像所属类别的一项技术。它是实现图像识别、图像目标检测、视频目标跟踪、图像分割这些计算机视觉任务的重要基础，是图像处理和图像理解问题的核心。

目前主流基于深度学习的图像分类算法，主要是从网络的输入层到输出层逐渐降低特征图的分辨率，同时逐渐提高特征图的通道数。代表性的方法主要有以下几种：

第一种是由深度学习的先驱Hinton和他的学生Alex Krizhevsky于2012年ImageNet竞赛上提出的AlexNet方法，该方法是早期基于深度卷积网络实现图像分类的方法，其通过引入ReLU激活函数保持网络梯度特性，采用随机失活技术防止网络过拟合，且第一次展示出深度卷积网络在图像任务中的巨大优势。但是受限于当时GPU的性能，AlexNet方法采用了双分支网络结构及较浅的网络层数以减小计算量，使得面对较为复杂的分类任务时准确率难以保证。

第二种是由牛津大学的Oxford Visual Geometry团队在2014年的ImageNet竞赛中提出的VggNet方法，该方法的基础网络结构与AlexNet方法的网络结构类似，不同之处是采用多层小卷积核替代单层大卷积核，以保持网络在感受野的同时，加深网络层数，获得更强的网络非线性能力。虽然VggNet方法在网络参数量和网络性能上得到了较好的平衡，但由于网络结构的限制使得其网络层数难以进一步加深，对复杂分类任务的分类能力有限。

第三种是由来自Microsoft Research的团队于2015年的ImageNet竞赛中提出的ResNet方法，该方法使用了残差模块，直接连接了网络不同层，网络前面的输入可以直接连接到输出，解决了网络反向传播梯度弥散的问题，使得超深层网络的训练成为可能。该ResNet方法的超深层网络使得其在解决复杂分类问题时取得了前所未有的准确度，但是随着网络层数的大幅度加深，使得其训练难度和分类精度的边际效应开始显现，导致网络训练难度变大。

第四种是由Huang G,Liu Z等人于CVPR 2017上发表的DenseNet方法，该方法延续了ResNet跨层连接的思想，在保证网络中层与层之间最大程度的信息传输的前提下，直接将所有层连接起来，网络每一层的输入都来自于前面所有层的输出。这种连接方式使得DenseNet网络更窄，参数更少，但每一层间都建立连接会在训练时占用大量内存，对网络训练造成一定障碍。

此外，上述方法在实现复杂目标分类时，都需要加深网络层数，但由于随着网络层数的加深，网络特征提取的感受视野变大，对小目标敏感性降低，导致其对小目标的分类性能较差，使得这些方法难以做到对复杂目标分类精度和小目标分类精度的兼顾。

发明内容

本发明的目的是针对上述现有方法的不足，提出一种基于层间语义信息融合深度卷积网络的图像分类方法，以同时提高复杂目标分类精度和小目标分类精度。

本发明的技术方案是，以深度残差网络ResNet50作为主干网络，借助金字塔特征图子结构融合不同空间层次语义特征实现模型构建。由于相邻子采样层得到的特征间差异较小，层次过于接近的特征结合不仅会增大模型的训练难度，也无法带来显著的模型性能优化，因此金字塔特征图子结构采取跳级结合的方式，将尺度相差较大的两采样层的特征相结合，并用结合后的特征区分图像类别，其具体实现包括如下：

(1)选用CIFAR100数据集作为基础数据库，对数据集中的图像进行上采样，并将上采样后的所有数据按5：1比例分为训练集和测试集；

(2)构建层间语义信息融合深度卷积网络：

(2a)建立多级特征提取模块：将传统残差网络ResNet50的Conv2_x结构、Conv3_x、Conv4_x、Conv5_x结构分别作为特征特征提取模块的第一级、第二级、第三级、第四级，再将这四级特征特征提取模块依次相连，得到一个多级特征提取模块；

(2b)建立金字塔池化结构：将三个传统池化层并联，并分别设置池化层的目标视图大小为4*4、2*2、1*1，再对这三个池化层输出的视图进行拼接，构成一个金字塔池化结构；

(2c)建立语义融合结构：

由卷积核大小为1*1、卷积核数量为256、步长为2的卷积层构成特征降维模块；

将一个卷积核大小为3*3、卷积核数量为256、步长为1的卷积层，与一个采样核大小为3*3、步长为2的平均池化层连接，构成混叠效果平滑模块；

将特征降维模块与混叠效果平滑模块连接，构成语义融合结构；

(2d)建立输出层：将一个卷积核大小为3*3、卷积核数量为2048、步长为1的卷积层与一个输入为2048维、输出为100维的全连接网络连接，构成输出层；

(2e)建立网络连接关系：

将多级特征提取模块的第一级与第三级分别与金字塔池化结构相连，之后再同时连接至语义融合结构，构成网络的第一通路；

将级特征提取模块的第二级与第四级分别与金字塔池化结构相连，之后再同时连接至语义融合结构，构成网络的第二通路；

将多级特征提取模块的第四级、网络的第一通路及网络的第二通路同时连接至语义融合结构，再连接输出层，构成层间语义信息融合深度卷积网络；

(3)将训练集输入到层间语义信息融合深度卷积网络中，采用梯度下降法进行迭代训练，得到训练好的层间语义信息融合深度卷积网络；

(4)将测试集输入到训练好的层间语义信息融合深度卷积网络中进行前向传播，得到每一张图像的分类结果。

本发明与现有的技术相比，具有以下优点：

第一，由于本发明构建的层间语义信息融合深度卷积网络中，使用了语义融合结构，将中层弱语义信息特征与深层强语义信息特征相融合，并且在最终图像特征映射中加入未经处理的深层特征，克服了现有技术存在的无法同时兼顾复杂图像分类准确度和对图像中小目标敏感性的问题，使得本发明对实际图像分类有更高的准确度；

第二，由于本发明使用了金字塔池化结构，将接收到的特征图从不同尺度进行特征信息再提取和聚合，扩大了感受野，增加了全局上下文信息间的交互，克服了现有技术存在的为了保证复杂图像分类精度需要大幅度增加网络参数量的问题，使得本发明能够在较小的参数量同时保持较高分类精度。

附图说明

图1为本发明的实现总流程图；

图2为本发明构建层间语义信息融合深度卷积网络的子流程图；

图3为本发明构建的层间语义信息融合深度卷积网络结构示意图。

具体实施方式

以下结合附图对本发明的实施例和效果做进一步详细描述：

参照图1，本实例的实现步骤包括如下：

步骤1，获取训练样本集和测试样本集。

1.1)从CIFAR100图像分类数据集中获取包含100个类别目标的60000张RGB图像，每个类别包含600张RGB图像，每张图像像素为32*32；

1.2)对所获取的所有图像按如下公式采用双三次插值法进行上采样,得到224*224像素的RGB图像：

其中P(x,y)为上采样目标图像中坐标(x,y)处像素的灰度值，a、b分别表示采样点横向和纵向相对位置，S为采样源图像中对应坐标处像素的灰度值，W(·)为插值采样权重函数，其形式为：

为向上取整计算，d为上采样倍率，本实例取d＝7；

1.3)将上采样后的样本按照5：1的比例分为训练集和测试集，得到含有100类共50000张224*224像素图像的训练集和含有100类共10000张224*224像素图像的训练集。

步骤2，构建层间语义信息融合深度卷积网络。

参照图2，本步骤的具体实现如下：

2.1)建立多级特征提取模块：

将传统残差网络ResNet50中的Conv2_x结构、Conv3_x、Conv4_x、Conv5_x结构分别作为特征特征提取模块的第一级、第二级、第三级、第四级，再将这四级特征特征提取模块依次相连，得到一个多级特征提取模块，其中：

第一级特征提取模块，由三个相同的卷积块级联构成，每个卷积块包含三层卷积层，第一层卷积核大小为1*1、卷积核数量为64，第二层卷积核大小为3*3、卷积核数量为64，第三层卷积核大小为1*1、卷积核数量为256；

第二级特征提取模块，由四个相同的卷积块级联构成，每个卷积块包含三层卷积层，第一层卷积核大小为1*1、卷积核数量为128，第二层卷积核大小为3*3、卷积核数量为128，第三层卷积核大小为1*1、卷积核数量为512；

第三级特征提取模块，由六个相同的卷积块级联构成，每个卷积块包含三层卷积层，第一层卷积核大小为1*1、卷积核数量为256，第二层卷积核大小为3*3、卷积核数量为256，第三层卷积核大小为1*1、卷积核数量为1024；

第四级特征提取模块，由三个相同的卷积块级联构成，每个卷积块包含三层卷积层，第一层卷积核大小为1*1、卷积核数量为512，第二层卷积核大小为3*3、卷积核数量为512，第三层卷积核大小为1*1、卷积核数量为2048；

2.2)建立金字塔池化结构：

2.2.1)选取三个传统池化层并联，并对其设置不同大小的目标视图，即第一个池化层的目标视图大小为4*4，第二个池化层的目标视图大小为2*2，第三个池化层的目标视图大小为1*1；

2.2.2)对三个池化层输出的视图进行扩展：

将第一个池化层输出的视图进行一次水平对称翻折扩展，得到维度为4*8的扩展视图；

将第二个池化层输出的视图进行二次水平对称扩展，得到维度为2*8的扩展视图；

将第三个池化层输出的视图进行八倍矩阵广播，得到维度为1*8的扩展视图；

2.2.3)将三个扩展视图按第一维进行对位合并，完成拼接，获得金字塔池化结构；

2.3)建立语义融合结构：

将一个卷积核大小为3*3、卷积核数量为256、步长为1的卷积层，与一个采样核大小为3*3、步长为2的平均池化层进行连接，构成混叠效果平滑模块；

2.4)建立输出层：

将一个卷积核大小为3*3、卷积核数量为2048、步长为1的卷积层与一个输入为2048维、输出为100维的全连接网络连接，构成输出层；

2.5)建立网络连接关系：

2.5.1)将多级特征提取模块的第一级与第三级分别与金字塔池化结构相连，再同时连接至语义融合结构，构成网络的第一通路；

2.5.2)将多级特征提取模块的第二级与第四级分别与金字塔池化结构相连，再同时连接至语义融合结构，构成网络的第二通路；

2.5.3)将多级特征提取模块的第四级、网络的第一通路及网络的第二通路同时连接至语义融合结构，再连接输出层，构成层间语义信息融合深度卷积网络，完成层间语义信息融合深度卷积网络的构建。

最终构建得到的层间语义信息融合深度卷积网络结构如图3所示。

步骤3，对层间语义信息融合深度卷积网络进行迭代训练。

3.1)在本实例中设置最大迭代次数I＝200，正态分布随机初始化网络的权值参数为ω_i，i为迭代次数，初始化为0；

3.2)从步骤1中获得的50000张训练集中有放回且随机的选取M张图像作为层间语义信息融合深度卷积网络的输入，并在网络输出层得到M个训练样本的预测标签y＝{y₁,y₂,...,y_m,...,y_M}，其中，y_m表示第m个训练样本对应的预测标签，0≤m≤M，在本实例中，M＝64；

3.3)采用交叉熵函数作为网络训练的损失函数，通过每个预测标签y_m及其对应的真实标签y_m ^*计算网络的损失值L_i，再求取L_i对权值参数ω_i的偏导

3.4)采用梯度下降法，通过将

在网络中进行反向传播的方式对权值参数ω_i进行更新，更新公式为：

其中，ω_i ^*为更新后的权值参数，

表示求导操作，η表示损失值L_i的学习率，在本实例中，学习率η初始设置为0.01，并以每40轮百分之十的速率依次降低；

3.5)判断i≥I是否成成立，若是，即得到训练好的图像分类网络，否则，令迭代次数i＝i+1，返回3.2)。

步骤4，将步骤1中获取的测试集输入到训练好的层间语义信息融合深度卷积网络中进行前向传播,得到每一张图像的分类结果。

下面结合仿真实验对本发明的效果作进一步说明：

1、仿真条件：

本发明仿真实验所使用的硬件测试平台是：处理器为

Core^TMi5-3470，主频为3.20GHz，内存16GB；显卡为NVIDIA TITAN Xp，显存12GB；软件平台为：Python 3.6，Pytorch 1.7；操作***是Windows 7旗舰版。

仿真实验中用到的图像分类数据集为Cifar100数据集，该数据集中的图像采集自互联网。Cifar100数据集包含100个类别的60000幅RGB图像，仿真实验选取该数据集中的所有RGB图像作为该实验的数据集，其中按类别随机选取50000幅图像作为训练数据集，余下10000张图像作为测试数据集。

2、仿真内容：

选取现有的浅层残差网络ResNet50、深层残差网络ResNet101、图像分类任务常用基准网络VGG16及超深层网络DiracNet作为分类准确率对比组；

分别对所述四个现有网络以及本发明中构建的层间语义信息融合深度卷积网络，使用选取的训练数据集进行200轮训练，得到经过训练后的网络模型；

将选取的10000张测试数据集分别输入到上述训练好的5个模型中，计算各个模型的分类准确率，结果如表1。

表1

算法	准确率
		VGG16	72.93％
ResNet50	77.39％
		ResNet101	77.78％
DiracNet	76.56％
		本发明	80.79％

从表1可见，本发明在测试样本集中的分类精度为80.79％，相比基准的分类网络VGG16提高了7.86％，相比与本发明构建分类网络类似的浅层残差网络ResNet50高3.4％，比深层残差网络ResNet101高3.01％，比超深层网络DiracNet提高4.23％。

仿真结果表明，本发明构建的层间语义信息融合深度卷积网络，有效解决了现有方法难以做到对复杂目标分类精度和小目标分类精度兼顾的问题，提高对RGB图像分类的精度。

Claims

1.一种基于层间语义信息融合深度卷积网络的图像分类方法，其特征在于，包括：

(2)构建层间语义信息融合深度卷积网络：

(2b)建立金字塔池化结构：将三个传统池化层并联，并分别设置池化层的目标视图大小为4*4、2*2、1*1，再对这三个池化层输出的视图进行扩展拼接，构成一个金字塔池化结构；

(2c)建立语义融合结构：

(2e)建立网络连接关系：

2.根据权力要求1所述的方法，其特征在于：(1)中对数据集中的图像进行上采样，采用双三次插值法进行，公式如下：

其中P(x,y)为上采样目标图像中坐标(x,y)处像素的灰度值，a、b分别表示采样点横向和纵向相对位置，W()为插值采样权重函数，其形式为：

S为采样源图像中对应坐标处像素的灰度值，d为上采样倍率，

为向上取整计算。

3.根据权利要求1所述的方法，其特征在于：(2b)中对三个池化层输出的视图进行拼接，实现如下：

(2b1)对三个池化层输出的视图进行扩展：

(2b2)将以上得到的三个扩展视图按第一维进行对位合并，得到维度为8*8的视图，完成拼接。

4.根据权利要求1所述的方法，其特征在于：(3)中采用梯度下降法进行网络训练，实现如下：

(3a)设置最大迭代次数为I＝200，正态分布随机初始化网络的权值参数为ω_i，i为迭代次数，初始化为0；

(3b)从训练样本集中有放回且随机的选取M个训练样本作为层间语义信息融合深度卷积网络的输入，并在网络输出层得到M个训练样本的预测标签y＝{y₁,y₂,...,y_m,...,y_M}，其中，y_m表示第m个训练样本对应的预测标签，0≤m≤M；

(3c)采用交叉熵损失函数，并通过每个预测标签y_m及其对应的真实标签y_m ^*计算网络的损失值L_i，再求取L_i对权值参数的偏导

(3d)采用梯度下降法，通过将

其中，ω_i ^*为更新后的权值参数，η表示L_i的学习率，

表示求导操作；

(3e)判断i≥I是否成成立，若是，即得到训练好的图像分类网络，否则，令迭代次数i＝i+1，返回(3b)。