CN111967522B

CN111967522B - 一种基于漏斗卷积结构的图像序列分类方法

Info

Publication number: CN111967522B
Application number: CN202010834656.9A
Authority: CN
Inventors: 黄新俊; 陈建炜; 陈阳
Original assignee: Nanjing Tuge Medical Technology Co ltd
Current assignee: Nanjing Tuge Medical Technology Co ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2022-02-25
Anticipated expiration: 2040-08-19
Also published as: CN111967522A

Abstract

本发明公开了一种基于漏斗卷积结构的图像序列分类方法，包括：步骤1：采用1*n*n的卷积核提取图像序列的空间特征；步骤2：采用漏斗卷积核提取图像序列的短期时间特征；步骤3：采用convlstm提取图像序列的长期时间特征；步骤4：对步骤1‑步骤3得到的特征在通道维度连接后添加权重；本发明对3D卷积核进行改进，将原网络中的3D卷积核用漏斗卷积结构替代，漏斗卷积结构将时间特征和空间特征的提取完全分离，更好的解耦，物理意义更明确，减少了训练参数并且单独提取特征，使得参数之间有更少的互相影响，提高效果。

Description

一种基于漏斗卷积结构的图像序列分类方法

技术领域

本发明属于计算机图像处理技术领域，具体涉及一种基于漏斗卷积结构的图像序列分类方法。

背景技术

深度学习由机器学习中的感知器堆叠产生的。利用深度学习中的卷积神经网络，循环神经网络等可用来解决包括但不限于分类，目标检测，分割问题。在视频分类中，通常是提取一些帧，对这些帧提取时间特征和空间特征，然后分类，即图像序列分类。常用的图像序列分类方法有三大类：3D卷积神经网络，卷积神经网络+LSTM，基于光流的双流网络。在3D卷积神经网络中通常是用3*3*3卷积核，使用3D卷积核可同时提取时间特征和空间特征，比单帧提取空间特征以及传统方法效果更好。3D卷积核的问题是也很明显，即参数量呈指数增加，会带来严重的过拟合。最近几年对于解决3D卷积核参数量太大的问题采用的经典方法是把3*3*3卷积核分解成1*3*3和3*1*1卷积核，分别用来提取空间特征和时间特征，可缓解过拟合问题。

然而只用一个3*1*1卷积核无法提取时间特征。因为在同一位置的元素必然不具有相同语义。例如荡秋千时秋千的位置在下一帧可能就不在同一位置了，即使在同一位置也失去了提取时间特征的意义了。因此3*1*1卷积核必须在1*3*3卷积核提取特征之后才能考虑到前后帧目标位置周围的像素。随之而来就会产生一个问题，空间的特征提取会影响时间的特征提取，参数训练会更加困难。

发明内容

本发明所要解决的技术问题是针对上述现有技术的不足，提供一种基于漏斗卷积结构的图像序列分类方法，采用将时间特征和空间特征完全分离的卷积结构，用漏斗卷积核提取短期时间特征，1*3*3卷积核提取空间特征，convlstm提取长期时间特征，并用通道注意力机制对不同特征通道赋予权重。

为实现上述技术目的，本发明采取的技术方案为：

一种基于漏斗卷积结构的图像序列分类方法，

以漏斗卷积结构代替3D卷积神经网络中的3D卷积核进行图像序列分类，所述方法包括：

步骤1：将上一层网络的输出经过卷积核尺寸为1*n*n的卷积层提取图像序列的空间特征，n＝3；

步骤2：将上一层网络的输出经过漏斗卷积核的卷积层提取图像序列的短期时间特征，即某一帧与它周围帧的关系特征；

步骤3：将上一层网络的输出经过Xingjian SHI,Zhourong Chen等人提出的convlstm网络结构提取图像序列的长期时间特征，即从第一帧到该帧的关系特征。

步骤4：对步骤1-步骤3得到的特征在通道维度连接后添加权重，之后经过全连接层分类。

为优化上述技术方案，采取的具体措施还包括：

上述的步骤1-步骤3提取的特征通道数总和等于原3D卷积神经网络的卷积层通道数。

上述的步骤2所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到：将3D卷积核卷积中心的空间卷积尺寸变为1*1*1，其他位置不变。

上述的3D卷积核为3*3*3的3D卷积核，由3*3*3的3D卷积核改进得到的漏斗卷积核为：由3*3*1、1*1*1、3*3*1，这3个3D卷积核堆叠成的3D卷积核。

上述的步骤4具体为：

采用通道注意力机制对步骤1-步骤3得到的特征添加权重，即将步骤1-步骤3得到的特征在通道上连接，且在通道以外的维度全局池化，经过全连接层后与连接之后的特征逐元素相乘，实现图像序列分类。

本发明具有以下有益效果：

3D卷积神经网络是用来提取时序图像的特征的网络，一般是用n*n*n的卷积核，即在时间，图像长度和宽度上卷积核尺寸都为n，使得能同时提取时间特征和空间特征。在3D卷积中为了能单独提取时间和空间特征，本发明对该卷积核进行改进，将原网络中的3D卷积核用漏斗卷积结构替代，使得漏斗卷积结构能够单独提取空间特征，短期时间特征和长期时间特征，并用注意力机制衡量这些特征的权重，使得网络能单独对时间特征和空间特征进行处理，漏斗卷积结构将时间特征和空间特征的提取完全分离，更好的解耦，物理意义更明确，减少了训练参数并且单独提取特征，使得参数之间有更少的互相影响，提高效果。

附图说明

图1为漏斗卷积结构示意图；

图2为I3D卷积神经网络结构示意图。

具体实施方式

以下结合附图对本发明的实施例作进一步详细描述。

本发明的一种基于漏斗卷积结构的图像序列分类方法，其特征在于，包括：

步骤1：采用1*n*n的卷积核提取图像序列的空间特征，n＝3；

步骤2：采用漏斗卷积核提取图像序列的短期时间特征；

所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到：将3D卷积核卷积中心的空间卷积尺寸变为1*1*1，其他位置不变。

参见图1，所述3D卷积核为3*3*3的3D卷积核，由3*3*3的3D卷积核改进得到的漏斗卷积为：由3*3*1、1*1*1、3*3*1，这3个3D卷积核堆叠成的3D卷积核。

图1左图为漏斗卷积结构，可替代原网络中3D卷积层，此时应保证N1,N2,N3和为原网络中3D卷积层的通道数。右图为漏斗卷积，即将原3D卷积核的卷积中心尺寸变为1*1*1。

除了卷积中心像素外，其他像素的变化只会对短期时间特征或空间特征的其中之一产生影响。

步骤3：采用convlstm提取图像序列的长期时间特征，并在通道维度上连接步骤1-步骤3的特征；

参见图1和图2，实施例中，将I3D网络的所有3*3*3卷积核替换为本发明提出的漏斗卷积结构。图2左图为I3D网络结构，其中有若干个Inception模块，右图为Inception模块的网络结构。

步骤4：采用通道注意力机制对步骤1-步骤3得到的特征添加权重，之后经过全连接层分类。

实施例中，在UCF101数据集上从头训练比较I3D和改进后的I3D在测试集上的准确率，I3D网络和改进的I3D网络结果对比如表1所示。

表1 I3D和改进的I3D准确率和参数量

	准确率	参数量
			I3D	42.59％	12.4M
改进的I3D	45.02％	10.99M

改进之后的I3D的参数量更少，准确率更高，说明这种解耦和的操作取得了明显的成果。

以上仅是本发明的优选实施方式，本发明的保护范围并不仅局限于上述实施例，凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理前提下的若干改进和润饰，应视为本发明的保护范围。

Claims

1.一种基于漏斗卷积结构的图像序列分类方法，其特征在于，包括：

步骤2所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到：将3D卷积核卷积中心的空间卷积尺寸变为1*1*1，其他位置不变；

所述3D卷积核为3*3*3的3D卷积核，由3*3*3的3D卷积核改进得到的漏斗卷积核为：由3*3*1、1*1*1、3*3*1这3个3D卷积核堆叠成的3D卷积核；

步骤3：将上一层网络的输出经过convlstm网络结构提取图像序列的长期时间特征，即从第一帧到该帧的关系特征；

2.根据权利要求1所述的一种基于漏斗卷积结构的图像序列分类方法，其特征在于，步骤1-步骤3提取的特征通道数总和等于原3D卷积神经网络的卷积层通道数。

3.根据权利要求1所述的一种基于漏斗卷积结构的图像序列分类方法，其特征在于，所述步骤4具体为：