CN111967522B - 一种基于漏斗卷积结构的图像序列分类方法 - Google Patents

一种基于漏斗卷积结构的图像序列分类方法 Download PDF

Info

Publication number
CN111967522B
CN111967522B CN202010834656.9A CN202010834656A CN111967522B CN 111967522 B CN111967522 B CN 111967522B CN 202010834656 A CN202010834656 A CN 202010834656A CN 111967522 B CN111967522 B CN 111967522B
Authority
CN
China
Prior art keywords
convolution
funnel
convolution kernel
image sequence
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010834656.9A
Other languages
English (en)
Other versions
CN111967522A (zh
Inventor
黄新俊
陈建炜
陈阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Tuge Medical Technology Co ltd
Original Assignee
Nanjing Tuge Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Tuge Medical Technology Co ltd filed Critical Nanjing Tuge Medical Technology Co ltd
Priority to CN202010834656.9A priority Critical patent/CN111967522B/zh
Publication of CN111967522A publication Critical patent/CN111967522A/zh
Application granted granted Critical
Publication of CN111967522B publication Critical patent/CN111967522B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于漏斗卷积结构的图像序列分类方法,包括:步骤1:采用1*n*n的卷积核提取图像序列的空间特征;步骤2:采用漏斗卷积核提取图像序列的短期时间特征;步骤3:采用convlstm提取图像序列的长期时间特征;步骤4:对步骤1‑步骤3得到的特征在通道维度连接后添加权重;本发明对3D卷积核进行改进,将原网络中的3D卷积核用漏斗卷积结构替代,漏斗卷积结构将时间特征和空间特征的提取完全分离,更好的解耦,物理意义更明确,减少了训练参数并且单独提取特征,使得参数之间有更少的互相影响,提高效果。

Description

一种基于漏斗卷积结构的图像序列分类方法
技术领域
本发明属于计算机图像处理技术领域,具体涉及一种基于漏斗卷积结构的图像序列分类方法。
背景技术
深度学习由机器学习中的感知器堆叠产生的。利用深度学习中的卷积神经网络,循环神经网络等可用来解决包括但不限于分类,目标检测,分割问题。在视频分类中,通常是提取一些帧,对这些帧提取时间特征和空间特征,然后分类,即图像序列分类。常用的图像序列分类方法有三大类:3D卷积神经网络,卷积神经网络+LSTM,基于光流的双流网络。在3D卷积神经网络中通常是用3*3*3卷积核,使用3D卷积核可同时提取时间特征和空间特征,比单帧提取空间特征以及传统方法效果更好。3D卷积核的问题是也很明显,即参数量呈指数增加,会带来严重的过拟合。最近几年对于解决3D卷积核参数量太大的问题采用的经典方法是把3*3*3卷积核分解成1*3*3和3*1*1卷积核,分别用来提取空间特征和时间特征,可缓解过拟合问题。
然而只用一个3*1*1卷积核无法提取时间特征。因为在同一位置的元素必然不具有相同语义。例如荡秋千时秋千的位置在下一帧可能就不在同一位置了,即使在同一位置也失去了提取时间特征的意义了。因此3*1*1卷积核必须在1*3*3卷积核提取特征之后才能考虑到前后帧目标位置周围的像素。随之而来就会产生一个问题,空间的特征提取会影响时间的特征提取,参数训练会更加困难。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足,提供一种基于漏斗卷积结构的图像序列分类方法,采用将时间特征和空间特征完全分离的卷积结构,用漏斗卷积核提取短期时间特征,1*3*3卷积核提取空间特征,convlstm提取长期时间特征,并用通道注意力机制对不同特征通道赋予权重。
为实现上述技术目的,本发明采取的技术方案为:
一种基于漏斗卷积结构的图像序列分类方法,
以漏斗卷积结构代替3D卷积神经网络中的3D卷积核进行图像序列分类,所述方法包括:
步骤1:将上一层网络的输出经过卷积核尺寸为1*n*n的卷积层提取图像序列的空间特征,n=3;
步骤2:将上一层网络的输出经过漏斗卷积核的卷积层提取图像序列的短期时间特征,即某一帧与它周围帧的关系特征;
步骤3:将上一层网络的输出经过Xingjian SHI,Zhourong Chen等人提出的convlstm网络结构提取图像序列的长期时间特征,即从第一帧到该帧的关系特征。
步骤4:对步骤1-步骤3得到的特征在通道维度连接后添加权重,之后经过全连接层分类。
为优化上述技术方案,采取的具体措施还包括:
上述的步骤1-步骤3提取的特征通道数总和等于原3D卷积神经网络的卷积层通道数。
上述的步骤2所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到:将3D卷积核卷积中心的空间卷积尺寸变为1*1*1,其他位置不变。
上述的3D卷积核为3*3*3的3D卷积核,由3*3*3的3D卷积核改进得到的漏斗卷积核为:由3*3*1、1*1*1、3*3*1,这3个3D卷积核堆叠成的3D卷积核。
上述的步骤4具体为:
采用通道注意力机制对步骤1-步骤3得到的特征添加权重,即将步骤1-步骤3得到的特征在通道上连接,且在通道以外的维度全局池化,经过全连接层后与连接之后的特征逐元素相乘,实现图像序列分类。
本发明具有以下有益效果:
3D卷积神经网络是用来提取时序图像的特征的网络,一般是用n*n*n的卷积核,即在时间,图像长度和宽度上卷积核尺寸都为n,使得能同时提取时间特征和空间特征。在3D卷积中为了能单独提取时间和空间特征,本发明对该卷积核进行改进,将原网络中的3D卷积核用漏斗卷积结构替代,使得漏斗卷积结构能够单独提取空间特征,短期时间特征和长期时间特征,并用注意力机制衡量这些特征的权重,使得网络能单独对时间特征和空间特征进行处理,漏斗卷积结构将时间特征和空间特征的提取完全分离,更好的解耦,物理意义更明确,减少了训练参数并且单独提取特征,使得参数之间有更少的互相影响,提高效果。
附图说明
图1为漏斗卷积结构示意图;
图2为I3D卷积神经网络结构示意图。
具体实施方式
以下结合附图对本发明的实施例作进一步详细描述。
本发明的一种基于漏斗卷积结构的图像序列分类方法,其特征在于,包括:
步骤1:采用1*n*n的卷积核提取图像序列的空间特征,n=3;
步骤2:采用漏斗卷积核提取图像序列的短期时间特征;
所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到:将3D卷积核卷积中心的空间卷积尺寸变为1*1*1,其他位置不变。
参见图1,所述3D卷积核为3*3*3的3D卷积核,由3*3*3的3D卷积核改进得到的漏斗卷积为:由3*3*1、1*1*1、3*3*1,这3个3D卷积核堆叠成的3D卷积核。
图1左图为漏斗卷积结构,可替代原网络中3D卷积层,此时应保证N1,N2,N3和为原网络中3D卷积层的通道数。右图为漏斗卷积,即将原3D卷积核的卷积中心尺寸变为1*1*1。
除了卷积中心像素外,其他像素的变化只会对短期时间特征或空间特征的其中之一产生影响。
步骤3:采用convlstm提取图像序列的长期时间特征,并在通道维度上连接步骤1-步骤3的特征;
参见图1和图2,实施例中,将I3D网络的所有3*3*3卷积核替换为本发明提出的漏斗卷积结构。图2左图为I3D网络结构,其中有若干个Inception模块,右图为Inception模块的网络结构。
步骤4:采用通道注意力机制对步骤1-步骤3得到的特征添加权重,之后经过全连接层分类。
实施例中,在UCF101数据集上从头训练比较I3D和改进后的I3D在测试集上的准确率,I3D网络和改进的I3D网络结果对比如表1所示。
表1 I3D和改进的I3D准确率和参数量
准确率 参数量
I3D 42.59% 12.4M
改进的I3D 45.02% 10.99M
改进之后的I3D的参数量更少,准确率更高,说明这种解耦和的操作取得了明显的成果。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。

Claims (3)

1.一种基于漏斗卷积结构的图像序列分类方法,其特征在于,包括:
步骤1:将上一层网络的输出经过卷积核尺寸为1*n*n的卷积层提取图像序列的空间特征,n=3;
步骤2:将上一层网络的输出经过漏斗卷积核的卷积层提取图像序列的短期时间特征,即某一帧与它周围帧的关系特征;
步骤2所述漏斗卷积核由对一个n*n*n的3D卷积核做以下改进得到:将3D卷积核卷积中心的空间卷积尺寸变为1*1*1,其他位置不变;
所述3D卷积核为3*3*3的3D卷积核,由3*3*3的3D卷积核改进得到的漏斗卷积核为:由3*3*1、1*1*1、3*3*1这3个3D卷积核堆叠成的3D卷积核;
步骤3:将上一层网络的输出经过convlstm网络结构提取图像序列的长期时间特征,即从第一帧到该帧的关系特征;
步骤4:对步骤1-步骤3得到的特征在通道维度连接后添加权重,之后经过全连接层分类。
2.根据权利要求1所述的一种基于漏斗卷积结构的图像序列分类方法,其特征在于,步骤1-步骤3提取的特征通道数总和等于原3D卷积神经网络的卷积层通道数。
3.根据权利要求1所述的一种基于漏斗卷积结构的图像序列分类方法,其特征在于,所述步骤4具体为:
采用通道注意力机制对步骤1-步骤3得到的特征添加权重,即将步骤1-步骤3得到的特征在通道上连接,且在通道以外的维度全局池化,经过全连接层后与连接之后的特征逐元素相乘,实现图像序列分类。
CN202010834656.9A 2020-08-19 2020-08-19 一种基于漏斗卷积结构的图像序列分类方法 Active CN111967522B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010834656.9A CN111967522B (zh) 2020-08-19 2020-08-19 一种基于漏斗卷积结构的图像序列分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010834656.9A CN111967522B (zh) 2020-08-19 2020-08-19 一种基于漏斗卷积结构的图像序列分类方法

Publications (2)

Publication Number Publication Date
CN111967522A CN111967522A (zh) 2020-11-20
CN111967522B true CN111967522B (zh) 2022-02-25

Family

ID=73388458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010834656.9A Active CN111967522B (zh) 2020-08-19 2020-08-19 一种基于漏斗卷积结构的图像序列分类方法

Country Status (1)

Country Link
CN (1) CN111967522B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464831B (zh) * 2020-12-01 2021-07-30 马上消费金融股份有限公司 视频分类方法、视频分类模型的训练方法及相关设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN110705431A (zh) * 2019-09-26 2020-01-17 中国人民解放军陆军炮兵防空兵学院 基于深度c3d特征的视频显著性区域检测方法及***
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110942006A (zh) * 2019-11-21 2020-03-31 中国科学院深圳先进技术研究院 运动姿态识别方法、运动姿态识别装置、终端设备及介质
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN111382616A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 视频分类方法、装置及存储介质、计算机设备
CN111523645A (zh) * 2020-04-16 2020-08-11 北京航天自动控制研究所 一种提升小尺度目标检测识别性能的卷积神经网络设计方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549841A (zh) * 2018-03-21 2018-09-18 南京邮电大学 一种基于深度学习的老人跌倒行为的识别方法
CN109508375A (zh) * 2018-11-19 2019-03-22 重庆邮电大学 一种基于多模态融合的社交情感分类方法
CN109711316A (zh) * 2018-12-21 2019-05-03 广东工业大学 一种行人重识别方法、装置、设备及存储介质
CN111382616A (zh) * 2018-12-28 2020-07-07 广州市百果园信息技术有限公司 视频分类方法、装置及存储介质、计算机设备
CN110705431A (zh) * 2019-09-26 2020-01-17 中国人民解放军陆军炮兵防空兵学院 基于深度c3d特征的视频显著性区域检测方法及***
CN111091045A (zh) * 2019-10-25 2020-05-01 重庆邮电大学 一种基于时空注意力机制的手语识别方法
CN110826447A (zh) * 2019-10-29 2020-02-21 北京工商大学 一种基于注意力机制的餐厅后厨人员行为识别方法
CN110942006A (zh) * 2019-11-21 2020-03-31 中国科学院深圳先进技术研究院 运动姿态识别方法、运动姿态识别装置、终端设备及介质
CN111523645A (zh) * 2020-04-16 2020-08-11 北京航天自动控制研究所 一种提升小尺度目标检测识别性能的卷积神经网络设计方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
【论文阅读】Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset;NRZZN;《CSDN,https://blog.csdn.net/zzmshuai/article/details/84936338?spm=1001.2014.3001.5502》;20181210;第1-8页 *
于改进3D卷积神经网络的行为识别;张小俊,李辰政,孙凌宇,张明路;《计算机集成制造***》;20190815;第25卷(第8期);第2000-2006页 *
基于卷积神经网络框架的室内物体目标检测和姿态估计;方鹏飞;《中国优秀硕士学位论文全文数据库》;20200115(第1期);第1-79页 *
基于深度学习的人体行为识别方法综述;蔡强,邓毅彪,李海生,余乐,明少锋;《计算机科学》;20191216;第47卷(第4期);第85-93页 *

Also Published As

Publication number Publication date
CN111967522A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
Zeng et al. Lightweight dense-scale network (LDSNet) for corn leaf disease identification
CN104915327B (zh) 一种文本信息的处理方法及装置
CN110929603A (zh) 一种基于轻量级卷积神经网络的天气图像识别方法
CN115661144A (zh) 基于可变形U-Net的自适应医学图像分割方法
CN105654475B (zh) 基于可区分边界和加权对比度的图像显著性检测方法及其装置
CN111160229B (zh) 基于ssd网络的视频目标检测方法及装置
CN110837808A (zh) 一种基于改进的胶囊网络模型的高光谱图像分类方法
CN111967522B (zh) 一种基于漏斗卷积结构的图像序列分类方法
CN112529090A (zh) 一种基于改进YOLOv3的小目标检测方法
CN111160107B (zh) 一种基于特征匹配的动态区域检测方法
CN107066959A (zh) 一种基于导向滤波和线性空间相关性信息的高光谱图像分类方法
CN106228557A (zh) 基于二次jpeg压缩的图像篡改区域检测方法
CN104202448A (zh) 一种解决移动终端摄像头拍照亮度不均的***及其方法
CN111242319A (zh) 模型预测结果的解释方法和装置
CN110766082B (zh) 一种基于迁移学习的植物叶片病虫害程度分类方法
CN112597904A (zh) 一种用于高炉料面图像的识别与分类方法
CN113159159A (zh) 一种基于改进cnn的小样本图像分类方法
CN113283351B (zh) 一种使用cnn优化相似度矩阵的视频抄袭检测方法
Chen et al. Deep convolutional network for citrus leaf diseases recognition
CN107527001A (zh) 一种基于导向滤波和线性空间相关性信息的高光谱图像分类方法
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN115757386B (zh) 海洋空间观测数据的异常检测方法、***、设备与介质
CN117975086A (zh) 一种基于度量元学习的少样本图像分类方法及***
CN115019215B (zh) 一种基于高光谱图像的大豆病虫害识别方法和装置
Tang et al. Salient object detection with chained multi-scale fully convolutional network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant