CN112149504B - 混合卷积的残差网络与注意力结合的动作视频识别方法 - Google Patents
混合卷积的残差网络与注意力结合的动作视频识别方法 Download PDFInfo
- Publication number
- CN112149504B CN112149504B CN202010849991.6A CN202010849991A CN112149504B CN 112149504 B CN112149504 B CN 112149504B CN 202010849991 A CN202010849991 A CN 202010849991A CN 112149504 B CN112149504 B CN 112149504B
- Authority
- CN
- China
- Prior art keywords
- convolution
- layer
- attention
- feature map
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000009471 action Effects 0.000 claims abstract description 17
- 238000005070 sampling Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 15
- 238000011176 pooling Methods 0.000 claims description 14
- 230000004913 activation Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 101150041570 TOP1 gene Proteins 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 1
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Psychiatry (AREA)
- Bioinformatics & Computational Biology (AREA)
- Software Systems (AREA)
- Social Psychology (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种混合卷积的残差网络与注意力结合的动作视频识别方法。包括:1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;4)使用Softmax分类层对关键特征图进行分类。本发明在扩展网络深度的同时,保留视频帧的特征信息,充分融合时空特征,提高重要通道特征的相关度,有效地提高动作识别的预测性能。
Description
技术领域
本发明属于智能视频分析技术领域的一种动作视频识别方法,具体是涉及了一种基于混合卷积的残差网络与注意力机制结合的动作视频识别方法。
背景技术
动作识别具有视频处理、模式识别、虚拟现实等应用价值,是计算机视觉领域的重要研究课题之一。视频中的动作识别是视频理解任务中的关键问题。它不仅需要捕获空间维度上的特征,还需要对多个连续帧之间的时间关系进行编码。因此,从动作视频中有效地提取高分辨率的时空特征对于提高动作识别的准确性具有重要意义。然而,视频是一个具有时间关系的连续帧序列,每个像素点与其邻近像素点具有很高的相似性,时空相关性非常强。传统的卷积神经网络对单幅图像数据具有优异的特征提取性能,但不能从视频中提取时空特征。
当视频输入为连续图像时,目前主要有三种方法:(1)2DCNNs结合RNN/LSTM,(2)双流CNNs,(3)3DCNNs。双流CNNs使用两个独立的网络来捕获空间特征和时间运动信息。虽然该方法效果较好,但由于两个网络的训练是分离的,不能有效地混合外观和运动信息。RNN/LSTM能更好地处理序列信息,因此常与CNN相结合来处理动作识别。然而,这类方法只保留了顶层的高级特性,忽略了底层特性中的相关性。利用3DCNN获取时空信息是一种有效的方法。然而,3DCNN模型参数量巨大,包含大量冗余的空间数据,训练3DCNNs是一个非常具有挑战性的任务。近年来,许多研究试图从不同的角度引入注意机制来增强行为识别的鲁棒性。然而,深度网络中的注意力叠加机制会导致重复的点积,从而降低特征的价值。
发明内容
为了解决背景技术中存在的问题,本发明的目的在于提供一种基于混合卷积的残差网络与注意力机制结合的动作视频中的动作识别方法,设计MC-RAN模块,其以混合卷积的残差网络为基础,将3D卷积解耦的2D卷积和1D卷积分别与适应的空间注意力模块MSS与通道注意力模块MCS融合,提高重要通道特征的相关度,增加特征图的全局相关性,以提高动作识别的性能。
本发明采用的技术方案如下:
本发明包括以下步骤:
1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;
2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;
所述步骤2)具体为:
时间抽样:对于每个动作视频,随机采样16帧动作视频的连续帧进行训练;如果连续帧的帧数达不到16帧,就循环播放该动作视频,直至连续帧的帧数达到16帧;
随机裁剪:将原始视频帧图像的大小调整为128×171像素,然后将原始视频帧图像的大小随机裁剪为112×112像素;
亮度调整:随机调整原始视频帧图像的亮度。
3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;
混合卷积块表达为:
Xt+1=Xt+W(Xt)
其中,Xt和Xt+1表示第t个MC-RAN模块的输入和输出;Xt和Xt+1具有相同的特征维度,W代表加入注意力机制的混合卷积残差函数;
所述步骤3)具体为:选取3DResNet网络结构作为基本网络结构,3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替,混合卷积块包括MC-RAN模块和加合层;MC-RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层,所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成;混合卷积块的输入Xt输入MC-RAN模块,MC-RAN模块输出后的特征图与输入Xt通过加合层进行特征图相加,相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出Xt+1,每个混合卷积块之后级联3D最大池化层进行下采样;
第i个尺寸为Ni-1×t×d×d的3D卷积层由Mi个尺寸为Ni-1×1×d×d的第二2D卷积层和Ni个尺寸为Mi×t×1×1的时序卷积层组成,Mi由以下公式计算:
其中,d表示3D卷积层输出特征图的宽高尺寸参数,t表示时刻时序,[]表示向下取整。
所述(2+1)D卷积层主要由第一2D卷积层、空间注意力模块MSS、时间卷积层和通道注意力模块MCS级联构成,由空间注意力模块MSS和通道注意力模块MCS构成了注意力模块;
空间注意力模块MSS通过第三2D卷积层来获取输入特征图在空间维度上的空间权重图WSS;通道注意力模块MCS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图WCS;
所述空间注意力模块MSS的构建具体为:当输入特征图F的大小为C×H×W时,C代表输入特征图中每一帧图像的通道数,H和W代表输入特征图中每一帧图像的宽高尺寸参数;首先,利用全局平均池化对输入特征图中每一帧图像的通道进行压缩,生成一个大小为1×H×W的2D空间描述符Z;之后使用第三2D卷积层对2D空间描述符Z进行卷积获取到输入特征图中的感兴趣目标区域;最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换,获得空间注意力权重图WSS;
空间注意力权重图WSS可表示为:
WSS(F)=BN(σ(f7×7(Avgpool(F)))
其中,BN()表示批量归一化,σ()表示是sigmoid激活函数,f7×7()表示卷积核大小为7×7的卷积操作,Avgpool()表示全局平均池化,F表示输入的特征图;
所述通道注意力模块MCS的构建具体为:当输入特征图Q的大小为C×H×W,C代表输入特征图中每一帧图像的通道数,首先,对输入特征图Q进行全局平均池化操作,产生一个大小为1×1×C的通道向量Q';随后,使用多层感知器对通道向量Q'进行处理,以学习通道向量Q'的权重;
通道向量Q'可由如下公式计算:
其中F(i,j)表示在坐标(i,j)的特征图,i表示在H维度的像素点,j表示在W维度的像素点;
最后在多层感知器后增加第四批量归一化层来进行维度转换,获得通道注意力权重图WCS;
通道注意力权重图WCS可表示为:
WCS(F)=BN(MLP(Avgpool(F)))=BN(σ(W1(δ(W0Avgpool(F)+b0)+b1)))
其中,MLP()表示带有隐藏层的多层感知器,W0和W1是MLP()的权重,大小分别为C/r×C和C×C/r,r是压缩比,δ()是线性修正单元,b0和b1表示MLP()的偏置项,大小分别为C/r和C。
4)使用Softmax分类层对关键特征图进行分类。
所述的步骤4)具体为:视频帧图像经过四个MC-RAN模块后视频帧图像中的时空特征已经融合,混合卷积残差网络模型获取了关键特征,将关键特征图输入到Softmax层中进行分类。
所述的输入特征图在第一个MC-RAN模块中的输入特征图是步骤2)中的视频帧图像经过第一卷积层后的输出特征图,在后续的MC-RAN模块中的输入特征图是前一个MC-RAN模块的输出经过3D最大池化层后的输出特征图。
本发明的有益效果:
1)本发明设计了MC-RAN模块,以混合卷积的残差网络为基础,将3D卷积解耦的2D卷积和1D卷积分别与适应的空间注意力模块与通道注意力模块融合,充分融合时空特征,提高重要通道特征的相关度,增加特征图的全局相关性,以提高行为识别的性能。
2)本发明提出的混合卷积残差网络模型可以在扩展网络深度的同时,保留特征信息。本发明在公共数据集UCF101和HMDB51上开展对比试验,经数据集Kinetics预训练后,在UCF101和HMDB51测试集上的Top1准确率分别达到96.8%和74.8%。
附图说明
图1为本发明实施例的部分数据集示例;
图2为本发明实施例的模块设计图;
图3为本发明实施例空间注意力模块结构;
图4为本发明实施例通道注意力模块结构;
图5为本发明实施例混合卷积块级联图;
图6为本发明实施例的特征图;(a),(b),(c),(d)为原始视频帧;(e),(f),(g),(h)为对应的特征图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
本发明提供混合卷积的残差网络与注意力结合的动作视频识别方法,利用开源数据集UCF101作为实验数据集,具体数据集示例如图1所示。该图表示其中一个动作视频转换成的部分动作视频的视频帧图像,将图像保存成.jpg格式,最后的图片大小为320×240。
本发明实施例如下:
步骤1:采用Opencv中的VideoCapture函数读入动作视频,并将读入的动作视频转换成动作视频的视频帧图像,部分动作视频的视频帧图像如图1所示。
步骤2:本发明首先对动作识别模型进行数据预处理,然后在Kinetics数据集上进行预训练,而不是从头开始训练我们的模型,以提高我们模型的准确率。
2.1)动作识别的数据预处理如下:
分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;
时间抽样:对于每个动作视频,随机采样16帧动作视频的连续帧进行训练;如果连续帧的帧数达不到16帧,就循环播放该动作视频,直至连续帧的帧数达到16帧;
随机裁剪:将原始视频帧图像的大小调整为128×171像素,然后将原始视频帧图像的大小随机裁剪为112×112像素;
亮度调整:随机调整原始视频帧图像的亮度。
2.2)动作识别的模型预训练过程如下:
将预处理后的视频帧图像输入混合卷积残差网络模型进行空间和通道维度上的特征提取,混合卷积残差网络模型的输入图像的形状批处理大小batch_size为16×112×112×3,混合卷积残差网络模型的输出形状批处理大小batch_size为类别标签。使用随机梯度下降SGD进行损失值的优化,初始学习率设置为0.01,当验证损失达到饱和时,初始学习率除以10。动量momentum系数为0.9,dropout系数为0.5,权值衰减率为10e-3,并且使用batch norm加速模型训练,在服务器上使用8块Tesla V100 GPU进行训练,每块GPU上的batch_size为8,总的batch_size为64。
步骤3:构建注意力模块,注意力模块中使用注意力机制关注先验知识所提到的位置,去除背景和噪声对动作识别的干扰,依据先验知识自动给输入特征图的不同位置分配不同的注意力;
利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;
混合卷积块表达为:
Xt+1=Xt+W(Xt)
式中,Xt和Xt+1表示第t个MC-RAN模块的输入和输出;Xt和Xt+1具有相同的特征维度,W代表加入注意力机制的混合卷积残差函数。
步骤3)具体为:选取3DResNet网络结构作为基本网络结构,将3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块结构代替,混合卷积块包括MC-RAN模块和加合层;MC-RAN模块包括依次连接的(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层;混合卷积块的输入Xt输入MC-RAN模块,MC-RAN模块输出后的特征图与输入Xt通过加合层进行特征图相加,相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出Xt+1,每个混合卷积块之后级联3D最大池化层进行下采样。
a、第i个尺寸为Ni-1×t×d×d的3D卷积层由Mi个尺寸为Ni-1×1×d×d的第二2D卷积层和Ni个尺寸为Mi×t×1×1的时序卷积层组成,Mi由以下公式计算:
其中,d表示3D卷积层输出特征图的宽高尺寸参数,t表示时刻时序,[]表示向下取整;
b、在第一卷积层conv1处进行空间下采样,步长为1×2×2。对于第三混合卷积块conv3_1,第四混合卷积块conv4_1和第五混合卷积块conv5_1,对其中的(2+1)D卷积的第一2D卷积层和时间卷积层分别进行了时空下采样,步长分别为1×2×2和2×1×1。表1为第一卷积层和混合卷积块的网络结构图。
表1为第一卷积层和混合卷积块的网络层结构。
c、混合卷积块级联图如图5所示,(2+1)D卷积层是由2D卷积层中加入注意力模块组成;(2+1)D卷积层主要由第一2D卷积层、空间注意力模块MSS、时间卷积层和通道注意力模块MCS级联构成。所述注意力模块分别在输入特征图的空间上和通道上施加注意力,由空间注意力模块MSS和通道注意力模块MCS构成了注意力模块。
空间注意力模块MSS通过第三2D卷积核来获取输入特征图在空间维度上的空间权重图WSS;通道注意力模块MCS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图WCS;
所述空间注意力模块MSS的构建具体为:当输入特征图F的大小为C×H×W时,C代表输入特征图中每一帧图像的通道数,H和W代表输入特征图中每一帧图像的宽高尺寸参数;首先,利用全局平均池化对输入特征图中每一帧图像的通道进行压缩,生成一个大小为1×H×W的2D空间描述符Z,Z在坐标(i,j)处的元素计算如下:
其中Fi,j(k)表示在第K个通道在坐标(i,j)的特征图,i表示在H维度的像素点,j表示在W维度的像素点;之后使用大小为7×7的第三2D卷积层对2D空间描述符进行卷积获取到输入特征图中的感兴趣目标区域;最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换,获得空间注意力权重图WSS。
空间注意力权重图WSS可表示为:
WSS(F)=BN(σ(f7×7(Avgpool(F)))
其中,BN()表示批量归一化,σ()表示是sigmoid激活函数,f7×7()表示卷积核大小为7×7的卷积操作,Avgpool()表示全局平均池化,F表示输入特征图。
通道注意力模块MCS的构建具体为:当输入大小为H×W×C的特征图Q时,C代表输入特征图中每一帧图像的通道数。首先,对输入特征图Q进行全局平均池化操作,产生一个大小为1×1×C的特征图Q';随后,使用带有隐藏层的多层感知器FC对通道向量Q'进行处理,以学习通道向量Q'的权重;以权重作为相关性,为了限制通道注意力模块的复杂性和节省参数代价,将隐藏激活层的大小设置为1×1×C/r,其中r是压缩比,设置为16。
通道向量Q'可由如下公式计算:
其中F(i,j)表示在坐标(i,j)的特征图,i表示在H维度的像素点,j表示在W维度的像素点;
最后在多层感知器后增加第四批量归一化层来进行维度转换,获得通道注意力权重图WCS。
通道注意力权重图WCS可表示为:
WCS(F)=BN(MLP(Avgpool(F)))=BN(σ(W1(δ(W0Avgpool(F)+b0)+b1)))
其中,MLP表示带有隐藏层的多层感知器,W0和W1是MLP的权重,大小分别为C/r×C和C×C/r。σ()是sigmoid激活函数,δ()是线性修正单元,b0和b1表示MLP()的偏置项,大小分别为C/r和C。
步骤4:视频帧图像经过第一卷积层和四个混合卷积块后视频帧图像中的时空特征已经融合,混合卷积残差网络模型获取了关键特征,加入注意力模块后特征图可视化如图6所示。将关键特征图输入到Softmax层中进行分类。使用经过训练的网络来评估验证集中的每个视频,并获得相应的类别标签。经过训练后,将提出的混合卷积残差网络模型和不同的网络模型进行对比,实验结果如表2所示,结果表明,混合卷积残差网络模型在不增加参数量的情况下,在Top1和Top5的识别准确率都有所增加。
表2为混合卷积残差网络模型与其他模型的识别结果比较。
网络模型 | 参数量 | Top-1识别率(%) | Top-5识别率(%) | 平均识别率(%) |
ResNet[39] | 63.72M | 60.1 | 81.9 | 71.0 |
(2+1)D-ResNet[12] | 63.88M | 66.8 | 88.1 | 77.45 |
MC-ResNet[28] | 63.88M | 67.3 | 89.2 | 78.25 |
RAN[26] | 63.97M | 61.7 | 83.2 | 72.45 |
(2+1)D-RAN | 63.98M | 67.8 | 89.3 | 78.55 |
MC-RAN | 63.98M | 68.8 | 89.9 | 79.35 |
上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:包括以下步骤:
1)读取动作视频中人的动作,然后将动作视频转换为原始视频帧图像;
2)分别使用时间抽样、随机裁剪和亮度调整的方法对动作视频的视频帧进行数据增强,组成获得视频帧图像;
3)构建注意力模块,利用注意力模块构建混合卷积块,级联混合卷积块构建基于混合卷积的残差网络与注意力结合的混合卷积残差网络模型,用混合卷积残差网络模型对视频帧图像进行时空特征学习,获取关键特征图;
混合卷积块包括MC-RAN模块和加合层;MC-RAN模块包括(2+1)D卷积层、第一批量归一化层、第一ReLU激活层、3D卷积层和第二批量归一化层,所述(2+1)D卷积层是由2D卷积层中加入注意力模块组成;
混合卷积块表达为:
Xt+1=Xt+W(Xt)
其中,Xt和Xt+1表示第t个MC-RAN模块的输入和输出;Xt和Xt+1具有相同的特征维度,W代表加入注意力机制的混合卷积残差函数;
4)使用Softmax分类层对关键特征图进行分类。
2.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述步骤2)具体为:
时间抽样:对于每个动作视频,随机采样16帧动作视频的连续帧进行训练;如果连续帧的帧数达不到16帧,就循环播放该动作视频,直至连续帧的帧数达到16帧;
随机裁剪:将原始视频帧图像的大小调整为128×171像素,然后将原始视频帧图像的大小随机裁剪为112×112像素;
亮度调整:随机调整原始视频帧图像的亮度。
3.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:
所述步骤3)具体为:选取3DResNet网络结构作为基本网络结构,3DResNet网络结构中原有的3D卷积模块由第一卷积层和四个混合卷积块代替;混合卷积块的输入Xt输入MC-RAN模块,MC-RAN模块输出后的特征图与输入Xt通过加合层进行特征图相加,相加后的特征图经第二ReLU激活层处理后的输出作为混合卷积块的输出Xt+1,每个混合卷积块之后级联3D最大池化层进行下采样;
第i个尺寸为Ni-1×t×d×d的3D卷积层由Mi个尺寸为Ni-1×1×d×d的第二2D卷积层和Ni个尺寸为Mi×t×1×1的时序卷积层组成,Mi由以下公式计算:
其中,d表示3D卷积层输出特征图的宽高尺寸参数,t表示时刻时序,[]表示向下取整。
4.根据权利要求3所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:
所述(2+1)D卷积层主要由第一2D卷积层、空间注意力模块MSS、时间卷积层和通道注意力模块MCS级联构成,由空间注意力模块MSS和通道注意力模块MCS构成了注意力模块;
空间注意力模块MSS通过第三2D卷积层来获取输入特征图在空间维度上的空间权重图WSS;通道注意力模块MCS通过添加多层感知器来获取输入特征图在通道维度上的通道权重图WCS;
所述空间注意力模块MSS的构建具体为:当输入特征图F的大小为C×H×W时,C代表输入特征图中每一帧图像的通道数,H和W代表输入特征图中每一帧图像的宽高尺寸参数;首先,利用全局平均池化对输入特征图中每一帧图像的通道进行压缩,生成一个大小为1×H×W的2D空间描述符Z;之后使用第三2D卷积层对2D空间描述符Z进行卷积获取到输入特征图中的感兴趣目标区域;最后在第三2D卷积层添加第三批量归一化层对感兴趣目标区域进行维度变换,获得空间注意力权重图WSS;
空间注意力权重图WSS可表示为:
WSS(F)=BN(σ(f7′7(Avgpool(F)))
其中,BN()表示批量归一化,σ()表示是sigmoid激活函数,f7×7()表示卷积核大小为7×7的卷积操作,Avgpool()表示全局平均池化,F表示输入的特征图;
所述通道注意力模块MCS的构建具体为:当输入特征图Q的大小为C×H×W,C代表输入特征图中每一帧图像的通道数,首先,对输入特征图Q进行全局平均池化操作,产生一个大小为1×1×C的通道向量Q';随后,使用多层感知器对通道向量Q'进行处理,以学习通道向量Q'的权重;
通道向量Q'可由如下公式计算:
其中F(i,j)表示在坐标(i,j)的特征图,i表示在H维度的像素点,j表示在W维度的像素点;
最后在多层感知器后增加第四批量归一化层来进行维度转换,获得通道注意力权重图WCS;
通道注意力权重图WCS可表示为:
WCS(F)=BN(MLP(Avgpool(F)))=BN(σ(W1(δ(W0Avgpool(F)+b0)+b1)))
其中,MLP()表示带有隐藏层的多层感知器,W0和W1是MLP()的权重,大小分别为C/r×C和C×C/r,r是压缩比,δ()是线性修正单元,b0和b1表示MLP()的偏置项,大小分别为C/r和C。
5.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述的步骤4)具体为:视频帧图像经过四个MC-RAN模块后视频帧图像中的时空特征已经融合,混合卷积残差网络模型获取了关键特征,将关键特征图输入到Softmax层中进行分类。
6.根据权利要求1所述的混合卷积的残差网络与注意力结合的动作视频识别方法,其特征在于:所述的输入特征图在第一个MC-RAN模块中的输入特征图是步骤2)中的视频帧图像经过第一卷积层后的输出特征图,在后续的MC-RAN模块中的输入特征图是前一个MC-RAN模块的输出经过3D最大池化层后的输出特征图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010849991.6A CN112149504B (zh) | 2020-08-21 | 2020-08-21 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010849991.6A CN112149504B (zh) | 2020-08-21 | 2020-08-21 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112149504A CN112149504A (zh) | 2020-12-29 |
CN112149504B true CN112149504B (zh) | 2024-03-26 |
Family
ID=73889023
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010849991.6A Active CN112149504B (zh) | 2020-08-21 | 2020-08-21 | 混合卷积的残差网络与注意力结合的动作视频识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112149504B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112766172B (zh) * | 2021-01-21 | 2024-02-02 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
CN112800957A (zh) * | 2021-01-28 | 2021-05-14 | 内蒙古科技大学 | 视频行人重识别方法、装置、电子设备及存储介质 |
CN112818843B (zh) * | 2021-01-29 | 2022-08-26 | 山东大学 | 基于通道注意力导向时间建模的视频行为识别方法及*** |
CN113160117A (zh) * | 2021-02-04 | 2021-07-23 | 成都信息工程大学 | 一种自动驾驶场景下的三维点云目标检测方法 |
CN112883264A (zh) * | 2021-02-09 | 2021-06-01 | 联想(北京)有限公司 | 一种推荐方法及装置 |
CN113128395B (zh) * | 2021-04-16 | 2022-05-20 | 重庆邮电大学 | 基于混合卷积的多级特征融合模型的视频动作识别方法及*** |
CN113343760A (zh) * | 2021-04-29 | 2021-09-03 | 暖屋信息科技(苏州)有限公司 | 一种基于多尺度特征神经网络的人体行为识别方法 |
CN113283338A (zh) * | 2021-05-25 | 2021-08-20 | 湖南大学 | 驾驶员驾驶行为识别方法、装置、设备及可读存储介质 |
CN113288162B (zh) * | 2021-06-03 | 2022-06-28 | 北京航空航天大学 | 基于自适应注意力机制的短时心电信号房颤自动检测*** |
CN113139530B (zh) * | 2021-06-21 | 2021-09-03 | 城云科技(中国)有限公司 | 一种睡岗行为检测方法、装置及其电子设备 |
CN113673559B (zh) * | 2021-07-14 | 2023-08-25 | 南京邮电大学 | 一种基于残差网络的视频人物时空特征提取方法 |
CN113837263B (zh) * | 2021-09-18 | 2023-09-26 | 浙江理工大学 | 基于特征融合注意力模块和特征选择的手势图像分类方法 |
CN113850182A (zh) * | 2021-09-23 | 2021-12-28 | 浙江理工大学 | 基于DAMR_3DNet的动作识别方法 |
CN114037930B (zh) * | 2021-10-18 | 2022-07-12 | 苏州大学 | 基于时空增强网络的视频动作识别方法 |
CN114140654B (zh) * | 2022-01-27 | 2022-04-26 | 苏州浪潮智能科技有限公司 | 图像动作识别方法、装置及电子设备 |
CN114783053A (zh) * | 2022-03-24 | 2022-07-22 | 武汉工程大学 | 基于空间注意力和分组卷积的行为识别方法及*** |
CN114842542B (zh) * | 2022-05-31 | 2023-06-13 | 中国矿业大学 | 基于自适应注意力与时空关联的面部动作单元识别方法及装置 |
CN115035605B (zh) * | 2022-08-10 | 2023-04-07 | 广东履安实业有限公司 | 基于深度学习的动作识别方法、装置、设备及存储介质 |
CN115049969B (zh) * | 2022-08-15 | 2022-12-13 | 山东百盟信息技术有限公司 | 一种改进YOLOv3和BiConvLSTM的不良视频检测方法 |
CN116304984A (zh) * | 2023-03-14 | 2023-06-23 | 烟台大学 | 基于对比学习的多模态意图识别方法及*** |
CN116416479B (zh) * | 2023-06-06 | 2023-08-29 | 江西理工大学南昌校区 | 基于深度卷积融合多尺度图像特征的矿物分类方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110110646A (zh) * | 2019-04-30 | 2019-08-09 | 浙江理工大学 | 一种基于深度学习的手势图像关键帧提取方法 |
CN110245593A (zh) * | 2019-06-03 | 2019-09-17 | 浙江理工大学 | 一种基于图像相似度的手势图像关键帧提取方法 |
CN110457524A (zh) * | 2019-07-12 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法及装置 |
CN110807808A (zh) * | 2019-10-14 | 2020-02-18 | 浙江理工大学 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
-
2020
- 2020-08-21 CN CN202010849991.6A patent/CN112149504B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109886090A (zh) * | 2019-01-07 | 2019-06-14 | 北京大学 | 一种基于多时间尺度卷积神经网络的视频行人再识别方法 |
CN109886225A (zh) * | 2019-02-27 | 2019-06-14 | 浙江理工大学 | 一种基于深度学习的图像手势动作在线检测与识别方法 |
CN110110646A (zh) * | 2019-04-30 | 2019-08-09 | 浙江理工大学 | 一种基于深度学习的手势图像关键帧提取方法 |
CN110245593A (zh) * | 2019-06-03 | 2019-09-17 | 浙江理工大学 | 一种基于图像相似度的手势图像关键帧提取方法 |
CN110457524A (zh) * | 2019-07-12 | 2019-11-15 | 北京奇艺世纪科技有限公司 | 模型生成方法、视频分类方法及装置 |
CN110807808A (zh) * | 2019-10-14 | 2020-02-18 | 浙江理工大学 | 一种基于物理引擎和深度全卷积网络的商品识别方法 |
CN111091045A (zh) * | 2019-10-25 | 2020-05-01 | 重庆邮电大学 | 一种基于时空注意力机制的手语识别方法 |
Non-Patent Citations (3)
Title |
---|
基于肤色分割与改进VGG网络的手语识别;包嘉欣;田秋红;杨慧敏;陈影柔;;计算机***应用(第06期);全文 * |
基于通道注意力机制的视频人体行为识别;解怀奇;乐红兵;;电子技术与软件工程(第04期);全文 * |
多粒度唇语识别技术研究;王晨浩;CNKI;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112149504A (zh) | 2020-12-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112149504B (zh) | 混合卷积的残差网络与注意力结合的动作视频识别方法 | |
Kim et al. | Fully deep blind image quality predictor | |
CN108229338B (zh) | 一种基于深度卷积特征的视频行为识别方法 | |
CN110706302B (zh) | 一种文本合成图像的***及方法 | |
CN112446476A (zh) | 神经网络模型压缩的方法、装置、存储介质和芯片 | |
CN113673307A (zh) | 一种轻量型的视频动作识别方法 | |
CN111860171B (zh) | 一种大规模遥感图像中不规则形状目标的检测方法及*** | |
Liu et al. | Learning human pose models from synthesized data for robust RGB-D action recognition | |
CN110378208B (zh) | 一种基于深度残差网络的行为识别方法 | |
CN113762138B (zh) | 伪造人脸图片的识别方法、装置、计算机设备及存储介质 | |
CN107316004A (zh) | 基于深度学习的空间目标识别方法 | |
CN113870335A (zh) | 一种基于多尺度特征融合的单目深度估计方法 | |
CN112818764A (zh) | 一种基于特征重建模型的低分辨率图像人脸表情识别方法 | |
CN113284051A (zh) | 一种基于频率分解多注意力机制的人脸超分辨方法 | |
CN113920581A (zh) | 一种时空卷积注意力网络用于视频中动作识别的方法 | |
Hongmeng et al. | A detection method for deepfake hard compressed videos based on super-resolution reconstruction using CNN | |
CN113378949A (zh) | 一种基于胶囊网络和混合注意力的双重生成对抗学习方法 | |
CN115147456A (zh) | 一种基于时序自适应卷积与注意力机制的目标跟踪方法 | |
CN112446835B (zh) | 图像恢复方法、图像恢复网络训练方法、装置和存储介质 | |
CN113850182A (zh) | 基于DAMR_3DNet的动作识别方法 | |
CN114519383A (zh) | 一种图像目标检测方法及*** | |
CN111325149B (zh) | 一种基于投票的时序关联模型的视频动作识别方法 | |
CN112818840A (zh) | 无人机在线检测***和方法 | |
Xie et al. | Global semantic-guided network for saliency prediction | |
CN116597144A (zh) | 一种基于事件相机的图像语义分割方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |