CN114648722A

CN114648722A - 一种基于视频多路径时空特征网络的动作识别方法

Info

Publication number: CN114648722A
Application number: CN202210362715.6A
Authority: CN
Inventors: 张海平; 胡泽鹏; 刘旭; 马琮皓; 管力明; 施月玲
Original assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University; School of Information Engineering of Hangzhou Dianzi University
Priority date: 2022-04-07
Filing date: 2022-04-07
Publication date: 2022-06-21
Anticipated expiration: 2042-04-07
Also published as: CN114648722B

Abstract

本发明公开了一种基于视频多路径时空特征网络的动作识别方法，包括：获取待识别的视频，根据帧率从视频中抽取若干张图像并对图像进行预处理；按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像，形成多个图像序列；建立时空特征网络模型，时空特征网络模型包括多个特征提取模块，各图像序列一一对应输入至特征提取模块获取时空特征矩阵；将各特征提取模块输出的时空特征矩阵聚合，输出特征向量；利用分类器对特征向量进行分类检测，以概率最高的类别作为检测结果。该方法能够大幅提升动作视频分类的准确度，并有助于增强网络模型对动作视频的理解，显著提升鲁棒性，从而能够应对现实生活中的复杂场景。

Description

一种基于视频多路径时空特征网络的动作识别方法

技术领域

本发明属于深度学习视频理解领域，具体涉及一种基于视频多路径时空特征网络的动作识别方法。

背景技术

视频市场的快速增长受益于移动互联网和智能数字设备等方面的技术创新。如今，智能移动设备可存储数千个视频，移动应用程序允许用户通过移动互联网方便地访问数百视频网站。因此，视频在许多领域都变得愈发重要。例如，动作识别能够应用于网站每天大量视频的上传审核，用于视频监控危险动作与危险行为，甚至应用在机器人动作技术等领域。然而，传统深度学习方法通常涉及低精度和速度慢的问题，尤其在是处理大量视频场景和复杂动作视频场景时不能满足需求。

在当前的人工智能深度学习方法中，动作分类通常通过两种机制来实现。一种方法是使用双流网络，其中一个流位于RGB帧上，用于提取空间信息，另一个是利用光流作为输入来捕获时间信息。双流模式的光流模块的加入，能大量提升动作识别的精度，然而光流的计算成本十分昂贵。另一种方法是通过3D卷积从多帧RGB图像中学习时空特征。3DCNN能够有效地提取时空信息，但是由于时空信息是一起被提取的，该类型的网络缺乏对时间维度的具体考量，也无法像双流网络中根据光流信息获取具体前后动作差异，在提取特征的过程中很多重要的信息被丢失。因此，如何在3DCNN网络中更好的分离时间信息与空间信息使得它们更明确的表达出各自的特征信息，仍然是一个挑战。具体还是在于对视频片段中的空间和时间信息的提取。空间信息代表单帧场景中的静态信息，例如在视频中动作实体，相关具体的动作形态等信息；时间信息代表在多帧上整合空间信息从而获得动作上下文相关信息。因此，针对这两部分设计出一种有效的深度学习方法去提升动作识别的准确性是很有必要的。

发明内容

本发明的目的在于针对上述问题，提出一种基于视频多路径时空特征网络的动作识别方法，能够大幅提升动作视频分类的准确度，并有助于增强网络模型对动作视频的理解，显著提升鲁棒性，从而能够应对现实生活中的复杂场景。

为实现上述目的，本发明所采取的技术方案为：

本发明提出的一种基于视频多路径时空特征网络的动作识别方法，包括如下步骤：

S1、获取待识别的视频，根据帧率从视频中抽取若干张图像并对图像进行预处理；

S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像，形成多个图像序列；

S3、建立时空特征网络模型，时空特征网络模型包括多个特征提取模块，各图像序列一一对应输入至特征提取模块，特征提取模块执行如下操作：

S31、获取对应图像序列的中间特征X∈R^{N×T×C×H×W}，其中，N为批尺寸，T为视频总帧数，C为图像的通道数，H为图像的高度，W为图像的宽度；

S32、将中间特征X均分为第一特征矩阵X₀和第二特征矩阵X₁，并计算差值X₁-X₀作为差异特征，其中，X₀为中间特征X的前半部分，X₁为中间特征X的后半部分，X₀、X₁∈R^N ^{×(T/2)×C×H×W}；

S33、将差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征；

S34、将空间注意力特征与中间特征X点乘后再与中间特征X相加，获得空间特征图；

S35、将空间特征图输入并行的最大池化层和平均池化层对应获得第一最大池化特征图和第一平均池化特征图；

S36、将第一最大池化特征图和第一平均池化特征图输入第二多层感知机对应获得第二最大池化特征图和第二平均池化特征图；

S37、将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度，再通过卷积层获得融合特征图；

S38、将第二最大池化特征图、第二平均池化特征图和融合特征图分别经过sigmoid层对应获得第一池化信息图、第二池化信息图和第三池化信息图；

S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图，第四池化信息图与空间特征图点乘后再与空间特征图相加，输出时空特征矩阵；

S4、将各特征提取模块输出的时空特征矩阵聚合，输出特征向量；

S5、利用分类器对特征向量进行分类检测，以概率最高的类别作为检测结果。

优选地，步骤S1中，预处理为随机裁剪图像至宽高为[256,320]像素。

优选地，步骤S3中，时空特征网络模型包括2个特征提取模块。

优选地，步骤S37中，将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度，再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作，卷积层为1D卷积层，squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。

优选地，第一多层感知机的缩减系数为r、放大系数为2r，第二多层感知机的缩减系数和放大系数均为r，r＝16。

优选地，步骤S4中，将各特征提取模块输出的时空特征矩阵聚合时，每个时空特征矩阵的权重比为1：1。

与现有技术相比，本发明的有益效果为：

该方法通过将获取的待识别视频抽帧为图像，以不同的采样率获取多个图像序列，作为时空特征网络模型的多层级输入，天然的对获取的图像序列进行了时序建模，将从对应图像序列中提取出的中间特征进行差异性操作，能够在不增加计算量的前提下，大幅度削减视频背景对动作识别准确度的干扰，并能够有效聚合平均池化特征和最大池化特征提取出动作在时间维度的敏感信息，对视频整体进行全局建模，在此过程中，时空特征网络模型的健壮性能够得到持续的增强，从而在聚合各池化信息图时，使每一层特征提取模块输出的时空特征矩阵都能够表征出自有的那一层提取出来的特性，能够大幅提升动作视频分类的准确度；并通过融合多个时空特征矩阵，能够有助于增强网络模型对动作视频的理解，显著提升鲁棒性，从而能够应对现实生活中的复杂场景。

附图说明

图1为本发明动作识别方法的流程图；

图2为本发明动作识别方法的总体架构图；

图3为本发明空间差分模块的结构示意图；

图4为本发明注意力时序模块的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是在于限制本申请。

如图1-4所示，一种基于视频多路径时空特征网络的动作识别方法，包括如下步骤：

S1、获取待识别的视频，根据帧率从视频中抽取若干张图像并对图像进行预处理。从视频(Video)中抽取的图像数量(视频总帧数)为视频每秒帧数(帧率)乘以视频总秒数。

在一实施例中，步骤S1中，预处理为随机裁剪图像至宽高为[256,320]像素。

S2、按照不同的采样率分别从预处理后的若干个图像中抽取不同数量的图像，形成多个图像序列。

其中，设定m个采样率分别为[τ₁,τ₂,...,τ_m]，每个采样率抽取的图像形成一个图像序列(Sample)，其中，m个图像序列的维度分别为

其中，T为视频总帧数，C为图像的通道数，H为图像的高度，W为图像的宽度。

S32、将中间特征X均分为第一特征矩阵X₀和第二特征矩阵X₁，其中，并计算差值X₁-X₀作为差异特征，X₀为中间特征X的前半部分，X₁为中间特征X的后半部分，X₀、X₁∈R^N ^{×(T/2)×C×H×W}；

S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图，第四池化信息图与空间特征图点乘后再与空间特征图相加，输出时空特征矩阵。

在一实施例中，步骤S3中，时空特征网络模型包括2个特征提取模块。

在一实施例中，步骤S37中，将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度，再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作，卷积层为1D卷积层，squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。

在一实施例中，第一多层感知机的缩减系数为r、放大系数为2r，第二多层感知机的缩减系数和放大系数均为r，r＝16。

其中，如图2所示，每个特征提取模块包括依次连接的Backbone框架、空间差分模块(Spatial-Difference Modulation)和注意力时序模块(Temporal-AttentionModulation)，Backbone框架如采用ResNet框架。将第i个图像序列记为F_i，并将{F₁,F₂,...,F_m}中的元素一一对应作为m个特征提取模块的输入，通过Backbone框架获取对应图像序列的中间特征X。本实施例中将m设定为2，N＝32，且批尺寸(Batch_Size)还可根据实际需求调整。具体如下：

如图3所示，空间差分模块包括第一提取单元(Difference operation)、最大池化层(MaxPooling)、第一多层感知机(MLP)和sigmoid层(SIGMOID)、第二提取单元(包括点乘、相加操作)，利用第一提取单元将中间特征X均分为第一特征矩阵X₀和第二特征矩阵X₁，并计算差值X₁-X₀，通过相减操作提取差异特征，可以在不增加计算复杂度的情况下，大大减少动作识别视频背景对于动作识别准确率的干扰。差异特征依次经过最大池化层、第一多层感知机和sigmoid层输出空间注意力特征，通过3D最大池化层有效的提取了前后特征差异性，获得F_max∈R^{N×(T/2r)×1×1×1}。再将F_max∈R^{N×(T/2r)×1×1×1}通过第一多层感知机，其中，第一多层感知机包括依次连接的第一3D卷积层、ReLU层和第二3D卷积层，为了削减参数开销和提升特征提取效果，第一多层感知机将F_max∈R^{N×(T/2r)×1×1×1}先进行缩小后再进行放大，其中，削减系数为r，放大系数为2r，如r＝16，获得F_mlp∈R^{N×T×1×1×1}。将F_mlp输入至sigmoid层获得对应的空间注意力特征。利用第二提取单元将空间注意力特征与中间特征X点乘后再与中间特征X相加获得空间特征图(Spatial Attention)，空间特征图的计算公式如下：

Y＝X+X·(δ(MLP(Max(D(X))))

其中，X为Backbone框架输出的中间特征，D为差异性操作(即X₁-X₀)，Max为最大池化操作，MLP为第一多层感知机操作，δ为sigmoid操作。以上为一个空间差分模块的具体结构与操作，其他各空间差分模块同理，仅对应不同的输出，卷积核大小有所不同，这里不再赘述。

如图4所示，注意力时序模块包括并行的最大池化层(MaxPooling)和平均池化层(AvgPooling)、第二多层感知机(Shared-MLP)、squeeze操作、concat操作(C)、1D卷积层(1DCNN)、unsqueeze操作、三个sigmoid层(sigmoid)和第三提取单元(包括相加、点乘、相加)。其中，利用3D最大池化层对空间特征图进行提取，获得第一最大池化特征图，利用3D平均池化层分别对空间特征图进行提取，获得第一平均池化特征图。利用第二多层感知机对第一最大池化特征图和第一平均池化特征图分别进行提取，对应获得第二最大池化特征图和第二平均池化特征图，第二多层感知机结构与第一多层感知机类似，但缩减系数和放大系数同是r，r＝16。第二最大池化特征图和第二平均池化特征图依次经过squeeze操作、concat操作、1D卷积层和unsqueeze操作获得融合特征图，具体地，将第二最大池化特征图和第二平均池化特征图分别做squeeze操作对应获得F’_max与F’_avg，维度均为R^N×T×1。通过concat操作连接F’_max和F’_avg的第二个维度获得F_ios，F_ios∈R^N×2T×1。再将F_ios通过一个卷积核大小为(3,3)的1D卷积层，进一步增加其平均特征和最大特征的联系。最后应用unsqueeze操作还原其原先维度，获得融合特征图。利用三个sigmoid层一一对应对第二最大池化特征图、第二平均池化特征图和融合特征图进行提取，对应获得第一池化信息图F_temp1∈R^N ^×T×1×1×1、第二池化信息图F_temp2∈R^{N×T×1×1×1}和第三池化信息图F_temp3∈R^{N×T×1×1×1}。将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图，第四池化信息图与空间特征图点乘后再与空间特征图相加，输出时空特征矩阵。其中，各池化信息图及时空特征矩阵的计算公式如下：

F_temp1＝δ(SMLP(Max(X’)))

F_temp2＝δ(SMLP(Avg(X’)))

F_temp3＝δ(unsqueeze(Conv(squeeze([(Avg(X’)，Max(X’)])))))

Y’＝X’+X’·(F_temp1+F_temp2+F_temp3)

其中，Y’为时空特征矩阵，X’为空间特征图，δ为sigmoid操作，SMLP为第二多层感知机操作，Max为最大池化操作，Avg为平均池化操作，Conv为卷积操作，squeeze为squeeze操作，unsqueeze为unsqueeze操作。

该注意力时序模块能够有效的聚合平均池化特征和最大池化特征提取出动作在时间维度的敏感信息。能够显著的改进现有技术中网络对时序建模中的具体动作行为重要特征不敏感的问题，例如，在一段投篮视频中，应该对视频中球与手随着时间变化的位置给予更多关注，而不是像现有技术中的网络错误的聚焦在了运动员的身体部分。需要说明的是，各注意力时序模块执行相似操作，在此不再赘述。

S4、将各特征提取模块输出的时空特征矩阵聚合，输出特征向量。

在一实施例中，步骤S4中，将各特征提取模块输出的时空特征矩阵聚合时，每个时空特征矩阵的权重比为1：1。

其中，各特征提取模块输出的时空特征矩阵的维度是相同的，权重比优选为1：1，对齐进行相加操作(即聚合Fusion)，通过融合多个时空特征矩阵，能够有助于增强网络对动作视频的理解，显著提升鲁棒性，从而应对现实生活中复杂的场景。

S5、利用分类器对特征向量进行分类检测，以概率最高的类别作为检测结果。分类器采用神经网络的线性连接层，输出待识别的视频属于各个类别的概率，取概率最高的那一个类别作为动作视频结果。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请描述较为具体和详细的实施例，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于视频多路径时空特征网络的动作识别方法，其特征在于：所述基于视频多路径时空特征网络的动作识别方法包括如下步骤：

S3、建立时空特征网络模型，所述时空特征网络模型包括多个特征提取模块，各所述图像序列一一对应输入至所述特征提取模块，所述特征提取模块执行如下操作：

S32、将中间特征X均分为第一特征矩阵X₀和第二特征矩阵X₁，并计算差值X₁-X₀作为差异特征，其中，X₀为中间特征X的前半部分，X₁为中间特征X的后半部分，X₀、X₁∈R^{N×(T/2)×C×H×W}；

S39、将第一池化信息图、第二池化信息图和第三池化信息图相加形成第四池化信息图，所述第四池化信息图与空间特征图点乘后再与空间特征图相加，输出时空特征矩阵；

S4、将各所述特征提取模块输出的时空特征矩阵聚合，输出特征向量；

S5、利用分类器对所述特征向量进行分类检测，以概率最高的类别作为检测结果。

2.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法，其特征在于：步骤S1中，所述预处理为随机裁剪图像至宽高为[256,320]像素。

3.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法，其特征在于：步骤S3中，所述时空特征网络模型包括2个特征提取模块。

4.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法，其特征在于：步骤S37中，所述将第二最大池化特征图和第二平均池化特征图通过concat操作连接第二个维度，再通过卷积层获得融合特征图还包括squeeze操作和unsqueeze操作，所述卷积层为1D卷积层，所述squeeze操作、concat操作、1D卷积层和unsqueeze操作依次进行。

5.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法，其特征在于：所述第一多层感知机的缩减系数为r、放大系数为2r，所述第二多层感知机的缩减系数和放大系数均为r，r＝16。

6.如权利要求1所述的基于视频多路径时空特征网络的动作识别方法，其特征在于：步骤S4中，所述将各特征提取模块输出的时空特征矩阵聚合时，每个时空特征矩阵的权重比为1∶1。