CN117253177A

CN117253177A - 一种动作视频分类方法、装置及介质

Info

Publication number: CN117253177A
Application number: CN202311545738.1A
Authority: CN
Inventors: 卢修生; 苏慧; 叶玥; 王瑾; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2023-11-20
Filing date: 2023-11-20
Publication date: 2023-12-19
Anticipated expiration: 2043-11-20
Also published as: CN117253177B

Abstract

本发明公开了一种动作视频分类方法、装置及介质，该方法将输入视频在空间上均匀分块，即令牌token，各块拉伸后得到的向量经过线性映射，得到第一视频特征；将第一视频特征输入编码模块中，得到第二视频特征；编码模块由若干个编码器组成；每个编码器由混合注意力及通道转移模块和多层感知机组成；混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作；混合注意力包括空间注意力、时间注意力和随机注意力；第二视频特征经过空间池化操作后，送入分类器中进行分类，并得到各视频帧的分类结果；然后再使用时域均匀聚合操作，得到输入视频的分类结果。本发明的混合注意力有效降低了注意力机制的运算开销，时间复杂度低。

Description

一种动作视频分类方法、装置及介质

技术领域

本发明涉及视频语义理解与模式识别技术领域，尤其涉及一种动作视频分类方法、装置及介质。

背景技术

作为视频分析领域的核心任务，动作视频分类在人机交互、体育运动、健康看护等场景中有重要应用价值。随着深度学习技术的发展，大量基于深度神经网络的动作视频分类方法得到提出，包括基于卷积神经网络的分类方法和基于Transformer的分类方法。基于卷积神经网络的分类方法可以分为两类：（1）使用3D卷积或者2D卷积和1D卷积的组合直接对视频中的时空信息进行学习，如C3D、P3D等方法，这类方法在场景相关的动作视频中表现良好；（2）利用2D卷积和轻量化地运动建模模块对视频进行处理，如TSM、TEA等方法，这类方法在运动相关的动作视频中取得了不错的效果。但是总体来说，由于卷积神经网络不善于捕捉视频中的长时依赖关系，因此限制了这些方法的分类性能。基于Transformer的分类方法利用注意力机制建模视频中不同时空块的关联关系，如TimeSformer、Swin Transformer等，这些方法通常相对于基于卷积神经网络的分类方法有更强的表达能力，但是也面临时间复杂度高、模型参数量大等困难。

发明内容

本发明的目的在于针对现有技术的不足，提供了一种动作视频分类方法、装置及介质。

本发明的目的是通过以下技术方案实现的：

一种动作视频分类方法，包括以下步骤：

（1）将输入视频在空间上均匀分块，即令牌token，各块拉伸后得到的向量经过线性映射，得到第一视频特征；

（2）将第一视频特征输入编码模块中，得到第二视频特征；所述编码模块由若干个编码器组成；每个所述编码器由混合注意力及通道转移模块和多层感知机组成；所述混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作；所述混合注意力包括空间注意力、时间注意力和随机注意力；

（3）所述第二视频特征经过空间池化操作后，送入分类器中进行分类，并得到各视频帧的分类结果；然后再使用时域均匀聚合操作，得到输入视频的分类结果。

进一步地，所述混合注意力的组合包括以下三种：

所述空间注意力、时间注意力和随机注意力依次串联连接；

所述空间注意力和时间注意力依次串联后，再与随机注意力并联连接；

所述空间注意力、时间注意力和随机注意力并联连接。

进一步地，在进行所述混合注意力操作中，首先将第一视频特征经过线性映射，得到查询向量、键向量和值向量。

进一步地，在所述空间或时间注意力中，首先将查询向量和键向量按照空间或时间维度分组，然后计算对应组之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，分别得到空间或时间注意力的输出视频特征。

进一步地，在所述随机注意力中，首先将键向量按预先设定的比例随机采样token并组成新的键向量，然后计算查询向量与新的键向量之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，得到随机注意力的输出视频特征。

进一步地，所述通道转移操作包括：（1）周期性转移操作；（2）使用周期性转移操作作为初始化的1D按深度卷积操作；

在所述周期性转移操作中，各个头的输入视频特征在时间维度上移动预先设定比例的通道数。

进一步地，所述混合注意力操作和通道转移操作的组合方式：（1）所述空间注意力、时间注意力和随机注意力并联连接，将通道转移操作***到空间注意力操作所在的分支中；（2）混合注意力操作完成并融合后，再进行通道转移操作。

进一步地，所述多层感知机包含两个卷积层进行线性映射，以及一个GELU激活函数。

本发明还提供了一种动作视频分类装置，包括一个或多个处理器，用于实现上述的一种动作视频分类方法。

本发明还提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，用于实现上述的一种动作视频分类方法。

本发明的有益效果是，本发明主要解决基于Transformer网络的动作视频分类任务，针对3D注意力机制运算开销大的问题，本发明公开了一种基于混合注意力和通道转移操作的动作视频分类方法。在混合注意力操作中本发明结合了空间、时间和随机三种注意力机制。其中空间注意力和时间注意力的结合建立了给定token与视频中所有token之间的间接依赖关系；随机注意力则考虑了给定token与部分随机抽取的token之间的直接依赖关系。这使得这三种注意力之间具有互补建模作用。进一步地，鉴于注意力机制主要捕捉长时运动信息，本发明还采用通道转移操作来学习帧间短时运动特征，混合注意力操作和通道转移操作共同构建了对视频中运动信息的多尺度表达，取得了更好地建模效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明混合注意力和通道转移操作编码器的示意图；

图2为本发明混合注意力和通道转移操作Transformer网络的设计图；

图3为空间、时间和随机注意力操作的示意图；

图4为三种注意力操作不同组合方式的示意图；

图5为两种通道转移操作的示意图；

图6为混合注意力操作和通道转移操作不同组合方式的示意图；

图7为本发明的一种硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面结合附图，对本发明进行详细说明。在不冲突的情况下，下述的实施例及实施方式中的特征可以相互组合。

本发明的一种动作视频分类方法，包括以下步骤：

（1）将输入视频在空间上均匀分块，即令牌token，各块拉伸后得到的向量X经过线性映射，得到第一视频特征：

其中，表示映射矩阵，/>表示位置嵌入。

（2）将第一视频特征输入编码模块中，得到第二视频特征；所述编码模块由若干个编码器组成；每个所述编码器由混合注意力及通道转移（Mixed Attention and ChannelShift，MACS）模块和多层感知机（Multi-Layer Perceptron，MLP）组成；所述混合注意力及通道转移模块用于进行混合注意力操作和通道转移操作；所述混合注意力包括空间注意力、时间注意力和随机注意力；

；/>

其中，表示归一化操作，/>表示编码器编号，/>表示第/>个编码器的输出特征，也即第/>个编码器的输入特征。/>表示第/>个编码器中混合注意力操作的输出特征。/>表示第/>个编码器的输出特征。

图1为本发明实施例中的一种编码器的示意图。具体的，在混合注意力操作中，视频特征首先经过卷积操作得到查询向量（query vector，用Q表示），键向量（keyvector，用K表示）和值向量（value vector，用V表示），然后应用空间注意力、时间注意力和随机注意力的组合进行长时运动建模，接着使用通道转移操作进行短时运动建模，再经过卷积层和残差连接后，送入多层感知机MLP得到视频特征/>。其中多层感知机MLP由两层卷积和激活函数GELU组成。

图2为本发明实施例中的混合注意力和通道转移操作Transformer网络示意图。该网络模型基于Visformer作为主干网络，分为三个阶段：（1）阶段1中包含7个块（block），每个块中包含卷积、/>卷积和/>卷积；（2）阶段2中包含4个块，每个块中包含混合注意力和通道转移操作MACS、/>卷积和/>卷积；（3）阶段3中包含4个块，每个块中包含混合注意力和通道转移操作MACS、/>卷积和/>卷积；为了简便起见，在图中省略了嵌入层和预测层。

图3为本发明实施例中的一种空间、时间和随机注意力操作的示意图，⨂表示矩阵乘法。在空间注意力和时间注意力中，查询向量Q和键向量K首先在空间和时间上将token分组，然后计算对应组内token之间的自注意力权重矩阵，通过这种分组方式降低注意力操作的时间复杂度。在随机注意力中，首先从键向量K中随机采样得到一个子集，然后计算查询向量Q和子集中token之间的自注意力权重矩阵。将自注意力权重矩阵经过归一化指数函数Softmax操作后，作用于值向量V得到三种注意力各自的输出视频特征。

在空间或时间注意力中，首先将查询向量和键向量按照空间或时间维度分组，然后计算对应组之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，分别得到空间或时间注意力的输出视频特征。

在随机注意力中，首先将键向量按预先设定的比例（1/4）随机采样token并组成新的键向量，然后计算查询向量与新的键向量之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，得到随机注意力的输出视频特征。

所述通道转移操作包括：（1）周期性转移操作；（2）使用周期性转移操作作为初始化的1D按深度卷积操作。在周期性转移操作中，各个头（head）的输入视频特征在时间维度上移动预先设定比例（1/8）的通道数。

如图4所示，所述空间注意力、时间注意力和随机注意力由以下三种连接方式：

如图4中的（a）所示，Mix-A：空间注意力、时间注意力和随机注意力依次串联连接；

如图4中的（b）所示，Mix-B：空间注意力和时间注意力依次串联后，再与随机注意力并联连接；

如图4中的（c）所示，Mix-C：空间注意力、时间注意力和随机注意力并联连接。

图4中给出了三种注意力操作不同组合方式的示意图，其中⊕表示逐元素加法。以第一个编码器为例，在Mix-A中，第一视频特征按顺序经过空间注意力、时间注意力和随机注意力后得到混合注意力的输出视频特征。在Mix-B中，第一视频特征分别经过空间和时间注意力分支，以及随机注意力分支，将两个分支的结果使用逐元素加法融合后得到混合注意力的输出视频特征。在Mix-C中，第一视频特征分别经过空间注意力分支、时间注意力分支、随机注意力分支，将三个分支的结果使用逐元素加法融合后得到混合注意力的输出视频特征。

在一些实施例中，对比了在Kinetics-400数据集上三种注意力操作不同组合方式的实验结果，其中“”表示串行连接，“/>”表示并行连接。S、T和R分别表示空间、时间和随机注意力。从表1中可以看出Mix-C组合方式超过了Mix-A和Mix-B的分类准确率。进一步地，在Mix-C组合方式的基础上还比较了三个分支在不同权重条件下的加权融合结果，在空间、时间和随机注意力分支的融合权重分别为0.6、0.2和0.2时分类效果最好。本实施例的所有对比实验在Kinetics-400数据集上进行。该数据集是首个大规模动作视频分类数据集，由Deepmind公司从YouTube网站上采集得到。其中包括400个动作类别，每个类别包含至少400个动作视频。数据集中包括了不同的动作大类，比如人与人交互动作（如亲吻）、人与物交互动作（如洗碗）等。

表1：三种注意力操作不同组合方式的实验结果

图5表示了两种通道转移操作，其中，图5中的（a）表示本实施例中的一种周期性转移操作和图5中的（b）表示本实施例中的一种使用周期性转移操作作为初始化的1D按深度卷积操作。其中横轴表示通道维度，纵轴表示时间维度，不同底纹代表了不同头（head）的特征通道。如图5中的（a）所示的周期性转移操作中，各头的特征沿时间维度上移动固定比例的通道，在实验中分别由t时刻分别向t+1和t-1时刻移动1/8的通道，将这种以一种固定移动方式的通道交互称之为“硬”（hard）的通道转移操作。在本发明提出的如图5中的（b）所示的使用周期性转移操作作为初始化的1D按深度卷积操作中，黑色实线表示采用1D按深度卷积操作，黑色虚线表示使用周期性转移操作作为初始化。采用这种初始化有助于1D按深度卷积操作的学习和收敛。在这种情况下，最终能够学习得到一种不固定的，灵活的通道交互方式我们称之为“软”（soft）的通道转移操作。

图6表示了混合注意力操作和通道转移操作不同组合方式，其中⊕表示逐元素加法。以混合注意力操作中Mix-C的连接方式为例，混合注意力操作和通道转移操作包括以下两种组合方式：

如图6中的（a）所示，MACS-A：将通道转移操作***到空间注意力操作所在的分支中；具体的，以第一个编码器为例，第一视频特征分别经过时间注意力分支，空间注意力和通道转移操作分支，随机注意力分支；将该三个分支的结果使用逐元素加法融合后，得到混合注意力和通道转移模块的输出特征。

如图6中的（b）所示，MACS-B：混合注意力操作完成并融合后，再进行通道转移操作；具体的，以第一个编码器为例，第一视频特征分别经过空间注意力分支、时间注意力分支、随机注意力分支，将三个分支的结果使用逐元素加法融合后经过通道转移操作，得到混合注意力和通道转移模块的输出特征。

在一些实施例中，对比了在Kinetics-400数据集上混合注意力操作和通道转移操作不同组合方式的实验结果，其中Periodic Shift代表了周期性转移操作，1D Conv（PSInit）代表了应用周期性转移操作作为初始化的1D按深度卷积操作。从表2中可以得到，结合1D Conv（PS Init）作为通道转移操作的MACS-B结构取得了最好的分类结果。

表2：混合注意力操作和通道转移操作不同组合方式的实验结果

（3）第个编码器输出的视频特征/>，经过空间池化操作，送入分类器中进行分类，并得到各视频帧的分类结果；然后再使用时域均匀聚合操作，得到输入视频的分类结果：

其中，表示编码器的总数量，则第/>个编码器输出的视频特征/>即第二视频特征；/>表示空间池化操作，/>表示全连接层，/>表示视频帧数目。

本发明的方法基于Pytorch框架实现，在训练时，设置总轮数（epochs）为18，初始学习率随批处理大小（batch size）的变化而线性调整，在第10轮和15轮训练时学习率依次降低10倍。在测试时，从视频中采样5个片段（clip），并使用左、中、右三个空间裁剪（crop）,汇报了top-1准确率。top-1准确率是指样本预测结果中概率排名第一的类别与样本实际类别相一致的比例。

表3中显示了在Kinetics-400数据集上本发明所提出的方法与其它方法的结果对比，第一部分包含了基于卷积神经网络的分类方法的结果，包括TSM（Temporal ShiftModule，时域转移模块），TEINet（Temporal Enhancement-and-Interaction Network，时域增强和交互网络），TEA（Temporal Excitation and Aggregation，时域激发和聚合网络）等方法。表中第二部分包含了基于Transformer网络的分类方法的结果，包括TimeSformer（Time-Space Transformer，时空Transformer网络），TokShift（Token ShiftTransformer，令牌转移Transformer网络），VTN（Video Transformer Network，视频Transformer网络）等方法。表中第三部分包含了本发明的MACS方法的结果，其中MACS（H/E）代表了MACS方法对应多种空间分辨率和帧数的输入的不同版本，从图中可以看出，MACS（E）超过了所有基于卷积神经网络的分类方法。而与基于Transformer网络的分类方法相比较，MACS（E）使用功能较弱的主干网络Visformer，并以较低的浮点运算数和参数量，取得了最好的分类表现。

表3：本发明的方法与其它方法的结果对比

与前述的一种动作视频分类方法的实施例相对应，本发明还提供了一种动作视频分类装置的实施例。

参见图7，本发明实施例提供的一种动作视频分类装置，包括一个或多个处理器，用于实现上述实施例中的一种动作视频分类方法。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本发明的一种动作视频分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图7所示，为本发明的一种动作视频分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图7所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种动作视频分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上实施例仅用于说明本发明的设计思想和特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，本发明的保护范围不限于上述实施例。所以，凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰，均在本发明的保护范围之内。

Claims

1.一种动作视频分类方法，其特征在于，包括以下步骤：

（3）将所述第二视频特征经过空间池化操作后，送入分类器中进行分类，并得到各视频帧的分类结果；然后再使用时域均匀聚合操作，得到输入视频的分类结果。

2.如权利要求1所述的一种动作视频分类方法，其特征在于，所述混合注意力的组合包括以下三种：

所述空间注意力、时间注意力和随机注意力依次串联连接；

所述空间注意力、时间注意力和随机注意力并联连接。

3.如权利要求1所述的一种动作视频分类方法，其特征在于，在所述混合注意力操作中，首先将第一视频特征经过线性映射，得到查询向量、键向量和值向量。

4.如权利要求3所述的一种动作视频分类方法，其特征在于，在所述空间或时间注意力中，首先将查询向量和键向量按照空间或时间维度分组，然后计算对应组之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，分别得到空间或时间注意力的输出视频特征。

5.如权利要求3所述的一种动作视频分类方法，其特征在于，在所述随机注意力中，首先将键向量按预先设定的比例随机采样token并组成新的键向量，然后计算查询向量与新的键向量之间的自注意力权重矩阵，并将自注意力权重矩阵作用于值向量，得到随机注意力的输出视频特征。

6.如权利要求1所述的一种动作视频分类方法，其特征在于，所述通道转移操作包括：（1）周期性转移操作；（2）使用周期性转移操作作为初始化的1D按深度卷积操作；

7.如权利要求2所述的一种动作视频分类方法，其特征在于，所述混合注意力操作和通道转移操作的组合方式：（1）所述空间注意力、时间注意力和随机注意力并联连接，将通道转移操作***到空间注意力操作所在的分支中；（2）混合注意力操作完成并融合后，再进行通道转移操作。

8.如权利要求1所述的一种动作视频分类方法，其特征在于，所述多层感知机包含两个卷积层进行线性映射，以及一个GELU激活函数。

9.一种动作视频分类装置，其特征在于，包括一个或多个处理器，用于实现权利要求1-8中任一项所述的一种动作视频分类方法。

10.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时，用于实现权利要求1-8中任一项所述的一种动作视频分类方法。