CN115082840A

CN115082840A - 基于数据组合和通道相关性的动作视频分类方法和装置

Info

Publication number: CN115082840A
Application number: CN202210980779.2A
Authority: CN
Inventors: 卢修生; 赵思成; 程乐超; 苏慧; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-20
Anticipated expiration: 2042-08-16
Also published as: CN115082840B

Abstract

本发明公开了基于数据组合和通道相关性的动作视频分类方法和装置，包括以下步骤：步骤S1：从输入视频中提取连续采样视频帧；步骤S2：利用数据组合操作构建融合视频帧；步骤S3：利用所提出的网络模型提取视频深度特征；步骤S4：利用视频深度特征计算通道相关性矩阵；步骤S5：将通道相关性矩阵作用于视频深度特征并进行特征融合，得到融合后特征；步骤S6：所述融合后特征经过全连接层进行分类，再通过均匀融合得到输入视频的分类结果。本发明通过数据组合操作将相邻视频帧信息进行融合，从而巧妙利用视频中的2D空域卷积实现了短时运动建模。此外本发明通过计算各特征通道之间的相关性，实现了各通道之间的信息交互，达到了更好地建模效果。

Description

基于数据组合和通道相关性的动作视频分类方法和装置

技术领域

本发明涉及视频语义理解与模式识别技术领域，尤其涉及一种基于数据组合和通道相关性的动作视频分类方法和装置。

背景技术

在互联网上每天有海量的视频数据产生和上传，这对智能视频分析技术带来了极大需求，比如视频推荐、检索与生成等任务都依赖于对视频内容的语义理解，并在广告、搜索等业务中得到广泛应用。与图像相比视频数据增加了时间维度，这在包含更丰富信息的同时也增大了视频的处理难度。作为视频分析领域的基础任务，动作视频分类吸引了科研人员的广泛关注。由于视频数据自身对存储/计算等资源的高消耗特性，如何在保持较低运算开销的条件下达到更好地分类结果，已经成为动作视频分类领域的研究热点。

对于长时视频而言，采样方法是常用的降低计算开销的技术手段，从原始视频中通常首先利用采样得到有代表性的视频帧，然后通过对采样帧的处理来代替对原始视频的语义建模。比如在TSN、TSM和TEINET等网络中，首先将输入视频均匀分段并从各视频段中随机采样视频帧，然后对采样帧通过2D卷积、1D卷积、时域转移和运动激励等操作进行时空建模，最后将各采样帧的处理结果融合起来得到输入视频的识别结果。相较于C3D、I3D等利用3D卷积直接对原始视频的时空区域进行语义建模的网络模型，这类方法能够高效地对长时视频进行处理，并在一些动作相关数据集上取得了更好的分类效果。但是从时域运动建模的角度来看，这些方法也存在着一些缺点：一方面由于各采样帧之间有较大时间距离从而增大了时域建模的难度，另一方面只对段间长时运动进行建模而忽视了段内运动信息的处理。

为此，我们提出一种基于数据组合和通道相关性的动作视频分类方法和装置以解决上述技术问题。

发明内容

本发明为了解决上述技术问题，提供一种基于数据组合和通道相关性的动作视频分类方法和装置。

本发明采用的技术方案如下：

一种基于数据组合和通道相关性的动作视频分类方法，包括以下步骤：

步骤S1：对输入视频样本在时间维度上进行均匀分段，在每个视频段中随机选取连续三帧，得到各视频段的连续采样视频帧；

步骤S2：利用数据组合操作将所述连续采样视频帧进行组合，得到各视频段的融合视频帧；

步骤S3：将各视频段的所述融合视频帧输入至网络模型中，经过所述网络模型的各卷积层后输出对应的视频深度特征；

步骤S4：在所述网络模型中除首层外的其他卷积层各块中，将所述视频深度特征输入至通道相关性模块中，计算各特征通道之间的相关性，得到通道相关性矩阵；

步骤S5：将所述通道相关性矩阵作为权重矩阵作用于所述视频深度特征，得到加权后特征，并将所述加权后特征与所述视频深度特征进行特征融合操作，得到融合后特征；

步骤S6：将各视频段的所述融合后特征输入至所述网络模型中的全连接层得到各个视频段的预测结果，将各个视频段的预测结果利用均匀融合的方式得到输入视频样本的分类结果，所述网络模型采用交叉熵损失函数进行训练。

进一步地，所述步骤S2中所述数据组合操作包括通道组合方式和灰度组合方式。

进一步地，所述通道组合方式为：将所述连续采样视频帧分别取对应的R、G、B通道并组合成一帧，得到融合视频帧。

进一步地，所述灰度组合方式为：将所述连续采样视频帧转化为三张对应的灰度图作为图像对应的三个通道并组合成一帧，得到融合视频帧。

进一步地，所述步骤S3中所述网络模型的各卷积层中包括2D空域卷积和1D按深度时域卷积，所述融合视频帧输入至所述网络模型中，经过所述2D空域卷积和所述1D按深度时域卷积分别进行空域建模和时域建模，输出对应的视频深度特征。

进一步地，所述步骤S4具体包括以下子步骤：

步骤S41：在所述网络模型中除首层外的其他卷积层各块中，将所述视频深度特征输入至通道相关性模块中；

步骤S42：在所述通道相关性模块中利用2D空域池化操作将所述视频深度特征在空间尺度上降维，得到降维后的视频深度特征；

步骤S43：对降维后的视频深度特征进行外积操作，计算各特征通道之间的相关性，得到通道相关性矩阵。

进一步地，所述步骤S42中将所述视频深度特征在空间维度上降维到1*1。

进一步地，所述网络模型基于ResNet50框架进行扩展。

本发明还提供一种基于数据组合和通道相关性的动作视频分类装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中任一项所述的一种基于数据组合和通道相关性的动作视频分类方法。

本发明还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中任一项所述的一种基于数据组合和通道相关性的动作视频分类方法。

本发明的有益效果是：本发明主要解决基于卷积神经网络的动作视频分类问题。现有的视频分类网络通常仅关注段间运动建模，但忽视了对段内短时运动信息的考虑，从而影响了模型的预测效果。对此，本发明公开了一种基于数据组合和通道相关性的动作视频分类方法和装置，比较了两种数据组合技术，用来对段内相邻视频帧进行数据融合，并将融合后的数据作为模型输入进行处理。一方面在进行段间运动建模时同时考虑段内多帧信息，在一定程度上降低了各视频段采样帧之间的时域建模难度；另一方面因为经过数据组合后输入图像的不同通道中保存了段内相邻帧的信息，从而可以利用深度神经网络中的2D空域卷积进行潜在地段内运动建模，并达到段内和段间运动信息同时考虑的目的。在此基础上，考虑到深度特征各通道包含丰富的视觉语义信息，所提出的方法进一步计算各通道之间的相关性并将其作为权重矩阵作用于视频深度特征，以在通道之间进行信息传播，从而得到了更好的建模效果。

附图说明

图1为本发明一种基于数据组合和通道相关性的动作视频分类方法的流程示意图；

图2为本发明具体方法的流程示意图；

图3为实施例数据组合操作的示意图；

图4为实施例通道相关性模块CCM框架图；

图5为本发明一种基于数据组合和通道相关性的动作视频分类装置的结构示意图。

具体实施方式

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1-图2，一种基于数据组合和通道相关性的动作视频分类方法，包括以下步骤：

对于输入的视频样本Q，将其在时间维度上均匀分段得到视频段集合

，对于第 n个视频段

，随机选取连续3张视频帧

。

所述数据组合操作包括通道组合方式和灰度组合方式；

所述通道组合方式为：将所述连续采样视频帧分别取对应的R、G、B通道并组合成一帧，得到融合视频帧；

通道组合方式表示分别取视频帧

、

和

的R、G、B通道组合成融合视频帧

；

所述灰度组合方式为：将所述连续采样视频帧转化为三张对应的灰度图作为图像对应的三个通道并组合成一帧，得到融合视频帧；

灰度组合方式表示首先将视频帧

、

和

转化为灰度图

、

和

，然后将三张灰度图作为R、G、B通道组合成融合视频帧

。

这样经过数据组合操作，对于第 n个视频段

就得到了融合视频帧

作为网络模型的输入。

所述网络模型的各卷积层中包括2D空域卷积和1D按深度时域卷积，所述融合视频帧输入至所述网络模型中，经过所述2D空域卷积和所述1D按深度时域卷积分别进行空域建模和时域建模，输出对应的视频深度特征；

所述网络模型基于ResNet50框架进行扩展；

相比于3D卷积和(2+1)D卷积，1D按深度时域卷积能够以较低的运算开销进行时域建模，而且没有破坏2D空域卷积的空域建模能力和各通道的视觉语义。

假设

表示所提出的网络模型，那么对于第l层网络，视频段

对应的深度特征为

，输入的视频样本Q对应的深度特征为

。

假设

表示2D池化操作，

、

和

表示不同的重组（Reshape）操作。对于第 l层网络，首先计算深度特征

各通道之间的相关性矩阵W：

将所述视频深度特征在空间维度上降维到1*1，从而降低了通道相关性模块的运算开销；

步骤S43：对降维后的视频深度特征进行外积操作，计算各特征通道之间的相关性，得到通道相关性矩阵；

步骤S5：将所述通道相关性矩阵作为权重矩阵作用于所述视频深度特征，得到加权后特征，以实现各特征通道之间的信息交互与聚合。并将所述加权后特征与所述视频深度特征进行特征融合操作，得到融合后特征，将加权后特征与所述视频深度特征进行融合相当于增加了残差连接，有利于网络训练；

将相关性矩阵作用于所述视频深度特征并进行特征融合操作：

假设

表示全连接层，首先将conv5_x层提取到的各视频段的融合后特征输入全连接层得到各视频段的预测结果，然后将这些预测结果进行平均融合后得到输入的视频样本 Q的识别结果：

假设 K表示样本数目，C示类别数目，采用的交叉熵损失函数表示为：

其中，

表示真实类别标签，

表示预测类别标签。

实施例：本实施例主要解决动作视频的识别问题，这里正式定义有K个视频样本的训练数据集

,

为视频样本，

为视频动作标签。定义网络模型的预测结果为

，其中

为网络参数，

为代表整个网络模型的映射函数。

在实验中，将输入的频样本均匀分为8段，对每个视频段随机采样连续3帧。首先将视频帧短边缩放到256，在训练时从视频帧中随机裁剪224*224大小的区域作为网络模型输入，在测试时则裁剪视频帧中心位置224*224大小的区域作为输入。

每个视频段采样得到的相邻3帧首先经过数据组合操作组合成一帧，作为本视频段的网络输入。在conv1卷积层中，使用卷积核大小（Convolution Kernel Size）为7*7 的2D卷积进行空域建模，其步长（Stride）为 2可以将视频帧下采样到 112*112。在后四层即conv2_x/conv3_x/conv4_x/conv5_x层中分别包含3、4、6、3个块，在每个块中包含2D卷积、1D按深度卷积、通道相关性模块的组合。其中2D卷积和1D卷积的卷积核大小分别为 3*3和 3，联合起来进行时空建模，通道相关性模块利用各通道特征之间的语义相关性，提升模型的表达能力。除此以外，各块中利用1*1卷积实现瓶颈结构以减少运算开销，并使用残差连接来优化模型训练。

参见图3，在通道组合方式中，相邻多帧的R、G、B通道被提取出来重新组合成一帧；在灰度组合方式中，相邻多帧在转化为灰度图后，融合起来组成一帧。与通道组合方式相比，灰度组合方式包含了原始视频帧中更丰富的信息。

图4中描述了所提出的通道相关性模块示意图，图中同时给出了此模块的详细设计与数据的维度变化。对于输入视频特征，在经过2D池化后空间尺度变为1*1，经过外积操作后得到各通道之间的相关性矩阵，并将此矩阵作为权重矩阵作用于视频深度特征。为了有利于网络训练，此模块中还采用了残差连接。

本方法使用Pytorch框架进行实验，使用初始学习率为0.01的随机梯度下降SGD优化器与MultiStepLR调度器。在Something-Something V1数据集上设置训练60个迭代，在第30、45和55次迭代调整学习率。批处理大小为64，视频分段数N=8。conv2_x/conv3_x/conv4_x/conv5_x层中的1D时域卷积使用等价于TSM网络中时域转移操作的方式进行初始化。主干网络的其它部分使用在ImageNet上预训练的ResNet50网络模型进行初始化。

Something-Something V1数据集包含174类人与物体交互动作，108499个动作视频，被划分为训练集、验证集和测试集，在实验中通常在训练集上（包含86017个视频）进行训练，在验证集（包含11522个视频）上进行测试。表1中给出了本发明所提出的方法与目前动作识别方法在Something-Something V1数据集上的分类准确率比较，表中最后三行给出了本方法在三种不同设置下的实验结果，分别包括通道组合方式（RGB-comb）：仅采用RGB数据组合方式；灰度组合方式（Gray-comb）：仅采用Gray数据组合方式；灰度组合方式（Gray-comb）+通道相关性模块（CCM）：同时采用灰度数据组合方式和通道相关性模块。从表中可以看出，在三种设置条件下本方法均取得了最好的分类准确率，灰度组合方式的识别结果优于通道组合方式，且灰度组合方式（Gray-comb）+通道相关性模块（CCM）设置下分类效果最佳。在实验中所比较的方法包括TSN：Temporal Segment Network，时域分割网络；TRN-Multiscale：Multiscale Temporal Relation Network，多尺度时域关系网络；TSM: Temporal Shift Module，时域转移模块；TEINet：Temporal Enhancement-and-Interaction Network，时域增强和交互网络；TSN + (2+1)D: Temporal Segment Network with (2+1)D Convolution，使用(2+1)D卷积操作的时域分割网络；TEA：Temporal Excitation and Aggregation，时域激发和聚合网络。

表1各方法在Something-Something V1数据集上的动作视频分类结果比较

综上所述，从表1的视频分类结果比较中可以看出，与TSN、TSM、TEA等方法只从各视频段中采样一张视频帧相比，本发明从各视频段采样多张连续视频帧，并利用数据组合操作构建融合视频帧，这样一方面使得融合视频帧包含了各视频段中更丰富的视觉信息，另一方面由于融合视频帧的R、G、B通道中分别包含不同帧的信息，因此可以利用所述网络模型中的2D卷积操作进行潜在地短时运动建模，这就使得所述网络模型同时具有了短时和长时运动建模能力。进一步地，本发明利用各特征之间的语义相关性对视频深度特征进行加权，促进了各通道之间的信息传播，提升了模型的表达能力。

与前述一种基于数据组合和通道相关性的动作视频分类方法的实施例相对应，本发明还提供了一种基于数据组合和通道相关性的动作视频分类装置的实施例。参见图5，本发明实施例提供的一种基于数据组合和通道相关性的动作视频分类装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现上述实施例中的一种基于数据组合和通道相关性的动作视频分类方法。

本发明一种基于数据组合和通道相关性的动作视频分类装置的实施例可以应用在任意具备数据处理能力的设备上，该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图5所示，为本发明一种基于数据组合和通道相关性的动作视频分类装置所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本发明实施例还提供一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现上述实施例中的一种基于数据组合和通道相关性的动作视频分类方法。

所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述步骤S2中所述数据组合操作包括通道组合方式和灰度组合方式。

3.如权利要求2所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述通道组合方式为：将所述连续采样视频帧分别取对应的R、G、B通道并组合成一帧，得到融合视频帧。

4.如权利要求2所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述灰度组合方式为：将所述连续采样视频帧转化为三张对应的灰度图作为图像对应的三个通道并组合成一帧，得到融合视频帧。

5.如权利要求1所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述步骤S3中所述网络模型的各卷积层中包括2D空域卷积和1D按深度时域卷积，所述融合视频帧输入至所述网络模型中，经过所述2D空域卷积和所述1D按深度时域卷积分别进行空域建模和时域建模，输出对应的视频深度特征。

6.如权利要求1所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述步骤S4具体包括以下子步骤：

7.如权利要求6所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述步骤S42中将所述视频深度特征在空间维度上降维到1*1。

8.如权利要求1所述的一种基于数据组合和通道相关性的动作视频分类方法，其特征在于，所述网络模型基于ResNet50框架进行扩展。

9.一种基于数据组合和通道相关性的动作视频分类装置，其特征在于，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现权利要求1-8中任一项所述的一种基于数据组合和通道相关性的动作视频分类方法。

10.一种计算机可读存储介质，其特征在于，其上存储有程序，该程序被处理器执行时，实现权利要求1-8中任一项所述的一种基于数据组合和通道相关性的动作视频分类方法。