CN116524596A

CN116524596A - 一种基于动作粒度分组结构的体育视频动作识别方法

Info

Publication number: CN116524596A
Application number: CN202310507915.0A
Authority: CN
Inventors: 葛宏伟; 陈雅童; 李伟东; 刘雨轩; 唐国智; 侯亚庆
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-01

Abstract

本发明属于计算机视觉与视频动作识别领域，公开了一种基于动作粒度分组结构的体育视频动作识别方法，提出了一种基于动作粒度的层次化分组结构，设计了一种轻量级的多尺度时空建模与信息融合机制。步骤如下：视频抽帧，分段随机帧采样，视频帧预处理，选取骨干网络，在骨干网络中***动作粒度分组模块实现多尺度时空特征聚合，使用全连接层和softmax层进行类别预测，使用交叉熵损失对动作类别进行训练，训练及验证。通过使用本发明可有效的提取多粒度动作信息，适用于包含多层次类别的体育视频动作识别，并显著提高体育视频动作识别的精度。本发明作为一种基于动作粒度分组结构的体育视频动作识别方法，可广泛应用于体育视频动作识别领域。

Description

一种基于动作粒度分组结构的体育视频动作识别方法

技术领域

本发明属于计算机视觉与视频动作识别领域，特别涉及一种基于动作粒度分组结构的体育视频动作识别方法。

背景技术

体育视频动作识别技术指的是计算机通过输入多帧体育视频图像，对视频中的运动员动作进行分析和理解，将该动作归类于特定的动作类型。在实际应用中，精确的体育动作识别有助于纠正运动员的动作错误，帮助教练做出正确的决策，并应用于体育直播场景。

由于深度学习方法在视频动作识别任务中的成功应用，视频动作识别的准确性在过去几年中有了显著提高。然而，在体育视频中，运动员的动作变化非常快，且动作分类粒度细。这就需要模型在时间方面能够判断出每个细节动作的起止时间；在语义方面能够在分类粗粒度动作的前提下，在更细的层次上区分动作的子类。在如此复杂的多层次时空上下文中，仅考虑静态信息建模不能达到满意的效果。需要模型对时空动态信息进行有效建模，并准确掌握时间关系。因此，设计有效的结构来捕获时空信息成为体育视频动作识别的一个挑战。本发明主要针对体育视频动作识别任务中时空信息建模的问题，提出一种基于动作粒度分组结构的体育视频动作识别方法。

体育视频动作识别建模方法之一是使用基于2DCNN的建模方法。最初通过构建双流网络来分别提取时间和空间信息。Simonyan等人使用手工制作的光流来构建双流网络(Simonyan K,Zisserman A.Two-stream convolutional networks for actionrecognition in videos[J].Advances in neural information processing systems,2014,27)。Wang等人则提出多路径框架，通过设计多个路径分别捕获通道、运动和时间特征(Wang Z,She Q,Smolic A.Action-net:Multipath excitation for action recognition[C]//Proceedings of the IEEE/CVF conference on computer vision and patternrecognition.2021:13214-13223)。但是，随着流数的增加，多流网络的计算成本成倍增长。还有研究者设计端到端的单流网络，同时提取时间和空间信息。Wang等人将短期和长期时间建模模块串联，在一条路径中完成长短期时间建模(Wang L,Tong Z,Ji B,et al.Tdn:Temporal difference networks for efficient action recognition[C]//Proceedingsof the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:1895-1904)。但这样的做法不能保证短时信息的独立输出，不利于捕捉运动变化信息。为解决这一问题，有研究使用通道分组，每组分别进行特征提取。Hao等人将时空特征沿通道维度分解为若干组，每组从不同角度提取时空特征(Hao Y,Zhang H,Ngo C W,et al.GroupContextualization for Video Recognition[C]//Proceedings of the IEEE/CVFConference on Computer Vision and Pattern Recognition.2022:928-938)。但是这种并行结构不能进行多尺度信息融合，而多尺度时空信息又在体育动作识别中起着重要的作用。

为了更好地建模时间信息，还有研究者使用基于3DCNN的建模方法。Carreira等人提出I3D网络，将2DCNN扩展为3DCNN，其中2DCNN网络是使用ImageNet预训练的网络，因此I3D不需要从零开始训练(CARREIRA J,ZISSERMAN A.Quo Vadis,Action Recognition？ANew Model and the Kinetics Dataset[C]//2017IEEE Conference on Computer Visionand Pattern Recognition,2017)。该网络将RGB流和光流分别输入到3DCNN中，最后得到双流融合的结果。为了降低三维网络的复杂度，P3D将三维核分解为二维空间卷积和一维时间卷积两个独立的操作(QIU Z,YAO T,MEI T.Learning Spatio-Temporal Representationwith Pseudo-3D Residual Networks[C]//2017IEEE International Conference onComputer Vision,2017)。Xie等人在此基础上提出S3D网络，在单个网络中混合二维和三维卷积(XIE S,SUN C,HUANG J,et al.Rethinking Spatiotemporal Feature Learning:Speed-Accuracy Trade-offs in Video Classification[C]//European Conference onComputer Vision,2018)。还有一些研究者将2DCNN和3DCNN结合起来，Action-net将三维卷积特征提取器***到2DCNN中，既保证了时空信息的提取，又避免了三维卷积带来的巨大计算成本(WANG Z,SHE Q,SMOLIC A.Action-net:Multipath excitation for actionrecognition[C]//Proceedings of the IEEE/CVF Conference on Computer Vision andPattern Recognition.2021:13214-13223)。Tran等人提出的CSN通过通道可分离卷积和时空交互来分解三维卷积(TRAN D,WANG H,TORRESANI L,et al.Video Classificationwith Channel-Separated Convolutional Networks[C]//IEEE InternationalConference on Computer Vision,2019)。Feichtenhofer提出X3D网络，该网络沿多个轴(如时间、帧率、空间分辨率、宽度、和深度)逐步扩展二维图像分类体系结构(FEICHTENHOFER C.X3D:Expanding Architectures for Efficient Video Recognition[C]//2020IEEE/CVF Conference on Computer Vision and Pattern Recognition,2020)。

近年来，随着Transformer应用到视觉领域，使用Transformer的建模方法也涌现出来。Transformer非常适合处理有序的数据，因为其内部结构包含时序信息，无需额外输入时间信息即可处理视频中的时序信息。因此，Transformer在视频内容的处理方面具有很高的适用性。Neimark等人最先把Transformer应用于视频动作识别任务中，提出VideoTransformer Network(NEIMARK D,BAR O,ZOHAR M,et al.Video Transformer Network[J].arXiv preprint arXiv:2102.00719,2021.17,23)。该网络首先使用2DCNN从每一帧中提取特征，然后通过Transformer编码器来学习帧与帧之间的时间关系，最后使用MLP分类头来得出分类结果。Bertasius等人提出了一种无卷积的视频动作识别模型TimeSformer(BERTASIUS G,WANG H,TORRESANI L.Is Space-Time Attention All You Need forVideo Understanding？[J].arXiv preprint arXiv:2102.05095,2021)。该模型直接从帧级图像块序列中学习时空特征，在每个块内分别应用时间注意机制和空间注意机制。Arnab等人提出纯Transformer模型用于视频动作识别，并提出了几种沿空间和时间维度分解特征的方法，以提高效率和鲁棒性(WU W,HE D,LIN T,et al.Mvfnet:Multi-view fusionnetwork for efficient video recognition[C]//Proceedings of the AAAIConference on Artificial Intelligence.2021,35(4):2943-2951)。UniFormer在Transformer中集成了三维卷积和时空自注意力，可以同时解决时空信息冗余和时空关系依赖问题(LI K,WANG Y,GAO P,et al.Uniformer:Unified transformer for efficientspatiotemporal representation learning[J].arXiv preprint arXiv:2201.04676,2022)。但是Transformer需要很大的预训练数据量，计算成本很高。

为解决已有方法的计算成本高和多尺度信息融合困难的问题，本发明提出了一种基于动作粒度的分组结构，设计了一种轻量级的多尺度时空建模与信息融合机制。

发明内容

为了解决上述技术问题，本发明的目的是提供一种有效的时空特征建模方法用于体育视频动作识别任务。该方法设计了一种基于动作粒度的分组结构，可以通过四种不同侧重的时空特征提取模块提取不同粒度的动作信息，并利用分层结构将多尺度时空特征融合，同时适用于粗粒度和细粒度的体育动作识别，提升体育视频动作识别的性能。

本发明所采用的技术方案是：

一种基于动作粒度分组的体育视频动作识别方法，包括以下步骤：

步骤1：对FineGym体操数据集的视频数据进行抽帧，存储为固定宽度的若干图像；

使用视频抽帧工具对FineGym体操数据集中的视频数据进行抽帧，将帧宽度统一为256像素，并保存图像；根据视频长度不同，抽取结果包含几十到几百帧不等；将同一视频抽取的视频帧存储到一个文件夹中，并按照时间顺序命名；

步骤2：使用随机采样算法对步骤1中抽取好的视频帧进行随机采样，作为网络输入；

将步骤1中每个视频抽取的视频帧平均分为T段，从每个片段中随机采样1帧作为网络输入，总输入共为T帧，同时输入N个视频；随机采样算法：先算出每段的平均帧数，设为a帧；在采样第i帧时，使用随机函数产生一个范围在[1,a]中的随机整数r_i，并使用下式确定采样帧的位置：

t_i＝(i-1)*a+r_i (1)

其中，t_i表示采样到的第i帧在所有视频帧中的顺序为第t_i帧，a表示每段的平均帧数，r_i表示生成的范围为[1,a]的随机数；

步骤3：对步骤2中抽取的视频帧进行预处理；

对步骤2中抽取好的视频帧应用随机缩放和角点裁剪进行数据增强，并将每帧的高度和宽度都调整为224像素；

随机缩放是随机调整图像的尺寸大小，可以通过以下步骤实现：首先，随机选择一个缩放比例范围，比如[0.8,1.2]，表示缩放比例可以在0.8到1.2之间随机取值；然后，将原始图像按照随机选择的缩放比例进行缩放，得到缩放后的图像；最后，将缩放后的图像按照原始图像的尺寸进行裁剪，得到指定大小的图像。

角点裁剪是从图像的角落裁剪出一个小的正方形区域。可以通过以下步骤实现：首先，随机选择一个裁剪大小范围，比如[0.8,1.0]，表示裁剪大小可以在原图的0.8倍到1.0倍之间随机取值；然后，随机选择一张缩放后的图像，将其按照裁剪大小进行裁剪；具体地，可以从缩放后的图像的左上、左下、右上、右下四个角点中随机选择一个点，作为裁剪区域的起始点；然后，根据选择的裁剪大小，确定裁剪区域的大小，得到裁剪后的图像；最后，将裁剪后的图像按照指定大小进行缩放，得到最终的图像。

步骤4：将步骤3中处理好的视频帧输入卷积神经网络，使用卷积块进行特征提取；

将步骤3中预处理好的视频帧序列输入多层卷积神经网络，该网络由卷积层、批归一化层、ReLU层和最大池化层组成，目的是对视频信息的浅层特征进行提取；其中，卷积层包含64个卷积核，尺寸为7×7，步幅为2，填充为3；批归一化层则对卷积层的输出进行批归一化，使得每个特征图的均值和方差接近于0和1；ReLU激活函数层对归一化后的特征图进行ReLU激活函数操作；最大池化层的尺寸为3×3，步幅为2，对特征图进行最大池化操作，输出特征图的通道数为64。

步骤5：将步骤4中得到的特征图输入连续4阶段动作粒度分组模块，得到融合了多尺度时空信息的高级时空特征。该模块的具体内容为：先使用卷积层调整通道数量，后将特征图的通道平均分为四组，每组使用四种不同侧重的时空特征提取模块。使用残差连接构建层次化的分组结构，再将四组包含不同粒度动作信息的特征进行融合，最后再次使用卷积层将通道数调整到与输入一致的通道数量，并将融合后的特征与输入特征加和，得到高级时空特征；

具体地，将步骤4中得到的特征图输入连续4阶段动作粒度分组模块，每阶段分别包含3，4，6，3个动作粒度分组模块。该模块最先包括一个1×1卷积层，用于调整通道数量。再将输入特征图的通道平均分为4组，每组***1个对应不同动作粒度的时空特征提取模块，利用残差连接聚合为层次化的分组结构，捕获多尺度时空特征并有效融合。动作粒度分组模块由上到下形成动作粒度逐渐变细的层次结构。从上到下的每组输出用于识别从粗粒度动作到细粒度动作的多层次体育动作类型。

首先将调整通道数量后的输入特征设为X，其形状设为[N×T×C×H×W]，其中N表示批次大小，T表示视频帧数量，C表示通道数量，H表示帧图像的高度，W表示帧图像的宽度。之后将X沿通道维度分成四组，分别为X₁，X₂，X₃和X₄。每组的形状都为[N×T×C/4×H×W]。每组代表1个动作粒度级别。关于这4组，第1组保持原有信息，不作额外处理；其余3组进行多尺度时空特征提取，其中第2组的输出与第3组的输入做残差连接处理。以上过程可以表示为：

其中表示第1组到第4组的输出。GTM表示全局时间模块，SMM表示空间运动模块，LTM表示局部时间模块。第1组用于事件类体育动作识别，粒度为最粗。第2组和第3组用于集合类体育动作识别，粒度为次粗。第4组用于元素类体育动作识别，粒度为细。

第1组的输出与其输入保持一致，代表的动作粒度是最粗的。用于识别对静态信息要求高的动作，也是体育运动中最粗粒度的动作，如体操运动中的“高低杠”和“跳马”。

第2组的主要组成部分是全局时间模块(GTM)。本模块着重于提取全局时间信息，识别动作的起止和持续时间。首先将输入X₂沿空间维度池化，然后利用卷积核为3的1维时间卷积来捕获全局时间特征。最后，添加sigmoid激活函数和残差连接。

第3组的核心是空间运动模块(SMM)，用于平均时间信息，关注动作中的空间变化。先通过残差连接与第2组提取到的粗粒度特征融合后，再在时间维度上对信息进行平均。核心运算是3×3的二维卷积。第2组和第3组用于识别时间跨度较大的集合级别体育动作，如跳马中的“上马”和“下马”。

第4组的关键是局部时间模块(LTM)。局部时间模块用于捕获周围位置的局部上下文信息，用于细粒度的动作建模，可以识别细粒度的元素级别体育动作，如单杠中的“回环”和“转体”等动作。其关键部分是卷积核为3×1×1的三维卷积层。

之后，使用简单的拼接策略将多组输出聚合在一起，以适应多层次动作类别的识别：

其中X^o∈R^{N×T×C×H×W}，是不同层次的时空特征的集合。[,]表示拼接操作。

最后，使用1×1卷积层将通道数量调整为原输入大小，并与原输入加和。

步骤6：将步骤5中输出的高级时空特征输入全连接层进行高级时空特征映射，并使用权重函数输出体育视频动作识别分类结果；

将步骤5得到的多尺度时空特征输入多个连续的全连接层，最后映射为与数据集类别数量相等的K个神经元数。之后使用softmax函数将K个实数映射为K个(0,1)的概率，同时保证所有值和为1，具体如下：

其中z_j表示第j个神经元的输出值，K表示神经元的个数，也等于数据集类别数量。表示将K个神经元的输出求和。最后挑选softmax概率值最大的类别作为预测类别的结果。在训练过程中，使用该结果与标签对比，使用交叉熵损失更新参数；在测试过程中，将该结果作为预测结果。

步骤7：使用交叉熵损失进行训练直至收敛；

将步骤6得到的类别概率使用交叉熵损失训练直到网络收敛。p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性，其计算公式如下：

其中，M表示的是样本的个数，K表示的分类的类别个数；y_ij表示第i个样本是否属于第j类，只有两个值，0或者1；p_ij表示的是第i个样本预测为第j类的概率值，取值范围是[0,1]。

步骤8：在FineGym数据集的验证集上验证效果。

使用FineGym测试集进行精度测试。在测试过程中采用中心裁剪，采样一次的评估模式。中心裁剪是指对输入的图像进行裁剪，只保留图像的中心区域，并且保持宽度和高度相同。对于输入的图像大小为256×256的图像，裁剪出中心的224×224区域。采样一次的评估模式是指在模型评估时，只对每个样本采样一次，而不是多次采样取平均值。

最终比较Top-1准确率。Top-1准确率表示模型在预测时，对于每个样本只选择预测概率最高的一类作为预测结果，然后将所有预测正确的样本数除以总样本数得到的准确率。具体地，对于一个分类问题，假设有N个样本，对于每个样本，模型会输出每个类别的预测概率，然后选择预测概率最高的类别作为预测结果。如果预测结果与实际标签一致，则该样本被认为是预测正确的样本。那么，Top-1准确率就是正确预测的样本数除以总样本数。

本发明的有益效果是：本发明提供一种有效的时空特征建模方法用于体育视频动作识别任务，通过设计一种基于动作粒度的分组结构，利用四种不同侧重的时空特征提取模块提取不同粒度的动作信息，并利用分组结构将多尺度时空特征融合，适用于存在多层次类别的体育动作识别，提升体育视频动作识别的性能。

附图说明

图1为本发明所提供的基于动作粒度分组的体育视频动作识别方法的详细网络结构原理图；

图2为本发明所提供的基于动作粒度分组的体育视频动作识别方法流程图；

图3(a)、图3(b)、图3(c)分别为本发明所提供的三种动作粒度时空特征提取模块示意图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步说明，本发明包括但不仅限于下述实施例。

如图1所示，本发明提供了一种基于动作粒度分组的体育视频动作识别方法。如图2所示，其具体实现过程如下：

1、视频抽帧

使用视频处理工具Ffmpeg中的命令′ffmpeg-i\"{}/{}\"-threads 1-vf scale＝-1:256-q:v 0\"{}/{}/％06d.jpg\"′实现对数据集FineGym中视频的自动化抽帧。其中，“ffmpeg-i”表示命令ffmpeg工具处理输入，“\"{}/{}\"”填写需要抽帧的源视频路径，“-threads 1”表示线程数设置为1，“-vf scale＝-1:256”表示指定提取帧宽度为256，“-q:v0”表示采用默认输出质量，“\"{}/{}/％06d.jpg\"”表示指定抽帧图像的存储位置，并指定图像命名格式为6位数字，将图片保存为.jpg格式。此工具通过cmd命令运行，可以设置多线程加快抽取过程。

2、分段随机帧采样

将采样后的视频帧平均分段，分为8或16段，分别对应高效率分段和高精度分段两种策略。再从每个片段中随机采样一帧，作为网络输入，总输入共为8帧或16帧。采样策略采用随机采样策略。具体方法为，先算出每段的平均帧数，设为a帧。在采样第i帧时，使用随机函数产生一个范围在[1,a]中的随机整数r_i，并使用下式确定采样帧的位置：

t_i＝(i-1)*a+r_i (9)

其中t_i表示采样到的是第i帧，a表示每段的平均帧数，r_i表示生成的范围为[1,a]的随机数。

3、视频帧预处理

将抽取好的视频帧应用随机缩放和角点裁剪进行数据增强，并将每帧的高度和宽度都中心裁剪为224像素。

随机缩放是随机调整图像的尺寸大小，具体步骤有：首先，随机选择一个缩放比例范围，比如[0.8,1.2]，表示缩放比例可以在0.8到1.2之间随机取值。然后，将原始图像按照随机选择的缩放比例进行缩放，得到缩放后的图像。最后，将缩放后的图像按照原始图像的尺寸进行裁剪，得到指定大小的图像。

角点裁剪是从图像的角落裁剪出一个小的正方形区域，步骤有：首先，随机选择一个裁剪大小范围，比如[0.8,1.0]，表示裁剪大小可以在原图的0.8倍到1.0倍之间随机取值。然后，随机选择一张缩放后的图像，将其按照裁剪大小进行裁剪。具体地，可以从缩放后的图像的左上、左下、右上、右下四个角点中随机选择一个点，作为裁剪区域的起始点。然后，根据选择的裁剪大小，确定裁剪区域的大小，得到裁剪后的图像。最后，将裁剪后的图像按照指定大小进行缩放，得到最终的图像。

4、输入卷积神经网络

将预处理好的视频帧输入卷积神经网络，用于提取浅层时空特征。该网络由卷积层、批归一化层、ReLU层和最大池化层组成。其中，卷积层包含64个卷积核，尺寸为7×7，步幅为2，填充为3。批归一化层则对卷积层的输出进行批归一化，使得每个特征图的均值和方差接近于0和1。ReLU激活函数层对归一化后的特征图进行ReLU激活函数操作。最大池化层的尺寸为3×3，步幅为2，对特征图进行最大池化操作，输出特征图的通道数为64。其后包含4阶段，每阶段分别包含3，4，6，3个动作粒度分组模块。最后包含一个全连接层，一共50层网络。

5、输入动作粒度分组模块

动作粒度分组模块首先使用一个1×1卷积层将通道数量调整为64。随后将特征图通道平均分为4组，每组***1个对应不同动作粒度的时空特征提取模块，利用残差连接聚合为层次化的分组结构，捕获多尺度时空特征并有效融合。动作粒度分组模块由上到下形成动作粒度逐渐变细的层次结构。从上到下的每组输出用于识别从粗粒度动作到细粒度动作的多层次体育动作类型。

具体地，将输入特征设为X，其形状设为[N×T×C×H×W]，其中N表示批次大小，T表示视频帧数量，C表示通道数量，H表示帧图像的高度，W表示帧图像的宽度。之后将X沿通道维度分成四组，分别为X₁，X₂，X₃和X₄。每组的形状都为[N×T×C/4×H×W]。每组代表1个动作粒度级别。关于这4组，第1组保持原有信息，不作额外处理。其余3组进行多尺度时空特征提取，其中第2组的输出与第3组的输入做残差连接处理。以上过程可以表示为：

其中表示第1组到第4组的输出。GTM表示全局时间模块，SMM表示空间运动模块，LTM表示局部时间模块。第1组用于事件类体育动作识别，粒度为最粗。第2和第3组用于集合类体育动作识别，粒度为次粗。第4组用于元素类体育动作识别，粒度为细。

在4组中，第1组保持原有信息，不作额外处理。其余3组添加特定的特征提取模块，模块结构如图3所示。第2组添加全局时间模块(GTM)，用于提取全局时间信息。首先将输入沿空间维度池化，再利用卷积核为3的一维时间卷积来捕获全局时间特征。最后，添加sigmoid激活函数和残差连接。其具体操作如下：

在公式(14)中，H代表帧图像高度，W代表帧图像宽度。X₂∈R^{N×T×C/4×H×W}，表示将X₂中H维度和W维度中的元素分别求和。/>表示X₂空间池化后的结果。在公式(15)中，Conv₃表示卷积核为3的一维时间卷积，δ表示sigmoid激活函数，/>表示X₂经过全局时间模块(GTM)后的输出特征。在公式(16)中，·表示元素相乘，+表示残差连接，/>表示第2组的输出特征。

第三层是空间运动模块(SMM)，用于平均时间信息，关注动作中的空间运动的影响。先通过残差连接与上层提取到的粗粒度特征融合后，再在时间维度上对信息进行平均，之后使用3×3核的二维卷积进行特征提取，最后同样添加sigmoid激活函数和残差连接。具体操作如下所示：

在公式(17)中，表示第2组的输出特征，X₃表示第3组的输入特征，/>表示与第2层相加后的融合特征，/>在公式(18)中，/>表示将T维度的元素值相加求和，/>表示/>时间池化后的输出。在公式(19)中，Conv_3×3表示3×3核的二维卷积，δ表示sigmoid激活函数，/>表示X₃经过空间运动模块(SMM)后的输出特征。在公式(20)中，·表示元素相乘，+表示残差连接，/>表示第3组的输出特征。

第四层是局部时间模块(LTM)，用于捕获周围位置的局部上下文信息，对细粒度的动作特征精确建模。先通过残差连接与上层提取到的多尺度特征融合后，使用卷积核为3×1×1的三维卷积提取局部时空特征，关注细小动作变化。具体操作可由下式表示：

公式(21)中，Conv_3×1×1表示卷积核为3×1×1的三维卷积，δ表示sigmoid激活函数，表示X₄经过局部时间模块(LTM)后的输出特征。

公式(22)中，·表示元素相乘，+表示残差连接，表示第4组的输出特征。

最后，使用简单的拼接策略将4组输出和/>聚合在一起，以适应多层次动作类别的识别：

6、使用全连接层和softmax层进行类别预测

全连接层作为网络的最后一个线性层，往往对应着分类数，即每个实数都代表着所在类别的权重。所以，先得到的多尺度时空特征输入多个连续的全连接层，在最后一个全连接层映射为与数据集类别数量相等的K个神经元数。在全连接层后，softmax将神经网络的最后一个线性层的数字输出转换为概率，方法是获取每个输出的指数，然后通过这些指数的总和对每个数字进行归一化，因此整个输出向量，即所有概率加起来应该为1。具体如下：

7、使用交叉熵损失对动作类别进行训练

交叉熵损失可在神经网络中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量p与q的相似性，其计算公式如下：

其中，M表示的是样本的个数，K表示的分类的类别个数。y_ij表示第i个样本是否属于第j类，只有两个值，0或者1。p_ij表示的是第i个样本预测为第j类的概率值，取值范围是[0,1]。

使用FineGym数据集进行实验。FineGym是大规模体操动作数据集，动作类别和子动作按事件、集合和元素三个层次组织。在训练过程中，初始学习率设为0.01，每30个轮次学习率衰减0.1，批处理大小为64。总共训练100个轮次。

8、验证

在收敛后，使用验证集进行模型的验证，验证方法采用中心裁剪，采样一次的模式。中心裁剪是指对输入的图像进行裁剪，只保留图像的中心区域，并且保持宽度和高度相同。对于输入的图像大小为256×256的图像，裁剪出中心的224×224区域。采样一次的评估模式是指在模型评估时，只对每个样本采样一次，而不是多次采样取平均值。

最终比较Top-1准确率。Top-1准确率表示模型在预测时，对于每个样本只选择预测概率最高的一类作为预测结果，然后将所有预测正确的样本数除以总样本数得到的准确率。具体地，对于一个分类问题，假设有K个样本，对于每个样本，模型会输出每个类别的预测概率，然后选择预测概率最高的类别作为预测结果。如果预测结果与实际标签一致，则该样本被认为是预测正确的样本。那么，Top-1准确率就是正确预测的样本数除以总样本数。

本发明提出的基于动作粒度分组的体育视频动作识别方法在事件、集合和元素类别上的识别准确率比基线网络提升，达到先进水平。

综上所述，本发明公开了一种基于动作粒度分组的体育视频动作识别方法。本发明设计了一种基于动作粒度的层次化分组结构，可以利用四种不同侧重的时空特征提取模块提取不同粒度的动作信息，并利用层次化分组结构将多尺度时空特征融合，适用于多层次语义类别的体育动作识别。本发明提供了一种有效的时空特征建模方法，提升体育视频动作识别的性能。

首先利用卷积层提取浅层时空特征。其次使用动作粒度分组模块提取有效的多尺度时空特征。动作粒度分组模块可以提取全局时间特征、空间动态特征和局部时空特征，从动作粒度由粗到细的角度，对多尺度的时空特征进行层次化、残差化的融合，以适用于多层次语义类别的体育动作识别。最后使用交叉熵损失训练网络，有效的提高了体育动作识别的准确率。

Claims

1.一种基于动作粒度分组结构的体育视频动作识别方法，其特征在于，步骤如下：

t_i＝(i-1)*a+r_i (1)

步骤3：对步骤2中抽取的视频帧进行预处理；

将步骤3中预处理好的视频帧序列输入到多层卷积神经网络中，卷积神经网络主要由卷积层、批归一化层、ReLU层和最大池化层组成，用于对视频帧的浅层特征进行提取，得到特征图；

步骤5：将步骤4中得到的特征图输入连续4阶段动作粒度分组模块，得到融合了多尺度时空信息的高级时空特征；连续4阶段动作粒度分组模块的具体内容为：先使用卷积层调整特征图的通道数量后，再将特征图的通道平均分为四组，每组使用四种不同侧重的时空特征提取模块；使用残差连接构建层次化的分组结构，再将四组包含不同粒度动作信息的特征进行融合，最后再次使用卷积层将通道数调整到与输入一致的通道数量，并将融合后的特征与输入特征加和，得到高级时空特征；

将步骤5得到的多尺度时空特征输入多个连续的全连接层，最后映射为与数据集类别数量相等的K个神经元数；之后使用softmax函数将K个实数映射为K个(0,1)的类别概率，同时保证所有值和为1，具体如下：

其中，z_j表示第j个神经元的输出值，K表示神经元的个数，也等于数据集类别数量；表示将K个神经元的输出求和；最后挑选softmax概率值最大的类别作为预测类别的结果；在训练过程中，使用该结果与标签对比，使用交叉熵损失更新参数；在测试过程中，将该结果作为预测结果；

步骤7：使用交叉熵损失进行训练直至收敛；

将步骤6得到的类别概率使用交叉熵损失训练直到网络收敛；p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可衡量p与q的相似性，其计算公式如下：

其中，M表示的是样本的个数，K表示的分类的类别个数；y_ij表示第i个样本是否属于第j类，只有两个值，0或者1；p_ij表示的是第i个样本预测为第j类的概率值，取值范围是[0,1]；

步骤8：在FineGym数据集的验证集上验证效果；

使用FineGym测试集进行精度测试；在测试过程中采用中心裁剪，采样一次的评估模式；中心裁剪是指对输入的图像进行裁剪，只保留图像的中心区域，并且保持宽度和高度相同；对于输入的图像大小为256×256的图像，裁剪出中心的224×224区域；采样一次的评估模式是指在模型评估时，只对每个样本采样一次，而不是多次采样取平均值；

最终比较Top-1准确率；Top-1准确率表示模型在预测时，对于每个样本只选择预测概率最高的一类作为预测结果，然后将所有预测正确的样本数除以总样本数得到的准确率；具体地，对于一个分类问题，假设有K个样本，对于每个样本，模型会输出每个类别的预测概率，然后选择预测概率最高的类别作为预测结果；如果预测结果与实际标签一致，则该样本被认为是预测正确的样本；那么，Top-1准确率就是正确预测的样本数除以总样本数。

2.根据权利要求1所述的基于动作粒度分组结构的体育视频动作识别方法，其特征在于，步骤3中，

随机缩放是随机调整图像的尺寸大小，通过以下步骤实现：首先，随机选择一个缩放比例范围；然后，将原始图像按照随机选择的缩放比例进行缩放，得到缩放后的图像；最后，将缩放后的图像按照原始图像的尺寸进行裁剪，得到指定大小的图像；

角点裁剪是从图像的角落裁剪出一个小的正方形区域，通过以下步骤实现：首先，随机选择一个裁剪大小范围；然后，随机选择一张缩放后的图像，将其按照裁剪大小进行裁剪；具体地，从缩放后的图像的左上、左下、右上、右下四个角点中随机选择一个点，作为裁剪区域的起始点；然后，根据选择的裁剪大小，确定裁剪区域的大小，得到裁剪后的图像；最后，将裁剪后的图像按照指定大小进行缩放，得到最终的图像。

3.根据权利要求1所述的基于动作粒度分组结构的体育视频动作识别方法，其特征在于，步骤4中，

卷积神经网络中，卷积层包含64个卷积核，尺寸为7×7，步幅为2，填充为3；批归一化层则对卷积层的输出进行批归一化，使得每个特征图的均值和方差接近于0和1；ReLU激活函数层对归一化后的特征图进行ReLU激活函数操作；最大池化层的尺寸为3×3，步幅为2，对特征图进行最大池化操作，输出特征图的通道数为64。

4.根据权利要求1所述的基于动作粒度分组结构的体育视频动作识别方法，其特征在于，步骤5中，

将步骤4中得到的特征图输入连续4阶段动作粒度分组模块，每阶段分别包含3，4，6，3个动作粒度分组模块；动作粒度分组模块最先包括一个1×1卷积层，用于调整通道数量；再将输入特征图的通道平均分为4组，每组***1个对应不同动作粒度的时空特征提取模块，利用残差连接聚合为层次化的分组结构，捕获多尺度时空特征并有效融合；动作粒度分组模块由上到下形成动作粒度逐渐变细的层次结构；从上到下的每组输出用于识别从粗粒度动作到细粒度动作的多层次体育动作类型；

首先将调整通道数量后的输入特征设为X，其形状设为[N×T×C×H×W]，其中N表示批次大小，T表示视频帧数量，C表示通道数量，H表示帧图像的高度，W表示帧图像的宽度；之后将X沿通道维度分成四组，分别为X₁，X₂，X₃和X₄；每组的形状都为[N×T×C/4×H×W]，每组代表1个动作粒度级别；第1组保持原有信息，不作额外处理；其余3组进行多尺度时空特征提取；其中第2组的输出与第3组的输入做残差连接处理；以上过程表示为：

其中，表示第1组到第4组的输出；GTM表示全局时间模块，SMM表示空间运动模块，LTM表示局部时间模块；第1组用于事件类体育动作识别，粒度为最粗；第2组和第3组用于集合类体育动作识别，粒度为次粗；第4组用于元素类体育动作识别，粒度为细；

第1组的输出与其输入保持一致，代表的动作粒度是最粗的；

第2组的主要组成部分是全局时间模块，其着重于提取全局时间信息，识别动作的起止和持续时间；首先将输入X₂沿空间维度池化，然后利用卷积核为3的1维时间卷积来捕获全局时间特征；最后，添加sigmoid激活函数和残差连接；

第3组的核心是空间运动模块，用于平均时间信息，关注动作中的空间变化；先通过残差连接与第2组提取到的粗粒度特征融合后，再在时间维度上对信息进行平均；核心运算是3×3的二维卷积；第2组和第3组用于识别时间跨度较大的集合级别体育动作；

第4组的关键是局部时间模块，用于捕获周围位置的局部上下文信息，用于细粒度的动作建模，可识别细粒度的元素级别体育动作；其关键部分是卷积核为3×1×1的三维卷积层；

其中，X^o∈R^{N×T×C×H×W}，是不同层次的时空特征的集合；[,]表示拼接操作；