CN117058595A

CN117058595A - 视频语义特征和可扩展粒度感知时序动作检测方法及装置

Info

Publication number: CN117058595A
Application number: CN202311308053.5A
Authority: CN
Inventors: 高赞; 宋虎远; 马春杰; 赵一博
Original assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Current assignee: Qilu University of Technology; Shandong Institute of Artificial Intelligence
Priority date: 2023-10-11
Filing date: 2023-10-11
Publication date: 2023-11-14
Anticipated expiration: 2043-10-11
Also published as: CN117058595B

Abstract

本发明涉及计算机领域，尤其涉及一种视频语义特征和可扩展粒度感知时序动作检测方法及装置，包括以下步骤：视频特征提取；序列到序列的视频语义特征提取；与可扩展粒度感知特征融合，特征融合包括将来自语义流Video2sequence模块的输出和来自视频流可扩展粒度感知特征金字塔的输出进行拼接；将来自语义流视讯序列Video2sequence模块的输出和来自视频流可扩展粒度感知融合后的特征送入基于Trident‑Head的分类处理。充分利用了视频分类和视频字幕video2caption任务在特征提取层的相似性，并直接利用预先提取的低级特征。

Description

视频语义特征和可扩展粒度感知时序动作检测方法及装置

技术领域

本发明涉及计算机领域，尤其涉及一种视频语义特征和可扩展粒度感知时序动作检测方法及装置。

背景技术

近年来，随着数字媒体的蓬勃发展，视频内容在人们的日常生活中占据了越来越重要的地位。在这个背景下，时序动作检测作为视频内容理解的关键领域之一，正受到学术界和产业界的广泛瞩目。时序动作检测旨在从复杂的时间序列数据中识别和捕捉人类动作或事件的发生，因此被视为计算机视觉领域中充满挑战性的任务之一。在早期的工作中通常使用传统的特征提取的机器学习方法。这些传统的方法常常使用手工设计的传统特征来表示视频帧，然后采用传统机器学习算法进行分类。然而，这些传统方法通常对特征表示的选择较为依赖人工经验，难以捕捉复杂的语义信息，且在处理长序列时存在计算复杂度较高的问题。

近几年随着深度学习技术的发展，深度学习方法在行为识别任务中得到广泛应用。早期的工作主要基于简单的单流网络，单流网络是指直接将视频帧输入到深度神经网络中进行特征提取和分类。然而，单流网络容易出现过拟合问题，对于较长的视频序列，可能会损失部分时序信息，限制了性能的提升。为了综合利用空间信息和语义理解，一些研究工作使用双流网络结构，其中一个流用于空间信息处理，另一个流用于语义理解。然而，一些双流网络结构设计复杂，需要额外的参数调优，且在特征融合方面可能没有充分利用两个流的信息。一些工作依赖于二步处理以改进识别性能，然而这些方法的查全率主要依赖于第一步检测生成的候选范围。TadTR方法提出通过时间自适应机制来提升对视频时序变化的建模能力，然而DTW（动态时间扭曲）对于长序列的计算复杂度较高，可能会导致运算开销较大。AFSD进一步减少了计算量，通过引入注意力机制，对视频帧中的关键信息进行加权，从而选择最重要的特征来表示视频序列。然而对于复杂的视频场景，注意力机制可能并不总能选择到最佳的特征，导致识别性能有所下降。因此，如何更全面地理解输入数据的特征是本领域研究的重点，大语言模型通常在海量的文本数据上进行预训练，因此它具有丰富的语义知识。这种知识可以为视频行为识别任务提供有价值的辅助信息，帮助提高模型的泛化能力和准确性。基于大语言模型语义理解的方法可能是一种很好的解决方案。

发明内容

本发明针对现有技术的不足，研制一种视频语义特征和可扩展粒度感知时序动作检测方法及装置，通过搭建双流网络，结合Tridet模型的 SGP 特征金字塔和基于 BERT 的Video2sequence模块，实现了视频描述特征的提取和融合。这种方法充分利用了视频分类和 video2caption 任务在特征提取层的相似性，并直接利用预先提取的低级特征。

本发明解决技术问题的技术方案为：

第一方面，本发明提供了一种基于视频语义特征和可扩展粒度感知的时序动作检测方法，包括以下步骤：

1）视频特征提取；

将待检测的动作视频，通过预训练的I3D网络对整个视频进行特征提取，获得整个视频的时空特征序列，每个视频会以特征序列来表示并且输入到网络模型中；

2）序列到序列的视频语义特征提取；

201.将步骤1）中的时空特征序列进行序列特征提取归一化操作作为视讯序列Video2sequence和视频语义特征提取模块的输入；

202.Video2sequence和视频语义特征提取模块利用预训练的BERT作为编码器得到视频特征标记，BERT是来自变换器的双向编码器表征量，通过多模态转换编码器将视频的时空特征序列转换为视频语义特征序列；

203.将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑，作为Video2sequence和视频语义特征提取模块的语义流输出；

3）可扩展粒度感知特征金字塔特征提取；

301.将步骤1）中的时空特征序列作为可扩展粒度感知特征金字塔模块的输入；

302.可扩展粒度感知特征金字塔模块利用实例级Instant-level分支增加时序特征的可区分性和窗口级Window-level分支使网络自适应的抽取不同尺度的特征得到视频流输出；

4）视频语义特征与可扩展粒度感知特征融合；

401.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列；

402.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征送入基于三头Trident-Head 的检测头，获得最终的分类结果和定位偏移。

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 201序列到序列的视频语义特征提取的具体过程是：

加载THUMOS数据集，并选择动作分类作为数据标签；

将每个时间窗口的特征提取为序列数据，进一步进行归一化操作：

归一化操作旨在将特征值范围映射到一定范围内，本方法希望将其映射为 [-1,1]；

；

其中是原始特征值， />和 />分别是特征值的最小值和最大值，得到归一化后的特征序列/>；

将经过特征提取和归一化的时间窗口数据按照顺序组成序列，形成输入序列数据；

对多维特征数据进行重塑reshape，将其展平成一维向量并输入 BERT，以此通过序列特征提取归一化得到 BERT 模型的输入。

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 202Video2sequence 模块使用BERT作为编码器,目标是将视频特征序列转换为语义特征序列，具体表示方式如下：

本方法使用来自Swin-BERT的预训练权重作为编码器，Swin-BERT通常用于生成自然语言描述给定视频的视觉内容的任务，需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系，并生成一系列输出语义，该模型可以从提取的视频表示中学习，其中使用VidSwin作为视觉编码器，将原始视频帧编码为视频特征标记，给定尺寸为的原始视帧，由 />帧组成，每个帧具有 />的特征尺寸，将它们输入VidSwin，并从 VidSwin的最后一个编码器块中提取网格特征，VidSwin的网格特征定义为大小 />，其中/>是通道尺寸；然后，沿通道维度对网格特征进行标记，得到总共/>视频标记，每个标记都是一个/>维度的特征向量，将视频标记输入多模态转换编码器中以生成视频语义描述，在此之上，可以使用Swin-BERT将时空特征序列转换为语义特征表示，具体过程本方法描述为：

；

其中，表示得到的视频语义特征序列，BERT表示Swin-BERT模型，表示视频的时空特征序列;

在中，给定输入序列: />，其经过自注意力计算后的输出表示为：

；

其中，、/> 和 />是权重矩阵，/>表示矩阵乘法，/>是缩放因子，/>表示函数，此为输入序列中的每个位置计算出加权的表示，捕捉输入时空特征序列的语义关系，从而实现视频特征序列转换为语义特征序列。

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 203中特征重塑的方法为：将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑，作为Video2sequence和视频语义特征提取模块的语义流输出，准备与来自可扩展粒度感知特征金字塔模块产生的特征进行特征融合；在进行特征融合前，需要对来自语义流的特征进行特征重塑操作，使语义流的特征尺寸与视频流对齐，以确保两个特征序列能够正确地贴合到一起；

使用线性变换对特征进行重塑，表示为：

；

其中，表示重塑后的语义特征，/>是视频语义特征序列，/>是权重矩阵，/>是偏置向量，此操作对视频语义特征进行线性变换，将其映射到新的表示空间。

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 302中可扩展粒度感知特征金字塔特征提取的具体过程是：将视频的时空特征序列通过Instant-level分支和Window-level分支进行特征提取；其中Instant-level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性；Instant-level分支通过全连接层获取的动作和非动作时刻级特征与视频级平均特征进行element-wise相乘，视频级平均特征表示为：

；

其中，表示全连接层，/>是时间维度上所有特征的平均池化，/>表示函数；

Window-level分支的目的是通过分支从更广泛的感受野中引入语义内容，其分支/>有助于动态地聚焦于不同尺度的特征；Window-level分支通过一个卷积尺寸为/>的和窗口尺寸为/>的/>来提取特征，利用分支/>对以上两个卷积的求和结果进行element-wise相乘操作，其中分支/>表示为：

；

其中表示窗口大小为的/>时间维度的1D深度卷积；

将Instant-level分支得到的动作和非动作时刻级特征与视频级平均特征的相乘结果与Window-level分支得到的分支/>和两个卷积求和的相乘结果以及时空特征序列相加求和得到视频流可扩展粒度感知特征，表示为：

；

其中，和/>分别表示全连接层和窗口大小/>为的时间维度的1D深度卷积，/>表示可缩放因子，旨在捕获更大粒度的时间信息。

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 401中特征拼接的方法是，为了将经过特征重塑的语义流视频语义特征与视频流可扩展粒度感知特征/> 进行融合，本方法首先使用CNN卷积神经网络对语义流视频语义特征/>和视频流可扩展粒度感知特征/>进行特征提取，具体过程表示为：

；

其中，表示输出特征图中的位置，/>表示输入特征矩阵中的元素，/>表示卷积核中的对应元素，/>在两次操作中分别表示/>和；之后，本方法使用注意力机制attention mechanism辅助特征融合，它允许网络自动学习不同特征之间的权重，通过点积计算/>和/>之间的相关性得分score：

；

其中，表示特征索引，将得分通过/>函数转化为注意力权重分布，使得权重的总和为1：

；

其中，j 表示0-j的范围，以此将注意力权重赋予每个位置的特征；

最后，使用注意力权重对两组特征进行加权求和，得到最终的融合特征序列，表示为：

；

上述基于视频语义特征和可扩展粒度感知的时序动作检测方法基础上，步骤 402中的 Trident-Head 由三个分支构成︰开始边界分支、结束边界分支以及中间偏移量分支；开始边界分支、结束边界分支分别预测的是每个时刻作为开始边界和结束边界的响应强度；中间偏移量分支的预测的是，以某个实例Instant为参考时，其左右相邻的局部时间集合中每个时刻作为动作起点或者终点的响应强度；给定语义流视频语义特征和视频流可扩展粒度感知特征融合得到的融合特征序列，从三个分支中得到三个特征序列，表示为：

以及/>；

其中和/>分别表示开始边界分支和结束边界分支的预测强度，/>表示中间偏移量的预测强度，/>表示用于边界预测的箱子数；

然后通过在局部窗口内计算期望值，得到每个Instant到边界的预测值，估计第个时刻到动作起点的距离/>，可以通过如下计算:

；

其中，是相对概率，它表示每个瞬间作为箱子集合内动作开始的概率；/>和/>分别表示时刻/>的左相邻集合的特征和仅预测的中心偏移的特征；/>表示第/>个时刻到动作起点的距离；

经过Trident-Head 的检测头得到最终的融合特征，将融合后的特征输入到一个全连接层，最终映射为行为类别的概率分布。

第二方面，本发明提供了一种基于视频语义特征和可扩展粒度感知的时序动作检测装置，包括：

视频特征提取单元，用于对整个视频进行特征提取；

视频语义特征提取单元，包括输入模块、编码器及输出模块，输入模块为特征序列进行序列特征提取归一化操作后的视频语义特征，编码器用于将视频的时空特征序列转换为视频语义特征序列，输出模块为进行特征重塑的视频语义特征序列；

特征融合单元，将输出模块输出和来自视频流 SGP即可扩展粒度感知特征金字塔的输出进行拼接并送入基于 Trident-Head 的分类处理。

第三方面，本发明提供了一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面中任意一种所述的方法。

第四方面，本发明提供了一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如第一方面中任意一种所述的方法。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案具有如下优点或有益效果：

1）模型充分利用空间信息和语义理解通过双流网络的设计，将视频帧的空间信息与语义理解相结合，实现了对视频序列中视觉和语义特征的全面捕捉，这种融合使得模型在行为识别任务中的理解和表达能力得到显著提高。提高了对动作和行为的理解和表达能力。

2）低级特征的高效利用：直接使用了THUMOS数据集中经过I3D模型提取的低级特征作为输入，这样的设计避免了重新计算特征的繁琐过程，从而显著降低了计算成本，使模型更高效地运行。

3）引入 BERT 大语言模型：通过使用 BERT 模型提取视频描述特征，增强了对视频序列的语义理解，使得模型能够更好地从文本描述中理解动作和行为的含义，特征融合将来自两个流的特征进行合并，使得双流网络能够综合利用空间信息和语义信息，从而提高了行为识别任务的准确性和鲁棒性。

4）特征融合提升综合性能：通过将来自两个流的特征进行融合，双流网络在综合利用空间信息和语义信息方面具有显著优势，这种特征融合使得模型能够综合考虑多个信息来源，提高了行为识别任务的准确性和鲁棒性。从而，模型在复杂场景中依然能够准确判断动作和行为。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图 1 为本发明的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1 参考图1，一种基于视频语义特征和可扩展粒度感知的时序动作检测方法，包括以下步骤：

1）视频特征提取；

本实施例中，视频特征向量表示如下：，/>为视频的抽取成帧后视频的时间长度，同时还会获得他的每一帧的动作标签/>，开始的偏移量/>，结束的偏移量/>，以及开始和结束的中间位置/>，此时/>，/>指的是每个视频中动作实例的数量；

2）序列到序列的视频语义特征提取；

201. 将步骤1）中的时空特征序列进行序列特征提取归一化操作作为视讯序列Video2sequence和视频语义特征提取模块的输入，然后进行归一化操作，归一化操作旨在将特征值范围映射到一定范围内，本方法希望将其映射为 [-1, 1]；

；

其中是原始特征值， />和 />分别是特征值的最小值和最大值。得到归一化后的特征序列/> ；

经过特征提取和归一化后的时间窗口数据被组合成输入序列数据，并通过多维特征数据reshape 展平为一维向量，作为 BERT（Bidirectional Encoder Representationsfrom Transformers）模型的输入，BERT是来自变换器的双向编码器表征量。可以有效地提取序列数据中的信息，增强其在 BERT 模型中的表征能力。这种序列构建方式保留了时间信息，有助于更好地捕捉时空模式；

202.利用预训练的 BERT作为编码器，将视频的时空特征序列转换为视频语义特征序列；

使用来自Swin-BERT的预训练权重作为编码器，Swin-BERT通常用于生成自然语言描述给定视频的视觉内容的任务，需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系，并生成一系列输出语义，该模型可以从提取的视频表示中学习。其中使用VidSwin作为视觉编码器，将原始视频帧编码为视频特征标记。给定尺寸为的原始视帧，由 />帧组成，每个帧具有/> 的特征尺寸，H表示长度，W表示宽度。将它们输入 VidSwin，并从 VidSwin的最后一个编码器块中提取网格特征。VidSwin的网格特征定义为大小 />，其中 />是通道尺寸，然后，沿通道维度对网格特征进行标记，得到总共/>视频标记，每个标记都是一个 />维度的特征向量，将视频标记输入多模态转换编码器中以生成视频语义描述。在此之上，可以使用Swin-BERT将时空特征序列转换为语义特征表示，具体过程本方法描述为：

；

其中，是得到的视频语义特征序列，/>表示Swin-BERT模型，是视频的时空特征序列;

；

其中，、/> 和 />是权重矩阵，/>表示矩阵乘法，/>是缩放因子，/>表示归一化函数。此为输入序列中的每个位置计算出加权的表示，捕捉输入时空特征序列的语义关系，从而达成本节目的。

203.将视频语义特征序列进行特征重塑，将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑，作为Video2sequence和视频语义特征提取模块的语义流输出，准备与来自可扩展粒度感知特征金字塔模块产生的特征进行特征融合；在进行特征融合前，需要对来自语义流的特征进行特征重塑操作，使语义流的特征尺寸与视频流对齐，以确保两个特征序列能够正确地贴合到一起；

使用线性变换对特征进行重塑，表示为：

；

其中，是重塑后的语义特征，/>是之前步骤得到的视频语义特征序列，/>是权重矩阵，/>是偏置向量。此操作对视频语义特征进行线性变换，将其映射到新的表示空间。

3）可扩展粒度感知特征金字塔特征提取；

302.可扩展粒度感知特征金字塔模块利用Instant-level分支增加时序特征的可区分性和Window-level分支使网络自适应的抽取不同尺度的特征得到视频流输出；将视频的时空特征序列通过Instant-level分支和Window-level分支进行特征提取；其中Instant-level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性；Instant-level分支通过全连接层获取的动作和非动作时刻级特征时刻级特征与视频级平均特征进行element-wise相乘，视频级平均特征表示为：

；

其中，表示全连接层，/>是时间维度上所有特征的平均池化，/>表示激活函数。

；

其中表示窗口大小为的/>时间维度的1D深度卷积；

；

其中，和/>分别表示全连接层和窗口大小/>为的时间维度的1D深度卷积，/>表示可缩放因子，旨在捕获更大粒度的时间信息;

4）视频语义特征与可扩展粒度感知特征融合；

401.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征进行拼接融合得到用于分类和定位特征序列；为了将经过特征重塑的语义流视频语义特征与视频流可扩展粒度感知特征/> 进行融合，本方法首先使用CNN对语义流视频语义特征/>和视频流可扩展粒度感知特征/>进行特征提取，表示为：

；

其中，是输出特征图中的位置，/>是输入特征矩阵中的元素，/> 是卷积核中的对应元素。/>在两次操作中分别代表/>和/>。之后，本方法使用注意力机制attention mechanism辅助特征融合，它允许网络自动学习不同特征之间的权重。通过点积计算/>和/>之间的相关性得分score：

；

其中，j 表示0-j的范围，以此将注意力权重赋予每个位置的特征。

；

402.将语义流Video2sequence和视频语义特征提取模块产生的特征和来自视频流可扩展粒度感知特征金字塔模块产生的特征送入基于 Trident-Head 的检测头，获得最终的分类结果和定位偏移；Trident-Head 由三个分支构成︰开始边界分支、结束边界分支以及中间偏移量分支。开始边界分支、结束边界分支分别预测的是每个时刻作为开始边界和结束边界的响应强度，而中间偏移量分支的预测的是，以某个Instant为参考时，其左右相邻的局部时间集合中每个时刻作为动作起点或者终点的响应强度。给定语义流视频语义特征和视频流可扩展粒度感知特征融合得到的融合特征序列，从三个分支中得到三个特征序列，表示为：/>以及/>。

其中和/>分别表示开始边界分支和结束边界分支的预测强度，/>表示中间偏移量的预测强度，/>表示用于边界预测的箱子数。

然后我们通过在局部窗口内计算期望值，得到每个Instant到边界的预测值。估计第个时刻到动作起点的距离/>，可以通过如下计算:

；

其中，是相对概率，它表示每个瞬间作为箱子集合内动作开始的概率；和和/>分别表示时刻/>的左相邻集合的特征和仅预测的中心偏移的特征；/>表示第/>个时刻到动作起点的距离。

经过Trident-Head 的检测头得到最终的融合特征，将融合后的特征输入到一个全连接层，最终映射为行为类别的概率分布。充分利用 Trident-Head 的多分支结构，以及不同时间尺度的卷积核处理，有效地捕捉了特征中的全局和局部时间信息，进一步提升了分类的准确性。

为了验证本发明的有效性，在时序动作检测数据集THUMOS14上进行了评测具体结果见表1，其中BMN（Boundary Matching Network）为基于BSN算法改进的时序动作检测BMN算法，DBG（Dense Boundary Generator）为基于密集边界生成器的时序动作检测DBG算法,TCANet（Triple Context-Aware Network）为基于时序动作提名修正网络的时序动作检测TCANet算法, RTD-Net（Relaxed Transformer Decoders Network）为基于松弛变换解码器的直接时序动作检测RTD-Net算法，AFSD（Anchor-Free Saliency-based Detector）为基于学习显著性边界特征的无锚框时序动作检测AFSD算法，TadTR（Temporal actiondetection training）为基于Transformer的端到端时序动作检测TadTR算法，Actionformer为基于Transformer的时序动作定位Actionformer算法，TriDET（Trident-head Detection）为基于相对边界建模的时序动作检测TriDET算法，具体实验设置为：在数据集THUMOS14中，包含101个视频类别，由四个部分组成: 训练、验证、测试和背景集，每个部分包括13320,1010,1574和2500段未剪辑的视频，验证集中的200个视频用于训练，测试集中的213个视频用于测试；在 THUMOS14数据集上，以每秒 10 帧的速度对 RGB 流和光流的视频进行编码，在训练过程中，时间步长为32，输入嵌入大小是 2304，使用 Adam 训练30 个 epoch，前 5个 epoch的学习率为0.001，最后25 个epoch 的学习率为0.0001，权重衰减为0.001，批大小设置为2，Soft-NMS 阈值设置为0.5。

表1 本发明提出方法与其他方法在 THUMOS14 数据集上的比较

从表1可以看出，本发明提出的基于视频语义特征和可扩展粒度感知的时序动作检测方法具有较好的检测性能。

实施例2一种基于视频语义特征和可扩展粒度感知的时序动作检测装置，包括：

视频特征提取单元，用于对整个视频进行特征提取；

实施例3一种服务器，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如实施例1任一所述的方法。

实施例4 一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如实施例1中任一所述的方法。其中，所述计算机可读存储介质是指存储数据的载体，可以但不限于包括软盘、光盘、硬盘、闪存、优盘等，所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。

上述虽然结合附图对发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，包括以下步骤：

1）视频特征提取；

2）序列到序列的视频语义特征提取；

3）可扩展粒度感知特征金字塔特征提取；

4）视频语义特征与可扩展粒度感知特征融合；

2.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 201 序列到序列的视频语义特征提取的具体过程是：

加载THUMOS数据集，并选择动作分类作为数据标签；

归一化操作旨在将特征值范围映射到一定范围内，本方法希望将其映射为 [-1, 1]；

;

其中是原始特征值， />和 />分别是特征值的最小值和最大值，得到归一化后的特征序列/> ；

3.根据权利要求1所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 202 Video2sequence 模块使用 BERT 作为编码器,目标是将视频特征序列转换为语义特征序列，具体表示方式如下：

本方法使用来自Swin-BERT的预训练权重作为编码器，Swin-BERT通常用于生成自然语言描述给定视频的视觉内容的任务，需要模型理解和建模视频中的时空动态以及视觉和文本元素之间的关系，并生成一系列输出语义，该模型可以从提取的视频表示中学习，其中使用VidSwin作为视觉编码器，将原始视频帧编码为视频特征标记，给定尺寸为的原始视帧，由 /> 帧组成，每个帧具有 />的特征尺寸，将它们输入 VidSwin，并从 VidSwin的最后一个编码器块中提取网格特征，VidSwin的网格特征定义为大小 />，其中/>是通道尺寸；然后，沿通道维度对网格特征进行标记，得到总共/>视频标记，每个标记都是一个/>维度的特征向量，将视频标记输入多模态转换编码器中以生成视频语义描述，在此之上，可以使用Swin-BERT将时空特征序列转换为语义特征表示，具体过程本方法描述为：

;

4.根据权利要求 1 所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 203 中特征重塑的方法为：将Video2sequence和视频语义特征提取模块产生的视频语义特征序列进行特征重塑，作为Video2sequence和视频语义特征提取模块的语义流输出，准备与来自可扩展粒度感知特征金字塔模块产生的特征进行特征融合；在进行特征融合前，需要对来自语义流的特征进行特征重塑操作，使语义流的特征尺寸与视频流对齐，以确保两个特征序列能够正确地贴合到一起；

使用线性变换对特征进行重塑，表示为：

;

5.根据权利要求 1 所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 302中可扩展粒度感知特征金字塔特征提取的具体过程是：将视频的时空特征序列通过Instant-level分支和Window-level分支进行特征提取；其中Instant-level分支的目标是通过扩大动作和非动作时刻级特征与视频级平均特征的特征距离来提高动作和非动作时刻级特征的可辨别性；Instant-level分支通过全连接层获取的动作和非动作时刻级特征与视频级平均特征进行element-wise相乘，视频级平均特征表示为：

;

其中，表示全连接层，/> 是时间维度上所有特征的平均池化，/> 表示函数；

Window-level分支的目的是通过分支从更广泛的感受野中引入语义内容，其分支有助于动态地聚焦于不同尺度的特征；Window-level分支通过一个卷积尺寸为/>的和窗口尺寸为/>的/>来提取特征，利用分支/>对以上两个卷积的求和结果进行element-wise相乘操作，其中分支/>表示为：

;

其中表示窗口大小为的/>时间维度的1D深度卷积；

;

6.根据权利要求 1 所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 401 中特征拼接的方法是，为了将经过特征重塑的语义流视频语义特征与视频流可扩展粒度感知特征 /> 进行融合，本方法首先使用CNN卷积神经网络对语义流视频语义特征/>和视频流可扩展粒度感知特征/>进行特征提取，具体过程表示为：

;

其中，表示输出特征图中的位置，/>表示输入特征矩阵中的元素，/>表示卷积核中的对应元素，/>在两次操作中分别表示/>和/>；之后，本方法使用注意力机制attention mechanism辅助特征融合，它允许网络自动学习不同特征之间的权重，通过点积计算/>和/>之间的相关性得分score：

;

。

7.根据权利要求 1 所述基于视频语义特征和可扩展粒度感知的时序动作检测方法，其特征在于，步骤 402 中的 Trident-Head 由三个分支构成︰开始边界分支、结束边界分支以及中间偏移量分支；开始边界分支、结束边界分支分别预测的是每个时刻作为开始边界和结束边界的响应强度；中间偏移量分支的预测的是，以某个实例Instant为参考时，其左右相邻的局部时间集合中每个时刻作为动作起点或者终点的响应强度；给定语义流视频语义特征和视频流可扩展粒度感知特征融合得到的融合特征序列，从三个分支中得到三个特征序列，表示为：/>以及/>；

；

8.一种基于视频语义特征和可扩展粒度感知的时序动作检测装置，其特征在于，包括：

视频特征提取单元，用于对整个视频进行特征提取；

特征融合单元，将输出模块输出和来自视频流 SGP即可扩展粒度感知特征金字塔的输出进行拼接并送入基于Trident-Head的分类处理。

9.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5任一所述的方法。

10.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。