CN114445732A

CN114445732A - 一种面向视频的时间动作检测方法

Info

Publication number: CN114445732A
Application number: CN202111579663.XA
Authority: CN
Inventors: 甘明刚; 张琰; 陈杰; 胡康; 何玉轩; 苏绍文; 马千兆; 刘晓舟
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2022-05-06

Abstract

本发明提供一种面向视频的时间动作检测方法，解决实际数据中动作实例的持续时间变化很大的问题。本发明采用TAPP方法利用注意机制关注提案的区别性部分，抑制背景对提案特征的影响；然后构造时间金字塔结构，在不丢失时间信息的前提下，将任意长度的提案特征序列转换为多个定长序列，同时设计了一个多尺度时间函数，将其应用到时间金字塔中来生成最终的提案特征，并且基于TAPP方法构建了一个时间动作提案生成模型和一个动作提案分类模型，可以有效的处理不定长时间的时间动作提案，从而更好的完成视频数据中的时间动作检测任务。

Description

一种面向视频的时间动作检测方法

技术领域

本发明属于视频数据处理领域，涉及一种面向视频的时间动作检测方法。

背景技术

时间动作检测是视频理解研究中一项具有挑战性的任务，它要求在未修剪的视频中同时确定目标动作的时间边界和动作类别。

现有的大多数时间动作检测算法被分为两个阶段：提案生成和动作分类。由于实际的数据中动作实例的持续时间变化很大，从一秒到几百秒不等，导致了传统的动作提案生成方法输出的动作提案长短不一，许多提案包含大量的背景信息。研究一种能够有效的将不同时长的动作提案映射到相同特征空间的方法，成为了动作提案生成和分类任务的关键。

发明内容

本发明提供一种面向视频的时间动作检测方法，解决实际数据中动作实例的持续时间变化很大的问题。

本发明通过以下技术方案实现。

一种面向视频的时间动作检测方法，包括：

步骤一、利用双流网络对原始视频提取特征，得到视频特征序列；

步骤二、将所述视频特征序列输入至基于TAPP的生成时间动作提案模型中，预测所述视频特征序列中所有时域位置的开始概率和结束概率，从而预测每个提案的置信度分数和完整性分数；

步骤三、将所述开始概率、结束概率、置信度分数、完整性分数四个值相乘，作为每个提案的最终分数，将所有提案按最终分数从大到小排序，选取前N个最为最终提案；

步骤四、将所述最终提案和步骤一得到的所述视频特征序列输入到基于TAPP的提案分类模型中，得到每个提案的分类分数、完整性分数和边界回归量；

步骤五、将所述每个提案的分类分数相乘作为最终分类分数，并根据所述边界回归量调整提案边界；根据所述最终分类分数确定提案属于哪种动作，调整后的所述提案边界作为动作的开始和结束时间，从而检测出视频中的动作。

本发明的有益效果：

本发明采用TAPP方法，利用注意机制关注提案的区别性部分，抑制背景对提案特征的影响；然后构造时间金字塔结构，在不丢失时间信息的前提下，将任意长度的提案特征序列转换为多个定长序列，同时设计了一个多尺度时间函数，将其应用到时间金字塔中来生成最终的提案特征，并且基于TAPP方法构建了一个时间动作提案生成模型和一个动作提案分类模型，可以有效的处理不定长时间的时间动作提案，从而更好的完成视频数据中的时间动作检测任务。

附图说明

图1为本发明的一种面向视频的时间动作检测方法流程图。

具体实施方式

下面结合附图对本发明做进一步说明。

如图1所示，本具体实施方式的一种面向视频的时间动作检测方法，具体包括以下步骤：

步骤二、将所述视频特征序列输入至基于TAPP(Temporal Attention-PyramidPooling，时态注意金字塔池)的生成时间动作提案模型中，预测所述视频特征序列中所有时域位置的开始概率和结束概率，从而预测每个提案的置信度分数和完整性分数；

现有技术中BMN(Boundary-matching Network)模型是一种端到端时间动作提案生成方法，能够在主流时间动作检测数据集上表现出较好的性能；本实施例中将其作为基本结构并进行进一步改进，将其与TAPP相结合，建立一种新的BMN-TAPP模型，即基于TAPP的生成时间动作提案模型。

因此本实施例中，所述基于TAPP的生成时间动作提案模型包括特征增强模块、时域评估模块、提案评价模块；其中：

所述特征增强模块使用带有两层双向LSTM的残差卷积块对所述视频特征序列进行叠加处理，通过两层双向LSTM得到特征之间的双向语义关系来增强特征；

所述时域评估模块用于预测叠加处理后的视频特征序列中所有时域位置的开始和结束概率；本实施例中，所述时域评估模块包含两个CovNet，每个CovNet均由一维卷积组成；

所述提案评价模块首先利用穷举法生成候选提案，再利用TAPP方法将每一个不同长度的候选提案对应的特征序列片段建模成特征维度相同的提案特征，并根据所述候选提案的长度和起始位置将所述提案特征排列在一个边界匹配特征图中，预测每个所述候选提案的置信度分数和完整性分数。

本实施例中，所述候选提案指初步得到可能包含动作的时间片段，

[1,2],[1,3]…[1,n],[2,3],…[2,n],…[n-1,n],n为视频特征序列的长度。

对于特征增强模块和提案评估模块的实现原理为：使用残差卷积块与两层双向LSTM来处理视频特征序列，利用帧特征之间的双向关系来捕获长期的过去和未来信息。给定输入特征序列Fi∈RT×C,特征增强模块使用由两个卷积层组成的残差模块进一步提取帧的语义信息，然后通过残差卷积模块将特征序列Fu∈RT×Cu输入双层双向LSTM，来自前向和后向LSTM的隐藏状态序列作为最终特征序列集中在信道维上。

步骤三、将所述开始概率、结束概率、置信度分数、完整性分数四个值相乘，作为每个提案的最终分数，将所有提案按最终分数从大到小排序，选取前N个最为最终提案，本实施例中，N选取200；

步骤四、将所述最终提案和步骤一得到的所述视频特征序列输入到基于TAPP的提案分类模型中，

本实施例中，所述基于TAPP的提案分类模型包括特征增强模块、TAPP模块、分类模块；

所述特征增强模块将所述最终提案的边界向两侧进行移动得到扩展提案；本实施例中，所述扩展提案的长度设置为对应最终提案的两倍，用于提高视频特征的质量；

所述TAPP模块分别将所述最终提案和扩展提案对应的特征序列建模成特征向量，输入到所述分类模块中进行分类；

所述分类模块包含两个并行的由两层全连接层子网络，所述最终提案和扩展提案对应的特征分别输入这两个子网络中，输出每个提案的分类分数、完整性分数和边界回归量。本实施例中，所述分类模块采用完整性分类器和动作分类器来预测提案的标签；其中，采用具有softmax操作的全连接层作为动作分类器，采用每个动作类对应的二进制分类器作为完整性分类器。

综上所述，以上仅为本发明的较佳实例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向视频的时间动作检测方法，其特征在于，包括以下步骤：

2.如权利要求1所述的一种面向视频的时间动作检测方法，其特征在于，所述基于TAPP的生成时间动作提案模型包括特征增强模块、时域评估模块、提案评价模块；其中：

所述时域评估模块用于预测叠加处理后的视频特征序列中所有时域位置的开始和结束概率；

3.如权利要求2所述的一种面向视频的时间动作检测方法，其特征在于，所述时域评估模块包含两个CovNet，每个CovNet均由一维卷积组成。

4.如权利要求2或3所述的一种面向视频的时间动作检测方法，其特征在于，所述候选提案指初步得到可能包含动作的时间片段，[1,2],[1,3]…[1,n],[2,3],…[2,n],…[n-1,n],n为视频特征序列的长度。

5.如权利要求1所述的一种面向视频的时间动作检测方法，其特征在于，N选取200。

6.如权利要求1或2或3所述的一种面向视频的时间动作检测方法，其特征在于，所述基于TAPP的提案分类模型包括特征增强模块、TAPP模块、分类模块；

所述特征增强模块将所述最终提案的边界向两侧进行移动得到扩展提案；

所述分类模块包含两个并行的由两层全连接层子网络，所述最终提案和扩展提案对应的特征分别输入这两个子网络中，输出每个提案的分类分数、完整性分数和边界回归量。

7.如权利要求6所述的一种面向视频的时间动作检测方法，其特征在于，所述扩展提案的长度设置为对应最终提案的两倍。

8.如权利要求6或7所述的一种面向视频的时间动作检测方法，其特征在于，所述分类模块采用完整性分类器和动作分类器来预测提案的标签；其中，采用具有softmax操作的全连接层作为动作分类器，采用每个动作类对应的二进制分类器作为完整性分类器。