CN111652083A

CN111652083A - 一种基于自适应采样的弱监督时序动作检测方法及***

Info

Publication number: CN111652083A
Application number: CN202010403823.4A
Authority: CN
Inventors: 张娅; 鞠陈; 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Shanghai Jiaotong University
Priority date: 2020-05-13
Filing date: 2020-05-13
Publication date: 2020-09-11
Anticipated expiration: 2040-05-13
Also published as: CN111652083B

Abstract

本发明提供了一种基于自适应采样的弱监督时序动作检测方法及***，包括：根据输入的视频提取视频特征图；将视频特征图映射成均匀分布类别激活序列；根据均匀分布类别激活序列产生伯努利数列作为自适应重采样位置索引；对视频特征图进行特征重采样；将视频重采样特征图映射成非均匀分布类别激活序列；对均匀和非均匀分布类别激活序列使用分类网络预测视频为各个类别的概率；对非均匀分布类别激活序列进行分布均匀化，从而和均匀分布类别激活序列在时间分布上对齐；选择对齐后的均匀或非均匀分布类别激活序列使用阈值法得到视频的检测结果。本发明对输入视频提取两种相互补充、互相监督的类别激活映射序列，实现更精确的弱监督的视频时序动作检测。

Description

一种基于自适应采样的弱监督时序动作检测方法及***

技术领域

本发明涉及计算机视觉和图像处理领域，具体地，涉及一种基于自适应采样的弱监督时序动作检测方法及***，更为具体地，涉及一种基于自适应采样策略的弱监督视频时序动作检测与类别预测的方法及***。

背景技术

近年来，随着移动通信和短视频的快速发展，视频分析理解技术受到越来越多的关注。作为视频分析问题的核心，时间维度上的动作检测任务正在被广泛地研究。

全监督的时间动作检测，其设定是给定一系列原始长视频，每个视频都有视频中包含的动作类别以及帧级位置标注，要求模型检测出其中所有的动作类别以及动作发生的始末时间。尽管全监督的时间动作检测已经取得了优异的性能，但考虑到它需要精确的帧级动作位置标注，极为耗时耗力，因此并不能快速适用于实际生活。而弱监督的时间动作检测，仅仅需要给定视频中包含的动作类别，模型即可预测其中存在的动作类别以及动作发生的始末时间位置。也就是在没有精确的位置标注的情况下，也能检测视频中的动作实例的位置。

随着深度神经网络和多实例学习在弱监督领域逐渐发展，很多弱监督视频时序动作检测方法都开始通过视频分类网络生成类别激活映射序列，并将其作为位置线索，生成相应的检测结果。但是分类任务和检测任务在优化目标上存在固有矛盾，即分类任务仅关注少数的显著视频帧，而检测任务需要检测出所有包含动作的帧。所以单纯使用分类模型处理弱监督时序动作检测任务效果不够理想。

专利文献CN110516536A申请号(201910630472.8)，公开了一种基于时序类别激活图互补的弱监督视频行为检测方法，其利用擦除法对视频分类网络产生的类别激活序列去除显著视频帧，然后将剩下的不显著视频帧再次输入分类网络得到新的互补类别激活序列，最后结合这两个类别激活序列得到更完整的位置信息。但上述专利未考虑特征分布受噪声影响产生的非均匀分布的情况，没有考虑引入位置伪标签指导模型同时完成分类和检测两个任务，并且无法端到端进行训练，会无法避免地引入错误的背景误激活，对弱监督视频时序动作检测的性能提升有限。

针对现有技术中的缺陷，本发明的目的是提供一种基于自适应采样策略的弱监督视频时序动作检测与类别预测的方法及***，依据仅有动作类别标签的原始长视频，训练能够精确检测视频中动作实例的始末时间位置，并对检测出的动作进行准确分类的弱监督模型。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于自适应采样的弱监督时序动作检测方法及***。

根据本发明提供的一种基于自适应采样的弱监督时序动作检测方法，包括：

视频特征图提取步骤：对输入的视频，使用3D深度卷积神经网络提取预设维度的视频特征图；

均匀分布类别激活序列步骤：使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列；

自适应采样步骤：对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列，并基于采样概率序列在视频特征图上产生伯努利数列，伯努利数列作为自适应重采样位置索引；

重采样特征结合步骤：使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样，得到视频重采样特征图；

非均匀分布类别激活序列步骤：使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列；

类别预测步骤：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率；

时间分布对齐步骤：对非均匀分布类别激活序列在时间维度上进行分布均匀化，从而和均匀分布类别激活序列在时间分布上对齐；

类别激活序列相互监督步骤：将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签，使用欧式距离作为损失函数为弱监督时序动作检测提供显式的位置监督信息；

检测结果生成步骤：选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列，使用阈值法得到视频中包含的动作位置的检测结果。

优选地，所述均匀分布类别激活序列步骤包括：

利用卷积层和全连接层构成的神经网络模型，将视频特征图映射为维度是T*V的均匀分布类别激活序列，其中，T表示输入视频的时间长度，V表示视频数据集中所有动作类别数量。

优选地，所述自适应采样步骤包括：对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

其中，W是自适应采样概率序列，M是均匀分布类别激活序列，η是权重调节因子，max(·)是时间维度上的最大值，min(·)是时间维度上的最小值；

基于自适应采样概率序列，产生一个伯努利数列b_i作为自适应重采样位置索引：

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T (2)

其中，T表示输入视频的时间长度，i表示时间维度的索引，w_i表示自适应采样概率序列在i位置上的值，b_i表示伯努利数列在i位置上的采样，P(b_i＝k)表示随机事件b_i＝k发生的概率，二值k表示是否采样。

优选地，所述重采样特征结合步骤包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

对自适应重采样位置索引b_i和对应位置的视频特征向量x_i对应位置作乘法，得到的结果f_i，公式如下：

f_i＝x_i·b_i (3)

其中，x_i为视频特征图在i时间位置上的向量，b_i为i时间位置的自适应重采样位置索引，f_i为重采样特征图在i位置上的向量。

优选地，所述非均匀分布类别激活序列步骤包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示数据集中所有动作类别数量。

优选地，所述时间分布对齐步骤包括：

时间分布对齐步骤M1：获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

时间分布对齐步骤M2：依据最近邻上下界的值进行线性插值，从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列：

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置，M表示非均匀分布的类别激活序列值，I表示以

和

为边界来获取t_i处的值的线性插值函数，K_i表示非均匀类别激活序列经过均匀化变换后的结果。

优选地，所述类别激活序列相互监督步骤包括：

将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签，使用欧式距离构建位置损失函数，为弱监督时序动作检测模型提供显式的位置监督，公式如下：

其中，θ_E是特征提取网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，X_s代表输入视频的分布，x_i代表视频实例，f_i代表重采样视频特征，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，A代表时间分布对齐函数。

优选地，所述类别预测步骤包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数收敛；

所述损失函数，计算公式如下：

其中，θ_E是特征提取网络的参数，θ_C是类别预测网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，(X_s，Y_s)代表视频和标签的分布，x_i代表视频实例，y_i是视频类别标签，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，C代表类别预测网络，H代表交叉熵函数。

根据本发明提供的一种基于自适应采样的弱监督时序动作检测***，包括：

类别激活序列相互监督步骤：将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签，使用欧式距离作为损失函数为弱监督时序动作检测模供显式的位置监督信息；

优选地，所述均匀分布类别激活序列步骤包括：

利用卷积层和全连接层构成的神经网络模型，将视频特征图映射为维度是T*V的均匀分布类别激活序列，其中，T表示输入视频的时间长度，V表示视频数据集中所有动作类别数量；

所述自适应采样步骤包括：对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T(2)

其中，T表示输入视频的时间长度，i表示时间维度的索引，w_i表示自适应采样概率序列在i位置上的值，b_i表示伯努利数列在i位置上的采样，P(b_i＝k)表示随机事件b_i＝k发生的概率，二值k表示是否采样；

所述重采样特征结合步骤包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

f_i＝x_i·b_i (3)

其中，x_i为视频特征图在i时间位置上的向量，b_i为i时间位置的自适应重采样位置索引，f_i为重采样特征图在i位置上的向量；

所述非均匀分布类别激活序列步骤包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示数据集中所有动作类别数量；

所述时间分布对齐步骤包括：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

为边界来获取t_i处的值的线性插值函数，K_i表示非均匀类别激活序列经过均匀化变换后的结果；

所述类别激活序列相互监督步骤包括：

其中，θ_E是特征提取网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，X_s代表输入视频的分布，x_i代表视频实例，f_i代表重采样视频特征，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，A代表时间分布对齐函数；

所述类别预测步骤包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数收敛；

所述损失函数，计算公式如下：

其中，θ_E是特征提取网络的参数，θ_C是类别预测网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，(X_s，Y_s)代表视频和标签的分布，x_i代表视频实例，y_i是视频类别标签，E代表特征提取网络，C代表均匀分布或非均匀分布类别激活序列映射网络，D代表类别预测网络，H代表交叉熵函数。

与现有技术相比，本发明具有如下的有益效果：

1、本发明基于原始视频的均匀分布类别激活序列，进行自适应采样，从而在时间维度上压缩或者拉伸原始视频特征，构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大，对原始视频特征中的显著信息进行压缩，从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作；

2、在类别激活映射序列相互监督中的位置损失函数的约束下，非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充，不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制，这两种激活序列相互辅助，相互约束，共同提升弱监督时序动作检测的性能；

3、除此之外，本发明考虑了弱监督任务中分类和检测的固有矛盾，通过在类别激活映射序列之间构建相互位置监督，使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签，从而为整个模型提供类别和位置两种监督信息，一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。

4、本发明将视频的自适应采样视为噪声，重采样的视频特征视为受噪声影响的输入特征。通过类别激活映射序列相互监督中的位置损失函数的约束，噪声的影响被去除，因此本发明还可有效增强模型***对噪声的鲁棒性。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明实施例中方法流程图；

图2为本发明实施例中***原理图；

图3为本发明实施例中自适应采样结构图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

实施例1

如图1所示，为本发明一种基于自适应采样的弱监督时序动作检测方法实施例的流程图，本发明基于原始视频的均匀分布类别激活序列，进行自适应采样，从而在时间维度上压缩或者拉伸原始视频特征，构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大，对原始视频特征中的显著信息进行压缩，从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作；在类别激活映射序列相互监督中的位置损失函数的约束下，非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充，不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制，这两种激活序列相互辅助，相互约束，共同提升弱监督时序动作检测的性能；除此之外，本发明考虑了弱监督任务中分类和检测的固有矛盾，通过在类别激活映射序列之间构建相互位置监督，使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签，从而为整个模型提供类别和位置两种监督信息，一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。

视频特征图提取步骤：对输入的视频，使用3D深度卷积神经网络提取预设维度的视频特征图；所述输入视频仅有动作类别标签，没有精确的动作位置标注；

均匀分布类别激活序列步骤：使用卷积层和全连接层构成的神经网络将视频特征图映射成为预设维度的均匀分布类别激活序列；

非均匀分布类别激活序列步骤：使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成为预设维度的非均匀分布类别激活序列；

类别激活序列相互监督步骤：将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签，使用欧式距离作为损失函数为模型提供显式的位置监督信息；

本发明所述的一种基于自适应采样的弱监督时序动作检测方法，是能够进行端到端训练的。

具体地，所述均匀分布类别激活序列步骤包括：利用卷积层和全连接层构成的神经网络模型，将视频特征图映射为维度是T*V的均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示视频数据集中所有动作类别数量；

所述自适应采样步骤包括：对均匀分布类别激活序列每个点进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T (2)

其中，T是输入视频的时间长度，i是时间维度的索引，w_i是自适应采样概率序列在i位置上的值，b_i是伯努利数列在i位置上的采样，P(b_i＝k)表示随机事件b_i＝k发生的概率，二值k表示是否采样。

具体地，所述重采样特征结合步骤包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

f_i＝x_i·b_i (3)

其中，x_i为视频特征图在i时间位置上的向量，b_i为i时间位置的自适应重采样位置索引，f_i为重采样特征图在i位置上的向量；通过这样的自适应采样策略，可以对原始视频特征在时间维度上进行压缩或者拉伸，构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大，对原始视频特征中的显著信息进行压缩，从而使得基于重采样视频特征产生的非均匀类别激活映射序列能够有效的对均匀分布类别激活序列所遗漏的动作进行补充和完善。

所述非均匀分布类别激活序列步骤包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T表示输入视频的时间长度，V表示视频数据集中所有动作类别数量。

具体地，所述时间分布对齐步骤包括：通过将均匀分布的时间点映射到自适应采样步骤生成的非均匀时间分布中，找最近邻的上界和下界，继而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值，最终将非均匀分布的类别激活序列在时间维度均匀化，从而和均匀分布类别激活序列在时间分布上对齐。

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

具体地，所述类别激活序列相互监督步骤包括：

一方面考虑到弱监督时序动作检测中因为缺乏位置指引，造成分类和检测任务之间存在固有矛盾；另一方面，考虑到经过时间分布对齐步骤对齐后的非均匀分布的类别激活序列和均匀分布类别激活序列，两者之间的位置信息仍有较大差异。为了将这两种互补的位置信息结合，同时缓解分类任务和检测任务之间的固有矛盾，使用均匀分布类别激活序列和非均匀分布类别激活序列，充当相互的位置伪标签监督信息，并基于欧式距离设计损失函数，为弱监督时序动作检测提供显式的位置监督，让两种类别激活序列所包含的位置信息进行融合、互补、约束，共同提升时序动作位置检测精确，位置损失函数计算公式如下：

其中，θ_E是特征提取网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，X_s代表视频的分布，x_i代表视频实例，f_i代表重采样视频特征，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，A代表时间分布对齐步骤的函数；

具体地，所述类别预测步骤包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数收敛；

所述损失函数，计算公式如下：

其中，θ_E是特征提取网络的参数，θ_C是类别预测网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，(X_s，Y_s)代表输入视频和标签的分布，x_i代表视频实例，y_i是输入视频类别标签，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，C代表类别预测网络，H代表交叉熵函数。

类别预测步骤的输出是预测视频为各个类别的概率，对应公式中的C(D(E(x_i)))，通过在预测的类别概率和视频类别标签之间计算损失函数，让预测模型根据损失函数进行参数更新，从而迫使预测的类别概率逐渐接近类别标签。

根据本发明提供的一种基于自适应采样的弱监督时序动作检测的***，包括：

视频特征图提取模块：对输入的视频，使用3D深度卷积神经网络提取预设维度的视频特征图；所述输入视频仅有动作类别标签，没有精确的动作位置标注；

均匀分布类别激活序列模块：使用卷积层和全连接层构成的神经网络将视频特征图映射成为预设维度的均匀分布类别激活序列；

自适应采样模块：对均匀分布类别激活序列使用取反、权重调节操作生成时间维度上的采样概率序列，并基于采样概率序列在视频特征图上产生伯努利数列，伯努利数列作为自适应重采样位置索引；

重采样特征结合模块：使用自适应重采样位置索引对视频特征图中对应区域在时序维度上进行特征采样，得到视频重采样特征图；

非均匀分布类别激活序列模块：使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成为预设维度的非均匀分布类别激活序列；

类别预测模块：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率；

时间分布对齐模块：对非均匀分布类别激活序列在时间维度上进行分布均匀化，从而和均匀分布类别激活序列在时间分布上对齐；

类别激活序列相互监督模块：将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签，使用欧式距离作为损失函数为模型提供显式的位置监督信息；

检测结果生成模块：选择对齐后的均匀分布类别激活序列或非均匀分布类别激活序列，使用阈值法得到视频中包含的动作位置的检测结果。

本发明所述的一种基于自适应采样的弱监督时序动作检测的***，是能够进行端到端训练的。

具体地，所述均匀分布类别激活序列模块包括：利用卷积层和全连接层构成的神经网络模型，将视频特征图映射为维度是T*V的均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示视频数据集中所有动作类别数量；

所述自适应采样模块包括：对均匀分布类别激活序列每个点进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T (2)

具体地，所述重采样特征结合模块包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

f_i＝x_i·b_i (3)

所述非均匀分布类别激活序列模块包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T表示输入视频的时间长度，V表示视频数据集中所有动作类别数量。

具体地，所述时间分布对齐模块包括：通过将均匀时间分布的每个点映射到自适应采样模块生成的非均匀时间分布中，找最近邻的上界和下界，从而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值，最终将非均匀分布的类别激活序列在时间维度均匀化，从而和均匀分布类别激活序列在时间分布上对齐。

时间分布对齐模块M1：获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

时间分布对齐模块M2：依据最近邻上下界的值进行线性插值，从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列：

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

具体地，所述类别激活序列相互监督模块包括：

一方面考虑到弱监督时序动作检测中因为缺乏位置指引，造成分类和检测任务之间存在固有矛盾；另一方面，考虑到经过时间分布对齐步骤对齐后的非均匀分布的类别激活序列和均匀分布类别激活序列，两者之间的位置信息仍有较大差异。为了将这两种互补的位置信息结合，同时缓解分类任务和检测任务之间的固有矛盾，使用均匀分布类别激活序列和非均匀分布类别激活序列，充当相互的位置伪标签监督信息，并基于欧式距离设计损失函数，为弱监督时序动作检测模型提供显式的位置监督，让两种类别激活序列所包含的位置信息进行融合、互补、约束，共同提升时序动作位置检测精确，位置损失函数计算公式如下：

其中，θ_E是特征提取网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，X_s代表视频的分布，x_i代表视频实例，f_i代表重采样视频特征，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，A代表时间分布对齐模块的函数；

具体地，所述类别预测模块包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数达到预设值；

所述损失函数，计算公式如下：

实施例2

实施例2是实施例1的变化例

视频特征图提取步骤，其中：利用3D深度卷积神经网络模型，对输入的待检测视频提取预设维度的视觉特征。所述待检测视频仅有动作类别标注，没有精确的动作位置标注。

均匀分布类别激活序列步骤，其中：利用卷积层和全连接层构成的神经网络，将视频特征图映射为通道维度等于类别数量的均匀分布类别激活序列。

自适应采样步骤，其中：将均匀分布类别激活序列中的每个点经过取反、权重调节操作后，视作特征图中对应区域的采样概率，利用该概率在特征图上产生伯努利数列，作为自适应重采样位置索引。

重采样特征结合步骤，其中：利用自适应重采样位置索引，对视频特征图中对应区域在时序维度上进行特征采样，生成重采样特征图。

非均匀分布类别激活序列步骤，其中：利用卷积层和全连接层构成的神经网络模型，将视频的重采样特征图映射为通道维度等于类别数量的非均匀分布类别激活序列。

类别预测步骤，其中：利用全连接层构成的分类网络，对待检测视频进行类别预测。

时间分布对齐步骤，其中：将均匀时间分布的每个点映射到自适应采样步骤生成的非均匀时间分布中，找最近邻的上界和下界，从而利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值，最终将非均匀分布的类别激活序列在时间维度均匀化，从而和均匀分布类别激活序列在时间分布上对齐。

类别激活序列相互监督步骤，其中：利用欧式距离构建位置度量损失函数，将均匀分布类别激活序列和经过时间分布对齐后的非均匀分布类别激活序列，在时间维度上相互充当位置伪标签监督，以此为模型提供显式的位置指引，继而缓解弱监督时序动作检测中的分类和检测任务的矛盾，从而促使两种类别激活序列在位置信息上相互辅助、相互约束，共同提升时间位置检测精确度。

检测结果生成步骤，其中：整体模型训练完成后，选择均匀分布类别激活序列步骤得到的均匀分布类别激活序列或者非均匀分布类别激活序列步骤得到的非均匀分布类别激活序列，使用阈值法得到检测结果。

具体地，视频特征图提取模块、均匀分布类别激活序列模块、自适应采样模块、重采样特征结合模块、非均匀分布类别激活序列模块、类别预测模块、时间分布对齐模块、类别激活序列相互监督模块、检测结果生成模块组成的弱监督视频时序动作检测网络框架如图2所示，整个***框架能够端到端的进行训练。

在如图2所示的实施例的***框架中，待检测视频输入视频特征图提取模块，输出待检测视频的视觉特征，视频特征图提取模块是由一系列3D卷积层(+batchnorm层+relu层)组成的下采样模块构成的，可以使用现有的网络结构，例如two-stream I3D，TSN，C3D等。待检测视频的视觉特征会输入均匀分布类别激活序列模块，被映射成维度是T*V的均匀分布类别激活序列，其中T是输入视频的时间长度，V表示数据集中所有动作类别数量。均匀分布类别激活序列模块是卷积层和全连接层构成的神经网络模型。

为了进一步挖掘被均匀分布类别激活序列遗漏的动作以及不完整的琐碎动作片段，如图2所示，将均匀分布类别激活序列输入自适应采样模块输出重采样位置索引。如图3所示，对均匀分布类别激活序列每个时间点的值进行取反、权重调节等操作后，作为视频视觉特征对应区域的采样概率，利用该概率在特征图上产生伯努利数列，作为自适应重采样位置索引。具体的通过取反、权重调节操作获取自适应采样概率的过程，如下所示：

W＝max(M)-M+η(max(M)-min(M))

其中，W是自适应采样概率序列，M是均匀分布的类别激活序列，η是权重调节因子，max(·)是时间维度上的最大值，min(·)是时间维度上的最小值。

具体的基于自适应采样概率产生伯努利数列的过程，如下所示：

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T

如图3所示，在获得伯努利数列作为自适应重采样位置索引后，输入重采样特征结合模块，利用位置索引在视频特征图中对应时间维度上进行特征采样，生成重采样特征图。具体结合方式如下：

f_i＝x_i·b_i

其中x_i为视频特征图在i时间位置上的向量，b_i为i时间位置的自适应重采样位置索引，f_i为重采样特征图在i位置上的向量。

接着将重采样视频特征图输入非均匀分布类别激活序列模块，非均匀分布类别激活序列模块是卷积层和全连接层构成的神经网络模型。输出维度是T*V的非均匀分布类别激活序列，其中T是输入视频的时间长度，V表示数据集中所有动作类别数量。

获得均匀分布类别激活序列和非均匀分布类别激活序列之后，将它们输入类别预测模块，预测视频中包含的动作类别，产生如下损失函数：

其中，θ_E是特征提取网络的参数，θ_C是类别预测网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，(X_s，Y_s)代表视频和标签的分布，x_i代表视频实例，y_i是其类别标签，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，C代表类别预测网络，H代表交叉熵函数。

为了在相同的时间分布下比较均匀分布类别激活序列和非均匀分布类别激活序列，如图2所示，将非均匀分布类别激活序列输入时间分布对齐模块。将均匀时间分布的每个点映射到非均匀时间分布中，找最近邻的上界和下界，并利用线性插值获取非均匀分布类别激活序列在均匀时间分布下的激活序列值，将非均匀时间分布的类别激活序列在时间维度上均匀化。具体计算过程如下：

首先获取均匀分布的时间点在非均匀分布类别激活序列上最近邻的上下界：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置。

然后依据最近邻上下界的值进行线性插值，从而将非均匀分布类别激活序列变换为均匀分布的类别激活序列：

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

为了缓解弱监督时序动作检测中分类和检测的矛盾，同时将均匀分布类别激活序列和非均匀分布类别激活序列所包含的位置信息进行融合，充当互相的位置伪标签监督信息，从而共同提升时间位置检测精确度。如图2所示，将均匀分布的类别激活序列和经过对齐后的非均匀分布的类别激活序列输入类别激活序列相互监督模块，基于欧式距离设计位置上的相互监督损失函数，使得两个类别激活序列作为相互的位置伪标签，为模型提供显式的位置监督信息。具体目标函数如下：

其中，θ_E是特征提取网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，X_s代表视频的分布，x_i代表视频实例，f_i代表重采样视频特征，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，A代表时间分布对齐操作/模块。

在整体模型训练完成后，选择均匀分布类别激活序列步骤得到的均匀分布类别激活序列或者非均匀分布类别激活序列步骤得到的非均匀分布类别激活序列，输入检测结果生成模块，该模块使用阈值法作用于类别激活序列上，高于该阈值的区域构成最终的检测结果。

综上，本发明基于原始视频的均匀分布类别激活序列，进行自适应采样，从而在时间维度上压缩或者拉伸原始视频特征，构建新的非均匀分布重采样视频特征。该重采样视频特征对原始视频特征中不显著的、琐碎的动作信息进行拉伸放大，对原始视频特征中的显著信息进行压缩，从而使得基于重采样视频特征产生的非均匀类别激活映射序列有效地补充和完善均匀分布类别激活序列所遗漏的动作；在类别激活映射序列相互监督中的位置损失函数的约束下，非均匀类别激活映射序列对均匀分布类别激活序列的动作位置信息进行补充，不含背景激活的均匀分布类别激活序列对非均匀类别激活映射序列的背景误激活进行抑制，这两种激活序列相互辅助，相互约束，共同提升弱监督时序动作检测的性能；除此之外，本发明考虑了弱监督任务中分类和检测的固有矛盾，通过构建类别激活映射序列相互监督，使得均匀分布类别激活序列和非均匀类别激活映射序列互相充当位置伪标签，从而为整个模型提供类别和位置两种监督信息，一定程度上缓解了弱监督时序动作检测任务中因为缺乏位置监督而造成的分类任务和检测任务的矛盾。最后，本发明将视频的自适应采样视为噪声，重采样的视频特征视为受噪声影响的输入特征。通过类别激活映射序列相互监督中的位置损失函数的约束，噪声的影响被去除，因此本发明还可有效增强模型***对噪声的鲁棒性。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的***、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的***、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的***、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种基于自适应采样的弱监督时序动作检测方法，其特征在于，包括：

2.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述均匀分布类别激活序列步骤包括：

3.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述自适应采样步骤包括：对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T (2)

4.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述重采样特征结合步骤包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

f_i＝x_i·b_i (3)

5.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述非均匀分布类别激活序列步骤包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示数据集中所有动作类别数量。

6.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述时间分布对齐步骤包括：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

7.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述类别激活序列相互监督步骤包括：

将在时间分布上对齐后的非均匀分布类别激活序列和均匀分布类别激活序列视为相互的位置信息伪标签，使用欧式距离构建位置损失函数，为弱监督时序动作检测模型提供显式的位置监督，位置损失函数公式如下：

8.根据权利要求1所述的基于自适应采样的弱监督时序动作检测方法，其特征在于，所述类别预测步骤包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数收敛；

所述损失函数，计算公式如下：

9.一种基于自适应采样的弱监督时序动作检测***，其特征在于，包括：

视频特征图提取模块：对输入的视频，使用3D深度卷积神经网络提取预设维度的视频特征图；

均匀分布类别激活序列模块：使用卷积层和全连接层构成的神经网络将视频特征图映射成预设维度的均匀分布类别激活序列；

非均匀分布类别激活序列模块：使用卷积层和全连接层构成的神经网络将视频重采样特征图映射成预设维度的非均匀分布类别激活序列；

类别激活序列相互监督模块：将对齐后的均匀分布类别激活序列和非均匀分布类别激活序列作为相互的位置伪标签，使用欧式距离作为损失函数为弱监督时序动作检测提供显式的位置监督信息；

10.根据权利要求9所述的基于自适应采样的弱监督时序动作检测***，其特征在于，所述均匀分布类别激活序列模块包括：

所述自适应采样模块包括：对均匀分布类别激活序列进行取反、重加权操作获取自适应采样概率序列，公式如下：

W＝max(M)-M+η(max(M)-min(M)) (1)

P(b_i＝k)＝w_i ^k(1-w_i)^1-k，k＝0 or 1，i＝1，...，T(2)

所述重采样特征结合模块包括：对自适应重采样位置索引和视频特征图进行点乘结合，得到视频重采样特征图；

f_i＝x_i·b_i (3)

所述非均匀分布类别激活序列模块包括：利用卷积层和全连接层构成的神经网络模型，将视频重采样特征图映射为维度是T*V的非均匀分布类别激活序列，其中，T是输入视频的时间长度，V表示数据集中所有动作类别数量；

所述时间分布对齐模块包括：

其中，t_i表示第i个均匀分布的时间点，

表示在非均匀分布类别激活序列中取最近邻下界操作，

表示在非均匀分布类别激活序列中取最近邻上界操作，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

是t_i在非均匀分布类别激活序列中的最近邻上界位置；

其中，t_i表示第i个均匀分布的时间点，

是t_i在非均匀分布类别激活序列中的最近邻下界位置，

和

所述类别激活序列相互监督模块包括：

所述类别预测模块包括：对均匀分布类别激活序列和非均匀分布类别激活序列使用全连接层构成的分类网络预测输入视频为各个类别的概率，根据各个类别的概率与输入视频类别标签计算损失函数，训练分类网络，直至损失函数收敛；

所述损失函数，计算公式如下：

其中，θ_E是特征提取网络的参数，θ_C是类别预测网络的参数，θ_D是均匀分布或非均匀分布类别激活序列映射网络的参数，(X_s，Y_s)代表视频和标签的分布，x_i代表视频实例，yi是视频类别标签，E代表特征提取网络，D代表均匀分布或非均匀分布类别激活序列映射网络，C代表类别预测网络，H代表交叉熵函数。