CN111914778A

CN111914778A - 一种基于弱监督学习的视频行为定位方法

Info

Publication number: CN111914778A
Application number: CN202010790719.5A
Authority: CN
Inventors: 葛永新; 俞佳若; 陈忠明; 黄晟; 张小洪; 杨丹; 温浩; 周翔; 朱云飞; 鲁宇; 董莉娜
Original assignee: Chongqing Zhongke Yuncong Technology Co ltd; Chongqing University
Current assignee: Chongqing Zhongke Yuncong Technology Co ltd; Chongqing University
Priority date: 2020-08-07
Filing date: 2020-08-07
Publication date: 2020-11-10
Anticipated expiration: 2040-08-07
Also published as: CN111914778B

Abstract

本发明涉及一种基于弱监督学***均CAS；只检测预测得分大于预先设置好的阈值的CAS；通过线性插值使经过深度特征增强和选择网络模型后的待测视频长度还原为原始长度，然后，对平均CAS进行阈值运算，之后再进行膨胀操作，最后再获取行为实例的开始时间b_i和结束时间e_i，完成定位。本发明方法对弱监督行为定位具有有效性。

Description

一种基于弱监督学习的视频行为定位方法

技术领域

本发明涉及视频行为定位方法，特别涉及一种基于弱监督学习的视频行为定位

背景技术

视频行为定位技术，就是对于一个未裁剪视频，通过计算机检测是否和何时发生了特定的行为。具体来说，需要回答三个问题：视频里有行为吗,行为什么时候开始,什么时候结束。

在硬设备的快速发展，以及视频数据量***式增长的时代下，传统的方法采用人力去查看视频并分析视频对数据量迅速增长的现在无疑是一件费时费力且效率低下的做法。因此，使用计算机取代传统的人工视频监控、视频分析等工作是当今社会的一个必然趋势。无论是在学术研究还是工业应用，都对视频行为分析的需求越来越高，因为视频中人的行为分析能够在很多场合给社会带来很多便利，减少人力资源的消耗，如：监控摄像头。随着社会经济的发展，监控摄像头普遍存在于各行各业，如商场安防、交通管理以及学校等各个地方，也相对应的生成了难以计数的视频数据。而使用视频行为定位技术，通过对实时数据进行快速地分析，可以有效快捷地监测异常行为并定位异常时间，以避免人力和财力的浪费。如，人为查看摄像头记录容易遗漏异常行为或发现异常行为已经太晚了的情况，而使用带有人工智能的摄像头的商场可以避免上述问题。除此以外，行为定位技术也应用于基于内容的视频检索。由于通讯设备的快速发展，3G、4G和5G相继诞生，使得视频信息传输更加快捷，因此在互联网上视频数据量也在快速增长。因此利用人工智能对小视频和直播视频进行审查或者检索以减少人力资源是社会所需技术。

早期，科研人员大多在已裁剪的视频数据上进行行为识别的研究，即通过训练网络将一个未知的已裁剪视频进行分类。目前，对于已裁剪视频的行为识别技术已有了很好地研究成果。然而，在现实场景中所取得的视频数据多为未裁剪视频，且视频内可能包含多个行为实例及背景，使用人力对视频进行裁剪也是一种人力资源的浪费，因此对视频中每个行为进行分类和定位变得尤为重要，视频行为定位问题也随之被提出并研究。

视频行为定位技术由于标签的不同,可大致分为全监督行为定位、半监督行为定位与弱监督行为定位等。全监督行为定位需要每个行为实例的分类标签和精确的时间边界注释。半监督行为定位则对部分视频帧标签缺失的情况下进行研究。它们都需要人类对视频帧进行手动标注，这是一项复杂且耗费时间与金钱的工作。而基于弱监督的行为定位技术则大不相同，其在训练过程中仅使用弱监督标签，能进一步地减少人力资源和时间的浪费。弱监督标签种类繁多，有行为列表,单一时间戳,视频级别注释等。

不同的帧判别性不同，对于行为分类任务网络倾向于寻找最具有判别性的视频帧，而对于定位任务网络则倾向于找到所有视频帧。在基于弱监督学习的视频行为定位任务中，通常只使用视频级别注释标签进行训练，使得学者们常常会把任务公式化为多实例分类任务，从而面临一个重大的挑战，即网络倾向于学习最具有判别性的视频帧而忽略了其余相关的帧。

发明内容

针对现有技术存在的上述问题，本发明要解决的技术问题是一种定位准确性高的视频行为定位方法。

为解决上述技术问题，本发明采用如下技术方案：一种基于弱监督学习的视频行为定位方法，包括如下步骤：

S100：建立深度特征增强和选择网络模型并训练：

S110：特征提取模块，采集视频片段的特征信息，使用UntrimmedNet采集视频片段的外观和运动特征信息，并储存；

令UntrimmedNet是相应的提取到的特征

其中D是特征的维数，T表示特征片段数；

S120：特征增强和选择模块

S121：将S110得到的特征信息作为输入，对输入的特征信息先调整维度大小，使其适合于特征增强和选择模块的嵌入特征；

S122：特征增强，对于得到的嵌入特征，通过在它的特征维度上执行融合函数来获得特征分数；

S123：基于特征增强生成的特征分数生成三个掩码以增强不同视频片段；

S124：选择部分，在三个掩码选择一个掩码与嵌入特征

进行元素乘积生成输出特征，

其中，

称为输出特征，

表示被选中的掩码；

S130：分类模块，构建两个独立的两个分支，将S124得到输出特征输入到每个时域卷积层中，然后紧跟着softmax层以输出每个分支的分支分数Aⁱ和每个分支的类激活序列CASⁱ；

计算两个分支的CAS平均，再沿类别维度应用softmax层，所述CAS平均是指分支分数的平均

和类激活序列的平均

S140：计算深度特征增强和选择网络模型的总体损失，并采用梯度下降法进行反向传播，更新S110-S130步骤中各个模块的参数，得到训练后的深度特征增强和选择网络模型；

S200：时序行为定位，将一段待测试视频输入训练后的深度特征增强和选择网络模型，对于待测试视频产生一组值{b_i,e_i,c,s_i}，通过训练后的深度特征增强和选择网络模型预测分类分数和得到平均CAS；

只检测分类分数大于预先设置好的阈值的CAS；

通过线性插值使经过深度特征增强和选择网络模型后的待测视频长度还原为原始长度，然后，对平均CAS进行阈值运算之后再进行膨胀操作，最后再获取行为实例的开始时间b_i和结束时间e_i，完成定位。

作为改进，所述S121中对输入的特征信息调整维度大小的方法为：

F_emb＝max(W_emb*X+b_emb,0) (1)

其中，

表示嵌入特征，d是卷积核的数量，W_emb和b_emb分别是卷积核的权重和偏置，X是输入的已提取的特征。

作为改进，所述S122中特征增强中，嵌入特征获得特征分数的方法为：

其中，

表示嵌入第j个片段特征

的特征分数。

作为改进，所述S123中特征增强中，基于特征增强生产的特征分数生成三个掩码以增强不同视频帧的方法为：

1)第一个掩码是擦除掩码：

设置阈值t_era，然后对于每个像素，通过将大于阈值的像素设置为0，小于阈值的像素设置为1来产生擦除掩码M_era∈R^T×1，对于每一个视频，阈值t_era值不同，公式如(4)：

其中，μ是擦除比例因子，

表示第i个片段的特征分数，

表示第i个片段对应的擦除掩码值；

2)第二个掩码是增强掩码：

增强掩码是通过对融合分数应用sigmoid激活函数以计算而的，参见公式(5)：

其中，

是增强掩码，

包含所有片段的特征分数；

3)第三个掩码：将原始掩码

设置为第三个掩码，其值均为1。

作为改进，所述S124在三个掩码选择一个掩码的方法为：设置选择每个掩码的概率，其中擦除掩码和增强掩码的概率分别为γ_era和γ_imp,以及原始掩码的概率是1-γ_era-γ_imp，根据每个掩码的概率进行选择。

作为改进，所述S130中计算每个分支的分支分数Aⁱ和每个分支的类激活序列CASⁱ的方法为：

CASⁱ＝softmax(Aⁱ) (7)；

其中，Aⁱ为每个分支的分支分数，

CASⁱ为每个分支的类激活序列，

和

分别是第i个分支上的改成卷积核权重和改成卷积核偏置，

在训练过程中为F_drop，在预测过程中是F_emb，C是行为类别的数量，而C+1表示增加了背景类。

作为改进，所述S130中计算两个分支的CAS平均的方法为：

其中，

和

分别被称为平均分支分数和平均CAS，

作为改进，所述S140中计算总体损失的方法为：

总体损失L由分类损失L_cls和正则化损失L_norm组成：

L＝L_cls+αL_norm (11)；

其中，α是超参数；

在平均CASes上沿类别维度执行最大池化，以获得预测得分

所述分类损失L_cls如公式(9)：

其中，y_c，p_c分别表示第c个类别对应的真实标签和预测的类别分数；

所述正则化损失L_norm如公式(10)：

其中，K是分支数，

表示第i个分支在类别c上的分数，

表示在类别c上的平均分数。

相对于现有技术，本发明至少具有如下优点：

本发明提出了深度特征增强和选择网络模型，该网络通过计算每个片段的特征分数来选择片段，然后生成不同的掩码以保持较高的分类精度，并使网络增强具有较少判别性的特征, 该模型对弱监督行为定位具有有效性。

附图说明

图1为本发明深度特征增强和选择网络的模型架构图。

图2为时域卷积层。

图3中(a)是一个未裁剪的视频，(b)是网络识别出了视频中具有判别性的视频帧，(c)是擦除最具判别性的视频帧之后的视频。

图4中(a)是一个未裁剪的视频，(b)是网络识别出了视频中具有判别性的视频帧，(c)是增强最具判别性的视频帧之后的视频。

图5为三个行为示例的可视化。

具体实施方式

下面对本发明作进一步详细说明。

参见图1，一种基于弱监督学习的视频行为定位方法，包括如下步骤：

S100：建立深度特征增强和选择网络模型并训练：

S110：特征提取模块，采集视频片段的特征信息，使用UntrimmedNet采集视频片段的运动特征信息，并储存。

令UntrimmedNet输出的是相应的提取到的特征

其中D是特征的维数，T表示特征片段数。

两种特征提取模块的输入均是视频片段。首先将每个未裁剪的视频划分为互不重叠的片段，对于每一个片段分别对其RGB图像和光流图像进行采样，用于特征提取模块提取特征，输出是相应的提取到的特征

其中D是特征的维数，T表示特征片段数。每个片段特征都代表某一刻的高级尺度的外观或运动信息。提取模块UntrimmedNet采用经过预训练的现有模型，之后不在对其进行调整。提取完特征之后，将提取的特征单独存储，并在训练过程中，直接将这些特征用作网络的输入，以提高网络训练效率。

S120：特征增强和选择模块，特征增强和选择模块旨在选择和增强具有不同判别性级别的片段，以引导网络学习行为的整个时间间隔。

S121：将S110得到的特征信息作为输入，对输入的特征信息先调整维度大小，使其适合于特征增强和选择模块的嵌入特征。

F_emb＝max(W_emb*X+b_emb,0) (1)

其中，

由于所输入的特征最初可能并不是为弱监督行为定位而训练的，因此在该模块之前，使用一个时域卷积层以及ReLU激活函数作为特征嵌入层，以调整特征维度大小，使其更适合于特征增强和选择模块的嵌入特征。

时域卷积层是一维卷积层，它对时间邻域执行卷积运算，如图2所示，左边是一维的时序特征，右边是一维卷积。通过时域卷积操作可以增强特征之间的时间关系，因此常用于处理时域信息，如文本、音频等。在本文中，因为时序定位任务着重于时间信息，需要对每个行为进行定位，所以采用时域卷积来获取时间关系。只有对视频中的时间信息进行建模，才能够了解视频中所发生的行为。此外，在使用的特征提取模块中提取的视频特征已经能够很好地表示外观和运动信息，因此网络后续部分不再需要2D卷积对空间信息进行提取，也不需要使用3D卷积提取时空信息，从而减少了网络的计算量。

S122：特征增强，对于得到的嵌入特征，通过在它的特征维度上执行融合函数来获得特征分数。

其中，

表示嵌入第j个片段特征

的特征分数。

在特征增强部分中，需要网络识别每一片段的重要程度，以便后续的视频片段增强部分能够有效地对一部分的视频片段增强。因此，为每一片段赋予一个特征分数，使得视频片段增强部分能够基于该分数来确定要增强的视频片段。

S123：特征增强：基于特征增强生产的特征分数生成三个掩码以增强不同视频片段。

作为改进，所述S123中视频片段增强中，基于特征增强生产的特征分数生成三个掩码以增强不同视频片段的方法为：

1)第一个掩码是擦除掩码：

设置阈值t_era，然后对于每个像素，通过将大于阈值的像素设置为0，小于阈值的像素设置为1来产生擦除掩码M_era∈R^T×1，公式如(3)：

使用阈值t_era以擦除一定比例的视频片段，因此在这里阈值t_era并不是一个预先设置好的常量。对于每一个视频，阈值t_era值不同，公式如(4)：

其中，μ是擦除比例因子，

表示第i个片段的特征分数，

表示第i个片段对应的擦除掩码值；通过擦除掩码，相应的生成的输出特征将擦除最具有判别性的片段，从而使后续层将注意力集中在具有较低判别性的视频片段上，并对其进行增强。

在弱监督行为定位中，网络倾向于定位最具有判别性的视频片段并给予它们高分，而其他相关片段分数则过低。这些相关的视频片段也是行为实例的一部分，由于对网络正确识别视频类别没有影响而被抑制，使得网络在定位行为实例时定位不完整。因此使用了一个简单有效的方法，即使用掩码擦除最具有判别性的视频片段。如图3所示，(a)是一个未裁剪的视频帧序列，(b)是通过网络识别出了视频中具有判别性的行为帧(带有边框的视频帧，即从左向右第8和9视频帧是网络认为最具有判别性的帧)，当把最有判别性的视频帧擦除后(即图片中(c)的行为视频)，网络则失去了能够帮助网络分类的信息。为了能够正确地分类，网络在学习过程中不得不将焦点指向判别性较弱的视频帧，即图中带有黄色边框的视频帧。

2)第二个掩码是增强掩码：

其中，

是增强掩码，

包含所有片段的特征分数它用于增强最具有判别性的视频片段，从而提高分类精度。

对于一个未知的视频，需要网络先对其正确地分类，之后网络所预测的它的定位才有意义。因此高分类精度是高定位精度的前提。而加入擦除掩码虽然能够提高网络的定位能力，但是仅使用擦除掩码可能会导致网络的分类能力下降。这是由于网络对能够帮助网络正确分类的视频片段的关注度减弱，因此需要加入增强掩码以增强最具有判别性的视频片段以保持网络对这些片段的关注度。如图4所示，(a)是一个未裁剪的视频帧序列，(b)是通过网络识别出了视频中具有判别性的行为帧(带有边框的视频帧则是网络认为最具有判别性的帧，从左向右第5和6帧)，当把不是最有判别性的视频帧削弱以后(即图片中(c)的行为视频)，网络则能完全专注于能够帮助网络分类的最具有判别性的视频帧。

第三个掩码：将原始掩码

设置为第三个掩码，其值均为1。为了防止信息丢失，设置了原始掩码以保证视频特征信息完整。

S124：选择部分，在三个掩码选择一个掩码与嵌入特征

进行元素乘积生成输出特征，

其中，

称为输出特征，

表示被选中的掩码。

作为改进，所述S124在三个掩码选择一个掩码的方法为：设置选择每个掩码的概率，其中擦除掩码和增强掩码的概率分别为γ_era和γ_imp,以及原始掩码的概率是1-γ_era-γ_imp，根据每个掩码的概率进行选择。具体实施时，也可以随机选择一个掩码。

S130：分类模块，由于想要获得更丰富的特征信息，因此，并行构建两个独立的两个分支，将S124得到输出特征输入到每个时域卷积层中，然后紧跟着softmax层以输出每个分支的分支分数Aⁱ和每个分支的类激活序列CASⁱ；

计算两个分支的CAS平均，再沿类别维度应用softmax层，所述CASes平均是指分支分数的平均

和类激活序列的平均

CASⁱ＝softmax(Aⁱ) (7)；

其中，Aⁱ为每个分支的分支分数，

CASⁱ为每个分支的类激活序列，

和

分别是第i个分支上的改成卷积核权重和改成卷积核偏置，

在训练过程中为F_drop，在预测过程中是F_emb，C是行为类别的数量，而C+1表示增加了背景类(即无行为的类别)。

使用固定视频片段作为行为的先验条件，生成难负例数据作为背景类进行训练。具体来说，只对训练集中的视频生成背景类。对于每一个视频，计算器光流通量，并对每一帧执行平均操作，然后将其根据光流强度排序，按一定比例选取光流强度最低的视频帧拼接成一个伪视频并标记为背景类。

作为改进，所述S130中计算两个分支的CAS平均的方法为：

其中，

和

分别被称为平均分支分数和平均CAS，

平均CAS融合两条分支的信息合并为完整的行为信息。

S140：计算深度特征增强和选择网络模型的总体损失，并采用梯度下降法进行反向传播，更新S110-S130步骤中各个模块的参数，得到训练后的深度特征增强和选择网络模型。

作为改进，所述S140中计算总体损失的方法为：

总体损失L由分类损失L_cls和正则化损失L_norm组成：

L＝L_cls+αL_norm (11)；

其中，α是超参数，以调节正则化损失在总损失中的比重。

为了获得视频级别的分类预测，在平均CAS上沿类别维度执行最大池化，以获得预测得分

所述分类损失L_cls如公式(9)：

其中，y_c，p_c分别表示第c个类别对应的真实标签和预测的类别分数。

在网络优化过程中，为防止过拟合会对损失函数进行正则化。常见的正则化损失有L1 范式和L2范式。L1范数是指向量中各个元素的绝对值之和，而L2范数则是向量各元素的平方和然后开方。在本发明中，为防止一个分支的分类分数接近0而另一分支的分类分数几乎***，在没有经过softmax层的原始分数序列上引入了一个新的正则项所述正则化损失 L_norm如公式(10)：

其中，K是分支数，

表示第i个分支在类别c上的分数，

表示在类别c上的平均分数。

只检测分类分数大于预先设置好的阈值的CAS。

此处的，对平均CAS进行阈值运算，即对于每一帧的预测分数，大于预先设置的阈值则为1，否则为0。通过阈值操作，可以得到行为实例的起始与终止时间。然后再进行膨胀操作，即使用预定义的膨胀滤波器对阈值化后的平均CAS进行膨胀滤波，连接被错误拆分的行为实例。

试验验证：

数据集

在视频行为定位任务中使用的数据集是Thumos’14和ActivityNet数据集。在两个数据集中，使用未修剪的视频数据集。而且，无需利用视频的时间行为注释就可以训练网络。

①Thumos’14：Thumos’14数据集包含大量在开源视频中的真实的人类动作，由人类的日常活动和体育动作组成。根据研究任务，Thumos’14数据集分为两个部分，即行为识别数据集和时序动作检测数据集。本次实验使用后者来训练和评估网络。实验使用验证集(不使用时间行为边界注释)进行训练，并采用测试集(使用时间行为边界注释)进行评估。

②ActivityNet：ActivityNet数据集由大型挑战赛ActivityNet Challenge给出。它有两个版本，分别是ActivityNet1.2和ActivityNet1.3。对于本文的实验，使用ActivityNet1.2版本进行试验。

评估指标

实验遵循标准评估协议，即平均精度AP(Average Precision)是用于评估单个行为类别结果的指标，mAP(mean Average Precision)则是对所有行为类别的结果进行平均操作。对于每个被检测的实例，其预测值与相对应的真实标签的时序交并比(IoU)大于预定的阈值即为真。

本实验报告不同时序交并比(IoU)阈值下的mAP.其中，在Thumos’14数据集上报告了时序交并比(IoU)阈值从0.1到0.5的mAP结果，而在ActivityNet1.2数据集上提供了时序交并比(IoU)阈值从0.5到0.95的mAP结果。mAP值是使用数据集提供的评估代码来计算的。在THUMOS’14数据集上报告的所有结果均是五次运行结果的平均值。

实验结果与分析

1.Thumos’14数据集测试结果与分析

表1关于THUMOS’14测试集的结果

在表1中，报告了THUMOS’14测试集的结果。提出的方法在平均IoU下超出了对弱监督时序行为进行定位的最新方法，使用I3D特征的结果在平均IoU下超出了最好的方法1.3％。此外，可以看到，无论使用UntrimmedNet网络作为特征提取模块还是使用I3D网络作为特征提取模块，所提出的方法在大多数IoU阈值上均胜过大多数以前的工作，特别是在IoU＝0.2 时，使用I3D特征的结果在比最好的方法高2.3％，表明了方法的可行性。

然而，根据表1中的结果，可以观察到在高IoU阈值下的结果并不是很理想。通过分析，认为这是由于模型在擦除最具有判别性的视频帧之后使得网络发现了过多的视频帧，从而在定位时生成了包括静态帧在内的过于完整的实例，以至于导致了误报。如图5所示，一些简单的行为实例，例如潜水实例可能被过度地检测到。

2.ActivityNet数据集测试结果比较

表2关于ActivityNet1.2验证集的结果

表2显示了ActivityNet1.2验证集上的结果。本次实验的网络使用的参数数量较少，但是在性能依旧具有可比性。在ActivityNet1.2数据上训练所使用的参数数量更少，特别是使用I3D 特征时，参数少了大约1/3，表明所提出模型的有效性。但是，与在Thumos’14测试集上的情况类似，可以观察到在高IoU阈值(即IoU＝0.95)下的结果并不是很理想。通过分析认为其原因与上述一致，都是由于网络检测到了过于完整的实例从而导致误报。

4.消融实验

为了分析网络的贡献，进行了一系列消融研究。实验采用UntrimmedNet作为特征提取模块，并使用thumos’14测试集的结果进行报告。通过分别移除擦除掩码和增强掩码的模型进行实验，并以去除擦除掩码和增强掩码的模型作为基线进行实验。表4中显示了消融实验的结果，结果显示基线加擦除掩码的方法与基线加增强掩码的方法的结果均比基线的结果好，表明模型中的两种掩码都是有效的，在一定程度上提高了网络的定位能力。以及结果表明完整的网络模型能达到最好的效果，进一步说明两种掩码对所提出方法的性能都有积极影响，并且两种掩码不会产生互斥导致精度降低。

表4在Thumos’14测试集上的消融实验

方法	Avg(0.1:0.5)
		基线	36.3
基线+擦除掩码	36.8
		基线+增强掩码	36.6
完整的网络模型	37.5

5.定性结果

在图5中绘制了一些定性示例，这些示例是在THUMOS’14个测试集上使用UntrimmedNet特征得到的，以证明模型的有效性并讨论其缺点。

每个实例都展示了三条分支，‘GT’表示行为实例真实标签，灰色的线条为行为实例的行为发生区域，白色的部分则不包含行为实例。‘Base’表示基线模型的结果，灰色的线条表示基线模型预测的行为的实例的行为发生区域，白色的部分则为预测的背景区域。‘Full’表示完整的网络模型的结果，灰色的线条表示完整的模型预测的行为的实例的行为发生区域，白色的部分则为预测的背景区域。

三个行为实例展示的三条分支上方对应的展示了几帧视频帧；

第一个行为实例中，从左向右第1,2,3和5视频帧为视频帧，第4视频帧则为背景帧。

第二个行为实例中，从第2,3和4视频帧左向右为视频帧，第1和5视频帧则为背景帧。

第三个行为实例中，从左向右第2,3,4和5视频帧为视频帧，第1视频帧则为背景帧。

图5中前两个示例分别是跳水和跳远，其行为结构都比较简单。与基线相比，完整模型学习的背景帧更少，增强掩码和擦除掩码的组合使用，在一定程度上也限制了网络对于背景帧的学习，如在跳远实例中，基线在视频最开始部分将背景误定位了行为实例，而完整的模型则没有此现象。但是，所提出的模型也过度检测了两个视频中的某些实例。在第三个示例中的推铅球行为中，我们的模型发现的视频帧比基线的更多，表明了擦除掩码是能够使网络发现更多的视频帧。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。