CN110348345B

CN110348345B - 一种基于动作连贯性的弱监督时序动作定位方法

Info

Publication number: CN110348345B
Application number: CN201910575033.1A
Authority: CN
Inventors: 王乐; 翟元浩; 刘子熠
Original assignee: Xian Jiaotong University
Current assignee: Xian Jiaotong University
Priority date: 2019-06-28
Filing date: 2019-06-28
Publication date: 2021-08-13
Anticipated expiration: 2039-06-28
Also published as: CN110348345A

Abstract

本发明属于机器视觉领域，公开了一种基于动作连贯性的弱监督时序动作定位方法，包括：将视频分为RGB帧和光流分别处理；对于每个动作模态，首先针对视频上的每个时间点，提出长度不同的假设的动作片段，然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段，通过一个特性的模块进行结合，筛选出最终的动作定位结果。本发明在给定视频类别的情况下，可定位视频中属于该类别的动作片段。

Description

一种基于动作连贯性的弱监督时序动作定位方法

技术领域

本发明属于计算机视觉技术领域，涉及弱监督时序动作定位方法，特别涉及一种基于动作连贯性的弱监督时序动作定位方法。

背景技术

时序动作定位是一项重要的计算机视觉问题，它在抽象的视频理解任务，如事件检测、视频总结和视频问题回答等方向有着非常重要的应用。

目前大多数的时序动作定位方法需要精确的时间标注，需要消耗大量人力物力；同时，可能因动作的边界的模糊性使得该时间标注不准确。另外，目前的时序动作定位方法中，未将RGB和光流分别处理，忽略了RGB和光流本身的特征；最终片段得分仅由分类得分得出，忽视了RGB和光流本身的区别，且对分类神经网络依赖性大，很难得到最优结果。

综上，亟需一种新的弱监督时序动作定位方法。

发明内容

本发明的目的在于提供一种基于动作连贯性的弱监督时序动作定位方法，以解决上述存在的一个或多个技术问题。本发明中，将视频分为RGB和光流分别处理，分别提出可能的动作片段，然后筛选融合来提出最后的结果，能够得出较优的定位结果。

为达到上述目的，本发明采用以下技术方案：

一种基于动作连贯性的弱监督时序动作定位方法，包括以下步骤：

步骤1，将待处理视频分为多个不重合片段，获取每个片段的RGB特征和光流特征；

步骤2，对步骤1获得的RGB特征和光流特征分别进行动作片段回归处理，获得RGB动作片段和光流动作片段；所述动作片段回归处理包括：对于待处理视频的每个时间点，枚举不同预设长度的假想的动作片段，对于不同长度的动作片段使用预定的回归神经网络进行回归，回归神经网络使用动作连贯性损失函数进行训练，并获得动作片段；

步骤3，通过动作连贯性损失函数评价步骤2得到的RGB动作片段和光流动作片段的置信程度；使用非最大值抑制过滤掉重合度超过阈值的动作片段；

步骤4，回归神经网络训练结束后；经过一个无参数的融合模块，筛选融合RGB动作片段和光流动作片段，得到最后的定位结果。

本发明的进一步改进在于，步骤1具体包括：将待处理视频分为多个不重合片段；对每个片段平均取样，使用卷积神经网络提取取样帧的特征，将提取获得的特征作为该片段的表示；其中，分别对RGB和光流提取特征。

本发明的进一步改进在于，步骤2中，动作片段回归处理具体包括：对于假想长度为P的动作片段，使用下式进行回归：

式中，x_s为开始边界的序号，x_e为结束边界的序号，

为在开始边界位置回归的结果，

为在结束边界位置回归的结果，P为动作片段长度。

本发明的进一步改进在于，步骤3中，动作连贯性损失函数由两部分组成；

一部分用来表征动作片段特征与其上下文特征的余弦相似度；假设该动作片段与其上下文的特征分别用如下符号表示

其中F(u)为视频在时间点为u特征表示，这部分的计算表达式为：

另一部分用分类置信度来表征：

其中，S(k,u)表示在类别k下，片段u的分类置信度；对于动作片段[x_s,x_e]，将其扩充到[X_s,X_e]，其中

作为该片段的上下文信息；

动作连贯性损失函数的表达式为：

L＝αL_c+(1-α)(L_c-1)

其中，α为超参数，取值为0＜α＜1。

本发明的进一步改进在于，步骤4中，回归网络训练结束后，对于RGB和光流分别得到的动作片段，筛选融合步骤具体包括：

由RGB和光流得到的动作片段分别为

其中，N_r和N_f分别为RGB和光流动作片段数；

对于每个RGB的动作片段，计算其与光流片段的最大IoU，计算公式为：

最终的筛选融合结果，为所有光流动作片段和具有I(p_r,j)小于预设阈值的RGB动作片段的组合。

本发明的进一步改进在于，最终的筛选融合结果，为所有光流动作片段和具有I(p_r,j)<0.4的RGB动作片段的组合。

本发明的进一步改进在于，α设置为0.6。

本发明的进一步改进在于，步骤2中，将步骤1得到的RGB特征R_s输入到多个回归网络；每个回归网络由3层1D卷积神经网络构成，并指定了一个片段长度P；

回归网络的最后一层有2个大小为1的卷积核，其输出分别回归开始边界和结束边界。

本发明的进一步改进在于，回归网络的前两层由空洞卷积网络构成。

本发明的进一步改进在于，回归网络的前两层的空洞卷积的空洞设置为

与现有技术相比，本发明具有以下有益效果：

本发明中，将视频分为RGB和光流分别处理，分别提出可能的动作片段，然后筛选融合来提出最后的结果，减少了传统方法中由于直接处理RGB和光流拼接的特征可能带来的干扰，能够得到较优的定位结果。本发明中，两个动作模态的表示不同，分别处理更能挖掘不同动作模态的特点；本发明设计了一个筛选融合模块来结合两个不同动作模态的动作定位结果。本发明的方法基于视频动作的连贯性，提出了一种基于余弦相似度的损失函数，结合了动作片段特征与动作片段分类置信度，一定程度上避免了传统方法中仅根据动作片段分类置信度评估动作片段的局限性。本发明的方法，可在只知道视频中动作类别的条件下，定位视频中的动作片段。

进一步地，为了避免过拟合，回归网络的前两层由空洞卷积网络构成；为了保证有足够的上下文信息输入到网络，回归网络的感受野被设置成了P，设置方法为将回归网络的前两层的空洞卷积的空洞设置为

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面对实施例或现有技术描述中所需要使用的附图做简单的介绍；显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例的一种基于动作连贯性的弱监督时序动作定位方法的流程示意图；

图2是本发明实施例中，与历史实验结果在THUMOS14数据集上的测试结果对比示意图；

图3是本发明实施例中，与历史实验结果在ActivityNet数据集上的测试结果对比示意图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

请参阅图1，本发明的一种基于动作连贯性的弱监督时序动作定位方法，包括以下步骤：

步骤1：特征提取。将视频分为多个不重合的15帧片段，对每个片段取3帧，使用卷积神经网络提取特征，将该特征作为该片段的表示。并且分别对RGB和光流提取特征，作为下一步的输入。

步骤2：动作片段回归。该步骤对RGB和光流分别进行如下相同的处理。对于视频的每个时间点，枚举不同长度的假想的动作片段。对于所有相同长度的动作片段，使用同一个卷积神经网络进行回归。

具体来说，假设对于假想长度为P的动作片段，其开始与结束边界的序号分别为x_s和x_e，神经网络在该位置回归的结果分别为

和

使用下式进行回归：

式中，x_s为开始边界的序号，x_e为结束边界的序号，

为在开始边界位置回归的结果，

为在结束边界位置回归的结果，P为动作片段长度。

步骤3：动作片段评估。使用动作连贯性损失函数评价由步骤2得到的动作片段的置信程度。同时使用该损失函数训练回归神经网络。具体地说，该损失函数由两部分组成，一部分用来度量动作片段特征与其上下文特征的余弦相似度，另一部分度量该片段与其上下文分类置信度之差。

步骤4：动作片段筛选融合。回归神经网络训练结束后，经过一个无参数的融合模块，筛选融合RGB和光流分别得到的动作片段，得到最后的结果。

其中，步骤2具体包括：

其损失函数的计算过程为：首先，对于动作片段[x_s,x_e]，我们将其扩充到[X_s,X_e]，其中

作为该片段的上下文信息。本发明的损失函数由两部分组成，一部分用来表征动作片段特征与其上下文特征的余弦相似度：假设该动作片段与其上下文的特征分别用如下符号表示

其中F(u)为视频在时间点为u特征表示。这部分的计算方法为:

另一部分用分类置信度来表征：

其中S(k,u)表示在类别k下，片段u的分类置信度。

最终的损失函数为：

L＝αL_c+(1-α)(L_c-1)

其中，α为超参数，取值为0＜α＜1。

步骤4具体包括：回归网络训练结束后，对于RGB和光流分别得到的动作片段，本发明进行如下的筛选融合过程：假设由RGB和光流得到的动作片段分别为

其中，N_r和N_f分别为RGB和光流动作片段数。

对于每个RGB的动作片段，计算其与光流片段的最大IoU：

最终的筛选融合结果为所有光流的动作片段和具有I(p_r,j)<0.4的RGB动作片段的组合。

综上，本发明将RGB和光流分别处理，减少了传统方法中由于直接处理RGB和光流拼接的特征可能带来的干扰。两个动作模态的表示不同，分别处理更能挖掘不同动作模态的特点。同时，本发明设计了一个筛选融合模块来结合两个不同动作模态的动作定位结果。本发明设计的动作连贯性损失函数，结合了动作片段特征与动作片段分类置信度，一定程度上避免了传统方法中仅根据动作片段分类置信度评估动作片段的局限性。

实施例

请参阅图1，本发明实施例的一种基于动作连贯性的弱监督时序动作定位方法，具体包括以下步骤：

步骤1：分别对RGB和光流进行如下处理：将视频分为不重合的15帧一个片段的集合，对于每一个片段，随机取3帧作为该片段的代表帧，然后使用Temporal SegmentNetwork对该3帧提取特征，取平均值后作为该片段的特征。

步骤2：以RGB为例(光流与RGB处理方法相同)，将由步骤1中得到的RGB特征R_s输入到多个回归网络。每个回归网络由3层1D卷积神经网络构成，并指定了一个片段长度P。为了避免过拟合，回归网络的前两层由空洞卷积网络构成，有256个大小为3的卷积核。最后一层有2个大小为1的卷积核，其输出分别回归开始边界和结束边界。为了保证有足够的上下文信息输入到网络，回归网络的感受野被设置成了P。设置方法为将回归网络的前两层的空洞卷积的空洞设置为

对于长度为T的视频，对于其每个时序位置，我们首先初始化假想的动作片段为

其中x_e,i-x_s,i＝P。然后由回归网络的回归结果

与

回归结果为

回归计算过程为:

步骤3：对于动作片段[x_s,x_e]，我们将其扩充到[X_s,X_e]，其中

作为该片段的上下文信息。为了评估动作片段，该发明定义了一个动作连贯性损失函数，该损失函数由两部分组成，一部分用来表征动作片段特征与其上下文特征的余弦相似度：假设该动作片段与其上下文的特征分别用如下符号表示

其中F(u)为视频在时间点为u特征表示。这部分的计算方法为:

另一部分用分类置信度来表征：

其中S(k,u)表示在类别k下，片段u的分类置信度。

最终的损失函数为：

L＝αL_c+(1-α)(L_c-1)

其中，α为超参数，在实际中设置为0.6。回归网络训练时，回归网络的损失函数值是所有动作片段损失函数值的平均值。在测试时，使用IoU为0.4的非极大值抑制移除冗余的动作片段。

步骤4：回归网络训练结束后，对于RGB和光流分别得到的动作片段，本发明进行如下的筛选融合过程：假设由RGB和光流得到的动作片段分别为

其中N_r和N_f分别为RGB和光流剩余动作片段数。对于每个RGB的动作片段，计算其与光流片段的最大IoU：

最终的筛选融合结果为所有光流的动作片段和具有I(p_r,j)<0.4的RGB动作片段的组合。请参阅图2和图3，通过实验对比本发明与历史实验数据的改善效果。

参见图2，为本发明与历史实验数据在THUMOS14数据集上的测试结果。可以看到在所有IoU下，本发明所测得mAP都超过了历史实验数据。

参见图3，为本发明与历史实验数据在ActivityNet数据集上的测试结果。可以看到在所有IoU下，以及平均情况下，本发明所测得mAP都超过了历史实验数据。

综上所述，本发明公开了一种基于动作连贯性的弱监督时序动作定位方法，即在给定视频类别的情况下定位视频中属于该类别的动作片段，属于机器视觉领域。本发明的主要思路为：将视频分为RGB帧和光流分别处理，对于每个动作模态，首先针对视频上的每个时间点，提出长度不同的假设的动作片段，然后根据视频的动作连贯性和分类准确率使用卷积神经网络回归动作片段。对于两个动作模态得到的不同动作片段，通过一个特性的模块进行结合，筛选出最终的动作定位结果。

以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员依然可以对本发明的具体实施方式进行修改或者等同替换，这些未脱离本发明精神和范围的任何修改或者等同替换，均在申请待批的本发明的权利要求保护范围之内。