CN110414367B

CN110414367B - 一种基于gan和ssn的时序行为检测方法

Info

Publication number: CN110414367B
Application number: CN201910599488.7A
Authority: CN
Inventors: 李致远; 桑农; 张士伟; 高常鑫
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-07-04
Filing date: 2019-07-04
Publication date: 2022-03-29
Anticipated expiration: 2039-07-04
Also published as: CN110414367A

Abstract

本发明公开了一种基于GAN和SSN的时序行为检测方法，属于计算机视觉技术领域，所述方法包括：对视频数据进行帧提取和光流计算，并对每一帧图像或光流图像进行归一化和数据增强；选取所述视频数据中具有动作性片段的连续时间区域作为提议，并将选取出的提议对应的帧图像，作为训练集和测试集；构建包括结构化分段网络和生成对抗网络的时序行为检测模型；将训练集和测试集输入所述时序行为检测模型进行训练，得到训练好的时序行为检测模型；将待识别的视频输入训练好的时序行为检测模型，得到视频中存在的行为类别，与行为对应的起始位置和结束位置。本发明提高了网络对于背景和行为的分辨能力，对视频中的时序行为检测有较高的识别精度。

Description

一种基于GAN和SSN的时序行为检测方法

技术领域

本发明属于计算机视觉技术领域，更具体地，涉及一种基于GAN和SSN的时序行为检测方法。

背景技术

随着互联网的迅速普及，海量的视频数据也随之产生，作为目前社会中最大的信息载体之一，视频正处在一种飞速增长状态，怎样才能充分利用如此庞大的数据是当务之急。因此，对视频数据的分析、分类、识别等方面的工作需求也呈急剧增长，同时由于在监视，视频分析和其他领域的众多潜在应用，时序行为检测已引起研究界越来越多的关注。时序行为检测是行为检测领域的一项子任务，其从未修剪的视频和可能非常长的视频中检测人类动作实例，与行为识别相比，其预测结果不仅会输出动作类别，还会输出精确的开始和结束时间点，因此更具挑战性。

在现实的应用中，大量视频数据通常在时间上任意长且在空间上任意大，其中包含许多个动作实例且含有很多不相关的背景信息。目前已经提出了手工制作的特征和深层特征这两种主流方法来检测动作。在基于CNN的算法被广泛应用到行为识别领域之前，手工制作的特征在THUMOS2014和2015挑战中取得了最佳性能，其通常使用的特征包括改进的密集轨迹(iDT)和费舍尔矢量(FV)。同时，手工制作可以和深度学习相结合，也能实现高准确度的结果。最近也有一些基于单帧的深度神经网络实现自动提取特征的研究，依赖于2D卷积神经网络(CNN)，不考虑运动信息。然而，获取运动信息对于运动建模和时间边界的确定是重要的。为了模拟动作的时间演化，许多方法通过滑动窗口或二元分类生成候选时间片段，然后对它们进行分类和识别。然而，这些基于滑动窗口的主流框架的缺点是存在大量冗余检测，这不仅降低了检测精度，而且影响了其应用。

与此同时众多针基于不同场景的行为检测方法被提出，并已取得了较高的检测性能，然而，大多数方法都假定视频剪裁得很好，其中感兴趣的动作几乎持续整个持续时间，因此，他们不需要考虑本地化动作实例的问题，同时由于网络本身无法很好地区分训练过程中的难例样本，因此网络对于行为和背景的分辨能力不强。

总体来说，所以现有的时序行为检测方法由于无法捕获行为与背景的细微差异，因此不能有效区分行为与背景问题。

发明内容

针对现有技术的缺陷，本发明的目的在于提供一种基于GAN和SSN的时序行为检测方法，旨在解决现有时序行为检测对行为和背景的分辨能力较差的问题。

为实现上述目的，本发明提供了一种基于GAN和SSN的时序行为检测方法，包括：

(1)将视频数据划分为训练集和测试集，对所述训练集和测试集进行帧提取和光流计算；

(2)对每个视频选取一些区域片段作为提议，并对所述提议中包含的帧图像或光流图像进行归一化和数据增强处理；

(3)构建时序行为检测模型；

所述时序行为检测模型包括结构化分段网络和生成对抗网络；

所述结构化分段网络用于对提议包含的图像进行特征提取，并以设定比例将提取到的特征分为开始阶段、行为阶段和结束阶段特征，根据所述开始阶段、行为阶段和结束阶段特征进行分类、边界回归和完整性评分；

所述生成对抗网络用于生成与所述结构化分段网络提取的特征维度和大小相同，且在训练集中统计同分布的难例特征，并根据所述难例特征和结构化分段网络提取的特征进行真实或虚假的特征判断；

(4)将所述训练集和测试集输入所述时序行为检测模型进行训练和测试，得到最终训练好的时序行为检测模型；

(5)将待识别的视频输入训练好的时序行为检测模型，得到视频中存在的行为类别，以及与各类行为对应的起始位置和结束位置。

进一步地，步骤(2)中所述对每个视频选取一些区域片段作为提议，具体包括：

(2.1)对每个视频随机生成一系列提议；

(2.2)采用基于BNinception的二分类网络对随机生成的提议进行评分；

(2.3)采用TAG算法根据提议评分生成时序行为检测需要的提议。

进一步地，步骤(2.3)具体包括：

(2.3.1)将提议评分沿水平线反转，并将评分位于设定分数以下的提议，视为提议盆地；

(2.3.2)从当前提议盆地开始，合并随后的提议盆地，直到盆地持续时间超过总持续时间的比例下降到设定的门槛；所述总持续时间为第一个提议盆地开始的时间到最后一个提议盆地末端的时间；

(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议；

(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3)，得到多个提议；

(2.3.5)对重叠度为0.95的提议进行非最大抑制，得到时序行为检测需要的提议。

进一步地，所述结构化分段网络包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络；

所述提议分段子网络用于对选取出的提议进行扩展并均分为多段，并从每段提议中随机提取帧图像或光流图像；所述特征提取子网络用于对提取的帧图像或光流图像进行特征提取，并以设定比例将提取到的特征分为开始阶段特征、行为阶段特征和结束阶段特征；所述边界回归子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归；所述分类子网络用于根据所述行为阶段特征进行行为类别判定；所述完整性判断子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分。

进一步地，所述特征提取子网络，以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征。

进一步地，所述分类子网络和完整性判断子网络的损失函数为：

L_cls(c_i,b_i；p_i)＝-log P(c_i|p_i)-1_(ci≥1)log P(b_i|c_i,p_i)

其中，p_i是提议，c_i是类标签，b_i表示p_i是否是完整的，完整性P(b_i|c_i,p_i)仅在提议p_i不被视为背景的一部分时使用；

所述边界回归子网络的损失函数为：

当且仅当c_i≥1&b_i＝1时，计算边界回归子网络损失，其中，μ_i为提议p_i与最近的真实行为实例两个区间中心的相对变化，φ_i为提议p_i与最近的真实行为实例两个区间中心的对数比例跨度。

进一步地，所述生成对抗网络包括生成器和判别器；

所述生成器用于生成与所述结构化分段网络中特征提取子网络提取的特征维度和大小相同，且在所述训练集中统计同分布的难例特征；所述判别器用于根据所述生成器生成的难例特征和结构化分段网络中特征提取子网络提取的特征进行真实或虚假的特征判断，同时对真实特征进行行为类别判定。

进一步地，所述生成器包括依次连接的两个全连接层；所述生成器的输入为随机正态分布的向量。

进一步地，所述两个全连接层的神经元个数均为4096，所述向量的长度为100。

进一步地，所述生成器的特征匹配损失为：

其中，φ(·)表示特征提取子网络，ψ(·)表示分类子网络，G(·)表示生成器，P_action＝{(x_s,y)}表示行为窗口的训练集，x_s表示行为窗口，y表示基本事实标签；

所述判别器的损失函数为：

L_D＝L_real+L_fake

其中，L_real为实际样本的分类损失，L_fake为生成的假样本损失；

L_fake＝E_z～noise[-log P_D(K+2|G(z))]

表示判别为行为的期望，

表示判别为背景的期望，

{o₁,...,o_K+1}为预测向量，x_ns为背景窗口，E_z～noise[]表示判别为噪声的期望，K+2代表难例特征。

通过本发明所构思的以上技术方案，与现有技术相比，能够取得以下有益效果：

(1)本发明通过GAN网络生成与结构化分段网络提取的特征维度和大小相同且在训练集中统计同分布的难例特征，增加了模型对于难例样本的识别能力，使得模型能够捕获行为和背景的细微差别，提高了模型对行为和背景的分辨能力，从而提高了时序行为定位的精度；

(2)本发明采用结构化分段网络对提议进行分段处理，使得模型对于视频中的行为动作具有上下文识别能力，保证了模型对行为动作的识别能力。

附图说明

图1是本发明的基于GAN和SSN的时序行为检测方法流程图；

图2是时序行为检测模型结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参考图1，本发明实施例提供了一种基于GAN和SSN的时序行为检测方法，包括：

具体地，对每个视频选取一些区域片段作为提议，具体包括：

(2.1)对视频数据随机生成一系列提议；

具体地，对每个视频取12个提议proposal，其中前景和背景的比例为Fg：Bg＝3:9(重叠度>0.7则认为是fg；重叠度<0.7则认为是bg)，网络参数设置为：batchsize＝3；学习率＝0.0001。基本想法是找到那些具有大部分高动作性片段的连续时间区域作为提议，然后使用TAG算法生成时序行为检测需要的提议。

具体地，步骤(2.3)具体包括：

(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议；

(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3)，得到多个提议；

将选取的提议中包含的每一帧图像或光流图像归一化为224*224像素大小，并以0.5的概率对所述帧图像或光流图像进行随机水平翻转。

(3)构建时序行为检测模型；

具体地，本发明的时序行为检测模型包括结构化分段网络SSN(structuredsegmentnetwork)和生成对抗网络GAN(Generative adversarial network)；

具体地，如图2所示，结构化分段网络，包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络；

提议分段子网络，用于对选取出的提议进行扩展并均分为多段，并从每段提议中随机提取一帧图像；特征提取子网络，用于以对提取的每一帧图像进行特征提取，并以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征；边界回归子网络，用于根据开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归；分类子网络，用于根据行为阶段特征进行行为类别判定；完整性判断子网络，用于根据开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分；

生成对抗网络，包括生成器和判别器；生成器，用于生成与结构化分段网络中特征提取子网络提取的特征维度和大小相同，且在训练集中统计同分布的难例特征；判别器，用于根据生成器生成的难例特征和结构化分段网络中特征提取子网络提取的特征进行真实或虚假的特征判断，同时对真实特征进行行为类别判定；

如图2所示，本发明的生成器包括依次连接的两个全连接层FC1和FC2；两个全连接层的神经元个数均为4096，将随机正态分布的长度为100的向量作为生成器的输入，以输出难例特征。

(4)将所述训练集和测试集输入所述时序行为检测模型进行训练，得到训练好的时序行为检测模型；

具体地，在结构化分段网络部分，损失函数主要分为分类损失、行为完整性损失、边界回归损失，行为分类子网络和完整性判断子网络共同定义统一的分类损失：

L_cls(c_i,b_i；p_i)＝-log P(c_i|p_i)-1_(ci≥1)log P(b_i|c_i,p_i)

边界回归子网络的损失函数为：

当且仅当c_i≥1&b_i＝1时，即提议属于行为类且完整时，计算边界回归子网络损失，其中，μ_i为提议p_i与最近的真实行为实例两个区间中心的相对变化，φ_i为提议p_i与最近的真实行为实例两个区间中心的对数比例跨度。

在生成对抗网络部分，损失函数主要分为特征相似性损失、分类损失，生成器的特征匹配损失定义为：

判别器判断特征是否是由生成器生成的损失定义为：

L_D＝L_real+L_fake

L_fake＝E_z～noise[-log P_D(K+2|G(z))]

表示判别为行为的期望，

表示判别为背景的期望，

(5)将待识别的视频输入训练好的时序行为检测模型，得到视频中存在的行为类别，与行为对应的起始位置和结束位置。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GAN和SSN的时序行为检测方法，其特征在于，包括：

(3)构建时序行为检测模型；

所述结构化分段网络用于对提议包含的图像进行特征提取，并以设定比例将提取到的特征分为开始阶段、行为阶段和结束阶段特征，根据所述开始阶段、行为阶段和结束阶段特征进行分类、边界回归和完整性评分；所述结构化分段网络包括提议分段子网络、特征提取子网络、边界回归子网络、分类子网络和完整性判断子网络；

所述提议分段子网络用于对选取出的提议进行扩展并均分为多段，并从每段提议中随机提取帧图像或光流图像；所述特征提取子网络用于对提取的帧图像或光流图像进行特征提取，并以设定比例将提取到的特征分为开始阶段特征、行为阶段特征和结束阶段特征；所述边界回归子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为边界定位回归；所述分类子网络用于根据所述行为阶段特征进行视频行为类别判定；所述完整性判断子网络用于根据所述开始阶段特征、行为阶段特征和结束阶段特征进行行为完整性评分；

2.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法，其特征在于，步骤(2)中所述对每个视频选取一些区域片段作为提议，具体包括：

(2.1)对每个视频随机生成一系列提议；

3.根据权利要求2所述的一种基于GAN和SSN的时序行为检测方法，其特征在于，步骤(2.3)具体包括：

(2.3.3)将提议盆地与盆地之间的间隔区域合并作为单个提议；

(2.3.4)对每个提议执行步骤(2.3.2)-(2.3.3)，得到多个提议；

4.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法，其特征在于，所述特征提取子网络，以2:5:2的比例将提取到的特征分为开始特征、行为特征和结束特征。

5.根据权利要求1所述的一种基于GAN和SSN的时序行为检测方法，其特征在于，所述分类子网络和完整性判断子网络的损失函数为：

L_cls(c_i，b_i；p_i)＝-log P(c_i|p_i)-1_(ci≥1)log P(b_i|c_i，p_i)

其中，p_i是提议，c_i是类标签，b_i表示p_i是否是完整的，完整性P(b_i|c_i，p_i)仅在提议p_i不被视为背景的一部分时使用；

所述边界回归子网络的损失函数为：