CN111914731A

CN111914731A - 一种基于自注意力机制的多模态lstm的视频动作预测方法

Info

Publication number: CN111914731A
Application number: CN202010738071.7A
Authority: CN
Inventors: 邵洁; 莫晨
Original assignee: Shanghai Electric Power University
Current assignee: Shanghai Electric Power University
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-10
Anticipated expiration: 2040-07-28
Also published as: CN111914731B

Abstract

本发明涉及一种基于自注意力机制的多模态LSTM的视频动作预测方法，该方法包括以下步骤：步骤1：准备训练数据集并针对原视频进行预处理得到RGB图片和光流图片；步骤2：基于RGB图片和光流图片通过TSN网络提取RGB特征和光流特征，基于训练数据集通过Faster‑RCNN目标检测器得到与目标检测相关的特征；步骤3：建立基于自注意力机制的多模态LSTM网络模型，并将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至该网络模型中训练，输出各自对应的动作种类分布张量；步骤4：建立融合网络为动作种类分布张量分配权重并与动作种类分布张量相结合得到最终视频动作预测结果。与现有技术相比，本发明具有准确率高，解决了较长的动作预测时间效果不佳的缺陷。

Description

一种基于自注意力机制的多模态LSTM的视频动作预测方法

技术领域

本发明涉及视频动作预测技术领域，尤其是涉及一种基于自注意力机制的多模态LSTM的视频动作预测方法。

背景技术

基于视觉的动作识别一直是计算机视觉领域研究的难点与热点之一，涉及图像处理、深度学习、人工智能等多个学科领域。不仅具有很高的学术研究价值，在5G时代下互联网行业的蓬勃发展的趋势下，对于视频的分析和理解还具有广泛的应用背景。目前动作识别领域的关注点在于如何正确地识别视频中包含的完整动作。然而在实际应用中，人们更希望监控***能对监控场所中潜在的风险进行预警，使得危险行为造成严重后果之前对这些行为加以阻止，而并非已经完成的动作加以识别或者对造成的后果加以检测。若要实现这一目的，则需要赋予监控***视觉，使其具备动作预测的能力。

动作预测是指通过提取并且处理连续输入的视频流的特征，从而在视频中的动作完成前尽可能早地对其动作类别进行预测。动作预测与动作识别的主要区别便在于识别对象的完整性。前者的识别对象是动作发生前的视频片段，这些片段不包含将要发生的动作。而后者的识别对象是包含动作的完整视频。动作预测是一项更加具有挑战性的任务。第一，一些动作在运动的初期具有相似的特征表现，比如“握手”和“挥手”这两个不同的动作在运动初期都存在将手向上抬起的过程，相似的举动使得获得的视频流的特征不好区分这两个不同的动作。第二，由于动作预测任务的设定，无法得知完成整个动作需要的时间，无法通过动作持续时间来区分不同的动作。因此从已经观测到的视频部分，既无法取得具有关键语义的特征来区分动作初期相似的动作，也不能获得完整的动作时序结构。第三，由于选取的视频片段取在需要预测的动作片段之前，而这样的输入数据往往与需要预测的动作没有很强的联系。

动作预测方法通常从视频里提取出特征，建模特征与动作类别之间的映射关系来预测将来发生的动作。因此预测效果的好坏很大程度上取决于特征对于非完整动作的描述能力，以及能否从目标动作中学习到其所特有的时序运动模式。在深度学习的方法出现之前，词袋模型以及支持向量机等传统机器学习方法被用于解决动作预测任务。近年来，深度学习类的方法成为计算机视觉领域的主流，卷积网络可以提取具有丰富语义的高层次特征，这些高层次特征可以用来识别以及检测。然后再进一步融合或者编码这些特征，改善模型的效果。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于自注意力机制的多模态LSTM的视频动作预测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于自注意力机制的多模态LSTM的视频动作预测方法，该方法包括以下步骤：

步骤1：准备训练数据集并针对原视频进行预处理得到RGB图片和光流图片；

步骤2：基于RGB图片和光流图片通过TSN网络提取RGB特征和光流特征，基于训练数据集通过Faster-RCNN目标检测器得到与目标检测相关的特征；

步骤3：建立基于自注意力机制的多模态LSTM网络模型，并将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至该网络模型中训练，输出各自对应的动作种类分布张量；

步骤4：建立融合网络为动作种类分布张量分配权重并与动作种类分布张量相结合得到最终视频动作预测结果。

进一步地，所述的步骤1包括以下分步骤：

步骤101：选取用于训练得到与目标检测相关的特征的数据集；

步骤102：按照设定帧率分解原视频提取得到RGB图片；

步骤103：采用TVL1算法针对原视频提取得到光流图片。

进一步地，所述步骤101中的数据集采用EPIC-KITCHENS数据集和EGTEA Gaze⁺数据集。

进一步地，所述步骤102中的设定帧率为30fps。

进一步地，所述的步骤2包括以下分步骤：

步骤201：预先训练完毕原TSN网络，得到预训练的TSN网络模型；

步骤202；去除原TSN网络中的分类层，加载预训练的TSN网络模型，得到基于双流法原理的TSN网络；

步骤203：将RGB图片和光流图片输入至基于双流法原理的TSN网络中，从该网络中的global pooling层输出提取对应的RGB特征和光流特征；

步骤204：利用数据集的目标标注训练Faster-RCNN目标检测器得到与目标检测相关的特征。

进一步地，所述步骤202中的基于双流法原理的TSN网络所对应的训练过程的初始学习率设为0.001，采用随机梯度下降的标准交叉熵损失函数训练160个epoch，当在第80个epoch后，学习率减少10倍。

进一步地，所述步骤204中的数据集采用EGTEA Gaze⁺数据集。

进一步地，所述步骤3包括以下分步骤：

步骤301：建立基于自注意力机制的多模态LSTM网络模型，其包括由位置编码模块和自注意力机制模块组成的编码器和多层独立的LSTM网络，其中：

所述位置编码模块，用于编码视频中的帧的绝对位置和相对位置以得到对应的位置的特征序列；

所述自注意力机制模块，用于进一步挖掘位置的特征序列中的语义以得到对于视频的全局描述；

步骤302：将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练，输出各自对应的动作种类分布张量。

进一步地，所述步骤302中的将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练所对应的训练过程的学习率设为0.005，采用随机梯度下降的标准交叉熵损失函数训练100个epoch，动量设为0.9。

进一步地，所述LSTM网络的层数为2层。

与现有技术相比，本发明具有以下优点：

(1)本发明方法综合考虑三种视频特征，RGB特征用于建模空间信息，光流特征用于建模时序运动信息，与目标检测相关的特征用于建模视频中的人与何种目标进行互动；由于特征序列对于位置信息十分敏感，采用独立的基于三角函数的位置编码模块编码视频中的帧的绝对位置以及相对位置；对于编码好位置的特征序列，再送入自注意力模块处理，进一步挖掘特征序列中的语义以获得对于视频的全局描述；将自注意模块的输出作为LSTM网络的输入，LSTM能够有效地加载历史信息，并且可以完成不同预测时间的预测，LSTM网络的输出即为动作种类的分布；为了避免过拟合，分开训练特征提取网络和预测网络；提取好的三种特征作为预测网络的输入，预测网络采取交叉熵损失函数进行训练；将训练好的模型在数据集的测试集上进行检测，以评估模型的效果；与近年来做动作预测的方法对比，在准确率指标上超过了那些方法，并且解决了较长的动作预测时间效果不佳的缺陷。

(2)本发明方法中的自注意力机制是自然语言处理领域的研究提出，被证实在文本、语音等数据上取得了不错的效果。而计算机视觉领域的数据类型以图片视频为主，在动作预测任务的算法运用自注意力机制有助于缩短两大社区之间的距离。

(3)本发明方法证明了文本序列与视频序列都具有时序性，相似的特性也是能够使用位置编码和自注意力机制编码的基础。

附图说明

图1为本发明中的整体网络模型结构图；

图2为本发明中的多模态LSTM网络模型结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

具体实施例

1.视频预处理以及训练数据准备

本发明方法在EPIC-KITCHENS和EGTEA Gaze⁺两个数据集进行实验，以30fps的帧率分解原视频提取RGB图片，然后使用TVL1算法提取对应的光流图片。

2.特征提取

本发明方法采用基于双流法原理的TSN网络提取RGB特征和光流特征。首先在动作识别任务上训练好TSN网络，得到预训练的模型。然后去除原TSN网络的分类层，加载预训练的模型，从global pooling层的输出提取相应的RGB特征和光流特征。与目标检测相关的特征利用数据集的目标标注训练Faster-RCNN目标检测器，目标检测器的输出略去边界框的坐标信息，保留目标的种类信息。因为算法只关注视频中的人与何物在互动，即算法仅仅建模有利于预测动作种类的信息。

3.动作预测

本发明方法设计的动作预测算法的网络模型结构如图1所示，以位置编码模块和自注意力机制模块的编码器和两层独立的LSTM网络为基础框架，编码器负责进一步编码提取完的特征序列，提取特征序列的上下文信息以获得更加丰富的语义。LSTM网络具体实施动作预测，加载过去观察到的视频帧，并且产生不同的预测时间的动作种类分布。LSTM的输入输出关系如图2所示，对于一个视频片段，在动作开始前，往前取样14帧图片，时间间隔为0.25s。三种特征分别进入由编码器和LSTM网络构成的三个子网络，分别训练。最后再使用三个全连接层构成的注意力机制的融合网络，为三个子网络分配权重，权重与对应的动作种类分布张量对应相乘得到整个模型最后输出。

4.训练策略以及相关参数

TSN的双流网络训练设定是，segment的数量为3，采用随机梯度下降的标准交叉熵损失函数训练160个epoch。初始学习率定为0.001，在第80个epoch后，学习率减少10倍。实验环境为单卡GEFORCE 1060。Faster-RCNN目标检测器在EPIC-KITCHENS数据集训练，由于EGTEA Gaze⁺数据集缺乏边界框标注，所以在该数据集上并未加入与目标检测相关的特征，该数据集上的模型仅考虑RGB特征和光流特征。预测网络有3个子网络，每个子网络也是采用随机梯度下降的标准交叉熵损失函数进行训练，学习率固定不变定为0.005，动量设为0.9，训练100个epoch。

5.实验结果与分析

表1和表2展示了本发明方法与其他预测算法在EPIC-KITCHENS和EGTEA Gaze⁺数据集上的结果。评价指标是Top-5准确率。在EGTEA Gaze⁺数据集上所有的预测时间，本发明方法超过了对比的方法。在EPIC-KITCHENS数据集上，除了预测时间为0.5s和0.25s略低于RU算法，其他预测时间均超过了其他的对比算法。为了进一步验证自注意力机制的有效性，本发明方法在模型中对比全模型(B)以及去除掉编码器后的模型(A)在三个分特征上的预测结果如表3所示。从结果看来，本发明方法提出的基于自注意力机制的编码器有效地改善了模型的性能，不仅解决了其他算法在长预测时间性能较差的缺陷，增加了模型的鲁棒性，而且在准确率上也带来了提升。

表1：本发明方法与其他预测算法在EPIC-KITCHENS数据集上的预测结果

TABLE I

Action anticipation results on the EPIC-KITCHENS dataset

表2：本发明方法与其他预测算法在EGTEA Gaze⁺数据集上的预测结果

TABLE II

Action anticipation results on the EGTEA Gaze+dataset

表3：本发明方法在模型中对比全模型(B)以及去除掉编码器后的模型(A)在三个分特征上的预测结果

TABLE III

Comparison of experimental results with and without Encoder on asingle modality

本实施例的图1中，Linear layer表示线性层，Flow feature表示光流特征，RGBfeature表示RGB特征，Obj feature表示与目标检测相关的特征，Multiplication表示相乘，Anticipation output distribution表示预测输出结果，BN-inception表示BN-inception网络结构，Faster-RCNN表示Faster-RCNN目标检测器，Position encoding表示位置编码模块，Sum表示求和，The concatenation of hidden and cell states表示隐藏状态和单元状态的连接，Self-attention表示自注意力模块，Rolling LSTM unit表示运行中的LSTM网络单元，Unrolling LSTM unit表示未运行的LSTM网络单元，Multi-model LSTM表示多模态LSTM网络模型，Modality ATTention fusion network表示模态注意融合网络；

本实施例的图2中，Observation time表示观测时间，Anticipation time表示预测时间，Time interval表示时间区间，Anticipate output表示预测输出，ObservedSegment表示观察部分，Action occurring表示行动发生，Action starting time表示行动开始时间。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述的步骤1包括以下分步骤：

步骤102：按照设定帧率分解原视频提取得到RGB图片；

步骤103：采用TVL1算法针对原视频提取得到光流图片。

3.根据权利要求2所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤101中的数据集采用EPIC-KITCHENS数据集和EGTEA Gaze⁺数据集。

4.根据权利要求2所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤102中的设定帧率为30fps。

5.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述的步骤2包括以下分步骤：

6.根据权利要求5所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤202中的基于双流法原理的TSN网络所对应的训练过程的初始学习率设为0.001，采用随机梯度下降的标准交叉熵损失函数训练160个epoch，当在第80个epoch后，学习率减少10倍。

7.根据权利要求5所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤204中的数据集采用EGTEA Gaze⁺数据集。

8.根据权利要求1所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤3包括以下分步骤：

9.根据权利要求8所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述步骤302中的将步骤2中得到的RGB特征和光流特征以及与目标检测相关的特征输入至基于自注意力机制的多模态LSTM网络模型中训练所对应的训练过程的学习率设为0.005，采用随机梯度下降的标准交叉熵损失函数训练100个epoch，动量设为0.9。

10.根据权利要求8所述的一种基于自注意力机制的多模态LSTM的视频动作预测方法，其特征在于，所述LSTM网络的层数为2层。