CN110998594A

CN110998594A - 检测动作的方法和***

Info

Publication number: CN110998594A
Application number: CN201880048903.3A
Authority: CN
Inventors: M·琼斯; T·马克斯; K·库尔卡尼
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2017-08-07
Filing date: 2018-06-18
Publication date: 2020-04-10
Anticipated expiration: 2038-06-18
Also published as: JP2020530162A; EP3665613A1; CN110998594B; US10210391B1; JP6877630B2; WO2019031083A1; US20190042850A1

Abstract

一种从场景的视频检测该场景中的对象的动作的方法和***。视频是被分割成组块的视频序列，并且各个组块包括连续视频帧。该方法包括以下元素。获取场景的视频，其中，视频包括图像序列。跟踪视频中的对象，并且对于视频的各个对象和各个组块，还包括：从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络RNN，该RNN输出各个关注动作的相对得分。

Description

检测动作的方法和***

技术领域

本公开总体上涉及计算机视觉和相机监控应用，更具体地，涉及通过使用从视频序列的帧计算的轮廓图像的序列表示运动信息来检测视频中执行特定关注动作的对象(例如，人)的实例。

背景技术

在计算机视觉和相机监控应用中，常见的问题是识别和检测诸如人、机械、车辆、机器人等的对象所执行的特定动作。对分析视频中的动作的一般问题已进行了大量工作，但大多数现有技术工作集中在动作识别，而非动作检测。

动作识别是指分类(即，识别)视频片段中正在执行哪一动作，该视频片段已时间上修剪以使得该片段在动作开始时或动作开始附近开始并在动作结束时或动作结束附近结束。我们使用术语时间上修剪来表示这些视频片段。动作检测是指从长的(即，未时间上修剪的)视频序列中发生的已知动作类别集合对各个动作的每一次出现进行时间或空时定位。

与动作识别有关的任务是活动识别。在活动识别任务中，分析描绘活动(例如，正在比赛的特定体育运动)的视频片段，并且目标是确定视频中描绘了哪一活动(例如，何种体育运动)。

细粒度动作检测是指要检测的动作类别之间的差异较小的动作检测。例如，在烹饪情景中，从包括诸如切碎、磨碎和剥皮的类似动作的集合检测动作是细粒度动作检测的示例。然而，用于动作检测的现有技术方法的至少一个缺陷是其相对低的准确性。即，对于大多数计算机视觉应用以及其它应用，现有技术的动作检测方法的性能不够好。

诸如动作识别、事件检测和视频检索的大多数视频分析任务的标准流水线是计算手工制作的特征，例如方向梯度直方图(HOG)、运动边界直方图(MBH)和光流直方图(HOF)。传统方法依赖于计算上昂贵的输入表示(例如，改进的密集轨迹或密集光流)，为各个视频剪辑创建Fisher向量，然后使用支持向量机来执行分类。然而，在许多缺点当中上述动作检测/识别的先前方法的至少一个主要缺点在于，这些方法依赖于输入表示和中间表示，这些表示计算非常耗时并且需要大量存储器来存储。这使得这些传统方法对于现实世界动作检测应用不可行。

因此，需要开发可在时间和存储器要求方面高效地检测视频中的动作的动作检测方法。

发明内容

本公开提供了克服诸如动作识别、事件检测和视频检索的视频分析任务的问题的方法和***，这些任务依赖于计算非常耗时并且还需要大量存储器来存储的输入表示和中间表示。具体地，本公开描述了能够在使耗时计算最小化并降低存储器存储/要求方面高效地检测视频中的动作的动作检测方法和***。

具体地，本公开基于这样的认识：使用从视频序列的帧计算的轮廓图像的序列来表示运动信息可为视频中的动作等提供快速和存储器高效的检测器。例如，本公开基于在时间(视频的哪些帧)和空间(各个帧中的何处)上定位特定动作的出现来解决视频中的动作检测。通过实验我们认识到，我们可使用具有递归连接的深度神经网络来检测视频中的动作，该网络以跟踪对象(例如，人)周围的裁剪图像以及表示跨多个帧的裁剪区域内的运动的轮廓图像的序列作为输入。从使用基于光流的表示的先前方法我们发现，这些方法计算成本高，即，需要耗时计算和大量存储器和存储装置。这使得这些先前动作检测方法对现实世界应用不可行。

本公开还包括对象/人***，其可在空间上定位视频帧内何处发生动作。通过实验我们发现，不使用***而是仅在整个帧上分析运动和外观的传统方法使用了与关注动作无关的大量信息。另外，这些方法没有来自对任务而言最重要的区域的足够详细的信息。

此外，本公开还使用多流循环神经网络(RNN)，其学习表示运动和外观两个重要方面的特征，并学习区分不同动作的许多视频帧上的重要时间动态。例如，这些方法和***可用于检测视频中的对象的动作，其中对象可以是人、动物、机械、车辆、机器人、工厂环境中的工业机器人等。本公开为未时间上修剪的视频中发生的对象的动作提供更准确的动作检测。

本公开的另一方面包括使用作为RNN的一个或更多个层而包括的长短期记忆(LSTM)网络，其可学习具有比使用传统RNN可学习的更长持续时间的模式。本公开可使用双向LSTM提供更好的性能，这意味着本公开可使用来自过去和未来视频帧的信息来检测动作。

为了帮助进一步理解本公开，我们提供了至少一个方法的步骤，其包括：从场景的视频检测场景中的对象的动作，其中，该视频可通过视频装置拍摄并且视频本身可以是被分割成组块的视频序列，使得各个组块可包括连续视频帧。

例如，本公开的方法可包括以下步骤：获取场景的视频，其中，该视频包括图像序列。视频可由处理器下载到存储器中，其中，处理器访问存储器以获取视频。下一步骤可包括跟踪视频中的对象，并且对于视频的各个对象和各个组块，方法还可包括以下步骤：从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。下一步骤可使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。最后，最后步骤可将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN)，RNN输出各个关注动作的相对得分。

可以想到，输出接口可连接到处理器，其中，可输出与从场景的视频检测场景中的对象的动作有关的一些或所有数据。

根据本公开的实施方式，一种从场景的视频检测场景中的对象的动作的方法，其中，视频可以是被分割成组块的视频序列，并且各个组块包括连续视频帧。该方法包括以下步骤。获取场景的视频，其中，视频包括图像序列。跟踪视频中的对象，并且对于视频的各个对象和各个组块，该方法还包括以下步骤：从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN)，RNN输出各个关注动作的相对得分。

根据本公开的实施方式，一种从场景的视频检测场景中的对象的关注动作的***，其中，视频是被分割成组块的场景的视频序列，并且各个组块包括连续视频帧。该***包括处理器，该***获取场景的视频，使得视频包括图像序列。其中，处理器被配置为跟踪视频中的对象，并且对于视频的各个对象和各个组块，该方法包括以下步骤。从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动信息。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN)，RNN输出各个关注动作的相对得分。

根据本公开的实施方式，一种非暂时性计算机可读存储介质，其上具体实现有可由计算机执行以执行一种从场景的视频检测场景中的对象的关注动作的方法的程序。其中，视频可以是被分割成组块的场景的视频序列，使得各个组块包括连续视频帧。该方法包括由处理器获取场景的视频，其中，视频可包括图像序列。由处理器跟踪视频中的对象，并且对于视频的各个对象和各个组块，处理器被配置为：在围绕对象定位的边界框内从视频序列的视频帧确定轮廓图像序列；使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像；以及将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN)，RNN经由与处理器通信的输出接口输出各个关注动作的相对得分。

当前公开的实施方式将参照附图进一步说明。所示的附图未必按比例，相反通常着重于示出当前公开的实施方式的原理。

附图说明

[图1A]图1A示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的方法的框图。

[图1B]图1B是示出根据本公开的一些实施方式的从场景的视频检测场景中的对象的动作的图1A的方法的一些组件的示意图。

[图2]图2是示出根据本公开的一些实施方式的包括多流卷积神经网络(CNN)作为其初始层以及长短期记忆(LSTM)网络作为其最终层的循环神经网络(RNN)的示意图。

[图3A]图3A通过示出根据本公开的一些实施方式的来自图像序列的输入图像来给出轮廓图像的示例。

[图3B]图3B通过示出根据本公开的一些实施方式的从输入图像确定的轮廓图像来给出轮廓图像的示例。

[图4]图4是示出根据本公开的一些实施方式的LSTM单元的示意图。

[图5]图5是根据本公开的实施方式的检测对象的动作的至少一个方法和***的示意图。

[图6]图6是示出根据本公开的实施方式的可使用另选计算机或处理器配置实现的图1A的方法的框图。

具体实施方式

尽管上面标识的附图阐述了当前公开的实施方式，但也可以想到其它实施方式，如讨论中所指出。本公开作为表示而非限制呈现了例示性实施方式。本领域技术人员可以设计出落入当前公开的实施方式的原理的范围和精神内的许多其它修改和实施方式。

以下描述仅提供了示例性实施方式，而非旨在限制本公开的范围、适用性或配置。相反，示例性实施方式的以下描述将向本领域技术人员提供允许实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求中阐述的所公开的主题的精神和范围的情况下，可以想到可在元件的功能和布置方面进行的各种改变。在以下描述中给出具体细节以提供实施方式的彻底理解。然而，本领域普通技术人员可理解，实施方式可在没有这些具体细节的情况下实践。例如，所公开的主题中的***、过程和其它元件可作为组件以框图形式示出，以免在不必要的细节方面使实施方式模糊。在其它情况下，熟知过程、结构和技术可在没有不必要的细节的情况下示出，以避免使实施方式模糊。此外，各种附图中的相似标号和指代指示相似的元件。

另外，各个实施方式可作为过程描述，其被描绘为流程图、数据流程图、结构图或框图。尽管流程图可将操作描述为顺序过程，但许多操作可并行或同时执行。另外，操作次序可重新布置。过程在其操作完成时可终止，但是可具有未讨论或附图中未包括的附加步骤。此外，并非任何具体描述的过程中的所有操作可出现在所有实施方式中。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时，函数的终止可对应于函数返回到调用函数或主函数。

此外，所公开的主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时，执行所需任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行所需任务。

概述

本公开总体上涉及计算机视觉和相机监控应用，更具体地，涉及通过使用从视频序列的帧计算的轮廓图像的序列以表示运动信息来检测视频中执行特定关注动作的对象(例如，人)的实例。

具体地，本公开基于这样的认识：使用从视频序列的帧计算的轮廓图像的序列来表示运动信息可为视频中的动作等提供快速和存储器高效的检测器。例如，本公开基于在时间(视频的哪些帧)和空间(各个帧中的何处)上定位特定动作的发生来解决视频中的动作检测。通过实验我们认识到，我们可使用具有递归连接的深度神经网络来检测视频中的动作，该深度神经网络以跟踪对象(例如，人)周围的裁剪图像以及表示跨多个帧的裁剪区域内的运动的轮廓图像序列作为输入。从使用基于光流的表示的先前方法我们发现，这些方法计算成本高，即，需要耗时计算和大量存储器和存储装置。这使得这些先前动作检测方法对现实世界应用不可行。

此外，本公开还使用多流循环神经网络(RNN)，其学习表示运动和外观两个重要方面的特征，并学习区分不同动作的许多视频帧上的重要时间动态。例如，这些方法和***可用于检测视频中的对象的动作，其中对象可以是人、动物、机械、车辆、机器人、工厂设置中的工业机器人等。本公开为未时间上修剪的视频中发生的对象的动作提供更准确的动作检测。

方法和***

图1A示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的方法100的框图。视频可以是被分割成组块的视频序列，使得各个组块包括连续视频帧。初始步骤120包括由处理器110获取场景的视频，其中，视频包括图像序列。

步骤122包括跟踪视频中的对象，并且对于视频的各个对象和各个组块，还包括：步骤125，从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据；以及步骤127，使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。

最后，步骤128包括将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN)，RNN输出各个关注动作的相对得分。

图1B是示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的图1A的方法100的组件的示意图。具体地，图1B示出检测场景105中的对象107的动作(例如，检测场景中执行特定动作的人)的方法100的基本操作。获取120来自视频相机104的场景105的视频数据108作为图像序列115，其中，各个图像包括像素。场景可包括执行动作的一个或更多个对象107，例如，跑上楼梯或一些其它动作的人。由处理器110获取视频数据。此外，跟踪122一个或更多个对象107，并且在视频图像的各个组块中估计各个跟踪对象107的边界框123。例如，组块可以是六个连续图像、少于六个图像或多于六个图像的序列。

图像被裁剪至边界框123的范围，并且计算125轮廓图像序列并裁剪至边界框123的范围。所得裁剪轮廓图像和裁剪图像127被传递给循环神经网络(RNN)130，RNN 130已被训练以输出各个关注动作的相对得分140。这些步骤可在连接到存储器(未示出)的处理器110中执行。

如上所述，本公开的实施方式提供了检测视频中的对象的动作的方法和***。一些实施方式包括训练阶段和测试阶段，其中，训练阶段涉及从训练数据学习RNN的参数。一些实施方式可仅包括测试阶段。例如，仅具有测试阶段的方法可嵌入在使用预先训练的RNN的小型装置中。

图2是示出根据本公开的实施方式的包括多流卷积神经网络(CNN)作为其初始层以及长短期记忆(LSTM)网络作为其最终层的循环神经网络(RNN)的示意图。

例如，在训练阶段期间，我们训练四个独立的卷积神经网络(CNN)220，如图2所示。各个CNN处理四个流210中的一种：围绕跟踪对象的位置裁剪的视频图像的运动流211和外观流212，以及全帧(未空间上裁剪)视频图像的运动流213和外观流214。一些实施方式仅具有两个流：围绕跟踪对象的位置裁剪的视频图像的运动流211和外观流212。例如，对于背景场景嘈杂、不可名状或与对象正在执行的动作无关的情况，这可能有用。

仍参照图2，在一些实施方式中，各个卷积网络(CNN)使用VGG(视觉几何组)架构。然而，其它CNN架构也可用于各个流，例如AlexNet架构或ResNet架构。

四个网络对视频200的连续小组块201执行动作分类任务。例如，各个组块可由六个连续视频帧组成。CNN之后是投影层230和长短期记忆(LSTM)单元240，投影层230将所有流的CNN的输出投影到单个空间中。各个组块的输出是来自N个动作类别A₁、A₂、...、A_N的集合的检测的动作类别250。

在由已裁剪至跟踪对象的边界框的视频帧组成的组块上训练两个卷积神经网络(CNN)，图像和运动各一个。裁剪帧向动作提供限制到动作附近的边界框，这有助于对动作进行分类。在一些实施方式中，该边界框具有固定的像素大小，这有助于在动作的多次执行上对准对象。

仍参照图2，在一些优选实施方式中，在由未空间上裁剪的视频帧(即，各个帧是视频的全帧，从而保留场景内执行的动作的空间上下文)组成的组块上训练两个附加CNN，图像和运动各一个。我们将该网络称为多流神经网络，因为它具有多个(例如，四个)CNN，各个CNN处理来自视频的不同信息流。

在已训练四个网络220之后，我们在四个网络的输出上学习全连接投影层230以创建这些独立流的联合表示。在CNN使用VGG架构的一些实施方式中，网络的输出是其fc7层输出，其中fc7层是VGG网络中的最后全连接层。向多流网络提供作为组块201的时间序列布置的全长视频200，然后将投影层的输出的对应时间序列馈送到长短期记忆(LSTM)网络240中。在一些实施方式中，LSTM网络在两个方向上运行，即，LSTM网络是双向的。

双向LSTM网络由两个定向LSTM网络组成(一个在时间上向前连接，另一个在时间上向后连接)。在一些实施方式中，两个定向LSTM网络中的每一个之后是在各个定向LSTM网络的隐含状态之上的全连接层(为了清晰，图2中未示出)，之后是softmax层，以获得与各个动作对应的中间得分。最后，将两个定向LSTM的得分组合(例如，取平均)，以获得各个特定动作的得分。

仍参照图2，动作检测流水线中存在对于实现良好性能而言至关重要的多个组件。在此任务中，我们使用表征存在于视频中的空间和长期时间信息的模型。

使用边界框确定的轮廓图像提供通过从输入表示去除位置变化而使得许多动作更容易学习的参考图像。然而，一些动作依赖于位置。对于使用静态视频相机获取的场景，这些动作总是发生在相同的图像位置。例如，在烹饪视频中，洗涤和冲洗几乎总是在水槽附近进行，并且开门将最有可能在冰箱或橱柜附近执行。出于这些原因，我们在轮廓图像和视频帧的裁剪组块和未裁剪组块上训练两个单独的深度网络。

前两个CNN在使用来自对象***的框裁剪的裁剪图像上训练，以减少背景噪声并为轮廓图像和图像区域提供以对象为中心的参考图像。另两个CNN在整个(空间全帧)图像上训练，以保留全局空间上下文。

图3A和图3B示出从输入图像确定的轮廓图像。输入图像表示来自图像序列的图像。可从输入图像使用图像处理算法(例如，使用深度神经网络的算法)确定对象轮廓以确定轮廓图像。

轮廓图像可从输入图像自动计算，并且表示沿着图像中的各个对象的边界的边缘。此外，轮廓图像不表示输入图像内的颜色和纹理，而仅表示对象的边界。轮廓图像序列仅包含关于对应图像序列中的对象的移动的最相关的信息，对象轮廓。

由于要检测的动作可具有宽范围的持续时间，所以我们的方法使用LSTM网络140来以数据驱动方式学习动作的持续时间和长期时间上下文。我们的结果证明，LSTM在学习长期时间上下文以进行细粒度动作检测方面是有效的。

用于细粒度动作检测的跟踪

为了为位置无关(裁剪)的外观和运动流提供围绕对象的边界框，可使用任何对象跟踪方法。在优选实施方式中，我们使用基于状态的***来在空间上定位视频中的动作。保持跟踪边界框的尺寸固定，我们更新边界框的位置，以使得边界框内的差分图像能量的大小最大化。如果差分图像能量的大小大于阈值，则将边界框的位置更新为使差分图像能量的大小最大化的位置。否则，对象要么移动缓慢要么根本未移动。当对象移动太慢或未移动时，使用来自先前组块的边界框，即，不更新边界框。仅在处理组块101(例如，六个图像)并且相对于组块确定运动特征和外观特征之后更新边界框的位置，以确保边界框在组块中的所有图像上静止。

当相机静止并且具有关于对象尺寸的合理估计时，可有效地应用我们的跟踪方法。对于在零售店、个人住宅或可能要使用细粒度动作检测的监控环境中拍摄的许多视频，这是实际的假设。对于更困难的跟踪情况，可使用更复杂的***。

在优选实施方式中，边界框是包含对象的矩形区域，但边界框不必须为矩形。更一般地，边界框是包含或大体包含要跟踪的对象并且可另外包含围绕对象的较小区域的任何形状的区域。

使用双向LSTM网络的长序列上的动作检测

图4是示出根据本公开的一些实施方式的LSTM单元的示意图。我们现在提供循环神经网络(RNN)和长短期记忆(LSTM)单元的简要描述。给定输入序列x＝(x₁,…,x_T)，RNN使用隐含状态表示h＝(h₁,…,h_T)以使得RNN可将输入x映射到输出序列y＝(y₁,…,y_T)。

为了确定该表示，RNN遍历以下递归方程：

h_t＝g(W_xhx_t+W_hhh_t-1+b_h)，y_t＝g(W_hyh_t+b_z)，

其中g是激活函数，W_xh是将输入映射到隐含状态的权重矩阵，W_hh是两个相邻时间步的隐含状态之间的转换矩阵，W_hy是将隐含状态h映射到输出y的矩阵，b_h和b_z是偏置项。

仍参照图4，与使用离散隐含状态表示的隐马尔可夫模型(HMM)不同，循环神经网络使用隐含状态的连续空间表示。然而，难以训练RNN以学习长期序列信息，因为使用穿过时间的反向传播来展开网络以执行训练。这导致梯度问题消失或爆发。

如图4所示，为了避免此问题，LSTM单元具有存储单元c_t和忘记门f_t，其帮助LSTM学习何时保留先前状态，何时忘记该状态。这使得LSTM网络能够学习长期时间信息。LSTM单元的权重更新方程如下：

i_t＝σ(W_xix_t+W_hih_t-1+b_i)

f_t＝σ(W_xfx_t+W_hfh_t-1+b_f)

o_t＝σ(W_xox_t+W_hoh_t-1+b_o)

g_t＝tanh(W_xcx_t+W_hch_t-1+b_c)

c_t＝f_tc_t-1+i_tg_t

h_t＝o_ttanh(c_t)

其中σ是sigmoid函数，tanh是双曲正切函数，i_t、f_t、o_t和c_t分别是输入门、忘记门、输出门和存储单元激活向量。

忘记门f_t决定何时从存储单元c_t清除(以及哪些)信息。输入门i_t决定何时向存储器中并入(以及哪些)新信息。tanh层g_t生成候选值集合，其在输入门允许时添加到存储单元。

仍参照图4，基于忘记门f_t的输出、输入门i_t和新候选值g_t，更新存储单元c_t。输出门o_t控制存储单元中的哪一信息用作隐含状态的表示。隐含状态被表示为存储单元状态的函数与输出门之间的乘积。

RNN的LSTM架构已成功用于从图像生成句子、视频至文本视频描述和语音识别。然而，对于动作识别任务，LSTM网络的性能仍接近于基于在改进的密集轨迹上生成的Fisher向量的分类器的性能。可能由于其在从视频的动作识别方面性能平平，使用LSTM的RNN还未用于从视频的动作检测，这是本公开的重点。

在常用的动作识别数据集中，视频在时间上修剪以在各个动作的开始时间和结束时间处或附近开始和结束。时间上修剪的视频通常长度较短(例如，2–20秒)。因此，在动作识别任务中，没有足够的长期上下文来以数据驱动方式学习。该长期上下文可包括诸如动作(该动作在另一动作之后或之前)的预期持续时间以及时间上延伸超出动作边界的其它长期运动模式的性质。

仍参照图4，在动作识别任务中，LSTM网络几乎无法访问更长期时间上下文。然而，在细粒度动作检测中，视频持续时间通常在分钟或小时的量级。因此，我们的关键见解是，与动作识别(它们先前所应用于的)相比，LSTM网络将更适合于动作检测(我们将它们应用于的)，因为LSTM对序列中的长期时间动态进行建模。

双向LSTM网络将来自未来组块和过去组块二者的信息整合以形成对视频序列中的各个组块的预测。因此，我们预测到在预测动作的时间边界(即，开始和结束)时双向LSTM网络将好于单向LSTM。

如本文所述，前向LSTM网络和后向LSTM网络各自生成每一动作类别的softmax得分，并且我们对两个LSTM网络的softmax得分取平均以获得各个动作的得分(概率)。

尽管在长序列上训练LSTM网络，但可仅使用组块的短序列至多固定数量的步骤完成穿过时间的反向传播。为了保留长期上下文，在后续组块序列上训练时我们保留先前组块序列中的最后元素的隐含状态。

图5是根据本公开的实施方式的检测对象的动作的至少一个方法和***的示意图。例如，如上面提供的，该方法的训练阶段涉及训练循环神经网络(RNN)。在测试阶段(即，动作检测)中，已经训练的RNN用于检测对象的动作。

图5示出检测对象的动作(例如，检测场景中执行特定动作的人)的方法和***500的基本操作。例如，方法500可包括至少一个传感器504，其生成场景505的输入视频数据。传感器504可以是视频相机或生成输入视频数据的一些其它装置。可以想到，传感器504可收集其它数据，例如与场景505有关的时间、温度以及其它数据。

计算机514的计算机可读存储器512可存储和/或提供由传感器504生成的输入视频数据501。传感器504收集场景505的输入视频数据501，其可以可选地存储在外部存储器506中，或者可直接发送到输入接口/预处理器507，然后发送到处理器510。

此外，获取520场景505的视频501作为图像序列515，其中，各个图像包括像素。场景505可包括执行动作的一个或更多个对象507，例如，跑上楼梯的人。可选地，可存在连接到与存储器512连接的输入接口/预处理器507的外部存储器506，其被连接以如上所述获取视频520。

此外，跟踪522一个或更多个对象，并且在视频图像的各个组块中估计跟踪对象的边界框523。例如，作为非限制性示例，组块可以是六个图像的序列。

将图像裁剪至边界框的范围，并且在边界框内计算525轮廓图像。所得裁剪轮廓图像和裁剪图像527被传递给循环神经网络(RNN)550，RNN 550已被训练以输出各个关注动作的相对得分560。

在输出各个关注动作的相对得分560时，相对得分560的输出可被存储在存储器512中或经由输出接口561输出。在处理期间，处理器514可与存储器512通信以存储或检索所存储的指令或与处理有关的其它数据。

图6是示出根据本公开的实施方式的可使用另选计算机或处理器配置实现的图1A的方法的框图。计算机/控制器611包括处理器640、计算机可读存储器612、存储装置658以及具有显示器652和键盘651的用户接口649，其通过总线656连接。例如，与处理器640和计算机可读存储器612通信的用户接口649在从用户接口657的表面、键盘表面接收到用户的输入时获取数据并将其存储在计算机可读存储器612中。

可以想到，存储器612可存储可由处理器执行的指令、历史数据以及可由本公开的方法和***使用的任何数据。处理器640可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。处理器640可通过总线656连接到一个或更多个输入装置和输出装置。存储器612可包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器***。

仍参照图6，存储装置658可被设置为存储处理器所使用的补充数据和/或软件模块。例如，存储装置658可存储历史数据以及如上面关于本公开提及的其它相关数据。另外地或另选地，存储装置658可与如上面关于本公开提及的数据类似存储历史数据。存储装置658可包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。

***可通过总线656可选地链接到被设置为将***连接到显示装置(未示出)的显示接口(未示出)，其中，显示装置可包括计算机监视器、相机、电视、投影仪或移动装置等。

控制器611可包括电源654，根据应用，电源654可以可选地位于控制器611的外部。被设置为连接到显示装置648的用户输入接口657可通过总线656链接，其中，显示装置648可包括计算机监视器、相机、电视、投影仪或移动装置等。打印机接口659也可通过总线656连接并被设置为连接到打印装置632，其中，打印装置632可包括液体喷墨打印机、固体墨水打印机、大型商用打印机、热敏打印机、UV打印机或染料升华打印机等。网络接口控制器(NIC)634被设置为通过总线656连接到网络636，其中，数据或其它数据等可被渲染在控制器611外部的第三方显示装置、第三方成像装置和/或第三方打印装置上。

仍参照图6，数据或其它数据等可经由网络636的通信信道发送和/或被存储在存储***658内以便于存储和/或进一步处理。此外，数据或其它数据可从接收器646(或外部接收器638)以无线方式或硬连线方式接收，或者经由发送器647(或外部发送器639)以无线方式或硬连线方式发送，接收器646和发送器647二者通过总线656连接。此外，GPS 601可经由总线656连接到控制器611。控制器611可经由输入接口608连接到外部感测装置644和外部输入/输出装置641。控制器611可连接到其它外部计算机642。输出接口609可用于输出来自处理器640的经处理的数据。

本公开的各方面还可包括基于条件管理随时间存储的数据的双向长短期记忆LSTM网络，其中，所述条件包括输入门、忘记门和输出门，以基于随时间的改变来管理存储的数据，其中，随时间存储的数据类似于与关注动作有关的数据，使得存储的数据包括关注动作的预期持续时间的历史性质、在关注动作之后或之前的关注动作的历史类型以及延伸超过关注动作的边界框边界的历史长期运动模式。

本公开的上述实施方式可按照许多方式中的任一种来实现。例如，实施方式可使用硬件、软件或其组合来实现。在权利要求中使用诸如“第一”、“第二”的序数词修饰权利要求元素本身并不暗示一个权利要求元素相比于另一权利要求元素的任何优先、在前或次序或者方法的动作执行的时间次序，而是仅用作标签以将具有特定名称的一个权利要求元素与具有相同名称(但使用序数词)的另一元素相区分，以区分权利要求元素。

另外，本公开的实施方式可具体实现为一种方法，其示例已提供。作为该方法的部分执行的动作可按任何合适的方式排序。因此，可构造以与所示不同的顺序执行动作的实施方式，可包括同时执行一些动作，即使其在例示性实施方式中示出为顺序动作。

Claims

1.一种从场景的视频检测该场景中的对象的动作的方法，使得所述视频是被分割成组块的所述场景的视频序列，并且各个组块包括连续视频帧，所述方法包括以下步骤：

由处理器获取所述场景的所述视频，其中，所述视频包括图像序列；

由所述处理器跟踪所述视频中的所述对象，并且对于所述视频的各个对象和各个组块，还包括：

从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动数据；

使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像；以及

将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络RNN，该RNN输出各个关注动作的相对得分。

2.根据权利要求1所述的方法，其中，所述RNN包括卷积神经网络层和一个或更多个循环神经网络层。

3.根据权利要求2所述的方法，其中，所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。

4.根据权利要求2所述的方法，其中，所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像以及具有所述视频帧的完整空间范围的轮廓图像和图像的多个流上操作。

5.根据权利要求2所述的方法，其中，所述循环神经网络层包括长短期记忆LSTM单元。

6.根据权利要求5所述的方法，其中，所述循环神经网络层包括双向长短期记忆LSTM单元。

7.根据权利要求1所述的方法，其中，所述对象是人、机器人或工业机器人中的一种。

8.根据权利要求7所述的方法，该方法还包括人检测器和人***。

9.根据权利要求8所述的方法，其中，所述人***识别所述视频中的各个人周围的至少一个边界框。

10.根据权利要求9所述的方法，其中，表示所述对象的运动数据的所述视频序列的所述视频帧随时间在围绕所述对象定位的多个边界框内。

11.根据权利要求1所述的方法，其中，所述边界框是具有包含所跟踪的对象的至少一部分或所有部分的形状的区域。

12.根据权利要求1所述的方法，其中，所述视频初始以图像序列以外的形式获取，并被转换为图像序列。

13.根据权利要求1所述的方法，其中，所述方法用于所述视频中的细粒度动作检测。

14.根据权利要求1所述的方法，其中，所述方法包括在检测步骤之前训练所述RNN，或者所述RNN在获取所述场景的所述视频之前已经被预先训练。

15.根据权利要求1所述的方法，其中，检测步骤包括时间动作检测或空时动作检测中的一种。

16.一种从场景的视频检测该场景中的对象的关注动作的***，使得所述视频是被分割成组块的所述场景的视频序列，并且各个组块包括连续视频帧，所述***包括：

处理器获取所述场景的所述视频，使得所述视频包括图像序列，其中，所述处理器被配置为：

跟踪所述视频中的所述对象，并且对于所述视频的各个对象和各个组块：

从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动信息；

使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像；并且

17.根据权利要求16所述的***，其中，所述RNN包括卷积神经网络层和一个或更多个循环神经网络层，使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。

18.根据权利要求16所述的***，其中，所述循环神经网络层包括长短期记忆LSTM单元。

19.一种具体实现有程序的非暂时性计算机可读存储介质，所述程序能够由计算机执行以用于执行一种方法，该方法从场景的视频检测该场景中的对象的关注动作，使得所述视频是被分割成组块的所述场景的视频序列，并且各个组块包括连续视频帧，该方法包括以下步骤：

由所述处理器跟踪所述视频中的所述对象，并且对于所述视频的各个对象和各个组块，所述处理器被配置为：

在围绕所述对象定位的边界框内从所述视频序列的视频帧确定轮廓图像序列；

将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络RNN，该RNN经由与所述处理器通信的输出接口来输出各个关注动作的相对得分。

20.根据权利要求19所述的存储介质，其中，所述RNN包括卷积神经网络层和一个或更多个循环神经网络层，使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。