CN110998594A - 检测动作的方法和*** - Google Patents

检测动作的方法和*** Download PDF

Info

Publication number
CN110998594A
CN110998594A CN201880048903.3A CN201880048903A CN110998594A CN 110998594 A CN110998594 A CN 110998594A CN 201880048903 A CN201880048903 A CN 201880048903A CN 110998594 A CN110998594 A CN 110998594A
Authority
CN
China
Prior art keywords
video
sequence
cropped
images
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880048903.3A
Other languages
English (en)
Other versions
CN110998594B (zh
Inventor
M·琼斯
T·马克斯
K·库尔卡尼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN110998594A publication Critical patent/CN110998594A/zh
Application granted granted Critical
Publication of CN110998594B publication Critical patent/CN110998594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • Image Analysis (AREA)

Abstract

一种从场景的视频检测该场景中的对象的动作的方法和***。视频是被分割成组块的视频序列,并且各个组块包括连续视频帧。该方法包括以下元素。获取场景的视频,其中,视频包括图像序列。跟踪视频中的对象,并且对于视频的各个对象和各个组块,还包括:从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络RNN,该RNN输出各个关注动作的相对得分。

Description

检测动作的方法和***
技术领域
本公开总体上涉及计算机视觉和相机监控应用,更具体地,涉及通过使用从视频序列的帧计算的轮廓图像的序列表示运动信息来检测视频中执行特定关注动作的对象(例如,人)的实例。
背景技术
在计算机视觉和相机监控应用中,常见的问题是识别和检测诸如人、机械、车辆、机器人等的对象所执行的特定动作。对分析视频中的动作的一般问题已进行了大量工作,但大多数现有技术工作集中在动作识别,而非动作检测。
动作识别是指分类(即,识别)视频片段中正在执行哪一动作,该视频片段已时间上修剪以使得该片段在动作开始时或动作开始附近开始并在动作结束时或动作结束附近结束。我们使用术语时间上修剪来表示这些视频片段。动作检测是指从长的(即,未时间上修剪的)视频序列中发生的已知动作类别集合对各个动作的每一次出现进行时间或空时定位。
与动作识别有关的任务是活动识别。在活动识别任务中,分析描绘活动(例如,正在比赛的特定体育运动)的视频片段,并且目标是确定视频中描绘了哪一活动(例如,何种体育运动)。
细粒度动作检测是指要检测的动作类别之间的差异较小的动作检测。例如,在烹饪情景中,从包括诸如切碎、磨碎和剥皮的类似动作的集合检测动作是细粒度动作检测的示例。然而,用于动作检测的现有技术方法的至少一个缺陷是其相对低的准确性。即,对于大多数计算机视觉应用以及其它应用,现有技术的动作检测方法的性能不够好。
诸如动作识别、事件检测和视频检索的大多数视频分析任务的标准流水线是计算手工制作的特征,例如方向梯度直方图(HOG)、运动边界直方图(MBH)和光流直方图(HOF)。传统方法依赖于计算上昂贵的输入表示(例如,改进的密集轨迹或密集光流),为各个视频剪辑创建Fisher向量,然后使用支持向量机来执行分类。然而,在许多缺点当中上述动作检测/识别的先前方法的至少一个主要缺点在于,这些方法依赖于输入表示和中间表示,这些表示计算非常耗时并且需要大量存储器来存储。这使得这些传统方法对于现实世界动作检测应用不可行。
因此,需要开发可在时间和存储器要求方面高效地检测视频中的动作的动作检测方法。
发明内容
本公开总体上涉及计算机视觉和相机监控应用,更具体地,涉及通过使用从视频序列的帧计算的轮廓图像的序列表示运动信息来检测视频中执行特定关注动作的对象(例如,人)的实例。
本公开提供了克服诸如动作识别、事件检测和视频检索的视频分析任务的问题的方法和***,这些任务依赖于计算非常耗时并且还需要大量存储器来存储的输入表示和中间表示。具体地,本公开描述了能够在使耗时计算最小化并降低存储器存储/要求方面高效地检测视频中的动作的动作检测方法和***。
具体地,本公开基于这样的认识:使用从视频序列的帧计算的轮廓图像的序列来表示运动信息可为视频中的动作等提供快速和存储器高效的检测器。例如,本公开基于在时间(视频的哪些帧)和空间(各个帧中的何处)上定位特定动作的出现来解决视频中的动作检测。通过实验我们认识到,我们可使用具有递归连接的深度神经网络来检测视频中的动作,该网络以跟踪对象(例如,人)周围的裁剪图像以及表示跨多个帧的裁剪区域内的运动的轮廓图像的序列作为输入。从使用基于光流的表示的先前方法我们发现,这些方法计算成本高,即,需要耗时计算和大量存储器和存储装置。这使得这些先前动作检测方法对现实世界应用不可行。
本公开还包括对象/人***,其可在空间上定位视频帧内何处发生动作。通过实验我们发现,不使用***而是仅在整个帧上分析运动和外观的传统方法使用了与关注动作无关的大量信息。另外,这些方法没有来自对任务而言最重要的区域的足够详细的信息。
此外,本公开还使用多流循环神经网络(RNN),其学习表示运动和外观两个重要方面的特征,并学习区分不同动作的许多视频帧上的重要时间动态。例如,这些方法和***可用于检测视频中的对象的动作,其中对象可以是人、动物、机械、车辆、机器人、工厂环境中的工业机器人等。本公开为未时间上修剪的视频中发生的对象的动作提供更准确的动作检测。
本公开的另一方面包括使用作为RNN的一个或更多个层而包括的长短期记忆(LSTM)网络,其可学习具有比使用传统RNN可学习的更长持续时间的模式。本公开可使用双向LSTM提供更好的性能,这意味着本公开可使用来自过去和未来视频帧的信息来检测动作。
为了帮助进一步理解本公开,我们提供了至少一个方法的步骤,其包括:从场景的视频检测场景中的对象的动作,其中,该视频可通过视频装置拍摄并且视频本身可以是被分割成组块的视频序列,使得各个组块可包括连续视频帧。
例如,本公开的方法可包括以下步骤:获取场景的视频,其中,该视频包括图像序列。视频可由处理器下载到存储器中,其中,处理器访问存储器以获取视频。下一步骤可包括跟踪视频中的对象,并且对于视频的各个对象和各个组块,方法还可包括以下步骤:从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。下一步骤可使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。最后,最后步骤可将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN),RNN输出各个关注动作的相对得分。
可以想到,输出接口可连接到处理器,其中,可输出与从场景的视频检测场景中的对象的动作有关的一些或所有数据。
根据本公开的实施方式,一种从场景的视频检测场景中的对象的动作的方法,其中,视频可以是被分割成组块的视频序列,并且各个组块包括连续视频帧。该方法包括以下步骤。获取场景的视频,其中,视频包括图像序列。跟踪视频中的对象,并且对于视频的各个对象和各个组块,该方法还包括以下步骤:从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN),RNN输出各个关注动作的相对得分。
根据本公开的实施方式,一种从场景的视频检测场景中的对象的关注动作的***,其中,视频是被分割成组块的场景的视频序列,并且各个组块包括连续视频帧。该***包括处理器,该***获取场景的视频,使得视频包括图像序列。其中,处理器被配置为跟踪视频中的对象,并且对于视频的各个对象和各个组块,该方法包括以下步骤。从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动信息。使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN),RNN输出各个关注动作的相对得分。
根据本公开的实施方式,一种非暂时性计算机可读存储介质,其上具体实现有可由计算机执行以执行一种从场景的视频检测场景中的对象的关注动作的方法的程序。其中,视频可以是被分割成组块的场景的视频序列,使得各个组块包括连续视频帧。该方法包括由处理器获取场景的视频,其中,视频可包括图像序列。由处理器跟踪视频中的对象,并且对于视频的各个对象和各个组块,处理器被配置为:在围绕对象定位的边界框内从视频序列的视频帧确定轮廓图像序列;使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;以及将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN),RNN经由与处理器通信的输出接口输出各个关注动作的相对得分。
当前公开的实施方式将参照附图进一步说明。所示的附图未必按比例,相反通常着重于示出当前公开的实施方式的原理。
附图说明
[图1A]图1A示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的方法的框图。
[图1B]图1B是示出根据本公开的一些实施方式的从场景的视频检测场景中的对象的动作的图1A的方法的一些组件的示意图。
[图2]图2是示出根据本公开的一些实施方式的包括多流卷积神经网络(CNN)作为其初始层以及长短期记忆(LSTM)网络作为其最终层的循环神经网络(RNN)的示意图。
[图3A]图3A通过示出根据本公开的一些实施方式的来自图像序列的输入图像来给出轮廓图像的示例。
[图3B]图3B通过示出根据本公开的一些实施方式的从输入图像确定的轮廓图像来给出轮廓图像的示例。
[图4]图4是示出根据本公开的一些实施方式的LSTM单元的示意图。
[图5]图5是根据本公开的实施方式的检测对象的动作的至少一个方法和***的示意图。
[图6]图6是示出根据本公开的实施方式的可使用另选计算机或处理器配置实现的图1A的方法的框图。
具体实施方式
尽管上面标识的附图阐述了当前公开的实施方式,但也可以想到其它实施方式,如讨论中所指出。本公开作为表示而非限制呈现了例示性实施方式。本领域技术人员可以设计出落入当前公开的实施方式的原理的范围和精神内的许多其它修改和实施方式。
以下描述仅提供了示例性实施方式,而非旨在限制本公开的范围、适用性或配置。相反,示例性实施方式的以下描述将向本领域技术人员提供允许实现一个或更多个示例性实施方式的描述。在不脱离如所附权利要求中阐述的所公开的主题的精神和范围的情况下,可以想到可在元件的功能和布置方面进行的各种改变。在以下描述中给出具体细节以提供实施方式的彻底理解。然而,本领域普通技术人员可理解,实施方式可在没有这些具体细节的情况下实践。例如,所公开的主题中的***、过程和其它元件可作为组件以框图形式示出,以免在不必要的细节方面使实施方式模糊。在其它情况下,熟知过程、结构和技术可在没有不必要的细节的情况下示出,以避免使实施方式模糊。此外,各种附图中的相似标号和指代指示相似的元件。
另外,各个实施方式可作为过程描述,其被描绘为流程图、数据流程图、结构图或框图。尽管流程图可将操作描述为顺序过程,但许多操作可并行或同时执行。另外,操作次序可重新布置。过程在其操作完成时可终止,但是可具有未讨论或附图中未包括的附加步骤。此外,并非任何具体描述的过程中的所有操作可出现在所有实施方式中。过程可对应于方法、函数、程序、子例程、子程序等。当过程对应于函数时,函数的终止可对应于函数返回到调用函数或主函数。
此外,所公开的主题的实施方式可至少部分地手动或自动实现。可通过使用机器、硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来执行或至少辅助手动或自动实现。当以软件、固件、中间件或微码实现时,执行所需任务的程序代码或代码段可被存储在机器可读介质中。处理器可执行所需任务。
概述
本公开总体上涉及计算机视觉和相机监控应用,更具体地,涉及通过使用从视频序列的帧计算的轮廓图像的序列以表示运动信息来检测视频中执行特定关注动作的对象(例如,人)的实例。
本公开提供了克服诸如动作识别、事件检测和视频检索的视频分析任务的问题的方法和***,这些任务依赖于计算非常耗时并且还需要大量存储器来存储的输入表示和中间表示。具体地,本公开描述了能够在使耗时计算最小化并降低存储器存储/要求方面高效地检测视频中的动作的动作检测方法和***。
具体地,本公开基于这样的认识:使用从视频序列的帧计算的轮廓图像的序列来表示运动信息可为视频中的动作等提供快速和存储器高效的检测器。例如,本公开基于在时间(视频的哪些帧)和空间(各个帧中的何处)上定位特定动作的发生来解决视频中的动作检测。通过实验我们认识到,我们可使用具有递归连接的深度神经网络来检测视频中的动作,该深度神经网络以跟踪对象(例如,人)周围的裁剪图像以及表示跨多个帧的裁剪区域内的运动的轮廓图像序列作为输入。从使用基于光流的表示的先前方法我们发现,这些方法计算成本高,即,需要耗时计算和大量存储器和存储装置。这使得这些先前动作检测方法对现实世界应用不可行。
本公开还包括对象/人***,其可在空间上定位视频帧内何处发生动作。通过实验我们发现,不使用***而是仅在整个帧上分析运动和外观的传统方法使用了与关注动作无关的大量信息。另外,这些方法没有来自对任务而言最重要的区域的足够详细的信息。
此外,本公开还使用多流循环神经网络(RNN),其学习表示运动和外观两个重要方面的特征,并学习区分不同动作的许多视频帧上的重要时间动态。例如,这些方法和***可用于检测视频中的对象的动作,其中对象可以是人、动物、机械、车辆、机器人、工厂设置中的工业机器人等。本公开为未时间上修剪的视频中发生的对象的动作提供更准确的动作检测。
本公开的另一方面包括使用作为RNN的一个或更多个层而包括的长短期记忆(LSTM)网络,其可学习具有比使用传统RNN可学习的更长持续时间的模式。本公开可使用双向LSTM提供更好的性能,这意味着本公开可使用来自过去和未来视频帧的信息来检测动作。
方法和***
图1A示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的方法100的框图。视频可以是被分割成组块的视频序列,使得各个组块包括连续视频帧。初始步骤120包括由处理器110获取场景的视频,其中,视频包括图像序列。
步骤122包括跟踪视频中的对象,并且对于视频的各个对象和各个组块,还包括:步骤125,从视频序列的视频帧确定轮廓图像序列以表示围绕对象定位的边界框内的运动数据;以及步骤127,使用边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像。
最后,步骤128包括将裁剪轮廓图像和裁剪图像传递给循环神经网络(RNN),RNN输出各个关注动作的相对得分。
图1B是示出根据本公开的实施方式的从场景的视频检测场景中的对象的动作的图1A的方法100的组件的示意图。具体地,图1B示出检测场景105中的对象107的动作(例如,检测场景中执行特定动作的人)的方法100的基本操作。获取120来自视频相机104的场景105的视频数据108作为图像序列115,其中,各个图像包括像素。场景可包括执行动作的一个或更多个对象107,例如,跑上楼梯或一些其它动作的人。由处理器110获取视频数据。此外,跟踪122一个或更多个对象107,并且在视频图像的各个组块中估计各个跟踪对象107的边界框123。例如,组块可以是六个连续图像、少于六个图像或多于六个图像的序列。
图像被裁剪至边界框123的范围,并且计算125轮廓图像序列并裁剪至边界框123的范围。所得裁剪轮廓图像和裁剪图像127被传递给循环神经网络(RNN)130,RNN 130已被训练以输出各个关注动作的相对得分140。这些步骤可在连接到存储器(未示出)的处理器110中执行。
如上所述,本公开的实施方式提供了检测视频中的对象的动作的方法和***。一些实施方式包括训练阶段和测试阶段,其中,训练阶段涉及从训练数据学习RNN的参数。一些实施方式可仅包括测试阶段。例如,仅具有测试阶段的方法可嵌入在使用预先训练的RNN的小型装置中。
图2是示出根据本公开的实施方式的包括多流卷积神经网络(CNN)作为其初始层以及长短期记忆(LSTM)网络作为其最终层的循环神经网络(RNN)的示意图。
例如,在训练阶段期间,我们训练四个独立的卷积神经网络(CNN)220,如图2所示。各个CNN处理四个流210中的一种:围绕跟踪对象的位置裁剪的视频图像的运动流211和外观流212,以及全帧(未空间上裁剪)视频图像的运动流213和外观流214。一些实施方式仅具有两个流:围绕跟踪对象的位置裁剪的视频图像的运动流211和外观流212。例如,对于背景场景嘈杂、不可名状或与对象正在执行的动作无关的情况,这可能有用。
仍参照图2,在一些实施方式中,各个卷积网络(CNN)使用VGG(视觉几何组)架构。然而,其它CNN架构也可用于各个流,例如AlexNet架构或ResNet架构。
四个网络对视频200的连续小组块201执行动作分类任务。例如,各个组块可由六个连续视频帧组成。CNN之后是投影层230和长短期记忆(LSTM)单元240,投影层230将所有流的CNN的输出投影到单个空间中。各个组块的输出是来自N个动作类别A1、A2、...、AN的集合的检测的动作类别250。
在由已裁剪至跟踪对象的边界框的视频帧组成的组块上训练两个卷积神经网络(CNN),图像和运动各一个。裁剪帧向动作提供限制到动作附近的边界框,这有助于对动作进行分类。在一些实施方式中,该边界框具有固定的像素大小,这有助于在动作的多次执行上对准对象。
仍参照图2,在一些优选实施方式中,在由未空间上裁剪的视频帧(即,各个帧是视频的全帧,从而保留场景内执行的动作的空间上下文)组成的组块上训练两个附加CNN,图像和运动各一个。我们将该网络称为多流神经网络,因为它具有多个(例如,四个)CNN,各个CNN处理来自视频的不同信息流。
在已训练四个网络220之后,我们在四个网络的输出上学习全连接投影层230以创建这些独立流的联合表示。在CNN使用VGG架构的一些实施方式中,网络的输出是其fc7层输出,其中fc7层是VGG网络中的最后全连接层。向多流网络提供作为组块201的时间序列布置的全长视频200,然后将投影层的输出的对应时间序列馈送到长短期记忆(LSTM)网络240中。在一些实施方式中,LSTM网络在两个方向上运行,即,LSTM网络是双向的。
双向LSTM网络由两个定向LSTM网络组成(一个在时间上向前连接,另一个在时间上向后连接)。在一些实施方式中,两个定向LSTM网络中的每一个之后是在各个定向LSTM网络的隐含状态之上的全连接层(为了清晰,图2中未示出),之后是softmax层,以获得与各个动作对应的中间得分。最后,将两个定向LSTM的得分组合(例如,取平均),以获得各个特定动作的得分。
仍参照图2,动作检测流水线中存在对于实现良好性能而言至关重要的多个组件。在此任务中,我们使用表征存在于视频中的空间和长期时间信息的模型。
使用边界框确定的轮廓图像提供通过从输入表示去除位置变化而使得许多动作更容易学习的参考图像。然而,一些动作依赖于位置。对于使用静态视频相机获取的场景,这些动作总是发生在相同的图像位置。例如,在烹饪视频中,洗涤和冲洗几乎总是在水槽附近进行,并且开门将最有可能在冰箱或橱柜附近执行。出于这些原因,我们在轮廓图像和视频帧的裁剪组块和未裁剪组块上训练两个单独的深度网络。
前两个CNN在使用来自对象***的框裁剪的裁剪图像上训练,以减少背景噪声并为轮廓图像和图像区域提供以对象为中心的参考图像。另两个CNN在整个(空间全帧)图像上训练,以保留全局空间上下文。
图3A和图3B示出从输入图像确定的轮廓图像。输入图像表示来自图像序列的图像。可从输入图像使用图像处理算法(例如,使用深度神经网络的算法)确定对象轮廓以确定轮廓图像。
轮廓图像可从输入图像自动计算,并且表示沿着图像中的各个对象的边界的边缘。此外,轮廓图像不表示输入图像内的颜色和纹理,而仅表示对象的边界。轮廓图像序列仅包含关于对应图像序列中的对象的移动的最相关的信息,对象轮廓。
由于要检测的动作可具有宽范围的持续时间,所以我们的方法使用LSTM网络140来以数据驱动方式学习动作的持续时间和长期时间上下文。我们的结果证明,LSTM在学习长期时间上下文以进行细粒度动作检测方面是有效的。
用于细粒度动作检测的跟踪
为了为位置无关(裁剪)的外观和运动流提供围绕对象的边界框,可使用任何对象跟踪方法。在优选实施方式中,我们使用基于状态的***来在空间上定位视频中的动作。保持跟踪边界框的尺寸固定,我们更新边界框的位置,以使得边界框内的差分图像能量的大小最大化。如果差分图像能量的大小大于阈值,则将边界框的位置更新为使差分图像能量的大小最大化的位置。否则,对象要么移动缓慢要么根本未移动。当对象移动太慢或未移动时,使用来自先前组块的边界框,即,不更新边界框。仅在处理组块101(例如,六个图像)并且相对于组块确定运动特征和外观特征之后更新边界框的位置,以确保边界框在组块中的所有图像上静止。
当相机静止并且具有关于对象尺寸的合理估计时,可有效地应用我们的跟踪方法。对于在零售店、个人住宅或可能要使用细粒度动作检测的监控环境中拍摄的许多视频,这是实际的假设。对于更困难的跟踪情况,可使用更复杂的***。
在优选实施方式中,边界框是包含对象的矩形区域,但边界框不必须为矩形。更一般地,边界框是包含或大体包含要跟踪的对象并且可另外包含围绕对象的较小区域的任何形状的区域。
使用双向LSTM网络的长序列上的动作检测
图4是示出根据本公开的一些实施方式的LSTM单元的示意图。我们现在提供循环神经网络(RNN)和长短期记忆(LSTM)单元的简要描述。给定输入序列x=(x1,…,xT),RNN使用隐含状态表示h=(h1,…,hT)以使得RNN可将输入x映射到输出序列y=(y1,…,yT)。
为了确定该表示,RNN遍历以下递归方程:
ht=g(Wxhxt+Whhht-1+bh),yt=g(Whyht+bz),
其中g是激活函数,Wxh是将输入映射到隐含状态的权重矩阵,Whh是两个相邻时间步的隐含状态之间的转换矩阵,Why是将隐含状态h映射到输出y的矩阵,bh和bz是偏置项。
仍参照图4,与使用离散隐含状态表示的隐马尔可夫模型(HMM)不同,循环神经网络使用隐含状态的连续空间表示。然而,难以训练RNN以学习长期序列信息,因为使用穿过时间的反向传播来展开网络以执行训练。这导致梯度问题消失或爆发。
如图4所示,为了避免此问题,LSTM单元具有存储单元ct和忘记门ft,其帮助LSTM学习何时保留先前状态,何时忘记该状态。这使得LSTM网络能够学习长期时间信息。LSTM单元的权重更新方程如下:
it=σ(Wxixt+Whiht-1+bi)
ft=σ(Wxfxt+Whfht-1+bf)
ot=σ(Wxoxt+Whoht-1+bo)
gt=tanh(Wxcxt+Whcht-1+bc)
ct=ftct-1+itgt
ht=ottanh(ct)
其中σ是sigmoid函数,tanh是双曲正切函数,it、ft、ot和ct分别是输入门、忘记门、输出门和存储单元激活向量。
忘记门ft决定何时从存储单元ct清除(以及哪些)信息。输入门it决定何时向存储器中并入(以及哪些)新信息。tanh层gt生成候选值集合,其在输入门允许时添加到存储单元。
仍参照图4,基于忘记门ft的输出、输入门it和新候选值gt,更新存储单元ct。输出门ot控制存储单元中的哪一信息用作隐含状态的表示。隐含状态被表示为存储单元状态的函数与输出门之间的乘积。
RNN的LSTM架构已成功用于从图像生成句子、视频至文本视频描述和语音识别。然而,对于动作识别任务,LSTM网络的性能仍接近于基于在改进的密集轨迹上生成的Fisher向量的分类器的性能。可能由于其在从视频的动作识别方面性能平平,使用LSTM的RNN还未用于从视频的动作检测,这是本公开的重点。
在常用的动作识别数据集中,视频在时间上修剪以在各个动作的开始时间和结束时间处或附近开始和结束。时间上修剪的视频通常长度较短(例如,2–20秒)。因此,在动作识别任务中,没有足够的长期上下文来以数据驱动方式学习。该长期上下文可包括诸如动作(该动作在另一动作之后或之前)的预期持续时间以及时间上延伸超出动作边界的其它长期运动模式的性质。
仍参照图4,在动作识别任务中,LSTM网络几乎无法访问更长期时间上下文。然而,在细粒度动作检测中,视频持续时间通常在分钟或小时的量级。因此,我们的关键见解是,与动作识别(它们先前所应用于的)相比,LSTM网络将更适合于动作检测(我们将它们应用于的),因为LSTM对序列中的长期时间动态进行建模。
双向LSTM网络将来自未来组块和过去组块二者的信息整合以形成对视频序列中的各个组块的预测。因此,我们预测到在预测动作的时间边界(即,开始和结束)时双向LSTM网络将好于单向LSTM。
如本文所述,前向LSTM网络和后向LSTM网络各自生成每一动作类别的softmax得分,并且我们对两个LSTM网络的softmax得分取平均以获得各个动作的得分(概率)。
尽管在长序列上训练LSTM网络,但可仅使用组块的短序列至多固定数量的步骤完成穿过时间的反向传播。为了保留长期上下文,在后续组块序列上训练时我们保留先前组块序列中的最后元素的隐含状态。
图5是根据本公开的实施方式的检测对象的动作的至少一个方法和***的示意图。例如,如上面提供的,该方法的训练阶段涉及训练循环神经网络(RNN)。在测试阶段(即,动作检测)中,已经训练的RNN用于检测对象的动作。
图5示出检测对象的动作(例如,检测场景中执行特定动作的人)的方法和***500的基本操作。例如,方法500可包括至少一个传感器504,其生成场景505的输入视频数据。传感器504可以是视频相机或生成输入视频数据的一些其它装置。可以想到,传感器504可收集其它数据,例如与场景505有关的时间、温度以及其它数据。
计算机514的计算机可读存储器512可存储和/或提供由传感器504生成的输入视频数据501。传感器504收集场景505的输入视频数据501,其可以可选地存储在外部存储器506中,或者可直接发送到输入接口/预处理器507,然后发送到处理器510。
此外,获取520场景505的视频501作为图像序列515,其中,各个图像包括像素。场景505可包括执行动作的一个或更多个对象507,例如,跑上楼梯的人。可选地,可存在连接到与存储器512连接的输入接口/预处理器507的外部存储器506,其被连接以如上所述获取视频520。
此外,跟踪522一个或更多个对象,并且在视频图像的各个组块中估计跟踪对象的边界框523。例如,作为非限制性示例,组块可以是六个图像的序列。
将图像裁剪至边界框的范围,并且在边界框内计算525轮廓图像。所得裁剪轮廓图像和裁剪图像527被传递给循环神经网络(RNN)550,RNN 550已被训练以输出各个关注动作的相对得分560。
在输出各个关注动作的相对得分560时,相对得分560的输出可被存储在存储器512中或经由输出接口561输出。在处理期间,处理器514可与存储器512通信以存储或检索所存储的指令或与处理有关的其它数据。
图6是示出根据本公开的实施方式的可使用另选计算机或处理器配置实现的图1A的方法的框图。计算机/控制器611包括处理器640、计算机可读存储器612、存储装置658以及具有显示器652和键盘651的用户接口649,其通过总线656连接。例如,与处理器640和计算机可读存储器612通信的用户接口649在从用户接口657的表面、键盘表面接收到用户的输入时获取数据并将其存储在计算机可读存储器612中。
可以想到,存储器612可存储可由处理器执行的指令、历史数据以及可由本公开的方法和***使用的任何数据。处理器640可以是单核处理器、多核处理器、计算集群或任何数量的其它配置。处理器640可通过总线656连接到一个或更多个输入装置和输出装置。存储器612可包括随机存取存储器(RAM)、只读存储器(ROM)、闪存或任何其它合适的存储器***。
仍参照图6,存储装置658可被设置为存储处理器所使用的补充数据和/或软件模块。例如,存储装置658可存储历史数据以及如上面关于本公开提及的其它相关数据。另外地或另选地,存储装置658可与如上面关于本公开提及的数据类似存储历史数据。存储装置658可包括硬盘驱动器、光盘驱动器、拇指驱动器、驱动器阵列或其任何组合。
***可通过总线656可选地链接到被设置为将***连接到显示装置(未示出)的显示接口(未示出),其中,显示装置可包括计算机监视器、相机、电视、投影仪或移动装置等。
控制器611可包括电源654,根据应用,电源654可以可选地位于控制器611的外部。被设置为连接到显示装置648的用户输入接口657可通过总线656链接,其中,显示装置648可包括计算机监视器、相机、电视、投影仪或移动装置等。打印机接口659也可通过总线656连接并被设置为连接到打印装置632,其中,打印装置632可包括液体喷墨打印机、固体墨水打印机、大型商用打印机、热敏打印机、UV打印机或染料升华打印机等。网络接口控制器(NIC)634被设置为通过总线656连接到网络636,其中,数据或其它数据等可被渲染在控制器611外部的第三方显示装置、第三方成像装置和/或第三方打印装置上。
仍参照图6,数据或其它数据等可经由网络636的通信信道发送和/或被存储在存储***658内以便于存储和/或进一步处理。此外,数据或其它数据可从接收器646(或外部接收器638)以无线方式或硬连线方式接收,或者经由发送器647(或外部发送器639)以无线方式或硬连线方式发送,接收器646和发送器647二者通过总线656连接。此外,GPS 601可经由总线656连接到控制器611。控制器611可经由输入接口608连接到外部感测装置644和外部输入/输出装置641。控制器611可连接到其它外部计算机642。输出接口609可用于输出来自处理器640的经处理的数据。
本公开的各方面还可包括基于条件管理随时间存储的数据的双向长短期记忆LSTM网络,其中,所述条件包括输入门、忘记门和输出门,以基于随时间的改变来管理存储的数据,其中,随时间存储的数据类似于与关注动作有关的数据,使得存储的数据包括关注动作的预期持续时间的历史性质、在关注动作之后或之前的关注动作的历史类型以及延伸超过关注动作的边界框边界的历史长期运动模式。
本公开的上述实施方式可按照许多方式中的任一种来实现。例如,实施方式可使用硬件、软件或其组合来实现。在权利要求中使用诸如“第一”、“第二”的序数词修饰权利要求元素本身并不暗示一个权利要求元素相比于另一权利要求元素的任何优先、在前或次序或者方法的动作执行的时间次序,而是仅用作标签以将具有特定名称的一个权利要求元素与具有相同名称(但使用序数词)的另一元素相区分,以区分权利要求元素。
另外,本公开的实施方式可具体实现为一种方法,其示例已提供。作为该方法的部分执行的动作可按任何合适的方式排序。因此,可构造以与所示不同的顺序执行动作的实施方式,可包括同时执行一些动作,即使其在例示性实施方式中示出为顺序动作。

Claims (20)

1.一种从场景的视频检测该场景中的对象的动作的方法,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,所述方法包括以下步骤:
由处理器获取所述场景的所述视频,其中,所述视频包括图像序列;
由所述处理器跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块,还包括:
从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动数据;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;以及
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络RNN,该RNN输出各个关注动作的相对得分。
2.根据权利要求1所述的方法,其中,所述RNN包括卷积神经网络层和一个或更多个循环神经网络层。
3.根据权利要求2所述的方法,其中,所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。
4.根据权利要求2所述的方法,其中,所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像以及具有所述视频帧的完整空间范围的轮廓图像和图像的多个流上操作。
5.根据权利要求2所述的方法,其中,所述循环神经网络层包括长短期记忆LSTM单元。
6.根据权利要求5所述的方法,其中,所述循环神经网络层包括双向长短期记忆LSTM单元。
7.根据权利要求1所述的方法,其中,所述对象是人、机器人或工业机器人中的一种。
8.根据权利要求7所述的方法,该方法还包括人检测器和人***。
9.根据权利要求8所述的方法,其中,所述人***识别所述视频中的各个人周围的至少一个边界框。
10.根据权利要求9所述的方法,其中,表示所述对象的运动数据的所述视频序列的所述视频帧随时间在围绕所述对象定位的多个边界框内。
11.根据权利要求1所述的方法,其中,所述边界框是具有包含所跟踪的对象的至少一部分或所有部分的形状的区域。
12.根据权利要求1所述的方法,其中,所述视频初始以图像序列以外的形式获取,并被转换为图像序列。
13.根据权利要求1所述的方法,其中,所述方法用于所述视频中的细粒度动作检测。
14.根据权利要求1所述的方法,其中,所述方法包括在检测步骤之前训练所述RNN,或者所述RNN在获取所述场景的所述视频之前已经被预先训练。
15.根据权利要求1所述的方法,其中,检测步骤包括时间动作检测或空时动作检测中的一种。
16.一种从场景的视频检测该场景中的对象的关注动作的***,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,所述***包括:
处理器获取所述场景的所述视频,使得所述视频包括图像序列,其中,所述处理器被配置为:
跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块:
从所述视频序列的视频帧确定轮廓图像序列以表示围绕所述对象定位的边界框内的运动信息;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;并且
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络RNN,该RNN输出各个关注动作的相对得分。
17.根据权利要求16所述的***,其中,所述RNN包括卷积神经网络层和一个或更多个循环神经网络层,使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。
18.根据权利要求16所述的***,其中,所述循环神经网络层包括长短期记忆LSTM单元。
19.一种具体实现有程序的非暂时性计算机可读存储介质,所述程序能够由计算机执行以用于执行一种方法,该方法从场景的视频检测该场景中的对象的关注动作,使得所述视频是被分割成组块的所述场景的视频序列,并且各个组块包括连续视频帧,该方法包括以下步骤:
由处理器获取所述场景的所述视频,其中,所述视频包括图像序列;
由所述处理器跟踪所述视频中的所述对象,并且对于所述视频的各个对象和各个组块,所述处理器被配置为:
在围绕所述对象定位的边界框内从所述视频序列的视频帧确定轮廓图像序列;
使用所述边界框来为各个组块中的一个或更多个图像生成裁剪轮廓图像和裁剪图像;并且
将所述裁剪轮廓图像和所述裁剪图像传递给循环神经网络RNN,该RNN经由与所述处理器通信的输出接口来输出各个关注动作的相对得分。
20.根据权利要求19所述的存储介质,其中,所述RNN包括卷积神经网络层和一个或更多个循环神经网络层,使得所述卷积神经网络层在包括裁剪轮廓图像序列和所述裁剪图像的多个流上操作。
CN201880048903.3A 2017-08-07 2018-06-18 检测动作的方法和*** Active CN110998594B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/670,021 2017-08-07
US15/670,021 US10210391B1 (en) 2017-08-07 2017-08-07 Method and system for detecting actions in videos using contour sequences
PCT/JP2018/023910 WO2019031083A1 (en) 2017-08-07 2018-06-18 METHOD AND SYSTEM FOR ACTION DETECTION

Publications (2)

Publication Number Publication Date
CN110998594A true CN110998594A (zh) 2020-04-10
CN110998594B CN110998594B (zh) 2024-04-09

Family

ID=62948285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880048903.3A Active CN110998594B (zh) 2017-08-07 2018-06-18 检测动作的方法和***

Country Status (5)

Country Link
US (1) US10210391B1 (zh)
EP (1) EP3665613A1 (zh)
JP (1) JP6877630B2 (zh)
CN (1) CN110998594B (zh)
WO (1) WO2019031083A1 (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762637B2 (en) * 2017-10-27 2020-09-01 Siemens Healthcare Gmbh Vascular segmentation using fully convolutional and recurrent neural networks
WO2019097784A1 (ja) * 2017-11-16 2019-05-23 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
US11501522B2 (en) * 2017-12-06 2022-11-15 Nec Corporation Image recognition model generating device, image recognition model generating method, and image recognition model generating program storing medium
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
EP3561726A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for processing data sequences using a convolutional neural network
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
US10795933B1 (en) * 2018-05-01 2020-10-06 Flock Group Inc. System and method for object based query of video content captured by a dynamic surveillance network
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
CN110111358B (zh) * 2019-05-14 2022-05-24 西南交通大学 一种基于多层时序滤波的目标跟踪方法
US11663448B2 (en) 2019-06-28 2023-05-30 Conduent Business Services, Llc Neural network systems and methods for event parameter determination
WO2021055536A1 (en) * 2019-09-17 2021-03-25 Battelle Memorial Institute Activity assistance system
US11798272B2 (en) 2019-09-17 2023-10-24 Battelle Memorial Institute Activity assistance system
US11373407B2 (en) * 2019-10-25 2022-06-28 International Business Machines Corporation Attention generation
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法
CN111027510A (zh) * 2019-12-23 2020-04-17 上海商汤智能科技有限公司 行为检测方法及装置、存储介质
CN111400545A (zh) * 2020-03-01 2020-07-10 西北工业大学 一种基于深度学习的视频标注方法
US11195039B2 (en) * 2020-03-10 2021-12-07 International Business Machines Corporation Non-resource-intensive object detection
CN111243410B (zh) * 2020-03-20 2022-01-28 上海中科教育装备集团有限公司 一种化学漏斗装置搭建实验操作装置及智能评分方法
CN113744373A (zh) * 2020-05-15 2021-12-03 完美世界(北京)软件科技发展有限公司 一种动画生成方法、装置、设备
CN111881720B (zh) * 2020-06-09 2024-01-16 山东大学 用于深度学习的数据自动增强扩充方法、识别方法及***
JP7472073B2 (ja) 2021-04-26 2024-04-22 株式会社東芝 学習データ生成装置、学習データ生成方法、および学習データ生成プログラム
CN113362369A (zh) * 2021-06-07 2021-09-07 中国科学技术大学 一种移动物体的状态检测方法及检测装置
CN115359059B (zh) * 2022-10-20 2023-01-31 一道新能源科技(衢州)有限公司 太阳能电池性能测试方法及***
CN117994850A (zh) * 2024-02-26 2024-05-07 中国人民解放军军事科学院军事医学研究院 一种实验动物的行为检测方法、设备和***

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007153A1 (en) * 1997-07-31 1999-02-11 Reality Fusion, Inc. Systems and methods for software control through analysis and interpretation of video information
US20020101932A1 (en) * 2000-11-29 2002-08-01 Montgomery Dennis L. Method and apparatus for encoding information using multiple passes and decoding in a single pass
WO2003036557A1 (en) * 2001-10-22 2003-05-01 Intel Zao Method and apparatus for background segmentation based on motion localization
CN101464952A (zh) * 2007-12-19 2009-06-24 中国科学院自动化研究所 基于轮廓的异常行为识别方法
US20090278937A1 (en) * 2008-04-22 2009-11-12 Universitat Stuttgart Video data processing
CN101872418A (zh) * 2010-05-28 2010-10-27 电子科技大学 基于群体环境异常行为的检测方法
CN103377479A (zh) * 2012-04-27 2013-10-30 索尼公司 事件检测方法、装置和***,以及摄像机
CN103824070A (zh) * 2014-03-24 2014-05-28 重庆邮电大学 一种基于计算机视觉的快速行人检测方法
CN104408444A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 人体动作识别方法和装置
CN105184818A (zh) * 2015-09-06 2015-12-23 山东华宇航天空间技术有限公司 一种视频监控异常行为检测方法及其检测***
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management
CN105426820A (zh) * 2015-11-03 2016-03-23 中原智慧城市设计研究院有限公司 基于安防监控视频数据的多人异常行为检测方法
US20170083764A1 (en) * 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
US20170199010A1 (en) * 2016-01-11 2017-07-13 Jonathan Patrick Baker System and Method for Tracking and Locating Targets for Shooting Applications
CN106952269A (zh) * 2017-02-24 2017-07-14 北京航空航天大学 近邻可逆的视频前景物体序列检测分割方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4481663B2 (ja) 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US9147260B2 (en) * 2010-12-20 2015-09-29 International Business Machines Corporation Detection and tracking of moving objects
CN103593661B (zh) 2013-11-27 2016-09-28 天津大学 一种基于排序方法的人体动作识别方法
JP6517681B2 (ja) * 2015-12-17 2019-05-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007153A1 (en) * 1997-07-31 1999-02-11 Reality Fusion, Inc. Systems and methods for software control through analysis and interpretation of video information
US20020101932A1 (en) * 2000-11-29 2002-08-01 Montgomery Dennis L. Method and apparatus for encoding information using multiple passes and decoding in a single pass
WO2003036557A1 (en) * 2001-10-22 2003-05-01 Intel Zao Method and apparatus for background segmentation based on motion localization
CN101464952A (zh) * 2007-12-19 2009-06-24 中国科学院自动化研究所 基于轮廓的异常行为识别方法
US20090278937A1 (en) * 2008-04-22 2009-11-12 Universitat Stuttgart Video data processing
CN101872418A (zh) * 2010-05-28 2010-10-27 电子科技大学 基于群体环境异常行为的检测方法
CN103377479A (zh) * 2012-04-27 2013-10-30 索尼公司 事件检测方法、装置和***,以及摄像机
CN103824070A (zh) * 2014-03-24 2014-05-28 重庆邮电大学 一种基于计算机视觉的快速行人检测方法
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management
CN104408444A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 人体动作识别方法和装置
CN105184818A (zh) * 2015-09-06 2015-12-23 山东华宇航天空间技术有限公司 一种视频监控异常行为检测方法及其检测***
US20170083764A1 (en) * 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
CN105426820A (zh) * 2015-11-03 2016-03-23 中原智慧城市设计研究院有限公司 基于安防监控视频数据的多人异常行为检测方法
US20170199010A1 (en) * 2016-01-11 2017-07-13 Jonathan Patrick Baker System and Method for Tracking and Locating Targets for Shooting Applications
CN106952269A (zh) * 2017-02-24 2017-07-14 北京航空航天大学 近邻可逆的视频前景物体序列检测分割方法及***

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
BHARAT SINGH; TIM K. MARKS; MICHAEL JONES; ONCEL TUZEL; MING SHAO: "A Multi-stream Bi-directional Recurrent Neural Network for Fine-Grained Action Detection" *
DA-WEI KUO, GUAN-YU CHENG, SHYI-CHYI CHENG: "Detecting Salient Fragments for Video Human Action Detection and Recognition Using an Associative Memory" *
MING YANG; FENGJUN LV; WEI XU; KAI YU; YIHONG GONG: "Human action detection by boosting efficient motion features" *
刘会珍;尚振宏;: "多运动目标检测的研究" *
张杰、吴剑章、汤嘉立、范洪辉: "基于时空图像分割和交互区域检测的 人体动作识别方法" *

Also Published As

Publication number Publication date
JP2020530162A (ja) 2020-10-15
EP3665613A1 (en) 2020-06-17
CN110998594B (zh) 2024-04-09
US10210391B1 (en) 2019-02-19
JP6877630B2 (ja) 2021-05-26
WO2019031083A1 (en) 2019-02-14
US20190042850A1 (en) 2019-02-07

Similar Documents

Publication Publication Date Title
CN110998594B (zh) 检测动作的方法和***
JP6625220B2 (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
CN108961312B (zh) 用于嵌入式视觉***的高性能视觉对象跟踪方法及***
CN107273782B (zh) 使用递归神经网络的在线动作检测
Wang et al. Hidden‐Markov‐models‐based dynamic hand gesture recognition
CN110287844B (zh) 基于卷积姿势机和长短时记忆网络的交警手势识别方法
JP4208898B2 (ja) 対象物追跡装置および対象物追跡方法
Li et al. Tracking in low frame rate video: A cascade particle filter with discriminative observers of different life spans
CN108446585A (zh) 目标跟踪方法、装置、计算机设备和存储介质
KR100421740B1 (ko) 객체 활동 모델링 방법
US9798923B2 (en) System and method for tracking and recognizing people
US20090296989A1 (en) Method for Automatic Detection and Tracking of Multiple Objects
KR102465960B1 (ko) 변화점 검출을 활용한 다중클래스 다중물체 추적 방법
Rout A survey on object detection and tracking algorithms
CN117425916A (zh) 遮挡感知的多对象跟踪
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
CN113869274B (zh) 基于城市管理的无人机智能跟踪监控方法及***
CN115035158A (zh) 目标跟踪的方法及装置、电子设备和存储介质
JP7450754B2 (ja) 画像解析から得られたフィンガープリントを用いた、画像フレーム全体に亘る脆弱な道路利用者の追跡
Chen et al. Mode-based multi-hypothesis head tracking using parametric contours
Mohamed et al. Real-time moving objects tracking for mobile-robots using motion information
Chuang et al. Human Body Part Segmentation of Interacting People by Learning Blob Models
Ji et al. Visual-based view-invariant human motion analysis: A review
US20230206641A1 (en) Storage medium, information processing method, and information processing apparatus
Challa et al. Facial Landmarks Detection System with OpenCV Mediapipe and Python using Optical Flow (Active) Approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant