JP6877630B2 - アクションを検出する方法及びシステム - Google Patents

アクションを検出する方法及びシステム Download PDF

Info

Publication number
JP6877630B2
JP6877630B2 JP2020506281A JP2020506281A JP6877630B2 JP 6877630 B2 JP6877630 B2 JP 6877630B2 JP 2020506281 A JP2020506281 A JP 2020506281A JP 2020506281 A JP2020506281 A JP 2020506281A JP 6877630 B2 JP6877630 B2 JP 6877630B2
Authority
JP
Japan
Prior art keywords
video
images
sequence
action
cropped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020506281A
Other languages
English (en)
Other versions
JP2020530162A (ja
Inventor
ジョーンズ、マイケル
マークス、ティム
クルカーニ、クルディープ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2020530162A publication Critical patent/JP2020530162A/ja
Application granted granted Critical
Publication of JP6877630B2 publication Critical patent/JP6877630B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Description

本開示は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことによって、ビデオ内の或る特定の関心アクションを行う、人物等のオブジェクトのインスタンスを検出することに関する。
コンピュータービジョン及びカメラ監視用途において、頻繁に生じる問題は、人物、機械、車両、ロボット等のオブジェクトによって行われる或る特定のアクションを認識及び検出することである。ビデオ内のアクションを解析する一般問題に対するかなりの量の取り組みが行われてきたが、従来技術のほとんどは、アクション検出ではなくアクション認識に焦点を当ててきた。
アクション認識とは、アクションの始まりにおいて又はその付近で開始し、アクションの終了時に又はその付近で終了するように時間的にトリミングされたビデオセグメントにおいて、いずれのアクションが行われているかを分類する、すなわち認識することを指す。時間的にトリミングされたという用語を用いて、そのようなビデオセグメントを指す。アクション検出とは、長い、すなわち時間的にトリミングされていないビデオシーケンスにおいて生じる、アクションクラスの既知の組からの各アクションの全ての発生を、時間的に又は時空間的にロケーション特定することを指す。
アクション認識には、アクティビティ認識のタスクが関連している。アクティビティ認識タスクにおいて、プレイ中の特定のスポーツ等のアクティビティを描写するビデオセグメントが解析され、目標は、いずれのアクティビティ(例えば、いずれのスポーツ)がビデオ内に描写されているかを判断することである。
精密アクション検出(fine-grained action detection)とは、検出されるアクションのクラス間の差異が小さいアクション検出を指す。例えば、料理のシナリオにおいて、みじん切り、すりおろし、及び皮むき等の類似したアクションを含む組からアクションを検出することが、精密アクション検出の一例である。しかしながら、アクション検出のための従来技術による方法の少なくとも1つの欠点は、それらの精度が比較的低いことである。すなわち、従来技術によるアクション検出方法の性能は、数ある用途の中でも、ほとんどのコンピュータービジョン用途にとって十分良好でない。
アクション認識、イベント検出及びビデオ検索等のほとんどのビデオ解析タスクのための標準的なパイプラインは、勾配方向ヒストグラム(HOG)、運動境界ヒストグラム(MBH)、及びオプティカルフローヒストグラム(HOF)等の、人が設計した(hand-crafted)特徴を計算することであった。従来の手法は、改善密度軌道又は密なオプティカルフロー等の計算コストの高い入力表現に依拠し、ビデオクリップごとにフィッシャーベクトルを作成し、次に、サポートベクトルマシンを用いて分類を実行する。しかしながら、アクション検出/認識に対する上記の以前の手法の数多くの欠点の中でも少なくとも1つの主要な欠点は、これらの手法が入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、記憶するのに大量のメモリを必要とすることである。これにより、そのような従来の方法は、現実世界のアクション検出用途にとって非実用的なものとなる。
したがって、時間及びメモリ要件の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法を開発することが必要とされている。
本開示は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことによって、ビデオ内の或る特定の関心アクションを行う、人物等のオブジェクトのインスタンスを検出することに関する。
本開示は、アクション認識、イベント検出及びビデオ検索等のビデオ解析タスクの問題を克服する方法及びシステムを提供する。これらのビデオ解析タスクは、入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、また、記憶するのに大量のメモリを必要とする。特に、本開示は、時間のかかる計算の最小化及びメモリストレージ/要件の低減の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法及びシステムを記載する。
特に、本開示は、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことにより、数ある中でも、ビデオ内のアクションの高速でメモリ効率の良い検出器を提供することができるという認識に基づく。例えば、本開示は、特定のアクションの出現の、時間におけるロケーション特定(ビデオのいずれのフレームか)及び空間におけるロケーション特定(各フレームのどこか)に基づいて、ビデオ内のアクション検出に対処する。実験を通じて、人物等の追跡されるオブジェクトの周りのクロップされた画像、及び複数のフレームにわたるクロップされた領域内の運動を表す輪郭画像のシーケンスを入力としてとる、リカレント接続を有する深層ニューラルネットワークを用いて、ビデオ内のアクションを検出することができることを認識した。オプティカルフローに基づく表現を用いる従来の手法から、そのような手法の計算コストが高く、すなわち、時間のかかる計算及び大量のメモリ及びストレージを必要とすることがわかった。これによって、これらの従来のアクション検出手法は、現実世界の用途にとって非実用的になっている。
本開示は、ビデオフレーム内でアクションが生じる場所を空間的にロケーション特定することができるオブジェクト/人物トラッカーを更に含む。実験を通じて、トラッカーを使用せず、代わりにフレーム全体にわたって運動及び外観を解析するのみの従来の手法は、関心アクションに無関係の大量の情報を用いることがわかった。また、そのような手法は、タスクにとって最も重要な領域からの十分詳細な情報を有していない。
さらに、本開示は、運動及び外観の双方の重要な態様を表す特徴を学習し、多くのビデオフレームにわたって、異なるアクションを区別する重要な時間的力学を学習するマルチストリームリカレントニューラルネットワーク(RNN)も用いる。例えば、方法及びシステムは、ビデオ内のオブジェクトのアクションを検出するのに用いることができ、ここで、オブジェクトは、人物、動物、機械、車両、ロボット、工場設定における産業ロボット等とすることができる。本開示は、時間的にトリミングされていないビデオ内で生じるオブジェクトのアクションについて、より正確なアクション検出を提供する。
本開示の別の態様は、従来のRNNを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、RNNの1つ以上の層として含まれる長期短期記憶(LSTM)ネットワークの使用を含む。本開示は、双方向LSTMを用いてより良好な性能を提供することができ、これは、本開示が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することができることを意味する。
本開示を更に理解するのに役立つように、シーンのビデオからシーン内のオブジェクトのアクションを検出することを含む少なくとも1つの方法のステップを提供した。ビデオは、ビデオデバイスによって撮影することができ、ビデオ自体は、複数のチャンクに分割されたビデオシーケンスとすることができ、各チャンクが連続ビデオフレームを含むことができる。
本開示の方法は、例えば、シーンのビデオを取得するステップを含むことができ、ビデオは画像のシーケンスを含む。ビデオをプロセッサによってメモリにダウンロードしておくことができ、プロセッサがメモリにアクセスしてビデオを取得することが可能である。次のステップは、ビデオ内のオブジェクトを追跡することを含むことができ、ビデオの各オブジェクト及び各チャンクについて、本方法は、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定するステップを更に含むことができる。次のステップは、バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成することであり得る。最後に、最終ステップは、クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すことであり得る。
出力インターフェースをプロセッサに接続することができ、シーンのビデオからシーン内のオブジェクトのアクションを検出することに関連するいくつかのデータ又は全てのデータを出力することができることが予期される。
本開示の1つの実施の形態は、シーンのビデオから該シーン内のオブジェクトのアクションを検出する方法である。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスとすることができ、各チャンクは連続ビデオフレームを含む。本方法は、以下のステップを含む。シーンからビデオを取得すること。ここで、ビデオは画像のシーケンスを含む。ビデオ内のオブジェクトを追跡すること。そして、ビデオの各オブジェクト及び各チャンクについて、本方法は以下のステップを更に含む。ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定すること。バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成すること。クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すこと。
本開示の1つの実施の形態は、シーンのビデオから該シーン内のオブジェクトの関心アクションを検出するシステムである。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含む。本システムは、シーンからビデオを取得するプロセッサを備え、ビデオは画像のシーケンスを含む。プロセッサは、ビデオ内のオブジェクトを追跡するように構成され、ビデオの各オブジェクト及び各チャンクについて、本方法は以下のステップを含む。ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動情報を表す輪郭画像のシーケンスを決定する。バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成する。クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡す。
本開示の1つの実施の形態は、シーンのビデオからシーン内のオブジェクトの関心アクションを検出する方法を実行する、コンピューターによって実行可能なプログラムが具現化された非一時的コンピューター可読ストレージ媒体である。ビデオは、複数のチャンクに分割されたシーンのビデオシーケンスとすることができ、各チャンクは連続ビデオフレームを含む。本方法は、プロセッサによってシーンからビデオを取得することを含み、ビデオは画像のシーケンスを含むことができる。プロセッサによってビデオ内のオブジェクトを追跡する。ビデオの各オブジェクト及び各チャンクについて、プロセッサは、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の輪郭画像のシーケンスを決定し、バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成し、クロップされた輪郭画像及びクロップされた画像を、プロセッサと通信する出力インターフェースを介して各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すように構成される。
ここに開示されている実施の形態は、添付図面を参照して更に説明される。示されている図面は、必ずしも一律の縮尺というわけではなく、その代わり、一般的に、ここに開示されている実施の形態の原理を示すことに強調が置かれている。
本開示の1つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する方法のブロック図を示す。 本開示のいくつかの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する図1Aの方法のいくつかの構成要素を示す概略図である。 本開示のいくつかの実施の形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク(CNN)と、単数又は複数の最終層としての長期短期記憶(LSTM)ネットワークとを含むリカレントニューラルネットワーク(RNN)を示す概略図である。 本開示のいくつかの実施の形態による、画像のシーケンスから入力画像を示すことによって輪郭画像の例を与える図である。 本開示のいくつかの実施の形態による、入力画像から決定された輪郭画像を示すことによって輪郭画像の例を与える図である。 本開示のいくつかの実施の形態によるLSTMセルを示す概略図である。 本開示の実施の形態による、オブジェクトのアクションを検出する少なくとも1つの方法及びシステムの概略図である。 本開示の実施の形態による、代替的なコンピューター又はプロセッサ構成を用いて実施することができる、図1Aの方法を示すブロック図である。
上記で明らかにされた図面は、ここに開示されている実施の形態を記載しているが、この論述において言及されるように、他の実施の形態も意図されている。この開示は、限定ではなく代表例として例示の実施の形態を提示している。ここに開示されている実施の形態の原理の範囲及び趣旨に含まれる非常に多くの他の変更及び実施の形態を当業者は考案することができる。
以下の説明は、例示的な実施の形態のみを提供し、本開示の範囲も、適用範囲も、構成も限定することを意図していない。そうではなく、例示的な実施の形態の以下の説明は、1つ以上の例示的な実施の形態を実施することを可能にする説明を当業者に提供する。添付の特許請求の範囲に明記されているような開示された主題の趣旨及び範囲から逸脱することなく要素の機能及び配置に行うことができる様々な変更が意図されている。以下の説明では、実施の形態の十分な理解を提供するために、具体的な詳細が与えられる。しかしながら、当業者は、これらの具体的な詳細がなくても実施の形態を実施することができることを理解することができる。例えば、開示された主題におけるシステム、プロセス、及び他の要素は、実施の形態を不必要な詳細で不明瞭にしないように、ブロック図形式の構成要素として示される場合がある。それ以外の場合において、よく知られたプロセス、構造、及び技法は、実施の形態を不明瞭にしないように不必要な詳細なしで示される場合がある。さらに、様々な図面における同様の参照符号及び名称は、同様の要素を示す。
また、個々の実施の形態は、フローチャート、フロー図、データフロー図、構造図、又はブロック図として描かれるプロセスとして説明される場合がある。フローチャートは、動作を逐次的なプロセスとして説明することができるが、これらの動作の多くは、並列又は同時に実行することができる。加えて、これらの動作の順序は、再配列することができる。プロセスは、その動作が完了したときに終了することができるが、論述されない又は図に含まれない追加のステップを有する場合がある。さらに、特に説明される任意のプロセスにおける全ての動作が全ての実施の形態において行われ得るとは限らない。プロセスは、方法、関数、手順、サブルーチン、サブプログラム等に対応することができる。プロセスが関数に対応するとき、その関数の終了は、呼び出し側関数又はメイン関数へのその機能の復帰に対応することができる。
さらに、開示された主題の実施の形態は、少なくとも一部は手動又は自動のいずれかで実施することができる。手動実施又は自動実施は、マシン、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせを用いて実行することもできるし、少なくとも援助することができる。ソフトウェア、ファームウェア、ミドルウェア又はマイクロコードで実施されるとき、必要なタスクを実行するプログラムコード又はプログラムコードセグメントは、マシン可読媒体に記憶することができる。プロセッサ(複数の場合もある)が、それらの必要なタスクを実行することができる。
概説
本開示は、包括的には、コンピュータービジョン及びカメラ監視用途に関し、より詳細には、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことによって、ビデオ内の或る特定の関心アクションを行う、人物等のオブジェクトのインスタンスを検出することに関する。
本開示は、アクション認識、イベント検出及びビデオ検索等のビデオ解析タスクの問題を克服する方法及びシステムを提供する。これらのビデオ解析タスクは、入力表現及び中間表現に依拠し、これらは計算するのに非常に時間がかかり、記憶するのに大量のメモリを必要とする。特に、本開示は、時間のかかる計算の最小化及びメモリストレージ/要件の低減の双方の観点から、ビデオ内のアクションを効率的に検出することができるアクション検出方法及びシステムを記載する。
特に、本開示は、ビデオシーケンスのフレームから計算された輪郭画像のシーケンスを用いて運動情報を表すことにより、数ある中でも、ビデオ内のアクションの高速でメモリ効率の良い検出器を提供することができるという認識に基づく。例えば、本開示は、特定のアクションの出現の、時間におけるロケーション特定(ビデオのいずれのフレームか)及び空間におけるロケーション特定(各フレームのどこか)に基づいて、ビデオにおけるアクション検出に対処する。実験を通じて、人物等の追跡されるオブジェクトの周りのクロップされた画像、及び複数のフレームにわたるクロップされた領域内の運動を表す輪郭画像のシーケンスを入力としてとる、リカレント接続を有する深層ニューラルネットワークを用いて、ビデオ内のアクションを検出することができることを認識した。オプティカルフローに基づく表現を用いる従来の手法から、そのような手法の計算コストが高く、すなわち、時間のかかる計算及び大量のメモリ及びストレージを必要とすることがわかった。これによって、これらの従来のアクション検出手法は、現実世界の用途にとって非実用的になっている。
本開示は、ビデオフレーム内でアクションが生じる場所を空間的にロケーション特定することができるオブジェクト/人物トラッカーを更に含む。実験を通じて、トラッカーを使用せず、代わりにフレーム全体にわたって運動及び外観を解析するのみの従来の手法は、関心アクションに無関係の大量の情報を用いることがわかった。また、そのような手法は、タスクにとって最も重要な領域からの十分詳細な情報を有していない。
さらに、本開示は、運動及び外観の双方の重要な態様を表す特徴を学習し、多くのビデオフレームにわたって、異なるアクションを区別する重要な時間的力学を学習するマルチストリームリカレントニューラルネットワーク(RNN)も用いる。例えば、方法及びシステムは、ビデオ内のオブジェクトのアクションを検出するのに用いることができ、ここで、オブジェクトは、人物、動物、機械、車両、ロボット、工場設定における産業ロボット等とすることができる。本開示は、時間的にトリミングされていないビデオ内で生じるオブジェクトのアクションについて、より正確なアクション検出を提供する。
本開示の別の態様は、従来のRNNを用いて学習することができるものよりも長い持続時間を有するパターンを学習することができる、RNNの1つ以上の層として含まれる長期短期記憶(LSTM)ネットワークの使用を含む。本開示は、双方向LSTMを用いたより良好な性能を提供することができ、これは、本開示が、過去のビデオフレーム及び未来のビデオフレームからの情報を用いてアクションを検出することができることを意味する。
方法及びシステム
図1Aは、本開示の1つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する方法100のブロック図を示す。ビデオは、複数のチャンクに分割されたビデオシーケンスとすることができ、各チャンクは、連続ビデオフレームを含む。初期ステップ120は、プロセッサ110によってシーンからビデオを取得することを含み、ビデオは画像のシーケンスを含む。
ステップ122は、ビデオ内のオブジェクトを追跡することを含み、ビデオの各オブジェクト及び各チャンクについて、このステップは、ビデオシーケンスのビデオフレームから、オブジェクトの周りに位置するバウンディングボックス内の運動データを表す輪郭画像のシーケンスを決定するステップ125と、バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成するステップ127とを更に含む。
最後に、ステップ128は、クロップされた輪郭画像及びクロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すことを含む。
図1Bは、本開示の1つの実施の形態による、シーンのビデオからシーン内のオブジェクトのアクションを検出する図1Aの方法100の構成要素を示す概略図である。特に、図1Bは、特定のアクションを行うシーン内の人物を検出する等、シーン105内のオブジェクト(複数の場合もある)107のアクションを検出する方法100の基本動作を示す。ビデオカメラ104からのビデオデータ108が、画像のシーケンス115としてシーン105から取得され(120)、各画像はピクセルを含む。シーンは、アクションを行う1つ以上のオブジェクト107、例えば、階段を駆け上る人物又は何らかの他のアクションを含むことができる。ビデオデータは、プロセッサ110によって取得される。さらに、オブジェクト107のうちの1つ以上が追跡され(122)、各追跡されるオブジェクト107のバウンディングボックス123がビデオ画像の各チャンクにおいて推定される。例えば、チャンクは、6つの連続画像、5つ以下の画像、又は7つ以上の画像のシーケンスとすることができる。
画像は、バウンディングボックス123の範囲までクロップされ、輪郭画像のシーケンスが計算され(125)、バウンディングボックス123の範囲までクロップされる。結果として得られるクロップされた輪郭画像及びクロップされた画像127は、各関心アクションについて相対スコア140を出力するようにトレーニングされたリカレントニューラルネットワーク(RNN)130に渡される。ステップは、メモリ(図示せず)に接続されたプロセッサ110において実行することができる。
本開示の実施の形態は、上記で開示されたような、ビデオ内のオブジェクトのアクションを検出する方法及びシステムを提供する。いくつかの実施の形態は、トレーニング段階及び試験段階を含み、トレーニング段階は、トレーニングデータからRNNのパラメータを学習することを伴う。いくつかの実施の形態は、試験段階のみを含むことができる。例えば、以前にトレーニングされたRNNを利用する、試験段階のみを有する方法が小型デバイスに埋め込まれ得る。
図2は、本開示の実施の形態による、初期層としてのマルチストリーム畳み込みニューラルネットワーク(CNN)と、単数又は複数の最終層としての長期短期記憶(LSTM)ネットワークとを含むリカレントニューラルネットワーク(RNN)を示す概略図である。
例えば、トレーニング段階中、図2に示すような、4つの独立した畳み込みニューラルネットワーク(CNN)220をトレーニングする。各CNNは、4つのストリーム210、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム211及び外観ストリーム212、並びにフルフレーム(空間的にクロップされていない)ビデオ画像の運動ストリーム213及び外観ストリーム214のうちの1つを処理する。いくつかの実施の形態は、2つのストリーム、すなわち、追跡されるオブジェクトのロケーションの周りでクロップされたビデオ画像の運動ストリーム211及び外観ストリーム212のみを有する。これは、例えば、背景シーンが、ノイズを多く含むか、特徴がないか、又はそうでない場合、オブジェクトによって行われているアクションに無関係である事例に有用であり得る。
図2を更に参照すると、いくつかの実施の形態では、各畳み込みネットワーク(CNN)は、VGG(ビジュアルジオメトリグループ)アーキテクチャーを用いる。しかしながら、各ストリームについて、AlexNetアーキテクチャー又はResNetアーキテクチャー等の他のCNNアーキテクチャーも用いられ得る。
4つのネットワークは、ビデオ200の連続した小さなチャンク201に対し、アクション分類のタスクを行う。例えば、各チャンクは、6つの連続ビデオフレームからなり得る。CNNの後に、投影層230が続く。この投影層は、全てのストリームのCNNの出力を、単一の空間及び長期短期記憶(LSTM)セル240内に投影する。各チャンクの出力は、N個のアクションクラスA,A,...,Aの組からの検出されたアクションクラス250である。
それぞれ画像及び運動に1つずつの2つの畳み込みニューラルネットワーク(CNN)が、追跡されるオブジェクトのバウンディングボックスにクロップされたビデオフレームからなるチャンクに対しトレーニングされる。クロップされたフレームは、アクションの近傍に制限されたバウンディングボックスをアクションに提供し、これは、アクションの分類に役立つ。いくつかの実施の形態では、このバウンディングボックスは、ピクセル単位の固定サイズを有し、これは、アクションの複数の実行にわたってオブジェクトをアラインするのに役立つ。
図2を更に参照すると、いくつかの好ましい実施の形態において、それぞれ画像及び運動に1つずつの2つの追加のCNNが、空間的にクロップされていないビデオフレームからなるチャンクに対しトレーニングされる。すなわち、各フレームはビデオのフルフレームであり、このため、シーン内で行われているアクションの空間コンテキストが保持される。ネットワークを、マルチストリームニューラルネットワークと呼ぶ。なぜなら、このネットワークは、各々がビデオからの異なる情報ストリームを処理する複数の(例えば、4つの)CNNを有するためである。
これらの4つのネットワーク220がトレーニングされた後、4つのネットワークの出力の上の、全結合投影層230を学習し、これらの独立したストリームの共同表現を生成する。CNNがVGGアーキテクチャーを用いるいくつかの実施の形態では、ネットワークの出力は、それらのfc7層出力であり、fc7層は、VGGネットワークにおける最後の全結合層である。マルチストリームネットワークに、チャンク201の時系列として配列されたフルレングスビデオ200が提供され、次に、投影層の出力の対応する時系列が、長期短期記憶(LSTM)ネットワーク240内に供給される。いくつかの実施の形態では、LSTMネットワークは2つの方向に流れる、すなわち、LSTMネットワークは、双方向性である。
双方向LSTMネットワークは、2つの指向性LSTMネットワーク(一方は時間において前方に連結され、他方は時間において後方に連結される)からなる。いくつかの実施の形態では、2つの指向性LSTMネットワークの各々の後に、明確にするために図2には示されていない、各指向性LSTMネットワークの隠れ状態の各々の上の全結合層が続き、その後にsoftmax層が続き、各アクションに対応する中間スコアが得られる。最終的に、2つの指向性LSTMのスコアが組み合わされ、例えば平均され、各特定のアクションのスコアが得られる。
図2を更に参照すると、アクション検出パイプラインにおいて、良好な性能を達成するのに重要な複数のコンポーネントが存在する。このタスクにおいて、ビデオ内に存在する空間情報及び長期時間情報を特徴付けるモデルを用いる。
バウンディングボックスを用いて決定された輪郭画像は、入力表現からロケーション変動を取り除くことによって多くのアクションの学習を容易にする基準画像を提供する。しかしながら、いくつかのアクションは、ロケーションに依拠する。静的ビデオカメラを用いて取得されるシーンの場合、これらのアクションは、常に、同じ画像ロケーションにおいて生じる。例えば、料理のビデオにおいて、洗浄及びゆすぎは、ほとんど常にシンクの付近で行われ、ドアの開放は、冷蔵庫又は食器棚の付近で行われる可能性が最も高い。これらの理由により、輪郭画像及びビデオフレームのクロップされたチャンク及びクロップされていないチャンクにおいて2つの別個の深層ネットワークをトレーニングする。
最初の2つのCNNが、オブジェクトトラッカーからのボックスを用いてクロップされたクロップ画像に対しトレーニングされ、背景ノイズが低減され、輪郭画像及び画像領域のためのオブジェクト中心基準画像が提供される。他の2つのCNNは、大域空間コンテキストを保持するために全体(空間的にフルフレームの)画像に対しトレーニングされる。
図3A及び図3Bは、入力画像から決定された輪郭画像を示す。入力画像は、画像シーケンスからの画像を表す。輪郭画像は、深層ニューラルネットワークを用いてオブジェクト輪郭を決定する画像処理アルゴリズム等の画像処理アルゴリズムを用いて入力画像から決定することができる。
輪郭画像は、入力画像から自動的に計算することができ、画像内の各オブジェクトの境界に沿ったエッジを表す。さらに、輪郭画像は、入力画像内の色及びテクスチャを表さず、オブジェクトの境界のみを表す。輪郭画像のシーケンスは、対応する画像シーケンス内のオブジェクトの動きに関する最も関連した情報、すなわちオブジェクト輪郭のみを含む。
検出されるアクションは、多岐にわたる持続時間を有することができるので、本方法は、LSTMネットワーク240を用いて、データ駆動形の方式でアクションの持続時間及び長期時間コンテキストを学習する。結果は、LSTMが、精密アクション検出のために長期時間コンテキストを学習する際に効果的であることを実証する。
精密アクション検出のための追跡
ロケーションに無関係の独立した(クロップされた)外観及び運動ストリームのためにオブジェクトの周りのバウンディングボックスを提供するために、任意のオブジェクト追跡方法が用いられ得る。好ましい実施の形態では、状態ベースのトラッカーを用いて、ビデオ内のアクションを空間的にロケーション特定する。追跡されるバウンディングボックスのサイズを固定したままにして、バウンディングボックスの位置を更新し、バウンディングボックス内の差分画像エネルギーの大きさが最大になるようにする。差分画像エネルギーの大きさが閾値を超える場合、バウンディングボックスのロケーションが、差分画像エネルギーの大きさを最大にするロケーションであるように更新される。そうでない場合、オブジェクトは、低速に動いているか又は全く動いていない。オブジェクトが過度に低速に動いているか又は動いていないとき、前のチャンクからのバウンディングボックスが用いられ、すなわち、バウンディングボックスは更新されない。バウンディングボックスのロケーションは、チャンク101(例えば、6つの画像)が処理され、チャンクに対する運動及び外観特徴が決定され、バウンディングボックスがチャンク内の全ての画像にわたって静止していることを確実にした後に初めて更新される。
本発明の追跡方法は、カメラが静止しており、オブジェクトのサイズに関する妥当な推定値を有するときに効果的に適用することができる。これは、小売店、個人の自宅、又は精密アクション検出が用いられる可能性が高い監視設定において撮影される多くのビデオにとって実用的な仮定である。より難解な追跡状況では、より高度なトラッカーを用いることができる。
好ましい実施の形態では、バウンディングボックスは、オブジェクトを含む矩形領域であるが、バウンディングボックスは矩形である必要はない。より一般的には、バウンディングボックスは、追跡されているオブジェクトを含むか又はその大部分を含み、さらに、オブジェクトの周りの小さな領域を含む場合もある任意の形状の領域である。
双方向LSTMネットワークを用いた長いシーケンスにおけるアクション検出
図4は、本開示のいくつかの実施の形態による、LSTMセルを示す概略図である。ここで、リカレントニューラルネットワーク(RNN)及び長期短期記憶(LSTM)セルの簡単な説明を与える。入力シーケンスx=(x,...,x)を所与として、RNNは、隠れ状態表現h=(h,...,h)を用い、RNNが入力xを出力シーケンスy=(y,...,y)にマッピングできるようにする。
この表現を求めるために、RNNは、以下の再帰方程式を反復する。
Figure 0006877630
ここで、gは、活性化関数であり、Wxhは、入力を隠れ状態にマッピングする重み行列であり、Whhは、2つの隣接する時間ステップにおける隠れ状態間の遷移行列であり、Whyは、隠れ状態hを出力yにマッピングする行列であり、b及びbは、バイアス項である。
図4を更に参照すると、離散隠れ状態表現を用いる隠れマルコフモデル(HMM)と異なり、リカレントニューラルネットワークは、隠れ状態のための連続空間表現を用いる。しかしながら、トレーニングは、時間を通じた後方伝播を用いてネットワークをアンロールすることによって行われるため、長期シーケンス情報を学習するようにRNNをトレーニングすることは困難である。この結果、勾配消失問題又は勾配爆発問題が生じる。
図4に示すように、この問題を回避するために、LSTMセルは、LSTMがいつ前の状態を保持し、いつその状態を忘却するかを学習するのに役立つ、メモリセルc及び忘却ゲートfを有する。これによって、LSTMネットワークは、長期時間情報を学習することが可能になる。LSTMセルのための重み更新方程式は以下のとおりである。
Figure 0006877630
ここで、σは、シグモイド関数であり、tanhは、双曲線正接関数であり、i、f、o、及びcはそれぞれ、入力ゲート、忘却ゲート、出力ゲート、及びメモリセル活性化ベクトルである。
忘却ゲートfは、いつ(及びどの)情報がメモリセルcからクリアされるかを判定する。入力ゲートiは、いつ(及びどの)新たな情報がメモリに組み込まれるかを判定する。tanh層gは、入力ゲートによって許可されるときにメモリセルに追加される値の候補組を生成する。
図4を更に参照すると、忘却ゲートf、入力ゲートi及び新たな候補値gの出力に基づいて、メモリセルcが更新される。出力ゲートoは、メモリセル内のいずれの情報が、隠れ状態のための表現として用いられるかを制御する。隠れ状態は、メモリセル状態の関数と出力ゲートとの積として表される。
RNNのためのLSTMアーキテクチャーは、画像からの文作成、ビデオからのテキストビデオ記述のために、及び音声認識において用いられることに成功している。しかしながら、アクション認識のタスクの場合、LSTMネットワークの性能は、依然として、改善された密な軌道にわたって生成されたフィッシャーベクトルに基づく分類器の性能に近い。ビデオからのアクション認識における精彩を欠いた性能に起因して、LSTMを用いるRNNがビデオからのアクション検出に用いられてこなかったおそれがある。アクション検出は、本開示の焦点である。
一般的に用いられるアクション認識データセットにおいて、ビデオは、各アクションの開始時点及び終了時点において又はその付近で開始及び終了するように時間的にトリミングされる。時間的にトリミングされたビデオは、通常、長さが短く、例えば、2秒〜20秒である。このため、アクション認識タスクにおいて、データ駆動方式で学習されるのに十分な長期コンテキストが存在しない。この長期コンテキストは、アクションの予測持続時間、いずれのアクションが別のアクションに後続又は先行するか、及び時間的にアクション境界を越えて延在する他の長期運動パターン等の特性を含むことができる。
図4を更に参照すると、アクション認識タスクにおいて、LSTMネットワークは、長期時間コンテキストにほとんどアクセスを有していない。しかしながら、精密アクション検出において、ビデオ持続時間は通常、約数分又は数時間である。このため、LSTMは、シーケンスにおいて長期時間的力学をモデル化するので、LSTMネットワークは、(以前に適用されていた)アクション認識よりも(本発明において適用する)アクション検出により適しているという重要な洞察が得られた。
双方向LSTMネットワークは、未来のチャンク及び過去のチャンクの双方からの情報を統合して、ビデオシーケンスにおける各チャンクの予測を行う。したがって、双方向LSTMネットワークが、アクションの時間的境界(すなわち、開始及び終了)の予測において、単方向LSTMよりも良好であることを予測した。
本明細書に記載されるように、前方LSTMネットワーク及び後方LSTMネットワークは、各々、全てのアクションクラスのためのsoftmaxスコアを生成し、2つのLSTMネットワークのsoftmaxスコアを平均して、各アクションのスコア(確率)を得る。
長いシーケンスにおいてLSTMネットワークをトレーニングする間、時間を通じた後方伝播は、チャンクの短いシーケンスを用いて、固定ステップ数までのみ行うことができる。長期コンテキストを保持するために、チャンクの後続のシーケンスにおいてトレーニングする際に、チャンクの前のシーケンスにおける最後の要素の隠れ状態を保持する。
図5は、本開示の実施の形態による、オブジェクトのアクションを検出する少なくとも1つの方法及びシステムの概略図である。例えば、上記で説明したように、本方法のトレーニング段階は、リカレントニューラルネットワーク(RNN)のトレーニングを含む。試験段階、すなわち、アクション検出において、オブジェクトのアクションを検出するために、既にトレーニングされたRNNが用いられる。
図5は、特定のアクションを行うシーン内の人物の検出等、オブジェクトのアクションを検出するための方法及びシステム500の基本動作を示す。例えば、方法500は、シーン505の入力ビデオデータを生成する少なくとも1つのセンサー504を含むことができる。センサー504は、ビデオカメラ、又は入力ビデオデータを生成する何らかの他のデバイスとすることができる。センサー504は、時間、温度、及びシーン505に関する他のデータ等の他のデータを収集し得ることが予期される。
コンピューター514のコンピューター可読メモリ512は、センサー504によって生成された入力ビデオデータ501を記憶及び/又は提供することができる。センサー(複数の場合もある)504は、シーン505の入力ビデオデータ501を収集する。この入力ビデオデータ501は、任意選択で外部メモリ506に記憶されてもよく、又は入力インターフェース/プリプロセッサ511に直接送信され、次にプロセッサ510に送信されてもよい。
さらに、ビデオ501がシーン505から画像のシーケンス515として取得される(520)。ここで、各画像はピクセルを含む。シーン505は、アクションを行う1つ以上のオブジェクト507、例えば、階段を駆け上る人物を含むことができる。任意選択で、入力インターフェース/プリプロセッサ511に接続された外部メモリ506が存在してもよく、入力インターフェース/プリプロセッサ511はメモリ512に接続され、メモリ512は、上述したようなビデオの取得520に接続される。
さらに、オブジェクトのうちの1つ以上が追跡され(522)、追跡されるオブジェクトのバウンディングボックス523が、ビデオ画像の各チャンク内で推定される。例えば、非限定的な例として、チャンクは、6つの画像のシーケンスとすることができる。
画像は、バウンディングボックスの範囲までクロップされ、バウンディングボックス内で輪郭画像が計算される(525)。結果として得られるクロップされた輪郭画像及びクロップされた画像527は、各関心アクションについての相対スコア560を出力するようにトレーニングされたリカレントニューラルネットワーク(RNN)550に渡される。
各関心アクションについての相対スコア560の出力時に、相対スコア560の出力は、メモリ512に記憶するか、又は出力インターフェース561を介して出力することができる。処理中、プロセッサ510は、記憶された命令、又は処理に関する他のデータを記憶又は検索するためにメモリ512と通信することができる。
図6は、本開示の実施の形態による、図1Aの方法を示すブロック図であり、その方法は代替のコンピューター又はプロセッサ構成を用いて実施することができる。コンピューター/コントローラー611は、プロセッサ640、コンピューター可読メモリ612、ストレージ658、並びにディスプレイ652及びキーボード651を備えたユーザーインターフェース649を含み、それらは、バス656を通して接続されている。例えば、プロセッサ640及びコンピューター可読メモリ612と通信するユーザーインターフェース649は、ユーザーによるユーザーインターフェース657の面、すなわちキーボード面からの入力を受け取ると、データを取得し、コンピューター可読メモリ612内にデータを記憶する。
メモリ612は、プロセッサによって実行可能な命令、履歴データ、及び本開示の方法及びシステムによって利用することができる任意のデータを記憶することができることが企図される。プロセッサ640は、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティングクラスター、又は任意の数の他の構成とすることができる。プロセッサ640は、バス656により、1つ以上の入力デバイス及び出力デバイスに接続することができる。メモリ612としては、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、フラッシュメモリ、又は他の任意の好適なメモリシステムを挙げることができる。
図6を更に参照すると、記憶デバイス658は、プロセッサによって使用される補足データ及び/又はソフトウェアモジュールを記憶するように適合させることができる。例えば、記憶デバイス658は、本開示に関して上述したように、履歴データ及び他の関連データを記憶することができる。さらに又は代替的に、記憶デバイス658は、本開示に関して上述したようなデータと同様の履歴データを記憶することができる。記憶デバイス658としては、ハードドライブ、光ドライブ、サムドライブ、ドライブのアレイ又はそれらの任意の組み合わせを挙げることができる。
システムは、バス656を通して、システムをディスプレイデバイス(図示せず)に接続するように適合されたディスプレイインターフェース(図示せず)に任意選択的に連結することができ、ディスプレイデバイスとしては、特に、コンピューターモニター、カメラ、テレビ受像機、プロジェクター、又はモバイルデバイスを挙げることができる。
コントローラー611は、電源654を含むことができ、応用に応じて、電源654は、任意選択的にコントローラー611の外部に位置することができる。バス656を通して、ディスプレイデバイス648に接続するように適合されたユーザー入力インターフェース657を連結することができ、ディスプレイデバイス648としては、特に、コンピューターモニター、カメラ、テレビ受像機、プロジェクター、又はモバイルデバイスを挙げることができる。プリンターインターフェース659もまた、バス656を通して接続し、印刷デバイス632に接続するように適合させることができ、印刷デバイス632としては、特に、液体インクジェットプリンター、固体インクプリンター、大型商用プリンター、サーマルプリンター、UVプリンター又は昇華型プリンターを挙げることができる。ネットワークインターフェースコントローラー(NIC)634が、バス656を通してネットワーク636に接続するように適合され、特に、何らかのデータは、コントローラー611の外部のサードパーティディスプレイデバイス、サードパーティ撮像デバイス及び/又はサードパーティ印刷デバイスにおいてレンダリングすることができる。
図6を更に参照すると、特に、何らかのデータは、ネットワーク636の通信チャネルを介して送信し、及び/又は記憶及び/又は更なる処理のために記憶システム658内に記憶することができる。さらに、何らかのデータは、受信機646(又は外部受信機638)から無線で若しくは配線により受信し、又は送信機647(又は外部送信機639)を介して無線で若しくは配線により送信することができ、受信機646及び送信機647両方が、バス656を通して接続される。さらに、バス656を介してコントローラー611にGPS601を接続することができる。コントローラー611は、入力インターフェース608を介して外部検知デバイス644及び外部入出力デバイス641に接続することができる。コントローラー611は、他の外部コンピューター642に接続することができる。出力インターフェース609を使用して、プロセッサ640から処理済みデータを出力することができる。
本開示の態様は、条件に基づいて経時的に記憶データを管理する双方向長期短期記憶LSTMネットワークを更に含むことができる。条件は、経時的変化に基づいて記憶データを管理するための入力ゲート、忘却ゲート及び出力ゲートを含む。経時的な記憶データは、関心アクションに関連するデータに類似しており、この記憶データは、関心アクションの予測持続時間の特性の履歴、関心アクションに後続又は先行する関心アクションタイプの履歴、及び関心アクションのバウンディングボックス境界を越えて延びる長期運動パターンの履歴を含む。
上述した本開示の実施の形態は、数多くの方法のうちの任意のもので実施することができる。例えば、実施の形態は、ハードウェア、ソフトウェア、又はそれらの組み合わせを用いて実施することができる。請求項の要素を修飾する、特許請求の範囲における「第1」、「第2」等の序数の使用は、それ自体で、1つの請求項の要素の別の請求項の要素に対する優先順位も、優位性も、順序も暗示するものでもなければ、方法の動作が実行される時間的な順序も暗示するものでもなく、請求項の要素を区別するために、単に、或る特定の名称を有する1つの請求項の要素を、同じ(序数の用語の使用を除く)名称を有する別の要素と区別するラベルとして用いられているにすぎない。
また、本開示の実施の形態は方法として具現することができ、その一例が提供されてきた。その方法の一部として実行される動作は、任意の適切な方法において順序化することができる。したがって、例示的な実施の形態において順次の動作として示される場合であっても、例示されるのとは異なる順序において動作が実行される実施の形態を構成することもでき、異なる順序は、いくつかの動作を同時に実行することを含むことができる。

Claims (16)

  1. シーンのビデオから該シーン内のオブジェクトのアクションを検出する方法であって、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、該方法は、
    プロセッサによって前記シーンから前記ビデオを取得することであって、前記ビデオは画像のシーケンスを含むことと、
    前記プロセッサによって前記ビデオ内の前記オブジェクトを追跡することであって、前記ビデオの各オブジェクト及び各チャンクについて、
    前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定すること、および畳み込みニューラルネットワーク層によって運動データを表すことと、
    前記バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成することと、
    を更に含むことと、
    前記クロップされた輪郭画像及び前記クロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すことと、
    を含む、方法。
  2. 前記畳み込みニューラルネットワーク層は、前記クロップされた輪郭画像のシーケンス及び前記クロップされた画像を含む複数のストリームに対し動作する、請求項に記載の方法。
  3. 前記畳み込みニューラルネットワーク層は、前記クロップされた輪郭画像のシーケンス及び前記クロップされた画像、並びに前記ビデオフレームの空間範囲全体を有する輪郭画像及び画像を含む複数のストリームに対し動作する、請求項に記載の方法。
  4. 前記リカレントニューラルネットワーク層は、長期短期記憶(LSTM)セルを含む、請求項に記載の方法。
  5. 前記リカレントニューラルネットワーク層は、双方向長期短期記憶(LSTM)セルを含む、請求項に記載の方法。
  6. 前記オブジェクトは、人物、ロボット又は産業ロボットのうちの1つである、請求項1に記載の方法。
  7. 人物検出器及び人物トラッカーを更に含む、請求項に記載の方法。
  8. 前記人物トラッカーは、前記ビデオ内の各人物の周りの少なくとも1つのバウンディングボックスを特定する、請求項に記載の方法。
  9. 前記オブジェクトの運動データを表す前記ビデオシーケンスの前記ビデオフレームは、経時的に、前記オブジェクトの周りに位置する複数のバウンディングボックス内にある、請求項に記載の方法。
  10. 前記バウンディングボックスは、追跡されている前記オブジェクトの少なくとも一部分又は全ての部分を含む形状を有する領域である、請求項1に記載の方法。
  11. 前記ビデオは、最初に、画像のシーケンス以外の形態で取得され、画像のシーケンスに変換される、請求項1に記載の方法。
  12. 前記方法は、前記ビデオにおける精密アクション検出のために用いられる、請求項1に記載の方法。
  13. 前記方法は、前記検出の前に前記RNNをトレーニングすること、又は前記RNNが、前記シーンの前記ビデオを取得する前に予めトレーニングされていることを含む、請求項1に記載の方法。
  14. 前記検出は、時間的アクション検出又は時空間的アクション検出の一方を含む、請求項1に記載の方法。
  15. シーンのビデオから該シーン内のオブジェクトの関心アクションを検出するシステムであって、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、該システムは、
    前記シーンから前記ビデオを取得するプロセッサを備え、前記ビデオは画像のシーケンスを含み、前記プロセッサは、
    前記ビデオ内の前記オブジェクトを追跡し、前記ビデオの各オブジェクト及び各チャンクについて、
    前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定し、畳み込みニューラルネットワーク層によって運動データを表し、
    前記バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成し、
    前記クロップされた輪郭画像及び前記クロップされた画像を、各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡す、
    ように構成される、システム。
  16. 方法を実行する、コンピューターによって実行可能なプログラムが具現化された非一時的コンピューター可読ストレージ媒体であって、前記方法は、シーンのビデオから該シーン内のオブジェクトの関心アクションを検出し、前記ビデオは、複数のチャンクに分割された前記シーンのビデオシーケンスであり、各チャンクは連続ビデオフレームを含み、前記方法は、
    プロセッサによって前記シーンから前記ビデオを取得するステップであって、前記ビデオは画像のシーケンスを含む、ステップと、
    前記プロセッサによって前記ビデオ内の前記オブジェクトを追跡するステップであって、前記ビデオの各オブジェクト及び各チャンクについて、前記プロセッサは、
    前記オブジェクトの周りに位置するバウンディングボックス内において、前記ビデオシーケンスのビデオフレームから輪郭画像のシーケンスを決定し、
    畳み込みニューラルネットワーク層によって運動データを表し、
    前記バウンディングボックスを用いて、各チャンク内の1つ以上の画像についてクロップされた輪郭画像及びクロップされた画像を生成する、
    ように構成される、ステップと、
    前記クロップされた輪郭画像及び前記クロップされた画像を、前記プロセッサと通信する出力インターフェースを介して各関心アクションについての相対スコアを出力するリカレントニューラルネットワーク(RNN)に渡すステップと、
    を含む、非一時的コンピューター可読ストレージ媒体。
JP2020506281A 2017-08-07 2018-06-18 アクションを検出する方法及びシステム Active JP6877630B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/670,021 US10210391B1 (en) 2017-08-07 2017-08-07 Method and system for detecting actions in videos using contour sequences
US15/670,021 2017-08-07
PCT/JP2018/023910 WO2019031083A1 (en) 2017-08-07 2018-06-18 METHOD AND SYSTEM FOR ACTION DETECTION

Publications (2)

Publication Number Publication Date
JP2020530162A JP2020530162A (ja) 2020-10-15
JP6877630B2 true JP6877630B2 (ja) 2021-05-26

Family

ID=62948285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020506281A Active JP6877630B2 (ja) 2017-08-07 2018-06-18 アクションを検出する方法及びシステム

Country Status (5)

Country Link
US (1) US10210391B1 (ja)
EP (1) EP3665613A1 (ja)
JP (1) JP6877630B2 (ja)
CN (1) CN110998594B (ja)
WO (1) WO2019031083A1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10762637B2 (en) * 2017-10-27 2020-09-01 Siemens Healthcare Gmbh Vascular segmentation using fully convolutional and recurrent neural networks
JPWO2019097784A1 (ja) * 2017-11-16 2020-10-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
EP3495988A1 (en) 2017-12-05 2019-06-12 Aptiv Technologies Limited Method of processing image data in a connectionist network
WO2019111840A1 (ja) * 2017-12-06 2019-06-13 日本電気株式会社 画像認識モデル生成装置、画像認識モデル生成方法、画像認識モデル生成プログラム記憶媒体、画像生成装置、画像生成方法および画像生成プログラム記憶媒体
US10762662B2 (en) * 2018-03-14 2020-09-01 Tata Consultancy Services Limited Context based position estimation of target of interest in videos
EP3561726A1 (en) 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for processing data sequences using a convolutional neural network
EP3561727A1 (en) * 2018-04-23 2019-10-30 Aptiv Technologies Limited A device and a method for extracting dynamic information on a scene using a convolutional neural network
US10795933B1 (en) * 2018-05-01 2020-10-06 Flock Group Inc. System and method for object based query of video content captured by a dynamic surveillance network
US11055854B2 (en) * 2018-08-23 2021-07-06 Seoul National University R&Db Foundation Method and system for real-time target tracking based on deep learning
CN110111358B (zh) * 2019-05-14 2022-05-24 西南交通大学 一种基于多层时序滤波的目标跟踪方法
US11663448B2 (en) 2019-06-28 2023-05-30 Conduent Business Services, Llc Neural network systems and methods for event parameter determination
US11798272B2 (en) 2019-09-17 2023-10-24 Battelle Memorial Institute Activity assistance system
WO2021055536A1 (en) * 2019-09-17 2021-03-25 Battelle Memorial Institute Activity assistance system
US11373407B2 (en) * 2019-10-25 2022-06-28 International Business Machines Corporation Attention generation
CN110826702A (zh) * 2019-11-18 2020-02-21 方玉明 一种多任务深度网络的异常事件检测方法
CN111027510A (zh) * 2019-12-23 2020-04-17 上海商汤智能科技有限公司 行为检测方法及装置、存储介质
CN111400545A (zh) * 2020-03-01 2020-07-10 西北工业大学 一种基于深度学习的视频标注方法
US11195039B2 (en) * 2020-03-10 2021-12-07 International Business Machines Corporation Non-resource-intensive object detection
CN111243410B (zh) * 2020-03-20 2022-01-28 上海中科教育装备集团有限公司 一种化学漏斗装置搭建实验操作装置及智能评分方法
CN113744373A (zh) * 2020-05-15 2021-12-03 完美世界(北京)软件科技发展有限公司 一种动画生成方法、装置、设备
CN111881720B (zh) * 2020-06-09 2024-01-16 山东大学 用于深度学习的数据自动增强扩充方法、识别方法及***
CN112967388B (zh) * 2021-03-31 2024-07-02 东莞中国科学院云计算产业技术创新与育成中心 三维时序图像神经网络模型的训练方法和装置
JP7472073B2 (ja) 2021-04-26 2024-04-22 株式会社東芝 学習データ生成装置、学習データ生成方法、および学習データ生成プログラム
CN113362369A (zh) * 2021-06-07 2021-09-07 中国科学技术大学 一种移动物体的状态检测方法及检测装置
CN115359059B (zh) * 2022-10-20 2023-01-31 一道新能源科技(衢州)有限公司 太阳能电池性能测试方法及***
CN117994850A (zh) * 2024-02-26 2024-05-07 中国人民解放军军事科学院军事医学研究院 一种实验动物的行为检测方法、设备和***

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999007153A1 (en) * 1997-07-31 1999-02-11 Reality Fusion, Inc. Systems and methods for software control through analysis and interpretation of video information
US20020101932A1 (en) * 2000-11-29 2002-08-01 Montgomery Dennis L. Method and apparatus for encoding information using multiple passes and decoding in a single pass
US20050104964A1 (en) * 2001-10-22 2005-05-19 Bovyrin Alexandr V. Method and apparatus for background segmentation based on motion localization
JP4481663B2 (ja) 2004-01-15 2010-06-16 キヤノン株式会社 動作認識装置、動作認識方法、機器制御装置及びコンピュータプログラム
CN101464952A (zh) * 2007-12-19 2009-06-24 中国科学院自动化研究所 基于轮廓的异常行为识别方法
US20090278937A1 (en) * 2008-04-22 2009-11-12 Universitat Stuttgart Video data processing
US8345984B2 (en) 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
CN101872418B (zh) * 2010-05-28 2012-09-12 电子科技大学 基于群体环境异常行为的检测方法
US9147260B2 (en) * 2010-12-20 2015-09-29 International Business Machines Corporation Detection and tracking of moving objects
CN103377479A (zh) * 2012-04-27 2013-10-30 索尼公司 事件检测方法、装置和***,以及摄像机
CN103593661B (zh) 2013-11-27 2016-09-28 天津大学 一种基于排序方法的人体动作识别方法
CN103824070B (zh) * 2014-03-24 2017-07-07 重庆邮电大学 一种基于计算机视觉的快速行人检测方法
US20160042621A1 (en) * 2014-06-13 2016-02-11 William Daylesford Hogg Video Motion Detection Method and Alert Management
CN104408444A (zh) * 2014-12-15 2015-03-11 北京国双科技有限公司 人体动作识别方法和装置
CN105184818B (zh) * 2015-09-06 2018-05-18 山东华宇航天空间技术有限公司 一种视频监控异常行为检测方法及其检测***
US20170083764A1 (en) * 2015-09-23 2017-03-23 Behavioral Recognition Systems, Inc. Detected object tracker for a video analytics system
CN105426820B (zh) * 2015-11-03 2018-09-21 中原智慧城市设计研究院有限公司 基于安防监控视频数据的多人异常行为检测方法
JP6517681B2 (ja) * 2015-12-17 2019-05-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム
US20170199010A1 (en) * 2016-01-11 2017-07-13 Jonathan Patrick Baker System and Method for Tracking and Locating Targets for Shooting Applications
CN106952269B (zh) * 2017-02-24 2019-09-20 北京航空航天大学 近邻可逆的视频前景物体序列检测分割方法及***

Also Published As

Publication number Publication date
WO2019031083A1 (en) 2019-02-14
US20190042850A1 (en) 2019-02-07
CN110998594B (zh) 2024-04-09
EP3665613A1 (en) 2020-06-17
CN110998594A (zh) 2020-04-10
JP2020530162A (ja) 2020-10-15
US10210391B1 (en) 2019-02-19

Similar Documents

Publication Publication Date Title
JP6877630B2 (ja) アクションを検出する方法及びシステム
JP6625220B2 (ja) シーン内のオブジェクトのアクションを検出する方法及びシステム
US11205274B2 (en) High-performance visual object tracking for embedded vision systems
US10510157B2 (en) Method and apparatus for real-time face-tracking and face-pose-selection on embedded vision systems
Kelley et al. Understanding human intentions via hidden markov models in autonomous mobile robots
JP6018674B2 (ja) 被写体再識別のためのシステム及び方法
JP4208898B2 (ja) 対象物追跡装置および対象物追跡方法
US6999599B2 (en) System and method for mode-based multi-hypothesis tracking using parametric contours
JP5558412B2 (ja) 識別器を特定のシーン内のオブジェクトを検出するように適応させるためのシステム及び方法
US9798923B2 (en) System and method for tracking and recognizing people
CN108446585A (zh) 目标跟踪方法、装置、计算机设备和存储介质
US20070058837A1 (en) Video motion detection using block processing
CN110555975A (zh) 一种防溺水的监控方法及***
Manikandan et al. Human object detection and tracking using background subtraction for sports applications
CN112184767A (zh) 对运动物体进行轨迹跟踪的方法、装置、设备及存储介质
US10816974B2 (en) Proactive acquisition of data for maintenance of appearance model by mobile robot
CN113869274B (zh) 基于城市管理的无人机智能跟踪监控方法及***
Kelley et al. An architecture for understanding intent using a novel hidden markov formulation
JP7488674B2 (ja) 物体認識装置、物体認識方法及び物体認識プログラム
KR102420924B1 (ko) 딥러닝 기반 3d 시선 예측 방법 및 그 장치
EP3920142A2 (en) Video processing apparatus and video processing method
Chuang et al. Human Body Part Segmentation of Interacting People by Learning Blob Models
KR20210067710A (ko) 실시간 객체 검출 방법 및 장치
Holmboe Fish tracking using detection in Aquaculture: A Pilot Study
Shahbaz et al. A comparative study of foreground detection using Gaussian mixture models-novice to novel

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200204

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210311

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210330

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210427

R150 Certificate of patent or registration of utility model

Ref document number: 6877630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE

Ref document number: 6877630

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250