JP2018181273A

JP2018181273A - 画像処理装置及びその方法、プログラム

Info

Publication number: JP2018181273A
Application number: JP2017084778A
Authority: JP
Inventors: 敬正角田; Norimasa Kadota
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-04-21
Filing date: 2017-04-21
Publication date: 2018-11-15

Abstract

【課題】動画像から人物などの複数の人物により行われる行動を認識する。【解決手段】画像処理装置に、時系列の静止画像を含む動画像を取得する取得手段と、前記動画像から静止画像ごとに１以上の対象物を検出する検出手段と、前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段とを備える。【選択図】図２

Description

本発明は、動画像から人物などの対象物の行動を認識する技術に関する。特に、複数の人物により行われる行動を認識する技術に関するものである。

映像解析による人物行動の認識（以下、行動認識と称する）は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。

その際に撮影される映像は、１フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献１では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。映像解析による人物行動の認識（以下、行動認識）は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。

その際に撮影される映像は、１フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献１では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。

さらに監視やスポーツ解析の用途では、映像中の複数人物が関係する協調動作の認識が可能になることで付加価値の高い応用につながると考えられる。例えば映像内の複数人の状況をより直観的で分かりやすい表現で監視者にアノテーションする（例「行列ができている」、「言い争いが起きている」など）ことができる。また、複数人が協力して行う犯罪の検知に応用したり、スポーツにおいてはチームプレイの解析が可能になるなどの応用例である。

非特許文献１では、複数人物の協調動作を認識する技術として、複数の人間の協調的な行動の認識を行っており、個々の人物が立っているか歩いているかのプリミティブな個別行動の認識を行う。それから、２者間のインタラクション行動の認識（向き合っている、列になっている等）、全体の協調行動の認識（話し合っている、並んで歩いている、集まっている等）を階層的なグラフィカルモデルを用いて実現している。

特許第５２８５５７５号公報

ＷｏｎｇｕｎＣｈｏｉａｎｄＳｉｌｖｉｏＳａｖａｒｅｓｅ，"Ａｕｎｉｆｉｅｄｆｒａｍｅｗｏｒｋｆｏｒｍｕｌｔｉ−ｔａｒｇｅｔｔｒａｃｋｉｎｇａｎｄｃｏｌｌｅｃｔｉｖｅａｃｔｉｖｉｔｙｒｅｃｏｇｎｉｔｉｏｎ"，ＥＣＣＶ２０１２

上述のように、監視やスポーツにおける、複数の人間が関与する行動の認識は広範な応用が想定される。特許文献１は、複数人物の個別動作の認識は行うが、複数人物が協調して行う行動を認識するものではない。また、非特許文献１では、人物の個別行動の認識に、時空間上の直方体から作成される時空間特徴量を抽出し、さらに別途学習した識別器を用いて得られた識別スコアを用いている。このように特徴量自体が時間的な幅を持つため識別結果が時間的に粗くなるという特徴がある。また特徴抽出器、識別器、グラフィカルモデルは独立したモジュールであり、それらを一貫した全体の最適化が出来なかった。

本発明の１態様によれば、画像処理装置に、時系列の静止画像を含む動画像を取得する取得手段と、前記動画像から静止画像ごとに１以上の対象物を検出する検出手段と、前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段とを備える。

本発明によれば、動画の各フレームに映る人物の個別動作を表す特徴量を抽出し、複数人の特徴量を統合し、さらに時間的な統合を行うことで、複数人の個別行動で意味付けられる行動の精度の良い識別を可能にする。

カメラ配置の一例と２つのカメラで撮影される静止画の一例を示す図である。認識時のシステム構成の一例を示す図である。認識時の処理の一例を示すフローチャートである。人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。２つのフレームでの人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。図６で示したニューラルネットワークを展開した図である。図７で示したニューラルネットワークを制御することで実現される人物系列の統合と時系列の統合を説明する図である。図８で示した制御されたニューラルネットワークと等価なニューラルネットワークを示す図である。学習時のシステム構成の一例を示す図である。学習時の処理の一例を示すフローチャートである。フレーム内の人物領域と人物の座標データを用いるニューラルネットワーク構造を示す図である。認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。２つのカメラで撮影された同時刻の２フレームの人物検出結果の一例と検出された人物領域をソートした結果の一例を示す図である。認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。認識時のシステム構成の一例を示す図である（その２）。認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。ＬＳＴＭの制御状態を示す図である。

以下、図面を参照しながら本発明の実施形態について詳細に説明する。

（第１の実施形態）
第１の実施形態では、フットサルを例として動画像から複数選手の動作で意味付けられる行動ラベルを認識する方法について説明する。

図１は、本実施形態において想定する動画について説明する図である。図１（ａ）の１０２はフットサルコートを示す。１０３―１１２はカメラを示す。Ｘ、Ｙ、Ｚは原点を１１３に定義した３次元座標（世界座標）のＸ軸，Ｙ軸、Ｚ軸を示す。この図１（ａ）に示すように、フットサルのコートの周囲に複数台のカメラが配置され、そのカメラにより動画が撮影されるものとする。図１（ｂ）に、カメラ１０３で取得されるフットサル動画の１フレーム（静止画像）２０１の例を示す。２０２がボール、２０３―２０９が、それぞれ人物Ａ―Ｇを示す。このように動画中には、対象物として、複数人の人物（選手および審判が含まれる）とボールが存在する。図１（ｃ）に、カメラ１０４で取得される１フレーム３０１の例を示す。３０２がボール、３０３―３１１が、それぞれ人物Ａ―Ｋを示す。図１（ｃ）におけるボール３０２、人物Ａ−Ｅ（３０３−３０７）は、図１（ｂ）におけるボール２０２、人物Ａ−Ｅ（２０３−２０７）と同一の物体あるいは人物である。

各カメラ１０３―１１２は、キャリブレーションが行われ、カメラの内部および外部パラメータが取得されているものとする。すなわち、各カメラで取得した画像にステレオ法を適用し、対応点をコートの基準点を原点として設定した世界座標上に投影することができる。本実施形態では、コートのセンターマークを原点１１３とし、Ｘ軸、Ｙ軸、Ｚ軸を持つ３次元空間を世界座標として設定する。画像に映る人物やボールの検出と組み合わせ、人物やボールの世界座標上の位置を取得できるものとする。

またこのフットサルの行動認識においては、パス、シュート、ドリブル、キープ、クリアーの５種類のマルチカテゴリの行動ラベルを認識するとする。ここで扱う行動ラベル（パス、シュート、ドリブル、キープ、クリアー）の認識は、個人の動作の認識だけでは不十分で、ボールに関係する複数人の個別動作を総合して識別する必要のある行動ラベルである。

図２（ａ）は、本実施形態の画像処理装置である行動認識装置１０００の機能構成を示す図である。本実施形態の行動認識装置１０００は、動画取得部１００１、人物物体検出部１００２、人物領域抽出部１００３、人物領域ソート部１００４、統合制御信号作成部１００５、画像特徴量抽出部１００６を有する。さらに、人物系列統合部１００７、時系列統合部１００８、行動ラベル識別部１００９を有する。これらの各機能の詳細については、図３等を用いて後述する。

図３（ａ）は、本実施形態における認識時の処理の一例を示すフローチャートである。このフローチャートを用いて、処理全体の概要を説明する。

まずＳ１００１では、動画取得部１００１が、複数の静止画から成る動画のフレーム系列を取得する。Ｓ１００２では、人物物体検出部１００２が、Ｓ１００１で取得したフレームに映る人物およびボールのそれぞれについて位置とサイズを検出する。フレーム内に複数人物がいる場合、その人数に対応した複数の位置とサイズを検出する。Ｓ１００３では、人物領域取得部１００３が、Ｓ１００２で検出した人物の位置とサイズに基づき、人物の領域（以後、単に人物領域と呼ぶ）を取得する。Ｓ１００４では、人物領域ソート部１００４が、Ｓ１００２で検出したボールと人物の位置に基づき、Ｓ１００３で取得した人物領域をソートする。ソートの詳細については後述する。

Ｓ１００５では、統合制御信号作成部１００５が、Ｓ１００２で検出したフレーム内に存在する人物の数に基づき、後述する人物系列統合部１００７、時系列統合部１００８を制御する信号を作成する。Ｓ１００６では、画像特徴量抽出部１００６が、Ｓ１００３で取得した人物領域に対応する画像特徴量を抽出する。フレーム内に複数人物がいる場合は、複数人物に対応する領域毎に画像特徴量を抽出する。使用する画像特徴量は後述する。抽出した画像特徴量を人物特徴量と呼ぶこととする。

Ｓ１００７では、人物系列統合部１００７が、Ｓ１００６で取得したフレーム内の人数に対応する複数の人物特徴量を統合する対象物統合の処理を行う。この統合処理の詳細については後述する。この処理の結果、複数人物特徴量を取得する。Ｓ１００８では、時系列統合部１００８が、Ｓ１００１で取得した複数のフレームにそれぞれ対応する、Ｓ１００７で統合した人物特徴量をさらに時間的に統合する処理を行う。この統合処理の詳細については後述する。この処理の結果、複数フレーム複数人物特徴量を取得する。Ｓ１００９では、行動ラベル識別部１００９が、Ｓ１００８で統合した複数フレームの複数人物特徴量に基づき、行動ラベルを識別する。これはフレーム毎に行う。使用する識別器については後述する。

次に、図３（ａ）に示したフローチャートに従って、各処理のより具体的な内容について述べる。

Ｓ１００１では、図１（ａ）のように配置したマルチカメラで撮影された動画を取得する。ただし、本実施形態では、次のＳ１００２の人物物体検出以外の工程では多視点の動画は用いず、何れか１つのカメラで撮影された複数フレームを用いる。本実施形態では、カメラは解像度ＦｕｌｌＨＤ（１９２０×１０８０ピクセル）、秒間３０フレーム程度の速度を想定し、連続する３０フレーム（１秒分）を取得するとする。しかし、数フレームおきに取得する、より低速なカメラで取得する、またはより長い時間取得する等、異なる条件で複数フレームを取得しても、それらが数倍程度の差異であれば、本実施形態が実現する機能は大きく損なわれない。また、カメラで撮影された動画は、直接取得しても良いが、外部記憶装置に記憶し、そこから所定の複数フレームを取得しても良い。

次にＳ１００２では、Ｓ１００１で取得したマルチカメラの動画の各フレームに対し、人物検出およびボール検出を行い、複数カメラのフレームに対する検出結果を用いて、最終的な人物およびボールの位置と人物領域を取得する。１つのフレームにおける人物検出およびボール検出は、ＡｄａＢｏｏｓｔ等の公知の物体検出方法を用いればよい。その際人物検出は、特に人物の顔を検出するように学習された検出器を用いることも可能である。

続いて、ある瞬間のあるカメラのフレームでの検出結果と別のカメラのフレームでの検出結果から、対応する点を探索することで、前述のようにステレオ法の適用により、検出結果の世界座標上（実世界上）の位置を取得することができる。対応点探索は、公知の技術であるＯＲＢ等の特徴量、ＦＡＳＴ等のコーナー検出、ハミング距離等のメトリック、ｋｄ−ｔｒｅｅ等の近似最近傍探索法を適用すればよい。これらの結果、ボールと各人物の顔の位置が世界座標上の３次元位置（Ｘ，Ｙ，Ｚ）として取得される。Ｓ１００１で取得したフレーム毎にこの処理を行い、その結果、フレーム毎にボールと各人物の顔位置が取得される。

次に、Ｓ１００３では、Ｓ１００２で取得した各人物の世界座標上の顔位置から、各人物のフレーム上の領域（人物領域）をバウンディングボックスとして取得する。バウンディングボックスとは、各フレーム上での位置（Ｘ，Ｙ）と幅（Ｗ，Ｈ）の４パラメータで指定される矩形領域である。バウンディングボックスは、人物の身長を基準に前後左右数ｍの幅を持たせて人物を覆うように設定するものとする。

図４（ａ）は、図１（ｂ）のフレームに対し、人物検出およびボール検出を行った結果を描画した図である。４０２がボール検出位置、４０３―４０９が、それぞれ人物Ａ―Ｇの人物領域である。人物検出位置に対しバウンディングボックスが設定され、さらにボールの位置が示されている。

続いて、元のフレーム（サイズ：１９２０×１０８０ピクセル）から人物領域を切り出し、一定サイズにリサイズする。人物領域は様々な大きさが存在するため元のフレームの人物領域が拡大される場合と縮小される場合とがある。拡大にはバイキュービック補間、縮小には最近傍補間を適用する。また、本実施形態ではリサイズ後の人物領域のサイズは２５６×２５６ピクセルとし、以後リサイズ後の人物領域を単に人物領域と呼ぶ。以上の処理をフレーム毎に行い、その結果フレーム毎の人物領域が取得される。

次に、Ｓ１００４では、Ｓ１００３で取得した人物領域を、ボールと人物領域との距離に基づき降順にソートする。ここで距離は、人物物体検出工程Ｓ１００２で取得した人物とボールの世界座標上の３次元位置から得られる人物とボールとの間のユークリッド距離とする。

図４（ｂ）に、Ｓ１００３でのリサイズ、本工程でのソート処理を１フレーム分に対し行った結果を示す。５０２―５０８は、それぞれ人物Ａ―Ｇのリサイズした人物領域である。図４（ａ）での様々な大きさの人物領域は均一の解像度にリサイズされ、ボールからの距離が最も遠い人物Ｇの領域５０２から最も近い人物Ａの領域５０８まで降順にソートされる。この処理をフレーム毎に行い、その結果フレーム毎のソートされた人物領域が取得される。さらにフレーム毎のソート結果をフレーム順に連結し、１次元に並んだ人物領域の系列データを取得する。この際フレーム毎に人物の数が違う場合でも、フレーム順に連結する。この系列データを以後、人物領域系列とよぶ。

図５に、人物の数が異なる２フレーム分の人物領域をソートし連結した例を示す。図５（ａ）の６０１は１フレーム目に対応する時刻Ｉでのフレームであり、６０２、６０３、６０４は、それぞれ人物Ａ、Ｂ、Ｃの人物領域である。図５（ｂ）において、７０１は２フレーム目に対応する時刻ＩＩでのフレームであり、７０２、７０３は、それぞれ人物Ａ、Ｂの人物領域である。図５（ａ）の人物領域６０２と図５（ｂ）の人物領域７０２は同一人物Ａに対応し、図５（ａ）の人物領域６０３と図５（ｂ）の人物領域７０３と同一人物Ｂに対応している。図５（ａ）では３人の人物Ａ、Ｂ、Ｃが存在し、図５（ｂ）には２人の人物Ａ、Ｂが存在する。この場合、人物領域はフレーム毎に距離に基づきソートされ、１フレーム目の３人の人物領域の後、２フレーム目の２人の人物領域が連結される。結果、図５（ｃ）に示す人物領域系列が得られる。

図５（ｃ）において、８０２、８０３、８０４はそれぞれ１フレーム目の人物Ｃ、人物Ｂ、人物Ａの人物領域、８０５、８０６はそれぞれ２フレーム目の人物Ｂ、人物Ａの人物領域である。人物領域系列（８０２〜８０６）は、このように１次元の系列データである。また、ここでは、ソートの基準を人物とボールの間のユークリッド距離にしているが、別の基準でソートを行ってもよい。例えば、人物検出結果に対しすべてのフレームで統一的な人物ＩＤが与えられる場合、そのＩＤを昇順にソートしてもよい。

本実施形態では、Ｓ１００６−Ｓ１００９の工程は、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、ソフトマックス識別器を組み合わせたニューラルネットワークのネットワーク構造で実現される。以下では、畳み込みニューラルネットワーク（Ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）をＣＮＮ、再帰型ニューラルネットワーク（Ｒｅｃｕｒｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋ）をＲＮＮとも称する。また本実施形態では、ＲＮＮとして、ＲＮＮの一種であるＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔーｔｅｒｍｍｅｍｏｒｙ）を用いる。またＳ１００５では、再帰型ニューラルネットワークを制御する信号を作成する。

Ｓ１００６−Ｓ１００９の工程を実行するニューラルネットワークのネットワーク構造の概要を図６に示す。まずこの図６を用いて、Ｓ１００６−Ｓ１００９の詳細について説明する。次に、Ｓ１００５で作成する制御信号について、より具体的な事例に即して説明する。

図６のネットワーク構造９０１は、入力９０２、ＣＮＮ９０３、ＬＳＴＭ１（９０４）、ＬＳＴＭ２（９０５）、ＦＣ９０６、Ｓｏｆｔｍａｘ９０７の各モジュールを持つ。Ｓ１００６で行う画像特徴量抽出処理はＣＮＮ９０３によって実現される。ＣＮＮ９０３は、画像認識に用いられる多数の層から構成されるニューラルネットワークである。ＣＮＮの中間層は低次では線や点、パターンなどのプリミティブな幾何学的特徴量、高次では、パーツ、パーツを組み合わせたオブジェクトに対応する複雑な特徴量を抽出することで知られている。また大規模データで学習済みのＣＮＮの中間層の特徴量を別の分類タスクに応用することで、高精度な分類が行えることが以下のＤｏｎａｈｕｅらの論文で開示されている。
ＪＤｏｎａｈｕｅ，ＹＪｉａ，ＯＶｉｎｙａｌｓ，ＪＨｏｆｆｍａｎ，ＮＺｈａｎｇ，ＥＴｚｅｎｇ，ＴＤａｒｒｅｌｌ，ＴＤａｒｒｅｌｌ，“ＤｅＣＡＦ：ＡＤｅｅｐＣｏｎｖｏｌｕｔｉｏｎａｌＡｃｔｉｖａｔｉｏｎＦｅａｔｕｒｅｆｏｒＧｅｎｅｒｉｃＶｉｓｕａｌＲｅｃｏｇｎｉｔｉｏｎ”，ａｒＸｉｖ２０１３
Ｓ１００６では、Ｓ１００４で作成した人物領域系列の各人物領域をＣＮＮ（９０３）に入力し、画像特徴量を取得する。ここでＣＮＮの特徴量は、複数の中間層から特徴量を取得してもよいし、一部の中間層の特徴量のみを用いてもよい。

次に、Ｓ１００７での人物系列統合処理は、ＬＳＴＭ１（９０４）によって実現される。ＬＳＴＭ（Ｌｏｎｇｓｈｏｒｔーｔｅｒｍｍｅｍｏｒｙ）とは再帰型ニューラルネットワークの一種である。再帰型ニューラルネットワークでは一般に、現在の入力ベクトルｘ_ｔと一期前の隠れ状態ベクトルｈ_ｔ−１がネットワークに入力され、現在の隠れ状態ベクトルｈ_ｔが計算され出力される。ＬＳＴＭでは、内部で入力、忘却、出力を制御するニューラルネットワークである。下記のＤｏｎａｈｕｅらの論文で開示されている表記に従うと、（ｉｎｐｕｔｇａｔｅ，ｆｏｒｇｅｔｇａｔｅ，ｏｕｔｐｕｔｇａｔｅ，ｉｎｐｕｔｍｏｄｕｌａｔｉｏｎｇａｔｅ）とセルユニットを持つ。そして、ある時刻の入力と一期前の隠れ状態ｈ_ｔにより入力ｘ_ｔ、忘却、出力を制御することで、短・長期の複雑な時系列パターンが識別できるようになっている。
ＤｏｎａｈｕｅＪ．ｅｔａｌ．， ”Ｌｏｎｇ−ｔｅｒｍｒｅｃｕｒｒｅｎｔｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｔｗｏｒｋｓｆｏｒｖｉｓｕａｌｒｅｃｏｇｎｉｔｉｏｎａｎｄｄｅｓｃｒｉｐｔｉｏｎ”，ＣＶＰＲ２０１５
入力ｘ_ｔ、隠れ状態ｈ_ｔ、セルｃ_ｔおよび入力、忘却、出力を制御するゲート出力ｉ_ｔ、ｆ_ｔ、ｏ_ｔの更新は以下の式（１）のとおりである。
ｉ_ｔ＝σ（Ｗ_ｘｉｘ_ｔ＋Ｗ_ｈｉｈ_ｔ−１＋ｂ_ｉ）
ｆ_ｔ＝σ（Ｗ_ｘｆｘ_ｔ＋Ｗ_ｈｆｈ_ｔ−１＋ｂ_ｆ）
ｏ_ｔ＝σ（Ｗ_ｘｏｘ_ｔ＋Ｗ_ｈＯｈ_ｔ−１＋ｂ_ｏ）
ｇ_ｔ＝ｔａｎｈ（Ｗ_ｘｃｘ_ｔ＋Ｗ_ｈｃｈ_ｔ−１＋ｂ_ｃ）
ｃ_ｔ＝ｆ_ｔ・ｃ_ｔ−１＋ｉ_ｔ・ｇ_ｔ
ｈ_ｔ＝ｏ_ｔ・ｔａｎｈ（ｃ_ｔ）・・・（１）
ここで、σ（）はシグモイド関数、ｔａｎｈ（）は双曲線正接関数、ｇ_ｔはセルへの入力、・は要素ごとの積を表す。また、Ｗ_ｘｉ、Ｗ_ｈｉ、Ｗ_ｘｆ、Ｗ_ｈｆ、ｂ_ｉ、ｂ_ｆ、ｂ_ｏ、ｂ_ｃは、ｉｎｐｕｔｇａｔｅ，ｆｏｒｇｅｔｇａｔｅ，ｏｕｔｐｕｔｇａｔｅ，ｉｎｐｕｔｍｏｄｕｌａｔｉｏｎｇａｔｅの重みおよびバイアスである。

上記ＬＳＴＭは、２つの外部からの制御が可能な状態（以下、制御状態）を持つ。本実施形態では、この２つの制御状態を、“更新”と“リセット”と呼ぶ。

式（１）のように機能させる場合を、本実施形態ではＬＳＴＭの“更新”とする。そして、“リセット”は、外部からの信号によってｆｏｒｇｅｔｇａｔｅの出力を強制的にｆ_ｔ＝０とすることで実現される、
ｉ_ｔ＝σ（Ｗ_ｘｉｘ_ｔ＋Ｗ_ｈｉｈ_ｔ−１＋ｂ_ｉ）
ｏ_ｔ＝σ（Ｗ_ｘｏｘ_ｔ＋Ｗ_ｈＯｈ_ｔ−１＋ｂ_ｏ）
ｇ_ｔ＝ｔａｎｈ（Ｗ_ｘｃｘ_ｔ＋Ｗ_ｈｃｈ_ｔ−１＋ｂ_ｃ）
ｃ_ｔ＝ｉ_ｔ・ｇ_ｔ
ｈ_ｔ＝ｏ_ｔ・ｔａｎｈ（ｃ_ｔ）・・・（２）
となる制御状態とする。

Ｓ１００４で作成された人物領域系列は、ＣＮＮ９０３を介して特徴量（人物特徴量）が抽出されＬＳＴＭ１（９０４）に入力される。ＬＳＴＭ１（９０４）には、再帰的に人物特徴量が入力され、隠れ状態が更新される。またフレーム毎の系列の初期に制御状態を“リセット”にし、それ以外では“更新”に切り替え、フレーム毎の人物特徴量が統合される。この制御状態の切り替えについてはより具体的な事例に基づき後述する。

次に、Ｓ１００８での時系列統合処理は、ＬＳＴＭ２（９０５）によって実現される。ＬＳＴＭ２（９０５）は、“更新”、“リセット”の他にもう一つの制御状態である“保持”を持つ。式（１）のＬＳＴＭの更新に対し、ｆｏｒｇｅｔｇａｔｅ，ｉｎｐｕｔｇａｔｅ，ｏｕｔｐｕｔｇａｔｅの各値を強制的にｆ_ｔ＝１、ｉ_ｔ＝０、ｏ_ｔ＝１とすることで、
ｉ_ｔ＝０
ｆ_ｔ＝１
ｏ_ｔ＝１
ｇ_ｔ＝ｔａｎｈ（Ｗ_ｘｃｘ_ｔ＋Ｗ_ｈｃｈ_ｔ−１＋ｂ_ｃ）
ｃ_ｔ＝ｆ_ｔ・ｃ_ｔ−１＋ｉ_ｔ・ｇ_ｔ
ｈ_ｔ＝ｏ_ｔ・ｔａｎｈ（ｃ_ｔ）・・・（３）
となり、式（３）では、ＬＳＴＭへの入力に関わらず、
ｃ_ｔ＝ｃ_ｔ−１
ｈ_ｔ＝ｔａｎｈ（ｃ_ｔ−１）
となる。これは、隠れ状態ｈ_ｔ、セルｃ_ｔが如何なる入力に対しても変化しない状態である。本実施形態では、これをＬＳＴＭの３つ目の制御状態として“保持”とする。

本工程では、ＬＳＴＭ１（９０４）が人物特徴量の統合を行う間、ＬＳＴＭ２（９０５）を“保持”に切り替えることで、状態（隠れ状態ｈ_ｔ、セルｃ_ｔ）を変化させないようにする。そしてフレーム毎の人物特徴量の統合の最後で、“更新”に切り替えることで、フレーム内で再帰的に統合された人物特徴量を、フレーム毎に入力として受け取り、状態を更新し、時間的な統合を行う。制御状態の切り替えについては、より具体的な事例に基づき後述する。

最後に、Ｓ１００９での行動ラベル識別処理は、ＦＣ９０６およびＳｏｆｔｍａｘ（９０７）によって実現される。ＦＣ９０６は、ＬＳＴＭ２（９０５）の隠れ状態ｈ_ｔに対し、重み行列を内積し、行動ラベルのラベル数に対応する数のスコア（内積スコア）を得る。さらに、Ｓｏｆｔｍａｘ（９０７）ではＳｏｆｔｍａｘ関数により、内積スコアを確率（０以上、１以下の実数）に変換する。以上の処理により行動ラベルに対応する確率で表現された識別スコアを得る。

以上で、図６を参照して、画像特徴量抽出処理（Ｓ１００６）、人物系列統合処理（Ｓ１００７）、時系列統合処理（Ｓ１００８）、行動ラベル識別処理（Ｓ１００９）の各処理の詳細について説明した。次に、統合制御信号作成処理（Ｓ１００５）で作成する制御信号について、より具体的な事例に即して説明する。Ｓ１００５では、本実施形態が提示する複数人物の個別動作の統合および時系列統合を実現するため、人物系列統合処理（Ｓ１００７）を担うＬＳＴＭ１（９０４）と時系列統合処理（Ｓ１００８）を担うＬＳＴＭ２（９０５）とを制御する信号の作成を行う。

図７に、Ｓ１００４で作成した人物領域系列を、図６に示したネットワーク構造のニューラルネットワークに入力した場合の例を示す。ここで、１００２は時刻Ｉでの人物Ｃの人物領域、１００３は時刻Ｉでの人物Ｂの人物領域、１００４は時刻Ｉでの人物Ａの人物領域、１００５は時刻ＩＩでの人物Ｂの人物領域、１００６は時刻ＩＩでの人物Ａの人物領域である。これらの人物領域は、図５（ｃ）における各人物領域と同一である。また１００７はＣＮＮ、１００８は１層目のＬＳＴＭ、１００９は２層目のＬＳＴＭ、１０１０はＦＣ、１０１１はＳｏｆｔｍａｘである。１００７から１０１１までの各モジュールは、図９における９０３から９０７までの各モジュールと同一である。

また図７は、再帰型ニューラルネットワークを時間方向に展開した図であり、鉛直方向の線１０１２がユニット間の信号及び誤差の伝搬経路を表し、水平方向の線１０１３が時間方向の信号及び誤差の伝搬経路を表す。Ｓ１００４で作成された人物領域系列（１００２から１００６）は、系列の左から順番にＣＮＮ１００７に入力される。

複数フレームにわたる人物領域系列（図７の１００２〜１００６）に対し、２つのＬＳＴＭ（１００８、１００９）での人物系列の統合と時系列の統合とを実現する。そのため、ＬＳＴＭの制御状態（“更新”、“保持”、“リセット”）を、制御信号によって切り替える。図１８（ａ）に、図７の１００２〜１００６の人物領域系列に関し行う制御状態を示す。

系列の初期（ｎ＝１）では、２つのＬＳＴＭをリセットにする。ＬＳＴＭ１ではフレーム内の人物特徴量の統合を行い、ＬＳＴＭ２ではＬＳＴＭ１で統合した人物特徴量をフレーム毎に統合する。この処理のため、ｎ＝２でＬＳＴＭ１を“更新”、ＬＳＴＭ２を“リセット”にし、ｎ＝３でＬＳＴＭ１を“更新”、ＬＳＴＭ２を“リセット”にする。これにより、ＬＳＴＭ１で１フレーム目の人物特徴量の統合、ＬＳＴＭ２でＬＳＴＭ１によって統合された１フレーム目の人物特徴量をｎ＝３のみ入力として受け取る。ｎ＝１、ｎ＝２でＬＳＴＭ２を“リセット”としたが、これらは最初の人物を統合するｎ＝３で“リセット”することが重要であり、ｎ＝１、ｎ＝２でＬＳＴＭ２の制御状態は何でもよい。次にｎ＝４で、ＬＳＴＭ１を再び“リセット”し、ＬＳＴＭ２を保持にする。ｎ＝５でＬＳＴＭ１、ＬＳＴＭ２を共に“更新”にしすることで、ＬＳＴＭ１により２フレーム目の人物特徴量の統合、ＬＳＴＭ２で、統合した２フレーム目の人物特徴量をｎ＝５に入力として受け取とる。結果ＬＳＴＭ２では、ｎ＝３（１フレーム目）の入力とｎ＝５（２フレーム目）での入力が統合される（時間方向の統合）。

図８に、図７のネットワークに対し、図１８（ａ）の制御を行った場合の信号および誤差の伝搬経路（１１２３）を示す。１１０２〜１１０６の人物領域は図７における１００２〜１００６と同一である。ＣＮＮ、ＬＳＴＭ１、ＬＳＴＭ２、ＦＣ、Ｓｏｆｔｍａｘは、図７におけるＣＮＮ１００７、ＬＳＴＭ１（１００８）、ＬＳＴＭ２（１００９）、ＦＣ１０１０、Ｓｏｆｔｍａｘ１０１１と同一である。ＬＳＴＭ１およびＬＳＴＭ２に関し、“更新”を白背景の矩形（１１１６等）、“リセット”を斜線パターンの矩形（１１０９等）、“保持”をドットパターンの矩形（１１１４等）で示した。

１１０９が図１８（ａ）のｎ＝１におけるＬＳＴＭ１の“リセット”、１１１２が図１８（ａ）のｎ＝１におけるＬＳＴＭ２の“リセット”である。１１１０が図１８（ａ）のｎ＝２におけるＬＳＴＭ１の“更新”、１１１３が図１８（ａ）のｎ＝２におけるＬＳＴＭ２の“リセット”である。１１２４が図１８（ａ）のｎ＝３におけるＬＳＴＭ１の“更新”、１１１６が図１８（ａ）のｎ＝３におけるＬＳＴＭ２の“リセット”である。１１１１が図１８（ａ）のｎ＝４におけるＬＳＴＭ１の“リセット”、１１１４が図１８（ａ）のｎ＝４におけるＬＳＴＭ２の“保持”である。１１２５が図１８（ａ）のｎ＝５におけるＬＳＴＭ１の“更新”、１１１７が図１８（ａ）のｎ＝５におけるＬＳＴＭ２の“更新”である。

ＬＳＴＭ１では、“リセット”１１０９、“更新”１１１０、“更新”１１２４により、１フレーム目（時刻Ｉ）の人物特徴量が統合される。次に“リセット”１１１１により一旦内部状態をリセットし、再び“更新”１１２５をさせることで、１１２７で信号と誤差を伝搬させず、２フレーム目（時刻ＩＩ）の人物特徴量のみが統合される。ＬＳＴＭ２では、“リセット”１１１２、“リセット”１１１３、“リセット”１１１６とし、ｎ＝３で１フレーム目の人物特徴量が統合されたＬＳＴＭ１（１１２４）からのみ信号を受け取るようにする。次に“保持”１１１４を設定し、内部状態を不変にして、再び“更新”１１１７を設定する。こうすることで、１フレーム目の統合された人物特徴量を受け取ったＬＳＴＭ２（１１１６）の信号と、２フレーム目の人物特徴量が統合されたＬＳＴＭ１（１１２５）の信号を受け取り、時間方向の統合を行う。

各フレームのＬＳＴＭ２の内部状態は、ＦＣとＳｏｆｔｍａｘ（１１２１、１１２２）に伝搬し、識別スコアが出力される。Ｓｏｆｔｍａｘの網掛けパターンの矩形（１１１８、１１１９、１１２０）は、誤差を評価しない“無視”をしめすが、これに関しては、学習時の処理の中で詳細に説明する。

図９に、図８で示した制御を実施した場合のネットワークと等価の構造を持つネットワークの図を示す。１２０２〜１２０６の人物領域は図７における１００２〜１００６と同一である。またＣＮＮ（１２０７）、ＬＳＴＭ１（１２０８、１２０９）、ＬＳＴＭ２（１２１０）、ＦＣ（１２１１）、Ｓｏｆｔｍａｘ（１２１２）は、図７における同名の要素と同一である。

１フレーム目（時刻Ｉ）の人物Ｃ領域１２０２、人物Ｂ領域１２０３、人物Ａ領域１２０４は、ＣＮＮを介してＬＳＴＭ１で統合され、１フレーム目の人物特徴量を統合したＬＳＴＭ１の内部状態はＬＳＴＭ２（１２１０）に入力される。続いてＬＳＴＭ１は内部状態がリセットされ、新たに２フレーム目（時刻ＩＩ）の人物Ｂ領域１２０５と人物Ａ領域１２０６がＬＳＴＭ１で統合され、２フレーム目の人物特徴量を統合したＬＳＴＭ１の内部状態がＬＳＴＭ２（１２１３）に入力される。ＬＳＴＭ２では、１フレーム目のＬＳＴＭ２の内部状態とＬＳＴＭ１からの入力を受け取り、１フレーム目の情報と２フレーム目の情報を統合する。各フレームのＬＳＴＭ２の内部状態は、ＦＣを経由してＳｏｆｔｍａｘで行動ラベルの識別スコアを出力する。以上のように、図７に示す構成のネットワークと図１８（ａ）に示す制御により、図９のネットワークが実行される。

以上が動画取得工程Ｓ１００１で得られた３０フレーム分の動画を複数人の動作に基づき行動認識する、認識時の処理である。この後、次の３０フレームに対して同様に認識時の処理を実行してもよいが、いくつかのフレームが重複するように認識時の処理を実行してもよい。すなわち、ある認識時の処理によって、フットサル動画の１フレーム目から３０フレーム目までの識別を実行した後、次に１５フレーム目から４５フレーム目までを処理するようにしてもよい。その場合、あるフレームの複数回の結果を平均して最終結果を得る。このように冗長に認識処理することで、あるフレームを異なる系列で複数回認識することになり、結果がよりロバストになる。

次に、人物系列統合工程で用いる人物系列統合部および時系列統合工程で用いる時系列統合部、行動ラベル識別工程で用いる、行動ラベル識別部の学習方法について説明する。

図１０は、本実施形態における学習装置５０００の機能構成を示す図である。学習装置５０００は、人物領域抽出部５００１、人物領域ソート部５００２、統合制御信号学習ラベル作成部５００３、パラメータパラメータ最適化部５００４を有する。さらに学習装置５０００は、記憶部として、学習データ保持部５００５、ネットワークパラメータ保持部５００６を有する。

図１１は、本実施形態における学習に関する処理の一例を示すフローチャートである。ここで各工程の概要及び図１０に示した各部の機能について説明する。

Ｓ５００１では、人物領域抽出部５００１が、学習データ保持部５００５に記憶されている動画および人物検出結果から動画を構成するフレーム内に存在する人物の領域を抽出する。この処理は本実施形態の認識時の処理で説明したＳ１００３と同様の人物領域抽出処理である。また、学習データ保持部５００５に記憶されているデータの詳細は、後述する。

Ｓ５００２では、Ｓ５００１で設定した人物領域を均一にリサイズし、一定の基準でソートする。本工程は、本実施形態の認識時の処理で説明したＳ１００４の人物領域ソート処理と同様であるため詳細な説明は省略する。

Ｓ５００３では、統合制御信号学習ラベル作成部５００３が、Ｓ５００１で検出したフレーム内に存在する人物の数とフレームに付与された行動ラベルに基づき、制御信号および学習ラベルを作成する。これらは、認識時の処理で用いる画像特徴量抽出部１００６、人物系列統合部１００７、時系列統合部１００８、行動ラベル識別部１００９で用いるニューラルネットワークのパラメータを学習するために用いられる。

Ｓ５００４では、Ｓ５００２で作成した人物系列を入力とし、統合制御信号学習ラベル作成工程Ｓ５００３で作成した学習ラベルを目標値として、ニューラルネットワークのパラメータの最適化を実行する。

以上のＳ５００１−Ｓ５００４は、予め設定したイタレーション数Ｎだけ繰り返される。最終的なパラメータおよびイタレーションの途中でのパラメータは、ネットワークパラメータ保持部５００６に記憶される。

次に図１０に示したフローチャートの内、認識時の処理と差異のある、統合制御信号学習ラベル作成（Ｓ５００３）とパラメータ更新（Ｓ５００４）について、より具体的な内容について述べる。また学習データ保持部５００５に記憶されているデータについても説明する。

学習データ保持部５００５には、本実施形態で認識するフットサルの行動ラベルに対応する動画と正解ラベル（行動ラベル）、および動画中の各フレームの人物検出結果、ボール検出結果が保存されている。行動ラベルは“パス”，“シュート”，“ドリブル”，“キープ”，“クリアー”である。動画は任意の複数フレームで構成され、正解ラベルはフレーム毎に付与されているものとする。

Ｓ５００１では、ある行動ラベルが付与された任意のフレーム数で構成される動画から、ランダムに連続する３０フレームを選択し、その各フレームの人物検出結果を用い、人物領域の抽出を行う。人物領域の抽出は、認識時の処理におけるＳ１００３と同様の処理である。

Ｓ５００３では、本実施形態の認識時の処理におけるＳ１００５で行うＬＳＴＭの制御信号の作成に加え、ＣＮＮ、ＬＳＴＭ、Ｓｏｆｔｍａｘ識別器を学習する学習ラベルの作成を行う。ＬＳＴＭの制御信号の作成は、Ｓ１００５での処理と同様の処理であるため、ここでは詳細な説明は省略する。この処理の結果、図１８（ａ）と同様の統合制御信号が作成される。

Ｓｏｆｔｍａｘ識別器には、作成されたＬＳＴＭの制御信号のうちＬＳＴＭ２を“更新”させる信号発生時に、動画に付与された学習ラベルを与える。それ以外の場合は、学習ラベルに“無視”ラベルを設定する。“無視”ラベルは、それが設定された場合、Ｓｏｆｔｍａｘの損失関数を評価しないようにする特別なラベルである。

図８の上部に示したように、Ｓｏｆｔｍａｘ識別器には、時系列統合を実行する時刻Ｉ人物Ａの人物領域（１１０４）および時刻ＩＩ人物Ａの人物領域（１１０６）を入力する際に学習ラベルを与え（１１２１、１１２２）る。また、それ以外のときは、“無視”ラベルを与える（１１１７）。

Ｓ５００４では、パラメータ最適化部５００４により、画像特徴量抽出部１００６、人物系列統合部１００７、時系列統合部１００８、行動ラベル識別部１００９に対応するＣＮＮ、ＬＳＴＭとＳｏｆｔｍａｘ識別器のパラメータ最適化を行う。

ここでは、Ｓ５００３で作成した統合制御信号により、ＬＳＴＭをリセット、保持、通常状態のいずれかの制御状態に適宜制御した上で、同時に作成した学習ラベルをＳｏｆｔｍａｘ識別器に与える。下記のＧｒａｖｅｓらの論文に記載のＢＰＴＴ（ＢａｃｋＰｒｏｐｅｇａｔｉｏｎＴｈｒｏｕｔｈＴｉｍｅ）法を適用することで、パラメータの最適化を実行する。
Ａ．ＧｒａｖｅｓａｎｄＪ．Ｓｃｈｍｉｄｈｕｂｅｒ． “ＦｒａｍｅｗｉｓｅＰｈｏｎｅｍｅＣｌａｓｓｉｆｉｃａｔｉｏｎｗｉｔｈＢｉｄｉｒｅｃｔｉｏｎａｌＬＳＴＭＮｅｔｗｏｒｋｓ”．ＩｎＰｒｏｃ．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＣｏｎｆｅｒｅｎｃｅｏｎＮｅｕｒａｌＮｅｔｗｏｒｋｓＩＪＣＮＮ’０５
Ｓｏｆｔｍａｘ識別器では、損失関数として交差エントロピー誤差を用い、無視ラベル以外のラベルが与えられた場合に損失関数を評価し、誤差を計算する。ＬＳＴＭは、制御信号によって、リセット、保持、通常状態の３つの制御状態が切り替えられ、保持以外の場合にパラメータが更新される。ＣＮＮは、大規模データで学習済みのパラメータを初期値として用い、本工程にてファインチューニングが行われる。ただしＣＮＮのファインチューニングは実施しなくても、本実施形態が実現する機能は大きく損なわれない。そのため、ＣＮＮのファインチューニングは省略してもよいものとする。省略する場合、ＣＮＮのパラメータは、大規模データで学習済みのパラメータに固定して用いる。

本実施形態では、スポーツの中で、サッカー、フットサル、ラグビーでのプレイの認識を想定した複数人の個別行動で意味付けられる行動ラベルの識別方法について説明した。

これらのスポーツにおいて、たとえばパス回しやタックルのような動作の識別は、選手個人の動作だけでは不十分だが、選手全員の動作を常に扱う必要はなく、ボールに関係する数人の選手の個別動作を扱う枠組みにより認識できると言える。このような複数人の協調的動作で意味付けられる行動の認識を、映像解析によって行う場合、非特許文献１と同様に、動画のフレーム毎の人数の変動に対応できる枠組みが必要である。また、サッカーやフットサル、ラグビーでの応用を想定すると、フレーム単位の時間分解能での認識が原理的に可能で、かつ複数人の個別動作を統合し、全体の行動を認識できる枠組みが求められる。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現する各部の全体を最適化することで、各手段を個別に最適化する以上の精度向上を図ることが期待出来る。

以上のように本実施形態によれば、行動認識装置１０００は、複数人物の個別動作を表す特徴量を統合し、更にそれを時間的に統合し、行動ラベルを識別する。これにより、動画のフレーム毎の人数変動に対応し、フレーム単位での認識を行い、さらに複数人の個別動作を統合し全体の行動ラベルの識別を可能にする。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現するニューラルネットワークの全体を最適化することで、精度の良い行動ラベルの識別を可能にする。

（実施形態１の派生の形態１）
第１の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。しかし、第１の実施形態での問題設定で利用可能な情報は人物領域の画像特徴以外にも存在する。例えば、第１の実施形態では、Ｓ１００２の人物物体検出で、ボール位置の検出を行っている。そこで、そのボールを中心とした任意の大きさの領域（以下、ボール領域と呼ぶ）を人物領域に加え利用してもよい。

また、Ｓ１００２の人物物体検出では、人物およびボールの３次元上の位置を取得している。その人物およびボールの座標値を人物領域またはボール領域の画像特徴量に連結して利用してもよい。人物領域に加え、ボール領域を利用する場合、ある時刻、あるカメラで撮影されたフレームの人物検出結果の人物領域系列の終端にボール領域を加えればよい。例えば、図４（ｂ）に示した人物領域ソート結果（５０１）に対し、終端にボール領域を加えた系列を作成する。異なる時刻のフレームに対しても同様に人物領域系列の終端にボール領域を加え、ネットワークに入力する部分領域の画像系列を作成すればよい。

第１の実施形態では、ネットワークに入力する人物領域系列は、図７の１００２〜１００６等で示したように、
｛時刻Ｉ人物Ｃ領域，時刻Ｉ人物Ｂ領域，時刻Ｉ人物Ａ領域，時刻ＩＩ人物Ｂ領域，時刻ＩＩ人物Ａ｝
である。ここで、中括弧で囲まれた系列“｛ｘ１，ｘ２，ｘ３，．．．，ｘｎ｝”は、ネットワークに入力する系列データを示す。人物領域に加えボール領域を利用する場合、ネットワークへの入力は、
｛時刻Ｉ人物Ｃ領域、時刻Ｉ人物Ｂ領域、時刻Ｉ人物Ａ領域、時刻Ｉボール領域、時刻ＩＩ人物Ｂ領域、時刻ＩＩ人物Ａ、時刻ＩＩボール領域｝
となる。

ボール領域が検出されないフレームである場合、ボール領域を無視して画像領域の系列を作成してもよい。または、ボール検出が成功した前後のフレームから線形補間等の補間処理を実行し、ボール位置を推定してもよいし、ボールが検出されないフレームを含む動画はそもそも認識対象から除外してもよい。

フットサル、サッカー、ラグビー等の様々なスポーツにおいて、ボールは一般に人物よりも高速に移動する。そのためボール検出は、一般的なフレームレートの動画を利用する場合、検出失敗が多くなる場合が多い。そして線形補間等の単純な補間では誤差が大きくなることが考えられる。そこで補間等に起因する誤差の影響を軽減させるために、抽出するボール領域を人物領域よりも広い領域にしてもよい。具体的には、第１の実施形態では、人物領域を２−４ｍ程度の領域と設定したが、それに対しボール領域は５−１０ｍ程度の広範囲から取得するようにする。このようにすれば、ボール検出に誤差があってもボール領域内にボールが含まれる確率が増える。

（実施形態１の派生の形態２）
第１の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。さらに第１の実施形態の派生の形態１で、ボール領域を人物領域に連結し、ボールと人物の領域から行動ラベルを識別する方法について説明した。本実施形態では、画像の他に画像に対応付けられるメタデータを利用する方法について述べる。

第１の実施形態ですでに説明したように、ボールおよび人物は物体検出およびステレオ法により、３次元上の座標値が得られている。そのため人物およびボールの３次元上の座標値を、人物領域またはボール領域の画像特徴量と共に利用することができる。その場合では、第１の実施形態ではＣＮＮによって実現した画像特徴抽出部１００６の後段で、画像特徴量とこれらの座標値を連結し、人物系列統合部１００７に入力するようにすればよい。

図１２に、人物の画像領域と３次元上の座標値を利用した場合のネットワーク構造の例を示す。１７０２、１７０４、１７０６は図７における１００２、１００３、１００４と同一である。１７０３、１７０５、１７０７は、それぞれ人物Ａ、人物Ｂ、人物Ｃの座標データを表す。ＣＮＮ１７０８、ＬＳＴＭ１（１７１０）、ＬＳＴＭ２（１７１１）、ＦＣ１７１２、Ｓｏｆｔｍａｘ１７１３は、図６におけるＣＮＮ９０）、ＬＳＴＭ１（９０４）、ＬＳＴＭ２（９０５）、ＦＣ９０６、Ｓｏｆｔｍａｘ９０７と同一である。Ｃｏｎｃａｔ１７０９は、連結モジュールである。

ここで座標データ（１７０３、１７０５、１７０７）は、人物の３次元座標上の位置（Ｘ，Ｙ，Ｚ）の他、ボールからの距離、カメラからの距離を利用して計算してもよい。さらに前時刻のデータも利用して計算される速度や加速度、そしてチームＩＤなどのその他のメタデータ等を使ってもよい。連結モジュール１７０９は、ＣＮＮ１７０８によって抽出された画像特徴量と座標データを連結するモジュールである。この連結後のデータがＬＳＴＭ１（１７１０）に入力される。この連結モジュール１７０９は、このように２つの特徴量を単純に連結するだけでもよいが、重み行列を内積し、次元をより低次元に削減するようにしてもよい。その場合のＦＣをＣｏｎｃａｔ１７０９とＬＳＴＭ１（１７１０）の間に追加し、第１の実施形態の学習時の処理で記述した手続きと同様に学習する。

また座標データは、第１の実施形態ではカメラ・キャリブレーションを行ったマルチカメラの多視点画像に対する物体検出結果にステレオ法を適用することで取得した。座標データの取得方法は、この他にもＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）機器を選手に装着させ、取得してもよい。

（実施形態１の派生の形態３）
第１の実施形態では、人物系列の統合と時系列の統合を行い、行動ラベルを識別する方法について説明した。その際、まず人物系列の統合を行い、時系列の統合を行うという順序で２つの統合を行ったが、その順番はこの限りではない。すなわち、まず時系列の統合を行い、次に人物系列の統合を行ってもよい。

この場合、各人物毎にその人物が映る時刻をソートし、人物領域系列を作成する。図５（ａ）と図５（ｂ）に示すように、時刻Ｉで人物Ａ、Ｂ、Ｃの３名が存在し時刻ＩＩで人物ＡとＢの２名が存在する場合を再び考える。このとき、人物Ｃは、時刻Ｉにしか存在せず、人物Ｂは時刻Ｉ、ＩＩとも存在し、人物Ａも同じく時刻Ｉ、ＩＩともに存在するため、ソートした結果の人物領域系列は以下のようになる。
｛時刻Ｉ人物Ｃ領域，時刻Ｉ人物Ｂ領域，時刻ＩＩ人物Ｂ領域，時刻Ｉ人物Ａ領域，時刻ＩＩ人物Ａ｝
ここで、人物の順序は、ボールからの距離を降順にソートし（人物Ｃ、Ｂ、Ａ）、時刻は昇順にソートした（時刻Ｉ、ＩＩ）。これを、すでに図６に示したネットワークのＩｎｐｕｔ（９０２）に入力し、ＬＳＴＭ１１と２（９０４と９０５）を、時系列の統合、人物系列の統合という順に統合するため制御する。このときのＬＳＴＭ１とＬＳＴＭ２制御状態は図１８（ｂ）のようになる。

ここで、ｎ＝１でＬＳＴＭ１では、時刻Ｉ人物Ｃ領域を統合するため“リセット”し、ＬＳＴＭ２でも“リセット”する。人物Ｃは時刻ＩＩで存在しないのでＬＳＴＭ２では、ｎ＝１で最初の人物が統合される。ｎ＝２、ｎ＝３で次の人物Ｂを統合する。そのためｎ＝２でＬＳＴＭ１を“リセット”し、ＬＳＴＭ２を“保持”にすることで、ＬＳＴＭ１で時刻Ｉの人物Ｂ領域を統合する。ｎ＝３でＬＳＴＭ１、ＬＳＴＭ２を共に“更新”することで、ＬＳＴＭ１で時刻ＩＩの人物Ｂを統合し、ＬＳＴＭ２で、時刻Ｉ、ＩＩの人物Ｂ領域を統合した結果を受け取り、内部状態を更新する。次は、同様にｎ＝４でＬＳＴＭ１を“リセット”し、ＬＳＴＭ２を“保持”にすることで、ＬＳＴＭ１で時刻Ｉの人物Ａ領域を統合する。ｎ＝５でＬＳＴＭ１、ＬＳＴＭ２を共に“更新”することで、ＬＳＴＭ１で時刻ＩＩの人物Ａを統合し、ＬＳＴＭ２で、時刻Ｉ、ＩＩの人物Ａ領域を統合した結果を受け取り、内部状態を更新する。

図１３に、図６のネットワークに対し、人物領域系列を入力し、図１８（ｂ）の制御を行った場合の信号及び誤差の伝搬経路（１４１１）を示す。１４０２は図５（ｃ）の８０２に示した時刻Ｉ人物Ａ領域と同一である。１４０３は図５（ｃ）の８０３に示した時刻Ｉ人物Ｂ領域と同一である。１４０４は図５（ｃ）の８０５に示した時刻ＩＩ人物Ｂ領域と同一である。１４０５は図５（ｃ）の８０４に示した時刻Ｉ人物Ａ領域と同一である。１４０６は図５（ｃ）の８０６に示した時刻ＩＩ人物Ａ領域と同一である。ＣＮＮ、ＬＳＴＭ１、ＬＳＴＭ２、ＦＣ、Ｓｏｆｔｍａｘは、図６におけるＣＮＮ（９０３）、ＬＳＴＭ１（９０４）、ＬＳＴＭ２（９０５）、ＦＣ（９０６）、Ｓｏｆｔｍａｘ（９０７）と同一である。

ＬＳＴＭ１およびＬＳＴＭ２に関し、“更新”を白背景の矩形（１４０９）、“リセット”を斜線パターンの矩形（１４０７）、“保持”をドットパターンの矩形（１４０８）で示した。また網掛けパターンの矩形（１４１０）はＳｏｆｔｍａｘの“無視”、白背景の矩形（１４１２）はＳｏｆｔｍａｘの“通常動作”（“無視”でない動作）を示す。図１８（ｂ）の制御により、信号及び誤差が１４１１のように伝搬し、時系列統合および人物系列統合をこの順序で実現される。

以上のように実施することで、人物系列および時系列の統合を任意の順序が行うことができる。

（実施形態２）
本実施形態では、複数のカメラで撮影されたフットサル動画に関し、同一の人物が複数のカメラで撮影された場合における行動認識を行う方法について述べる。その際、複数のカメラの同一人物領域の統合（視点統合）と、複数の人物の個別動作を表す人物特徴量の統合（対象物統合）と、時系列の統合との３種類の情報の統合を行う。

本実施形態で識別する行動ラベルは、第１の実施形態と同様に、“パス”，“シュート”，“ドリブル”，“キープ”，“クリアー”の５種類の行動ラベルとする。

また本実施形態では、第１の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図１は既に説明した図であるが、このカメラ配置の一例と２つのカメラで撮影された１フレームの例を説明する図である。

図２（ｂ）は、本実施形態で説明する行動認識装置２０００の機能構成を示す図である。本実施形態の行動認識装置２０００は、マルチカメラ動画取得部２００１、人物物体検出部２００２、人物領域抽出部２００３、人物領域ソート部２００４、統合制御信号作成部２００５、画像特徴量抽出部２００６を有する。さらに、カメラ系列統合部２００７、人物系列統合部２００８、時系列統合部２００９、行動ラベル識別部２０１０を有する。これらの各機能の詳細について、図３等を用いて以下に説明する。

図３（ｂ）は、本実施形態における認識時の処理の一例を示すフローチャートである。

Ｓ２００１では、マルチカメラ動画取得部２００１により、複数のカメラで撮影された、複数の静止画から成る動画のフレーム系列を取得する。Ｓ２００２の人物物体検出及びＳ２００３の人物領域抽出は、第１の実施形態における認識処理時のＳ１００２及びＳ１００３と同様の処理であるため説明を省略する。

また、人物領域ソート処理（Ｓ２００４）、統合制御信号作成処理（Ｓ２００５）、画像特徴量抽出処理（Ｓ２００６）は、第１の実施形態における認識処理時のＳ１００４−１００６と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。

Ｓ２００７では、カメラ系列統合部２００７により、複数のカメラで撮影された同一人物の人物領域の統合を行う。

また、人物系列統合処理（Ｓ２００８）、時系列統合処理（Ｓ２００９）、行動ラベル識別処理（Ｓ２０１０）は、第１の実施形態における認識処理時のＳ１００７−１００９と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。

次に、図３（ｂ）に示したフローチャートに従って、各処理のより具体的な内容について述べる。

マルチカメラ動画取得工程Ｓ２００１は、図１（ａ）のように配置したマルチカメラを用い、多視点の動画を取得する。各カメラの動画は、同期されているとする。図１（ｂ）と（ｃ）は、前述の通り同じ瞬間を撮影したカメラ１０３（図１（ａ）。以後カメラ１と呼ぶ）とカメラ１０４（図１（ａ）。以後カメラ２と呼ぶ）のフレームであるが、各カメラからはこのような同期されたフレームが取得されるとする。

人物領域ソート工程Ｓ２００４では、マルチカメラ動画取得工程Ｓ２００１で取得された多視点動画の各フレーム中の人物領域のソートを行う。
本工程では、同一の人物が複数のフレームおよびカメラで撮影されており、例えば人物Ａが、フレームＩのカメラ１、カメラ２，カメラ４で撮影されている場合、人物Ａの人物領域をカメラの番号順に並べた系列，
｛フレームＩ人物Ａカメラ１，フレームＩ人物Ａカメラ２，フレームＩ人物Ａカメラ４｝
をカメラ系列とする。
同様に人物Ｂについて、カメラ１とカメラ２で撮影され、
｛フレームＩ人物Ｂカメラ１，フレームＩ人物Ｂカメラ２｝
というカメラ系列が得られる場合、人物系列は，カメラ系列をネストした系列、
｛｛フレームＩ人物Ａカメラ１，フレームＩ人物Ａカメラ２，フレームＩ人物Ａカメラ４｝，｛フレームＩ人物Ｂカメラ１，フレームＩ人物Ｂカメラ２｝｝
となる。
さらにフレームＩＩにおいて、人物Ａがカメラ１，カメラ２で撮影され，人物Ｂがカメラ２，カメラ３で撮影された場合，時系列は、カメラ系列および人物系列をネストした系列，
｛｛｛フレームＩ人物Ａカメラ１，フレームＩ人物Ａカメラ２，フレームＩ人物Ａカメラ４｝，｛フレームＩ人物Ｂカメラ１，フレームＩ人物Ｂカメラ２｝｝，｛｛フレームＩＩ人物Ａカメラ１，フレームＩＩ人物Ａカメラ２｝，｛フレームＩＩ人物Ｂカメラ２，フレームＩＩ人物Ｂカメラ３｝｝｝
となる。
人物領域のソートは、このように作成された、ネストされた時系列を１次元に並べることで実行される。
｛フレームＩ人物Ａカメラ１，フレームＩ人物Ａカメラ２，フレームＩ人物Ａカメラ４，フレームＩ人物Ｂカメラ１，フレームＩ人物Ｂカメラ２，フレームＩＩ人物Ａカメラ１，フレームＩＩ人物Ａカメラ２，フレームＩＩ人物Ｂカメラ２，フレームＩＩ人物Ｂカメラ３｝
図１４にカメラ１およびカメラ２で撮影された同じ時刻の２つのフレームにおける人物検出の結果（図１４（ａ），（ｂ））と人物領域のソート結果（図１４（ｃ））を示す。ここで、１３０２は、カメラ１のフレーム上でのボール検出結果、１３０３―１３０９は、それぞれカメラ１で撮影されたフレーム上の人物Ａ―Ｇの人物領域を示す。１４０２は、カメラ２のフレーム上でのボール検出結果、１４０３―１４１３は、それぞれカメラ１で撮影されたフレーム上の人物Ａ―Ｋの人物領域を示す。カメラ１で撮影されたボール１３０２および人物Ａ―Ｅ（１３０３―１３０７）とカメラ２で撮影されたボール１４０２および人物Ａ―Ｅ（１４０３―１４０７）は同一の物体及び人物である。

このとき、ネストされた人物系列は、
｛｛人物Ｇカメラ１｝，｛人物Ｋカメラ２｝，｛人物Ｊカメラ２｝，｛人物Ｆカメラ１｝，｛人物Ｊカメラ１｝，｛人物Ｈカメラ２｝，｛人物Ｅカメラ１，人物Ｅカメラ２｝，｛人物Ｄカメラ１，人物Ｄカメラ２｝，｛人物Ｃカメラ１，人物Ｃカメラ２｝，｛人物Ｂカメラ１，人物Ｂカメラ２｝，｛人物Ａカメラ１，人物Ａカメラ２｝｝
となる。ネストされた人物系列を１次元に並べたソート結果は図１４（ｃ）の１５０４〜１５１９である。すなわち，
｛人物Ｇカメラ１，人物Ｋカメラ２，人物Ｊカメラ２，人物Ｆカメラ１，人物Ｊカメラ１，人物Ｈカメラ２，人物Ｅカメラ１，人物Ｅカメラ２，人物Ｄカメラ１，人物Ｄカメラ２，人物Ｃカメラ１，人物Ｃカメラ２，人物Ｂカメラ１，人物Ｂカメラ２，人物Ａカメラ１，人物Ａカメラ２｝
となる。

ここでは第１の実施形態と同様に、各人物はボールからの距離に基づきソートしたが、前述のように前フレームで統一的な人物ＩＤが得られる場合、その人物ＩＤの順序に従ってソートしてもよい。

次に、統合制御信号作成工程Ｓ２００５は、カメラ系列統合工程Ｓ２００７、人物系列統合工程Ｓ２００８、時系列統合工程Ｓ２００９の工程で用いる制御信号を生成する。この制御信号により、それぞれカメラ系列統合部２００７、人物系列統合部２００８、時系列統合部２００９を制御する。

第１の実施形態では、人物系列統合部１００７、時系列統合部１００８を２層のＬＳＴＭで実現した。本実施形態では、カメラ系列統合部２００７、人物系列統合部２００８、時系列統合部２００９を各１層ずつの３層のＬＳＴＭ（ＬＳＴＭ１、ＬＳＴＭ２、ＬＳＴＭ３）で実現する。

ＬＳＴＭの各レイヤーでは，ネストされた３階層の系列を階層ごとに統合することになる。すなわち，図１４に示したある１時刻、２カメラの２フレームで検出される人物領域のネストされた系列は，
｛｛｛人物Ｇカメラ１｝，｛人物Ｋカメラ２｝，｛人物Ｊカメラ２｝，｛人物Ｆカメラ１｝，｛人物Ｊカメラ１｝，｛人物Ｈカメラ２｝，｛人物Ｅカメラ１，人物Ｅカメラ２｝，｛人物Ｄカメラ１，人物Ｄカメラ２｝，｛人物Ｃカメラ１，人物Ｃカメラ２｝，｛人物Ｂカメラ１，人物Ｂカメラ２｝，｛人物Ａカメラ１，人物Ａカメラ２｝｝｝
となる。この場合，カメラ系列を統合するＬＳＴＭ１の制御状態は、カメラ系列の初期に“リセット”、統合時に“更新”をするように制御され，
｛リセット，リセット，リセット，リセット，リセット，リセット，リセット，更新，リセット，更新，リセット，更新，リセット，更新，リセット，更新｝
という状態系列になるよう制御信号が作成される。
また、人物系列を統合するＬＳＴＭ２では、人物系列の初期にリセット、統合時に更新、１階層下のカメラ系列が最後の要素以外の場合、“保持”とする。すなわち、
｛リセット，更新，更新，更新，更新，更新，更新，更新，保持，更新，保持，更新，保持，更新，保持，更新｝
となる。

同様に時系列統合するＬＳＴＭ３では，時系列の初期に“リセット”をするため、最後の要素をリセットにする。それ以外はどれでもよいが便宜的に“リセット”とする。すなわち、
｛リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット，リセット｝
となる。

図１４（ｃ）の人物領域の系列に対し、実際に制御状態を切り替えたネットワークを図１５に図示する。図中のＣＮＮ、ＬＳＴＭ１、ＬＳＴＭ２、ＬＳＴＭ３、ＦＣ、Ｓｏｆｔｍａｘと記された矩形は、それぞれＣＮＮ、３層のＬＳＴＭ、Ｓｏｆｔｍａｘ識別器である。斜線で塗られた矩形（１６１８）がＬＳＴＭの“リセット”、ドットで塗られた矩形（１６１９）が“保持”、白背景の矩形（１６２０）が“更新”を表す。網掛けパターンの矩形（１６２１）がＳｏｆｔｍａｘ識別器の“無視”、白背景の矩形（１６２２）がＳｏｆｔｍａｘ識別器の通常動作（“無視”でない状態）を表す。

この後に続く各工程（画像特徴量抽出工程Ｓ２００６、カメラ系列統合工程Ｓ２００７、人物系列統合工程Ｓ２００８、時系列統合工程Ｓ２００９、行動ラベル識別工程Ｓ２０１０）は、第１の実施形態と同様に実現される。すなわち、ＣＮＮ、ＬＳＴＭ、Ｓｏｆｔｍａｘ識別器を組み合わせたニューラルネットワークで実現される。そのネットワーク構造は、既に説明の通り、図１５となる。すなわち、前工程で作成した制御信号によって、図１５に示した構造と制御状態で、第１の実施形態と同様の認識時の処理を実行すれば、カメラ系列、人物系列、時系列を統合した行動ラベルの識別結果が得られる。

以上のように実行することで、マルチモーダルの系列情報（当実施例では、カメラ系列、人物系列、時系列）を統合した行動ラベルの認識を行うことができる。
本実施形態では、カメラ系列、人物系列、時系列という順番に統合したが、時系列、人物系列、カメラ系列、という順番で統合することも可能である。

さらに本実施形態に記された手続きは、より一般的な多種の系列情報の統合にも適用できる。例えば、選手が心拍数センサ、加速度センサ、ＧＰＳセンサを装着し、それらのセンサから心拍データ、速度・加速度データ、位置データを取得できる場合を考える。この場合、本実施形態と同様の手続きで、各人物の複数のセンサデータの統合、複数人物のセンサデータの統合、時系列の統合の３種類の統合を行うことが可能である。選手各々が異なる機種のセンサを装着している場合や、装着しているセンサの数が選手毎に違う場合、複数のセンサデータの統合を行うことで、それらの差異を吸収する効果が期待できる。

（実施形態３）
第１、第２の実施形態では、カメラによって取得されるフレームに対し、人物検出を行い、その結果に基づく局所的な人物領域を用い、行動ラベルの識別を行った。
これらの形態では、仮に人物検出が正しく動作しなかった場合、人物でない領域が誤って入力され、誤識別につながる場合がある。

本実施形態では、画像の局所的な部分である人物領域に加え、画像全体からの画像特徴を抽出し、行動ラベルの識別に利用することで、人物検出の誤識別の軽減を図る方法について説明する。

本実施形態で識別する行動ラベルは、第１、第２の実施形態と同様に、“パス”，“シュート”，“ドリブル”，“キープ”，“クリアー”の５種類の行動ラベルとする。

また本実施形態では、第１、第２の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図１は既に説明した図であるが、このカメラ配置の一例と２つのカメラで撮影された１フレームの例を説明する図である。

図１６（ａ）は、本実施形態で説明する行動認識装置３０００の機能構成を示す図である。

本実施形態の行動認識装置３０００は、第１の実施形態における行動認識装置１０００の機能構成に加え、大域的特徴量抽出部３０１０を有する。これらの各機能の詳細について、図３等を用いて以下に説明する。

図３（ｃ）は、本実施形態における認識時の処理の一例を示すフローチャートである。

ここで、Ｓ３００１−Ｓ３００５は、第１の実施形態における認識処理時のＳ１００１−１００５と同様の処理であるため説明を省略する。

画像特徴量抽出処理（Ｓ３００６）は、第１の実施形態における認識処理時の画像特徴量抽出工程Ｓ１００６と同様の処理であるが、一部異なるため、その差分について他の処理と合わせて説明する。

Ｓ３００７では、大域的特徴量抽出部３０１０により、動画取得工程Ｓ３００１で取得されるフレーム全体から大域的画像特徴量を抽出する。

次に、図３（ｃ）に示したフローチャートに従って、より具体的な内容について述べる。本実施形態では、画像特徴量抽出処理（Ｓ３００６）以降の処理に関し第１の実施形態と差異があり、その他の処理は第１の実施形態と同様である。そのため差異のある各処理について説明する。

第１の実施形態では、Ｓ１００６−Ｓ１００９で機能する各部、画像特徴量抽出部１００６、人物系列統合部１００７、時系列統合部１００８、行動ラベル識別部１００９は、ＣＮＮ、ＬＳＴＭ、Ｓｏｆｔｍａｘ識別器を組み合わせて実現された。本実施形態でも同じく画像特徴量抽出部３００６、人物系列統合部３００７、時系列統合部３００８、行動ラベル識別部３００９は、ＣＮＮ、ＬＳＴＭ、Ｓｏｆｔｍａｘ識別器で実現する。加えて大域的画像特徴量抽出工程Ｓ３００７で用いる大域的特徴量抽出部３０１０もＣＮＮで実現する。

これらで構成されるネットワークの構造は、第１の実施形態におけるネットワーク構造を示す図（図９）と同様の方法で図示すると、図１７のようになる。第１の実施形態におけるネットワーク構造（図９）のＬＳＴＭ１とＬＳＴＭ２の間に、連結操ユニット（１３１５）が挿入された構造を持つ。連結操ユニット（１３１５）では、各時刻における全体画像（１３０２、１３０８）がＣＮＮ（１３１３）に入力され、そこで抽出された大域的画像特徴量とＬＳＴＭ１（１３１４）による人物系列の統合結果が連結される。連結後の特徴量が時系列統合を行うＬＳＴＭ２（１３１６）に入力される。

ここで、ＣＮＮ（１３１３）に入力する各時刻における全体画像（１３０２、１３０８）は、動画取得手段３００１で取得されたＦｕｌｌＨＤ（１９２０ｘ１０８０ピクセル）の画像をクロップせずにＣＮＮに合わせた大きさにリサイズした画像である。リサイズした画像は、例えば２２７×２２７ピクセルである。

また、人物領域から画像特徴量を抽出するＣＮＮ（１３１２）と全体画像から大域的画像特徴量を抽出するＣＮＮ（１３１３）では、同じ構造にし、同じ重みパラメータを共有してもよい。あるいは、同じ構造でも別の重みパラメータを設定してもよいし、別の構造、別の重みパラメータとしてもよい。

図１７が表すように、時刻Ｉの人物領域の画像特徴量はＬＳＴＭ１によって再帰的に統合され、全体画像から抽出される大域的画像特徴量と連結操作モジュールによって連結される。連結した特徴量は時系列統合を実行するＬＳＴＭ２に入力される。時刻ＩＩについても同様に、人物領域についてはＬＳＴＭ１によって再帰的に統合され、大域的画像特徴量と連結され、その後ＬＳＴＭ２によって再帰的に時系列統合が実行される。行動ラベルのスコアは、ＬＳＴＭ２による時系列統合毎にＩｎｎｅｒ−ｐｒｏｄｕｃｔユニット、Ｓｏｆｔｍａｘユニットによって計算され、出力される。

以上のように実行することで、画像全体から抽出した特徴量を人物検出によって得た検出誤差を含む局所的な人物領域の特徴量と連結し、時系列的な統合が実行される。これにより、人物検出が含む誤りを軽減した行動ラベルの識別が実行できる。

（その他の実施形態）
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

１０００行動認識装置
１００１動画取得部
１００２人物物体検出部
１００３人物領域抽出部
１００４人物領域ソート部
１００５統合制御信号作成部
１００６画像特徴量抽出部
１００７人物系列統合部
１００８時系列統合部
１００９行動ラベル識別部

Claims

時系列の静止画像を含む動画像を取得する取得手段と、
前記動画像から静止画像ごとに１以上の対象物を検出する検出手段と、
前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、
前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、
前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、
前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段と
を有することを特徴とする画像処理装置。
前記静止画像から前記対象物のそれぞれに対応する領域を抽出する領域抽出手段と、
前記時系列の静止画像のそれぞれから抽出された前記領域を並べた領域系列を作成する作成手段とを備え、
前記特徴量抽出手段は、前記領域系列における前記対象物のそれぞれに対応する領域から特徴量を抽出することを特徴とする請求項１に記載の画像処理装置。
前記作成手段は、前記複数の対象物の領域を当該対象物の位置に基づいてソートすることを特徴とする請求項２に記載の画像処理装置。
前記検出手段による検出結果に基づいて、前記対象物統合手段と前記時系列統合手段の制御状態を制御する制御手段をさらに有することを特徴とする請求項２に記載の画像処理装置。
前記対象物統合手段は、リセット、更新の少なくとも２つの制御状態を有し、
前記制御手段が、前記静止画像における対象物の特徴量の系列の初期で前記対象物統合手段の制御状態をリセットにし、それ以外で前記対象物統合手段の制御状態を更新にすることで、前記対象物統合手段は、当該静止画像における対象物の系列を統合することを特徴とする請求項４に記載の画像処理装置。
前記時系列統合手段は、リセット、保持、更新の少なくとも３つの制御状態を有し、
前記制御手段が、前記系列の初期で前記時系列統合手段の制御状態をリセットにし、前記静止画像ごとに統合された対象物の特徴量の系列の最後で前記時系列統合手段の制御状態にし、それ以外で前記時系列統合手段の制御状態を保持にすることで、前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量の系列を統合することを特徴とする請求項１に記載の画像処理装置。
前記検出手段は、前記対象物の実世界上の位置を検出することを特徴とする請求項１に記載の画像処理装置。
前記検出手段は、前記対象物として人物と人物とは異なる所定の対象物とを検出することを特徴とする請求項１に記載の画像処理装置。
前記取得手段は、ある対象物を同時に複数の視点で撮影した動画像を取得することを特徴とする請求項１に記載の画像処理装置。
前記検出手段は、前記複数の視点で撮影した動画像を構成する静止画像ごとに、複数の視点の静止画像で同一の対象物を対応付けて検出し、当該対象物の位置を検出することを特徴とする請求項９に記載の画像処理装置。
前記複数の視点の対象物の特徴量の系列を統合する視点統合手段をさらに有し、
前記対象物統合手段は、前記対象物ごとに統合された複数の視点の対象物の特徴量を統合することを特徴とする請求項１０に記載の画像処理装置。
前記動画像を構成する静止画像の全体から大域的な画像特徴量を抽出する大域的特徴量抽出手段をさらに有し、
前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量と前記静止画像ごとの大域的な画像特徴量とを統合することを特徴とする請求項１に記載の画像処理装置。
時系列の静止画像を含む動画像を取得する取得工程と、
前記動画像から静止画像ごとに１以上の対象物を検出する検出工程と、
前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出工程と、
前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合工程と、
前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合工程と、
前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別工程と
を有することを特徴とする画像処理方法。
コンピュータを請求項１乃至１２のいずれか１項に記載の画像処理装置の各手段として機能させることを特徴とするプログラム。