JP2018181273A - 画像処理装置及びその方法、プログラム - Google Patents

画像処理装置及びその方法、プログラム Download PDF

Info

Publication number
JP2018181273A
JP2018181273A JP2017084778A JP2017084778A JP2018181273A JP 2018181273 A JP2018181273 A JP 2018181273A JP 2017084778 A JP2017084778 A JP 2017084778A JP 2017084778 A JP2017084778 A JP 2017084778A JP 2018181273 A JP2018181273 A JP 2018181273A
Authority
JP
Japan
Prior art keywords
person
series
time
image
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017084778A
Other languages
English (en)
Inventor
敬正 角田
Norimasa Kadota
敬正 角田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017084778A priority Critical patent/JP2018181273A/ja
Publication of JP2018181273A publication Critical patent/JP2018181273A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Studio Devices (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 動画像から人物などの複数の人物により行われる行動を認識する。【解決手段】 画像処理装置に、時系列の静止画像を含む動画像を取得する取得手段と、前記動画像から静止画像ごとに1以上の対象物を検出する検出手段と、前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段とを備える。【選択図】 図2

Description

本発明は、動画像から人物などの対象物の行動を認識する技術に関する。特に、複数の人物により行われる行動を認識する技術に関するものである。
映像解析による人物行動の認識(以下、行動認識と称する)は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。
その際に撮影される映像は、1フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献1では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。映像解析による人物行動の認識(以下、行動認識)は、監視、マーケティング、スポーツ解析等の用途で有用な技術である。例えば、行動認識の認識結果に基づき映像の中から被写体の特定行動を検出する監視応用や、行動の種類を示す行動ラベルをキーとした映像検索、マーケティング上関心のある行動のカウント、スポーツ映像におけるスタッツ解析等、多様な応用がある。
その際に撮影される映像は、1フレームに多人数が同時に映る状況が一般的である。このような映像を用いた行動認識方法として、特許文献1では、多人数が登場し隠れが多発する混雑状況下においても人物の動き予測を用いて長い軌跡情報を生成することで、映像中の複数人物の個別行動を安定して認識する技術が開示されている。
さらに監視やスポーツ解析の用途では、映像中の複数人物が関係する協調動作の認識が可能になることで付加価値の高い応用につながると考えられる。例えば映像内の複数人の状況をより直観的で分かりやすい表現で監視者にアノテーションする(例「行列ができている」、「言い争いが起きている」など)ことができる。また、複数人が協力して行う犯罪の検知に応用したり、スポーツにおいてはチームプレイの解析が可能になるなどの応用例である。
非特許文献1では、複数人物の協調動作を認識する技術として、複数の人間の協調的な行動の認識を行っており、個々の人物が立っているか歩いているかのプリミティブな個別行動の認識を行う。それから、2者間のインタラクション行動の認識(向き合っている、列になっている等)、全体の協調行動の認識(話し合っている、並んで歩いている、集まっている等)を階層的なグラフィカルモデルを用いて実現している。
特許第5285575号公報
上述のように、監視やスポーツにおける、複数の人間が関与する行動の認識は広範な応用が想定される。特許文献1は、複数人物の個別動作の認識は行うが、複数人物が協調して行う行動を認識するものではない。また、非特許文献1では、人物の個別行動の認識に、時空間上の直方体から作成される時空間特徴量を抽出し、さらに別途学習した識別器を用いて得られた識別スコアを用いている。このように特徴量自体が時間的な幅を持つため識別結果が時間的に粗くなるという特徴がある。また特徴抽出器、識別器、グラフィカルモデルは独立したモジュールであり、それらを一貫した全体の最適化が出来なかった。
本発明の1態様によれば、画像処理装置に、時系列の静止画像を含む動画像を取得する取得手段と、前記動画像から静止画像ごとに1以上の対象物を検出する検出手段と、前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段とを備える。
本発明によれば、動画の各フレームに映る人物の個別動作を表す特徴量を抽出し、複数人の特徴量を統合し、さらに時間的な統合を行うことで、複数人の個別行動で意味付けられる行動の精度の良い識別を可能にする。
カメラ配置の一例と2つのカメラで撮影される静止画の一例を示す図である。 認識時のシステム構成の一例を示す図である。 認識時の処理の一例を示すフローチャートである。 人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。 2つのフレームでの人物検出の結果の一例と検出された人物領域をソートした結果の一例を示す図である。 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。 図6で示したニューラルネットワークを展開した図である。 図7で示したニューラルネットワークを制御することで実現される人物系列の統合と時系列の統合を説明する図である。 図8で示した制御されたニューラルネットワークと等価なニューラルネットワークを示す図である。 学習時のシステム構成の一例を示す図である。 学習時の処理の一例を示すフローチャートである。 フレーム内の人物領域と人物の座標データを用いるニューラルネットワーク構造を示す図である。 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。 2つのカメラで撮影された同時刻の2フレームの人物検出結果の一例と検出された人物領域をソートした結果の一例を示す図である。 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。 認識時のシステム構成の一例を示す図である(その2)。 認識および学習時の処理で用いるニューラルネットワーク構造の一例を示す図である。 LSTMの制御状態を示す図である。
以下、図面を参照しながら本発明の実施形態について詳細に説明する。
(第1の実施形態)
第1の実施形態では、フットサルを例として動画像から複数選手の動作で意味付けられる行動ラベルを認識する方法について説明する。
図1は、本実施形態において想定する動画について説明する図である。図1(a)の102はフットサルコートを示す。103―112はカメラを示す。X、Y、Zは原点を113に定義した3次元座標(世界座標)のX軸,Y軸、Z軸を示す。この図1(a)に示すように、フットサルのコートの周囲に複数台のカメラが配置され、そのカメラにより動画が撮影されるものとする。図1(b)に、カメラ103で取得されるフットサル動画の1フレーム(静止画像)201の例を示す。202がボール、203―209が、それぞれ人物A―Gを示す。このように動画中には、対象物として、複数人の人物(選手および審判が含まれる)とボールが存在する。図1(c)に、カメラ104で取得される1フレーム301の例を示す。302がボール、303―311が、それぞれ人物A―Kを示す。図1(c)におけるボール302、人物A−E(303−307)は、図1(b)におけるボール202、人物A−E(203−207)と同一の物体あるいは人物である。
各カメラ103―112は、キャリブレーションが行われ、カメラの内部および外部パラメータが取得されているものとする。すなわち、各カメラで取得した画像にステレオ法を適用し、対応点をコートの基準点を原点として設定した世界座標上に投影することができる。本実施形態では、コートのセンターマークを原点113とし、X軸、Y軸、Z軸を持つ3次元空間を世界座標として設定する。画像に映る人物やボールの検出と組み合わせ、人物やボールの世界座標上の位置を取得できるものとする。
またこのフットサルの行動認識においては、パス、シュート、ドリブル、キープ、クリアーの5種類のマルチカテゴリの行動ラベルを認識するとする。ここで扱う行動ラベル(パス、シュート、ドリブル、キープ、クリアー)の認識は、個人の動作の認識だけでは不十分で、ボールに関係する複数人の個別動作を総合して識別する必要のある行動ラベルである。
図2(a)は、本実施形態の画像処理装置である行動認識装置1000の機能構成を示す図である。本実施形態の行動認識装置1000は、動画取得部1001、人物物体検出部1002、人物領域抽出部1003、人物領域ソート部1004、統合制御信号作成部1005、画像特徴量抽出部1006を有する。さらに、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009を有する。これらの各機能の詳細については、図3等を用いて後述する。
図3(a)は、本実施形態における認識時の処理の一例を示すフローチャートである。このフローチャートを用いて、処理全体の概要を説明する。
まずS1001では、動画取得部1001が、複数の静止画から成る動画のフレーム系列を取得する。S1002では、人物物体検出部1002が、S1001で取得したフレームに映る人物およびボールのそれぞれについて位置とサイズを検出する。フレーム内に複数人物がいる場合、その人数に対応した複数の位置とサイズを検出する。S1003では、人物領域取得部1003が、S1002で検出した人物の位置とサイズに基づき、人物の領域(以後、単に人物領域と呼ぶ)を取得する。S1004では、人物領域ソート部1004が、S1002で検出したボールと人物の位置に基づき、S1003で取得した人物領域をソートする。ソートの詳細については後述する。
S1005では、統合制御信号作成部1005が、S1002で検出したフレーム内に存在する人物の数に基づき、後述する人物系列統合部1007、時系列統合部1008を制御する信号を作成する。S1006では、画像特徴量抽出部1006が、S1003で取得した人物領域に対応する画像特徴量を抽出する。フレーム内に複数人物がいる場合は、複数人物に対応する領域毎に画像特徴量を抽出する。使用する画像特徴量は後述する。抽出した画像特徴量を人物特徴量と呼ぶこととする。
S1007では、人物系列統合部1007が、S1006で取得したフレーム内の人数に対応する複数の人物特徴量を統合する対象物統合の処理を行う。この統合処理の詳細については後述する。この処理の結果、複数人物特徴量を取得する。S1008では、時系列統合部1008が、S1001で取得した複数のフレームにそれぞれ対応する、S1007で統合した人物特徴量をさらに時間的に統合する処理を行う。この統合処理の詳細については後述する。この処理の結果、複数フレーム複数人物特徴量を取得する。S1009では、行動ラベル識別部1009が、S1008で統合した複数フレームの複数人物特徴量に基づき、行動ラベルを識別する。これはフレーム毎に行う。使用する識別器については後述する。
次に、図3(a)に示したフローチャートに従って、各処理のより具体的な内容について述べる。
S1001では、図1(a)のように配置したマルチカメラで撮影された動画を取得する。ただし、本実施形態では、次のS1002の人物物体検出以外の工程では多視点の動画は用いず、何れか1つのカメラで撮影された複数フレームを用いる。本実施形態では、カメラは解像度Full HD(1920×1080ピクセル)、秒間30フレーム程度の速度を想定し、連続する30フレーム(1秒分)を取得するとする。しかし、数フレームおきに取得する、より低速なカメラで取得する、またはより長い時間取得する等、異なる条件で複数フレームを取得しても、それらが数倍程度の差異であれば、本実施形態が実現する機能は大きく損なわれない。また、カメラで撮影された動画は、直接取得しても良いが、外部記憶装置に記憶し、そこから所定の複数フレームを取得しても良い。
次にS1002では、S1001で取得したマルチカメラの動画の各フレームに対し、人物検出およびボール検出を行い、複数カメラのフレームに対する検出結果を用いて、最終的な人物およびボールの位置と人物領域を取得する。1つのフレームにおける人物検出およびボール検出は、AdaBoost等の公知の物体検出方法を用いればよい。その際人物検出は、特に人物の顔を検出するように学習された検出器を用いることも可能である。
続いて、ある瞬間のあるカメラのフレームでの検出結果と別のカメラのフレームでの検出結果から、対応する点を探索することで、前述のようにステレオ法の適用により、検出結果の世界座標上(実世界上)の位置を取得することができる。対応点探索は、公知の技術であるORB等の特徴量、FAST等のコーナー検出、ハミング距離等のメトリック、kd−tree等の近似最近傍探索法を適用すればよい。これらの結果、ボールと各人物の顔の位置が世界座標上の3次元位置(X,Y,Z)として取得される。S1001で取得したフレーム毎にこの処理を行い、その結果、フレーム毎にボールと各人物の顔位置が取得される。
次に、S1003では、S1002で取得した各人物の世界座標上の顔位置から、各人物のフレーム上の領域(人物領域)をバウンディングボックスとして取得する。バウンディングボックスとは、各フレーム上での位置(X,Y)と幅(W,H)の4パラメータで指定される矩形領域である。バウンディングボックスは、人物の身長を基準に前後左右数mの幅を持たせて人物を覆うように設定するものとする。
図4(a)は、図1(b)のフレームに対し、人物検出およびボール検出を行った結果を描画した図である。402がボール検出位置、403―409が、それぞれ人物A―Gの人物領域である。人物検出位置に対しバウンディングボックスが設定され、さらにボールの位置が示されている。
続いて、元のフレーム(サイズ:1920×1080ピクセル)から人物領域を切り出し、一定サイズにリサイズする。人物領域は様々な大きさが存在するため元のフレームの人物領域が拡大される場合と縮小される場合とがある。拡大にはバイキュービック補間、縮小には最近傍補間を適用する。また、本実施形態ではリサイズ後の人物領域のサイズは256×256ピクセルとし、以後リサイズ後の人物領域を単に人物領域と呼ぶ。以上の処理をフレーム毎に行い、その結果フレーム毎の人物領域が取得される。
次に、S1004では、S1003で取得した人物領域を、ボールと人物領域との距離に基づき降順にソートする。ここで距離は、人物物体検出工程S1002で取得した人物とボールの世界座標上の3次元位置から得られる人物とボールとの間のユークリッド距離とする。
図4(b)に、S1003でのリサイズ、本工程でのソート処理を1フレーム分に対し行った結果を示す。502―508は、それぞれ人物A―Gのリサイズした人物領域である。図4(a)での様々な大きさの人物領域は均一の解像度にリサイズされ、ボールからの距離が最も遠い人物Gの領域502から最も近い人物Aの領域508まで降順にソートされる。この処理をフレーム毎に行い、その結果フレーム毎のソートされた人物領域が取得される。さらにフレーム毎のソート結果をフレーム順に連結し、1次元に並んだ人物領域の系列データを取得する。この際フレーム毎に人物の数が違う場合でも、フレーム順に連結する。この系列データを以後、人物領域系列とよぶ。
図5に、人物の数が異なる2フレーム分の人物領域をソートし連結した例を示す。図5(a)の601は1フレーム目に対応する時刻Iでのフレームであり、602、603、604は、それぞれ人物A、B、Cの人物領域である。図5(b)において、701は2フレーム目に対応する時刻IIでのフレームであり、702、703は、それぞれ人物A、Bの人物領域である。図5(a)の人物領域602と図5(b)の人物領域702は同一人物Aに対応し、図5(a)の人物領域603と図5(b)の人物領域703と同一人物Bに対応している。図5(a)では3人の人物A、B、Cが存在し、図5(b)には2人の人物A、Bが存在する。この場合、人物領域はフレーム毎に距離に基づきソートされ、1フレーム目の3人の人物領域の後、2フレーム目の2人の人物領域が連結される。結果、図5(c)に示す人物領域系列が得られる。
図5(c)において、802、803、804はそれぞれ1フレーム目の人物C、人物B、人物Aの人物領域、805、806はそれぞれ2フレーム目の人物B、人物Aの人物領域である。人物領域系列(802〜806)は、このように1次元の系列データである。また、ここでは、ソートの基準を人物とボールの間のユークリッド距離にしているが、別の基準でソートを行ってもよい。例えば、人物検出結果に対しすべてのフレームで統一的な人物IDが与えられる場合、そのIDを昇順にソートしてもよい。
本実施形態では、S1006−S1009の工程は、畳み込みニューラルネットワーク、再帰型ニューラルネットワーク、ソフトマックス識別器を組み合わせたニューラルネットワークのネットワーク構造で実現される。以下では、畳み込みニューラルネットワーク(Convolutional neural network)をCNN、再帰型ニューラルネットワーク(Recurrent neural network)をRNNとも称する。また本実施形態では、RNNとして、RNNの一種であるLSTM(Long shortーterm memory)を用いる。またS1005では、再帰型ニューラルネットワークを制御する信号を作成する。
S1006−S1009の工程を実行するニューラルネットワークのネットワーク構造の概要を図6に示す。まずこの図6を用いて、S1006−S1009の詳細について説明する。次に、S1005で作成する制御信号について、より具体的な事例に即して説明する。
図6のネットワーク構造901は、入力902、CNN903、LSTM1(904)、LSTM2(905)、FC906、Softmax907の各モジュールを持つ。S1006で行う画像特徴量抽出処理はCNN903によって実現される。CNN903は、画像認識に用いられる多数の層から構成されるニューラルネットワークである。CNNの中間層は低次では線や点、パターンなどのプリミティブな幾何学的特徴量、高次では、パーツ、パーツを組み合わせたオブジェクトに対応する複雑な特徴量を抽出することで知られている。また大規模データで学習済みのCNNの中間層の特徴量を別の分類タスクに応用することで、高精度な分類が行えることが以下のDonahueらの論文で開示されている。
J Donahue,Y Jia,O Vinyals,J Hoffman,N Zhang,E Tzeng,T Darrell,T Darrell,“DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition”,arXiv2013
S1006では、S1004で作成した人物領域系列の各人物領域をCNN(903)に入力し、画像特徴量を取得する。ここでCNNの特徴量は、複数の中間層から特徴量を取得してもよいし、一部の中間層の特徴量のみを用いてもよい。
次に、S1007での人物系列統合処理は、LSTM1(904)によって実現される。LSTM(Long shortーterm memory)とは再帰型ニューラルネットワークの一種である。再帰型ニューラルネットワークでは一般に、現在の入力ベクトルxと一期前の隠れ状態ベクトルht−1がネットワークに入力され、現在の隠れ状態ベクトルhが計算され出力される。LSTMでは、内部で入力、忘却、出力を制御するニューラルネットワークである。下記のDonahueらの論文で開示されている表記に従うと、(input gate, forget gate, output gate, input modulation gate)とセルユニット を持つ。そして、ある時刻の入力 と一期前の隠れ状態hにより入力x、忘却、出力を制御することで、短・長期の複雑な時系列パターンが識別できるようになっている。
Donahue J. et al., ”Long−term recurrent convolutional networks for visual recognition and description”, CVPR2015
入力x、隠れ状態h、セルcおよび入力、忘却、出力を制御するゲート出力i、f、oの更新は以下の式(1)のとおりである。
=σ(Wxi+Whit−1+b
=σ(Wxf+Whft−1+b
=σ(Wxo+WhOt−1+b
=tanh(Wxc+Whct−1+b
=f・ct−1+i・g
=o・tanh(c) ・・・(1)
ここで、σ()はシグモイド関数、tanh()は双曲線正接関数、gはセルへの入力、・は要素ごとの積を表す。また、Wxi、Whi、Wxf、Whf、b、b、b、bは、input gate, forget gate, output gate, input modulation gateの重みおよびバイアスである。
上記LSTMは、2つの外部からの制御が可能な状態(以下、制御状態)を持つ。本実施形態では、この2つの制御状態を、“更新”と“リセット”と呼ぶ。
式(1)のように機能させる場合を、本実施形態ではLSTMの“更新”とする。そして、“リセット”は、外部からの信号によってforget gateの出力を強制的にf=0とすることで実現される、
=σ(Wxi+Whit−1+b
=σ(Wxo+WhOt−1+b
=tanh(Wxc+Whct−1+b
=i・g
=o・tanh(c) ・・・(2)
となる制御状態とする。
S1004で作成された人物領域系列は、CNN903を介して特徴量(人物特徴量)が抽出されLSTM1(904)に入力される。LSTM1(904)には、再帰的に人物特徴量が入力され、隠れ状態が更新される。またフレーム毎の系列の初期に制御状態を“リセット”にし、それ以外では“更新”に切り替え、フレーム毎の人物特徴量が統合される。この制御状態の切り替えについてはより具体的な事例に基づき後述する。
次に、S1008での時系列統合処理は、LSTM2(905)によって実現される。LSTM2(905)は、“更新”、“リセット”の他にもう一つの制御状態である“保持”を持つ。式(1)のLSTMの更新に対し、forget gate, input gate, output gateの各値を強制的にf=1、i=0、o=1とすることで、
=0
=1
=1
=tanh(Wxc+Whct−1+b
=f・ct−1+i・g
=o・tanh(c) ・・・(3)
となり、式(3)では、LSTMへの入力に関わらず、
=ct−1
=tanh(ct−1
となる。これは、隠れ状態h、セルcが如何なる入力に対しても変化しない状態である。本実施形態では、これをLSTMの3つ目の制御状態として“保持”とする。
本工程では、LSTM1(904)が人物特徴量の統合を行う間、LSTM2(905)を“保持”に切り替えることで、状態(隠れ状態h、セルc)を変化させないようにする。そしてフレーム毎の人物特徴量の統合の最後で、“更新”に切り替えることで、フレーム内で再帰的に統合された人物特徴量を、フレーム毎に入力として受け取り、状態を更新し、時間的な統合を行う。制御状態の切り替えについては、より具体的な事例に基づき後述する。
最後に、S1009での行動ラベル識別処理は、FC906およびSoftmax(907)によって実現される。FC906は、LSTM2(905)の隠れ状態hに対し、重み行列を内積し、行動ラベルのラベル数に対応する数のスコア(内積スコア)を得る。さらに、Softmax(907)ではSoftmax関数により、内積スコアを確率(0以上、1以下の実数)に変換する。以上の処理により行動ラベルに対応する確率で表現された識別スコアを得る。
以上で、図6を参照して、画像特徴量抽出処理(S1006)、人物系列統合処理(S1007)、時系列統合処理(S1008)、行動ラベル識別処理(S1009)の各処理の詳細について説明した。次に、統合制御信号作成処理(S1005)で作成する制御信号について、より具体的な事例に即して説明する。S1005では、本実施形態が提示する複数人物の個別動作の統合および時系列統合を実現するため、人物系列統合処理(S1007)を担うLSTM1(904)と時系列統合処理(S1008)を担うLSTM2(905)とを制御する信号の作成を行う。
図7に、S1004で作成した人物領域系列を、図6に示したネットワーク構造のニューラルネットワークに入力した場合の例を示す。ここで、1002は時刻Iでの人物Cの人物領域、1003は時刻Iでの人物Bの人物領域、1004は時刻Iでの人物Aの人物領域、1005は時刻IIでの人物Bの人物領域、1006は時刻IIでの人物Aの人物領域である。これらの人物領域は、図5(c)における各人物領域と同一である。また1007はCNN、1008は1層目のLSTM、1009は2層目のLSTM、1010はFC、1011はSoftmaxである。1007から1011までの各モジュールは、図9における903から907までの各モジュールと同一である。
また図7は、再帰型ニューラルネットワークを時間方向に展開した図であり、鉛直方向の線1012がユニット間の信号及び誤差の伝搬経路を表し、水平方向の線1013が時間方向の信号及び誤差の伝搬経路を表す。S1004で作成された人物領域系列(1002から1006)は、系列の左から順番にCNN1007に入力される。
複数フレームにわたる人物領域系列(図7の1002〜1006)に対し、2つのLSTM(1008、1009)での人物系列の統合と時系列の統合とを実現する。そのため、LSTMの制御状態(“更新”、“保持”、“リセット”)を、制御信号によって切り替える。図18(a)に、図7の1002〜1006の人物領域系列に関し行う制御状態を示す。
系列の初期(n=1)では、2つのLSTMをリセットにする。LSTM1ではフレーム内の人物特徴量の統合を行い、LSTM2ではLSTM1で統合した人物特徴量をフレーム毎に統合する。この処理のため、n=2でLSTM1を“更新”、LSTM2を“リセット”にし、n=3でLSTM1を“更新”、LSTM2を“リセット”にする。これにより、LSTM1で1フレーム目の人物特徴量の統合、LSTM2でLSTM1によって統合された1フレーム目の人物特徴量をn=3のみ入力として受け取る。n=1、n=2でLSTM2を“リセット”としたが、これらは最初の人物を統合するn=3で“リセット”することが重要であり、n=1、n=2でLSTM2の制御状態は何でもよい。次にn=4で、LSTM1を再び“リセット”し、LSTM2を保持にする。n=5でLSTM1、LSTM2を共に“更新”にしすることで、LSTM1により2フレーム目の人物特徴量の統合、LSTM2で、統合した2フレーム目の人物特徴量をn=5に入力として受け取とる。結果LSTM2では、n=3(1フレーム目)の入力とn=5(2フレーム目)での入力が統合される(時間方向の統合)。
図8に、図7のネットワークに対し、図18(a)の制御を行った場合の信号および誤差の伝搬経路(1123)を示す。1102〜1106の人物領域は図7における1002〜1006と同一である。CNN、LSTM1、LSTM2、FC、Softmaxは、図7におけるCNN1007、LSTM1(1008)、LSTM2(1009)、FC1010、Softmax1011と同一である。LSTM1およびLSTM2に関し、“更新”を白背景の矩形(1116等)、“リセット”を斜線パターンの矩形(1109等)、“保持”をドットパターンの矩形(1114等)で示した。
1109が図18(a)のn=1におけるLSTM1の“リセット”、1112が図18(a)のn=1におけるLSTM2の“リセット”である。1110が図18(a)のn=2におけるLSTM1の“更新”、1113が図18(a)のn=2におけるLSTM2の“リセット”である。1124が図18(a)のn=3におけるLSTM1の“更新”、1116が図18(a)のn=3におけるLSTM2の“リセット”である。1111が図18(a)のn=4におけるLSTM1の“リセット”、1114が図18(a)のn=4におけるLSTM2の“保持”である。1125が図18(a)のn=5におけるLSTM1の“更新”、1117が図18(a)のn=5におけるLSTM2の“更新”である。
LSTM1では、“リセット”1109、“更新”1110、“更新”1124により、1フレーム目(時刻I)の人物特徴量が統合される。次に“リセット”1111により一旦内部状態をリセットし、再び“更新”1125をさせることで、1127で信号と誤差を伝搬させず、2フレーム目(時刻II)の人物特徴量のみが統合される。LSTM2では、“リセット”1112、“リセット”1113、“リセット”1116とし、n=3で1フレーム目の人物特徴量が統合されたLSTM1(1124)からのみ信号を受け取るようにする。次に“保持”1114を設定し、内部状態を不変にして、再び“更新”1117を設定する。こうすることで、1フレーム目の統合された人物特徴量を受け取ったLSTM2(1116)の信号と、2フレーム目の人物特徴量が統合されたLSTM1(1125)の信号を受け取り、時間方向の統合を行う。
各フレームのLSTM2の内部状態は、FCとSoftmax(1121、1122)に伝搬し、識別スコアが出力される。Softmaxの網掛けパターンの矩形(1118、1119、1120)は、誤差を評価しない“無視”をしめすが、これに関しては、学習時の処理の中で詳細に説明する。
図9に、図8で示した制御を実施した場合のネットワークと等価の構造を持つネットワークの図を示す。1202〜1206の人物領域は図7における1002〜1006と同一である。またCNN(1207)、LSTM1(1208、1209)、LSTM2(1210)、FC(1211)、Softmax(1212)は、図7における同名の要素と同一である。
1フレーム目(時刻I)の人物C領域1202、人物B領域1203、人物A領域1204は、CNNを介してLSTM1で統合され、1フレーム目の人物特徴量を統合したLSTM1の内部状態はLSTM2(1210)に入力される。続いてLSTM1は内部状態がリセットされ、新たに2フレーム目(時刻II)の人物B領域1205と人物A領域1206がLSTM1で統合され、2フレーム目の人物特徴量を統合したLSTM1の内部状態がLSTM2(1213)に入力される。LSTM2では、1フレーム目のLSTM2の内部状態とLSTM1からの入力を受け取り、1フレーム目の情報と2フレーム目の情報を統合する。各フレームのLSTM2の内部状態は、FCを経由してSoftmaxで行動ラベルの識別スコアを出力する。以上のように、図7に示す構成のネットワークと図18(a)に示す制御により、図9のネットワークが実行される。
以上が動画取得工程S1001で得られた30フレーム分の動画を複数人の動作に基づき行動認識する、認識時の処理である。この後、次の30フレームに対して同様に認識時の処理を実行してもよいが、いくつかのフレームが重複するように認識時の処理を実行してもよい。すなわち、ある認識時の処理によって、フットサル動画の1フレーム目から30フレーム目までの識別を実行した後、次に15フレーム目から45フレーム目までを処理するようにしてもよい。その場合、あるフレームの複数回の結果を平均して最終結果を得る。このように冗長に認識処理することで、あるフレームを異なる系列で複数回認識することになり、結果がよりロバストになる。
次に、人物系列統合工程で用いる人物系列統合部および時系列統合工程で用いる時系列統合部、行動ラベル識別工程で用いる、行動ラベル識別部の学習方法について説明する。
図10は、本実施形態における学習装置5000の機能構成を示す図である。学習装置5000は、人物領域抽出部5001、人物領域ソート部5002、統合制御信号学習ラベル作成部5003、パラメータパラメータ最適化部5004を有する。さらに学習装置5000は、記憶部として、学習データ保持部5005、ネットワークパラメータ保持部5006を有する。
図11は、本実施形態における学習に関する処理の一例を示すフローチャートである。ここで各工程の概要及び図10に示した各部の機能について説明する。
S5001では、人物領域抽出部5001が、学習データ保持部5005に記憶されている動画および人物検出結果から動画を構成するフレーム内に存在する人物の領域を抽出する。この処理は本実施形態の認識時の処理で説明したS1003と同様の人物領域抽出処理である。また、学習データ保持部5005に記憶されているデータの詳細は、後述する。
S5002では、S5001で設定した人物領域を均一にリサイズし、一定の基準でソートする。本工程は、本実施形態の認識時の処理で説明したS1004の人物領域ソート処理と同様であるため詳細な説明は省略する。
S5003では、統合制御信号学習ラベル作成部5003が、S5001で検出したフレーム内に存在する人物の数とフレームに付与された行動ラベルに基づき、制御信号および学習ラベルを作成する。これらは、認識時の処理で用いる画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009で用いるニューラルネットワークのパラメータを学習するために用いられる。
S5004では、S5002で作成した人物系列を入力とし、統合制御信号学習ラベル作成工程S5003で作成した学習ラベルを目標値として、ニューラルネットワークのパラメータの最適化を実行する。
以上のS5001−S5004は、予め設定したイタレーション数Nだけ繰り返される。最終的なパラメータおよびイタレーションの途中でのパラメータは、ネットワークパラメータ保持部5006に記憶される。
次に図10に示したフローチャートの内、認識時の処理と差異のある、統合制御信号学習ラベル作成(S5003)とパラメータ更新(S5004)について、より具体的な内容について述べる。また学習データ保持部5005に記憶されているデータについても説明する。
学習データ保持部5005には、本実施形態で認識するフットサルの行動ラベルに対応する動画と正解ラベル(行動ラベル)、および動画中の各フレームの人物検出結果、ボール検出結果が保存されている。行動ラベルは“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”である。動画は任意の複数フレームで構成され、正解ラベルはフレーム毎に付与されているものとする。
S5001では、ある行動ラベルが付与された任意のフレーム数で構成される動画から、ランダムに連続する30フレームを選択し、その各フレームの人物検出結果を用い、人物領域の抽出を行う。人物領域の抽出は、認識時の処理におけるS1003と同様の処理である。
S5003では、本実施形態の認識時の処理におけるS1005で行うLSTMの制御信号の作成に加え、CNN、LSTM、Softmax識別器を学習する学習ラベルの作成を行う。LSTMの制御信号の作成は、S1005での処理と同様の処理であるため、ここでは詳細な説明は省略する。この処理の結果、図18(a)と同様の統合制御信号が作成される。
Softmax識別器には、作成されたLSTMの制御信号のうちLSTM2を“更新”させる信号発生時に、動画に付与された学習ラベルを与える。それ以外の場合は、学習ラベルに“無視”ラベルを設定する。“無視”ラベルは、それが設定された場合、Softmaxの損失関数を評価しないようにする特別なラベルである。
図8の上部に示したように、Softmax識別器には、時系列統合を実行する時刻I人物Aの人物領域(1104)および時刻II人物Aの人物領域(1106)を入力する際に学習ラベルを与え(1121、1122)る。また、それ以外のときは、“無視”ラベルを与える(1117)。
S5004では、パラメータ最適化部5004により、画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009に対応するCNN、LSTMとSoftmax識別器のパラメータ最適化を行う。
ここでは、S5003で作成した統合制御信号により、LSTMをリセット、保持、通常状態のいずれかの制御状態に適宜制御した上で、同時に作成した学習ラベルをSoftmax識別器に与える。下記のGravesらの論文に記載のBPTT(Back Propegation Throuth Time)法を適用することで、パラメータの最適化を実行する。
A. Graves and J. Schmidhuber. “Framewise Phoneme Classification with Bidirectional LSTM Networks”. In Proc. International Joint Conference on Neural Networks IJCNN’05
Softmax識別器では、損失関数として交差エントロピー誤差を用い、無視ラベル以外のラベルが与えられた場合に損失関数を評価し、誤差を計算する。LSTMは、制御信号によって、リセット、保持、通常状態の3つの制御状態が切り替えられ、保持以外の場合にパラメータが更新される。CNNは、大規模データで学習済みのパラメータを初期値として用い、本工程にてファインチューニングが行われる。ただしCNNのファインチューニングは実施しなくても、本実施形態が実現する機能は大きく損なわれない。そのため、CNNのファインチューニングは省略してもよいものとする。省略する場合、CNNのパラメータは、大規模データで学習済みのパラメータに固定して用いる。
本実施形態では、スポーツの中で、サッカー、フットサル、ラグビーでのプレイの認識を想定した複数人の個別行動で意味付けられる行動ラベルの識別方法について説明した。
これらのスポーツにおいて、たとえばパス回しやタックルのような動作の識別は、選手個人の動作だけでは不十分だが、選手全員の動作を常に扱う必要はなく、ボールに関係する数人の選手の個別動作を扱う枠組みにより認識できると言える。このような複数人の協調的動作で意味付けられる行動の認識を、映像解析によって行う場合、非特許文献1と同様に、動画のフレーム毎の人数の変動に対応できる枠組みが必要である。また、サッカーやフットサル、ラグビーでの応用を想定すると、フレーム単位の時間分解能での認識が原理的に可能で、かつ複数人の個別動作を統合し、全体の行動を認識できる枠組みが求められる。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現する各部の全体を最適化することで、各手段を個別に最適化する以上の精度向上を図ることが期待出来る。
以上のように本実施形態によれば、行動認識装置1000は、複数人物の個別動作を表す特徴量を統合し、更にそれを時間的に統合し、行動ラベルを識別する。これにより、動画のフレーム毎の人数変動に対応し、フレーム単位での認識を行い、さらに複数人の個別動作を統合し全体の行動ラベルの識別を可能にする。さらに特徴量抽出、個別動作の統合、時系列の統合、行動ラベルの識別を実現するニューラルネットワークの全体を最適化することで、精度の良い行動ラベルの識別を可能にする。
(実施形態1の派生の形態1)
第1の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。しかし、第1の実施形態での問題設定で利用可能な情報は人物領域の画像特徴以外にも存在する。例えば、第1の実施形態では、S1002の人物物体検出で、ボール位置の検出を行っている。そこで、そのボールを中心とした任意の大きさの領域(以下、ボール領域と呼ぶ)を人物領域に加え利用してもよい。
また、S1002の人物物体検出では、人物およびボールの3次元上の位置を取得している。その人物およびボールの座標値を人物領域またはボール領域の画像特徴量に連結して利用してもよい。人物領域に加え、ボール領域を利用する場合、ある時刻、あるカメラで撮影されたフレームの人物検出結果の人物領域系列の終端にボール領域を加えればよい。例えば、図4(b)に示した人物領域ソート結果(501)に対し、終端にボール領域を加えた系列を作成する。異なる時刻のフレームに対しても同様に人物領域系列の終端にボール領域を加え、ネットワークに入力する部分領域の画像系列を作成すればよい。
第1の実施形態では、ネットワークに入力する人物領域系列は、図7の1002〜1006等で示したように、
{時刻I人物C領域,時刻I人物B領域,時刻I人物A領域,時刻II人物B領域,時刻II人物A}
である。ここで、中括弧で囲まれた系列“{x1, x2, x3, ..., xn}”は、ネットワークに入力する系列データを示す。人物領域に加えボール領域を利用する場合、ネットワークへの入力は、
{時刻I人物C領域、時刻I人物B領域、時刻I人物A領域、時刻Iボール領域、時刻II人物B領域、時刻II人物A、時刻IIボール領域}
となる。
ボール領域が検出されないフレームである場合、ボール領域を無視して画像領域の系列を作成してもよい。または、ボール検出が成功した前後のフレームから線形補間等の補間処理を実行し、ボール位置を推定してもよいし、ボールが検出されないフレームを含む動画はそもそも認識対象から除外してもよい。
フットサル、サッカー、ラグビー等の様々なスポーツにおいて、ボールは一般に人物よりも高速に移動する。そのためボール検出は、一般的なフレームレートの動画を利用する場合、検出失敗が多くなる場合が多い。そして線形補間等の単純な補間では誤差が大きくなることが考えられる。そこで補間等に起因する誤差の影響を軽減させるために、抽出するボール領域を人物領域よりも広い領域にしてもよい。具体的には、第1の実施形態では、人物領域を2−4m程度の領域と設定したが、それに対しボール領域は5−10m程度の広範囲から取得するようにする。このようにすれば、ボール検出に誤差があってもボール領域内にボールが含まれる確率が増える。
(実施形態1の派生の形態2)
第1の実施形態では、動画を構成する静止画の人物領域から画像特徴量を取得し、行動ラベルを識別する方法について説明した。さらに第1の実施形態の派生の形態1で、ボール領域を人物領域に連結し、ボールと人物の領域から行動ラベルを識別する方法について説明した。本実施形態では、画像の他に画像に対応付けられるメタデータを利用する方法について述べる。
第1の実施形態ですでに説明したように、ボールおよび人物は物体検出およびステレオ法により、3次元上の座標値が得られている。そのため人物およびボールの3次元上の座標値を、人物領域またはボール領域の画像特徴量と共に利用することができる。その場合では、第1の実施形態ではCNNによって実現した画像特徴抽出部1006の後段で、画像特徴量とこれらの座標値を連結し、人物系列統合部1007に入力するようにすればよい。
図12に、人物の画像領域と3次元上の座標値を利用した場合のネットワーク構造の例を示す。1702、1704、1706は図7における1002、1003、1004と同一である。1703、1705、1707は、それぞれ人物A、人物B、人物Cの座標データを表す。CNN1708、LSTM1(1710)、LSTM2(1711)、FC1712、Softmax1713は、図6におけるCNN90)、LSTM1(904)、LSTM2(905)、FC906、Softmax907と同一である。Concat1709は、連結モジュールである。
ここで座標データ(1703、1705、1707)は、人物の3次元座標上の位置(X,Y,Z)の他、ボールからの距離、カメラからの距離を利用して計算してもよい。さらに前時刻のデータも利用して計算される速度や加速度、そしてチームIDなどのその他のメタデータ等を使ってもよい。連結モジュール1709は、CNN1708によって抽出された画像特徴量と座標データを連結するモジュールである。この連結後のデータがLSTM1(1710)に入力される。この連結モジュール1709は、このように2つの特徴量を単純に連結するだけでもよいが、重み行列を内積し、次元をより低次元に削減するようにしてもよい。その場合のFCをConcat1709とLSTM1(1710)の間に追加し、第1の実施形態の学習時の処理で記述した手続きと同様に学習する。
また座標データは、第1の実施形態ではカメラ・キャリブレーションを行ったマルチカメラの多視点画像に対する物体検出結果にステレオ法を適用することで取得した。座標データの取得方法は、この他にもGPS(Global Positioning System)機器を選手に装着させ、取得してもよい。
(実施形態1の派生の形態3)
第1の実施形態では、人物系列の統合と時系列の統合を行い、行動ラベルを識別する方法について説明した。その際、まず人物系列の統合を行い、時系列の統合を行うという順序で2つの統合を行ったが、その順番はこの限りではない。すなわち、まず時系列の統合を行い、次に人物系列の統合を行ってもよい。
この場合、各人物毎にその人物が映る時刻をソートし、人物領域系列を作成する。図5(a)と図5(b)に示すように、時刻Iで人物A、B、Cの3名が存在し時刻IIで人物AとBの2名が存在する場合を再び考える。このとき、人物Cは、時刻Iにしか存在せず、人物Bは時刻I、IIとも存在し、人物Aも同じく時刻I、IIともに存在するため、ソートした結果の人物領域系列は以下のようになる。
{時刻I人物C領域,時刻I人物B領域,時刻II人物B領域,時刻I人物A領域,時刻II人物A}
ここで、人物の順序は、ボールからの距離を降順にソートし(人物C、B、A)、時刻は昇順にソートした(時刻I、II)。これを、すでに図6に示したネットワークのInput(902)に入力し、LSTM11と2(904と905)を、時系列の統合、人物系列の統合という順に統合するため制御する。このときのLSTM1とLSTM2制御状態は図18(b)のようになる。
ここで、n=1でLSTM1では、時刻I人物C領域を統合するため“リセット”し、LSTM2でも“リセット”する。人物Cは時刻IIで存在しないのでLSTM2では、n=1で最初の人物が統合される。n=2、n=3で次の人物Bを統合する。そのためn=2でLSTM1を“リセット”し、LSTM2を“保持”にすることで、LSTM1で時刻Iの人物B領域を統合する。n=3でLSTM1、LSTM2を共に“更新”することで、LSTM1で時刻IIの人物Bを統合し、LSTM2で、時刻I、IIの人物B領域を統合した結果を受け取り、内部状態を更新する。次は、同様にn=4でLSTM1を“リセット”し、LSTM2を“保持”にすることで、LSTM1で時刻Iの人物A領域を統合する。n=5でLSTM1、LSTM2を共に“更新”することで、LSTM1で時刻IIの人物Aを統合し、LSTM2で、時刻I、IIの人物A領域を統合した結果を受け取り、内部状態を更新する。
図13に、図6のネットワークに対し、人物領域系列を入力し、図18(b)の制御を行った場合の信号及び誤差の伝搬経路(1411)を示す。1402は図5(c)の802に示した時刻I人物A領域と同一である。1403は図5(c)の803に示した時刻I人物B領域と同一である。1404は図5(c)の805に示した時刻II人物B領域と同一である。1405は図5(c)の804に示した時刻I人物A領域と同一である。1406は図5(c)の806に示した時刻II人物A領域と同一である。CNN、LSTM1、LSTM2、FC、Softmaxは、図6におけるCNN(903)、LSTM1(904)、LSTM2(905)、FC(906)、Softmax(907)と同一である。
LSTM1およびLSTM2に関し、“更新”を白背景の矩形(1409)、“リセット”を斜線パターンの矩形(1407)、“保持”をドットパターンの矩形(1408)で示した。また網掛けパターンの矩形(1410)はSoftmaxの“無視”、白背景の矩形(1412)はSoftmaxの“通常動作”(“無視”でない動作)を示す。図18(b)の制御により、信号及び誤差が1411のように伝搬し、時系列統合および人物系列統合をこの順序で実現される。
以上のように実施することで、人物系列および時系列の統合を任意の順序が行うことができる。
(実施形態2)
本実施形態では、複数のカメラで撮影されたフットサル動画に関し、同一の人物が複数のカメラで撮影された場合における行動認識を行う方法について述べる。その際、複数のカメラの同一人物領域の統合(視点統合)と、複数の人物の個別動作を表す人物特徴量の統合(対象物統合)と、時系列の統合との3種類の情報の統合を行う。
本実施形態で識別する行動ラベルは、第1の実施形態と同様に、“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”の5種類の行動ラベルとする。
また本実施形態では、第1の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図1は既に説明した図であるが、このカメラ配置の一例と2つのカメラで撮影された1フレームの例を説明する図である。
図2(b)は、本実施形態で説明する行動認識装置2000の機能構成を示す図である。本実施形態の行動認識装置2000は、マルチカメラ動画取得部2001、人物物体検出部2002、人物領域抽出部2003、人物領域ソート部2004、統合制御信号作成部2005、画像特徴量抽出部2006を有する。さらに、カメラ系列統合部2007、人物系列統合部2008、時系列統合部2009、行動ラベル識別部2010を有する。これらの各機能の詳細について、図3等を用いて以下に説明する。
図3(b)は、本実施形態における認識時の処理の一例を示すフローチャートである。
S2001では、マルチカメラ動画取得部2001により、複数のカメラで撮影された、複数の静止画から成る動画のフレーム系列を取得する。S2002の人物物体検出及びS2003の人物領域抽出は、第1の実施形態における認識処理時のS1002及びS1003と同様の処理であるため説明を省略する。
また、人物領域ソート処理(S2004)、統合制御信号作成処理(S2005)、画像特徴量抽出処理(S2006)は、第1の実施形態における認識処理時のS1004−1006と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。
S2007では、カメラ系列統合部2007により、複数のカメラで撮影された同一人物の人物領域の統合を行う。
また、人物系列統合処理(S2008)、時系列統合処理(S2009)、行動ラベル識別処理(S2010)は、第1の実施形態における認識処理時のS1007−1009と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。
次に、図3(b)に示したフローチャートに従って、各処理のより具体的な内容について述べる。
マルチカメラ動画取得工程S2001は、図1(a)のように配置したマルチカメラを用い、多視点の動画を取得する。各カメラの動画は、同期されているとする。図1(b)と(c)は、前述の通り同じ瞬間を撮影したカメラ103(図1(a)。以後カメラ1と呼ぶ)とカメラ104(図1(a)。以後カメラ2と呼ぶ)のフレームであるが、各カメラからはこのような同期されたフレームが取得されるとする。
人物領域ソート工程S2004では、マルチカメラ動画取得工程S2001で取得された多視点動画の各フレーム中の人物領域のソートを行う。
本工程では、同一の人物が複数のフレームおよびカメラで撮影されており、例えば人物Aが、フレームIのカメラ1、カメラ2,カメラ4で撮影されている場合、人物Aの人物領域をカメラの番号順に並べた系列,
{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4}
をカメラ系列とする。
同様に人物Bについて、カメラ1とカメラ2で撮影され、
{フレームI人物Bカメラ1,フレームI人物Bカメラ2}
というカメラ系列が得られる場合、人物系列は,カメラ系列をネストした系列、
{{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4},{フレームI人物Bカメラ1,フレームI人物Bカメラ2}}
となる。
さらにフレームIIにおいて、人物Aがカメラ1,カメラ2で撮影され,人物Bがカメラ2,カメラ3で撮影された場合,時系列は、カメラ系列および人物系列をネストした系列,
{{{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4},{フレームI人物Bカメラ1,フレームI人物Bカメラ2}},{{フレームII人物Aカメラ1,フレームII人物Aカメラ2},{フレームII人物Bカメラ2,フレームII人物Bカメラ3}}}
となる。
人物領域のソートは、このように作成された、ネストされた時系列を1次元に並べることで実行される。
{フレームI人物Aカメラ1,フレームI人物Aカメラ2,フレームI人物Aカメラ4,フレームI人物Bカメラ1,フレームI人物Bカメラ2,フレームII人物Aカメラ1,フレームII人物Aカメラ2,フレームII人物Bカメラ2,フレームII人物Bカメラ3}
図14にカメラ1およびカメラ2で撮影された同じ時刻の2つのフレームにおける人物検出の結果(図14(a),(b))と人物領域のソート結果(図14(c))を示す。ここで、1302は、カメラ1のフレーム上でのボール検出結果、1303―1309は、それぞれカメラ1で撮影されたフレーム上の人物A―Gの人物領域を示す。1402は、カメラ2のフレーム上でのボール検出結果、1403―1413は、それぞれカメラ1で撮影されたフレーム上の人物A―Kの人物領域を示す。カメラ1で撮影されたボール1302および人物A―E(1303―1307)とカメラ2で撮影されたボール1402および人物A―E(1403―1407)は同一の物体及び人物である。
このとき、ネストされた人物系列は、
{{人物Gカメラ1},{人物Kカメラ2},{人物Jカメラ2},{人物Fカメラ1},{人物Jカメラ1},{人物Hカメラ2},{人物Eカメラ1,人物Eカメラ2},{人物Dカメラ1,人物Dカメラ2},{人物Cカメラ1,人物Cカメラ2},{人物Bカメラ1,人物Bカメラ2},{人物Aカメラ1,人物Aカメラ2}}
となる。ネストされた人物系列を1次元に並べたソート結果は図14(c)の1504〜1519である。すなわち,
{人物Gカメラ1,人物Kカメラ2,人物Jカメラ2,人物Fカメラ1,人物Jカメラ1,人物Hカメラ2,人物Eカメラ1,人物Eカメラ2,人物Dカメラ1,人物Dカメラ2,人物Cカメラ1,人物Cカメラ2,人物Bカメラ1,人物Bカメラ2,人物Aカメラ1,人物Aカメラ2}
となる。
ここでは第1の実施形態と同様に、各人物はボールからの距離に基づきソートしたが、前述のように前フレームで統一的な人物IDが得られる場合、その人物IDの順序に従ってソートしてもよい。
次に、統合制御信号作成工程S2005は、カメラ系列統合工程S2007、人物系列統合工程S2008、時系列統合工程S2009の工程で用いる制御信号を生成する。この制御信号により、それぞれカメラ系列統合部2007、人物系列統合部2008、時系列統合部2009を制御する。
第1の実施形態では、人物系列統合部1007、時系列統合部1008を2層のLSTMで実現した。本実施形態では、カメラ系列統合部2007、人物系列統合部2008、時系列統合部2009を各1層ずつの3層のLSTM(LSTM1、LSTM2、LSTM3)で実現する。
LSTMの各レイヤーでは,ネストされた3階層の系列を階層ごとに統合することになる。すなわち,図14に示したある1時刻、2カメラの2フレームで検出される人物領域のネストされた系列は,
{{{人物Gカメラ1},{人物Kカメラ2},{人物Jカメラ2},{人物Fカメラ1},{人物Jカメラ1},{人物Hカメラ2},{人物Eカメラ1,人物Eカメラ2},{人物Dカメラ1,人物Dカメラ2},{人物Cカメラ1,人物Cカメラ2},{人物Bカメラ1,人物Bカメラ2},{人物Aカメラ1,人物Aカメラ2}}}
となる。この場合,カメラ系列を統合するLSTM1の制御状態は、カメラ系列の初期に“リセット”、統合時に“更新”をするように制御され,
{リセット,リセット,リセット,リセット,リセット,リセット,リセット,更新,リセット,更新,リセット,更新,リセット,更新,リセット,更新}
という状態系列になるよう制御信号が作成される。
また、人物系列を統合するLSTM2では、人物系列の初期にリセット、統合時に更新、1階層下のカメラ系列が最後の要素以外の場合、“保持”とする。すなわち、
{リセット,更新,更新,更新,更新,更新,更新,更新,保持,更新,保持,更新,保持,更新,保持,更新}
となる。
同様に時系列統合するLSTM3では,時系列の初期に“リセット”をするため、最後の要素をリセットにする。それ以外はどれでもよいが便宜的に“リセット”とする。すなわち、
{リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット,リセット}
となる。
図14(c)の人物領域の系列に対し、実際に制御状態を切り替えたネットワークを図15に図示する。図中のCNN、LSTM1、LSTM2、LSTM3、FC、Softmaxと記された矩形は、それぞれCNN、3層のLSTM、Softmax識別器である。斜線で塗られた矩形(1618)がLSTMの“リセット”、ドットで塗られた矩形(1619)が“保持”、白背景の矩形(1620)が“更新”を表す。網掛けパターンの矩形(1621)がSoftmax識別器の“無視”、白背景の矩形(1622)がSoftmax識別器の通常動作(“無視”でない状態)を表す。
この後に続く各工程(画像特徴量抽出工程S2006、カメラ系列統合工程S2007、人物系列統合工程S2008、時系列統合工程S2009、行動ラベル識別工程S2010)は、第1の実施形態と同様に実現される。すなわち、CNN、LSTM、Softmax識別器を組み合わせたニューラルネットワークで実現される。そのネットワーク構造は、既に説明の通り、図15となる。すなわち、前工程で作成した制御信号によって、図15に示した構造と制御状態で、第1の実施形態と同様の認識時の処理を実行すれば、カメラ系列、人物系列、時系列を統合した行動ラベルの識別結果が得られる。
以上のように実行することで、マルチモーダルの系列情報(当実施例では、カメラ系列、人物系列、時系列)を統合した行動ラベルの認識を行うことができる。
本実施形態では、カメラ系列、人物系列、時系列という順番に統合したが、時系列、人物系列、カメラ系列、という順番で統合することも可能である。
さらに本実施形態に記された手続きは、より一般的な多種の系列情報の統合にも適用できる。例えば、選手が心拍数センサ、加速度センサ、GPSセンサを装着し、それらのセンサから心拍データ、速度・加速度データ、位置データを取得できる場合を考える。この場合、本実施形態と同様の手続きで、各人物の複数のセンサデータの統合、複数人物のセンサデータの統合、時系列の統合の3種類の統合を行うことが可能である。選手各々が異なる機種のセンサを装着している場合や、装着しているセンサの数が選手毎に違う場合、複数のセンサデータの統合を行うことで、それらの差異を吸収する効果が期待できる。
(実施形態3)
第1、第2の実施形態では、カメラによって取得されるフレームに対し、人物検出を行い、その結果に基づく局所的な人物領域を用い、行動ラベルの識別を行った。
これらの形態では、仮に人物検出が正しく動作しなかった場合、人物でない領域が誤って入力され、誤識別につながる場合がある。
本実施形態では、画像の局所的な部分である人物領域に加え、画像全体からの画像特徴を抽出し、行動ラベルの識別に利用することで、人物検出の誤識別の軽減を図る方法について説明する。
本実施形態で識別する行動ラベルは、第1、第2の実施形態と同様に、“パス”,“シュート”,“ドリブル”,“キープ”,“クリアー”の5種類の行動ラベルとする。
また本実施形態では、第1、第2の実施形態と同様に、フットサルコート周辺に配置した複数のカメラで撮影されたフットサル動画を用いる。図1は既に説明した図であるが、このカメラ配置の一例と2つのカメラで撮影された1フレームの例を説明する図である。
図16(a)は、本実施形態で説明する行動認識装置3000の機能構成を示す図である。
本実施形態の行動認識装置3000は、第1の実施形態における行動認識装置1000の機能構成に加え、大域的特徴量抽出部3010を有する。これらの各機能の詳細について、図3等を用いて以下に説明する。
図3(c)は、本実施形態における認識時の処理の一例を示すフローチャートである。
ここで、S3001−S3005は、第1の実施形態における認識処理時のS1001−1005と同様の処理であるため説明を省略する。
画像特徴量抽出処理(S3006)は、第1の実施形態における認識処理時の画像特徴量抽出工程S1006と同様の処理であるが、一部異なるため、その差分について他の処理と合わせて説明する。
S3007では、大域的特徴量抽出部3010により、動画取得工程S3001で取得されるフレーム全体から大域的画像特徴量を抽出する。
また、人物系列統合処理(S2008)、時系列統合処理(S2009)、行動ラベル識別処理(S2010)は、第1の実施形態における認識処理時のS1007−1009と同様の処理である。ただし、一部異なるため、その差分について他の処理と合わせて説明する。
次に、図3(c)に示したフローチャートに従って、より具体的な内容について述べる。本実施形態では、画像特徴量抽出処理(S3006)以降の処理に関し第1の実施形態と差異があり、その他の処理は第1の実施形態と同様である。そのため差異のある各処理について説明する。
第1の実施形態では、S1006−S1009で機能する各部、画像特徴量抽出部1006、人物系列統合部1007、時系列統合部1008、行動ラベル識別部1009は、CNN、LSTM、Softmax識別器を組み合わせて実現された。本実施形態でも同じく画像特徴量抽出部3006、人物系列統合部3007、時系列統合部3008、行動ラベル識別部3009は、CNN、LSTM、Softmax識別器で実現する。加えて大域的画像特徴量抽出工程S3007で用いる大域的特徴量抽出部3010もCNNで実現する。
これらで構成されるネットワークの構造は、第1の実施形態におけるネットワーク構造を示す図(図9)と同様の方法で図示すると、図17のようになる。第1の実施形態におけるネットワーク構造(図9)のLSTM1とLSTM2の間に、連結操ユニット(1315)が挿入された構造を持つ。連結操ユニット(1315)では、各時刻における全体画像(1302、1308)がCNN(1313)に入力され、そこで抽出された大域的画像特徴量とLSTM1(1314)による人物系列の統合結果が連結される。連結後の特徴量が時系列統合を行うLSTM2(1316)に入力される。
ここで、CNN(1313)に入力する各時刻における全体画像(1302、1308)は、動画取得手段3001で取得されたFull HD(1920x1080ピクセル)の画像をクロップせずにCNNに合わせた大きさにリサイズした画像である。リサイズした画像は、例えば227×227ピクセルである。
また、人物領域から画像特徴量を抽出するCNN(1312)と全体画像から大域的画像特徴量を抽出するCNN(1313)では、同じ構造にし、同じ重みパラメータを共有してもよい。あるいは、同じ構造でも別の重みパラメータを設定してもよいし、別の構造、別の重みパラメータとしてもよい。
図17が表すように、時刻Iの人物領域の画像特徴量はLSTM1によって再帰的に統合され、全体画像から抽出される大域的画像特徴量と連結操作モジュールによって連結される。連結した特徴量は時系列統合を実行するLSTM2に入力される。時刻IIについても同様に、人物領域についてはLSTM1によって再帰的に統合され、大域的画像特徴量と連結され、その後LSTM2によって再帰的に時系列統合が実行される。行動ラベルのスコアは、LSTM2による時系列統合毎にInner−productユニット、Softmaxユニットによって計算され、出力される。
以上のように実行することで、画像全体から抽出した特徴量を人物検出によって得た検出誤差を含む局所的な人物領域の特徴量と連結し、時系列的な統合が実行される。これにより、人物検出が含む誤りを軽減した行動ラベルの識別が実行できる。
(その他の実施形態)
本発明は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
1000 行動認識装置
1001 動画取得部
1002 人物物体検出部
1003 人物領域抽出部
1004 人物領域ソート部
1005 統合制御信号作成部
1006 画像特徴量抽出部
1007 人物系列統合部
1008 時系列統合部
1009 行動ラベル識別部

Claims (14)

  1. 時系列の静止画像を含む動画像を取得する取得手段と、
    前記動画像から静止画像ごとに1以上の対象物を検出する検出手段と、
    前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出手段と、
    前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合手段と、
    前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合手段と、
    前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別手段と
    を有することを特徴とする画像処理装置。
  2. 前記静止画像から前記対象物のそれぞれに対応する領域を抽出する領域抽出手段と、
    前記時系列の静止画像のそれぞれから抽出された前記領域を並べた領域系列を作成する作成手段とを備え、
    前記特徴量抽出手段は、前記領域系列における前記対象物のそれぞれに対応する領域から特徴量を抽出することを特徴とする請求項1に記載の画像処理装置。
  3. 前記作成手段は、前記複数の対象物の領域を当該対象物の位置に基づいてソートすることを特徴とする請求項2に記載の画像処理装置。
  4. 前記検出手段による検出結果に基づいて、前記対象物統合手段と前記時系列統合手段の制御状態を制御する制御手段をさらに有することを特徴とする請求項2に記載の画像処理装置。
  5. 前記対象物統合手段は、リセット、更新の少なくとも2つの制御状態を有し、
    前記制御手段が、前記静止画像における対象物の特徴量の系列の初期で前記対象物統合手段の制御状態をリセットにし、それ以外で前記対象物統合手段の制御状態を更新にすることで、前記対象物統合手段は、当該静止画像における対象物の系列を統合することを特徴とする請求項4に記載の画像処理装置。
  6. 前記時系列統合手段は、リセット、保持、更新の少なくとも3つの制御状態を有し、
    前記制御手段が、前記系列の初期で前記時系列統合手段の制御状態をリセットにし、前記静止画像ごとに統合された対象物の特徴量の系列の最後で前記時系列統合手段の制御状態にし、それ以外で前記時系列統合手段の制御状態を保持にすることで、前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量の系列を統合することを特徴とする請求項1に記載の画像処理装置。
  7. 前記検出手段は、前記対象物の実世界上の位置を検出することを特徴とする請求項1に記載の画像処理装置。
  8. 前記検出手段は、前記対象物として人物と人物とは異なる所定の対象物とを検出することを特徴とする請求項1に記載の画像処理装置。
  9. 前記取得手段は、ある対象物を同時に複数の視点で撮影した動画像を取得することを特徴とする請求項1に記載の画像処理装置。
  10. 前記検出手段は、前記複数の視点で撮影した動画像を構成する静止画像ごとに、複数の視点の静止画像で同一の対象物を対応付けて検出し、当該対象物の位置を検出することを特徴とする請求項9に記載の画像処理装置。
  11. 前記複数の視点の対象物の特徴量の系列を統合する視点統合手段をさらに有し、
    前記対象物統合手段は、前記対象物ごとに統合された複数の視点の対象物の特徴量を統合することを特徴とする請求項10に記載の画像処理装置。
  12. 前記動画像を構成する静止画像の全体から大域的な画像特徴量を抽出する大域的特徴量抽出手段をさらに有し、
    前記時系列統合手段は、静止画像ごとに統合された対象物の特徴量と前記静止画像ごとの大域的な画像特徴量とを統合することを特徴とする請求項1に記載の画像処理装置。
  13. 時系列の静止画像を含む動画像を取得する取得工程と、
    前記動画像から静止画像ごとに1以上の対象物を検出する検出工程と、
    前記静止画像から前記対象物のそれぞれに対応する特徴量を抽出する特徴量抽出工程と、
    前記静止画像において前記対象物のそれぞれに対応する特徴量を統合する対象物統合工程と、
    前記静止画像において統合された対象物の特徴量を前記時系列の静止画像について統合する時系列統合工程と、
    前記時系列の静止画像について統合された特徴量に基づいて前記動画像における前記対象物の行動を識別する識別工程と
    を有することを特徴とする画像処理方法。
  14. コンピュータを請求項1乃至12のいずれか1項に記載の画像処理装置の各手段として機能させることを特徴とするプログラム。
JP2017084778A 2017-04-21 2017-04-21 画像処理装置及びその方法、プログラム Withdrawn JP2018181273A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017084778A JP2018181273A (ja) 2017-04-21 2017-04-21 画像処理装置及びその方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017084778A JP2018181273A (ja) 2017-04-21 2017-04-21 画像処理装置及びその方法、プログラム

Publications (1)

Publication Number Publication Date
JP2018181273A true JP2018181273A (ja) 2018-11-15

Family

ID=64275674

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017084778A Withdrawn JP2018181273A (ja) 2017-04-21 2017-04-21 画像処理装置及びその方法、プログラム

Country Status (1)

Country Link
JP (1) JP2018181273A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970442B1 (ko) * 2018-12-04 2019-04-19 주식회사 넥스파시스템 Fast R-CNN 기반 차량검출을 이용한 불법 주정차 단속 시스템
WO2020202308A1 (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム
WO2021111704A1 (ja) 2019-12-02 2021-06-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム及びプログラム
JP2021117635A (ja) * 2020-01-24 2021-08-10 Kddi株式会社 オブジェクト追跡装置及びオブジェクト追跡方法
JP2022027439A (ja) * 2020-07-30 2022-02-10 エヌ・シー・アール・コーポレイション アクティビティ署名を利用する画像/ビデオの解析方法及びその解析システム
KR20220030548A (ko) * 2020-09-03 2022-03-11 (주) 넥스트랩 영상 분석 기반 작업 동작 인식 장치 및 방법
CN114913296A (zh) * 2022-05-07 2022-08-16 中国石油大学(华东) 一种modis地表温度数据产品重建方法
WO2023127370A1 (ja) * 2021-12-28 2023-07-06 キヤノン株式会社 画像処理装置、画像処理方法ならびにプログラム
KR102647328B1 (ko) * 2023-07-26 2024-03-14 주식회사 엠포더스 엣지형 감시카메라 ai 이상상황 탐지제어장치 및 방법

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101970442B1 (ko) * 2018-12-04 2019-04-19 주식회사 넥스파시스템 Fast R-CNN 기반 차량검출을 이용한 불법 주정차 단속 시스템
WO2020202308A1 (ja) * 2019-03-29 2020-10-08 株式会社ソニー・インタラクティブエンタテインメント 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム
JPWO2020202308A1 (ja) * 2019-03-29 2021-10-21 株式会社ソニー・インタラクティブエンタテインメント 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム
JP7046267B2 (ja) 2019-03-29 2022-04-01 株式会社ソニー・インタラクティブエンタテインメント 状態制御装置、学習装置、状態制御方法、学習方法及びプログラム
WO2021111704A1 (ja) 2019-12-02 2021-06-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム及びプログラム
JP7478960B2 (ja) 2019-12-02 2024-05-08 パナソニックIpマネジメント株式会社 情報処理方法、情報処理システム及びプログラム
JP2021117635A (ja) * 2020-01-24 2021-08-10 Kddi株式会社 オブジェクト追跡装置及びオブジェクト追跡方法
JP7229954B2 (ja) 2020-01-24 2023-02-28 Kddi株式会社 オブジェクト追跡装置及びオブジェクト追跡方法
JP2022027439A (ja) * 2020-07-30 2022-02-10 エヌ・シー・アール・コーポレイション アクティビティ署名を利用する画像/ビデオの解析方法及びその解析システム
JP7213294B2 (ja) 2020-07-30 2023-01-26 エヌ・シー・アール・コーポレイション アクティビティ署名を利用する画像/ビデオの解析方法及びその解析システム
KR20220030548A (ko) * 2020-09-03 2022-03-11 (주) 넥스트랩 영상 분석 기반 작업 동작 인식 장치 및 방법
KR102466433B1 (ko) * 2020-09-03 2022-11-11 (주)넥스트랩 영상 분석 기반 작업 동작 인식 장치 및 방법
WO2023127370A1 (ja) * 2021-12-28 2023-07-06 キヤノン株式会社 画像処理装置、画像処理方法ならびにプログラム
CN114913296B (zh) * 2022-05-07 2023-08-11 中国石油大学(华东) 一种modis地表温度数据产品重建方法
CN114913296A (zh) * 2022-05-07 2022-08-16 中国石油大学(华东) 一种modis地表温度数据产品重建方法
KR102647328B1 (ko) * 2023-07-26 2024-03-14 주식회사 엠포더스 엣지형 감시카메라 ai 이상상황 탐지제어장치 및 방법

Similar Documents

Publication Publication Date Title
JP2018181273A (ja) 画像処理装置及びその方法、プログラム
Chavdarova et al. Wildtrack: A multi-camera hd dataset for dense unscripted pedestrian detection
US11205298B2 (en) Method and system for creating a virtual 3D model
CN108537112B (zh) 图像处理装置、图像处理***、图像处理方法及存储介质
Majumder et al. Vision and inertial sensing fusion for human action recognition: A review
Seemanthini et al. Human detection and tracking using HOG for action recognition
CN113963445B (zh) 一种基于姿态估计的行人摔倒动作识别方法及设备
CN111587437A (zh) 使用视频管的活动识别方法
JP5227629B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
KR20160096460A (ko) 복수의 분류기를 포함하는 딥 러닝 기반 인식 시스템 및 그 제어 방법
JP2012108785A (ja) 人数カウント装置、人数カウント方法及び人数カウントプログラム
JP2023015989A (ja) 物品識別および追跡システム
JP2022510417A (ja) 関節のある身体姿勢を検出するシステムおよび方法
Chen et al. TriViews: A general framework to use 3D depth data effectively for action recognition
JP5027030B2 (ja) オブジェクト検出方法、オブジェクト検出装置、およびオブジェクト検出プログラム
Gomes et al. Multi-human fall detection and localization in videos
Asif et al. Sshfd: Single shot human fall detection with occluded joints resilience
Singh et al. A new algorithm designing for detection of moving objects in video
López-Rubio et al. Anomalous object detection by active search with PTZ cameras
Zhang et al. Robust multi-view multi-camera face detection inside smart rooms using spatio-temporal dynamic programming
Ko et al. Rectified trajectory analysis based abnormal loitering detection for video surveillance
Park et al. Understanding human interactions with track and body synergies (TBS) captured from multiple views
Guan et al. A video-based fall detection network by spatio-temporal joint-point model on edge devices
Koutrintzes et al. Boosting the Performance of Deep Approaches through Fusion with Handcrafted Features.
CN112818929B (zh) 一种人员斗殴检测方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200327

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20200714