WO2016021152A1

WO2016021152A1 - 姿勢推定方法および姿勢推定装置

Info

Publication number: WO2016021152A1
Application number: PCT/JP2015/003803
Authority: WO
Inventors: 川口　京子; 大気関井
Original assignee: パナソニック株式会社
Priority date: 2014-08-06
Filing date: 2015-07-29
Publication date: 2016-02-11
Also published as: US20170154441A1; JPWO2016021152A1; EP3179446A1; EP3179446A4

Abstract

　姿勢推定装置は、プロセッサを有する姿勢推定装置である。このプロセッサは、解析対象画像を入力し、入力された解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定する。そして、人の姿勢を頭位置および腰位置を含む複数の点位置並びに複数の部位領域の配置により定義する関節ベースリンクモデルと、設定された複数の参照位置とに基づいて、解析対象画像における部位領域の候補領域を決定する。さらに、人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された候補領域の画像特徴とに基づいて、解析対象画像に含まれる人がその姿勢を取っているか否かを判断する。

Description

姿勢推定方法および姿勢推定装置

　本開示は、画像に含まれる人の姿勢を画像から推定する姿勢推定方法および姿勢推定装置に関する。

　従来、画像に含まれる人（以下「被写体」という）の姿勢を、画像から推定する技術が存在する（例えば、非特許文献１参照）。

　非特許文献１に記載の技術（以下「従来技術」という）は、まず、頭部の輪郭形状を画像から抽出することにより頭位置を推定し、推定された頭位置を基準として、人の姿勢を定義する基幹リンクモデルを画像に適用する。ここで、従来技術における基幹リンクモデルとは、頭部、胴体上部、胴体下部、上腿部、および下腿部の５つの部位のそれぞれの位置、幅、高さ、および角度により人の姿勢を定義するモデルである。

　従来技術は、複数の姿勢を表すパーティクルを多数設定し、各パーティクルの各部位が設定された領域に存在することの確からしさを示す尤度を、その部位の画像特徴から算出する。そして、従来技術は、全部位の尤度の重み付き平均値が最も高くなる姿勢を、被写体が取っている姿勢であると推定する。

橋本潔、外６名、「姿勢変動に伴う身体的特徴変化の統計的モデリングによる遮蔽に頑健な人物追跡」、ＶＩＥＷ２０１１、２０１１年、ｐ．６０－６７ｊ．　Ｄｅｕｔｓｃｈｅｒ，　ｅｔ　ａｌ．　"ａｒｔｉｃｕｌａｔｅｄ　ｂｏｄｙ　ｍｏｔｉｏｎ　ｃａｐｔｕｒｅ　ｂｙ　ａｎｎｅａｌｅｄ　ｐａｒｔｉｃｌｅ　ｆｉｌｔｅｒｉｎｇ"　ｉｎ　ｃｖｐｒ，　２，　２０００，　ｐ．１２６－１３３ｄ．　Ｂｉｄｅｒｍａｎ，　"１１　ｍｉｎｕｔｅｓ　ｏｆ　ａｃｔｉｏｎ"，　ｔｈｅ　ｗａｌｌ　ｓｔｒｅｅｔ　ｊｏｕｒｎａｌ，　２０１０／１／１５

　しかしながら、従来技術では、直立する、上半身を傾ける、しゃがむ等の日常的な姿勢については精度良く推定することができるが、脚を蹴り上げる、開脚姿勢で座り込む等の非日常的な姿勢については、精度良く推定することは難しい。なぜなら、上述の基幹リンクモデルでは、各部位の大きさや部位間の距離のバランスの違いが、撮影視点に対する各部位の距離あるいは向き違いによるものであるのか、開脚等による部位の領域の拡大によるものなのかを、区別することができないからである。

　近年、スポーツの試合を撮影した映像から選手の動きを解析する行動解析システム（ＡＢＡＳ：Ａｔｈｌｅｔｅ　Ｂｅｈａｖｉｏｒ　Ａｎａｌｙｓｉｓ　Ｓｙｓｔｅｍ）の開発が、盛んに行われている。スポーツ選手は、上述の非日常的な姿勢を含む多種多様な姿勢を取る。したがって、画像に含まれる人の姿勢をより高精度に推定することができる技術が望まれる。

　本開示の目的は、画像に含まれる人の姿勢をより高精度に推定することができる、姿勢推定方法および姿勢推定装置を提供することである。

　本開示の姿勢推定方法は、プロセッサが解析対象画像内の人の姿勢を推定する方法である。このプロセッサは、解析対象画像を入力し、入力された解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定する。そして、人の姿勢を頭位置および腰位置を含む複数の点位置並びに複数の部位領域の配置により定義する関節ベースリンクモデルと、設定された複数の参照位置とに基づいて、解析対象画像における部位領域の候補領域を決定する。さらに、人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された候補領域の画像特徴とに基づいて、解析対象画像に含まれる人がその姿勢を取っているか否かを判断する。

　本開示の姿勢推定装置は、プロセッサを有する姿勢推定装置である。このプロセッサは、解析対象画像を入力し、入力された解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定する。そして、人の姿勢を頭位置および腰位置を含む複数の点位置並びに複数の部位領域の配置により定義する関節ベースリンクモデルと、設定された複数の参照位置とに基づいて、解析対象画像における部位領域の候補領域を決定する。さらに、人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された候補領域の画像特徴とに基づいて、解析対象画像に含まれる人がその姿勢を取っているか否かを判断する。

　本開示によれば、画像に含まれる人の姿勢をより高精度に推定することができる。

図１は、本実施の形態に係る姿勢推定装置の構成の一例を示すブロック図である。図２は、本実施の形態における関節ベースリンクモデルの一例を説明するための図である。図３は、本実施の形態における部位画像特徴の学習の様子の一例を説明するための図である。図４は、本実施の形態に係る姿勢推定装置の動作の一例を示す図である。図５は、本実施の形態における入力映像の一例を示す図である。図６は、本実施の形態における参照位置設定の様子の一例を示す図である。図７は、本実施の形態において生成されるパーティクル群の一例を示す図である。図８は、参考として、１つのみの参照位置から生成されるパーティクル群の一例を示す図である。図９は、本実施の形態における初期パーティクルから推定される候補姿勢の一例を示す図である。図１０は、本実施の形態における追加パーティクルから推定される候補姿勢の一例を示す図である。図１１は、本実施の形態における実験結果の一例を示す図である。

　以下、本開示の一実施の形態について、図面を参照して詳細に説明する。

　＜姿勢推定装置の構成＞
　図１は、本実施の形態に係る姿勢推定装置の構成の一例を示すブロック図である。

　なお、図示しないが、図１に示す姿勢推定装置１００は、例えば、プロセッサとしての、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、制御プログラムを格納したＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等の記憶媒体、およびＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）等の作業用メモリを有する。この場合、上記した各部の機能は、ＣＰＵが制御プログラムを実行することにより実現される。また、姿勢推定装置１００は、例えば、通信回路を有し、かかる通信回路を使用した通信により他の装置との間でのデータの入出力を行う。また、姿勢推定装置１００は、例えば、タッチパネル付き液晶ディスプレイ等のユーザインタフェースを有し、かかるユーザインタフェースを用いて、情報表示や操作の受け付けを行う。

　図１において、姿勢推定装置１００は、モデル情報格納部１１０、画像入力部１２０、参照位置設定部１３０、候補領域決定部１４０、姿勢判断部１５０、および判定結果出力部１６０を有する。

　モデル情報格納部１１０は、人体モデルの一種である関節ベースリンクモデルと、人の身体の各部位の画像特徴である部位画像特徴とを、予め格納している。

　ここで、人体モデルとは、画像における人の各部の配置や大きさについての拘束条件であり、人の姿勢（人体の特徴）を示す情報である。そして、本実施の形態で用いられる関節ベースリンクモデルとは、スポーツにおける姿勢等、非日常的な姿勢を精度良く推定するのに好適な人体モデルであり、複数の状態変数を軸とする姿勢状態空間を用いて定義される。より具体的には、関節ベースリンクモデルとは、頭位置および腰位置を含む複数の点位置並びに複数の部位領域の、配置により、人の姿勢を定義する人体モデルである。関節ベースリンクモデルの詳細については、後述する。

　また、部位画像特徴とは、人を撮影した画像における、胴体や左上腿部といった身体の部位の領域（以下「部位領域」という）の画像特徴である。部位画像特徴の詳細については、後述する。

　画像入力部１２０は、人の抽出あるいは人の姿勢の推定の対象となる映像を入力する。そして、画像入力部１２０は、映像を構成する時系列の複数の画像フレーム（以下「解析対象画像」という）を、順次、参照位置設定部１３０および候補領域決定部１４０へ出力する。画像入力部１２０は、例えば、インターネット上のサーバにアクセスして、当該サーバに格納された映像を取得する。解析対象画像は、例えば、アメリカンフットボールのフィールド全体を撮影した、広域静止画像である。解析対象画像には、例えば画像の左下隅の位置を基準とするＸ－Ｙ座標系が設定されている。

　参照位置設定部１３０は、入力された解析対象画像に対して、解析対象画像に含まれる人（以下「被写体」という）の頭位置および腰位置を含む複数の参照位置を設定する。本実施の形態において、参照位置は、頭位置および腰位置の２つであるものとする。そして、参照位置設定部１３０は、設定された参照位置を示す参照位置情報を、候補領域決定部１４０へ出力する。

　より具体的には、参照位置設定部１３０は、例えば、映像の先頭フレームの解析対象画像を表示し、ユーザの操作に基づいて、参照位置を設定する。参照位置の設定の詳細については、後述する。

　候補領域決定部１４０は、モデル情報格納部１１０に格納された関節ベースリンクモデルと、入力された参照位置情報が示す複数の参照位置と、に基づいて、入力された解析対象画像における部位領域の候補領域を決定する。

　より具体的には、候補領域決定部１４０は、例えば、映像の先頭フレームの解析対象画像については、関節ベースリンクモデルに基づき、複数の姿勢のサンプル（複数の点位置および複数の部位領域の配置）を生成する。そして、候補領域決定部１４０は、生成された複数のサンプルのそれぞれについて、参照位置を基準としてサンプルを解析対象画像に合わせ込むことにより、複数の点位置および複数の部位領域の解析対象画像における配置（以下「写像サンプル」という）を決定する。

　一方、候補領域決定部１４０は、例えば、後続フレームについては、直前フレームにおける被写体の位置および姿勢に基づいて、部位毎に、周辺近傍に多数の候補領域を配置する形で、サンプルを生成し、写像サンプルを決定する。

　そして、候補領域決定部１４０は、写像サンプルを示す（つまり、決定した候補領域を示す）写像サンプル情報と、入力された解析対象画像とを、姿勢判断部１５０へ出力する。候補領域（写像サンプル）の決定の詳細については、後述する。

　姿勢判断部１５０は、モデル情報格納部１１０に格納された各部位の部位画像特徴と、入力された写像サンプル情報が示す各候補領域の画像特徴と、に基づいて、入力された解析対象画像に含まれる人が、いずれかの写像サンプルに対応する姿勢を取っているか否かを判断する。すなわち、姿勢判断部１５０は、解析対象画像に、写像サンプル情報が示す写像サンプルの姿勢を取る人が含まれているか否かを判断する。

　より具体的には、姿勢判断部１５０は、複数の写像サンプルに含まれる複数の候補領域のそれぞれについて、候補領域が対応する部位領域であることの確からしさを示す部位別尤度を算出する。姿勢判断部１５０は、複数の写像サンプルのそれぞれについて、算出された複数の部位別尤度の一部または全部に基づいて、当該写像サンプルの姿勢を取る人が解析対象画像に含まれていることの確からしさを示す全体尤度を算出する。そして、姿勢判断部１５０は、全体尤度が最も高い写像サンプルの姿勢を、解析対象画像に含まれている人が取っている姿勢であると判定する。

　すなわち、写像サンプルは、パーティクルフィルタにおけるパーティクルに相当し、候補領域決定部１４０および姿勢判断部１５０によって実現される姿勢判定処理は、パーティクルフィルタ処理に相当する。

　パーティクルフィルタとは、推定したい状態空間内を、システムモデルに従って生成した多数のパーティクルによってサンプリングし、各パーティクルにおいて尤度計算を行い、その重み付き平均で状態を推定する手法である。パーティクルフィルタ処理の詳細については、例えば、非特許文献２に記載されているため、ここでの説明を割愛する。

　そして、姿勢判断部１５０は、解析対象画像に含まれている人が取っていると判定された姿勢を示す姿勢推定情報と、入力された解析対象画像とを、判定結果出力部１６０へ出力する。また、姿勢判断部１５０は、全体尤度が最も高い写像サンプルを示す写像サンプル情報を、直前フレームにおける被写体の位置および姿勢を示す情報として、候補領域決定部１４０へフィードバックする。姿勢推定の詳細については、後述する。

　なお、候補領域決定部１４０および姿勢判断部１５０は、姿勢状態空間の次元を削減した低次元姿勢状態空間を用いて、パーティクルの生成および尤度の算出を行う。かかる姿勢状態空間の次元削減の詳細、および、低次元姿勢状態空間を用いたパーティクルの生成の詳細ついては、後述する。

　また、候補領域決定部１４０および姿勢判断部１５０は、状態空間のサンプリング、尤度計算、および状態推定の処理を繰り返すことにより、効率的に、状態空間の探索および状態の推定を行う。かかる姿勢推定の繰り返しの詳細については、後述する。

　判定結果出力部１６０は、入力された姿勢推定情報を出力する。かかる出力には、姿勢推定情報の表示、記録媒体への記録、および、他の装置への送信等が含まれる。姿勢推定情報が、推定された姿勢の写像サンプルを示す情報である場合、判定結果出力部１６０は、例えば、写像サンプルを示す画像を生成し、解析対象画像に重畳して表示する。

　このような構成を有する姿勢推定装置１００は、より多様な姿勢に対応した人体モデルの、次元削減された姿勢状態空間を用いてパーティクルを生成し、画像特徴に基づく尤度判定により各部位の配置を推定する。これにより、姿勢推定装置１００は、画像に含まれる人の姿勢を、より高精度かつ高速に推定することができる。

　＜関節ベースリンクモデル＞
　図２は、関節ベースリンクモデルの一例を説明するための図である。

　図２に示すように、関節ベースリンクモデル（あるいは、スポーツ基幹リンクモデル）２１０は、左右の区別のない脚と、胴部および頭部とにより構成される、２次元の骨格モデルである。関節ベースリンクモデル２１０は、人を撮影した画像における、人の頭位置２２０、腰位置（腰関節位置）２２１、左膝位置２２２、右膝位置２２３、左足首位置２２４、および右足首位置２２５の、６つの点位置の配置を含む。なお、ここでの左右とは、人の左右とは限らず、図２中において便宜上区別するための左右を指す。

　以下の説明において、頭位置２２０のＸ－Ｙ座標系における座標値は、（ｘ_０，ｙ_０）と表す。腰位置２２１のＸ－Ｙ座標系における座標値は、（ｘ_１，ｙ_１）と表す。

　また、線分ｌ_１は頭位置２２０および腰位置２２１を結び、線分ｌ_２は腰位置２２１および左膝位置２２２を結ぶ。線分ｌ_３は腰位置２２１および右膝位置２２３を結び、線分ｌ_４は左膝位置２２２および左足首位置２２４を結ぶ。線分ｌ_５は右膝位置２２３および右足首位置２２５を結ぶ。線分ｌ_１の長さを、記号ｓと表す。線分ｌ_２～ｌ_５の長さは、ｓに対する比率ｌ_２～ｌ_５で与えられる。すなわち記号ｌ_２～ｌ_５は、部位の名称として用いられる場合と部位の長さとして用いられる場合の２通りがある。

　線分ｌ_１～ｌ_５は、順に、頭部および胴部の軸、左上腿部の軸、右上腿部の軸、左下腿部の軸、および右下腿部の軸に相当する。

　また、鉛直方向等の基準方向２３０に対する線分ｌ_１の角度（上半身絶対角度）は、記号θ_１で表す。線分ｌ_１に対する線分ｌ_２、ｌ_３の角度（脚相対角度、腰関節周りの相対角度）は、順に、記号θ_２、θ_３で表す。線分ｌ_２に対する線分ｌ_４の角度（脚相対角度、左膝関節周り相対角度）は、記号θ_４で表す。線分ｌ_３に対する線分ｌ_５の角度（脚相対角度、右膝関節周り相対角度）は、記号θ_５で表す。

　すなわち、角度θ_１～θ_５は、順に、頭部および胴部の傾き、右上腿部の傾き、右下腿部の傾き、左上腿部の傾き、および左下腿部の傾きに相当する。

　関節ベースリンクモデル２１０は、２組の座標値（ｘ_０，ｙ_０）、（ｘ_１，ｙ_１）、１つの距離ｓ、４つの距離比ｌ_２～ｌ_５、および５つの角度θ_１～θ_５という、１４次元の状態変数（パラメータ）から成る。すなわち、関節ベースリンクモデル２１０の各状態変数の値を変化させることにより、複数の姿勢を定義することができる。なお、各状態変数の値の変化の範囲および刻み幅（以下「サンプル条件」という）は、状態変数毎に予め定められており、関節ベースリンクモデル２１０を構成する。

　なお、頭位置２２０の座標値（ｘ_０，ｙ_０）は、腰位置２２１の座標値（ｘ_１，ｙ_１）、距離ｓ、および角度θ_１により、一意に定まる。したがって、頭位置２２０の座標値（ｘ_０，ｙ_０）は省略することができる。以下の説明において、腰位置２２１の座標値（ｘ_１，ｙ_１）は、記号ｕと表し、頭位置２２０の座標値（ｘ_０，ｙ_０）は、記号ｕ’と表す。

　更に、関節ベースリンクモデル２１０は、人の頭部領域２４０、胴部領域２４１、左上腿部領域２４２、右上腿部領域２４３、左下腿部領域２４４、および右下腿部領域２４５（以下「部位領域」という）を、位置２２１～２２５に対する相対領域として定義する。したがって、関節ベースリンクモデル２１０の各状態変数の値を変化させることにより、複数の姿勢のそれぞれにおける各部位の相対位置を定義することが可能である。また、関節ベースリンクモデル２１０を画像に当て嵌めることにより、複数の姿勢のそれぞれにおける各部位が、画像において占める領域を定義することが可能である。

　＜部位画像特徴＞
　関節ベースリンクモデル、および、各部位の部位画像特徴は、人を撮影した複数の学習用画像（テンプレート画像）に基づいて予め決定され、モデル情報格納部１１０に格納されている。関節ベースリンクモデルおよび部位画像特徴は、以下、適宜、「モデル情報」と総称する。

　図３は、部位画像特徴の学習の様子の一例を説明するための図である。

　図３に示すように、例えば、モデル情報を生成するモデル情報生成装置（図示せず。姿勢推定装置１００であってもよい）は、被写体２５１を含む学習用画像２５０を表示する。オペレータは、表示された学習用画像２５０を確認しながら、学習用画像２５０に対し、ポインティングデバイスを用いて、頭位置２６０、腰位置２６１、左膝位置２６２、右膝位置２６３、左足首位置２６４、および右足首位置２６５を含む複数の点位置を指定する。

　これらの位置２６０～２６５は、つまり、関節ベースリンクモデル２１０の位置２２０～２２５（図２参照）に対応している。そして、学習用画像２５０に対する位置２６０～２６５の指定は、関節ベースリンクモデル２１０の位置２２０～２２５の指定であり、関節ベースリンクモデル２１０の状態変数の指定に対応する。

　更に、オペレータは、学習用画像２５０に対し、頭部領域２７０、胴部領域２７１、左上腿部領域２７２、右上腿部領域２７３、左下腿部領域２７４、および右下腿部領域２７５を、対角線操作等により生成される矩形により指定する。各領域が指定されることにより、各領域の横幅が定まる。ここで、各領域を指定する方法は、矩形により指定する方法に限られない。例えば、領域毎に、長さに対してそれぞれ定められた比率に基づいて自動的に各領域が指定されるようにしてもよい。すなわち、領域２７０～２７５は、位置２２０～２２５に対する予め定められた相対位置（領域範囲）に基づいて、設定されてもよい。

　モデル情報生成装置は、設定された領域２７０～２７５のそれぞれから、色ヒストグラムや前景画素数（例えば、フィールドの色である緑色以外の色の画素の数）等の画像特徴を抽出（サンプリング）する。そして、モデル情報生成装置は、抽出された画像特徴と、領域の複数の位置２２０～２２５に対する相対位置（領域範囲）とを、対応する部位の識別情報に対応付けて記録する。

　モデル情報生成装置は、かかる処理を複数の学習用画像に対して行い、部位毎に、複数の画像特徴（および相対位置）を蓄積する。そして、モデル情報生成装置は、蓄積された画像特徴（および相対位置）の部位毎の平均値を、各部位の部位画像特徴（および相対位置）とする。そして、各部位の画像特徴（および相対位置）は、モデル情報格納部１１０に格納される。

　上記複数の学習用画像は、様々なシーン、時刻、および被写体について撮影された、多数の画像であることが望ましい。また、姿勢推定の対象となる人が、特定のユニフォームを着た選手であることが予め定められているような場合には、そのユニフォームを着た人を撮影した学習用画像から、部位画像特徴の学習を行うことが望ましい。

　＜姿勢状態空間の次元削減＞
　関節ベースリンクモデル２１０（図２参照）の状態変数ベクトル（姿勢パラメータ）ｘは、例えば、以下の式（１）で表される。

　状態変数ベクトルｘに対する主成分分析を行って次元削減を行うことにより、例えば、以下の式（２）で定義される状態変数ベクトルｘ’が得られる。

　ここで、記号ｐ_ｊは、複数（例えば３００）の学習用画像から得られた、長さｌ_２～ｌ_５および角度θ_１～θ_５の学習データに対する主成分分析（ＰＣＡ）で得られた、第ｊ主成分ベクトルＰ_ｊの係数である。ここで、寄与率の上位５主成分ベクトルを、姿勢状態空間の基底ベクトルとして用いている。主成分ベクトルＰ_ｊは長さｌ_２～ｌ_５および角度θ_１～θ_５の偏差を並べたベクトルであり、例えば、以下の式（３）で表される。

　状態変数ベクトルｘが１２次元であるのに対し、状態変数ベクトルｘ’は８次元である。このように次元削減された状態変数ベクトルｘ’の各次元で張られる低次元姿勢状態空間において解の探索を行うことによって、より高速に姿勢を推定することができる。

　例えば、解析対象画像における腰位置（参照位置）の座標値ｕ^～が与えられた場合、生成されたサンプルについてｕ＝ｕ^～とすることで、各部位のパーティクル（候補領域）を一意に生成ですることができる。しかしながら、腰位置に対する他の部位の配置パターンの数は膨大である。

　これに対し、腰位置の座標値ｕ^～だけでなく、解析対象画像における頭位置（参照位置）の座標値ｕ^～’が更に与えられた場合、各サンプルについてｕ＝ｕ^～、ｓ＝｜ｕ^～－ｕ^～’｜とすると、角度θ_１は、座標値ｕ^～の腰位置および座標値ｕ^～’の頭位置を通る直線の角度θ^～ _１ということになる。かかる角度θ^～ _１は、例えば、以下の式（４）を満たす。

　ここで、記号θ^－ _１は、上記学習データにおける角度θ_１の平均値を表す。また、記号Ｑは、θ^ｊ _１≠０を満たすｊの集合である。｜Ｑ｜≧２の場合、式（４）においてｊ∈Ｑを満たす係数ｐ_ｊの解は無限に存在する。このため、各パーティクルの係数ｐ_ｊ（ｊ∈Ｑ）を一意に決定することは難しい。

　２つの参照位置から得られる拘束条件の式の数よりも未知パラメータ数の方が多いため、姿勢推定の高速化を目的として姿勢状態空間の次元を単純に削減する場合、パーティクルを一意に生成することは難しい。そこで、姿勢推定装置１００は、主成分分析により次元削減された低次元姿勢状態空間において、２つの参照位置から解の存在する超平面（任意の次元の平面）を逆算し、超平面上で一意にパーティクルを生成する。

　＜パーティクルの生成＞
　候補領域決定部１４０は、低次元姿勢状態区間に、初期パーティクルを設定する。ここで、初期パーティクルとは、姿勢を大まかに推定するための、予め定められた複数の姿勢についての各部位の候補領域である。候補領域決定部１４０は、姿勢毎に、設定された初期パーティクルを、２つの参照位置から逆算される超平面上に写像する。

　超平面は、例えば、以下の式（５）より表される。

　ここで、記号ｃは、定数であり、式（５）の第１式は、｜Ｑ｜次元空間における超平面を表している。候補領域決定部１４０は、写像するサンプルの、ｊ∈Ｑを満たす主成分ベクトルの係数ｐ＾_ｊから、式（５）を満たす係数ｐ_ｊを求める。そして、候補領域決定部１４０は、係数ｐ＾_ｊを、算出したｐ_ｊで置き換えることにより、サンプルの超平面への写像を実現する。

　写像するサンプルにおける線分ｌ_１の腰関節周りの絶対角度を記号θ＾_１と置くと、式（４）、（５）と同様に、以下の式（６）が成立する。

　式（６）の第１式の両辺をｃ＾で除し、ｃ倍すると、以下の式（７）が得られる。

　したがって、式（７）より、式（５）の第１式を満たす係数ｐ_ｊは、以下の式（８）で表される。

　式（８）では、右辺の分母のｃ＾の値が０に近づくほど、係数ｐ_ｊは不安定な値となる。その場合、候補領域決定部１４０は、当該サンプルを探索の対象から除く。また、候補領域決定部１４０は、各サンプルに対し、座標値ｕ^～、ｕ^～’にガウスノイズを加えた上で式（８）から係数ｐ_ｊを計算する。すなわち、候補領域決定部１４０は、パーティクルにガウス分布に従う２つの参照位置の変化（誤差）を許容する。これにより、局所解への収束を回避し、大域的最適解へのより確実な到達を図るようにしてもよい。

　＜姿勢推定装置の動作＞
　次に、姿勢推定装置１００の動作について説明する。

　図４は、姿勢推定装置１００の動作の一例を示す図である。

　ステップＳ１０１０において、画像入力部１２０は映像の入力を開始する。

　図５は、入力される映像の一例を示す図である。

　図５に示すように、例えば、アメリカンフットボールのフィールドのパノラマ映像３１０が、画像入力部１２０に入力される。パノラマ映像３１０には、複数の選手３１１が含まれている。

　図４のステップＳ１０２０において、参照位置設定部１３０は、入力された映像の開始フレームの画像（解析対象画像）を表示し、２つの参照位置である頭位置および腰位置の設定をユーザから受け付ける。

　図６は、ドラッグアンドドロップ操作によって２つの参照位置が設定される様子の一例を示す図である。

　図６に示す解析対象画像３２０は、例えば、パノラマ映像３１０（図５参照）の一部を拡大したものである。ユーザは、表示された解析対象画像３２０に含まれる選手３１１の頭位置３２２および腰位置３２３を確認し、解析対象画像３２０に対して、矢印３２４のように、ドラッグアンドドロップ（Ｄ＆Ｄ）操作を行う。すなわち、頭位置３２２を指定した状態で押下状態を開始し、押下状態を維持したまま指定位置を腰位置３２３まで移動させ、腰位置３２３において押下状態を開放する。

　このようなドラッグアンドドロップ操作により、２つの参照位置の設定を簡単に行うことができる。ユーザは、姿勢推定の対象の全て、つまり、パノラマ映像３１０の選手３１１のそれぞれに対して、順にドラッグアンドドロップ操作を行う。参照位置設定部１３０は、設定された各選手３１１の２つの参照位置（位置３２２および腰位置３２３）を、選手３１１毎に取得する。なお、２つの参照位置の設定手法として、例えば、２点を単にクリックする手法、タッチパネル等の上の２点をスライドする手法、タッチパネル等の上の２点を同時にタッチする手法、ジェスチャーで２点を指定する手法等、他の各種手法を採用してもよい。

　ステップＳ１０３０において、候補領域決定部１４０は、開始フレームからの順序で、映像のフレームを１つ選択する。

　ステップＳ１０４０において、候補領域決定部１４０は、関節ベースリンクモデルに基づいて、状態変数をランダムに変化させることにより、複数のサンプルを生成する。以下、あるフレームについて最初に生成されるサンプルは、適宜、「初期サンプル」という。また、初期サンプルの各部位領域は、適宜、「初期パーティクル」という。

　ステップＳ１０５０において、候補領域決定部１４０は、設定された２つの参照位置（頭位置および腰位置）から逆算される超平面上に、初期サンプルのパーティクルを写像する。

　図７は、頭位置３２２および腰位置３２３が設定されている場合のパーティクル群の一例を示す図である。また、図８は、参考として、腰位置３２３しか設定されていない場合のパーティクル群の一例を示す図である。

　図７に示すように、頭位置３２２および腰位置３２３が設定されている場合、頭部および胴部のパーティクル３３０については、その位置および向きは制約される。したがって、全体として、パーティクル３３０の個数も少なくなり、処理負荷が軽減される。

　一方、図８に示すように、腰位置３２３しか設定されていない場合、胴部の向きの制約、および、頭部の位置および向きの制約が少ない。このため、図７に比べて、全体として、パーティクル３３０の個数は多くなる。

　図４のステップＳ１０６０において、姿勢判断部１５０は、パーティクル毎に、各部位領域としての尤度を算出する。より具体的には、姿勢判断部１５０は、サンプルが表現する、各部位の位置の周辺画像である候補領域を取得する。姿勢判断部１５０は、部位画像特徴と、取得した候補領域の画像特徴と、を比較し、その類似度を、取得した候補領域の部位別尤度とする。そして、姿勢判断部１５０は、サンプル毎に、全部位の部位別尤度を合計して、全体尤度を算出する。更に、姿勢判断部１５０は、全体尤度が最も高いサンプルを、候補姿勢として決定する。

　ステップＳ１０７０において、姿勢判断部１５０は、候補姿勢が、所定の終了条件を満たしているか否かを判断する。ここで、所定の条件とは、候補姿勢の姿勢推定結果としての精度が所定のレベル以上であること、あるいは、かかる精度が限界レベルに達したこと、に対応する条件である。

　姿勢判断部１５０は、候補姿勢が終了条件を満たしていない場合（Ｓ１０７０：ＮＯ）、処理をステップＳ１０８０へ進める。

　図９は、初期パーティクルから推定される候補姿勢の一例を示す図である。

　図９に示すように、候補姿勢の各パーティクル３３０の位置は、解析対象画像３２０に含まれる選手３１１の実際の姿勢における各部位の位置（部位領域）とずれることがある。そこで、姿勢推定装置１００は、このようなずれが生じているか否かを上述の終了条件を用いて判断する。そして、姿勢推定装置１００は、ずれが生じている場合、候補姿勢に基づいて、再度、姿勢推定を行う。

　図４のステップＳ１０８０において、候補領域決定部１４０は、候補姿勢に基づいて、超平面上にパーティクルを再度設定して、処理をステップＳ１０６０へ戻す。ステップＳ１０８０において設定されるパーティクルは、適宜、「追加パーティクル」という。

　そして、ステップＳ１０６０、Ｓ１０７０において、姿勢判断部１５０は、追加パーティクルについて、再度、尤度計算、候補姿勢の決定、および、終了条件判断を行う。姿勢推定装置１００は、ステップＳ１０６０～Ｓ１０８０を、終了条件を満たす候補姿勢が得られるまで繰り返す。そして、姿勢判断部１５０は、候補姿勢が終了条件を満たしている場合（Ｓ１０７０：ＹＥＳ）、処理をステップＳ１０９０へ進める。

　図１０は、追加パーティクルから推定される候補姿勢の一例を示す図である。

　図１０に示すように、候補姿勢の各パーティクル３３０の位置は、図４のステップＳ１０６０～Ｓ１０８０の処理を繰り返すことにより、解析対象画像３２０に含まれる選手３１１の実際の姿勢における各部位の位置（部位領域）により近付く。

　ステップＳ１０９０において、判定結果出力部１６０は、全体尤度が最も高い姿勢、つまり、最後に決定された候補姿勢を、解析対象画像に含まれる人の姿勢の解として出力する。

　ステップＳ１１００において、候補領域決定部１４０は、次のフレームが存在するか否かを判断する。

　候補領域決定部１４０は、次のフレームが存在する場合（Ｓ１１００：ＹＥＳ）、処理をステップＳ１０３０へ戻す。この結果、姿勢推定装置１００は、直前フレームにおける姿勢推定結果に基づいて新たなフレームに対する姿勢を推定する処理を行う。

　開始フレーム以降の後続フレームにおける各被写体の位置および姿勢は、直前フレームにおける被写体の位置および姿勢を基準として、画像特徴に基づき確率的に推定される。

　例えば、候補領域決定部１４０は、人の重心が等速に移動するとの仮定のもと、人の画像上の位置空間に対しては、等速直線運動モデルを適用する。そして、候補領域決定部１４０は、姿勢状態空間に対しては、直前フレームの各部位の推定位置の周辺をランダムサンプリングする、ランダムウォークを採用する。このようなシステムモデルを用いることにより、候補領域決定部１４０は、各後続フレームのパーティクルを、効率的に生成することができる。

　なお、後続フレームにおける姿勢推定の精度は、開始フレームでの姿勢推定の精度に大きく影響される。このため、開始フレームについての姿勢推定は、特に、高精度に行われる必要がある。

　候補領域決定部１４０は、次のフレームが存在しない場合（Ｓ１１００：ＮＯ）、一連の処理を終了させる。

　このような動作により、姿勢推定装置１００は、アメリカンフットボールの試合を撮影した映像等、多数の人が含まれる映像に対して、それぞれの人の各時刻における姿勢（位置）の推定を行うことができる。また、姿勢推定装置１００は、ユーザによる簡単な操作に基づき、上記姿勢推定を高精度に行うことができる。

　なお、候補領域決定部１４０は、部位別尤度が高い上位４つの部位の部位別尤度の合計値に基づいて全体尤度を算出する等、６つの部位領域のうち一部の部位領域のみに基づいて、候補姿勢を決定してもよい。

　スポーツ映像では、選手の身体が他の選手の身体の一部を遮蔽してしまうことがある。特に、アメリカンフットボールでは、タックルやブロック等の激しいコンタクトが多く、このような遮蔽が多発する。一部の部位領域のみに基づく候補姿勢の決定、および、パーティクル生成の繰り返しにより、遮蔽された選手の位置や姿勢を、より高精度に推定することが可能となる。

　また、姿勢推定装置１００は、映像の順追跡だけでなく、映像の逆追跡を併せて行い、両方の追跡結果（姿勢推定結果）を比較あるいは統合して、最終的な推定結果を出力してもよい。逆方向追跡の場合、参照位置設定部１３０は、例えば、映像の最終フレームを表示して、参照位置の設定を受け付ける。

　＜実験と考察＞
　次に、姿勢推定装置１００を用いて行った実験について説明する。

　＜実験１＞
　本開示者は、アメリカンフットボール１試合分の全選手の軌跡データ出力を想定して、実験を行った。アメリカンフットボールは、各チーム１１人の合計２２人で試合を行う。試合では、両チームが向かい合った静止状態からプレーが始まり、タックル等によりボールの前進が止まることによりプレーが終了する。１プレーの平均時間は、５秒程度であり、１プレーの最大時間は、１０数秒程度である。アメリカンフットボールの試合は、このような短いプレーの積み重ねにより進行する。試合時間は６０分だが、作戦会議の時間等も含まれるため、実際のプレー時間の合計は１１分程度である（非特許文献３参照）。

　解析対象となる映像の画像サイズは、５１２０×７２０画素である。また、映像中の選手のサイズは、２０×６０画素程度である。

　本実験では、まず、実際の１プレーの映像を用いて、従来技術に係る上述の基幹リンクモデルと、本実施の形態に係る上述の関節ベースリンクモデル（スポーツ基幹リンク）との間で、追跡成功率の比較を行った。実験には、ｃｏｒｅ　ｉ７のＣＰＵを搭載するパーソナルコンピュータを使用した。

　従来技術の手法および本実施の形態に係る手法の両方において、実際の１プレーの映像について、全選手の順追跡結果および逆追跡結果を出力した。この映像のフレーム数ｅは、ｅ＝１９０であり、選手数ｄは、ｄ＝２２であり、評価対象数ｇは、ｇ＝４１８０（ｇ＝ｄ×ｅ）である。

　従来技術の手法における基幹リンクモデルの初期位置設定は、選手の頭位置をクリックして入力したのち、手動で主成分やサイズを操作して、基幹リンクモデルの矩形領域と選手のシルエットが重なる面積が最大となるように調節することにより行った。また、本実施の形態の手法における関節ベースリンクモデルの初期位置設定は、頭位置から腰位置へとドラッグアンドドロップすることにより行った。なお、関節ベースリンクモデルの上半身は、かかる設定により、選手のシルエットに合うように自動設定される。

　本実験では、目視により、重畳された追跡結果の頭部が対象選手の頭部領域内にあるか否かを判断し、頭部が頭部領域内場合を追跡成功とした。

　図１１は、実験結果の一例を示す図である。図１１において、横軸は、パーセンテージを表す。

　図１１において、「追跡成功率」は、対象の映像について全選手２２人の順追跡と逆追跡をそれぞれ行った結果、各フレームにおいて追跡成功と判断されたフレームの割合を示す。「マッチング成功率」は、順追跡または逆追跡のいずれも追跡成功したフレームの割合を示す。「マッチング半成功率」は、順追跡または逆追跡のどちらか一方の追跡が成功しているフレームの割合を示す。「マッチング失敗率」は、順追跡と逆追跡ともに追跡に失敗したフレーム数を示す。

　図１１に示すように、関節ベースリンクモデルを用いた本実施の形態の手法は、基幹リンクモデルを用いた従来技術の手法に比べて、追跡成功率が５％向上し、マッチング成功率も９％精度向上していることが分かった。また、マッチング半成功率およびマッチング失敗率ともに、本実施の形態の手法の方が低くなることが分かった。このように、実験により、本実施の形態の手法による姿勢推定は、操作者への負荷をより軽減した状態で、高精度に姿勢を推定することができるということが分かった。

　＜実験２＞
　発明者は、アメリカンフットボールの広域静止画像を用いて、本実施の形態の姿勢推定の手法（以下「提案手法」という）による姿勢推定の精度を定量的に評価した。また、従来手法として、１つの参照点（参照位置）から半自動的に姿勢を推定する手法（以降、１ＲＰＭと呼ぶ）を用い、提案手法との推定精度を比較した。１ＲＰＭの提案手法と異なる点は、パーティクルの写像方法のみであり、その他の１ＲＰＭの姿勢推定の手順は、基本的に、提案手法と同一である。

　評価対象選手として、実際の試合映像からランダムに３０人を選択した。姿勢推定に用いる２つの参照点（参照位置）の入力は、マウスにより広域静止画像上の選手の頭部中心点から腰の中心点までドラッグアンドドロップすることにより行った。上述の終了条件としては、追加パーティクルの設定および評価の手順を１０回繰り返したという条件を採用した。また、同時に生成されるパーティクルの数は、２０００とした。３０人の選手に対し推定された姿勢の正誤を判定し、正解率を求め、評価に用いた。

　正誤判定は、以下の手順で行った。

　（１）各部位の矩形が画像上の対象選手の当該部位と重なる面積の割合Ｓを、目視で計測
　（２）全部位のＳが１／３以上となる姿勢を、正解と判定
　（３）全部位のうち、Ｓが１／１０以下となる矩形（パーティクル）が１つ以上存在する姿勢を、誤りと判定
　なお、手順（２）、（３）において正誤の目視判定が難しい選手は評価から除き、新たに評価対象選手を追加することにより、曖昧な評価結果を除くようにした。手順（２）、（３）におけるＳに対する閾値は、行動解析システム（ＡＢＡＳ）で安定に解析を開始することが可能な最低限の値として、別の実験により求めておいた。

　提案手法で生成されるパーティクルは、上述の図７のようになり、１ＲＰＭで生成されるパーティクルは、上述の図８のようになった。すなわち、提案手法では、姿勢状態空間においてパーティクルが超平面上に写像され探索範囲が縮小されるため、従来手法に比べて、選手モデルの描画される面積が小さく、探索に効率的なパーティクルが生成された。

　３０人の選手に対する正解率は、１ＰＲＭでは３２．１％にしかならなかったのに対し、提案手法では、８２．１％となった。このように、実験により、提案手法が１ＲＰＭに比べて高精度に姿勢を推定できることが分かった。

　また、行動解析システムにおける初期位置設定に両手法を用い、各フレームにおける選手位置を映像に沿って時系列に表示したところ、提案手法の方が、より正確に選手位置を追跡できていることが分かった。これにより、提案手法が、行動解析システムにおける初期姿勢設定手法として有効であり、行動解析システムにおけるユーザの手動入力作業の簡易化を実現できるものであることが確認された。

　＜本実施の形態の効果＞
　以上のように、本実施の形態に係る姿勢推定装置１００は、姿勢が大きく変動している場合でも柔軟に各部位を位置や形状を表現することができ、より多様な姿勢に対応した人体モデルである関節ベースリンクモデルを用いて、姿勢推定を行う。これにより、姿勢推定装置１００は、画像に含まれる人の姿勢を、より高精度に推定することができる。

　また、姿勢推定装置１００は、次元削減された姿勢状態空間を用いてパーティクルを生成し、画像特徴に基づく尤度判定により各部位の配置を推定する。これにより、姿勢推定装置１００は、画像に含まれる人の姿勢を、より高速に（低処理負荷で）推定することができる。

　また、姿勢推定装置１００は、部位別尤度を算出してから、全体尤度を算出し、姿勢推定を行う。これにより、姿勢推定装置１００は、人の画像に部分的な遮蔽がある場合においても、安定した姿勢推定を行うことができる。

　また、姿勢推定装置１００は、ドラッグアンドドロップという簡単な操作により、２つの参照位置の設定を受け付け、設定された参照位置に基づく超平面上にパーティクルを生成する。これにより、姿勢推定装置１００は、少ない作業負担で、上記高精度な姿勢推定を実現することができる。

　また、姿勢推定装置１００は、パーティクルを生成して評価する処理を、終了条件が満たされるまで繰り返す。これにより、姿勢推定装置１００は、画像に含まれる人の姿勢を、更に高精度に推定することができる。

　すなわち、姿勢推定装置１００は、人の姿勢の変動が大きいスポーツ映像においても、ロバストな姿勢推定や人追跡を行うことを可能にする。

　＜本実施の形態の変形例＞
　なお、関節ベースリンクモデルに用いられる点位置および部位領域は、上述の例に限定されない。例えば、関節ベースリンクモデルに用いられる点位置は、左右の足首位置を含まなくてもよいし、左右の肘位置や手首位置を含んでいてもよい。また、部位領域は、例えば、左右の下腿部領域を含まなくてもよいし、左右の上腕部や前腕部を含んでもよい。

　また、姿勢推定装置１００の構成の一部は、ネットワーク上のサーバ等の外部装置に配置される等して、他の部分と離隔していてもよい。この場合、姿勢推定装置１００は、かかる外部装置と通信を行うための通信部を有する必要がある。

　また、本開示は、アメリカンフットボールの映像のみならず、他のスポーツの映像等、人を撮影した映像あるいは画像に適用可能である。

　＜本開示のまとめ＞
　本開示の姿勢推定方法は、画像入力ステップと、参照位置設定ステップと、候補領域決定ステップと、姿勢判断ステップとを有する。画像入力ステップでは、解析対象画像を入力する。参照位置設定ステップでは、入力された解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定する。候補領域決定ステップでは、人の姿勢を、頭位置および腰位置を含む複数の点位置（位置）並びに複数の部位領域の配置により定義する関節ベースリンクモデルと、設定された複数の参照位置とに基づいて、解析対象画像における部位領域の候補領域を決定する。姿勢判断ステップでは、人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された候補領域の画像特徴とに基づいて、解析対象画像に含まれる人が上記姿勢を取っているか否かを判断する。

　なお、上記姿勢推定方法は、解析対象画像を表示する画像表示ステップと、表示された解析対象画像に対するドラッグアンドドロップ操作を受け付ける操作受付ステップと、を有してもよい。その場合、参照位置設定ステップでは、ドラッグアンドドロップ操作の開始点および終了点を、それぞれ、頭位置および腰位置として解析対象画像に対して設定する。

　また、上記指定推定方法において、候補領域決定ステップは、複数の部位領域のそれぞれについて、候補領域を決定してもよい。そして、姿勢判断ステップは、部位別尤度算出ステップと、全体尤度評価ステップとを有してもよい。部位別尤度算出ステップでは、複数の候補領域のそれぞれについて、候補領域が対応する部位領域であることの確からしさを示す部位別尤度を算出する。全体尤度評価ステップでは、算出された複数の部位別尤度の一部または全部に基づいて、解析対象画像に含まれる人が上記姿勢を取っているか否かを判断する。

　また、上記姿勢推定方法において、関節ベースリンクモデルは、配置を定義する複数の状態変数の組み合わせを含んでもよい。その場合、候補領域決定ステップは、初期サンプル生成ステップと、初期パーティクル写像ステップとを有する。初期サンプル生成ステップでは、状態変数の値を変化させて、複数の姿勢のそれぞれについて、複数の点位置および複数の部位領域の相対位置関係を決定する。初期パーティクル写像ステップでは、複数の姿勢のそれぞれについて、決定された相対位置関係と、設定された複数の参照位置とに基づいて、複数の候補領域を決定する。また姿勢判断ステップは、初期姿勢推定ステップを有する。初期姿勢推定ステップでは、複数の姿勢のそれぞれについて、初期パーティクル写像ステップで決定された複数の候補領域に対して部位別尤度算出ステップおよび全体尤度評価ステップの処理を行うことにより、複数の姿勢の中から、解析対象画像に含まれる人が取っている可能性が高い姿勢である候補姿勢を決定する。

　また、上記姿勢推定方法において、初期パーティクル写像ステップは、複数の状態変数を軸とする姿勢状態空間の次元を主成分分析により削減した低次元姿勢状態空間の、複数の参照位置により拘束される超平面を用いて、候補領域を決定してもよい。

　また、上記姿勢推定方法は、追加サンプル生成ステップと追加パーティクル写像ステップとを含む追加候補領域決定ステップと、追加姿勢推定ステップとを有してもよい。追加サンプル生成ステップでは、初期姿勢推定ステップで決定された候補姿勢を基準として状態変数の値を変化させて、候補姿勢に近似する追加候補姿勢の相対位置関係を決定する。追加パーティクル写像ステップでは、追加候補姿勢の相対位置関係と、設定された複数の参照位置と、に基づいて、解析対象画像における複数の部位領域のそれぞれの追加候補領域を決定する。追加姿勢推定ステップでは、追加候補姿勢に対して部位別尤度算出ステップおよび全体尤度評価ステップの処理を行うことにより、解析対象画像に含まれる人が取っている可能性が高い姿勢を決定する。

　また、上記姿勢推定方法において、追加姿勢推定ステップにおける全体尤度評価ステップは、処理繰り返しステップと、姿勢判定ステップと、判定結果出力ステップとを有してもよい。処理繰り返しステップでは、複数の部位別尤度の値が、所定の終了条件を満たすか否かを判断し、所定の終了条件が満たされていない場合、追加候補領域決定ステップおよび追加姿勢推定ステップを、直前に決定された追加候補姿勢を基準として行う処理を繰り返す。姿勢判定ステップでは、所定の所定条件が満たされた場合、最後に決定された追加候補姿勢を、解析対象画像に含まれる人が取っている姿勢であると判定する。判定結果出力ステップでは、判定された姿勢を示す情報を出力する。

　本開示の姿勢推定装置は、モデル情報格納部と、画像入力部と、参照位置設定部と、候補領域決定部と、姿勢判断部とを有する。モデル情報格納部は、人の姿勢を、その人を撮影した画像における、頭位置および腰位置を含む複数の点位置（位置）、並びに複数の部位領域の配置により定義する関節ベースリンクモデルと、画像における部位領域の画像特徴である部位画像特徴とを格納している。画像入力部は、解析対象画像を入力する。参照位置設定部は、入力された解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定する。候補領域決定部は、取得された関節ベースリンクモデルと、設定された複数の参照位置とに基づいて、解析対象画像における部位領域の候補領域を決定する。姿勢判断部は、決定された候補領域の画像特徴と、取得された対応する部位領域の部位画像特徴とに基づいて、解析対象画像に含まれる人が上記姿勢を取っているか否かを判断する。

　本開示は、画像に含まれる人の姿勢をより高精度に推定することができる、姿勢推定方法および姿勢推定装置として有用である。

１００　　姿勢推定装置
１１０　　モデル情報格納部
１２０　　画像入力部
１３０　　参照位置設定部
１４０　　候補領域決定部
１５０　　姿勢判断部
１６０　　判定結果出力部
２１０　　関節ベースリンクモデル
２２０，２６０，３２２　　頭位置（位置）
２２１，２６１，３２３　　腰位置（位置）
２２２，２６２　　左膝位置（位置）
２２３，２６３　　右膝位置（位置）
２２４，２６４　　左足首位置（位置）
２２５，２６５　　右足首位置（位置）
２３０　　鉛直方向等の基準方向
２４０，２７０　　頭部領域（領域）
２４１，２７１　　胴部領域（領域）
２４２，２７２　　左上腿部領域（領域）
２４３，２７３　　右上腿部領域（領域）
２４４，２７４　　左下腿部領域（領域）
２４５，２７５　　右下腿部領域（領域）
２５０　　学習用画像
２５１　　被写体
３１０　　パノラマ映像
３１１　　選手
３２０　　解析対象画像
３２４　　矢印
３３０　　パーティクル
ｌ_１，ｌ_２，ｌ_３，ｌ_４，ｌ_５　　線分
θ_１，θ_２，θ_３，θ_４，θ_５　　角度

Claims

　プロセッサが解析対象画像内の人の姿勢を推定する方法であって、
　前記プロセッサは、
　　前記解析対象画像を入力し、
　　入力された前記解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定し、
　　人の姿勢を、頭位置および腰位置を含む複数の点位置並びに複数の部位領域、の配置により定義する関節ベースリンクモデルと、設定された前記複数の参照位置と、に基づいて、前記解析対象画像における前記部位領域の候補領域を決定し、
　　人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された前記候補領域の画像特徴と、に基づいて、前記解析対象画像に含まれる前記人が前記姿勢を取っているか否かを判断する、
　姿勢推定方法。
　前記プロセッサは、
　　前記解析対象画像を表示し、
　　表示された前記解析対象画像に対するドラッグアンドドロップ操作を受け付け、
　　前記ドラッグアンドドロップ操作の開始点および終了点を、それぞれ、前記頭位置および前記腰位置として前記解析対象画像に対して設定することで前記参照位置を設定する、
　請求項１に記載の姿勢推定方法。
　前記プロセッサは、
　　前記複数の部位領域のそれぞれについて、前記候補領域を決定し、
　　複数の前記候補領域のそれぞれについて、前記候補領域が対応する前記部位領域であることの確からしさを示す部位別尤度を算出し、
　算出された複数の前記部位別尤度の一部または全部に基づいて、前記解析対象画像に含まれる前記人が前記姿勢を取っているか否かを判断する、
　請求項１に記載の姿勢推定方法。
　前記関節ベースリンクモデルは、前記配置を定義する複数の状態変数の組み合わせを含み、
　前記プロセッサは、
　　前記状態変数の値を変化させて、複数の前記姿勢のそれぞれについて、前記複数の点位置および前記複数の部位領域の相対位置関係を決定し、
　　前記複数の姿勢のそれぞれについて、決定された前記相対位置関係と、設定された前記複数の参照位置と、に基づいて、前記複数の候補領域を決定し、
　　前記複数の姿勢のそれぞれについて、決定された前記複数の候補領域に対して前記解析対象画像に含まれる人が取っている可能性が高い姿勢である候補姿勢を決定する、
　請求項１に記載の姿勢推定方法。
　前記プロセッサは、
　　前記複数の状態変数を軸とする姿勢状態空間の次元を主成分分析により削減した低次元姿勢状態空間の、前記複数の参照位置により拘束される超平面を用いて、前記候補領域を決定する、
　請求項４に記載の姿勢推定方法。
　前記プロセッサは、
　　前記候補姿勢を基準として前記状態変数の値を変化させて、前記候補姿勢に近似する追加候補姿勢の前記相対位置関係を決定し、
　　前記追加候補姿勢の前記相対位置関係と、設定された前記複数の参照位置と、に基づいて、前記解析対象画像における前記複数の部位領域のそれぞれの追加候補領域を決定し、
　　前記追加候補領域に対して、前記解析対象画像に含まれる人が取っている可能性が高い姿勢を決定する、
　請求項４に記載の姿勢推定方法。
　前記プロセッサは、
　　前記複数の部位別尤度の値が、所定の終了条件を満たすか否かを判断し、
　前記所定の終了条件が満たされていない場合、前記追加候補領域の決定および前記追加姿勢の決定を、直前に決定された前記追加候補姿勢を基準として行う処理を繰り返し、
　前記所定の所定条件が満たされた場合、最後に決定された前記追加候補姿勢を、前記解析対象画像に含まれる人が取っている姿勢であると判定し、
　判定された前記姿勢を示す情報を出力する、
　請求項６に記載の姿勢推定方法。
　プロセッサを有する姿勢推定装置であって、
　前記プロセッサは、
　　前記解析対象画像を入力し、
　　入力された前記解析対象画像に対して、人の頭位置および腰位置を含む複数の参照位置を設定し、
　　人の姿勢を、頭位置および腰位置を含む複数の点位置並びに複数の部位領域、の配置により定義する関節ベースリンクモデルと、設定された前記複数の参照位置と、に基づいて、前記解析対象画像における前記部位領域の候補領域を決定し、
　　人を撮影した画像における部位領域の画像特徴である部位画像特徴と、決定された前記候補領域の画像特徴と、に基づいて、前記解析対象画像に含まれる前記人が前記姿勢を取っているか否かを判断する、
　姿勢推定装置。
　前記プロセッサは、
　　前記解析対象画像を表示し、
　　表示された前記解析対象画像に対するドラッグアンドドロップ操作を受け付け、
　　前記ドラッグアンドドロップ操作の開始点および終了点を、それぞれ、前記頭位置および前記腰位置として前記解析対象画像に対して設定することで前記参照位置を設定する、
　請求項８に記載の姿勢推定装置。
　前記プロセッサは、
　　前記複数の部位領域のそれぞれについて、前記候補領域を決定し、
　　複数の前記候補領域のそれぞれについて、前記候補領域が対応する前記部位領域であることの確からしさを示す部位別尤度を算出し、
　算出された複数の前記部位別尤度の一部または全部に基づいて、前記解析対象画像に含まれる前記人が前記姿勢を取っているか否かを判断する、
　請求項８に記載の姿勢推定装置。
　前記関節ベースリンクモデルは、前記配置を定義する複数の状態変数の組み合わせを含み、
　前記プロセッサは、
　　前記状態変数の値を変化させて、複数の前記姿勢のそれぞれについて、前記複数の点位置および前記複数の部位領域の相対位置関係を決定し、
　　前記複数の姿勢のそれぞれについて、決定された前記相対位置関係と、設定された前記複数の参照位置と、に基づいて、前記複数の候補領域を決定し、
　　前記複数の姿勢のそれぞれについて、決定された前記複数の候補領域に対して前記解析対象画像に含まれる人が取っている可能性が高い姿勢である候補姿勢を決定する、
　請求項８に記載の姿勢推定装置。
　前記プロセッサは、
　　前記複数の状態変数を軸とする姿勢状態空間の次元を主成分分析により削減した低次元姿勢状態空間の、前記複数の参照位置により拘束される超平面を用いて、前記候補領域を決定する、
　請求項１１に記載の姿勢推定装置。
　前記プロセッサは、
　　前記候補姿勢を基準として前記状態変数の値を変化させて、前記候補姿勢に近似する追加候補姿勢の前記相対位置関係を決定し、
　　前記追加候補姿勢の前記相対位置関係と、設定された前記複数の参照位置と、に基づいて、前記解析対象画像における前記複数の部位領域のそれぞれの追加候補領域を決定し、
　　前記追加候補領域に対して、前記解析対象画像に含まれる人が取っている可能性が高い姿勢を決定する、
　請求項１１に記載の姿勢推定装置。
　前記プロセッサは、
　　前記複数の部位別尤度の値が、所定の終了条件を満たすか否かを判断し、
　前記所定の終了条件が満たされていない場合、前記追加候補領域の決定および前記追加姿勢の決定を、直前に決定された前記追加候補姿勢を基準として行う処理を繰り返し、
　前記所定の所定条件が満たされた場合、最後に決定された前記追加候補姿勢を、前記解析対象画像に含まれる人が取っている姿勢であると判定し、
　判定された前記姿勢を示す情報を出力する、
　請求項１３に記載の姿勢推定装置。