JP4677046B2 - 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定 - Google Patents

多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定 Download PDF

Info

Publication number
JP4677046B2
JP4677046B2 JP2009540439A JP2009540439A JP4677046B2 JP 4677046 B2 JP4677046 B2 JP 4677046B2 JP 2009540439 A JP2009540439 A JP 2009540439A JP 2009540439 A JP2009540439 A JP 2009540439A JP 4677046 B2 JP4677046 B2 JP 4677046B2
Authority
JP
Japan
Prior art keywords
patch
appearance
mapping function
dimensional
image sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009540439A
Other languages
English (en)
Other versions
JP2010512581A5 (ja
JP2010512581A (ja
Inventor
ヤン、ミン‐シュエン
ビッサコ、アレッサンドロ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JP2010512581A publication Critical patent/JP2010512581A/ja
Publication of JP2010512581A5 publication Critical patent/JP2010512581A5/ja
Application granted granted Critical
Publication of JP4677046B2 publication Critical patent/JP4677046B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06V10/7747Organisation of the process, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Social Psychology (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Psychiatry (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本出願は、2006年12月6日付けの、“Fast Human Pose Estimation Using Appearance and Motion via Multi-Dimensional Boosting Regression”と題する米国特許仮出願第60/868,830号を基礎とする優先権を主張し、この出願はその全体がここに引用される。
本発明は、一般的には、コンピュータビジョンに関する。より具体的には、動作追跡のための高速人間姿勢推定に関する。
現代コンピュータビジョンにおける重要課題は、ビデオシーケンスにおいて複数の人間について人体全体の追跡を如何に行うか、ということである。人間追跡の適用は、ビデオ監視、ジェスチャ分析、人間−コンピュータインタフェイス及びコンピュータアニメーションを含む。例えば、スポーツビデオゲームを創作する際、ゲームの登場人物をリアルに動かすためには、アスリートの3次元(3D)動作を追跡することが望ましい。生物学的な適用例では、人間関節の動きに関する課題を分析し解決する際に、3D動作追跡は重要な役割を果たす。従来の3D動作追跡においては、被写体が、特別なマーカの付された服を着用したうえで動作を実演し、その動作が複合3Dキャプチュアシステムによって記録される。しかしながら、特別な設備や十分なスタジオ撮影時間を要することから、このような3次元動作キャプチャシステムは高くつく。さらに、従来の3次元モーションキャプチャシステムは、相当な後処理作業を必要とし、この作業が、伝統的な3次元追跡方法をより高価で時間のかかるものにしている。
特別なマーカ又は特別な動作キャプチャ設備を必要とせずに、2D入力画像シーケンスから3D人間動作を追跡するという課題を解決するために、多くの努力が払われてきている。しかしながら、この課題は、いくつかの理由から、相当に困難であるといえる。第1に、3D姿勢情報は2D画像から推定されることから、所与の入力に対して信憑性のある解が多数存在する。隠蔽部分がある場合、このことは特に当てはまる。第2に、人体は、多数のパーツが関節で繋がってできており、これらのパーツの形状及び外観が、照明、衣服、視点及び姿勢のような妨害要因に起因して、画像中で変化する。第3に、許容される解(すなわち、人体の全パーツの全ての可能な位置及び方位)の空間が極端に大きく、この空間のなかから最適な形状を探し出そうとすると、直接的に解を出すには多くのコンピュータパワーを消費する組合せ問題となる。
人間追跡問題が呈する多くの困難に起因して、従来の追跡装置は、生来的に不完全であり、追跡装置は、不正確な推定を提供することに甘んじるか、軌跡全体を失うかのいずれかであるという条件が存在することになる。あるフレームから次のフレームへの間に体肢が大きく移動する高速動作の場合、このことは特に当てはまる。軌跡が失われた際、追跡装置を再初期化するために、典型的には1つの推定姿勢が使用され、追跡装置に対して、それを起点として再追跡が可能な1つの初期姿勢形状を与える。
しかしながら、何ら事前知識がないままで1つの画像から姿勢を推定すること自体が、困難な問題である。従来、この問題は、決定論的最適化、発生モデルを超えた推論、画像領域のセグメント化及びグループ化、又は標本化問題として位置付けられてきた。従来提案されてきた解は、非常に制約が多い外観モデルを前提にするか、信頼性はないものの特定の画像(例えば、スポーツ選手やアスリート)中では目印となりうる皮膚の色や顔の位置のような、キューを使用するかのいずれかであった。姿勢推定作業の大部分は、人体シルエットから3D姿勢を推定するという、単純化問題に焦点を合わせている。これらのアプローチは、シルエットから姿勢に対する、直接的写像、1対多の写像、及び確率論的混合としての写像のいずれかを学習することを試みている。
しかしながら、従来の解決手段は、リアルタイム人間追跡において効果的に使用されるために充分正確かつ高速な姿勢推定を提供していなかった。さらに、従来の姿勢推定器は、入力された画像シーケンスによって提供された外観及び動作情報の両者を活かすことができなかった。したがって、必要とされているのは、外観及び動作特徴を使用する高速姿勢推定のための改良されたシステム及び方法である。
(要約)
2次元画像シーケンス内の被写体を、3次元で姿勢推定する方法及びシステムが開示される。訓練段階において、訓練モジュールは、入力画像シーケンスと、入力画像シーケンス内の被写体の姿勢との間の写像関数を決定する。訓練モジュールは、訓練画像の1つのシーケンスと、画像内の被写体の既知の姿勢の1つのセットとを受け取る。訓練モジュールは、訓練画像のシーケンスの個別画像を生成する。ある実施形態においては、個別画像は、被写体の外観を表現する外観パッチと、複数の画像フレーム間の被写体の動きを表現する動作パッチを含む。こうして、個別画像から、特徴が抽出される。ある実施形態においては、特徴のセットは、様々な方法で計算されたHaar-like特徴を含む。訓練画像のシーケンス内に抽出された特徴に基づいて、訓練モジュールは、1つの多次元回帰関数を学習する。多次元回帰関数は、個別画像と、既知の姿勢に対応する多次元ベクトル出力との間の写像を提供する。ある実施形態においては、多次元ベクトル出力は、その姿勢を完全に記述する複数の関節角度の1つのベクトルを含む。
テスト段階においては、テストモジュールが、未知の姿勢形状内の1つの被写体を含むテスト画像シーケンスを受け取る。訓練段階からの学習された写像関数が、受け取られたテスト画像シーケンスに対して適用される。学習された写像関数は、被写体の1つの姿勢推定を供給する1つの多次元ベクトルを出力する。
本発明の一実施形態に係るコンピュータシステムの一例である。 姿勢推定モジュールの一実施形態を示すブロック図である。 高速人間姿勢推定のための写像関数の学習処理の一実施形態を示すフローチャートである。 外観パッチ及び動作パッチの生成処理の一実施形態を示すフローチャートである。 個別画像から特徴を抽出する処理の一実施形態を示すフローチャートである。 様々な方位のHaar特徴の一例である。 様々な方位のHaar特徴の一例である。 様々な方位のHaar特徴の一例である。 写像関数学習処理の一実施形態を示すフローチャートである。 テスト画像シーケンスの高速人間姿勢推定処理の一実施形態を示すフローチャートである。
本発明の一実施形態を、図を参照しつつ説明する。複数の図にまたがって同様の参照番号が記される場合、それらは同一の又は機能的に類似した構成要素を意味する。本発明は、1つの2次元(2D)入力画像シーケンスから、1つの3次元(3D)人体姿勢を推定する人間追跡アプリケーション用の高速人体姿勢推定装置を提供する。ある第1の実施形態においては、姿勢推定装置は、従来の追跡モジュールを初期化し、追跡が失われた際に追跡装置を再初期化するために使用され得る。他の実施形態においては、姿勢推定装置は、画像シーケンスのフレーム毎に1つの姿勢推定を提供し得る。そして姿勢推定のシーケンス自体は、追跡装置の役割を果たす。従来の姿勢推定装置とは対照的に、本発明の姿勢推定モジュールは、ビデオのフレーム毎に実行される程度に高速であり、リアルタイム追跡アプリケーションに使用され得る。画像シーケンスから外観情報及び動作情報の両者を開発することによって、姿勢推定装置は、高度な正確性を以って動作する。
図1は、本発明の一実施形態が動作するコンピュータシステム100を示している。コンピュータシステム100は、プロセッサ110、入力制御装置102及びメモリ104を含む。
プロセッサ110は、データ信号を処理し、複合命令セットコンピュータ(CISC)アーキテクチャ、縮小命令セットコンピュータ(RISC)アーキテクチャ、又は命令セットの組合せを実装するアーキテクチャのような様々なコンピューティングアーキテクチャを含み得る。図1においては単一のプロセッサが示されているが、複数のプロセッサが含まれていてもよい。プロセッサ110は、算術論理演算ユニット、マイクロプロセッサ、汎用コンピュータ、若しくは、メモリ104、入力制御装置102、又は出力制御装置108、からの電子データ信号を送信し、受信し、かつ処理し得る他の情報処理製品を含む。
入力制御装置102は、コンピュータシステム100に対して入力(例えば、ビデオ入力)を提供する装置であればよい。ある実施形態においては、入力制御装置102は、
1つ又は複数のネットワーク120、データベース130及び画像キャプチュアユニット140(例えば、ビデオカメラ)から入力画像シーケンスを受け取るように作られている。出力制御装置108は、1つ又は複数のデータベース150、ネットワーク160及びディスプレイ170(例えば、有機発光ダイオードディスプレイ(OLED)、液晶ディスプレイ(LCD)、又は陰極管ディスプレイ(CRT))に対して処理済のデータを出力する装置であればよい。
メモリ104は、プロセッサ110によって実行される命令やデータを格納する。命令は、ここで記述される任意の技術を実行するためのコードを含む。メモリ104は、動的ランダムアクセスメモリ(DRAM)デバイス、静的ランダムアクセスメモリ(SRAM)デバイス、フラッシュRAM(不揮発性ストレージ)、これらの組合せ、又は当業界に知られている他のメモリーデバイスであってもよい。メモリ104は、データストア107及び姿勢推定モジュール106を含み、プロセッサ110、入力制御装置102、及び/又は出力制御装置108と接続されている。姿勢推定モジュール106は、後記する姿勢推定処理を実現するためのコンピュータが実行可能な命令を有する。
本発明の主旨と範囲を逸脱せずに図1に示された構成より多くの又はより少ない構成をコンピュータシステム100が含んでもよいことは、当業者にとっては明らかである。例えば、コンピュータシステム100は、一次若しくは二次キャッシュ、又は1若しくは複数の特定用途集積回路(ASICs)のような追加メモリを含んでもよい。同様にコンピュータシステム100は、追加的な入力装置又は出力装置を含んでもよい。
図2は、姿勢推定モジュール106の一実施形態を示す詳細ブロック図である。ある実施形態においては、姿勢推定モジュール106はコンピュータシステム100のプロセッサ110によって実行される、コンピュータに実行可能な命令を有する。姿勢推定モジュール106は、データストア107に格納されたデータ又は入力制御装置102によって受け取られたデータを更に使用してもよい。姿勢推定モジュール106によって使用される出力データ及び中間データは、出力制御装置108によって出力され、及び/又は、データストア107によって格納され得る。当業者には明らかなように、姿勢推定モジュール106の代替的な実施形態は、ファームウエア、ハードウエア又はソフトウエアを組合せることによ実現可能である。
姿勢推定モジュール106は、訓練モジュール202及びテストモジュール204を有する。訓練モジュール202は、例えば、外部データベース130、ネットワーク120、又は画像キャプチュアユニット140から複数の2D訓練画像からなる1つのシーケンスを受け取る。訓練画像206は、既知の姿勢形状208を有する人間像を格納している。姿勢形状208もまた、訓練モジュール202に対して入力される。訓練画像206は、例えば、1つ若しくは複数の被写体の歩行シーケンス又は、任意の数の他の一般動作を有し得る。姿勢形状208は、例えば、関節角度のベクトル又は、3D姿勢を完全に記述する他のあらゆる情報の集合を有し得る。姿勢形状208は、あらゆる従来の3D動作キャプチュア技術を使用して入手され得る。訓練画像シーケンス206及び既知の姿勢形状208を使用して、訓練モジュール202は、訓練画像206内の情報と既知の3D姿勢形状208との間の関係を記述する写像関数210を学習する。別々の動作に対応する多数の別々の訓練画像シーケンス206で、訓練モジュール202は動作し得る。ある実施形態においては、それぞれの写像関数210が別々の動作タイプに対応する状態で、多数の写像関数210が学習される。典型的には、訓練段階は、1つのオフラインモードで実行されるので、写像関数210が学習される回数は1回だけである。一旦写像関数210が、訓練画像206及び姿勢形状208から学習されれば、写像関数210はデータストア107に格納され、テストモジュール204によって使用され得る。
学習された写像関数210は、入力テスト画像シーケンス214内に発見された人間被写体の3D姿勢推定の1つのシーケンスを生成するために、テストモジュール204によって使用される。テストモジュール204は、未知の姿勢形状の人間像を有するテスト画像シーケンス214を受け取り、写像関数を適用し、姿勢推定212を出力する。姿勢推定212は、画像内の被写体(例えば、人間)の姿勢を表現する多次元ベクトルを有する。例えば、3D姿勢推定212は、姿勢を記述する複数の関節角度の1つのベクトルを含み得る。テストモジュール204は、マーカ又は特別な動作キャプチュカメラを使用せずに、2Dテスト画像シーケンス214から、3D姿勢212を推定する。ある実施形態においては、テストモジュール204は、テスト画像シーケンス214を1つ1つの画像毎に受け取り姿勢推定212を生成できる程度に高速で動作する。このようにして、例えば、ビデオのフレーム毎に姿勢推定することが可能である。
図3は、高速人間姿勢推定のための写像関数210を学習する処理の一実施形態を示すフロー図である。訓練モジュール202は、訓練画像シーケンス206を受け取り(ステップ302)、画像シーケンス206から個別画像を生成する(ステップS304)。ある実施形態においては、個別画像は、訓練画像シーケンス206から引き出された動作パッチ及び外観パッチを有する。外観パッチは、画像フレーム内の被写体の外観を表現する、画像フレームからの情報を有する。動作パッチは、画像フレーム間の被写体の動きを表現する情報を有する。動作パッチ及び外観パッチを生成する処理は、図4に沿って更に詳しく後記する。
訓練モジュール202は、個別画像(例えば、動作パッチ及び外観パッチ)から特徴を抽出する(ステップ306)。特徴とは、例えば、様々な方位を有するエッジ及び/又は線のような、画像の特性のことである。特徴を抽出する処理は、図5に沿って更に詳しく後記する。
次に、訓練モジュール202は、写像関数210を学習する(ステップ308)。写像関数210は、抽出された特徴に部分的に基づき、個別画像を既知の人体姿勢形状208に対して対応付ける。例えば、ある実施形態においては、写像関数210は、動作パッチ及び外観パッチの入力ベクトルと、姿勢を表現する複数の関節角度の多次元ベクトルとの間の関係を記述する。写像関数210を学習する処理(ステップ308)は、図7に沿って更に詳しく後記する。
図4のフロー図は、訓練画像シーケンス206の個別画像を生成する処理(ステップ304)の一実施形態を示す。訓練モジュール202は、第1に、訓練画像シーケンス206から受け取った1つの画像フレーム内に人間像を発見する(ステップ402)。人間像発見処理は、当業者に知られており、一例が、P. Violaらの“Detecting Pedestrians Using Patterns of Motion and Appearance”ICCV, p.734-741,2003に更に詳しく記述されている。当該文献の内容は、その全体がここに引用される。発見ステップ402は、発見された人体像を画像フレーム内に境界を定める境界ボックスを出力する。
続いてステップ404の処理は、境界ボックスを使用して、画像フレームから、人体を含む画像パッチを抽出する。パッチは、例えば、明暗度及び分解能(パッチは、64×64のピクセルにまでスケーリングされ得る)のような別々の変数に従って正規化され得る。的確なパッチサイズが、目視に基づいて選択され得る。そしてそのサイズは、観測者が姿勢間の違いを認識できる程度の情報をパッチが含むことを保証するものとする。選択的に、背景ピクセルをマスク除去する背景減算技術を使用して、人体のシルエットが抽出され得る(ステップ408)。いくつかの実施形態においては、このことが、学習速度及び一般化能力を改善する。他の実施形態においては、ステップ408は省略される。ステップ402から406(選択的に408)までの出力結果は、1つの外観パッチIiであり、これは、1つの画像フレーム内の1人の人間の外観を表現している。ある実施形態においては、外観パッチIiは、ピクセル明暗度の2D行列によって表現される。代替的に、例えば、ウエーブレットベースの表現、ガバーフィルタ表現等のような他の表現も使用され得る。
次に、隣接フレーム間の画像値の差の絶対値を計算することによって、外観パッチから動作情報が計算される(ステップ410)。この情報は、画像パッチΔiとして示され、これは式(1)によって与えられる。
ある実施形態においては、前記したViolaらが記述する技術と同様の技術を使用し、第1の画像とシフトされた第2の画像との差を取ることによって、動作の方向が決定され得る。例えば、画像パッチIi+1は、1ピクセル分だけ上にシフトされ、シフトされた画像パッチIi+1と、直前の画像パッチIiとの差が決定され得る。同様に、画像パッチIi+1は、左に、右に又は下にシフトされ、Iiと比較され得る。この差に基づき、最もありそうな動作の方向が決定され得る。訓練モジュール202により考慮される特徴の数を制限するために、この追加情報源は選択的に省略され得る。
更に他の実施形態においては、動作パッチΔiは、連続する2より多いビデオフレーム間の一時的な情報を含む。正規化された外観パッチIi及び動作パッチΔiは、特徴を抽出し(ステップ306)写像関数210を学習する(ステップ308)ために使用されることになる入力ベクトルxi = {Ii, Δi }を形成する。
外観パッチIi及び動作パッチΔiから特徴を抽出する処理(ステップ306)の一実施形態を次に説明する。ある実施形態においては、前記したViolaらが記述する特徴と同様のHaar-like特徴が画像から抽出される。一般的に、サイズも位置も縦横比も異なる、画像内の複数の長方形領域間の差を測定する1セットのフィルタを、画像に対して適用することによって、Haar特徴は抽出される。積分画像から、非常に効率的に特徴が計算され得るという、長所がある。
しかしながら、Violaらの文献で適用されているHaarフィルタは、顔面、又は歩行者のいずれかを発見するために使用されており、人体全体の姿勢発見のために使用されてはいない。顔面又は歩行者の発見では、対象を背景から区別するには、一辺が約20ピクセルある小型の画像パッチがあれば充分である。しかしながら、本発明の人体全体の姿勢問題においては、より高解像度なパッチを使用するのが望ましい(例えば、64×64ピクセル)。このことは、体肢の記述が、数ピクセルしかない領域に制限されてしまうのを防ぐ。高い分解能を使用するほど、ノイズに対する敏感度は下がり、高い性能を発揮する。しかしながら、パッチサイズを大きくすると、そのパッチに該当する基底Haar特徴の数も増加し(およそ、面積に比例する)、特徴抽出に使用される計算レベルも上昇する。そこで、大きな面積の外観パッチ及び動作パッチに対し、Haarフィルタを適用するコンピュータ負担を低減するために、後記する技術が使用される。
図5に、本発明の一実施形態に係る特徴抽出処理(テップ306)が示されている。ある実施形態においては、当該処理は、画像から一時的な空間情報を抽出するために、人体に合わせて作られた1セットの微分フィルタを使用する。画像フレームから3D姿勢推定への写像関数210学習するブースト処理において使用するための、特徴の大きなプールが創設される。第1に、フィルタのセットが生成される(ステップ502)。図6A〜図6Cに示されるように、数個の主たる方位に計算された回転バージョンを導入することにより、基底垂直Haar特徴のセットが拡張される。このことは、特徴があらゆる任意の方位を有する体肢を分離することを可能にする。例えば、ある実施形態において、エッジ特徴の1つのタイプ(図6A)と、線特徴の2つのタイプ(図6B、図6C)とが使用されており、それぞれの特徴が18の互いに異なる方位を有し、それらの方位は、[0,π]の値域内で18等分した角度だけ離隔している。例えば、図6Cの特徴は、体肢とマッチングするのに適している一方、図6A及び図6Bの特徴は、胴体、頭部及び全身とマッチングするのに適している。特徴は、パッチの内側において、任意の位置を有し得る。
大きな特徴セットのコンピュータ負担を削減するために、ある実施形態は、特徴抽出のために適用されるフィルタのフルセットから、フィルタのサブセットを選択する。例えば、フィルタセットのそれぞれの四角形が、最小の面積(例えば、80ピクセル)しか有さないように制限することができるし、及び/又は、縁からの距離を制限される(例えば、四角形は、縁から8ピクセル以上離れる)こともできる。更に、複数の四角形は、均等な幅及び均等な高さを有する四角形に制限されることもできる。更にフィルタの数を制限するために、フィルタのセットのうちからK個のフィルタを、一様標本化によって無作為に選択する(ステップ504)。次に、特徴を抽出するために、外観パッチ及び動作パッチに対してフィルタのセットを適用する(ステップ506)。このアプローチを使用して、画像パッチの回転バージョン上に計算された積分画像から、非常に効率的に、方位特徴が抽出され得る。当該処理は、画像毎にK個の特徴の1つのセットを出力する(ステップ508)。
多次元写像関数210を学習する処理(ステップ308)の一実施形態を説明する。ブースト回帰処理は、写像関数210を構築するための基底成分として使用されるべき最も参考となる特徴を、特徴の大きなプールから自動的に選択する方法である。ブースト回帰技術の例は、J. H. Friedmanの“Greedy Function Approximation: A Gradient Boosting Machine,”Annals of Statistics, 29:1189-1232,2001.3,4、A Torralbaの“Sharing Features: Efficient Boosting Procedures for Multiclass Object Detection,”CVPR,2004及びS,K,Zhouらの“Image Based Regression Using Boosting Method,”ICCV,2005に記述されており、これらの文献の内容は、その全体がここに引用される。
従来の処理においては、導関数F *(x)は、入力されたベクトルxをスカラの出力yに写像していた。したがって、各関節角度のベクトル全体を決定するためには、関節角度毎に別々の写像関数が学習され、適用される。典型的には、期待損失は、経験推定値によって近似され、回帰問題は式(2)のように書き表される。
基底関数hを用いてF(x)を追加的に拡大することによって、正規化が課され得る。
一般的に、hは、L -末端ノード分類回帰ツリー(CART)であって、そこでは、内部ノードが、特徴応答を閾値と比較することによって親ノードに関連付けられた区分を分割し、葉は最終値Am を記述する。CARTは、L.Brieman らの“Classification and Regression Tree,”Wadsworth & Brooks, 1984,4,6,8に更に詳しく記述されており、この文献の内容は、その全体がここに引用される。式(2)は、greedy stagewiseアプローチによって解くことができる。このアプローチでは、損失関数を最大に減少させる基底関数h(x; Am, Rm)のパラメータが、ステップm毎に決定される。
基底学習子hは、区分定値関数であるので、勾配降下法によって前記方程式を解きパラメータを求めることは、複雑な処理になる。hのRimについての偏微関数は、ディラックのデルタ関数である。勾配ツリーブーストは、2ステップアプローチで式(2)を解く、効果的な近似最小化スキームである。勾配ツリーブーストは、前記のJ. H. Friedmanによってより詳しく記述されている。
第1に、当該処理は、基底学習子h(x; A, R)を擬残差に近似する最小二乗法により、入力空間区分Rm(L−ノード回帰ツリー)を発見する。
入力区分R及び関数値Aの両方が、式(6)で計算される。この場合、勾配ツリーブーストアルゴリズムは、式(5)に帰着する。
勾配ツリーブースト処理のある実施形態においては、推定された回帰ツリーは、現在の近似値を更新する前に、収縮パラメータ0 < ν < 1(例えばν = 0.5)によってスケーリングされる。ここで、νは、学習率(値が小さいほど、よい一般化に繋がる)を制御する。
hsは、前記した基底学習子hの特別な場合であることが分かる。
更に、Zhouは、基底関数としての決定幹に制限されている一方で、本発明のブーストフレームワークは一般的な回帰ツリーをサポートしている。
次に、本発明の一実施形態に係る多次元写像を効果的に処理するために、前記した勾配ツリーブースト処理に対する拡張が提供される。
姿勢推定への適用においては、例えば、pは、関節角度の数を表す。ある実施形態においては、関節角度の数は、関節の数に3を乗じた数になる。各関節は、3つの角度のセットによって表されるからである。入力xiは、訓練画像シーケンス206から先に導かれた、正規化された外観パッチ及び動作パッチである。出力yiは、画像シーケンス206に対応する既知の姿勢形状208のベクトルであり、例えば、姿勢を記述する関節角度のベクトルであってもよい。従来技術とは異なり、入力xi及び出力yiの両者ともベクトルである。このように、関数は、多数の写像関数を使用して関節角度を導くというよりは、所与の入力に対して関節角度の完備ベクトルを提供し得る。多次元ツリーブースト処理は、写像関数F(x)が基底区分定値(ベクトル)関数の合計として表現され得ることを前提としている。
当該処理は、損失関数Ey,x = Ψ(y, F(x))の期待値を最小化する写像関数F(x)を決定する。
姿勢推定の適用については、このことは、特徴の同じセットを共有し、従って表現の効率性を実質的に改善する関節角度回帰と結果的に同じとなる。
Haar特徴応答について決定幹を基底学習子として使用する、本発明の一実施形態に係る多次元勾配ツリーブーストのための処理が、図7に示され、以降に記述される。損失関数として、例えば、最小二乗(LS)又は最小絶対偏差(LAD)を使用する処理が実行され得る。
当該処理は、反復アプローチを使用して写像関数210を導く。停止目標に達するまで、当該処理は写像関数210を繰返し更新する。以降の説明では、m回目の反復によって導かれた写像関数を、Fm (x)と記す。
当該処理は、第1に、写像関数210を、損失関数Ψ(y, F(x))を最小化する定値関数F0(x)に初期化する(ステップ702)。LS損失関数が使用される場合は、定値関数F0(x)は、訓練出力yiの平均値(すなわち、既知の姿勢形状208)に初期化される。LAD損失関数が使用される場合は、定値関数F0(x)は、訓練出力yiの中央値に初期化される。
LS損失関数が使用される場合は、擬残差は、訓練残差yi - Fm-1(xi)から計算される(ステップ704)。LAD損失関数が使用される場合は、擬残差は、訓練残差の符号から計算される
擬残差は、既知の姿勢形状208と、訓練入力206に対して適用される現在の写像関数Fm-1(x)(すなわち、直前の反復において導かれた写像関数)の出力との間の誤差を記述する。最適な特徴km及びそれに対応する閾値θmを発見することによって、領域Rlmが計算される(ステップ706)。
ある実施形態においては、入力空間を、決定ツリー又は決定幹を使用して、複数の領域Rlmに区分する。決定ツリー(及び幹)は、複数の領域(area)の中に、入力ベクトルを区分する。これらの領域は、幹を使用して順々に更に区分されうる。すなわち、情報が葉ノードで集められ得る。
そして、最も誤差の小さい特徴が選択される。最小二乗目標が、値aiを効果的に発見することを可能にしている。最適の閾値θmをサーチしている間、出力の平均値が、特徴値によってインクリメントして計算されているだけであるからである。
式(16)により、基底幹学習子hsの2つのベクトルパラメータa1, a2が決まる(ステップ708)。これらのベクトルパラメータは、直前のステップ706において発見された2つの領域内の残差の定値予測である。
LS損失関数が使用される場合は、パラメータa1, a2は、各領域の単純残差の平均値として計算される。LAD損失関数が使用される場合は、パラメータa1, a2は、単純残差の中央値として計算される。幹学習子関数hs学習率υによってスケーリングされたうえで現在の写像関数Fm-1(x)に加えられ(ステップ710)、更新された写像関数Fm(x)となる。
当該処理は、M回だけ反復される(ステップ712)。ある実施形態においては、Mは、事前に決定された定値である。
図7の処理は、幹に限定されることなく、任意の決定ツリー用に定式化され得る。例えば、分類回帰ツリー(CART)が、基底関数h(x)として適用され得る。区分定値関数をモデル化する決定ツリーも存在する。
そして、末端の葉は、入力空間区分Rlmを定義する。
開示されている方法は、多次元回帰関数を導く勾配ブースト技術を、有利に提供する。関節角度毎に別々の回帰関数を学習することに替わって、人体全体の姿勢を表現する関節角度のセットに特徴を写像するベクトル関数が学習される。多次元写像を学習する効果のひとつは、関節角度推定量が、同じ特徴のセットを共有できるということである。自然な人間姿勢の関節角度間には高度の相関関係があるがゆえに、このことは有用である。姿勢推定量の計算は、スカラのカウンターパートを収集するよりも、明らかに高速である。姿勢推定量の計算が使用するのは、ターゲット空間の有効次元とともに増す特徴の数であって、その特徴の数は、関節角度の数とともに増すのではないからである。記述した実施形態は、異なる尺度(scales)の成分を有する多次元写像近似に向いており、拡張して、回帰ツリーのようなより複雑な基底関数を含んでもよい。
図8に、高速人間姿勢推定処理の一実施形態が示されている。テストモジュール204は、入力テスト画像を214を受け取り(ステップ802)、テスト画像の個別画像を生成する(ステップ804)。ある実施形態においては、個別画像は、前記した図4の処理に従って生成された外観パッチ及び動作パッチを有する。学習された写像関数210は、個別画像に対して適用される(ステップ806)。写像関数210は、例えば、テスト画像214内の被写体の姿勢を記述する複数の関節角度の1つのベクトルを有する姿勢推定を出力する(ステップ808)。効果として、写像関数210の適用は、姿勢を完全に記述するベクトル出力を生成する。ある実施形態においては、テストモジュールは、標準フレームレート(例えば、毎秒30フレーム)を有するビデオ入力のフレーム毎に姿勢推定を提供するために充分な速度で、図8の処理を実行する。
本明細書において、“ある実施形態”又は“1つの実施形態”と言う場合は、本発明の少なくとも1つの実施形態に、その実施形態に関連して記述される1つの特徴又は構造が含まれていることを意味する。本明細書のあちこちに“ある実施形態では”という語が出現しても、必ずしも同一の実施形態を指しているわけではない。
詳細説明のいくつかの部分は、アルゴリズム用語や、コンピュータメモリ内のデータビット操作を示す象徴的な表現による。これらのアルゴリズム的な説明や表現は、情報処理分野の当業者が、自らの業績の要旨を、同分野の他の当業者に最も効率的に伝えるために用いる手段である。アルゴリズムとは、ここでは、そして一般的にも、ある所望の結果に至る複数のステップ(命令)の首尾一貫したシーケンスのことを言う。ステップとは、物理量に対する物理的操作を要求するステップのことである。必要条件ではないものの、通常、それらの数値は、記憶され、転送され、合成され、比較されかつ操作され得る、電子的、磁気的又は光学的信号の形を取る。これらの信号のことを、ビット、値、要素、シンボル、文字、語又は番号等と呼ぶことが主として用語の共通化の理由から便宜である。さらに、物理量に対する物理的操作を要求するステップの配列のうちいくつかのものは、一般性を失うことなく、モジュール又はコードデバイスと呼ぶことが便宜である。
しかし、このような用語の全ては適当な物理量と関連付けられており、これらの物理量に付された単なる便宜的なラベルに過ぎない。後記において特段の説明がない限り、明細書本文全体を通じて、“処理”、“コンピューティング”、“計算”、“決定”又は“表示”等の用語を用いた説明は、(電子的な)物理量としてのデータを、コンピュータシステムのメモリ、レジスタ又は他の情報ストレージのなかで操作しかつ変形するコンピュータシステムや同様の電子的コンピューティングデバイスの動作や処理のことを言う。
本発明のいくつかの側面は、アルゴリズムの形になったプロセスステップや命令を含む。本発明のプロセスステップや命令は、ソフトウエア、ファームウエア又はハードウエアによって実施され、ソフトウエアで実施される場合は、ダウンロードされることが可能であり、多様なオペレーティングシステムが用いる別のプラットフォームから操作されることも可能である。
本発明は、操作を実行する装置にも関する。この装置は、所与の目的を達成する専用装置であってもよいし、コンピュータに記憶されたコンピュータプログラムによって動作する汎用コンピュータであってもよい。このようなコンピュータプログラムは、コンピュータが読取り可能な媒体に記憶され得る。その媒体とは、コンピュータシステムバスに接続可能な、フロッピー(登録商標)ディスク、光ディスク、CD−ROM、電磁光学的ディスク、ROM、RAM、EPROM、EEPROM、電磁的又は光学的カード、ASIC又は電子的命令を記憶し得るあらゆる媒体を含むが、これらに限定されない。さらに、本明細書で言うコンピュータは、単体のプロセッサを含んでもよいし、コンピュータ能力を増加させるために複数のプロセッサを用いた装置であってもよい。
ここでいうアルゴリズムやディスプレイは、もともと特定のコンピュータや他の装置に関係している訳ではない。ここで教示される内容に従って、プログラムとともに多様な一般目的システムが使用され得る。又は、必要とされる方法ステップを実行するためにさらに特化した装置を作成することも便宜である。これらのシステムのそれぞれについてどのような構成が必要となるかは、前記した明細書本文から明らかになる。さらには、本発明は特定のプログラム言語を参照して記載されるものではない。本発明の教示を実装するために、多様なプログラム言語が使用され得る。前記において特定の言語に言及した場合、それは本発明の実施可能性及びベストモードを開示するためである。
さらに、本明細書で使用される言語は、主として読み易さ及び教育目的から選択されているのであって、本発明の主旨を限定するために選択されているのではない。従って、本発明の開示は、特許請求の範囲にて記述されている本発明の範囲を例示するものであるが限定するものではない。
100 コンピュータシステム
102 入力制御装置
104 メモリ
106 姿勢推定モジュール
107 データストア
108 出力制御装置
110 プロセッサ
120 ネットワーク
130 データベース
140 画像キャプチュアユニット
150 データベース
160 ネットワーク
170 ディスプレイ
202 訓練モジュール
204 テストモジュール
206 訓練画像シーケンス
208 3次元姿勢形状
210 写像関数
212 3次元姿勢推定
214 テスト画像シーケンス

Claims (20)

  1. 身体姿勢推定のための写像関数を決定するコンピュータを用いた方法であって、
    前記コンピュータのプロセッサは、
    移動する被写体の2次元訓練画像シーケンスと、前記移動する被写体の前記2次元訓練画像シーケンスに対応する3次元身体姿勢表現のシーケンスと、を受け取り、
    前記2次元訓練画像シーケンス中の前記2次元訓練画像のそれぞれに対応する、前記2次元訓練画像シーケンス中の前記移動する被写体の外観を表現する外観パッチと、前記2次元訓練画像シーケンスの複数の画像フレーム間での前記被写体の動作を表現する動作パッチとのセットを決定し、
    前記外観パッチ及び前記動作パッチから特徴を抽出し、
    前記抽出された特徴に少なくとも部分的に基づく多次元ブースト回帰を、前記外観パッチ及び前記動作パッチに対して適用して、前記2次元訓練画像の外観パッチと動作パッチとのセットのそれぞれを、前記被写体の3次元身体姿勢表現に写像する前記写像関数を導出し、
    前記多次元ブースト回帰を適用することは、
    前記写像関数を初期値に初期化し、
    前記被写体の姿勢と、前記2次元訓練画像シーケンスに対して前記写像関数を適用した結果との間の差を表現する擬残差を計算し、
    前記計算された擬残差に基づいて、特徴のセットのうちの最適な特徴及び最適な閾値を決定し、
    前記最適な特徴及び前記最適な閾値を使用して、学習子関数のパラメータを決定し、
    前記学習子関数を前記写像関数と結合して、前記写像関数を更新することを含むこと、
    を特徴とする方法。
  2. 前記プロセッサは、
    前記写像関数を記憶媒体に格納すること、
    を特徴とする請求項1に記載の方法。
  3. 前記外観パッチを決定することは、
    前記2次元訓練画像シーケンスの画像フレーム内に前記被写体を発見し、
    前記発見された被写体の境界を決める、前記画像フレームの部分を抽出すること、を含むこと、
    を特徴とする請求項に記載の方法。
  4. 前記外観パッチを決定することは、
    前記画像フレームの前記抽出された部分を、正規化パラメータに従って正規化することを含むこと、
    を特徴とする請求項に記載の方法。
  5. 前記動作パッチを決定することは、
    第1の画像フレームから抽出された第1の外観パッチと、第2の画像フレームから抽出された第2の外観パッチとの間の、画像値の差を計算することを含むこと、
    を特徴とする請求項に記載の方法。
  6. 前記外観パッチ及び前記動作パッチから特徴を抽出することは、
    特徴フィルタのセットを生成し、
    前記特徴フィルタのセットから特徴フィルタのサブセットを無作為に選択し、
    前記外観パッチ及び前記動作パッチに対して前記選択した特徴フィルタのサブセットを適用し、
    前記特徴フィルタのサブセットの適用から結果として生じる特徴を出力すること、を含むこと、
    を特徴とする請求項1に記載の方法。
  7. 前記特徴フィルタのセットは、
    複数の方位を有するHaarフィルタを含むこと、
    を特徴とする請求項に記載の方法。
  8. 前記写像関数を初期値に初期化することは、
    前記写像関数を前記姿勢の平均値を含む定数値に設定することを含むこと、
    を特徴とする請求項に記載の方法。
  9. 前記学習子関数の前記パラメータを決定することは、
    前記最適な特徴及び前記最適な閾値に基づいて、前記2次元訓練画像シーケンスから、画像の第1のセット及び画像の第2のセットを決定し、
    前記画像の第1のセットに対応する第1の領域内で計算された残差の平均値を表現する第1のパラメータを決定し、
    前記画像の第2のセットに対応する第2の領域内で計算された残差の平均値を表現する第2のパラメータを決定することを含むこと、
    を特徴とする請求項に記載の方法。
  10. 前記学習子関数を前記写像関数と結合することは、
    学習率によって前記学習子関数をスケーリングし、
    前記スケーリングされた学習子関数を前記写像関数に加えることを含むこと、
    を特徴とする請求項に記載の方法。
  11. 高速人間身体姿勢推定のためのコンピュータを用いた方法であって、
    前記コンピュータのプロセッサは、
    移動する被写体の2次元テスト画像シーケンスを受け取り、
    前記2次元テスト画像シーケンス中の前記移動する被写体の外観を表現する外観パッチと、前記2次元テスト画像シーケンスの複数の画像フレーム間での前記被写体の動作を表現する動作パッチとのセットを前記2次元テスト画像シーケンスから決定し、
    前記外観パッチ及び前記動作パッチに対して、学習された写像関数を適用して、前記2次元テスト画像の外観パッチと動作パッチとのセットのそれぞれを、前記2次元テスト画像シーケンス中の前記移動する被写体の3次元身体姿勢表現を含む多次元出力に対して写像し、
    前記学習された写像関数は、
    訓練画像シーケンスについて実行される多次元ブースト回帰から導出され、
    前記多次元ブースト回帰は、
    前記訓練画像シーケンスから抽出された特徴に少なくとも部分的に基づいており、
    前記学習された学習関数は、
    前記写像関数を初期値に初期化し、
    前記被写体の姿勢と、前記訓練画像シーケンスに対して前記写像関数を適用した結果との間の差を表現する擬残差を計算し、
    前記計算された擬残差に基づいて、特徴のセットのうちの最適な特徴及び最適な閾値を決定し、
    前記最適な特徴及び前記最適な閾値を使用して、学習子関数のパラメータを決定し、
    前記学習子関数を前記写像関数と結合して、前記写像関数を更新することによって導出され、
    前記コンピュータのプロセッサは、
    前記テスト画像表現を表現する前記外観パッチ及び前記動作パッチに対して前記学習された写像関数を適用した結果である身体姿勢推定を出力すること、
    を特徴とする方法。
  12. 前記動作パッチを決定することは、
    第1の画像フレームから抽出された第1の外観パッチと、第2の画像フレームから抽出された第2の外観パッチとの間の、画像値の差を計算することを含むこと、
    を特徴とする請求項11に記載の方法。
  13. 前記抽出された特徴は、
    特徴フィルタのセットを生成するステップと、
    前記特徴フィルタのセットから、特徴フィルタのサブセットを無作為に選択するステップと、
    前記選択した特徴フィルタのサブセットを前記外観パッチ及び前記動作パッチに適用するステップと、
    前記フィルタのサブセットを適用した結果である特徴を出力するステップと、を含む処理に従って導出されること、
    を特徴とする請求項11に記載の方法。
  14. 身体姿勢推定のための写像関数を決定するコンピュータを機能させるプログラムであって、
    前記プログラムは、
    前記コンピュータのプロセッサに対して、
    移動する被写体の2次元訓練画像シーケンスと、前記移動する被写体の前記2次元訓練画像シーケンスに対応する3次元身体姿勢表現のシーケンスと、を受け取り、
    前記2次元訓練画像シーケンス中の前記2次元訓練画像のそれぞれについて、前記2次元訓練画像シーケンス中の前記移動する被写体の外観を表現する外観パッチと、前記2次元訓練画像シーケンスの複数の画像フレーム間での前記被写体の動作を表現する動作パッチとのセットを決定し、
    前記外観パッチ及び前記動作パッチから特徴を抽出し、
    前記抽出された特徴に少なくとも部分的に基づく多次元ブースト回帰を、前記外観パッチ及び前記動作パッチに対して適用して、前記2次元訓練画像の外観パッチと動作パッチとのセットのそれぞれを、前記被写体の3次元身体姿勢表現に写像する前記写像関数を導出するステップを実行させ、
    前記多次元ブースト回帰を適用することは、
    前記写像関数を初期値に初期化し、
    前記被写体の姿勢と、前記2次元訓練画像シーケンスに対して前記写像関数を適用した結果との間の差を表現する擬残差を計算し、
    前記計算された擬残差に基づいて、特徴のセットのうちの最適な特徴及び最適な閾値を決定し、
    前記最適な特徴及び前記最適な閾値を使用して、学習子関数のパラメータを決定し、
    前記学習子関数を前記写像関数と結合して、前記写像関数を更新することを含むこと、
    を特徴とするプログラム
  15. 前記プログラムは、
    前記コンピュータのプロセッサに対し、
    前記写像関数を記憶媒体に格納するステップを実行させること、
    を特徴とする請求項14に記載のプログラム。
  16. 前記動作パッチを決定することは、
    第1の画像フレームから抽出された第1の外観パッチと、第2の画像フレームから抽出された第2の外観パッチとの間の、画像値の差を計算することを含むこと、
    を特徴とする請求項14に記載のプログラム
  17. 前記外観パッチ及び前記動作パッチから特徴を抽出することは、
    特徴フィルタのセットを生成し、
    前記特徴フィルタのセットから特徴フィルタのサブセットを無作為に選択し、
    前記外観パッチ及び前記動作パッチに対して前記選択した特徴フィルタのサブセットを適用し、
    前記特徴フィルタのサブセットの適用から結果として生じる特徴を出力することを含むこと、
    を特徴とする請求項14に記載のプログラム
  18. 身体姿勢推定のための写像関数を決定するシステムであって、
    前記システムは、
    移動する被写体の2次元訓練画像シーケンスと、前記移動する被写体の前記2次元訓練画像シーケンスに対応する3次元身体姿勢表現のシーケンスと、を受け取る入力制御装置と、
    プロセッサと、
    前記プロセッサによって実行される訓練モジュールを格納するコンピュータ読取可能な記憶媒体と、
    を有し、
    前記訓練モジュールは、
    前記2次元訓練画像シーケンス中の前記2次元訓練画像のそれぞれに対応する、前記2次元訓練画像シーケンス中の前記移動する被写体の外観を表現する外観パッチと、前記2次元訓練画像シーケンスの複数の画像フレーム間での前記被写体の動作を表現する動作パッチとのセットを決定し、
    前記外観パッチ及び前記動作パッチから特徴を抽出し、
    前記抽出された特徴に少なくとも部分的に基づく多次元ブースト回帰を、前記外観パッチ及び前記動作パッチに対して適用して、前記2次元訓練画像の外観パッチと動作パッチとのセットのそれぞれを、前記被写体の3次元身体姿勢表現に写像する前記写像関数を導出し、
    前記写像関数を初期値に初期化し、
    前記被写体の姿勢と、前記2次元訓練画像シーケンスに対して前記写像関数を適用した結果との間の差を表現する擬残差を計算し、
    前記計算された擬残差に基づいて、特徴のセットのうちの最適な特徴及び最適な閾値を決定し、
    前記最適な特徴及び前記最適な閾値を使用して、学習子関数のパラメータを決定し、
    前記学習子関数を前記写像関数と結合して、前記写像関数を更新すること、
    を特徴とするシステム。
  19. 前記動作パッチを決定することは、
    第1の画像フレームから抽出された第1の外観パッチと、第2の画像フレームから抽出された第2の外観パッチとの間の、画像値の差を計算することを含むこと、
    を特徴とする請求項18に記載のシステム。
  20. 前記訓練モジュールは、
    特徴フィルタのセットを生成し、
    前記特徴フィルタのセットから特徴フィルタのサブセットを無作為に選択し、
    前記外観パッチ及び前記動作パッチに対して前記選択した特徴フィルタのサブセットを適用し、
    前記特徴フィルタのサブセットの適用から結果として生じる特徴を出力すること、
    を特徴とする請求項18に記載のシステム。
JP2009540439A 2006-12-06 2007-12-05 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定 Expired - Fee Related JP4677046B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US86883006P 2006-12-06 2006-12-06
PCT/US2007/086458 WO2008070701A2 (en) 2006-12-06 2007-12-05 Fast human pose estimation using appearance and motion via multi-dimensional boosting regression

Publications (3)

Publication Number Publication Date
JP2010512581A JP2010512581A (ja) 2010-04-22
JP2010512581A5 JP2010512581A5 (ja) 2011-01-20
JP4677046B2 true JP4677046B2 (ja) 2011-04-27

Family

ID=39493047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009540439A Expired - Fee Related JP4677046B2 (ja) 2006-12-06 2007-12-05 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定

Country Status (3)

Country Link
US (1) US7778446B2 (ja)
JP (1) JP4677046B2 (ja)
WO (1) WO2008070701A2 (ja)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100682987B1 (ko) * 2005-12-08 2007-02-15 한국전자통신연구원 선형판별 분석기법을 이용한 3차원 동작인식 장치 및 그방법
US20090232365A1 (en) * 2008-03-11 2009-09-17 Cognimatics Ab Method and device for face recognition
JP5098981B2 (ja) * 2008-12-08 2012-12-12 トヨタ自動車株式会社 顔部位検出装置
US8565476B2 (en) * 2009-01-30 2013-10-22 Microsoft Corporation Visual target tracking
US8565477B2 (en) * 2009-01-30 2013-10-22 Microsoft Corporation Visual target tracking
US8588465B2 (en) 2009-01-30 2013-11-19 Microsoft Corporation Visual target tracking
US8682028B2 (en) 2009-01-30 2014-03-25 Microsoft Corporation Visual target tracking
US8577084B2 (en) 2009-01-30 2013-11-05 Microsoft Corporation Visual target tracking
US8577085B2 (en) 2009-01-30 2013-11-05 Microsoft Corporation Visual target tracking
US8267781B2 (en) 2009-01-30 2012-09-18 Microsoft Corporation Visual target tracking
US8773355B2 (en) * 2009-03-16 2014-07-08 Microsoft Corporation Adaptive cursor sizing
US8638985B2 (en) 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8503720B2 (en) 2009-05-01 2013-08-06 Microsoft Corporation Human body pose estimation
US8358839B2 (en) * 2009-11-30 2013-01-22 Xerox Corporation Local regression methods and systems for image processing systems
CN101794515B (zh) * 2010-03-29 2012-01-04 河海大学 基于协方差和二叉树支持向量机的目标检测***及方法
US8811743B2 (en) 2010-06-09 2014-08-19 Microsoft Corporation Resource-aware computer vision
CN101976345B (zh) * 2010-09-30 2013-02-06 哈尔滨工程大学 一种噪声条件下图像尺度不变模式识别方法
JP5671928B2 (ja) * 2010-10-12 2015-02-18 ソニー株式会社 学習装置、学習方法、識別装置、識別方法、およびプログラム
US8942917B2 (en) 2011-02-14 2015-01-27 Microsoft Corporation Change invariant scene recognition by an agent
US8620026B2 (en) * 2011-04-13 2013-12-31 International Business Machines Corporation Video-based detection of multiple object types under varying poses
US9076227B2 (en) * 2012-10-01 2015-07-07 Mitsubishi Electric Research Laboratories, Inc. 3D object tracking in multiple 2D sequences
US9857470B2 (en) 2012-12-28 2018-01-02 Microsoft Technology Licensing, Llc Using photometric stereo for 3D environment modeling
US9940553B2 (en) 2013-02-22 2018-04-10 Microsoft Technology Licensing, Llc Camera/object pose from predicted coordinates
WO2014149827A1 (en) * 2013-03-15 2014-09-25 REMTCS Inc. Artificial neural network interface and methods of training the same for various use cases
CN103679677B (zh) * 2013-12-12 2016-11-09 杭州电子科技大学 一种基于模型互更新的双模图像决策级融合跟踪方法
CN105096304B (zh) 2014-05-22 2018-01-02 华为技术有限公司 一种图像特征的估计方法和设备
US9832373B2 (en) 2014-06-24 2017-11-28 Cyberlink Corp. Systems and methods for automatically capturing digital images based on adaptive image-capturing templates
JP6628494B2 (ja) * 2015-04-17 2020-01-08 Kddi株式会社 実空間情報によって学習する識別器を用いて物体を追跡する装置、プログラム及び方法
CN105631861B (zh) * 2015-12-21 2019-10-01 浙江大学 结合高度图从无标记单目图像中恢复三维人体姿态的方法
CN105975923B (zh) * 2016-05-03 2020-02-21 湖南拓视觉信息技术有限公司 用于跟踪人体对象的方法和***
US10726573B2 (en) * 2016-08-26 2020-07-28 Pixart Imaging Inc. Object detection method and system based on machine learning
CN107786867A (zh) 2016-08-26 2018-03-09 原相科技股份有限公司 基于深度学习架构的图像辨识方法及***
WO2018058419A1 (zh) * 2016-09-29 2018-04-05 中国科学院自动化研究所 二维图像人体关节点定位模型的构建方法及定位方法
US10235771B2 (en) 2016-11-11 2019-03-19 Qualcomm Incorporated Methods and systems of performing object pose estimation
US10863206B2 (en) * 2018-11-08 2020-12-08 Alibaba Group Holding Limited Content-weighted deep residual learning for video in-loop filtering
CN109949368B (zh) * 2019-03-14 2020-11-06 郑州大学 一种基于图像检索的人体三维姿态估计方法
CN112906438B (zh) * 2019-12-04 2023-05-02 内蒙古科技大学 人体动作行为的预测方法以及计算机设备
CN116507276A (zh) * 2020-09-11 2023-07-28 爱荷华大学研究基金会 用于机器学习以从图像分析肌肉骨骼康复的方法和设备
CN115661929B (zh) * 2022-10-28 2023-11-17 北京此刻启动科技有限公司 一种时序特征编码方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5404167A (en) * 1993-03-12 1995-04-04 At&T Corp. Subband color video coding using a reduced motion information subband
US6009210A (en) 1997-03-05 1999-12-28 Digital Equipment Corporation Hands-free interface to a virtual reality environment using head tracking
US6741756B1 (en) 1999-09-30 2004-05-25 Microsoft Corp. System and method for estimating the orientation of an object
ATE294423T1 (de) * 1999-11-09 2005-05-15 Univ Manchester Identifizierung oder überprüfung von objektklassen, oder erzeugung von objektbildern
KR100507780B1 (ko) * 2002-12-20 2005-08-17 한국전자통신연구원 고속 마커프리 모션 캡쳐 장치 및 방법
GB0308943D0 (en) 2003-04-17 2003-05-28 Univ Dundee A system for determining the body pose of a person from images
EP1631937B1 (en) * 2003-06-12 2018-03-28 Honda Motor Co., Ltd. Target orientation estimation using depth sensing
US7894647B2 (en) * 2004-06-21 2011-02-22 Siemens Medical Solutions Usa, Inc. System and method for 3D contour tracking of anatomical structures
US7804999B2 (en) * 2005-03-17 2010-09-28 Siemens Medical Solutions Usa, Inc. Method for performing image based regression using boosting

Also Published As

Publication number Publication date
US20080137956A1 (en) 2008-06-12
WO2008070701A3 (en) 2008-10-23
WO2008070701A2 (en) 2008-06-12
US7778446B2 (en) 2010-08-17
JP2010512581A (ja) 2010-04-22

Similar Documents

Publication Publication Date Title
JP4677046B2 (ja) 多次元ブースト回帰を経た外観及び動作を使用する高速人間姿勢推定
US20220358770A1 (en) Scene reconstruction in three-dimensions from two-dimensional images
Jain et al. Learning human pose estimation features with convolutional networks
Bissacco et al. Fast human pose estimation using appearance and motion via multi-dimensional boosting regression
CN110832501B (zh) 用于姿态不变面部对准的***和方法
US10949649B2 (en) Real-time tracking of facial features in unconstrained video
Meng et al. Backtracking regression forests for accurate camera relocalization
Oron et al. Extended lucas-kanade tracking
Andriluka et al. Monocular 3d pose estimation and tracking by detection
JP5352738B2 (ja) 3次元モデルを使用した物体認識
US8958600B2 (en) Monocular 3D pose estimation and tracking by detection
CN110998594A (zh) 检测动作的方法和***
US20160275339A1 (en) System and Method for Detecting and Tracking Facial Features In Images
US11508157B2 (en) Device and method of objective identification and driving assistance device
CN112639846A (zh) 一种训练深度学习模型的方法和装置
Kohli et al. Key developments in human pose estimation for kinect
JP6756406B2 (ja) 画像処理装置、画像処理方法および画像処理プログラム
US20220292715A1 (en) Method and apparatus for estimating pose of device
JP6597914B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Martins et al. Extending maps with semantic and contextual object information for robot navigation: a learning-based framework using visual and depth cues
WO2021109118A1 (en) Object re-identification using pose part based models
Knight et al. Insect-inspired visual navigation on-board an autonomous robot: Real-world routes encoded in a single layer network
US9014486B2 (en) Systems and methods for tracking with discrete texture traces
CN115008454A (zh) 一种基于多帧伪标签数据增强的机器人在线手眼标定方法
Guo et al. An adaptive kernelized correlation filters with multiple features in the tracking application

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101129

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20101129

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20110104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110118

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110128

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140204

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4677046

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees