JP2013164834A

JP2013164834A - 画像処理装置および方法、並びにプログラム

Info

Publication number: JP2013164834A
Application number: JP2012265234A
Authority: JP
Inventors: Yukinori Maeda; 幸徳前田; Jun Yokono; 順横野; Katsuki Minamino; 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2012-01-13
Filing date: 2012-12-04
Publication date: 2013-08-22
Also published as: US9165181B2; US20180218202A1; US20160110592A1; US20130182898A1; US10565437B2; CN103207985A; US9940507B2

Abstract

【課題】より高精度にジェスチャを認識できるようにする。
【解決手段】撮影部は、ユーザを被写体として撮影し、手形状認識部はユーザを撮影して得られた撮影画像から特定形状の手を認識する。画像処理部は、手形状認識の結果に基づいて撮影画像の切り出し領域を決定するとともに、撮影画像の切り出し領域の画像を切り出して切り出し画像とし、切り出し画像のフレーム間差分を求めることで差分画像を生成する。また、画像処理部は差分画像から特徴量を抽出し、ジェスチャ認識部は、差分画像から抽出された特徴量に基づいて、ジェスチャ認識を行なう。このように、差分画像から得られた特徴量を用いてジェスチャ認識を行なうことで、より高精度にジェスチャを認識することができる。本技術は、画像処理装置に適用することができる。
【選択図】図２

Description

本技術は画像処理装置および方法、並びにプログラムに関し、特に、より高精度にジェスチャを認識できるようにした画像処理装置および方法、並びにプログラムに関する。

従来、ユーザが手などを動かして特定のジェスチャを行なった場合に、そのジェスチャを認識するジェスチャ認識が知られている。

例えば、ジェスチャ認識では、ユーザの手の位置の情報を時系列に並べることで手の軌跡が求められ、この軌跡と、予め登録された手の軌跡とが比較されて、ジェスチャが行なわれたかが判定される。

また、ユーザの手の動きの方向を観測信号と捉え、いくつかの観測信号の列に基づいてジェスチャ認識を行なう技術も提案されている（例えば、特許文献１参照）。

特開２００７−８７０８９号公報

しかしながら、上述した技術では、高精度にユーザによるジェスチャを認識することができなかった。

そのため、認識対象となるジェスチャは、ある程度広い範囲でユーザが大きく手を動かすなど、確実にユーザの手の軌跡を認識できるものである必要があった。このような大きなジェスチャは、ユーザに対する負担が大きく、ジェスチャ認識を利用したアプリケーションプログラム等の使い勝手が悪くなってしまう。

本技術は、このような状況に鑑みてなされたものであり、より高精度にジェスチャを認識することができるようにするものである。

本技術の一側面の画像処理装置は、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、前記差分画像から特徴量を抽出する特徴量抽出部と、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部とを備える。

前記認識部には、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識させることができる。

画像処理装置には、前記撮影画像から前記ユーザの手を検出する手検出部と、検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部とをさらに設けることができる。

前記切り出し領域決定部には、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定させることができる。

画像処理装置には、前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに設けることができる。

前記所定領域を、前記撮影画像上の予め定められた領域とすることができる。

画像処理装置には、前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに設け、前記差分画像生成部には、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成させ、前記特徴量抽出部には、前記所定領域毎の前記差分画像から前記特徴量を抽出させ、前記認識部には、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識させることができる。

画像処理装置には、前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに設けることができる。

画像処理装置には、前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに設け、前記領域設定部には、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定させることができる。

前記切り出し領域決定部には、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定させることができる。

前記検出部には、前記撮影画像から前記ユーザの顔を検出させることができる。

前記検出部には、前記撮影画像から前記ユーザの手を検出させることができる。

画像処理装置には、前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに設け、前記認識部には、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識させることができる。

画像処理装置には、前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに設けることができる。

画像処理装置には、前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに設けることができる。

前記表示制御部には、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、前記動作処理部には、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させるようにすることができる。

前記表示制御部には、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせることができる。

前記特徴量抽出部には、前記差分画像を複数のブロックに分割させ、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出させることができる。

本技術の一側面の画像処理方法またはプログラムは、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、前記差分画像から特徴量を抽出し、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識するステップを含む。

本技術の一側面においては、撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像が生成され、前記差分画像から特徴量が抽出され、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きが認識される。

本技術の一側面によれば、より高精度にジェスチャを認識することができる。

本技術の概要を説明するための図である。画像処理装置の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。切り出し領域の位置の表示例を示す図である。差分画像のブロック分割の一例を示す図である。切り出し領域の位置の表示例を示す図である。画像処理装置の他の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。ボタンアイコンの表示例を示す図である。切り出し領域の決定方法の例について説明する図である。ジェスチャ認識システムの構成例を示す図である。ジェスチャ認識システムの他の構成例を示す図である。画像処理装置のさらに他の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。切り出し領域の表示例を示す図である。認識領域の表示例を示す図である。ジェスチャ認識部の処理について説明する図である。ジェスチャ認識部の処理について説明する図である。ジェスチャ認識部の処理について説明する図である。ジェスチャ認識の処理結果の表示例を示す図である。ジェスチャ認識の処理結果の表示例を示す図である。ジェスチャ認識の処理結果の表示例を示す図である。切り出し領域の表示例を示す図である。切り出し領域の表示例を示す図である。ボタンアイコンの表示例を示す図である。画像処理装置のさらに他の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。認識領域の設定方法の例を示す図である。切り出し領域の決定方法の例を示す図である。画像処理装置のさらに他の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。認識領域の設定方法の例を示す図である。切り出し領域の決定方法の例を示す図である。画像処理装置のさらに他の構成例を示す図である。画像処理装置のさらに他の構成例を示す図である。ジェスチャ認識処理について説明するフローチャートである。動き判別処理について説明するフローチャートである。認識領域内の動きベクトルについて説明する図である。認識領域内の動きベクトルについて説明する図である。本技術のシステムへの適用例について説明する図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［ジェスチャ認識の概要］
まず、本技術の概要について説明する。本技術は、連続して撮影された画像に基づいて、対象物体の特定の動きを認識するためのものである。より具体的には、本技術は、例えば撮影された画像に基づいて、予め定められたジェスチャを認識するためのものである。

例えば図１に示すように、ジェスチャ認識を行なうシステムには、ジェスチャを行なうユーザＵ１１を撮影する撮影部１１と、撮影されたユーザＵ１１の画像等を表示する表示部１２とが設けられている。

ユーザＵ１１は、所定の処理を実行させたい場合などに、撮影部１１に向かって、その処理の実行等を指示するジェスチャを行なう。すると、撮影部１１により撮影されたユーザＵ１１の画像の所定の領域（以下、切り出し領域とも称する）の画像が切り出され、その結果得られた切り出し画像のフレーム間差分が求められる。

ここで、切り出し領域は、例えば図中、左側に示すように画像上のユーザＵ１１の手のひらを含む領域ＲＥ１１などとされる。撮影部１１により撮影された各フレームの画像について、画像上の領域ＲＥ１１を切り出して切り出し画像とし、隣接するフレームの切り出し画像の差分を求めると、例えば図中、下側に示す差分画像ＤＰ１１−１乃至差分画像ＤＰ１１−４が得られる。

これらの差分画像ＤＰ１１−１乃至差分画像ＤＰ１１−４は、ユーザＵ１１が手のひらを表示部１２の方向に向けた状態から、手のひらを倒すジェスチャを行なったときに得られた差分画像であり、差分画像上の各位置の色の濃度は差分の大きさを示している。すなわち、色の濃度が薄い位置ほど隣接する画像同士の差分が大きく、画像上の被写体の動きが大きいことを示している。

また、この例では、差分画像ＤＰ１１−１が最も古い時刻、つまり最も古いフレームの画像から得られた差分画像であり、時刻が古い順に差分画像ＤＰ１１−１乃至差分画像ＤＰ１１−４となっている。なお、以下、差分画像ＤＰ１１−１乃至差分画像ＤＰ１１−４を個々に区別する必要のない場合、単に差分画像ＤＰ１１とも称する。

図１の例では、ユーザＵ１１は手のひらを倒すジェスチャを行なうので、ユーザＵ１１の指先の位置が図中、下方向へと移動するのにともなって、差分画像ＤＰ１１上における差分の大きい領域も図中、下方向へと移動していく。

このようにして差分画像ＤＰ１１が得られると、この差分画像ＤＰ１１から特徴量が抽出され、得られた各時刻、つまり差分画像ＤＰ１１の各フレームの特徴量に基づいて、ジェスチャ認識が行なわれる。そして、特定のジェスチャが認識された場合、その認識結果に応じた処理が実行される。

以上のように、ユーザを撮影して得られた画像を直接用いるのではなく、差分画像ＤＰ１１から特徴量を抽出し、その特徴量を用いてジェスチャ認識を行なうことで、頑強（高精度）にユーザのジェスチャを認識することができる。

これにより、手を倒すなど、簡単で小さな動きのジェスチャでも認識することができるようになり、ユーザに行なわせるジェスチャを、小さく自然な動きによるものとすることができ、ユーザの負担を軽減させることができる。ユーザに対するジェスチャの負担が軽減されれば、ユーザは手先の動き程度の小さなジェスチャで、簡単に機器類等を操作することができるようになる。

本技術は、例えば大画面のサイネージ、パーソナルコンピュータ、テレビジョン受像機などの各種の機器に対して適用することが可能である。

例えば、本技術をサイネージに適用すれば、ユーザがジェスチャを行なうことで、そのジェスチャに応じてサイネージに店舗案内等を表示させたり、見出しから選択された項目についての詳細な情報を表示させたりすることが可能となる。

また、本技術をパーソナルコンピュータに適用すれば、ユーザがジェスチャを行なうことで、例えば音楽プレーヤによる楽曲の再生等の処理や、ピクチャビューアでの画像の再生等の処理など、各種の処理を実行させることが可能となる。この場合、ユーザの画像（ユーザによるジェスチャ）は、例えばパーソナルコンピュータに設けられたウェブカメラ等により取り込まれるようにすることができる。

さらに、本技術をテレビジョン受像機に適用すれば、ユーザがジェスチャを行なうことで、例えば番組のチャンネル選択や、テレビジョン受像機に接続されているレコーダなどの接続機器の選択を行なうことが可能となる。

［画像処理装置の構成例］
次に、本技術を適用した具体的な実施の形態について説明する。

図２は、本技術を適用した画像処理装置の一実施の形態の構成例を示す図である。なお、図２において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２の画像処理装置４１は、撮影部１１、手形状辞書記録部５１、手形状認識部５２、画像処理部５３、ジェスチャ辞書記録部５４、ジェスチャ認識部５５、動作処理部５６、表示制御部５７、および表示部１２から構成される。

撮影部１１は、カメラなどからなり、ユーザを被写体として撮影し、その結果得られた撮影画像を手形状認識部５２および表示制御部５７に供給する。

手形状辞書記録部５１は、アダブーストなどの統計学習により得られた、予め定められた特定形状の手を認識するための手形状辞書を記録しており、必要に応じて手形状辞書を手形状認識部５２に供給する。例えば手形状辞書の学習では、認識対象となる形状の手の画像を含む複数の学習用の画像が用いられ、この学習により手形状辞書として識別器などが得られる。

手形状認識部５２は、手形状辞書記録部５１から供給された手形状辞書に基づいて、撮影部１１から供給された撮影画像から、特定の手形状を認識し、その認識結果と撮影画像を画像処理部５３に供給する。

画像処理部５３は、手形状認識部５２から供給された手形状の認識結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部５５に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

また、画像処理部５３は、切り出し領域決定部７１、差分算出部７２、および特徴量抽出部７３を備えている。

切り出し領域決定部７１は、手形状の認識結果に基づいて撮影画像上の切り出し領域を決定し、撮影画像から切り出し領域の画像を切り出して、切り出し画像とする。差分算出部７２は、隣接するフレームの切り出し画像の差分を求め、差分画像を生成する。特徴量抽出部７３は、差分画像からジェスチャ認識用の特徴量を抽出する。

ジェスチャ辞書記録部５４は、ジェスチャ認識に用いられるジェスチャ辞書を記録しており、必要に応じて記録しているジェスチャ辞書をジェスチャ認識部５５に供給する。例えばジェスチャ辞書記録部５４には、ＨＭＭ（Hidden Markov Model）を構築する状態遷移確率や出力確率密度関数等のパラメータがジェスチャ辞書として記録されている。

ジェスチャ認識部５５は、ジェスチャ辞書記録部５４から供給されたジェスチャ辞書と、画像処理部５３から供給された特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。動作処理部５６は、ジェスチャ認識部５５からの認識結果に基づいて、画像処理装置４１の各部にジェスチャに応じた処理を実行させる。

表示制御部５７は、撮影部１１から供給された撮影画像や、画像処理部５３から供給された切り出し領域等の情報に基づいて、表示部１２に画像を表示させる。

［ジェスチャ認識処理の説明］
次に、図３のフローチャートを参照して、画像処理装置４１によるジェスチャ認識処理について説明する。

ステップＳ１１において、撮影部１１は、撮影画像の撮影を開始する。すなわち、撮影部１１は、撮影部１１の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、手形状認識部５２および表示制御部５７に供給する。

また、表示制御部５７は、撮影部１１から供給された撮影画像を表示部１２に供給し、表示させる。これにより、表示部１２には、被写体として撮影されたユーザ自身が表示されるので、ユーザは、表示部１２に表示された自分自身を見ながらジェスチャを行なうことになる。なお、ここでは、表示部１２にユーザ自身が表示される例について説明するが、必ずしも表示部１２にユーザが表示される必要はない。例えば、ユーザの手が検出された場合に、表示部１２におけるユーザの手に対応する位置に、ユーザの手の位置を示すカーソルや手の画像などを表示することで、ユーザが自分の手の位置を把握できるようにしてもよい。また、特にユーザの手の位置に基づいて切り出し領域が決定される場合などには、表示部１２にユーザ自身やユーザの手の位置を示す画像等が全く表示されないようにしてもよい。

ステップＳ１２において、手形状認識部５２は手形状認識を開始する。

具体的には、手形状認識部５２は、手形状辞書記録部５１に記録されている手形状辞書と、撮影部１１から供給された撮影画像とに基づいて、各フレームの撮影画像から特定形状の手を検出し、その検出結果と撮影画像とを画像処理部５３に供給する。

例えば、手形状辞書として識別器が記録されている場合、手形状認識部５２は、撮影画像上の所定領域から特徴量を抽出して識別器に代入することで、撮影画像から特定形状の手を検出する。このような手形状認識により、手の形状や大きさ、手の位置などが検出される。なお、認識対象となる手形状は、予め定められたジェスチャの開始時における手の形状や、パー，グーといった一般的な手の形状などとされる。

なお、ここでは手形状認識を例として説明しているが、ユーザの手の位置を検出することができれば、手形状認識に限らずどのような検出方法であってもよい。

ステップＳ１３において、画像処理部５３は、手形状認識の結果に基づいて、撮影画像から特定形状の手が検出されたか否かを判定する。

ステップＳ１３において、手が検出されなかったと判定された場合、処理はステップＳ１３に戻り、上述した処理が繰り返される。

これに対して、ステップＳ１３において手が検出されたと判定された場合、ステップＳ１４において、画像処理部５３は手形状認識の結果に基づいて、手の位置のトラッキングを行なう。すなわち、新たに手が検出されたフレーム以降のフレームについて、検出された手の位置のトラッキングが行なわれる。

ステップＳ１５において、画像処理部５３は、手が一定範囲内にあるか否かを判定する。例えば、基準となる所定のフレーム以降の各フレームで検出された手の位置が、所定のフレームにおける手の位置を中心とする、所定の大きさの領域内にある場合、手が一定範囲内にあると判定される。

ステップＳ１５において、手が一定範囲内にないと判定された場合、処理はステップＳ１４に戻り、上述した処理が繰り返される。

一方、ステップＳ１５において、手が一定範囲内にあると判定された場合、ステップＳ
１６において、切り出し領域決定部７１は、手形状認識部５２からの手形状認識の結果に基づいて、切り出し領域を決定する。

例えば、切り出し領域決定部７１は、撮影画像上の検出された手の重心位置を中心とする所定の大きさの矩形領域を切り出し領域とする。手形状認識では、ある程度手の大きさが分かるので、切り出し領域の大きさは、検出された手が含まれる大きさなどとされる。

なお、切り出し領域に手の全ての領域が含まれていなくてもジェスチャを認識することは可能であるので、切り出し領域の大きさは、必ずしも手の全ての領域が含まれる大きさとされなくてもよい。また、切り出し領域は、検出された手の位置に基づいて定められれば、どのように定められてもよい。

切り出し領域が決定されると、切り出し領域決定部７１は、手形状認識部５２から供給された各フレームの撮影画像について、撮影画像上の切り出し領域の画像を切り出して切り出し画像を生成する。したがって、各フレームの撮影画像上の同じ位置にある領域が切り出し画像とされる。

また、より詳細には、切り出し領域決定部７１は、切り出し画像の大きさが予め定められた特定の大きさとなるように、生成した切り出し画像に対する拡大処理または縮小処理を必要に応じて行なう。このように切り出し画像の大きさを予め定めた大きさに揃えることで、より簡単にジェスチャ認識の処理を行なうことができる。

以降においては、このようにして生成された切り出し画像が用いられて、ジェスチャ認識が行なわれることになる。

ところで、ジェスチャ認識を行なう場合に、ユーザが手を動かしながらジェスチャを行なうと、撮影画像における手の部分の背景が変化する等の理由から、ジェスチャの認識精度が低下してしまう恐れがある。

そこで、画像処理装置４１では、ユーザの手が大きく動いていない状態から行なわれたジェスチャのみを、ジェスチャ認識の対象とするために、手が一定範囲にあるか否かが判定され、切り出し領域が決定される。

この場合、手が一定範囲内にある場合には、手がある程度静止しているとして、ジェスチャ認識が開始されることになる。なお、手の動きが閾値以下になったときに、切り出し領域が決定され、ジェスチャ認識が開始されてもよいし、特定形状の手が検出されたときに、切り出し領域が決定されてジェスチャ認識が開始されるようにしてもよい。

以上のようにして切り出し領域が決定されると、画像処理部５３は、決定された切り出し領域の位置を示す情報を表示制御部５７に供給する。

ステップＳ１７において、表示制御部５７は、画像処理部５３から供給された情報に基づいて、ジェスチャ認識が行なわれている旨のフィードバックを行なう。

例えば、表示制御部５７は図４に示すように、表示部１２に切り出し領域を示す枠ＦＢ１１を表示させることで、ジェスチャ認識が行なわれている旨のフィードバックを行なう。なお、図４において、図１における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図４の例では、表示部１２に表示されている撮影画像上のユーザＵ１１の手の部分に、切り出し領域を示す枠ＦＢ１１が表示されている。なお、ジェスチャ認識が行なわれている旨のフィードバックは、枠ＦＢ１１の表示に限らず、どのように行なわれてもよい。

例えば、表示部１２における切り出し領域近傍に、人の手のマークや矢印アイコンなどが表示されるようにしてもよい。また、手が検出された時点で、検出された手を囲む枠を表示させ、ジェスチャ認識が開始されると枠を点滅させるなど、表示形式を変化させるようにしてもよい。さらに、ジェスチャ認識が行なわれている旨のフィードバックは、画像表示に限らず、音声を再生することで行なわれるようにしてもよい。

図３のフローチャートの説明に戻り、ジェスチャ認識開始のフィードバックが行なわれると、その後、処理はステップＳ１７からステップＳ１８へと進む。

ステップＳ１８において、画像処理部５３は、切り出し領域を固定させる固定時間のタイマをリセットする。

ここで、固定時間とは、切り出し領域の位置が固定されて、その切り出し領域から得られた切り出し画像を用いてジェスチャを認識する処理が継続して行なわれる時間をいう。つまり、固定時間以内にジェスチャが認識されなければ、新たな切り出し領域が定められ、その切り出し領域についてジェスチャ認識が行なわれる。

タイマがリセットされると、画像処理部５３は固定時間が経過するまで、継続してタイマのカウントを行なう。

ステップＳ１９において、差分算出部７２は、切り出し画像のフレーム間差分を求め、差分画像を生成する。例えば、差分画像の所定の画素の画素値は、その画素と同じ位置にある、連続する２つのフレームの切り出し画像上の画素の画素値の差分絶対値とされる。

ステップＳ２０において、特徴量抽出部７３は、差分画像からジェスチャ認識用の特徴量を抽出する。

例えば、特徴量抽出部７３は、差分画像を任意の大きさのブロックに分割し、各ブロックについて、ブロック内の画素の輝度値の平均値を算出する。そして、特徴量抽出部７３は、ブロックごとに求めた輝度値の平均値を要素とするベクトルを、差分画像から抽出された特徴量とする。

差分画像上では、動被写体が存在する部分では時間方向に輝度変化が生じ、動きのない部分では輝度変化が生じない。そのため、差分画像上の各領域の平均輝度を特徴量とし、それらの特徴量を時系列に並べることで、切り出し画像内における動被写体の形状や、動被写体の動きの流れの検出が可能となり、特徴量からジェスチャを認識することができるようになる。ここで、動被写体の形状とは、例えば、手のひらや指の形状であり、動被写体の動きの流れとは、例えばジェスチャにより手が倒れていく画像の変化（各位置での輝度の変化）である。

特徴量抽出部７３は、このようにして抽出された特徴量を、ジェスチャ認識部５５に供給する。

ステップＳ２１において、ジェスチャ認識部５５は、画像処理部５３の特徴量抽出部７３から供給された特徴量と、ジェスチャ辞書記録部５４に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。

例えば、ジェスチャ認識部５５は、予め定められた所定数のフレームからなる区間内の差分画像から得られた特徴量を正規化する。具体的には、ジェスチャ認識部５５は、時系列に並べられた特徴量のうち、差分画像上の同じ位置のブロックから得られた特徴量を、それらの同じ位置のブロックから得られた特徴量の最大値で除算することで、特徴量が０乃至１の範囲の値となるように正規化する。

さらに、ジェスチャ認識部５５は、正規化された時系列の特徴量に基づいて、ジェスチャ辞書としてのパラメータから構築されるＨＭＭなどによる時系列認識処理を行なうことで、ユーザにより特定のジェスチャが行なわれたかを認識する。

なお、時系列の特徴量に基づくジェスチャ認識は、時系列に並ぶ各差分画像から抽出された特徴量と、予め学習により得られた時系列の特徴量とを比較するなど、どのように行なわれてもよい。

ステップＳ２２において、動作処理部５６は、ジェスチャ認識部５５から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置４１の各部に実行させる。なお、ジェスチャが認識されなかった場合には、何も処理は行なわれない。

例えば、ジェスチャにより、楽曲の再生等に関するアプリケーションプログラムでの操作を実行させるとする。この場合、ユーザが手を開いた状態で、その手を払うジェスチャを行なったときには、動作処理部５６は、複数楽曲からなるアルバムを処理単位とし、アルバムを選択するカーソルを移動させて、複数のアルバムのなかから再生対象となるアルバムを選択させる。

また、ユーザが人差し指を払うジェスチャを行なったときには、動作処理部５６は、アルバムを構成する楽曲を処理単位とし、楽曲を選択するカーソルを移動させて、アルバムを構成する複数の楽曲のなかから再生対象となる楽曲を選択させる。

このように、アルバムや楽曲、フォルダやファイルなど、処理単位の大小関係等に応じて、ジェスチャに用いる指の本数や指の位置を定めることで、ユーザは感覚的に操作を行なうことができるようになる。

また、例えばジェスチャにより表示部１２に表示されたポインタ等を移動させ、アイコンを選択するなどの操作が行なわれるとする。

そのような場合、例えばユーザが手を開いた状態から親指を折る（倒す）ジェスチャを行なったときには、動作処理部５６は、マウスの左クリックに対応する操作を実行させる。また、ユーザが手を開いた状態から人差し指を折るジェスチャを行なったときには、動作処理部５６は、マウスの右クリックに対応する操作を実行させる。このような例では、ユーザは既存の機器と同様の操作感覚でジェスチャによる操作を行なうことができる。

その他、ユーザが手の形状をパーからグーにするジェスチャを行なった場合、表示部１２上のファイル等が選択されたり、ユーザが手をグーの形状のまま平行移動させるジェスチャを行なった場合、選択されたファイル等が移動されたりするようにしてもよい。

なお、ジェスチャ認識結果に応じた処理が行なわれる場合、ジェスチャ認識の結果に応じて、表示制御部５７が、ジェスチャが認識された旨の表示や、認識されたジェスチャを示す表示などを、表示部１２に行なわせるようにしてもよい。そのような場合、ジェスチャ認識部５５から表示制御部５７にもジェスチャ認識結果が供給されることになる。

ステップＳ２３において、画像処理部５３は、手形状認識部５２からの手形状認識結果に基づいて、切り出し領域外に新たな手が検出されたか否かを判定する。

ステップＳ２３において新たな手が検出されたと判定された場合、処理はステップＳ１３に戻り、上述した処理が繰り返される。つまり、新たに検出された手によるジェスチャが認識され、そのジェスチャに応じた処理が実行される。

これに対して、ステップＳ２３において新たな手が検出されなかったと判定された場合、ステップＳ２４において、画像処理部５３はカウントしているタイマに基づいて、タイマをリセットしてから固定時間が経過したか否かを判定する。

ステップＳ２４において固定時間が経過していないと判定された場合、処理はステップＳ１９に戻り、上述した処理が繰り返される。すなわち、これまで処理対象とされていた区間、つまりジェスチャ認識の対象となっていた区間が、１フレーム分だけ未来方向にずらされて、新たな処理対象区間について、ジェスチャ認識が行なわれる。

なお、決定された切り出し領域について、既にジェスチャが認識され、そのジェスチャに応じた処理が実行された場合には、ステップＳ２２の処理の後、処理がステップＳ１３に戻るようにしてもよい。

一方、ステップＳ２４において固定時間が経過したと判定された場合、処理はステップＳ１３に戻り、上述した処理が繰り返される。すなわち、新たに手が検出されると、その手の位置に基づいて切り出し領域が決定され、ジェスチャ認識が行なわれる。

また、ユーザによりジェスチャ認識の終了が指示された場合、ジェスチャ認識処理は終了する。

以上のように、画像処理装置４１は、撮影画像上のユーザの手の少なくとも一部を含む領域を切り出し領域とし、その切り出し領域の画像の差分を求めて得られる差分画像から特徴量を抽出する。そして、画像処理装置４１は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。

このように、差分画像から特徴量を抽出してジェスチャ認識することで、より高精度にユーザのジェスチャを認識することができるようになる。

したがって、ユーザは、必要以上に大きく手を動かすことなく、手を倒す、手を払う、手を上げるなど、手首から先の小さな動き程度のジェスチャで、各ジェスチャに対して定められた処理を実行させることができる。ユーザに対する負担が軽減されれば、ジェスチャに応じた処理を実行させるアプリケーションプログラム等の使い勝手を向上させることができる。

特に、画像処理装置４１では、手形状認識で検出された手の位置に基づいて切り出し領域が定められるので、ユーザは、任意の位置でジェスチャ操作を行なうことができる。つまり、ユーザは、切り出し領域の位置を意識することなく、自然な動きでジェスチャ操作を行なうことができ、ユーザの負担をさらに低減させることができる。

［特徴量の抽出について］
なお、以上においては、差分画像をいくつかのブロックに分割し、ブロック内の画素の輝度値の平均値をブロックごとの特徴量とすると説明したが、差分画像の分割はどのように行なわれてもよい。

例えば、図５の矢印Ｑ１１に示すように、差分画像が図中、縦方向に３つ、横方向に４つの合計１２個のブロックに分割されるようにしてもよい。この場合、差分画像をブロックに分割して特徴量を求めることは、差分画像を平滑化することと等価であるので、認識対象の手の大まかな形状と移動の様子（方向）を特定することが可能となり、高精度にジェスチャを認識することができる。

また、例えば矢印Ｑ１２に示すように、差分画像が図中、横方向に長いブロックに分割されるようにしてもよい。この例では、差分画像上の横方向に並ぶ画素列が、同じブロックに属すようにブロック分割が行なわれる。

このようなブロック分割を行なうと、図中、縦方向の動きに特化した特徴量を得ることができ、手の形状によらず、縦方向に動く被写体がある場合には、ジェスチャが行なわれたと認識されることになる。

さらに、矢印Ｑ１３に示すように、差分画像が図中、縦方向に長いブロックに分割されるようにしてもよい。この例では、差分画像上の縦方向に並ぶ画素列が、同じブロックに属すようにブロック分割が行なわれ、手の形状によらず、横方向に動く被写体がある場合には、ジェスチャが行なわれたと認識されることになる。

また、以上においては、差分画像上のブロックの平均輝度を特徴量とする例について説明したが、特徴量は差分画像から求められるものであれば、オプティカルフローや、ブロック内の画素の特定成分の平均値など、どのようなものであってもよい。

〈第２の実施の形態〉
［ジェスチャ認識の切り出し領域について］
さらに、以上においては、手形状認識により特定の形状の手を認識し、その手の位置に基づいて切り出し領域を決定すると説明したが、切り出し領域は、予め定められた位置とされるようにしてもよい。

そのような場合、例えば図６に示すように、表示部１２上に常に切り出し領域の位置を示す枠ＦＢ２１が表示される。なお、図６において、図１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図６の例では、表示部１２に、ユーザＵ１１だけでなく、予め定められた切り出し領域の位置を示す枠ＦＢ２１が表示されている。したがって、この例ではユーザＵ１１は、表示部１２に表示された自分自身と枠ＦＢ２１の位置を確認しながら、枠ＦＢ２１内に手を移動させ、ジェスチャを行なえばよい。

なお、この場合、表示部１２に表示された枠ＦＢ２１に対して、１つのジェスチャが割り当てられてもよいし、複数のジェスチャが割り当てられてもよい。

例えば、枠ＦＢ２１に対して、１つのジェスチャＧＥＳ１が割り当てられているとすると、ユーザが枠ＦＢ２１内でジェスチャＧＥＳ１を行なった場合、ジェスチャＧＥＳ１に対して定められた処理が実行される。これに対して、ユーザが枠ＦＢ２１内でジェスチャＧＥＳ２を正しく行なっても、何ら処理は実行されない。

また、枠ＦＢ２１に対して、２つのジェスチャＧＥＳ１およびジェスチャＧＥＳ２が割り当てられているとする。この場合、ユーザが枠ＦＢ２１内でジェスチャＧＥＳ１を行なうと、ジェスチャＧＥＳ１に応じた処理が実行され、ユーザが枠ＦＢ２１内でジェスチャＧＥＳ２を行なうと、ジェスチャＧＥＳ２に応じた処理が実行される。

さらに、表示部１２に切り出し領域の位置を示す枠が複数表示されるようにしてもよい。この場合、複数の各枠に異なるジェスチャを割り当ててもよいし、いくつかの異なる枠に１つのジェスチャを割り当ててもよい。複数の枠のそれぞれに同じジェスチャが割り当てられる場合、それらの枠のうちの何れかの枠内でジェスチャが認識されると、ジェスチャに応じた処理が実行される。

また、表示部１２に表示される切り出し領域の位置を示す各枠について、１つの枠に１つのジェスチャを割り当ててもよいし、複数のジェスチャを割り当てるようにしてもよい。

なお、以下においては、説明を簡単にするため、表示部１２には、切り出し領域の位置を示す１つの枠が表示され、その枠に１つのジェスチャが割り当てられている場合について説明することとする。

［画像処理装置の構成例］
このように、切り出し領域の位置が予め定められている場合、画像処理装置は、例えば図７に示すように構成される。なお、図７において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図７の画像処理装置１０１は、撮影部１１、画像処理部１１１、ジェスチャ辞書記録部５４、ジェスチャ認識部５５、動作処理部５６、表示制御部５７、および表示部１２から構成される。

画像処理部１１１は、撮影部１１から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部５５に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

画像処理部１１１は、切り出し画像生成部１２１、差分算出部７２、および特徴量抽出部７３を備えている。切り出し画像生成部１２１は、撮影画像上の予め定められた領域を切り出し領域とし、撮影画像の切り出し領域の画像を切り出して切り出し画像とする。

［ジェスチャ認識処理の説明］
次に、図８のフローチャートを参照して、画像処理装置１０１によるジェスチャ認識処理について説明する。

ステップＳ５１において、撮影部１１は撮影画像の撮影を開始する。

すなわち、撮影部１１は、撮影部１１の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、画像処理部１１１および表示制御部５７に供給する。

また、表示制御部５７は、撮影部１１から供給された撮影画像を表示部１２に供給し、表示させる。画像処理部１１１は、予め定められた切り出し領域の位置を示す情報を表示制御部５７に供給する。

ステップＳ５２において、表示制御部５７は、画像処理部１１１から供給された情報に基づいて、切り出し領域の位置を示す枠を表示部１２に表示させる。ユーザは、表示部１２に表示された枠や自分自身の手を見ながら、枠内に手を移動させ、所望のジェスチャを行なう。

ステップＳ５３において、切り出し画像生成部１２１は、撮影部１１から供給された各フレームの撮影画像について、撮影画像上の予め定められた切り出し領域の画像を切り出して切り出し画像を生成する。

また、より詳細には、切り出し画像生成部１２１は、切り出し画像の大きさが予め定められた特定の大きさとなるように、生成した切り出し画像に対する拡大処理または縮小処理を必要に応じて行なう。

ステップＳ５４において、差分算出部７２は、切り出し画像のフレーム間差分を求め、差分画像を生成する。

そして、ステップＳ５５において、特徴量抽出部７３は、差分画像に基づいて、ジェスチャ認識用の特徴量を抽出し、ジェスチャ認識部５５に供給する。例えば、ステップＳ５５では、図３のステップＳ２０の処理と同様の処理が行なわれ、特徴量が抽出される。

ステップＳ５６において、ジェスチャ認識部５５は、特徴量抽出部７３から供給された特徴量と、ジェスチャ辞書記録部５４に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。このステップＳ５６では、図３のステップＳ２１と同様の処理が行なわれる。

ステップＳ５７において、動作処理部５６は、ジェスチャ認識部５５から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置１０１の各部に実行させ、その後、処理はステップＳ５３に戻り、上述した処理が繰り返される。

なお、特定のジェスチャが認識され、ジェスチャに応じた処理が実行される場合には、ジェスチャが認識された旨のフィードバックが行なわれるようにしてもよい。例えば、そのようなフィードバックは、表示制御部５７が表示部１２に表示されている、切り出し領域の位置を示す枠を点滅させたり、所定の画像を表示させたりすることにより行なわれる。

以上のように、画像処理装置１０１は、撮影画像上の予め定められた切り出し領域の画像の差分を求めて差分画像を生成し、差分画像から特徴量を抽出する。そして、画像処理装置１０１は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。

なお、以上においては図９の矢印Ｑ４１に示すように、表示部１２には、被写体として撮影されたユーザＵ１１とともに、切り出し領域の位置を示す枠ＦＢ２１が表示されると説明したが、切り出し領域の位置が分かる表示であれば、どのような表示がされてもよい。なお、図９において、図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

例えば、ユーザに切り出し領域の位置を把握させる表示として、矢印Ｑ４２に示す表示などが考えられる。

矢印Ｑ４２に示す例では、表示部１２には、撮影されたユーザＵ１１と、各処理を実行させるためのボタンアイコンＡＣ１１−１乃至ボタンアイコンＡＣ１１−４とが表示されている。これらのボタンアイコンＡＣ１１−１乃至ボタンアイコンＡＣ１１−４には、操作されたときに実行される処理を想起させる画像や、処理を説明する文字等が表示されるようにしてもよい。

なお、以下、ボタンアイコンＡＣ１１−１乃至ボタンアイコンＡＣ１１−４を個々に区別する必要のない場合、単にボタンアイコンＡＣ１１とも称する。

この例では、各ボタンアイコンＡＣ１１の領域に対応する撮影画像上の位置が、予め定められた切り出し領域とされる。したがって、ユーザＵ１１は、自分の手を所望のボタンアイコンＡＣ１１内の領域に移動させ、ジェスチャを行なえば、ボタンアイコンＡＣ１１に対して定められた処理を実行させることができる。

このとき、ボタンアイコンＡＣ１１に割り当てるジェスチャを、手を倒すなど、ボタンアイコンＡＣ１１を押すようなジェスチャとすれば、ユーザＵ１１はより感覚的にジェスチャ操作を行なうことができるようになる。

なお、切り出し領域の位置が予め定められている場合、ユーザＵ１１がボタンアイコンＡＣ１１内の位置とは異なる位置でジェスチャを行なっても、そのジェスチャは認識されないことになる。

また、各ボタンアイコンＡＣ１１に割り当てられるジェスチャは同じであるが、そのジェスチャにより実行される処理は、ボタンアイコンＡＣ１１ごとに異なるようにしてもよい。したがって、この場合、ボタンアイコンＡＣ１１（切り出し領域）の位置と、認識されたジェスチャとから定まる処理が実行されることになる。

［切り出し領域の決定について］
さらに、手形状認識を行なわない場合においても、撮影画像に基づいて切り出し領域が決定されるようにしてもよい。

そのような場合、例えば図１０の矢印Ｑ７１に示すように、被写体としてのユーザＵ２１が撮影されて得られた撮影画像ＰＣ１１の各領域のフレーム間差分が求められて切り出し領域が決定される。

この例では、切り出し画像生成部１２１は、連続する２つのフレームの撮影画像ＰＣ１１上の切り出し領域の候補となる領域について、その領域のフレーム間の画素の輝度値の差分絶対値和を求める。このとき、切り出し画像生成部１２１は、切り出し領域の候補となる領域をずらしながら、各領域について差分絶対値和を求める。

矢印Ｑ７１に示す例では、撮影画像ＰＣ１１の図中、左上の領域ＤＦ１１−１から、図中、右下の領域ＤＦ１１−Ｎまでの各領域が切り出し領域の候補とされ、それらの領域の差分絶対値和が算出される。ここで、例えば領域ＤＦ１１−１と領域ＤＦ１１−２など、互いに隣接する領域の一部が重なるように、切り出し領域の候補となる領域が定められる。

そして、切り出し画像生成部１２１は、各領域のうち、差分絶対値和が最大となる領域を、最終的な切り出し領域とする。この例では、ユーザＵ２１近傍にある領域ＤＦ１１−ｋが切り出し領域とされる。

ユーザＵ２１がジェスチャを行なおうとして手を動かすと、その手の領域は撮影画像ＰＣ１１のフレーム間の差分が大きくなるはずである。そこで、この例では、撮影画像ＰＣ１１上の差分の大きい領域がユーザＵ２１の手の領域であるとされ、その領域が切り出し領域とされる。

但し、このような場合、撮影画像ＰＣ１１上にユーザＵ２１とは異なる動被写体があると、その動被写体の領域が切り出し領域とされてしまう可能性もある。

そこで、例えば矢印Ｑ７２に示すように、ユーザＵ２１の近傍の領域ＳＲ１１内において、撮影画像ＰＣ１１のフレーム間の差分が最大となる領域が、切り出し領域とされるようにしてもよい。

この場合、まず切り出し画像生成部１２１は、撮影画像ＰＣ１１に基づいて、ユーザＵ２１の領域を検出する。ユーザＵ２１の検出は、例えば人検出や顔検出により行なうことができる。次に、切り出し画像生成部１２１は、検出されたユーザＵ２１の顔の位置に基づいて、ユーザＵ２１の領域を含む所定の大きさの領域ＳＲ１１を定める。

そして、切り出し画像生成部１２１は、領域ＳＲ１１の図中、左上の領域ＤＦ２１−１から、領域ＳＲ１１の図中、右下の領域までの各領域を切り出し領域の候補とし、それらの領域の差分絶対値和を算出する。ここで、例えば領域ＤＦ２１−１と領域ＤＦ２１−２など、互いに隣接する領域の一部が重なるように、切り出し領域の候補となる領域が定められる。

さらに切り出し画像生成部１２１は、各領域のうち、差分絶対値和が最大となる領域を、最終的な切り出し領域とする。この例では、ユーザＵ２１近傍にある領域ＤＦ２１−ｋが切り出し領域とされる。このように、ユーザＵ２１近傍の領域を切り出し領域の候補とすることで、より高精度にユーザの手の領域を特定することが可能となる。

なお、図１０に示した例では、切り出し領域の候補となる領域のうち、最も差分が大きい領域が切り出し領域とされると説明したが、差分が大きい順にいくつかの領域を切り出し領域とするようにしてもよい。また、撮影画像ＰＣ１１上におけるユーザＵ２１の顔の位置から定まる１または複数の領域が、切り出し領域とされるようにしてもよい。

以上のように、切り出し画像生成部１２１が撮影画像に基づいて切り出し領域を定める場合には、表示制御部５７が決定された切り出し領域の位置を示す枠等の表示を、表示部１２に行なわせるようにしてもよい。

〈第３の実施の形態〉
［ジェスチャ認識システムの構成例］
さらに、以上においては、画像処理装置４１や画像処理装置１０１において、撮影画像の撮影からジェスチャ認識までの全ての処理が行なわれる例について説明したが、これらの処理の一部が、通信網等を介して接続された他の装置で行なわれるようにしてもよい。

そのような場合、撮影画像を撮影してジェスチャ認識を行なうジェスチャ認識システムは、例えば図１１に示すように構成される。なお、図１１において、図２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１１のジェスチャ認識システムは、画像処理装置１６１およびサーバ１６２から構成される。これらの画像処理装置１６１とサーバ１６２は、インターネットなどからなる通信網１６３を介して相互に接続されている。

画像処理装置１６１は、撮影部１１、手形状辞書記録部５１、手形状認識部５２、制御部１７１、通信部１７２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

また、サーバ１６２は、通信部１８１、制御部１８２、画像処理部５３、ジェスチャ辞書記録部５４、およびジェスチャ認識部５５から構成され、画像処理部５３は、切り出し領域決定部７１、差分算出部７２、および特徴量抽出部７３を備えている。

このようなジェスチャ認識システムでは、ユーザは画像処理装置１６１の撮影部１１に向かって所望のジェスチャを行なう。

撮影部１１は、ユーザを被写体として撮影すると、その結果得られた撮影画像を手形状認識部５２および制御部１７１に供給する。制御部１７１は、撮影部１１からの撮影画像を、表示制御部５７を介して表示部１２に供給し、表示させる。

また、手形状認識部５２は、手形状辞書記録部５１に記録されている手形状辞書と、撮影部１１からの撮影画像とに基づいて、撮影画像から特定形状の手を認識し、その認識結果と撮影画像を、制御部１７１を介して通信部１７２に供給する。

すると、通信部１７２は、供給された認識結果と撮影画像を、通信網１６３を介してサーバ１６２に送信する。これらの認識結果と撮影画像は、逐次、サーバ１６２に送信される。これに対して、サーバ１６２の通信部１８１は、通信部１７２から送信された認識結果と撮影画像を受信し、制御部１８２を介して画像処理部５３に供給する。

画像処理部５３は、供給された手形状の認識結果と撮影画像とに基づいて、切り出し領域を決定して差分画像を生成し、得られた差分画像から特徴量を抽出してジェスチャ認識部５５に供給する。

このとき、必要に応じて切り出し領域の位置を示す情報が、サーバ１６２から画像処理装置１６１に送信される。そして、表示制御部５７は、制御部１７１を介して通信部１７２から、切り出し領域の位置を示す情報が供給されると、その情報に基づいて、表示部１２に切り出し領域の位置を示す枠を表示させる。

また、サーバ１６２のジェスチャ認識部５５は、画像処理部５３からの特徴量と、ジェスチャ辞書記録部５４のジェスチャ辞書とに基づいて、ジェスチャ認識を行ない、その認識結果を、制御部１８２を介して通信部１８１に供給する。通信部１８１は、供給されたジェスチャ認識の結果を、通信網１６３を介して画像処理装置１６１に送信する。

すると、画像処理装置１６１の通信部１７２は、サーバ１６２から送信されてきたジェスチャ認識の結果を受信し、制御部１７１を介して動作処理部５６に供給する。動作処理部５６は、画像処理装置１６１の各部に、供給されたジェスチャ認識の結果に応じた処理を実行させる。

このように、切り出し領域の決定や、特徴量の抽出、ジェスチャ認識などを画像処理装置１６１とは異なる装置（サーバ１６２）に実行させるようにしてもよい。この場合、特に画像処理装置１６１の処理能力が低いときには、より高い処理能力を有するサーバ１６２にいくつかの処理を分担させることで、より迅速にジェスチャ認識の結果を得ることができる。

〈第４の実施の形態〉
［ジェスチャ認識システムの構成例］
さらに、ジェスチャ認識システムは、図１２に示す構成とされてもよい。なお、図１２において、図１１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１２のジェスチャ認識システムは、画像処理装置２０１およびサーバ２０２から構成される。これらの画像処理装置２０１とサーバ２０２は、通信網１６３を介して相互に接続されている。

画像処理装置２０１は、撮影部１１、手形状辞書記録部５１、手形状認識部５２、画像処理部５３、制御部１７１、通信部１７２、動作処理部５６、表示制御部５７、および表示部１２から構成される。また、画像処理部５３は、切り出し領域決定部７１、差分算出部７２、および特徴量抽出部７３を備えている。

サーバ２０２は、通信部１８１、ジェスチャ辞書記録部５４、およびジェスチャ認識部５５から構成される。

このようなジェスチャ認識システムでは、ユーザは画像処理装置２０１の撮影部１１に向かって所望のジェスチャを行なう。

また、手形状認識部５２は、手形状辞書記録部５１に記録されている手形状辞書と、撮影部１１からの撮影画像とに基づいて、撮影画像から特定形状の手を認識し、その認識結果と撮影画像を、画像処理部５３に供給する。

画像処理部５３は、手形状認識部５２から供給された手形状の認識結果と撮影画像とに基づいて、切り出し領域を決定して差分画像を生成し、得られた差分画像から特徴量を抽出して制御部１７１に供給する。そして、制御部１７１は、画像処理部５３からの特徴量を通信部１７２に供給する。

このとき、必要に応じて切り出し領域の位置を示す情報が、画像処理部５３から制御部１７１を介して表示制御部５７に供給される。表示制御部５７は、制御部１７１から切り出し領域の位置を示す情報が供給されると、その情報に基づいて、表示部１２に切り出し領域の位置を示す枠を表示させる。

また、通信部１７２は、制御部１７１から供給された特徴量を、逐次、通信網１６３を介してサーバ２０２に送信する。

すると、サーバ２０２の通信部１８１は、通信部１７２から送信された特徴量を受信し、ジェスチャ認識部５５に供給する。

また、ジェスチャ認識部５５は、通信部１８１から供給された特徴量と、ジェスチャ辞書記録部５４のジェスチャ辞書とに基づいて、ジェスチャ認識を行ない、その認識結果を通信部１８１に供給する。通信部１８１は、供給されたジェスチャ認識の結果を、通信網１６３を介して画像処理装置２０１に送信する。

すると、画像処理装置２０１の通信部１７２は、サーバ２０２から送信されてきたジェスチャ認識の結果を受信し、制御部１７１を介して動作処理部５６に供給する。動作処理部５６は、画像処理装置２０１の各部に、供給されたジェスチャ認識の結果に応じた処理を実行させる。

このように、ジェスチャ認識の処理を画像処理装置２０１とは異なる装置（サーバ２０２）に実行させるようにしてもよい。

また、図１１および図１２に示す例において、画像処理装置１６１や画像処理装置２０１が、外部に設けられた撮影装置から、撮影画像を取得するようにしてもよいし、表示部１２が、画像処理装置１６１や画像処理装置２０１に接続されているようにしてもよい。さらに、図７の画像処理装置１０１により行なわれる一部の処理が、図１１や図１２の例に示したように、外部の装置により行なわれてもよい。

さて、以上においては、撮影画像上で決定される切り出し領域の数は１つであるものとして説明したが、撮影画像上で決定される切り出し領域の数を複数としてもよい。

〈第５の実施の形態〉
［画像処理装置の構成例］
そのような場合、画像処理装置は、例えば図１３に示すように構成される。なお、図１３において、図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３の画像処理装置３０１は、撮影部１１、画像処理部３１１、ジェスチャ辞書記録部５４、ジェスチャ認識部３１２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

画像処理部３１１は、撮影部１１から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部３１２に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

画像処理部３１１は、認識領域設定部３２１、切り出し画像生成部３２２、差分算出部７２、および特徴量抽出部７３を備えている。認識領域設定部３２１は、撮影画像上で、切り出し領域が複数配置される領域である認識領域を設定する。切り出し画像生成部３２２は、撮影画像上の認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部３２２は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。

ジェスチャ認識部３１２は、ジェスチャ辞書記録部５４から供給されたジェスチャ辞書と、画像処理部３１１から供給された切り出し領域毎の特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。

［ジェスチャ認識処理の説明］
次に、図１４のフローチャートを参照して、画像処理装置３０１によるジェスチャ認識処理について説明する。

ステップＳ１１１において、撮影部１１は撮影画像の撮影を開始する。

すなわち、撮影部１１は、撮影部１１の周囲にいるユーザを被写体として撮影し、その結果得られた各フレームの撮影画像を、順次、画像処理部３１１および表示制御部５７に供給する。

また、表示制御部５７は、撮影部１１から供給された撮影画像を表示部１２に供給し、表示させる。

ステップＳ１１２において、認識領域設定部３２１は、撮影部１１から供給された撮影画像上に認識領域を設定する。ここでは、認識領域設定部３２１は、撮影画像の略全体の領域、具体的には、撮影画像上の周縁部を除いた領域を、認識領域として設定するものとする。

ステップＳ１１３において、切り出し画像生成部３２２は、認識領域設定部３２１により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。ここでは、切り出し画像生成部３２２は、複数の切り出し領域それぞれの大きさを同一の大きさとする。このように、認識領域には、ジェスチャ認識の処理対象となる切り出し領域が配置されるので、認識領域は、ジェスチャ認識が可能な領域ということができる。また、画像処理部３１１は、設定された認識領域の位置を表す情報と、決定された切り出し領域それぞれの位置を示す情報とを表示制御部５７に供給する。

ステップＳ１１４において、表示制御部５７は、画像処理部３１１から供給された情報に基づいて、認識領域の位置を表す枠または切り出し領域の位置を示す枠を表示部１２に表示させる。

例えば、表示制御部５７は、図１５に示すように、表示部１２に、認識領域ＲＡ１内に配置された複数の切り出し領域を示す枠（以下、認識枠ともいう）ＲＦ１−１乃至枠ＲＦ１−Ｎを表示させる。なお、図１５において、図１における場合と対応する部分には同一の符号を付してあり、その説明は省略する。また、以下においては、認識枠ＲＦ１−１乃至認識枠ＲＦ１−Ｎで示される切り出し領域を、切り出し領域ＲＦ１−１乃至切り出し領域ＲＦ１−Ｎともいう。

図１５の例では、表示部１２に表示されている撮影画像上のユーザＵ３１を含む認識領域ＲＡ１全体に、Ｎ個の切り出し領域を示す認識枠ＲＦ１−１乃至認識枠ＲＦ１−Ｎが表示されている。この例では、切り出し領域それぞれの大きさは、予め定められた特定の大きさであって、認識領域ＲＡ１内で重なりなく且つ隙間なく敷き詰められる大きさとされる。

なお、図１６に示されるように、表示部１２に表示されている撮影画像上のユーザＵ３１を含む認識領域ＲＡ１を示す枠のみが表示されるようにしてもよい。

このようにして表示部１２に表示された枠や自分自身の手を見ながら、ユーザは所望のジェスチャを行なう。

ステップＳ１１５において、切り出し画像生成部３２２は、撮影部１１から供給された各フレームの撮影画像について、撮影画像上の認識領域に配置された切り出し領域の画像を切り出して、複数の切り出し画像を生成する。

ステップＳ１１６において、差分算出部７２は、切り出し領域毎に、切り出し画像のフレーム間差分を求め、差分画像を生成する。

そして、ステップＳ１１７において、特徴量抽出部７３は、切り出し領域毎の差分画像に基づいて、ジェスチャ認識用の特徴量を抽出し、ジェスチャ認識部３１２に供給する。例えば、ステップＳ１１７では、図３のステップＳ２０の処理と同様の処理が行なわれ、切り出し領域毎の特徴量が抽出される。

ステップＳ１１８において、ジェスチャ認識部３１２は、特徴量抽出部７３から供給された特徴量と、ジェスチャ辞書記録部５４に記録されているジェスチャ辞書とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。

このステップＳ１１８では、ジェスチャ認識部３１２は、図１７に示されるように、切り出し領域ＲＦ１−１乃至切り出し領域ＲＦ１−Ｎそれぞれについて抽出された特徴量に基づいて、１つの認識器を用いて１つずつ図３のステップＳ２１と同様の認識処理を行なうことで、ジェスチャ認識を行なう。

なお、ジェスチャ認識部３１２は、図１８に示されるように、切り出し領域ＲＦ１−１乃至切り出し領域ＲＦ１−Ｎそれぞれについて抽出された特徴量に基づいて、Ｎ個の認識器を用いて並列に認識処理を行なうことで、ジェスチャ認識を行なうようにしてもよい。

さらに、ジェスチャ認識部３１２は、切り出し領域ＲＦ１−１乃至切り出し領域ＲＦ１−Ｎの１つについての認識処理を行なった後、認識処理の対象となる切り出し領域の数を４つ、９つ、・・・と増やしていくことで、ジェスチャ認識を行なうようにしてもよい。

具体的には、図１９に示されるように、ジェスチャ認識部３１２は、まず、１つの切り出し領域からなる領域ＲＦ２−１について認識処理を行なった後、４つの切り出し領域からなる領域ＲＦ２−２について認識処理を行なう。次に、ジェスチャ認識部３１２は、９つの切り出し領域からなる領域ＲＦ２−３について認識処理を行なう。このように、順次、認識対象となる領域を広げていくことで、ジェスチャ認識を行なうようにしてもよい。

また、切り出し領域ＲＦ１−１乃至切り出し領域ＲＦ１−Ｎのうちの所定数の切り出し領域において、抽出された特徴量が同時に所定の値より大きくなった場合に、その切り出し領域について認識処理を行なうことで、ジェスチャ認識が行なわれるようにしてもよい。

さらにまた、一定時間内に、抽出された特徴量が所定の値より大きくなった切り出し領域の数が所定数を上回った場合に、その切り出し領域について認識処理を行なうことで、ジェスチャ認識が行なわれるようにしてもよい。

なお、ジェスチャ認識において、上述した認識処理が組み合わされて行なわれるようにしてもよい。

ステップＳ１１９において、動作処理部５６は、ジェスチャ認識部３１２から供給されたジェスチャ認識の結果に応じた処理を、画像処理装置３０１の各部に実行させる。

なお、特定のジェスチャが認識され、ジェスチャに応じた処理が実行される場合には、ジェスチャが認識された旨のフィードバックが行なわれるようにしてもよい。例えば、そのようなフィードバックは、表示制御部５７が、表示部１２に表示されている切り出し領域を示す認識枠を点滅させたり、所定の画像を表示させたりすることにより行なわれる。

具体的には、図２０に示されるように、表示部１２に表示されている、認識領域ＲＡ１内に配置された切り出し領域のうち、ジェスチャ認識が行なわれた領域ＲＦ３を示す枠の色を変えて表示させるようにする。また、図２１に示されるように、表示部１２には切り出し領域を表示させない状態で、ジェスチャ認識が行なわれた領域ＲＦ４を示す枠のみを表示させるようにしてもよい。さらに、図２２に示されるように、ジェスチャ認識が行なわれた領域を示す部分に所定のアイコンＩＣ５を重畳して表示させるようにしてもよい。

さらに、ジェスチャが認識された旨のフィードバックとして、表示部１２に表示される枠や画像ではなく、所定の音声が出力されるようにしてもよい。

ステップＳ１１９の後、処理はステップＳ１１５に戻り、上述した処理が繰り返される。また、ユーザによりジェスチャ認識の終了が指示された場合、ジェスチャ認識処理は終了する。

以上のように、画像処理装置３０１は、撮影画像上の認識領域内に複数の切り出し領域を配置し、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量を抽出する。そして、画像処理装置３０１は、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。

このように、複数の切り出し領域について差分画像から特徴量を抽出してジェスチャ認識することで、より広い範囲でユーザのジェスチャを認識することができるようになる。

したがって、ユーザは、手を右から左へ（または左から右へ）弾く動作（以下、フリック動作という）などのジェスチャが認識される領域を気にすることなく、任意の位置でジェスチャ操作を行なうことができる。つまり、ユーザは、切り出し領域の位置を意識することなく、自然な動きでジェスチャ操作を行なうことができ、ひいては、ジェスチャに応じた処理を実行させるアプリケーションプログラム等の使い勝手を向上させることができる。

また、認識領域全体でジェスチャ認識が行なわれるので、局所的には異なる動きをした場合であっても、全体的には同一の動きとして認識することが可能となるので、ユーザによってジェスチャに個人差があっても、よりロバストにジェスチャを認識することができるようになる。

なお、以上においては、図１５を参照して説明したように、切り出し領域が認識領域内で重なりなく且つ隙間なく敷き詰められるものとしたが、例えば、図２３に示されるように、切り出し領域ＲＦ６が認識領域ＲＡ１内で重なるように配置されるようにしてもよいし、図２４に示されるように、切り出し領域ＲＦ７が認識領域ＲＡ１内で所定の間隔をもって配置されるようにしてもよい。

また、以上においては、複数の切り出し領域が配置される認識領域は、予め決められた位置に設定されるものとしたが、図２５に示されるように、図９の矢印Ｑ４２の例で説明したような、表示部１２に表示されるボタンアイコンの領域に対応する撮影画像上の位置に、認識領域が設定されるようにしてもよい。

図２５においては、表示部１２に、撮影されたユーザＵ３１と、各処理を実行させるためのボタンアイコンＡＣ２１−１，ＡＣ２１−２とが表示されている。図９と同様、これらのボタンアイコンＡＣ２１−１，ＡＣ２１−２には、操作されたときに実行される処理を想起させる画像や、処理を説明する文字等が表示されるようにしてもよい。

この例では、各ボタンアイコンＡＣ２１−１，ＡＣ２１−２の領域に対応する撮影画像上の位置が、４つの切り出し領域が配置される認識領域ＲＡ２−１，ＲＡ２−２とされる。この場合、ユーザＵ３１は、自分の手を所望のボタンアイコンＡＣ２１−１またはＡＣ２１−２内の領域に移動させるジェスチャを行なえば、ボタンアイコンＡＣ２１−１，ＡＣ２１−２に対して定められた処理を実行させることができる。

さらに、認識領域は、ジェスチャ認識を行なうシステムの提供者によって予め指定された位置に設定されるようにしてもよいし、システムを利用するユーザによって、予めまたは利用時に指定された位置に設定されるようにしてもよい。

以上においては、認識領域は、予め決められた位置に設定されるものとしたが、撮影画像上の、ユーザの体の一部の位置に基づいて設定されるようにしてもよい。

〈第６の実施の形態〉
［画像処理装置の構成例］
そのような場合、画像処理装置は、例えば図２６に示すように構成される。なお、図２６において、図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２６の画像処理装置４０１は、撮影部１１、顔辞書記録部４１１、顔検出部４１２、画像処理部４１３、ジェスチャ辞書記録部５４、ジェスチャ認識部３１２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

顔辞書記録部４１１は、アダブーストなどの統計学習により得られた、顔検出に用いられる顔辞書を記録しており、必要に応じて顔辞書を顔検出部４１２に供給する。例えば顔辞書の学習では、検出対象となる顔の画像を含む複数の学習用の画像が用いられ、この学習により顔辞書として認識器などが得られる。

顔検出部４１２は、顔辞書記録部４１１から供給された顔辞書に基づいて、撮影部１１から供給された撮影画像から、顔を検出し、その検出結果と撮影画像を画像処理部４１３に供給する。

画像処理部４１３は、顔検出部４１２から供給された顔の検出結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部３１２に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

画像処理部４１３は、認識領域設定部４２１、切り出し画像生成部４２２、差分算出部７２、および特徴量抽出部７３を備えている。認識領域設定部４２１は、顔の検出結果に基づいて、認識領域を設定する。切り出し画像生成部４２２は、顔の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部４２２は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。

［ジェスチャ認識処理の説明］
次に、図２７のフローチャートを参照して、画像処理装置４０１によるジェスチャ認識処理について説明する。

なお、図２７のフローチャートのステップＳ２１１，Ｓ２１５乃至Ｓ２２０の処理は、図１４のステップＳ１１１，Ｓ１１４乃至Ｓ１１９の処理とそれぞれ同様であるので、その説明は省略する。

すなわち、ステップＳ２１２において、顔検出部４１２は、顔を検出する。

具体的には、顔検出部４１２は、顔辞書記録部４１１に記録されている顔辞書と、撮影部１１から供給された撮影画像とに基づいて、各フレームの撮影画像から顔を検出し、その検出結果と撮影画像とを画像処理部４１３に供給する。

ステップＳ２１２において、認識領域設定部４２１は、顔検出部４１２から供給された顔の検出結果に基づいて、撮影画像上に認識領域を設定する。具体的には、認識領域設定部４２１は、撮影画像上で検出されたユーザの体の一部としての顔の位置に基づいて、認識領域を設定する。

例えば、図２８に示されるように、表示部１２に表示される撮影画像において、ユーザＵ３１の顔が検出された場合、検出された顔の領域ＦＡ１の位置に基づいて、ユーザの腕の可動範囲と推定される領域が、認識領域ＲＡ３として設定される。

ステップＳ２１３において、切り出し画像生成部４２２は、顔検出部４１２から供給された顔の検出結果に基づいて、認識領域設定部４２１により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。具体的には、切り出し画像生成部４２２は、撮影画像上で検出された顔の大きさに基づいて切り出し領域の大きさを決定し、認識領域内に配置する。

例えば、図２９に示されるように、表示部１２に表示される撮影画像において、ユーザＵ３１の顔が検出された場合、検出された顔の領域ＦＡ１の大きさを基準として、切り出し領域ＲＦ８の大きさが決定され、認識領域ＲＡ３内に配置される。

以降、認識領域内に配置された切り出し領域から画像が切り出され、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量が抽出される。そして、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャが認識し、その認識結果に応じた処理が行なわれる。

以上の処理においても、複数の切り出し領域について差分画像から特徴量を抽出してジェスチャ認識することで、より広い範囲でユーザのジェスチャを認識することができるようになる。

さらに、ユーザの顔の位置に基づいて認識領域が設定されるので、明らかに認識処理の対象にならない領域に対しては、認識処理が行なわれないようになり、ジェスチャ認識にかかる処理の負荷を軽減することができるようになる。

なお、以上においても、切り出し領域は、認識領域内で重なりなく且つ隙間なく敷き詰められるようにしてもよいし、認識領域内で重なるように配置されるようにしてもよいし、認識領域内で所定の間隔をもって配置されるようにしてもよい。

以上においては、認識領域は、ユーザの体の一部としての顔の位置に基づいて設定されるものとしたが、ユーザの体の一部としての手の位置に基づいて設定されるようにしてもよい。

〈第７の実施の形態〉
［画像処理装置の構成例］
そのような場合、画像処理装置は、例えば図３０に示すように構成される。なお、図３０において、図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図３０の画像処理装置５０１は、撮影部１１、手辞書記録部５１１、手検出部５１２、画像処理部５１３、ジェスチャ辞書記録部５４、ジェスチャ認識部３１２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

手辞書記録部５１１は、アダブーストなどの統計学習により得られた、手検出に用いられる顔辞書を記録しており、必要に応じて手辞書を手検出部５１２に供給する。例えば手辞書の学習では、検出対象となる手の画像を含む複数の学習用の画像が用いられ、この学習により手辞書として認識器などが得られる。

手検出部５１２は、手辞書記録部５１１から供給された手辞書に基づいて、撮影部１１から供給された撮影画像から、手を検出し、その検出結果と撮影画像を画像処理部５１３に供給する。

画像処理部５１３は、手検出部５１２から供給された顔の検出結果と撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部３１２に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

画像処理部５１３は、認識領域設定部５２１、切り出し画像生成部５２２、差分算出部７２、および特徴量抽出部７３を備えている。認識領域設定部５２１は、手の検出結果に基づいて、認識領域を設定する。切り出し画像生成部５２２は、手の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部５２２は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。

［ジェスチャ認識処理の説明］
次に、図３１のフローチャートを参照して、画像処理装置５０１によるジェスチャ認識処理について説明する。

なお、図３１のフローチャートのステップＳ３１１，Ｓ３１５乃至Ｓ３２０の処理は、図１４のステップＳ１１１，Ｓ１１４乃至Ｓ１１９の処理とそれぞれ同様であるので、その説明は省略する。

すなわち、ステップＳ３１２において、手検出部５１２は、手を検出する。

具体的には、手検出部５１２は、手辞書記録部５１１に記録されている手辞書と、撮影部１１から供給された撮影画像とに基づいて、各フレームの撮影画像から手を検出し、その検出結果と撮影画像とを画像処理部５１３に供給する。

ステップＳ３１３において、認識領域設定部５２１は、手検出部５１２から供給された手の検出結果に基づいて、撮影画像上に認識領域を設定する。具体的には、認識領域設定部５２１は、撮影画像上で検出されたユーザの体の一部としての手の位置に基づいて、認識領域を設定する。

例えば、図３２に示されるように、表示部１２に表示される撮影画像において、ユーザＵ３１の手が検出された場合、検出された手の領域ＨＡ１の位置を中心とした所定範囲の領域が、認識領域ＲＡ４として設定される。

ステップＳ３１３において、切り出し画像生成部５２２は、手検出部５１２から供給された手の検出結果に基づいて、認識領域設定部５２１により設定された認識領域に配置される複数の切り出し領域それぞれの大きさを決定し、認識領域内に配置する。具体的には、切り出し画像生成部５２２は、撮影画像上で検出された手の大きさに基づいて切り出し領域の大きさを決定し、認識領域内に配置する。

例えば、図３３に示されるように、表示部１２に表示される撮影画像において、ユーザＵ３１の手が検出された場合、検出された手の領域ＨＡ１の大きさを基準として、切り出し領域ＲＦ９の大きさが決定され、認識領域ＲＡ４内に配置される。

以降、認識領域内に配置された認識枠が切り出され、その切り出し領域毎の画像の差分を求めて得られる差分画像から特徴量が抽出される。そして、時系列に並べた特徴量に基づいて時系列認識処理により、ユーザのジェスチャが認識し、その認識結果に応じた処理が行なわれる。

さらに、ユーザの手の位置に基づいて認識領域が設定されるので、明らかに認識処理の対象にならない領域に対しては、認識処理が行なわれないようになり、ジェスチャ認識にかかる処理の負荷を軽減することができるようになる。

また、以上においては、撮影画像上でユーザの体の一部を検出する手段として、ユーザの顔を検出する顔検出部４１２およびユーザの手を検出する手検出部５１２のいずれかを備える構成について説明したが、顔検出部４１２および手検出部５１２の両方を備える構成としてもよい。

〈第８の実施の形態〉
［画像処理装置の構成例］
そのような場合、画像処理装置は、例えば図３４に示すように構成される。なお、図３４において、図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図３４の画像処理装置６０１は、撮影部１１、顔辞書記録部４１１、顔検出部４１２、手辞書記録部５１１、手検出部５１２、画像処理部６１３、ジェスチャ辞書記録部５４、ジェスチャ認識部３１２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

また、顔辞書記録部４１１および顔検出部４１２は、図２６の画像処理装置４０１に設けられた構成と同一であり、手辞書記録部５１１および手検出部５１２は、図３０の画像処理装置５０１に設けられた構成と同一であるので、その説明は省略する。なお、図３４において、顔検出部４１２は、撮影部１１から供給された撮影画像から顔を検出し、その検出結果と撮影画像を手検出部５１２に供給する。また、手検出部５１２は、顔検出部４１２から供給された撮影画像から手を検出し、その検出結果、顔の検出結果、および撮影画像を画像処理部６１１に供給する。

画像処理部６１３は、認識領域設定部６２１、切り出し画像生成部６２２、差分算出部７２、および特徴量抽出部７３を備えている。認識領域設定部６２１は、顔または手の検出結果に基づいて、認識領域を設定する。切り出し画像生成部６２２は、顔または手の検出結果に基づいて切り出し領域それぞれの大きさを決定し、認識領域に配置する。そして、切り出し画像生成部６２２は、撮影画像上に配置された切り出し領域の画像を切り出して切り出し画像とする。

なお、画像処理装置６０１によるジェスチャ認識処理は、上述した図２７および図３１のフローチャートの処理を組み合わせることで実現されるので、その詳細な説明は省略する。

一例を説明すると、画像処理装置６０１によるジェスチャ認識処理は、例えば、図２７のフローチャートにおいて、ステップＳ２１２（顔の検出）の後に、図３１のフローチャートのステップＳ３１２（手の検出）が行なわれ、ステップＳ２１３において、顔または手の位置に基づいた認識領域の設定、ステップＳ２１４において、顔または手の大きさに基づいた切り出し領域の大きさの決定が行なわれることで実現される。

なお、画像処理装置６０１によるジェスチャ認識処理においても、図２７または図３１のフローチャートを参照して説明したジェスチャ認識処理と同様の作用、効果を得ることができる。

ところで、上述した処理においては、認識対象となるジェスチャと似た動きの被写体が撮影された場合、その被写体の動きが、認識対象となるジェスチャとして誤認識される恐れがある。

例えば、図１５に示されるユーザＵ３１が行なうフリック動作についてジェスチャ認識が行なわれる場合、上述した処理においては、ユーザＵ３１がその上体を左右に振る動作が、認識領域内の全体的な動きから、フリック動作として誤認識される恐れがある。

そこで、ジェスチャ認識処理を行なう画像処理装置において、ジェスチャの誤認識を防ぐ構成を設けるようにしてもよい。

〈第９の実施の形態〉
［画像処理装置の構成例］
そのような場合、画像処理装置は、例えば図３５に示すように構成される。なお、図３５において、図１３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図３５の画像処理装置７０１は、撮影部１１、画像処理部７１３、ジェスチャ辞書記録部５４、ジェスチャ認識部７１２、動作処理部５６、表示制御部５７、および表示部１２から構成される。

画像処理部７１１は、撮影部１１から供給された撮影画像に基づいて、ジェスチャ認識のための特徴量を抽出し、ジェスチャ認識部７１２に供給するとともに、必要に応じて切り出し領域等の情報を表示制御部５７に供給する。

画像処理部７１１は、認識領域設定部３２１、切り出し画像生成部３２２、差分算出部７２、特徴量抽出部７３、および動き判別部７２１を備えている。動き判別部７２１は、認識領域内の複数の注目点における動きベクトルの大きさに基づいて、認識領域内の動きを判別し、その判別結果をジェスチャ認識部７１２に供給する。

ジェスチャ認識部７１２は、動き判別部７２１から供給された判別結果に応じて、ジェスチャ辞書記録部５４から供給されたジェスチャ辞書と、画像処理部７１１から供給された切り出し領域毎の特徴量とに基づいてジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。

［ジェスチャ認識処理の説明］
次に、図３６のフローチャートを参照して、画像処理装置７０１によるジェスチャ認識処理について説明する。

なお、図３６のフローチャートのステップＳ４１１乃至Ｓ４１７，Ｓ４２０の処理は、図１４のステップＳ１１１乃至Ｓ１１７，Ｓ１１９の処理と同様であるので、その説明は省略する。

すなわち、ステップＳ４１８において、動き判別部７２１は、動き判別処理を実行する。

［動き判別処理の説明］
ここで、図３７のフローチャートを参照して、動き判別部７２１による動き判別処理について説明する。

ステップＳ４５１において、動き判別部７２１は、撮影部１１から供給された撮影画像のオプティカルフローを用いて、認識領域内の複数の注目点における動きベクトルを算出する。注目点は、例えば、認識領域内の全体に亘って均一に設定されるものとする。また、各注目点における動きベクトルは、オプティカルフローを用いた手法に限らず、他の手法を用いて算出されるようにしてもよい。

ステップＳ４５２において、動き判別部７２１は、注目点毎に算出された動きベクトルを、注目する方向の大きさでソートする。ここで、注目する方向とは、認識対象となるジェスチャにおいて特に動きが大きくなる方向、この場合は、左右方向とされる。以下においては、撮影画像において、左右方向をｘ軸方向とし、上下方向をｙ軸方向とする。なお、ｘ軸方向およびｙ軸方向において、正負の方向は任意とする。

ステップＳ４５３において、動き判別部７２１は、ｘ軸方向の大きさでソートされた動きベクトル（具体的には、動きベクトルのｘ成分）を、その最大値で正規化する。

ステップＳ４５４において、動き判別部７２１は、ｘ軸方向の大きさでソートされ、その大きさの最大値で正規化された動きベクトルのうち、負の値をもつ動きベクトルを正の値に変換する。

ステップＳ４５５において、動き判別部７２１は、ｘ軸方向の大きさでソートされ、その大きさの最大値で正規化され、さらに正の値に変換された動きベクトルに対して、所定の閾値処理を行なう。

例えば、注目点毎に、図３８に示されるような動きベクトルが算出されたとする。図３８において、横軸は、注目点それぞれを表し、縦軸は、オプティカルフローを用いて算出された注目点毎の動きベクトルのｘ軸方向の大きさを表している。

図３９は、このような動きベクトルを、その大きさでソートし、その大きさの最大値で正規化し、さらに負の値を正の値に変換した結果を示している。図３９において、横軸上、最も左に示される動きベクトルが、ｘ軸方向の大きさが最大となる動きベクトルであり、中央付近の大きさが略０の動きベクトルから右側に示される動きベクトルが、正の値に変換された動きベクトルである。また、図３９においては、認識対象となるジェスチャに応じて決定される閾値曲線Ｃｔｈが示されている。

すなわち、ステップＳ４５６においては、例えば図３９に示される動きベクトルが、閾値曲線Ｃｔｈを超えるか否かが判定される。

例えば、閾値曲線Ｃｔｈが、左右のフリック動作に応じて決定されたものとする。ユーザが左右のフリック動作を行った場合、認識領域内の一部の領域のみで動きベクトルがｘ軸方向に大きくなるので、その動きベクトルが、ｘ軸方向の大きさでソートされ、正規化され、さらに負の値が正の値に変換されると、図３９に示されるような結果が得られる。この場合、動きベクトルのｘ軸方向の大きさは閾値曲線Ｃｔｈを超えていないので、認識領域におけるユーザの動きは、左右のフリック動作である可能性があると言える。

一方、ユーザがその上体を左右に振る動作を行った場合、認識領域内の全体に近い領域で動きベクトルがｘ軸方向に大きくなるので、その動きベクトルが、大きさでソートされ、正規化され、さらに負の値が正の値に変換されると、全体的に高い値の動きベクトルが得られる。この場合、動きベクトルのｘ軸方向の大きさは横軸の中央付近で閾値曲線Ｃｔｈを超えることになり、認識領域におけるユーザの動きは、左右のフリック動作である可能性はないと言える。

このようにして、ステップＳ４５６においては、動きベクトルが閾値曲線Ｃｔｈを超えるか否かが判定されることで、ユーザの動きが認識対象となるジェスチャであるか否か判別される。動き判別部７２１は、その判別結果をジェスチャ認識部７１２に供給し、処理は図３６のステップＳ４１８に戻る。

なお、認識対象となるジェスチャが、例えば、上下のフリック動作である場合、図３７の動き判別処理においては、注目点毎の動きベクトルのｙ軸方向の大きさについて、上述した処理が行なわれるようになる。

図３６のフローチャートに戻り、ステップＳ４１８の後、ステップＳ４１９において、ジェスチャ認識部７１２は、動き判別部７２１から供給された判別結果に応じて、ジェスチャ認識を行ない、その認識結果を動作処理部５６に供給する。つまり、ユーザの動きが認識対象となるジェスチャである旨の判別結果が動き判別部７２１から供給された場合、ジェスチャ認識部７１２はジェスチャ認識を行なう。なお、ユーザの動きが認識対象となるジェスチャでない旨の判別結果が動き判別部７２１から供給された場合には、ジェスチャ認識部７１２はジェスチャ認識を行なわない。

以上のように、画像処理装置７０１は、撮影画像上の認識領域内の動きベクトルの大きさに基づいて、ユーザの動きを判別する。そして、画像処理装置７０１は、その判別結果に応じて、ユーザのジェスチャを認識し、その認識結果に応じた処理を行なう。

このように、ユーザの動きを判別することで、認識対象となるジェスチャと似た動きの被写体が撮影された場合であっても、その被写体の動きを、認識対象となるジェスチャとして誤認識することを防ぐことができる。

なお、上述した動き判別処理を実行する動き判別部７２１は、画像処理装置４０１，５０１，６０１に設けられるようにしてもよい。

ところで、以上においては、設定された認識領域には、同一の大きさの切り出し領域が配置されるものとしたが、複数種類の大きさの切り出し領域が配置されるようにしてもよい。

また、前フレームにおいてジェスチャ認識された領域については、処理対象となる現フレームにおいて、図２３で示されたように、切り出し領域を認識領域内で重なるように配置することで、切り出し領域の密度を高めるようにしてもよい。これにより、ユーザが、上下方向または左右方向に多少ずれた位置でジェスチャを行なった場合でも、いずれかの切り出し領域においてジェスチャ認識が行われる可能性が高くなり、ジェスチャ認識の精度をさらに高めることが可能となる。

さらに、切り出し領域の大きさを小さくすることで、指の動作が手の動作のように認識されるようになれば、手による左右のフリック動作よりも小さい動作、例えば、指による左右のフリック動作をジェスチャ認識することも可能となる。

さらに、認識領域内の複数箇所のそれぞれにおいて、同時にジェスチャ認識が行なわれるようにしてもよい。これにより、例えば左右両方の手によるジェスチャが認識され、いわゆるマルチタッチのような操作入力を実現することが可能となる。

また、上述した第５乃至第９の実施の形態における処理の一部が、第３および第４の実施の形態の構成で説明したような、通信網等を介して接続された他の装置で行なわれるようにしてもよい。

〈システムへの適用例〉
ところで、上述してきたジェスチャ認識処理は、各種のシステムに適用することができる。

上述したジェスチャ認識処理は、例えば、図４０の矢印Ｑ６１に示すように、表示部１２に、図示せぬ記録媒体に記録されている画像データに対応するサムネイルＰＩＣ１１−１乃至ＰＩＣ１１−６を表示するシステムに適用することができる。図４０の矢印Ｑ６１においては、ユーザＵ３１が、右から左へのフリック動作を行なうことで、表示部１２において、サムネイルＰＩＣ１１−１乃至ＰＩＣ１１−６が表示されている画面を左にスクロールさせることができるようになる。

また、上述したジェスチャ認識処理は、例えば、図４０の矢印Ｑ６２に示すように、表示部１２に、スライド式のスイッチＳＷ１２を表示するシステムに適用することができる。図４０の矢印Ｑ６２においては、ユーザＵ３１が、右から左へのフリック動作を行なうことで、表示部１２において、表示されているスイッチＳＷ１２をＯＦＦからＯＮに切り替えることができるようになる。

さらに、上述したジェスチャ認識処理は、例えば、図示はしないが、テレビジョン受像機に適用することができる。この例においては、ユーザが、右から左へのフリック動作を行なうことで、番組のチャンネル選択や、テレビジョン受像機に接続されているレコーダなどの接続機器の選択を行なうことができるようになる。

以上の例に限らず、上述したジェスチャ認識処理は、表示部から離れた位置でのジェスチャによって、表示部の表示を制御するユーザインタフェースを備えるシステムに適用することが可能である。

なお、認識されるジェスチャは、左右のフリック動作に限らず、上下のフリック動作やその他の動作であってももちろんよい。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図４１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）９０１，ROM（Read Only Memory）９０２，RAM（Random Access Memory）９０３は、バス９０４により相互に接続されている。

バス９０４には、さらに、入出力インターフェース９０５が接続されている。入出力インターフェース９０５には、入力部９０６、出力部９０７、記録部９０８、通信部９０９、及びドライブ９１０が接続されている。

入力部９０６は、キーボード、マウス、マイクロホンなどよりなる。出力部９０７は、ディスプレイ、スピーカなどよりなる。記録部９０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部９０９は、ネットワークインターフェースなどよりなる。ドライブ９１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア９１１を駆動する。

以上のように構成されるコンピュータでは、CPU９０１が、例えば、記録部９０８に記録されているプログラムを、入出力インターフェース９０５及びバス９０４を介して、RAM９０３にロードして実行することにより、上述した一連の処理が行なわれる。

コンピュータ（CPU９０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア９１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア９１１をドライブ９１０に装着することにより、入出力インターフェース９０５を介して、記録部９０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部９０９で受信し、記録部９０８にインストールすることができる。その他、プログラムは、ROM９０２や記録部９０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行なわれるプログラムであっても良いし、並列に、あるいは呼び出しが行なわれたとき等の必要なタイミングで処理が行なわれるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、
前記差分画像から特徴量を抽出する特徴量抽出部と、
時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部と
を備える画像処理装置。
［２］
前記認識部は、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識する
［１］に記載の画像処理装置。
［３］
前記撮影画像から前記ユーザの手を検出する手検出部と、
検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部と
をさらに備える［２］に記載の画像処理装置。
［４］
前記切り出し領域決定部は、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定する
［３］に記載の画像処理装置。
［５］
前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに備える
［２］に記載の画像処理装置。
［６］
前記所定領域は、前記撮影画像上の予め定められた領域である
［２］に記載の画像処理装置。
［７］
前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに備え、
前記差分画像生成部は、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成し、
前記特徴量抽出部は、前記所定領域毎の前記差分画像から前記特徴量を抽出し、
前記認識部は、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識する
［２］に記載の画像処理装置。
［８］
前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに備える
［７］に記載の画像処理装置。
［９］
前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに備え、
前記領域設定部は、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定する
［８］に記載の画像処理装置。
［１０］
前記切り出し領域決定部は、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定する
［９］に記載の画像処理装置。
［１１］
前記検出部は、前記撮影画像から前記ユーザの顔を検出する
［９］に記載の画像処理装置。
［１２］
前記検出部は、前記撮影画像から前記ユーザの手を検出する
［９］に記載の画像処理装置。
［１３］
前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに備え、
前記認識部は、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識する
［７］乃至［１２］の何れかに記載の画像処理装置。
［１４］
前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに備える
［２］乃至［１３］の何れかに記載の画像処理装置。
［１５］
前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに備える
［１４］に記載の画像処理装置。
［１６］
前記表示制御部は、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、
前記動作処理部は、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させる
［１５］に記載の画像処理装置。
［１７］
前記表示制御部は、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせる
［１４］乃至［１６］の何れかに記載の画像処理装置。
［１８］
前記特徴量抽出部は、前記差分画像を複数のブロックに分割し、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出する
［２］乃至［１７］の何れかに記載の画像処理装置。

１２表示部，４１画像処理装置，５２手形状認識部，５３画像処理部，５５ジェスチャ認識部，５７表示制御部，７１切り出し領域決定部，７２差分算出部，７３特徴量抽出部，１０１画像処理装置，１２１切り出し画像生成部，３０１画像処理装置，３１１画像処理部，３１２ジェスチャ認識部，３２１認識領域設定部，３２２切り出し画像生成部，４０１画像処理装置，４１２顔検出部，４１３画像処理部，４２１認識領域設定部，４２２切り出し画像生成部，５０１画像処理装置，５１２手検出部，５１３画像処理部，５２１認識領域設定部，５２２切り出し画像生成部，６０１画像処理装置，６１１画像処理部，６２１認識領域設定部，６２２切り出し画像生成部，７０１画像処理装置，７１１画像処理部，７２１動き判別部

Claims

撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成する差分画像生成部と、
前記差分画像から特徴量を抽出する特徴量抽出部と、
時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する認識部と
を備える画像処理装置。
前記認識部は、前記対象物の特定の動きとして、ユーザの手によるジェスチャを認識する
請求項１に記載の画像処理装置。
前記撮影画像から前記ユーザの手を検出する手検出部と、
検出された前記ユーザの手の前記撮影画像上の位置に基づいて、前記所定領域を決定する切り出し領域決定部と
をさらに備える請求項２に記載の画像処理装置。
前記切り出し領域決定部は、連続する複数フレームの前記撮影画像について、検出された前記ユーザの手が前記撮影画像上の一定範囲内に位置している場合、前記ユーザの手の位置に基づいて、前記所定領域を決定する
請求項３に記載の画像処理装置。
前記撮影画像上の各領域のフレーム間差分を求めることにより、前記所定領域を決定する切り出し領域決定部をさらに備える
請求項２に記載の画像処理装置。
前記所定領域は、前記撮影画像上の予め定められた領域である
請求項２に記載の画像処理装置。
前記撮影画像上で、複数の前記所定領域が配置される認識領域を設定する領域設定部をさらに備え、
前記差分画像生成部は、前記認識領域内に配置された前記所定領域毎の前記差分画像を生成し、
前記特徴量抽出部は、前記所定領域毎の前記差分画像から前記特徴量を抽出し、
前記認識部は、前記所定領域毎の、時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記ユーザのジェスチャを認識する
請求項２に記載の画像処理装置。
前記所定領域それぞれの大きさを決定し、前記認識領域内に配置する切り出し領域決定部をさらに備える
請求項７に記載の画像処理装置。
前記撮影画像から前記ユーザの体の一部を検出する検出部をさらに備え、
前記領域設定部は、検出された前記ユーザの体の一部の撮影画像上の位置に基づいて、前記認識領域を設定する
請求項８に記載の画像処理装置。
前記切り出し領域決定部は、検出された前記ユーザの体の一部の大きさに基づいて、前記所定領域それぞれの大きさを決定する
請求項９に記載の画像処理装置。
前記検出部は、前記撮影画像から前記ユーザの顔を検出する
請求項９に記載の画像処理装置。
前記検出部は、前記撮影画像から前記ユーザの手を検出する
請求項９に記載の画像処理装置。
前記認識領域内の動きベクトルの大きさに基づいて、前記認識領域における動きを判別する動き判別部をさらに備え、
前記認識部は、前記動き判別部による判別結果に応じて、前記ユーザのジェスチャを認識する
請求項７に記載の画像処理装置。
前記撮影画像上の前記ユーザと、前記所定領域の位置を示す画像とを表示部に表示させる表示制御部をさらに備える
請求項２に記載の画像処理装置。
前記ユーザのジェスチャが認識された場合、認識されたジェスチャに応じた処理を実行させる動作処理部をさらに備える
請求項１４に記載の画像処理装置。
前記表示制御部は、前記所定領域の位置を示す前記画像を複数前記表示部に表示させ、
前記動作処理部は、複数の前記所定領域のうちの前記ユーザのジェスチャが認識された前記所定領域と、認識されたジェスチャとにより定まる処理を実行させる
請求項１５に記載の画像処理装置。
前記表示制御部は、ジェスチャ認識が行なわれている旨の表示、または前記ユーザのジェスチャが認識された旨の表示を前記表示部に行なわせる
請求項１６に記載の画像処理装置。
前記特徴量抽出部は、前記差分画像を複数のブロックに分割し、前記ブロック内の画素の平均輝度を前記ブロックの前記特徴量として抽出する
請求項２に記載の画像処理装置。
撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、
前記差分画像から特徴量を抽出し、
時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する
ステップを含む画像処理方法。
撮影画像上の所定領域を切り出して得られた切り出し画像のフレーム間差分を求めることで、差分画像を生成し、
前記差分画像から特徴量を抽出し、
時系列に並ぶ複数の前記差分画像から得られた前記特徴量に基づいて、前記撮影画像上の対象物の特定の動きを認識する
ステップを含む処理をコンピュータに実行させるプログラム。