JP2015212849A

JP2015212849A - 画像処理装置、画像処理方法および画像処理プログラム

Info

Publication number: JP2015212849A
Application number: JP2014094404A
Authority: JP
Inventors: 源太鈴木; Genta Suzuki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2014-05-01
Filing date: 2014-05-01
Publication date: 2015-11-26
Anticipated expiration: 2034-05-01
Also published as: JP6417702B2; US20150317037A1; US9710109B2

Abstract

【課題】低コストでユーザの視認性を向上させることが出来る表示画像を生成することが可能となる画像処理装置を提供する。【解決手段】画像処理装置は、ユーザの動作部位を含む実画像を取得する取得部と、実画像から動作部位を認識する認識部と、動作部位の位置に基づいて実画像の作業領域を規定する規定部を備える。更に、当該画像処理装置は、作業領域の第１画像特徴量を算出する算出部と、第１画像特徴量に基づいて、作業領域または動作部位を第２画像特徴量に制御した表示画像を生成する生成部を備える。【選択図】図３

Description

本発明は、例えば、ユーザの作業支援に用いられる表示画像を生成する画像処理装置、画像処理方法および画像処理プログラムに関する。

近年、任意の場所に固定されたカメラ、または自由に移動が可能なカメラを用いて、ユーザの視野範囲内の任意の作業対象物体を撮像して画像を取得した後、作業対象物体に関連する付加情報（例えば作業内容）を含む表示画像を、プロジェクタを用いて直接作業対象物体に重畳表示するプロジェクション型拡張現実感（ＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ：ＡＲ）技術が近年提案されている。プロジェクション型拡張現実感技術による情報提示方法は、従来の携帯端末等のディスプレイに付加情報を表示する拡張現実感技術と比較すると、ディスプレイ上の作業対象物体と実物の作業対象物体の双方を見比べる必要が不要となる為、作業効率が向上する等の利点を有する。プロジェクション型拡張現実感技術を利用した画像処理装置として、例えば、テーブル上の作業対象物体に対するユーザの手指の動作を検出し、プロジェクタで当該動作に対応する表示画像を投影する画像処理装置が提案されている。

株式会社富士通研究所、"指で直観的に操作可能な次世代ユーザーインターフェースを開発"、［ｏｎｌｉｎｅ］、２０１３年４月３日、［２０１４年３月２６日検索］、インターネット＜ＵＲＬ:ｈｔｔｐ:／／ｐｒ.ｆｕｊｉｔｓｕ.ｃｏｍ／ｊｐ／ｎｅｗｓ／２０１３／０４／３.ｈｔｍｌ＞

プロジェクション型拡張現実感技術においては、ユーザに対する表示画像の視認性を向上させることが重要となる。例えば、ユーザが作業対象物体に重畳表示（投影）された表示画像を十分に視認することが出来ない場合は、作業対象物体に対してどの様な作業を行えば良いか理解出来ない為である。作業対象物体に重畳的に表示される表示画像の視認性を向上させる為には、例えば、表示画像の作成者が、作業対象物体と付加情報の相対位置や補色関係を考慮した表示画像を作成する方法が想定され得るが、作成コスト等を考慮すると現実的な方法ではない。この為、プロジェクション型拡張現実感技術においては、低コストでユーザの視認性を向上させることが出来る表示画像を生成する画像処理技術が要求されている。本発明は、低コストでユーザの視認性を向上させることが出来る表示画像を生成する画像処理装置を提供することを目的とする。

本発明が開示する画像処理装置は、ユーザの動作部位を含む実画像を取得する取得部と、実画像から動作部位を認識する認識部と、動作部位の位置に基づいて実画像の作業領域を規定する規定部を備える。更に、当該画像処理装置は、作業領域の第１画像特徴量を算出する算出部と、第１画像特徴量に基づいて、作業領域または動作部位を第２画像特徴量に制御した表示画像を生成する生成部を備える。

なお、本発明の目的及び利点は、例えば、請求項におけるエレメント及び組み合わせにより実現され、かつ達成されるものである。また、上記の一般的な記述及び下記の詳細な記述の何れも、例示的かつ説明的なものであり、請求項のように、本発明を制限するものではないことを理解されたい。

本明細書に開示される画像処理装置では、低コストでユーザの視認性を向上させることが出来る表示画像を生成することが可能となる。

第１の実施形態による画像処理装置が含まれる画像処理システムの概略図である。（ａ）は、表示画像の一例である。（ｂ）は、表示画像が作業対象物体に投影された重畳画像である。一つの実施形態による画像処理装置の機能ブロック図である。画像処理装置による画像処理のフローチャートである。認識部が認識するカメラ座標系の指先座標を含むデータ構造の一例を示すテーブルである。認識部が算出するカメラ座標系と世界座標系における手指位置のデータ構造の一例を示すテーブルである。認識部が認識する作業対象物体の３次元直交座標のデータ構造の一例を示すテーブルである。算出部と生成部による画像処理のフローチャートである。（а）は、生成部が生成する作業領域の第１画像特徴量を、第２画像特徴量とした表示画像の概念図である。（ｂ）は、生成部が生成する作業領域に含まれる物体と動作部位を輪郭線のみに制御した表示画像の概念図である。第２の実施形態による画像処理装置が含まれる画像処理システムの概略図である。一つの実施形態による画像処理装置として機能するコンピュータのハードウェア構成図である。

まず、従来技術における問題の所在について説明する。なお、当該問題の所在は、本発明者らが従来技術を仔細に検討した結果として新たに見出したものであり、従来は知られていなかったものである。

プロジェクション型拡張現実感技術において、例えば、作業対象物体の一例となる電子基板に対して熟練ユーザが実施した作業内容を記録した動画のフレームを表示画像として電子基板に重畳表示（投影と称しても良い）することにより、未熟練ユーザは熟練ユーザと同一の作業内容を容易に実施出来ることが想定される。しかしながら、作業対象物体に表示画像を重畳表示すると、表示画像の視認性が低下することが明らかになった。具体的には、表示画像を作業対象物体に投影する場合、作業対象物体の全面に表示画像が重畳的に投影されると、作業対象物体全体が明るくなり、作業対象物体の領域内において、輝度差が発生しない為、ユーザが着目すべき点（作業領域と称しても良い）が理解し難い場合が発生することが明らかになった。

更に、作業対象物体が複雑な色相分布（色パターン分布と称しても良い）を有する場合、表示画像を投影すると、表示画像の投影光の色相の関係で、表示画像が投影される作業対象物体の色相が斑になり、視認性が低下することも明らかになった。この原因について本発明者らの見解は以下の通りである。表示画像の投影光の反射率は、投影する先の作業対象物体の色相と投影する表示画像の色相の組み合せにより異なる。この為、複雑な色相分布の作業対象物体の上に、手指を含む作業画像を投影すると、手指の色相（肌色）に対する反射率の高い部位の色相部分が明るくなり、反射率の低い部位は暗くなる。なお、この現象は、肌色以外の色相（ユーザが手袋を着用している場合等）でも同様に発生する。この為、作業対象物体が複雑な色相分布を有する場合、表示画像を投影すると、表示画像が投影される作業対象物体の色相が斑になる。

更に、表示画像における作業対象物体は２次元である一方、表示画像が投影される作業対象物体は３次元であり、互いに異なる次元量の為、作業対象物体の位置と表示画像の位置を完全に一致させることは難しい。この為、作業対象物体の形状が複雑であるほど（換言すると、エッジ量が多いほど）、投影される作業対象物体の色相と、表示画像の色相が一致しなくなり、視認性が低下することが明らかになった。

本発明者らは、上述の新たに見出された問題を鑑み、例えば、熟練ユーザが実施した作業内容を記録した動画のフレームを表示画像することで、表示画像の作成者が特別な作成作業を行う必要が不要となる為、低コストで表示画像を作成することが可能となることを新たに見出した。更には、本発明者らは、この様な表示画像において視認性を向上させることが可能となれば、低コストでユーザの視認性を向上させることが出来る表示画像を生成する画像処理装置を提供することが可能となることを新たに見出した。

上述の本発明者らの鋭意検証によって、新たに見出された技術的事項を考慮しつつ、以下に、一つの実施形態による画像処理装置、画像処理方法及び画像処理プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は、開示の技術を限定するものではない。

（システム構成）
図１は、第１の実施形態による画像処理装置３が含まれる画像処理システム１０の概略図である。画像処理システム１０は、第１カメラ１、第２カメラ２、画像処理装置３、投影部４を有する。画像処置装置３は、第１カメラ１、第２カメラ２、投影部４と有線または無線を介して通信可能に接続される。なお、画像処理装置３は、図示しない通信部を有しており、通信回線を介して様々な外部装置と双方向にデータの送受信を行うことによりネットワーク上のリソースを用いることが可能である。更に、投影部４は、必要に応じて画像処理システム１０に含まれれば良く、必ずしも画像処理システム１０にとって必要な構成要素ではない（画像処理システム１０とは別体でもよい）。なお、第１カメラ１、第２カメラ２、画像処理装置３、投影部４は、例えば、設置面に対向して配置されれば良いが、壁面に対向して配置されても良いし、モバイル端末やウェラブル端末上の任意の位置に配置されても良い。

投影部４は、例えば、プロジェクタなどの表示デバイスである。投影部４は、例えば、作業対象物体の付加情報（例えば、熟練ユーザが実施した作業内容）を含む表示画像を表示する。投影部４は、表示画像を、例えば、投影面の一例となるユーザが直視する作業対象物体に重畳して投影する。

第１カメラ１と第２カメラ２は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）やＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）カメラなどの撮像デバイスである。第１カメラ１と第２カメラ２は、例えば、それぞれ図１に示す様な視野範囲を有する。第１カメラ１と第２カメラ２は、ユーザの動作部位の一例となる手指と作業対象物体（例えば、電子基板）を含む実画像を撮像する。更に、実施例１においては、説明の便宜上、作業対象物体には一意の作業対象物体を特定する為のマーカ（例えば、２次元コード）が含まれているものとする。

画像処理装置３は、例えば、ワイヤードロジックによるハードウェア回路である。また、画像処理装置３はコンピュータプログラムにより実現される機能モジュールであっても良い。更に、画像処理装置３は、例えば、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）やＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）などの集積回路であっても良い。画像処理システム１０における画像処置装置３の配置位置は自由に設定することが可能であるが、例えば、投影部４の近傍付近に配置されれば良い。画像処理装置３は、第１カメラ１が撮像する第１画像と、第２カメラが撮像する第２画像を取得し、例えば世界座標（３次元直交座標と称しても良い）系におけるユーザの動作部位（例えば、手指）の位置を算出する。換言すると画像処理装置３は、異なる光軸で撮像される第１画像と第２画像を取得することが出来る。また、画像処理装置３は、必要に応じて投影部４の投影処理を制御することが出来る。なお、画像処理装置３の機能の詳細については後述する。

図１に示される通り、投影部４は、例えば、設置面または地面と水平に設置され、投影面を規定し、作業対象物体上に表示画像を投影することが出来る。また、投影部４、第１カメラ１と第２カメラ２は、例えば投影面の上方に、鉛直下向きの方向で設置される。第１カメラ１と第２カメラ２は、内部パラメータが等しく既知であり、互いの光軸が平行で、かつ、第１カメラ１と第２カメラ２が撮像する複数の画像中の任意の横軸が同一直線状上になる様に配置される、所謂平行ステレオ配置となる。第１カメラ１と第２カメラ２により、第１画像と第２画像、作業対象物体の深度、ならびにユーザの動作部位の一例となる手指（指先と称しても良い）の深度などの情報を含む画像が撮像されることなる。なお、第１カメラ１と第２カメラ２は、平行ステレオ配置を保った状態で可動させる配置にしても良い。また、投影部４により表示画像が作業対象物体上に投影される為、ユーザは、投影された表示画像を参照しつつ、作業対象物体に対して必要とされる作業を実施することが出来る。

なお、図１に示す画像処理システム１０の構成時点で、第１カメラ１と第２カメラ２のカメラ座標系と投影部４の世界座標（３次元直交座標）系における位置合わせ（キャリブレーション）は、予め実施されているものとする。また、画像処理装置３に使用開始後に、第１カメラ１と第２カメラ２と投影部４の位置関係を変化させる場合は、キャリブレーションを、少なくとも一回実行すれば良い。ここで、具体的なキャリブレーションの方法の一例として、投影部４が投影する任意の投影画像を、第１カメラ１と第２カメラ２で撮像することで、画像処理装置３内部でキャリブレーションを実行する方法を説明する。なお、当該方法においては、第１カメラ１と第２カメラ２のそれぞれについて、予めキャリブレーションが実行されているものとする。

先ず、投影部４は、世界座標系において、ある任意の座標値（ｘ_ｐ、ｙ_ｐ）に対して任意のマーカを投影する。当該マーカは、周囲の背景と区別しやすいような任意の色や形状を用いることが可能である。そして、第１カメラ１と第２カメラ２は、所定の投影面に投影されたマーカを撮像する。続いて、画像処理装置３は、マーカを公知で任意の画像処理によって認識する。例えば、画像処理装置３は、投影部４がマーカとして円形の模様を投影した場合、例えば、「Kimme et al., “Finding circles by an array of accumulators”, Communications of the Association for Computing Machinery, #18, pp.120-122, 1975.」に開示される、ハフ円変換により円形状を認識することが出来る。ここで、画像処理装置３がマーカを認識した際の座標値を（ｘ_ｉ、ｙ_ｉ）とする。画像処理装置３は、上述の処理を、任意の場所で４点分繰り返す。画像処理装置３は、当該処理で得られた（ｘ_ｐ、ｙ_ｐ）に対応する（ｘ_ｉ、ｙ_ｉ）の組の４組から、３行３列のホモグラフィ行列Ｈの各成分を、８次元連立一次方程式を用いて算出する。なお、ホモグラフィとは、３次元空間上のある平面から別の平面への射影変換を表す行列である。画像処理装置３は、第１カメラ１と第２カメラ２のカメラ座標平面と投影部４の投影部座標平面との対応付けを求める。画像処理装置３は、算出した求めたホモグラフィ行列を、例えば、図示しないキャッシュまたはメモリに保存しておくことで、表示画像の投影時において当該ホモグラフィ行列を利用することが出来る。

図２（ａ）は、表示画像の一例である。図２（ｂ）は、表示画像が作業対象物体に投影された重畳画像である。図２（ａ）に示される通り、表示画像は、例えば、ユーザの動作部位の一例となる手指と、作業対象物体の一例となる電子基板が含まれる。また、図２（ｂ）に示される通り、表示画像における作業対象物体は２次元である一方、表示画像が投影される実物の作業対象物体は３次元であり、互いに異なる次元量の為、作業対象物体の位置と表示画像の位置は完全一致していない。この為、上述の通り、作業対象物体の形状が複雑であるほど（換言すると、エッジ量が多いほど）、作業対象物体の色相と、投影される表示画像の色相が一致しなくなり、視認性が低下する場合がある。また、図２（ｂ）に示される通り、作業対象物体の全面に表示画像が重畳的に投影されると、上述の通り、作業対象物体全体が明るくなり、作業対象物体の領域内において、輝度差が発生しない為、ユーザが着目すべき点（作業領域と称しても良い）が理解し難い場合が発生する。

（実施例１）
実施例１においては、例えば、作業対象物体に投影する表示画像を生成する実施例について開示する。この為、実施例１においては、図１の画像処理システム１０の投影部４は必ずしも必要としない。

図３は、一つの実施形態による画像処理装置３の機能ブロック図である。画像処理装置３は、取得部５、認識部６、規定部７、算出部８、生成部９を有する。なお、画像処理装置３は、図示しない通信部を有しており、通信回線を介して様々な外部装置と双方向にデータの送受信を行うことによりネットワークリソースを用いることが可能である。図４は、画像処理装置３による画像処理のフローチャートである。実施例１においては、図４に示す画像処理装置３による画像処理フローを、図３に示す画像処理装置３の機能ブロック図の各機能の説明に対応付けて説明する。

取得部５は、例えば、ワイヤードロジックによるハードウェア回路である。また、取得部５は、画像処理装置３で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。取得部５は、例えば、外部装置から異なる光軸で撮像される複数の実画像（第１画像と第２画像と称しても良い）を受け取る。なお、当該処理は、図４に示すフローチャートのステップＳ４０１に対応する。また、当該実画像には、例えば、ユーザの動作部位の一例となる手指が含まれる。更に、当該実画像には、作業対象となる作業対象物体が含まれる。なお、取得部５が受け取る実画像の解像度や取得頻度は、画像処理装置３に要求される処理速度や処理精度等に応じて任意の値に規定すれば良い。例えば、取得部５は、ＶＧＡ（６４０×４８０）の解像度の画像を、３０ＦＰＳ（１秒間に３０フレーム）の取得頻度で取得すれば良い。なお、画像を撮像する外部装置は、例えば、第１カメラ１と第２カメラ２である。なお、第１カメラ１は第１画像を撮像し、第２カメラ２は第２画像を撮像するものとする。第１カメラ１と第２カメラ２は、例えば、ユーザの動作部位として、ユーザの手指を含む画像を撮像する。なお、第１カメラ１と第２カメラ２を、必要に応じて画像処理装置３に含めることも可能である。取得部５は、取得した実画像を認識部６、算出部８、生成部９に出力する。

認識部６は、例えば、ワイヤードロジックによるハードウェア回路である。また、認識部６は、画像処理装置３で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。また、認識部６が保持する図示しないキャッシュまたはメモリには、動作部位の特徴量を予め抽出した第１特徴量モデル（識別器と称しても良い）が事前学習により予め記憶されても良い。なお、第１特徴量モデルは、例えば、ＨＯＧ（ＨｉｓｔｏｇｒａｍｏｆＯｒｉｅｎｔｅｄＧｒａｄｉｅｎｔｓ）特徴量、またはＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ）特徴量等の輝度勾配特徴量に基づいて生成することが出来る。更に、当該事前学習は、例えば、対象物（動作部位の一例となる手指）が撮像された画像（ポジティブ画像）と、対象物が撮像されていない画像（ネガティブ画像）を用いて実施され、ＡｄａｂｏｏｓｔやＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）等の様々な公知の識別器の学習手法を用いることが可能である。例えば、識別器の学習手法として、「N. Dalal et al., “Histograms of Oriented Gradients for Human Detection”, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005.」に開示されているＳＶＭを用いた識別器の学習手法を用いることが出来る。

認識部６は、取得部５から複数の実画像（第１画像と第２画像と称しても良い）を受け取り、実画像の色特徴量または、輝度勾配特徴量を抽出する。認識部６は、例えば、ＲＧＢ色空間における画素値を色特徴量として抽出することが出来る。また、認識部６は、例えば、ＨＯＧ特徴量、またはＬＢＰ特徴量を、輝度勾配特徴量として抽出することが出来る。なお、輝度勾配特徴量は、例えば、一定の矩形領域内で計算可能な特徴量であれば良い。認識部６は、例えば、「N. Dalal et al., “Histograms of Oriented Gradients for Human Detection”, 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR), 2005.」に開示される方法を用いて、輝度勾配特徴量の一例となるＨＯＧ特徴量を抽出することが出来る。なお、実施例１においては、説明の便宜上、認識部６は色特徴量を抽出するものとして説明する。

認識部６は、色特徴量に基づいてカメラ座標系における動作部位の一例となるユーザの手指の位置を認識する。なお、当該処理は、図４に示すフローチャートのステップＳ４０２に対応する。また、認識部６は、輝度勾配特徴量に基づいて動作部位の位置を認識する場合、必要に応じて認識部６の図示しないキャッシュまたはメモリに記憶されている第１特徴量モデルを参照しても良い。ここで、認識部６が色特徴量を用いて動作部位を認識する方法について説明する。認識部６は抽出した色特徴量を用いて肌色領域の抽出を行い、当該肌色領域に基づいて手輪郭領域（手指と手の甲を合わせた輪郭領域）を様々な公知の手法を用いて認識する。なお、認識部６は、肌色の色成分の抽出において、ＲＧＢ空間やＨＳＶ空間の適切な閾値調整を用いることが出来る。認識部６は、例えば、特許第３８６３８０９号に開示される方法を用いて手輪郭領域を検出することが出来る。また、認識部６は、予め手の形状に関する学習データを保持しておき、現時刻における画像データと学習データの間の類似度を計算して手指形状を算出する方法を用いて手輪郭領域を認識することも出来る。また、認識部６は、複数の実画像（第１画像と第２画像）にそれぞれ含まれる、カメラ座標系におけるユーザの手指の位置（指先座標と称しても良い）の算出を行う。認識部６は、例えば、検出した手輪郭領域から指の本数を認識した上で手輪郭領域の輪郭から指先座標の算出を行うことが出来る。

図５は、認識部６が認識するカメラ座標系の指先座標を含むデータ構造の一例を示すテーブルである。なお、図５のテーブル５０におけるカメラ座標系は、第１画像または第２画像の左上端を原点とし、第１画像または第２画像の右方向をｘ軸の正方向、第１画像または第２画像の下方向をｙ軸の正方向として規定されている。テーブル５０には、例えば、ユーザが人差し指を伸ばした場合における、第１画像と第２画像から算出される各手指の指先座標が、手ＩＤと手指ＩＤとに対応付けられ、フレームＮｏ毎に格納される。手指ＩＤは、例えば、横方向の座標の小さい順に付与されれば良い。なお、各手指座標の基準点は、例えば、第１画像または第２画像の左上端と規定することが出来る。また、認識部６は、上述の肌色領域に基づいて規定した手輪郭領域の座標をテーブル５０に格納しても良い。また、認識部６は、手を１本のみ認識した場合は、手ＩＤ１の欄に遂次データを格納し、手を２本認識した場合は、手ＩＤ２の欄を併用して遂次データを格納すれば良い。また、テーブル５０は、例えば、認識部６の図示しないキャッシュまたはメモリに格納されれば良い。

続いて、認識部６は、二眼ステレオ法を用いて世界座標系におけるユーザの手指（指先）深度の算出を行う。認識部６は、世界座標系の任意の基準点（例えば、第１カメラ１と第２カメラの中点を基準点とすれば良い。換言すると、基準点は、第１画像における第１光学中心と第２画像における第２光学中心の中点となる）に対する奥行方向の深度をＺ、第１カメラ１と第２カメラ２の間の線分の長さ（基線長）をｂ（換言すると、第１画像の第１光学中心と第２画像の第２光学中心の基線長）、第１カメラ１と第２カメラ２の焦点距離をｆ、第１画像と第２画像のカメラ座標における手指先位置をそれぞれ（ｕ、ｖ）、（ｕ’、ｖ’）とすると、三角測量の原理により次式で算出することが出来る。
（数１）
Ｚ＝ｂ＊ｆ／｜ｕ − ｕ’｜
なお、上述の（数１）において｜ｕ − ｕ’｜は、同一対象物（例えば、動作部位の一例となるユーザの手指）が撮像された画素の位置ずれを表す視差ｄに対応する。また、認識部６は、上述の（数１）において、ｕとｕ’の値として図５のテーブル５０に格納される値（手指座標）を用いることが出来る。例えば、ユーザが人差し指のみを伸ばしている場合は、図５のテーブル５０に手指ＩＤ１のみにデータが格納される為、当該手指ＩＤ１に格納される値を使用すれば良い。図６は、認識部６が算出するカメラ座標系と世界座標系における手指位置のデータ構造の一例を示すテーブルである。図６のテーブル６０においては、例えば、人差し指が手ＩＤ１かつ手指ＩＤ１として、カメラ座標系における手指の座標位置、世界座標系における手指の深度のデータが格納される。

認識部６の図示しないキャッシュまたはメモリには、例えば、作業対象物体の３次元形状情報が記憶されても良い。なお、作業対象物体が１枚の薄い紙の紙媒体文書である場合は、紙媒体文書を事前に設定された投影面の平面上に存在する厚みが無い２次元の形状と見做すことが出来る。作業対象物体が電子基板の様な厚みのある物体の場合には、画像処理装置３の画像処理開始時点において、例えば、認識部６が、作業対象物体の３次元形状を予め取得することが出来る。例えば、認識部６は、アクティブステレオ法と称される方法により作業対象物体の３次元形状を取得することが出来る。アクティブステレオ法には様々な種類があり、認識部６は、何れの種類も適用することが可能であるが、例えば、特公平３−５６４０２号公報に記載の空間コード法を用いることが出来る。但し、実現の方法は空間コード法に限られない。

認識部６は、空間コード法により、例えば、投影部４が複数回投影する、明暗をパターン化した特定パターンの全画素の座標をＩＤとして、投影パターンの画素の変化を算出する。その結果を用いることで、認識部６は、三角測量により投影部４が投影する特定パターンの各画素に対する深度（単位はｍｍ）を算出することが出来る。なお、カメラ座標系における任意の基準点に対する各画素の座標と深度を用いることで、認識部６は、作業対象物体の３次元形状となる３次元直交座標を規定することが出来る。なお、各画素の座標の基準点は、例えば、取得部５が取得する実画像（第１画像または第２画像）の左上端と規定することが出来る。また、３次元直交座標系における深度の基準点は、例えば、第１カメラ１と第２カメラ２の設置点の中間点とすることが出来る。図７は、認識部６が認識する作業対象物体の３次元直交座標のデータ構造の一例を示すテーブルである。図７のテーブル７０に示される通り、作業対象物体の３次元直交座標として、任意の基準点に対する各画素のカメラ座標と、深度の座標が格納される。図１の後述する規定部７は、図７のテーブル７０に格納される作業対象物体の深度と、図６のテーブル６０に格納される指先深度を比較して、ユーザの手指が作業対象物体に接触しているか否かを判断することが出来る。認識部６は、動作部位の一例となる手指の位置を規定部７に出力する。また、認識部６は、必要に応じて作業対象物体の３次元直交座標を規定部７に出力する。

図３の規定部７は、例えば、ワイヤードロジックによるハードウェア回路である。また、規定部７は、画像処理装置３で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。規定部７は、動作部位の一例となる手指の位置（例えば、図７のテーブル７０に格納される各データ）を認識部６から受け取る。また、規定部７は、必要に応じて、作業対象物体の３次元直交座標（例えば、図７のテーブル７０に格納される各データ）を認識部６から受け取る。規定部７は、動作部位の位置に基づいて実画像に含まれる作業対象物体の作業領域を規定する。なお、当該処理は、図４に示すフローチャートのステップＳ４０３に対応する。換言すると、規定部７は、指先を基点とした所定の面積（Ｎ×Ｍ画素、例えば、ＮとＭは５０画素であれば良い）を作業領域として規定する。具体的には、規定部７は、例えば、図６のテーブル６０の手指ＩＤ１のカメラ座標に基づいて（２００±５０、２６０±５０）の座標領域を作業領域と規定すれば良い。また、手ＩＤまたは手指ＩＤが複数検出されている場合は、手ＩＤまたは手指ＩＤそれぞれに足して作業領域を規定しても良いし、深度が最も深い手指ＩＤに対してのみ作業領域を規定しても良い。

なお、規定部７は、実画像の作業領域以外の領域かつ手指（腕を含んでも良い）以外の領域を透明色、または黒色にすることで、実画像に対して作業領域を規定することが出来る。この様に、規定部７が作業領域を規定すると、例えば、投影部４が表示画像を投影した場合、表示画像において、作業領域のみが周囲よりも輝度値が大きくなる為（換言すると明るくなる為）、輝度値の差分によって、ユーザは投影された情報に着目し易くなる利点、換言すると視認性が向上する利点を有する。また、動作部位の位置に基づいて作業領域を自動的に規定することが出来る為、低コストで表示画像を生成することが可能となる。

図３の規定部７は、更に、作業対象物体の３次元直交座標に基づいて、作業領域を規定することが出来る。具体的には、ユーザの動作部位となる手指の深度が作業対象物体の３次元直交座標の位置と同じになった場合、ユーザの手指は、作業対象物体に接触しているとみなすことが出来る。この為、ユーザの手指が実際に作業対象物体を接触、すなわち、作業対象物体に対して実際に作業を行っている場合のみに、作業領域を規定することが可能となる。

図３の算出部８は、例えば、ワイヤードロジックによるハードウェア回路である。また、算出部８は、画像処理装置３で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。算出部８は、取得部５から実画像を受け取り、規定部７から作業領域を受け取る。算出部８は、実画像における作業領域の第１画像特徴量を算出する。なお、当該処理は、図４に示すフローチャートのステップＳ４０４に対応する。ここで、第１画像特徴量は、例えば、作業領域の画素値の勾配（エッジ量と称しても良い）、作業領域の色相分布、または、作業領域の画素値の何れか、または組み合せである。算出部８は、算出した第１画像特徴量を生成部９に出力する。なお算出部８による画像処理の詳細は後述するものとする。

生成部９は、例えば、ワイヤードロジックによるハードウェア回路である。また、生成部９は、画像処理装置３で実行されるコンピュータプログラムにより実現される機能モジュールであっても良い。生成部９は、算出部８から第１画像特徴量を受け取る。生成部９は、第１画像特徴量に基づいて、作業領域または動作部位の画像特徴量を第２画像特徴量に制御した表示画像を生成する。なお、当該処理は、図４に示すフローチャートのステップＳ４０５に対応する。生成部９は、勾配が所定の第１閾値以上の場合、作業領域に含まれる作業対象物体または動作部位の画像特徴量を、第２特徴量として輪郭線のみの画像特徴量に制御した表示画像を生成する。また、生成部９は、作業領域の色相分布が所定の第２閾値以上の場合、作業領域の画像特徴量の第２特徴量として、色相数を削減した画像特徴量の表示画像を生成する。また、生成部９は、色相分布が第２閾値未満の場合、作業領域の画像特徴量の第２特徴量として、作業領域の色相を補色にした画像特徴量の表示画像を生成する。更に、生成部９は、作業領域の画素値が所定の第３閾値未満の場合、作業領域の画像特徴量の第２特徴量として、画素値を増加させた画像特徴量の表示画像を生成する。なお生成部９による画像処理の詳細は後述するものとする。生成部９は、生成した表示画像を外部装置に出力する。外部装置は、例えば、図１の投影部４であれば良い。

図８は、算出部８と生成部９による画像処理のフローチャートである。なお、図８に示すフローチャートは、図４の示すフローチャートのＳ４０４またはＳ４０５の詳細フローに該当する。算出部８は、第１画像特徴量として、作業領域の勾配（エッジ量と称しても良い）を算出する（ステップＳ８０１）。ステップＳ８０１において、算出部８は、作業領域の任意の画素に対する近傍画素との差分を求めることでエッジ検出を行う。次に、算出部８は、エッジ検出した画像を２値化し、エッジと判定された画素数と作業領域の画素数（面積）の割合を勾配として算出することが出来る。

勾配が多い作業領域は、視覚的な情報量が多いため、投影した表示画像の変化点が作業対象物体の情報量に埋もれ、視認し難い場合も想定される。そこで、第１画像特徴量の一例となる勾配が、所定の第１閾値ＴＨｅ（例えば、ＴＨｅ＝２０％〜３０％）以上の場合（ステップＳ８０２−Ｙｅｓ）、算出部８は、作業領域の第１特徴量の一例となる色相分布を算出する（ステップＳ８０３）。ステップＳ８０３において、算出部８は、色相分布の算出方法として、作業領域のＲＧＢの色空間のヒストグラムを算出し、当該色空間に対するヒストグラムの分布割合を求める方法を用いることが出来る。算出部８は、色相分布の算出方法として、例えば、色空間のヒストグラムの計算を行う際に用いるビンを使って行う方法を用いることが出来る。例えば、ビンの幅を１６とすると、０〜２５５の色レベルは１６個のビンに分けることが出来る。これがＲＧＢの３つの色成分に対して存在する為、ビンの総数は１６の３乗の４０９６個存在することになる。算出部８は、作業領域中の画素について、４０９６個の各ビンに所属する個数を求める。算出部８は、画素数が所定の閾値以上、例えば、作業領域の全画素数の０．１％以上の画素数が存在するビンの数を求め、４０９６個のビンに対する割合を色相分布とすることが出来る。

色相分布が所定の第２閾値ＴＨｃ（例えば、ＴＨｃ＝７０％）以上の場合（ステップＳ８０４−Ｙｅｓ）、作業領域（特に作業対象物体）には、多くの色相が含まれていることを意味する。この為、投影される表示画像に対しても多くの色相を使用すると作業領域の視認性が確保出来ない場合も想定される。この為、生成部９は、ステップＳ８０２−ＹｅｓかつステップＳ８０４−Ｙｅｓの条件を満たす場合、作業領域に含まれる作業対象物体と動作部位の一例となる手指の画像特徴量を第２画像特徴量に制御する。具体的には、生成部９は、作業領域に含まれる作業対象物体と動作部位の一例となる手指の画像特徴量を輪郭線のみに制御し、かつ、表示画像の色相を少なくし、投影による明るさの違いのみにより着目しやすく表示画像を生成する（ステップＳ８０５）。なお、ステップＳ８０５おいて、生成部９は、例えば、動作部位の輪郭の色相をＣｏｌｏｒ−Ｈとし、作業領域の色相はＣｏｌｏｒ−Ｔとする２色による表示画像を生成することが出来る。ここで、Ｃｏｌｏｒ−Ｈは、例えば、（Ｒ, Ｇ, Ｂ）＝（０, ２５５, ０）の緑色であり、Ｃｏｌｏｒ−Ｔは、例えば、（Ｒ, Ｇ, Ｂ）＝（２５５, ２５５, ２５５）の白色であれば良い。

色相分布が第２閾値未満の場合（ステップＳ８０４−Ｎｏ）、作業領域の色相は少なく、勾配のみが大きいことを意味する。この為、ステップＳ８０２−ＹｅｓかつステップＳ８０４−Ｎｏの条件を満たす場合、生成部９は、第２画像特徴量として、作業領域に含まれる作業対象物体と動作部位の一例となる手指の画像特徴量を輪郭線のみに制御した表示画像を生成する（ステップＳ８０６）。なお、ステップＳ８０６において、生成部９は、作業領域に含まれていない任意の色相（例えば補色）を用いて、輪郭線の視認性を向上させても良い。更に、ステップＳ８０５またはＳ８０６において、生成部９は、作業領域の情報量を更に削減する方法として、作業領域について、前フレームの画像と比較したフレーム間差分画像を用いる方法も適用することも出来る。この場合、例えば、ユーザが手指で作業対象物を接触したことにより変化した領域のみを差分画像を表示画像としてを表示することができる。

ここで、ステップＳ８０５またはＳ８０６において、生成部９が輪郭線の画像特徴量に制御する技術的意義について説明する。上述の通り、表示画像における作業対象物体は２次元である一方、表示画像が投影される実物の作業対象物体は３次元であり、互いに異なる次元量の為、作業対象物体の位置と表示画像の位置を完全に一致させることは難しい。この為、作業対象物体の形状が複雑であるほど（換言すると、エッジ量や色相分布が多いほど）、投影される作業対象物体の色相と、表示画像の色相が一致しなくなる。この為、ユーザは、作業対象物体が元々斑な模様になっているのか、投影により斑ら模様になっているのかが判別することは難しい。ここで、輪郭線を用いることで、輪郭線の色相は作業対象物体の色相によって変化するものの、線の連続性から輪郭線が容易に認識することが出来、その結果、作業対象領域の視認性が向上する効果を有する。

ステップＳ８０６において、作業領域、特に、作業領域に含まれる動作部位を任意の色相に制御する場合、表示画像の投影中において、フレーム毎に動作部位の色が変化すると、動作部位の色相のみに注目が引き易くなる為、動作部位の色相は表示画像の全てのフレームにおいて同一としても良い。また、上述の通り、作業領域は指先に基づいて規定される為、作業領域においては、指先が最も着目すべき点となる。この為、生成部９は、手指の輪郭の中でも手指先の輝度値が最も高くなる様に、輪郭線の輝度を画素毎に変化させても良い。具体的には、生成部９は、例えば、作業領域中の指先座標を（Ｘｆ, Ｙｆ）とし、指先の投影光の色をＲＧＢ色空間で（Ｒｆ, Ｇｆ, Ｂｆ）とし、更に、手指の輪郭中の任意の座標を（ｘ, ｙ）とした場合、（ｘ, ｙ）の色相は（Ｒｆ, Ｇｆ, Ｂｆ）に対して、ＳＱＲＴ（（Ｘｆ−ｘ）２＋（Ｙｆ−ｙ）２）× Ｄ）倍したものとすれば良い。なお、Ｄは指先から１画素離れる毎の輝度値の減衰率とする。また、手ＩＤや手指ＩＤが複数検出されている場合には、（ｘ, ｙ）の色相は、最も近い位置にある指の座標から求めることが出来る。また、生成部９は、指先の深度座標が作業対象物体の深度座標と一致している場合、すなわち指先が作業対象物体に接触している場合と、接触しない場合を区別して、動作部位の色相や輝度値を変化させても良い。

ここで、図８のフローチャートにおいて、算出部８が色相分布よりも勾配を先に算出する技術的意義について説明する。一般的に勾配（エッジ量）が大きいが、色相分布が小さいという作業対象物体は比較的多く存在する。例えば、２色で構成された作業対象物体で複雑なパターンを持つ物体である。その一方、色相分布が大きいが、勾配は少ないという作業対象物体は稀であることが想定される。この為、算出部８は色相分布の算出（ステップＳ８０３）よりも勾配を先に算出する（ステップＳ８０１）ことにより、勾配が少ない作業対象物体の場合には、色相分布の算出処理が不要となる為、画像処理装置３の処理負荷を低下させることが出来る。

ステップＳ８０２において、勾配が第１閾値未満の場合（ステップＳ８０２−Ｎｏ）は、作業領域の視覚的な情報量が少ないことを意味する。但し、作業領域中の作業対象物体の輝度値が低い場合、表示画像を投影しても、作業領域と作業領域以外との輝度値の差（明るさの差と称しても良い）が少なく、視認性が確保され難い場合も想定される。この為、算出部８は、作業領域の輝度値を算出する（ステップＳ８０７）。当該輝度値は、例えば、作業領域の全画素値の輝度値平均を用いることが出来る。生成部９は、輝度値が所定の第３閾値ＴＨｂ（例えば、ＴＨｂ＝１００画素）未満の場合（ステップＳ８０８−Ｎｏ）には、作業領域の輝度値を増加させる（ステップＳ８０９）。輝度値が所定の第３閾値ＴＨｂ以上の場合（ステップＳ８０９−Ｙｅｓ）には、作業領域は十分な輝度値を有している為、生成部９は、第１画像特徴量を、そのまま第２画像特徴量としたものを表示画像として生成する。なお、算出部８と生成部９は、図８のフローチャートに示す画像処理を取得部５が取得する実画像の全てのフレームに対して実施しても良いし、任意の代表フレームを定めて当該代表フレームに対して実施しても良い。代表フレームを定めた場合は、生成部９は代表フレームにおいて算出された第１画像特徴量に基づいて、全てのフレームの画像特徴量を第２画像特徴量に制御すれば良い。

図９（а）は、生成部９が生成する作業領域の第１画像特徴量を、第２画像特徴量とした表示画像の概念図である。図９（ｂ）は、生成部９が生成する作業領域に含まれる物体と動作部位を輪郭線のみに制御した表示画像の概念図である。図９（ａ）は、図８のステップＳ８０８−Ｙｅｓの条件を満たした場合に生成部９が生成する表示画像に相当する。図９（ｂ）は、図８のステップＳ８０６で生成部９が生成する表示画像に相当する。図９（ａ）に示される様な表示画像においては、作業領域と動作部位以外の色相は黒色となり、投影されない為、投影面積が減る。これにより投影される作業領域が目立ち易くなり、視認性が向上する。また、図９（ａ）に示される様な表示画像においては、画像特徴量が輪郭線に制御されている為、表示画像が投影される実物の勾配や色相分布が大きくても、線の連続性から輪郭線が容易に認識することが出来、その結果、作業対象領域の視認性が向上する。

実施例１における画像処理装置３によれば、低コストでユーザの視認性を向上させることが出来る表示画像を生成することが可能となる画像処理装置を提供することが可能となる。

（実施例２）
実施例２においては、例えば、実施例１で生成した表示画像を作業対象物体に投影する実施例について説明する。実施例２における画像処理システムの構成は、図１に示す画像処理システム１０と同様の為、詳細な説明は省略する。なお、実施例１におけるユーザと実施例２におけるユーザはそれぞれ別のユーザと考えることが出来る。

第１カメラ１または第２カメラ２は、表示画像が投影される実物の作業対象物体が含まれる実画像（作業対象物体画像と称しても良い）を撮像する。なお、作業対象物体が設置面の一例となるテーブル上から動かない物体の場合には、撮像回数は１回のみであれば良い。更に、実施例２においては、作業対象物体には、説明の便宜上、一意の作業対象物体を特定する為のマーカ（例えば、２次元コード）が含まれているものとする。取得部５は、第１カメラ１または第２カメラ２から実画像を取得し、取得した実画像（作業対象物体画像）を認識部６に出力する。

認識部６は、実画像を取得部５から取得する。認識部６は、実画像（作業対象物体画像）に含まれるマーカを用いて、投影部４が投影すべき表示画像を認識する。また、画像処理システム１２に接続される図示しないディスプレイに表示されるＧＵＩからユーザが直接的に表示画像を選択しても良い。また、認識部６は、実画像と表示画像の双方に対して、特徴点抽出を実施し、特徴点の一致度を比較することでも投影部４が投影すべき表示画像を認識することが出来る。

投影部４は、認識部６が特定した表示画像を作業対象物体に表示画像を投影する。なお、実施例１で実画像（作業対象物体画像）を撮影した第１カメラ１または第２カメラ２と、投影部４の設置位置は同一ではない為、作業対象物体と表示画像の重畳投影にずれが発生する場合が有る。この為、投影部４は、表示画像の座標系（カメラ座標系と称しても良い）と投影部４の投影画像の座標系（プロジェクタ座標系と称しても良い）の間で座標系の変換を行っても良い。換言すると、投影部４は、表示画像と作業対象物体の面積を一致させて、表示画像を投影することが可能である。投影部４は、例えば、射影変換を用いて、カメラ座標系とプロジェクタ座標系を変換する。なお、投影部４は、カメラ座標系とプロジェクタ座標系の座標変換行列を予め保持しているものとする。なお、投影部４は、マーカ認識よる表示画像の投影方法として、例えば、「Kato, H., Billinghurst, M. "Marker tracking and hmd calibration for a video-based augmented reality conferencing system.", In Proceedings of the 2nd IEEE and ACM International Workshop on Augmented Reality (IWAR 99), October 1999.」に開示される投影方法を適用することが出来る。また、投影部４は、カメラ座標系とプロジェクタ座標系の変換方法として、例えば、「Audet, Samuel, and Masatoshi Okutomi. "A user-friendly method to geometrically calibrate projector-camera systems.", Computer Vision and Pattern Recognition Workshops, 2009. CVPR Workshops 2009. IEEE Computer Society Conference on. IEEE, 2009.」に開示される変換方法を適用することが出来る。

実施例１と実施例２において、作業対象物体が設置面に設置される位置は、必ずしも一致するとは限らない。この為、投影部４は、実画像と表示画像の双方に対して、複数の特徴点抽出を取得し、当該特徴点を用いてプロジェクタ座標系とカメラ座標系の座標変換行列を計算する。投影部４は、計算した座標変換行列を用いて、表示画像をカメラ座標系に変換し、更にカメラ座標からプロジェクタ座標への座標変換行列を用いることで、表示画像を作業対象物体に位置に重畳させて投影することが出来る。

更に、投影部４は、表示画像の投影位置を時系列で周期的に変化させても良い。表示画像の投影位置が揺れて表示されることにより、ユーザが作業領域を着目し易くなる場合がある。この場合、投影部４は、この様な投影を行う際には、表示画像をｘまたはｙ方向にフレーム毎に周期的に任意の座標量を移動させれば良い。実施例２における画像処理システム１２によれば、実施例１で生成した表示画像を、表示画像が投影される実物の作業対象物体の位置に合わせて精度良く投影することが出来る為、表示画像の視認性が向上する。

（実施例３）
実施例１では複数のカメラ（ステレオカメラ）を用いた画像処理システム１０の構成で実施例を説明したが、ステレオカメラの代わりにカメラ１台と測距センサ１台を用いる場合でも、本発明の実施が可能である為、実施例３おいて説明する。図１０は、第２の実施形態による画像処理装置３が含まれる画像処理システム１２の概略図である。画像処理システム１２は、第１カメラ１、測距センサ１１、画像処理装置３、投影部４を有する。画像処置装置３は、第１カメラ１、測距センサ１１、投影部４と有線または無線を介して通信可能に接続される。なお、画像処理装置３は、図示しない通信部を有しており、通信回線を介して様々な外部装置と双方向にデータの送受信を行うことによりネットワーク上のリソースを用いることが可能である。更に、投影部４は、必要に応じて画像処理システム１２に含まれれば良く、必ずしも必要な構成要素ではない。なお、第１カメラ１、測距センサ１１、画像処理装置３、投影部４は、例えば、設置面に対向して配置されれば良いが、壁面に対向して配置されても良いし、モバイル端末やウェラブル端末上の任意の位置に配置されても良い。なお、第１カメラ１、画像処理装置３、投影部４が有する機能は実施例１と同様である為、詳細な説明は省略する。

測距センサ１１は、例えば、レーザー光の往復時間から深度を計測するＴＯＦ形式を用いるセンサや、特定のパターンのレーザー光線を対象に照射した際の光のパターンの歪みを計測するパターン照射方式を用いるセンサである。実施例３では何れの方式のセンサを採用することが出来る。なお、測距センサ１１は、例えば、作業対象物体の上方部に鉛直下向きの方向で設置される。第１カメラ１の内部パラメータは実施例１と同様に既知であり、測距センサ１１と第１カメラ１の光軸は平行であり、画像中の横軸が同一直線状になるように配置される。

実施例３においては、測距センサ１１を用いることで手領域輪郭と深度を算出することが出来る。認識部６は、距離画像と称される、測距センサ１１から取得されるデータを用いることが出来る。なお、距離画像は通常の二次元画像の色や濃淡の値の代わりに、測距センサ１１から対象物までの距離の値を持った画像である。実施例３では、画像処理の開始以前に学習過程が必要となる。当該学習過程では、例えば、認識部６の図示しないキャッシュまたはメモリに、図示しないデータベースに手の距離画像に関するテンプレートを多数記憶する。次に、それぞれの距離画像から、ユーザが手動で手領域の切り出しと指先座標の指定を実施する。手輪郭領域は一定の大きさに正規化され、認識部６に保存される。実施例３においては、画像処理装置３は、一定のテンプレートが得られるまで上述の学習処理を繰り返す。

実施例３において、画像処理の開始後は、認識部６は、測距センサ１１から、現時刻における距離画像を取得する。その後、任意の倍率を有する窓を用いて距離画像を走査する。それぞれの窓では、窓中の距離画像と全てのテンプレートの間の類似度を計算し、最も類似度の高いテンプレートを選択するというテンプレートマッチングを行うことが出来る。なお、類似度の算出の一例として、ＳＳＤ（ＳｕｍｏｆＳｑｕａｒｅｄＤｉｆｆｅｒｅｎｃｅ）や、ＮＣＣ（ＮｏｒｍａｌｉｚｅｄＣｒｏｓｓ−Ｃｏｒｒｅｌａｔｉｏｎ）などが用いることが出来る。認識部６は、テンプレートマッチングによる最適なテンプレートの選択後、最適なテンプレート内に保持されている手指の位置情報を取得し、現在の距離画像で手指位置に対応する深度の値を取得する。当該処理で取得されるデータ構造は、例えば、図６に示すテーブル６０と同一となる。その他の処理は実施例１と同様の為、詳細な説明は省略する。

実施例３における画像処理装置３においては、実施例１と同様に低コストでユーザの視認性を向上させることが出来る表示画像を生成することが可能となる画像処理装置を提供することが可能となる。

（実施例４）
図１１は、一つの実施形態による画像処理装置３として機能するコンピュータのハードウェア構成図である。図１１に示す通り、画像処理装置３は、コンピュータ１００、およびコンピュータ１００に接続する入出力装置（周辺機器）を含んで構成される。

コンピュータ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２と複数の周辺機器が接続されている。なお、プロセッサ１０１は、マルチプロセッサであってもよい。また、プロセッサ１０１は、例えば、ＣＰＵ、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＤＳＰ（ＤｉｇｉｔａｌＳｉｇｎａｌＰｒｏｃｅｓｓｏｒ）、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、またはＰＬＤ（ＰｒｏｇｒａｍｍａｂｌｅＬｏｇｉｃＤｅｖｉｃｅ）である。更に、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。なお、例えば、プロセッサ１０１は、図３の取得部５、認識部６、規定部７、算出部８、生成部９等の機能ブロックの処理を実行することが出来る。

ＲＡＭ１０２は、コンピュータ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。

バス１０９に接続されている周辺機器としては、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

ＨＤＤ１０３は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３は、例えば、コンピュータ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。

グラフィック処理装置１０４には、モニタ１１０が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令にしたがって、各種画像をモニタ１１０の画面に表示させる。モニタ１１０としては、ＣＲＴ（ＣａｔｈｏｄｅＲａｙＴｕｂｅ）を用いた表示装置や液晶表示装置などがある。

入力インタフェース１０５には、キーボード１１１とマウス１１２とが接続されている。入力インタフェース１０５は、キーボード１１１やマウス１１２から送られてくる信号をプロセッサ１０１に送信する。なお、マウス１１２は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク１１３に記録されたデータの読み取りを行う。光ディスク１１３は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク１１３には、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）、ＤＶＤ−ＲＡＭ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＣＤ−Ｒ（Ｒｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）などがある。可搬型の記録媒体となる光ディスク１１３に格納されたプログラムは光学ドライブ装置１０６を介して画像処理装置３にインストールされる。インストールされた所定のプログラムは、画像処理装置３より実行可能となる。

機器接続インタフェース１０７は、コンピュータ１００に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース１０７には、メモリ装置１１４やメモリリーダライタ１１５を接続することが出来る。メモリ装置１１４は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ１１５は、メモリカード１１６へのデータの書き込み、またはメモリカード１１６からのデータの読み出しを行う装置である。メモリカード１１６は、カード型の記録媒体である。
第１カメラ１と第２カメラ２は、例えば、ＣＣＤ（ＣｈａｒｇｅＣｏｕｐｌｅｄＤｅｖｉｃｅ）やＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌＯｘｉｄｅＳｅｍｉｃｏｎｄｕｃｔｏｒ）カメラなどの撮像デバイスである。第１カメラ１と第２カメラ２の機能は、上述の実施例１〜実施例３と同様の機能の為、詳細な説明は省略する。測距センサ１１は、例えば、レーザー光の往復時間から深度を計測するＴＯＦ形式を用いるセンサや、特定のパターンのレーザー光線を対象に照射した際の光のパターンの歪みを計測するパターン照射方式を用いるセンサである、測距センサ１１の機能は上述の実施例３の機能と同等の為、詳細な説明は省略する。投影部４は、例えば、プロジェクタなどの表示デバイスである。投影部４は、例えば、作業対象物体の付加情報（例えば、熟練ユーザが実施した作業内容）を含む表示画像を表示する。投影部４は、表示画像を、例えば、投影面の一例となるユーザの作業対象物体に重畳して投影する。なお、投影部４の機能は、上述の実施例１〜実施例３と同様の機能の為、詳細な説明は省略する。

ネットワークインタフェース１０８は、ネットワーク１１７に接続されている。ネットワークインタフェース１０８は、ネットワーク１１７を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

コンピュータ１００は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した画像処理機能を実現する。コンピュータ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、１つのまたは複数の機能モジュールから構成することが出来る。例えば、図３に記載の取得部５、認識部６、規定部７、算出部８、生成部９の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ１００に実行させるプログラムをＨＤＤ１０３に格納しておくことができる。プロセッサ１０１は、ＨＤＤ１０３内のプログラムの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。また、コンピュータ１００に実行させるプログラムを、光ディスク１１３、メモリ装置１１４、メモリカード１１６などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ１０１からの制御により、ＨＤＤ１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。

また、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することが出来る。また、上記の実施例で説明した各種の処理は、予め用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータで実行することによって実現することが出来る。また、本実施の形態では、手指が肌色、背景も肌色に類似している場合を例として説明したが、本実施の形態はこれに限定されない。例えば、手指が手袋などで覆われていて、手袋の色に類似した背景を使用する場合などにも、本実施の形態が適用できることは言うまでもない。

以上、説明した実施形態に関し、更に以下の付記を開示する。
（付記１）
ユーザの動作部位を含む実画像を取得する取得部と、
前記実画像から前記動作部位を認識する認識部と、
前記動作部位の位置に基づいて前記実画像の作業領域を規定する規定部と、
前記作業領域の第１画像特徴量を算出する算出部と、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成する生成部
を備えることを特徴とする画像処理装置。
（付記２）
前記動作部位は、前記ユーザの指先であり、
前記規定部は、前記指先を基点とした所定の面積の領域を前記作業領域として規定することを特徴とする付記１記載の画像処理装置。
（付記３）
前記第１画像特徴量は、前記作業領域の画素値の勾配、前記作業領域の色相分布、または、前記作業領域の前記画素値であることを特徴とする付記１または付記２記載の画像処理装置。
（付記４）
前記生成部は、前記勾配が所定の第１閾値以上の場合、前記第２特徴量として、前記作業領域に含まれる物体または前記動作部位の輪郭線のみとする前記表示画像を生成することを特徴とする付記３記載の画像処理装置。
（付記５）
前記生成部は、前記色相分布が所定の第２閾値以上の場合、前記第２特徴量として、前記作業領域の色相数を削減した前記表示画像を生成することを特徴とする付記３または付記４記載の画像処理装置。
（付記６）
前記生成部は、前記色相分布が前記第２閾値未満の場合、前記第２特徴量として、前記作業領域の色相を補色にした前記表示画像を生成することを特徴とする付記５記載の画像処理装置。
（付記７）
前記生成部は、前記画素値が所定の第３閾値未満の場合、前記第２特徴量として、前記画素値を増加した前記表示画像を生成することを特徴とする付記３ないし付記５の何れか一つに記載の画像処理装置。
（付記８）
前記取得部は、異なる光軸で撮像される複数の前記実画像を更に取得し、
前記認識部は、前記複数の前記実画像から、前記動作部位の３次元直交座標を認識し、
前記規定部は、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする付記１ないし付記７の何れか一つに記載の画像処理装置。
（付記９）
前記動作部位の３次元直交座標を測距する測距センサを更に備え、
前記規定部は、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする付記１ないし付記７の何れか一つに記載の画像処理装置。
（付記１０）
前記表示画像を投影する投影部を更に有し、
前記取得部は、マーカを含む作業対象物体の作業対象物体画像を更に取得し、
前記認識部は、前記マーカに基づいて、前記作業対象物体画像に対応する前記表示画像を認識し、
前記投影部は、前記作業対象物体に前記表示画像を重畳して投影することを特徴とする付記１ないし付記９の何れか一つに記載の画像処理装置。
（付記１１）
前記投影部は、前記表示画像と前記作業対象物体の面積を一致させて、前記表示画像を投影することを特徴とする付記１０記載の画像処理装置。
（付記１２）
前記投影部は、前記表示画像の投影位置を周期的に変化させることを特徴とする付記１０記載の画像処理装置。
（付記１３）
ユーザの動作部位を含む実画像を取得し、
前記実画像から前記動作部位を認識し、
前記動作部位の位置に基づいて前記実画像の作業領域を規定し、
前記作業領域の第１画像特徴量を算出し、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成すること
を含むことを特徴とする画像処理方法。
（付記１４）
前記動作部位は、前記ユーザの指先であり、
前記規定することは、前記指先を基点とした所定の面積の領域を前記作業領域として規定することを特徴とする付記１３記載の画像処理方法。
（付記１５）
前記第１画像特徴量は、前記作業領域の画素値の勾配、前記作業領域の色相分布、または、前記作業領域の前記画素値であることを特徴とする付記１３または付記１４記載の画像処理方法。
（付記１６）
前記生成することは、前記勾配が所定の第１閾値以上の場合、前記第２特徴量として、前記作業領域に含まれる物体または前記動作部位の輪郭線のみとする前記表示画像を生成することを特徴とする付記１５記載の画像処理方法。
（付記１７）
前記生成することは、前記色相分布が所定の第２閾値以上の場合、前記第２特徴量として、前記作業領域の色相数を削減した前記表示画像を生成することを特徴とする付記１５または付記１６記載の画像処理方法。
（付記１８）
前記生成することは、前記色相分布が前記第２閾値未満の場合、前記第２特徴量として、前記作業領域の色相を補色にした前記表示画像を生成することを特徴とする付記１７記載の画像処理方法。
（付記１９）
前記生成することは、前記画素値が所定の第３閾値未満の場合、前記第２特徴量として、前記画素値を増加した前記表示画像を生成することを特徴とする付記１５ないし付記１７の何れか一つに記載の画像処理方法。
（付記２０）
前記取得することは、異なる光軸で撮像される複数の前記実画像を更に取得し、
前記認識することは、前記複数の前記実画像から、前記動作部位の３次元直交座標を認識し、
前記規定することは、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする付記１３ないし付記１９の何れか一つに記載の画像処理方法。
（付記２１）
前記動作部位の３次元直交座標を測距することを更に含み、
前記規定することは、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする付記１３ないし付記１９の何れか一つに記載の画像処理方法。
（付記２２）
前記表示画像を投影することを更に含み、
前記取得することは、マーカを含む作業対象物体の作業対象物体画像を更に取得し、
前記認識することは、前記マーカに基づいて、前記作業対象物体画像に対応する前記表示画像を認識し、
前記投影することは、前記作業対象物体に前記表示画像を重畳して投影することを特徴とする付記１３ないし付記２１の何れか一つに記載の画像処理方法。
（付記２３）
前記投影することは、前記表示画像と前記作業対象物体の面積を一致させて、前記表示画像を投影することを特徴とする付記２２記載の画像処理方法。
（付記２４）
前記投影することは、前記表示画像の投影位置を周期的に変化させることを特徴とする付記２２記載の画像処理方法。
（付記２５）
コンピュータに
ユーザの動作部位を含む実画像を取得し、
前記実画像から前記動作部位を認識し、
前記動作部位の位置に基づいて前記実画像の作業領域を規定し、
前記作業領域の第１画像特徴量を算出し、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成すること
を実行させることを特徴とする画像処理プログラム。

１第１カメラ
２第２カメラ
３画像処理装置
４投影部
５取得部
６認識部
７規定部
８算出部
９生成部

Claims

ユーザの動作部位を含む実画像を取得する取得部と、
前記実画像から前記動作部位を認識する認識部と、
前記動作部位の位置に基づいて前記実画像の作業領域を規定する規定部と、
前記作業領域の第１画像特徴量を算出する算出部と、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成する生成部
を備えることを特徴とする画像処理装置。
前記動作部位は、前記ユーザの指先であり、
前記規定部は、前記指先を基点とした所定の面積の領域を前記作業領域として規定することを特徴とする請求項１記載の画像処理装置。
前記第１画像特徴量は、前記作業領域の画素値の勾配、前記作業領域の色相分布、または、前記作業領域の前記画素値であることを特徴とする請求項１または請求項２記載の画像処理装置。
前記生成部は、前記勾配が所定の第１閾値以上の場合、前記第２特徴量として、前記作業領域に含まれる物体または前記動作部位の輪郭線のみとする前記表示画像を生成することを特徴とする請求項３記載の画像処理装置。
前記生成部は、前記色相分布が所定の第２閾値以上の場合、前記第２特徴量として、前記作業領域の色相数を削減した前記表示画像を生成することを特徴とする請求項３または請求項４記載の画像処理装置。
前記生成部は、前記色相分布が前記第２閾値未満の場合、前記第２特徴量として、前記作業領域の色相を補色にした前記表示画像を生成することを特徴とする請求項５記載の画像処理装置。
前記生成部は、前記画素値が所定の第３閾値未満の場合、前記第２特徴量として、前記画素値を増加した前記表示画像を生成することを特徴とする請求項３ないし請求項５の何れか一項に記載の画像処理装置。
前記取得部は、異なる光軸で撮像される複数の前記実画像を更に取得し、
前記認識部は、前記複数の前記実画像から、前記動作部位の３次元直交座標を認識し、
前記規定部は、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする請求項１ないし請求項７の何れか一項に記載の画像処理装置。
前記動作部位の３次元直交座標を測距する測距センサを更に備え、
前記規定部は、前記３次元直交座標に基づいて前記作業領域を規定することを特徴とする請求項１ないし請求項７の何れか一項に記載の画像処理装置。
前記表示画像を投影する投影部を更に有し、
前記取得部は、マーカを含む作業対象物体の作業対象物体画像を更に取得し、
前記認識部は、前記マーカに基づいて、前記作業対象物体画像に対応する前記作業領域を認識し、
前記投影部は、前記作業対象物体に前記表示画像を重畳して投影することを特徴とする請求項１ないし請求項９の何れか一項に記載の画像処理装置。
ユーザの動作部位を含む実画像を取得し、
前記実画像から前記動作部位を認識し、
前記動作部位の位置に基づいて前記実画像の作業領域を規定し、
前記作業領域の第１画像特徴量を算出し、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成すること
を含むことを特徴とする画像処理方法。
コンピュータに
ユーザの動作部位を含む実画像を取得し、
前記実画像から前記動作部位を認識し、
前記動作部位の位置に基づいて前記実画像の作業領域を規定し、
前記作業領域の第１画像特徴量を算出し、
前記第１画像特徴量に基づいて、前記作業領域または前記動作部位を第２画像特徴量に制御した表示画像を生成すること
を実行させることを特徴とする画像処理プログラム。