JP5706340B2

JP5706340B2 - 顔検出及びホットスポットの動きによりメディアを制御する方法

Info

Publication number: JP5706340B2
Application number: JP2011547872A
Authority: JP
Inventors: ヤン，ルイデュオ; ルオ，イン; ジャン，タオ
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2009-01-21
Filing date: 2009-01-21
Publication date: 2015-04-22
Anticipated expiration: 2029-01-21
Also published as: JP2012515968A; CN102292689A; CN102292689B; US20110273551A1; EP2384465A1; WO2010085221A1

Description

本発明は、マルチメディア発信装置を制御する方法に関し、より詳細には、本発明は、顔検出及びホットスポットの動きによりマルチメディア発信装置を制御する方法に関する。

電子装置を動作することは、電子的な遠隔制御に益々依存するようになってきており、この電子的な遠隔制御により、ユーザは、ある距離から命令を発することができる。一般に、遠隔制御は、電源を内蔵しており、赤外線（IR）及び無線信号を介してコマンドを発する。

典型的な家庭では、テレビジョン又はビデオ投影システム、衛星又はケーブルTV受信機、CDプレーヤ、ビデオレコーダ、DVDプレーヤ、オーディオチューナ、コンピュータシステム、更には照明のような１以上の電子装置は、遠隔制御を使用して制御することができる。これら遠隔制御は非常に複雑になってきているが、遠隔制御の使用は、益々普及している。多くの電子消費者は、特にテレビジョンである全ての形態のマルチメディア機器と双方向性を高める強い要求を有している。

電子消費者は、電子的な遠隔制御なしに、特に人間のジェスチャーを通して、メディアとの増加された双方向性及び参加を長く望んでいる。手の動きは、メディア発信源に命令し、対話する価値があることが分かっている。

ジェスチャーの認識技術により、ユーザは、電子的な遠隔制御のような、他の機械的な装置の使用なしに、電子装置と対話することができる。この技術は、人間の体の動きを読み取るカメラを通常含んでおり、カメラから収集されたデータをコンピュータに伝達する。次いで、コンピュータは、電子装置の意図された命令として選択されたジェスチャーを認識する。たとえば、実際に、ユーザは、カーソルを移動するか又はアプリケーションコマンドを作動させるため、テレビジョン又はコンピュータスクリーンを指す。

対話的なメディアシステムは、米国特許第7283983号に開示されており、この特許は、書籍、教材、雑誌、ポスター、チャート、地図、個人のページ、パッケージ、ゲームカード等のような印刷媒体の使用と共に、人間のユーザの増加された対話性を提供するため、画像形成及び認識技術を利用する方法を提供する、ビデオカメラに結合されたコンピュータを教示する。コンピュータシステムは、ビジョンに基づいたセンサを使用して、印刷媒体を識別し、そのビューに対応する情報を取得する。次いで、センサは、少なくともメディアの一部に関して最初のユーザのジェスチャーを識別する。次いで、コンピュータシステムは、コマンドとしてジェスチャーを解釈し、システムは、最初のジェスチャー及び取得された情報に基づいて、取得された情報の少なくとも一部を声に出して電子的に話す。

人間のジェスチャーは、上述された手つきを含めて、身体の動き又は状態から生じる。顔検出は、それらのジェスチャーが何処から到来するのかを区別し、関連のない動きをフィルタリングすることで、動き検出システムを更に支援することができる。

人間は、顔を認識して区別する本来持っている能力を有するが、その同じ能力をコンピュータソフトウェアに採用することは非常に困難である。しかし、この数年、システムが良好に開発されている。

コンピュータシステムと使用される顔認識は、ある人物の識別及び検証をデジタル画像又はビデオソースから可能にする。人間の顔は、様々な区別可能な特徴を有するので、これらの特徴の比較は、ある人物の識別のために利用される場合がある。アルゴリズムを使用して、コンピュータソフトウェアは、多くの他の顔の特徴と同様に、目の間の距離、眼窩の深さ、頬骨の形状のような特徴を比較し、次いでそれぞれの特徴を既存の顔のデータと比較することができる。

Agraham等による米国特許第6377995号は、マルチメディア通信の選択された部分が効果的に取得及び再生されるように、顔及び音声認識を使用したマルチメディア通信に指標付けする方法及び装置を提供する。この方法及び装置は、顔認識と音声認識を結合して、データ又はメタデータを含むことができるマルチキャストのマルチメディア電話会議への参加者を識別する。サーバは、音声及び映像の顔パターンの両者が特定の参加者の音声及び顔モデルに整合するときに、特定の参加者の同一性を判定し、その参加者の音声及び顔パターンの同一性に基づいて参加者の索引を作成し、これによりマルチメディア通信を分割するために索引が使用される。

深度認識カメラ（depth awareness camera）は、広く利用可能であり、メディアを制御するために使用される。Sony Eyetoy and Playstation Eyeのようなビデオパターン認識ソフトウェアは、短距離でカメラを通して見ているものの深度マップを生成する専用カメラを利用し、ユーザは、内蔵のマイクロフォンを使用して、動き、色検出及び更には音声を使用してメディアと相互作用することができる。

McCarty等による米国特許第6904408号は、ユーザのウェブブラウジングの体験をカスタマイズするために使用されるウェブコンテンツマネージャを教示する。このマネージャは、旧式のデータベースで収集されたとき、及び少なくとも１つのリアルタイムの観察可能な行動信号に応答して、ユーザの心理的な好みに従って適切なオンラインメディアを選択する。皮膚の温度、脈拍数、心拍数、呼吸数、EMG、EEG、音声ストレス及びジェスチャー認識は、行動の応答の幾つかであり、心理学の指標が測定及び分析される。ジェスチャー認識は、ビデオ入力のコンピュータ分析により達成される。顔の位置は、明るい態度及び暗い態度を示し、この場合、毎分の瞬きの回数が不安を示すために使用される場合がある。

ジェスチャー認識は、多くの応用の利点があることが分かっている。しかし、ジェスチャー認識は、ジェスチャー認識ソフトウェアのロバスト性及び正確さを含めて、多くの課題を有している。画像に基づくジェスチャ認識について、機器及び視野において発見される雑音量に関連する制限が存在する。意図されたものではないジェスチャー及びバックグランドの動きは、発せられたコマンドの完全な認識を妨げる。

本発明は、ジェスチャーを使用したインタラクティブなメディアを制御するロバストな方法を提供する。発生されたコマンドにおけるロバストの精度を提供する、顔検出及びホットスポットの動きによりメディアを制御する方法は、現在の捕捉された画像Ｃiを使用して動き領域を抽出するステップ、現在の捕捉された画像Ｃiと前の捕捉された画像Ｃi+1との差であるＤiを計算及び分析するステップ、エローション（erosion）をＤiに適用して小領域を除くステップ、抽出されたホットスポット領域にマスクを適用して動きのない領域をフィルタリングし、D1を加えて動き履歴画像を構築し、lx，ly，sx及びsyとしてそれぞれ示される全ての検出された動きが接続されたコンポーネントの最も大きいx，y座標及び最も小さいx，y座標を発見するステップ、アルゴリズムを実行して、手振りがメディアを制御するためのコマンドであるかを判定するステップを含む。

さらに、本発明は、イメージセンサと、イメージセンサを通してピクチャ画像を受ける入力画像モジュールを有するカメラを有するメディア制御装置に関する。さらに、入力画像モジュールは、メモリを介して顔検出モジュール及びジェスチャー認識モジュールを更に接続する。メディア制御インタフェースは、入力画像モジュールからコマンドを受け、電気信号をメディア発信装置（media outlet device）に送出する。

本発明は、添付図面を参照して、本発明の実施の形態を参照して以下に更に詳細に説明される。
マルチメディア制御システムにより使用される代表となる機器のブロック図である。マルチメディア制御システムの透視図である。顔検出モジュールのフローダイアグラムである。顔検出アルゴリズムを使用して現在捕捉された画像を処理する顔検出モジュールを例示する図である。ジェスチャー認識モジュールのフローダイアグラムである。ジェスチャー認識アルゴリズムを使用した現在捕捉された画像を処理するジェスチャー認識モジュールを例示する図である。

本発明は、以下に詳細に説明され、本発明の実施の形態は、添付図面において例示される。

図１を参照して、本発明に係るマルチメディア制御システム１が例示される。マルチメディア制御システム１は、イメージセンサ２、メモリ５に接続される入力画像モジュール５、メディア制御インタフェース６、顔検出モジュール１０、及びメモリ５に接続されるジェスチャー認識モジュール２０、及びマルチメディア発信装置８を有する。

イメージセンサ２は、特に、光信号を電気信号に変換する装置である。電気信号は、イメージモジュール４に入力され、処理の前にメモリ５に記憶される。

基本的に、イメージセンサ２は、図２に更に例示されるように、デジタルカメラ３０と共に使用される。カメラ３０は、イメージセンサ２の光を捕捉及び焦点合わせする。イメージセンサ２は、マルチメディアユーザ３からの複数の静止画像を捕捉し、マルチメディアユーザは、マルチメディア発信装置８にコマンドを発生する場合がある。イメージセンサ２は、捕捉された光を電気的な出力信号に変換し、この電気的な出力信号は、入力画像モジュール４を通して処理される。顔検出及びジェスチャー認識モジュール１０，２０は、メモリ５を通して入力画像モジュール４に接続され、発生されたコマンドがユーザ３により実行されたかを判定すると共に、電気信号を処理する。

カメラ３０は、角度θにより、カメラの視野を調節するズームレンズ（図示せず）を有する。これは、潜在的な雑音を制限するための第一の最も基本的な方法である。マルチメディアユーザ３は、カメラがマルチメディアユーザ３に関して焦点を合わせることができるように、カメラ３０を調節することができる。

実施の形態では、入力画像モジュール４は、マイクロプロセッサのようなプログラマブル装置である。入力画像モジュール４はデジタルカメラ３０に統合して製造することができるが、更なる実施の形態は、カメラ３０及びイメージセンサ２とは分離して入力画像モジュール４の単独の構成を可能にし、配線により接続される場合がある。

入力モジュール４は、メモリコンポーネント５を有し、このメモリコンポーネントは、カメラ３０により捕捉され、イメージセンサ２により信号伝達される到来する画像フレームを記憶する。記憶される画像は、収集され、顔検出モジュール１０とジェスチャー認識モジュール２０との間の処理のために記憶される。メディア制御インタフェース６は、入力画像モジュールの更に別のコンポーネントであり、単一の構成で提供されることが好ましい。しかし、メディア制御インタフェース６を入力画像モジュール４に対して外部のコンポーネントとして提供することもできる。

入力画像モジュール４は、その論理的な機能及び接続性が顔検出及びジェスチャー認識と関連されるアルゴリズムに従って前もってプログラムされるモジュール１０，２０を含む。顔検出及びジェスチャー認識モジュール１０，２０の両者は、本発明の実施の形態において、入力画像モジュール４と統合して構築される。顔検出とジェスチャー認識モジュール１０，２０のアルゴリズムにより判定された結果に依存して、入力画像モジュール４は、図１に例示されるように、メディア制御インタフェース６を通してマルチメディア発信装置８にコマンドを供給する。

実施の形態では、コマンドは、事前に割り当てられたジェスチャーの指示により事前にプログラムされる。ジェスチャー認識モジュール２０は、マルチメディア発信装置８により実行される特定のコマンドとして多数の特定のジェスチャーの指示を認識する。たとえば、ユーザが彼の右手を彼の顔の右に振って合図した場合、ジェスチャー認識モジュールは、あるコマンドとしてのジェスチャーがマルチメディア発信装置８をオフにすべきことを認識する。しかし、他の実施の形態では、システム１は、発生されたコマンドとして、ユーザ３がそれら自身の特定のジェスチャーをプログラムすることを可能にする。たとえば、オフコマンドとしてユーザが彼の左手を彼の顔の左に振って合図することで、オフコマンドがトリガされるように、ユーザは、システム１をプログラムすることができる。

本発明に係る、図１に例示されるマルチメディア制御システム１は、顔検出及びホットスポットの動きの検出によりメディアを制御する方法をユーザ３に提供する。本発明の目的は、人間のジェスチャーのみを使用して、ロバストなやり方でマルチメディア発信装置８をユーザ３が制御するのを可能にすることである。ジェスチャーは、カメラ３０及びイメージセンサ２を通して捕捉される。しかし、ジェスチャーは、ジェスチャーが事前に割り当てられた動き領域（ホットスポット）で実行される場合にのみ認識され、この動き領域は、顔検出モジュール１０により実行されるアルゴリズムに定義及び抽出される。ジェスチャー認識モジュール２０は、アルゴリズムを実行して、ユーザにより実行された動きが実際に発生されたコマンドであるかを確実に判定する。ジェスチャー認識モジュール２０は、動きが意図されたコマンドであると判定した場合、そのコマンドがメモリ５に事前の割り当てられたジェスチャーの指示に基づいたものであるかを更に判定する。

上述されたように、それぞれの画像のホットスポット領域１２ａ，１２ｂは、顔領域１１により定義され、この場合、第一の画像（ホットスポット）動き領域１２ａは、顔領域１１のちょうど左に割り当てられており、第二の画像（ホットスポット）動き領域１２ｂは、顔領域１１のちょうど右の領域に割り当てられている。図示される実施の形態では、画像の動き領域１２ａ，１２ｂの何れかの大きさは、顔領域ｆ1のサイズに依存する。顔領域ｆ1は、頭部の実質的に上の領域と、検出された顔の実質的に下の領域とにより定義される。図示される実施の形態では、顔領域ｆ1及び画像動き（ホットスポット）領域１２ａ，１２ｂのサイズは、人間のジェスチャーの指示１４の認識を良好に改善するために小さな寸法又は大きな寸法に較正される。

図２に例示されるように、カメラ３０は、視野における画像を捕捉する。現在の捕捉された画像Ｃiは、顔検出モジュール１０により処理されるため、イメージセンサ２を使用して、入力画像モジュール４に電子的に信号伝達される。顔検出モジュール１０は、視野３１における顔を決定して、ｆ1で開始する顔の領域を割り当てる。この顔領域ｆ1に基づいて、顔検出モジュールは、ジェスチャーの指示１４の認識を改善するために、ホットスポット領域１２ａ，１２ｂを更に抽出して割り当てる。また、顔検出モジュールに唯一の（ホットスポット）動き領域１２ａを抽出及び割り当てさせることもできる。係る状況において、更に改善されたロバスト性により、望まれない動きをフィルタリングするため、１つの（ホットスポット）動き領域１２ａが使用される。

図示される実施の形態では、それぞれのホットスポット領域１２ａ，１２ｂは、顔領域１１により定義され、この場合、第一の（ホットスポット）動き領域１２ａは、顔領域ｆ1のちょうど左の領域に割り当てられ、第二の（ホットスポット）動き領域１２ｂは、顔領域ｆ1のちょうど右の領域に割り当てられる。図示される実施の形態では、（ホットスポット）の動き領域１２ａ，１２ｂの何れかの大きさは、顔領域ｆ1のサイズに依存する。顔領域ｆ1は、頭部の実質的に上の領域と、検出された顔の実質的に下の領域とにより定義される。図示される実施の形態では、顔領域ｆ1と（ホットスポット）動き領域１２ａ，１２ｂのサイズは、人間のジェスチャーの指示１４の認識を良好に改善するため、より小さな寸法又はより大きな寸法に較正される。

割り当てられた（ホットスポット）動き領域１２ａ，１２ｂの位置は、これらが検出された顔の領域ｆ1に近く且つ（ホットスポット）動き領域１２ａ，１２ｂにおける捕捉された画像Ｃiを容易に識別することができる限りにおいてフレキシブルである。たとえば、頭部のちょうど下にある割り当てられた（ホットスポット）動き領域１２ａ，１２ｂの領域は、良好な候補ではない。これは、身体の画像がその領域において手の画像と干渉するからである。

図３は、顔検出を使用した画像のホットスポットの抽出方法のフローダイアグラムであり、図４は、顔検出方法の視覚的な表現を例示するものである。はじめに、カメラ３０は、現在の捕捉された画像Ｃiを捕捉し、この現在の捕捉された画像は、イメージセンサ２により電気信号に変換される。この電気信号は、顔検出モジュール１０により最初に処理されるようにメモリ５にファイルとして記憶される。

顔検出モジュール１０は、現在の捕捉された画像Ｃiを使用して顔検出アルゴリズム１３を実行する。顔検出アルゴリズム１３は、現在の捕捉された画像ファイルＣiを処理し、視野３１における顔を検出する。顔検出アルゴリズム１３は、上述されたように多数の顔を検出し、顔の領域（ｆ1，ｆ2，...，ｆn）を割り当てる。

はじめに、顔検出アルゴリズム１３は、入力ファイルとして、メモリ５から現在の捕捉された画像Ｃiを取得する。検出された第一の顔は、顔領域ｆ1として指定される。視野３１における顔の数に依存して、アルゴリズムは、他の顔領域を識別し、ｆ2，…，ｆnを指定する。この場合、ｎは視野３１における顔の数を表す。アルゴリズムが顔を検出しない場合、顔検出モジュール１０は、メモリ５に戻り、新たに捕捉された画像Ｃnで顔検出アルゴリズム１３の動作を繰り返す。

ある顔が識別された後、顔検出モジュール１０は、（ホットスポット）動き領域１２ａ，１２ｂのそれぞれとして顔の左及び右の領域を識別及び指定する。（ホットスポット）動き領域１２ａ，１２ｂは、ホットスポットではない領域における意図されないジェスチャーの指示をフィルタリングするためのマスクとして利用される。ひとたび（ホットスポット）動き領域１２ａ，１２ｂが割り当てられると、モジュールは、出力ファイルを生成する。この出力ファイルは、検出された顔領域ｆ1の大きさによりスケーリングされる、顔領域ｆ1と（ホットスポット）動き領域１２ａ，１２ｂに対応する、矩形のアレイから構成される。この出力ファイルは、ジェスチャー認識モジュール２０により更に処理することができるようにメモリ５に記憶される。

図５は、ジェスチャー認識を使用してメディアを制御するメディア指示を表すフローダイアグラムであり、図６は、ジェスチャー認識及びメディア制御装置の視覚的な表現を示す。

現在の捕捉された画像Ｃiは、顔検出モジュール１０からメモリ５にリードバックされた後、ジェスチャー認識モジュール２０は、ジェスチャー認識アルゴリズム２１を実行する。

メモリ５に記憶されている前に捕捉された画像ファイルＣi+1を使用して、ジェスチャー認識アルゴリズム２１は、現在の捕捉された画像Ｃiと前に捕捉された画像Ｃi+1との間の差Ｄiの絶対値をはじめに計算する。ジェスチャー認識アルゴリズム２１は、エロージョン動作を差Ｄiに適用して、小領域をはじめに除去し、人間のジェスチャ指示１４の改善された認識を支援する。

図示された実施の形態では、Ｄiへのエロージョンを実行するために機能cvErodeが使用される。cvErode機能は、最小値が取得される画素の近傍の形状を決定する特定の構造エレメントを使用する。エロージョン機能は、図示される実施の形態では１度だけ適用されるが、エロージョン機能は、他の実施の形態においてＤiに対して数回適用することができる。

捕捉された画像Ｃi及びＣi+1は、顔検出モジュールにより前に処理され、メモリ５に記憶されているので、それぞれの捕捉された画像Ｃi及びＣi+1は、割り当てられた、抽出された（ホットスポット）動き領域１２ａ，１２ｂを含む。ジェスチャー認識アルゴリズム２１は、抽出されたホットスポット領域１２ａ，１２ｂを使用して、ホットスポットでない領域における動きをマスク及びフィルタリングする。結果として、ジェスチャー認識アルゴリズム２１は、指定されていないホットスポット領域における動きに関してＤiを修正し、動き履歴画像（MHI: Motion History Image）を構築する。動き履歴画像（MHI）は、動きの集合（blobs）を検出するために使用され、ジェスチャー認識アルゴリズム２１の更なる動作は、これらのジェスチャの集合が実際の人間のジェスチャーの指示１４であるかを判定する。

動き履歴画像（MHI）は、画像系列の間の動きがどのように行われるかを表して、時間を通して動きを定量化して特定する。本発明では、動きの集合は、特定の領域、特に（ホットスポット）動き領域１２ａ，１２ｂにおいてジェスチャー認識モジュール２０により検討及び認識される。

それぞれの動き履歴画像（MHI）は、タイムスタンプの特定の座標x，yにより識別及び定義される画素を有する。この座標は、その画素における最後の動きに関連する。動きが（ホットスポット）動き領域１２ａ，１２ｂで検出されたとき、ジェスチャー認識アルゴリズム２１は、動き履歴画像（MHI）を修正し、結果として得られる動きの集合の階層化された履歴を作成する。

（ホットスポット）動き領域１２ａ，１２ｂで検出された全ての動きの集合について、ジェスチャー認識アルゴリズム２１は、最大及び最小のx，yの画素座標を発見し、lx，lyとして最大の値を、Sx，Syとして最小の値を示す。

動き履歴画像（MHI）の最大及び最小のx，yの画素座標を使用して、ジェスチャー認識アルゴリズム２１は、lyとSyとの間の差が第一の経験値T1よりも大きいか（ly-Sy＞T1）をはじめに判定する。この判定が当てはまる場合（Yes）、ジェスチャー認識アルゴリズム２１は、認識されたジェスチャー指示１４として現在の捕捉された画像Ｃiを認識しない。第一の経験値T1は、統計的に又は実験により決定され、マルチメディア制御システム１がインストールされる前にアルゴリズムで実現される。認識されたジェスチャーの指示１４が存在しない場合、ジェスチャー認識アルゴリズム２１は、Ｃiの処理を停止し、顔検出モジュール１０によりはじめに処理される新たな捕捉された画像Ｃnで開始する。

lyとSyとの間の差が第一の経験値T1よりも大きくない場合、ジェスチャー認識アルゴリズム２１は、次のステップに移り、lxとSxとの間の差が第二の経験値T2よりも大きいか（lx-Sx＞T2）を判定する。この判定が当てはまる場合、ジェスチャー認識アルゴリズム２１は、認識された人間のジェスチャの指示１４を有するとして現在の捕捉された画像Ｃiを認識せず、新たな捕捉された画像Ｃnで開始する。さもなければ、ジェスチャー認識アルゴリズム２１は、x方向の動き（lx-Sx）がy方向の動き（ly-Sy）よりも小さいかを判定する。x方向の動きがy方向の動きよりも小さい場合、ジェスチャー認識アルゴリズム２１は、現在捕捉された画像Ｃiにおけるジェスチャの指示１４を認識せず、アルゴリズム２１は、新たな捕捉された画像Ｃnで開始する。

デフォルトとして、ジェスチャー認識アルゴリズム２１が現在捕捉された画像Ｃiにおいてジェスチャーの指示１４を識別及び認識する必要があるが、動き履歴画像（MHI）において幾つかの「十分に大きな」コンポーネントが存在する場合、ジェスチャー認識アルゴリズム２１は、「手の動き」が存在すると判定する。「十分に大きい」とは、システム１の実現の前に、統計的に決定された経験的な閾値又は実験を通して決定された閾値である。

認識された「手の動き」を有する３つの連続して捕捉された画像が存在する場合、ジェスチャー認識モジュール１０は、メディア制御インタフェース６を通して、マルチメディア発信装置に特定のコマンドを発生する。

「手の動き」は、マルチメディア発信装置８への特定のコマンドを制御するジェスチャー指示１４である。「手の動き」を有することに関連する特定の制御コマンドは、左の（ホットスポット）動き領域１２ａ又は右の（ホットスポット）の動き領域１２ｂの何れかで、「手の動き」が何処で認識されたかに関して決定される。上述されたように、特定の制御コマンドは、特定の（ホットスポット）動き領域１２ａ，１２ｂに事前に割り当てられるか、ユーザ３によりプログラムされる。

ジェスチャー認識モジュール２０は、「手の動き」が３つの連続した捕捉された画像を通して認識される場合に、特定のコマンドを送出する。次いで、特定のコマンドは、対応する電気的なコマンド信号をマルチメディア発信装置８に中継するメディア制御インタフェース６に送出される。

異なるジェスチャーの全てのジェスチャーの指示は、良好に定義され、事前に割り当てられたコマンドは、マルチメディア制御システム１に記憶される。しかし、ユーザ３が彼自身のコマンドを使用前に定義することも可能である。従って、右（ホットスポット）動き領域１２ｂにおいて手を振ることがマルチメディア発信装置８をオンにする定義されたジェスチャーであって、ジェスチャー認識アルゴリズム２１が右（ホットスポット）動き領域１２ｂにおいてジェスチャーの指示１４として手を振ることを認識した場合、マルチメディア発信装置８は、オンになるように指示される。逆に、左（ホットスポット）動き領域１２ａにおいて手を振ることがマルチメディア発信装置８をオフにする定義されたジェスチャーであって、ジェスチャー認識アルゴリズム２１がジェスチャーの指示１４として左（ホットスポット）動き領域１２ａにおいて手を振ることを認識した場合、マルチメディア発信装置８は、オフになるように指示される。

動き検出を行うために、動き履歴画像（MHI）が構築されたとき、２つの実現が存在する。１つの実現では、動き履歴画像（MHI）は、全体の捕捉された画像Ｃiを使用して構築される。しかし、別の実現では、動き履歴画像（MHI）は、（ホットスポット）動き領域１２ａ，１２ｂの画像を使用して構築される。何れの実現もユーザ３が静止しているとき、すなわち頭部の動きが僅かであるか又は動きが無いとき、同じ結果をもたらす。しかし、ユーザ３が動いている場合、これらの実現は異なる。

図示される実施の形態では、割り当てられた（ホットスポット）動き領域１２ａ，１２ｂは、顔ｆ1に関して相対的であり、顔ｆ1は幾分動いている。動き検出はこれらのケースで正確であるが、頭部による動きは動き検出においてエラーを生じる可能性がある。動き履歴画像（MHI）が全体の画像を使用して構築された場合、割り当てられた（ホットスポット）動き領域１２ａ，１２ｂにおける動きが存在する場合がある。しかし、動き履歴画像（MHI）は割り当てられた（ホットスポット）動き領域１２ａ，１２ｂを使用してのみ構築される場合、外部の動きがフィルタリングされるので検出を改善することができる。

さらに、唯一の（ホットスポット）動き領域１２ａが割り当てられる実施の形態では、割り当てられた（ホットスポット）動き領域１２ａ，１２ｂのみから構築される動き履歴画像（MHI）を含めて、高い精度を達成するためにホットスポットにおけるジェスチャーを認識するために、より強力なジェスチャー認識アルゴリズムが必要とされる。

上述された装置及び方法は、非常にロバストなやり方で発信装置に人間のジェスチャーを通したコマンド制御を発して、（ホットスポット）動き領域１２ａ，１２ｂに動きの認識を制限する（ホットスポット）動き領域１２ａ，１２ｂを顔検出技術が定義及び抽出するのを支援するように、インタラクティブマルチメディア発信装置８を制御するために使用することができる。

上述の内容は、本発明を実施する可能性の幾つかを例示するものである。多くの他の実施の形態は、本発明の精神及び範囲において可能である。従って、限定するものではなく例示するものとして上述の記載が見なされ、本発明の範囲はあらゆる種類の等価な概念と共に特許請求の範囲により与えられることが意図される。

Claims

マルチメディア装置を制御する方法であって、
顔検出を使用して、ある画像における顔領域を検出し、動き領域を決定するステップであり、前記動き領域は、検出された顔領域に横方向で隣接し且つ前記検出された顔領域の大きさによりスケーリングされた左領域と右領域とにより定義される、ステップと、
前記検出された顔領域と前記動き領域とから構成される出力ファイルをメモリに記憶するステップと、
前記出力ファイルの少なくとも１つの前記動き領域における動きを検出するステップと、
検出された動きが予め割り当てられたコマンドに整合するかを判定するステップと、
整合する予め割り当てられたコマンドに対応する信号を前記マルチメディア装置に供給するステップと、
を含む方法。
前記動き領域を決定するステップ及び前記コマンドに整合するかを判定するステップは、現在の捕捉された画像を使用して、画像の動き領域を抽出するステップを更に含む、
請求項１記載の方法。
前記現在の捕捉された画像を使用して、前記現在の捕捉された画像と前の捕捉された画像との間の差を計算及び分析するステップを更に含む、
請求項２記載の方法。
前記差にエロージョンを適用して小領域を除くステップを更に含む、
請求項３記載の方法。
前記動き領域を動きのない領域をフィルタリングするためのマスクとして使用するステップを更に含む、
請求項４記載の方法。
前記差を加えて動き画像を構築するステップを更に含む、
請求項５記載の方法。
前記動き画像は、捕捉された画像から構築される、
請求項６記載の方法。
前記動き画像は、動き領域から構築される、
請求項６記載の方法。
lx，ly，sx及びsyとしてそれぞれ示される、それぞれ検出された動き領域の最大のｘ，ｙ座標及び最小のｘ，ｙ座標を発見するステップを更に含む、
請求項６記載の方法。
カメラを使用して前記現在の捕捉された画像を取得するステップを更に含む、
請求項２記載の方法。
前記現在の捕捉された画像における顔を検出し、F1，F2，F3，…，Fnとしてそれぞれの顔を示すステップを更に含む、
請求項１０記載の方法。
前記動き領域は、それぞれの顔に隣接する左領域と右領域により定義される、
請求項１１記載の方法。
左の動き領域に対するジェスチャーのコマンドと右の動き領域に対するジェスチャーのコマンドとを定義するステップを更に含む、
請求項１２記載の方法。
イメージセンサを有するカメラと、
前記イメージセンサを通して画像を受ける入力画像モジュールと、
前記入力画像モジュールに接続されるメモリと、
前記入力画像モジュールに接続され、ある画像における顔領域を検出し、検出された顔領域に横方向で隣接し且つ前記検出された顔領域の大きさによりスケーリングされた左領域と右領域とにより定義される動き領域を決定する、顔検出モジュールであって、前記検出された顔領域と、前記動き領域とから出力ファイルが構成される、顔検出モジュールと、
前記入力画像モジュールに接続されるジェスチャ認識モジュールであって、前記出力ファイルの少なくとも１つの動き領域における動きを検出し、検出された動きが予め割り当てられたコマンドに整合するかを判定するジェスチャ認識モジュールと、
前記入力画像モジュールから前記予め割り当てられたコマンドを受け、前記予め割り当てられたコマンドを、マルチメディア発信装置を制御する電気信号に変換するメディア制御インタフェースと、
を備えるメディア制御装置。
前記イメージセンサは、前記カメラと一体となって構成される、
請求項１４記載のメディア制御装置。
前記入力画像モジュールは、前記カメラと一体となって構成される、
請求項１４記載のメディア制御装置。
前記入力画像モジュールは、マイクロプロセッサである、
請求項１４記載のメディア制御装置。
前記メモリ、前記顔検出モジュール及び前記ジェスチャ認識モジュールは、前記入力画像モジュールと一体となって構成される、
請求項１４記載のメディア制御装置。
前記メディア制御インタフェースは、前記入力画像モジュールと一体となって構成される、
請求項１４記載のメディア制御装置。
前記カメラ、前記イメージセンサ、前記入力画像モジュール、前記メモリ、前記顔検出モジュール、前記ジェスチャ認識モジュール、及び前記メディア制御インタフェースは、１つの構成要素として一体となって構成され、
当該メディア制御装置は、前記マルチメディア発信装置に接続される外部の機器である、
請求項１４記載のメディア制御装置。