JP5706340B2 - 顔検出及びホットスポットの動きによりメディアを制御する方法 - Google Patents

顔検出及びホットスポットの動きによりメディアを制御する方法 Download PDF

Info

Publication number
JP5706340B2
JP5706340B2 JP2011547872A JP2011547872A JP5706340B2 JP 5706340 B2 JP5706340 B2 JP 5706340B2 JP 2011547872 A JP2011547872 A JP 2011547872A JP 2011547872 A JP2011547872 A JP 2011547872A JP 5706340 B2 JP5706340 B2 JP 5706340B2
Authority
JP
Japan
Prior art keywords
motion
image
module
area
face
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011547872A
Other languages
English (en)
Other versions
JP2012515968A (ja
Inventor
ヤン,ルイデュオ
ルオ,イン
ジャン,タオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Licensing SAS
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of JP2012515968A publication Critical patent/JP2012515968A/ja
Application granted granted Critical
Publication of JP5706340B2 publication Critical patent/JP5706340B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)

Description

本発明は、マルチメディア発信装置を制御する方法に関し、より詳細には、本発明は、顔検出及びホットスポットの動きによりマルチメディア発信装置を制御する方法に関する。
電子装置を動作することは、電子的な遠隔制御に益々依存するようになってきており、この電子的な遠隔制御により、ユーザは、ある距離から命令を発することができる。一般に、遠隔制御は、電源を内蔵しており、赤外線(IR)及び無線信号を介してコマンドを発する。
典型的な家庭では、テレビジョン又はビデオ投影システム、衛星又はケーブルTV受信機、CDプレーヤ、ビデオレコーダ、DVDプレーヤ、オーディオチューナ、コンピュータシステム、更には照明のような1以上の電子装置は、遠隔制御を使用して制御することができる。これら遠隔制御は非常に複雑になってきているが、遠隔制御の使用は、益々普及している。多くの電子消費者は、特にテレビジョンである全ての形態のマルチメディア機器と双方向性を高める強い要求を有している。
電子消費者は、電子的な遠隔制御なしに、特に人間のジェスチャーを通して、メディアとの増加された双方向性及び参加を長く望んでいる。手の動きは、メディア発信源に命令し、対話する価値があることが分かっている。
ジェスチャーの認識技術により、ユーザは、電子的な遠隔制御のような、他の機械的な装置の使用なしに、電子装置と対話することができる。この技術は、人間の体の動きを読み取るカメラを通常含んでおり、カメラから収集されたデータをコンピュータに伝達する。次いで、コンピュータは、電子装置の意図された命令として選択されたジェスチャーを認識する。たとえば、実際に、ユーザは、カーソルを移動するか又はアプリケーションコマンドを作動させるため、テレビジョン又はコンピュータスクリーンを指す。
対話的なメディアシステムは、米国特許第7283983号に開示されており、この特許は、書籍、教材、雑誌、ポスター、チャート、地図、個人のページ、パッケージ、ゲームカード等のような印刷媒体の使用と共に、人間のユーザの増加された対話性を提供するため、画像形成及び認識技術を利用する方法を提供する、ビデオカメラに結合されたコンピュータを教示する。コンピュータシステムは、ビジョンに基づいたセンサを使用して、印刷媒体を識別し、そのビューに対応する情報を取得する。次いで、センサは、少なくともメディアの一部に関して最初のユーザのジェスチャーを識別する。次いで、コンピュータシステムは、コマンドとしてジェスチャーを解釈し、システムは、最初のジェスチャー及び取得された情報に基づいて、取得された情報の少なくとも一部を声に出して電子的に話す。
人間のジェスチャーは、上述された手つきを含めて、身体の動き又は状態から生じる。顔検出は、それらのジェスチャーが何処から到来するのかを区別し、関連のない動きをフィルタリングすることで、動き検出システムを更に支援することができる。
人間は、顔を認識して区別する本来持っている能力を有するが、その同じ能力をコンピュータソフトウェアに採用することは非常に困難である。しかし、この数年、システムが良好に開発されている。
コンピュータシステムと使用される顔認識は、ある人物の識別及び検証をデジタル画像又はビデオソースから可能にする。人間の顔は、様々な区別可能な特徴を有するので、これらの特徴の比較は、ある人物の識別のために利用される場合がある。アルゴリズムを使用して、コンピュータソフトウェアは、多くの他の顔の特徴と同様に、目の間の距離、眼窩の深さ、頬骨の形状のような特徴を比較し、次いでそれぞれの特徴を既存の顔のデータと比較することができる。
Agraham等による米国特許第6377995号は、マルチメディア通信の選択された部分が効果的に取得及び再生されるように、顔及び音声認識を使用したマルチメディア通信に指標付けする方法及び装置を提供する。この方法及び装置は、顔認識と音声認識を結合して、データ又はメタデータを含むことができるマルチキャストのマルチメディア電話会議への参加者を識別する。サーバは、音声及び映像の顔パターンの両者が特定の参加者の音声及び顔モデルに整合するときに、特定の参加者の同一性を判定し、その参加者の音声及び顔パターンの同一性に基づいて参加者の索引を作成し、これによりマルチメディア通信を分割するために索引が使用される。
深度認識カメラ(depth awareness camera)は、広く利用可能であり、メディアを制御するために使用される。Sony Eyetoy and Playstation Eyeのようなビデオパターン認識ソフトウェアは、短距離でカメラを通して見ているものの深度マップを生成する専用カメラを利用し、ユーザは、内蔵のマイクロフォンを使用して、動き、色検出及び更には音声を使用してメディアと相互作用することができる。
McCarty等による米国特許第6904408号は、ユーザのウェブブラウジングの体験をカスタマイズするために使用されるウェブコンテンツマネージャを教示する。このマネージャは、旧式のデータベースで収集されたとき、及び少なくとも1つのリアルタイムの観察可能な行動信号に応答して、ユーザの心理的な好みに従って適切なオンラインメディアを選択する。皮膚の温度、脈拍数、心拍数、呼吸数、EMG、EEG、音声ストレス及びジェスチャー認識は、行動の応答の幾つかであり、心理学の指標が測定及び分析される。ジェスチャー認識は、ビデオ入力のコンピュータ分析により達成される。顔の位置は、明るい態度及び暗い態度を示し、この場合、毎分の瞬きの回数が不安を示すために使用される場合がある。
ジェスチャー認識は、多くの応用の利点があることが分かっている。しかし、ジェスチャー認識は、ジェスチャー認識ソフトウェアのロバスト性及び正確さを含めて、多くの課題を有している。画像に基づくジェスチャ認識について、機器及び視野において発見される雑音量に関連する制限が存在する。意図されたものではないジェスチャー及びバックグランドの動きは、発せられたコマンドの完全な認識を妨げる。
本発明は、ジェスチャーを使用したインタラクティブなメディアを制御するロバストな方法を提供する。発生されたコマンドにおけるロバストの精度を提供する、顔検出及びホットスポットの動きによりメディアを制御する方法は、現在の捕捉された画像Ciを使用して動き領域を抽出するステップ、現在の捕捉された画像Ciと前の捕捉された画像Ci+1との差であるDiを計算及び分析するステップ、エローション(erosion)をDiに適用して小領域を除くステップ、抽出されたホットスポット領域にマスクを適用して動きのない領域をフィルタリングし、D1を加えて動き履歴画像を構築し、lx,ly,sx及びsyとしてそれぞれ示される全ての検出された動きが接続されたコンポーネントの最も大きいx,y座標及び最も小さいx,y座標を発見するステップ、アルゴリズムを実行して、手振りがメディアを制御するためのコマンドであるかを判定するステップを含む。
さらに、本発明は、イメージセンサと、イメージセンサを通してピクチャ画像を受ける入力画像モジュールを有するカメラを有するメディア制御装置に関する。さらに、入力画像モジュールは、メモリを介して顔検出モジュール及びジェスチャー認識モジュールを更に接続する。メディア制御インタフェースは、入力画像モジュールからコマンドを受け、電気信号をメディア発信装置(media outlet device)に送出する。
本発明は、添付図面を参照して、本発明の実施の形態を参照して以下に更に詳細に説明される。
マルチメディア制御システムにより使用される代表となる機器のブロック図である。 マルチメディア制御システムの透視図である。 顔検出モジュールのフローダイアグラムである。 顔検出アルゴリズムを使用して現在捕捉された画像を処理する顔検出モジュールを例示する図である。 ジェスチャー認識モジュールのフローダイアグラムである。 ジェスチャー認識アルゴリズムを使用した現在捕捉された画像を処理するジェスチャー認識モジュールを例示する図である。
本発明は、以下に詳細に説明され、本発明の実施の形態は、添付図面において例示される。
図1を参照して、本発明に係るマルチメディア制御システム1が例示される。マルチメディア制御システム1は、イメージセンサ2、メモリ5に接続される入力画像モジュール5、メディア制御インタフェース6、顔検出モジュール10、及びメモリ5に接続されるジェスチャー認識モジュール20、及びマルチメディア発信装置8を有する。
イメージセンサ2は、特に、光信号を電気信号に変換する装置である。電気信号は、イメージモジュール4に入力され、処理の前にメモリ5に記憶される。
基本的に、イメージセンサ2は、図2に更に例示されるように、デジタルカメラ30と共に使用される。カメラ30は、イメージセンサ2の光を捕捉及び焦点合わせする。イメージセンサ2は、マルチメディアユーザ3からの複数の静止画像を捕捉し、マルチメディアユーザは、マルチメディア発信装置8にコマンドを発生する場合がある。イメージセンサ2は、捕捉された光を電気的な出力信号に変換し、この電気的な出力信号は、入力画像モジュール4を通して処理される。顔検出及びジェスチャー認識モジュール10,20は、メモリ5を通して入力画像モジュール4に接続され、発生されたコマンドがユーザ3により実行されたかを判定すると共に、電気信号を処理する。
カメラ30は、角度θにより、カメラの視野を調節するズームレンズ(図示せず)を有する。これは、潜在的な雑音を制限するための第一の最も基本的な方法である。マルチメディアユーザ3は、カメラがマルチメディアユーザ3に関して焦点を合わせることができるように、カメラ30を調節することができる。
実施の形態では、入力画像モジュール4は、マイクロプロセッサのようなプログラマブル装置である。入力画像モジュール4はデジタルカメラ30に統合して製造することができるが、更なる実施の形態は、カメラ30及びイメージセンサ2とは分離して入力画像モジュール4の単独の構成を可能にし、配線により接続される場合がある。
入力モジュール4は、メモリコンポーネント5を有し、このメモリコンポーネントは、カメラ30により捕捉され、イメージセンサ2により信号伝達される到来する画像フレームを記憶する。記憶される画像は、収集され、顔検出モジュール10とジェスチャー認識モジュール20との間の処理のために記憶される。メディア制御インタフェース6は、入力画像モジュールの更に別のコンポーネントであり、単一の構成で提供されることが好ましい。しかし、メディア制御インタフェース6を入力画像モジュール4に対して外部のコンポーネントとして提供することもできる。
入力画像モジュール4は、その論理的な機能及び接続性が顔検出及びジェスチャー認識と関連されるアルゴリズムに従って前もってプログラムされるモジュール10,20を含む。顔検出及びジェスチャー認識モジュール10,20の両者は、本発明の実施の形態において、入力画像モジュール4と統合して構築される。顔検出とジェスチャー認識モジュール10,20のアルゴリズムにより判定された結果に依存して、入力画像モジュール4は、図1に例示されるように、メディア制御インタフェース6を通してマルチメディア発信装置8にコマンドを供給する。
実施の形態では、コマンドは、事前に割り当てられたジェスチャーの指示により事前にプログラムされる。ジェスチャー認識モジュール20は、マルチメディア発信装置8により実行される特定のコマンドとして多数の特定のジェスチャーの指示を認識する。たとえば、ユーザが彼の右手を彼の顔の右に振って合図した場合、ジェスチャー認識モジュールは、あるコマンドとしてのジェスチャーがマルチメディア発信装置8をオフにすべきことを認識する。しかし、他の実施の形態では、システム1は、発生されたコマンドとして、ユーザ3がそれら自身の特定のジェスチャーをプログラムすることを可能にする。たとえば、オフコマンドとしてユーザが彼の左手を彼の顔の左に振って合図することで、オフコマンドがトリガされるように、ユーザは、システム1をプログラムすることができる。
本発明に係る、図1に例示されるマルチメディア制御システム1は、顔検出及びホットスポットの動きの検出によりメディアを制御する方法をユーザ3に提供する。本発明の目的は、人間のジェスチャーのみを使用して、ロバストなやり方でマルチメディア発信装置8をユーザ3が制御するのを可能にすることである。ジェスチャーは、カメラ30及びイメージセンサ2を通して捕捉される。しかし、ジェスチャーは、ジェスチャーが事前に割り当てられた動き領域(ホットスポット)で実行される場合にのみ認識され、この動き領域は、顔検出モジュール10により実行されるアルゴリズムに定義及び抽出される。ジェスチャー認識モジュール20は、アルゴリズムを実行して、ユーザにより実行された動きが実際に発生されたコマンドであるかを確実に判定する。ジェスチャー認識モジュール20は、動きが意図されたコマンドであると判定した場合、そのコマンドがメモリ5に事前の割り当てられたジェスチャーの指示に基づいたものであるかを更に判定する。
上述されたように、それぞれの画像のホットスポット領域12a,12bは、顔領域11により定義され、この場合、第一の画像(ホットスポット)動き領域12aは、顔領域11のちょうど左に割り当てられており、第二の画像(ホットスポット)動き領域12bは、顔領域11のちょうど右の領域に割り当てられている。図示される実施の形態では、画像の動き領域12a,12bの何れかの大きさは、顔領域f1のサイズに依存する。顔領域f1は、頭部の実質的に上の領域と、検出された顔の実質的に下の領域とにより定義される。図示される実施の形態では、顔領域f1及び画像動き(ホットスポット)領域12a,12bのサイズは、人間のジェスチャーの指示14の認識を良好に改善するために小さな寸法又は大きな寸法に較正される。
図2に例示されるように、カメラ30は、視野における画像を捕捉する。現在の捕捉された画像Ciは、顔検出モジュール10により処理されるため、イメージセンサ2を使用して、入力画像モジュール4に電子的に信号伝達される。顔検出モジュール10は、視野31における顔を決定して、f1で開始する顔の領域を割り当てる。この顔領域f1に基づいて、顔検出モジュールは、ジェスチャーの指示14の認識を改善するために、ホットスポット領域12a,12bを更に抽出して割り当てる。また、顔検出モジュールに唯一の(ホットスポット)動き領域12aを抽出及び割り当てさせることもできる。係る状況において、更に改善されたロバスト性により、望まれない動きをフィルタリングするため、1つの(ホットスポット)動き領域12aが使用される。
図示される実施の形態では、それぞれのホットスポット領域12a,12bは、顔領域11により定義され、この場合、第一の(ホットスポット)動き領域12aは、顔領域f1のちょうど左の領域に割り当てられ、第二の(ホットスポット)動き領域12bは、顔領域f1のちょうど右の領域に割り当てられる。図示される実施の形態では、(ホットスポット)の動き領域12a,12bの何れかの大きさは、顔領域f1のサイズに依存する。顔領域f1は、頭部の実質的に上の領域と、検出された顔の実質的に下の領域とにより定義される。図示される実施の形態では、顔領域f1と(ホットスポット)動き領域12a,12bのサイズは、人間のジェスチャーの指示14の認識を良好に改善するため、より小さな寸法又はより大きな寸法に較正される。
割り当てられた(ホットスポット)動き領域12a,12bの位置は、これらが検出された顔の領域f1に近く且つ(ホットスポット)動き領域12a,12bにおける捕捉された画像Ciを容易に識別することができる限りにおいてフレキシブルである。たとえば、頭部のちょうど下にある割り当てられた(ホットスポット)動き領域12a,12bの領域は、良好な候補ではない。これは、身体の画像がその領域において手の画像と干渉するからである。
図3は、顔検出を使用した画像のホットスポットの抽出方法のフローダイアグラムであり、図4は、顔検出方法の視覚的な表現を例示するものである。はじめに、カメラ30は、現在の捕捉された画像Ciを捕捉し、この現在の捕捉された画像は、イメージセンサ2により電気信号に変換される。この電気信号は、顔検出モジュール10により最初に処理されるようにメモリ5にファイルとして記憶される。
顔検出モジュール10は、現在の捕捉された画像Ciを使用して顔検出アルゴリズム13を実行する。顔検出アルゴリズム13は、現在の捕捉された画像ファイルCiを処理し、視野31における顔を検出する。顔検出アルゴリズム13は、上述されたように多数の顔を検出し、顔の領域(f1,f2,...,fn)を割り当てる。
はじめに、顔検出アルゴリズム13は、入力ファイルとして、メモリ5から現在の捕捉された画像Ciを取得する。検出された第一の顔は、顔領域f1として指定される。視野31における顔の数に依存して、アルゴリズムは、他の顔領域を識別し、f2,…,fnを指定する。この場合、nは視野31における顔の数を表す。アルゴリズムが顔を検出しない場合、顔検出モジュール10は、メモリ5に戻り、新たに捕捉された画像Cnで顔検出アルゴリズム13の動作を繰り返す。
ある顔が識別された後、顔検出モジュール10は、(ホットスポット)動き領域12a,12bのそれぞれとして顔の左及び右の領域を識別及び指定する。(ホットスポット)動き領域12a,12bは、ホットスポットではない領域における意図されないジェスチャーの指示をフィルタリングするためのマスクとして利用される。ひとたび(ホットスポット)動き領域12a,12bが割り当てられると、モジュールは、出力ファイルを生成する。この出力ファイルは、検出された顔領域f1の大きさによりスケーリングされる、顔領域f1と(ホットスポット)動き領域12a,12bに対応する、矩形のアレイから構成される。この出力ファイルは、ジェスチャー認識モジュール20により更に処理することができるようにメモリ5に記憶される。
図5は、ジェスチャー認識を使用してメディアを制御するメディア指示を表すフローダイアグラムであり、図6は、ジェスチャー認識及びメディア制御装置の視覚的な表現を示す。
現在の捕捉された画像Ciは、顔検出モジュール10からメモリ5にリードバックされた後、ジェスチャー認識モジュール20は、ジェスチャー認識アルゴリズム21を実行する。
メモリ5に記憶されている前に捕捉された画像ファイルCi+1を使用して、ジェスチャー認識アルゴリズム21は、現在の捕捉された画像Ciと前に捕捉された画像Ci+1との間の差Diの絶対値をはじめに計算する。ジェスチャー認識アルゴリズム21は、エロージョン動作を差Diに適用して、小領域をはじめに除去し、人間のジェスチャ指示14の改善された認識を支援する。
図示された実施の形態では、Diへのエロージョンを実行するために機能cvErodeが使用される。cvErode機能は、最小値が取得される画素の近傍の形状を決定する特定の構造エレメントを使用する。エロージョン機能は、図示される実施の形態では1度だけ適用されるが、エロージョン機能は、他の実施の形態においてDiに対して数回適用することができる。
捕捉された画像Ci及びCi+1は、顔検出モジュールにより前に処理され、メモリ5に記憶されているので、それぞれの捕捉された画像Ci及びCi+1は、割り当てられた、抽出された(ホットスポット)動き領域12a,12bを含む。ジェスチャー認識アルゴリズム21は、抽出されたホットスポット領域12a,12bを使用して、ホットスポットでない領域における動きをマスク及びフィルタリングする。結果として、ジェスチャー認識アルゴリズム21は、指定されていないホットスポット領域における動きに関してDiを修正し、動き履歴画像(MHI: Motion History Image)を構築する。動き履歴画像(MHI)は、動きの集合(blobs)を検出するために使用され、ジェスチャー認識アルゴリズム21の更なる動作は、これらのジェスチャの集合が実際の人間のジェスチャーの指示14であるかを判定する。
動き履歴画像(MHI)は、画像系列の間の動きがどのように行われるかを表して、時間を通して動きを定量化して特定する。本発明では、動きの集合は、特定の領域、特に(ホットスポット)動き領域12a,12bにおいてジェスチャー認識モジュール20により検討及び認識される。
それぞれの動き履歴画像(MHI)は、タイムスタンプの特定の座標x,yにより識別及び定義される画素を有する。この座標は、その画素における最後の動きに関連する。動きが(ホットスポット)動き領域12a,12bで検出されたとき、ジェスチャー認識アルゴリズム21は、動き履歴画像(MHI)を修正し、結果として得られる動きの集合の階層化された履歴を作成する。
(ホットスポット)動き領域12a,12bで検出された全ての動きの集合について、ジェスチャー認識アルゴリズム21は、最大及び最小のx,yの画素座標を発見し、lx,lyとして最大の値を、Sx,Syとして最小の値を示す。
動き履歴画像(MHI)の最大及び最小のx,yの画素座標を使用して、ジェスチャー認識アルゴリズム21は、lyとSyとの間の差が第一の経験値T1よりも大きいか(ly-Sy>T1)をはじめに判定する。この判定が当てはまる場合(Yes)、ジェスチャー認識アルゴリズム21は、認識されたジェスチャー指示14として現在の捕捉された画像Ciを認識しない。第一の経験値T1は、統計的に又は実験により決定され、マルチメディア制御システム1がインストールされる前にアルゴリズムで実現される。認識されたジェスチャーの指示14が存在しない場合、ジェスチャー認識アルゴリズム21は、Ciの処理を停止し、顔検出モジュール10によりはじめに処理される新たな捕捉された画像Cnで開始する。
lyとSyとの間の差が第一の経験値T1よりも大きくない場合、ジェスチャー認識アルゴリズム21は、次のステップに移り、lxとSxとの間の差が第二の経験値T2よりも大きいか(lx-Sx>T2)を判定する。この判定が当てはまる場合、ジェスチャー認識アルゴリズム21は、認識された人間のジェスチャの指示14を有するとして現在の捕捉された画像Ciを認識せず、新たな捕捉された画像Cnで開始する。さもなければ、ジェスチャー認識アルゴリズム21は、x方向の動き(lx-Sx)がy方向の動き(ly-Sy)よりも小さいかを判定する。x方向の動きがy方向の動きよりも小さい場合、ジェスチャー認識アルゴリズム21は、現在捕捉された画像Ciにおけるジェスチャの指示14を認識せず、アルゴリズム21は、新たな捕捉された画像Cnで開始する。
デフォルトとして、ジェスチャー認識アルゴリズム21が現在捕捉された画像Ciにおいてジェスチャーの指示14を識別及び認識する必要があるが、動き履歴画像(MHI)において幾つかの「十分に大きな」コンポーネントが存在する場合、ジェスチャー認識アルゴリズム21は、「手の動き」が存在すると判定する。「十分に大きい」とは、システム1の実現の前に、統計的に決定された経験的な閾値又は実験を通して決定された閾値である。
認識された「手の動き」を有する3つの連続して捕捉された画像が存在する場合、ジェスチャー認識モジュール10は、メディア制御インタフェース6を通して、マルチメディア発信装置に特定のコマンドを発生する。
「手の動き」は、マルチメディア発信装置8への特定のコマンドを制御するジェスチャー指示14である。「手の動き」を有することに関連する特定の制御コマンドは、左の(ホットスポット)動き領域12a又は右の(ホットスポット)の動き領域12bの何れかで、「手の動き」が何処で認識されたかに関して決定される。上述されたように、特定の制御コマンドは、特定の(ホットスポット)動き領域12a,12bに事前に割り当てられるか、ユーザ3によりプログラムされる。
ジェスチャー認識モジュール20は、「手の動き」が3つの連続した捕捉された画像を通して認識される場合に、特定のコマンドを送出する。次いで、特定のコマンドは、対応する電気的なコマンド信号をマルチメディア発信装置8に中継するメディア制御インタフェース6に送出される。
異なるジェスチャーの全てのジェスチャーの指示は、良好に定義され、事前に割り当てられたコマンドは、マルチメディア制御システム1に記憶される。しかし、ユーザ3が彼自身のコマンドを使用前に定義することも可能である。従って、右(ホットスポット)動き領域12bにおいて手を振ることがマルチメディア発信装置8をオンにする定義されたジェスチャーであって、ジェスチャー認識アルゴリズム21が右(ホットスポット)動き領域12bにおいてジェスチャーの指示14として手を振ることを認識した場合、マルチメディア発信装置8は、オンになるように指示される。逆に、左(ホットスポット)動き領域12aにおいて手を振ることがマルチメディア発信装置8をオフにする定義されたジェスチャーであって、ジェスチャー認識アルゴリズム21がジェスチャーの指示14として左(ホットスポット)動き領域12aにおいて手を振ることを認識した場合、マルチメディア発信装置8は、オフになるように指示される。
動き検出を行うために、動き履歴画像(MHI)が構築されたとき、2つの実現が存在する。1つの実現では、動き履歴画像(MHI)は、全体の捕捉された画像Ciを使用して構築される。しかし、別の実現では、動き履歴画像(MHI)は、(ホットスポット)動き領域12a,12bの画像を使用して構築される。何れの実現もユーザ3が静止しているとき、すなわち頭部の動きが僅かであるか又は動きが無いとき、同じ結果をもたらす。しかし、ユーザ3が動いている場合、これらの実現は異なる。
図示される実施の形態では、割り当てられた(ホットスポット)動き領域12a,12bは、顔f1に関して相対的であり、顔f1は幾分動いている。動き検出はこれらのケースで正確であるが、頭部による動きは動き検出においてエラーを生じる可能性がある。動き履歴画像(MHI)が全体の画像を使用して構築された場合、割り当てられた(ホットスポット)動き領域12a,12bにおける動きが存在する場合がある。しかし、動き履歴画像(MHI)は割り当てられた(ホットスポット)動き領域12a,12bを使用してのみ構築される場合、外部の動きがフィルタリングされるので検出を改善することができる。
さらに、唯一の(ホットスポット)動き領域12aが割り当てられる実施の形態では、割り当てられた(ホットスポット)動き領域12a,12bのみから構築される動き履歴画像(MHI)を含めて、高い精度を達成するためにホットスポットにおけるジェスチャーを認識するために、より強力なジェスチャー認識アルゴリズムが必要とされる。
上述された装置及び方法は、非常にロバストなやり方で発信装置に人間のジェスチャーを通したコマンド制御を発して、(ホットスポット)動き領域12a,12bに動きの認識を制限する(ホットスポット)動き領域12a,12bを顔検出技術が定義及び抽出するのを支援するように、インタラクティブマルチメディア発信装置8を制御するために使用することができる。
上述の内容は、本発明を実施する可能性の幾つかを例示するものである。多くの他の実施の形態は、本発明の精神及び範囲において可能である。従って、限定するものではなく例示するものとして上述の記載が見なされ、本発明の範囲はあらゆる種類の等価な概念と共に特許請求の範囲により与えられることが意図される。

Claims (20)

  1. マルチメディア装置を制御する方法であって、
    顔検出を使用して、ある画像における顔領域を検出し、動き領域を決定するステップであり、前記動き領域は、検出された顔領域に横方向で隣接し且つ前記検出された顔領域の大きさによりスケーリングされた左領域と右領域とにより定義される、ステップと、
    前記検出された顔領域と前記動き領域とから構成される出力ファイルをメモリに記憶するステップと、
    前記出力ファイルの少なくとも1つの前記動き領域における動きを検出するステップと、
    検出された動きが予め割り当てられたコマンドに整合するかを判定するステップと、
    整合する予め割り当てられたコマンドに対応する信号を前記マルチメディア装置に供給するステップと、
    を含む方法。
  2. 前記動き領域決定するステップ及び前記コマンドに整合するかを判定するステップは、現在捕捉された画像を使用して、画像の動き領域を抽出するステップを更に含む、
    請求項1記載の方法。
  3. 前記現在の捕捉された画像を使用して、前記現在の捕捉された画像と前の捕捉された画像との間の差を計算及び分析するステップを更に含む、
    請求項2記載の方法。
  4. 前記差にエロージョンを適用して小領域を除くステップを更に含む、
    請求項3記載の方法。
  5. 前記動き領域を動きのない領域をフィルタリングするためのマスクとして使用するステップを更に含む、
    請求項4記載の方法。
  6. 前記差を加えて動き画像を構築するステップを更に含む、
    請求項5記載の方法。
  7. 前記動き画像は、捕捉された画像から構築される、
    請求項6記載の方法。
  8. 前記動き画像は、動き領域から構築される、
    請求項6記載の方法。
  9. lx,ly,sx及びsyとしてそれぞれ示される、それぞれ検出された動き領域の最大のx,y座標及び最小のx,y座標を発見するステップを更に含む、
    請求項6記載の方法。
  10. カメラを使用して前記現在捕捉された画像を取得するステップを更に含む、
    請求項2記載の方法。
  11. 前記現在捕捉された画像における顔を検出し、F1,F2,F3,…,Fnとしてそれぞれの顔を示すステップを更に含む、
    請求項10記載の方法。
  12. 前記動き領域は、それぞれの顔に隣接する左領域と右領域により定義される、
    請求項11記載の方法。
  13. 左の動き領域に対するジェスチャーのコマンドと右の動き領域に対するジェスチャーのコマンドとを定義するステップを更に含む、
    請求項12記載の方法。
  14. イメージセンサを有するカメラと、
    前記イメージセンサを通して画像を受ける入力画像モジュールと、
    前記入力画像モジュールに接続されるメモリと、
    前記入力画像モジュールに接続され、ある画像における顔領域を検出し、検出された顔領域に横方向で隣接し且つ前記検出された顔領域の大きさによりスケーリングされた左領域と右領域とにより定義される動き領域を決定する顔検出モジュールであって、前記検出された顔領域と、前記動き領域とから出力ファイルが構成される、顔検出モジュールと、
    前記入力画像モジュールに接続されるジェスチャ認識モジュールであって、前記出力ファイルの少なくとも1つの動き領域における動きを検出し、検出された動きが予め割り当てられたコマンドに整合するかを判定するジェスチャ認識モジュールと、
    前記入力画像モジュールから前記予め割り当てられたコマンドを受け、前記予め割り当てられたコマンドを、マルチメディア発信装置を制御する電気信号に変換するメディア制御インタフェースと、
    を備えるディア制御装置。
  15. 前記イメージセンサは、前記カメラと一体となって構成される、
    請求項14記載のメディア制御装置。
  16. 前記入力画像モジュールは、前記カメラと一体となって構成される、
    請求項14記載のメディア制御装置。
  17. 前記入力画像モジュールは、マイクロプロセッサである、
    請求項14記載のメディア制御装置。
  18. 前記メモリ、前記顔検出モジュール及び前記ジェスチャ認識モジュールは、前記入力画像モジュールと一体となって構成される、
    請求項14記載のメディア制御装置。
  19. 前記メディア制御インタフェースは、前記入力画像モジュールと一体となって構成される、
    請求項14記載のメディア制御装置。
  20. 前記カメラ、前記イメージセンサ、前記入力画像モジュール、前記メモリ、前記顔検出モジュール、前記ジェスチャ認識モジュール、及び前記メディア制御インタフェースは、1つの構成要素として一体となって構成され、
    当該メディア制御装置は、前記マルチメディア発信装置に接続される外部の機器である、
    請求項14記載のメディア制御装置。
JP2011547872A 2009-01-21 2009-01-21 顔検出及びホットスポットの動きによりメディアを制御する方法 Expired - Fee Related JP5706340B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2009/000348 WO2010085221A1 (en) 2009-01-21 2009-01-21 Method to control media with face detection and hot spot motion

Publications (2)

Publication Number Publication Date
JP2012515968A JP2012515968A (ja) 2012-07-12
JP5706340B2 true JP5706340B2 (ja) 2015-04-22

Family

ID=40668213

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011547872A Expired - Fee Related JP5706340B2 (ja) 2009-01-21 2009-01-21 顔検出及びホットスポットの動きによりメディアを制御する方法

Country Status (5)

Country Link
US (1) US20110273551A1 (ja)
EP (1) EP2384465A1 (ja)
JP (1) JP5706340B2 (ja)
CN (1) CN102292689B (ja)
WO (1) WO2010085221A1 (ja)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10581834B2 (en) 2009-11-02 2020-03-03 Early Warning Services, Llc Enhancing transaction authentication with privacy and security enhanced internet geolocation and proximity
US8806592B2 (en) 2011-01-21 2014-08-12 Authentify, Inc. Method for secure user and transaction authentication and risk management
US20110138321A1 (en) * 2009-12-04 2011-06-09 International Business Machines Corporation Zone-based functions in a user interface
JP5625643B2 (ja) * 2010-09-07 2014-11-19 ソニー株式会社 情報処理装置、および情報処理方法
JP5829390B2 (ja) * 2010-09-07 2015-12-09 ソニー株式会社 情報処理装置、および情報処理方法
JP5621511B2 (ja) * 2010-10-29 2014-11-12 ソニー株式会社 投影装置、投影方法、およびプログラム
JP5653206B2 (ja) 2010-12-27 2015-01-14 日立マクセル株式会社 映像処理装置
EP2702534A4 (en) * 2011-04-28 2015-01-14 Nokia Corp METHOD, APPARATUS AND COMPUTER PROGRAM PRODUCT FOR DISPLAYING MULTIMEDIA CONTENT
KR20140114832A (ko) * 2012-01-20 2014-09-29 톰슨 라이센싱 사용자 인식 방법 및 장치
CN103309433B (zh) * 2012-03-06 2016-07-06 联想(北京)有限公司 一种自动调整电子设备摆放状态的方法、电子设备
EP2834774A4 (en) * 2012-04-01 2016-06-08 Intel Corp ANALYSIS OF HUMAN COMMUNICATIONS IN GESTURE
JP6316540B2 (ja) * 2012-04-13 2018-04-25 三星電子株式会社Samsung Electronics Co.,Ltd. カメラ装置及びその制御方法
TWI454966B (zh) * 2012-04-24 2014-10-01 Wistron Corp 手勢控制方法及手勢控制裝置
TW201403497A (zh) * 2012-07-09 2014-01-16 Alpha Imaging Technology Corp 電子裝置及數位顯示裝置
JP2014048936A (ja) * 2012-08-31 2014-03-17 Omron Corp ジェスチャ認識装置、その制御方法、表示機器、および制御プログラム
JP6058978B2 (ja) * 2012-11-19 2017-01-11 サターン ライセンシング エルエルシーSaturn Licensing LLC 画像処理装置及び画像処理方法、撮影装置、並びにコンピューター・プログラム
KR20140112316A (ko) * 2013-03-13 2014-09-23 모젼스랩(주) 모션인식을 이용한 스마트 디바이스 제어 장치 및 방법
WO2014194148A2 (en) * 2013-05-29 2014-12-04 Weijie Zhang Systems and methods involving gesture based user interaction, user interface and/or other features
CN103607537B (zh) * 2013-10-31 2017-10-27 北京智谷睿拓技术服务有限公司 相机的控制方法及相机
CN103945107B (zh) * 2013-11-29 2018-01-05 努比亚技术有限公司 拍摄方法和拍摄装置
US9614845B2 (en) 2015-04-15 2017-04-04 Early Warning Services, Llc Anonymous authentication and remote wireless token access
US10084782B2 (en) 2015-09-21 2018-09-25 Early Warning Services, Llc Authenticator centralization and protection
US20210204116A1 (en) 2019-12-31 2021-07-01 Payfone, Inc. Identity verification platform
BR112022018723A2 (pt) 2020-03-20 2022-12-27 Huawei Tech Co Ltd Métodos e sistemas para o controle de um dispositivo com base em gestos manuais
EP4115264A4 (en) * 2020-03-23 2023-04-12 Huawei Technologies Co., Ltd. METHODS AND SYSTEMS FOR CONTROLLING A DEVICE BASED ON HAND GESTURES

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6614847B1 (en) * 1996-10-25 2003-09-02 Texas Instruments Incorporated Content-based video compression
US6647131B1 (en) * 1999-08-27 2003-11-11 Intel Corporation Motion detection using normal optical flow
US6970206B1 (en) * 2000-04-20 2005-11-29 Ati International Srl Method for deinterlacing interlaced video by a graphics processor
EP1360833A1 (en) * 2000-08-31 2003-11-12 Rytec Corporation Sensor and imaging system
JP2003216955A (ja) * 2002-01-23 2003-07-31 Sharp Corp ジェスチャ認識方法、ジェスチャ認識装置、対話装置及びジェスチャ認識プログラムを記録した記録媒体
JP4262014B2 (ja) * 2003-07-31 2009-05-13 キヤノン株式会社 画像撮影装置および画像処理方法
US7372991B2 (en) * 2003-09-26 2008-05-13 Seiko Epson Corporation Method and apparatus for summarizing and indexing the contents of an audio-visual presentation
JP3847753B2 (ja) * 2004-01-30 2006-11-22 株式会社ソニー・コンピュータエンタテインメント 画像処理装置、画像処理方法、記録媒体、コンピュータプログラム、半導体デバイス
JP4172793B2 (ja) * 2004-06-08 2008-10-29 株式会社東芝 ジェスチャ検出方法、ジェスチャ検出プログラムおよびジェスチャ検出装置
EP1769637A2 (en) * 2004-07-09 2007-04-04 Emitall Surveillance S.A. Smart video surveillance system ensuring privacy
US7796154B2 (en) * 2005-03-07 2010-09-14 International Business Machines Corporation Automatic multiscale image acquisition from a steerable camera
JP2007072564A (ja) * 2005-09-05 2007-03-22 Sony Computer Entertainment Inc マルチメディア再生装置、メニュー操作受付方法およびコンピュータプログラム
JP4711885B2 (ja) * 2006-05-25 2011-06-29 三菱電機株式会社 遠隔操作装置及び方法
US7702282B2 (en) * 2006-07-13 2010-04-20 Sony Ericsoon Mobile Communications Ab Conveying commands to a mobile terminal through body actions
KR100776801B1 (ko) * 2006-07-19 2007-11-19 한국전자통신연구원 화상 처리 시스템에서의 제스처 인식 장치 및 방법
KR101312625B1 (ko) * 2006-11-03 2013-10-01 삼성전자주식회사 동작 추적 장치 및 방법
JP4561919B2 (ja) * 2008-04-21 2010-10-13 ソニー株式会社 撮像装置、画像処理装置及び画像処理方法

Also Published As

Publication number Publication date
JP2012515968A (ja) 2012-07-12
CN102292689A (zh) 2011-12-21
CN102292689B (zh) 2016-08-03
US20110273551A1 (en) 2011-11-10
EP2384465A1 (en) 2011-11-09
WO2010085221A1 (en) 2010-07-29

Similar Documents

Publication Publication Date Title
JP5706340B2 (ja) 顔検出及びホットスポットの動きによりメディアを制御する方法
JP5619775B2 (ja) マルチメディアの表示から情報を制御及び要求する方法
CN103336576B (zh) 一种基于眼动追踪进行浏览器操作的方法及装置
EP2956882B1 (en) Managed biometric identity
CN103353935B (zh) 一种用于智能家居***的3d动态手势识别方法
JP2941207B2 (ja) ジェスチャ認識システム
CN108292364A (zh) 在全向视频中的跟踪感兴趣对象
US11006864B2 (en) Face detection device, face detection system, and face detection method
KR20150055543A (ko) 제스처 인식 장치 및 제스처 인식 장치의 제어 방법
CN107894836B (zh) 基于手势和语音识别的遥感图像处理与展示的人机交互方法
CN104583902A (zh) 改进的手势的识别
KR101634355B1 (ko) 동작 검출 장치 및 방법
US20120163661A1 (en) Apparatus and method for recognizing multi-user interactions
KR20150034257A (ko) 입력 장치, 기기, 입력 방법 및 기록 매체
KR101501487B1 (ko) 깊이 영상 기반 머리 검출방법 및 장치
WO2023273372A1 (zh) 手势识别对象确定方法及装置
CN106951077B (zh) 一种提示方法及第一电子设备
KR101414362B1 (ko) 영상인지 기반 공간 베젤 인터페이스 방법 및 장치
CN111627039A (zh) 一种基于图像识别的交互***及交互方法
KR20180074124A (ko) 얼굴 인식을 통해 전자 장치를 제어하는 방법 및 이를 수행하는 전자 장치
KR101286750B1 (ko) 제스처를 이용한 패스워드 판단시스템
Barve et al. Facial Feature Based Method For Real Time Face Detection And Tracking I-CURSOR
KR102308190B1 (ko) 사용자의 동공 위치 산출 방법 및 사용자의 동공 위치 산출 방법을 실행시키는 프로그램이 기록된 기록 매체
KR101164193B1 (ko) 복수 개의 적외선 신호 좌표를 구별하여 추적하는 방법 및 시스템
CN111435430B (zh) 对象识别方法、对象识别装置和电子设备

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130124

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130610

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20131119

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140317

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20140326

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20140425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150226

R150 Certificate of patent or registration of utility model

Ref document number: 5706340

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees