JP5911846B2

JP5911846B2 - 肌色領域及び顔領域に基づく視点検出器

Info

Publication number: JP5911846B2
Application number: JP2013506319A
Authority: JP
Inventors: ビ、ニン; チ、インギョン; ジョウ、チン
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2010-04-22
Filing date: 2011-04-22
Publication date: 2016-04-27
Anticipated expiration: 2031-04-22
Also published as: KR20130027520A; JP2013525906A; US20110262001A1; US8315443B2; EP2561465A1; WO2011133842A1; CN102859534B; KR101560866B1; CN102859534A

Description

本開示は、一般的に肌色領域と顔領域に基づいて視点を検出することに関する。

（関連技術の説明）
技術の進歩は、より小さく、より高性能なコンピューティング装置をもたらしている。例えば、現在、様々なポータブルパーソナルコンピューティング装置が存在しており、小さく、軽量で、ユーザが持ち運ぶことが簡単な、ポータブルワイヤレス電話、携帯情報端末（ＰＤＡ）、そしてページング装置、のようなワイヤレスコンピューティング装置を含む。より具体的には、ポータブルワイヤレス電話、例えばセルラ電話とインターネットプロトコル（ＩＰ）電話は、ワイヤレスネットワーク上で音声及びデータパケットを通信することができる。さらに、多くのそのようなワイヤレス電話は、そこの中に組込まれている他のタイプの装置を含む。例えば、ワイヤレス電話はまた、視聴者(viewer)の視点から見た画像を表示するための表示器、デジタルビデオカメラ及びデジタルスチルカメラを含むことができる。しかしながら、一般的にはカメラが照準を定める方向の画像のみが観察されることができる。即ち、視聴者が彼／彼女の視点を移動したとしても、視聴者は通常同じ画像を見ている。

二次元（２Ｄ）表示スクリーンで三次元（３Ｄ）視覚効果を再現するとき、視聴者の両目からの立体映像は、視覚効果を作成するための要素として一般的に使用される。しかしながら、別の要素、即ち視聴者の位置及び／又は視野方向は、３Ｄ視覚効果を再現させるためにも使用されることができる。カメラを有する装置の表示器に対する視聴者の位置又は視点は、装置のカメラを使用することにより、顔の追跡、目の追跡、又は、顔の追跡及び目の追跡の両方の組み合わせに基づいて決定されることができる。一旦視聴者の視点が決定されると、カメラによって撮像され表示器で表示された画像内の被写体は、視聴者の検出された視点に基づいて移動されうる。視聴者の位置と視野方向を適用することにより、視聴者の位置に基づいて異なる視点からマルチメディアアプリケーションを実行するシステムが設計されることができる。

具体的な例示的な実施形態では、肌色領域と顔領域に基づいて人間の視点を決定する方法が開示されている。方法は、カメラによって撮像された画像に対応する画像データを受信することを含む。方法は、カメラに結合された装置の表示器に対して人間の視点を決定することをさらに含む。人間の視点は、人間の決定された肌色領域に基づいて人間の顔領域を決定し、顔領域に基づいて人間の顔の位置を追跡することによって決定されうる。被写体は、人間の決定された視点に応じて、画像内で移動されうる。

別の具体的な実施形態では、人間の肌色領域と顔領域に基づいて人間の視点を決定するように構成された装置が開示される。装置は、カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器を含む。装置はさらに、人間の検出された肌色領域に基づいて、画像の顔領域を検出するように構成された顔検出器を含む。装置はさらに、カメラに結合された装置の表示器に対して人間の視点を検出するように構成された視点検出器を含む。人間の視点は、検出された肌色領域に少なくとも一部分基づいて決定され、視点検出器はさらに、検出された顔領域に基づいて人間の顔の位置を追跡するように構成される。１つ以上の被写体が、人間の決定された視点に応じて画像内で移動されうる。

開示された実施形態の少なくともいくつかによって供給されるある具体的な利点は、視聴者の視点が検出されるので、表示器の被写体は、その検出された視点に基づいて移動し、レンズ状表示器(lenticular display)又は特別な眼鏡を必要とすることなく、２次元表示器で３次元視覚効果を生成しうるということである。

本開示の他の態様、利益、及び特徴は、下記の節である図面の簡単な説明、詳細な説明、及び特許請求の範囲を含んでいる全体の出願を検討した後で明らかとなるであろう。

図１は、人間の視点に基づいて画像データを表示するシステムの具体的な例示的実施形態のブロック図である。図２は、人間の視点に基づいて画像データを表示するシステムにおいて使用される画像処理パイプラインの具体的な例示的実施形態のブロック図である。図３は、推定された中心画素位置と尤度値を図示する人間の視点に基づく画像データを表示するシステムの具体的な例示的実施形態である。図４は、異なる視点から表示された被写体の具体的な例示的実施形態である。図５は、人間の視点に基づいて画像データを表示する方法の具体的な例示的実施形態のフロー図である。図６は、人間の視点を決定する際に利用された顔を追跡する方法の具体的な例示的実施形態のフロー図である。図７は、肌色領域と顔領域に基づく視点検出器を有する処理装置を含む代表的なワイヤレス通信装置のブロック図である。

カメラを有する装置の表示器に対する視聴者の位置又は視点は、装置のカメラを使用することにより、視聴者の肌色領域及び顔領域に基づいて決定されることができる。一旦視聴者の視点が決定されると、カメラによって撮像され表示器において表示された画像内の１つ以上の被写体は、視聴者の検出された視点に基づいて移動されることができる。

図１を参照すると、人間の遠近(perspective)に基づいて画像データを表示するシステムの具体的な例示的実施形態が図示されており、一般的には１００と図示される。システム１００は、表示器１２４、カメラ１２０及び表示器１２４とカメラ１２０とに結合された画像処理パイプライン１０２、を含む電子装置１０１を含む。電子装置１０１は人間１３０の近くに図示される。電子装置１０１はまた、被写体を含む画像データ１１６を格納するメモリ１１４を含む。電子装置１０１は、表示器１２４に対する人間１３０の視点１２８を決定し、視点１２８の位置に基づいて表示器１２４に表示された画像１２６の遠近を調整するように構成される。

具体的な実施形態では、人間１３０が表示器１２４を見ながら、人間１３０がカメラ１２０を考慮する位置にて構成される。特にカメラ１２０は、レンズと画像センサ（図示されず）を含めうる。画像センサは、画像データ１２１を獲得し、画像処理パイプライン１０２に画像データ１２１を供給するように構成されうる。

具体的な実施形態では、画像処理パイプライン１０２は、画像データ１２１を受信し、人間１３０の検出された視点１２８に基づいて表示器１２４の画像１２６の遠近を調整するように構成される。画像処理パイプライン１０２は、肌色検出器１０４、顔位置追跡器１０６、視点検出器１１０及び遠近調整モジュール１１２を含む。

具体的な実施形態では、肌色検出器１０４は、カメラ１２０によって撮像された画像に対応する画像データを受信する。例えば、肌色検出器１０４で受信される画像データは、画像データ１２１のようなカメラ１２０から直接受信されうる。

或いは、肌色検出器１０４は、例えばモザイク解除、質の悪い画素修正、他の画像処理によって、画像処理パイプライン１０２内で処理されてきた画像データを受信しうる。肌色検出器１０４は、肌色領域、或いは非肌色領域に画像データ１２１の各特定の画素が対応するかを決定するために、画像データ１２１のクロミナンス値を比較するように構成されうる。説明するため、肌色検出器１０４は、特定の画素のクロミナンス赤値を、非肌領域を示す上部及び下部のクロミナンス赤閾値と比較しうる。さらに、肌色検出器１０４は、画像データ１２１の画素のクロミナンス青値を決定し、クロミナンス青値を肌領域と非肌領域との間の境を示す１つ以上のクロミナンス青閾値と比較しうる。肌色検出器１０４は、肌色領域１０５を示す出力を生成するように構成される。

具体的な実施形態では、顔位置追跡器１０６は肌色検出器１０４から肌色領域１０５を受信し、画像データ１２１内の顔の位置を追跡するように構成されうる。例えば、顔位置追跡器１０６は、識別された肌色領域１０５の１つ以上を調べ、顔認識を実行するか、又はそうでなければ、顔が画像データ１２１内に存在するかを決定する。具体的な実施形態では、顔位置追跡器１０６は、肌色領域内のクロミナンス値を有する画素を含む肌色検出器１０４から肌色領域１０５を受信するように構成されうる。顔位置追跡器１０６は、クロミナンス平均値及びクロミナンス分散値に基づいて、第１の１次元探索に従って画像データの行を識別するように構成され、顔位置追跡器１０６は、クロミナンス平均値とクロミナンス分散値とに基づいて、第２の１次元探索に従って画像データの列を識別するように構成されうる。具体的な実施形態では、画像データ内の選択された画素の行に対応する画素の第１カウントは、選択された画素のクロミナンス値と差異閾値を満たすクロミナンス平均値との比較に応じてインクリメントされ、画素データ内の選択された画素の対応する列は、選択された画素のクロミナンス値と差異閾値を満たすクロミナンス平均値との比較に応じてインクリメントされる。推定された中心画素位置は、画素の第１カウントと画素の第２カウントに基づいて決定されうる。

具体的な実施形態では、視点検出器１１０は顔位置追跡器１０６から位置された顔を示す情報を受信し、人間１３０の位置された顔に基づいて、人間１３０の、例えば視点１２８のような視点を決定するように構成される。視点検出器１１０は、遠近調整モジュール１１２に対して検出された視点を示すデータを提供するように構成されうる。

具体的な実施形態では、遠近調整モジュール１１２は表示器１２４での表示のためにメモリ１１４から被写体を含む画像データ１１６を受信するように構成される。遠近調整モジュール１１２はさらに、視点検出器１１０からの検出された視点を示すデータを受信し、人間の視点１３０の移動に従って被写体を含む画像データ１１６を修正するように構成されうる。例えば、視聴者１３０の検出された視点１２８の変化により、画像データ１１６内の被写体は表示器１２４で表示される前に移動されることがある。例えば、人間の視点が変化する場合には（例えば図１の視点１２８）、画像内の被写体は、変更された視点に依存して、左に移動又は回転する、又は、右に移動又は回転する。説明するため、検出された視点が表示器１２４の中央である被写体（例えば図４の被写体４０４）は、人間の視点が中央から左に変化する場合には、左に移動又は回転されうる。同様に、検出された視点が表示器１２４の中央である被写体は、人間の視点が中央から右に変化する場合には、右に移動又は回転されうる。

動作中に、人間１３０は、表示器１２４で表示される画像１２６を選択しうる。人間１３０が画像１２６を見ている間、カメラ１２０は反復して人の画像データ１２１を得ていることがある。それは画像処理パイプライン１０２に供給される。画像処理パイプライン１０２は、肌色検出器１０４で肌色領域を検出し、顔位置追跡器１０６で人間の顔の位置を追跡し、視点検出器１１０で人間の視点１２８を検出し、遠近調整モジュール１１２に検出された視点データを供給することにより、人間１３０の顔を追跡しうる。遠近調整モジュール１１２は、人間１３０の検出された視点１２８に基づいて表示器１２４で表示されるべき画像１２６を変更しうる。視点に応じて移動された被写体を備える更新された画像データ１１３は、表示器１２４に供給され、画像１２６が更新される。結果、表示器１２４又はカメラ１２０に対する人間１３０の移動は、画像１２６内の被写体の移動をもたらし、従って、画像１２６の３次元透視図(three dimensional perspective view)の印象を生成する。例えば、三次元視覚効果は、深さ依存投射図法(depth dependant perspective projection)を伴うコンテンツをレンダリングすることにより、深さ情報を有する二次元コンテンツに加えられうる。

カメラ１２０、表示器１２４、画像処理パイプライン１０２及びメモリ１１４を含む構成要素は単一の電子装置１０１内に図示されているが、他の実施形態では、構成要素は、別個の装置にあることがある。例えば、カメラは、ブラウン管表示装置、プラズマ表示器、又は液晶ダイオード表示器のようなスタンドアロン表示器に結合されうる。

図２を参照すると、視聴者の遠近に基づいて画像データを表示するシステムで使用される画像処理パイプラインの具体的な例示的実施形態が図示されており、一般的には２００と図示される。画像処理パイプライン２０２は、肌色検出回路２０４、顔検出器２０６、目検出器２０８、肌色及び顔検出回路に応答する視点検出器２１０及び顔の位置ヒストリ回路２１２を含む。

具体的な実施形態では、肌色検出回路２０４は画像に対応する画像データ２２１を受信するように構成され、画像データの各特定の画素が肌色又は非肌色領域に対応するかを決定するために画像データのクロミナンス値を比較するように構成されうる。具体的な実施形態では、肌色検出回路２０４は、クロミナンス青（Ｃｂ）閾値２３３及びクロミナンス赤（Ｃｒ）閾値２３５を含む。例えば、肌色検出回路２０４は、非肌領域を示している、上部及び下部のクロミナンス赤閾値のような１つ以上のクロミナンス赤閾値２３５と特定の画素のクロミナンス赤値を比較しうる。さらに、肌色検出回路２０４は、画像データの画素のクロミナンス青値を決定し、クロミナンス青値を肌領域と非肌領域との間の境を示す１つ以上のクロミナンス青閾値２３３と比較しうる。具体的な実施形態では、肌色範囲内のクロミナンス値を有する画素は、例えば肌色検出回路２０４の、クロミナンス青閾値２３３及びクロミナンス赤閾値２３５を満たすことにより識別されうる。肌色検出回路２０４は、肌色領域を示して、肌色範囲内のクロミナンスを有する画素を含む出力を生成するように構成されうる。

具体的な実施形態では、顔検出器２０６は肌色検出回路２０４から肌色領域出力を受信し、画像データ内の顔領域の位置を検出するように構成される。具体的な実施形態では、顔検出回路２０６は、動的閾値２４３、行の顔検出回路２４５、列の顔検出回路２４７及びクロミナンス差異回路２４９を含む。

具体的な実施形態では、顔検出回路２０６は、肌色範囲内のクロミナンス値を有する画素を含む肌色検出回路２０４の出力を受信するように構成される。具体的な実施形態では、行の顔検出回路２４５は画像データの行を識別するように構成され、列の顔検出回路２４７は画像データの列を識別するように構成されうる。例えば、行の顔検出回路２４５は、クロミナンス平均値及びクロミナンス分散値に基づいて、第１の１次元探索に従って画像データの行を識別するように構成され、列の顔検出回路２４７は、クロミナンス平均値とクロミナンス分散値とに基づいて、第２の１次元探索に従って画像データの列を識別するように構成されうる。具体的な実施形態では、クロミナンス差異回路２４９は識別された画素のクロミナンス値をクロミナンス平均値と比較し、差異閾値を満たす比較結果に応じて識別された画素を選択するように構成されうる。差異閾値は、クロミナンス分散値に基づいていることがある。具体的な実施形態では、画像データ内の選択された画素の行に対応するクロミナンス平均値に対する尤度又は画素の第１カウントは、候補領域内でより多くの画素を走査し差異閾値が画素にて満たされるとき、増分され、画像データ内の選択された画素の列に対応するクロミナンス平均値に対する尤度又は画素の第２カウントは、候補領域内でより多くの画素を走査し差異閾値が画素にて満たされるとき、増分される。具体的な実施形態では、差異閾値を満たすクロミナンス平均に対する尤度又は画素の最大カウントを伴う列セグメントが位置され、差異閾値を満たすクロミナンス平均に対する尤度又は画素の最大カウントを伴う行セグメントが位置される。最大列セグメント及び最大行セグメントの位置は、図３を参照してさらに詳述されるように、顔領域の推定された中心画素位置を決定するために使用されうる。

具体的な実施形態では、目検出回路２０８は顔検出回路２０６から顔の位置データを受信し、画像データ内の人間の目を検出するように構成される。目検出回路２０８は、顔の位置データをさらに精製し、顔領域内の顔の位置を確認するために利用されうる。

具体的な実施形態では、視点検出器２１０は目の検出回路２０８から顔の位置された目を示す情報を受信し、人間の位置された顔に基づいて、人間の視点を決定するように構成される。具体的な実施形態では、視点検出器２１０は顔位置ヒストリ２１２から、前の顔位置データを受信するように構成される。例えば、具体的な実施形態では、人間の顔の画像データを探索するとき、初期の候補探索領域は、顔の位置ヒストリ２１２によって供給される過去の顔の位置データに基づいてセットアップされうる。例えば、電子装置は、人間の肌色トーンによって人間の顔を見つけるように以前にトレーニングされたことがある場合がある。その場合には、肌トーンの平均値及び分散とクロミナンス赤及びクロミナンス青閾値のような肌データを含む前回の又は過去の顔の位置データが電子装置のメモリに格納されうる。

動作中に、画像処理パイプライン２０２は、肌色検出回路２０４で肌色領域を検出し、顔検出回路２０６で人間の顔を検出し、目検出回路２０８で人間の目を検出し、視点検出器２１０で人間の視点を検出することにより、人間の顔を検出しうる。具体的な実施形態では、人間の視点は、顔位置ヒストリ２１２によって供給される過去の顔の位置データに少なくとも一部基づいて、検出されうる。

図３を参照すると、視聴者の遠近に基づいて画像データを表示するシステムの具体的な例示的実施形態が図示されており、一般的には３００と図示される。候補領域３０２は、非肌領域３０４、顔領域３０６及び肌領域３０８を含む。説明を明瞭にするため、肌領域３０８は、長方形で図示されている。しかしながら、肌領域３０８は、不整形であり、肌トーン範囲内にある非肌の被写体を含んでいる１つ以上の被写体の画素を含めうる。肌領域３０８は、推定された中心画素３２２とテスト下の代表画素３４５とを含む。候補領域３０２はＸ−Ｙ座標系で図示されており、Ｘ軸３４０は水平方向に配置され、Ｙ軸３３０は垂直方向に配置される。水平の尤度値３１８（最大位置を示すのに使用されない）は、Ｘ軸３４０に沿って図示され、垂直の尤度値３２０（最大位置を示すのに使用されない）は、ｙ軸３３０に沿って図示される。各水平の尤度値は、画素数３４２と関連づけられ、各垂直の尤度値は、画素数３３２と関連づけられる。水平の尤度値３１８に基づいて、最大水平セグメント３１０が位置されることができ、垂直の尤度値３２０に基づいて、最大垂直セグメント３１２が位置されることができる。第１の動的閾値３１４はＸ軸３４０に沿ってセットアップされ、第２の動的閾値３１６はＹ軸３３０に沿ってセットアップされる。

動作中に、人間の顔領域３０６に対する画像データの候補領域３０２が走査される。肌領域３０８内にある画素サンプル毎に、サンプル画素データが蓄積される。候補領域３０２における全ての画素は走査された後、肌トーン閾値が計算され、サンプリングされた画素データの測定された肌トーンの分散と平均値が計算される。肌トーン閾値内の画素サンプル毎に、尤度値は、平均値までのサンプリングされた画素の距離を測定し、距離を分散と比較することによって選択的に蓄積される。距離が分散内にある場合、水平の尤度値３１８と垂直の尤度値３２０が蓄積される。水平の尤度値３１８と垂直の尤度値３２０の選択された蓄積を完了すると、水平の動的閾値３１４及び垂直の動的閾値３１６がセットアップされる。具体的な実施形態では、画像データ内の選択された画素の行に対応する画素の第１カウントは、肌トーンの平均に対するサンプリングされた画素の水平尤度（例えば距離）測定値が分散内にあるとき、増分され、画像データ内の選択された画素の列に対応する画素の第２カウントは、肌トーンの平均に対するサンプリングされた画素の垂直尤度測定値が分散内にあるとき、インクリメントされうる。水平の動的閾値と垂直の動的閾値がセットアップされた後、水平の尤度値からの最大水平セグメントと、垂直尤度値からの最大垂直セグメントが、６３４で検出される。具体的な実施形態では、垂直の尤度測定値を満たす画素の最大カウントを伴う列、即ち最大列が位置され、水平の尤度測定値を満たす画素の最大カウントを伴う行、即ち最大行が位置される。最大垂直セグメント３１２、及び最大水平セグメント３１０の位置は、顔領域３０６の推定された中心画素位置３２２を決定するために使用されうる。

図４を参照すると、異なる視点から表示された画像内の被写体の具体的な例示的実施形態が図示されており、一般には４００と示される。視点が表示器の左である被写体が４０２で図示され、視点が表示器の中央である被写体が４０４で図示され、視点が表示器の右である被写体が４０６で図示される。例えば、人間の視点が変化する場合には（例えば図１の視点１２８）、画像内の被写体は、「新たな」又は変更された視点に依存して、左に移動又は回転する、若しくは、右に移動又は回転する。説明するため、検出された視点が表示器の中央である被写体（例えば図１の表示器１２４）は、４０２で図示されるように、人間の視点が中央から左に変化する場合には、左に移動又は回転されうる。同様に、検出された視点が表示器の中央である被写体は、４０６で図示されるように、人間の視点が中央から右に変化する場合には、右に移動又は回転されうる。

図５を参照すると、人間（人物）の遠近に基づいて画像データを表示する方法の具体的な例示的な実施形態のフロー図が図示されており、一般的には５００と示される。５０２では、図１のカメラ１２０のようなカメラによって撮像された画像に対応する画像データが受信される。画像は、カメラに結合された装置で表示されるべき少なくとも１つの被写体を含む。５０４に進み、図１の表示器１２４のようなカメラに結合又は組み込まれている装置の表示器に対する人間の図１の視点１２８のような視点が決定される。５０６に進み、視点は、図１の肌色領域１０５のような決定された肌色領域に基づいて人間の顔領域を決定することにより決定される。続けて５０８に進み、視点はさらに、決定された顔領域に基づいて人間の顔の位置を追跡することにより決定される。具体的な実施形態では、顔の位置は、図１の顔位置追跡器１０６のような顔追跡モジュールによって追跡されうる。５１０に進み、表示器で表示された１つ以上の被写体は、人間の決定された視点に応じて移動される。

図６を参照すると、顔を追跡する方法の具体的な例示的な実施形態のフロー図が図示されており、一般的には６００と示される。方法６００は、図１のシステム１００の電子装置１０１のようなワイヤレス電子装置によって実行されうる。

輝度コンポーネント（Ｙ）、クロマ青コンポーネント（Ｃｂ）、及びクロマ赤コンポーネント（Ｃｒ）（例えば、ＹＣｂＣｒカラースペース）を有するカラースペースのようなカラースペースにおける入力データは、６０２にてカメラビューファインダから受信される。例えば、図１の画像データ１２１のような画像データの場合、図１のカメラ１２０のようなカメラから受信されうる。システム適応が始まるかの決定が６０４で行なわれうる。例えば、ユーザ認識トレーニングモードに入ったかどうかの決定が行なわれうる。具体的な実施形態では、例えば電子装置に結合されたキー又はボタンを押すことによって、ユーザによって手動でユーザ認識トレーニングモードに入ることがある。或いは、自動的にユーザ認識トレーニングモードに入ることがある。ユーザ認識トレーニングモードに入る場合には、候補領域は６０６で走査されうる。例えば、人間の顔領域に関する画像データの領域が走査されうる。

候補領域における画素が肌トーン範囲内にあるかどうかの決定が６０８で行なわれうる。肌トーン範囲内にある画素毎に、サンプル画素データは、６１０で蓄積され、候補領域における全ての画素が走査されたかどうかの決定が６１２で行なわれうる。候補領域における全ての画素が走査されなかった場合には、処理は６０６に戻る。

候補領域における全ての画素を走査した後に、肌トーン閾値は、６１４で計算され、サンプリングされた画素データの測定された肌トーンの分散と平均値もまた、６１４で計算される。Ｃｂ及びＣｒにおける肌トーンの平均値及び分散は６１６にてリセットされ、ＹＣｂＣｒにおける肌トーンの閾値は６１８にてリセットされる。その結果、肌トーン閾値は特定の人間（例えばユーザ）と関連づけられることがある。顔追跡処理では、画素サンプルが肌トーン閾値内にあるかどうかの決定が６２０で行なわれうる。画素サンプルが肌トーン閾値内にある場合、肌トーンの平均値と比較するときの画素サンプルの尤度測定が６２２にて行なわれうる。具体的な実施形態では、尤度測定が、肌トーンの平均値までのサンプル画素の距離（例えば、サンプル画素及び平均値との間の肌トーン値における差異）を測定することによって行われうる。

距離が分散内にあるかどうかの決定が６２４で行なわれうる。具体的な実施形態では、肌トーン閾値内の画素サンプル毎に、尤度値は、平均値までのサンプリングされた画素の距離を測定し、距離を分散と比較することによって蓄積される。距離が分散内にある場合、水平の尤度値と垂直の尤度値が６２６で蓄積されうる。水平尤度値及び垂直尤度値の蓄積を完了すると、水平動的閾値及び垂直動的閾値は、６３２にてセットアップされうる。具体的な実施形態では、画像データ内の選択された画素の行に対応するクロミナンス平均に対する尤度又は画素の第１カウントは、肌トーンの平均に対するサンプリングされた画素の水平尤度（例えば距離）測定値が分散内にあるとき、インクリメントされ、画像データ内の選択された画素の列に対応するクロミナンス平均に対する尤度又は画素の第２カウントは、肌トーンの平均に対するサンプリングされた画素の垂直尤度測定値が分散内にあるとき、インクリメントされる。水平の動的閾値と垂直の動的閾値がセットアップされた後、水平尤度値からの最大水平セグメントと、垂直尤度値からの最大垂直セグメントが、６３４で検出されうる。具体的な実施形態では、垂直の尤度測定値を満たす画素の最大カウントを伴う列、即ち、最大列が位置され、水平の尤度測定値を満たす画素の最大カウントを伴う行、即ち、最大行が位置されうる。最大垂直セグメントと最大水平セグメントの位置は、６３６にて、顔領域の推定された中心画素位置を決定するために、また、見つけた顔領域が視聴者の顔領域、即ち、有効な顔領域であるかどうかを決定するために、使用されうる。見つけた領域が有効である場合、視聴者の顔が位置づけされ、処理は６５０で終了する。見つけた領域が有効でない場合、候補探索領域は、６３８でリセットされ、処理は６３０に戻り、そこでは、候補領域が探索される。

システム順応が６０４で開始していない場合、顔の追跡システムが開始しているかという決定が６４０で行なわれうる。例えば、電子装置は、人間の肌色トーンによって人間の顔を見つけるように既にトレーニングされていてもよく、システム順応又はトレーニングモードをバイパスし、顔追跡モードに直接進むことがある。具体的な実施形態では、例えば電子装置に結合されたキー又はボタンを押すことによって、ユーザによって手動で顔の追跡システムに入ることがある。或いは、自動的に顔の追跡システムに入ることがある。顔の追跡システムが始まっている場合、初期の候補探索領域は６４２でセットアップされる。具体的な実施形態では、初期の候補探索領域は、過去の顔の位置データに基づいてセットアップされうる。具体的な実施形態では、顔の位置データは、図２の顔位置ヒストリ２１２によって提供されることがある。初期の候補探索領域がセットアップされた後、候補領域は６３０で探索されうる。顔の追跡システムが始まっていない場合には、処理は６０４に戻る。

一旦、視聴者の視点が決定されると、表示器に表示された１つ以上の被写体は、視聴者の検出された視点に基づいて移動されうる。視聴者の位置と視野方向を適用することにより、視聴者の位置に基づいて異なる視点からマルチメディアアプリケーションを実行するシステムが設計されることができる。

図７は、肌色領域と顔領域に基づく視点検出器７６４を含む装置７００の具体的な実施形態のブロック図である。装置７００は、ワイヤレス電子装置において実装され、また、メモリ７３２に結合された、デジタル信号処理装置（ＤＳＰ）のような処理装置７１０を含む。

カメラインタフェース制御器７７０は処理装置７１０に結合され、また、ビデオカメラのようなカメラ７７２に結合される。カメラ制御器７７０は、例えば自動焦点及び自動露光制御のために、処理装置７１０に応答する。表示制御器７２６は、処理装置７１０に、そして、表示装置７２８に結合される。符号化器／復号器（ＣＯＤＥＣ）７３４はまた、処理装置７１０に結合されることができる。スピーカー７３６とマイクロホン７３８は、ＣＯＤＥＣ７３４に結合されることができる。ワイヤレスインタフェース７４０は、処理装置７１０に、そして、ワイヤレスアンテナ７４２に、結合されることができる。

処理装置７１０もまた、処理された画像データ７８０を生成するために適応されうる。表示制御器７２６は、処理された画像データを受信し、表示装置７２８に処理された画像データ７８０を提供するように構成される。メモリ７３２は、処理された画像データ７８０を受信し格納するように構成され、ワイヤレスインタフェース７４０は、アンテナ７４２によって送信のために処理された画像データ７８０を検索するように構成されうる。さらに、メモリ７３２は、ユーザ肌データ７８２（特定の画素のクロミナンス赤値及びクロミナンス青値、クロミナンス赤閾値及びクロミナンス青閾値、並びに肌トーンの平均値及び分散）を受信し格納するように構成され、ワイヤレスインタフェース７４０は、アンテナ７４２を介して送信のためにユーザ肌データ７８２を検索するように構成されうる。

具体的な実施形態では、肌色領域と顔領域に基づく視点検出器７６４は、コンピュータ可読媒体で格納されるコンピュータ実行可能な命令のような処理装置７１０で実行可能にするコンピュータコードとして実装される。例えば、プログラム命令７８２は、人間の決定された肌色領域に基づいて人間の顔領域を決定するためのコードと、顔領域に基づいて人間の顔の位置を追跡するためのコードと、人間の検出された視点に応じて画像内の被写体を移動させるためのコードと、を含めうる。

具体的な実施形態では、処理装置７１０、表示制御器７２６、メモリ７３２、ＣＯＤＥＣ７３４、ワイヤレスインタフェース７４０、そして、カメラ制御器７７０は、システムインパッケージ又はシステムオンチップ装置７２２に含まれる。具体的な実施形態では、入力装置７３０と電力供給７４４は、システムオンチップ装置７２２に結合される。さらに、具体的な実施形態では、図７で図示されるように、表示装置７２８、入力装置７３０、スピーカー７３６、マイクロホン７３８、ワイヤレスアンテナ７４２、ビデオカメラ７７２及び電力供給７４４は、システムオンチップ装置７２２に外付けである。しかしながら、表示装置７２８、入力装置７３０、スピーカー７３６、マイクロホン７３８、ワイヤレスアンテナ７４２、カメラ７７２及び電力供給７４４の各々は、インタフェース又は制御器のようなシステムオンチップ装置７２２のコンポーネントに結合されることができる。

当業者は、ここにおいて開示された実施形態に関連して説明された、様々な説明のための論理ブロック、構成、モジュール、回路、及び、アルゴリズムステップは、電子ハードウェア、処理装置によって実行されるコンピュータソフトウェア或いは両方の組合せとして実装されうるということをさらに理解するであろう。様々な説明のためのコンポーネント、ブロック、構成、モジュール、回路及びステップが、それらの機能の点から一般的に上述されている。このような機能が、処理装置によって実行されるハードウェア又はソフトウェアとして実装されるかは、特定のアプリケーションと全体のシステムに課された設計制約に依存する。熟練職人は、各特定のアプリケーションについての様々な方法で、説明された機能を実装しうるが、そのような実装の決定は、本発明の範囲から逸脱を生じさせるものとして解釈されるべきでない。

１つ以上の実施形態では、記載された機能は、ハードウェア、処理装置によって実行されるソフトウェア、ファームウェア又はそれらのいずれかの組み合わせで実装されうる。開示された機能は、装置において実行されるとき、ここにおいて説明された技法の１つ以上を装置に実行させるプログラムコードを備えるコンピュータ可読媒体を対象としうる。その場合には、コンピュータ可読記憶媒体は、ランダムアクセスメモリ（ＲＡＭ）、シンクロナス動的ランダムアクセスメモリ（ＳＤＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）、電子的消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、ＦＬＡＳＨメモリなどのような有体記憶媒体を備えうる。

プログラムコードは、コンピュータ可読命令の形式でメモリに格納されうる。その場合には、ＤＳＰのような処理装置は、画像処理技法の１つ以上を実行するためにメモリに格納された命令を実行しうる。ある場合には、技法は、画像処理を加速するために様々なハードウェアコンポーネントを呼び起こすＤＳＰによって実行されうる。他の場合では、ここにおいて説明された装置は、マイクロプロセッサ、１つ以上の特定用途向け集積回路（ＡＳＩＣ）、１つ以上のフィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は他の何らかのハードウェアソフトウェアの組み合わせとして実装されうる。

ここにおいて開示された実施形態に関して説明された方法又はアルゴリズムのステップは、直接ハードウェアにおいて、処理装置によって実行されたソフトウェアモジュールにおいて、又は２つの組み合わせで具現化されうる。ソフトウェアモジュールは、ランダムアクセスメモリ（ＲＡＭ）メモリ、フラッシュメモリ、読み取り専用メモリ（ＲＯＭ）、プログラマブル読取専用メモリ（ＰＲＯＭ）、消去可能プログラマブル読取専用メモリ（ＥＰＲＯＭ）、電子的に消去可能プログラマブル読取専用メモリ（ＥＥＰＲＯＭ）、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取専用メモリ（ＣＤ−ＲＯＭ）、又は、当技術分野で知られているいずれの他の形の有体記憶媒体において存在しうる。例示的な記憶媒体は、処理装置に結合されるので、処理装置が記憶媒体から情報を読み取ることができ、また記憶媒体に情報を書き込むことができる。或いは、記憶媒体は、処理装置に一体化されうる。処理装置と記憶媒体は、特定用途集積回路（ＡＳＩＣ）において存在しうる。ＡＳＩＣは、コンピューティング装置又はユーザ端末において存在しうる。或いは、処理装置と記憶媒体は、コンピューティング装置又はユーザ端末において、ディスクリートコンポーネントとして存在しうる。

開示される実施形態の前の説明は、当業者が開示された実施形態を行う又は使用することを可能にするために提供される。これらの実施形態に対する様々な修正は、当業者にとっては容易に明らかであろう、そして、ここにおいて定義された包括的な原理は、本開示の範囲から逸脱することなく、他の実施形態に適用されうる。従って、本開示は、ここにおいて示される実施形態に限定されるように意図されていないが、特許請求の範囲によって規定されるように原理及び新規な特徴に整合する最も広い範囲が与えられるべきである。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
［１］カメラによって撮像され、前記カメラに結合された装置に表示されるべき少なくとも１つの被写体を含む画像に対応する画像データを受信することと、前記カメラに結合された前記装置の表示器に対して人間の視点を決定することと、前記人間の前記決定された視点に応じて前記表示器に表示される前記少なくとも１つの被写体を移動することと、を備え、前記視点を決定することは、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定し、前記顔領域に基づいて前記人間の顔の位置を追跡することを備える、方法。
［２］前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、［１］に記載の方法。
［３］前記人間の肌色の前記クロミナンス平均値と前記クロミナンス分散値を決定するためユーザ認識トレーニングプロセスを実行すること、をさらに備える［２］に記載の方法。
［４］前記視点を検出することは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することをさらに備える、［１］に記載の方法。
［５］前記視点を決定することは、顔の前の位置に基づいて処理されるべき前記画像の第１の領域を選択することをさらに備える、［１］に記載の方法。
［６］前記選択された領域内で顔が検出されないことに応じて、前記第１の領域よりも大きい第２の領域が処理されるために選択される、［５］に記載の方法。
［７］前記視点を決定することは、肌色の範囲内でクロミナンス値を有する画素を識別することをさらに備える、［１］に記載の方法。
［８］前記顔の位置を追跡することは、ユーザ認識トレーニングモードに応じて：前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後に：肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散と平均値を計算することによって人間の顔領域の中心画素位置を推定すること；前記肌トーンしきい値内の画素サンプル毎に、前記平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること；前記距離が前記分散内にあるとき：水平及び垂直の尤度値を蓄積すること；前記尤度値の選択的な蓄積を完了したとき：前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定すること；を含む、［１］に記載の方法。
［９］前記サンプリングされた画素データの前記測定された肌トーンの前記分散と前記平均値をリセットすること、をさらに備える［８］に記載の方法。
［１０］前記中心画素の位置が前記人間の前記顔領域内にあるということを確認すること、をさらに備える［８］に記載の方法。
［１１］前記顔の前の位置に基づいて、前記候補領域を最初に探索すること、をさらに備える［８］に記載の方法。
［１２］前記肌トーンしきい値は、特定の人間と関連づけられる、［８］に記載の方法。
［１３］カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器と、前記人間の前記検出された肌色領域に基づいて、前記画像の顔領域を検出するように構成された顔検出器と、前記検出された肌色領域に少なくとも部分的に基づいて前記カメラに結合された装置の表示器に対して前記人間の視点を検出するように構成された視点検出器と、を備え、前記視点検出器は、前記検出された顔領域に基づいて前記人間の顔の位置を追跡するようにさらに構成され、前記画像内の被写体は、前記人間の前記検出された視点に応じて移動される、装置。
［１４］前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて検出される、［１３］に記載の装置。
［１５］前記表示器と前記カメラをさらに備え、前記肌色検出器は、前記カメラから前記画像データを受信し、前記表示器に表示コンテンツを提供するために結合された画像処理パイプライン内にある、［１３］に記載の装置。
［１６］前記顔の位置を追跡することは、ユーザ認識トレーニングモードに応じて：前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域内の全ての画素を走査した後に：肌トーンしきい値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散と平均値計算することによって前記人間の前記顔領域の中心画素位置を推定すること；前記肌トーンしきい値内の画素サンプル毎に、平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること；前記距離が前記分散内にあるとき：水平及び垂直の尤度値を蓄積すること；前記尤度値の選択的な蓄積を完了したとき：前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定すること；を含む、［１３］に記載の装置。
［１７］コンピュータによって実行可能なコードを格納するコンピュータ可読有体媒体であって、前記コードは、カメラによって撮像された画像に対応する画像データを受信することを前記コンピュータによって実行可能にするコードと、前記カメラに結合された装置の表示器に対して人間の視点を決定することを前記コンピュータによって実行可能にするコードと、前記人間の前記検出された視点に応じて前記画像内で被写体を移動することを前記コンピュータによって実行可能にするコードと、を備え、前記人間の視点を決定するためのコードは、前記人間の決定される肌色領域に基づいて前記人間の顔領域を決定することを前記コンピュータによって実行可能にするコードと、前記顔領域に基づいて前記人間の顔の位置を追跡することを前記コンピュータによって実行可能にするコードと、を備える、コンピュータ可読有体媒体。
［１８］前記人間の肌色に基づいて前記人間の肌色のクロミナンス分散値とクロミナンス平均値を決定するためにユーザ認識トレーニングプロセスを実行することを前記コンピュータによって実行可能にするコード、をさらに備える［１７］に記載のコンピュータ可読有体媒体。
［１９］前記人間の前記視点を決定するためのコードは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することを前記コンピュータによって実行可能にするコードをさらに備える、［１７］に記載のコンピュータ可読有体媒体。
［２０］ユーザ認識トレーニングモードに応じて：前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎にサンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後で：肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散値と平均値を計算することによって、前記人間の前記顔領域の中心ピクセル位置を推定する；前記肌トーン閾値内の画素サンプル毎に、前記平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散値と比較することによって選択的に尤度値を蓄積する；前記距離が前記分散内にあるとき：水平及び垂直の尤度値を蓄積する；前記尤度値の前記選択的な蓄積を完了したとき：前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定する、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出する、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定する；ためのコード、をさらに備える［１７］に記載のコンピュータ可読有体媒体。
［２１］前記サンプリングされた画素データの前記測定された肌トーンの前記分散値及び前記平均値をリセットすることを前記コンピュータによって実行可能にするコード、をさらに備える［２０］に記載のコンピュータ可読有体媒体。
［２２］前記中心画素位置が前記人間の前記顔領域内にあるということを確認することを前記コンピュータによって実行可能にするコード、をさらに備える［２０］に記載のコンピュータ可読有体媒体。
［２３］前記顔の前の位置に基づいて前記候補領域を最初に探索することを前記コンピュータによって実行可能にするコード、をさらに備える［２０］に記載のコンピュータ可読有体媒体。
［２４］カメラによって撮像された画像に対応する画像データを受信するための手段と、前記カメラに結合された装置の表示器に対して人間の視点を決定するための手段と、前記人間の前記検出された視点に応じて前記画像内で被写体を移動するための手段と、を備え、前記視点を決定するための手段は、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定するための手段と、前記顔領域に基づいて前記人間の顔の位置を追跡するための手段とを備える、装置。
［２５］前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、［２４］に記載の装置。
［２６］前記顔の位置を追跡するための手段は、ユーザ認識トレーニングモードに応じて：前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後で：肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散値と平均値を計算することによって前記人間の前記顔領域の中心画素位置を推定すること；前記肌トーン閾値内の画素毎に、前記平均値までの前記サンプル画素の距離を測定すること、前記距離を前記分散値と比較すること、によって尤度値を選択的に蓄積すること；前記距離が前記分散内にあるとき：水平及び垂直の尤度値を蓄積すること；前記尤度値の前記選択的な蓄積を完了したとき：前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントに基づいて推定された中心画素位置を決定すること；を含む、［２４］に記載の装置。

Claims

遠近調整モジュールが、カメラによって撮像され、前記カメラに結合された装置に表示されるべき少なくとも１つの被写体を含む画像に対応する画像データをメモリから受信することと、
視点検出器が、前記カメラに結合された前記装置の表示器に対して人間の視点を決定することと、
前記遠近調整モジュールが、２次元表示器に３次元視覚効果を生成するために前記人間の決定された前記視点に応じて前記表示器に表示される前記少なくとも１つの被写体を移動することと、
を備え、前記視点を決定することは、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定し、前記顔領域に基づいて前記人間の顔の位置を追跡することを備え、前記顔の位置を追跡することは、前記人間の前記顔領域の推定された中心画素位置を決定することを含む、方法。
前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、請求項１に記載の方法。
前記人間の肌色の前記クロミナンス平均値と前記クロミナンス分散値を決定するためユーザ認識トレーニングプロセスを実行すること、をさらに備える請求項２に記載の方法。
前記視点を検出することは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することをさらに備える、請求項１に記載の方法。
前記視点を決定することは、顔の前の位置に基づいて処理されるべき前記画像の第１の領域を選択することをさらに備える、請求項１に記載の方法。
前記視点を決定することは、肌色の範囲内でクロミナンス値を有する画素を識別することをさらに備える、請求項１に記載の方法。
前記推定された中心画素位置を決定することは、
ユーザ認識トレーニングモードに応じて：
前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、
肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
前記候補領域における全ての画素を走査した後に、
肌トーン閾値を計算すること、
前記サンプル画素データの測定された肌トーンの分散と平均値を計算することと、
前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること；
前記距離が前記分散内にあるとき、
水平及び垂直の尤度値を蓄積すること、
前記尤度値の前記選択的な蓄積を完了したとき、
前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
を備える、請求項１に記載の方法。
前記サンプル画素データの前記測定された肌トーンの前記分散と前記平均値をリセットすること、をさらに備える請求項７に記載の方法。
前記中心画素位置が前記人間の前記顔領域内にあるということを確認すること、をさらに備える請求項７に記載の方法。
前記顔の前の位置に基づいて、前記候補領域を最初に探索すること、をさらに備える請求項７に記載の方法。
前記肌トーン閾値は、特定の人間と関連づけられる、請求項７に記載の方法。
カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器と、
前記人間の前記検出された肌色領域に基づいて、前記画像の顔領域を検出するように構成された顔検出器と、
前記検出された肌色領域に少なくとも部分的に基づいて前記カメラに結合された装置の表示器に対して前記人間の視点を検出するように構成された視点検出器と、
を備え、前記視点検出器は、前記検出された顔領域に基づいて前記人間の顔の位置を追跡するようにさらに構成され、前記顔の位置を追跡するために、前記視点検出器は、前記人間の前記顔領域の推定された中心画素位置を決定するように構成され、メモリからの画像内の被写体は、２次元表示器に３次元視覚効果を生成するために前記人間の前記検出された視点に応じて移動される、装置。
前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて検出される、請求項１２に記載の装置。
前記表示器と前記カメラをさらに備え、前記肌色検出器は、前記カメラから前記画像データを受信し、前記表示器に表示コンテンツを提供するために結合された画像処理パイプライン内にある、請求項１２に記載の装置。
前記推定された中心画素位置を決定するために、前記視点検出器は、
ユーザ認識トレーニングモードに応じて、
前記人間の前記顔領域に関する画像データの候補領域を走査すること、
肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
前記候補領域内の全ての画素を走査した後に、
肌トーン閾値を計算すること、
前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
前記肌トーン閾値内の画素サンプル毎に、平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること；
前記距離が前記分散内にあるとき、
水平及び垂直の尤度値を蓄積すること、
前記尤度値の前記選択的な蓄積を完了したとき、
前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
を行うように構成される、請求項１２に記載の装置。
コンピュータによって実行可能なコードを格納するコンピュータ可読記憶媒体であって、前記コードは、
カメラによって撮像された画像に対応する画像データを受信することを前記コンピュータによって実行可能にするコードと、
前記カメラに結合された装置の表示器に対して人間の視点を決定することを前記コンピュータによって実行可能にするコードと、
２次元表示器に３次元視覚効果を生成するために前記人間の検出された前記視点に応じて前記画像内で被写体を移動することを前記コンピュータによって実行可能にするコードと、
を備え、
前記人間の視点を決定するためのコードは、前記人間の決定される肌色領域に基づいて前記人間の顔領域を決定することを前記コンピュータによって実行可能にするコードと、前記顔領域に基づいて前記人間の顔の位置を追跡することを前記コンピュータによって実行可能にするコードとを備え、前記顔の位置を追跡するコードは、前記人間の前記顔領域の推定された中心画素位置を決定することを前記コンピュータによって実行可能にするコードを含む、
コンピュータ可読記憶媒体。
前記人間の肌色に基づいて前記人間の肌色のクロミナンス分散値とクロミナンス平均値を決定するためにユーザ認識トレーニングプロセスを実行することを前記コンピュータによって実行可能にするコード、をさらに備える請求項１６に記載のコンピュータ可読記憶媒体。
前記人間の前記視点を決定するためのコードは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することを前記コンピュータによって実行可能にするコードをさらに備える、請求項１６に記載のコンピュータ可読記憶媒体。
前記推定された中心画素位置を決定するためのコードは、
ユーザ認識トレーニングモードに応じて、
前記画像データにおいて前記人間の前記顔領域に関する画像データの候補領域を走査すること、
肌トーン範囲内にある画素毎にサンプル画素データを蓄積すること、
前記候補領域における全ての画素を走査した後で、
肌トーン閾値を計算すること、
前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること、
前記距離が前記分散内にあるとき、
水平及び垂直の尤度値を蓄積すること、
前記尤度値の前記選択的な蓄積を完了したとき、
前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
を行うためのコード、を含む請求項１６に記載のコンピュータ可読記憶媒体。
前記サンプル画素データの前記測定された肌トーンの前記分散と前記平均値をリセットすることを前記コンピュータによって実行可能にするコード、をさらに備える請求項１９に記載のコンピュータ可読記憶媒体。
前記中心画素位置が前記人間の前記顔領域内にあるということを確認することを前記コンピュータによって実行可能にするコード、をさらに備える請求項１９に記載のコンピュータ可読記憶媒体。
前記顔の前の位置に基づいて前記候補領域を最初に探索することを前記コンピュータによって実行可能にするコード、をさらに備える請求項１９に記載のコンピュータ可読記憶媒体。
カメラによって撮像された画像に対応する画像データを受信するための手段と、
前記カメラに結合された装置の表示器に対して人間の視点を決定するための手段と、
２次元表示器に３次元視覚効果を生成するために前記人間の検出された前記視点に応じて前記画像内で被写体を移動するための手段と、
を備え、前記視点を決定するための手段は、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定するための手段と、前記顔領域に基づいて前記人間の顔の位置を追跡するための手段とを備え前記顔の位置を追跡するための手段は、前記人間の前記顔領域の推定された中心画素位置を決定するための手段を含む、装置。
前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、請求項２３に記載の装置。
前記人間の前記顔領域の前記推定された中心画素位置を決定するための手段は、
ユーザ認識トレーニングモードに応じて、
画像データにおいて前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、
肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
前記候補領域における全ての画素を走査した後で、
肌トーン閾値を計算すること、
前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること、
前記距離が前記分散内にあるとき、
水平及び垂直の尤度値を蓄積すること、
前記尤度値の前記選択的な蓄積を完了したとき、
前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
前記最大水平セグメントと前記最大垂直セグメントに基づいて前記推定された中心画素位置を決定すること、
を行うための手段を含む、請求項２３に記載の装置。