JP5911846B2 - 肌色領域及び顔領域に基づく視点検出器 - Google Patents

肌色領域及び顔領域に基づく視点検出器 Download PDF

Info

Publication number
JP5911846B2
JP5911846B2 JP2013506319A JP2013506319A JP5911846B2 JP 5911846 B2 JP5911846 B2 JP 5911846B2 JP 2013506319 A JP2013506319 A JP 2013506319A JP 2013506319 A JP2013506319 A JP 2013506319A JP 5911846 B2 JP5911846 B2 JP 5911846B2
Authority
JP
Japan
Prior art keywords
human
face
viewpoint
computer
code
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013506319A
Other languages
English (en)
Other versions
JP2013525906A (ja
Inventor
ビ、ニン
チ、インギョン
ジョウ、チン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013525906A publication Critical patent/JP2013525906A/ja
Application granted granted Critical
Publication of JP5911846B2 publication Critical patent/JP5911846B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/162Detection; Localisation; Normalisation using pixel segmentation or colour matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Position Input By Displaying (AREA)

Description

本開示は、一般的に肌色領域と顔領域に基づいて視点を検出することに関する。
(関連技術の説明)
技術の進歩は、より小さく、より高性能なコンピューティング装置をもたらしている。例えば、現在、様々なポータブルパーソナルコンピューティング装置が存在しており、小さく、軽量で、ユーザが持ち運ぶことが簡単な、ポータブルワイヤレス電話、携帯情報端末(PDA)、そしてページング装置、のようなワイヤレスコンピューティング装置を含む。より具体的には、ポータブルワイヤレス電話、例えばセルラ電話とインターネットプロトコル(IP)電話は、ワイヤレスネットワーク上で音声及びデータパケットを通信することができる。さらに、多くのそのようなワイヤレス電話は、そこの中に組込まれている他のタイプの装置を含む。例えば、ワイヤレス電話はまた、視聴者(viewer)の視点から見た画像を表示するための表示器、デジタルビデオカメラ及びデジタルスチルカメラを含むことができる。しかしながら、一般的にはカメラが照準を定める方向の画像のみが観察されることができる。即ち、視聴者が彼/彼女の視点を移動したとしても、視聴者は通常同じ画像を見ている。
二次元(2D)表示スクリーンで三次元(3D)視覚効果を再現するとき、視聴者の両目からの立体映像は、視覚効果を作成するための要素として一般的に使用される。しかしながら、別の要素、即ち視聴者の位置及び/又は視野方向は、3D視覚効果を再現させるためにも使用されることができる。カメラを有する装置の表示器に対する視聴者の位置又は視点は、装置のカメラを使用することにより、顔の追跡、目の追跡、又は、顔の追跡及び目の追跡の両方の組み合わせに基づいて決定されることができる。一旦視聴者の視点が決定されると、カメラによって撮像され表示器で表示された画像内の被写体は、視聴者の検出された視点に基づいて移動されうる。視聴者の位置と視野方向を適用することにより、視聴者の位置に基づいて異なる視点からマルチメディアアプリケーションを実行するシステムが設計されることができる。
具体的な例示的な実施形態では、肌色領域と顔領域に基づいて人間の視点を決定する方法が開示されている。方法は、カメラによって撮像された画像に対応する画像データを受信することを含む。方法は、カメラに結合された装置の表示器に対して人間の視点を決定することをさらに含む。人間の視点は、人間の決定された肌色領域に基づいて人間の顔領域を決定し、顔領域に基づいて人間の顔の位置を追跡することによって決定されうる。被写体は、人間の決定された視点に応じて、画像内で移動されうる。
別の具体的な実施形態では、人間の肌色領域と顔領域に基づいて人間の視点を決定するように構成された装置が開示される。装置は、カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器を含む。装置はさらに、人間の検出された肌色領域に基づいて、画像の顔領域を検出するように構成された顔検出器を含む。装置はさらに、カメラに結合された装置の表示器に対して人間の視点を検出するように構成された視点検出器を含む。人間の視点は、検出された肌色領域に少なくとも一部分基づいて決定され、視点検出器はさらに、検出された顔領域に基づいて人間の顔の位置を追跡するように構成される。1つ以上の被写体が、人間の決定された視点に応じて画像内で移動されうる。
開示された実施形態の少なくともいくつかによって供給されるある具体的な利点は、視聴者の視点が検出されるので、表示器の被写体は、その検出された視点に基づいて移動し、レンズ状表示器(lenticular display)又は特別な眼鏡を必要とすることなく、2次元表示器で3次元視覚効果を生成しうるということである。
本開示の他の態様、利益、及び特徴は、下記の節である図面の簡単な説明、詳細な説明、及び特許請求の範囲を含んでいる全体の出願を検討した後で明らかとなるであろう。
図1は、人間の視点に基づいて画像データを表示するシステムの具体的な例示的実施形態のブロック図である。 図2は、人間の視点に基づいて画像データを表示するシステムにおいて使用される画像処理パイプラインの具体的な例示的実施形態のブロック図である。 図3は、推定された中心画素位置と尤度値を図示する人間の視点に基づく画像データを表示するシステムの具体的な例示的実施形態である。 図4は、異なる視点から表示された被写体の具体的な例示的実施形態である。 図5は、人間の視点に基づいて画像データを表示する方法の具体的な例示的実施形態のフロー図である。 図6は、人間の視点を決定する際に利用された顔を追跡する方法の具体的な例示的実施形態のフロー図である。 図7は、肌色領域と顔領域に基づく視点検出器を有する処理装置を含む代表的なワイヤレス通信装置のブロック図である。
カメラを有する装置の表示器に対する視聴者の位置又は視点は、装置のカメラを使用することにより、視聴者の肌色領域及び顔領域に基づいて決定されることができる。一旦視聴者の視点が決定されると、カメラによって撮像され表示器において表示された画像内の1つ以上の被写体は、視聴者の検出された視点に基づいて移動されることができる。
図1を参照すると、人間の遠近(perspective)に基づいて画像データを表示するシステムの具体的な例示的実施形態が図示されており、一般的には100と図示される。システム100は、表示器124、カメラ120及び表示器124とカメラ120とに結合された画像処理パイプライン102、を含む電子装置101を含む。電子装置101は人間130の近くに図示される。電子装置101はまた、被写体を含む画像データ116を格納するメモリ114を含む。電子装置101は、表示器124に対する人間130の視点128を決定し、視点128の位置に基づいて表示器124に表示された画像126の遠近を調整するように構成される。
具体的な実施形態では、人間130が表示器124を見ながら、人間130がカメラ120を考慮する位置にて構成される。特にカメラ120は、レンズと画像センサ(図示されず)を含めうる。画像センサは、画像データ121を獲得し、画像処理パイプライン102に画像データ121を供給するように構成されうる。
具体的な実施形態では、画像処理パイプライン102は、画像データ121を受信し、人間130の検出された視点128に基づいて表示器124の画像126の遠近を調整するように構成される。画像処理パイプライン102は、肌色検出器104、顔位置追跡器106、視点検出器110及び遠近調整モジュール112を含む。
具体的な実施形態では、肌色検出器104は、カメラ120によって撮像された画像に対応する画像データを受信する。例えば、肌色検出器104で受信される画像データは、画像データ121のようなカメラ120から直接受信されうる。
或いは、肌色検出器104は、例えばモザイク解除、質の悪い画素修正、他の画像処理によって、画像処理パイプライン102内で処理されてきた画像データを受信しうる。肌色検出器104は、肌色領域、或いは非肌色領域に画像データ121の各特定の画素が対応するかを決定するために、画像データ121のクロミナンス値を比較するように構成されうる。説明するため、肌色検出器104は、特定の画素のクロミナンス赤値を、非肌領域を示す上部及び下部のクロミナンス赤閾値と比較しうる。さらに、肌色検出器104は、画像データ121の画素のクロミナンス青値を決定し、クロミナンス青値を肌領域と非肌領域との間の境を示す1つ以上のクロミナンス青閾値と比較しうる。肌色検出器104は、肌色領域105を示す出力を生成するように構成される。
具体的な実施形態では、顔位置追跡器106は肌色検出器104から肌色領域105を受信し、画像データ121内の顔の位置を追跡するように構成されうる。例えば、顔位置追跡器106は、識別された肌色領域105の1つ以上を調べ、顔認識を実行するか、又はそうでなければ、顔が画像データ121内に存在するかを決定する。具体的な実施形態では、顔位置追跡器106は、肌色領域内のクロミナンス値を有する画素を含む肌色検出器104から肌色領域105を受信するように構成されうる。顔位置追跡器106は、クロミナンス平均値及びクロミナンス分散値に基づいて、第1の1次元探索に従って画像データの行を識別するように構成され、顔位置追跡器106は、クロミナンス平均値とクロミナンス分散値とに基づいて、第2の1次元探索に従って画像データの列を識別するように構成されうる。具体的な実施形態では、画像データ内の選択された画素の行に対応する画素の第1カウントは、選択された画素のクロミナンス値と差異閾値を満たすクロミナンス平均値との比較に応じてインクリメントされ、画素データ内の選択された画素の対応する列は、選択された画素のクロミナンス値と差異閾値を満たすクロミナンス平均値との比較に応じてインクリメントされる。推定された中心画素位置は、画素の第1カウントと画素の第2カウントに基づいて決定されうる。
具体的な実施形態では、視点検出器110は顔位置追跡器106から位置された顔を示す情報を受信し、人間130の位置された顔に基づいて、人間130の、例えば視点128のような視点を決定するように構成される。視点検出器110は、遠近調整モジュール112に対して検出された視点を示すデータを提供するように構成されうる。
具体的な実施形態では、遠近調整モジュール112は表示器124での表示のためにメモリ114から被写体を含む画像データ116を受信するように構成される。遠近調整モジュール112はさらに、視点検出器110からの検出された視点を示すデータを受信し、人間の視点130の移動に従って被写体を含む画像データ116を修正するように構成されうる。例えば、視聴者130の検出された視点128の変化により、画像データ116内の被写体は表示器124で表示される前に移動されることがある。例えば、人間の視点が変化する場合には(例えば図1の視点128)、画像内の被写体は、変更された視点に依存して、左に移動又は回転する、又は、右に移動又は回転する。説明するため、検出された視点が表示器124の中央である被写体(例えば図4の被写体404)は、人間の視点が中央から左に変化する場合には、左に移動又は回転されうる。同様に、検出された視点が表示器124の中央である被写体は、人間の視点が中央から右に変化する場合には、右に移動又は回転されうる。
動作中に、人間130は、表示器124で表示される画像126を選択しうる。人間130が画像126を見ている間、カメラ120は反復して人の画像データ121を得ていることがある。それは画像処理パイプライン102に供給される。画像処理パイプライン102は、肌色検出器104で肌色領域を検出し、顔位置追跡器106で人間の顔の位置を追跡し、視点検出器110で人間の視点128を検出し、遠近調整モジュール112に検出された視点データを供給することにより、人間130の顔を追跡しうる。遠近調整モジュール112は、人間130の検出された視点128に基づいて表示器124で表示されるべき画像126を変更しうる。視点に応じて移動された被写体を備える更新された画像データ113は、表示器124に供給され、画像126が更新される。結果、表示器124又はカメラ120に対する人間130の移動は、画像126内の被写体の移動をもたらし、従って、画像126の3次元透視図(three dimensional perspective view)の印象を生成する。例えば、三次元視覚効果は、深さ依存投射図法(depth dependant perspective projection)を伴うコンテンツをレンダリングすることにより、深さ情報を有する二次元コンテンツに加えられうる。
カメラ120、表示器124、画像処理パイプライン102及びメモリ114を含む構成要素は単一の電子装置101内に図示されているが、他の実施形態では、構成要素は、別個の装置にあることがある。例えば、カメラは、ブラウン管表示装置、プラズマ表示器、又は液晶ダイオード表示器のようなスタンドアロン表示器に結合されうる。
図2を参照すると、視聴者の遠近に基づいて画像データを表示するシステムで使用される画像処理パイプラインの具体的な例示的実施形態が図示されており、一般的には200と図示される。画像処理パイプライン202は、肌色検出回路204、顔検出器206、目検出器208、肌色及び顔検出回路に応答する視点検出器210及び顔の位置ヒストリ回路212を含む。
具体的な実施形態では、肌色検出回路204は画像に対応する画像データ221を受信するように構成され、画像データの各特定の画素が肌色又は非肌色領域に対応するかを決定するために画像データのクロミナンス値を比較するように構成されうる。具体的な実施形態では、肌色検出回路204は、クロミナンス青(Cb)閾値233及びクロミナンス赤(Cr)閾値235を含む。例えば、肌色検出回路204は、非肌領域を示している、上部及び下部のクロミナンス赤閾値のような1つ以上のクロミナンス赤閾値235と特定の画素のクロミナンス赤値を比較しうる。さらに、肌色検出回路204は、画像データの画素のクロミナンス青値を決定し、クロミナンス青値を肌領域と非肌領域との間の境を示す1つ以上のクロミナンス青閾値233と比較しうる。具体的な実施形態では、肌色範囲内のクロミナンス値を有する画素は、例えば肌色検出回路204の、クロミナンス青閾値233及びクロミナンス赤閾値235を満たすことにより識別されうる。肌色検出回路204は、肌色領域を示して、肌色範囲内のクロミナンスを有する画素を含む出力を生成するように構成されうる。
具体的な実施形態では、顔検出器206は肌色検出回路204から肌色領域出力を受信し、画像データ内の顔領域の位置を検出するように構成される。具体的な実施形態では、顔検出回路206は、動的閾値243、行の顔検出回路245、列の顔検出回路247及びクロミナンス差異回路249を含む。
具体的な実施形態では、顔検出回路206は、肌色範囲内のクロミナンス値を有する画素を含む肌色検出回路204の出力を受信するように構成される。具体的な実施形態では、行の顔検出回路245は画像データの行を識別するように構成され、列の顔検出回路247は画像データの列を識別するように構成されうる。例えば、行の顔検出回路245は、クロミナンス平均値及びクロミナンス分散値に基づいて、第1の1次元探索に従って画像データの行を識別するように構成され、列の顔検出回路247は、クロミナンス平均値とクロミナンス分散値とに基づいて、第2の1次元探索に従って画像データの列を識別するように構成されうる。具体的な実施形態では、クロミナンス差異回路249は識別された画素のクロミナンス値をクロミナンス平均値と比較し、差異閾値を満たす比較結果に応じて識別された画素を選択するように構成されうる。差異閾値は、クロミナンス分散値に基づいていることがある。具体的な実施形態では、画像データ内の選択された画素の行に対応するクロミナンス平均値に対する尤度又は画素の第1カウントは、候補領域内でより多くの画素を走査し差異閾値が画素にて満たされるとき、増分され、画像データ内の選択された画素の列に対応するクロミナンス平均値に対する尤度又は画素の第2カウントは、候補領域内でより多くの画素を走査し差異閾値が画素にて満たされるとき、増分される。具体的な実施形態では、差異閾値を満たすクロミナンス平均に対する尤度又は画素の最大カウントを伴う列セグメントが位置され、差異閾値を満たすクロミナンス平均に対する尤度又は画素の最大カウントを伴う行セグメントが位置される。最大列セグメント及び最大行セグメントの位置は、図3を参照してさらに詳述されるように、顔領域の推定された中心画素位置を決定するために使用されうる。
具体的な実施形態では、目検出回路208は顔検出回路206から顔の位置データを受信し、画像データ内の人間の目を検出するように構成される。目検出回路208は、顔の位置データをさらに精製し、顔領域内の顔の位置を確認するために利用されうる。
具体的な実施形態では、視点検出器210は目の検出回路208から顔の位置された目を示す情報を受信し、人間の位置された顔に基づいて、人間の視点を決定するように構成される。具体的な実施形態では、視点検出器210は顔位置ヒストリ212から、前の顔位置データを受信するように構成される。例えば、具体的な実施形態では、人間の顔の画像データを探索するとき、初期の候補探索領域は、顔の位置ヒストリ212によって供給される過去の顔の位置データに基づいてセットアップされうる。例えば、電子装置は、人間の肌色トーンによって人間の顔を見つけるように以前にトレーニングされたことがある場合がある。その場合には、肌トーンの平均値及び分散とクロミナンス赤及びクロミナンス青閾値のような肌データを含む前回の又は過去の顔の位置データが電子装置のメモリに格納されうる。
動作中に、画像処理パイプライン202は、肌色検出回路204で肌色領域を検出し、顔検出回路206で人間の顔を検出し、目検出回路208で人間の目を検出し、視点検出器210で人間の視点を検出することにより、人間の顔を検出しうる。具体的な実施形態では、人間の視点は、顔位置ヒストリ212によって供給される過去の顔の位置データに少なくとも一部基づいて、検出されうる。
図3を参照すると、視聴者の遠近に基づいて画像データを表示するシステムの具体的な例示的実施形態が図示されており、一般的には300と図示される。候補領域302は、非肌領域304、顔領域306及び肌領域308を含む。説明を明瞭にするため、肌領域308は、長方形で図示されている。しかしながら、肌領域308は、不整形であり、肌トーン範囲内にある非肌の被写体を含んでいる1つ以上の被写体の画素を含めうる。肌領域308は、推定された中心画素322とテスト下の代表画素345とを含む。候補領域302はX−Y座標系で図示されており、X軸340は水平方向に配置され、Y軸330は垂直方向に配置される。水平の尤度値318(最大位置を示すのに使用されない)は、X軸340に沿って図示され、垂直の尤度値320(最大位置を示すのに使用されない)は、y軸330に沿って図示される。各水平の尤度値は、画素数342と関連づけられ、各垂直の尤度値は、画素数332と関連づけられる。水平の尤度値318に基づいて、最大水平セグメント310が位置されることができ、垂直の尤度値320に基づいて、最大垂直セグメント312が位置されることができる。第1の動的閾値314はX軸340に沿ってセットアップされ、第2の動的閾値316はY軸330に沿ってセットアップされる。
動作中に、人間の顔領域306に対する画像データの候補領域302が走査される。肌領域308内にある画素サンプル毎に、サンプル画素データが蓄積される。候補領域302における全ての画素は走査された後、肌トーン閾値が計算され、サンプリングされた画素データの測定された肌トーンの分散と平均値が計算される。肌トーン閾値内の画素サンプル毎に、尤度値は、平均値までのサンプリングされた画素の距離を測定し、距離を分散と比較することによって選択的に蓄積される。距離が分散内にある場合、水平の尤度値318と垂直の尤度値320が蓄積される。水平の尤度値318と垂直の尤度値320の選択された蓄積を完了すると、水平の動的閾値314及び垂直の動的閾値316がセットアップされる。具体的な実施形態では、画像データ内の選択された画素の行に対応する画素の第1カウントは、肌トーンの平均に対するサンプリングされた画素の水平尤度(例えば距離)測定値が分散内にあるとき、増分され、画像データ内の選択された画素の列に対応する画素の第2カウントは、肌トーンの平均に対するサンプリングされた画素の垂直尤度測定値が分散内にあるとき、インクリメントされうる。水平の動的閾値と垂直の動的閾値がセットアップされた後、水平の尤度値からの最大水平セグメントと、垂直尤度値からの最大垂直セグメントが、634で検出される。具体的な実施形態では、垂直の尤度測定値を満たす画素の最大カウントを伴う列、即ち最大列が位置され、水平の尤度測定値を満たす画素の最大カウントを伴う行、即ち最大行が位置される。最大垂直セグメント312、及び最大水平セグメント310の位置は、顔領域306の推定された中心画素位置322を決定するために使用されうる。
図4を参照すると、異なる視点から表示された画像内の被写体の具体的な例示的実施形態が図示されており、一般には400と示される。視点が表示器の左である被写体が402で図示され、視点が表示器の中央である被写体が404で図示され、視点が表示器の右である被写体が406で図示される。例えば、人間の視点が変化する場合には(例えば図1の視点128)、画像内の被写体は、「新たな」又は変更された視点に依存して、左に移動又は回転する、若しくは、右に移動又は回転する。説明するため、検出された視点が表示器の中央である被写体(例えば図1の表示器124)は、402で図示されるように、人間の視点が中央から左に変化する場合には、左に移動又は回転されうる。同様に、検出された視点が表示器の中央である被写体は、406で図示されるように、人間の視点が中央から右に変化する場合には、右に移動又は回転されうる。
図5を参照すると、人間(人物)の遠近に基づいて画像データを表示する方法の具体的な例示的な実施形態のフロー図が図示されており、一般的には500と示される。502では、図1のカメラ120のようなカメラによって撮像された画像に対応する画像データが受信される。画像は、カメラに結合された装置で表示されるべき少なくとも1つの被写体を含む。504に進み、図1の表示器124のようなカメラに結合又は組み込まれている装置の表示器に対する人間の図1の視点128のような視点が決定される。506に進み、視点は、図1の肌色領域105のような決定された肌色領域に基づいて人間の顔領域を決定することにより決定される。続けて508に進み、視点はさらに、決定された顔領域に基づいて人間の顔の位置を追跡することにより決定される。具体的な実施形態では、顔の位置は、図1の顔位置追跡器106のような顔追跡モジュールによって追跡されうる。510に進み、表示器で表示された1つ以上の被写体は、人間の決定された視点に応じて移動される。
図6を参照すると、顔を追跡する方法の具体的な例示的な実施形態のフロー図が図示されており、一般的には600と示される。方法600は、図1のシステム100の電子装置101のようなワイヤレス電子装置によって実行されうる。
輝度コンポーネント(Y)、クロマ青コンポーネント(Cb)、及びクロマ赤コンポーネント(Cr)(例えば、YCbCrカラースペース)を有するカラースペースのようなカラースペースにおける入力データは、602にてカメラビューファインダから受信される。例えば、図1の画像データ121のような画像データの場合、図1のカメラ120のようなカメラから受信されうる。システム適応が始まるかの決定が604で行なわれうる。例えば、ユーザ認識トレーニングモードに入ったかどうかの決定が行なわれうる。具体的な実施形態では、例えば電子装置に結合されたキー又はボタンを押すことによって、ユーザによって手動でユーザ認識トレーニングモードに入ることがある。或いは、自動的にユーザ認識トレーニングモードに入ることがある。ユーザ認識トレーニングモードに入る場合には、候補領域は606で走査されうる。例えば、人間の顔領域に関する画像データの領域が走査されうる。
候補領域における画素が肌トーン範囲内にあるかどうかの決定が608で行なわれうる。肌トーン範囲内にある画素毎に、サンプル画素データは、610で蓄積され、候補領域における全ての画素が走査されたかどうかの決定が612で行なわれうる。候補領域における全ての画素が走査されなかった場合には、処理は606に戻る。
候補領域における全ての画素を走査した後に、肌トーン閾値は、614で計算され、サンプリングされた画素データの測定された肌トーンの分散と平均値もまた、614で計算される。Cb及びCrにおける肌トーンの平均値及び分散は616にてリセットされ、YCbCrにおける肌トーンの閾値は618にてリセットされる。その結果、肌トーン閾値は特定の人間(例えばユーザ)と関連づけられることがある。顔追跡処理では、画素サンプルが肌トーン閾値内にあるかどうかの決定が620で行なわれうる。画素サンプルが肌トーン閾値内にある場合、肌トーンの平均値と比較するときの画素サンプルの尤度測定が622にて行なわれうる。具体的な実施形態では、尤度測定が、肌トーンの平均値までのサンプル画素の距離(例えば、サンプル画素及び平均値との間の肌トーン値における差異)を測定することによって行われうる。
距離が分散内にあるかどうかの決定が624で行なわれうる。具体的な実施形態では、肌トーン閾値内の画素サンプル毎に、尤度値は、平均値までのサンプリングされた画素の距離を測定し、距離を分散と比較することによって蓄積される。距離が分散内にある場合、水平の尤度値と垂直の尤度値が626で蓄積されうる。水平尤度値及び垂直尤度値の蓄積を完了すると、水平動的閾値及び垂直動的閾値は、632にてセットアップされうる。具体的な実施形態では、画像データ内の選択された画素の行に対応するクロミナンス平均に対する尤度又は画素の第1カウントは、肌トーンの平均に対するサンプリングされた画素の水平尤度(例えば距離)測定値が分散内にあるとき、インクリメントされ、画像データ内の選択された画素の列に対応するクロミナンス平均に対する尤度又は画素の第2カウントは、肌トーンの平均に対するサンプリングされた画素の垂直尤度測定値が分散内にあるとき、インクリメントされる。水平の動的閾値と垂直の動的閾値がセットアップされた後、水平尤度値からの最大水平セグメントと、垂直尤度値からの最大垂直セグメントが、634で検出されうる。具体的な実施形態では、垂直の尤度測定値を満たす画素の最大カウントを伴う列、即ち、最大列が位置され、水平の尤度測定値を満たす画素の最大カウントを伴う行、即ち、最大行が位置されうる。最大垂直セグメントと最大水平セグメントの位置は、636にて、顔領域の推定された中心画素位置を決定するために、また、見つけた顔領域が視聴者の顔領域、即ち、有効な顔領域であるかどうかを決定するために、使用されうる。見つけた領域が有効である場合、視聴者の顔が位置づけされ、処理は650で終了する。見つけた領域が有効でない場合、候補探索領域は、638でリセットされ、処理は630に戻り、そこでは、候補領域が探索される。
システム順応が604で開始していない場合、顔の追跡システムが開始しているかという決定が640で行なわれうる。例えば、電子装置は、人間の肌色トーンによって人間の顔を見つけるように既にトレーニングされていてもよく、システム順応又はトレーニングモードをバイパスし、顔追跡モードに直接進むことがある。具体的な実施形態では、例えば電子装置に結合されたキー又はボタンを押すことによって、ユーザによって手動で顔の追跡システムに入ることがある。或いは、自動的に顔の追跡システムに入ることがある。顔の追跡システムが始まっている場合、初期の候補探索領域は642でセットアップされる。具体的な実施形態では、初期の候補探索領域は、過去の顔の位置データに基づいてセットアップされうる。具体的な実施形態では、顔の位置データは、図2の顔位置ヒストリ212によって提供されることがある。初期の候補探索領域がセットアップされた後、候補領域は630で探索されうる。顔の追跡システムが始まっていない場合には、処理は604に戻る。
一旦、視聴者の視点が決定されると、表示器に表示された1つ以上の被写体は、視聴者の検出された視点に基づいて移動されうる。視聴者の位置と視野方向を適用することにより、視聴者の位置に基づいて異なる視点からマルチメディアアプリケーションを実行するシステムが設計されることができる。
図7は、肌色領域と顔領域に基づく視点検出器764を含む装置700の具体的な実施形態のブロック図である。装置700は、ワイヤレス電子装置において実装され、また、メモリ732に結合された、デジタル信号処理装置(DSP)のような処理装置710を含む。
カメラインタフェース制御器770は処理装置710に結合され、また、ビデオカメラのようなカメラ772に結合される。カメラ制御器770は、例えば自動焦点及び自動露光制御のために、処理装置710に応答する。表示制御器726は、処理装置710に、そして、表示装置728に結合される。符号化器/復号器(CODEC)734はまた、処理装置710に結合されることができる。スピーカー736とマイクロホン738は、CODEC734に結合されることができる。ワイヤレスインタフェース740は、処理装置710に、そして、ワイヤレスアンテナ742に、結合されることができる。
処理装置710もまた、処理された画像データ780を生成するために適応されうる。表示制御器726は、処理された画像データを受信し、表示装置728に処理された画像データ780を提供するように構成される。メモリ732は、処理された画像データ780を受信し格納するように構成され、ワイヤレスインタフェース740は、アンテナ742によって送信のために処理された画像データ780を検索するように構成されうる。さらに、メモリ732は、ユーザ肌データ782(特定の画素のクロミナンス赤値及びクロミナンス青値、クロミナンス赤閾値及びクロミナンス青閾値、並びに肌トーンの平均値及び分散)を受信し格納するように構成され、ワイヤレスインタフェース740は、アンテナ742を介して送信のためにユーザ肌データ782を検索するように構成されうる。
具体的な実施形態では、肌色領域と顔領域に基づく視点検出器764は、コンピュータ可読媒体で格納されるコンピュータ実行可能な命令のような処理装置710で実行可能にするコンピュータコードとして実装される。例えば、プログラム命令782は、人間の決定された肌色領域に基づいて人間の顔領域を決定するためのコードと、顔領域に基づいて人間の顔の位置を追跡するためのコードと、人間の検出された視点に応じて画像内の被写体を移動させるためのコードと、を含めうる。
具体的な実施形態では、処理装置710、表示制御器726、メモリ732、CODEC734、ワイヤレスインタフェース740、そして、カメラ制御器770は、システムインパッケージ又はシステムオンチップ装置722に含まれる。具体的な実施形態では、入力装置730と電力供給744は、システムオンチップ装置722に結合される。さらに、具体的な実施形態では、図7で図示されるように、表示装置728、入力装置730、スピーカー736、マイクロホン738、ワイヤレスアンテナ742、ビデオカメラ772及び電力供給744は、システムオンチップ装置722に外付けである。しかしながら、表示装置728、入力装置730、スピーカー736、マイクロホン738、ワイヤレスアンテナ742、カメラ772及び電力供給744の各々は、インタフェース又は制御器のようなシステムオンチップ装置722のコンポーネントに結合されることができる。
当業者は、ここにおいて開示された実施形態に関連して説明された、様々な説明のための論理ブロック、構成、モジュール、回路、及び、アルゴリズムステップは、電子ハードウェア、処理装置によって実行されるコンピュータソフトウェア或いは両方の組合せとして実装されうるということをさらに理解するであろう。様々な説明のためのコンポーネント、ブロック、構成、モジュール、回路及びステップが、それらの機能の点から一般的に上述されている。このような機能が、処理装置によって実行されるハードウェア又はソフトウェアとして実装されるかは、特定のアプリケーションと全体のシステムに課された設計制約に依存する。熟練職人は、各特定のアプリケーションについての様々な方法で、説明された機能を実装しうるが、そのような実装の決定は、本発明の範囲から逸脱を生じさせるものとして解釈されるべきでない。
1つ以上の実施形態では、記載された機能は、ハードウェア、処理装置によって実行されるソフトウェア、ファームウェア又はそれらのいずれかの組み合わせで実装されうる。開示された機能は、装置において実行されるとき、ここにおいて説明された技法の1つ以上を装置に実行させるプログラムコードを備えるコンピュータ可読媒体を対象としうる。その場合には、コンピュータ可読記憶媒体は、ランダムアクセスメモリ(RAM)、シンクロナス動的ランダムアクセスメモリ(SDRAM)、読み出し専用メモリ(ROM)、不揮発性ランダムアクセスメモリ(NVRAM)、電子的消去可能プログラマブル読取専用メモリ(EEPROM)、FLASHメモリなどのような有体記憶媒体を備えうる。
プログラムコードは、コンピュータ可読命令の形式でメモリに格納されうる。その場合には、DSPのような処理装置は、画像処理技法の1つ以上を実行するためにメモリに格納された命令を実行しうる。ある場合には、技法は、画像処理を加速するために様々なハードウェアコンポーネントを呼び起こすDSPによって実行されうる。他の場合では、ここにおいて説明された装置は、マイクロプロセッサ、1つ以上の特定用途向け集積回路(ASIC)、1つ以上のフィールドプログラマブルゲートアレイ(FPGA)、又は他の何らかのハードウェアソフトウェアの組み合わせとして実装されうる。
ここにおいて開示された実施形態に関して説明された方法又はアルゴリズムのステップは、直接ハードウェアにおいて、処理装置によって実行されたソフトウェアモジュールにおいて、又は2つの組み合わせで具現化されうる。ソフトウェアモジュールは、ランダムアクセスメモリ(RAM)メモリ、フラッシュメモリ、読み取り専用メモリ(ROM)、プログラマブル読取専用メモリ(PROM)、消去可能プログラマブル読取専用メモリ(EPROM)、電子的に消去可能プログラマブル読取専用メモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスク読取専用メモリ(CD−ROM)、又は、当技術分野で知られているいずれの他の形の有体記憶媒体において存在しうる。例示的な記憶媒体は、処理装置に結合されるので、処理装置が記憶媒体から情報を読み取ることができ、また記憶媒体に情報を書き込むことができる。或いは、記憶媒体は、処理装置に一体化されうる。処理装置と記憶媒体は、特定用途集積回路(ASIC)において存在しうる。ASICは、コンピューティング装置又はユーザ端末において存在しうる。或いは、処理装置と記憶媒体は、コンピューティング装置又はユーザ端末において、ディスクリートコンポーネントとして存在しうる。
開示される実施形態の前の説明は、当業者が開示された実施形態を行う又は使用することを可能にするために提供される。これらの実施形態に対する様々な修正は、当業者にとっては容易に明らかであろう、そして、ここにおいて定義された包括的な原理は、本開示の範囲から逸脱することなく、他の実施形態に適用されうる。従って、本開示は、ここにおいて示される実施形態に限定されるように意図されていないが、特許請求の範囲によって規定されるように原理及び新規な特徴に整合する最も広い範囲が与えられるべきである。
以下に本件出願当初の特許請求の範囲に記載された発明を付記する。
[1] カメラによって撮像され、前記カメラに結合された装置に表示されるべき少なくとも1つの被写体を含む画像に対応する画像データを受信することと、前記カメラに結合された前記装置の表示器に対して人間の視点を決定することと、前記人間の前記決定された視点に応じて前記表示器に表示される前記少なくとも1つの被写体を移動することと、を備え、前記視点を決定することは、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定し、前記顔領域に基づいて前記人間の顔の位置を追跡することを備える、方法。
[2] 前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、[1]に記載の方法。
[3] 前記人間の肌色の前記クロミナンス平均値と前記クロミナンス分散値を決定するためユーザ認識トレーニングプロセスを実行すること、をさらに備える[2]に記載の方法。
[4] 前記視点を検出することは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することをさらに備える、[1]に記載の方法。
[5] 前記視点を決定することは、顔の前の位置に基づいて処理されるべき前記画像の第1の領域を選択することをさらに備える、[1]に記載の方法。
[6] 前記選択された領域内で顔が検出されないことに応じて、前記第1の領域よりも大きい第2の領域が処理されるために選択される、[5]に記載の方法。
[7] 前記視点を決定することは、肌色の範囲内でクロミナンス値を有する画素を識別することをさらに備える、[1]に記載の方法。
[8] 前記顔の位置を追跡することは、ユーザ認識トレーニングモードに応じて:前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後に:肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散と平均値を計算することによって人間の顔領域の中心画素位置を推定すること;前記肌トーンしきい値内の画素サンプル毎に、前記平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること;前記距離が前記分散内にあるとき:水平及び垂直の尤度値を蓄積すること;前記尤度値の選択的な蓄積を完了したとき:前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定すること;を含む、[1]に記載の方法。
[9] 前記サンプリングされた画素データの前記測定された肌トーンの前記分散と前記平均値をリセットすること、をさらに備える[8]に記載の方法。
[10] 前記中心画素の位置が前記人間の前記顔領域内にあるということを確認すること、をさらに備える[8]に記載の方法。
[11] 前記顔の前の位置に基づいて、前記候補領域を最初に探索すること、をさらに備える[8]に記載の方法。
[12] 前記肌トーンしきい値は、特定の人間と関連づけられる、[8]に記載の方法。
[13] カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器と、前記人間の前記検出された肌色領域に基づいて、前記画像の顔領域を検出するように構成された顔検出器と、前記検出された肌色領域に少なくとも部分的に基づいて前記カメラに結合された装置の表示器に対して前記人間の視点を検出するように構成された視点検出器と、を備え、前記視点検出器は、前記検出された顔領域に基づいて前記人間の顔の位置を追跡するようにさらに構成され、前記画像内の被写体は、前記人間の前記検出された視点に応じて移動される、装置。
[14] 前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて検出される、[13]に記載の装置。
[15] 前記表示器と前記カメラをさらに備え、前記肌色検出器は、前記カメラから前記画像データを受信し、前記表示器に表示コンテンツを提供するために結合された画像処理パイプライン内にある、[13]に記載の装置。
[16] 前記顔の位置を追跡することは、ユーザ認識トレーニングモードに応じて:前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域内の全ての画素を走査した後に:肌トーンしきい値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散と平均値計算することによって前記人間の前記顔領域の中心画素位置を推定すること;前記肌トーンしきい値内の画素サンプル毎に、平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること;前記距離が前記分散内にあるとき:水平及び垂直の尤度値を蓄積すること;前記尤度値の選択的な蓄積を完了したとき:前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定すること;を含む、[13]に記載の装置。
[17] コンピュータによって実行可能なコードを格納するコンピュータ可読有体媒体であって、前記コードは、カメラによって撮像された画像に対応する画像データを受信することを前記コンピュータによって実行可能にするコードと、前記カメラに結合された装置の表示器に対して人間の視点を決定することを前記コンピュータによって実行可能にするコードと、前記人間の前記検出された視点に応じて前記画像内で被写体を移動することを前記コンピュータによって実行可能にするコードと、を備え、前記人間の視点を決定するためのコードは、前記人間の決定される肌色領域に基づいて前記人間の顔領域を決定することを前記コンピュータによって実行可能にするコードと、前記顔領域に基づいて前記人間の顔の位置を追跡することを前記コンピュータによって実行可能にするコードと、を備える、コンピュータ可読有体媒体。
[18] 前記人間の肌色に基づいて前記人間の肌色のクロミナンス分散値とクロミナンス平均値を決定するためにユーザ認識トレーニングプロセスを実行することを前記コンピュータによって実行可能にするコード、をさらに備える[17]に記載のコンピュータ可読有体媒体。
[19] 前記人間の前記視点を決定するためのコードは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することを前記コンピュータによって実行可能にするコードをさらに備える、[17]に記載のコンピュータ可読有体媒体。
[20] ユーザ認識トレーニングモードに応じて:前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎にサンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後で:肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散値と平均値を計算することによって、前記人間の前記顔領域の中心ピクセル位置を推定する;前記肌トーン閾値内の画素サンプル毎に、前記平均値までの前記サンプル画素の距離を測定し、前記距離を前記分散値と比較することによって選択的に尤度値を蓄積する;前記距離が前記分散内にあるとき:水平及び垂直の尤度値を蓄積する;前記尤度値の前記選択的な蓄積を完了したとき:前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定する、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出する、及び前記最大水平セグメントと前記最大垂直セグメントとに基づいて推定された中心画素位置を決定する;ためのコード、をさらに備える[17]に記載のコンピュータ可読有体媒体。
[21] 前記サンプリングされた画素データの前記測定された肌トーンの前記分散値及び前記平均値をリセットすることを前記コンピュータによって実行可能にするコード、をさらに備える[20]に記載のコンピュータ可読有体媒体。
[22] 前記中心画素位置が前記人間の前記顔領域内にあるということを確認することを前記コンピュータによって実行可能にするコード、をさらに備える[20]に記載のコンピュータ可読有体媒体。
[23] 前記顔の前の位置に基づいて前記候補領域を最初に探索することを前記コンピュータによって実行可能にするコード、をさらに備える[20]に記載のコンピュータ可読有体媒体。
[24] カメラによって撮像された画像に対応する画像データを受信するための手段と、前記カメラに結合された装置の表示器に対して人間の視点を決定するための手段と、前記人間の前記検出された視点に応じて前記画像内で被写体を移動するための手段と、を備え、前記視点を決定するための手段は、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定するための手段と、前記顔領域に基づいて前記人間の顔の位置を追跡するための手段とを備える、装置。
[25] 前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、[24]に記載の装置。
[26] 前記顔の位置を追跡するための手段は、ユーザ認識トレーニングモードに応じて:前記人間の前記顔領域に関する画像データの候補領域を走査すること、肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、前記候補領域における全ての画素を走査した後で:肌トーン閾値を計算すること、及び前記サンプリングされた画素データの測定された肌トーンの分散値と平均値を計算することによって前記人間の前記顔領域の中心画素位置を推定すること;前記肌トーン閾値内の画素毎に、前記平均値までの前記サンプル画素の距離を測定すること、前記距離を前記分散値と比較すること、によって尤度値を選択的に蓄積すること;前記距離が前記分散内にあるとき:水平及び垂直の尤度値を蓄積すること;前記尤度値の前記選択的な蓄積を完了したとき:前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び前記最大水平セグメントと前記最大垂直セグメントに基づいて推定された中心画素位置を決定すること;を含む、[24]に記載の装置。

Claims (25)

  1. 遠近調整モジュールが、カメラによって撮像され、前記カメラに結合された装置に表示されるべき少なくとも1つの被写体を含む画像に対応する画像データをメモリから受信することと、
    視点検出器が、前記カメラに結合された前記装置の表示器に対して人間の視点を決定することと、
    前記遠近調整モジュールが、2次元表示器に3次元視覚効果を生成するために前記人間の決定された前記視点に応じて前記表示器に表示される前記少なくとも1つの被写体を移動することと、
    を備え、前記視点を決定することは、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定し、前記顔領域に基づいて前記人間の顔の位置を追跡することを備え、前記顔の位置を追跡することは、前記人間の前記顔領域の推定された中心画素位置を決定することを含む、方法。
  2. 前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、請求項1に記載の方法。
  3. 前記人間の肌色の前記クロミナンス平均値と前記クロミナンス分散値を決定するためユーザ認識トレーニングプロセスを実行すること、をさらに備える請求項2に記載の方法。
  4. 前記視点を検出することは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することをさらに備える、請求項1に記載の方法。
  5. 前記視点を決定することは、顔の前の位置に基づいて処理されるべき前記画像の第1の領域を選択することをさらに備える、請求項1に記載の方法。
  6. 前記視点を決定することは、肌色の範囲内でクロミナンス値を有する画素を識別することをさらに備える、請求項1に記載の方法。
  7. 前記推定された中心画素位置を決定することは、
    ユーザ認識トレーニングモードに応じて:
    前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、
    肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
    前記候補領域における全ての画素を走査した後に、
    肌トーン閾値を計算すること、
    前記サンプル画素データの測定された肌トーンの分散と平均値を計算することと、
    前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること;
    前記距離が前記分散内にあるとき、
    水平及び垂直の尤度値を蓄積すること、
    前記尤度値の前記選択的な蓄積を完了したとき、
    前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
    前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
    前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
    備える、請求項1に記載の方法。
  8. 前記サンプル画素データの前記測定された肌トーンの前記分散と前記平均値をリセットすること、をさらに備える請求項に記載の方法。
  9. 前記中心画素位置が前記人間の前記顔領域内にあるということを確認すること、をさらに備える請求項に記載の方法。
  10. 前記顔の前の位置に基づいて、前記候補領域を最初に探索すること、をさらに備える請求項に記載の方法。
  11. 前記肌トーン値は、特定の人間と関連づけられる、請求項に記載の方法。
  12. カメラによって撮像された画像に対応する画像データ内で人間の肌色領域を検出するように構成された肌色検出器と、
    前記人間の前記検出された肌色領域に基づいて、前記画像の顔領域を検出するように構成された顔検出器と、
    前記検出された肌色領域に少なくとも部分的に基づいて前記カメラに結合された装置の表示器に対して前記人間の視点を検出するように構成された視点検出器と、
    を備え、前記視点検出器は、前記検出された顔領域に基づいて前記人間の顔の位置を追跡するようにさらに構成され、前記顔の位置を追跡するために、前記視点検出器は、前記人間の前記顔領域の推定された中心画素位置を決定するように構成され、メモリからの画像内の被写体は、2次元表示器に3次元視覚効果を生成するために前記人間の前記検出された視点に応じて移動される、装置。
  13. 前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて検出される、請求項12に記載の装置。
  14. 前記表示器と前記カメラをさらに備え、前記肌色検出器は、前記カメラから前記画像データを受信し、前記表示器に表示コンテンツを提供するために結合された画像処理パイプライン内にある、請求項12に記載の装置。
  15. 前記推定された中心画素位置を決定するために、前記視点検出器は、
    ユーザ認識トレーニングモードに応じて、
    前記人間の前記顔領域に関する画像データの候補領域を走査すること、
    肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
    前記候補領域内の全ての画素を走査した後に、
    肌トーン値を計算すること、
    前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
    前記肌トーン値内の画素サンプル毎に、平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること;
    前記距離が前記分散内にあるとき、
    水平及び垂直の尤度値を蓄積すること、
    前記尤度値の前記選択的な蓄積を完了したとき、
    前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
    前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
    前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
    行うように構成される、請求項12に記載の装置。
  16. コンピュータによって実行可能なコードを格納するコンピュータ可読記憶媒体であって、前記コードは、
    カメラによって撮像された画像に対応する画像データを受信することを前記コンピュータによって実行可能にするコードと、
    前記カメラに結合された装置の表示器に対して人間の視点を決定することを前記コンピュータによって実行可能にするコードと、
    2次元表示器に3次元視覚効果を生成するために前記人間の検出された前記視点に応じて前記画像内で被写体を移動することを前記コンピュータによって実行可能にするコードと、
    を備え、
    前記人間の視点を決定するためのコードは、前記人間の決定される肌色領域に基づいて前記人間の顔領域を決定することを前記コンピュータによって実行可能にするコードと、前記顔領域に基づいて前記人間の顔の位置を追跡することを前記コンピュータによって実行可能にするコードとを備え、前記顔の位置を追跡するコードは、前記人間の前記顔領域の推定された中心画素位置を決定することを前記コンピュータによって実行可能にするコードを含む
    コンピュータ可読記憶媒体。
  17. 前記人間の肌色に基づいて前記人間の肌色のクロミナンス分散値とクロミナンス平均値を決定するためにユーザ認識トレーニングプロセスを実行することを前記コンピュータによって実行可能にするコード、をさらに備える請求項16に記載のコンピュータ可読記憶媒体。
  18. 前記人間の前記視点を決定するためのコードは、前記顔領域内の顔の位置を確認するために前記顔領域内の目を検出することを前記コンピュータによって実行可能にするコードをさらに備える、請求項16に記載のコンピュータ可読記憶媒体。
  19. 前記推定された中心画素位置を決定するためのコードは、
    ユーザ認識トレーニングモードに応じて、
    前記画像データにおいて前記人間の前記顔領域に関する画像データの候補領域を走査すること、
    肌トーン範囲内にある画素毎にサンプル画素データを蓄積すること、
    前記候補領域における全ての画素を走査した後で、
    肌トーン閾値を計算すること
    前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
    前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって選択的に尤度値を蓄積すること、
    前記距離が前記分散内にあるとき、
    水平及び垂直の尤度値を蓄積すること、
    前記尤度値の前記選択的な蓄積を完了したとき、
    前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
    前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
    前記最大水平セグメントと前記最大垂直セグメントとに基づいて前記推定された中心画素位置を決定すること、
    を行うためのコード、を含む請求項16に記載のコンピュータ可読記憶媒体。
  20. 前記サンプル画素データの前記測定された肌トーンの前記分散前記平均値をリセットすることを前記コンピュータによって実行可能にするコード、をさらに備える請求項19に記載のコンピュータ可読記憶媒体。
  21. 前記中心画素位置が前記人間の前記顔領域内にあるということを確認することを前記コンピュータによって実行可能にするコード、をさらに備える請求項19に記載のコンピュータ可読記憶媒体。
  22. 前記顔の前の位置に基づいて前記候補領域を最初に探索することを前記コンピュータによって実行可能にするコード、をさらに備える請求項19に記載のコンピュータ可読記憶媒体。
  23. カメラによって撮像された画像に対応する画像データを受信するための手段と、
    前記カメラに結合された装置の表示器に対して人間の視点を決定するための手段と、
    2次元表示器に3次元視覚効果を生成するために前記人間の検出された前記視点に応じて前記画像内で被写体を移動するための手段と、
    を備え、前記視点を決定するための手段は、前記人間の決定された肌色領域に基づいて前記人間の顔領域を決定するための手段と、前記顔領域に基づいて前記人間の顔の位置を追跡するための手段とを備え前記顔の位置を追跡するための手段は、前記人間の前記顔領域の推定された中心画素位置を決定するための手段を含む、装置。
  24. 前記人間の前記肌色領域は、肌色に対応するクロミナンス分散値とクロミナンス平均値に基づいて決定される、請求項23に記載の装置。
  25. 前記人間の前記顔領域の前記推定された中心画素位置を決定するための手段は、
    ユーザ認識トレーニングモードに応じて、
    画像データにおいて前記人間の前記顔領域に関する前記画像データの候補領域を走査すること、
    肌トーン範囲内にある画素毎に、サンプル画素データを蓄積すること、
    前記候補領域における全ての画素を走査した後で、
    肌トーン閾値を計算すること、
    前記サンプル画素データの測定された肌トーンの分散と平均値を計算すること、
    前記肌トーン閾値内の画素サンプル毎に、前記平均値までのサンプル画素の距離を測定し、前記距離を前記分散と比較することによって尤度値を選択的に蓄積すること、
    前記距離が前記分散内にあるとき、
    水平及び垂直の尤度値を蓄積すること、
    前記尤度値の前記選択的な蓄積を完了したとき、
    前記水平及び垂直の尤度値の各々において最大セグメントを見つけるために動的閾値を設定すること、
    前記動的閾値の評価に基づいて最大水平セグメントと最大垂直セグメントを検出すること、及び
    前記最大水平セグメントと前記最大垂直セグメントに基づいて前記推定された中心画素位置を決定すること、
    行うための手段を含む、請求項23に記載の装置。
JP2013506319A 2010-04-22 2011-04-22 肌色領域及び顔領域に基づく視点検出器 Active JP5911846B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/765,292 US8315443B2 (en) 2010-04-22 2010-04-22 Viewpoint detector based on skin color area and face area
US12/765,292 2010-04-22
PCT/US2011/033543 WO2011133842A1 (en) 2010-04-22 2011-04-22 Viewpoint detector based on skin color area and face area

Publications (2)

Publication Number Publication Date
JP2013525906A JP2013525906A (ja) 2013-06-20
JP5911846B2 true JP5911846B2 (ja) 2016-04-27

Family

ID=44268139

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013506319A Active JP5911846B2 (ja) 2010-04-22 2011-04-22 肌色領域及び顔領域に基づく視点検出器

Country Status (6)

Country Link
US (1) US8315443B2 (ja)
EP (1) EP2561465A1 (ja)
JP (1) JP5911846B2 (ja)
KR (1) KR101560866B1 (ja)
CN (1) CN102859534B (ja)
WO (1) WO2011133842A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8325796B2 (en) 2008-09-11 2012-12-04 Google Inc. System and method for video coding using adaptive segmentation
US8866809B2 (en) 2008-09-30 2014-10-21 Apple Inc. System and method for rendering dynamic three-dimensional appearing imagery on a two-dimensional user interface
DE102010009737A1 (de) * 2010-03-01 2011-09-01 Institut für Rundfunktechnik GmbH Verfahren und Anordnung zur Wiedergabe von 3D-Bildinhalten
AU2011356545B2 (en) * 2011-01-18 2013-12-19 Hisense Electric Co., Ltd Control method and apparatus for stereoscopic display
US8984622B1 (en) * 2012-01-17 2015-03-17 Amazon Technologies, Inc. User authentication through video analysis
US9262670B2 (en) * 2012-02-10 2016-02-16 Google Inc. Adaptive region of interest
US9354748B2 (en) 2012-02-13 2016-05-31 Microsoft Technology Licensing, Llc Optical stylus interaction
US9075566B2 (en) 2012-03-02 2015-07-07 Microsoft Technoogy Licensing, LLC Flexible hinge spine
US9134807B2 (en) 2012-03-02 2015-09-15 Microsoft Technology Licensing, Llc Pressure sensitive key normalization
US20130300590A1 (en) 2012-05-14 2013-11-14 Paul Henry Dietz Audio Feedback
US9167201B2 (en) 2012-06-07 2015-10-20 Alcatel Lucent Feedback-system for managing video conferencing with a portable multimedia device comprising a frontal camera
US9256089B2 (en) 2012-06-15 2016-02-09 Microsoft Technology Licensing, Llc Object-detecting backlight unit
US20140009570A1 (en) * 2012-07-03 2014-01-09 Tourwrist, Inc. Systems and methods for capture and display of flex-focus panoramas
US20140063198A1 (en) * 2012-08-30 2014-03-06 Microsoft Corporation Changing perspectives of a microscopic-image device based on a viewer' s perspective
US9230158B1 (en) 2012-12-18 2016-01-05 Amazon Technologies, Inc. Fraud detection for facial recognition systems
US10257414B2 (en) 2016-07-15 2019-04-09 Qualcomm Incorporated Method and system for smart group portrait
CN112655016A (zh) * 2018-09-11 2021-04-13 索尼公司 信息处理设备、信息处理方法和程序

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07287761A (ja) 1994-04-19 1995-10-31 Canon Inc 画像処理装置及び画像処理方法
US6608622B1 (en) 1994-10-14 2003-08-19 Canon Kabushiki Kaisha Multi-viewpoint image processing method and apparatus
JP3561985B2 (ja) * 1994-11-28 2004-09-08 ソニー株式会社 画像処理装置
DE19516664C1 (de) * 1995-05-05 1996-08-29 Siemens Ag Verfahren zum Aufbau einer Farbtabelle in einer Computereinheit zur Klassifikation von Bildpunkten in einem Bild
US6188777B1 (en) 1997-08-01 2001-02-13 Interval Research Corporation Method and apparatus for personnel detection and tracking
US6148092A (en) * 1998-01-08 2000-11-14 Sharp Laboratories Of America, Inc System for detecting skin-tone regions within an image
JP2000311248A (ja) * 1999-04-28 2000-11-07 Sharp Corp 画像処理装置
US6972813B1 (en) 1999-06-09 2005-12-06 3M Innovative Properties Company Optical laminated bodies, lighting equipment and area luminescence equipment
KR20050042399A (ko) 2003-11-03 2005-05-09 삼성전자주식회사 게이즈 디텍션을 이용한 비디오 데이터 처리 장치 및 방법
GB2409028A (en) * 2003-12-11 2005-06-15 Sony Uk Ltd Face detection
JP2008507006A (ja) 2004-06-01 2008-03-06 マイケル エー. ベセリー 水平透視シミュレータ
US7221366B2 (en) * 2004-08-03 2007-05-22 Microsoft Corporation Real-time rendering system and process for interactive viewpoint video
GB0426523D0 (en) * 2004-12-02 2005-01-05 British Telecomm Video processing
KR100695174B1 (ko) 2006-03-28 2007-03-14 삼성전자주식회사 가상 입체음향을 위한 청취자 머리위치 추적방법 및 장치
US8040389B2 (en) * 2006-07-25 2011-10-18 Nikon Corporation Image processing method, image processing program and image processing apparatus for detecting object of an image
EP2116919A1 (en) 2008-05-09 2009-11-11 MBDA UK Limited display of 3-dimensional objects
US20090322671A1 (en) * 2008-06-04 2009-12-31 Cybernet Systems Corporation Touch screen augmented reality system and method
JP5174908B2 (ja) * 2008-06-30 2013-04-03 株式会社ソニー・コンピュータエンタテインメント 携帯型ゲーム装置及び携帯型ゲーム装置の制御方法
US8866809B2 (en) 2008-09-30 2014-10-21 Apple Inc. System and method for rendering dynamic three-dimensional appearing imagery on a two-dimensional user interface
US20100100853A1 (en) * 2008-10-20 2010-04-22 Jean-Pierre Ciudad Motion controlled user interface

Also Published As

Publication number Publication date
KR20130027520A (ko) 2013-03-15
JP2013525906A (ja) 2013-06-20
US20110262001A1 (en) 2011-10-27
US8315443B2 (en) 2012-11-20
EP2561465A1 (en) 2013-02-27
WO2011133842A1 (en) 2011-10-27
CN102859534B (zh) 2016-01-27
KR101560866B1 (ko) 2015-10-15
CN102859534A (zh) 2013-01-02

Similar Documents

Publication Publication Date Title
JP5911846B2 (ja) 肌色領域及び顔領域に基づく視点検出器
US10880495B2 (en) Video recording method and apparatus, electronic device and readable storage medium
JP5592006B2 (ja) 三次元画像処理
US20120133754A1 (en) Gaze tracking system and method for controlling internet protocol tv at a distance
TWI640199B (zh) 影像擷取裝置及其攝影構圖的方法
CN106981078B (zh) 视线校正方法、装置、智能会议终端及存储介质
CN108605087B (zh) 终端的拍照方法、拍照装置和终端
KR20150120317A (ko) 리포커싱을 실행하는 방법 및 전자 기기
CN103428428A (zh) 影像捕获设备以及影像捕获方法
KR101663321B1 (ko) 파노라마 사진 촬영 방법
WO2016184131A1 (zh) 基于双摄像头拍摄图像的方法、装置及计算机存储介质
TWI637288B (zh) 用於眼球視線校正的影像處理方法及其系統
KR102367648B1 (ko) 전 방향 시차 영상 합성 방법, 장치 및 저장 매체
CN107621867A (zh) 熄屏控制方法、装置和终端设备
WO2018014517A1 (zh) 一种信息处理方法、装置及存储介质
CN105227948B (zh) 一种查找图像中畸变区域的方法及装置
US20130308829A1 (en) Still image extraction apparatus
TWI449408B (zh) 三維影像擷取方法與裝置及三維影像顯示裝置
TW201714010A (zh) 設定攝影機焦點之方法及器件
CN105608469B (zh) 图像分辨率的确定方法及装置
CN111325674A (zh) 图像处理方法、装置及设备
JP2004046464A (ja) 移動物体3次元位置推定装置及びその方法、プログラム並びにその記録媒体
JP2011217229A (ja) 撮像装置および表示方法
KR101132976B1 (ko) 복수 개의 카메라를 구비한 모바일 기기, 이를 이용한 디스플레이 표시방법
CN108924529A (zh) 图像显示的控制方法及装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141104

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20141118

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20141219

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20151211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160330

R150 Certificate of patent or registration of utility model

Ref document number: 5911846

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250