JP5474202B2 - 顔検出および画像測定に基づいて注視点を検出する方法および装置 - Google Patents

顔検出および画像測定に基づいて注視点を検出する方法および装置 Download PDF

Info

Publication number
JP5474202B2
JP5474202B2 JP2012531204A JP2012531204A JP5474202B2 JP 5474202 B2 JP5474202 B2 JP 5474202B2 JP 2012531204 A JP2012531204 A JP 2012531204A JP 2012531204 A JP2012531204 A JP 2012531204A JP 5474202 B2 JP5474202 B2 JP 5474202B2
Authority
JP
Japan
Prior art keywords
user
point
camera
reference table
gaze
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012531204A
Other languages
English (en)
Other versions
JP2013506209A (ja
Inventor
ジュアン,ロンペン
Original Assignee
アルカテル−ルーセント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アルカテル−ルーセント filed Critical アルカテル−ルーセント
Publication of JP2013506209A publication Critical patent/JP2013506209A/ja
Application granted granted Critical
Publication of JP5474202B2 publication Critical patent/JP5474202B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B3/00Apparatus for testing the eyes; Instruments for examining the eyes
    • A61B3/10Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions
    • A61B3/113Objective types, i.e. instruments for examining the eyes independent of the patients' perceptions or reactions for determining or recording eye movement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/10Image acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Ophthalmology & Optometry (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Position Input By Displaying (AREA)
  • User Interface Of Digital Computer (AREA)
  • Eye Examination Apparatus (AREA)
  • Image Processing (AREA)

Description

本発明の実施形態は、画像処理の分野に関し、詳細には、顔検出および画像測定に基づいて注視点を検出する方法および装置に関する。
画像処理技術の進化と共に、ユーザが現在のビデオ・ディスプレイの画面(例えば、デスクトップまたはラップトップの画面、TVの画面など)上のエリアから別のエリアにカーソルを移動したいとき、ユーザは通常、補助デバイス(例えば、マウス、またはタッチパッド、またはリモート・コントローラ)を活用して操作を実施する必要がある。しかし、あるユーザにとっては、何らかの理由、例えば生理的障害または負傷のために、手の移動が制限される。したがって、カーソルを移動することが難しくなり、さらには不可能となる。さらに、手が正常に動く場合であっても、ある特別なシナリオでは、手を用いずにカーソル移動を実施すること、または少なくとも手の移動距離を短縮することが望ましい。
さらに、カーソルを移動しない場合であっても、あるアプリケーションは、後続の処理および操作を実施するように、画面上のユーザの注視点を検出する必要があることがある。
今日では、カメラの普及の増大および成熟した顔検出アルゴリズムの出現の増加に伴って、カメラに基づいてビデオ画像を検出することが実現可能となっている。したがって、画面上のユーザの注視点を検出するように、カメラを利用して注視点を検出する技法が望ましい。
本発明の一態様によれば、画面上のユーザの注視点を計算するのに使用される、注視点を検出する装置であって、ユーザの顔画像を取り込むカメラと、基準顔画像とユーザの視線方向との間の関係を含む基準テーブルを取得する基準テーブル取得ユニットと、カメラで取り込まれたユーザの顔画像に基づいて画像測定を実施し、基準テーブル取得ユニット内の基準テーブルを探索し、画面上のユーザの注視点を計算する計算ユニットとを備える装置が提供される。
好ましくは、基準テーブル取得ユニットは以下のうちの少なくとも1つを含む。カメラで取り込まれたユーザの少なくとも1つの基準顔画像に基づいて基準テーブルを構築する基準テーブル構築ユニットと、既に構築された基準テーブルを格納する基準テーブル格納ユニット。
好ましくは、計算ユニットは、カメラの位置に基づいて、ユーザの顔画像中のユーザの2つのひとみの中点とカメラとの間の距離を測定し、基準テーブルを探索することによってユーザの視線方向を計算する視線方向計算ユニットと、カメラの位置、ユーザの2つのひとみの中点とカメラとの間の距離、およびユーザの視線方向に基づいて画面上のユーザの注視点を計算する注視点計算ユニットとを備える。
好ましくは、注視点を検出する装置は、注視点を計算した後、注視点が画面内に位置する場合、画面上のカーソルを注視点に移動するカーソル移動ユニットをさらに備える。
好ましくは、注視点と現カーソルとの間の距離が事前定義された値未満である場合、カーソル移動ユニットはカーソルを移動しない。
好ましくは、注視点を検出する装置は、カーソル位置で操作を実施する補助ユニットをさらに備える。好ましくは、補助ユニットは、マウス、キーボード、タッチパッド、ハンドル、およびリモート・コントローラのうちの少なくとも1つを含む。
本発明の別の態様によれば、画面上のユーザの注視点を計算するために、注視点を検出する方法であって、以下のステップを含む方法が提供される。基準顔画像とユーザの視線方向との間の関係を含む基準テーブルを取得する基準テーブル取得ステップと、カメラを使用してユーザの顔画像を取り込み、画像測定を実施し、基準テーブルを探索し、画面上のユーザの注視点を計算する注視点計算ステップ。
好ましくは、基準テーブル取得ステップは、カメラを使用して、ユーザの少なくとも1つの基準顔画像を取り込み、基準顔画像とユーザの視線方向との間の関係を含む基準テーブルを構築すること、または既に構築されている基準テーブルを直接取得することを含む。
好ましくは、注視点計算ステップは、カメラの位置に基づいて、ユーザの顔画像中のユーザの2つのひとみの中点とカメラとの間の距離を測定し、基準テーブルを探索することによってユーザの視線方向を計算すること、ならびにカメラの位置、ユーザの2つのひとみの中点とカメラとの間の距離、およびユーザの視線方向に基づいて画面上のユーザの注視点を計算することを含む。
好ましくは、注視点を検出する方法は、注視点を計算した後、注視点が画面内に位置する場合、画面上のカーソルを注視点に移動することをさらに含む。
好ましくは、注視点と現カーソルとの間の距離が事前定義された値未満である場合、カーソルを移動しない。好ましくは、事前定義された値を必要に応じて設定することができる。
本発明の別の態様によれば、ユーザの周りに複数の画面を有するマルチスクリーン・コンピュータであって、本発明による注視点を検出する装置を備えるマルチスクリーン・コンピュータが提供される。
添付の図面を参照しながら以下の説明によって本発明の上記および他の特徴がより明らかとなるであろう。
本発明による注視点を検出する装置の一実施形態のブロック図である。 本発明による注視点を検出する方法の一実施形態の流れ図である。 図2aの注視点を検出する方法のサブステップの流れ図である。 例示的な座標系での基準顔画像の図である。 例示的な顔画像の図である。 様々な顔方向の図である。 様々な顔方向の符号化マップである。 様々な方向の眼球モデルの図である。 例示的座標系での眼球モデルの鉛直角と水平角の間の関係の図である。 射影円半径と円錐頂角との間の関係の図である。 カメラとユーザとの間の接続線の射影(A’ B’)とX軸(A’ C’)との間の角度の図である。 本発明による注視点を検出する原理図である。 眼球方向テーブルの一例のブロック図である。 射影円半径−円錐頂角テーブルの一例のブロック図である。
以下で、添付の図面を参照しながら本発明の実施形態に関する説明によって本発明の原理および実装がより明らかとなるであろう。本発明が以下に記載の特定の実施形態に限定されないものとすることに留意されたい。
図1は、本発明による注視点を検出する装置100の一実施形態のブロック図である。
図1に示すように、注視点を検出する装置100は、カメラ102、基準テーブル取得ユニット104、および計算ユニット106を備える。カメラ102は、ユーザの顔画像を取り込む、当技術分野で一般的なカメラでよい。基準テーブル取得ユニット104は、基準顔画像とユーザの視線方向との間の関係を含む基準テーブルを取得するためのものである。計算ユニット106は、基準テーブルを通じてユーザの視線方向を計算し、画面108上のユーザの注視点を計算する。
以下で、一例として、図3〜9を参照しながら、基準顔画像および基準テーブルの特定の実装、ならびに注視点を検出する装置100内の各構成要素の動作を示す。
位置特定および計算を実施するために、図3に示す、座標系の原点が画面の左上隅に位置する3軸座標系を確立することができる。コンピュータ・ユーザの観点から、画面の上縁部に沿って左から右に延びる軸がX軸であり、画面の左縁部に沿って上から下に延びる軸がY軸であり、一方、画面に対して垂直な、遠方(画面端)から近く(ユーザ端)まで延びる軸がZ軸である。カメラ102が、座標(x,y,0)の点Aに設置される。図4に示すように、点Bは、ユーザの2つのひとみの中点である。AB距離は、点A(カメラの位置)と点Bとの間の距離である。ひとみ距離は、画像内のユーザの2つのひとみの中心間の距離である。
例えば、画面が平面1(P1)内にあり、カメラ102の前面が平面1に平行であると仮定する。また、点Bが平面1に平行な平面2(P2)または平面3(P3)内に位置すると仮定する。図9に示すように、平面Pbは、点Bが位置し、直線ABに対して垂直な平面を指す。平面Pb内で、Yb軸は、直線ABが位置する鉛直面と平面Pbとの間の交線であり、Xb軸は、平面Pb内にある直線であり、Yb軸に対して垂直である。
「遠いほど小さく、近いほど大きい(the farther, the smaller; the nearer, the greater)」という原理に従って、顔画像のサイズまたは関連構成要素距離に基づいて、点Aと点Bとの間の距離を検出することができる。測定を実施するために、基準顔画像を導入する。図3に示すように、基準顔画像とは、ユーザの顔がカメラの正面にあり、AとBとの距離(カメラと2つのひとみの中点との間の距離)がDであるときに、カメラで取り込まれた画像を指す。相対的誤差の存在の可能性のために、より多数の基準画像によって相対的誤差を低減することができ、その結果、より正確な検出結果が得られる。例えば、一方がAB距離Dを有し、他方がより短いAB距離Dを有する2つの基準顔画像を導入する。基準顔画像を得るために、座標系内の座標(x,y,0)を有する点Aにカメラ102を設定すべきであり、点B(図4に示すように、2つの目の間の中点)が座標系内の(x,y,z)または(x,y,z)に位置することを保証するようにユーザを適切な位置に配置すべきであり、(x,y,z)または(x,y,z)は以下の式を満たすべきである。
−0=D (1)
−0=D (2)
顔検出/識別アルゴリズムを使用してユーザの顔を検出するとき、各ひとみの中心の位置を特定することができ、したがって、図4に示すように、点B、および2つのひとみの中心間の距離を得ることができる。ユーザの顔画像が距離Dを有する基準顔画像である場合、2つのひとみの中心間の距離は基準ひとみ距離Pである。ユーザの顔画像が距離Dを有する基準顔画像である場合、2つのひとみの中心間の距離は基準ひとみ距離Pである。
この実施形態では、基準テーブルは、図10および11を参照しながら以下で詳細に説明する眼球方向テーブルおよび射影円半径−円錐頂角テーブルを含む。
ユーザが画面内の様々なエリアに目を向けるとき、ユーザは、顔がそのエリアにまっすぐに(またはほぼまっすぐに)向くように頭を動かすことがある。図5aに可能な顔方向を示す。顔の様々な向きに基づいて、本明細書では顔の向きを実質的に9つの方向に分割することができ、様々な顔方向が、図5bに示す特定のコードで符号化される。
ユーザの顔を取り込むとき、ユーザの目のひとみの輪郭を同時に求めることができる。この実施形態では、ユーザの目を球体とみなすことができ、ひとみを眼球の表面上の円とみなすことができる。さらに、ひとみは、画面上の注視点にまっすぐに向くことができる。図6aに、2つの異なる眼球方向を有する眼球モデルを示す。図6aに示すように、ユーザが異なる方向に目を向けるとき、ひとみは目と共に方向を変化させる。カメラで取り込まれる画像では、ひとみの輪郭が、ある種類の楕円形状から別の種類の楕円形状に変化する。ひとみの輪郭および顔方向に基づいて、以下を含む各眼球の回転角を得ることができる。
左眼球の鉛直回転角:θVer−L
左眼球の水平回転角:θHor−L
右眼球の鉛直回転角:θVer−R
右眼球の水平回転角:θHor−R
本明細書のθVerは、ひとみ方向とYb軸との間の角度を指し、θHorは、ひとみ方向とXb軸との間の角度を指す。上記の4つの角度、すなわちθVer−L、θHor−L、θVer−R、θHor−Rを得るように、眼球方向の計算の性能を高めるために、眼球方向テーブルを導入し、すべての可能な眼球方向およびその回転角を列挙する。図10を参照すると、テーブルは少なくとも以下の5つの列の情報を含む。第1の列は索引を表し、第2の列は鉛直回転角θVerを表し、第3の列は水平回転角θHorを表し、第4の列は対応する実質的な顔方向を表し、第5の列は、目(ひとみ)が鉛直方向または水平方向に回転した後の、ひとみの輪郭に関する画像を含む。第2の列中の値(θVer)および第3の列中の値(θHor)は、0.0°〜180.0°の間で変化する。図6bに示すように、θVerおよびθHorの値は、点0が球面上に位置することを満たさなければならない。眼球方向テーブルの値範囲は、球面のカメラに向く側(すなわち、Z軸の負の軸方向)のサンプリング点に対応するθVerおよびθHorと、カメラが見るサンプリング点でのひとみの輪郭形状である。サンプリング点がより集中すると、θVerおよびθHorの増分がより少なくなり、結果がより正確になるが、実施すべき負荷が大きくなる。デフォルト角度増分は0.1°である。一例として、図10は単に、ひとみが点M、点N、点Q、および点Q’にあるときのテーブル内容を示す(実際の実装では、索引列は、1、2、3など、整数値だけ徐々に増分すべきであり、ここでは、説明の都合上、I、I、Iなどと書く)。
このテーブルの使用プロセスは以下で指定される。目の画像を得た後、左目(または右目)の輪郭を抽出し、テーブル内の最も適した輪郭を見つけ、それによって以下の角度を得る:θVer−L、θHor−L(またはθVer−R、θHor−R)。テーブルから、図6の球の中心点の周りに対称的な点、例えば点QおよびQ’が、カメラが見るひとみ輪郭と同一であることがわかり、これは顔方向による判断を必要とする。実際の動作プロセスでは、カメラ102に対するユーザの位置関係および画面のサイズに基づいて、ユーザの可能な角度θVer、θHorの範囲の補間を高密度化することができ、このことは、結果の精度を改善する助けとなる。
カメラ102について、円錐側面上のすべての点が、カメラで取り込まれる画像内の円上に射影される。したがって、図7に示すように、カメラで取り込まれる画像内の円の半径を得ると、円錐の頂角を求めることができる。円錐の頂角をより良く記述するために、図11に、円錐のすべての可能な頂角と、あるカメラに関する射影円の半径との間の関係を示す。テーブル内の距離単位はピクセルであり、ピクセルは他の単位に変換することができる。射影円の半径値の範囲は0〜RMAXである。RMAXは、画像中心から画像の隅までの最も遠い距離である。異なるカメラは異なる解像度、焦点距離、および広角を有するので、テーブル内の内容は様々なカメラに基づいて設定することができる。提案される射影円半径の増分の細分性(粒度)は5ピクセルである。細分性が小さいほど結果が正確となるが、実行中に必要な計算および比較の時間が長くなる。一例として、図11に示す射影円半径−円錐頂角テーブルは10ピクセルの単位を採用し、カメラのRMAXが200ピクセルであり、カメラの最大視野角が40°(左と右それぞれについて20°)である。
実際の実装プロセスでは、ユーザが常に位置する位置に対応する角度(すなわち、円錐の頂角)の補間が、カメラ102に対するユーザの位置関係に基づいて高密度化され、このことは、結果の精度を改善する助けになる。
この実施形態では、基準テーブル取得ユニット104は、カメラ102で取り込まれた距離DおよびDを有する基準顔画像を使用して、前述の眼球方向テーブルおよび射影円半径−円錐頂角テーブルを構築する基準テーブル構築ユニット1042を備える。加えて、基準テーブル取得ユニット104は基準テーブル格納ユニット1044をさらに備える。基準テーブルが構築され、基準テーブル格納ユニット1044に格納された場合、基準テーブル取得ユニット104は、基準テーブル格納ユニット1044から基準テーブルを直接読み取ることができる。さらに、基準テーブル構築ユニット1042によって構築された基準テーブルを基準テーブル格納ユニット1044に格納することができる。
計算ユニット106は、視線方向計算ユニット1062および注視点計算ユニット1064を備えることができる。本明細書では、視線方向計算ユニット1062は、カメラの位置に基づいて、ユーザの顔画像内のユーザの2つのひとみの中点からカメラまでの距離を測定し、基準テーブルを探索することによってユーザの視線方向を計算する。具体的には、視線方向計算ユニット1062は、成熟した顔検出/識別アルゴリズム、例えばOpenCVを採用し、ユーザの顔の実質的な方向、ユーザの目およびひとみの輪郭、ならびにひとみ距離Pを検出する。ひとみ距離P、基準ひとみ距離PおよびPを使用して、AB距離Lを計算する。距離および画像サイズは以下の関係を有する。
距離×画像サイズ≒一定 (3)
したがって、AB距離Lおよびひとみ距離Pは以下の式を満たす。
L×P≒D×P (4)
L×P≒D×P (5)
結果の精度を改善するために、式(4)および(5)を組み合わせ、以下を得る。
L=(P×D/P+P×D/P)/2 (6)
視線方向計算ユニット1062はさらに、角度αおよびβを計算する。具体的には、αは、平面2内の中心線ABとX軸との間の角度を指し、Aは平面P2上の点Aの鉛直射影点であり、点Bは2つのひとみの間の中点である(図9に示す)。平面2は平面1に平行であるので、角度αは、カメラで取り込まれる画像内の射影角α’と同一である。
α=α’ (7)
図8に、点A’、B’、および画像内の角度α’を示し、これらは以下を満たす。
’B’×sin(α’)=B’C’ (8)
’B’およびB’C’は、画像内のこれらの点の間の長さを示す。したがって、角度α’の値は、
α’=arcsin(B’C’/A’B’) (9)
カメラで取り込まれる画像内のA’B’の長さを得た後、視線方向計算ユニット1062は、射影円半径−円錐頂角テーブルを探索し、射影円半径値が長さA’B’に合致する最も適した行を見つける。このようにして、同一の行内の円錐頂角がβである。次いで、視線方向計算ユニット1062は点Bの座標を計算する。以前に得た結果を利用することにより、点Bが点Aの左下に位置するとき(図9に示すように、正面から画像角度を見て。以下同じ)、以下の式に従って点Bの座標(x,y,z)を計算することができる:
=x+L×sin(β)×cos(α) (10)
=y+L×sin(β)×sin(α) (11)
=z=L×cos(β) (12)
点Bが点Aの右側に位置するとき(右上、右下を含む)、式(10)の加算のための符号が、減算のための符号に変化し、点Bが点Aの上に位置するとき(左上、右上を含む)、式(11)の加算のための符号が、減算のための符号に変化する。
次に、視線方向計算ユニット1062が眼球の回転角を計算する。具体的には、カメラで取り込まれた画像に基づいて、左目のひとみの輪郭を検出し、前述の眼球方向テーブルから最も適切な輪郭を見つけ、さらに、顔方向と組み合わせ、それによってYb軸に対する眼球の鉛直回転角θVer−Lと、Xb軸に対する水平回転角θHor−Lとを得る。同じステップに従って、右目のθVer−RおよびθHor−Rも得ることができる。
次いで、視線方向計算ユニット1062がユーザの視線方向を計算する:
θVer=(θVer−L+θVer−R)/2 (13)
θHor=(θHor−L+θHor−R)/2 (14)
上記の視線方向は、平面Pb内のXb軸およびYb軸に対するものであり、X軸およびY軸に対する角度にさらに変換すべきである。したがって、図9に示すように、視線方向計算ユニット1062は、平面Pbの水平軸Xbと平面P1の水平軸Xとの間の角度δHorと、Yb軸と平面P1の垂直軸Yとの間の角度δVerとを計算し、それらは以下を満たす。
tan(δHor)=[L×sin(β)×cos(α)]/[L×cos(β)] (15)
tan(δVer)=[L×sin(β)×sin(α)]/[L×cos(β)] (16)
それによって、δHorおよびδVerを得ることができる。
δHor=arctan{L×sin(β)×cos(α)/[L×cos(β)]} (17)
δVer=arctan{L×sin(β)×sin(α)/[L×cos(β)]} (18)
前に得られたθVerおよびθHorと組み合わせて、視線方向計算ユニット1062は、最終的なθVer−FinalおよびθHor−Finalを得ることができる。
θVer−Final=θVer+δVer (19)
θHor−Final=θHor+δHor (20)
その後で、注視点計算ユニット1064は、カメラの位置、ユーザの2つのひとみの間の中点からカメラまでの距離、およびユーザの視線方向に基づいて、画面108上のユーザの注視点を計算する。具体的には、注視点計算ユニット1064は、視線方向計算ユニット1062で計算されたθVer−FinalおよびθHor−Finalに基づく以下の式に従って、画面108上の注視点Dの座標(x,y,0)を計算する:
=L×cos(β) (21)
=L/tan(θVer−Final)+x (22)
=L/tan(θVer−Final)×cos(θHor−Final)+y (23)
あるいは、注視点を検出する装置100は、カーソル移動ユニット112をさらに備えることができる。カーソル移動ユニット112は、カーソルを移動する必要があるかどうかを判定する。必要である場合、カーソルを注視点に移動する。そうでない場合、カーソルを移動しない。好ましくは、計算精度および他の要素に影響を受けて、実際の注視点と計算した注視点Dとの間に一定の偏差が存在することがある。この偏差を許容するために、注視エリアの概念を導入する。このエリアは、点D(計算した注視点)を中心とし、事前定義された長さGを半径とする画面上の円形エリアを指す。したがって、新しい注視点Dが得られたとき、注視点が画面の標示可能範囲を超えて位置する場合、カーソルを移動しない。加えて、現カーソルと点Dとの間の距離が事前定義された値G未満である限り、カーソルを移動しない。そうでない場合、カーソルを注視点Dに移動する。
あるいは、注視点を検出する装置100は、補助ユニット110をさらに備えることができる。ユーザは、補助ユニット、例えばマウス、キーボード、タッチパッド、ハンドル、およびリモート・コントローラのうちの1つまたは複数を通じて、カーソル位置で操作を実施することができる。例えば、ユーザは、マウスを使用してシングルクリックまたはダブルクリック操作を実施することができ、あるいはハンドルまたはリモート・コントローラを使用して様々な種類のキー操作を実施することができる。
以下では、図2aおよび2bを参照しながら、本発明の実施形態による注視点を検出する方法の様々なステップを説明する。
図2aに示すように、方法はステップS20から開始する。
ステップS22で、準備作業を実施する。準備作業は、基準顔画像をカメラで収集することを含み、この実施形態では、基準顔画像を距離DおよびDで得る。基準顔画像は、ユーザの顔検出/識別に不可欠である。基準顔画像を求めた後、2つのひとみの2つの中心点間の距離を、基準ひとみ距離PおよびPとして得る。次に、前述の眼球方向テーブルおよび射影円半径−円錐頂角テーブルを構築する。または、2つのテーブルが構築され、基準テーブル格納ユニットに格納されている場合、単にそれを直接読み取る。最後に、カメラの位置、すなわち点Aの座標(x,y,0)を特定する。
ステップS24で、注視点検出を実施する。図2bに、注視点を検出する特定のステップを示す。具体的には、ステップS241で、ユーザの顔、ひとみの輪郭、ひとみ距離Pを検出する。ステップS243で、ひとみ距離P、基準ひとみ距離PおよびPに基づいてAB距離Lを計算する。ステップS245で、角度αおよびβを得る。ステップS247で、点Bの座標を計算する。その後で、ステップS249で、眼球の回転角を計算する。前述のように、カメラで取り込まれた画像に基づいて左目のひとみの輪郭を検出し、前述のように、眼球方向テーブルで最も適した輪郭を探索する。顔方向と組み合わせて、Yb軸に対する眼球の鉛直回転角θVer−Lと、Xb軸に対する水平回転角θHor−Lとを得る。同じステップに従って、右目のθVer−RおよびθHor−Rも得ることができる。次いで、ユーザの視線方向を計算する。最後に、ステップS251で、計算したユーザの視線方向に基づいて、画面108上の注視点Dの座標(x,y,0)を計算する。
注視点を検出するステップS24を実施した後、図2aを参照すると、ステップS26で、二者択一的に、カーソルを移動する必要があるかどうかを判定する。必要である場合、ステップS28で、カーソルを注視点に移動する。そうでない場合、カーソルを移動しない。その後で、方法のフローはステップS24に戻り、注視点の検出を循環式に実施することができる。方法を終了させる場合、方法はステップS30で終了する。
要約すると、本発明は、顔検出および画像測定に基づいて注視点を検出する方法および装置を提供する。ユーザの顔方向および眼球方向を検出し、画面上のユーザの注視点を計算することにより、カーソルをエリアに移動することができる。計算精度の必要に応じて、カーソルをその中に移動する、可能な注視エリアを計算することができ、次いで、ユーザは、期待される正確な位置にカーソルを手動で移動し、したがってユーザの実際の移動距離が劇的に短縮され、その一方で、注視点を検出するための装置の計算負荷が軽減される。実際の装置精度に基づいて、より大きい事前定義された半径Gを設定することにより、上記の解決策を意図的に実装することができる。
加えて、本発明による検出方法および装置は、ユーザの周りに複数の画面を有するマルチスクリーン・コンピュータに適用することができる。特定の実装は、複数の画面があるとき、それぞれの画面の向きと、カメラが位置する平面との間の画面の角度関係である。本発明の上記の原理を利用し、視線延長線と関連する平面との交点を計算することによってユーザの視線を検出するとき、注視点が最終的に得られる。
本明細書の好ましい実施形態を参照しながら本発明を示したが、本発明の趣旨および範囲から逸脱することなく、本発明に対して様々な補正、置換、および改変を実施できることを当業者なら理解されよう。したがって、本発明は、上述の実施形態で定義されるのではなく、添付の特許請求の範囲およびその均等物で定義されるものとする。

Claims (14)

  1. 画面上のユーザの注視点を計算するのに使用される、注視点を検出する装置であって、
    前記ユーザの顔画像を取り込むカメラと、
    眼球の鉛直回転角の列、眼球の水平回転角の列及びひとみの輪郭の列を含む眼球方向テーブルを含む基準テーブルを取得する基準テーブル取得ユニットと、
    取り込んだ前記ユーザの顔画像に基づいてひとみの輪郭を検出し、前記眼球方向テーブルから最も適切な輪郭を見つけることによって前記検出されたひとみの輪郭の関数として眼球の回転角を計算し、前記眼球の回転角の関数として視線方向を判定し、前記視線方向に基づいて、前記ユーザの注視点を判定する計算ユニットと
    を備える装置。
  2. 前記基準テーブル取得ユニットが、
    前記カメラで取り込まれた前記ユーザの少なくとも1つの基準顔画像に基づいて前記基準テーブルを構築する基準テーブル構築ユニットと、
    既に構築された前記基準テーブルを格納する基準テーブル格納ユニット
    のうちの少なくとも1つを備える請求項1に記載の注視点を検出する装置。
  3. 前記計算ユニットが、
    前記カメラの位置に基づいて、前記ユーザの顔画像中の前記ユーザの2つのひとみの中点と前記カメラとの間の距離を測定し、前記基準テーブルを探索することによって前記ユーザの前記視線方向を計算する視線方向計算ユニットと、
    前記カメラの前記位置、前記ユーザの2つのひとみの前記中点と前記カメラとの間の前記距離、および前記ユーザの前記視線方向に基づいて前記画面上の前記ユーザの前記注視点を計算する注視点計算ユニットと
    を備える請求項1に記載の注視点を検出する装置。
  4. 前記注視点を計算した後、前記注視点が前記画面内に位置する場合、前記画面上の前記カーソルを前記注視点に移動させるカーソル移動ユニットをさらに備える請求項1に記載の注視点を検出する装置。
  5. 前記注視点と現カーソルとの間の距離が事前定義された値未満である場合、前記カーソル移動ユニットが前記カーソルを移動させない請求項1に記載の注視点を検出する装置。
  6. 前記カーソル位置で操作を実施する補助ユニットをさらに備える請求項4または5に記載の注視点を検出する装置。
  7. 前記補助ユニットが、マウス、キーボード、タッチパッド、ハンドル、およびリモート・コントローラのうちの少なくとも1つを含む請求項6に記載の注視点を検出する装置。
  8. 画面上のユーザの注視点を計算するために、注視点を検出する方法であって、
    眼球の鉛直回転角の列、眼球の水平回転角の列及びひとみの輪郭の列を含む眼球方向テーブルを含む基準テーブルを取得する基準テーブル取得ステップと、
    前記ユーザの顔画像を取り込み、取り込んだ前記ユーザの顔画像に基づいてひとみの輪郭を検出し、前記眼球方向テーブルから最も適切な輪郭を見つけることによって前記検出されたひとみの輪郭の関数として眼球の回転角を計算し、前記眼球の回転角の関数として視線方向を判定し、前記視線方向に基づいて、前記ユーザの注視点を判定するステップと
    を含む方法。
  9. 前記基準テーブル取得ステップが、
    カメラを使用して、前記ユーザの少なくとも1つの基準顔画像を取り込み、前記基準顔画像と前記ユーザの前記視線方向との間の関係を含む前記基準テーブルを構築するステップ、または
    既に構築されている前記基準テーブルを直接取得するステップ
    を含む請求項8に記載の方法。
  10. 前記注視点判定ステップが、
    前記カメラの位置に基づいて、前記ユーザの前記顔画像中の前記ユーザの2つのひとみの中点と前記カメラとの間の距離を測定し、前記基準テーブルを探索することによって前記ユーザの視線方向を計算するステップと、
    前記カメラの前記位置、前記ユーザの2つのひとみの前記中点と前記カメラとの間の前記距離、および前記ユーザの前記視線方向に基づいて前記画面上の前記ユーザの前記注視点を計算するステップと
    を含む請求項8に記載の方法。
  11. 前記注視点を判定した後、前記注視点が前記画面内にある場合、前記画面上の前記カーソルが前記注視点に移動することをさらに含む請求項8に記載の方法。
  12. 前記注視点と現カーソルとの間の距離が事前定義された値未満である場合、前記カーソルは移動しない、請求項11に記載の方法。
  13. 前記事前定義された値が必要に応じて設定される、請求項12に記載の方法。
  14. ユーザの周りに複数の画面を有するマルチスクリーン・コンピュータであって、請求項1乃至7のいずれか1項に記載の注視点を検出する装置を備えるマルチスクリーン・コンピュータ。
JP2012531204A 2009-09-29 2009-09-29 顔検出および画像測定に基づいて注視点を検出する方法および装置 Expired - Fee Related JP5474202B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2009/001105 WO2011038527A1 (zh) 2009-09-29 2009-09-29 一种注视点检测方法及其装置

Publications (2)

Publication Number Publication Date
JP2013506209A JP2013506209A (ja) 2013-02-21
JP5474202B2 true JP5474202B2 (ja) 2014-04-16

Family

ID=43825476

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012531204A Expired - Fee Related JP5474202B2 (ja) 2009-09-29 2009-09-29 顔検出および画像測定に基づいて注視点を検出する方法および装置

Country Status (6)

Country Link
US (1) US20120169596A1 (ja)
EP (1) EP2485118A4 (ja)
JP (1) JP5474202B2 (ja)
KR (1) KR101394719B1 (ja)
CN (1) CN102473033B (ja)
WO (1) WO2011038527A1 (ja)

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140053115A1 (en) * 2009-10-13 2014-02-20 Pointgrab Ltd. Computer vision gesture based control of a device
KR101699922B1 (ko) * 2010-08-12 2017-01-25 삼성전자주식회사 하이브리드 사용자 추적 센서를 이용한 디스플레이 시스템 및 방법
US8433710B2 (en) * 2010-09-09 2013-04-30 Ebay Inc. Sizing content recommendation system
KR101231510B1 (ko) * 2010-10-11 2013-02-07 현대자동차주식회사 운전자 주시방향 연동 전방충돌 위험경보 시스템, 그 방법 및 그를 이용한 차량
JP5982956B2 (ja) * 2012-03-30 2016-08-31 富士通株式会社 情報処理装置、情報処理方法、および情報処理プログラム
CN103777861A (zh) * 2012-10-23 2014-05-07 韩国电子通信研究院 终端和用于在终端中控制触摸操作的方法
CN103870097A (zh) * 2012-12-12 2014-06-18 联想(北京)有限公司 信息处理的方法及电子设备
JP6157165B2 (ja) * 2013-03-22 2017-07-05 キヤノン株式会社 視線検出装置及び撮像装置
JP6070833B2 (ja) * 2013-05-08 2017-02-01 富士通株式会社 入力装置及び入力プログラム
CN103413467A (zh) * 2013-08-01 2013-11-27 袁苗达 可控强制引导型自主学习***
CN103455298A (zh) * 2013-09-06 2013-12-18 深圳市中兴移动通信有限公司 一种外来数据显示方法和外来数据显示设备
JP6260255B2 (ja) * 2013-12-18 2018-01-17 株式会社デンソー 表示制御装置およびプログラム
CN105874528B (zh) * 2014-01-15 2018-07-20 麦克赛尔株式会社 信息显示终端、信息显示***以及信息显示方法
EP4250738A3 (en) * 2014-04-22 2023-10-11 Snap-Aid Patents Ltd. Method for controlling a camera based on processing an image captured by other camera
JP6346018B2 (ja) * 2014-07-18 2018-06-20 国立大学法人静岡大学 眼球計測システム、視線検出システム、眼球計測方法、眼球計測プログラム、視線検出方法、および視線検出プログラム
CN104461005B (zh) * 2014-12-15 2018-01-02 东风汽车公司 一种车载屏幕开关控制方法
WO2016115872A1 (zh) * 2015-01-21 2016-07-28 成都理想境界科技有限公司 双目ar头戴显示设备及其信息显示方法
CN105183169B (zh) * 2015-09-22 2018-09-25 小米科技有限责任公司 视线方向识别方法及装置
US9830708B1 (en) * 2015-10-15 2017-11-28 Snap Inc. Image segmentation of a video stream
CN106123819B (zh) * 2016-06-29 2018-07-24 华中科技大学 一种注意力焦点测量方法
CN106325505B (zh) * 2016-08-17 2019-11-05 传线网络科技(上海)有限公司 基于视点跟踪的控制方法和装置
EP3305176A1 (en) 2016-10-04 2018-04-11 Essilor International Method for determining a geometrical parameter of an eye of a subject
CN106569467A (zh) * 2016-10-29 2017-04-19 深圳智乐信息科技有限公司 基于移动终端选择场景的方法及***
CN106444403A (zh) * 2016-10-29 2017-02-22 深圳智乐信息科技有限公司 一种智能家居场景设置和控制的方法及***
CN106444404A (zh) * 2016-10-29 2017-02-22 深圳智乐信息科技有限公司 一种控制方法及***
WO2018098772A1 (zh) * 2016-12-01 2018-06-07 深圳前海达闼云端智能科技有限公司 视点确定方法、装置、电子设备和计算机程序产品
CN106791794A (zh) * 2016-12-30 2017-05-31 重庆卓美华视光电有限公司 一种显示设备、图像处理方法及装置
CN107392120B (zh) * 2017-07-06 2020-04-14 电子科技大学 一种基于视线估计的注意力智能监督方法
CN109993030A (zh) * 2017-12-29 2019-07-09 上海聚虹光电科技有限公司 基于数据统计的注视点预测模型建立方法
CN108874127A (zh) * 2018-05-30 2018-11-23 北京小度信息科技有限公司 信息交互方法、装置、电子设备及计算机可读存储介质
CN109947253B (zh) * 2019-03-25 2020-06-19 京东方科技集团股份有限公司 眼球追踪的模型建立方法、眼球追踪方法、设备、介质
CN114025674A (zh) * 2019-08-09 2022-02-08 富士胶片株式会社 内窥镜装置、控制方法、控制程序及内窥镜***
CN112445328A (zh) * 2019-09-03 2021-03-05 北京七鑫易维信息技术有限公司 映射控制方法及装置
CN111736698A (zh) * 2020-06-23 2020-10-02 中国人民解放军63919部队 一种手动辅助定位的视线指点方法
CN112434595A (zh) * 2020-11-20 2021-03-02 小米科技(武汉)有限公司 行为识别方法及装置、电子设备、存储介质
CN112541400B (zh) * 2020-11-20 2024-06-21 小米科技(武汉)有限公司 基于视线估计的行为识别方法及装置、电子设备、存储介质
CN112804504B (zh) * 2020-12-31 2022-10-04 成都极米科技股份有限公司 画质调整方法、装置、投影仪及计算机可读存储介质
TWI768704B (zh) * 2021-02-05 2022-06-21 宏碁股份有限公司 計算關注焦點的方法及電腦程式產品
CN113627256B (zh) * 2021-07-09 2023-08-18 武汉大学 基于眨眼同步及双目移动检测的伪造视频检验方法及***
CN117017235A (zh) * 2023-10-09 2023-11-10 湖南爱尔眼视光研究所 一种视觉认知检测方法、装置及设备

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09251342A (ja) * 1996-03-15 1997-09-22 Toshiba Corp 注視箇所推定装置とその方法及びそれを使用した情報表示装置とその方法
US6351273B1 (en) * 1997-04-30 2002-02-26 Jerome H. Lemelson System and methods for controlling automatic scrolling of information on a display or screen
JP3361980B2 (ja) * 1997-12-12 2003-01-07 株式会社東芝 視線検出装置及びその方法
WO1999035633A2 (en) * 1998-01-06 1999-07-15 The Video Mouse Group Human motion following computer mouse and game controller
DE19819961A1 (de) * 1998-05-05 1999-11-11 Dirk Kukulenz Automatische Blickpunktanalyse mit Methoden der Bilderkennung zur Computersteuerung
JP2000089905A (ja) 1998-09-14 2000-03-31 Sony Corp ポインティングデバイス
JP2005253778A (ja) * 2004-03-12 2005-09-22 Gen Tec:Kk 視線検出方法及び同装置
EP1968006B1 (en) * 2005-12-27 2020-03-25 Panasonic Intellectual Property Corporation of America Image processing apparatus
CN101489467B (zh) * 2006-07-14 2011-05-04 松下电器产业株式会社 视线方向检测装置和视线方向检测方法
JP2008129775A (ja) * 2006-11-20 2008-06-05 Ntt Docomo Inc 表示制御装置、表示装置、表示制御方法
CN101311882A (zh) * 2007-05-23 2008-11-26 华为技术有限公司 视线跟踪人机交互方法及装置
JP4991440B2 (ja) * 2007-08-08 2012-08-01 株式会社日立製作所 商品販売装置、商品販売管理システム、商品販売管理方法およびプログラム
CN101419672B (zh) * 2008-12-03 2010-09-08 中国科学院计算技术研究所 一种同步采集人脸图像和注视视角的装置及方法

Also Published As

Publication number Publication date
WO2011038527A1 (zh) 2011-04-07
EP2485118A4 (en) 2014-05-14
EP2485118A1 (en) 2012-08-08
CN102473033B (zh) 2015-05-27
CN102473033A (zh) 2012-05-23
US20120169596A1 (en) 2012-07-05
KR20120080215A (ko) 2012-07-16
JP2013506209A (ja) 2013-02-21
KR101394719B1 (ko) 2014-05-15

Similar Documents

Publication Publication Date Title
JP5474202B2 (ja) 顔検出および画像測定に基づいて注視点を検出する方法および装置
CN108958473B (zh) 眼球追踪方法、电子装置及非暂态电脑可读取记录媒体
US8941587B2 (en) Method and device for gesture recognition diagnostics for device orientation
US8593402B2 (en) Spatial-input-based cursor projection systems and methods
JP4172793B2 (ja) ジェスチャ検出方法、ジェスチャ検出プログラムおよびジェスチャ検出装置
JP5722502B2 (ja) モバイルデバイスのための平面マッピングおよびトラッキング
US7489806B2 (en) Motion detection apparatus
KR20170065573A (ko) 눈 추적 시스템들을 위한 개선된 교정
CN107003744B (zh) 视点确定方法、装置和电子设备
US20140313124A1 (en) Method and apparatus for tracking user's gaze point using mobile terminal
US20210256733A1 (en) Resolving region-of-interest (roi) overlaps for distributed simultaneous localization and mapping (slam) in edge cloud architectures
US10937192B2 (en) Resolving incorrect distributed simultaneous localization and mapping (SLAM) data in edge cloud architectures
JP2017146938A (ja) 書籍検出装置、書籍検出方法及び書籍検出用コンピュータプログラム
JP5600220B2 (ja) 3次元測定装置
Kratz et al. The $3 recognizer: simple 3D gesture recognition on mobile devices
JP2014026670A (ja) 情報処理装置、その処理方法及びプログラム
JP2017084307A (ja) 情報処理装置、その制御方法、プログラム、及び記憶媒体
JP2007212216A (ja) オブジェクト高さ算出装置およびそれを用いたオブジェクト検索装置ならびにオブジェクト高さ算出方法
JP6643825B2 (ja) 装置及び方法
RU2444275C1 (ru) Способ и устройство определения пространственного положения глаз для вычисления линии взгляда
TWI701602B (zh) 臉部辨識裝置
JP6468078B2 (ja) 視線キャリブレーションプログラム、視線キャリブレーション装置、および視線キャリブレーション方法
JP6124863B2 (ja) ポインティング・ジェスチャ位置を認識する方法、コンピュータ、およびコンピュータ・プログラム
WO2017163647A1 (ja) 頭部装着装置
JP7333559B2 (ja) 位置検出システム、位置検出装置、位置検出方法、及びプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130619

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130625

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140204

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees