JP4537901B2

JP4537901B2 - 視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラム

Info

Publication number: JP4537901B2
Application number: JP2005205635A
Authority: JP
Inventors: 康仁澤畠; 一晃小峯; 寿哉森田
Original assignee: NHK Engineering Services Inc; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp; NHK Engineering System Inc
Priority date: 2005-07-14
Filing date: 2005-07-14
Publication date: 2010-09-08
Anticipated expiration: 2025-07-14
Also published as: JP2007025963A

Description

本発明は、表示装置に表示される映像を視認する利用者の視線を測定するための視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラムに関する。

現在、人の視線を測定して、コンピュータの表示装置に表示されるメニュー、アイコン等を、その視線によって選択、操作するインタフェース（視線インタフェース）に関する技術が種々提案されている。このようなインタフェース技術の前提として、視線を測定するための視線測定装置が必要となる。
この視線測定装置としては、眼球に赤外線光を照射し当該眼球を撮影した画像から瞳孔中心と、赤外線光の角膜表面での反射光を示すプルキニエ像とにより視線を測定する技術が開示されている（特許文献１参照）。

一般に、人（利用者）が表示装置の画面上を注視した位置と、視線測定装置が眼球等の動きにより測定した画面上の位置との間には、眼球形状の個人差等に起因する誤差が存在しているため、視線測定装置では、その誤差を補正するため、キャリブレーション（校正）処理を行っている。
このキャリブレーション処理は、利用者が予め画面上の複数のマーカを順次注視し、その注視した位置と、視線測定装置が眼球等の動きにより測定した位置との位置関係からキャリブレーションデータ（校正データ）を生成しておき、そのキャリブレーションデータによって、利用者の視線を補正する処理である。
なお、従来、利用者が最低２点のマーカを注視することで、キャリブレーション処理を行うことが可能な技術が開示されている（非特許文献１参照）。
特開２００３−７９５７７号公報（段落００２７〜００４１、図１）大野健彦、他２名「２点補正による簡易キャリブレーションを実現した視線測定システム」、情報処理学会論文誌Ｖｏｌ．４４Ｎｏ．４ｐｐ．１１３６−１１４９、Ａｐｒ．２００３

しかし、一般に、キャリブレーションデータ（校正データ）は、視線測定装置において、オペレータの操作によって表示装置の画面上に複数のマーカを含んだ映像を表示させ、利用者がオペレータから指示されたマーカを注視したことを、オペレータが会話等で確認しながら、視線の測定を行うことで生成される。すなわち、キャリブレーションデータを生成するには、利用者以外のオペレータが必要となり、コンピュータ操作用のパーソナルなインタフェース環境を実現する際の障害となっている。
なお、利用者が、キーボード等の入力装置を用い、マーカを含んだ映像を画面上に表示させ、注視するマーカの位置を順次変更することで、利用者が一人で視線の測定を行うことは可能である。しかし、注視するマーカの位置を特定する際に視線測定装置の操作を行う必要があるため、入力装置を常に手元に置いておく必要があったり、その操作のために視線を画面から外さなければならなかったりと、キャリブレーションデータの生成に手間がかかるという問題がある。

さらに、従来の視線測定装置は、キャリブレーションデータを生成する際に、複数のマーカを含んだ専用の映像を表示装置に表示させる必要があるため、その準備作業が必要となる。例えば、コンピュータのインタフェースとして視線測定装置を使用する際に、キャリブレーションデータを再度調整したい場合や、コンピュータの利用者が代わるといった場合に、再度準備作業を行わねばならないため、コンピュータを視線インタフェースによって利用するまでに時間がかかってしまうという問題がある。

本発明は、以上のような問題点に鑑みてなされたものであり、オペレータを伴わずに利用者が一人で容易にキャリブレーションを行うことが可能で、さらに、複数のマーカを含んだ専用の映像を用いなくてもキャリブレーションを行うことが可能な視線測定装置および視線測定プログラム、ならびに、視線校正データ生成プログラムを提供することを目的とする。

本発明は、前記目的を達成するために創案されたものであり、まず、請求項１に記載の視線測定装置は、表示装置の画面を視認する利用者の視線を測定する視線測定装置において、キーワード記憶手段と、オブジェクト検出手段と、キーワード登録制御手段と、音声認識手段と、キーワード検出手段と、校正データ生成手段と、視線校正手段とを備える構成とした。

かかる構成において、視線測定装置は、キーワード記憶手段に画面上に表示される映像内の注視対象となるオブジェクトを特定するキーワードを記憶する。そして、視線測定装置は、オブジェクト検出手段によって、映像内からオブジェクトを検出し、その位置を特定する。
なお、視線測定装置は、キーワード登録制御手段によって、オブジェクト検出手段でオブジェクトが検出された段階で、そのオブジェクトに予め設定されているキーワードをキーワード記憶手段に登録する。また、オブジェクトが未検出となった段階で、そのオブジェクトに予め設定されているキーワードのキーワード記憶手段における登録を削除する。
これによって、キーワード記憶手段に登録されているキーワードに対応するオブジェクトのみが現在画面上に表示されていることとなる。

そして、視線測定装置は、音声認識手段によって、利用者が発する音声を認識する。そして、視線測定装置は、キーワード検出手段によって、音声認識手段で認識された認識結果に、キーワードが含まれているか否かを検出する。ここで、視線測定装置は、音声認識結果にキーワードが含まれている場合に、利用者がオブジェクトを注視している状態であるとみなす。
このように、利用者がオブジェクトを注視している状態で、視線測定装置は、校正データ生成手段によって、利用者が注視しているオブジェクトの位置に基づいて、視線を校正する校正データを生成する。そして、視線測定装置は、視線校正手段によって、校正データを参照して、視線を校正する。

さらに、請求項２に記載の視線測定装置は、請求項１に記載の視線測定装置において、前記オブジェクトを特徴付ける特徴量と前記キーワードとを対応付けて記憶するオブジェクト情報記憶手段を備え、前記オブジェクト検出手段が、前記オブジェクト情報記憶手段に記憶されている特徴量に基づいて、前記映像から前記オブジェクトを検出する構成とした。

かかる構成において、視線測定装置は、予めオブジェクト情報記憶手段に、オブジェクトを特徴付ける特徴量とキーワードとを対応付けて記憶しておく。この特徴量は、画像処理によってオブジェクトを認識可能なものであればどのような量であってもよく、例えば、色、形状、明るさ等である。
この特徴量を用いることで、オブジェクト検出手段は、映像内からオブジェクトを検出することが可能になる。

また、請求項３に記載の視線測定装置は、請求項１に記載の視線測定装置において、前記オブジェクト検出手段が、前記オブジェクトの位置と前記キーワードとを前記映像の時間区間に対応付けて記述したメタデータに基づいて、前記オブジェクトを検出する構成とした。

かかる構成において、視線測定装置は、オブジェクト検出手段によって、メタデータを解析することでオブジェクトの検出を行う。このメタデータには、映像内のどの時間区間にオブジェクトがどの位置に表示され、また、そのオブジェクトのキーワードが何であるのかを記述しておく。これによって、オブジェクト検出手段は、ある時間にオブジェクトが画面上のどの位置に表示されているのかを認識することができる。
また、メタデータによって、オブジェクトにキーワードが対応付けられているため、当該オブジェクトの出現に対応して、キーワード登録制御手段が、キーワードの登録または登録の削除を行う。

さらに、請求項４に記載の視線測定プログラムは、表示装置の画面を視認する利用者の視線を測定するために、コンピュータを、基準位置特定手段、オブジェクト検出手段、キーワード登録制御手段、音声認識手段、キーワード検出手段、校正データ生成手段、視線校正手段として機能させる構成とした。

かかる構成において、視線測定プログラムは、基準位置特定手段によって、光を照射された利用者の眼球を含んだ眼球画像から瞳孔中心の位置および角膜反射点の位置を特定する。なお、瞳孔の位置は、利用者がオブジェクトを注視する際の視線によって眼球内で変化するが、角膜反射点は眼球内で変化しないため、眼球内において基準となる位置を示すことになる。
そして、視線測定プログラムは、オブジェクト検出手段によって、画面上に表示される映像内の注視対象となるオブジェクトを映像内から検出する。また、視線測定プログラムは、キーワード登録制御手段によって、オブジェクト検出手段でオブジェクトが検出されるか否かによって、キーワード記憶手段においてオブジェクトを特定するキーワードの登録または登録の削除を行う。

そして、視線測定プログラムは、音声認識手段によって、利用者が発する音声を認識する。そして、視線測定プログラムは、キーワード検出手段によって、音声認識手段で認識された認識結果に、キーワード記憶手段に登録されているキーワードが含まれているか否かを検出する。
さらに、視線測定プログラムは、校正データ生成手段によって、利用者が注視しているオブジェクトの位置により、視線を校正する校正データを生成する。そして、視線測定プログラムは、視線校正手段によって、校正データを参照して、視線を校正する。これによって、実際に利用者が画面を注視する視線を測定することが可能になる。

また、請求項５に記載の視線校正データ生成プログラムは、表示装置の画面を視認する利用者の視線を校正する校正データを生成するために、コンピュータを、基準位置特定手段、オブジェクト検出手段、キーワード登録制御手段、音声認識手段、キーワード検出手段、校正データ生成手段として機能させる構成とした。

かかる構成において、視線校正データ生成プログラムは、基準位置特定手段によって、光を照射された利用者の眼球を含んだ眼球画像から瞳孔中心の位置および角膜反射点の位置を特定する。
そして、視線測定プログラムは、オブジェクト検出手段によって、画面上に表示される映像内の注視対象となるオブジェクトを映像内から検出する。また、視線測定プログラムは、キーワード登録制御手段によって、オブジェクト検出手段でオブジェクトが検出されるか否かによって、キーワード記憶手段においてオブジェクトを特定するキーワードの登録または登録の削除を行う。
そして、視線校正データ生成プログラムは、音声認識手段によって、利用者が発する音声を認識する。そして、視線校正データ生成プログラムは、キーワード検出手段によって、音声認識手段で認識された認識結果に、キーワード記憶手段に登録されているキーワードが含まれているか否かを検出する。
さらに、視線校正データ生成プログラムは、校正データ生成手段によって、利用者が注視しているオブジェクトの位置により、視線を校正する校正データを生成する。この校正データは、視線とオブジェクトの位置がどれだけずれているのかを示す指標である。

本発明は、以下に示す優れた効果を奏するものである。
請求項１または請求項４に記載の発明によれば、利用者が映像内のオブジェクトを注視し、そのオブジェクトに対応するキーワードを発声することで、利用者の視線を校正した視線測定を行うことができる。これによって、本発明は、オペレータを伴わずに利用者が一人で容易に校正（キャリブレーション）を行うことができ、コンピュータ操作用のパーソナルなインタフェース環境を実現することが可能になる。

請求項２に記載の発明によれば、映像内から特徴量に基づいてオブジェクトを検出することができるため、マーカを含んだキャリブレーション専用の映像を用いる必要はなく、そのための準備作業を行う必要もない。このため、利用者は、コンテンツを視認しているときにいつでも校正を行うことができる。また、コンピュータ操作用のパーソナルなインタフェース環境において、利用者が代わる場合であっても、すぐに校正を行うことができ、コンピュータ操作を可能とするまでの時間を短縮することができる。

請求項３に記載の発明によれば、メタデータによって、映像内からオブジェクトを検出することができ、一般的な映像であってもオブジェクトの位置を特定することができる。このため、利用者は、マーカを含んだキャリブレーション専用の映像を画面上に表示させる必要がないため、コンテンツを視認しているときにいつでも校正を行うことができる。また、本発明によれば、メタデータによるテキスト情報によって、オブジェクトの検出を行うため、画像処理等の複雑な処理を行う必要がない。このため、装置にかかる負荷を抑えることができるとともに、高速に視線の測定を行うことができる。

請求項５に記載の発明によれば、利用者が映像内のオブジェクトを注視し、そのオブジェクトの対応するキーワードを発声することで、利用者の視線を校正する校正データを生成することができる。これによって、本発明は、オペレータを伴わずに利用者が一人で容易に校正を行うことができる。

以下、本発明の実施の形態について図面を参照して説明する。
［視線測定装置の概要］
最初に、図１を参照して、本発明に係る視線測定装置の概要について説明する。図１は、本発明に係る視線測定装置の概要を説明するための説明図である。
図１に示すように、視線測定装置１は、表示装置Ｄの画面を利用者Ｈが注視したときの、利用者Ｈの視線を測定するものである。なお、視線測定装置１は、視線測定を行う際のキャリブレーション（校正）を、利用者Ｈの発話によって行うことを特徴とする。

すなわち、視線測定装置１は、表示装置Ｄの画面上に注視の対象となるオブジェクト（注視対象物）を含んだ映像（コンテンツ）を表示させ、利用者ＨがマイクＭを介して発した音声によってどのオブジェクトを注視しているのかを特定し、利用者Ｈの視線をオブジェクトの位置に基づいて校正する。例えば、図１では、視線測定装置１は、表示装置Ｄの画面上にオブジェクトを複数（ここでは、星印、丸印の２つ）表示し、利用者Ｈが「星印」を注視した後、「星で校正」と発話する。そして、視線測定装置１は、利用者Ｈの視線と実際の「星印」の位置との差を解析することで、視線を校正するための校正データを生成する。そして、２点以上のオブジェクトで校正データを生成した後、視線測定装置１は、利用者Ｈの視線を校正データによって逐次校正する。

なお、利用者Ｈの視線は、例えば、強膜反射法、角膜反射法、瞳孔−角膜反射法等の一般的な技術により求めることができ、ここでは、視線測定装置１は、瞳孔−角膜反射法によって、発光手段（ＬＥＤ）Ｌから発光する赤外線が、利用者Ｈの眼球で反射した状態をカメラＣで撮影した画像（眼球画像）から求めることとする。また、視線は、画面上の注視点、あるいは、利用者の眼球の瞳孔から画面上の注視点へのベクトル（視線ベクトル）であってもよいが、以降の説明では、注視点を示すこととする。
以下、視線測定装置１の具体的な構成および動作について説明を行う。

［視線測定装置の構成］
まず、図２を参照（適宜図１参照）して、視線測定装置の具体的な構成について説明する。図２は、本発明に係る視線測定装置の構成を示すブロック図である。
図２に示すように、視線測定装置１は、音声認識手段１１と、キーワード記憶手段１２と、キーワード検出手段１３と、コンテンツ入力手段１４と、コンテンツ出力手段１５と、オブジェクト情報記憶手段１６と、オブジェクト検出手段１７と、キーワード登録制御手段１８と、基準位置特定手段１９と、校正データ生成手段２０と、校正データ記憶手段２１と、視線算出手段２２と、視線校正手段２３とを備えている。なお、視線測定装置１には、利用者の音声を入力する音声入力手段としてのマイクＭと、利用者の眼球画像を撮影する撮影手段としての発光手段ＬとカメラＣとが接続されている。

音声認識手段１１は、利用者が発する音声を、マイクＭにより入力して認識するものである。この音声認識手段１１は、一般的な音声認識技術を用いることができる。例えば、音声認識手段１１は、入力された音声信号をＡ／Ｄ変換し、ＬＰＣ（線形予測）法等により音声分析を行うことで、音声信号から音響的特徴パラメータを抽出する。そして、音声認識手段１１は、時系列の音響的特徴パラメータを、隠れマルコフモデル（ＨＭＭ：Hidden Markov Model）によりモデル化し、統計的言語モデル（Ｎグラムモデル等）を参照することで、音声を文字列である音声データに変換する。この音声認識手段１１で認識された音声データは、キーワード検出手段１３に出力される。

キーワード記憶手段１２は、表示装置Ｄの画面上に表示されるコンテンツ（映像）内に含まれる注視対象となるオブジェクトを特定するためのキーワードを記憶するものであって、ＲＡＭ（Random Access Memory）等の一般的な記憶手段である。このキーワード記憶手段１２は、表示装置Ｄの画面上に表示されるコンテンツ（映像）内に、オブジェクトが表示されている間、そのオブジェクトに対応するキーワードのみを記憶する。なお、このキーワードは、後記するキーワード登録制御手段１８によって、登録（記録）され、または、その登録が削除される。
なお、キーワード記憶手段１２には、オブジェクトを直接特定するキーワード以外に、オブジェクトを検索するための方向を特定するキーワードを予め記憶しておくこととしてもよい。例えば、「上」、「下」、「左」、「右」等である。

キーワード検出手段１３は、音声認識手段１１で認識された音声データが、キーワード記憶手段１２に記憶されているか否かを検出するものである。このキーワード検出手段１３は、キーワード記憶手段１２に音声データがキーワードとして記憶されていることを検出した場合は、その旨をキーワード検出通知として、オブジェクト検出手段１７に出力する。
なお、キーワード検出手段１３は、音声データに含まれる名詞または名詞句がキーワードと同一であるか否かでキーワードを検出することが望ましい。例えば、利用者が発声した「星で校正」という音声である場合、名詞である「星」がキーワード記憶手段１２に記憶されているか否かを検出する。

また、キーワード記憶手段１２に方向を示すキーワードを記憶している場合、キーワード検出手段１３は、例えば、利用者が「右の星で校正」と発声することで、当該音声に含まれるキーワードである「右」および「星」を検出する。そして、方向を示すキーワードが検出された場合、キーワード検出手段１３は、キーワード検出通知に方向を示す情報を付加して、オブジェクト検出手段１７に出力する。

コンテンツ入力手段１４は、外部からコンテンツを映像のストリームデータとして入力し、オブジェクト検出手段１７に出力するものである。
コンテンツ出力手段１５は、オブジェクト検出手段１７から出力されるコンテンツを外部（表示装置Ｄ）に出力するものである。
なお、コンテンツ入力手段１４に入力されるコンテンツが、当該視線測定装置１に入力される前段で、すでに表示装置Ｄに分岐されている場合は、コンテンツ出力手段１５を構成から省略することができる。

オブジェクト情報記憶手段１６は、オブジェクトを特徴付ける特徴量とキーワードとを予め対応付け、オブジェクト情報として記憶するものであって、ハードディスク等の一般的な記憶手段である。
この特徴量は、一般的な映像の特徴量を用いることができる。例えば、オブジェクトの色に特徴がある場合は、オブジェクト領域内の各画素の色ベクトルを平均化した平均色ベクトル等、オブジェクトの形状に特徴がある場合は、オブジェクトを囲む外接矩形の面積等である。

オブジェクト検出手段１７は、オブジェクト情報記憶手段１６に記憶されているオブジェクトごとの特徴量に基づいて、コンテンツ入力手段１４から入力されたコンテンツにおいてオブジェクトを検出するものである。なお、オブジェクト検出手段１７は、図示を省略したメモリを備え、コンテンツをフレームごとに記憶し、このフレーム単位でオブジェクトを検出する。
また、オブジェクト検出手段１７は、コンテンツからオブジェクトを検出した段階で、その旨をオブジェクト検出通知としてキーワード登録制御手段１８に出力し、その後、オブジェクトが検出されなくなった段階で、その旨をオブジェクト非検出通知としてキーワード登録制御手段１８に出力する。

なお、オブジェクト検出手段１７は、図示を省略したメモリに、オブジェクトを検出したか否かを示す状態を内部状態として記憶しておくこととする。このように、状態を記憶しておくことで、オブジェクト検出手段１７は、オブジェクトの検出と未検出との状態変化を認識することができる。

さらに、オブジェクト検出手段１７は、キーワード検出手段１３から、キーワード検出通知を入力された段階で、すなわち、利用者が、キーワードを発声した段階で、検出したキーワードに対応するオブジェクトの位置を校正データ生成手段２０に出力する。
なお、オブジェクト検出手段１７は、キーワード検出手段１３から、方向を示す情報が通知された場合は、複数のオブジェクトの中から、当該方向に該当するオブジェクトを検出することとする。例えば、キーワードとして「右」が発声された場合、オブジェクト検出手段１７は、複数のオブジェクトの中から、画面の座標系をＸＹ座標としたときのＸ座標が最大値となるオブジェクトを注視対象のオブジェクトとして検出する。

キーワード登録制御手段１８は、オブジェクト検出手段１７でオブジェクトが検出されるか否かによって、キーワード記憶手段１２にキーワードを登録したり、キーワード記憶手段１２からキーワードを削除したりするものである。
すなわち、キーワード登録制御手段１８は、オブジェクト検出手段１７からオブジェクト検出通知が入力された段階で、オブジェクト情報記憶手段１６に記憶されている当該オブジェクトに対応するキーワードを読み出して、キーワード記憶手段１２に登録（記録）する。また、キーワード登録制御手段１８は、オブジェクト検出手段１７からオブジェクト非検出通知が入力された段階で、当該オブジェクトに対応するキーワードをキーワード記憶手段１２から削除する。
これによって、表示装置Ｄの画面上にキーワードの対象となるオブジェクトが表示されている間だけ、キーワードがキーワード記憶手段１２に記憶されることになる。

基準位置特定手段１９は、カメラＣで撮影された眼球画像から瞳孔中心の位置および特定の基準位置を特定するものである。なお、眼球画像は、赤外線光を発光する発光手段（ＬＥＤ）Ｌによって、赤外線光が照射された利用者の眼球を撮影した画像である。また、ここでは、眼球の角膜表面で反射した光として眼球画像上に表れる角膜反射像（プルキニエ像）の中心を、特定の基準位置とする。

この基準位置特定手段１９は、一般的な画像処理技術により、眼球画像から瞳孔中心と角膜反射点とを特定する。例えば、基準位置特定手段１９は、瞳孔が他の領域よりも輝度が低い領域を探索することで瞳孔を検出し、その中心（重心）を瞳孔中心とする。また、基準位置特定手段１９は、瞳孔中心から所定範囲内（例えば、眼球の虹彩内）で、他の領域よりも輝度が高い領域を探索することで角膜反射像を探索し、その中心（重心）を角膜反射点とする。
なお、基準位置特定手段１９で特定された瞳孔中心および角膜反射点は、校正データ生成手段２０および視線算出手段２２に出力される。

校正データ生成手段２０は、オブジェクト検出手段１７で検出されたオブジェクトの位置と、基準位置特定手段１９で特定された瞳孔中心および角膜反射点とを対応付けることで、視線（注視点）を校正する校正データを生成するものである。
すなわち、校正データ生成手段２０は、利用者が画面上のオブジェクトの位置を注視していると仮定したときの、瞳孔中心と角膜反射点との差を校正データ（キャリブレーションデータ）として算出（生成）する。

ここで、図３を参照して、校正データについて説明する。図３は、校正データを説明するための説明図である。
図３に示すように、表示装置Ｄの画面上において、オブジェクトＯがＸＹ座標系において座標Ｐ（Ｘ₁，Ｙ₁）の位置に表示されているとする。このとき、このオブジェクトＯを注視している利用者の眼球画像Ｇのｘｙ座標系において、瞳孔中心Ｑと角膜反射点Ｒとの差が、ｘ座標でｘ₁、ｙ座標でｙ₁であったとする。
このとき、座標Ｐ（Ｘ₁，Ｙ₁）と、瞳孔中心Ｑと角膜反射点Ｒとの差の対（ｘ₁，ｙ₁）とを対応付ける。この対応付けをオブジェクトＯの異なる２点以上で行うことで、校正データが生成されることになる。
図２に戻って、視線測定装置１の構成について説明を続ける。

校正データ記憶手段２１は、校正データ生成手段２０で生成された校正データを記憶するものであって、半導体メモリ等の一般的な記憶手段である。なお、校正データ記憶手段２１は、ＦＩＦＯ（First In First Out）バッファとし、予め定めた回数の校正データのみを記憶することとする。例えば、バッファ長を“３”とした場合は、３回分の校正データのみが記憶され、さらに校正データを記憶する場合は、最も古い校正データは削除することとする。これによって、誤った校正データが記憶された場合であっても、再度校正をやり直すことで、正しい校正データが記憶されることになる。この校正データ記憶手段２１に記憶された校正データは、後記する視線校正手段２３によって参照される。

視線算出手段２２は、基準位置特定手段１９で特定された瞳孔中心および角膜反射点と、カメラパラメータ（焦点位置、カメラ位置、パン角、チルト角等）とに基づいて、表示装置Ｄの画面に対する視線である利用者の注視点を算出するものである。なお、注視点は、例えば、眼球画像内の瞳孔中心および角膜反射点から、カメラパラメータに基づいて、眼球中心から視線方向を示す視線ベクトルを求め、その視線ベクトルを既知の位置に配置されている表示装置Ｄの画面に射影することで求めることができる。
この視線算出手段２２で算出された注視点である視線データは、視線校正手段２３に出力される。

視線校正手段２３は、視線算出手段２２で算出された視線データ（注視点）を、校正データ記憶手段２１に記憶されている校正データに基づいて校正（補正）するものである。

ここで、図４を参照（構成については、適宜図２参照）して、視線校正手段２３における視線データの校正方法について説明する。図４は、視線データの校正方法を説明するための説明図である。
ここでは、ある任意の注視点の座標ｐ（ｘ，ｙ）を、３点（Ｐ₁、Ｐ₂、Ｐ₃）分の校正データに基づいて、座標Ｐ（Ｘ，Ｙ）に校正する方法について説明する。
なお、校正データとして、座標Ｐ₁（Ｘ₁，Ｙ₁）に瞳孔中心と角膜反射点との差の対（ｘ₁，ｙ₁）が対応付けられているものとする。同様に、座標Ｐ₂（Ｘ₂，Ｙ₂）には（ｘ₂，ｙ₂）、座標Ｐ₃（Ｘ₃，Ｙ₃）には（ｘ₃，ｙ₃）がそれぞれ対応付けられているものとする。

このとき、視線校正手段２３は、座標ＰのＸ座標を算出する場合、瞳孔中心と角膜反射点とのＸ軸方向の差が大きいものから順に２点の校正データを使用し、座標ＰのＹ座標を算出する場合、瞳孔中心と角膜反射点とのＹ軸方向の差が大きいものから順に２点の校正データを使用する。
ここでは、Ｘ軸方向の差が大きい順にｘ₃、ｘ₁、ｘ₂（ｘ₃＞ｘ₁＞ｘ₂）であるものとし、Ｘ軸方向の校正については、座標Ｐ₁および座標Ｐ₃における校正データを使用することとする。また、ここでは、Ｙ軸方向の差が大きい順にｙ₁、ｙ₂、ｙ₃（ｙ₁＞ｙ₂＞ｙ₃）であるものとし、Ｙ軸方向の校正については、座標Ｐ₁および座標Ｐ₂における校正データを使用することとする。
具体的には、視線校正手段２３は、任意の注視点の座標ｐ（ｘ，ｙ）を、以下の式（１）により、座標Ｐ（Ｘ，Ｙ）に校正する。

なお、ここでは、３点の校正データのうち、Ｘ軸方向およびＹ軸方向でそれぞれ異なる２点によって校正を行ったが、２点の校正データのみで校正を行うことも可能である。すなわち、校正データは少なくとも２点以上あればよい。

以上、視線測定装置１の構成について説明したが、本発明はこの構成に限定されるものではない。
例えば、予めオブジェクトの位置とキーワードとを時間区間に対応付けて記述したメタデータが付加されたコンテンツを用い、オブジェクト検出手段１７が、当該メタデータを解析することで、ある時間にどのオブジェクトが表示装置Ｄに表示されているのかを認識することで、オブジェクトの検出を行うこととしてもよい。

この場合、オブジェクト検出手段１７は、メタデータによってオブジェクトを検出した段階で、同じくメタデータで当該オブジェクトに対応付けられているキーワードを、オブジェクト検出通知とともに、キーワード登録制御手段１８に出力する。また、オブジェクト検出手段１７は、メタデータによってオブジェクトが検出されなくなった段階で、当該オブジェクトに対応付けられているキーワードを、オブジェクト非検出通知とともに、キーワード登録制御手段１８に出力する。

また、この場合、オブジェクト検出手段１７は、キーワード検出手段１３からキーワード検出通知が入力された段階で、メタデータに記述されているオブジェクトの位置を校正データ生成手段２０に出力する。
これによって、視線測定装置１の構成からオブジェクト情報記憶手段１６を省略することができる。また、例えば、放送局からメタデータが付加されたコンテンツが送信されることで、利用者は、一般的な映像コンテンツを視聴しながら、視線の校正を行うことができ、当該視線測定装置１を組み込んだテレビ受像機において、視線により操作を行うことが可能になる。

また、視線測定装置１は、入力されるコンテンツからオブジェクトを抽出することとしたが、予めオブジェクトが表示される位置が既知のコンテンツを使用する場合は、図７に示すように、構成を簡略化した視線測定装置１Ｂとしてもよい。
なお、図７に示した視線測定装置１Ｂのキーワード記憶手段１２Ｂには、コンテンツに含まれるオブジェクトの位置やキーワードが予め記憶されているものであって、ハードディスク等の一般的な記憶手段である。他の構成については、視線測定装置１と同じものであるため、同一の符号を付し、説明を省略する。

また、視線測定装置１は、一般的なコンピュータを、前記した各手段として機能させるプログラム（視線測定プログラム）で実現することができる。なお、校正データを生成するまでの手順をコンピュータに機能させる視線校正データ生成プログラムとすることも可能である。これらのプログラム（視線測定プログラム、視線校正データ生成プログラム）は、通信回線を介して配布することも可能であるし、ＣＤ−ＲＯＭ等の記録媒体に書き込んで配布することも可能である。
以上説明したように、視線測定装置１は、オペレータを伴わずに、利用者の音声によって視線のキャリブレーションを行うことができ、また、複数のマーカを含んだ専用の映像を用いなくてもキャリブレーションを行うことができる。

［視線測定装置の動作］
次に、図５および図６を参照して、視線測定装置の動作について説明する。図５は、本発明に係る視線測定装置における校正データを生成する動作を示すフローチャートである。図６は、本発明に係る視線測定装置における視線を校正（補正）した視線データを生成する動作を示すフローチャートである。

（校正データ生成動作）
最初に、図５を参照（構成については、適宜図２参照）して、視線測定装置１の校正データを生成する動作について説明する。
まず、視線測定装置１は、コンテンツ入力手段１４によって、外部からコンテンツ（映像）を入力する（ステップＳ１）。
そして、視線測定装置１は、オブジェクト検出手段１７によって、オブジェクト情報記憶手段１６に記憶されている特徴量に基づいて、コンテンツからオブジェクトの検出を行う（ステップＳ２）。なお、オブジェクト検出手段１７は、内部状態を、予めオブジェクトを検出していない「未検出状態」としておく。

ここで、視線測定装置１は、オブジェクト検出手段１７によって、オブジェクトの検出に成功したか否かを判定する（ステップＳ３）。そして、オブジェクトの検出に成功した場合（ステップＳ３でＹｅｓ）、視線測定装置１は、キーワード登録制御手段１８によって、検出したオブジェクトに対応するキーワードをオブジェクト情報記憶手段１６から読み出して、キーワード記憶手段１２に登録（記録）し（ステップＳ４）、ステップＳ７に進む。この段階で、オブジェクト検出手段１７は、内部状態をオブジェクトが検出された状態を示す「検出状態」とする。なお、ステップＳ４において、直前（前フレーム）まで同じオブジェクトが検出されていた場合は、すでにキーワード記憶手段１２に当該オブジェクトのキーワードが登録されているため、そのままステップＳ７に進むこととする（図示せず）。

一方、オブジェクトの検出に成功しなかった場合（ステップＳ３でＮｏ）、さらに、視線測定装置１は、オブジェクト検出手段１７によって、内部状態により、直前（前フレーム）までオブジェクトが検出されていたかどうかを判定する（ステップＳ５）。そして、直前までオブジェクトが検出されていた場合（ステップＳ５でＹｅｓ）、視線測定装置１は、キーワード登録制御手段１８によって、未検出となったオブジェクトに対応するキーワードをキーワード記憶手段１２から削除し（ステップＳ６）、ステップＳ１に戻って動作を継続する。
一方、未検出状態が継続されている場合（ステップＳ５でＮｏ）、視線測定装置１は、そのままステップＳ１に戻って動作を継続する。

また、視線測定装置１は、音声認識手段１１によって、利用者が発する音声を、マイクＭにより入力して認識する（ステップＳ７）。
そして、視線測定装置１は、キーワード検出手段１３によって、ステップＳ７で認識された音声データが、キーワード記憶手段１２にキーワードとして記憶されているか否か、すなわち、キーワードが発声されたか否かを判定する（ステップＳ８）。

ここで、音声データがキーワードとして記憶されていない場合（ステップＳ８でＮｏ）、視線測定装置１は、ステップＳ１に戻って動作を継続する。
一方、音声データがキーワードとして記憶されている場合（ステップＳ８でＹｅｓ）、視線測定装置１は、オブジェクト検出手段１７によって、検出したキーワードに対応するオブジェクトの位置を特定する（ステップＳ９）。

また、視線測定装置１は、基準位置特定手段１９によって、カメラＣで撮影された眼球画像を入力し（ステップＳ１０）、その眼球画像から瞳孔中心および角膜反射点を特定する（ステップＳ１１）。
そして、視線測定装置１は、校正データ生成手段２０によって、ステップＳ９で特定されたオブジェクトの位置と、ステップＳ１１で特定された瞳孔中心および角膜反射点とにより、校正データを生成（算出）し、校正データ記憶手段２１に記憶する（ステップＳ１２）。

そして、視線測定装置１は、ステップＳ１に戻って、コンテンツが入力される間、オブジェクトの検出、ならびに、キーワードの検出動作を継続する。
これによって、利用者がオブジェクトを注視し、オブジェクトのキーワードを発声することで、校正データ記憶手段２１には校正データが記憶されることになる。なお、本動作が、視線校正データ生成プログラムの動作に相当する。

（視線データ生成動作）
次に、図６を参照（構成については、適宜図２参照）して、視線測定装置１の視線を校正した視線データを生成する動作について説明する。
まず、視線測定装置１は、基準位置特定手段１９によって、カメラＣで撮影された眼球画像を入力し（ステップＳ２１）、その眼球画像から瞳孔中心および角膜反射点を特定する（ステップＳ２２）。

そして、視線測定装置１は、視線算出手段２２によって、ステップＳ２２で特定された瞳孔中心および角膜反射点と、カメラＣから入力されるカメラパラメータ（焦点位置、カメラ位置、パン角、チルト角等）とに基づいて、表示装置の画面に対する視線（視線データ）である利用者の注視点を算出する（ステップＳ２３）。
そして、視線測定装置１は、視線校正手段２３によって、ステップＳ２３で算出された視線（注視点）を、校正データ記憶手段２１に記憶されている校正データに基づいて校正（補正）し（ステップＳ２４）、視線データとして出力する（ステップＳ２５）。
このように、視線測定装置１は、逐次、利用者の視線をキャリブレーションした視線データを生成し、出力する。
以上説明した動作によって、利用者はキーワードを発声するだけの簡単な操作でキャリブレーションを行うことができる。また、キャリブレーション用の専用の映像を使用しないため、利用者はコンテンツを視聴している好きなタイミングで、キャリブレーションを行うことができる。
なお、前記した校正データを生成する動作（図５）と、本動作（図６）とを合わせた動作が、視線測定プログラムの動作に相当する。

本発明に係る視線測定装置の概要を説明するための説明図である。本発明に係る視線測定装置の構成を示すブロック図である。本発明に係る視線測定装置における校正データを説明するための説明図である。本発明に係る視線測定装置における視線データの校正方法を説明するための説明図である。本発明に係る視線測定装置における校正データを生成する動作を示すフローチャートである。本発明に係る視線測定装置における視線を校正（補正）した視線データを生成する動作を示すフローチャートである。本発明に係る視線測定装置の他の構成を示すブロック図である。

符号の説明

１視線測定装置
１１音声認識手段
１２キーワード記憶手段
１３キーワード検出手段
１４コンテンツ入力手段
１５コンテンツ出力手段
１６オブジェクト情報記憶手段
１７オブジェクト検出手段
１８キーワード登録制御手段
１９基準位置特定手段
２０校正データ生成手段
２１校正データ記憶手段
２２視線算出手段
２３視線校正手段

Claims

表示装置の画面を視認する利用者の視線を測定する視線測定装置において、
前記画面上に表示される映像内の注視対象となるオブジェクトを特定するキーワードを記憶するキーワード記憶手段と、
前記映像内から前記オブジェクトを検出するオブジェクト検出手段と、
このオブジェクト検出手段で前記オブジェクトが検出されるか否かによって、前記キーワード記憶手段に記憶されているキーワードの登録または登録の削除を行うキーワード登録制御手段と、
前記利用者が発する音声を認識する音声認識手段と、
この音声認識手段で認識された認識結果に、前記キーワード記憶手段に登録されているキーワードが含まれているか否かを検出するキーワード検出手段と、
このキーワード検出手段でキーワードが検出された段階で、前記オブジェクト検出手段で検出されたオブジェクトの位置に基づいて、前記視線を校正するための校正データを生成する校正データ生成手段と、
この校正データ生成手段で生成された校正データに基づいて、前記視線を校正する視線校正手段と、
を備えていることを特徴とする視線測定装置。
前記オブジェクトを特徴付ける特徴量と前記キーワードとを対応付けて記憶するオブジェクト情報記憶手段を備え、
前記オブジェクト検出手段は、前記オブジェクト情報記憶手段に記憶されている特徴量に基づいて、前記映像から前記オブジェクトを検出することを特徴とする請求項１に記載の視線測定装置。
前記オブジェクト検出手段は、前記オブジェクトの位置と前記キーワードとを前記映像の時間区間に対応付けて記述したメタデータに基づいて、前記オブジェクトを検出することを特徴とする請求項１に記載の視線測定装置。
表示装置の画面を視認する利用者の視線を測定するために、コンピュータを、
光を照射された前記利用者の眼球を含んだ眼球画像から瞳孔中心の位置および角膜反射点の位置を特定する基準位置特定手段、
前記画面上に表示される映像内の注視対象となるオブジェクトを前記映像内から検出するオブジェクト検出手段、
このオブジェクト検出手段で前記オブジェクトが検出されるか否かによって、キーワード記憶手段において前記オブジェクトを特定するキーワードの登録または登録の削除を行うキーワード登録制御手段、
前記利用者が発する音声を認識する音声認識手段、
この音声認識手段で認識された認識結果に、前記キーワード記憶手段に登録されているキーワードが含まれているか否かを検出するキーワード検出手段、
このキーワード検出手段でキーワードが検出された段階で、前記瞳孔中心の位置および前記角膜反射点の位置と前記オブジェクトの位置とに基づいて、前記視線を校正する校正データを生成する校正データ生成手段、
この校正データ生成手段で生成された校正データに基づいて、前記視線を校正する視線校正手段、
として機能させることを特徴とする視線測定プログラム。
表示装置の画面を視認する利用者の視線を校正する校正データを生成するために、コンピュータを、
光を照射された前記利用者の眼球を含んだ眼球画像から瞳孔中心の位置および角膜反射点の位置を特定する基準位置特定手段、
前記画面上に表示される映像内の注視対象となるオブジェクトを前記映像内から検出するオブジェクト検出手段、
このオブジェクト検出手段で前記オブジェクトが検出されるか否かによって、キーワード記憶手段において前記オブジェクトを特定するキーワードの登録または登録の削除を行うキーワード登録制御手段、
前記利用者が発する音声を認識する音声認識手段、
この音声認識手段で認識された認識結果に、前記キーワード記憶手段に登録されているキーワードが含まれているか否かを検出するキーワード検出手段、
このキーワード検出手段でキーワードが検出された段階で、前記瞳孔中心の位置および前記角膜反射点の位置と前記オブジェクトの位置とに基づいて、前記視線を校正する校正データを生成する校正データ生成手段、
として機能させることを特徴とする視線校正データ生成プログラム。